powered by simpleCommunicator - 2.0.50     © 2025 Programmizd 02
Форумы / XML, XSL, XPath, XQuery [игнор отключен] [закрыт для гостей] / Новый парсер HTML для .Net
10 сообщений из 10, страница 1 из 1
Новый парсер HTML для .Net
    #38037760
Jovanny
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
http://www.ssa-outsourcing.com/products/xparser/

Корректно обрабатывает атрибуты без кавычек, незакрытые теги и т.п.
Будем рады замечаниям и предложениям.
...
Рейтинг: 0 / 0
Новый парсер HTML для .Net
    #38037848
Фотография Antonariy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
И что, что новый? Меня старый устраивает на 146%.
Где список азартных игрищ и ветрениц, которыми он отличается от стандартного? Где красивые графики сравнения производительности?

Просто так тестировать вашу поделку нет интереса.
...
Рейтинг: 0 / 0
Новый парсер HTML для .Net
    #38037876
Jovanny
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Antonariy,

А какой старый, если не секрет? Я в своё время более подходящего, чем SgmlReader, не нашёл.
Но и тот напрямую в XDocument парсить не мог, приходилось заливать через XmlDocument.
...
Рейтинг: 0 / 0
Новый парсер HTML для .Net
    #38038302
Фотография Antonariy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Чью-то допиленную самоделку, разбирающую текст в простой массив тегов :)
Большего мне не требовалось.
...
Рейтинг: 0 / 0
Новый парсер HTML для .Net
    #38038466
Фотография _Vasilisk_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я стесняюсь спросить, чем mshtml не угодил?
...
Рейтинг: 0 / 0
Новый парсер HTML для .Net
    #38038503
Фотография Antonariy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_Vasilisk_Я стесняюсь спросить, чем mshtml не угодил?Лично мне он не угодил например тем, что считал своим долгом из <table><td></td></table> сделать <table><tbody><tr><td></td></tr></tbody></table>. Или при использовании document.write переколбасить относительные ссылки, напихав в них about:blank default.aspx.
...
Рейтинг: 0 / 0
Новый парсер HTML для .Net
    #38038602
Jovanny
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_Vasilisk_Я стесняюсь спросить, чем mshtml не угодил?

Не поддерживает XPath, а если сайт содержит фреймы или контент заполняется JavaScript'ами, так вообще извлечь конкретные данные из сайта часто бывает просто невозможно. Кроме того, привязан к WinForms.
...
Рейтинг: 0 / 0
Новый парсер HTML для .Net
    #38038662
Фотография Antonariy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
JovannyНе поддерживает XPath
Зато поддерживает querySelector , он немногим уступает xpath. А может и не уступает.
Jovanny а если сайт содержит фреймы или контент заполняется JavaScript'ами, так вообще извлечь конкретные данные из сайта часто бывает просто невозможноИфреймы не проверял, но можно js интерпретировать и извлечь сенеренные им данные.
JovannyКроме того, привязан к WinForms.А это вообще не соответствует действительности. MSHTML является неотъемлемой частью системы на равных с WinForms. Даже более того, WinForms уйдет, а MSHTML останется.
...
Рейтинг: 0 / 0
Новый парсер HTML для .Net
    #38038665
Фотография Antonariy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
AntonariyJovanny а если сайт содержит фреймы или контент заполняется JavaScript'ами, так вообще извлечь конкретные данные из сайта часто бывает просто невозможноИфреймы не проверял, но можно js интерпретировать и извлечь сенеренные им данные.Кстати, сомневаюсь, что ваш парсер это умеет.
...
Рейтинг: 0 / 0
Новый парсер HTML для .Net
    #38038702
Jovanny
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
AntonariyКстати, сомневаюсь, что ваш парсер это умеет.
Нет, конечно, но там как параметр можно использовать HttpWebRequest, или просто использовать текст, который он возвращает.
А HttpWebRequest имеет кучу настроек.
...
Рейтинг: 0 / 0
10 сообщений из 10, страница 1 из 1
Форумы / XML, XSL, XPath, XQuery [игнор отключен] [закрыт для гостей] / Новый парсер HTML для .Net
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]