|
Новый парсер HTML для .Net
|
|||
---|---|---|---|
#18+
http://www.ssa-outsourcing.com/products/xparser/ Корректно обрабатывает атрибуты без кавычек, незакрытые теги и т.п. Будем рады замечаниям и предложениям. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2012, 12:56 |
|
Новый парсер HTML для .Net
|
|||
---|---|---|---|
#18+
И что, что новый? Меня старый устраивает на 146%. Где список азартных игрищ и ветрениц, которыми он отличается от стандартного? Где красивые графики сравнения производительности? Просто так тестировать вашу поделку нет интереса. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2012, 13:36 |
|
Новый парсер HTML для .Net
|
|||
---|---|---|---|
#18+
Antonariy, А какой старый, если не секрет? Я в своё время более подходящего, чем SgmlReader, не нашёл. Но и тот напрямую в XDocument парсить не мог, приходилось заливать через XmlDocument. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2012, 13:43 |
|
Новый парсер HTML для .Net
|
|||
---|---|---|---|
#18+
Чью-то допиленную самоделку, разбирающую текст в простой массив тегов :) Большего мне не требовалось. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2012, 16:13 |
|
Новый парсер HTML для .Net
|
|||
---|---|---|---|
#18+
Я стесняюсь спросить, чем mshtml не угодил? ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2012, 17:28 |
|
Новый парсер HTML для .Net
|
|||
---|---|---|---|
#18+
_Vasilisk_Я стесняюсь спросить, чем mshtml не угодил?Лично мне он не угодил например тем, что считал своим долгом из <table><td></td></table> сделать <table><tbody><tr><td></td></tr></tbody></table>. Или при использовании document.write переколбасить относительные ссылки, напихав в них about:blank default.aspx. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2012, 17:41 |
|
Новый парсер HTML для .Net
|
|||
---|---|---|---|
#18+
_Vasilisk_Я стесняюсь спросить, чем mshtml не угодил? Не поддерживает XPath, а если сайт содержит фреймы или контент заполняется JavaScript'ами, так вообще извлечь конкретные данные из сайта часто бывает просто невозможно. Кроме того, привязан к WinForms. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2012, 18:34 |
|
Новый парсер HTML для .Net
|
|||
---|---|---|---|
#18+
JovannyНе поддерживает XPath Зато поддерживает querySelector , он немногим уступает xpath. А может и не уступает. Jovanny а если сайт содержит фреймы или контент заполняется JavaScript'ами, так вообще извлечь конкретные данные из сайта часто бывает просто невозможноИфреймы не проверял, но можно js интерпретировать и извлечь сенеренные им данные. JovannyКроме того, привязан к WinForms.А это вообще не соответствует действительности. MSHTML является неотъемлемой частью системы на равных с WinForms. Даже более того, WinForms уйдет, а MSHTML останется. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2012, 19:17 |
|
Новый парсер HTML для .Net
|
|||
---|---|---|---|
#18+
AntonariyJovanny а если сайт содержит фреймы или контент заполняется JavaScript'ами, так вообще извлечь конкретные данные из сайта часто бывает просто невозможноИфреймы не проверял, но можно js интерпретировать и извлечь сенеренные им данные.Кстати, сомневаюсь, что ваш парсер это умеет. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2012, 19:19 |
|
Новый парсер HTML для .Net
|
|||
---|---|---|---|
#18+
AntonariyКстати, сомневаюсь, что ваш парсер это умеет. Нет, конечно, но там как параметр можно использовать HttpWebRequest, или просто использовать текст, который он возвращает. А HttpWebRequest имеет кучу настроек. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.11.2012, 19:41 |
|
|
start [/forum/topic.php?fid=14&fpage=20&tid=1332618]: |
0ms |
get settings: |
9ms |
get forum list: |
16ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
39ms |
get topic data: |
14ms |
get forum data: |
3ms |
get page messages: |
53ms |
get tp. blocked users: |
1ms |
others: | 242ms |
total: | 383ms |
0 / 0 |