|
хочу странного от xpath и парсинга html
|
|||
---|---|---|---|
#18+
Допустим, есть такой не особо валидный xhtml : Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23.
информация, которая мне нужна - допустим, слово "world" или весь текст,но не внутри <div> - это "украшения". Каким образом написать такое выражение, которое это слово достанет? вопроса на самом деле два : 1. непонятно как адресовать текст в общем случае между незакрытыми одиночными тегами типа <br> 2. задачу получения информации более-менее облегчила бы возможность выдернуть текст внутри таблицы /html/body/table/tbody/tr/td , но не заходя в <div> я использую perl-реализацию xpath и dom-парсинга. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2011, 14:20 |
|
хочу странного от xpath и парсинга html
|
|||
---|---|---|---|
#18+
netwind, К невалидному XML невозможно применить ни XPath, ни XSL ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2011, 14:31 |
|
хочу странного от xpath и парсинга html
|
|||
---|---|---|---|
#18+
refreg, но в большинстве случаев это получается весьма успешно. dom-парсер сам закрывает теги и тд. Хотя бы частично можно облегчить эти задачи? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2011, 14:33 |
|
хочу странного от xpath и парсинга html
|
|||
---|---|---|---|
#18+
netwindrefreg, но в большинстве случаев это получается весьма успешно. dom-парсер сам закрывает теги и тд. Хотя бы частично можно облегчить эти задачи?Пример такого парсера? Браузер не в счет... В твоем примере, надо просто <br> на <br/> заменить - и будет валидный XML ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2011, 14:41 |
|
хочу странного от xpath и парсинга html
|
|||
---|---|---|---|
#18+
refreg, ну вот 9902487 . там если не закрыть, то все равно все отлично спарсится. это фокус такой для анализа html и довольно старый. xpath туда прикрутили потом. Окей, допустим единичный тег преобразуем : Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8.
... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2011, 14:47 |
|
хочу странного от xpath и парсинга html
|
|||
---|---|---|---|
#18+
netwindкак должно выглядеть выражение xpath, которое достанет одно конкретное четвертое по порядку слово?//body/text()[3] ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2011, 14:59 |
|
хочу странного от xpath и парсинга html
|
|||
---|---|---|---|
#18+
Еще так можно, смотря какая задача Код: plaintext
... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2011, 15:05 |
|
хочу странного от xpath и парсинга html
|
|||
---|---|---|---|
#18+
классно, спасибо. Этот вопрос как то не лежит на поверхности в руководствах по xpath, так как все работают с красивым вложенным xml. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2011, 15:19 |
|
хочу странного от xpath и парсинга html
|
|||
---|---|---|---|
#18+
refregЕще так можно, смотря какая задача Код: plaintext
а вот это уже к парсингу html мало применимо. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2011, 15:21 |
|
хочу странного от xpath и парсинга html
|
|||
---|---|---|---|
#18+
refregnetwindrefreg, но в большинстве случаев это получается весьма успешно. dom-парсер сам закрывает теги и тд. Хотя бы частично можно облегчить эти задачи?Пример такого парсера? Браузер не в счет...Virtuoso Open Source. Парсер и валидирует XML, и лечит HTML, XPath/XQuery/XSLT тоже есть... ... |
|||
:
Нравится:
Не нравится:
|
|||
01.02.2011, 02:30 |
|
хочу странного от xpath и парсинга html
|
|||
---|---|---|---|
#18+
iv_an_rurefregпропущено... Пример такого парсера? Браузер не в счет...Virtuoso Open Source. Парсер и валидирует XML, и лечит HTML, XPath/XQuery/XSLT тоже есть...Да не нужен мне список ненужных программ. Я не сомневаюсь, что есть лечилки... Есть требование к XML-процессору, сертифицированные требования. Если XML-процессор не выполняет эти требования, то это не XML-процессор!!! Если бы автор использовал лечилку, то он не задавал бы вопрос номер 1. У вас получается примерно следующее: Вопрос. Как узнать время с помощью калькулятора? Ответ. Очень просто - у меня есть калькулятор с часами... ... |
|||
:
Нравится:
Не нравится:
|
|||
01.02.2011, 08:47 |
|
хочу странного от xpath и парсинга html
|
|||
---|---|---|---|
#18+
refreg, расслабься, он просто их продает :) ... |
|||
:
Нравится:
Не нравится:
|
|||
01.02.2011, 10:33 |
|
хочу странного от xpath и парсинга html
|
|||
---|---|---|---|
#18+
netwindrefreg, расслабься, он просто их продает :)Угу. Продаю. Virtuoso Open Source . wget ... ; configure ; make ; make install . Или yum install virtuoso . ... |
|||
:
Нравится:
Не нравится:
|
|||
01.02.2011, 19:12 |
|
хочу странного от xpath и парсинга html
|
|||
---|---|---|---|
#18+
iv_an_ru, их , а не конкретного его (парсер) - другие продукты virtuoso. ... |
|||
:
Нравится:
Не нравится:
|
|||
01.02.2011, 19:41 |
|
|
start [/forum/topic.php?fid=14&msg=37075606&tid=1333022]: |
0ms |
get settings: |
9ms |
get forum list: |
12ms |
check forum access: |
39ms |
check topic access: |
39ms |
track hit: |
99ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
51ms |
get tp. blocked users: |
1ms |
others: | 273ms |
total: | 538ms |
0 / 0 |