|
|
|
Как вытащить только текст из web-страницы на Python
|
|||
|---|---|---|---|
|
#18+
Хочу написать скрип на Python, чтобы можно было с любой web-страницы доставать текст. Что-то типа Read It Later или Instapaper. Первое что пришло в голову вытащить все <h1>, <h2>, <p>: Код: python 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. Данный вариант кроме полезной информации достает еще некоторую часть не нужного текста. Подскажите что еще нужно учесть чтобы получить только содержимое статьи. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.05.2012, 20:35:40 |
|
||
|
Как вытащить только текст из web-страницы на Python
|
|||
|---|---|---|---|
|
#18+
Скрипт никак не определит, положил я в P полезную для вас информацию или бесполезную, если у вас нет четких правил ее полезности. Если есть - запишите эти правила. Более того, я вполне мог на странице положить полезную для вас информацию без всяких доп. тегов. Так что, выкусить только p и h - не вариант. Да и "полезных" тегов больше. В первом приближении, необходимо взять содержимое body и вычистить из него бесполезное, т.е. скрипты, ссылки, ifame-ы, картинки (если вы их считаете бесполезными). Заменить BR на перевод строки. Оставшийся текст почистить от тегов (не трогая их содержимое разумеется. Заменить цепочки из нескольких пробельных символов на 1 пробел. Несколько переводов строки на один. Но если полезная для вас информация на сранице частично генерится скриптами, то вы ее не получите. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.05.2012, 20:55:06 |
|
||
|
|

start [/forum/topic.php?fid=23&msg=37782811&tid=1465204]: |
0ms |
get settings: |
6ms |
get forum list: |
17ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
187ms |
get topic data: |
30ms |
get forum data: |
3ms |
get page messages: |
43ms |
get tp. blocked users: |
1ms |
| others: | 204ms |
| total: | 497ms |

| 0 / 0 |
