powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / Как вытащить только текст из web-страницы на Python
2 сообщений из 2, страница 1 из 1
Как вытащить только текст из web-страницы на Python
    #37782811
kusha
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Хочу написать скрип на Python, чтобы можно было с любой web-страницы доставать текст. Что-то типа Read It Later или Instapaper.
Первое что пришло в голову вытащить все <h1>, <h2>, <p>:
Код: python
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
import requests
import re
from BeautifulSoup import BeautifulSoup

def find_text( rq ):
    request = requests.get( rq )
    soup = BeautifulSoup( request.content )
    soup.prettify()
    
    data ={}
    
    data['title'] = soup.title.string
    data['tag_list']  = soup.findAll( ["p", "h1", "h2"] )
    data['url'] = rq
        
    return data
    
if __name__ == "__main__":
    print find_text( "http://www.engadget.com/2012/05/03/lg-optimus-lte2-2gb-ram-true-hd/" )


Данный вариант кроме полезной информации достает еще некоторую часть не нужного текста.
Подскажите что еще нужно учесть чтобы получить только содержимое статьи.
...
Рейтинг: 0 / 0
Как вытащить только текст из web-страницы на Python
    #37782830
Edd.Dragon
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Скрипт никак не определит, положил я в P полезную для вас информацию или бесполезную, если у вас нет четких правил ее полезности. Если есть - запишите эти правила.

Более того, я вполне мог на странице положить полезную для вас информацию без всяких доп. тегов. Так что, выкусить только p и h - не вариант. Да и "полезных" тегов больше.

В первом приближении, необходимо взять содержимое body и вычистить из него бесполезное, т.е. скрипты, ссылки, ifame-ы, картинки (если вы их считаете бесполезными). Заменить BR на перевод строки. Оставшийся текст почистить от тегов (не трогая их содержимое разумеется. Заменить цепочки из нескольких пробельных символов на 1 пробел. Несколько переводов строки на один.

Но если полезная для вас информация на сранице частично генерится скриптами, то вы ее не получите.
...
Рейтинг: 0 / 0
2 сообщений из 2, страница 1 из 1
Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / Как вытащить только текст из web-страницы на Python
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]