Как вытащить только текст из web-страницы на Python / PHP, Perl, Python

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / Как вытащить только текст из web-страницы на Python

2 сообщений из 2, страница 1 из 1

Как вытащить только текст из web-страницы на Python

#37782811

kusha

Участник

Сообщения: 43

Рейтинг: 0 / 0

Хочу написать скрип на Python, чтобы можно было с любой web-страницы доставать текст. Что-то типа Read It Later или Instapaper.
Первое что пришло в голову вытащить все <h1>, <h2>, <p>:

Код: python

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.

import requests
import re
from BeautifulSoup import BeautifulSoup

def find_text( rq ):
    request = requests.get( rq )
    soup = BeautifulSoup( request.content )
    soup.prettify()
    
    data ={}
    
    data['title'] = soup.title.string
    data['tag_list']  = soup.findAll( ["p", "h1", "h2"] )
    data['url'] = rq
        
    return data
    
if __name__ == "__main__":
    print find_text( "http://www.engadget.com/2012/05/03/lg-optimus-lte2-2gb-ram-true-hd/" )

Данный вариант кроме полезной информации достает еще некоторую часть не нужного текста.
Подскажите что еще нужно учесть чтобы получить только содержимое статьи.

...

Рейтинг:

0 / 0

04.05.2012, 20:35:40

| Ответить | Цитировать | Написать

Как вытащить только текст из web-страницы на Python

#37782830

Edd.Dragon

Участник

Откуда: Украина

Сообщения: 6 433

Рейтинг: 0 / 0

Скрипт никак не определит, положил я в P полезную для вас информацию или бесполезную, если у вас нет четких правил ее полезности. Если есть - запишите эти правила.

Более того, я вполне мог на странице положить полезную для вас информацию без всяких доп. тегов. Так что, выкусить только p и h - не вариант. Да и "полезных" тегов больше.

В первом приближении, необходимо взять содержимое body и вычистить из него бесполезное, т.е. скрипты, ссылки, ifame-ы, картинки (если вы их считаете бесполезными). Заменить BR на перевод строки. Оставшийся текст почистить от тегов (не трогая их содержимое разумеется. Заменить цепочки из нескольких пробельных символов на 1 пробел. Несколько переводов строки на один.

Но если полезная для вас информация на сранице частично генерится скриптами, то вы ее не получите.

...

Рейтинг:

0 / 0

04.05.2012, 20:55:06

| Ответить | Цитировать | Написать

2 сообщений из 2, страница 1 из 1

Форумы / PHP, Perl, Python [игнор отключен] [закрыт для гостей] / Как вытащить только текст из web-страницы на Python

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=23&msg=37782811&tid=1465204]:	0ms
get settings:	6ms
get forum list:	17ms
check forum access:	3ms
check topic access:	3ms
track hit:	187ms
get topic data:	30ms
get forum data:	3ms
get page messages:	43ms
get tp. blocked users:	1ms
others:	204ms

total:	497ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы