Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / ASP.NET [игнор отключен] [закрыт для гостей] / парсинг интернет-страниц / 11 сообщений из 11, страница 1 из 1
19.09.2006, 16:21
    #33997311
flashslash
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг интернет-страниц
Всем доброго времени суток!

Поставили задачу - автоматизировать копирование выборочных данных с сайтов в базу данных. Но ведь существует риск изменения структуры анализируемых интернет-страниц. Поддержка такой автоматизации может оказаться сложной задачей.

Какие еще аргументы можно привести, чтобы опровергнуть такую задачу?
Есть у кого-нибудь опыт поддержки такой автоматизации?
...
Рейтинг: 0 / 0
19.09.2006, 16:33
    #33997375
Dats
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг интернет-страниц
Посоветуйте руководству не парится, заключить соглашения с владельцами нужных сайтов. У них наверняка есть web сервисы, если информация нужная. За денежку разумеется. И единожды настроенная программа, используя сервисы будет работать как часы (пока вы платите за информацию). Через них вы будете получать только xml с данными и все. никаких html с изменяемой структуурой.
...
Рейтинг: 0 / 0
19.09.2006, 16:35
    #33997389
flashslash
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг интернет-страниц
DatsПосоветуйте руководству не парится, заключить соглашения с владельцами нужных сайтов. У них наверняка есть web сервисы, если информация нужная. За денежку разумеется. И единожды настроенная программа, используя сервисы будет работать как часы (пока вы платите за информацию). Через них вы будете получать только xml с данными и все. никаких html с изменяемой структуурой.

да я это сам прекрасно понимаю. Но руководству это не интересно.
...
Рейтинг: 0 / 0
19.09.2006, 17:22
    #33997592
mclabman
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг интернет-страниц
Это весьма наивная идея - договориться. Можете прикинуть, сколько стоит написать на Perl или PHP web-сервис. Это вам даже не Java. Да так, чтобы он работал с .Net. А потом помножить на количество сайтов и прибавить проблемы поддержания работоспособности таких договоренностей.
Руководство у вас правильное.

Преобразовать HTML в XML, затем извлекать нужные данные. Но это очень и очень непросто, если для навигации по целевым сайтам используются скрипты, куки и данные в сессии.
...
Рейтинг: 0 / 0
19.09.2006, 17:39
    #33997662
Galant
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг интернет-страниц
Подумайте, как часто меняются структуры сайтов? Максимум один раз в год. На своем опыте могу сказать, что при одновременном мониторинге порядка 300 сайтов структура меняется дай бог у одного в день. Это не страшно.
Главное в этом деле создание универсального парсера.
...
Рейтинг: 0 / 0
19.09.2006, 18:31
    #33997838
flashslash
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг интернет-страниц
GalantПодумайте, как часто меняются структуры сайтов? Максимум один раз в год. На своем опыте могу сказать, что при одновременном мониторинге порядка 300 сайтов структура меняется дай бог у одного в день. Это не страшно.
Главное в этом деле создание универсального парсера.

а если цена ошибки слишком высока?
...
Рейтинг: 0 / 0
19.09.2006, 21:34
    #33998152
Galant
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг интернет-страниц
flashslash GalantПодумайте, как часто меняются структуры сайтов? Максимум один раз в год. На своем опыте могу сказать, что при одновременном мониторинге порядка 300 сайтов структура меняется дай бог у одного в день. Это не страшно.
Главное в этом деле создание универсального парсера.

а если цена ошибки слишком высока?
Я ж говорю: парсер - это наше всё! :)
Можете сначала сохранять всю страницу, а потом выпарсивать из неё нужные элементы.
...
Рейтинг: 0 / 0
19.09.2006, 22:51
    #33998230
RasimS
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг интернет-страниц
flashslashВсем доброго времени суток!

Поставили задачу - автоматизировать копирование выборочных данных с сайтов в базу данных. Но ведь существует риск изменения структуры анализируемых интернет-страниц. Поддержка такой автоматизации может оказаться сложной задачей.

Какие еще аргументы можно привести, чтобы опровергнуть такую задачу?
Есть у кого-нибудь опыт поддержки такой автоматизации?
А в чем проблема? Это слишком сложная задача? В определенных целях это решение, которое скорее всего дешевле, чем остальные.
...
Рейтинг: 0 / 0
20.09.2006, 00:29
    #33998292
big-duke
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг интернет-страниц
Опыт есть ... страшного ничего нет. Грамотно составить regexp хотя мона и через экземпляр IE и по больщому счету все. Я с газеты.ру года два уже тащу инфу, в прошлом году в сентбре они поменяли слегка структуру новостей, ну так за день я все в своей логике поменял.

...
Рейтинг: 0 / 0
20.09.2006, 09:06
    #33998514
МСильвер
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг интернет-страниц
XML это ваше все. не знаю уж как там насчет договориться. но WEBService с их стороны вам бы помог
...
Рейтинг: 0 / 0
21.09.2006, 15:21
    #34003492
flashslash
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
парсинг интернет-страниц
МСильверXML это ваше все. не знаю уж как там насчет договориться. но WEBService с их стороны вам бы помог

понятное дело, что XML-это лучшее решение
...
Рейтинг: 0 / 0
Форумы / ASP.NET [игнор отключен] [закрыт для гостей] / парсинг интернет-страниц / 11 сообщений из 11, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]