Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
парсинг интернет-страниц
|
|||
|---|---|---|---|
|
#18+
Всем доброго времени суток! Поставили задачу - автоматизировать копирование выборочных данных с сайтов в базу данных. Но ведь существует риск изменения структуры анализируемых интернет-страниц. Поддержка такой автоматизации может оказаться сложной задачей. Какие еще аргументы можно привести, чтобы опровергнуть такую задачу? Есть у кого-нибудь опыт поддержки такой автоматизации? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.09.2006, 16:21 |
|
||
|
парсинг интернет-страниц
|
|||
|---|---|---|---|
|
#18+
Посоветуйте руководству не парится, заключить соглашения с владельцами нужных сайтов. У них наверняка есть web сервисы, если информация нужная. За денежку разумеется. И единожды настроенная программа, используя сервисы будет работать как часы (пока вы платите за информацию). Через них вы будете получать только xml с данными и все. никаких html с изменяемой структуурой. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.09.2006, 16:33 |
|
||
|
парсинг интернет-страниц
|
|||
|---|---|---|---|
|
#18+
DatsПосоветуйте руководству не парится, заключить соглашения с владельцами нужных сайтов. У них наверняка есть web сервисы, если информация нужная. За денежку разумеется. И единожды настроенная программа, используя сервисы будет работать как часы (пока вы платите за информацию). Через них вы будете получать только xml с данными и все. никаких html с изменяемой структуурой. да я это сам прекрасно понимаю. Но руководству это не интересно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.09.2006, 16:35 |
|
||
|
парсинг интернет-страниц
|
|||
|---|---|---|---|
|
#18+
Это весьма наивная идея - договориться. Можете прикинуть, сколько стоит написать на Perl или PHP web-сервис. Это вам даже не Java. Да так, чтобы он работал с .Net. А потом помножить на количество сайтов и прибавить проблемы поддержания работоспособности таких договоренностей. Руководство у вас правильное. Преобразовать HTML в XML, затем извлекать нужные данные. Но это очень и очень непросто, если для навигации по целевым сайтам используются скрипты, куки и данные в сессии. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.09.2006, 17:22 |
|
||
|
парсинг интернет-страниц
|
|||
|---|---|---|---|
|
#18+
Подумайте, как часто меняются структуры сайтов? Максимум один раз в год. На своем опыте могу сказать, что при одновременном мониторинге порядка 300 сайтов структура меняется дай бог у одного в день. Это не страшно. Главное в этом деле создание универсального парсера. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.09.2006, 17:39 |
|
||
|
парсинг интернет-страниц
|
|||
|---|---|---|---|
|
#18+
GalantПодумайте, как часто меняются структуры сайтов? Максимум один раз в год. На своем опыте могу сказать, что при одновременном мониторинге порядка 300 сайтов структура меняется дай бог у одного в день. Это не страшно. Главное в этом деле создание универсального парсера. а если цена ошибки слишком высока? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.09.2006, 18:31 |
|
||
|
парсинг интернет-страниц
|
|||
|---|---|---|---|
|
#18+
flashslash GalantПодумайте, как часто меняются структуры сайтов? Максимум один раз в год. На своем опыте могу сказать, что при одновременном мониторинге порядка 300 сайтов структура меняется дай бог у одного в день. Это не страшно. Главное в этом деле создание универсального парсера. а если цена ошибки слишком высока? Я ж говорю: парсер - это наше всё! :) Можете сначала сохранять всю страницу, а потом выпарсивать из неё нужные элементы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.09.2006, 21:34 |
|
||
|
парсинг интернет-страниц
|
|||
|---|---|---|---|
|
#18+
flashslashВсем доброго времени суток! Поставили задачу - автоматизировать копирование выборочных данных с сайтов в базу данных. Но ведь существует риск изменения структуры анализируемых интернет-страниц. Поддержка такой автоматизации может оказаться сложной задачей. Какие еще аргументы можно привести, чтобы опровергнуть такую задачу? Есть у кого-нибудь опыт поддержки такой автоматизации? А в чем проблема? Это слишком сложная задача? В определенных целях это решение, которое скорее всего дешевле, чем остальные. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.09.2006, 22:51 |
|
||
|
парсинг интернет-страниц
|
|||
|---|---|---|---|
|
#18+
Опыт есть ... страшного ничего нет. Грамотно составить regexp хотя мона и через экземпляр IE и по больщому счету все. Я с газеты.ру года два уже тащу инфу, в прошлом году в сентбре они поменяли слегка структуру новостей, ну так за день я все в своей логике поменял. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.09.2006, 00:29 |
|
||
|
парсинг интернет-страниц
|
|||
|---|---|---|---|
|
#18+
XML это ваше все. не знаю уж как там насчет договориться. но WEBService с их стороны вам бы помог ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.09.2006, 09:06 |
|
||
|
|

start [/forum/topic.php?fid=18&msg=33998152&tid=1389366]: |
0ms |
get settings: |
9ms |
get forum list: |
16ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
144ms |
get topic data: |
7ms |
get forum data: |
2ms |
get page messages: |
32ms |
get tp. blocked users: |
1ms |
| others: | 324ms |
| total: | 541ms |

| 0 / 0 |
