|
|
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Добрый вечер всем! Стоит следующая задача: Написать программу для туристического агенства. Суть такая: есть входные данные, или условия поиска ... тур-опреатор, город, категория отеля, питание, заезд с какого числа и т.п. ... Программа анализирует список из 50 примерно сайтов, и выдает результат в виде таблицы, например отсортир по ценам.. еще приявязать к этим отелям отзывы с двух сайтов. Вопрос: возможно ли такое осуществить ? ... Как это можно реализовать ? .... И если такое кто возьмется сделать, то цена вопроса.?! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.09.2010, 20:02 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
statusden, Возможно. Нужен парсер преобразующий html в структурированую информацию. В той или иной форме задача уже решалась и пути решения известны. Но велосипед неизбежен. Остальная часть по разбору полученых результатов бананальна и решаема. Столько сколько запросит исполнитель. Скорее зависити от содержимого сайтов и потребностей. А вы с практической целью или как? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.09.2010, 20:36 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
antares0, Спасибо за ответ. Да я с практической целью интересуюсь. Сайты в принципе все извсетные, это различные тур операторы. Как пример TezTour. Если интересует, то более детально тех задание могу присалать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.09.2010, 23:55 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
statusden, Интересно. Почта в профиле. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 01:39 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
antares0, Ок. Сегодня вечером иди завтра днем вышлю ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 11:22 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
antares0 wrote: > Нужен парсер преобразующий html в структурированую информацию. В той или > иной форме задача уже решалась и пути решения известны. Это твои девичьи мечты. Преобразовать неструктурированную информацию (html) в структурированную можно только с использованием интеллекта, человеческого или искусственного. Posted via ActualForum NNTP Server 1.4 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 15:30 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
MasterZiv, Или ваш маразм (да простят меня модераторы). Информация на сайте неструктурирована относительно. Если брать какой-то опредленный сайт, то ему вполне сопоставить шаблон, с участием интелекта да. Используя этот шаблон можно уже забирать информацию автоматически. Если не знаете как это делается, то могу посоветовать самообразование. Очень помогает. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 18:52 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Злой я сегодня. Но самообразовываться все равно полезно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 19:14 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
antares0Злой я сегодня. Но самообразовываться все равно полезно. Самообразовывайтесь. Кто Вам мешает? Собственно, по сабжу, на каком языке пишите? Могу в три строчки (соврал - в одну) примерчик написать, как сдёрнуть данные. А распарсить хтмл, который и есть струкрурированные данные - проще простого. Потому и спрашиваю, что за язык, потому что для всех по много вариантов есть. Сами ищите подходящие для вашего случая парсеры. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 21:03 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
ShSerge, Да я и сам знаю, ученый. Это MasterZiv выражает сомнени в том что из html-я можно выдрать что-нибудь структурированое. На это только ИИ способен видите ли. Читай те уж тему по порядку. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 21:16 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
MasterZiv Преобразовать неструктурированную информацию (html) в структурированную можно только с использованием интеллекта они, парсеры (по крайней мере по объявлениям недвижимости, транспорта) так и работают: на каждый сайт свой метод с кучей свичей и ифов, приводящий табличку с сайта к станартному виду. И топикстартеру: одному агенТству одна студия сляпала сайт за большие деньги, в шапке которого, помимо всякой лабуды жирными буквами было написано "агенство недвижимости". Нехорошие люди написали петицию от имени общества "в защиту Русского языка от лаптей", и добрые деловые отношения агенТства и студии были подорваны. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 21:54 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
antares0, остыл немного? Или понял что наехал на модератора? Короче слушай телегу. Всё это реально можно сделать но сложно поддерживать. В наше время веб-содержимое уже не является чистым HTML-контентом как было 20 лет назад и парсить его очень сложно. Тут возможны ситуации. Первое. Если тур-оператор резко решил сменить дизайн - то твой софт перестанет выдавать корретные данные. Второе. Если тур-оператор решил перейтие на flash-содержимое - тебя ждёт большой облом и невозможность быстро и в реальные сроки поправить положение. Третье. Если тур-оператор чисто в шутку опубликует свои услуги в виде скриншота - тебя ждёт еще больший облом. Разпознавание картинок - отдельная тема, которая стоит реально большие бабки. Короче говоря твой софт будет априори очень ненадёжен, глюкав и требующий бесконечной тех-поддержки. Не проще-ли посадить студентов чтоб разгребали руками контент и формировали отчётоность? Щас кризис. Людей надо обеспечить рабочими местами. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 22:31 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
1. За 100 евро автор парсера поправит втечение дня. 2. Это да. 3. Это да, хотя это редкость, и какой - нить гугл тессеракт прикрутить будет не очень дорого. Такие парсеры для разных областей существуют, и довольно успешно. Надежность, конечно, не высокая, но на прктике это не критично (могу по недвижимости сказать: парсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте). Студенты дороже обойдутся ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 22:43 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
mayton, Совершенно правильно сказано, за исключением того, что не студентов, а студенток. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 22:46 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
maytonВторое и третье маловероятно, а насчет первого - да, придется вносить изменения. Вот уследить за 50 сайтами, проверять работу парсеров - это отдельная, очень веселая тема (очевидно, для каждого сайта - свой парсер) ps: Капитан Очевидность сообщает: очень пригодятся регексы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 22:53 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Гата Селов1. За 100 евро автор парсера поправит втечение дня. 2. Это да. 3. Это да, хотя это редкость, и какой - нить гугл тессеракт прикрутить будет не очень дорого. Такие парсеры для разных областей существуют, и довольно успешно. Надежность, конечно, не высокая, но на прктике это не критично (могу по недвижимости сказать: парсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте). Студенты дороже обойдутся Что касается авторов парсера это и лимона баксов маловато будет, а что касается программистов, применяющих этот парсер - можно и дешевле и быстрее. Точно, что не проблема. Только дело в том, что ручками - гораздо надёжнее, правильнее и даже гламурнее. А самое важное в том, что нам, программистам, то есть, за это деньги платят. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 22:54 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Яростный МечВот уследить за 50 сайтами, проверять работу парсеров - это отдельная, очень веселая тема (очевидно, для каждого сайта - свой парсер) ps: Капитан Очевидность сообщает: очень пригодятся регексы. Не совсем. Парсер должен быть один. Это скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайта и излекает данные о тур-услугах в неком едином формате готовом к отчетности. Если сайт будет содержать форму авторизации то возможно нужно будет поддерживать несколько XSLT-логик, с обработкой различных ACTION-s но суть остаётся той-же. P.S. При правильном подходе регексы не понадобятся. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 23:48 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
antares0 wrote: > Или ваш маразм (да простят меня модераторы). Информация на сайте > неструктурирована относительно. Это как "слегка беременна". Либо информация структурирована, либо НЕ структурирована. Если брать какой-то опредленный сайт, то > ему вполне сопоставить шаблон, с участием интелекта да. Используя этот Ну, а завтра они меняют дизайн -- и ... Posted via ActualForum NNTP Server 1.4 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 23:50 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Гата Селови какой - нить гугл тессеракт прикрутить будет не очень дорого. Это что очерденая серебрянная пуля? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 23:51 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
ShSerge wrote: > - в одну) примерчик написать, как сдёрнуть данные. А распарсить хтмл, > который и есть *струкрурированные данные* - проще простого. В HTML структурированы не данные, а РАЗМЕТКА текста, содержащего эти данные. Парсить это Г -- занятие сугубо неблагодарное. Другое дело, если сайты предоставляют всякие WEB-сервисы по SOAP... Posted via ActualForum NNTP Server 1.4 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 23:53 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
maytonЭто скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайтаИсходный код страницы - далека не всегда валидный XML. К тому же часть информации может в нем отсутствовать и дорисовывается с помощью js, иногда с попыткой запрятать (само собой, безуспешной). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:09 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Яростный, ты всё перепутал. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:13 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
MasterZiv Парсить это Г -- занятие сугубо неблагодарное. Абсолютная правда. Just for fun, накидал простейший скриптец - выдерает с фишек.нет фотки девок и складирует в папку. Автор лови ))) Может поможет чем )) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:17 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Яростный МечmaytonЭто скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайтаИсходный код страницы - далека не всегда валидный XML. К тому же часть информации может в нем отсутствовать и дорисовывается с помощью js, иногда с попыткой запрятать (само собой, безуспешной). Мало того - код страницы не всегда даже валидный HTML. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:24 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
И не валидный HTML, И не докачанный до конца, И с наполнением контента через jscript. И с неизвестной кодировкой. И с враппленной, и заGIF-ленной ценной информацией. И с капчей на странице логона. И с детектором роботов на сервере И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт. Вот такие пирожки. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:28 |
|
||
|
|

start [/forum/topic.php?fid=16&msg=36861187&tid=1343410]: |
0ms |
get settings: |
7ms |
get forum list: |
17ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
160ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
68ms |
get tp. blocked users: |
2ms |
| others: | 214ms |
| total: | 485ms |

| 0 / 0 |
