|
|
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Добрый вечер всем! Стоит следующая задача: Написать программу для туристического агенства. Суть такая: есть входные данные, или условия поиска ... тур-опреатор, город, категория отеля, питание, заезд с какого числа и т.п. ... Программа анализирует список из 50 примерно сайтов, и выдает результат в виде таблицы, например отсортир по ценам.. еще приявязать к этим отелям отзывы с двух сайтов. Вопрос: возможно ли такое осуществить ? ... Как это можно реализовать ? .... И если такое кто возьмется сделать, то цена вопроса.?! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.09.2010, 20:02 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
statusden, Возможно. Нужен парсер преобразующий html в структурированую информацию. В той или иной форме задача уже решалась и пути решения известны. Но велосипед неизбежен. Остальная часть по разбору полученых результатов бананальна и решаема. Столько сколько запросит исполнитель. Скорее зависити от содержимого сайтов и потребностей. А вы с практической целью или как? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.09.2010, 20:36 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
antares0, Спасибо за ответ. Да я с практической целью интересуюсь. Сайты в принципе все извсетные, это различные тур операторы. Как пример TezTour. Если интересует, то более детально тех задание могу присалать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.09.2010, 23:55 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
statusden, Интересно. Почта в профиле. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 01:39 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
antares0, Ок. Сегодня вечером иди завтра днем вышлю ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 11:22 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
antares0 wrote: > Нужен парсер преобразующий html в структурированую информацию. В той или > иной форме задача уже решалась и пути решения известны. Это твои девичьи мечты. Преобразовать неструктурированную информацию (html) в структурированную можно только с использованием интеллекта, человеческого или искусственного. Posted via ActualForum NNTP Server 1.4 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 15:30 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
MasterZiv, Или ваш маразм (да простят меня модераторы). Информация на сайте неструктурирована относительно. Если брать какой-то опредленный сайт, то ему вполне сопоставить шаблон, с участием интелекта да. Используя этот шаблон можно уже забирать информацию автоматически. Если не знаете как это делается, то могу посоветовать самообразование. Очень помогает. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 18:52 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Злой я сегодня. Но самообразовываться все равно полезно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 19:14 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
antares0Злой я сегодня. Но самообразовываться все равно полезно. Самообразовывайтесь. Кто Вам мешает? Собственно, по сабжу, на каком языке пишите? Могу в три строчки (соврал - в одну) примерчик написать, как сдёрнуть данные. А распарсить хтмл, который и есть струкрурированные данные - проще простого. Потому и спрашиваю, что за язык, потому что для всех по много вариантов есть. Сами ищите подходящие для вашего случая парсеры. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 21:03 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
ShSerge, Да я и сам знаю, ученый. Это MasterZiv выражает сомнени в том что из html-я можно выдрать что-нибудь структурированое. На это только ИИ способен видите ли. Читай те уж тему по порядку. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 21:16 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
MasterZiv Преобразовать неструктурированную информацию (html) в структурированную можно только с использованием интеллекта они, парсеры (по крайней мере по объявлениям недвижимости, транспорта) так и работают: на каждый сайт свой метод с кучей свичей и ифов, приводящий табличку с сайта к станартному виду. И топикстартеру: одному агенТству одна студия сляпала сайт за большие деньги, в шапке которого, помимо всякой лабуды жирными буквами было написано "агенство недвижимости". Нехорошие люди написали петицию от имени общества "в защиту Русского языка от лаптей", и добрые деловые отношения агенТства и студии были подорваны. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 21:54 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
antares0, остыл немного? Или понял что наехал на модератора? Короче слушай телегу. Всё это реально можно сделать но сложно поддерживать. В наше время веб-содержимое уже не является чистым HTML-контентом как было 20 лет назад и парсить его очень сложно. Тут возможны ситуации. Первое. Если тур-оператор резко решил сменить дизайн - то твой софт перестанет выдавать корретные данные. Второе. Если тур-оператор решил перейтие на flash-содержимое - тебя ждёт большой облом и невозможность быстро и в реальные сроки поправить положение. Третье. Если тур-оператор чисто в шутку опубликует свои услуги в виде скриншота - тебя ждёт еще больший облом. Разпознавание картинок - отдельная тема, которая стоит реально большие бабки. Короче говоря твой софт будет априори очень ненадёжен, глюкав и требующий бесконечной тех-поддержки. Не проще-ли посадить студентов чтоб разгребали руками контент и формировали отчётоность? Щас кризис. Людей надо обеспечить рабочими местами. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 22:31 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
1. За 100 евро автор парсера поправит втечение дня. 2. Это да. 3. Это да, хотя это редкость, и какой - нить гугл тессеракт прикрутить будет не очень дорого. Такие парсеры для разных областей существуют, и довольно успешно. Надежность, конечно, не высокая, но на прктике это не критично (могу по недвижимости сказать: парсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте). Студенты дороже обойдутся ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 22:43 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
mayton, Совершенно правильно сказано, за исключением того, что не студентов, а студенток. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 22:46 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
maytonВторое и третье маловероятно, а насчет первого - да, придется вносить изменения. Вот уследить за 50 сайтами, проверять работу парсеров - это отдельная, очень веселая тема (очевидно, для каждого сайта - свой парсер) ps: Капитан Очевидность сообщает: очень пригодятся регексы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 22:53 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Гата Селов1. За 100 евро автор парсера поправит втечение дня. 2. Это да. 3. Это да, хотя это редкость, и какой - нить гугл тессеракт прикрутить будет не очень дорого. Такие парсеры для разных областей существуют, и довольно успешно. Надежность, конечно, не высокая, но на прктике это не критично (могу по недвижимости сказать: парсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте). Студенты дороже обойдутся Что касается авторов парсера это и лимона баксов маловато будет, а что касается программистов, применяющих этот парсер - можно и дешевле и быстрее. Точно, что не проблема. Только дело в том, что ручками - гораздо надёжнее, правильнее и даже гламурнее. А самое важное в том, что нам, программистам, то есть, за это деньги платят. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 22:54 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Яростный МечВот уследить за 50 сайтами, проверять работу парсеров - это отдельная, очень веселая тема (очевидно, для каждого сайта - свой парсер) ps: Капитан Очевидность сообщает: очень пригодятся регексы. Не совсем. Парсер должен быть один. Это скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайта и излекает данные о тур-услугах в неком едином формате готовом к отчетности. Если сайт будет содержать форму авторизации то возможно нужно будет поддерживать несколько XSLT-логик, с обработкой различных ACTION-s но суть остаётся той-же. P.S. При правильном подходе регексы не понадобятся. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 23:48 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
antares0 wrote: > Или ваш маразм (да простят меня модераторы). Информация на сайте > неструктурирована относительно. Это как "слегка беременна". Либо информация структурирована, либо НЕ структурирована. Если брать какой-то опредленный сайт, то > ему вполне сопоставить шаблон, с участием интелекта да. Используя этот Ну, а завтра они меняют дизайн -- и ... Posted via ActualForum NNTP Server 1.4 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 23:50 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Гата Селови какой - нить гугл тессеракт прикрутить будет не очень дорого. Это что очерденая серебрянная пуля? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 23:51 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
ShSerge wrote: > - в одну) примерчик написать, как сдёрнуть данные. А распарсить хтмл, > который и есть *струкрурированные данные* - проще простого. В HTML структурированы не данные, а РАЗМЕТКА текста, содержащего эти данные. Парсить это Г -- занятие сугубо неблагодарное. Другое дело, если сайты предоставляют всякие WEB-сервисы по SOAP... Posted via ActualForum NNTP Server 1.4 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.09.2010, 23:53 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
maytonЭто скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайтаИсходный код страницы - далека не всегда валидный XML. К тому же часть информации может в нем отсутствовать и дорисовывается с помощью js, иногда с попыткой запрятать (само собой, безуспешной). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:09 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Яростный, ты всё перепутал. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:13 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
MasterZiv Парсить это Г -- занятие сугубо неблагодарное. Абсолютная правда. Just for fun, накидал простейший скриптец - выдерает с фишек.нет фотки девок и складирует в папку. Автор лови ))) Может поможет чем )) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:17 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Яростный МечmaytonЭто скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайтаИсходный код страницы - далека не всегда валидный XML. К тому же часть информации может в нем отсутствовать и дорисовывается с помощью js, иногда с попыткой запрятать (само собой, безуспешной). Мало того - код страницы не всегда даже валидный HTML. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:24 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
И не валидный HTML, И не докачанный до конца, И с наполнением контента через jscript. И с неизвестной кодировкой. И с враппленной, и заGIF-ленной ценной информацией. И с капчей на странице логона. И с детектором роботов на сервере И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт. Вот такие пирожки. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:28 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
"грабил" пару-тройку прайс-интеграторов старым-добрым Экселем, на вопрос свойств/картинок очень, скажу - "не внапряг" было - никакого тебе парсинга хтмл-я, чинно-благородно - по клеточкам и до сих пор шаблоны рабочие, хотя прошло ~3г ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:48 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
mayton, Это верно. И некоторые товарищи на этом зарабатывают. Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у. Обычная околоучетная программа, но умеет в автомате коллекционировать объявления с сайтов о работе, сохранять их базу, сортировать, искать и т.п. Авторы отдельно продают саму прогу и подписку на обновления поискового интернет модуля на определенный период. Так что.. задумка ТС может быть не лишена смысла. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:54 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Всё зависит от того куда ветер подует веб повернётся. Будет-ли тотальный Ajax или тонкий клиент. Хр. зн. Но такие поисковые модули полезны хотя-бы тем что опыт прокачивается. Учишся работать действительно с "грязной" информацией. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:59 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
mayton, Тотальный ajax на самом деле задачу парса может упростить. Как правило посредством ajax-а запрашивают с сервера почти чистые данные. Т.е. не надо лопатить килобайты html-а с левыми банерами, вставками с других сайтов и т.п. В случае с флешем задача тоже наверняка решаемая. Декомпилируем флешку, смотрим как она запрашивает данные, повторяем это поведение ( хотя могу ошибаться, т.к. мои познания в флеше близки к 0 ). Картинки - да.... с этим не просто будет порешать. Но в любом случае подход к разбору данных будет менятся от сайта к сайту и от версии сайта к следующей версии. Поддерживать такой парсер, как уже говорилось, не сахар... грабун и до сих пор шаблоны рабочие, хотя прошло ~3г Дык это везение просто ). Все зависит от "хозяина" сайта. Некоторые дизайн кажные полгода меняют ). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 01:30 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
maytonЭто что очерденая серебрянная пуля? Это пример решения очередной возникшей проблемы. Написание парсеров - работа для ремесленника, без поисков красивого решения и прочих инженерно - творческих изысков. Изменили что - то на сайте - оценил обьём работ по переделке, договорился с заказчиком, переделал, получил деньги, потратил деньги, пошел делать другие дела, пока тут снова что - то не поменяется, и опять не потребуется переделка. Как с турагентствами не знаю, но купи-продай более - менее крупные сайты редко меняют дизайн ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 02:25 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
clihlt Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у. интересно было бы взглянуть :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 07:10 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Гата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте). как-то у вас очень удачно сложилось. есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 07:27 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Если это серъёзный бизнес то проще подписаться на новости от тур оператора. Или договориться о получении доступа к его MySQL базе. Все остальные решения (лично мне) напоминают студенческие поделки. IMHO. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 10:53 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
helliumГата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте). как-то у вас очень удачно сложилось. есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно)это скорее перспектива а не статистика, но мысль верная. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 10:54 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
maytonЕсли это серъёзный бизнес то проще подписаться на новости от тур оператора. Или договориться о получении доступа к его MySQL базе. Все остальные решения (лично мне) напоминают студенческие поделки. IMHO.ога. могут и того ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 10:55 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Занимаюсь темой в данный момент. Пришлось создать небольшую обнаруживалку шаблонов в HTML-документе и "язык" под неё. Язык позволяет минут за 5-10 описывать процедуру выдирания данных с конкретного сайта. Пока успешно работает для выдирания содержимого форумов. Валидность HTML не важна, документ рассматривается как линейная посл. HTML-тегов. Пример кода на для выдирания топиков с этого форума: Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. Можете стучать в скайп. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 10:55 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
А твой птичий язык может описывать доступ к уровню вложенности? Например мне нужно игнорировать квтотирование комментариев. P.S. Как-же к тебе стучать, когда ты всегда в оффлайне сидишь, злодей... ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 11:04 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
maytonА твой птичий язык может описывать доступ к уровню вложенности? Например мне нужно игнорировать квтотирование комментариев. P.S. Как-же к тебе стучать, когда ты всегда в оффлайне сидишь, злодей... ? Не может, т.к. ему плевать на иерархичность внутри HTML (дабы забыть о проблемах с валидностью). Я в онлайне круглосуточно почти, а все говорят, что я оффлайн. Просто шли сообщение, оно прожуётся. Скайп хитр и заковырест. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 11:39 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
helliumclihlt Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у. интересно было бы взглянуть :) Толи E-Staff Рекрутер, толи PDS Рекрутер. Который из двоих я видел уже не вспомню. Но всети наверняка можно найти для скачки и тот и тот. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 12:10 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
mayton, Про наличае модераторского значка в кармане собеседника знал заранее, но ни считаю для себя правильным издлишне выносить эмоции. Но злюсь иногда. Не уверен что телега привезла для меня что-то новое, но за потрачное время на вреия , спасибо. Но если смотреть на задачу с такой стороны, то "мы все умрем". После определенного количества пропускаемой информации работать с студентами в таком качестве становиться неудобным. А флэшки с бинарно-шифрованым протоколом и скриншоты на всю странцу это скорее страшилки, чем реальность для каждого второго сайта.. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 18:42 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
MasterZiv antares0 wrote: > Или ваш маразм (да простят меня модераторы). Информация на сайте > неструктурирована относительно. Это как "слегка беременна". Либо информация структурирована, либо НЕ структурирована. Если брать какой-то опредленный сайт, то > ему вполне сопоставить шаблон, с участием интелекта да. Используя этот Ну, а завтра они меняют дизайн -- и ... С точки зрения отдающе стороны он отдает вполне структурированую информацию. Другой вопрос что принимающая сторона может судить об этой стрктуре лишь опосредовано. Что все равно не мешает выдирать нужную информацию. Сама по себе смена дизайна при правильно-поставленых методах кардинально проект не угробит. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 18:49 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Яростный МечИсходный код страницы - далека не всегда валидный XML. Да почти никогда, но есть метлды приведения в вадидный вид ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 18:56 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
maytonИ не валидный HTML, И не докачанный до конца, И с наполнением контента через jscript. И с неизвестной кодировкой. И с враппленной, и заGIF-ленной ценной информацией. И с капчей на странице логона. И с детектором роботов на сервере И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт. Вот такие пирожки. Это больше похоже на описание файлообменника с многостадийным унижением пользователей-хадявщиков. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 18:58 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
helliumГата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте). как-то у вас очень удачно сложилось. есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно) Ну почему не радужно. И сайтов ведь на почти 2 порядка больше. И нисмотря на это система все еще как-то работает. и сколько стундетов освободилось. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 19:05 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
И не валидный HTML, --- зафиксать можно; И не докачанный до конца, --- можно распознать и докачать; И с наполнением контента через jscript. --- какой-нибудь JSON читать ещё проще; И с неизвестной кодировкой. --- с почти известной, одной из семи :) И с враппленной, и заGIF-ленной ценной информацией. --- студентка перебьёт; И с капчей на странице логона. --- делается сервер с бесплатным порно, впускающий за распознавание капчи. И с детектором роботов на сервере --- антидетектор на клиенте :) И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт. --- а вот это уже да, проблема. Горячий паяльник из заднего прохода программными средствами не извлекается. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 19:50 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
statusden, И кстати сначала выгружайте в RDF, нормализуйте, потом уже складывайте в реляционную СУБД (если это вообще понадобится). Придётся подучиться, зато потом сэкономите кучу времени и качество выхлопа обеспечите поприятнее обычного. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 19:56 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
iv_an_ru И не валидный HTML, --- зафиксать можно; И не докачанный до конца, --- можно распознать и докачать; И с наполнением контента через jscript. --- какой-нибудь JSON читать ещё проще; И с неизвестной кодировкой. --- с почти известной, одной из семи :) И с враппленной, и заGIF-ленной ценной информацией. --- студентка перебьёт; И с капчей на странице логона. --- делается сервер с бесплатным порно, впускающий за распознавание капчи. И с детектором роботов на сервере --- антидетектор на клиенте :) И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт. --- а вот это уже да, проблема. Горячий паяльник из заднего прохода программными средствами не извлекается. Отлично. Включаем это всё в техническое задание. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 20:17 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
iv_an_rustatusden, И кстати сначала выгружайте в RDF, нормализуйте, потом уже складывайте в реляционную СУБД (если это вообще понадобится). Придётся подучиться, зато потом сэкономите кучу времени и качество выхлопа обеспечите поприятнее обычного. А почему именно в RDF? Есть более легковесные форматы, тот же yaml. Можно вообще без промежуточной выгрузки обойтись, сразу в базу складывать ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.09.2010, 10:24 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
hellium, Я не про RDF/XML, а именно про RDF как модель хранения знаний. Не надо сериализовывать во что-то промежуточное, достаточно, чтобы анализатор сайтов добавлял новые факты в RDF-хранилище и удалял старые. Любым способом, хоть через специализированное API хранилища хоть SPARUL через ODBC/UDBC/IODBC/JDBC... да хоть через веб-сервисы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.09.2010, 17:16 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
iv_an_ruhellium, Я не про RDF/XML, а именно про RDF как модель хранения знаний. Не надо сериализовывать во что-то промежуточное, достаточно, чтобы анализатор сайтов добавлял новые факты в RDF-хранилище и удалял старые. Любым способом, хоть через специализированное API хранилища хоть SPARUL через ODBC/UDBC/IODBC/JDBC... да хоть через веб-сервисы. Я бы сделал по-простому: данные складываются сразу в mysql-базу, на эту же базу смотрит веб-интерфейс (ну, или делается выгрузка в отдельную базу, адаптированную специально для веба). Нормализация данных - регекспы, словари, подгружаемые из базы. Агрегатор - sql + немного скриптовой логики (на чистом sql сделать можно, но будет очень громоздко). Чем использование rdf-хранилища + специализированных api лучше этой схемы? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.09.2010, 07:46 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
helliumЯ бы сделал по-простому: данные складываются сразу в mysql-базу, на эту же базу смотрит веб-интерфейс (ну, или делается выгрузка в отдельную базу, адаптированную специально для веба). Нормализация данных - регекспы, словари, подгружаемые из базы. Агрегатор - sql + немного скриптовой логики (на чистом sql сделать можно, но будет очень громоздко). Чем использование rdf-хранилища + специализированных api лучше этой схемы? Я б так сказал, всем, кроме затрат на обучение разработчика. Одно дело самопальничать словари в какой-то базе неизвестной полноты и актуальности, другое --- брать готовые из SWEO LOD. Одно дело писать скрипты, другое --- не писать в 99% случаев, просто использовать язык, более подходящий для ad hoc запросов (зато в оставшемся 1% использовать хоть ризонер). Одно дело выковыривать данные с нуля написанной самопальной выковыривалкой, другое --- взять нахаляву готовый RDF Sponger и склонировать один из десятков готовых "картриджей"-выковыривателей. Тем более если речь про туризм, когда нужные названия могут запросто оказаться на незнакомом языке, но при этом dbpedia и geonames уже хранят если не русские то уж точно английские эквиваленты. Вы уверены, что у вас не будет трудностей с китаизацией и арабизацией _одновременно_ ? "По сумме очков", BBC даже свой собственный архив каталогизирует в RDF, это при том что там "поставщик информации" всего один, всегда "на связи" и всячески помогает архивариусу, а не гадит. Томас Рейтерс тоже не отстаёт. А уж эти ребята знают толк в сборе информации. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.09.2010, 14:42 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
iv_an_ru, iv_an_ru Я б так сказал, всем, кроме затрат на обучение разработчика. Одно дело самопальничать словари в какой-то базе неизвестной полноты и актуальности, другое --- брать готовые из SWEO LOD. 1. вряд ли в SWEO LOD есть полные и актуальные словари на все случаи жизни. Ну или хотя бы данные для более-менее полной модели предметной области по туризму. 2. никто не мешает взять готовые словари, сконвертировать в нужную субд и пользоваться. Пока преимущества не вижу. iv_an_ru Одно дело писать скрипты, другое --- не писать в 99% случаев, просто использовать язык, более подходящий для ad hoc запросов (зато в оставшемся 1% использовать хоть ризонер). Про какой именно "более подходящий язык" идет речь, с какими именно скриптами он сравнивается, и в контексте каких задач? iv_an_ru Одно дело выковыривать данные с нуля написанной самопальной выковыривалкой, другое --- взять нахаляву готовый RDF Sponger и склонировать один из десятков готовых "картриджей"-выковыривателей. Тем более если речь про туризм, когда нужные названия могут запросто оказаться на незнакомом языке, но при этом dbpedia и geonames уже хранят если не русские то уж точно английские эквиваленты. Вы уверены, что у вас не будет трудностей с китаизацией и арабизацией _одновременно_ ? Давайте по шагам. 1. Сканеры сайтов ("скачать все интересующие страницы с заданного сайта"). В perl, python, php куча готовых решений для этого, со всеми возможными свистелками и финтифлюшками. Что-то более эффективное, чем уже придуманные решения, изобрести очень трудно, да наверное и незачем. В сложных случаях (картинки, js, антисканеры, капчи) в любом случае с каждым сайтом придется работать индивидуально. Скриптовые языки здесь более предпочтительны - проще и дешевле найти разработчиков. 2. Адаптеры ("разобрать html-страницу и получить на выходе структурированные данные"). например из Код: plaintext 1. 2. 3. 4. 5. Код: plaintext 1. К сожалению, я не знаю, что есть RDF Sponger'ы и какие у них возможности. Они могут автоматизированно решить эту задачу, без задания человеком правил распознавания для каждого типа страниц? Если нет, то в чем тогда преимущество перед скриптовыми "выдиральщиками" информации? 3. Нормализация данных. Предметная область у ТС небольшая и сущностей не то чтобы особо много. Верю, что rdf-ориентированные тулзы справятся, но точно так же и скриптовые языки справятся, с помощью регекспов и словарей. 4. Агрегация данных ("определить, что эта группа объектов на самом деле одно и то же и оставить в выходных данных только одну копию объекта") Собственно, все упирается в задание правил "одинаковости" объектов и производительность обработки. - правила все равно придется задавать вручную, под заданную предметную область, универсальный "сравниватель" произвольных объектов реализовать невозможно. - про производительность RDF-хранилищ по сравнению с реляционными базами, к сожалению, ничего сказать не могу, не сравнивал. Однако, есть мнение, что особая производительность и не потребуется. Во-первых, объем данных неизвестен, во-вторых, даже если он большой, можно разбить данные на независимые блоки и обсчитывать отдельно, на разных железках. iv_an_ru "По сумме очков", BBC даже свой собственный архив каталогизирует в RDF, это при том что там "поставщик информации" всего один, всегда "на связи" и всячески помогает архивариусу, а не гадит. Томас Рейтерс тоже не отстаёт. А уж эти ребята знают толк в сборе информации. Насколько я понимаю, у топикстартера стоит цель не создать второй архив BBC, а с минимальными финансовыми затратами тырить информацию у конкурентов и показывать ее в человекочитаемом виде на своем сайте до тех пор, пока этот сайт не раскрутится Да, и поставщиков будет много, и вряд ли они будут гореть желанием помочь архивариусу P.S. Было бы интересно услышать, какие компоненты/api вы бы использовали для при реализации подобной системы. Особо интересует выбор rdf-хранилища, api для адаптеров и агрегации информации. P.P.S. Я правильно понимаю, что rdf-хранилища используются только для обработки/хранения информации, а для выдачи в веб все-таки используются более легковесные базы данных? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.09.2010, 20:50 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
hellium, Для разовой программы для себя лично лучше использовать не самую подходящую тулзу, а самую знакомую. Для долгосрочной затеи "Data as a Service" надо уже садиться и тщательно считать деньги по обеим вариантам, в т.ч. раздумывая, сколько будет стоить переделка, когда через пару лет клиенты начнут требовать выхлоп именно в виде RDF. 1. Сканеры сайтов ("скачать все интересующие страницы с заданного сайта"). В perl, python, php куча готовых решений для этого, со всеми возможными свистелками и финтифлюшками.В любой миддлварной СУБД для этого тоже есть готовые функции. С той только разницей, что не будет проблем написать запрос, который будет мимоходом подкачивать недостающие данные. Для выдирания известных прайсов по списку это излишне, но если приспичит что посерьёзней, то может быть и незаменимым. Весь ебай или амазон или travelocity не перекачаешь, а вот выкусить "на лету" пару строго необходимых страничек --- совсем другое дело. 2. Адаптеры ("разобрать html-страницу и получить на выходе структурированные данные").Если в СУБД есть стойкий к ошибкам вёрстки HTML-парсер и XSLT с возможностью встраивания как SQL так и SPARQL, то код будет и нагляднее любых регэкспов, и устойчивее к мелким правкам вёрстки и уж точно не длиннее. автор3. Нормализация данных.Зависит от аппетитов ТС, цены начального наполнения и скорости изменения словарей. Хороший многоязыковой словарь может стоить ой-ой-ой, разумно как минимум для начала убедиться, что готового в природе не существует. автор4. Агрегация данных ("определить, что эта группа объектов на самом деле одно и то же и оставить в выходных данных только одну копию объекта")С этим, как и с любым другим логическим выводом, в RDF разбираться намного проще, чем в классических базах. owl:sameAs для интеграции "разношёрстных" данных _очень_ удобен. Вы правы, что "правила все равно придется задавать вручную, под заданную предметную область", вопрос в цене разработки, если правила сложны. про производительность RDF-хранилищ по сравнению с реляционными базами, к сожалению, ничего сказать не могу, не сравнивал.С этим всё в порядке, тем более если пузомеряться с LAMP. P.S. Было бы интересно услышать, какие компоненты/api вы бы использовали для при реализации подобной системы.Поскольку система строится с нуля, нет никаких старых корпоративных баз, (которые должны жужжать в неизменном виде но при этом разделять данные с новым приложением), то взял бы халявную Virtuoso Open Source. RDBMS с нормальным SQL-ем + хорошая, не для галочки, поддержка RDF + hosted Perl/PHP/Python/Java/C + ODBC/UDBC/IODBC/JDBC/ADO.Net + XPATH/XQuery/XSLT + HTTP/DAV/SOAP... и всё в одном экзешнике. Если бы стояла ещё и задача интеграции со старым "зоопарком", то я б тут разливался соловьём про Virtuoso Universal Server, в котором кроме всего уже перечесленного есть виртуальная схема, поддержка кластеризации и ещё по мелочи, и поэтому он продаётся по цене примерно в половину от оракловских лицензий (а мне с этих лицензий зарплата образуется ;) Но поскольку ни такой интеграцией ни кластерами тут и не пахнет, я могу с чистой совестью советовать сэкономить деньги и брать халяву :) И даже если решить, что эта задача "не вырастет" и ограничиться LAMP-ом, то все равно вечерами разбираться с RDF/SPARQL/OWL. Тот, кто сейчас наберётся опыта с этим, потом окажется в таком же выигрышном положении, в каком 15 лет назад были люди с реальным опытом работы с HTTP/HTML. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.09.2010, 21:42 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
iv_an_ru, iv_an_ruДля разовой программы для себя лично лучше использовать не самую подходящую тулзу, а самую знакомую. Для долгосрочной затеи "Data as a Service" надо уже садиться и тщательно считать деньги по обеим вариантам, в т.ч. раздумывая, сколько будет стоить переделка, когда через пару лет клиенты начнут требовать выхлоп именно в виде RDF. наверное, экспорт реляционных в RDF это не такая уж и сложная задача. а подсчитывать нужно еще и стоимость и распространенность специалистов, которые будут работать с rdf-хранилищем. iv_an_ru1. Сканеры сайтов ("скачать все интересующие страницы с заданного сайта"). В perl, python, php куча готовых решений для этого, со всеми возможными свистелками и финтифлюшками.В любой миддлварной СУБД для этого тоже есть готовые функции. С той только разницей, что не будет проблем написать запрос, который будет мимоходом подкачивать недостающие данные. Для выдирания известных прайсов по списку это излишне, но если приспичит что посерьёзней, то может быть и незаменимым. Весь ебай или амазон или travelocity не перекачаешь, а вот выкусить "на лету" пару строго необходимых страничек --- совсем другое дело. разницы нет, в скриптовых языках тоже никто не мешает задавать критерии отбора страниц, которые надо скачать/обновить. iv_an_ru 2. Адаптеры ("разобрать html-страницу и получить на выходе структурированные данные").Если в СУБД есть стойкий к ошибкам вёрстки HTML-парсер и XSLT с возможностью встраивания как SQL так и SPARQL, то код будет и нагляднее любых регэкспов, и устойчивее к мелким правкам вёрстки и уж точно не длиннее. в perl/python, если библиотека парсера по каким-то причинам не устраивает, можно его спокойно выкинуть и взять более подходящий. А встроенный в субд html-парсер, насколько я понимаю, заменить сложнее iv_an_ru автор3. Нормализация данных.Зависит от аппетитов ТС, цены начального наполнения и скорости изменения словарей. Хороший многоязыковой словарь может стоить ой-ой-ой, разумно как минимум для начала убедиться, что готового в природе не существует. ну это от платформы не зависит iv_an_ru автор4. Агрегация данных ("определить, что эта группа объектов на самом деле одно и то же и оставить в выходных данных только одну копию объекта")С этим, как и с любым другим логическим выводом, в RDF разбираться намного проще, чем в классических базах. owl:sameAs для интеграции "разношёрстных" данных _очень_ удобен. Пока ничего не могу сказать, надо посмотреть/попробовать ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.09.2010, 22:43 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
helliumiv_an_ruчто не будет проблем написать запрос, который будет мимоходом подкачивать недостающие данные. Для выдирания известных прайсов по списку это излишне, но если приспичит что посерьёзней, то может быть и незаменимым. Весь ебай или амазон или travelocity не перекачаешь, а вот выкусить "на лету" пару строго необходимых страничек --- совсем другое дело. разницы нет, в скриптовых языках тоже никто не мешает задавать критерии отбора страниц, которые надо скачать/обновить.Разница есть, с "отдельно стоящими" скриптовыми языками можно сделать SQL запрос, на основании возвращённых значений принять решение и выкачать какие-то странички, распарсить их, долить данные в базу, сделать следующий SQL запрос к уже "расширенным данным" и.т.п. Запросы могут быть разными логическими этапами одного "большого" запроса ("скачать список радиопередатчиков, продающихся поставщиком X, для каждого товара попробовать скачать ТТХ, для каждого передатчика с мощностью выше 2Вт попробовать скачать национальный сертификат...") или стадиями запроса с неподвижной точкой ("скачать лист комплекрующих подукта X, затем для каджой комплектующей --- лист её комплектующих, продолжать до тех пор, пока будут обнаруживаться не расписанные ранее узлы"). В любом случае для SQL+PL нужно городить скрипт. В SPARQL-BI можно просто указать, за какими данными нужно лезть "наружу", если их в местной базе нет, а какие брать только из местных источников. helliumiv_an_ru3. Нормализация данных... Зависит от аппетитов ТС, цены начального наполнения и скорости изменения словарей. Хороший многоязыковой словарь может стоить ой-ой-ой, разумно как минимум для начала убедиться, что готового в природе не существует. ну это от платформы не зависитЕщё как зависит. Вот есть WordNet --- весь английский язык в одном флаконе RDF-графе. Ну и как в нём ковыряться скриптом? Никак. Если приспичит, то придётся ругаться на судьбу-злодейку и учить SPARQL и т.п. А раз выучил, так вопрос "цены разработчика" и снялся. В общем, куча мелких фенечек в обмен за одно серьёзное разовое вложение времени/сил. Стоит посмотреть до хотя бы той степени, когда прояснятся размер кучи и ценник. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.09.2010, 23:21 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
iv_an_ru В общем, куча мелких фенечек в обмен за одно серьёзное разовое вложение времени/сил. Стоит посмотреть до хотя бы той степени, когда прояснятся размер кучи и ценник. и опять вы забыли о преимуществах кучи мелких всегда готовых написать пасер на основе несложных формальных правил и готовой mysql-схемы, пшп-программистов. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.09.2010, 23:43 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
netwindiv_an_ru В общем, куча мелких фенечек в обмен за одно серьёзное разовое вложение времени/сил. Стоит посмотреть до хотя бы той степени, когда прояснятся размер кучи и ценник. и опять вы забыли о преимуществах кучи мелких всегда готовых написать пасер на основе несложных формальных правил и готовой mysql-схемы, пшп-программистов. Да, если задача будет простой, то эти преимущества будут решающими. Если сложной, то надо считать. Среди прочего, задать себе вопрос: этим пшп-программистам им религия не велит цепляться к чему-нибудь, кроме mysql? А то ведь hosted php для разовых поделок никто не отменял, если выхлоп не грузит систему, то могут и дальше на php писать, к примеру, весь веб-сайт. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.09.2010, 00:18 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
iv_an_ruДа, если задача будет простой, то эти преимущества будут решающими. Если сложной, то надо считать. Среди прочего, задать себе вопрос: этим пшп-программистам им религия не велит цепляться к чему-нибудь, кроме mysql? А то ведь hosted php для разовых поделок никто не отменял, если выхлоп не грузит систему, то могут и дальше на php писать, к примеру, весь веб-сайт. Вроде бы принцип KISS еще тоже не отменили ) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.09.2010, 09:37 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
hellium, iv_an_ru зарабатывает на тех, кто в него не верит. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.09.2010, 09:53 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
helliumВроде бы принцип KISS еще тоже не отменили )Ну да. И для простых случаев KISS==LAMP. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.09.2010, 17:23 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
statusdenДобрый вечер всем! Стоит следующая задача: Написать программу для туристического агенства. Суть такая: есть входные данные, или условия поиска ... тур-опреатор, город, категория отеля, питание, заезд с какого числа и т.п. ... Программа анализирует список из 50 примерно сайтов, и выдает результат в виде таблицы, например отсортир по ценам.. еще приявязать к этим отелям отзывы с двух сайтов. Вопрос: возможно ли такое осуществить ? ... Как это можно реализовать ? .... И если такое кто возьмется сделать, то цена вопроса.?! в таких случаях вы подписываете договор непосредственно с сайтами на поставку вам данных они ес-но берут за это деньги потом вы делаете на своем сайте сравнилку и по Affiliate ссылке передаете человека на соответствующую страницу за клиента вы получаете вознаграждение Pay-per-Click За парсинг чужой инфы вам могут влепить нехилый штраф ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.10.2010, 15:00 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
jbond81За парсинг чужой инфы вам могут влепить нехилый штраф а мужики-то не знают ) А если серьезно, без контекста это слова ни о чем . Что за информация, откуда и куда сканится, публикуется ли, если да, то как, законодательство какой страны используется, и т.п. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.10.2010, 15:35 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
helliumjbond81За парсинг чужой инфы вам могут влепить нехилый штраф а мужики-то не знают ) А если серьезно, без контекста это слова ни о чем . Что за информация, откуда и куда сканится, публикуется ли, если да, то как, законодательство какой страны используется, и т.п. мужики то не знают, а контекст "сделать сравнилку услуг по определенным сайтов". Вот в этом контексте нужно проблему решать не "граббингом и парсингом HTML", а заключением договоров. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.10.2010, 15:42 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.10.2010, 15:44 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Контекст "сделать сравнилку услуг по определенным сайтов. Дёшево. Конкурентам не платить". Тут партнёрка не канает (до определенного уровня) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.10.2010, 19:19 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Гата СеловКонтекст "сделать сравнилку услуг по определенным сайтов. Дёшево. Конкурентам не платить". Тут партнёрка не канает (до определенного уровня) кто есть конкуренты? это другие сравнилки. и зачем им платить? а партнерка заключается между сравнилкой (аффилиат-партнер) и поставщиками данных (сайты услуг). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.10.2010, 10:34 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
jbond81кто есть конкуренты? это другие сравнилки. и зачем им платить? видимо, вы все-таки ошибаетесь statusdenНаписать программу для туристического агенства. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.10.2010, 10:38 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
автор Программа анализирует список из 50 примерно сайтов каких? кому принадлежат они? за граббинг информации с этих сайтов можно получить штраф. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.10.2010, 11:10 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
jbond81, ну так давай выписывай квитанцию. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.10.2010, 11:13 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
netwind, дополнение: в первую очередь надо выписывать квитанции гуглу, яндексу, майлру, рамблеру и бингу. деньжищ то сколько огрести можно будет ) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.10.2010, 11:19 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
helliumnetwind, дополнение: в первую очередь надо выписывать квитанции гуглу, яндексу, майлру, рамблеру и бингу. деньжищ то сколько огрести можно будет ) имеется ввиду граббинг с целью обработки, сохранения в структурированном виде и последующего использования информации. а так же использования чужой информации (текстовой, графической и т.п.) на своем сайте. это не гугл и не яндекс. кстати, Яндекс Макрет, а так же другие сравнилки имеют именно API интерфейс, по которому шопу публикуют информацию о товарах и их ценах. Называется партнерская программа. Яндекс/Google там ничего не грабит и не парсит. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.10.2010, 11:26 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
jbond81, квитанция где? куда штраф платить? и вообще, предъявите документы! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.10.2010, 11:28 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
jbond81имеется ввиду граббинг с целью обработки, сохранения в структурированном виде и последующего использования информации. а так же использования чужой информации (текстовой, графической и т.п.) на своем сайте. это не гугл и не яндекс. чем из вышеперечисленного поисковики не занимаются? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.10.2010, 13:44 |
|
||
|
|

start [/forum/topic.php?all=1&fid=16&tid=1343410]: |
0ms |
get settings: |
9ms |
get forum list: |
20ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
209ms |
get topic data: |
13ms |
get forum data: |
3ms |
get page messages: |
128ms |
get tp. blocked users: |
2ms |
| others: | 237ms |
| total: | 629ms |

| 0 / 0 |
