powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Программа. Сборщик информации с сайтов.
73 сообщений из 73, показаны все 3 страниц
Программа. Сборщик информации с сайтов.
    #36858849
statusden
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Добрый вечер всем!
Стоит следующая задача: Написать программу для туристического агенства. Суть такая: есть входные данные, или условия поиска ... тур-опреатор, город, категория отеля, питание, заезд с какого числа и т.п. ... Программа анализирует список из 50 примерно сайтов, и выдает результат в виде таблицы, например отсортир по ценам.. еще приявязать к этим отелям отзывы с двух сайтов.
Вопрос: возможно ли такое осуществить ? ... Как это можно реализовать ? .... И если такое кто возьмется сделать, то цена вопроса.?!
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36858883
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
statusden,
Возможно.
Нужен парсер преобразующий html в структурированую информацию. В той или иной форме задача уже решалась и пути решения известны. Но велосипед неизбежен. Остальная часть по разбору полученых результатов бананальна и решаема.
Столько сколько запросит исполнитель. Скорее зависити от содержимого сайтов и потребностей.
А вы с практической целью или как?
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36859075
statusden
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
antares0,
Спасибо за ответ. Да я с практической целью интересуюсь. Сайты в принципе все извсетные, это различные тур операторы. Как пример TezTour. Если интересует, то более детально тех задание могу присалать.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36859174
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
statusden,
Интересно. Почта в профиле.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36859536
statusden
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
antares0,

Ок. Сегодня вечером иди завтра днем вышлю
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36860367
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
antares0 wrote:

> Нужен парсер преобразующий html в структурированую информацию. В той или
> иной форме задача уже решалась и пути решения известны.

Это твои девичьи мечты. Преобразовать неструктурированную информацию (html)
в структурированную можно только с использованием интеллекта, человеческого
или искусственного.
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36860998
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZiv,
Или ваш маразм (да простят меня модераторы). Информация на сайте неструктурирована относительно. Если брать какой-то опредленный сайт, то ему вполне сопоставить шаблон, с участием интелекта да. Используя этот шаблон можно уже забирать информацию автоматически. Если не знаете как это делается, то могу посоветовать самообразование. Очень помогает.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861027
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Злой я сегодня. Но самообразовываться все равно полезно.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861150
ShSerge
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
antares0Злой я сегодня. Но самообразовываться все равно полезно.
Самообразовывайтесь. Кто Вам мешает?
Собственно, по сабжу, на каком языке пишите? Могу в три строчки (соврал - в одну) примерчик написать, как сдёрнуть данные. А распарсить хтмл, который и есть струкрурированные данные - проще простого. Потому и спрашиваю, что за язык, потому что для всех по много вариантов есть. Сами ищите подходящие для вашего случая парсеры.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861156
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ShSerge,
Да я и сам знаю, ученый. Это MasterZiv выражает сомнени в том что из html-я можно выдрать что-нибудь структурированое. На это только ИИ способен видите ли.
Читай те уж тему по порядку.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861187
Гата Селов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZiv
Преобразовать неструктурированную информацию (html)
в структурированную можно только с использованием интеллекта

они, парсеры (по крайней мере по объявлениям недвижимости, транспорта) так и работают: на каждый сайт свой метод с кучей свичей и ифов, приводящий табличку с сайта к станартному виду.

И топикстартеру: одному агенТству одна студия сляпала сайт за большие деньги, в шапке которого, помимо всякой лабуды жирными буквами было написано "агенство недвижимости". Нехорошие люди написали петицию от имени общества "в защиту Русского языка от лаптей", и добрые деловые отношения агенТства и студии были подорваны.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861219
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
antares0, остыл немного? Или понял что наехал на модератора?

Короче слушай телегу. Всё это реально можно сделать но сложно поддерживать. В наше время веб-содержимое уже не является чистым HTML-контентом как было 20 лет назад и парсить его очень сложно. Тут возможны ситуации. Первое. Если тур-оператор резко решил сменить дизайн - то твой софт перестанет выдавать корретные данные. Второе. Если тур-оператор решил перейтие на flash-содержимое - тебя ждёт большой облом и невозможность быстро и в реальные сроки поправить положение. Третье. Если тур-оператор чисто в шутку опубликует свои услуги в виде скриншота - тебя ждёт еще больший облом. Разпознавание картинок - отдельная тема, которая стоит реально большие бабки. Короче говоря твой софт будет априори очень ненадёжен, глюкав и требующий бесконечной тех-поддержки. Не проще-ли посадить студентов чтоб разгребали руками контент и формировали отчётоность? Щас кризис. Людей надо обеспечить рабочими местами.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861231
Гата Селов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
1. За 100 евро автор парсера поправит втечение дня.
2. Это да.
3. Это да, хотя это редкость, и какой - нить гугл тессеракт прикрутить будет не очень дорого.

Такие парсеры для разных областей существуют, и довольно успешно. Надежность, конечно, не высокая, но на прктике это не критично (могу по недвижимости сказать: парсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).

Студенты дороже обойдутся
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861233
ShSerge
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,

Совершенно правильно сказано, за исключением того, что не студентов, а студенток.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861236
Фотография Яростный Меч
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonВторое и третье маловероятно, а насчет первого - да, придется вносить изменения.
Вот уследить за 50 сайтами, проверять работу парсеров - это отдельная, очень веселая тема (очевидно, для каждого сайта - свой парсер)

ps: Капитан Очевидность сообщает: очень пригодятся регексы.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861237
ShSerge
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гата Селов1. За 100 евро автор парсера поправит втечение дня.
2. Это да.
3. Это да, хотя это редкость, и какой - нить гугл тессеракт прикрутить будет не очень дорого.

Такие парсеры для разных областей существуют, и довольно успешно. Надежность, конечно, не высокая, но на прктике это не критично (могу по недвижимости сказать: парсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).

Студенты дороже обойдутся
Что касается авторов парсера это и лимона баксов маловато будет, а что касается программистов, применяющих этот парсер - можно и дешевле и быстрее. Точно, что не проблема. Только дело в том, что ручками - гораздо надёжнее, правильнее и даже гламурнее. А самое важное в том, что нам, программистам, то есть, за это деньги платят.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861288
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Яростный МечВот уследить за 50 сайтами, проверять работу парсеров - это отдельная, очень веселая тема (очевидно, для каждого сайта - свой парсер)

ps: Капитан Очевидность сообщает: очень пригодятся регексы.
Не совсем. Парсер должен быть один. Это скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайта и излекает данные о тур-услугах в неком едином формате готовом к отчетности. Если сайт будет содержать форму авторизации то возможно нужно будет поддерживать несколько XSLT-логик, с обработкой различных ACTION-s но суть остаётся той-же.

P.S. При правильном подходе регексы не понадобятся.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861293
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
antares0 wrote:

> Или ваш маразм (да простят меня модераторы). Информация на сайте
> неструктурирована относительно.

Это как "слегка беременна". Либо информация структурирована, либо
НЕ структурирована.

Если брать какой-то опредленный сайт, то
> ему вполне сопоставить шаблон, с участием интелекта да. Используя этот

Ну, а завтра они меняют дизайн -- и ...
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861294
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гата Селови какой - нить гугл тессеракт прикрутить будет не очень дорого.
Это что очерденая серебрянная пуля?
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861299
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ShSerge wrote:

> - в одну) примерчик написать, как сдёрнуть данные. А распарсить хтмл,
> который и есть *струкрурированные данные* - проще простого.

В HTML структурированы не данные, а РАЗМЕТКА текста, содержащего эти данные.

Парсить это Г -- занятие сугубо неблагодарное.

Другое дело, если сайты предоставляют всякие WEB-сервисы по SOAP...
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861317
Фотография Яростный Меч
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonЭто скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайтаИсходный код страницы - далека не всегда валидный XML.
К тому же часть информации может в нем отсутствовать и дорисовывается с помощью js, иногда с попыткой запрятать (само собой, безуспешной).
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861325
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Яростный, ты всё перепутал.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861336
clihlt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZiv
Парсить это Г -- занятие сугубо неблагодарное.


Абсолютная правда.

Just for fun, накидал простейший скриптец - выдерает с фишек.нет фотки девок и складирует в папку.
Автор лови ))) Может поможет чем ))
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861343
clihlt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Яростный МечmaytonЭто скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайтаИсходный код страницы - далека не всегда валидный XML.
К тому же часть информации может в нем отсутствовать и дорисовывается с помощью js, иногда с попыткой запрятать (само собой, безуспешной).

Мало того - код страницы не всегда даже валидный HTML.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861347
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
И не валидный HTML,
И не докачанный до конца,
И с наполнением контента через jscript.
И с неизвестной кодировкой.
И с враппленной, и заGIF-ленной ценной информацией.
И с капчей на странице логона.
И с детектором роботов на сервере
И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт.

Вот такие пирожки.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861366
грабун
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
"грабил" пару-тройку прайс-интеграторов старым-добрым Экселем, на вопрос свойств/картинок
очень, скажу - "не внапряг" было - никакого тебе парсинга хтмл-я,
чинно-благородно - по клеточкам
и до сих пор шаблоны рабочие, хотя прошло ~3г
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861370
clihlt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,

Это верно. И некоторые товарищи на этом зарабатывают.
Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у. Обычная околоучетная программа, но умеет в автомате коллекционировать объявления с сайтов о работе, сохранять их базу, сортировать, искать и т.п.
Авторы отдельно продают саму прогу и подписку на обновления поискового интернет модуля на определенный период.
Так что.. задумка ТС может быть не лишена смысла.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861380
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Всё зависит от того куда ветер подует веб повернётся. Будет-ли тотальный Ajax или тонкий клиент. Хр. зн. Но такие поисковые модули полезны хотя-бы тем что опыт прокачивается. Учишся работать действительно с "грязной" информацией.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861402
clihlt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,

Тотальный ajax на самом деле задачу парса может упростить. Как правило посредством ajax-а запрашивают с сервера почти чистые данные. Т.е. не надо лопатить килобайты html-а с левыми банерами, вставками с других сайтов и т.п.
В случае с флешем задача тоже наверняка решаемая. Декомпилируем флешку, смотрим как она запрашивает данные, повторяем это поведение ( хотя могу ошибаться, т.к. мои познания в флеше близки к 0 ).
Картинки - да.... с этим не просто будет порешать.

Но в любом случае подход к разбору данных будет менятся от сайта к сайту и от версии сайта к следующей версии. Поддерживать такой парсер, как уже говорилось, не сахар...

грабун
и до сих пор шаблоны рабочие, хотя прошло ~3г


Дык это везение просто ). Все зависит от "хозяина" сайта. Некоторые дизайн кажные полгода меняют ).
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861414
Гата Селов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonЭто что очерденая серебрянная пуля?
Это пример решения очередной возникшей проблемы.
Написание парсеров - работа для ремесленника, без поисков красивого решения и прочих инженерно - творческих изысков. Изменили что - то на сайте - оценил обьём работ по переделке, договорился с заказчиком, переделал, получил деньги, потратил деньги, пошел делать другие дела, пока тут снова что - то не поменяется, и опять не потребуется переделка.
Как с турагентствами не знаю, но купи-продай более - менее крупные сайты редко меняют дизайн
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861446
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
clihlt
Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у.
интересно было бы взглянуть :)
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861456
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).
как-то у вас очень удачно сложилось.
есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно)
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861709
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Если это серъёзный бизнес то проще подписаться на новости от тур оператора. Или договориться о получении доступа к его MySQL базе. Все остальные решения (лично мне) напоминают студенческие поделки.

IMHO.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861718
Фотография Узурпатор
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
helliumГата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).
как-то у вас очень удачно сложилось.
есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно)это скорее перспектива а не статистика, но мысль верная.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861727
Фотография Узурпатор
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonЕсли это серъёзный бизнес то проще подписаться на новости от тур оператора. Или договориться о получении доступа к его MySQL базе. Все остальные решения (лично мне) напоминают студенческие поделки.

IMHO.ога. могут и того
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861729
Фотография mriadus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Занимаюсь темой в данный момент. Пришлось создать небольшую обнаруживалку шаблонов в HTML-документе и "язык" под неё. Язык позволяет минут за 5-10 описывать процедуру выдирания данных с конкретного сайта. Пока успешно работает для выдирания содержимого форумов. Валидность HTML не важна, документ рассматривается как линейная посл. HTML-тегов. Пример кода на для выдирания топиков с этого форума:
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
html $i= 0  $meta="",
* *,
META http-equiv $meta=$meta + CONTENT,
* *,
(
    * *,
    TR, TD, IMG, /TD,
    TD, TEXT ?, A $topiclink=href,text $topictext=data, /A, (SPAN, * *, /SPAN){ 0 , 1 }, (FONT, TEXT, /FONT){ 0 , 1 }, (text *,A,FONT,TEXT,/FONT,/A){ 0 , 1 }, /TD,
    TD, A $memberlink=href, TEXT $membername=data, /A, /td,
    TD, TEXT $rpl=data, /TD,
    TD, TEXT $vw=dATA, /TD,
    TD, TEXT $tm=DATA, /TD,
    /TR
    $topics[$i]=$topictext
    $members[$i]=$membername
    $topiclinks[$i]= "http://sql.ru/forum/" + $topiclink
    $memberlinks[$i]= "http://sql.ru/forum/" + $memberlink
    $replies[$i]=$rpl
    $views[$i]=$vw
    $times[$i]=$tm
    $i=$i+ 1 
) +

Можете стучать в скайп.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861769
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А твой птичий язык может описывать доступ к уровню вложенности? Например мне нужно игнорировать квтотирование комментариев.

P.S. Как-же к тебе стучать, когда ты всегда в оффлайне сидишь, злодей... ?
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861899
Фотография mriadus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonА твой птичий язык может описывать доступ к уровню вложенности? Например мне нужно игнорировать квтотирование комментариев.

P.S. Как-же к тебе стучать, когда ты всегда в оффлайне сидишь, злодей... ?
Не может, т.к. ему плевать на иерархичность внутри HTML (дабы забыть о проблемах с валидностью).
Я в онлайне круглосуточно почти, а все говорят, что я оффлайн. Просто шли сообщение, оно прожуётся. Скайп хитр и заковырест.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861999
clihlt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
helliumclihlt
Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у.
интересно было бы взглянуть :)

Толи E-Staff Рекрутер, толи PDS Рекрутер. Который из двоих я видел уже не вспомню. Но всети наверняка можно найти для скачки и тот и тот.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866227
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,
Про наличае модераторского значка в кармане собеседника знал заранее, но ни считаю для себя правильным издлишне выносить эмоции. Но злюсь иногда.
Не уверен что телега привезла для меня что-то новое, но за потрачное время на вреия , спасибо.
Но если смотреть на задачу с такой стороны, то "мы все умрем". После определенного количества пропускаемой информации работать с студентами в таком качестве становиться неудобным. А флэшки с бинарно-шифрованым протоколом и скриншоты на всю странцу это скорее страшилки, чем реальность для каждого второго сайта..
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866230
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZiv
antares0 wrote:

> Или ваш маразм (да простят меня модераторы). Информация на сайте
> неструктурирована относительно.

Это как "слегка беременна". Либо информация структурирована, либо
НЕ структурирована.

Если брать какой-то опредленный сайт, то
> ему вполне сопоставить шаблон, с участием интелекта да. Используя этот

Ну, а завтра они меняют дизайн -- и ...

С точки зрения отдающе стороны он отдает вполне структурированую информацию. Другой вопрос что принимающая сторона может судить об этой стрктуре лишь опосредовано. Что все равно не мешает выдирать нужную информацию.
Сама по себе смена дизайна при правильно-поставленых методах кардинально проект не угробит.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866235
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Яростный МечИсходный код страницы - далека не всегда валидный XML.
Да почти никогда, но есть метлды приведения в вадидный вид
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866238
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonИ не валидный HTML,
И не докачанный до конца,
И с наполнением контента через jscript.
И с неизвестной кодировкой.
И с враппленной, и заGIF-ленной ценной информацией.
И с капчей на странице логона.
И с детектором роботов на сервере
И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт.

Вот такие пирожки.
Это больше похоже на описание файлообменника с многостадийным унижением пользователей-хадявщиков.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866247
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
helliumГата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).
как-то у вас очень удачно сложилось.
есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно)
Ну почему не радужно. И сайтов ведь на почти 2 порядка больше. И нисмотря на это система все еще как-то работает. и сколько стундетов освободилось.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866267
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
И не валидный HTML, --- зафиксать можно;
И не докачанный до конца, --- можно распознать и докачать;
И с наполнением контента через jscript. --- какой-нибудь JSON читать ещё проще;
И с неизвестной кодировкой. --- с почти известной, одной из семи :)
И с враппленной, и заGIF-ленной ценной информацией. --- студентка перебьёт;
И с капчей на странице логона. --- делается сервер с бесплатным порно, впускающий за распознавание капчи.
И с детектором роботов на сервере --- антидетектор на клиенте :)
И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт. --- а вот это уже да, проблема. Горячий паяльник из заднего прохода программными средствами не извлекается.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866269
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
statusden,

И кстати сначала выгружайте в RDF, нормализуйте, потом уже складывайте в реляционную СУБД (если это вообще понадобится). Придётся подучиться, зато потом сэкономите кучу времени и качество выхлопа обеспечите поприятнее обычного.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866283
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iv_an_ru И не валидный HTML, --- зафиксать можно;
И не докачанный до конца, --- можно распознать и докачать;
И с наполнением контента через jscript. --- какой-нибудь JSON читать ещё проще;
И с неизвестной кодировкой. --- с почти известной, одной из семи :)
И с враппленной, и заGIF-ленной ценной информацией. --- студентка перебьёт;
И с капчей на странице логона. --- делается сервер с бесплатным порно, впускающий за распознавание капчи.
И с детектором роботов на сервере --- антидетектор на клиенте :)
И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт. --- а вот это уже да, проблема. Горячий паяльник из заднего прохода программными средствами не извлекается.
Отлично. Включаем это всё в техническое задание.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866540
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iv_an_rustatusden,
И кстати сначала выгружайте в RDF, нормализуйте, потом уже складывайте в реляционную СУБД (если это вообще понадобится). Придётся подучиться, зато потом сэкономите кучу времени и качество выхлопа обеспечите поприятнее обычного.
А почему именно в RDF? Есть более легковесные форматы, тот же yaml. Можно вообще без промежуточной выгрузки обойтись, сразу в базу складывать
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866878
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hellium,
Я не про RDF/XML, а именно про RDF как модель хранения знаний. Не надо сериализовывать во что-то промежуточное, достаточно, чтобы анализатор сайтов добавлял новые факты в RDF-хранилище и удалял старые. Любым способом, хоть через специализированное API хранилища хоть SPARUL через ODBC/UDBC/IODBC/JDBC... да хоть через веб-сервисы.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36867284
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iv_an_ruhellium,
Я не про RDF/XML, а именно про RDF как модель хранения знаний. Не надо сериализовывать во что-то промежуточное, достаточно, чтобы анализатор сайтов добавлял новые факты в RDF-хранилище и удалял старые. Любым способом, хоть через специализированное API хранилища хоть SPARUL через ODBC/UDBC/IODBC/JDBC... да хоть через веб-сервисы.
Я бы сделал по-простому: данные складываются сразу в mysql-базу, на эту же базу смотрит веб-интерфейс (ну, или делается выгрузка в отдельную базу, адаптированную специально для веба).
Нормализация данных - регекспы, словари, подгружаемые из базы.
Агрегатор - sql + немного скриптовой логики (на чистом sql сделать можно, но будет очень громоздко).

Чем использование rdf-хранилища + специализированных api лучше этой схемы?
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36868045
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
helliumЯ бы сделал по-простому: данные складываются сразу в mysql-базу, на эту же базу смотрит веб-интерфейс (ну, или делается выгрузка в отдельную базу, адаптированную специально для веба).
Нормализация данных - регекспы, словари, подгружаемые из базы.
Агрегатор - sql + немного скриптовой логики (на чистом sql сделать можно, но будет очень громоздко).

Чем использование rdf-хранилища + специализированных api лучше этой схемы?
Я б так сказал, всем, кроме затрат на обучение разработчика. Одно дело самопальничать словари в какой-то базе неизвестной полноты и актуальности, другое --- брать готовые из SWEO LOD. Одно дело писать скрипты, другое --- не писать в 99% случаев, просто использовать язык, более подходящий для ad hoc запросов (зато в оставшемся 1% использовать хоть ризонер). Одно дело выковыривать данные с нуля написанной самопальной выковыривалкой, другое --- взять нахаляву готовый RDF Sponger и склонировать один из десятков готовых "картриджей"-выковыривателей. Тем более если речь про туризм, когда нужные названия могут запросто оказаться на незнакомом языке, но при этом dbpedia и geonames уже хранят если не русские то уж точно английские эквиваленты. Вы уверены, что у вас не будет трудностей с китаизацией и арабизацией _одновременно_ ?

"По сумме очков", BBC даже свой собственный архив каталогизирует в RDF, это при том что там "поставщик информации" всего один, всегда "на связи" и всячески помогает архивариусу, а не гадит. Томас Рейтерс тоже не отстаёт. А уж эти ребята знают толк в сборе информации.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36868794
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iv_an_ru,

iv_an_ru
Я б так сказал, всем, кроме затрат на обучение разработчика.

Одно дело самопальничать словари в какой-то базе неизвестной полноты и актуальности,
другое --- брать готовые из SWEO LOD.

1. вряд ли в SWEO LOD есть полные и актуальные словари на все случаи жизни. Ну или хотя бы данные для более-менее полной модели предметной области по туризму.

2. никто не мешает взять готовые словари, сконвертировать в нужную субд и пользоваться.

Пока преимущества не вижу.

iv_an_ru
Одно дело писать скрипты, другое --- не писать в 99% случаев, просто использовать язык, более подходящий для ad hoc запросов (зато в оставшемся 1% использовать хоть ризонер).

Про какой именно "более подходящий язык" идет речь, с какими именно скриптами он сравнивается, и в контексте каких задач?

iv_an_ru
Одно дело выковыривать данные с нуля написанной самопальной выковыривалкой, другое --- взять нахаляву готовый RDF Sponger и склонировать один из десятков готовых "картриджей"-выковыривателей. Тем более если речь про туризм, когда нужные названия могут запросто оказаться на незнакомом языке, но при этом dbpedia и geonames уже хранят если не русские то уж точно английские эквиваленты. Вы уверены, что у вас не будет трудностей с китаизацией и арабизацией _одновременно_ ?

Давайте по шагам.

1. Сканеры сайтов ("скачать все интересующие страницы с заданного сайта").
В perl, python, php куча готовых решений для этого, со всеми возможными свистелками и финтифлюшками.

Что-то более эффективное, чем уже придуманные решения, изобрести очень трудно, да наверное и незачем. В сложных случаях (картинки, js, антисканеры, капчи) в любом случае с каждым сайтом придется работать индивидуально.

Скриптовые языки здесь более предпочтительны - проще и дешевле найти разработчиков.

2. Адаптеры ("разобрать html-страницу и получить на выходе
структурированные данные").
например из
Код: plaintext
1.
2.
3.
4.
5.
<tr>
	<td>бобруйск</td>
	<td>гостиница №  1 </td>
	<td>скидки  90 % в сентябре</td>
</tr>	
требуется получить
Код: plaintext
1.
{region: 'бобруйск', hotel: 'гостиница №1', 'note': 'скидки 90% в сентябре'}

К сожалению, я не знаю, что есть RDF Sponger'ы и какие у них возможности. Они могут автоматизированно решить эту задачу, без задания человеком правил распознавания для каждого типа страниц? Если нет, то в чем тогда преимущество перед скриптовыми "выдиральщиками" информации?

3. Нормализация данных.

Предметная область у ТС небольшая и сущностей не то чтобы особо много. Верю, что rdf-ориентированные тулзы справятся, но точно так же и скриптовые языки справятся, с помощью регекспов и словарей.

4. Агрегация данных ("определить, что эта группа объектов на самом деле одно и то же и оставить в выходных данных только одну копию объекта")

Собственно, все упирается в задание правил "одинаковости" объектов и производительность обработки.

- правила все равно придется задавать вручную, под заданную предметную область, универсальный
"сравниватель" произвольных объектов реализовать невозможно.

- про производительность RDF-хранилищ по сравнению с реляционными базами, к сожалению, ничего сказать не могу, не сравнивал.

Однако, есть мнение, что особая производительность и не потребуется. Во-первых, объем данных неизвестен, во-вторых, даже если он большой, можно разбить данные на независимые блоки и обсчитывать отдельно, на разных железках.

iv_an_ru
"По сумме очков", BBC даже свой собственный архив
каталогизирует в RDF, это при том что там
"поставщик информации" всего один,
всегда "на связи" и всячески помогает архивариусу,
а не гадит. Томас Рейтерс тоже не отстаёт.
А уж эти ребята знают толк в сборе информации.

Насколько я понимаю, у топикстартера стоит цель не создать второй архив BBC, а с минимальными финансовыми затратами тырить информацию у конкурентов и показывать ее в человекочитаемом виде на своем сайте до тех пор, пока этот сайт не раскрутится
Да, и поставщиков будет много, и вряд ли они будут гореть желанием помочь архивариусу

P.S. Было бы интересно услышать, какие компоненты/api вы бы использовали для при реализации подобной системы. Особо интересует выбор rdf-хранилища, api для адаптеров и агрегации информации.

P.P.S. Я правильно понимаю, что rdf-хранилища используются только для обработки/хранения информации, а для выдачи в веб все-таки используются более легковесные базы данных?
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36868831
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hellium,

Для разовой программы для себя лично лучше использовать не самую подходящую тулзу, а самую знакомую. Для долгосрочной затеи "Data as a Service" надо уже садиться и тщательно считать деньги по обеим вариантам, в т.ч. раздумывая, сколько будет стоить переделка, когда через пару лет клиенты начнут требовать выхлоп именно в виде RDF.

1. Сканеры сайтов ("скачать все интересующие страницы с заданного сайта").
В perl, python, php куча готовых решений для этого, со всеми возможными свистелками и финтифлюшками.В любой миддлварной СУБД для этого тоже есть готовые функции. С той только разницей, что не будет проблем написать запрос, который будет мимоходом подкачивать недостающие данные. Для выдирания известных прайсов по списку это излишне, но если приспичит что посерьёзней, то может быть и незаменимым. Весь ебай или амазон или travelocity не перекачаешь, а вот выкусить "на лету" пару строго необходимых страничек --- совсем другое дело.

2. Адаптеры ("разобрать html-страницу и получить на выходе
структурированные данные").Если в СУБД есть стойкий к ошибкам вёрстки HTML-парсер и XSLT с возможностью встраивания как SQL так и SPARQL, то код будет и нагляднее любых регэкспов, и устойчивее к мелким правкам вёрстки и уж точно не длиннее.

автор3. Нормализация данных.Зависит от аппетитов ТС, цены начального наполнения и скорости изменения словарей. Хороший многоязыковой словарь может стоить ой-ой-ой, разумно как минимум для начала убедиться, что готового в природе не существует.

автор4. Агрегация данных ("определить, что эта группа объектов на самом деле одно и то же и оставить в выходных данных только одну копию объекта")С этим, как и с любым другим логическим выводом, в RDF разбираться намного проще, чем в классических базах. owl:sameAs для интеграции "разношёрстных" данных _очень_ удобен.
Вы правы, что "правила все равно придется задавать вручную, под заданную предметную область", вопрос в цене разработки, если правила сложны.

про производительность RDF-хранилищ по сравнению с реляционными базами, к сожалению, ничего сказать не могу, не сравнивал.С этим всё в порядке, тем более если пузомеряться с LAMP.

P.S. Было бы интересно услышать, какие компоненты/api вы бы использовали для при реализации подобной системы.Поскольку система строится с нуля, нет никаких старых корпоративных баз, (которые должны жужжать в неизменном виде но при этом разделять данные с новым приложением), то взял бы халявную Virtuoso Open Source. RDBMS с нормальным SQL-ем + хорошая, не для галочки, поддержка RDF + hosted Perl/PHP/Python/Java/C + ODBC/UDBC/IODBC/JDBC/ADO.Net + XPATH/XQuery/XSLT + HTTP/DAV/SOAP... и всё в одном экзешнике.
Если бы стояла ещё и задача интеграции со старым "зоопарком", то я б тут разливался соловьём про Virtuoso Universal Server, в котором кроме всего уже перечесленного есть виртуальная схема, поддержка кластеризации и ещё по мелочи, и поэтому он продаётся по цене примерно в половину от оракловских лицензий (а мне с этих лицензий зарплата образуется ;) Но поскольку ни такой интеграцией ни кластерами тут и не пахнет, я могу с чистой совестью советовать сэкономить деньги и брать халяву :)

И даже если решить, что эта задача "не вырастет" и ограничиться LAMP-ом, то все равно вечерами разбираться с RDF/SPARQL/OWL. Тот, кто сейчас наберётся опыта с этим, потом окажется в таком же выигрышном положении, в каком 15 лет назад были люди с реальным опытом работы с HTTP/HTML.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36871186
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iv_an_ru,

iv_an_ruДля разовой программы для себя лично лучше использовать не самую подходящую тулзу, а самую знакомую. Для долгосрочной затеи "Data as a Service" надо уже садиться и тщательно считать деньги по обеим вариантам, в т.ч. раздумывая, сколько будет стоить переделка, когда через пару лет клиенты начнут требовать выхлоп именно в виде RDF.

наверное, экспорт реляционных в RDF это не такая уж и сложная задача.
а подсчитывать нужно еще и стоимость и распространенность специалистов, которые будут работать с rdf-хранилищем.

iv_an_ru1. Сканеры сайтов ("скачать все интересующие страницы с заданного сайта").
В perl, python, php куча готовых решений для этого, со всеми возможными свистелками и финтифлюшками.В любой миддлварной СУБД для этого тоже есть готовые функции. С той только разницей, что не будет проблем написать запрос, который будет мимоходом подкачивать недостающие данные. Для выдирания известных прайсов по списку это излишне, но если приспичит что посерьёзней, то может быть и незаменимым. Весь ебай или амазон или travelocity не перекачаешь, а вот выкусить "на лету" пару строго необходимых страничек --- совсем другое дело.

разницы нет, в скриптовых языках тоже никто не мешает задавать критерии отбора страниц, которые надо скачать/обновить.

iv_an_ru
2. Адаптеры ("разобрать html-страницу и получить на выходе
структурированные данные").Если в СУБД есть стойкий к ошибкам вёрстки HTML-парсер и XSLT с возможностью встраивания как SQL так и SPARQL, то код будет и нагляднее любых регэкспов, и устойчивее к мелким правкам вёрстки и уж точно не длиннее.

в perl/python, если библиотека парсера по каким-то причинам не устраивает, можно
его спокойно выкинуть и взять более подходящий. А встроенный в субд html-парсер, насколько я понимаю, заменить сложнее

iv_an_ru
автор3. Нормализация данных.Зависит от аппетитов ТС, цены начального наполнения и скорости изменения словарей. Хороший многоязыковой словарь может стоить ой-ой-ой, разумно как минимум для начала убедиться, что готового в природе не существует.

ну это от платформы не зависит

iv_an_ru
автор4. Агрегация данных ("определить, что эта группа объектов на самом деле одно и то же и оставить в выходных данных только одну копию объекта")С этим, как и с любым другим логическим выводом, в RDF разбираться намного проще, чем в классических базах. owl:sameAs для интеграции "разношёрстных" данных _очень_ удобен.

Пока ничего не могу сказать, надо посмотреть/попробовать
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36871232
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
helliumiv_an_ruчто не будет проблем написать запрос, который будет мимоходом подкачивать недостающие данные. Для выдирания известных прайсов по списку это излишне, но если приспичит что посерьёзней, то может быть и незаменимым. Весь ебай или амазон или travelocity не перекачаешь, а вот выкусить "на лету" пару строго необходимых страничек --- совсем другое дело.

разницы нет, в скриптовых языках тоже никто не мешает задавать критерии отбора страниц, которые надо скачать/обновить.Разница есть, с "отдельно стоящими" скриптовыми языками можно сделать SQL запрос, на основании возвращённых значений принять решение и выкачать какие-то странички, распарсить их, долить данные в базу, сделать следующий SQL запрос к уже "расширенным данным" и.т.п. Запросы могут быть разными логическими этапами одного "большого" запроса ("скачать список радиопередатчиков, продающихся поставщиком X, для каждого товара попробовать скачать ТТХ, для каждого передатчика с мощностью выше 2Вт попробовать скачать национальный сертификат...") или стадиями запроса с неподвижной точкой ("скачать лист комплекрующих подукта X, затем для каджой комплектующей --- лист её комплектующих, продолжать до тех пор, пока будут обнаруживаться не расписанные ранее узлы"). В любом случае для SQL+PL нужно городить скрипт. В SPARQL-BI можно просто указать, за какими данными нужно лезть "наружу", если их в местной базе нет, а какие брать только из местных источников.

helliumiv_an_ru3. Нормализация данных... Зависит от аппетитов ТС, цены начального наполнения и скорости изменения словарей. Хороший многоязыковой словарь может стоить ой-ой-ой, разумно как минимум для начала убедиться, что готового в природе не существует.
ну это от платформы не зависитЕщё как зависит. Вот есть WordNet --- весь английский язык в одном флаконе RDF-графе. Ну и как в нём ковыряться скриптом? Никак. Если приспичит, то придётся ругаться на судьбу-злодейку и учить SPARQL и т.п. А раз выучил, так вопрос "цены разработчика" и снялся.

В общем, куча мелких фенечек в обмен за одно серьёзное разовое вложение времени/сил. Стоит посмотреть до хотя бы той степени, когда прояснятся размер кучи и ценник.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36871250
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iv_an_ru
В общем, куча мелких фенечек в обмен за одно серьёзное разовое вложение времени/сил. Стоит посмотреть до хотя бы той степени, когда прояснятся размер кучи и ценник.
и опять вы забыли о преимуществах кучи мелких всегда готовых написать пасер на основе несложных формальных правил и готовой mysql-схемы, пшп-программистов.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36871298
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
netwindiv_an_ru
В общем, куча мелких фенечек в обмен за одно серьёзное разовое вложение времени/сил. Стоит посмотреть до хотя бы той степени, когда прояснятся размер кучи и ценник.
и опять вы забыли о преимуществах кучи мелких всегда готовых написать пасер на основе несложных формальных правил и готовой mysql-схемы, пшп-программистов.
Да, если задача будет простой, то эти преимущества будут решающими. Если сложной, то надо считать. Среди прочего, задать себе вопрос: этим пшп-программистам им религия не велит цепляться к чему-нибудь, кроме mysql? А то ведь hosted php для разовых поделок никто не отменял, если выхлоп не грузит систему, то могут и дальше на php писать, к примеру, весь веб-сайт.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36871501
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iv_an_ruДа, если задача будет простой, то эти преимущества будут решающими. Если сложной, то надо считать. Среди прочего, задать себе вопрос: этим пшп-программистам им религия не велит цепляться к чему-нибудь, кроме mysql? А то ведь hosted php для разовых поделок никто не отменял, если выхлоп не грузит систему, то могут и дальше на php писать, к примеру, весь веб-сайт.
Вроде бы принцип KISS еще тоже не отменили )
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36871533
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hellium, iv_an_ru зарабатывает на тех, кто в него не верит.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36872843
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
helliumВроде бы принцип KISS еще тоже не отменили )Ну да. И для простых случаев KISS==LAMP.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36882640
jbond81
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
statusdenДобрый вечер всем!
Стоит следующая задача: Написать программу для туристического агенства. Суть такая: есть входные данные, или условия поиска ... тур-опреатор, город, категория отеля, питание, заезд с какого числа и т.п. ... Программа анализирует список из 50 примерно сайтов, и выдает результат в виде таблицы, например отсортир по ценам.. еще приявязать к этим отелям отзывы с двух сайтов.
Вопрос: возможно ли такое осуществить ? ... Как это можно реализовать ? .... И если такое кто возьмется сделать, то цена вопроса.?!

в таких случаях вы подписываете договор непосредственно с сайтами на поставку вам данных
они ес-но берут за это деньги

потом вы делаете на своем сайте сравнилку и по Affiliate ссылке передаете человека на соответствующую страницу

за клиента вы получаете вознаграждение Pay-per-Click

За парсинг чужой инфы вам могут влепить нехилый штраф
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36882766
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jbond81За парсинг чужой инфы вам могут влепить нехилый штраф
а мужики-то не знают )

А если серьезно, без контекста это слова ни о чем .
Что за информация, откуда и куда сканится, публикуется ли, если да, то как,
законодательство какой страны используется, и т.п.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36882796
jbond81
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
helliumjbond81За парсинг чужой инфы вам могут влепить нехилый штраф
а мужики-то не знают )

А если серьезно, без контекста это слова ни о чем .
Что за информация, откуда и куда сканится, публикуется ли, если да, то как,
законодательство какой страны используется, и т.п.

мужики то не знают, а контекст "сделать сравнилку услуг по определенным сайтов".

Вот в этом контексте нужно проблему решать не "граббингом и парсингом HTML", а заключением договоров.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36882812
jbond81
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36883388
Гата Селов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Контекст "сделать сравнилку услуг по определенным сайтов. Дёшево. Конкурентам не платить".
Тут партнёрка не канает (до определенного уровня)
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36884086
jbond81
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гата СеловКонтекст "сделать сравнилку услуг по определенным сайтов. Дёшево. Конкурентам не платить".
Тут партнёрка не канает (до определенного уровня)

кто есть конкуренты? это другие сравнилки. и зачем им платить?

а партнерка заключается между сравнилкой (аффилиат-партнер) и поставщиками данных (сайты услуг).
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36884099
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jbond81кто есть конкуренты? это другие сравнилки. и зачем им платить?
видимо, вы все-таки ошибаетесь
statusdenНаписать программу для туристического агенства.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36884207
jbond81
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
автор
Программа анализирует список из 50 примерно сайтов


каких? кому принадлежат они?
за граббинг информации с этих сайтов можно получить штраф.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36884215
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jbond81, ну так давай выписывай квитанцию.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36884242
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
netwind,
дополнение: в первую очередь надо выписывать квитанции гуглу, яндексу, майлру, рамблеру и бингу. деньжищ то сколько огрести можно будет )
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36884261
jbond81
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
helliumnetwind,
дополнение: в первую очередь надо выписывать квитанции гуглу, яндексу, майлру, рамблеру и бингу. деньжищ то сколько огрести можно будет )

имеется ввиду граббинг с целью обработки, сохранения в структурированном виде и последующего использования информации.
а так же использования чужой информации (текстовой, графической и т.п.) на своем сайте.
это не гугл и не яндекс.

кстати, Яндекс Макрет, а так же другие сравнилки имеют именно API интерфейс, по которому шопу публикуют информацию о товарах и их ценах.

Называется партнерская программа. Яндекс/Google там ничего не грабит и не парсит.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36884268
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jbond81, квитанция где? куда штраф платить? и вообще, предъявите документы!
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36884399
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
jbond81имеется ввиду граббинг с целью обработки, сохранения в структурированном виде и последующего использования информации.
а так же использования чужой информации (текстовой, графической и т.п.) на своем сайте.
это не гугл и не яндекс.

чем из вышеперечисленного поисковики не занимаются?
...
Рейтинг: 0 / 0
73 сообщений из 73, показаны все 3 страниц
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Программа. Сборщик информации с сайтов.
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]