powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Программа. Сборщик информации с сайтов.
25 сообщений из 73, страница 2 из 3
Программа. Сборщик информации с сайтов.
    #36861366
грабун
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
"грабил" пару-тройку прайс-интеграторов старым-добрым Экселем, на вопрос свойств/картинок
очень, скажу - "не внапряг" было - никакого тебе парсинга хтмл-я,
чинно-благородно - по клеточкам
и до сих пор шаблоны рабочие, хотя прошло ~3г
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861370
clihlt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,

Это верно. И некоторые товарищи на этом зарабатывают.
Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у. Обычная околоучетная программа, но умеет в автомате коллекционировать объявления с сайтов о работе, сохранять их базу, сортировать, искать и т.п.
Авторы отдельно продают саму прогу и подписку на обновления поискового интернет модуля на определенный период.
Так что.. задумка ТС может быть не лишена смысла.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861380
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Всё зависит от того куда ветер подует веб повернётся. Будет-ли тотальный Ajax или тонкий клиент. Хр. зн. Но такие поисковые модули полезны хотя-бы тем что опыт прокачивается. Учишся работать действительно с "грязной" информацией.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861402
clihlt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,

Тотальный ajax на самом деле задачу парса может упростить. Как правило посредством ajax-а запрашивают с сервера почти чистые данные. Т.е. не надо лопатить килобайты html-а с левыми банерами, вставками с других сайтов и т.п.
В случае с флешем задача тоже наверняка решаемая. Декомпилируем флешку, смотрим как она запрашивает данные, повторяем это поведение ( хотя могу ошибаться, т.к. мои познания в флеше близки к 0 ).
Картинки - да.... с этим не просто будет порешать.

Но в любом случае подход к разбору данных будет менятся от сайта к сайту и от версии сайта к следующей версии. Поддерживать такой парсер, как уже говорилось, не сахар...

грабун
и до сих пор шаблоны рабочие, хотя прошло ~3г


Дык это везение просто ). Все зависит от "хозяина" сайта. Некоторые дизайн кажные полгода меняют ).
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861414
Гата Селов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonЭто что очерденая серебрянная пуля?
Это пример решения очередной возникшей проблемы.
Написание парсеров - работа для ремесленника, без поисков красивого решения и прочих инженерно - творческих изысков. Изменили что - то на сайте - оценил обьём работ по переделке, договорился с заказчиком, переделал, получил деньги, потратил деньги, пошел делать другие дела, пока тут снова что - то не поменяется, и опять не потребуется переделка.
Как с турагентствами не знаю, но купи-продай более - менее крупные сайты редко меняют дизайн
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861446
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
clihlt
Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у.
интересно было бы взглянуть :)
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861456
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).
как-то у вас очень удачно сложилось.
есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно)
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861709
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Если это серъёзный бизнес то проще подписаться на новости от тур оператора. Или договориться о получении доступа к его MySQL базе. Все остальные решения (лично мне) напоминают студенческие поделки.

IMHO.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861718
Фотография Узурпатор
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
helliumГата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).
как-то у вас очень удачно сложилось.
есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно)это скорее перспектива а не статистика, но мысль верная.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861727
Фотография Узурпатор
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonЕсли это серъёзный бизнес то проще подписаться на новости от тур оператора. Или договориться о получении доступа к его MySQL базе. Все остальные решения (лично мне) напоминают студенческие поделки.

IMHO.ога. могут и того
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861729
Фотография mriadus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Занимаюсь темой в данный момент. Пришлось создать небольшую обнаруживалку шаблонов в HTML-документе и "язык" под неё. Язык позволяет минут за 5-10 описывать процедуру выдирания данных с конкретного сайта. Пока успешно работает для выдирания содержимого форумов. Валидность HTML не важна, документ рассматривается как линейная посл. HTML-тегов. Пример кода на для выдирания топиков с этого форума:
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
html $i= 0  $meta="",
* *,
META http-equiv $meta=$meta + CONTENT,
* *,
(
    * *,
    TR, TD, IMG, /TD,
    TD, TEXT ?, A $topiclink=href,text $topictext=data, /A, (SPAN, * *, /SPAN){ 0 , 1 }, (FONT, TEXT, /FONT){ 0 , 1 }, (text *,A,FONT,TEXT,/FONT,/A){ 0 , 1 }, /TD,
    TD, A $memberlink=href, TEXT $membername=data, /A, /td,
    TD, TEXT $rpl=data, /TD,
    TD, TEXT $vw=dATA, /TD,
    TD, TEXT $tm=DATA, /TD,
    /TR
    $topics[$i]=$topictext
    $members[$i]=$membername
    $topiclinks[$i]= "http://sql.ru/forum/" + $topiclink
    $memberlinks[$i]= "http://sql.ru/forum/" + $memberlink
    $replies[$i]=$rpl
    $views[$i]=$vw
    $times[$i]=$tm
    $i=$i+ 1 
) +

Можете стучать в скайп.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861769
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А твой птичий язык может описывать доступ к уровню вложенности? Например мне нужно игнорировать квтотирование комментариев.

P.S. Как-же к тебе стучать, когда ты всегда в оффлайне сидишь, злодей... ?
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861899
Фотография mriadus
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonА твой птичий язык может описывать доступ к уровню вложенности? Например мне нужно игнорировать квтотирование комментариев.

P.S. Как-же к тебе стучать, когда ты всегда в оффлайне сидишь, злодей... ?
Не может, т.к. ему плевать на иерархичность внутри HTML (дабы забыть о проблемах с валидностью).
Я в онлайне круглосуточно почти, а все говорят, что я оффлайн. Просто шли сообщение, оно прожуётся. Скайп хитр и заковырест.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861999
clihlt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
helliumclihlt
Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у.
интересно было бы взглянуть :)

Толи E-Staff Рекрутер, толи PDS Рекрутер. Который из двоих я видел уже не вспомню. Но всети наверняка можно найти для скачки и тот и тот.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866227
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,
Про наличае модераторского значка в кармане собеседника знал заранее, но ни считаю для себя правильным издлишне выносить эмоции. Но злюсь иногда.
Не уверен что телега привезла для меня что-то новое, но за потрачное время на вреия , спасибо.
Но если смотреть на задачу с такой стороны, то "мы все умрем". После определенного количества пропускаемой информации работать с студентами в таком качестве становиться неудобным. А флэшки с бинарно-шифрованым протоколом и скриншоты на всю странцу это скорее страшилки, чем реальность для каждого второго сайта..
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866230
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZiv
antares0 wrote:

> Или ваш маразм (да простят меня модераторы). Информация на сайте
> неструктурирована относительно.

Это как "слегка беременна". Либо информация структурирована, либо
НЕ структурирована.

Если брать какой-то опредленный сайт, то
> ему вполне сопоставить шаблон, с участием интелекта да. Используя этот

Ну, а завтра они меняют дизайн -- и ...

С точки зрения отдающе стороны он отдает вполне структурированую информацию. Другой вопрос что принимающая сторона может судить об этой стрктуре лишь опосредовано. Что все равно не мешает выдирать нужную информацию.
Сама по себе смена дизайна при правильно-поставленых методах кардинально проект не угробит.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866235
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Яростный МечИсходный код страницы - далека не всегда валидный XML.
Да почти никогда, но есть метлды приведения в вадидный вид
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866238
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonИ не валидный HTML,
И не докачанный до конца,
И с наполнением контента через jscript.
И с неизвестной кодировкой.
И с враппленной, и заGIF-ленной ценной информацией.
И с капчей на странице логона.
И с детектором роботов на сервере
И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт.

Вот такие пирожки.
Это больше похоже на описание файлообменника с многостадийным унижением пользователей-хадявщиков.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866247
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
helliumГата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).
как-то у вас очень удачно сложилось.
есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно)
Ну почему не радужно. И сайтов ведь на почти 2 порядка больше. И нисмотря на это система все еще как-то работает. и сколько стундетов освободилось.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866267
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
И не валидный HTML, --- зафиксать можно;
И не докачанный до конца, --- можно распознать и докачать;
И с наполнением контента через jscript. --- какой-нибудь JSON читать ещё проще;
И с неизвестной кодировкой. --- с почти известной, одной из семи :)
И с враппленной, и заGIF-ленной ценной информацией. --- студентка перебьёт;
И с капчей на странице логона. --- делается сервер с бесплатным порно, впускающий за распознавание капчи.
И с детектором роботов на сервере --- антидетектор на клиенте :)
И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт. --- а вот это уже да, проблема. Горячий паяльник из заднего прохода программными средствами не извлекается.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866269
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
statusden,

И кстати сначала выгружайте в RDF, нормализуйте, потом уже складывайте в реляционную СУБД (если это вообще понадобится). Придётся подучиться, зато потом сэкономите кучу времени и качество выхлопа обеспечите поприятнее обычного.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866283
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iv_an_ru И не валидный HTML, --- зафиксать можно;
И не докачанный до конца, --- можно распознать и докачать;
И с наполнением контента через jscript. --- какой-нибудь JSON читать ещё проще;
И с неизвестной кодировкой. --- с почти известной, одной из семи :)
И с враппленной, и заGIF-ленной ценной информацией. --- студентка перебьёт;
И с капчей на странице логона. --- делается сервер с бесплатным порно, впускающий за распознавание капчи.
И с детектором роботов на сервере --- антидетектор на клиенте :)
И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт. --- а вот это уже да, проблема. Горячий паяльник из заднего прохода программными средствами не извлекается.
Отлично. Включаем это всё в техническое задание.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866540
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iv_an_rustatusden,
И кстати сначала выгружайте в RDF, нормализуйте, потом уже складывайте в реляционную СУБД (если это вообще понадобится). Придётся подучиться, зато потом сэкономите кучу времени и качество выхлопа обеспечите поприятнее обычного.
А почему именно в RDF? Есть более легковесные форматы, тот же yaml. Можно вообще без промежуточной выгрузки обойтись, сразу в базу складывать
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36866878
Фотография iv_an_ru
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
hellium,
Я не про RDF/XML, а именно про RDF как модель хранения знаний. Не надо сериализовывать во что-то промежуточное, достаточно, чтобы анализатор сайтов добавлял новые факты в RDF-хранилище и удалял старые. Любым способом, хоть через специализированное API хранилища хоть SPARUL через ODBC/UDBC/IODBC/JDBC... да хоть через веб-сервисы.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36867284
hellium
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iv_an_ruhellium,
Я не про RDF/XML, а именно про RDF как модель хранения знаний. Не надо сериализовывать во что-то промежуточное, достаточно, чтобы анализатор сайтов добавлял новые факты в RDF-хранилище и удалял старые. Любым способом, хоть через специализированное API хранилища хоть SPARUL через ODBC/UDBC/IODBC/JDBC... да хоть через веб-сервисы.
Я бы сделал по-простому: данные складываются сразу в mysql-базу, на эту же базу смотрит веб-интерфейс (ну, или делается выгрузка в отдельную базу, адаптированную специально для веба).
Нормализация данных - регекспы, словари, подгружаемые из базы.
Агрегатор - sql + немного скриптовой логики (на чистом sql сделать можно, но будет очень громоздко).

Чем использование rdf-хранилища + специализированных api лучше этой схемы?
...
Рейтинг: 0 / 0
25 сообщений из 73, страница 2 из 3
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Программа. Сборщик информации с сайтов.
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]