|
|
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
"грабил" пару-тройку прайс-интеграторов старым-добрым Экселем, на вопрос свойств/картинок очень, скажу - "не внапряг" было - никакого тебе парсинга хтмл-я, чинно-благородно - по клеточкам и до сих пор шаблоны рабочие, хотя прошло ~3г ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:48 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
mayton, Это верно. И некоторые товарищи на этом зарабатывают. Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у. Обычная околоучетная программа, но умеет в автомате коллекционировать объявления с сайтов о работе, сохранять их базу, сортировать, искать и т.п. Авторы отдельно продают саму прогу и подписку на обновления поискового интернет модуля на определенный период. Так что.. задумка ТС может быть не лишена смысла. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:54 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Всё зависит от того куда ветер подует веб повернётся. Будет-ли тотальный Ajax или тонкий клиент. Хр. зн. Но такие поисковые модули полезны хотя-бы тем что опыт прокачивается. Учишся работать действительно с "грязной" информацией. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 00:59 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
mayton, Тотальный ajax на самом деле задачу парса может упростить. Как правило посредством ajax-а запрашивают с сервера почти чистые данные. Т.е. не надо лопатить килобайты html-а с левыми банерами, вставками с других сайтов и т.п. В случае с флешем задача тоже наверняка решаемая. Декомпилируем флешку, смотрим как она запрашивает данные, повторяем это поведение ( хотя могу ошибаться, т.к. мои познания в флеше близки к 0 ). Картинки - да.... с этим не просто будет порешать. Но в любом случае подход к разбору данных будет менятся от сайта к сайту и от версии сайта к следующей версии. Поддерживать такой парсер, как уже говорилось, не сахар... грабун и до сих пор шаблоны рабочие, хотя прошло ~3г Дык это везение просто ). Все зависит от "хозяина" сайта. Некоторые дизайн кажные полгода меняют ). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 01:30 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
maytonЭто что очерденая серебрянная пуля? Это пример решения очередной возникшей проблемы. Написание парсеров - работа для ремесленника, без поисков красивого решения и прочих инженерно - творческих изысков. Изменили что - то на сайте - оценил обьём работ по переделке, договорился с заказчиком, переделал, получил деньги, потратил деньги, пошел делать другие дела, пока тут снова что - то не поменяется, и опять не потребуется переделка. Как с турагентствами не знаю, но купи-продай более - менее крупные сайты редко меняют дизайн ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 02:25 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
clihlt Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у. интересно было бы взглянуть :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 07:10 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Гата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте). как-то у вас очень удачно сложилось. есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 07:27 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Если это серъёзный бизнес то проще подписаться на новости от тур оператора. Или договориться о получении доступа к его MySQL базе. Все остальные решения (лично мне) напоминают студенческие поделки. IMHO. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 10:53 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
helliumГата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте). как-то у вас очень удачно сложилось. есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно)это скорее перспектива а не статистика, но мысль верная. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 10:54 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
maytonЕсли это серъёзный бизнес то проще подписаться на новости от тур оператора. Или договориться о получении доступа к его MySQL базе. Все остальные решения (лично мне) напоминают студенческие поделки. IMHO.ога. могут и того ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 10:55 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Занимаюсь темой в данный момент. Пришлось создать небольшую обнаруживалку шаблонов в HTML-документе и "язык" под неё. Язык позволяет минут за 5-10 описывать процедуру выдирания данных с конкретного сайта. Пока успешно работает для выдирания содержимого форумов. Валидность HTML не важна, документ рассматривается как линейная посл. HTML-тегов. Пример кода на для выдирания топиков с этого форума: Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. Можете стучать в скайп. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 10:55 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
А твой птичий язык может описывать доступ к уровню вложенности? Например мне нужно игнорировать квтотирование комментариев. P.S. Как-же к тебе стучать, когда ты всегда в оффлайне сидишь, злодей... ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 11:04 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
maytonА твой птичий язык может описывать доступ к уровню вложенности? Например мне нужно игнорировать квтотирование комментариев. P.S. Как-же к тебе стучать, когда ты всегда в оффлайне сидишь, злодей... ? Не может, т.к. ему плевать на иерархичность внутри HTML (дабы забыть о проблемах с валидностью). Я в онлайне круглосуточно почти, а все говорят, что я оффлайн. Просто шли сообщение, оно прожуётся. Скайп хитр и заковырест. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 11:39 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
helliumclihlt Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у. интересно было бы взглянуть :) Толи E-Staff Рекрутер, толи PDS Рекрутер. Который из двоих я видел уже не вспомню. Но всети наверняка можно найти для скачки и тот и тот. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.09.2010, 12:10 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
mayton, Про наличае модераторского значка в кармане собеседника знал заранее, но ни считаю для себя правильным издлишне выносить эмоции. Но злюсь иногда. Не уверен что телега привезла для меня что-то новое, но за потрачное время на вреия , спасибо. Но если смотреть на задачу с такой стороны, то "мы все умрем". После определенного количества пропускаемой информации работать с студентами в таком качестве становиться неудобным. А флэшки с бинарно-шифрованым протоколом и скриншоты на всю странцу это скорее страшилки, чем реальность для каждого второго сайта.. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 18:42 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
MasterZiv antares0 wrote: > Или ваш маразм (да простят меня модераторы). Информация на сайте > неструктурирована относительно. Это как "слегка беременна". Либо информация структурирована, либо НЕ структурирована. Если брать какой-то опредленный сайт, то > ему вполне сопоставить шаблон, с участием интелекта да. Используя этот Ну, а завтра они меняют дизайн -- и ... С точки зрения отдающе стороны он отдает вполне структурированую информацию. Другой вопрос что принимающая сторона может судить об этой стрктуре лишь опосредовано. Что все равно не мешает выдирать нужную информацию. Сама по себе смена дизайна при правильно-поставленых методах кардинально проект не угробит. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 18:49 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
Яростный МечИсходный код страницы - далека не всегда валидный XML. Да почти никогда, но есть метлды приведения в вадидный вид ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 18:56 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
maytonИ не валидный HTML, И не докачанный до конца, И с наполнением контента через jscript. И с неизвестной кодировкой. И с враппленной, и заGIF-ленной ценной информацией. И с капчей на странице логона. И с детектором роботов на сервере И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт. Вот такие пирожки. Это больше похоже на описание файлообменника с многостадийным унижением пользователей-хадявщиков. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 18:58 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
helliumГата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте). как-то у вас очень удачно сложилось. есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно) Ну почему не радужно. И сайтов ведь на почти 2 порядка больше. И нисмотря на это система все еще как-то работает. и сколько стундетов освободилось. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 19:05 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
И не валидный HTML, --- зафиксать можно; И не докачанный до конца, --- можно распознать и докачать; И с наполнением контента через jscript. --- какой-нибудь JSON читать ещё проще; И с неизвестной кодировкой. --- с почти известной, одной из семи :) И с враппленной, и заGIF-ленной ценной информацией. --- студентка перебьёт; И с капчей на странице логона. --- делается сервер с бесплатным порно, впускающий за распознавание капчи. И с детектором роботов на сервере --- антидетектор на клиенте :) И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт. --- а вот это уже да, проблема. Горячий паяльник из заднего прохода программными средствами не извлекается. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 19:50 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
statusden, И кстати сначала выгружайте в RDF, нормализуйте, потом уже складывайте в реляционную СУБД (если это вообще понадобится). Придётся подучиться, зато потом сэкономите кучу времени и качество выхлопа обеспечите поприятнее обычного. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 19:56 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
iv_an_ru И не валидный HTML, --- зафиксать можно; И не докачанный до конца, --- можно распознать и докачать; И с наполнением контента через jscript. --- какой-нибудь JSON читать ещё проще; И с неизвестной кодировкой. --- с почти известной, одной из семи :) И с враппленной, и заGIF-ленной ценной информацией. --- студентка перебьёт; И с капчей на странице логона. --- делается сервер с бесплатным порно, впускающий за распознавание капчи. И с детектором роботов на сервере --- антидетектор на клиенте :) И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт. --- а вот это уже да, проблема. Горячий паяльник из заднего прохода программными средствами не извлекается. Отлично. Включаем это всё в техническое задание. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.09.2010, 20:17 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
iv_an_rustatusden, И кстати сначала выгружайте в RDF, нормализуйте, потом уже складывайте в реляционную СУБД (если это вообще понадобится). Придётся подучиться, зато потом сэкономите кучу времени и качество выхлопа обеспечите поприятнее обычного. А почему именно в RDF? Есть более легковесные форматы, тот же yaml. Можно вообще без промежуточной выгрузки обойтись, сразу в базу складывать ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.09.2010, 10:24 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
hellium, Я не про RDF/XML, а именно про RDF как модель хранения знаний. Не надо сериализовывать во что-то промежуточное, достаточно, чтобы анализатор сайтов добавлял новые факты в RDF-хранилище и удалял старые. Любым способом, хоть через специализированное API хранилища хоть SPARUL через ODBC/UDBC/IODBC/JDBC... да хоть через веб-сервисы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.09.2010, 17:16 |
|
||
|
Программа. Сборщик информации с сайтов.
|
|||
|---|---|---|---|
|
#18+
iv_an_ruhellium, Я не про RDF/XML, а именно про RDF как модель хранения знаний. Не надо сериализовывать во что-то промежуточное, достаточно, чтобы анализатор сайтов добавлял новые факты в RDF-хранилище и удалял старые. Любым способом, хоть через специализированное API хранилища хоть SPARUL через ODBC/UDBC/IODBC/JDBC... да хоть через веб-сервисы. Я бы сделал по-простому: данные складываются сразу в mysql-базу, на эту же базу смотрит веб-интерфейс (ну, или делается выгрузка в отдельную базу, адаптированную специально для веба). Нормализация данных - регекспы, словари, подгружаемые из базы. Агрегатор - sql + немного скриптовой логики (на чистом sql сделать можно, но будет очень громоздко). Чем использование rdf-хранилища + специализированных api лучше этой схемы? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.09.2010, 07:46 |
|
||
|
|

start [/forum/topic.php?fid=16&msg=36866238&tid=1343410]: |
0ms |
get settings: |
6ms |
get forum list: |
13ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
199ms |
get topic data: |
12ms |
get forum data: |
2ms |
get page messages: |
70ms |
get tp. blocked users: |
2ms |
| others: | 225ms |
| total: | 533ms |

| 0 / 0 |
