Программа. Сборщик информации с сайтов. / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Программа. Сборщик информации с сайтов.

73 сообщений из 73, показаны все 3 страниц

все

Программа. Сборщик информации с сайтов.

#36858849

statusden

Гость

Добрый вечер всем!
Стоит следующая задача: Написать программу для туристического агенства. Суть такая: есть входные данные, или условия поиска ... тур-опреатор, город, категория отеля, питание, заезд с какого числа и т.п. ... Программа анализирует список из 50 примерно сайтов, и выдает результат в виде таблицы, например отсортир по ценам.. еще приявязать к этим отелям отзывы с двух сайтов.
Вопрос: возможно ли такое осуществить ? ... Как это можно реализовать ? .... И если такое кто возьмется сделать, то цена вопроса.?!

...

Рейтинг:

0 / 0

21.09.2010, 20:02

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36858883

antares0

Участник

Сообщения: 224

Рейтинг: 0 / 0

statusden,
Возможно.
Нужен парсер преобразующий html в структурированую информацию. В той или иной форме задача уже решалась и пути решения известны. Но велосипед неизбежен. Остальная часть по разбору полученых результатов бананальна и решаема.
Столько сколько запросит исполнитель. Скорее зависити от содержимого сайтов и потребностей.
А вы с практической целью или как?

...

Рейтинг:

0 / 0

21.09.2010, 20:36

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36859075

statusden

Гость

antares0,
Спасибо за ответ. Да я с практической целью интересуюсь. Сайты в принципе все извсетные, это различные тур операторы. Как пример TezTour. Если интересует, то более детально тех задание могу присалать.

...

Рейтинг:

0 / 0

21.09.2010, 23:55

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36859174

antares0

Участник

Сообщения: 224

Рейтинг: 0 / 0

statusden,
Интересно. Почта в профиле.

...

Рейтинг:

0 / 0

22.09.2010, 01:39

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36859536

statusden

Гость

antares0,

Ок. Сегодня вечером иди завтра днем вышлю

...

Рейтинг:

0 / 0

22.09.2010, 11:22

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36860367

MasterZiv

Участник

Откуда: Питер

Сообщения: 32 427

Рейтинг: 0 / 0

antares0 wrote:

> Нужен парсер преобразующий html в структурированую информацию. В той или
> иной форме задача уже решалась и пути решения известны.

Это твои девичьи мечты. Преобразовать неструктурированную информацию (html)
в структурированную можно только с использованием интеллекта, человеческого
или искусственного.
Posted via ActualForum NNTP Server 1.4

...

Рейтинг:

0 / 0

22.09.2010, 15:30

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36860998

antares0

Участник

Сообщения: 224

Рейтинг: 0 / 0

MasterZiv,
Или ваш маразм (да простят меня модераторы). Информация на сайте неструктурирована относительно. Если брать какой-то опредленный сайт, то ему вполне сопоставить шаблон, с участием интелекта да. Используя этот шаблон можно уже забирать информацию автоматически. Если не знаете как это делается, то могу посоветовать самообразование. Очень помогает.

...

Рейтинг:

0 / 0

22.09.2010, 18:52

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861027

antares0

Участник

Сообщения: 224

Рейтинг: 0 / 0

Злой я сегодня. Но самообразовываться все равно полезно.

...

Рейтинг:

0 / 0

22.09.2010, 19:14

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861150

ShSerge

Участник

Откуда: ʚонɔ dиw

Сообщения: 24 440

Рейтинг: 0 / 0

antares0Злой я сегодня. Но самообразовываться все равно полезно.
Самообразовывайтесь. Кто Вам мешает?
Собственно, по сабжу, на каком языке пишите? Могу в три строчки (соврал - в одну) примерчик написать, как сдёрнуть данные. А распарсить хтмл, который и есть струкрурированные данные - проще простого. Потому и спрашиваю, что за язык, потому что для всех по много вариантов есть. Сами ищите подходящие для вашего случая парсеры.

...

Рейтинг:

0 / 0

22.09.2010, 21:03

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861156

antares0

Участник

Сообщения: 224

Рейтинг: 0 / 0

ShSerge,
Да я и сам знаю, ученый. Это MasterZiv выражает сомнени в том что из html-я можно выдрать что-нибудь структурированое. На это только ИИ способен видите ли.
Читай те уж тему по порядку.

...

Рейтинг:

0 / 0

22.09.2010, 21:16

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861187

Гата Селов

Участник

Сообщения: 424

Рейтинг: 0 / 0

MasterZiv
Преобразовать неструктурированную информацию (html)
в структурированную можно только с использованием интеллекта

они, парсеры (по крайней мере по объявлениям недвижимости, транспорта) так и работают: на каждый сайт свой метод с кучей свичей и ифов, приводящий табличку с сайта к станартному виду.

И топикстартеру: одному агенТству одна студия сляпала сайт за большие деньги, в шапке которого, помимо всякой лабуды жирными буквами было написано "агенство недвижимости". Нехорошие люди написали петицию от имени общества "в защиту Русского языка от лаптей", и добрые деловые отношения агенТства и студии были подорваны.

...

Рейтинг:

0 / 0

22.09.2010, 21:54

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861219

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

antares0, остыл немного? Или понял что наехал на модератора?

Короче слушай телегу. Всё это реально можно сделать но сложно поддерживать. В наше время веб-содержимое уже не является чистым HTML-контентом как было 20 лет назад и парсить его очень сложно. Тут возможны ситуации. Первое. Если тур-оператор резко решил сменить дизайн - то твой софт перестанет выдавать корретные данные. Второе. Если тур-оператор решил перейтие на flash-содержимое - тебя ждёт большой облом и невозможность быстро и в реальные сроки поправить положение. Третье. Если тур-оператор чисто в шутку опубликует свои услуги в виде скриншота - тебя ждёт еще больший облом. Разпознавание картинок - отдельная тема, которая стоит реально большие бабки. Короче говоря твой софт будет априори очень ненадёжен, глюкав и требующий бесконечной тех-поддержки. Не проще-ли посадить студентов чтоб разгребали руками контент и формировали отчётоность? Щас кризис. Людей надо обеспечить рабочими местами.

...

Рейтинг:

0 / 0

22.09.2010, 22:31

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861231

Гата Селов

Участник

Сообщения: 424

Рейтинг: 0 / 0

1. За 100 евро автор парсера поправит втечение дня.
2. Это да.
3. Это да, хотя это редкость, и какой - нить гугл тессеракт прикрутить будет не очень дорого.

Такие парсеры для разных областей существуют, и довольно успешно. Надежность, конечно, не высокая, но на прктике это не критично (могу по недвижимости сказать: парсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).

Студенты дороже обойдутся

...

Рейтинг:

0 / 0

22.09.2010, 22:43

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861233

ShSerge

Участник

Откуда: ʚонɔ dиw

Сообщения: 24 440

Рейтинг: 0 / 0

mayton,

Совершенно правильно сказано, за исключением того, что не студентов, а студенток.

...

Рейтинг:

0 / 0

22.09.2010, 22:46

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861236

Яростный Меч

Участник

Откуда: здесь была правда.<br /><br />Слоган: Делфи жив!!!

Сообщения: 30 377

Рейтинг: 0 / 0

maytonВторое и третье маловероятно, а насчет первого - да, придется вносить изменения.
Вот уследить за 50 сайтами, проверять работу парсеров - это отдельная, очень веселая тема (очевидно, для каждого сайта - свой парсер)

ps: Капитан Очевидность сообщает: очень пригодятся регексы.

...

Рейтинг:

0 / 0

22.09.2010, 22:53

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861237

ShSerge

Участник

Откуда: ʚонɔ dиw

Сообщения: 24 440

Рейтинг: 0 / 0

Гата Селов1. За 100 евро автор парсера поправит втечение дня.
2. Это да.
3. Это да, хотя это редкость, и какой - нить гугл тессеракт прикрутить будет не очень дорого.

Такие парсеры для разных областей существуют, и довольно успешно. Надежность, конечно, не высокая, но на прктике это не критично (могу по недвижимости сказать: парсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).

Студенты дороже обойдутся
Что касается авторов парсера это и лимона баксов маловато будет, а что касается программистов, применяющих этот парсер - можно и дешевле и быстрее. Точно, что не проблема. Только дело в том, что ручками - гораздо надёжнее, правильнее и даже гламурнее. А самое важное в том, что нам, программистам, то есть, за это деньги платят.

...

Рейтинг:

0 / 0

22.09.2010, 22:54

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861288

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Яростный МечВот уследить за 50 сайтами, проверять работу парсеров - это отдельная, очень веселая тема (очевидно, для каждого сайта - свой парсер)

ps: Капитан Очевидность сообщает: очень пригодятся регексы.
Не совсем. Парсер должен быть один. Это скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайта и излекает данные о тур-услугах в неком едином формате готовом к отчетности. Если сайт будет содержать форму авторизации то возможно нужно будет поддерживать несколько XSLT-логик, с обработкой различных ACTION-s но суть остаётся той-же.

P.S. При правильном подходе регексы не понадобятся.

...

Рейтинг:

0 / 0

22.09.2010, 23:48

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861293

MasterZiv

Участник

Откуда: Питер

Сообщения: 32 427

Рейтинг: 0 / 0

antares0 wrote:

> Или ваш маразм (да простят меня модераторы). Информация на сайте
> неструктурирована относительно.

Это как "слегка беременна". Либо информация структурирована, либо
НЕ структурирована.

Если брать какой-то опредленный сайт, то
> ему вполне сопоставить шаблон, с участием интелекта да. Используя этот

Ну, а завтра они меняют дизайн -- и ...
Posted via ActualForum NNTP Server 1.4

...

Рейтинг:

0 / 0

22.09.2010, 23:50

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861294

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Гата Селови какой - нить гугл тессеракт прикрутить будет не очень дорого.
Это что очерденая серебрянная пуля?

...

Рейтинг:

0 / 0

22.09.2010, 23:51

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861299

MasterZiv

Участник

Откуда: Питер

Сообщения: 32 427

Рейтинг: 0 / 0

ShSerge wrote:

> - в одну) примерчик написать, как сдёрнуть данные. А распарсить хтмл,
> который и есть *струкрурированные данные* - проще простого.

В HTML структурированы не данные, а РАЗМЕТКА текста, содержащего эти данные.

Парсить это Г -- занятие сугубо неблагодарное.

Другое дело, если сайты предоставляют всякие WEB-сервисы по SOAP...
Posted via ActualForum NNTP Server 1.4

...

Рейтинг:

0 / 0

22.09.2010, 23:53

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861317

Яростный Меч

Участник

Откуда: здесь была правда.<br /><br />Слоган: Делфи жив!!!

Сообщения: 30 377

Рейтинг: 0 / 0

maytonЭто скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайтаИсходный код страницы - далека не всегда валидный XML.
К тому же часть информации может в нем отсутствовать и дорисовывается с помощью js, иногда с попыткой запрятать (само собой, безуспешной).

...

Рейтинг:

0 / 0

23.09.2010, 00:09

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861325

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Яростный, ты всё перепутал.

...

Рейтинг:

0 / 0

23.09.2010, 00:13

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861336

clihlt

Участник

Откуда: Донецк

Сообщения: 1 126

Рейтинг: 0 / 0

MasterZiv
Парсить это Г -- занятие сугубо неблагодарное.

Абсолютная правда.

Just for fun, накидал простейший скриптец - выдерает с фишек.нет фотки девок и складирует в папку.
Автор лови ))) Может поможет чем ))

...

Рейтинг:

0 / 0

23.09.2010, 00:17

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861343

clihlt

Участник

Откуда: Донецк

Сообщения: 1 126

Рейтинг: 0 / 0

Яростный МечmaytonЭто скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайтаИсходный код страницы - далека не всегда валидный XML.
К тому же часть информации может в нем отсутствовать и дорисовывается с помощью js, иногда с попыткой запрятать (само собой, безуспешной).

Мало того - код страницы не всегда даже валидный HTML.

...

Рейтинг:

0 / 0

23.09.2010, 00:24

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861347

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

И не валидный HTML,
И не докачанный до конца,
И с наполнением контента через jscript.
И с неизвестной кодировкой.
И с враппленной, и заGIF-ленной ценной информацией.
И с капчей на странице логона.
И с детектором роботов на сервере
И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт.

Вот такие пирожки.

...

Рейтинг:

0 / 0

23.09.2010, 00:28

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861366

грабун

Гость

"грабил" пару-тройку прайс-интеграторов старым-добрым Экселем, на вопрос свойств/картинок
очень, скажу - "не внапряг" было - никакого тебе парсинга хтмл-я,
чинно-благородно - по клеточкам
и до сих пор шаблоны рабочие, хотя прошло ~3г

...

Рейтинг:

0 / 0

23.09.2010, 00:48

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861370

clihlt

Участник

Откуда: Донецк

Сообщения: 1 126

Рейтинг: 0 / 0

mayton,

Это верно. И некоторые товарищи на этом зарабатывают.
Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у. Обычная околоучетная программа, но умеет в автомате коллекционировать объявления с сайтов о работе, сохранять их базу, сортировать, искать и т.п.
Авторы отдельно продают саму прогу и подписку на обновления поискового интернет модуля на определенный период.
Так что.. задумка ТС может быть не лишена смысла.

...

Рейтинг:

0 / 0

23.09.2010, 00:54

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861380

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Всё зависит от того куда ветер подует веб повернётся. Будет-ли тотальный Ajax или тонкий клиент. Хр. зн. Но такие поисковые модули полезны хотя-бы тем что опыт прокачивается. Учишся работать действительно с "грязной" информацией.

...

Рейтинг:

0 / 0

23.09.2010, 00:59

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861402

clihlt

Участник

Откуда: Донецк

Сообщения: 1 126

Рейтинг: 0 / 0

mayton,

Тотальный ajax на самом деле задачу парса может упростить. Как правило посредством ajax-а запрашивают с сервера почти чистые данные. Т.е. не надо лопатить килобайты html-а с левыми банерами, вставками с других сайтов и т.п.
В случае с флешем задача тоже наверняка решаемая. Декомпилируем флешку, смотрим как она запрашивает данные, повторяем это поведение ( хотя могу ошибаться, т.к. мои познания в флеше близки к 0 ).
Картинки - да.... с этим не просто будет порешать.

Но в любом случае подход к разбору данных будет менятся от сайта к сайту и от версии сайта к следующей версии. Поддерживать такой парсер, как уже говорилось, не сахар...

грабун
и до сих пор шаблоны рабочие, хотя прошло ~3г

Дык это везение просто ). Все зависит от "хозяина" сайта. Некоторые дизайн кажные полгода меняют ).

...

Рейтинг:

0 / 0

23.09.2010, 01:30

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861414

Гата Селов

Участник

Сообщения: 424

Рейтинг: 0 / 0

maytonЭто что очерденая серебрянная пуля?
Это пример решения очередной возникшей проблемы.
Написание парсеров - работа для ремесленника, без поисков красивого решения и прочих инженерно - творческих изысков. Изменили что - то на сайте - оценил обьём работ по переделке, договорился с заказчиком, переделал, получил деньги, потратил деньги, пошел делать другие дела, пока тут снова что - то не поменяется, и опять не потребуется переделка.
Как с турагентствами не знаю, но купи-продай более - менее крупные сайты редко меняют дизайн

...

Рейтинг:

0 / 0

23.09.2010, 02:25

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861446

hellium

Участник

Сообщения: 126

Рейтинг: 0 / 0

clihlt
Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у.
интересно было бы взглянуть :)

...

Рейтинг:

0 / 0

23.09.2010, 07:10

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861456

hellium

Участник

Сообщения: 126

Рейтинг: 0 / 0

Гата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).
как-то у вас очень удачно сложилось.
есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно)

...

Рейтинг:

0 / 0

23.09.2010, 07:27

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861709

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Если это серъёзный бизнес то проще подписаться на новости от тур оператора. Или договориться о получении доступа к его MySQL базе. Все остальные решения (лично мне) напоминают студенческие поделки.

IMHO.

...

Рейтинг:

0 / 0

23.09.2010, 10:53

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861718

Узурпатор

Участник

Откуда: Куяба - город кормления Руси

Сообщения: 8 201

Рейтинг: 0 / 0

helliumГата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).
как-то у вас очень удачно сложилось.
есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно)это скорее перспектива а не статистика, но мысль верная.

...

Рейтинг:

0 / 0

23.09.2010, 10:54

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861727

Узурпатор

Участник

Откуда: Куяба - город кормления Руси

Сообщения: 8 201

Рейтинг: 0 / 0

maytonЕсли это серъёзный бизнес то проще подписаться на новости от тур оператора. Или договориться о получении доступа к его MySQL базе. Все остальные решения (лично мне) напоминают студенческие поделки.

IMHO.ога. могут и того

...

Рейтинг:

0 / 0

23.09.2010, 10:55

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861729

mriadus

Участник

Сообщения: 3 699

Рейтинг: 0 / 0

Занимаюсь темой в данный момент. Пришлось создать небольшую обнаруживалку шаблонов в HTML-документе и "язык" под неё. Язык позволяет минут за 5-10 описывать процедуру выдирания данных с конкретного сайта. Пока успешно работает для выдирания содержимого форумов. Валидность HTML не важна, документ рассматривается как линейная посл. HTML-тегов. Пример кода на для выдирания топиков с этого форума:

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.

html $i= 0  $meta="",
* *,
META http-equiv $meta=$meta + CONTENT,
* *,
(
    * *,
    TR, TD, IMG, /TD,
    TD, TEXT ?, A $topiclink=href,text $topictext=data, /A, (SPAN, * *, /SPAN){ 0 , 1 }, (FONT, TEXT, /FONT){ 0 , 1 }, (text *,A,FONT,TEXT,/FONT,/A){ 0 , 1 }, /TD,
    TD, A $memberlink=href, TEXT $membername=data, /A, /td,
    TD, TEXT $rpl=data, /TD,
    TD, TEXT $vw=dATA, /TD,
    TD, TEXT $tm=DATA, /TD,
    /TR
    $topics[$i]=$topictext
    $members[$i]=$membername
    $topiclinks[$i]= "http://sql.ru/forum/" + $topiclink
    $memberlinks[$i]= "http://sql.ru/forum/" + $memberlink
    $replies[$i]=$rpl
    $views[$i]=$vw
    $times[$i]=$tm
    $i=$i+ 1 
) +

Можете стучать в скайп.

...

Рейтинг:

0 / 0

23.09.2010, 10:55

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861769

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

А твой птичий язык может описывать доступ к уровню вложенности? Например мне нужно игнорировать квтотирование комментариев.

P.S. Как-же к тебе стучать, когда ты всегда в оффлайне сидишь, злодей... ?

...

Рейтинг:

0 / 0

23.09.2010, 11:04

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861899

mriadus

Участник

Сообщения: 3 699

Рейтинг: 0 / 0

maytonА твой птичий язык может описывать доступ к уровню вложенности? Например мне нужно игнорировать квтотирование комментариев.

P.S. Как-же к тебе стучать, когда ты всегда в оффлайне сидишь, злодей... ?
Не может, т.к. ему плевать на иерархичность внутри HTML (дабы забыть о проблемах с валидностью).
Я в онлайне круглосуточно почти, а все говорят, что я оффлайн. Просто шли сообщение, оно прожуётся. Скайп хитр и заковырест.

...

Рейтинг:

0 / 0

23.09.2010, 11:39

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36861999

clihlt

Участник

Откуда: Донецк

Сообщения: 1 126

Рейтинг: 0 / 0

helliumclihlt
Года 1.5 назад видел в действии программу (уже не припомню название, но если интересно смогу нагуглить) - помощник HR-у.
интересно было бы взглянуть :)

Толи E-Staff Рекрутер, толи PDS Рекрутер. Который из двоих я видел уже не вспомню. Но всети наверняка можно найти для скачки и тот и тот.

...

Рейтинг:

0 / 0

23.09.2010, 12:10

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36866227

antares0

Участник

Сообщения: 224

Рейтинг: 0 / 0

mayton,
Про наличае модераторского значка в кармане собеседника знал заранее, но ни считаю для себя правильным издлишне выносить эмоции. Но злюсь иногда.
Не уверен что телега привезла для меня что-то новое, но за потрачное время на вреия , спасибо.
Но если смотреть на задачу с такой стороны, то "мы все умрем". После определенного количества пропускаемой информации работать с студентами в таком качестве становиться неудобным. А флэшки с бинарно-шифрованым протоколом и скриншоты на всю странцу это скорее страшилки, чем реальность для каждого второго сайта..

...

Рейтинг:

0 / 0

25.09.2010, 18:42

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36866230

antares0

Участник

Сообщения: 224

Рейтинг: 0 / 0

MasterZiv
antares0 wrote:

> Или ваш маразм (да простят меня модераторы). Информация на сайте
> неструктурирована относительно.

Это как "слегка беременна". Либо информация структурирована, либо
НЕ структурирована.

Если брать какой-то опредленный сайт, то
> ему вполне сопоставить шаблон, с участием интелекта да. Используя этот

Ну, а завтра они меняют дизайн -- и ...

С точки зрения отдающе стороны он отдает вполне структурированую информацию. Другой вопрос что принимающая сторона может судить об этой стрктуре лишь опосредовано. Что все равно не мешает выдирать нужную информацию.
Сама по себе смена дизайна при правильно-поставленых методах кардинально проект не угробит.

...

Рейтинг:

0 / 0

25.09.2010, 18:49

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36866235

antares0

Участник

Сообщения: 224

Рейтинг: 0 / 0

Яростный МечИсходный код страницы - далека не всегда валидный XML.
Да почти никогда, но есть метлды приведения в вадидный вид

...

Рейтинг:

0 / 0

25.09.2010, 18:56

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36866238

antares0

Участник

Сообщения: 224

Рейтинг: 0 / 0

maytonИ не валидный HTML,
И не докачанный до конца,
И с наполнением контента через jscript.
И с неизвестной кодировкой.
И с враппленной, и заGIF-ленной ценной информацией.
И с капчей на странице логона.
И с детектором роботов на сервере
И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт.

Вот такие пирожки.
Это больше похоже на описание файлообменника с многостадийным унижением пользователей-хадявщиков.

...

Рейтинг:

0 / 0

25.09.2010, 18:58

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36866247

antares0

Участник

Сообщения: 224

Рейтинг: 0 / 0

helliumГата Селовпарсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).
как-то у вас очень удачно сложилось.
есть другая статистика: >500 сайтов, >1 000 000 объявлений в день, еженедельные правки сканеров/адаптеров. так что не все так радужно)
Ну почему не радужно. И сайтов ведь на почти 2 порядка больше. И нисмотря на это система все еще как-то работает. и сколько стундетов освободилось.

...

Рейтинг:

0 / 0

25.09.2010, 19:05

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36866267

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

И не валидный HTML, --- зафиксать можно;
И не докачанный до конца, --- можно распознать и докачать;
И с наполнением контента через jscript. --- какой-нибудь JSON читать ещё проще;
И с неизвестной кодировкой. --- с почти известной, одной из семи :)
И с враппленной, и заGIF-ленной ценной информацией. --- студентка перебьёт;
И с капчей на странице логона. --- делается сервер с бесплатным порно, впускающий за распознавание капчи.
И с детектором роботов на сервере --- антидетектор на клиенте :)
И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт. --- а вот это уже да, проблема. Горячий паяльник из заднего прохода программными средствами не извлекается.

...

Рейтинг:

0 / 0

25.09.2010, 19:50

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36866269

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

statusden,

И кстати сначала выгружайте в RDF, нормализуйте, потом уже складывайте в реляционную СУБД (если это вообще понадобится). Придётся подучиться, зато потом сэкономите кучу времени и качество выхлопа обеспечите поприятнее обычного.

...

Рейтинг:

0 / 0

25.09.2010, 19:56

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36866283

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

iv_an_ru И не валидный HTML, --- зафиксать можно;
И не докачанный до конца, --- можно распознать и докачать;
И с наполнением контента через jscript. --- какой-нибудь JSON читать ещё проще;
И с неизвестной кодировкой. --- с почти известной, одной из семи :)
И с враппленной, и заGIF-ленной ценной информацией. --- студентка перебьёт;
И с капчей на странице логона. --- делается сервер с бесплатным порно, впускающий за распознавание капчи.
И с детектором роботов на сервере --- антидетектор на клиенте :)
И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт. --- а вот это уже да, проблема. Горячий паяльник из заднего прохода программными средствами не извлекается.
Отлично. Включаем это всё в техническое задание.

...

Рейтинг:

0 / 0

25.09.2010, 20:17

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36866540

hellium

Участник

Сообщения: 126

Рейтинг: 0 / 0

iv_an_rustatusden,
И кстати сначала выгружайте в RDF, нормализуйте, потом уже складывайте в реляционную СУБД (если это вообще понадобится). Придётся подучиться, зато потом сэкономите кучу времени и качество выхлопа обеспечите поприятнее обычного.
А почему именно в RDF? Есть более легковесные форматы, тот же yaml. Можно вообще без промежуточной выгрузки обойтись, сразу в базу складывать

...

Рейтинг:

0 / 0

26.09.2010, 10:24

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36866878

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

hellium,
Я не про RDF/XML, а именно про RDF как модель хранения знаний. Не надо сериализовывать во что-то промежуточное, достаточно, чтобы анализатор сайтов добавлял новые факты в RDF-хранилище и удалял старые. Любым способом, хоть через специализированное API хранилища хоть SPARUL через ODBC/UDBC/IODBC/JDBC... да хоть через веб-сервисы.

...

Рейтинг:

0 / 0

26.09.2010, 17:16

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36867284

hellium

Участник

Сообщения: 126

Рейтинг: 0 / 0

iv_an_ruhellium,
Я не про RDF/XML, а именно про RDF как модель хранения знаний. Не надо сериализовывать во что-то промежуточное, достаточно, чтобы анализатор сайтов добавлял новые факты в RDF-хранилище и удалял старые. Любым способом, хоть через специализированное API хранилища хоть SPARUL через ODBC/UDBC/IODBC/JDBC... да хоть через веб-сервисы.
Я бы сделал по-простому: данные складываются сразу в mysql-базу, на эту же базу смотрит веб-интерфейс (ну, или делается выгрузка в отдельную базу, адаптированную специально для веба).
Нормализация данных - регекспы, словари, подгружаемые из базы.
Агрегатор - sql + немного скриптовой логики (на чистом sql сделать можно, но будет очень громоздко).

Чем использование rdf-хранилища + специализированных api лучше этой схемы?

...

Рейтинг:

0 / 0

27.09.2010, 07:46

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36868045

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

helliumЯ бы сделал по-простому: данные складываются сразу в mysql-базу, на эту же базу смотрит веб-интерфейс (ну, или делается выгрузка в отдельную базу, адаптированную специально для веба).
Нормализация данных - регекспы, словари, подгружаемые из базы.
Агрегатор - sql + немного скриптовой логики (на чистом sql сделать можно, но будет очень громоздко).

Чем использование rdf-хранилища + специализированных api лучше этой схемы?
Я б так сказал, всем, кроме затрат на обучение разработчика. Одно дело самопальничать словари в какой-то базе неизвестной полноты и актуальности, другое --- брать готовые из SWEO LOD. Одно дело писать скрипты, другое --- не писать в 99% случаев, просто использовать язык, более подходящий для ad hoc запросов (зато в оставшемся 1% использовать хоть ризонер). Одно дело выковыривать данные с нуля написанной самопальной выковыривалкой, другое --- взять нахаляву готовый RDF Sponger и склонировать один из десятков готовых "картриджей"-выковыривателей. Тем более если речь про туризм, когда нужные названия могут запросто оказаться на незнакомом языке, но при этом dbpedia и geonames уже хранят если не русские то уж точно английские эквиваленты. Вы уверены, что у вас не будет трудностей с китаизацией и арабизацией _одновременно_ ?

"По сумме очков", BBC даже свой собственный архив каталогизирует в RDF, это при том что там "поставщик информации" всего один, всегда "на связи" и всячески помогает архивариусу, а не гадит. Томас Рейтерс тоже не отстаёт. А уж эти ребята знают толк в сборе информации.

...

Рейтинг:

0 / 0

27.09.2010, 14:42

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36868794

hellium

Участник

Сообщения: 126

Рейтинг: 0 / 0

iv_an_ru,

iv_an_ru
Я б так сказал, всем, кроме затрат на обучение разработчика.

Одно дело самопальничать словари в какой-то базе неизвестной полноты и актуальности,
другое --- брать готовые из SWEO LOD.

1. вряд ли в SWEO LOD есть полные и актуальные словари на все случаи жизни. Ну или хотя бы данные для более-менее полной модели предметной области по туризму.

2. никто не мешает взять готовые словари, сконвертировать в нужную субд и пользоваться.

Пока преимущества не вижу.

iv_an_ru
Одно дело писать скрипты, другое --- не писать в 99% случаев, просто использовать язык, более подходящий для ad hoc запросов (зато в оставшемся 1% использовать хоть ризонер).

Про какой именно "более подходящий язык" идет речь, с какими именно скриптами он сравнивается, и в контексте каких задач?

iv_an_ru
Одно дело выковыривать данные с нуля написанной самопальной выковыривалкой, другое --- взять нахаляву готовый RDF Sponger и склонировать один из десятков готовых "картриджей"-выковыривателей. Тем более если речь про туризм, когда нужные названия могут запросто оказаться на незнакомом языке, но при этом dbpedia и geonames уже хранят если не русские то уж точно английские эквиваленты. Вы уверены, что у вас не будет трудностей с китаизацией и арабизацией _одновременно_ ?

Давайте по шагам.

1. Сканеры сайтов ("скачать все интересующие страницы с заданного сайта").
В perl, python, php куча готовых решений для этого, со всеми возможными свистелками и финтифлюшками.

Что-то более эффективное, чем уже придуманные решения, изобрести очень трудно, да наверное и незачем. В сложных случаях (картинки, js, антисканеры, капчи) в любом случае с каждым сайтом придется работать индивидуально.

Скриптовые языки здесь более предпочтительны - проще и дешевле найти разработчиков.

2. Адаптеры ("разобрать html-страницу и получить на выходе
структурированные данные").
например из

Код: plaintext

1.
2.
3.
4.
5.

<tr>
	<td>бобруйск</td>
	<td>гостиница №  1 </td>
	<td>скидки  90 % в сентябре</td>
</tr>

требуется получить

Код: plaintext

{region: 'бобруйск', hotel: 'гостиница №1', 'note': 'скидки 90% в сентябре'}

К сожалению, я не знаю, что есть RDF Sponger'ы и какие у них возможности. Они могут автоматизированно решить эту задачу, без задания человеком правил распознавания для каждого типа страниц? Если нет, то в чем тогда преимущество перед скриптовыми "выдиральщиками" информации?

3. Нормализация данных.

Предметная область у ТС небольшая и сущностей не то чтобы особо много. Верю, что rdf-ориентированные тулзы справятся, но точно так же и скриптовые языки справятся, с помощью регекспов и словарей.

4. Агрегация данных ("определить, что эта группа объектов на самом деле одно и то же и оставить в выходных данных только одну копию объекта")

Собственно, все упирается в задание правил "одинаковости" объектов и производительность обработки.

- правила все равно придется задавать вручную, под заданную предметную область, универсальный
"сравниватель" произвольных объектов реализовать невозможно.

- про производительность RDF-хранилищ по сравнению с реляционными базами, к сожалению, ничего сказать не могу, не сравнивал.

Однако, есть мнение, что особая производительность и не потребуется. Во-первых, объем данных неизвестен, во-вторых, даже если он большой, можно разбить данные на независимые блоки и обсчитывать отдельно, на разных железках.

iv_an_ru
"По сумме очков", BBC даже свой собственный архив
каталогизирует в RDF, это при том что там
"поставщик информации" всего один,
всегда "на связи" и всячески помогает архивариусу,
а не гадит. Томас Рейтерс тоже не отстаёт.
А уж эти ребята знают толк в сборе информации.

Насколько я понимаю, у топикстартера стоит цель не создать второй архив BBC, а с минимальными финансовыми затратами тырить информацию у конкурентов и показывать ее в человекочитаемом виде на своем сайте до тех пор, пока этот сайт не раскрутится
Да, и поставщиков будет много, и вряд ли они будут гореть желанием помочь архивариусу

P.S. Было бы интересно услышать, какие компоненты/api вы бы использовали для при реализации подобной системы. Особо интересует выбор rdf-хранилища, api для адаптеров и агрегации информации.

P.P.S. Я правильно понимаю, что rdf-хранилища используются только для обработки/хранения информации, а для выдачи в веб все-таки используются более легковесные базы данных?

...

Рейтинг:

0 / 0

27.09.2010, 20:50

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36868831

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

hellium,

Для разовой программы для себя лично лучше использовать не самую подходящую тулзу, а самую знакомую. Для долгосрочной затеи "Data as a Service" надо уже садиться и тщательно считать деньги по обеим вариантам, в т.ч. раздумывая, сколько будет стоить переделка, когда через пару лет клиенты начнут требовать выхлоп именно в виде RDF.

1. Сканеры сайтов ("скачать все интересующие страницы с заданного сайта").
В perl, python, php куча готовых решений для этого, со всеми возможными свистелками и финтифлюшками.В любой миддлварной СУБД для этого тоже есть готовые функции. С той только разницей, что не будет проблем написать запрос, который будет мимоходом подкачивать недостающие данные. Для выдирания известных прайсов по списку это излишне, но если приспичит что посерьёзней, то может быть и незаменимым. Весь ебай или амазон или travelocity не перекачаешь, а вот выкусить "на лету" пару строго необходимых страничек --- совсем другое дело.

2. Адаптеры ("разобрать html-страницу и получить на выходе
структурированные данные").Если в СУБД есть стойкий к ошибкам вёрстки HTML-парсер и XSLT с возможностью встраивания как SQL так и SPARQL, то код будет и нагляднее любых регэкспов, и устойчивее к мелким правкам вёрстки и уж точно не длиннее.

автор3. Нормализация данных.Зависит от аппетитов ТС, цены начального наполнения и скорости изменения словарей. Хороший многоязыковой словарь может стоить ой-ой-ой, разумно как минимум для начала убедиться, что готового в природе не существует.

автор4. Агрегация данных ("определить, что эта группа объектов на самом деле одно и то же и оставить в выходных данных только одну копию объекта")С этим, как и с любым другим логическим выводом, в RDF разбираться намного проще, чем в классических базах. owl:sameAs для интеграции "разношёрстных" данных _очень_ удобен.
Вы правы, что "правила все равно придется задавать вручную, под заданную предметную область", вопрос в цене разработки, если правила сложны.

про производительность RDF-хранилищ по сравнению с реляционными базами, к сожалению, ничего сказать не могу, не сравнивал.С этим всё в порядке, тем более если пузомеряться с LAMP.

P.S. Было бы интересно услышать, какие компоненты/api вы бы использовали для при реализации подобной системы.Поскольку система строится с нуля, нет никаких старых корпоративных баз, (которые должны жужжать в неизменном виде но при этом разделять данные с новым приложением), то взял бы халявную Virtuoso Open Source. RDBMS с нормальным SQL-ем + хорошая, не для галочки, поддержка RDF + hosted Perl/PHP/Python/Java/C + ODBC/UDBC/IODBC/JDBC/ADO.Net + XPATH/XQuery/XSLT + HTTP/DAV/SOAP... и всё в одном экзешнике.
Если бы стояла ещё и задача интеграции со старым "зоопарком", то я б тут разливался соловьём про Virtuoso Universal Server, в котором кроме всего уже перечесленного есть виртуальная схема, поддержка кластеризации и ещё по мелочи, и поэтому он продаётся по цене примерно в половину от оракловских лицензий (а мне с этих лицензий зарплата образуется ;) Но поскольку ни такой интеграцией ни кластерами тут и не пахнет, я могу с чистой совестью советовать сэкономить деньги и брать халяву :)

И даже если решить, что эта задача "не вырастет" и ограничиться LAMP-ом, то все равно вечерами разбираться с RDF/SPARQL/OWL. Тот, кто сейчас наберётся опыта с этим, потом окажется в таком же выигрышном положении, в каком 15 лет назад были люди с реальным опытом работы с HTTP/HTML.

...

Рейтинг:

0 / 0

27.09.2010, 21:42

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36871186

hellium

Участник

Сообщения: 126

Рейтинг: 0 / 0

iv_an_ru,

iv_an_ruДля разовой программы для себя лично лучше использовать не самую подходящую тулзу, а самую знакомую. Для долгосрочной затеи "Data as a Service" надо уже садиться и тщательно считать деньги по обеим вариантам, в т.ч. раздумывая, сколько будет стоить переделка, когда через пару лет клиенты начнут требовать выхлоп именно в виде RDF.

наверное, экспорт реляционных в RDF это не такая уж и сложная задача.
а подсчитывать нужно еще и стоимость и распространенность специалистов, которые будут работать с rdf-хранилищем.

iv_an_ru1. Сканеры сайтов ("скачать все интересующие страницы с заданного сайта").
В perl, python, php куча готовых решений для этого, со всеми возможными свистелками и финтифлюшками.В любой миддлварной СУБД для этого тоже есть готовые функции. С той только разницей, что не будет проблем написать запрос, который будет мимоходом подкачивать недостающие данные. Для выдирания известных прайсов по списку это излишне, но если приспичит что посерьёзней, то может быть и незаменимым. Весь ебай или амазон или travelocity не перекачаешь, а вот выкусить "на лету" пару строго необходимых страничек --- совсем другое дело.

разницы нет, в скриптовых языках тоже никто не мешает задавать критерии отбора страниц, которые надо скачать/обновить.

iv_an_ru
2. Адаптеры ("разобрать html-страницу и получить на выходе
структурированные данные").Если в СУБД есть стойкий к ошибкам вёрстки HTML-парсер и XSLT с возможностью встраивания как SQL так и SPARQL, то код будет и нагляднее любых регэкспов, и устойчивее к мелким правкам вёрстки и уж точно не длиннее.

в perl/python, если библиотека парсера по каким-то причинам не устраивает, можно
его спокойно выкинуть и взять более подходящий. А встроенный в субд html-парсер, насколько я понимаю, заменить сложнее

iv_an_ru
автор3. Нормализация данных.Зависит от аппетитов ТС, цены начального наполнения и скорости изменения словарей. Хороший многоязыковой словарь может стоить ой-ой-ой, разумно как минимум для начала убедиться, что готового в природе не существует.

ну это от платформы не зависит

iv_an_ru
автор4. Агрегация данных ("определить, что эта группа объектов на самом деле одно и то же и оставить в выходных данных только одну копию объекта")С этим, как и с любым другим логическим выводом, в RDF разбираться намного проще, чем в классических базах. owl:sameAs для интеграции "разношёрстных" данных _очень_ удобен.

Пока ничего не могу сказать, надо посмотреть/попробовать

...

Рейтинг:

0 / 0

28.09.2010, 22:43

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36871232

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

helliumiv_an_ruчто не будет проблем написать запрос, который будет мимоходом подкачивать недостающие данные. Для выдирания известных прайсов по списку это излишне, но если приспичит что посерьёзней, то может быть и незаменимым. Весь ебай или амазон или travelocity не перекачаешь, а вот выкусить "на лету" пару строго необходимых страничек --- совсем другое дело.

разницы нет, в скриптовых языках тоже никто не мешает задавать критерии отбора страниц, которые надо скачать/обновить.Разница есть, с "отдельно стоящими" скриптовыми языками можно сделать SQL запрос, на основании возвращённых значений принять решение и выкачать какие-то странички, распарсить их, долить данные в базу, сделать следующий SQL запрос к уже "расширенным данным" и.т.п. Запросы могут быть разными логическими этапами одного "большого" запроса ("скачать список радиопередатчиков, продающихся поставщиком X, для каждого товара попробовать скачать ТТХ, для каждого передатчика с мощностью выше 2Вт попробовать скачать национальный сертификат...") или стадиями запроса с неподвижной точкой ("скачать лист комплекрующих подукта X, затем для каджой комплектующей --- лист её комплектующих, продолжать до тех пор, пока будут обнаруживаться не расписанные ранее узлы"). В любом случае для SQL+PL нужно городить скрипт. В SPARQL-BI можно просто указать, за какими данными нужно лезть "наружу", если их в местной базе нет, а какие брать только из местных источников.

helliumiv_an_ru3. Нормализация данных... Зависит от аппетитов ТС, цены начального наполнения и скорости изменения словарей. Хороший многоязыковой словарь может стоить ой-ой-ой, разумно как минимум для начала убедиться, что готового в природе не существует.
ну это от платформы не зависитЕщё как зависит. Вот есть WordNet --- весь английский язык в одном флаконе RDF-графе. Ну и как в нём ковыряться скриптом? Никак. Если приспичит, то придётся ругаться на судьбу-злодейку и учить SPARQL и т.п. А раз выучил, так вопрос "цены разработчика" и снялся.

В общем, куча мелких фенечек в обмен за одно серьёзное разовое вложение времени/сил. Стоит посмотреть до хотя бы той степени, когда прояснятся размер кучи и ценник.

...

Рейтинг:

0 / 0

28.09.2010, 23:21

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36871250

netwind

Участник

Сообщения: 14 195

Рейтинг: 0 / 0

iv_an_ru
В общем, куча мелких фенечек в обмен за одно серьёзное разовое вложение времени/сил. Стоит посмотреть до хотя бы той степени, когда прояснятся размер кучи и ценник.
и опять вы забыли о преимуществах кучи мелких всегда готовых написать пасер на основе несложных формальных правил и готовой mysql-схемы, пшп-программистов.

...

Рейтинг:

0 / 0

28.09.2010, 23:43

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36871298

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

netwindiv_an_ru
В общем, куча мелких фенечек в обмен за одно серьёзное разовое вложение времени/сил. Стоит посмотреть до хотя бы той степени, когда прояснятся размер кучи и ценник.
и опять вы забыли о преимуществах кучи мелких всегда готовых написать пасер на основе несложных формальных правил и готовой mysql-схемы, пшп-программистов.
Да, если задача будет простой, то эти преимущества будут решающими. Если сложной, то надо считать. Среди прочего, задать себе вопрос: этим пшп-программистам им религия не велит цепляться к чему-нибудь, кроме mysql? А то ведь hosted php для разовых поделок никто не отменял, если выхлоп не грузит систему, то могут и дальше на php писать, к примеру, весь веб-сайт.

...

Рейтинг:

0 / 0

29.09.2010, 00:18

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36871501

hellium

Участник

Сообщения: 126

Рейтинг: 0 / 0

iv_an_ruДа, если задача будет простой, то эти преимущества будут решающими. Если сложной, то надо считать. Среди прочего, задать себе вопрос: этим пшп-программистам им религия не велит цепляться к чему-нибудь, кроме mysql? А то ведь hosted php для разовых поделок никто не отменял, если выхлоп не грузит систему, то могут и дальше на php писать, к примеру, весь веб-сайт.
Вроде бы принцип KISS еще тоже не отменили )

...

Рейтинг:

0 / 0

29.09.2010, 09:37

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36871533

netwind

Участник

Сообщения: 14 195

Рейтинг: 0 / 0

hellium, iv_an_ru зарабатывает на тех, кто в него не верит.

...

Рейтинг:

0 / 0

29.09.2010, 09:53

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36872843

iv_an_ru

Участник

Откуда: Новосибирск

Сообщения: 14 546

Рейтинг: 0 / 0

helliumВроде бы принцип KISS еще тоже не отменили )Ну да. И для простых случаев KISS==LAMP.

...

Рейтинг:

0 / 0

29.09.2010, 17:23

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36882640

jbond81

Участник

Сообщения: 682

Рейтинг: 0 / 0

statusdenДобрый вечер всем!
Стоит следующая задача: Написать программу для туристического агенства. Суть такая: есть входные данные, или условия поиска ... тур-опреатор, город, категория отеля, питание, заезд с какого числа и т.п. ... Программа анализирует список из 50 примерно сайтов, и выдает результат в виде таблицы, например отсортир по ценам.. еще приявязать к этим отелям отзывы с двух сайтов.
Вопрос: возможно ли такое осуществить ? ... Как это можно реализовать ? .... И если такое кто возьмется сделать, то цена вопроса.?!

в таких случаях вы подписываете договор непосредственно с сайтами на поставку вам данных
они ес-но берут за это деньги

потом вы делаете на своем сайте сравнилку и по Affiliate ссылке передаете человека на соответствующую страницу

за клиента вы получаете вознаграждение Pay-per-Click

За парсинг чужой инфы вам могут влепить нехилый штраф

...

Рейтинг:

0 / 0

05.10.2010, 15:00

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36882766

hellium

Участник

Сообщения: 126

Рейтинг: 0 / 0

jbond81За парсинг чужой инфы вам могут влепить нехилый штраф
а мужики-то не знают )

А если серьезно, без контекста это слова ни о чем .
Что за информация, откуда и куда сканится, публикуется ли, если да, то как,
законодательство какой страны используется, и т.п.

...

Рейтинг:

0 / 0

05.10.2010, 15:35

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36882796

jbond81

Участник

Сообщения: 682

Рейтинг: 0 / 0

helliumjbond81За парсинг чужой инфы вам могут влепить нехилый штраф
а мужики-то не знают )

А если серьезно, без контекста это слова ни о чем .
Что за информация, откуда и куда сканится, публикуется ли, если да, то как,
законодательство какой страны используется, и т.п.

мужики то не знают, а контекст "сделать сравнилку услуг по определенным сайтов".

Вот в этом контексте нужно проблему решать не "граббингом и парсингом HTML", а заключением договоров.

...

Рейтинг:

0 / 0

05.10.2010, 15:42

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36882812

jbond81

Участник

Сообщения: 682

Рейтинг: 0 / 0

курим здесь

...

Рейтинг:

0 / 0

05.10.2010, 15:44

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36883388

Гата Селов

Участник

Сообщения: 424

Рейтинг: 0 / 0

Контекст "сделать сравнилку услуг по определенным сайтов. Дёшево. Конкурентам не платить".
Тут партнёрка не канает (до определенного уровня)

...

Рейтинг:

0 / 0

05.10.2010, 19:19

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36884086

jbond81

Участник

Сообщения: 682

Рейтинг: 0 / 0

Гата СеловКонтекст "сделать сравнилку услуг по определенным сайтов. Дёшево. Конкурентам не платить".
Тут партнёрка не канает (до определенного уровня)

кто есть конкуренты? это другие сравнилки. и зачем им платить?

а партнерка заключается между сравнилкой (аффилиат-партнер) и поставщиками данных (сайты услуг).

...

Рейтинг:

0 / 0

06.10.2010, 10:34

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36884099

hellium

Участник

Сообщения: 126

Рейтинг: 0 / 0

jbond81кто есть конкуренты? это другие сравнилки. и зачем им платить?
видимо, вы все-таки ошибаетесь
statusdenНаписать программу для туристического агенства.

...

Рейтинг:

0 / 0

06.10.2010, 10:38

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36884207

jbond81

Участник

Сообщения: 682

Рейтинг: 0 / 0

автор
Программа анализирует список из 50 примерно сайтов

каких? кому принадлежат они?
за граббинг информации с этих сайтов можно получить штраф.

...

Рейтинг:

0 / 0

06.10.2010, 11:10

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36884215

netwind

Участник

Сообщения: 14 195

Рейтинг: 0 / 0

jbond81, ну так давай выписывай квитанцию.

...

Рейтинг:

0 / 0

06.10.2010, 11:13

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36884242

hellium

Участник

Сообщения: 126

Рейтинг: 0 / 0

netwind,
дополнение: в первую очередь надо выписывать квитанции гуглу, яндексу, майлру, рамблеру и бингу. деньжищ то сколько огрести можно будет )

...

Рейтинг:

0 / 0

06.10.2010, 11:19

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36884261

jbond81

Участник

Сообщения: 682

Рейтинг: 0 / 0

helliumnetwind,
дополнение: в первую очередь надо выписывать квитанции гуглу, яндексу, майлру, рамблеру и бингу. деньжищ то сколько огрести можно будет )

имеется ввиду граббинг с целью обработки, сохранения в структурированном виде и последующего использования информации.
а так же использования чужой информации (текстовой, графической и т.п.) на своем сайте.
это не гугл и не яндекс.

кстати, Яндекс Макрет, а так же другие сравнилки имеют именно API интерфейс, по которому шопу публикуют информацию о товарах и их ценах.

Называется партнерская программа. Яндекс/Google там ничего не грабит и не парсит.

...

Рейтинг:

0 / 0

06.10.2010, 11:26

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36884268

netwind

Участник

Сообщения: 14 195

Рейтинг: 0 / 0

jbond81, квитанция где? куда штраф платить? и вообще, предъявите документы!

...

Рейтинг:

0 / 0

06.10.2010, 11:28

| Ответить | Цитировать | Написать

Программа. Сборщик информации с сайтов.

#36884399

hellium

Участник

Сообщения: 126

Рейтинг: 0 / 0

jbond81имеется ввиду граббинг с целью обработки, сохранения в структурированном виде и последующего использования информации.
а так же использования чужой информации (текстовой, графической и т.п.) на своем сайте.
это не гугл и не яндекс.

чем из вышеперечисленного поисковики не занимаются?

...

Рейтинг:

0 / 0

06.10.2010, 13:44

| Ответить | Цитировать | Написать

73 сообщений из 73, показаны все 3 страниц

все

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Программа. Сборщик информации с сайтов.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?all=1&fid=16&tid=1343410]:	0ms
get settings:	9ms
get forum list:	20ms
check forum access:	4ms
check topic access:	4ms
track hit:	209ms
get topic data:	13ms
get forum data:	3ms
get page messages:	128ms
get tp. blocked users:	2ms
others:	237ms

total:	629ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы