powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Программа. Сборщик информации с сайтов.
25 сообщений из 73, страница 1 из 3
Программа. Сборщик информации с сайтов.
    #36858849
statusden
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Добрый вечер всем!
Стоит следующая задача: Написать программу для туристического агенства. Суть такая: есть входные данные, или условия поиска ... тур-опреатор, город, категория отеля, питание, заезд с какого числа и т.п. ... Программа анализирует список из 50 примерно сайтов, и выдает результат в виде таблицы, например отсортир по ценам.. еще приявязать к этим отелям отзывы с двух сайтов.
Вопрос: возможно ли такое осуществить ? ... Как это можно реализовать ? .... И если такое кто возьмется сделать, то цена вопроса.?!
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36858883
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
statusden,
Возможно.
Нужен парсер преобразующий html в структурированую информацию. В той или иной форме задача уже решалась и пути решения известны. Но велосипед неизбежен. Остальная часть по разбору полученых результатов бананальна и решаема.
Столько сколько запросит исполнитель. Скорее зависити от содержимого сайтов и потребностей.
А вы с практической целью или как?
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36859075
statusden
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
antares0,
Спасибо за ответ. Да я с практической целью интересуюсь. Сайты в принципе все извсетные, это различные тур операторы. Как пример TezTour. Если интересует, то более детально тех задание могу присалать.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36859174
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
statusden,
Интересно. Почта в профиле.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36859536
statusden
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
antares0,

Ок. Сегодня вечером иди завтра днем вышлю
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36860367
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
antares0 wrote:

> Нужен парсер преобразующий html в структурированую информацию. В той или
> иной форме задача уже решалась и пути решения известны.

Это твои девичьи мечты. Преобразовать неструктурированную информацию (html)
в структурированную можно только с использованием интеллекта, человеческого
или искусственного.
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36860998
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZiv,
Или ваш маразм (да простят меня модераторы). Информация на сайте неструктурирована относительно. Если брать какой-то опредленный сайт, то ему вполне сопоставить шаблон, с участием интелекта да. Используя этот шаблон можно уже забирать информацию автоматически. Если не знаете как это делается, то могу посоветовать самообразование. Очень помогает.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861027
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Злой я сегодня. Но самообразовываться все равно полезно.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861150
ShSerge
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
antares0Злой я сегодня. Но самообразовываться все равно полезно.
Самообразовывайтесь. Кто Вам мешает?
Собственно, по сабжу, на каком языке пишите? Могу в три строчки (соврал - в одну) примерчик написать, как сдёрнуть данные. А распарсить хтмл, который и есть струкрурированные данные - проще простого. Потому и спрашиваю, что за язык, потому что для всех по много вариантов есть. Сами ищите подходящие для вашего случая парсеры.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861156
antares0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ShSerge,
Да я и сам знаю, ученый. Это MasterZiv выражает сомнени в том что из html-я можно выдрать что-нибудь структурированое. На это только ИИ способен видите ли.
Читай те уж тему по порядку.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861187
Гата Селов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZiv
Преобразовать неструктурированную информацию (html)
в структурированную можно только с использованием интеллекта

они, парсеры (по крайней мере по объявлениям недвижимости, транспорта) так и работают: на каждый сайт свой метод с кучей свичей и ифов, приводящий табличку с сайта к станартному виду.

И топикстартеру: одному агенТству одна студия сляпала сайт за большие деньги, в шапке которого, помимо всякой лабуды жирными буквами было написано "агенство недвижимости". Нехорошие люди написали петицию от имени общества "в защиту Русского языка от лаптей", и добрые деловые отношения агенТства и студии были подорваны.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861219
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
antares0, остыл немного? Или понял что наехал на модератора?

Короче слушай телегу. Всё это реально можно сделать но сложно поддерживать. В наше время веб-содержимое уже не является чистым HTML-контентом как было 20 лет назад и парсить его очень сложно. Тут возможны ситуации. Первое. Если тур-оператор резко решил сменить дизайн - то твой софт перестанет выдавать корретные данные. Второе. Если тур-оператор решил перейтие на flash-содержимое - тебя ждёт большой облом и невозможность быстро и в реальные сроки поправить положение. Третье. Если тур-оператор чисто в шутку опубликует свои услуги в виде скриншота - тебя ждёт еще больший облом. Разпознавание картинок - отдельная тема, которая стоит реально большие бабки. Короче говоря твой софт будет априори очень ненадёжен, глюкав и требующий бесконечной тех-поддержки. Не проще-ли посадить студентов чтоб разгребали руками контент и формировали отчётоность? Щас кризис. Людей надо обеспечить рабочими местами.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861231
Гата Селов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
1. За 100 евро автор парсера поправит втечение дня.
2. Это да.
3. Это да, хотя это редкость, и какой - нить гугл тессеракт прикрутить будет не очень дорого.

Такие парсеры для разных областей существуют, и довольно успешно. Надежность, конечно, не высокая, но на прктике это не критично (могу по недвижимости сказать: парсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).

Студенты дороже обойдутся
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861233
ShSerge
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,

Совершенно правильно сказано, за исключением того, что не студентов, а студенток.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861236
Фотография Яростный Меч
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonВторое и третье маловероятно, а насчет первого - да, придется вносить изменения.
Вот уследить за 50 сайтами, проверять работу парсеров - это отдельная, очень веселая тема (очевидно, для каждого сайта - свой парсер)

ps: Капитан Очевидность сообщает: очень пригодятся регексы.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861237
ShSerge
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гата Селов1. За 100 евро автор парсера поправит втечение дня.
2. Это да.
3. Это да, хотя это редкость, и какой - нить гугл тессеракт прикрутить будет не очень дорого.

Такие парсеры для разных областей существуют, и довольно успешно. Надежность, конечно, не высокая, но на прктике это не критично (могу по недвижимости сказать: парсер на > 30 категорий по 6 сайтам, порядка 800 000 объявлений в неделю, за два года эксплуатации всего 2 переделки, обе из - за смены дизайна на сайте).

Студенты дороже обойдутся
Что касается авторов парсера это и лимона баксов маловато будет, а что касается программистов, применяющих этот парсер - можно и дешевле и быстрее. Точно, что не проблема. Только дело в том, что ручками - гораздо надёжнее, правильнее и даже гламурнее. А самое важное в том, что нам, программистам, то есть, за это деньги платят.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861288
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Яростный МечВот уследить за 50 сайтами, проверять работу парсеров - это отдельная, очень веселая тема (очевидно, для каждого сайта - свой парсер)

ps: Капитан Очевидность сообщает: очень пригодятся регексы.
Не совсем. Парсер должен быть один. Это скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайта и излекает данные о тур-услугах в неком едином формате готовом к отчетности. Если сайт будет содержать форму авторизации то возможно нужно будет поддерживать несколько XSLT-логик, с обработкой различных ACTION-s но суть остаётся той-же.

P.S. При правильном подходе регексы не понадобятся.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861293
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
antares0 wrote:

> Или ваш маразм (да простят меня модераторы). Информация на сайте
> неструктурирована относительно.

Это как "слегка беременна". Либо информация структурирована, либо
НЕ структурирована.

Если брать какой-то опредленный сайт, то
> ему вполне сопоставить шаблон, с участием интелекта да. Используя этот

Ну, а завтра они меняют дизайн -- и ...
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861294
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гата Селови какой - нить гугл тессеракт прикрутить будет не очень дорого.
Это что очерденая серебрянная пуля?
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861299
Фотография MasterZiv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ShSerge wrote:

> - в одну) примерчик написать, как сдёрнуть данные. А распарсить хтмл,
> который и есть *струкрурированные данные* - проще простого.

В HTML структурированы не данные, а РАЗМЕТКА текста, содержащего эти данные.

Парсить это Г -- занятие сугубо неблагодарное.

Другое дело, если сайты предоставляют всякие WEB-сервисы по SOAP...
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861317
Фотография Яростный Меч
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
maytonЭто скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайтаИсходный код страницы - далека не всегда валидный XML.
К тому же часть информации может в нем отсутствовать и дорисовывается с помощью js, иногда с попыткой запрятать (само собой, безуспешной).
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861325
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Яростный, ты всё перепутал.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861336
clihlt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MasterZiv
Парсить это Г -- занятие сугубо неблагодарное.


Абсолютная правда.

Just for fun, накидал простейший скриптец - выдерает с фишек.нет фотки девок и складирует в папку.
Автор лови ))) Может поможет чем ))
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861343
clihlt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Яростный МечmaytonЭто скорее всего HTML-XML конвертер. Но к нему прикручивается XSLT-логика которая конфигурится персонально для каждого сайтаИсходный код страницы - далека не всегда валидный XML.
К тому же часть информации может в нем отсутствовать и дорисовывается с помощью js, иногда с попыткой запрятать (само собой, безуспешной).

Мало того - код страницы не всегда даже валидный HTML.
...
Рейтинг: 0 / 0
Программа. Сборщик информации с сайтов.
    #36861347
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
И не валидный HTML,
И не докачанный до конца,
И с наполнением контента через jscript.
И с неизвестной кодировкой.
И с враппленной, и заGIF-ленной ценной информацией.
И с капчей на странице логона.
И с детектором роботов на сервере
И с недобрыми намерениями по отношению к вам (автору топика), если ваш коварный план по сбору инфы будет раскрыт.

Вот такие пирожки.
...
Рейтинг: 0 / 0
25 сообщений из 73, страница 1 из 3
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Программа. Сборщик информации с сайтов.
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]