powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / ERP и учетные системы [игнор отключен] [закрыт для гостей] / Модуль сбора и обработки информации из внешних источников
10 сообщений из 10, страница 1 из 1
Модуль сбора и обработки информации из внешних источников
    #34031447
Gallagher
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Доброго времени суток. Стоим перед выбором: либо разрабатывать свой модуль, либо заюзать существующее решение. Наработки в данной теме уже есть, но не изобретаем ли мы велосипед? Подскажите, где (в каких программных продуктах, модулях информационных систем) было реализовано нечто подобное? Вот требования в форме свободного эссэ :)

Модуль сбора и обработки информации из внешних источников

Описание: Распределенная система нахождения, трансформации и передачи информации из открытых источников. Умеет обрабатывать входные источники данных различных типов по заданным пользователем правилам. Должна иметь гибкую систему конфигурирования и предоставления отчетов, реализованную в виде front-end’а.

Предназначение: Автоматизированный сбор информации с интересующих пользователя сайтов (и других источников). Может применяться для своевременного периодического получения данных, необходимых клиентам для ведения бизнеса (котировки валют, ценных бумаг и т.д. на различных торговых площадках, цены на недвижимость, землю и т.д. в различных странах и регионах). Также может применяться для оперативного отслеживания поведения компаний-конкурентов (ценовая политика, расширение товарного ассортимента, новости компаний и т.д.).

Входные и выходные данные: Источниками данных, как правило, являются Интернет-узлы, предоставляющие информацию в форматах HTML, CSV, XLS, PDF, XML и т.д. Возможен также разбор информации на более низком уровне, поучаемой через протокол HTTP. Типы входных данных могут быть как текстовые (поиск по регулярным выражениям), так и графическим (получение графических файлов JPEG, GIF, возможна реализация функций распознавания изображений). Приемниками данных могут быть указанные пользователем узлы, работающие по протоколам HTTP (вызов URL с передачей результатов методами GET, POST, PUT), POP3, посредством Sockets и т.д. Формат выходных данных может быть выбран пользователем из предоставляемых системой разработанных форматов, либо описан пользователем, исходя из требований к предоставляемым данным (plain text, XML, CSV и т.д.). Результирующие данные целесообразно также хранить во внутренней базе данных системы для возможных запросов к ним пользователей, кэширования и восстановления.

Алгоритм работы: Основной модуль системы запускается периодически по расписанию и производит получение данных для каждого клиента по всем указанных им источникам и заданным для них шаблонов. При этом отслеживается запаздывание данных (например, появление актуальных котировок через несколько дней после торговли), появление новых экземпляров данных (появление новых товаров в каталоге и страниц сайта с товарами). Затем, после получения исходных файлов, начинается их разбор с целью получения необходимой информации. Разбор может осуществляться на основе следующих правил:
- получение подстроки по указанной позиции;
- поиск по регулярным выражениям;
- разбор дерева входного HTML/XML с целью поиска узлов, отвечающих заданным условиям;
- поиск вхождений, приблизительно подходящих под правила;
- поиск набора значений по указанному темплейту (например, поиск характеристик товаров каталога);
- комбинация вышеуказанных правил;
- и т.д.
Далее происходит агрегация полученных данных в выходные форматы и поставка их пользователю.

Состав системы:
1. Механизм настройки скачивания. Должен позволять пользователю настраиваться на требуемые страницы источников, выдавать варианты привязки граббера и автонастройки. Т.е. нужен удобный интерфейс визуального разбора HTML-структуры и описания выбранных узлов. Возможно также включить механизм поиска появления новых экземпляров данных и страниц. Пример: необходимо вытаскивать названия, цены и изображения всех товаров с сайта (при этом находить все страницы с товарами), отвечающих определенным условиям (например, мобильные телефоны в определенном ценовом диапазоне), приводить все цены в указанную валюту (соответственно, нужно иметь актуальные котировки валют), а изображения – к определенному формату (разрешению).
2. Механизм скачивания исходных данных (см. алгоритм работы).
3. База данных.
4. Механизм портации данных в выбранные форматы.
5. Механизм алертов (сообщений пользователям о срабатывании определенных условий, например, резкое падение котировок, запаздывание данных, либо явная неспособность системы найти необходимые данные вследствие их отсутствия или кардинальной перестройки структуры источника).
6. Отчетность различного рода.

Перспективы:
- аналитические возможности (изучение поведения конкурентов);
- работа с группами источников (объединение информации по одной компании, взятой из разлиных источников, например, официальные сайты компаний и сторонние новостные ресурсы и обзоры, нахождение лидеров среди конкуретнов и т.д.);
- интеграция системы с информационными системами клиентов.
...
Рейтинг: 0 / 0
Модуль сбора и обработки информации из внешних источников
    #34031518
Gallagher
Что-то это мне напоминает поисковые системы/роботы типа Google, Yandex и т.д., только несколько более специализированные....

Модератор: цитата вырезана - не злоупотребляйте оверквотингом
...
Рейтинг: 0 / 0
Модуль сбора и обработки информации из внешних источников
    #34031555
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не понял, а чем Вас BizTalk не устраивает??

По спецификации - так он так и работает. И для этого и предназначен.

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Модуль сбора и обработки информации из внешних источников
    #34031580
Gallagher
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
George NordicНе понял, а чем Вас BizTalk не устраивает??

По спецификации - так он так и работает. И для этого и предназначен.

С Уважением,
Георгий

Отлично, как минимум один продукт назан - MS BizTalk. Ещё что-нибудь?
...
Рейтинг: 0 / 0
Модуль сбора и обработки информации из внешних источников
    #34031681
Фотография Shuhard
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iBolt:
http://www.mont.ru/products/magicsoftware/soft/ibolt.html
...
Рейтинг: 0 / 0
Модуль сбора и обработки информации из внешних источников
    #34031881
Gallagher
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Почитал вайтпеперы BizTalkа, решил пощупать живьём - посредством Virtual Lab. По туториалу загнулся на 2ом шаге, когда машина сказала, что не может найти необходимого компонента чтобы открыть необходимый файл. Отписался MSам о найденном баге - несолидно как-то, ей богу :)
Почитал про iBolt, посмотрел и послушал презентацию - впечатлило.

НО! Насколько удалось понять, продукты эти направлены на интеграцию гетерогенных информационных систем - создание единого информационного пространства, что-ли. Мне же нужно нечто более простое - умный граббер / качалка + парсер.
...
Рейтинг: 0 / 0
Модуль сбора и обработки информации из внешних источников
    #34032028
Грубиян
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GallagherПодскажите, где (в каких программных продуктах, модулях информационных систем) было реализовано нечто подобное?
yandex.ru
google.com
yahoo.com
:-)

Вы бы всё-таки определились что вам нужно конкретно: котировки на фондовом рынке или прайс-листы обувных магазинов.

Универсальных средств сбора подобной инфы нет и не будет. Вы хотите слишком многого от тупого компьютера.
...
Рейтинг: 0 / 0
Модуль сбора и обработки информации из внешних источников
    #34032208
Gallagher
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ГрубиянВы бы всё-таки определились что вам нужно конкретно: котировки на фондовом рынке или прайс-листы обувных магазинов.
Универсальных средств сбора подобной инфы нет и не будет.

И то, и другое, и много чего ещё. Универсальные средства существуют (в пределах понимания термина "универсальность") - пример тому, уже реализованный мною модуль к КИС на предыдущем месте работы, который скачивал котировки с нескольких десятков веб-источников в разных форматах (html, xml, cvs, plain-text, dbf) и имел гибкую настройку. После этого, он без малейшей доработки был продан в составе небольшого ПП одной крупной компании, занимающейся торговлей бытовой техники - для отслеживания прайсов конкурентов. Сейчас встал вопрос о дальнейшей его доработке и мне необходимо принять решение - развивать ли его дальше или воспользоваться уже чем-то готовым.

ГрубиянВы хотите слишком многого от тупого компьютера.
Компьютер "тупым" делают программисты, со своими "тупыми" программами, имхо.
...
Рейтинг: 0 / 0
Модуль сбора и обработки информации из внешних источников
    #34032281
Грубиян
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Gallagher Универсальные средства существуют (в пределах понимания термина "универсальность") - пример тому, уже реализованный мною модуль к КИС на предыдущем месте работы, который скачивал котировки с нескольких десятков веб-источников в разных форматах (html, xml, cvs, plain-text, dbf) и имел гибкую настройку. После этого, он без малейшей доработки был продан в составе небольшого ПП одной крупной компании, занимающейся торговлей бытовой техники - для отслеживания прайсов конкурентов. Сейчас встал вопрос о дальнейшей его доработке и мне необходимо принять решение - развивать ли его дальше или воспользоваться уже чем-то готовым.
Хоть я тоже кое-что писал по сбору инфы о ценах, но не в этом дело.
Сделать можно практически всё. Вопрос в соотношении необходимость/(нагрузка+время).

GallagherКомпьютер "тупым" делают программисты, со своими "тупыми" программами, имхо.
В этом есть доля правды. :-) Но выше крыши всё равно не перепрыгнешь.
...
Рейтинг: 0 / 0
Модуль сбора и обработки информации из внешних источников
    #34032294
sergey888
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я бы предпочел дальнейшую доработку.
Используя готовые системы, есть риск запнуться на любом "шаге".
...
Рейтинг: 0 / 0
10 сообщений из 10, страница 1 из 1
Форумы / ERP и учетные системы [игнор отключен] [закрыт для гостей] / Модуль сбора и обработки информации из внешних источников
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]