Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Модуль сбора и обработки информации из внешних источников
|
|||
|---|---|---|---|
|
#18+
Доброго времени суток. Стоим перед выбором: либо разрабатывать свой модуль, либо заюзать существующее решение. Наработки в данной теме уже есть, но не изобретаем ли мы велосипед? Подскажите, где (в каких программных продуктах, модулях информационных систем) было реализовано нечто подобное? Вот требования в форме свободного эссэ :) Модуль сбора и обработки информации из внешних источников Описание: Распределенная система нахождения, трансформации и передачи информации из открытых источников. Умеет обрабатывать входные источники данных различных типов по заданным пользователем правилам. Должна иметь гибкую систему конфигурирования и предоставления отчетов, реализованную в виде front-end’а. Предназначение: Автоматизированный сбор информации с интересующих пользователя сайтов (и других источников). Может применяться для своевременного периодического получения данных, необходимых клиентам для ведения бизнеса (котировки валют, ценных бумаг и т.д. на различных торговых площадках, цены на недвижимость, землю и т.д. в различных странах и регионах). Также может применяться для оперативного отслеживания поведения компаний-конкурентов (ценовая политика, расширение товарного ассортимента, новости компаний и т.д.). Входные и выходные данные: Источниками данных, как правило, являются Интернет-узлы, предоставляющие информацию в форматах HTML, CSV, XLS, PDF, XML и т.д. Возможен также разбор информации на более низком уровне, поучаемой через протокол HTTP. Типы входных данных могут быть как текстовые (поиск по регулярным выражениям), так и графическим (получение графических файлов JPEG, GIF, возможна реализация функций распознавания изображений). Приемниками данных могут быть указанные пользователем узлы, работающие по протоколам HTTP (вызов URL с передачей результатов методами GET, POST, PUT), POP3, посредством Sockets и т.д. Формат выходных данных может быть выбран пользователем из предоставляемых системой разработанных форматов, либо описан пользователем, исходя из требований к предоставляемым данным (plain text, XML, CSV и т.д.). Результирующие данные целесообразно также хранить во внутренней базе данных системы для возможных запросов к ним пользователей, кэширования и восстановления. Алгоритм работы: Основной модуль системы запускается периодически по расписанию и производит получение данных для каждого клиента по всем указанных им источникам и заданным для них шаблонов. При этом отслеживается запаздывание данных (например, появление актуальных котировок через несколько дней после торговли), появление новых экземпляров данных (появление новых товаров в каталоге и страниц сайта с товарами). Затем, после получения исходных файлов, начинается их разбор с целью получения необходимой информации. Разбор может осуществляться на основе следующих правил: - получение подстроки по указанной позиции; - поиск по регулярным выражениям; - разбор дерева входного HTML/XML с целью поиска узлов, отвечающих заданным условиям; - поиск вхождений, приблизительно подходящих под правила; - поиск набора значений по указанному темплейту (например, поиск характеристик товаров каталога); - комбинация вышеуказанных правил; - и т.д. Далее происходит агрегация полученных данных в выходные форматы и поставка их пользователю. Состав системы: 1. Механизм настройки скачивания. Должен позволять пользователю настраиваться на требуемые страницы источников, выдавать варианты привязки граббера и автонастройки. Т.е. нужен удобный интерфейс визуального разбора HTML-структуры и описания выбранных узлов. Возможно также включить механизм поиска появления новых экземпляров данных и страниц. Пример: необходимо вытаскивать названия, цены и изображения всех товаров с сайта (при этом находить все страницы с товарами), отвечающих определенным условиям (например, мобильные телефоны в определенном ценовом диапазоне), приводить все цены в указанную валюту (соответственно, нужно иметь актуальные котировки валют), а изображения – к определенному формату (разрешению). 2. Механизм скачивания исходных данных (см. алгоритм работы). 3. База данных. 4. Механизм портации данных в выбранные форматы. 5. Механизм алертов (сообщений пользователям о срабатывании определенных условий, например, резкое падение котировок, запаздывание данных, либо явная неспособность системы найти необходимые данные вследствие их отсутствия или кардинальной перестройки структуры источника). 6. Отчетность различного рода. Перспективы: - аналитические возможности (изучение поведения конкурентов); - работа с группами источников (объединение информации по одной компании, взятой из разлиных источников, например, официальные сайты компаний и сторонние новостные ресурсы и обзоры, нахождение лидеров среди конкуретнов и т.д.); - интеграция системы с информационными системами клиентов. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2006, 13:24 |
|
||
|
Модуль сбора и обработки информации из внешних источников
|
|||
|---|---|---|---|
|
#18+
Gallagher Что-то это мне напоминает поисковые системы/роботы типа Google, Yandex и т.д., только несколько более специализированные.... Модератор: цитата вырезана - не злоупотребляйте оверквотингом ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2006, 13:37 |
|
||
|
Модуль сбора и обработки информации из внешних источников
|
|||
|---|---|---|---|
|
#18+
Не понял, а чем Вас BizTalk не устраивает?? По спецификации - так он так и работает. И для этого и предназначен. С Уважением, Георгий ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2006, 13:43 |
|
||
|
Модуль сбора и обработки информации из внешних источников
|
|||
|---|---|---|---|
|
#18+
George NordicНе понял, а чем Вас BizTalk не устраивает?? По спецификации - так он так и работает. И для этого и предназначен. С Уважением, Георгий Отлично, как минимум один продукт назан - MS BizTalk. Ещё что-нибудь? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2006, 13:49 |
|
||
|
Модуль сбора и обработки информации из внешних источников
|
|||
|---|---|---|---|
|
#18+
iBolt: http://www.mont.ru/products/magicsoftware/soft/ibolt.html ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2006, 14:07 |
|
||
|
Модуль сбора и обработки информации из внешних источников
|
|||
|---|---|---|---|
|
#18+
Почитал вайтпеперы BizTalkа, решил пощупать живьём - посредством Virtual Lab. По туториалу загнулся на 2ом шаге, когда машина сказала, что не может найти необходимого компонента чтобы открыть необходимый файл. Отписался MSам о найденном баге - несолидно как-то, ей богу :) Почитал про iBolt, посмотрел и послушал презентацию - впечатлило. НО! Насколько удалось понять, продукты эти направлены на интеграцию гетерогенных информационных систем - создание единого информационного пространства, что-ли. Мне же нужно нечто более простое - умный граббер / качалка + парсер. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2006, 14:46 |
|
||
|
Модуль сбора и обработки информации из внешних источников
|
|||
|---|---|---|---|
|
#18+
GallagherПодскажите, где (в каких программных продуктах, модулях информационных систем) было реализовано нечто подобное? yandex.ru google.com yahoo.com :-) Вы бы всё-таки определились что вам нужно конкретно: котировки на фондовом рынке или прайс-листы обувных магазинов. Универсальных средств сбора подобной инфы нет и не будет. Вы хотите слишком многого от тупого компьютера. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2006, 15:13 |
|
||
|
Модуль сбора и обработки информации из внешних источников
|
|||
|---|---|---|---|
|
#18+
ГрубиянВы бы всё-таки определились что вам нужно конкретно: котировки на фондовом рынке или прайс-листы обувных магазинов. Универсальных средств сбора подобной инфы нет и не будет. И то, и другое, и много чего ещё. Универсальные средства существуют (в пределах понимания термина "универсальность") - пример тому, уже реализованный мною модуль к КИС на предыдущем месте работы, который скачивал котировки с нескольких десятков веб-источников в разных форматах (html, xml, cvs, plain-text, dbf) и имел гибкую настройку. После этого, он без малейшей доработки был продан в составе небольшого ПП одной крупной компании, занимающейся торговлей бытовой техники - для отслеживания прайсов конкурентов. Сейчас встал вопрос о дальнейшей его доработке и мне необходимо принять решение - развивать ли его дальше или воспользоваться уже чем-то готовым. ГрубиянВы хотите слишком многого от тупого компьютера. Компьютер "тупым" делают программисты, со своими "тупыми" программами, имхо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2006, 15:43 |
|
||
|
Модуль сбора и обработки информации из внешних источников
|
|||
|---|---|---|---|
|
#18+
Gallagher Универсальные средства существуют (в пределах понимания термина "универсальность") - пример тому, уже реализованный мною модуль к КИС на предыдущем месте работы, который скачивал котировки с нескольких десятков веб-источников в разных форматах (html, xml, cvs, plain-text, dbf) и имел гибкую настройку. После этого, он без малейшей доработки был продан в составе небольшого ПП одной крупной компании, занимающейся торговлей бытовой техники - для отслеживания прайсов конкурентов. Сейчас встал вопрос о дальнейшей его доработке и мне необходимо принять решение - развивать ли его дальше или воспользоваться уже чем-то готовым. Хоть я тоже кое-что писал по сбору инфы о ценах, но не в этом дело. Сделать можно практически всё. Вопрос в соотношении необходимость/(нагрузка+время). GallagherКомпьютер "тупым" делают программисты, со своими "тупыми" программами, имхо. В этом есть доля правды. :-) Но выше крыши всё равно не перепрыгнешь. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.10.2006, 15:58 |
|
||
|
|

start [/forum/topic.php?fid=29&msg=34031447&tid=1527908]: |
0ms |
get settings: |
8ms |
get forum list: |
16ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
130ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
42ms |
get tp. blocked users: |
1ms |
| others: | 238ms |
| total: | 449ms |

| 0 / 0 |
