powered by simpleCommunicator - 2.0.51     © 2025 Programmizd 02
Форумы / IBM DB2, WebSphere, IMS, U2 [игнор отключен] [закрыт для гостей] / Индексация и хранение большого ко-ва файлов (почтовый архив)
19 сообщений из 19, страница 1 из 1
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32388237
kostya0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Задача следующая - организовать почтовый архив на предприятии

Исходные данные:
-Организация с трафиком 300 000 писем в неделю (10ГБ в неделю).
-Надо хранить архив этой переписки хотябы за последний год.
-Переписка ведется в своей системе (не стандартной).
-Любое письмо представляется :
1. набор полей (Дата, ОтКого, Кому,Тема)
2. rtf файл , в котором храниться сам текст письма (возможны таблицы и форматирования текста)
3. набор ( от 0 до бесконечности) файлов вложенных в данное конкретное письмо.

Что надо:
Надо класть эти файлы в DB2 и при этом организовать поиск в DB2 по ключевым словам (только для doc/xls/pdf/rtf).

Возможно имеет смысл сами файлы хранить просто на сервере не заклыдывая в DB2 но индекс по словам в этих файлах должен быть обязательно.

Т.е. в результате должно получиться:

ввожу поиск слова "Договор" и он показывается все письма (ОтКого, Кому, Тема) где упоминает это слово (в том числе и во влеженных файлах).

Понимаю, что задача не тревиальна. Если есть готовые разработки, то готовы купить исходники.
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32388314
Nikolay Kulikov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
DB2 Commonstore for Lotus Domino
DB2 Commonstore for Exchange
DB2 Content Manager
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32388625
kostya0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Спасибо за совет, но каждый из этих продуктов был нами исследован и отвергнут. Достаточно сказать что в CM не работате поиск по русским словам и росийском представительстве IBM отвечают что "неизвестно будет ли работать"

Это вещь в себе и нам она не подходит.
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32388821
Aion
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
2 kostya0
Думаю Вам стоит смотреть в сторону search engine (типа локальный google),
DB2 будет являться в данном случаи только как хранилище и источник данных для "этого" search engine (там и будет осуществляться поиск по уже индексированным данным).

Конкретно что-то рекомендовать я немогу, за неимением богатого опыта в этом.
Но найти и попробывать "что-то" можите sourceforge.net, например.
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32388901
Nikolay Kulikov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Как не работaет русский язык??? Кто сказал???
--------------------------
Nikolay_Kulikov@ru.ibm.com
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32389306
kostya0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ой как интересно! Представитель ИБМ отвечает на вопросы :)

Вообще история с ComStor и ContMen очень длинная. Проблеммы в следующем
- Не работает поиск из ComStor Lotus
- Были проблемы в сохранении вложений с рус. именами
- Не ContMen не встает LDAP

особо нам важно первое.Пытались решить ее с
Olga_Gubernatorova$ru.ibm.com
laszlo.kovacs$hu.ibm.com
GFLAIG$de.ibm.com
KOENIGH$de.ibm.com

в том числе и с Вами (хотябы письмо от 07.08.03 17:08 :)

НИКТО не смог решить эту проблему. И вообще в Росии нет работающего стенда (3 мес назад небыло) ComStor + ContMen и в RUS IBM в этом вопросе нет спецов :(

если отказаться от ComStor, то вообще зачем ContMen? Тогда лучше напрямую юзать DB2 и не быть заложноком такого продукта. Только как про поиск в файлах...
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32389642
Andrew Tyapuhin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
а что насчет DB2 Text Extender?
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32389735
Nikolay Kulikov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не работатет полнотекстовый поиск с лингвистикой. Я наверное это имел ввиду. Стенда нет. Так как у меня нет времени на это. Но только что у одного из заказчиков это сделал и все рабоатет. Какая версия CSLD???
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32389753
kostya0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Это имели в виду МЫ . :)
Посмотрите письмо в своем ПЯ от 07.08.2003 13:07

Не работает поиск ВООБЩЕ.

Content Manager CommonStore for Lotus Domino (Server 8.1.0.0
Build 674, Compiled at Aug 6 2002) with a Content Manager (CM) Version 8
archive.

Но это уже не актуально. Т.к. не могло решиться пол-года, поэтому ПОКА мы решили этот продукт обходить стороной.

Сейчас по совету Andrew Tyapuhin разбираемся с DB2 Text Extender.
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32389782
IBMer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
1) Странно но в ваших требованиях нигде не фигурирует лингвистического поиск :)
2) Ребята все работает, ищется. Спорим на пиво что я это настрою за 3-4 часа на пустой машине :)

3) И еще не понимаю чем вам поможет Теxt Extender (В Content Manager используется DB2 NetSearch Extender который шустрее чем просто Text Extender) и как вы будете решать проблемы свободного места в вашем архиве???
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32390054
kostya0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Если подрузумевается поиск по "Догов* AND (Газпром OR Юкос)" то именно он и нужен. Я слабо понимаю, какой еще бывает для поиска в документах.

Насчет "все работает, ищется" уже проехали. С Мая по Август сделать это никто не смог. Объявись ты тогда, то тебе за каждый потраченый час проставились бы по литру, и не пива.


Сейчас исследуем всю линейку DB2 * Extender

А свободное место - не проблема. Скажим что нужна 16 ти процессорная система с 5тбайтами дискового пространства...и получим ее :)
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32390913
Nikolay Kulikov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Лингвистический поиск из двух частей Морфологический это когда ищут договор, а не догов* и находят договоров, договорный, еtc.
И второй забыл как называется короче когда ищут "красный" а находят синоним "алый"

Ну что ж... Extender'ы тоже денег стоят :)
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32390924
Nikolay Kulikov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Морфологического пока нет, второй есть. Кстати ваша ошибка связана с десятичным разделителем. И легко решалась если бы вы конечно пошли по ссылкам которые вам высылали.
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32391449
kostya0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Нуда. ИБМ при любом раскладе обижено не будет :)

Тут вопросик есть - как к DB2 NetSearch Extender подключить разборку msword 6...2000 и PDF. Есть такое готовое?
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32391775
Nikolay Kulikov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Есть в Content Manager и СommonStore for SAP. Там есть DB2 UDF которая из практически из любых markup файлов (doc, xls, 123, lpw, rtf, pdf ...) делает текстовые а затем их индексирует.
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32392129
Фотография Журавлев Денис
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
авторКстати ваша ошибка связана с десятичным разделителем.

А десятичный разделитель тут каким боком? Я бы понял если word-separator.

Мы тоже в domino.doc не смогли добится поиска по русским словам в файлах с юникодами например в документах office2000 и выше. Сейчас смотрим в сторону творений MS.
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32392866
Nikolay Kulikov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Это долго объяснять каким боком. Ошибка в API. Проще либо разделитель выставить в "." или Fixpack 2 for CM 8.2 ставить. Ну что-же смотрите на продукты MS. Ваше право.
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32401580
ggv
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
ggv
Гость
A full text search information ystem with a complete database of Supreme Court of Cyprus with indexes for greek and english has been bult on Informix & DataBlade Excalibrus.
Really easy to implement, really advanced search capability.
SUports about 30 file formats including PDF, Word, JPG, GIF, and so on.
...
Рейтинг: 0 / 0
Индексация и хранение большого ко-ва файлов (почтовый архив)
    #32414091
kostya0
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Нда.. только губы облизал. Ну почему то что есть на информикс нет на дб2?

К сожелению выбор лежит между Oracle или Db2 . И похоже Oracle... :(
...
Рейтинг: 0 / 0
19 сообщений из 19, страница 1 из 1
Форумы / IBM DB2, WebSphere, IMS, U2 [игнор отключен] [закрыт для гостей] / Индексация и хранение большого ко-ва файлов (почтовый архив)
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]