|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
Задача следующая - организовать почтовый архив на предприятии Исходные данные: -Организация с трафиком 300 000 писем в неделю (10ГБ в неделю). -Надо хранить архив этой переписки хотябы за последний год. -Переписка ведется в своей системе (не стандартной). -Любое письмо представляется : 1. набор полей (Дата, ОтКого, Кому,Тема) 2. rtf файл , в котором храниться сам текст письма (возможны таблицы и форматирования текста) 3. набор ( от 0 до бесконечности) файлов вложенных в данное конкретное письмо. Что надо: Надо класть эти файлы в DB2 и при этом организовать поиск в DB2 по ключевым словам (только для doc/xls/pdf/rtf). Возможно имеет смысл сами файлы хранить просто на сервере не заклыдывая в DB2 но индекс по словам в этих файлах должен быть обязательно. Т.е. в результате должно получиться: ввожу поиск слова "Договор" и он показывается все письма (ОтКого, Кому, Тема) где упоминает это слово (в том числе и во влеженных файлах). Понимаю, что задача не тревиальна. Если есть готовые разработки, то готовы купить исходники. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.01.2004, 18:07 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
DB2 Commonstore for Lotus Domino DB2 Commonstore for Exchange DB2 Content Manager ... |
|||
:
Нравится:
Не нравится:
|
|||
26.01.2004, 19:12 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
Спасибо за совет, но каждый из этих продуктов был нами исследован и отвергнут. Достаточно сказать что в CM не работате поиск по русским словам и росийском представительстве IBM отвечают что "неизвестно будет ли работать" Это вещь в себе и нам она не подходит. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.01.2004, 10:00 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
2 kostya0 Думаю Вам стоит смотреть в сторону search engine (типа локальный google), DB2 будет являться в данном случаи только как хранилище и источник данных для "этого" search engine (там и будет осуществляться поиск по уже индексированным данным). Конкретно что-то рекомендовать я немогу, за неимением богатого опыта в этом. Но найти и попробывать "что-то" можите sourceforge.net, например. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.01.2004, 11:55 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
... |
|||
:
Нравится:
Не нравится:
|
|||
27.01.2004, 12:41 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
Ой как интересно! Представитель ИБМ отвечает на вопросы :) Вообще история с ComStor и ContMen очень длинная. Проблеммы в следующем - Не работает поиск из ComStor Lotus - Были проблемы в сохранении вложений с рус. именами - Не ContMen не встает LDAP особо нам важно первое.Пытались решить ее с Olga_Gubernatorova$ru.ibm.com laszlo.kovacs$hu.ibm.com GFLAIG$de.ibm.com KOENIGH$de.ibm.com в том числе и с Вами (хотябы письмо от 07.08.03 17:08 :) НИКТО не смог решить эту проблему. И вообще в Росии нет работающего стенда (3 мес назад небыло) ComStor + ContMen и в RUS IBM в этом вопросе нет спецов :( если отказаться от ComStor, то вообще зачем ContMen? Тогда лучше напрямую юзать DB2 и не быть заложноком такого продукта. Только как про поиск в файлах... ... |
|||
:
Нравится:
Не нравится:
|
|||
27.01.2004, 15:43 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
а что насчет DB2 Text Extender? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.01.2004, 18:13 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
Не работатет полнотекстовый поиск с лингвистикой. Я наверное это имел ввиду. Стенда нет. Так как у меня нет времени на это. Но только что у одного из заказчиков это сделал и все рабоатет. Какая версия CSLD??? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.01.2004, 19:30 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
Это имели в виду МЫ . :) Посмотрите письмо в своем ПЯ от 07.08.2003 13:07 Не работает поиск ВООБЩЕ. Content Manager CommonStore for Lotus Domino (Server 8.1.0.0 Build 674, Compiled at Aug 6 2002) with a Content Manager (CM) Version 8 archive. Но это уже не актуально. Т.к. не могло решиться пол-года, поэтому ПОКА мы решили этот продукт обходить стороной. Сейчас по совету Andrew Tyapuhin разбираемся с DB2 Text Extender. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.01.2004, 19:49 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
1) Странно но в ваших требованиях нигде не фигурирует лингвистического поиск :) 2) Ребята все работает, ищется. Спорим на пиво что я это настрою за 3-4 часа на пустой машине :) 3) И еще не понимаю чем вам поможет Теxt Extender (В Content Manager используется DB2 NetSearch Extender который шустрее чем просто Text Extender) и как вы будете решать проблемы свободного места в вашем архиве??? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.01.2004, 20:14 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
Если подрузумевается поиск по "Догов* AND (Газпром OR Юкос)" то именно он и нужен. Я слабо понимаю, какой еще бывает для поиска в документах. Насчет "все работает, ищется" уже проехали. С Мая по Август сделать это никто не смог. Объявись ты тогда, то тебе за каждый потраченый час проставились бы по литру, и не пива. Сейчас исследуем всю линейку DB2 * Extender А свободное место - не проблема. Скажим что нужна 16 ти процессорная система с 5тбайтами дискового пространства...и получим ее :) ... |
|||
:
Нравится:
Не нравится:
|
|||
28.01.2004, 09:32 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
Лингвистический поиск из двух частей Морфологический это когда ищут договор, а не догов* и находят договоров, договорный, еtc. И второй забыл как называется короче когда ищут "красный" а находят синоним "алый" Ну что ж... Extender'ы тоже денег стоят :) ... |
|||
:
Нравится:
Не нравится:
|
|||
28.01.2004, 14:58 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
Морфологического пока нет, второй есть. Кстати ваша ошибка связана с десятичным разделителем. И легко решалась если бы вы конечно пошли по ссылкам которые вам высылали. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.01.2004, 15:02 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
Нуда. ИБМ при любом раскладе обижено не будет :) Тут вопросик есть - как к DB2 NetSearch Extender подключить разборку msword 6...2000 и PDF. Есть такое готовое? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.01.2004, 18:37 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
Есть в Content Manager и СommonStore for SAP. Там есть DB2 UDF которая из практически из любых markup файлов (doc, xls, 123, lpw, rtf, pdf ...) делает текстовые а затем их индексирует. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2004, 09:31 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
авторКстати ваша ошибка связана с десятичным разделителем. А десятичный разделитель тут каким боком? Я бы понял если word-separator. Мы тоже в domino.doc не смогли добится поиска по русским словам в файлах с юникодами например в документах office2000 и выше. Сейчас смотрим в сторону творений MS. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2004, 12:08 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
Это долго объяснять каким боком. Ошибка в API. Проще либо разделитель выставить в "." или Fixpack 2 for CM 8.2 ставить. Ну что-же смотрите на продукты MS. Ваше право. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2004, 19:57 |
|
Индексация и хранение большого ко-ва файлов (почтовый архив)
|
|||
---|---|---|---|
#18+
A full text search information ystem with a complete database of Supreme Court of Cyprus with indexes for greek and english has been bult on Informix & DataBlade Excalibrus. Really easy to implement, really advanced search capability. SUports about 30 file formats including PDF, Word, JPG, GIF, and so on. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.02.2004, 13:18 |
|
|
start [/forum/topic.php?fid=43&fpage=157&tid=1606345]: |
0ms |
get settings: |
10ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
72ms |
get topic data: |
9ms |
get forum data: |
3ms |
get page messages: |
57ms |
get tp. blocked users: |
2ms |
others: | 311ms |
total: | 486ms |
0 / 0 |