Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
Привет. Стоит задача хранения и обработки XML-документов (RSS-фидов). Объём документов порядка 2-3 Гб. Нужно выполнять сложный, но быстрый поиск по документам. Требования к поиску: 1) высокая скорость (время поиска до 2-х секунд) 2) поддержка символов подстановки (фактически то, что позволяет LIKE в SQL) 3) поиск фраз 4) строка запроса в несколько киллобайт (например в SQL это выглядело бы так: WHERE (DESCRIPRION LIKE '%sport' OR DESCRIPRION LIKE 'health%' OR DESCRIPRION LIKE '%life%') AND (DESCRIPRION LIKE '%vita%' OR ...) .... и таких LIKE штук 500) 5) поддержка немецкого и английского языка Короче говоря нужен сервер бд или поисковая система, которая нормально будет обрабатывать подобные запросы и с которой можно работать из .NET Framework. Железо: 2-х процессорный сервер. Какие процессоры не знаю. Памяти - гиг. Заказчик хочет выложить за систему (СУБД или отдельную поисковую систему) порядка 2000 евро. Кто чё посоветовать может? Уже отпали в силу ряда причин: MySQL, MSSQL, OpenFTS, dotlucene, MaxDB XML, exist, FireBird :-( ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.03.2005, 17:40 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
ну остались Oracle, DB2, Sybase ASA/ASE ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.03.2005, 17:47 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
Уже отпали в силу ряда причин: MySQL, MSSQL, OpenFTS, dotlucene, MaxDB XML, exist, FireBird :-( Плохому танцору... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.03.2005, 18:04 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
Ну вот смотрите: 1) MySQL - не подходит реализация Full-text search 2) MSSQL - Full-text search не поддерживает некоторых нужных функций да и слишком дорого, учитывая что 2 сервера надо 3) OpenFTS - не поддерживает некоторых нужных функций 4) dotlucene - не поддерживает некоторых нужных функций 5) MaxDB XML - нет класоов доступа из .NET 6) exist - нет класоов доступа из .NET Рассматриваем вариант самодельного Full text search, но: 1) есть опасения что реальные запросы будут слишком длинные 2) некоторые серверы неудовлетворительным образом обрабатывают LIKE '..' OR LIKE '..' ... (например мой любимый FireBird) 3) убогие средства разработки (проработав с IBExpert несколько лет я с ужасом смотрю на MSSQL Enterprise Manager, PGAdmin3). Если EM хоть по функциям ещё более-менее нормальный, то PGAdmin не умеет даже процедуры отлаживать :-( ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.03.2005, 18:39 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
GoldНу вот смотрите: 2) MSSQL - Full-text search не поддерживает некоторых нужных функций да и слишком дорого, учитывая что 2 сервера надокакие именно функции не поддерживает и зачем 2 сервера? Объясните подробнее. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.03.2005, 20:18 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
2 Gold А как Вы собираетесь хранить XML документы? Как одну большую запись в BLOBе или потрошить на несколько записей? И кстати - что такое RSS? Хотя бы как расшифровывается ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.03.2005, 00:21 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
Не поддерживаются функции поиска с символами подстановки когда эти символы расположены в начале выражения, например поиск типа LIKE '%zzz' Две СУБД т.к. будет сервер-зеркало и репликация между ними. XML будет храниться в разложенном виде, т.к. структура RSS известна. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.03.2005, 11:07 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
По версанту пока-что ничего не прояснилось. Вот смотрел в сторону Линтера, но у них нет документации английской или немецкой, хотя судя по описанию поиск там супер :-( ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.03.2005, 11:47 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
>> Уже отпали в силу ряда причин.... Вот и хорошо ! За такую сумму вполне можно отказаться от такой малознакомой Вам темы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.03.2005, 18:14 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
См. Oracle Text и будет вам щастье :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.04.2005, 10:59 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
Заказчик не потянет Oracle Text, тем более что 2 сервера будет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.04.2005, 12:08 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
ИМНО за 2000 евро задача не имеет адекватного решения,или денег добавлять, или потребности сокращать ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.04.2005, 12:17 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
Вобще-то есть движок dtSearch - 1000 $ стоит. Но пока что заказчик не решился его купить. Также есть СУБД Линтер. Если там прикрутят к полнотекстовому поиску поддержку фраз, то будет неплохой вариант. А пока-что мы мучаемся с dotLucene ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.04.2005, 15:41 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
Посмотрите на Sybase ASA. Очень недорого и надежно, поддерживается .НЕТ, есть поиск в ХМЛ, очень быстро развивается и хорошо поддерживается. Полнотекстовый поиск в последних релизах вроде появился, но в принципе написать свой поиск ничего не стоит, это пара дополнительных таблиц и пара запросов в десяток строчек каждый. У нас так работает, ищет множество слов по включению, по исключению и то же с фразами. Ничего нестандартртного нет, нужен только хороший оптимизатор запросов, а в АСА он очень хороший. Стандартный поиск не использовали, потому что раньше не было. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.04.2005, 04:12 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
2 c127: Так я не понял, какая у Sybase единица индексирования? Слово? Я вобще не представляю себе алгоритмы индексирования, которые позволяют искать по началу фразы, по окончанию, по середине, слова на расстоянии и слова с ошибками и с поддержкой стемминга. Из всех полнотекстовых поисков, встроенных в БД, которые я пересмотрел, ни один фразы обрабатывать толком не умеет :-( Поиск по словам я бы и сам смог смастерить, а вот с фразами сложнее :-( ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.04.2005, 12:03 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
Gold2 c127: Так я не понял, какая у Sybase единица индексирования? Слово? Я вобще не представляю себе алгоритмы индексирования, которые позволяют искать по началу фразы, по окончанию, по середине, слова на расстоянии и слова с ошибками и с поддержкой стемминга. Из всех полнотекстовых поисков, встроенных в БД, которые я пересмотрел, ни один фразы обрабатывать толком не умеет :-( Поиск по словам я бы и сам смог смастерить, а вот с фразами сложнее :-( Не понимаю, зачем СУБД нужно круто уметь искать. Ей легче хранить статьи, а уж хорошо искать - это задача специализированных поисковых систем. Решений думается на рынке поисковых систем много, писать свой самопал, да еще и используя стандартный Full Text Search СУБД и терзая информацию с XML - как то в эффективность такого решения верится с трудом. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.04.2005, 12:39 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
Ну задача у нас такая. Надо своеобразный монитор сделать. Документы сохраняються в базу и по заданным пользователем поисковым фразам надо эти документы фильтровать. Фраза может быть огромной. Становиться непонятно почему поисковые движки могут стоить такие индексы, а СУБД нет? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.04.2005, 13:52 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
Т.е. поисковая стока может сожержать несколько тысяч ключевых фраз, соединённых логическими операторами. К стати сказать, разработчики СУБД Линтер сказали что это обычная задача - ничего сверестественного. Только вот Линтер ихний длинные запросы обрубает и фразы не обрабатывает. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.04.2005, 13:56 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
Привет, Gold! Гугловский движок подешевел недавно. Был 5k$, сейчас 3k$. Как вариант не рассматривал? -- With best regards, Мимопроходящий. Posted via ActualForum NNTP Server 1.1 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.04.2005, 14:01 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
Не, мы его не смотрели. Щас посмотрю. Мы яндексовский рассматривали, так он запросы в 20 000 символов проглотить не может :-(. А так яндексовский покруче гугловского будет намного. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.04.2005, 14:14 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
К стати, я нигде не нашёл что гугл сам движок поисковый продаёт. Они вроде как индексируют то что тебе надо на своём сервере, а сам движок фиг продадут. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.04.2005, 14:19 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
Привет, Gold! Ты пишешь: Gold G> К стати, я нигде не нашёл что гугл сам движок поисковый продаёт. G> Они вроде как индексируют то что тебе надо на своём сервере, G> а сам движок фиг продадут. http://www.google.com/intl/en/press/pressrel/moremini.html А твоих восторгов по поводу яндекса не разделяю. Лично мне не нравится то, что он считает себя "дюже вумным" и пытается (зачастую напрасно), варьировать морфологию, когда его никто об этом не просит! -- With best regards, Мимопроходящий. Posted via ActualForum NNTP Server 1.1 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.04.2005, 14:36 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
Именно тот случай, когда жалко что Оракл такой дорогой.... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.04.2005, 19:00 |
|
||
|
Помогите выбрать
|
|||
|---|---|---|---|
|
#18+
2 Gold >Так я не понял, какая у Sybase единица индексирования? Слово? Это надо у ASCRUS-а спросить, мы стандартными средствами не пользуемся по причине отсутствия в старых версиях. >Я вобще не представляю себе алгоритмы индексирования, которые позволяют искать по началу фразы, по окончанию, по середине, слова на расстоянии и слова с ошибками и с поддержкой стемминга. Из всех полнотекстовых поисков, встроенных в БД, которые я пересмотрел, ни один фразы обрабатывать толком не умеет :-( Если за атом брать слово, то несложно придумать как искать по началу фразы и по окончанию и все записать в СКЛ-е. У нас ищется только вхождение-исключение слов и фраз независимо от положения в документе, но зато есть много полей и можно задать в каких полях нужно искать. 2 ASCRUS >Решений думается на рынке поисковых систем много, писать свой самопал, да еще и используя стандартный Full Text Search СУБД и терзая информацию с XML - как то в эффективность такого решения верится с трудом. Стандартные средства не исползуются. Ситемой это назвать сложно, там 3 таблицы и 4 запроса, вот и вся система. А кстати в АСА уже появилилсь стандартные средства? В смысле Full Text Search? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.04.2005, 01:27 |
|
||
|
|

start [/forum/topic.php?fid=35&msg=32959441&tid=1553901]: |
0ms |
get settings: |
11ms |
get forum list: |
19ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
47ms |
get topic data: |
14ms |
get forum data: |
4ms |
get page messages: |
79ms |
get tp. blocked users: |
2ms |
| others: | 215ms |
| total: | 399ms |

| 0 / 0 |
