powered by simpleCommunicator - 2.0.59     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / Помогите выбрать
25 сообщений из 25, страница 1 из 1
Помогите выбрать
    #32959441
Gold
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Привет. Стоит задача хранения и обработки XML-документов (RSS-фидов).
Объём документов порядка 2-3 Гб.
Нужно выполнять сложный, но быстрый поиск по документам.
Требования к поиску:
1) высокая скорость (время поиска до 2-х секунд)
2) поддержка символов подстановки (фактически то, что позволяет LIKE в SQL)
3) поиск фраз
4) строка запроса в несколько киллобайт (например в SQL это выглядело бы так:
WHERE (DESCRIPRION LIKE '%sport' OR DESCRIPRION LIKE 'health%' OR DESCRIPRION LIKE '%life%') AND (DESCRIPRION LIKE '%vita%' OR ...) ....
и таких LIKE штук 500)
5) поддержка немецкого и английского языка

Короче говоря нужен сервер бд или поисковая система, которая нормально будет обрабатывать подобные запросы и с которой можно работать из .NET Framework.

Железо: 2-х процессорный сервер. Какие процессоры не знаю. Памяти - гиг.

Заказчик хочет выложить за систему (СУБД или отдельную поисковую систему) порядка 2000 евро.

Кто чё посоветовать может?

Уже отпали в силу ряда причин: MySQL, MSSQL, OpenFTS, dotlucene, MaxDB XML, exist, FireBird :-(
...
Рейтинг: 0 / 0
Помогите выбрать
    #32959459
AAron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ну остались Oracle, DB2, Sybase ASA/ASE
...
Рейтинг: 0 / 0
Помогите выбрать
    #32959491
zass
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Уже отпали в силу ряда причин: MySQL, MSSQL, OpenFTS, dotlucene, MaxDB XML, exist, FireBird :-(

Плохому танцору...
...
Рейтинг: 0 / 0
Помогите выбрать
    #32959567
Gold
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну вот смотрите:
1) MySQL - не подходит реализация Full-text search
2) MSSQL - Full-text search не поддерживает некоторых нужных функций да и слишком дорого, учитывая что 2 сервера надо
3) OpenFTS - не поддерживает некоторых нужных функций
4) dotlucene - не поддерживает некоторых нужных функций
5) MaxDB XML - нет класоов доступа из .NET
6) exist - нет класоов доступа из .NET

Рассматриваем вариант самодельного Full text search, но:
1) есть опасения что реальные запросы будут слишком длинные
2) некоторые серверы неудовлетворительным образом обрабатывают LIKE '..' OR LIKE '..' ... (например мой любимый FireBird)
3) убогие средства разработки (проработав с IBExpert несколько лет я с ужасом смотрю на MSSQL Enterprise Manager, PGAdmin3). Если EM хоть по функциям ещё более-менее нормальный, то PGAdmin не умеет даже процедуры отлаживать :-(
...
Рейтинг: 0 / 0
Помогите выбрать
    #32959671
Alexey Rovdo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
...
Рейтинг: 0 / 0
Помогите выбрать
    #32959724
Фотография segun
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
GoldНу вот смотрите:
2) MSSQL - Full-text search не поддерживает некоторых нужных функций да и слишком дорого, учитывая что 2 сервера надокакие именно функции не поддерживает и зачем 2 сервера? Объясните подробнее.
...
Рейтинг: 0 / 0
Помогите выбрать
    #32959861
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Gold
А как Вы собираетесь хранить XML документы? Как одну большую запись в BLOBе или потрошить на несколько записей?

И кстати - что такое RSS? Хотя бы как расшифровывается
...
Рейтинг: 0 / 0
Помогите выбрать
    #32960264
Gold
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не поддерживаются функции поиска с символами подстановки когда эти символы расположены в начале выражения, например поиск типа LIKE '%zzz'
Две СУБД т.к. будет сервер-зеркало и репликация между ними.
XML будет храниться в разложенном виде, т.к. структура RSS известна.
...
Рейтинг: 0 / 0
Помогите выбрать
    #32960395
Gold
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
По версанту пока-что ничего не прояснилось.
Вот смотрел в сторону Линтера, но у них нет документации английской или немецкой, хотя судя по описанию поиск там супер :-(
...
Рейтинг: 0 / 0
Помогите выбрать
    #32966726
LSV
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
>> Уже отпали в силу ряда причин....
Вот и хорошо ! За такую сумму вполне можно отказаться от такой малознакомой Вам темы.
...
Рейтинг: 0 / 0
Помогите выбрать
    #33007596
AntonGart
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
См. Oracle Text и будет вам щастье :)
...
Рейтинг: 0 / 0
Помогите выбрать
    #33007824
Gold
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Заказчик не потянет Oracle Text, тем более что 2 сервера будет.
...
Рейтинг: 0 / 0
Помогите выбрать
    #33007859
Alexey Sh
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ИМНО за 2000 евро задача не имеет адекватного решения,или денег добавлять, или потребности сокращать
...
Рейтинг: 0 / 0
Помогите выбрать
    #33008648
Gold
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вобще-то есть движок dtSearch - 1000 $ стоит. Но пока что заказчик не решился его купить.
Также есть СУБД Линтер. Если там прикрутят к полнотекстовому поиску поддержку фраз, то будет неплохой вариант.

А пока-что мы мучаемся с dotLucene
...
Рейтинг: 0 / 0
Помогите выбрать
    #33009578
c127
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Посмотрите на Sybase ASA. Очень недорого и надежно, поддерживается .НЕТ, есть поиск в ХМЛ, очень быстро развивается и хорошо поддерживается. Полнотекстовый поиск в последних релизах вроде появился, но в принципе написать свой поиск ничего не стоит, это пара дополнительных таблиц и пара запросов в десяток строчек каждый. У нас так работает, ищет множество слов по включению, по исключению и то же с фразами. Ничего нестандартртного нет, нужен только хороший оптимизатор запросов, а в АСА он очень хороший. Стандартный поиск не использовали, потому что раньше не было.
...
Рейтинг: 0 / 0
Помогите выбрать
    #33010282
Gold
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 c127:

Так я не понял, какая у Sybase единица индексирования? Слово? Я вобще не представляю себе алгоритмы индексирования, которые позволяют искать по началу фразы, по окончанию, по середине, слова на расстоянии и слова с ошибками и с поддержкой стемминга. Из всех полнотекстовых поисков, встроенных в БД, которые я пересмотрел, ни один фразы обрабатывать толком не умеет :-(

Поиск по словам я бы и сам смог смастерить, а вот с фразами сложнее :-(
...
Рейтинг: 0 / 0
Помогите выбрать
    #33010408
Фотография ASCRUS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Gold2 c127:

Так я не понял, какая у Sybase единица индексирования? Слово? Я вобще не представляю себе алгоритмы индексирования, которые позволяют искать по началу фразы, по окончанию, по середине, слова на расстоянии и слова с ошибками и с поддержкой стемминга. Из всех полнотекстовых поисков, встроенных в БД, которые я пересмотрел, ни один фразы обрабатывать толком не умеет :-(

Поиск по словам я бы и сам смог смастерить, а вот с фразами сложнее :-(
Не понимаю, зачем СУБД нужно круто уметь искать. Ей легче хранить статьи, а уж хорошо искать - это задача специализированных поисковых систем. Решений думается на рынке поисковых систем много, писать свой самопал, да еще и используя стандартный Full Text Search СУБД и терзая информацию с XML - как то в эффективность такого решения верится с трудом.
...
Рейтинг: 0 / 0
Помогите выбрать
    #33010706
Gold
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну задача у нас такая. Надо своеобразный монитор сделать. Документы сохраняються в базу и по заданным пользователем поисковым фразам надо эти документы фильтровать. Фраза может быть огромной.
Становиться непонятно почему поисковые движки могут стоить такие индексы, а СУБД нет?
...
Рейтинг: 0 / 0
Помогите выбрать
    #33010720
Gold
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Т.е. поисковая стока может сожержать несколько тысяч ключевых фраз, соединённых логическими операторами. К стати сказать, разработчики СУБД Линтер сказали что это обычная задача - ничего сверестественного. Только вот Линтер ихний длинные запросы обрубает и фразы не обрабатывает.
...
Рейтинг: 0 / 0
Помогите выбрать
    #33010732
Мимопроходящий
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Привет, Gold!

Гугловский движок подешевел недавно.
Был 5k$, сейчас 3k$.
Как вариант не рассматривал?

--
With best regards, Мимопроходящий.

Posted via ActualForum NNTP Server 1.1
...
Рейтинг: 0 / 0
Помогите выбрать
    #33010770
Gold
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не, мы его не смотрели. Щас посмотрю.

Мы яндексовский рассматривали, так он запросы в 20 000 символов проглотить не может :-(. А так яндексовский покруче гугловского будет намного.
...
Рейтинг: 0 / 0
Помогите выбрать
    #33010785
Gold
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
К стати, я нигде не нашёл что гугл сам движок поисковый продаёт. Они вроде как индексируют то что тебе надо на своём сервере, а сам движок фиг продадут.
...
Рейтинг: 0 / 0
Помогите выбрать
    #33010862
Мимопроходящий
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Привет, Gold!
Ты пишешь:

Gold G> К стати, я нигде не нашёл что гугл сам движок поисковый продаёт.
G> Они вроде как индексируют то что тебе надо на своём сервере,
G> а сам движок фиг продадут. http://www.google.com/intl/en/press/pressrel/moremini.html
А твоих восторгов по поводу яндекса не разделяю.
Лично мне не нравится то, что он считает себя "дюже вумным"
и пытается (зачастую напрасно), варьировать морфологию,
когда его никто об этом не просит!

--
With best regards, Мимопроходящий.

Posted via ActualForum NNTP Server 1.1
...
Рейтинг: 0 / 0
Помогите выбрать
    #33011804
я
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
я
Гость
Именно тот случай, когда жалко что Оракл такой дорогой....
...
Рейтинг: 0 / 0
Помогите выбрать
    #33012177
c127
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
2 Gold

>Так я не понял, какая у Sybase единица индексирования? Слово?

Это надо у ASCRUS-а спросить, мы стандартными средствами не пользуемся по причине отсутствия в старых версиях.

>Я вобще не представляю себе алгоритмы индексирования, которые позволяют искать по началу фразы, по окончанию, по середине, слова на расстоянии и слова с ошибками и с поддержкой стемминга. Из всех полнотекстовых поисков, встроенных в БД, которые я пересмотрел, ни один фразы обрабатывать толком не умеет :-(

Если за атом брать слово, то несложно придумать как искать по началу фразы и по окончанию и все записать в СКЛ-е. У нас ищется только вхождение-исключение слов и фраз независимо от положения в документе, но зато есть много полей и можно задать в каких полях нужно искать.

2 ASCRUS

>Решений думается на рынке поисковых систем много, писать свой самопал, да еще и используя стандартный Full Text Search СУБД и терзая информацию с XML - как то в эффективность такого решения верится с трудом.

Стандартные средства не исползуются. Ситемой это назвать сложно, там 3 таблицы и 4 запроса, вот и вся система.

А кстати в АСА уже появилилсь стандартные средства? В смысле Full Text Search?
...
Рейтинг: 0 / 0
25 сообщений из 25, страница 1 из 1
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / Помогите выбрать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]