powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / Выбор СУБД с полнотекстовым поиском
25 сообщений из 134, страница 5 из 6
Выбор СУБД с полнотекстовым поиском
    #36104158
Senya_L
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne,

Вопрос к тебе, коль опыт имеется в данной области. И коль ты звезда данного топика (по-доброму, канешна)

Вот сколько словоформ (не слов) в русском языке всего? Каково их количество, если вот так внести их всем скопом в словарик БД?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104165
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Понравился мне PostgreSQL в приведенной ссылке:
авторСами парсеры и словари также хранятся в системе , их можно добавлять, изменять и удалять с помощью SQL команд.
У меня Словарь составляет на сегодняшний день чуть больше 6 млн. общеупотребительных слов, в основной морфеме: именительный падеж единственного числа.
Не считая спец. терминов по разным отраслям науки и производтсва.
Я это к тому, что размер системы в мегабайтах должен составлять не так и мало.

Текст написан на русском, а вот в примерах - почему-то только английские слова используются..

В Ispell от Alexander Lebedev, который есть в свободном доступе, кучи слов просто нет (про фамилии - я уже говорил), а в affix наличие кучу ошибок и неполностью описаны все схемы...
Хорошо, если он дополнен в PostgreSQL и исправлен.
Далее можно углубляться в нюансы. Но не думаю, что это интересно широкой публике.

ИМХО:
GiST индекс - все недостатки хеширования наглядно продемонстрированы в MnogoSearch.
И как программисты, все знают, что коллизий при таком подходе не избежать.

GIN индекс - сами авторы данного документа отмечают:
авторЭтот индекс используется практически всеми большими поисковыми машинами, однако его использование в базах данных для индексирования изменяющихся документов затруднено , так как любые изменения ... приводят к большому количеству обновлений индекса.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104169
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Senya_LИ коль ты звезда данного топика (по-доброму, канешна)
Меня можно обвинить лишь в буратиндии...
Видишь, я еще слово придумал - Буратиндия.
И у носителей языка оно не вызывает трудностей, как в восприятии, так и в морфологии.

Senya_L
Вот сколько словоформ (не слов) в русском языке всего? Каково их количество, если вот так внести их всем скопом в словарик БД?
Может я не правильно понял вопрос...
По нашим приблизительным оценкам емкость Русского языка составляет 20-25 миллионов слов.
Средне-статистическое слово имеет всреднем 11-14 словоформ.
Если взять длинну слова равную 8-10 знакам, то можешь подсчитать объем в мегабайтах.
Плюс к этому нужно учесть постоянное развитие языка и появление новых слов, как родных, так и заимствованных из других, в часности английского, языков.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104184
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneРеалист, для начала:
Толковый словарь Ожегова
Морфология - раздел граматики, наука о частях речи , об их категориях и о формах слов

РеалистДействительно, там есть поиск с учетом морфологии языка...
Морфология языка - это как?
Это так, на заметку что бы взять...

Реалист действительно учитывать при поиске морфологию нужно .
Ок! А если она НЕ учитывается, как в случае FTS, тогда что?

Реалист Но анализ морфологии...
Анализ морфологии СЛОВА - сделают лингвисты, напишут Правила, внесут учебники, словари и тп.

Реалист Но анализ морфологии - это следствие оптимизации FTS. Но никак не на оборот.
То есть морфология слов в Языке появляется из-за оптимизации FTS?
Или же FTS должна быть оптимизирована под морфологию применяемую в конкретном Языке, литературном, разговорном и тд?
Какой ты виртуоз жонглировать словами!
Я перечитал каждое твое предложение несколько раз. Каждое слово понятно в отдельности, но я не смог постичь общего смысла. Все, я слил, ты во всем абсолютно прав, думаю, что это мой последний ответ в данном топике.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104186
Senya_L
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneSenya_L
Вот сколько словоформ (не слов) в русском языке всего? Каково их количество, если вот так внести их всем скопом в словарик БД?
Может я не правильно понял вопрос...Да нет, ты все правильно понял. Я надеюсь. :)

Я когда-то давно этим вопросом интересовался, но в частном, так сказать, порядке (в смысле денег мне за это никто не платил, глубоко не копал). У меня набралось не более 0,5 лимона словоформ, просто загоняя литературные произведения из библиотеки Мошкова. Естественно, морфологические связи никто не устанавливал.

Отсюда и интерес, чисто академический, как это работает.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104188
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MySQL по приведенной выше ссылке.
(В порядке прочтения текста)

1. MySQLПолнотекстовые индексы в MySQL обозначаются как индексы типа FULLTEXT. Эти индексы могут быть созданы в столбцах VARCHAR и TEXT
То есть мой вопрос про поле таймстамп и его индексацию как текста - отвалился.

2. MySQLДля каждой строки столбца в заданной таблице команда MATCH() возвращает величину релевантности, т.е. степень сходства между строкой поиска и текстом
Понятие термина РЕЛЕВАНТНОСТЬ четко не определено и очень запутано.

3. MySQLДля разбивки текста на слова MySQL использует очень простой синтаксический анализатор...
Любое ``слово'', присутствующее в стоп-списке (stopword) или просто слишком короткое (3 символа или меньше), игнорируется.
То есть такие слова, как ХОР, МЕД и прочие - нафиг.

4. Про морфологию - ни чего вообще не сказано. Ни "да", ни "нет".
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104193
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
РеалистКаждое слово понятно в отдельности, но я не смог постичь общего смысла.
Да ты не расстраивайся... Чес-слово - не только ты один.
У меня даже справка есть, что планетоитянин, выданая П02.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104196
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Senya_LОтсюда и интерес, чисто академический, как это работает.
Если честно - афигительно.
И, если я правильно прочитал между строк, то в Яндексе есть целый отдел, который занимается ТОЛЬКО лингвистикой, укомплектованный, в том числе, и филологами по образованию...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104207
_vic_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ребята, спор выглядит очень тупо.
Человек поимел не правильное представление о термине.
Он взялся его разбирать по "буквам". Я так понял у него большой опыт в этом :)
Но в реальности термин не всегда "математически" отражает реальную сущность.
Слово Full у каждого имеет свой "объем".
В реальности же, термин FTS означает только, что будет проводится поиск по вхождениям слов в тексте. Люди которые в программировании больше 20 лет, прекрасно знают об этом.
Это понятие появилось при них.
Другое дело, что в этом мире ничего постоянного нет и терминология тоже меняется.
Многие понятия становятся ширше (как говорил известный кино-герой).
Да. В настоящий момент полнотекстовые сервисы намного функциональнее и богаче,
но мнение о том, что FTS это обязательно полный морфологический поиск ошибочно.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104210
Senya_L
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneSenya_LОтсюда и интерес, чисто академический, как это работает.
Если честно - афигительно.
И, если я правильно прочитал между строк, то в Яндексе есть целый отдел, который занимается ТОЛЬКО лингвистикой, укомплектованный, в том числе, и филологами по образованию...Я в Яндекс резюмов не писал, свой яндекс открывать не собирался ни в коем разе.

Просто попробовал такой вариант с составлением словаря словоформ. По правде сказать мне это нафик не надо было. Попробовал на FB - вроде работало. Сам понимаешь: как работало - это вопрос вторичный... Так что по шарабану, но чем черт не шутит? Может и понадобится когда-нибудь, если FTS от MSSQL перестанет удовлетворять потребности.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104220
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Senya_LПопробовал на FB - вроде работало. Сам понимаешь: как работало - это вопрос вторичный... Так что по шарабану, но чем черт не шутит? Может и понадобится когда-нибудь, если FTS от MSSQL перестанет удовлетворять потребности.
Хошь верь, хошь не верь, но мы смогли добится, что 16 mСек тратится на обработку любого запроса, вне зависимости от кол-ва слов в запросе, ни от размера БД. Правда на Yaffil-е.
- Senya_L, ты вот честно скажи, свои собаки - сочтемся, ты проверял этот FTS от MSSQL на Not Found?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104234
Senya_L
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneSenya_LПопробовал на FB - вроде работало. Сам понимаешь: как работало - это вопрос вторичный... Так что по шарабану, но чем черт не шутит? Может и понадобится когда-нибудь, если FTS от MSSQL перестанет удовлетворять потребности.
Хошь верь, хошь не верь, но мы смогли добится, что 16 mСек тратится на обработку любого запроса, вне зависимости от кол-ва слов в запросе, ни от размера БД. Правда на Yaffil-е.Выражаю респект и пожелаю развития. Чем тот же черт нет шутит? Может выйдет в продакшн и заткнете Яndex за все места.Di_LIne- Senya_L, ты вот честно скажи, свои собаки - сочтемся, ты проверял этот FTS от MSSQL на Not Found?Неа. Это была второстепенная примочка и большого жаренного петуха у меня за спиной не было чтобы особо напрягаться. А собственного интереса данная тема не вызвала. Попросту прикрутил - и забыл. :)
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104246
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Senya_L... заткнете Яndex за все места.
Его теперь ни кто не заткнет, дашь Гугля...

Senya_LПопросту прикрутил - и забыл. :)
Во-во и большинство, имхо, так...

FTS-ы молчат насмерть, пора закругляться.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104252
Senya_L
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneSenya_L... заткнете Яndex за все места.
Его теперь ни кто не заткнет, дашь Гугля...

Senya_LПопросту прикрутил - и забыл. :)
Во-во и большинство, имхо, так...

FTS-ы молчат насмерть, пора закругляться.Не знаю, что ты воюешь. Вообще-то не забывай, что цель все же должна оправдывать средства. Если ты вкладываешься в "настоящий FTS", то на это должны быть обоснованные (экономические) причины. У вас - были, у других - нет.

ЗЫ. Хотя рекламу сделал - можешь спать спокойно ;))).
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104259
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Заметка на полях.
Как-то пришлось мне искать юридические документы в инете.
До сайта добрался быстро, но там...
Черт ногу сломит, а поиск локальный - хоть вешайся.
А официальную бумагу только у них скачать для распечатки можно.
И крутился сайтик на Мускуле с FTS-ом...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104263
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Senya_LВообще-то не забывай, что цель все же должна оправдывать средства.
С клавы реплику снял, редиска, пока заметку писал...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104300
Фотография S.G.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_vic_Да. В настоящий момент полнотекстовые сервисы намного функциональнее и богаче,
но мнение о том, что FTS это обязательно полный морфологический поиск ошибочно.+1.
Вроде все это поняли, кроме одного человека.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104317
_vic_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Я специально прошарился в инете.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104326
_vic_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Сорри
Я специально прошарился в инете.
Оказывается под FTS в SQL действительно начинают понимать использование морфологии.
Миграция термина, блин. И опять Microsoft :)
http://blogs.msdn.com/alexejs/archive/2009/06/13/9745778.aspx
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104333
Senya_L
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_vic_Ребята, спор выглядит очень тупо.
Человек поимел не правильное представление о термине.
Он взялся его разбирать по "буквам". Я так понял у него большой опыт в этом :)
Но в реальности термин не всегда "математически" отражает реальную сущность.
Слово Full у каждого имеет свой "объем".
В реальности же, термин FTS означает только, что будет проводится поиск по вхождениям слов в тексте. Люди которые в программировании больше 20 лет, прекрасно знают об этом.
Это понятие появилось при них.
Другое дело, что в этом мире ничего постоянного нет и терминология тоже меняется.
Многие понятия становятся ширше (как говорил известный кино-герой).
Да. В настоящий момент полнотекстовые сервисы намного функциональнее и богаче ,
но мнение о том, что FTS это обязательно полный морфологический поиск ошибочно.-1
По-моему - дешевая демагогия. Не потому, что поддерживаю Dj_Line'а, а потому что сплошное бла-бла-бла. Расскажите о всей этой "ширшине" - и люди поверят. А так - пустая говорильня. Диля хоть как-то пытался обосновать свое недоверие к оффициальным FTS. В его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска. Сам же говорит - у Яндекса там целый отдел этим занимается, у него лично хватило собственного энтузиазма.

ЗЫ. Про недоработки в FTS у MSSQL косвенно говорит уже то, как подключаются словари русского языка. Это ж надо, Мелкософт рекомендует для этого прописывать ключи реестра "ручками"! Это уже какой-то линукс получается

_vic_Сорри
Я специально прошарился в инете.
Оказывается под FTS в SQL действительно начинают понимать использование морфологии.
Миграция термина, блин. И опять Microsoft :)
http://blogs.msdn.com/alexejs/archive/2009/06/13/9745778.aspxДа шо выговорите?! Неужели научились по filestream'овым полям шукать? Да вообще-то FTS у MSSQL был основан на системной службе полнотекстового поиска в файлах. Надо же, прикрутили... Если вот только вспомнить как коряво он работает... По-крайней мере в XP
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104343
_vic_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Senya_LВ его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104344
_vic_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Senya_LВ его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска.
Согласен. Догадливость гугла иногда раздражает :)
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104347
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Senya_L В его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска.
Нифига ни полразу!
С этим столкнулись все, кто серьезно работает On-Line.
Всяческие хоум-раги и сайтиги от школьнигаф - не считаются.
Особенно "погорели" те, кто юзает Мускул с его FTS-ом...
А альтернативы у них - нету.
Остается один путь - делать самим.
Есть не плохие реализации, но... ограниченные именно со стороны Мускула.
(Только без холивара "блокировочник-версионник". Для этого есть свой топиг.)

А так как у Yaffil нет родной такой приблуды (UDF очень старой разработки не в счет), то и пришлось с нуля начинать, пройдя весь путь, от попыток прикрутить какоре-либо из готовых решений - до реализации своего варианта, и продолжая дальше работать.
Те разработчики, кто работает на Off-Line, еще это не почувствовали, что значит Not Foud и в какие убытки оно выливается заказчику.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104353
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_vic_Senya_LВ его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска.
Согласен. Догадливость гугла иногда раздражает :)
Не стоит путать поисковые системы, которые находятся под мощным СЕО-прессингом и локальный поиск по сайту.
- Ага?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104362
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не в обиду Judge.
- Как вы расцениваете систему поиска на СКРУЛЬ.РУ по 10 бальной шкале?
...
Рейтинг: 0 / 0
25 сообщений из 134, страница 5 из 6
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / Выбор СУБД с полнотекстовым поиском
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]