|  | 
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Di_LIne, Вопрос к тебе, коль опыт имеется в данной области. И коль ты звезда данного топика (по-доброму, канешна) Вот сколько словоформ (не слов) в русском языке всего? Каково их количество, если вот так внести их всем скопом в словарик БД? ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 21:16 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Понравился мне PostgreSQL в приведенной ссылке: авторСами парсеры и словари также хранятся в системе , их можно добавлять, изменять и удалять с помощью SQL команд. У меня Словарь составляет на сегодняшний день чуть больше 6 млн. общеупотребительных слов, в основной морфеме: именительный падеж единственного числа. Не считая спец. терминов по разным отраслям науки и производтсва. Я это к тому, что размер системы в мегабайтах должен составлять не так и мало. Текст написан на русском, а вот в примерах - почему-то только английские слова используются.. В Ispell от Alexander Lebedev, который есть в свободном доступе, кучи слов просто нет (про фамилии - я уже говорил), а в affix наличие кучу ошибок и неполностью описаны все схемы... Хорошо, если он дополнен в PostgreSQL и исправлен. Далее можно углубляться в нюансы. Но не думаю, что это интересно широкой публике. ИМХО: GiST индекс - все недостатки хеширования наглядно продемонстрированы в MnogoSearch. И как программисты, все знают, что коллизий при таком подходе не избежать. GIN индекс - сами авторы данного документа отмечают: авторЭтот индекс используется практически всеми большими поисковыми машинами, однако его использование в базах данных для индексирования изменяющихся документов затруднено , так как любые изменения ... приводят к большому количеству обновлений индекса. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 21:23 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Senya_LИ коль ты звезда данного топика (по-доброму, канешна)  Меня можно обвинить лишь в буратиндии... Видишь, я еще слово придумал - Буратиндия. И у носителей языка оно не вызывает трудностей, как в восприятии, так и в морфологии. Senya_L Вот сколько словоформ (не слов) в русском языке всего? Каково их количество, если вот так внести их всем скопом в словарик БД? Может я не правильно понял вопрос... По нашим приблизительным оценкам емкость Русского языка составляет 20-25 миллионов слов. Средне-статистическое слово имеет всреднем 11-14 словоформ. Если взять длинну слова равную 8-10 знакам, то можешь подсчитать объем в мегабайтах. Плюс к этому нужно учесть постоянное развитие языка и появление новых слов, как родных, так и заимствованных из других, в часности английского, языков. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 21:36 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Di_LIneРеалист, для начала: Толковый словарь Ожегова Морфология - раздел граматики, наука о частях речи , об их категориях и о формах слов РеалистДействительно, там есть поиск с учетом морфологии языка... Морфология языка - это как? Это так, на заметку что бы взять... Реалист действительно учитывать при поиске морфологию нужно . Ок! А если она НЕ учитывается, как в случае FTS, тогда что? Реалист Но анализ морфологии... Анализ морфологии СЛОВА - сделают лингвисты, напишут Правила, внесут учебники, словари и тп. Реалист Но анализ морфологии - это следствие оптимизации FTS. Но никак не на оборот. То есть морфология слов в Языке появляется из-за оптимизации FTS? Или же FTS должна быть оптимизирована под морфологию применяемую в конкретном Языке, литературном, разговорном и тд? Какой ты виртуоз жонглировать словами! Я перечитал каждое твое предложение несколько раз. Каждое слово понятно в отдельности, но я не смог постичь общего смысла. Все, я слил, ты во всем абсолютно прав, думаю, что это мой последний ответ в данном топике. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 21:50 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Di_LIneSenya_L Вот сколько словоформ (не слов) в русском языке всего? Каково их количество, если вот так внести их всем скопом в словарик БД? Может я не правильно понял вопрос...Да нет, ты все правильно понял. Я надеюсь. :) Я когда-то давно этим вопросом интересовался, но в частном, так сказать, порядке (в смысле денег мне за это никто не платил, глубоко не копал). У меня набралось не более 0,5 лимона словоформ, просто загоняя литературные произведения из библиотеки Мошкова. Естественно, морфологические связи никто не устанавливал. Отсюда и интерес, чисто академический, как это работает. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 21:52 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ MySQL по приведенной выше ссылке. (В порядке прочтения текста) 1. MySQLПолнотекстовые индексы в MySQL обозначаются как индексы типа FULLTEXT. Эти индексы могут быть созданы в столбцах VARCHAR и TEXT То есть мой вопрос про поле таймстамп и его индексацию как текста - отвалился. 2. MySQLДля каждой строки столбца в заданной таблице команда MATCH() возвращает величину релевантности, т.е. степень сходства между строкой поиска и текстом Понятие термина РЕЛЕВАНТНОСТЬ четко не определено и очень запутано. 3. MySQLДля разбивки текста на слова MySQL использует очень простой синтаксический анализатор... Любое ``слово'', присутствующее в стоп-списке (stopword) или просто слишком короткое (3 символа или меньше), игнорируется. То есть такие слова, как ХОР, МЕД и прочие - нафиг. 4. Про морфологию - ни чего вообще не сказано. Ни "да", ни "нет". ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 21:53 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ РеалистКаждое слово понятно в отдельности, но я не смог постичь общего смысла. Да ты не расстраивайся... Чес-слово - не только ты один. У меня даже справка есть, что планетоитянин, выданая П02. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 22:00 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Senya_LОтсюда и интерес, чисто академический, как это работает. Если честно - афигительно. И, если я правильно прочитал между строк, то в Яндексе есть целый отдел, который занимается ТОЛЬКО лингвистикой, укомплектованный, в том числе, и филологами по образованию... ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 22:05 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Ребята, спор выглядит очень тупо. Человек поимел не правильное представление о термине. Он взялся его разбирать по "буквам". Я так понял у него большой опыт в этом :) Но в реальности термин не всегда "математически" отражает реальную сущность. Слово Full у каждого имеет свой "объем". В реальности же, термин FTS означает только, что будет проводится поиск по вхождениям слов в тексте. Люди которые в программировании больше 20 лет, прекрасно знают об этом. Это понятие появилось при них. Другое дело, что в этом мире ничего постоянного нет и терминология тоже меняется. Многие понятия становятся ширше (как говорил известный кино-герой). Да. В настоящий момент полнотекстовые сервисы намного функциональнее и богаче, но мнение о том, что FTS это обязательно полный морфологический поиск ошибочно. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 22:19 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Di_LIneSenya_LОтсюда и интерес, чисто академический, как это работает. Если честно - афигительно. И, если я правильно прочитал между строк, то в Яндексе есть целый отдел, который занимается ТОЛЬКО лингвистикой, укомплектованный, в том числе, и филологами по образованию...Я в Яндекс резюмов не писал, свой яндекс открывать не собирался ни в коем разе. Просто попробовал такой вариант с составлением словаря словоформ. По правде сказать мне это нафик не надо было. Попробовал на FB - вроде работало. Сам понимаешь: как работало - это вопрос вторичный... Так что по шарабану, но чем черт не шутит? Может и понадобится когда-нибудь, если FTS от MSSQL перестанет удовлетворять потребности. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 22:22 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Senya_LПопробовал на FB - вроде работало. Сам понимаешь: как работало - это вопрос вторичный...  Так что по шарабану, но чем черт не шутит? Может и понадобится когда-нибудь, если FTS от MSSQL перестанет удовлетворять потребности. Хошь верь, хошь не верь, но мы смогли добится, что 16 mСек тратится на обработку любого запроса, вне зависимости от кол-ва слов в запросе, ни от размера БД. Правда на Yaffil-е. - Senya_L, ты вот честно скажи, свои собаки - сочтемся, ты проверял этот FTS от MSSQL на Not Found? ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 22:31 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Di_LIneSenya_LПопробовал на FB - вроде работало. Сам понимаешь: как работало - это вопрос вторичный...  Так что по шарабану, но чем черт не шутит? Может и понадобится когда-нибудь, если FTS от MSSQL перестанет удовлетворять потребности. Хошь верь, хошь не верь, но мы смогли добится, что 16 mСек тратится на обработку любого запроса, вне зависимости от кол-ва слов в запросе, ни от размера БД. Правда на Yaffil-е.Выражаю респект и пожелаю развития. Чем тот же черт нет шутит? Может выйдет в продакшн и заткнете Яndex за все места.Di_LIne- Senya_L, ты вот честно скажи, свои собаки - сочтемся, ты проверял этот FTS от MSSQL на Not Found?Неа. Это была второстепенная примочка и большого жаренного петуха у меня за спиной не было чтобы особо напрягаться. А собственного интереса данная тема не вызвала. Попросту прикрутил - и забыл. :) ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 22:41 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Senya_L... заткнете Яndex за все места. Его теперь ни кто не заткнет, дашь Гугля... Senya_LПопросту прикрутил - и забыл. :) Во-во и большинство, имхо, так... FTS-ы молчат насмерть, пора закругляться. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 22:48 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Di_LIneSenya_L... заткнете Яndex за все места. Его теперь ни кто не заткнет, дашь Гугля... Senya_LПопросту прикрутил - и забыл. :) Во-во и большинство, имхо, так... FTS-ы молчат насмерть, пора закругляться.Не знаю, что ты воюешь. Вообще-то не забывай, что цель все же должна оправдывать средства. Если ты вкладываешься в "настоящий FTS", то на это должны быть обоснованные (экономические) причины. У вас - были, у других - нет. ЗЫ. Хотя рекламу сделал - можешь спать спокойно ;))). ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 22:54 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Заметка на полях. Как-то пришлось мне искать юридические документы в инете. До сайта добрался быстро, но там... Черт ногу сломит, а поиск локальный - хоть вешайся. А официальную бумагу только у них скачать для распечатки можно. И крутился сайтик на Мускуле с FTS-ом... ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 22:58 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Senya_LВообще-то не забывай, что цель все же должна оправдывать средства. С клавы реплику снял, редиска, пока заметку писал... ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 23:00 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ _vic_Да. В настоящий момент полнотекстовые сервисы намного функциональнее и богаче, но мнение о том, что FTS это обязательно полный морфологический поиск ошибочно.+1. Вроде все это поняли, кроме одного человека. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 23:28 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Я специально прошарился в инете. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 23:43 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Сорри Я специально прошарился в инете. Оказывается под FTS в SQL действительно начинают понимать использование морфологии. Миграция термина, блин. И опять Microsoft :) http://blogs.msdn.com/alexejs/archive/2009/06/13/9745778.aspx ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 23:49 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ _vic_Ребята, спор выглядит очень тупо. Человек поимел не правильное представление о термине. Он взялся его разбирать по "буквам". Я так понял у него большой опыт в этом :) Но в реальности термин не всегда "математически" отражает реальную сущность. Слово Full у каждого имеет свой "объем". В реальности же, термин FTS означает только, что будет проводится поиск по вхождениям слов в тексте. Люди которые в программировании больше 20 лет, прекрасно знают об этом. Это понятие появилось при них. Другое дело, что в этом мире ничего постоянного нет и терминология тоже меняется. Многие понятия становятся ширше (как говорил известный кино-герой). Да. В настоящий момент полнотекстовые сервисы намного функциональнее и богаче , но мнение о том, что FTS это обязательно полный морфологический поиск ошибочно.-1 По-моему - дешевая демагогия. Не потому, что поддерживаю Dj_Line'а, а потому что сплошное бла-бла-бла. Расскажите о всей этой "ширшине" - и люди поверят. А так - пустая говорильня. Диля хоть как-то пытался обосновать свое недоверие к оффициальным FTS. В его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска. Сам же говорит - у Яндекса там целый отдел этим занимается, у него лично хватило собственного энтузиазма. ЗЫ. Про недоработки в FTS у MSSQL косвенно говорит уже то, как подключаются словари русского языка. Это ж надо, Мелкософт рекомендует для этого прописывать ключи реестра "ручками"! Это уже какой-то линукс получается _vic_Сорри Я специально прошарился в инете. Оказывается под FTS в SQL действительно начинают понимать использование морфологии. Миграция термина, блин. И опять Microsoft :) http://blogs.msdn.com/alexejs/archive/2009/06/13/9745778.aspxДа шо выговорите?! Неужели научились по filestream'овым полям шукать? Да вообще-то FTS у MSSQL был основан на системной службе полнотекстового поиска в файлах. Надо же, прикрутили... Если вот только вспомнить как коряво он работает... По-крайней мере в XP ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 22.07.2009, 23:54 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Senya_LВ его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 23.07.2009, 00:05 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Senya_LВ его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска. Согласен. Догадливость гугла иногда раздражает :) ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 23.07.2009, 00:06 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ Senya_L В его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска. Нифига ни полразу! С этим столкнулись все, кто серьезно работает On-Line. Всяческие хоум-раги и сайтиги от школьнигаф - не считаются. Особенно "погорели" те, кто юзает Мускул с его FTS-ом... А альтернативы у них - нету. Остается один путь - делать самим. Есть не плохие реализации, но... ограниченные именно со стороны Мускула. (Только без холивара "блокировочник-версионник". Для этого есть свой топиг.) А так как у Yaffil нет родной такой приблуды (UDF очень старой разработки не в счет), то и пришлось с нуля начинать, пройдя весь путь, от попыток прикрутить какоре-либо из готовых решений - до реализации своего варианта, и продолжая дальше работать. Те разработчики, кто работает на Off-Line, еще это не почувствовали, что значит Not Foud и в какие убытки оно выливается заказчику. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 23.07.2009, 00:12 |  | ||
| 
Выбор СУБД с полнотекстовым поиском | |||
|---|---|---|---|
| #18+ _vic_Senya_LВ его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска. Согласен. Догадливость гугла иногда раздражает :) Не стоит путать поисковые системы, которые находятся под мощным СЕО-прессингом и локальный поиск по сайту. - Ага? ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 23.07.2009, 00:18 |  | ||
|  | 

| start [/forum/topic.php?fid=35&msg=36104184&tid=1552915]: | 0ms | 
| get settings: | 11ms | 
| get forum list: | 14ms | 
| check forum access: | 4ms | 
| check topic access: | 4ms | 
| track hit: | 45ms | 
| get topic data: | 11ms | 
| get forum data: | 3ms | 
| get page messages: | 59ms | 
| get tp. blocked users: | 1ms | 
| others: | 239ms | 
| total: | 391ms | 

| 0 / 0 | 
