powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / Выбор СУБД с полнотекстовым поиском
134 сообщений из 134, показаны все 6 страниц
Выбор СУБД с полнотекстовым поиском
    #36097332
21_01
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Здравствуйте.

Помогите выбрать СУБД для программы, реализующей:
1) хранение большого количества документов (файлы Word, Excel, веб-страницы, rtf) в БД;
2) генерирование краткой аннотации к документам в автоматизированном режиме;
3) поиск хранимых документов с учетом близости слов-синонимов;
4) каталогизацию документов со схожей тематикой.

Где будет храниться документ – в базе или в файловой системе – не важно, но нужно обеспечить ссылочную целостность связанных с документом данных, которые будут храниться в БД.

Масштабы пока не известны, но скорее всего это будет 2 рабочих места: одно для автоматизированного занесения данных и одно для обработки. Ничего сложного, нужно только, чтобы были возможности развитого поиска текста.

Соответственно возник вопрос: какую СУБД выбрать для реализации этих возможностей? Пока остановился на SQL Server. Но, возможно, есть ещё варианты? Есть ли разница между SQL Server 2008 и SQL Server 2005 в этом плане? И важны лицензии – сейчас ведь 2005-ю версию уже не приобрести?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36097338
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
21_01,

SQL сервер какой? SQLite или PostgreSQL или Microsoft? У Оракла тоже какой то SQL сервер есть ;-)
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36097343
21_01
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Под SQL Server 2005/2008 подразумевал Microsoft SQL Server 2005/2008.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36097345
Фотография Ggg_old
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Исходя из условий задачи вам не подойдет НИ ОДНА из сущесвующих СУБД.
Был недавно топик, который затрагивал эту тему. Полнотекстовый поиск в субд не учитывает близости синонимов, морфологию слов и другие озвученные фишки. Это именно полнотекстовая индексация.
Так что написать экспертную систему не вложив ни капли труда у вас не получится.
А сам full text search еть еще в Sybase SA11.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36097351
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ggg_old,

Одну такую БД я знаю, но только она не SQL :-)
Lotus Notes Domino. Из всех мне известных систем, только в ней реализованы хотелки, озвученные в начале темы. Могу рекомендовать обратиться к "LotusNotesDomino" который вот тут как раз ищет возможность подработки.
Я думаю, он не откажется Вас проконсультировать, с расчетом на дальнейшее сотрудничество ;-)
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36097383
21_01
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ggg_oldПолнотекстовый поиск в субд не учитывает близости синонимов, морфологию слов и другие озвученные фишки. Это именно полнотекстовая индексация.
То есть, что MS SQL 2005, что MS SQL 2008, что Sybase SA11 примерно равны в этом плане?

Реалист, спасибо, но это только впереди, сейчас мне пока нужно лишь выбрать СУБД.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36097391
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
21_01То есть, что MS SQL 2005, что MS SQL 2008, что Sybase SA11 примерно равны в этом плане?

Реалист, спасибо, но это только впереди, сейчас мне пока нужно лишь выбрать СУБД.
И в PostgeSQL и MySQL есть полнотекстовый поиск. Странно, а мне показалось, что Вам нужно:
"1) хранения большого количества документов (файлы Word, Excel, веб-страницы, rtf) в БД;
2) генерирования краткой аннотации к документам в автоматизированном режиме;
3) поиск хранимых документов с учетом близости слов-синонимов;
4) каталогизацию документов со схожей тематикой."

СУБД это только часть решения. Выбор СУБД и Решение поставленной задачи - это разные вещи, не находите?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36097399
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
21_01
Реалист, спасибо, но это только впереди, сейчас мне пока нужно лишь
выбрать СУБД.

Выбирайте Яндекс или Гугль и будет Вам счастье.
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36097404
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakov,

ДА, действительно! Я про Яндекс совсем забыл ;-(
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36097405
21_01
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Реалист[quot 21_01]
СУБД это только часть решения. Выбор СУБД и Решение поставленной задачи - это разные вещи, не находите?
Конечно, и я рассматриваю различные СУБД, чтобы представлять возможные пути решения.
В последнем сообщении я спросил: отличаются ли возможности перечисленных СУБД в плане полнотекстового поиска. Возможно есть реализации, в которых присутствует часть требуемого функционала. Это будет плюсом - если в основе будет реляционная СУБД, то проще будет выбрать разработчика. Однако я не отметаю сразу вариант с чем-то другим, но мне нужно время на то, чтобы хотя бы в общих чертах составить представление о новой для меня системе.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36097413
21_01
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Спасибо за ссылку.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36098477
HSergey
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Попробуйте поисковую панель google. На локальном диске найдёт любые файлы по полнотекстовому поиску. Всякой ерунды мого, очень помогает.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36099579
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Реалист
И в PostgeSQL и MySQL есть полнотекстовый поиск.
Нету там ни какого "полнотекстового поиска" для русского языка. Не-ту!
Бо не справляются с морфологией и сообразованием.
Я тут наднясь слово сгенерил "Компраминет"
Вот Яндекс , в вот
Гугля

А у кого, из человеков не хватит ума сие слово просклонять и проспрегать?
А енти "тьху-серчь" системы с ним справятся?
- Одназначный обломись.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36099601
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneРеалист
И в PostgeSQL и MySQL есть полнотекстовый поиск.
Нету там ни какого "полнотекстового поиска" для русского языка. Не-ту!
Бо не справляются с морфологией и сообразованием.
Я тут наднясь слово сгенерил "Компраминет"
Вот Яндекс , в вот
Гугля

А у кого, из человеков не хватит ума сие слово просклонять и проспрегать?
А енти "тьху-серчь" системы с ним справятся?
- Одназначный обломись. Ну нет там таких слов. А сказать то, что хотел?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36099607
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Реалист А сказать то, что хотел?
А что, первое предложение - нихт ферштейн?...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36099665
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneРеалист А сказать то, что хотел?
А что, первое предложение - нихт ферштейн?...
Там есть полнотекстовый индекс. С ним можно делать что угодно. При желание даже твое слово найти ;-)
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36099686
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
РеалистDi_LIneРеалист А сказать то, что хотел?
А что, первое предложение - нихт ферштейн?...
Там есть полнотекстовый индекс. С ним можно делать что угодно. При желание даже твое слово найти ;-)
Ну я и говорю: - Тот же лайке, но по слову целиком.
А если слова (набора букв) такого нету, то поиск по другим морфологическим формам этого слова делает?
Какие критерии ранжирования в этом случае?
Учитывается ли Ед и Мн число исходной морфемы?
- Ась?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36099705
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne,

Ваша подколка мне понравилась. Естественно, ни кому в голову не может придти, искать в англоязычном продукте русскоязычную морфологию. Или Вы это серьезно спрашивали? ;-))))
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36099774
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
РеалистИ в PostgeSQL и MySQL есть полнотекстовый поиск .
А это, типо, Вася Пупкин написал, да?
Тогда так и пишите:
- ФхулСерчь но потарабарски.
- Рашен нот применяшен!
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36099803
Фотография Ёш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne,

Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
select to_tsvector('Компраминет') @@ plainto_tsquery('Компраминета') as match;
 match
-------
 t
select to_tsvector('Компраминет') @@ plainto_tsquery('Компраминету') as match;
 match
-------
 t
select to_tsvector('Компраминет') @@ plainto_tsquery('Компраминетов') as match;
 match
-------
 t
что не так ? :)
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36099818
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneРеалистИ в PostgeSQL и MySQL есть полнотекстовый поиск .
А это, типо, Вася Пупкин написал, да?
Тогда так и пишите:
- ФхулСерчь но потарабарски.
- Рашен нот применяшен!
А где написано про морфологию русского языка?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36099924
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
РеалистА где написано про морфологию русского языка?
Ышо раз для бронетакистов:
РеалистИ в PostgeSQL и MySQL есть полнотекстовый поиск.
- Или он, поиск, Полный Текстовый,
- Или тот же Лайке по индексному полю.
- Ы?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36099944
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЁшDi_LIne, что не так ? :)
- Балбес ты, Шарик! (М)ультик
Код: plaintext
select ID,WORDS from FullSearchText('Компраминетами')
"20679999","компраминетами"
"1001"; "компраминетов"
"53","Компраминетами"
"20045", "Компраминетам"
"4000016","о компраминетах"
"32768","компраминетам"
"20679999","компраминеты"
"99999999","компраминет"
.....
и тд и тп.

-Ы?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36099960
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЁшDi_LIne,

Код: plaintext
1.
2.
select to_tsvector('Компраминет') @@ plainto_tsquery('Компраминета') as match;
 match
что не так ? :)
А если твоей ентот мутч дуже кротой и пиписко в растопырку, то пусть мне разлечит, при построении результата поиска по слову "день".
Когда оно, слово, Существительное, а когда оно же есть Глагол.
Для бабесов поясняю на прЫ мере:
1. День. При поиске учесть только морфемы: дни - дней - днями и тд и тп
2. День. При поиске учесть только морфемы: денешь - девать - девают и тд и тп
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36100006
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne,

Знаешь, мне твои посты читать противно, не зависимо от того, что ты туда написал.
Можешь сам с собой разговаривать, пока с другими людьми общаться не научишься.
"пиписко в растопырку, мля" ;-)
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36100011
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кому и это не понятно, курить здесь до просвятления...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36100242
Фотография Ggg_old
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne, вы действительно не умеете общаться и доводить свою мысль по-человечески. Маты, оскорбления и так дале.
Под полнотекстовым поиском понимается, то что в субд называется full text search и там действительно нет учета морфологии языка(ов). И да, это очень продвинутый like по сути.
Все остальное, надо думать писать или заказывать на стороне.
Это ведь так просто выражать свои мысли вежливо.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36100900
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
РеалистDi_LIne,

Знаешь, мне твои посты читать противно, не зависимо от того, что ты туда написал.
Можешь сам с собой разговаривать, пока с другими людьми общаться не научишься.
"пиписко в растопырку, мля" ;-)
присоединяюсь
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36100973
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Реалистпока с другими людьми общаться не научишься.
Общение - Взаимные сношения, деловая или дружеская связь.
Ожегов С.И. "Толковый словарь..." Москва, 2000 г.
- Вопросов не имею.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36100987
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ggg_oldМаты, оскорбления и так дале.
За это модератор отвинчивают кой-чего. Так что не надо бочку катить.

Ggg_oldПод полнотекстовым поиском понимается, то что в субд называется full text search и там действительно нет учета морфологии языка(ов). И да, это очень продвинутый like по сути.
И чьи это проблемы?
Так же как в аглицком всё сервер, и программа, и железо.
Ну и? А по сему или указывай контекст, или границы применения термина.
Типо:
Ggg_old..full text search ... это очень продвинутый like по сути...
- Ну и кто ССЗБ?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36101014
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кста, именно из-за глубокой убежденности, что тот "full text search" и есть настоящий поиск и упорствовал Реалист.
- Нет?

А про лайке я еще тут говорил, но чела не хватило это признать.

Ну и?

Все приведенные "аргуметы" и на слабые попытки доказать не доказуемое - дан четкий и однако_кватный ответ.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36101866
Фотография S.G.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne,
Будь любезен, покажи определение понятия "полнотекстовый поиск" и то, что в него входит и морфология. Я вот, не нашел. Нашел другое:

1. вики
авторПолноте́кстовый по́иск — поиск документа в базе данных текстов на основании содержимого этих документов, а также совокупность методов оптимизации этого процесса.

Полнотекстовый индекс

Первые версии программ полнотекстового поиска предполагали сканирование всего содержимого всех документов в поиске заданного слова или фразы. При использовании такой технологии поиск занимал очень много времени (в зависимости от размера базы), а в интернете был бы невыполним. Современные алгоритмы заранее формируют для поиска так называемый полнотекстовый индекс — словарь, в котором перечислены все слова и указано, в каких местах они встречаются. При наличии такого индекса достаточно осуществить поиск нужных слов в нём и тогда сразу же будет получен список документов, в которых они встречаются.Так, тут ничего про морфологию, только про то, что технология дает быстрое сканирование при поиске заданного слова или фразы

2. search-tech.net/
авторВиды поиска

Полнотекстовый поиск — поиск по всему содержимому документа. ... Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.и тут ничего про морфологию.

3. www.offliner.com
авторИспользование морфологии является одним из важнейших приемов интеллектуального поиска текста. Так, тут про морфологию. И уже поиск называется не "полнотекстовый", а "интеллектуальный".

так что- ждем линк на определения.
имея ввиду:
авторСуществует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска.как мне кажется, твой случай именно такой. но, может и ошибаюсь, конечно.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36101914
ОКТОГЕН
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
S.G., А может , он хочет поиск по звучанию(SOUNDEX)?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36102904
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
21_01Реалист[quot 21_01]
СУБД это только часть решения. Выбор СУБД и Решение поставленной задачи - это разные вещи, не находите?
Конечно, и я рассматриваю различные СУБД, чтобы представлять возможные пути решения.
В последнем сообщении я спросил: отличаются ли возможности перечисленных СУБД в плане полнотекстового поиска. Возможно есть реализации, в которых присутствует часть требуемого функционала. Это будет плюсом - если в основе будет реляционная СУБД, то проще будет выбрать разработчика. Однако я не отметаю сразу вариант с чем-то другим, но мне нужно время на то, чтобы хотя бы в общих чертах составить представление о новой для меня системе.
Взгляните на СУБД "Caché" с полнотекстовым поиском. Поддерживаются следующие языки: английский, немецкий, французский, испанский, итальянский, португальский и японский.
Есть исходники и для русского языка с небольшим описанием морфологического анализатора.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36102924
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
S.G.Di_LIne,
Будь любезен, покажи определение понятия "полнотекстовый поиск" и то, что в него входит и морфология. Я вот, не нашел. Нашел другое:

1. вики
Так, тут ничего про морфологию, только про то, что технология дает быстрое сканирование при поиске заданного слова или фразы


Тошь мне, нашел аф_таритет, педивикию...
Ладно, давай даже их определение рассмотрим, но ВНИМАТЕЛЬНО, по существу, а не поверхностно, на поиск набора букв "морфология"...
педивикия
Современные алгоритмы заранее формируют для поиска так называемый полнотекстовый индекс — словарь, в котором перечислены все слова и указано, в каких местах они встречаются.
(выделение от меня.)

И так. Технология называется "Full Text Search".
Дайте дословный перевод этого названия на русский и его смысл.

А пока - немножко теории.
В русском языке слово может иметь 12 форм: по 6 падежных форм для единственного и множественного числа для существительных.
(Другие - пока отложим, так как существительные - наиболее простой вариант)
Существительное обозначает всю туже сущность (не просто так оно называется СУЩЕствительное), вне зависимости от словоформы.
Значит речь идет о поиску сущностей, то и искать мы должны СУЩНОСТЬ.

Убожество указанных "фулл текст серч" технологий применительно к русскому языку дает безобразный вариант с огромным числов ошибок.
Пример: Человеку безразницы как написана фраза в документе:
Документ 1. Библиотеку по адресу (тыр-пыр-дыр).
Документ 2. Библиотека по адресу (тых-дрых-кышь).

При применении указанной аппонетами технологии, какой результат поиска будет при
поиске слова "БИБЛИОТЕКА"?

1. Будут ли в них, в результатах, указанные документы или нет?
Если в результатах поиска указанные документы отсутствуют , то укажите на основании
чего данные документы выборашены из результатов поиска.
И не на основании машинных технологий, а с точки зрения обычногго Человек.
Бо ПО все же для людей делается. ;-)

2. Почему технология называентся " FULL " (ПОЛНЫЙ) применительно к рускому языку, если она дает такие, принципиальные с точки зрения Русского Языка ошибки?!

Остальное - отпишу чуть позже...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36102947
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ОКТОГЕНS.G., А может , он хочет поиск по звучанию(SOUNDEX)?
Ну?! А не слабО' залезть в учебник Русского языка и увмидеть, что разные словформы одного слова звучат по разному?
Примеры - все слова с беглыми гласными и согластными в суфиксах:
ребенок -> ребенка;
камень -> камнями;
боец -> бойца;
буек -> буйком

остальные случаи - для самостоятельного изучения...
Для особо страждущих - Числительные...
А серьезный разговор пойдет только о глаголах.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103001
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneСуществительное обозначает всю туже сущность (не просто так оно называется СУЩЕствительное), вне зависимости от словоформы.
Значит речь идет о поиску сущностей, то и искать мы должны СУЩНОСТЬ.

Гениально.
Я так понимаю для глаголов полнотекстовый поиск тогда не предполагает поиск для разных форм?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103053
Фотография Ёш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneПример: Человеку безразницы как написана фраза в документе:
Документ 1. Библиотеку по адресу (тыр-пыр-дыр).
Документ 2. Библиотека по адресу (тых-дрых-кышь).

При применении указанной аппонетами технологии, какой результат поиска будет при
поиске слова "БИБЛИОТЕКА"?
это очень простой случай, с ним справится и snowball:
Код: plaintext
1.
2.
3.
4.
select to_tsvector('Библиотеку') @@ plainto_tsquery('БИБЛИОТЕКА') as match;
 match
-------
 t
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103057
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SergSuper
Я так понимаю для глаголов полнотекстовый поиск тогда не предполагает
поиск для разных форм?

Нет, Диля просто оставил глаголы на сладкое. Как ку-де-гра, так сказать...
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103131
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
... ну а тех, кто шибко боек - прикрутили к спинкам коек...
(С)лассик. Против не попрешь.

ЯндексЗачем нужны морфология и синтаксис или Как искать ветра в поле
Распространено мнение, что шаблон "*", означающий любой набор символов, достаточен для поиска в русских текстах. То есть все проблемы, связанные с особенностями морфологии (п. 5.3), решаются путем обеспечения развитого языка запросов (п. 2.2). Но представьте себе - Вы узнали, что искали ветер в поле и нашли. Чтобы найти эту информацию, Вы, вероятно, попросите компьютер поискать слова "ветер" и "поле". Но если в тексте были формы "ветра" или "полях"? Остается вариант шаблона - "вет*" и "пол*", что тут же выдаст Вам материалы о польской ветчине и политике вето! Отсутствие морфологии сильно, а иногда катастрофически влияет на чувствительность и избирательность поиска. Запрос "ветер И поле" уменьшает чувствительность, а "вет* И пол*" - избирательность.

Случаи, когда шаблон не спасает:

Слова, у которых в разных формах меняется основа (супплетивные формы): идти-шел, плохо хуже, я-меня, человек-люди, ребенок-дети

Слова с большим количеством словоформ. Привести список всех словоформ русского глагола (с причастными и деепричастными формами - до 250 различных форм) человеку, не имеющему лингвистического образования, очень трудно. Понять, все ли словоформы из этого списка "накрываются" шаблоном "*" - ещё труднее.

Слова с беглыми гласными и чередованиями. В словаре на 90000 слов, используемом в нашей системе, примерно четверть слов имеет чередования, которые не позволяют найти слово по шаблонам: (искать-ищу, окно-окон, расти-рос: запрос и* или ок* или р* даст много мусора)

Короткие (три-четыре буквы) слова: дом, хор, ... . Во всех языках, в том числе и в русском, имеется общая закономерность: чем чаще слова используются, тем они короче. Применение шаблона "*" в коротких словах приводит к большому количеству ненужных ссылок в списке найденных документов.

Цитировано по тут
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103142
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SergSuperЯ так понимаю для глаголов полнотекстовый поиск тогда не предполагает поиск для разных форм?
- А типо ВНИМАТЕЛЬНО читать тут , ась?
Di_LIne Другие - пока отложим, так как существительные - наиболее простой вариант
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103158
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЗЫ: - Компетентнось Яндекса в поисковых технологиях применительно к Русскому языку, надеюсь, не вызывает сомнений?
Это не педивикия...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103168
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ёшэто очень простой случай, с ним справится и snowball:
Код: plaintext
select to_tsvector(\'Библиотеку\') @@ plainto_tsquery(\'БИБЛИОТЕКА\') as match;\n match\n-------\n t\n

Ок!
А с данными примерами - оно справится?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103203
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakov
SergSuper
Я так понимаю для глаголов полнотекстовый поиск тогда не предполагает
поиск для разных форм?

Нет, Диля просто оставил глаголы на сладкое. Как ку-де-гра, так сказать...

А буде дюже выошиваться - есть наречия, дее и не очень причастия.
А так же "слова-исключения" из Правил Русского языка.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103410
ОКТОГЕН
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne, а, тогда тебе нужен не FTS,а поиск по морфологии , причём для разных языков.
Кстати, а что это за задача такая? Хитросложная супер-система поиска?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103421
Фотография Ёш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneЁшэто очень простой случай, с ним справится и snowball:
Код: plaintext
select to_tsvector(\'Библиотеку\') @@ plainto_tsquery(\'БИБЛИОТЕКА\') as match;\n match\n-------\n t\n

Ок!
А с данными примерами - оно справится?snowball ? точно нет, snowball же просто выделяет окончания и т.п.
Если использовать словарь, видимо зависит от словаря, например в стандартном aspell/ispell слово «вша» отсутствует, соответственно не обрабатывается.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103687
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ёш например в стандартном aspell/ispell слово «вша» отсутствует, соответственно не обрабатывается.
- Балбес ты, Шарик. (М)ультик
Ссылки-то смотрел, что я приводил, али точно не смотрел.

Бо мну там говорил, что в ispell - нету ( НЕ-ТУ!!! ) более 30.000 фамилий.
- Ну и какой "документооборот" можно строить на сём фуфеле?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103708
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ОКТОГЕНDi_LIne, а, тогда тебе нужен не FTS,а поиск по морфологии , причём для разных языков.
Что мне надо - уже работает не первый год в режиме продакшен.
(FB-шный люд про то какбэ в курсе)

ОКТОГЕНКстати, а что это за задача такая?
Хитросложная супер-система поиска?
- Задача елементарная, Уотсон!
Доказать, что тот самый Тьху_Серчь - полный ацтой и панацея для ламеров .
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103746
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne,

В этом топике - скоро Ваших сообщений будет половина от общего числа. Вы случайно не сам с собой спорите ;-) ?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103761
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
РеалистDi_LIne,

В этом топике - скоро Ваших сообщений будет половина от общего числа. Вы случайно не сам с собой спорите ;-) ?
А что, кто-то что-то может по существу вопроса возразить?
Если нет, то вот такую ХНЮ больше нести не стоит ...
- Ы?
А так... Слиф защитан, живи...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103770
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne,

Спасибо дяденька, что разрешил ;-)
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103772
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneSergSuperЯ так понимаю для глаголов полнотекстовый поиск тогда не предполагает поиск для разных форм?
- А типо ВНИМАТЕЛЬНО читать тут , ась?А смысл внимательно читать? Мало ли кто что нафантазирует.
От Вас попросили ссылки на чем основывается Ваша увереность, а Вы в ответ какой-то поток сознания.

Ну и как минимум одну форму существительного пропустили
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103784
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SergSuperНу и как минимум одну форму существительного пропустили
Конечно! Иначе опять нытье начнется - матершина типо...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103792
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SergSuperОт Вас попросили ссылки на чем основывается Ваша увереность
А-а-а-а... К мну какбэ и свой моск есть и морщить его не разучился.
А не тыркацо в педивикию.
Или есть возражения против приведенной ссылки на Яндекс, али ее мало?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103794
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneРеалистDi_LIne,

В этом топике - скоро Ваших сообщений будет половина от общего числа. Вы случайно не сам с собой спорите ;-) ?
А что, кто-то что-то может по существу вопроса возразить?
Если нет, то вот такую ХНЮ больше нести не стоит ...
- Ы?
А так... Слиф защитан, живи...

Значит так, официальное заявление:
Модератор: В следущем после Di_LIne-а или будет ссылка где будет дано определение FTS доказывающее что Реалист был неправ, или будет извинение, или Di_LIne будет забанен
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103801
Мимопроходящий
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Hello, SergSuper!
You wrote on Wed, 22 Jul 09 15:03:50 GMT:

SergSuper S> Модератор: В следущем после Di_LIne-а или будет ссылка где будет дано
S> определение FTS доказывающее что Реалист был неправ,
S> или будет извинение, или Di_LIne будет забаненсерёжа, ты неправ.
диля на этом собаку съел.
я не шучу.

--
With best regards, Мимопроходящий.

Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103805
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneSergSuperОт Вас попросили ссылки на чем основывается Ваша увереность
А-а-а-а... К мну какбэ и свой моск есть и морщить его не разучился.
А не тыркацо в педивикию.
Или есть возражения против приведенной ссылки на Яндекс, али ее мало?В текст из Яндекса нет ни слова про FTS
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103806
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SergSuperЗначит так, официальное заявление:
Модератор: В следущем после Di_LIne-а или будет ссылка где будет дано определение FTS доказывающее что Реалист был неправ, или будет извинение, или Di_LIne будет забанен
- Типо реальных примеров , на которых ентот FTS реально лагает - мало?
- И с какого он дуба, применительно к Русскому языку называется FULL???
- Аргуметы и доказательства - в студию!
Всяческих тарабарские - мною не рассматривались и не опровергались?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103809
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Мимопроходящий
Hello, SergSuper!
You wrote on Wed, 22 Jul 09 15:03:50 GMT:

SergSuper S> Модератор: В следущем после Di_LIne-а или будет ссылка где будет дано
S> определение FTS доказывающее что Реалист был неправ,
S> или будет извинение, или Di_LIne будет забаненсерёжа, ты неправ.
диля на этом собаку съел.
я не шучу.

--
With best regards, Мимопроходящий.


тогда ему будет проще ответить
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103824
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Да лана, МП...
Ему лень глянуть, что ссылки идут на топиг за 2007 год...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103827
Мимопроходящий
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Hello, SergSuper!
You wrote on Wed, 22 Jul 09 15:09:42 GMT:

SergSuper S> тогда ему будет проще ответитьон и ответил.
система построена и внедрена на довольно крупном портале.
если у него будет желание, может чего и расскажет.
а чисто "школьные" притязания отдельных мемберов на академические определения понятий, выглядят весьма наивно.

--
With best regards, Мимопроходящий.

Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103830
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SergSuperтогда ему будет проще ответить
Ответ дан
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103837
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneSergSuperЗначит так, официальное заявление:
Модератор: В следущем после Di_LIne-а или будет ссылка где будет дано определение FTS доказывающее что Реалист был неправ, или будет извинение, или Di_LIne будет забанен
- Типо реальных примеров , на которых ентот FTS реально лагает - мало?
- И с какого он дуба, применительно к Русскому языку называется FULL???
- Аргуметы и доказательства - в студию!
Всяческих тарабарские - мною не рассматривались и не опровергались?
1.лагает - только с Вашей точки зрения, он работает так как задуман
2.Безотносительно русского языка он называется full т.к. ищет по всем словам текста. К тому же название не всегда может точно отражать сущность (вспомним недавний спор про множества)
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103849
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Мимопроходящий
Hello, SergSuper!
You wrote on Wed, 22 Jul 09 15:09:42 GMT:

SergSuper S> тогда ему будет проще ответитьон и ответил.
система построена и внедрена на довольно крупном портале.
если у него будет желание, может чего и расскажет.
а чисто "школьные" притязания отдельных мемберов на академические определения понятий, выглядят весьма наивно.

я не сомневаюсь что его система гораздо продвинутее IB, PG и еще чего здесь обсуждалось
но это не говорит о том FTS должен быть именно таким и что ему можно по хамски себя вести
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103859
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SergSuper1.лагает - только с Вашей точки зрения, он работает так как задуман
2.Безотносительно русского языка он называется full т.к. ищет по всем словам текста. К тому же название не всегда может точно отражать сущность (вспомним недавний спор про множества)
Хм...
1. А вот ЭТО - не не считается типо?
2. Мнение других мемберов:Ggg_oldИ да, это очень продвинутый like по сути .
цитирую из отсюда
3. Полный - подразумевает использование в работе полный набор Правил того языка, к которому система применяется.
А не тупая попытка одеть систему, расчитанную на правила английского языка, на Русский.
Включая некоторые косметические улучшения.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103862
Мимопроходящий
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Hello, SergSuper!
You wrote on Wed, 22 Jul 09 15:18:28 GMT:

SergSuper S> но это не говорит о том FTS должен быть именно таким
а не подскажешь, почему "английский" FTS ищет с учетом морфологии, а "русский" без?
и почему в SpeechAPI с английским всё Ок, а с русским ну никак?

--
With best regards, Мимопроходящий.

Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103869
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SergSuper... и что ему можно по хамски себя вести
Хм... Смотрим в начало топига...
Корректно и литературно в моих постах.

А если Реалист тупо уперся и тему не курит, то кто ему ССЗБ?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103886
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Мимопроходящий
Hello, SergSuper!
You wrote on Wed, 22 Jul 09 15:18:28 GMT:

SergSuper S> но это не говорит о том FTS должен быть именно таким
а не подскажешь, почему "английский" FTS ищет с учетом морфологии, а "русский" без?
и почему в SpeechAPI с английским всё Ок, а с русским ну никак?

--
With best regards, Мимопроходящий.


понятия не имею
я никогда с FTS не работал

просто если человек называет чьи-то слова бредом он должен это доказать со ссылкой на авторитетный источник, а не рассказывать байки о том какие бывают существительные
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103888
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne,

Определение в ВИКИ .
Там нет упоминания про морфологию. FTS действительно похож на LIKE, но он ищет не в конкретном поле, а во всех полях базы (FULL как раз от этого свойства).
Поиск с учетом морфологии, это своего рода надстройка над FTS.

Не "тупо уперся", а сказал, что не собираюсь с тобой общаться в таком тоне. Можешь считать, что я слил.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103892
Зайцев Фёдор
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne3. Полный - подразумевает использование в работе полный набор Правил того языка, к которому система применяется.
если не секрет, откуда берутся такие формулировки?
можно ссылку хоть на одну статью? кроме ссылок на свои посту в этой теме, конечно.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103898
Мимопроходящий
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Hello, Реалист!
You wrote on Wed, 22 Jul 09 15:34:40 GMT:

Реалист Р> Определение в ВИКИ.школьники рулят...


--
With best regards, Мимопроходящий.

Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103899
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneSergSuper... и что ему можно по хамски себя вести
Хм... Смотрим в начало топига...
Корректно и литературно в моих постах.

А если Реалист тупо уперся и тему не курит, то кто ему ССЗБ?
обоснованного опровержения мы так и не увидели...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103905
Мимопроходящий
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Hello, SergSuper!
You wrote on Wed, 22 Jul 09 15:38:19 GMT:

SergSuper S> обоснованного опровержения мы так и не увидели...ты не веришь яндексу?

--
With best regards, Мимопроходящий.

Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103906
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SergSuperпросто если человек называет чьи-то слова бредом он должен это доказать со ссылкой на авторитетный источник ...

А РЕАЛЬНЫХ примеров уже не достаточно стало?
Спешил ссылка на Яндекс - типо не в зачет?
Или Яндекс, с его теоритическим и практическим опытом, не авторитет в данной области?

SergSuper... а не рассказывать байки о том какие бывают существительные
Байки? Хм... Это, про существительные и пр, написано в учебниках Русского Языка для школы.
И эти Правила - база для построения Полнотекстового поиска учитывающего все особенности Русского языка.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103923
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Зайцев Фёдорможно ссылку хоть на одну статью?
Ышо раз:
Ссылко на Яндекс.
Смотреть - 2-й радел.
Где русским по белому написано " Зачем нужны морфология и синтаксис или Как искать ветра в поле " которую я уже приводил в топиге...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103939
Фотография S.G.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneS.G.Di_LIne,
Будь любезен, покажи определение понятия "полнотекстовый поиск" и то, что в него входит и морфология. Я вот, не нашел. Нашел другое:

Тошь мне, нашел аф_таритет, педивикию...

Ну во всяком случае википедия для меня бОльший авторитет.. гораздо бОльший, чем Di_LIne

Di_LIne
И так. Технология называется "Full Text Search".
Дайте дословный перевод этого названия на русский и его смысл.

Пожалуйста. Поиск по всему тексту. Ни слова о том, каким конкретно должен быть поиск. Смысл: есть текст, мы по нему ищем слова.


Di_LIne
А пока - немножко теории.
В русском языке слово может иметь 12 форм: по 6 падежных форм для единственного и множественного числа для существительных.

Меня мало волнуют словоформы русского языка. Меня волнует, почему ты решил, что в определении Full Text Serach должен обязательно входить и поиск словоформ? Почему? Я понимаю, что так оно лучше. Но, имхо, в определение не входит.
Ок, вот моя идея:
Чуть раньше, когда компы были не такими мощными, было трудно, вернее- медленно, просто найти слово в большом объеме текста, так как грубо говоря %like% дает плохой результат по времени. Когда разработали алгоритм такого поиска, быстрого, он и был назван FTS. Далее, так как аппетит приходит во время еды, были разработаны способы поиска словоформ. В принципе, их тоже можно отнести к FTS, а можно и не относить. Не случайно в моей ссылке есть разделение "интеллектуальный поиск" и "текстовый поиск".
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103943
Зайцев Фёдор
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneЗайцев Фёдорможно ссылку хоть на одну статью?
Ышо раз:
Ссылко на Яндекс.
пасиба. там нет ничего о "полнотекстовости". вообще. как и в прошлый раз, видимо.
Di_LIne
Смотреть - 2-й радел.
Где русским по белому написано " Зачем нужны морфология и синтаксис или Как искать ветра в поле " которую я уже приводил в топиге...
тут тоже нет
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103949
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Зайцев ФёдорDi_LIne3. Полный - подразумевает использование в работе полный набор Правил того языка, к которому система применяется.
если не секрет, откуда берутся такие формулировки?
- Как это откуда?
- Как можно програмировать на Сях, Дельфях и тп, не зная Правил программирования, ситнаксис и особенности данного языка?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103961
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
S.G.Di_LIne
А пока - немножко теории.
В русском языке слово может иметь 12 форм: по 6 падежных форм для единственного и множественного числа для существительных.

Меня мало волнуют словоформы русского языка. Меня волнует, почему ты решил, что в определении Full Text Serach должен обязательно входить и поиск словоформ?
А, кстати, зря... И в том же посте, чуть ниже, я привел пример и попросил дать ответы на конкреные вопросы по примеру.
Но что-то ни кто не ответил вообще НИЧЕГО по ним.
Это так, реплика в сторону, если не нравится.
А обязательность использования морфологии я показал на примерах, и в часности, для создания систем "документооборота".
Но опять - НИ КТО ни чего не смог возразить...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103968
Фотография S.G.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne
Ышо раз:
Ссылко на Яндекс.
Смотреть - 2-й радел.
Где русским по белому написано " Зачем нужны морфология и синтаксис или Как искать ветра в поле " которую я уже приводил в топиге...Спасибо. И где там написано: "Яндекс осуществляет технологию Full Text Search, которая включает как простой поиск, так и поиск словоформ"?
Да, там написано:
авторЗадача Яndex.Dict - понимание и расширение запроса пользователя и передача обработанного запроса независимому поисковому механизму. Яndex.Dict работает с уже готовым индексом, созданным без учета морфологии языка.

Принцип взаимодействия Яndex.Dict с поисковым механизмом — преобразование ("морфологизация") поискового запроса, то есть каждый элемент поискового запроса, опознаваемый как слово русского языка, заменяется на все его словоформы.Но они нигде не называют это "полнотекстовым поиском". Они называют это поиском со включенной "морфологизацией" запроса. Ы?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103974
Фотография S.G.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne
А обязательность использования морфологии я показал на примерах, и в часности, для создания систем "документооборота".
Но опять - НИ КТО ни чего не смог возразить...не-а, Di_Line ни что несмог до казать.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103975
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Зайцев Фёдорпасиба. там нет ничего о "полнотекстовости". вообще. как и в прошлый раз, видимо.
Видимо пока не прочитаете ДОСЛОВНО - не успокоится народ.
Не лично!
Ладно...
Но КОНКРЕТНЫЕ ПРИМЕРЫ , приведенные в топике, уж извольте или опровергнуть, или согласиться с ними.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103980
Зайцев Фёдор
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneЗайцев ФёдорDi_LIne3. Полный - подразумевает использование в работе полный набор Правил того языка, к которому система применяется.
если не секрет, откуда берутся такие формулировки?
- Как это откуда?
- Как можно програмировать на Сях, Дельфях и тп, не зная Правил программирования, ситнаксис и особенности данного языка?
некто в этой теме пытается убедить оппонентов в том, что его представление о фтс истинное.
по дороге всплывают доверительно съеденные собаки, ПРаВИЛА рУссКогО языкА, ссылки на статьи о пользе морфологии, правила программирования и синтаксис Си и т.д.
однако ни из чего пока не следует, что вышеупомянутое представление является общепринятым или хотя бы поддерживается множеством авторитетных организаций.

на данный момент более-менее достоверно известно, что
1) Di_LIne согласен с мнением Di_LIne и не согласен с мнением остальных высказавшихся
2) МП поддерживает Di_LIne, а не его точку зрения.

маловато будет 2-х человек для общепринятости и одного Di_LIne в качестве признанного авторитетной.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103985
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
S.G.Но они нигде не называют это "полнотекстовым поиском". Они называют это поиском со
включенной "морфологизацией" запроса. Ы?
Из той же статьи:
ЯндексРаспространено мнение, что шаблон "*", означающий любой набор символов, достаточен для поиска в русских текстах . ... и ниже по тексту.
И еще от туда же:
ЯндексОтсутствие морфологии сильно, а иногда катастрофически влияет на чувствительность и избирательность поиска.
Ы?
А FTS откровенно лагает на конкретных, приведенных выше, примерах.
Ну и какая наф от него польза тогда, ы?

И еще раз, отправная точка :
авторНету там ни какого "полнотекстового поиска" для русского языка. Не-ту!
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36103999
Мимопроходящий
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Hello, Зайцев!
You wrote on Wed, 22 Jul 09 16:10:15 GMT:

Зайцев ЗФ> некто в этой теме пытается убедить оппонентов в том, что его представление о фтс истинное.
ты станешь спорить с MS?
повторяю для упёртых.
FTS от MS для английского (и прочих "нерусских") языка работает с учетом морфологии.
для русского - нет (по крайней мере до 2005 включительно).
в 2005 было обещано, но не реализовано.
есть сторонние разработки, позволяющие задействовать полноценный FTS для русского языка на платформе MS.
вплоть до MS SQL-2000.
благо интерфейс и движок у MS для этого имеется.

но вы конечно можете продолжать квадратное катать, а круглое носить.
ваше право.

--
With best regards, Мимопроходящий.

Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104001
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
S.G.,

Народ, не парьтесь, у него просто нормально объяснить не получается ;-)

Если понимать FTS как "обычный большой индекс" всей текстовой информации (как LIKE), то его работа будет очень, очень, очень, очень, очень, очень медленной. С целью увеличения скорости работы такого поиска, при создании FTS данные предварительно обрабатываются. Это позволяет не только сократить объем самого индекса, а соответственно и скорость работы, но и искать слова в других словоформах.
Теоретически, это можно назвать "морфологическим анализом", т.к. обработка основана на правилах естественного языка. Но ее цель не "анализировать", а "увеличить производительность". Другими словами, FTS без морфологического анализа будет работать, но очень медленно. Поэтому в современных БД индексируемые данные для FTS предварительно обрабатывается с учетом морфологии.
Можно сказать, что Di_LIne прав в том, что в FTS используется морфологический анализ, но он путает причину и следствие.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104003
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Зайцев Фёдороднако ни из чего пока не следует, что вышеупомянутое представление является общепринятым или хотя бы поддерживается множеством авторитетных организаций.

Мда... Это - полный ПАРАГРАФ.
Бо, ссылаюсь на исторический факт и авторитетное развитие Истории, как вы любите:
1. Теория Относительности Энштейна - опрокидывала Афтаритетные мнения в...
2. Коперник - тоже переворачивал систему мировозрения с головы на ноги...

Если бы кто-то не ставил под сомнения аФФтаритетоф, то сидели бы по самые уши в первобытном дерьме.
Ни кто Науку бы не развивал, не пытался осмыслить заново, не ставил бы конкреных экспериментов обрушивающих все предыдущие представляения и запихивающих тех самых аФФтаритетов к г... посамые не балуйся.
А сидели бы и кидались сцылками на афтаритеты, которые есть Истина в последней инстанции.


- Фсио! Теперь мона и забанится.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104013
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
РеалистДругими словами, FTS без морфологического анализа будет работать, но очень медленно.
Не, ты не в теме....
С морфологией-то как раз и растут затраты времени на обработку.
Но с ней - резко растет ТОЧНОСТЬ поиска.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104017
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Да, кста! Дайте, плиз, ссылку (хотя бы одну), что поведение FTS для указанных примеров - есть единственно правильное и иначе быть не должно.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104029
Зайцев Фёдор
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Мимопроходящийты станешь спорить с MS?
повторяю для упёртых. сорь, иногда мне нужно по 2.75 раза повторять
нет, конечно.
они же про свою реализацию пишут.
а вот это - тип данных timestamp по их версии )
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104038
Зайцев Фёдор
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne
Мда... Это - полный ПАРАГРАФ.
Бо, ссылаюсь на исторический факт и авторитетное развитие Истории, как вы любите:
1. Теория Относительности Энштейна - опрокидывала Афтаритетные мнения в...
2. Коперник - тоже переворачивал систему мировозрения с головы на ноги...

Если бы кто-то не ставил под сомнения аФФтаритетоф, то сидели бы по самые уши в первобытном дерьме.
Ни кто Науку бы не развивал, не пытался осмыслить заново, не ставил бы конкреных экспериментов обрушивающих все предыдущие представляения и запихивающих тех самых аФФтаритетов к г... посамые не балуйся.
А сидели бы и кидались сцылками на афтаритеты, которые есть Истина в последней инстанции.


- Фсио! Теперь мона и забанится.
т.е. некто Di_LIne позволил себе хамить лишь потому, что
1) он гением, первооткрывателем, носителем нового знания о полнотекстовом поиске, по причине чего любое его определение истинно
2) никто не может подтвердить его правоту, т.к. остальное человечество просто ещё не доросло это понимания сути.
3) простым смертным не дозволяется высказывать иметь мнение, отличное от Истинного.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104041
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Зайцев Фёдора вот это - тип данных timestamp по их версии )А что, хороший пример.
У меня вопрос к апологетам FTS:
- Поле timestamp учитывается в FTS по названию месяца и/или прописью?
Типо бландынко набрала: - Все документы в сентябре...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104052
Мимопроходящий
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Hello, Зайцев!
You wrote on Wed, 22 Jul 09 16:37:10 GMT:

ЗФ> Зайцев ФёдорМимопроходящийты станешь спорить с MS? ЗФ> нет, конечно.
ЗФ> они же про свою реализацию пишут.итак, нет возражений, касаемо FTS от MS?
идём дальше.
как обстоят дела с "английским" у Оракл Текст?

--
With best regards, Мимопроходящий.

Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104053
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Зайцев Фёдор, еще раз:
- Дайте ссылку на авторитетный источник, где бы утверждалось, что поведение FTS относительно Русского языка, НЕ учитывать морфологию, правильное и быть так должно .

Я хоть какую-то смог нарыть, что морфологию нужно учитывать.
- Ждем-с, ответного хода аппонентов...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104068
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Мимопроходящий
идём дальше.
Да ну его, МП...
Дело же не в сути вопроса, а в 2-х вещах:
1. Прикрутил к проекту FTS - и ниии...фсё!
- У мну все крута, а юзверь сам дурак, искать не умеет.
2. Можно гордо в бумашке к проекту написать: - Система обеспечивает полнотекстовый поиск по документам.
И срубить на сем бабла. А если будут притензии - см п.1
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104069
Фотография Ggg_old
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Меня вообще удивляет, как о проблемах поиска с учетом морфологии может высказывыться человек, который не в состоянии формулировать свои мысли на русском языке, я говорю Di_Line.
Причем я понимаю, что он использует "падонкаффский" сленг специально, но мы ведь на инженерном sql.ru а не на форуме подростков-малолеток, верно?
Предлагаю топик закрыть, т.к. его автор уже давно во всем разобрался, а троллинг откровенно раздражает.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104075
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ggg_old,

Поддерживаю!
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104091
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ggg_old но мы ведь на инженерном sql.ru а не на форуме подростков-малолеток, верно?
Верно, кто же спорит?
Вот и дайте четкий, инженерный ответ, почему НЕ нужно учитывать морфологию.
Я уже какой раз об этом прошу...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104118
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneВерно, кто же спорит?
Вот и дайте четкий, инженерный ответ, почему НЕ нужно учитывать морфологию.
Я уже какой раз об этом прошу...
Вау, вот это в натуре другой базар! На не гнилые комменты и ответить не в падлу ;-))))))))))

По теме топика:
Под FTS каждый производитель БД понимает то, что он реализовал. Ссылку на MS тебе уже давали. Вот на , вот PostgeSQL , вот MySQL . Действительно, там есть поиск с учетом морфологии языка, действительно учитывать при поиске морфологию нужно . Но анализ морфологии - это следствие оптимизации FTS. Но никак не на оборот.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104141
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Реалист, для начала:
Толковый словарь Ожегова
Морфология - раздел граматики, наука о частях речи , об их категориях и о формах слов

РеалистДействительно, там есть поиск с учетом морфологии языка...
Морфология языка - это как?
Это так, на заметку что бы взять...

Реалист действительно учитывать при поиске морфологию нужно .
Ок! А если она НЕ учитывается, как в случае FTS, тогда что?

Реалист Но анализ морфологии...
Анализ морфологии СЛОВА - сделают лингвисты, напишут Правила, внесут учебники, словари и тп.

Реалист Но анализ морфологии - это следствие оптимизации FTS. Но никак не на оборот.
То есть морфология слов в Языке появляется из-за оптимизации FTS?
Или же FTS должна быть оптимизирована под морфологию применяемую в конкретном Языке, литературном, разговорном и тд?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104158
Senya_L
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne,

Вопрос к тебе, коль опыт имеется в данной области. И коль ты звезда данного топика (по-доброму, канешна)

Вот сколько словоформ (не слов) в русском языке всего? Каково их количество, если вот так внести их всем скопом в словарик БД?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104165
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Понравился мне PostgreSQL в приведенной ссылке:
авторСами парсеры и словари также хранятся в системе , их можно добавлять, изменять и удалять с помощью SQL команд.
У меня Словарь составляет на сегодняшний день чуть больше 6 млн. общеупотребительных слов, в основной морфеме: именительный падеж единственного числа.
Не считая спец. терминов по разным отраслям науки и производтсва.
Я это к тому, что размер системы в мегабайтах должен составлять не так и мало.

Текст написан на русском, а вот в примерах - почему-то только английские слова используются..

В Ispell от Alexander Lebedev, который есть в свободном доступе, кучи слов просто нет (про фамилии - я уже говорил), а в affix наличие кучу ошибок и неполностью описаны все схемы...
Хорошо, если он дополнен в PostgreSQL и исправлен.
Далее можно углубляться в нюансы. Но не думаю, что это интересно широкой публике.

ИМХО:
GiST индекс - все недостатки хеширования наглядно продемонстрированы в MnogoSearch.
И как программисты, все знают, что коллизий при таком подходе не избежать.

GIN индекс - сами авторы данного документа отмечают:
авторЭтот индекс используется практически всеми большими поисковыми машинами, однако его использование в базах данных для индексирования изменяющихся документов затруднено , так как любые изменения ... приводят к большому количеству обновлений индекса.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104169
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Senya_LИ коль ты звезда данного топика (по-доброму, канешна)
Меня можно обвинить лишь в буратиндии...
Видишь, я еще слово придумал - Буратиндия.
И у носителей языка оно не вызывает трудностей, как в восприятии, так и в морфологии.

Senya_L
Вот сколько словоформ (не слов) в русском языке всего? Каково их количество, если вот так внести их всем скопом в словарик БД?
Может я не правильно понял вопрос...
По нашим приблизительным оценкам емкость Русского языка составляет 20-25 миллионов слов.
Средне-статистическое слово имеет всреднем 11-14 словоформ.
Если взять длинну слова равную 8-10 знакам, то можешь подсчитать объем в мегабайтах.
Плюс к этому нужно учесть постоянное развитие языка и появление новых слов, как родных, так и заимствованных из других, в часности английского, языков.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104184
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneРеалист, для начала:
Толковый словарь Ожегова
Морфология - раздел граматики, наука о частях речи , об их категориях и о формах слов

РеалистДействительно, там есть поиск с учетом морфологии языка...
Морфология языка - это как?
Это так, на заметку что бы взять...

Реалист действительно учитывать при поиске морфологию нужно .
Ок! А если она НЕ учитывается, как в случае FTS, тогда что?

Реалист Но анализ морфологии...
Анализ морфологии СЛОВА - сделают лингвисты, напишут Правила, внесут учебники, словари и тп.

Реалист Но анализ морфологии - это следствие оптимизации FTS. Но никак не на оборот.
То есть морфология слов в Языке появляется из-за оптимизации FTS?
Или же FTS должна быть оптимизирована под морфологию применяемую в конкретном Языке, литературном, разговорном и тд?
Какой ты виртуоз жонглировать словами!
Я перечитал каждое твое предложение несколько раз. Каждое слово понятно в отдельности, но я не смог постичь общего смысла. Все, я слил, ты во всем абсолютно прав, думаю, что это мой последний ответ в данном топике.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104186
Senya_L
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneSenya_L
Вот сколько словоформ (не слов) в русском языке всего? Каково их количество, если вот так внести их всем скопом в словарик БД?
Может я не правильно понял вопрос...Да нет, ты все правильно понял. Я надеюсь. :)

Я когда-то давно этим вопросом интересовался, но в частном, так сказать, порядке (в смысле денег мне за это никто не платил, глубоко не копал). У меня набралось не более 0,5 лимона словоформ, просто загоняя литературные произведения из библиотеки Мошкова. Естественно, морфологические связи никто не устанавливал.

Отсюда и интерес, чисто академический, как это работает.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104188
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MySQL по приведенной выше ссылке.
(В порядке прочтения текста)

1. MySQLПолнотекстовые индексы в MySQL обозначаются как индексы типа FULLTEXT. Эти индексы могут быть созданы в столбцах VARCHAR и TEXT
То есть мой вопрос про поле таймстамп и его индексацию как текста - отвалился.

2. MySQLДля каждой строки столбца в заданной таблице команда MATCH() возвращает величину релевантности, т.е. степень сходства между строкой поиска и текстом
Понятие термина РЕЛЕВАНТНОСТЬ четко не определено и очень запутано.

3. MySQLДля разбивки текста на слова MySQL использует очень простой синтаксический анализатор...
Любое ``слово'', присутствующее в стоп-списке (stopword) или просто слишком короткое (3 символа или меньше), игнорируется.
То есть такие слова, как ХОР, МЕД и прочие - нафиг.

4. Про морфологию - ни чего вообще не сказано. Ни "да", ни "нет".
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104193
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
РеалистКаждое слово понятно в отдельности, но я не смог постичь общего смысла.
Да ты не расстраивайся... Чес-слово - не только ты один.
У меня даже справка есть, что планетоитянин, выданая П02.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104196
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Senya_LОтсюда и интерес, чисто академический, как это работает.
Если честно - афигительно.
И, если я правильно прочитал между строк, то в Яндексе есть целый отдел, который занимается ТОЛЬКО лингвистикой, укомплектованный, в том числе, и филологами по образованию...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104207
_vic_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ребята, спор выглядит очень тупо.
Человек поимел не правильное представление о термине.
Он взялся его разбирать по "буквам". Я так понял у него большой опыт в этом :)
Но в реальности термин не всегда "математически" отражает реальную сущность.
Слово Full у каждого имеет свой "объем".
В реальности же, термин FTS означает только, что будет проводится поиск по вхождениям слов в тексте. Люди которые в программировании больше 20 лет, прекрасно знают об этом.
Это понятие появилось при них.
Другое дело, что в этом мире ничего постоянного нет и терминология тоже меняется.
Многие понятия становятся ширше (как говорил известный кино-герой).
Да. В настоящий момент полнотекстовые сервисы намного функциональнее и богаче,
но мнение о том, что FTS это обязательно полный морфологический поиск ошибочно.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104210
Senya_L
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneSenya_LОтсюда и интерес, чисто академический, как это работает.
Если честно - афигительно.
И, если я правильно прочитал между строк, то в Яндексе есть целый отдел, который занимается ТОЛЬКО лингвистикой, укомплектованный, в том числе, и филологами по образованию...Я в Яндекс резюмов не писал, свой яндекс открывать не собирался ни в коем разе.

Просто попробовал такой вариант с составлением словаря словоформ. По правде сказать мне это нафик не надо было. Попробовал на FB - вроде работало. Сам понимаешь: как работало - это вопрос вторичный... Так что по шарабану, но чем черт не шутит? Может и понадобится когда-нибудь, если FTS от MSSQL перестанет удовлетворять потребности.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104220
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Senya_LПопробовал на FB - вроде работало. Сам понимаешь: как работало - это вопрос вторичный... Так что по шарабану, но чем черт не шутит? Может и понадобится когда-нибудь, если FTS от MSSQL перестанет удовлетворять потребности.
Хошь верь, хошь не верь, но мы смогли добится, что 16 mСек тратится на обработку любого запроса, вне зависимости от кол-ва слов в запросе, ни от размера БД. Правда на Yaffil-е.
- Senya_L, ты вот честно скажи, свои собаки - сочтемся, ты проверял этот FTS от MSSQL на Not Found?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104234
Senya_L
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneSenya_LПопробовал на FB - вроде работало. Сам понимаешь: как работало - это вопрос вторичный... Так что по шарабану, но чем черт не шутит? Может и понадобится когда-нибудь, если FTS от MSSQL перестанет удовлетворять потребности.
Хошь верь, хошь не верь, но мы смогли добится, что 16 mСек тратится на обработку любого запроса, вне зависимости от кол-ва слов в запросе, ни от размера БД. Правда на Yaffil-е.Выражаю респект и пожелаю развития. Чем тот же черт нет шутит? Может выйдет в продакшн и заткнете Яndex за все места.Di_LIne- Senya_L, ты вот честно скажи, свои собаки - сочтемся, ты проверял этот FTS от MSSQL на Not Found?Неа. Это была второстепенная примочка и большого жаренного петуха у меня за спиной не было чтобы особо напрягаться. А собственного интереса данная тема не вызвала. Попросту прикрутил - и забыл. :)
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104246
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Senya_L... заткнете Яndex за все места.
Его теперь ни кто не заткнет, дашь Гугля...

Senya_LПопросту прикрутил - и забыл. :)
Во-во и большинство, имхо, так...

FTS-ы молчат насмерть, пора закругляться.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104252
Senya_L
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneSenya_L... заткнете Яndex за все места.
Его теперь ни кто не заткнет, дашь Гугля...

Senya_LПопросту прикрутил - и забыл. :)
Во-во и большинство, имхо, так...

FTS-ы молчат насмерть, пора закругляться.Не знаю, что ты воюешь. Вообще-то не забывай, что цель все же должна оправдывать средства. Если ты вкладываешься в "настоящий FTS", то на это должны быть обоснованные (экономические) причины. У вас - были, у других - нет.

ЗЫ. Хотя рекламу сделал - можешь спать спокойно ;))).
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104259
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Заметка на полях.
Как-то пришлось мне искать юридические документы в инете.
До сайта добрался быстро, но там...
Черт ногу сломит, а поиск локальный - хоть вешайся.
А официальную бумагу только у них скачать для распечатки можно.
И крутился сайтик на Мускуле с FTS-ом...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104263
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Senya_LВообще-то не забывай, что цель все же должна оправдывать средства.
С клавы реплику снял, редиска, пока заметку писал...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104300
Фотография S.G.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_vic_Да. В настоящий момент полнотекстовые сервисы намного функциональнее и богаче,
но мнение о том, что FTS это обязательно полный морфологический поиск ошибочно.+1.
Вроде все это поняли, кроме одного человека.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104317
_vic_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Я специально прошарился в инете.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104326
_vic_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Сорри
Я специально прошарился в инете.
Оказывается под FTS в SQL действительно начинают понимать использование морфологии.
Миграция термина, блин. И опять Microsoft :)
http://blogs.msdn.com/alexejs/archive/2009/06/13/9745778.aspx
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104333
Senya_L
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_vic_Ребята, спор выглядит очень тупо.
Человек поимел не правильное представление о термине.
Он взялся его разбирать по "буквам". Я так понял у него большой опыт в этом :)
Но в реальности термин не всегда "математически" отражает реальную сущность.
Слово Full у каждого имеет свой "объем".
В реальности же, термин FTS означает только, что будет проводится поиск по вхождениям слов в тексте. Люди которые в программировании больше 20 лет, прекрасно знают об этом.
Это понятие появилось при них.
Другое дело, что в этом мире ничего постоянного нет и терминология тоже меняется.
Многие понятия становятся ширше (как говорил известный кино-герой).
Да. В настоящий момент полнотекстовые сервисы намного функциональнее и богаче ,
но мнение о том, что FTS это обязательно полный морфологический поиск ошибочно.-1
По-моему - дешевая демагогия. Не потому, что поддерживаю Dj_Line'а, а потому что сплошное бла-бла-бла. Расскажите о всей этой "ширшине" - и люди поверят. А так - пустая говорильня. Диля хоть как-то пытался обосновать свое недоверие к оффициальным FTS. В его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска. Сам же говорит - у Яндекса там целый отдел этим занимается, у него лично хватило собственного энтузиазма.

ЗЫ. Про недоработки в FTS у MSSQL косвенно говорит уже то, как подключаются словари русского языка. Это ж надо, Мелкософт рекомендует для этого прописывать ключи реестра "ручками"! Это уже какой-то линукс получается

_vic_Сорри
Я специально прошарился в инете.
Оказывается под FTS в SQL действительно начинают понимать использование морфологии.
Миграция термина, блин. И опять Microsoft :)
http://blogs.msdn.com/alexejs/archive/2009/06/13/9745778.aspxДа шо выговорите?! Неужели научились по filestream'овым полям шукать? Да вообще-то FTS у MSSQL был основан на системной службе полнотекстового поиска в файлах. Надо же, прикрутили... Если вот только вспомнить как коряво он работает... По-крайней мере в XP
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104343
_vic_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Senya_LВ его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104344
_vic_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Senya_LВ его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска.
Согласен. Догадливость гугла иногда раздражает :)
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104347
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Senya_L В его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска.
Нифига ни полразу!
С этим столкнулись все, кто серьезно работает On-Line.
Всяческие хоум-раги и сайтиги от школьнигаф - не считаются.
Особенно "погорели" те, кто юзает Мускул с его FTS-ом...
А альтернативы у них - нету.
Остается один путь - делать самим.
Есть не плохие реализации, но... ограниченные именно со стороны Мускула.
(Только без холивара "блокировочник-версионник". Для этого есть свой топиг.)

А так как у Yaffil нет родной такой приблуды (UDF очень старой разработки не в счет), то и пришлось с нуля начинать, пройдя весь путь, от попыток прикрутить какоре-либо из готовых решений - до реализации своего варианта, и продолжая дальше работать.
Те разработчики, кто работает на Off-Line, еще это не почувствовали, что значит Not Foud и в какие убытки оно выливается заказчику.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104353
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_vic_Senya_LВ его рассуждениях только одно слабое место - целесообразность всех этих потуг с качеством поиска.
Согласен. Догадливость гугла иногда раздражает :)
Не стоит путать поисковые системы, которые находятся под мощным СЕО-прессингом и локальный поиск по сайту.
- Ага?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104362
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Не в обиду Judge.
- Как вы расцениваете систему поиска на СКРУЛЬ.РУ по 10 бальной шкале?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104367
Реалист
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIne,

Наверно МАКСИМАЛЬНО надоело, а?
_vic_ - это же твой клон? Да, Дим? ;-)
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104371
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
РеалистНаверно МАКСИМАЛЬНО надоело, а?
По сабжу и по обсуждению - есть чё сказать по делу, аргументация, примеры с фактами?

Реалист_vic_ - это же твой клон? Да, Дим? ;-)
- Выдохни и просись к П02 в подмастерья. Хотя не возьмет...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104401
_vic_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
РеалистDi_LIne,

Наверно МАКСИМАЛЬНО надоело, а?
_vic_ - это же твой клон? Да, Дим? ;-)

Овечкой Долли меня еще ни кто не называл :)

Unknown error occurred while merging!!!
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104767
Зайцев Фёдор
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneЗайцев Фёдор, еще раз:
- Дайте ссылку на авторитетный источник, где бы утверждалось, что поведение FTS относительно Русского языка, НЕ учитывать морфологию, правильное и быть так должно .
Вы либо не понимаете, чем отличается "не обязан учитывать" и "обязан не учитывать", либо делаете вид. Ищите дураков в зеркале в обоих случаях.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104790
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Зайцев ФёдорВы либо не понимаете, чем отличается "не обязан учитывать" и "обязан не учитывать", либо делаете вид.
Ссылка-то на авторитетный источник - ГДЕ???
А котором сей вопрос освещен.

ЗЫ: В зеркале оную не найдете...
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104901
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneЗайцев ФёдорВы либо не понимаете, чем отличается "не обязан учитывать" и "обязан не учитывать", либо делаете вид.
Ссылка-то на авторитетный источник - ГДЕ???
А котором сей вопрос освещен.

ЗЫ: В зеркале оную не найдете...

Уважаемый, во-первых резкие безапеляционные высказывания Вы начили делать первым. Во-вторых, Вам были даны ссылки хотя бы на википедию. Да, источник не совсем авторитетный, но Вы бы хоть одну ссылку привели! Пока мы видели ссылки только на Ваши же размышления либо на страницу яндекса, где ничего не говорилось о FTS.
Т.о. образом Вы не смогли обосновать своё пренебрежительное высказывание.
Извиняться тоже не соизволили. Вы вынуждаете меня выполнить обещание


Вы могли бы написать что PostgeSQL и MySQL хреново ищут - тогда никаких претензий бы не было, но Вы написали что они именно не поддерживают полнотекстовый поиск.
Учитесь дискутировать, а хамить то много ума не надо.
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104966
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SergSuperТ.о. образом Вы не смогли обосновать своё пренебрежительное высказывание.
Ну да? А вот здесь этот же автор сам признает, что:
Реалист...действительно учитывать при поиске морфологию нужно.

А ссылку на тот же MS приведена даже не мной...
Таким образом моя имха совпадает, в данном аспекте, с позицией Microsoft.
Далее...
"Прикручивание" к PostgeSQL Ispel - не есть попытка внедрения учета морфологии в их реализацию FTS?
Если без оной все так замечательно, то для чего они это сделали?
Ссылка, где это указано, опять же приведена аппонентом.

Этого тоже мало?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36104988
Фотография Di_LIne
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SergSuperВы могли бы написать что PostgeSQL и MySQL хреново ищут - тогда никаких претензий бы не было, но Вы написали что они именно не поддерживают полнотекстовый поиск.

Именно это я и сказал в самом начале вот в этом посте с указанием к какому именно языку относится данное мнение.
Нет?
...
Рейтинг: 0 / 0
Выбор СУБД с полнотекстовым поиском
    #36105499
Фотография SergSuper
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Di_LIneА ссылку на тот же MS приведена даже не мной...
Вот именно что не Вами.
Di_LIne
"Прикручивание" к PostgeSQL Ispel - не есть попытка внедрения учета морфологии в их реализацию FTS?
Будем считать это признанием того что FTS в PostgeSQL в каком-то виде существует.
Di_LIne
Если без оной все так замечательно, то для чего они это сделали?
Ссылка, где это указано, опять же приведена аппонентом.

Этого тоже мало?
Мало ли кто чего сделал? Четкого понятия что должен включать FTS нету, во всяком случае Вы не смогли найти. MS считает что морфология должна быть, PostgeSQL - что не должна. Нету повода обвинять людей в невежестве.

Di_LIneSergSuperВы могли бы написать что PostgeSQL и MySQL хреново ищут - тогда никаких претензий бы не было, но Вы написали что они именно не поддерживают полнотекстовый поиск.

Именно это я и сказал в самом начале вот в этом посте с указанием к какому именно языку относится данное мнение.
Нет?
Нет
...
Рейтинг: 0 / 0
134 сообщений из 134, показаны все 6 страниц
Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / Выбор СУБД с полнотекстовым поиском
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]