|
|
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
iv_an_ru, нет, позиции слов такой индекс (с 99% сжатием) не содержит. Только вхождения. Но уверяю вас, ваша фраза выдаст искомые документы, поскольку чем больше слов в фразе тем точнее поиск по документу. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:24 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Ukraine"полнотекстовый поиск от стороннего производителя для индексации литералов"А вот фиг вам, а не сторонний производитель. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:25 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Ukraineнет, позиции слов такой индекс (с 99% сжатием) не содержит. Только вхождения.Фтопку. Как после этого сортировать по релевантности? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:25 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
UkraineНо уверяю вас, ваша фраза выдаст искомые документы, поскольку чем больше слов в фразе тем точнее поиск по документу.Ну поищите в английском корпусе длинную фразу "To be, or not to be: that is the question" без учёта позиций слов. Вы найдёт почти все индексированные документы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:29 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
iv_an_ruUkraineнет, позиции слов такой индекс (с 99% сжатием) не содержит. Только вхождения.Фтопку. Как после этого сортировать по релевантности? Как вариант, допустим из хранилища вернулось 10 таких документов. Тогда эти документы читаются с диска и анализируются более подробно. Но ты не понял саму суть такого инвертированого индекса. Полнотекстовый поиск здесь по большому счету наклейка. А если смотреть глубже то это тоже РДФ хранилище. Ведь например можно хранить такие документы. "Документ Кот"=>"серые глаза длинный хвост усы ловит мышей пьет молоко" "Документ Собака"=>"длинный хвост зеленые глаза ест косточки пьет воду" "Документ Ежик"=>"серые глаза короткий хвост иголки усы ловит мышей пьет молоко" .... Как видим, здесь уже нет понятие порядок фразы, ближе фраза дальше фраза. Просто обьект и факт о этом обьекте. И такую схему я могу хранить все с темже 95-99% сжатием. А вы - нет :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:31 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
iv_an_ruUkraineНо уверяю вас, ваша фраза выдаст искомые документы, поскольку чем больше слов в фразе тем точнее поиск по документу.Ну поищите в английском корпусе длинную фразу "To be, or not to be: that is the question" без учёта позиций слов. Вы найдёт почти все индексированные документы. ваш индекс тоже ничего не найдет, потому что там везде стоп слова или слова по два символа (малозначащие). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:33 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Ukraineiv_an_ruпропущено... Фтопку. Как после этого сортировать по релевантности? Как вариант, допустим из хранилища вернулось 10 таких документов. Тогда эти документы читаются с диска и анализируются более подробно. Но ты не понял саму суть такого инвертированого индекса. Полнотекстовый поиск здесь по большому счету наклейка. А если смотреть глубже то это тоже РДФ хранилище. Ведь например можно хранить такие документы. "Документ Кот"=>"серые глаза длинный хвост усы ловит мышей пьет молоко" "Документ Собака"=>"длинный хвост зеленые глаза ест косточки пьет воду" "Документ Ежик"=>"серые глаза короткий хвост иголки усы ловит мышей пьет молоко" .... Как видим, здесь уже нет понятие порядок фразы, ближе фраза дальше фраза. Просто обьект и факт о этом обьекте. И такую схему я могу хранить все с темже 95-99% сжатием. А вы - нет :) А, ну и запрос "пьет молоко ловит мышей", вернет Кота и Ежика :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:34 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
UkraineКак вариант, допустим из хранилища вернулось 10 таких документов. Тогда эти документы читаются с диска и анализируются более подробно.Ага, значит все равно появляется диск со всеми документами в исходном виде. Только у себя мы их не считаем за гигабайты, а у других считаем. Прелестно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:40 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Ukraineiv_an_ruНу поищите в английском корпусе длинную фразу "To be, or not to be: that is the question" без учёта позиций слов. Вы найдёт почти все индексированные документы.ваш индекс тоже ничего не найдет, потому что там везде стоп слова или слова по два символа (малозначащие).Стоп они или не стоп, я решу сам. Но если вас это смущает, рассмотрите фразу "Mother Mary comes to me speaking words of wisdom", которая даст почти тот же эффект --- все слова очень ходовые. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 02:43 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
MX-9Oleg77777Вот тут все знатоки Кэша, а вот скажите мне, там есть иерархии на измерениях, или что-то подобное? А в других "многомерных" СУБД? CACHE ( а также все его MUMPS-язычные родственники и родители - DIAMS - MSM -GTM - MINIM ) - это деревья стволом вверх ветвями вниз каждая ветка суть "измерение" (мерность) на концах ветвей обязательно и в развилках необязательно прицеплены текстовые строки ("записи") выше по дереву - выше по иерархии ^o - пример обращения к самой верхней точке перевернутого дерева ^o("вес машины ФФ-6543") - это обращение к одной из характеристик некоторого экземпляра из класса обьектов ^o("вес машины ФФ-6534","в том числе вес кабины")- а это к характеристике его некоторой составной части все ------------------------------------ Спасибо, про это я и спрашивал. Теперь знаю, как жизнь устроена. Нужно больше думать про дерева. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 07:58 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
UkrainemaytonМожно еще спросить астро-физика в чём профит его наблюдений за спектрами и излучениями? Обидеться. Или по мордасам ударит. Или оба кейса. Нет, хороший астрофизик на пальцах обьяснит что такое спектр. Что звук и свет, как не странно имеют одну природу. Разнятся только длиной волны. Что цвет это тоже длина волны и так далее.Я бы на такого хорошего астрофизика сама бы обиделась и даже кейсом по мордасам ударила бы! Даже я, такая вот вся блондинко, и то знаю, что звук и свет существенно разную природу имеют! Достаточно хотя бы вспомнить, что звук - продольные колебания, свет - поперечные. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 08:47 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
iv_an_ruUkraineКак вариант, допустим из хранилища вернулось 10 таких документов. Тогда эти документы читаются с диска и анализируются более подробно.Ага, значит все равно появляется диск со всеми документами в исходном виде. Только у себя мы их не считаем за гигабайты, а у других считаем. Прелестно. есть формат збруч-2 и там, если нужно по точному вхождению фразы искать, хранятся позиции слов. Но сжатие 85% ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 09:07 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
iv_an_ruUkraineпропущено... ваш индекс тоже ничего не найдет, потому что там везде стоп слова или слова по два символа (малозначащие).Стоп они или не стоп, я решу сам. Но если вас это смущает, рассмотрите фразу "Mother Mary comes to me speaking words of wisdom", которая даст почти тот же эффект --- все слова очень ходовые. Статистика говорит что 99.9% слов редкоиспользуемые. Вот взять этот сайт и тоже самое 0.1% слов встречается больше чем на сто страницах из миллионов. Кури бесконечную дисперсию. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 09:10 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Поэтому ты удивишся, но на твою фразу найдется куда меньше доков чем ты думаешь. На этом сайте так я думаю не более пары доков ) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 09:11 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
ВечностьUkraineпропущено... Нет, хороший астрофизик на пальцах обьяснит что такое спектр. Что звук и свет, как не странно имеют одну природу. Разнятся только длиной волны. Что цвет это тоже длина волны и так далее.Я бы на такого хорошего астрофизика сама бы обиделась и даже кейсом по мордасам ударила бы! Даже я, такая вот вся блондинко, и то знаю, что звук и свет существенно разную природу имеют! Достаточно хотя бы вспомнить, что звук - продольные колебания, свет - поперечные. Не внимательно прочитала. Я написал что имеют одинаковую ПРИРОДУ. Тоесть суть - колебания волны в разных диапазонах. Звук и свет радиоволны инфракрасный диапазон и тд ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 09:15 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Ukraineiv_an_ruпропущено... Фтопку. Как после этого сортировать по релевантности? Как вариант, допустим из хранилища вернулось 10 таких документов. Тогда эти документы читаются с диска и анализируются более подробно. Но ты не понял саму суть такого инвертированого индекса. Полнотекстовый поиск здесь по большому счету наклейка. А если смотреть глубже то это тоже РДФ хранилище. Ведь например можно хранить такие документы. "Документ Кот"=>"серые глаза длинный хвост усы ловит мышей пьет молоко" "Документ Собака"=>"длинный хвост зеленые глаза ест косточки пьет воду" "Документ Ежик"=>"серые глаза короткий хвост иголки усы ловит мышей пьет молоко" .... Как видим, здесь уже нет понятие порядок фразы, ближе фраза дальше фраза. Просто обьект и факт о этом обьекте. И такую схему я могу хранить все с темже 95-99% сжатием. А вы - нет :) Я как понимаю к этому посту претензий нет ? Оказывается "банальный полнотекстовый поиск" суть рдф упрощенной модели со свойствами хранить дынные в очень пожатом виде )) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 09:19 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
maytonUkraine, извини уже поздно. Я под воздействием Морфея и слабо следил за дискурсом. РДФ - это что? Очередная мулька нынче модная среди новосибирцев ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 09:23 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Вечность, Кстате картинко. От радиации до радиоволн. Спектр, специально для блондинок http://ru.m.wikipedia.org/wiki/Файл:Spectre.svg ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 09:33 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Ukraineiv_an_ru, Так что, либрусек можно представить в качестве направленного графа с миллиардами графов или нет ? так мне неинтересно слова искать. Мне нужно цепочками. с выпадающими звеньями. с обработкой морфем. что б на запрос ==кошка кушала котлету== откликалось и ==кошки с удовольствием кушали вкусные котлеты==. Хочу такой либрусек. Будет? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 09:37 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
оффтопом - почему локальный поиск гугла и яндекса угробили? Удобно же было. Что вместо использовать? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 09:41 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
iv_an_ruUkraineНо уверяю вас, ваша фраза выдаст искомые документы, поскольку чем больше слов в фразе тем точнее поиск по документу.Ну поищите в английском корпусе длинную фразу "To be, or not to be: that is the question" без учёта позиций слов. Вы найдёт почти все индексированные документы. Этот человек неделю назад не знал смысла слова MVCC (и возможно не знает до сих пор). Что ты хочешь от него? Восходящая звезда.... такая звезда... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 09:41 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Vladimir BaskakovUkraineiv_an_ru, Так что, либрусек можно представить в качестве направленного графа с миллиардами графов или нет ? так мне неинтересно слова искать. Мне нужно цепочками. с выпадающими звеньями. с обработкой морфем. что б на запрос ==кошка кушала котлету== откликалось и ==кошки с удовольствием кушали вкусные котлеты==. Хочу такой либрусек. Будет? На стебельке? Конечно не будет. Автору станет скучно заниматься своим курсовым проектом намного раньше, чем он осознает необходимость и вообще факт существования морфем. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 09:46 |
|
||
|
СУБД Тайга
|
|||
|---|---|---|---|
|
#18+
Vladimir BaskakovUkraineiv_an_ru, Так что, либрусек можно представить в качестве направленного графа с миллиардами графов или нет ? так мне неинтересно слова искать. Мне нужно цепочками. с выпадающими звеньями. с обработкой морфем. что б на запрос ==кошка кушала котлету== откликалось и ==кошки с удовольствием кушали вкусные котлеты==. Хочу такой либрусек. Будет? Стемить слова нужно. В моем случае можно слова шаблонами задавать. Напр. "кошк% кушал% котлет%" % - это любой символ или набор символов ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.04.2013, 09:46 |
|
||
|
|

start [/forum/topic.php?fid=56&msg=38239381&tid=2015245]: |
0ms |
get settings: |
8ms |
get forum list: |
11ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
61ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
62ms |
get tp. blocked users: |
1ms |
| others: | 15ms |
| total: | 178ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...