Lucene Indexed Stored Tokenized / Java

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Java [игнор отключен] [закрыт для гостей] / Lucene Indexed Stored Tokenized

11 сообщений из 11, страница 1 из 1

Lucene Indexed Stored Tokenized

#39523189

questioner

Гость

Пытаюсь начать изучать Lucene.

не понимаю значения аттрибутов полей.

Indexed - пишут, что позволяет искать по полю с таким атрибутом

Stored - пишут, что позволяет находить поле как оно есть

Tokenized - каким-то образом значение поля бьётся на токены. Токены попадают в индекс.

Честно говоря ни черта не понятно. Что будет если по полю искать можно(Indexed) а находить(Stored) нельзя?

Что за токены? зачем?

...

Рейтинг:

0 / 0

19.09.2017, 11:57:06

| Ответить | Цитировать | Написать

Lucene Indexed Stored Tokenized

#39523234

Partisan M

Участник

Сообщения: 1 391

Рейтинг: 0 / 0

токены (как вы выражаетесь) - элементы поля, на которые его можно разбить, чтобы индексировать по ним отдельно. То есть например, поле с текстом можно разбить на слова.
indexed - означает, что поле будет индексироваться для поиска. Не индексируемыми можно объявить поля, по которым не нужен поиск.
stored (хранимое) - означает, что индекс будет храниться на диске. Если поле надо игнорировать, то для него атрибуты indexed и stored можно установить в false. Но поле может быть индексируемым и не хранимым, если индекс создавать динамически для временных данных.

Вместо простого Lucene возможно лучше сразу изучать Solr или ElacticSearch, они внутри себя используют Lucene, но имеют расширенные возможности - например, возможность создания кластера и асинхронное выполнение индексации.

...

Рейтинг:

0 / 0

19.09.2017, 12:42:06

| Ответить | Цитировать | Написать

Lucene Indexed Stored Tokenized

#39523245

questioner

Гость

Partisan M,

Partisan MВместо простого Lucene возможно лучше сразу изучать Solr или ElacticSearch, они внутри себя используют Lucene, но имеют расширенные возможности - например, возможность создания кластера и асинхронное выполнение индексации.

у меня hibernate-search

Просто в нём тяжело разобраться без основ по Lucene

...

Рейтинг:

0 / 0

19.09.2017, 13:02:25

| Ответить | Цитировать | Написать

Lucene Indexed Stored Tokenized

#39523460

questioner

Гость

Partisan M,

а зачем нужно поле в памяти по которому искать нельзя
либо зачем индексируемое поле, которое в памяти не хранится?

Как-то пока непонятно. Зачем может быть надо игнорировать поле? что Вы под этим подразумеваете?

...

Рейтинг:

0 / 0

19.09.2017, 18:42:00

| Ответить | Цитировать | Написать

Lucene Indexed Stored Tokenized

#39523496

Partisan M

Участник

Сообщения: 1 391

Рейтинг: 0 / 0

questionerа зачем нужно поле в памяти по которому искать нельзя
либо зачем индексируемое поле, которое в памяти не хранится?

Если по полю надо искать, то оно объявляется индексируемым. Если не надо искать, то объявляется неиндексируемым (indexed="false").
Обычно индексы Lucene сохраняются в файлах для будущего использования. Для этого поля объявляются хранимыми (stored) - эти поля сохраняются в файлах индексов. Но бывают ещё индексы, не сохраняемые в файлах, а динамически создаваемые в памяти (in-memory index) для временных данных. Поля для них объявляются нехранимыми (stored="false").

...

Рейтинг:

0 / 0

19.09.2017, 21:31:37

| Ответить | Цитировать | Написать

Lucene Indexed Stored Tokenized

#39523527

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Partisan MНо бывают ещё индексы, не сохраняемые в файлах, а динамически создаваемые в памяти (in-memory index) для временных данных. Поля для них объявляются нехранимыми (stored="false").
Кажется stored - это опция хранения документа целиком. Или атрибута. Например
вместе с документом вы храните его ISBN, DateCreation, Size, URL e.t.c.

А само туловище документа. Text. Или Content в силу особенностей (очень дофига мегабайтов)
иногда не кладут в индекс а просто анализируют. Например поисковик проиндексировал
"Войну и Мир" и вы можете искать в нем слова (токены) или словообразующие
атомы (корни слов по алгоритму SnowBall) и вы можете получить ранг документа
в поисковом ответе. Но при этом сам документ вам будет недоступен. Надо будет
дать URL на оригинал чтоб юзер его мог почитать. Нормальная практика ИМХО.

...

Рейтинг:

0 / 0

19.09.2017, 23:02:32

| Ответить | Цитировать | Написать

Lucene Indexed Stored Tokenized

#39523529

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

questionerTokenized - каким-то образом значение поля бьётся на токены. Токены попадают в индекс.

Что за токены? зачем?
Токены это грубо говоря поток words, который попадает в индекс. Но в силу особенностей
поисковых движков в них выгодно толкать не оригинальные слова а очищенные. Например..
из слов полностью выкашиваются нахер предлоги, междометия знаки препинания и
спец-символы. Далее в зависимости от токенизатора (щас навскидку не помню точно
или анализатора) вы можете пойти еще дальше и порезать слова на словообразующие
основы. Полученный поток токенов будет очень компактным и селективным но по смыслу
будет соотвествовать документу. Профит - экономия места в индексе. Может быть в несколько раз.

...

Рейтинг:

0 / 0

19.09.2017, 23:09:21

| Ответить | Цитировать | Написать

Lucene Indexed Stored Tokenized

#39523870

questioner

Гость

Partisan Mquestionerа зачем нужно поле в памяти по которому искать нельзя
либо зачем индексируемое поле, которое в памяти не хранится?

Если по полю надо искать, то оно объявляется индексируемым. Если не надо искать, то объявляется неиндексируемым (indexed="false").
Обычно индексы Lucene сохраняются в файлах для будущего использования. Для этого поля объявляются хранимыми (stored) - эти поля сохраняются в файлах индексов. Но бывают ещё индексы, не сохраняемые в файлах, а динамически создаваемые в памяти (in-memory index) для временных данных. Поля для них объявляются нехранимыми (stored="false").

Приведите пожалуйста примеры когда надо объявлять индекс хранимым, но неиндексируемым, а когда индексируемым, но не хранимым

...

Рейтинг:

0 / 0

20.09.2017, 17:08:59

| Ответить | Цитировать | Написать

Lucene Indexed Stored Tokenized

#39523873

questioner

Гость

maytonquestionerTokenized - каким-то образом значение поля бьётся на токены. Токены попадают в индекс.

Что за токены? зачем?
Токены это грубо говоря поток words, который попадает в индекс. Но в силу особенностей
поисковых движков в них выгодно толкать не оригинальные слова а очищенные. Например..
из слов полностью выкашиваются нахер предлоги, междометия знаки препинания и
спец-символы. Далее в зависимости от токенизатора (щас навскидку не помню точно
или анализатора) вы можете пойти еще дальше и порезать слова на словообразующие
основы. Полученный поток токенов будет очень компактным и селективным но по смыслу
будет соотвествовать документу. Профит - экономия места в индексе. Может быть в несколько раз.

Вот попали в индекс допустим слова без междометий и предлогов.

Эти слова на что-то ссылаются? что происходит когда я ищу по ним? Как их использовать?

...

Рейтинг:

0 / 0

20.09.2017, 17:10:46

| Ответить | Цитировать | Написать

Lucene Indexed Stored Tokenized

#39524002

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Это по большей части зависит от вас. Смотря что вы хотите искать.

...

Рейтинг:

0 / 0

20.09.2017, 19:32:57

| Ответить | Цитировать | Написать

Lucene Indexed Stored Tokenized

#39524029

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Окей. Я проясню на примере двух кейсов.

Кейс 1. У вас есть текст "Война и Мир" в виде текстового файла. И вам интересно найти
сколько раз там Пьер Безухов встречался с Наташей Ростовой. Текст - небольшой.
Несколько мегабайт. Никакие Lucene здесь не нужны вообще. Берете алгоритм
Кнута-Морриса-Пратта (КМП) и спокойно загружаете весь текст в один String
и ищете там. Потом курите найденные вхождения.

Или просто берете Notepad++ :)...

Кейс 2. Вам нужно из советских газет " Правда " узнать сколько раз Ленин и Троцкий
спорили о пользе революции начиная с 1917 года но при этом не читать газеты где упоминается
Сталин . Вот такая причудливая постановка.

Здесь заранее нам нужны оцифрованные копии газет и некая технология которая
позволит искать в первую очередь наиболее релевантные издания газет. Тоесть
нас будет интересовать тот выпуск где наши искомые слова встретились не 1 раз
а много раз и в совокупности. Это все ради того чтобы поберечь собственное
здоровье. Ведь просматривать вручную несколько тысяч результатов будет
как-то грустно.

Что нам нужно? Нам нужны Ленин и Троцкий как keyword. Учитывая что никто
при оцифровке не занимался построением keywords то придется возложить
эту задачу на анализаторы. При этом нам нужен именно Русский анализатор.
Тоесть тот который делает сведение падежей и склонений. Вместо Троцкого,
Троцкому ... нам нужен хештег который просто характеризует это слово (токен).

Нам нужна методология разделения наших данных на Documents. Пускай это будет 1 номер
газеты. Для простоты. Хотя возможен и другой подход.

Нам нужны также хранимые атрибуты для индексирования. Например title="Правда",
publishDate="YYYY-MM-DD"... e.t.c. И собственно body. Или текст газеты.

Далее мы индексируем наш контент по всем правилам Lucene. Добавляем нужные
атрибуты и ищем следующим поисковым запросом:

Код: java

Ленин AND Троцкий AND революция NOT Сталин title:"Правда" publishDate:["1917-01-01" to "1991-01-01"]

В результате мы получим сет документов отранжированных по совокупности искомых атрибутов.
Газеты "Правда" с Лениным и Троцким будут в топе. А газет со Сталиным не будет.

Полученный индекс можно не удалять а хранить и юзать для других поисков.

...

Рейтинг:

0 / 0

20.09.2017, 20:44:03

| Ответить | Цитировать | Написать

11 сообщений из 11, страница 1 из 1

Форумы / Java [игнор отключен] [закрыт для гостей] / Lucene Indexed Stored Tokenized

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=59&msg=39524029&tid=2122580]:	0ms
get settings:	11ms
get forum list:	16ms
check forum access:	3ms
check topic access:	3ms
track hit:	169ms
get topic data:	15ms
get forum data:	3ms
get page messages:	67ms
get tp. blocked users:	1ms
others:	235ms

total:	523ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы