powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Java [игнор отключен] [закрыт для гостей] / Индексация html документов
8 сообщений из 33, страница 2 из 2
Индексация html документов
    #39033606
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
z3r9mayton, Да оно в общем-то понятно в чем отличие. Мне можно и lucene использовать и solr. С индексацией данных мне не совсем ясно, если использовать nutch. А именно как из БД взять источники которые нужно индексировать и как потом передать эти данные в solr/lucene и БД.

В сомом solr есть примеры как работать с БД.
Т.е. индекс строит solr и хранит у себя.
Вообще-то в данной "конфигурации" БД лишнее звено.
Т.е. все равно информацию хранить и выдавать будет solr.

А так посмотрите на "нативные" средства полнотекстового поиска для своей БД.
Почти все крупные БД они имеют.
Но solr/lucene гораздо более удобный инструмент.
...
Рейтинг: 0 / 0
Индексация html документов
    #39033662
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
z3r9mayton, Да оно в общем-то понятно в чем отличие. Мне можно и lucene использовать и solr. С индексацией данных мне не совсем ясно, если использовать nutch. А именно как из БД взять источники которые нужно индексировать и как потом передать эти данные в solr/lucene и БД.
Насколько я понимаю тут проблема в том что трудно сделать JOIN между БД и хранилищем Lucene.
Можно изучить язык QueryLang и написать что-то вроде

Код: java
1.
Лев + Толстой ext:pdf doc_id in (1,2,3,4.......)



Где подмножество doc_id мы получаем предварительно из SQL БД.

Но я сомневаюсь в успехе этого мероприятия. Возможно Query expr имеет лимоиты.

Можно попробовать унаследоваться от Query и доработать его до поддержки JOINS.

Можно подумать о кластеризации. Если doc_id бьються на группы то можно создать несколько
хранилищ Lucene по поличеству кластерных групп.
...
Рейтинг: 0 / 0
Индексация html документов
    #39033956
z3r9
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
mad_nazgul, то как они (solr/lucene) работают мне понятно. В solr документы передаются через json а с lucene работаешь как с библиотекой.

Логика такая:
1) Добавляем адрес документа в сети в БД и получаем его идентификатор.
2) Добавляем в solr/lucene новый документ.

Вопрос у меня в том что если работать с Nutch то как в него можно впихнуть эту логику. Я видел пример как сделать импорт в БД или в solr из Nutch . Но я не видел возможность гибридной работы.

Ну и остается вопрос как вообще в Nutch передать адреса которые нужно проиндексировать из БД.
...
Рейтинг: 0 / 0
Индексация html документов
    #39034031
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
z3r9mad_nazgul, то как они (solr/lucene) работают мне понятно. В solr документы передаются через json а с lucene работаешь как с библиотекой.

Логика такая:
1) Добавляем адрес документа в сети в БД и получаем его идентификатор.
2) Добавляем в solr/lucene новый документ.

Вопрос у меня в том что если работать с Nutch то как в него можно впихнуть эту логику. Я видел пример как сделать импорт в БД или в solr из Nutch . Но я не видел возможность гибридной работы.

Ну и остается вопрос как вообще в Nutch передать адреса которые нужно проиндексировать из БД.

Я же говорю.
Если работаете с solr, то проще работать только в рамках solr.
Всякие "гибридные" схемы выльются в геморрой при реализации.
А решение будет зависит от конкретной задачи.
...
Рейтинг: 0 / 0
Индексация html документов
    #39034068
rdm
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
z3r9, я не могу понять почему Вы так хотите использовать Nucth. С чем это связано?
...
Рейтинг: 0 / 0
Индексация html документов
    #39034115
z3r9
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
mad_nazgulЕсли работаете с solr, то проще работать только в рамках solr.

mad_nazgul, нужно в результате поиска получить id записи. А также в БД должна быть запись о документе.

rdm, нужно проиндексировать ресурсы которые в БД добавлены. Например в БД добавлен www.sql.ru/forum/ и нужно его проиндексировать. А Nutch хотел бы использовать потому что это готовое решение. Иначе придется что-то свое делать как я и хотел изначально.
...
Рейтинг: 0 / 0
Индексация html документов
    #39034255
rdm
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
z3r9, посмотрите на эти решения, мне кажется они проще nutch
http://www.norconex.com/collectors/
...
Рейтинг: 0 / 0
Индексация html документов
    #39034432
mad_nazgul
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
z3r9mad_nazgulЕсли работаете с solr, то проще работать только в рамках solr.

mad_nazgul, нужно в результате поиска получить id записи. А также в БД должна быть запись о документе.

rdm, нужно проиндексировать ресурсы которые в БД добавлены. Например в БД добавлен www.sql.ru/forum/ и нужно его проиндексировать. А Nutch хотел бы использовать потому что это готовое решение. Иначе придется что-то свое делать как я и хотел изначально.
Для solr есть примеры в полном дистрибутиве, для работы с БД.
Грубо говоря, вы создаете "табличку" в solr с нужными вам полями и по ним строите индекс.
Кроме того эти поля можно сохранять в "БД"-solr.
Там же можете сохранять id БД.

Схема работы приблизительно такая (считаем, что структур в solr и индексация уже есть):
1) Делаем запрос в solr
2) Получаем список id
3) По списку id делаем запрос в вашу БД

В общем "геморрой".
Проще отказаться от работы с БД :-)
...
Рейтинг: 0 / 0
8 сообщений из 33, страница 2 из 2
Форумы / Java [игнор отключен] [закрыт для гостей] / Индексация html документов
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]