Индексация html документов / Java

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Java [игнор отключен] [закрыт для гостей] / Индексация html документов

8 сообщений из 33, страница 2 из 2

все

Индексация html документов

#39033606

mad_nazgul

Участник

Сообщения: 3 848

Рейтинг: 0 / 0

z3r9mayton, Да оно в общем-то понятно в чем отличие. Мне можно и lucene использовать и solr. С индексацией данных мне не совсем ясно, если использовать nutch. А именно как из БД взять источники которые нужно индексировать и как потом передать эти данные в solr/lucene и БД.

В сомом solr есть примеры как работать с БД.
Т.е. индекс строит solr и хранит у себя.
Вообще-то в данной "конфигурации" БД лишнее звено.
Т.е. все равно информацию хранить и выдавать будет solr.

А так посмотрите на "нативные" средства полнотекстового поиска для своей БД.
Почти все крупные БД они имеют.
Но solr/lucene гораздо более удобный инструмент.

...

Рейтинг:

0 / 0

21.08.2015, 06:09:46

| Ответить | Цитировать | Написать

Индексация html документов

#39033662

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Код: java

Лев + Толстой ext:pdf doc_id in (1,2,3,4.......)

Где подмножество doc_id мы получаем предварительно из SQL БД.

Но я сомневаюсь в успехе этого мероприятия. Возможно Query expr имеет лимоиты.

Можно попробовать унаследоваться от Query и доработать его до поддержки JOINS.

Можно подумать о кластеризации. Если doc_id бьються на группы то можно создать несколько
хранилищ Lucene по поличеству кластерных групп.

...

Рейтинг:

0 / 0

21.08.2015, 09:16:14

| Ответить | Цитировать | Написать

Индексация html документов

#39033956

z3r9

Гость

mad_nazgul, то как они (solr/lucene) работают мне понятно. В solr документы передаются через json а с lucene работаешь как с библиотекой.

Логика такая:
1) Добавляем адрес документа в сети в БД и получаем его идентификатор.
2) Добавляем в solr/lucene новый документ.

Вопрос у меня в том что если работать с Nutch то как в него можно впихнуть эту логику. Я видел пример как сделать импорт в БД или в solr из Nutch . Но я не видел возможность гибридной работы.

Ну и остается вопрос как вообще в Nutch передать адреса которые нужно проиндексировать из БД.

...

Рейтинг:

0 / 0

21.08.2015, 13:55:42

| Ответить | Цитировать | Написать

Индексация html документов

#39034031

mad_nazgul

Участник

Сообщения: 3 848

Рейтинг: 0 / 0

z3r9mad_nazgul, то как они (solr/lucene) работают мне понятно. В solr документы передаются через json а с lucene работаешь как с библиотекой.

Логика такая:
1) Добавляем адрес документа в сети в БД и получаем его идентификатор.
2) Добавляем в solr/lucene новый документ.

Вопрос у меня в том что если работать с Nutch то как в него можно впихнуть эту логику. Я видел пример как сделать импорт в БД или в solr из Nutch . Но я не видел возможность гибридной работы.

Ну и остается вопрос как вообще в Nutch передать адреса которые нужно проиндексировать из БД.

Я же говорю.
Если работаете с solr, то проще работать только в рамках solr.
Всякие "гибридные" схемы выльются в геморрой при реализации.
А решение будет зависит от конкретной задачи.

...

Рейтинг:

0 / 0

21.08.2015, 14:52:32

| Ответить | Цитировать | Написать

Индексация html документов

#39034068

rdm

Участник

Сообщения: 727

Рейтинг: 0 / 0

z3r9, я не могу понять почему Вы так хотите использовать Nucth. С чем это связано?

...

Рейтинг:

0 / 0

21.08.2015, 15:28:22

| Ответить | Цитировать | Написать

Индексация html документов

#39034115

z3r9

Гость

mad_nazgulЕсли работаете с solr, то проще работать только в рамках solr.

mad_nazgul, нужно в результате поиска получить id записи. А также в БД должна быть запись о документе.

rdm, нужно проиндексировать ресурсы которые в БД добавлены. Например в БД добавлен www.sql.ru/forum/ и нужно его проиндексировать. А Nutch хотел бы использовать потому что это готовое решение. Иначе придется что-то свое делать как я и хотел изначально.

...

Рейтинг:

0 / 0

21.08.2015, 16:28:18

| Ответить | Цитировать | Написать

Индексация html документов

#39034255

rdm

Участник

Сообщения: 727

Рейтинг: 0 / 0

z3r9, посмотрите на эти решения, мне кажется они проще nutch
http://www.norconex.com/collectors/

...

Рейтинг:

0 / 0

21.08.2015, 21:32:22

| Ответить | Цитировать | Написать

Индексация html документов

#39034432

mad_nazgul

Участник

Сообщения: 3 848

Рейтинг: 0 / 0

z3r9mad_nazgulЕсли работаете с solr, то проще работать только в рамках solr.

mad_nazgul, нужно в результате поиска получить id записи. А также в БД должна быть запись о документе.

rdm, нужно проиндексировать ресурсы которые в БД добавлены. Например в БД добавлен www.sql.ru/forum/ и нужно его проиндексировать. А Nutch хотел бы использовать потому что это готовое решение. Иначе придется что-то свое делать как я и хотел изначально.
Для solr есть примеры в полном дистрибутиве, для работы с БД.
Грубо говоря, вы создаете "табличку" в solr с нужными вам полями и по ним строите индекс.
Кроме того эти поля можно сохранять в "БД"-solr.
Там же можете сохранять id БД.

Схема работы приблизительно такая (считаем, что структур в solr и индексация уже есть):
1) Делаем запрос в solr
2) Получаем список id
3) По списку id делаем запрос в вашу БД

В общем "геморрой".
Проще отказаться от работы с БД :-)

...

Рейтинг:

0 / 0

22.08.2015, 20:27:17

| Ответить | Цитировать | Написать

8 сообщений из 33, страница 2 из 2

все

Форумы / Java [игнор отключен] [закрыт для гостей] / Индексация html документов

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=59&msg=39033662&tid=2125019]:	0ms
get settings:	10ms
get forum list:	19ms
check forum access:	4ms
check topic access:	4ms
track hit:	52ms
get topic data:	12ms
get forum data:	3ms
get page messages:	66ms
get tp. blocked users:	2ms
others:	232ms

total:	404ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы