|
|
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
z3r9mayton, Да оно в общем-то понятно в чем отличие. Мне можно и lucene использовать и solr. С индексацией данных мне не совсем ясно, если использовать nutch. А именно как из БД взять источники которые нужно индексировать и как потом передать эти данные в solr/lucene и БД. В сомом solr есть примеры как работать с БД. Т.е. индекс строит solr и хранит у себя. Вообще-то в данной "конфигурации" БД лишнее звено. Т.е. все равно информацию хранить и выдавать будет solr. А так посмотрите на "нативные" средства полнотекстового поиска для своей БД. Почти все крупные БД они имеют. Но solr/lucene гораздо более удобный инструмент. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.08.2015, 06:09 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
z3r9mayton, Да оно в общем-то понятно в чем отличие. Мне можно и lucene использовать и solr. С индексацией данных мне не совсем ясно, если использовать nutch. А именно как из БД взять источники которые нужно индексировать и как потом передать эти данные в solr/lucene и БД. Насколько я понимаю тут проблема в том что трудно сделать JOIN между БД и хранилищем Lucene. Можно изучить язык QueryLang и написать что-то вроде Код: java 1. Где подмножество doc_id мы получаем предварительно из SQL БД. Но я сомневаюсь в успехе этого мероприятия. Возможно Query expr имеет лимоиты. Можно попробовать унаследоваться от Query и доработать его до поддержки JOINS. Можно подумать о кластеризации. Если doc_id бьються на группы то можно создать несколько хранилищ Lucene по поличеству кластерных групп. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.08.2015, 09:16 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
mad_nazgul, то как они (solr/lucene) работают мне понятно. В solr документы передаются через json а с lucene работаешь как с библиотекой. Логика такая: 1) Добавляем адрес документа в сети в БД и получаем его идентификатор. 2) Добавляем в solr/lucene новый документ. Вопрос у меня в том что если работать с Nutch то как в него можно впихнуть эту логику. Я видел пример как сделать импорт в БД или в solr из Nutch . Но я не видел возможность гибридной работы. Ну и остается вопрос как вообще в Nutch передать адреса которые нужно проиндексировать из БД. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.08.2015, 13:55 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
z3r9mad_nazgul, то как они (solr/lucene) работают мне понятно. В solr документы передаются через json а с lucene работаешь как с библиотекой. Логика такая: 1) Добавляем адрес документа в сети в БД и получаем его идентификатор. 2) Добавляем в solr/lucene новый документ. Вопрос у меня в том что если работать с Nutch то как в него можно впихнуть эту логику. Я видел пример как сделать импорт в БД или в solr из Nutch . Но я не видел возможность гибридной работы. Ну и остается вопрос как вообще в Nutch передать адреса которые нужно проиндексировать из БД. Я же говорю. Если работаете с solr, то проще работать только в рамках solr. Всякие "гибридные" схемы выльются в геморрой при реализации. А решение будет зависит от конкретной задачи. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.08.2015, 14:52 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
z3r9, я не могу понять почему Вы так хотите использовать Nucth. С чем это связано? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.08.2015, 15:28 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
mad_nazgulЕсли работаете с solr, то проще работать только в рамках solr. mad_nazgul, нужно в результате поиска получить id записи. А также в БД должна быть запись о документе. rdm, нужно проиндексировать ресурсы которые в БД добавлены. Например в БД добавлен www.sql.ru/forum/ и нужно его проиндексировать. А Nutch хотел бы использовать потому что это готовое решение. Иначе придется что-то свое делать как я и хотел изначально. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.08.2015, 16:28 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
z3r9, посмотрите на эти решения, мне кажется они проще nutch http://www.norconex.com/collectors/ ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.08.2015, 21:32 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
z3r9mad_nazgulЕсли работаете с solr, то проще работать только в рамках solr. mad_nazgul, нужно в результате поиска получить id записи. А также в БД должна быть запись о документе. rdm, нужно проиндексировать ресурсы которые в БД добавлены. Например в БД добавлен www.sql.ru/forum/ и нужно его проиндексировать. А Nutch хотел бы использовать потому что это готовое решение. Иначе придется что-то свое делать как я и хотел изначально. Для solr есть примеры в полном дистрибутиве, для работы с БД. Грубо говоря, вы создаете "табличку" в solr с нужными вам полями и по ним строите индекс. Кроме того эти поля можно сохранять в "БД"-solr. Там же можете сохранять id БД. Схема работы приблизительно такая (считаем, что структур в solr и индексация уже есть): 1) Делаем запрос в solr 2) Получаем список id 3) По списку id делаем запрос в вашу БД В общем "геморрой". Проще отказаться от работы с БД :-) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.08.2015, 20:27 |
|
||
|
|

start [/forum/topic.php?fid=59&gotonew=1&tid=2125019]: |
0ms |
get settings: |
8ms |
get forum list: |
20ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
202ms |
get topic data: |
11ms |
get first new msg: |
5ms |
get forum data: |
2ms |
get page messages: |
63ms |
get tp. blocked users: |
2ms |
| others: | 208ms |
| total: | 527ms |

| 0 / 0 |
