|
|
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
Подскажите чем можно проиндексировать html документ. Нужно добавить в БД чтобы иметь возможность поиска. Лучше даже не полный текст документа а ключевые слова. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 13:18 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
z3r9Подскажите чем можно проиндексировать html документ. Нужно добавить в БД чтобы иметь возможность поиска. Лучше даже не полный текст документа а ключевые слова. Нафиг, нафиг БД для таких случаев. Погуглите lucene и solr. Это то что вам нужно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 15:11 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
mad_nazgul, а если нужно привязать к записи в БД? Нужно по тексту документа получить его ID в БД. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 18:10 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
z3r9Подскажите чем можно проиндексировать html документ. Нужно добавить в БД чтобы иметь возможность поиска. Лучше даже не полный текст документа а ключевые слова. В принципе Lucene схавает Html. Только входной поток желательно очистить от теговой разметки. Иначе поиск по font, head может стать более релевантный чем по реальному содержимому. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 18:11 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
При помощи Jsoup можно очистить от HTML разметки. Вопрос в другом. Они разве умеют взаимодействовать с БД? У документа есть какие-то критерии и нужно найти не просто документ по тексту а вместе с этими критериями (например документ искали 10 раз и в его тексте есть ЗАПРОС). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 18:49 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
z3r9, не совсем понятно что вы хотите. Можно в документ Lucene добавить поля doc_id, которое будет ключ к записи в БД. Изменения делать в транзакции для консистентности. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 19:21 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
Т.е. из Lucen'а получать список документов, которые удовлетворяют запросу, извлекать из этого списка id, и уже по этим id строить запрос с критериями в БД. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 19:24 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
Готовое решение есть в Hibernate Search ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 19:24 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
rdmТ.е. из Lucen'а получать список документов, которые удовлетворяют запросу, извлекать из этого списка id, и уже по этим id строить запрос с критериями в БД. наоборот. Полнотекстовый поиск в конце. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 20:15 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
Petro123, как интересно Вы организуете поиск по запросу и с ограничением на id? BitSet? Только это не будет NRT. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 20:42 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
Petro123, Я не топистартер) Для такой формы lucene хватит(фильтрация). Как я понял, у z3r9 данные документа меняются, если этот документ оказывается в выдаче(счетчик и какие-то поля нужно обновить). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 20:55 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
rdmДля такой формы lucene хватит(фильтрация) на этом и порешим)). Кстати, глюк есть в поиске на SQL_RU)) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 20:59 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
rdm, да, нужен изменяемый элемент типа счетчика. Petro123, мне тоже интересно возможно ли выполнить полнотекстовый поиск в конце. И как быть если большое число документов и так искать. Форма поиска такая только нужно со счетчиком. А ну и еще чтобы как в том примере был поиск в нескольких группах (добавление/исключение). Найти в группе (или исключить) groupID: 1, 2, 8. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 21:22 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
z3r9, еще раз. Что изменяется в абстрактном документе, если он попадает в выдачу пользователю? Изменяется только счетчик? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 21:54 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
rdm, да, только счетчик. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 22:33 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
z3r9, мне кажется тут Hibernate Search как раз или документ в индексе lucene + запись в БД ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 22:42 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
rdm, посмотрел документацию по hibernate search интересная штука. Но как туда добавить сторонний html документ. Как я понял там можно только самому получить документ, вырезать теги и добавить его в БД. А можно ли без добавления в БД текста html документа? И еще вопрос по поводу nutch. Ему можно задать из БД где искать html документы. Например проиндексировать sql.ru/blogs/ и www.sql.ru/books/. Ну и сделать добавление в БД и в lucene. Это было бы вообще супер. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 23:34 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
z3r9, 1) Получить HTML/PDF/DOC документ который нужно проиндексировать. Это задача Web crawler. 2)Извлечь из HTML/PDF/DOC документа данные для индексации. Это делает Jsoup(HTML)/ Apache Tika(остальное) 3)Проиндексировать данные полученные на шаге 2. Это задача Lucene/Solr/ElasticSearch и другие. При использовании Hibernate Search Вы сами должны выполнить действие 1 и 2. Затем полученные данные присваиваете полям объекта, который использует нужные аннотации. Все остальное берет на себя Hibernate Search(выполняет шаг 3 и позволяет искать по индексу). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.08.2015, 23:49 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
rdm, я правильно понимаю что hibernate search добавляет то что нужно для поиска в Lucene а остальное в БД. То есть полный текст html документа не будет хранится в БД а только в Lucene? Ну и будет замечательно если кто-то сталкивался и подскажет по nutch. Можно ли его заставить работать с hibernate search/Lucene+БД. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2015, 00:40 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
z3r9, не могу точно сказать, но думаю можно, чтобы часть данных были только в индексе lucene, а часть только в БД. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2015, 01:27 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
z3r9mad_nazgul, а если нужно привязать к записи в БД? Нужно по тексту документа получить его ID в БД. Для вашей задачи БД не нужно, от слова совсем. Solr позволяет создавать "структуру" индекса. Грубо говоря это и будет ваша табличка. По такому индексу можно делать запросы. Если все так хотите "приключений", то некоторых БД есть полнотекстовый поиск. Но лучше этого не делать. Хотя... Никто вам не мешает этого делать. Удачи в "приключении" :-) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2015, 06:03 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
mad_nazgul, solr же использует сервер что для моей задачи не очень удобно, зачем держать несколько серверов. А в чем его преимущества я пока не вижу. Попробую сначала Hibernate Search. Надеюсь там можно будет настроить чтобы текст документа в БД не хранился. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2015, 20:08 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
Нашел сравнение Solr - Elastic. Возможно пригодится автору. http://solr-vs-elasticsearch.com/ ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2015, 20:17 |
|
||
|
Индексация html документов
|
|||
|---|---|---|---|
|
#18+
mayton, Да оно в общем-то понятно в чем отличие. Мне можно и lucene использовать и solr. С индексацией данных мне не совсем ясно, если использовать nutch. А именно как из БД взять источники которые нужно индексировать и как потом передать эти данные в solr/lucene и БД. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2015, 22:08 |
|
||
|
|

start [/forum/topic.php?fid=59&msg=39033558&tid=2125019]: |
0ms |
get settings: |
9ms |
get forum list: |
19ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
216ms |
get topic data: |
13ms |
get forum data: |
3ms |
get page messages: |
82ms |
get tp. blocked users: |
2ms |
| others: | 269ms |
| total: | 621ms |

| 0 / 0 |
