Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Java [игнор отключен] [закрыт для гостей] / Индексация html документов / 25 сообщений из 33, страница 1 из 2
19.08.2015, 13:18
    #39032290
z3r9
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
Подскажите чем можно проиндексировать html документ. Нужно добавить в БД чтобы иметь возможность поиска. Лучше даже не полный текст документа а ключевые слова.
...
Рейтинг: 0 / 0
19.08.2015, 15:11
    #39032471
mad_nazgul
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
z3r9Подскажите чем можно проиндексировать html документ. Нужно добавить в БД чтобы иметь возможность поиска. Лучше даже не полный текст документа а ключевые слова.

Нафиг, нафиг БД для таких случаев.
Погуглите lucene и solr.
Это то что вам нужно.
...
Рейтинг: 0 / 0
19.08.2015, 18:10
    #39032689
z3r9
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
mad_nazgul, а если нужно привязать к записи в БД? Нужно по тексту документа получить его ID в БД.
...
Рейтинг: 0 / 0
19.08.2015, 18:11
    #39032690
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
z3r9Подскажите чем можно проиндексировать html документ. Нужно добавить в БД чтобы иметь возможность поиска. Лучше даже не полный текст документа а ключевые слова.
В принципе Lucene схавает Html. Только входной поток желательно очистить от теговой разметки. Иначе
поиск по font, head может стать более релевантный чем по реальному содержимому.
...
Рейтинг: 0 / 0
19.08.2015, 18:49
    #39032714
z3r9
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
При помощи Jsoup можно очистить от HTML разметки. Вопрос в другом. Они разве умеют взаимодействовать с БД? У документа есть какие-то критерии и нужно найти не просто документ по тексту а вместе с этими критериями (например документ искали 10 раз и в его тексте есть ЗАПРОС).
...
Рейтинг: 0 / 0
19.08.2015, 19:21
    #39032724
rdm
rdm
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
z3r9, не совсем понятно что вы хотите. Можно в документ Lucene добавить поля doc_id, которое будет ключ к записи в БД.
Изменения делать в транзакции для консистентности.
...
Рейтинг: 0 / 0
19.08.2015, 19:24
    #39032726
rdm
rdm
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
Т.е. из Lucen'а получать список документов, которые удовлетворяют запросу, извлекать из этого списка id, и уже по этим id строить запрос с критериями в БД.
...
Рейтинг: 0 / 0
19.08.2015, 19:24
    #39032727
rdm
rdm
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
Готовое решение есть в Hibernate Search
...
Рейтинг: 0 / 0
19.08.2015, 20:15
    #39032741
Petro123
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
rdmТ.е. из Lucen'а получать список документов, которые удовлетворяют запросу, извлекать из этого списка id, и уже по этим id строить запрос с критериями в БД.
наоборот. Полнотекстовый поиск в конце.
...
Рейтинг: 0 / 0
19.08.2015, 20:42
    #39032746
rdm
rdm
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
Petro123, как интересно Вы организуете поиск по запросу и с ограничением на id? BitSet? Только это не будет NRT.
...
Рейтинг: 0 / 0
19.08.2015, 20:52
    #39032752
Petro123
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
rdm,
форма поиска такая?
http://www.sql.ru/forum/actualsearch.aspx?bid=38
...
Рейтинг: 0 / 0
19.08.2015, 20:55
    #39032754
rdm
rdm
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
Petro123, Я не топистартер) Для такой формы lucene хватит(фильтрация). Как я понял, у z3r9 данные документа меняются, если этот документ оказывается в выдаче(счетчик и какие-то поля нужно обновить).
...
Рейтинг: 0 / 0
19.08.2015, 20:59
    #39032758
Petro123
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
rdmДля такой формы lucene хватит(фильтрация)
на этом и порешим)).
Кстати, глюк есть в поиске на SQL_RU))
...
Рейтинг: 0 / 0
19.08.2015, 21:22
    #39032763
z3r9
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
rdm, да, нужен изменяемый элемент типа счетчика.

Petro123, мне тоже интересно возможно ли выполнить полнотекстовый поиск в конце. И как быть если большое число документов и так искать.

Форма поиска такая только нужно со счетчиком. А ну и еще чтобы как в том примере был поиск в нескольких группах (добавление/исключение). Найти в группе (или исключить) groupID: 1, 2, 8.
...
Рейтинг: 0 / 0
19.08.2015, 21:54
    #39032770
rdm
rdm
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
z3r9, еще раз. Что изменяется в абстрактном документе, если он попадает в выдачу пользователю? Изменяется только счетчик?
...
Рейтинг: 0 / 0
19.08.2015, 22:33
    #39032778
z3r9
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
rdm, да, только счетчик.
...
Рейтинг: 0 / 0
19.08.2015, 22:42
    #39032781
rdm
rdm
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
z3r9, мне кажется тут Hibernate Search как раз или документ в индексе lucene + запись в БД
...
Рейтинг: 0 / 0
19.08.2015, 23:34
    #39032790
z3r9
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
rdm, посмотрел документацию по hibernate search интересная штука. Но как туда добавить сторонний html документ. Как я понял там можно только самому получить документ, вырезать теги и добавить его в БД. А можно ли без добавления в БД текста html документа?

И еще вопрос по поводу nutch. Ему можно задать из БД где искать html документы. Например проиндексировать sql.ru/blogs/ и www.sql.ru/books/. Ну и сделать добавление в БД и в lucene. Это было бы вообще супер.
...
Рейтинг: 0 / 0
19.08.2015, 23:49
    #39032794
rdm
rdm
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
z3r9,
1) Получить HTML/PDF/DOC документ который нужно проиндексировать.
Это задача Web crawler.

2)Извлечь из HTML/PDF/DOC документа данные для индексации.
Это делает Jsoup(HTML)/ Apache Tika(остальное)

3)Проиндексировать данные полученные на шаге 2.
Это задача Lucene/Solr/ElasticSearch и другие.

При использовании Hibernate Search Вы сами должны выполнить действие 1 и 2.
Затем полученные данные присваиваете полям объекта, который использует нужные аннотации.
Все остальное берет на себя Hibernate Search(выполняет шаг 3 и позволяет искать по индексу).
...
Рейтинг: 0 / 0
20.08.2015, 00:40
    #39032801
z3r9
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
rdm, я правильно понимаю что hibernate search добавляет то что нужно для поиска в Lucene а остальное в БД. То есть полный текст html документа не будет хранится в БД а только в Lucene?

Ну и будет замечательно если кто-то сталкивался и подскажет по nutch. Можно ли его заставить работать с hibernate search/Lucene+БД.
...
Рейтинг: 0 / 0
20.08.2015, 01:27
    #39032805
rdm
rdm
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
z3r9, не могу точно сказать, но думаю можно, чтобы часть данных были только в индексе lucene, а часть только в БД.
...
Рейтинг: 0 / 0
20.08.2015, 06:03
    #39032819
mad_nazgul
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
z3r9mad_nazgul, а если нужно привязать к записи в БД? Нужно по тексту документа получить его ID в БД.

Для вашей задачи БД не нужно, от слова совсем.
Solr позволяет создавать "структуру" индекса.
Грубо говоря это и будет ваша табличка.
По такому индексу можно делать запросы.

Если все так хотите "приключений", то некоторых БД есть полнотекстовый поиск.
Но лучше этого не делать.
Хотя... Никто вам не мешает этого делать.
Удачи в "приключении" :-)
...
Рейтинг: 0 / 0
20.08.2015, 20:08
    #39033516
z3r9
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
mad_nazgul, solr же использует сервер что для моей задачи не очень удобно, зачем держать несколько серверов. А в чем его преимущества я пока не вижу. Попробую сначала Hibernate Search. Надеюсь там можно будет настроить чтобы текст документа в БД не хранился.
...
Рейтинг: 0 / 0
20.08.2015, 20:17
    #39033523
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
Нашел сравнение Solr - Elastic. Возможно пригодится автору.
http://solr-vs-elasticsearch.com/
...
Рейтинг: 0 / 0
20.08.2015, 22:08
    #39033558
z3r9
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Индексация html документов
mayton, Да оно в общем-то понятно в чем отличие. Мне можно и lucene использовать и solr. С индексацией данных мне не совсем ясно, если использовать nutch. А именно как из БД взять источники которые нужно индексировать и как потом передать эти данные в solr/lucene и БД.
...
Рейтинг: 0 / 0
Форумы / Java [игнор отключен] [закрыт для гостей] / Индексация html документов / 25 сообщений из 33, страница 1 из 2
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]