Индексация html документов / Java

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Java [игнор отключен] [закрыт для гостей] / Индексация html документов

25 сообщений из 33, страница 1 из 2

все

Индексация html документов

#39032290

z3r9

Гость

Подскажите чем можно проиндексировать html документ. Нужно добавить в БД чтобы иметь возможность поиска. Лучше даже не полный текст документа а ключевые слова.

...

Рейтинг:

0 / 0

19.08.2015, 13:18:56

| Ответить | Цитировать | Написать

Индексация html документов

#39032471

mad_nazgul

Участник

Сообщения: 3 848

Рейтинг: 0 / 0

z3r9Подскажите чем можно проиндексировать html документ. Нужно добавить в БД чтобы иметь возможность поиска. Лучше даже не полный текст документа а ключевые слова.

Нафиг, нафиг БД для таких случаев.
Погуглите lucene и solr.
Это то что вам нужно.

...

Рейтинг:

0 / 0

19.08.2015, 15:11:37

| Ответить | Цитировать | Написать

Индексация html документов

#39032689

z3r9

Гость

mad_nazgul, а если нужно привязать к записи в БД? Нужно по тексту документа получить его ID в БД.

...

Рейтинг:

0 / 0

19.08.2015, 18:10:39

| Ответить | Цитировать | Написать

Индексация html документов

#39032690

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

z3r9Подскажите чем можно проиндексировать html документ. Нужно добавить в БД чтобы иметь возможность поиска. Лучше даже не полный текст документа а ключевые слова.
В принципе Lucene схавает Html. Только входной поток желательно очистить от теговой разметки. Иначе
поиск по font, head может стать более релевантный чем по реальному содержимому.

...

Рейтинг:

0 / 0

19.08.2015, 18:11:11

| Ответить | Цитировать | Написать

Индексация html документов

#39032714

z3r9

Гость

При помощи Jsoup можно очистить от HTML разметки. Вопрос в другом. Они разве умеют взаимодействовать с БД? У документа есть какие-то критерии и нужно найти не просто документ по тексту а вместе с этими критериями (например документ искали 10 раз и в его тексте есть ЗАПРОС).

...

Рейтинг:

0 / 0

19.08.2015, 18:49:35

| Ответить | Цитировать | Написать

Индексация html документов

#39032724

rdm

Участник

Сообщения: 727

Рейтинг: 0 / 0

z3r9, не совсем понятно что вы хотите. Можно в документ Lucene добавить поля doc_id, которое будет ключ к записи в БД.
Изменения делать в транзакции для консистентности.

...

Рейтинг:

0 / 0

19.08.2015, 19:21:39

| Ответить | Цитировать | Написать

Индексация html документов

#39032726

rdm

Участник

Сообщения: 727

Рейтинг: 0 / 0

Т.е. из Lucen'а получать список документов, которые удовлетворяют запросу, извлекать из этого списка id, и уже по этим id строить запрос с критериями в БД.

...

Рейтинг:

0 / 0

19.08.2015, 19:24:09

| Ответить | Цитировать | Написать

Индексация html документов

#39032727

rdm

Участник

Сообщения: 727

Рейтинг: 0 / 0

Готовое решение есть в Hibernate Search

...

Рейтинг:

0 / 0

19.08.2015, 19:24:37

| Ответить | Цитировать | Написать

Индексация html документов

#39032741

Petro123

Участник

Откуда: Загрузочный сектор Москвы (AutoPOI.ru)

Сообщения: 39 476

Рейтинг: 0 / 0

rdmТ.е. из Lucen'а получать список документов, которые удовлетворяют запросу, извлекать из этого списка id, и уже по этим id строить запрос с критериями в БД.
наоборот. Полнотекстовый поиск в конце.

...

Рейтинг:

0 / 0

19.08.2015, 20:15:03

| Ответить | Цитировать | Написать

Индексация html документов

#39032746

rdm

Участник

Сообщения: 727

Рейтинг: 0 / 0

Petro123, как интересно Вы организуете поиск по запросу и с ограничением на id? BitSet? Только это не будет NRT.

...

Рейтинг:

0 / 0

19.08.2015, 20:42:40

| Ответить | Цитировать | Написать

Индексация html документов

#39032752

Petro123

Участник

Откуда: Загрузочный сектор Москвы (AutoPOI.ru)

Сообщения: 39 476

Рейтинг: 0 / 0

rdm,
форма поиска такая?
http://www.sql.ru/forum/actualsearch.aspx?bid=38

...

Рейтинг:

0 / 0

19.08.2015, 20:52:06

| Ответить | Цитировать | Написать

Индексация html документов

#39032754

rdm

Участник

Сообщения: 727

Рейтинг: 0 / 0

Petro123, Я не топистартер) Для такой формы lucene хватит(фильтрация). Как я понял, у z3r9 данные документа меняются, если этот документ оказывается в выдаче(счетчик и какие-то поля нужно обновить).

...

Рейтинг:

0 / 0

19.08.2015, 20:55:43

| Ответить | Цитировать | Написать

Индексация html документов

#39032758

Petro123

Участник

Откуда: Загрузочный сектор Москвы (AutoPOI.ru)

Сообщения: 39 476

Рейтинг: 0 / 0

rdmДля такой формы lucene хватит(фильтрация)
на этом и порешим)).
Кстати, глюк есть в поиске на SQL_RU))

...

Рейтинг:

0 / 0

19.08.2015, 20:59:33

| Ответить | Цитировать | Написать

Индексация html документов

#39032763

z3r9

Гость

rdm, да, нужен изменяемый элемент типа счетчика.

Petro123, мне тоже интересно возможно ли выполнить полнотекстовый поиск в конце. И как быть если большое число документов и так искать.

Форма поиска такая только нужно со счетчиком. А ну и еще чтобы как в том примере был поиск в нескольких группах (добавление/исключение). Найти в группе (или исключить) groupID: 1, 2, 8.

...

Рейтинг:

0 / 0

19.08.2015, 21:22:45

| Ответить | Цитировать | Написать

Индексация html документов

#39032770

rdm

Участник

Сообщения: 727

Рейтинг: 0 / 0

z3r9, еще раз. Что изменяется в абстрактном документе, если он попадает в выдачу пользователю? Изменяется только счетчик?

...

Рейтинг:

0 / 0

19.08.2015, 21:54:35

| Ответить | Цитировать | Написать

Индексация html документов

#39032778

z3r9

Гость

rdm, да, только счетчик.

...

Рейтинг:

0 / 0

19.08.2015, 22:33:45

| Ответить | Цитировать | Написать

Индексация html документов

#39032781

rdm

Участник

Сообщения: 727

Рейтинг: 0 / 0

z3r9, мне кажется тут Hibernate Search как раз или документ в индексе lucene + запись в БД

...

Рейтинг:

0 / 0

19.08.2015, 22:42:34

| Ответить | Цитировать | Написать

Индексация html документов

#39032790

z3r9

Гость

rdm, посмотрел документацию по hibernate search интересная штука. Но как туда добавить сторонний html документ. Как я понял там можно только самому получить документ, вырезать теги и добавить его в БД. А можно ли без добавления в БД текста html документа?

И еще вопрос по поводу nutch. Ему можно задать из БД где искать html документы. Например проиндексировать sql.ru/blogs/ и www.sql.ru/books/. Ну и сделать добавление в БД и в lucene. Это было бы вообще супер.

...

Рейтинг:

0 / 0

19.08.2015, 23:34:45

| Ответить | Цитировать | Написать

Индексация html документов

#39032794

rdm

Участник

Сообщения: 727

Рейтинг: 0 / 0

z3r9,
1) Получить HTML/PDF/DOC документ который нужно проиндексировать.
Это задача Web crawler.

2)Извлечь из HTML/PDF/DOC документа данные для индексации.
Это делает Jsoup(HTML)/ Apache Tika(остальное)

3)Проиндексировать данные полученные на шаге 2.
Это задача Lucene/Solr/ElasticSearch и другие.

При использовании Hibernate Search Вы сами должны выполнить действие 1 и 2.
Затем полученные данные присваиваете полям объекта, который использует нужные аннотации.
Все остальное берет на себя Hibernate Search(выполняет шаг 3 и позволяет искать по индексу).

...

Рейтинг:

0 / 0

19.08.2015, 23:49:09

| Ответить | Цитировать | Написать

Индексация html документов

#39032801

z3r9

Гость

rdm, я правильно понимаю что hibernate search добавляет то что нужно для поиска в Lucene а остальное в БД. То есть полный текст html документа не будет хранится в БД а только в Lucene?

Ну и будет замечательно если кто-то сталкивался и подскажет по nutch. Можно ли его заставить работать с hibernate search/Lucene+БД.

...

Рейтинг:

0 / 0

20.08.2015, 00:40:42

| Ответить | Цитировать | Написать

Индексация html документов

#39032805

rdm

Участник

Сообщения: 727

Рейтинг: 0 / 0

z3r9, не могу точно сказать, но думаю можно, чтобы часть данных были только в индексе lucene, а часть только в БД.

...

Рейтинг:

0 / 0

20.08.2015, 01:27:02

| Ответить | Цитировать | Написать

Индексация html документов

#39032819

mad_nazgul

Участник

Сообщения: 3 848

Рейтинг: 0 / 0

z3r9mad_nazgul, а если нужно привязать к записи в БД? Нужно по тексту документа получить его ID в БД.

Для вашей задачи БД не нужно, от слова совсем.
Solr позволяет создавать "структуру" индекса.
Грубо говоря это и будет ваша табличка.
По такому индексу можно делать запросы.

Если все так хотите "приключений", то некоторых БД есть полнотекстовый поиск.
Но лучше этого не делать.
Хотя... Никто вам не мешает этого делать.
Удачи в "приключении" :-)

...

Рейтинг:

0 / 0

20.08.2015, 06:03:32

| Ответить | Цитировать | Написать

Индексация html документов

#39033516

z3r9

Гость

mad_nazgul, solr же использует сервер что для моей задачи не очень удобно, зачем держать несколько серверов. А в чем его преимущества я пока не вижу. Попробую сначала Hibernate Search. Надеюсь там можно будет настроить чтобы текст документа в БД не хранился.

...

Рейтинг:

0 / 0

20.08.2015, 20:08:55

| Ответить | Цитировать | Написать

Индексация html документов

#39033523

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Нашел сравнение Solr - Elastic. Возможно пригодится автору.
http://solr-vs-elasticsearch.com/

...

Рейтинг:

0 / 0

20.08.2015, 20:17:01

| Ответить | Цитировать | Написать

Индексация html документов

#39033558

z3r9

Гость

mayton, Да оно в общем-то понятно в чем отличие. Мне можно и lucene использовать и solr. С индексацией данных мне не совсем ясно, если использовать nutch. А именно как из БД взять источники которые нужно индексировать и как потом передать эти данные в solr/lucene и БД.

...

Рейтинг:

0 / 0

20.08.2015, 22:08:06

| Ответить | Цитировать | Написать

25 сообщений из 33, страница 1 из 2

все

Форумы / Java [игнор отключен] [закрыт для гостей] / Индексация html документов

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=59&msg=39033558&tid=2125019]:	0ms
get settings:	4ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	26ms
get topic data:	8ms
get forum data:	2ms
get page messages:	36ms
get tp. blocked users:	1ms
others:	174ms

total:	271ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы