Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Java [игнор отключен] [закрыт для гостей] / Java и поиск по сайтам / 7 сообщений из 7, страница 1 из 1
25.11.2014, 11:28
    #38815886
23r9
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java и поиск по сайтам
Нужен поисковик по сайтам с хранением данных в БД oracle и API для поиска.Чтобы можно было во первых осуществлять поиск через свою админку и работать со страницами сайтов. То есть когда паук проиндексирует добавленный сайт, нужно со страницами сайта выполнить определенные действия. Например исключить страницу из поиска. По сути хранение информации должно быть в нормальной форме.
...
Рейтинг: 0 / 0
25.11.2014, 11:35
    #38815890
rema174
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java и поиск по сайтам
ok
...
Рейтинг: 0 / 0
25.11.2014, 11:41
    #38815898
Blazkowicz
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java и поиск по сайтам
23r9,

Oracle Text
Lucene
...
Рейтинг: 0 / 0
25.11.2014, 13:18
    #38816022
23r9
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java и поиск по сайтам
А у Lucene ведь краулера нету? То есть чтобы он обошел добавленные сайты (в соответствии с файлом robots.txt) и потом можно было сохранить в БД в нормальную форму.
...
Рейтинг: 0 / 0
25.11.2014, 13:21
    #38816028
Blazkowicz
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java и поиск по сайтам
23r9А у Lucene ведь краулера нету?
Сформулируйте вопрос.

23r9То есть чтобы он обошел добавленные сайты (в соответствии с файлом robots.txt) и потом можно было сохранить в БД в нормальную форму.
Что именно сохранить-то? Почему обязательно в нормальную форму? Полнотектосвый поиск потом тоже по нормальной форме делать?
...
Рейтинг: 0 / 0
25.11.2014, 14:03
    #38816095
23r9
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java и поиск по сайтам
Смысл вообще в чём, есть много сайтов и нужно автоматизировать работу по размещению рекламы на них.
1. Нужно проиндексировать сайты в соответствии с robots.txt
2. Нужно чтобы домены и страницы хранились в БД в нормальной форме.

site
siteid
host

page
pageid
siteid
title
...

Где будет хранится текст не имеет значения. Мне нужно найти ID страниц по запросу для размещения на них рекламной информации.
...
Рейтинг: 0 / 0
29.11.2014, 20:58
    #38820396
23r9
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Java и поиск по сайтам
Blazkowicz , в общем если кто знает кравлер который сохраняет хотя бы страницы в нормальной форме напишите.
...
Рейтинг: 0 / 0
Форумы / Java [игнор отключен] [закрыт для гостей] / Java и поиск по сайтам / 7 сообщений из 7, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]