|
|
|
Java и поиск по сайтам
|
|||
|---|---|---|---|
|
#18+
Нужен поисковик по сайтам с хранением данных в БД oracle и API для поиска.Чтобы можно было во первых осуществлять поиск через свою админку и работать со страницами сайтов. То есть когда паук проиндексирует добавленный сайт, нужно со страницами сайта выполнить определенные действия. Например исключить страницу из поиска. По сути хранение информации должно быть в нормальной форме. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.11.2014, 11:28 |
|
||
|
Java и поиск по сайтам
|
|||
|---|---|---|---|
|
#18+
23r9, Oracle Text Lucene ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.11.2014, 11:41 |
|
||
|
Java и поиск по сайтам
|
|||
|---|---|---|---|
|
#18+
А у Lucene ведь краулера нету? То есть чтобы он обошел добавленные сайты (в соответствии с файлом robots.txt) и потом можно было сохранить в БД в нормальную форму. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.11.2014, 13:18 |
|
||
|
Java и поиск по сайтам
|
|||
|---|---|---|---|
|
#18+
23r9А у Lucene ведь краулера нету? Сформулируйте вопрос. 23r9То есть чтобы он обошел добавленные сайты (в соответствии с файлом robots.txt) и потом можно было сохранить в БД в нормальную форму. Что именно сохранить-то? Почему обязательно в нормальную форму? Полнотектосвый поиск потом тоже по нормальной форме делать? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.11.2014, 13:21 |
|
||
|
Java и поиск по сайтам
|
|||
|---|---|---|---|
|
#18+
Смысл вообще в чём, есть много сайтов и нужно автоматизировать работу по размещению рекламы на них. 1. Нужно проиндексировать сайты в соответствии с robots.txt 2. Нужно чтобы домены и страницы хранились в БД в нормальной форме. site siteid host page pageid siteid title ... Где будет хранится текст не имеет значения. Мне нужно найти ID страниц по запросу для размещения на них рекламной информации. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.11.2014, 14:03 |
|
||
|
|

start [/forum/topic.php?fid=59&fpage=149&tid=2126168]: |
0ms |
get settings: |
10ms |
get forum list: |
14ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
67ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
40ms |
get tp. blocked users: |
1ms |
| others: | 240ms |
| total: | 390ms |

| 0 / 0 |
