|
|
|
Как категоризировать сайт?
|
|||
|---|---|---|---|
|
#18+
Есть главная страничка сайта, как можна сделать вывод, что страничка - блог, или сайт политической партии или клуб любителей зевать... Ну, можна, составить список частых слов и сделать вывод. Может кто подкажет куда копать? Спасибо ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.11.2009, 15:55:40 |
|
||
|
Как категоризировать сайт?
|
|||
|---|---|---|---|
|
#18+
Можно попробовать сделать частотный фильтр типа байессовского спам-фильтра, и проверять по разным категориям, типа блог-не блог, партия-не партия, новости-не новости. Только обучать нужно долго и нудно. Можно еще домены пробовать анализировать для начала, т.е. все что живет на лайвджорнале будет блогом, и к гадалке не ходи.(или нет? я просто не в курсе) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.11.2009, 16:27:32 |
|
||
|
Как категоризировать сайт?
|
|||
|---|---|---|---|
|
#18+
*studentЕсть главная страничка сайта, как можна сделать вывод, что страничка - блог, или сайт политической партии или клуб любителей зевать... Ну, можна, составить список частых слов и сделать вывод. Может кто подкажет куда копать? Спасибо Одна из классических задач по Data Mining. Почитайте тут: http://habrahabr.ru/blogs/data_mining/ , в одном из постов дана литература, особенно хороша - "Программируем коллективный разум". ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.11.2009, 17:45:08 |
|
||
|
|

start [/forum/topic.php?fid=16&fpage=114&tid=1344118]: |
0ms |
get settings: |
6ms |
get forum list: |
10ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
59ms |
get topic data: |
7ms |
get forum data: |
2ms |
get page messages: |
25ms |
get tp. blocked users: |
1ms |
| others: | 199ms |
| total: | 313ms |

| 0 / 0 |
