
Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
|
06.11.2009, 15:55:40
|
|||
|---|---|---|---|
|
|||
Как категоризировать сайт? |
|||
|
#18+
Есть главная страничка сайта, как можна сделать вывод, что страничка - блог, или сайт политической партии или клуб любителей зевать... Ну, можна, составить список частых слов и сделать вывод. Может кто подкажет куда копать? Спасибо ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
06.11.2009, 16:27:32
|
|||
|---|---|---|---|
Как категоризировать сайт? |
|||
|
#18+
Можно попробовать сделать частотный фильтр типа байессовского спам-фильтра, и проверять по разным категориям, типа блог-не блог, партия-не партия, новости-не новости. Только обучать нужно долго и нудно. Можно еще домены пробовать анализировать для начала, т.е. все что живет на лайвджорнале будет блогом, и к гадалке не ходи.(или нет? я просто не в курсе) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
06.11.2009, 17:45:08
|
|||
|---|---|---|---|
Как категоризировать сайт? |
|||
|
#18+
*studentЕсть главная страничка сайта, как можна сделать вывод, что страничка - блог, или сайт политической партии или клуб любителей зевать... Ну, можна, составить список частых слов и сделать вывод. Может кто подкажет куда копать? Спасибо Одна из классических задач по Data Mining. Почитайте тут: http://habrahabr.ru/blogs/data_mining/ , в одном из постов дана литература, особенно хороша - "Программируем коллективный разум". ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|

start [/forum/topic.php?fid=16&tablet=1&tid=1344118]: |
0ms |
get settings: |
8ms |
get forum list: |
18ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
174ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
39ms |
get tp. blocked users: |
2ms |
| others: | 211ms |
| total: | 471ms |

| 0 / 0 |
