
Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
|
12.11.2013, 21:49:59
|
|||
|---|---|---|---|
|
|||
Анализ данных. Поисковая выдача |
|||
|
#18+
Делаю парсер одного сайта известного с объявлениями. Входные данные такие: Задаем "поисковые фразы" которые подставляются ботом в поиск сайта, далее всю выдачу забираем к себе. И так по каждой фразе. На данный момент есть "черный список" куда записывает слова(фразы) в объявлении, если встречаются в объявлении, то объявление в игнор. Объявления в игноре больше не парсятся(дубли). Только таким образом происходит фильтрация, естесвенно попадает много мусора, и все почти объявления вручную обрабатываются. Есть "избранное" куда попадают объявы понравившееся. Вообщем задача состоит в том, что нужно максимально классифицировать "Фразы" и понять что нужно пользователю, какое именно объявление "целевое". Какой план: 1. Классифицировать объявления по фразам 2. Если объявление добавляется в "избранное", то выбираем из него ключевики, сопоставляем с классификацией фраз(уточняем критерий выбора) Вопрос, какие варианты есть по определению релевантности "фраз" к целевому объявлению. Кто сталкивался? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
12.11.2013, 22:22:04
|
|||
|---|---|---|---|
Анализ данных. Поисковая выдача |
|||
|
#18+
Сходным образом работают спам-фильтры. Почитай теорию... например, алгоритм Байеса - самый, наверное, популярный. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
12.11.2013, 22:24:17
|
|||
|---|---|---|---|
Анализ данных. Поисковая выдача |
|||
|
#18+
mikeles, пример классификация тесктов по индустрии с помошью RapidMiner (бесплатная BI програмка) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
14.11.2013, 03:06:26
|
|||
|---|---|---|---|
|
|||
Анализ данных. Поисковая выдача |
|||
|
#18+
Спасибо, действительно очень близкое решение http://ru.wikipedia.org/wiki/Байесовская_фильтрация_спама ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|

start [/forum/topic.php?fid=47&tablet=1&tid=1835722]: |
0ms |
get settings: |
6ms |
get forum list: |
15ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
33ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
27ms |
get tp. blocked users: |
1ms |
| others: | 196ms |
| total: | 294ms |

| 0 / 0 |
