Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / MySQL [игнор отключен] [закрыт для гостей] / Анализ данных. Поисковая выдача / 5 сообщений из 5, страница 1 из 1
12.11.2013, 21:49:59
    #38462722
mikeles
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Анализ данных. Поисковая выдача
Делаю парсер одного сайта известного с объявлениями.

Входные данные такие:
Задаем "поисковые фразы" которые подставляются ботом в поиск сайта, далее всю выдачу забираем к себе.
И так по каждой фразе.
На данный момент есть "черный список" куда записывает слова(фразы) в объявлении, если встречаются в объявлении, то объявление в игнор. Объявления в игноре больше не парсятся(дубли).
Только таким образом происходит фильтрация, естесвенно попадает много мусора, и все почти объявления вручную обрабатываются.
Есть "избранное" куда попадают объявы понравившееся.

Вообщем задача состоит в том, что нужно максимально классифицировать "Фразы" и понять что нужно пользователю, какое именно объявление "целевое". Какой план:
1. Классифицировать объявления по фразам
2. Если объявление добавляется в "избранное", то выбираем из него ключевики, сопоставляем с классификацией фраз(уточняем критерий выбора)

Вопрос, какие варианты есть по определению релевантности "фраз" к целевому объявлению. Кто сталкивался?
...
Рейтинг: 0 / 0
12.11.2013, 22:22:04
    #38462757
Akina
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Анализ данных. Поисковая выдача
Сходным образом работают спам-фильтры. Почитай теорию... например, алгоритм Байеса - самый, наверное, популярный.
...
Рейтинг: 0 / 0
12.11.2013, 22:24:17
    #38462762
javajdbc
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Анализ данных. Поисковая выдача
mikeles,

пример классификация тесктов по индустрии
с помошью RapidMiner (бесплатная BI програмка)
YouTube Video
...
Рейтинг: 0 / 0
14.11.2013, 03:06:26
    #38464364
mikeles
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Анализ данных. Поисковая выдача
Спасибо, действительно очень близкое решение


http://ru.wikipedia.org/wiki/Байесовская_фильтрация_спама
...
Рейтинг: 0 / 0
14.11.2013, 12:24:17
    #38464813
MasterZiv
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Анализ данных. Поисковая выдача
mikeles,

Мужик, а mySQL тут каким боком?
...
Рейтинг: 0 / 0
Форумы / MySQL [игнор отключен] [закрыт для гостей] / Анализ данных. Поисковая выдача / 5 сообщений из 5, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]