Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Примитивный поисковик / 12 сообщений из 12, страница 1 из 1
12.01.2010, 17:49:55
    #36405990
pszMyNick
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Примитивный поисковик
Встала задача написать простенькую программу, которая по обучающей выборке сможет выдавать ответ к какому классу относится запрос пользователя при помощи статистических методов определения вероятностей.
И возникло пару вопросов в связи с этим:
1. как правильно разобрать обучающую выборку?
2. Как выделить наиболее подходящий вариант( ранжирование )?

Если у кого-нибудь есть ссылка на нужную статью или систему с открытыми исходниками в которой легко разобраться - буду благодарен.

---
Hасколько пpоще была бы жизнь, если бы она была в исходниках...
...
Рейтинг: 0 / 0
12.01.2010, 18:57:45
    #36406119
Mozok
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Примитивный поисковик
pszMyNick,

насколько я понял, Вас интересует Machine learning с последующим Data mining . Есть даже специльно разработанный для этого язык , поддерживаемый целой группой под названием DMG . А вот с исходникаи будут проблемы, это все больше научный софт - он либо закрытый, либо непонятный никому, кроме создателя :). Дома посмотрю, может, что осталось из универского.
...
Рейтинг: 0 / 0
12.01.2010, 19:22:25
    #36406150
pszMyNick
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Примитивный поисковик
Mozok,
Это тестовое задание и эксплуатироваться никогда не будет. Не нужно учитывать ни стемминг, ни морфологию. Хотелось бы хотя бы вдвух словах на каких словах из строки обучающей выборки надо делать упор(или хешировать части строки), как разбирать запрос и как выдавать ответ исходя из вероятностей если ничего не совпало?
Да и если можно статьи на русском, а то на английском это затянется надолго... =)
...
Рейтинг: 0 / 0
12.01.2010, 21:26:53
    #36406340
Mozok
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Примитивный поисковик
pszMyNick,

это насчет разбора строк: Синтаксический анализ . А насчет обучения: все зависит от конкретной реализации. Допустим, для той же Элизы можно задать какой-то список тем, на который она должна знать ответы. И вообще, это все очень похоже на прохождение теста Тьюринга :).
...
Рейтинг: 0 / 0
12.01.2010, 21:42:35
    #36406353
Mozok
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Примитивный поисковик
pszMyNick,

да, кстати. У меня есть подруга в МГУ, она писала разговорного бота с базовым разбором строк, но код этот не совсем понятный. Я на всякий случай случай еговыложил, вдруг интересно будет. Помимо прочего там используется набор ХМЛ-файлов для типичных ответов.
оффтопP.S. Её дословная цитата: "но вааще если у чувака русский бот - подари ему пистолет. Или словарь Зализняка. Но первое эффективнее" .
...
Рейтинг: 0 / 0
12.01.2010, 21:47:13
    #36406361
Mozok
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Примитивный поисковик
pszMyNick,

блин, файл не вкладывается. Если надо, могу на мыло кинуть.
...
Рейтинг: 0 / 0
12.01.2010, 22:53:05
    #36406440
С0ВЕСТЬ
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Примитивный поисковик
Тут нужно вспоминать университетский курс по нейро-технологиям.
Жуть.
...
Рейтинг: 0 / 0
13.01.2010, 10:35:43
    #36406872
pszMyNick
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Примитивный поисковик
Я, наверное, сам не очень разобрался в том, что от меня требуется. Теперь это больше напоминает задачу классификации. Есть обучающая выборка, в ней строки вида <номер класса, признаки класса>. Для одного класса указано допустим сто таких строк.
И после такого обучения, необходимо вводимую пользователем фразу отнести к какому-либо классу.
Сейчас для меня представляется сложным приплести сюда методы оценки вероятностей. Планирую для каждого слова подсчитать кол-во вхождений во всех признаках, и слово из запроса искать в этом новом файле, где кол-во вхождений больше, тот и рулит. Надо это как-то по уму, а вот как не знаю :(
...
Рейтинг: 0 / 0
13.01.2010, 11:03:03
    #36406932
Mozok
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Примитивный поисковик
pszMyNick,

оно? . Если да, советовал бы почитать английскую версию , она гораздо более полная. Ну и плюс есть про оценку вероятностей , тоже, правда, на английском (страницы на русском просто нет).
...
Рейтинг: 0 / 0
13.01.2010, 11:16:37
    #36406958
pszMyNick
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Примитивный поисковик
Mozok,
Первую статью читал, а вот за вторую спасибо. Она кстати есть на русском =)))
Мне как раз хотелось бы чтобы мне объяснили, как это реализовать - либо кодом, либо на пальцах. Просто вникать во все тонкости и пытаться придумать свою реализацию совсем нет времени. Всё дело в нехватке времени...
...
Рейтинг: 0 / 0
15.01.2010, 06:32:02
    #36411267
Владимир Затуливетер
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Примитивный поисковик
может это поможет? Теорема Байеса
...
Рейтинг: 0 / 0
15.01.2010, 06:36:08
    #36411271
Владимир Затуливетер
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Примитивный поисковик
Чтобы не писать свое, можете использовать бизнес аналитику ms sql server
Упрощенный алгоритм Байеса
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Примитивный поисковик / 12 сообщений из 12, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]