|
|
|
Примитивный поисковик
|
|||
|---|---|---|---|
|
#18+
Встала задача написать простенькую программу, которая по обучающей выборке сможет выдавать ответ к какому классу относится запрос пользователя при помощи статистических методов определения вероятностей. И возникло пару вопросов в связи с этим: 1. как правильно разобрать обучающую выборку? 2. Как выделить наиболее подходящий вариант( ранжирование )? Если у кого-нибудь есть ссылка на нужную статью или систему с открытыми исходниками в которой легко разобраться - буду благодарен. --- Hасколько пpоще была бы жизнь, если бы она была в исходниках... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2010, 17:49:55 |
|
||
|
Примитивный поисковик
|
|||
|---|---|---|---|
|
#18+
pszMyNick, насколько я понял, Вас интересует Machine learning с последующим Data mining . Есть даже специльно разработанный для этого язык , поддерживаемый целой группой под названием DMG . А вот с исходникаи будут проблемы, это все больше научный софт - он либо закрытый, либо непонятный никому, кроме создателя :). Дома посмотрю, может, что осталось из универского. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2010, 18:57:45 |
|
||
|
Примитивный поисковик
|
|||
|---|---|---|---|
|
#18+
Mozok, Это тестовое задание и эксплуатироваться никогда не будет. Не нужно учитывать ни стемминг, ни морфологию. Хотелось бы хотя бы вдвух словах на каких словах из строки обучающей выборки надо делать упор(или хешировать части строки), как разбирать запрос и как выдавать ответ исходя из вероятностей если ничего не совпало? Да и если можно статьи на русском, а то на английском это затянется надолго... =) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2010, 19:22:25 |
|
||
|
Примитивный поисковик
|
|||
|---|---|---|---|
|
#18+
pszMyNick, это насчет разбора строк: Синтаксический анализ . А насчет обучения: все зависит от конкретной реализации. Допустим, для той же Элизы можно задать какой-то список тем, на который она должна знать ответы. И вообще, это все очень похоже на прохождение теста Тьюринга :). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2010, 21:26:53 |
|
||
|
Примитивный поисковик
|
|||
|---|---|---|---|
|
#18+
pszMyNick, да, кстати. У меня есть подруга в МГУ, она писала разговорного бота с базовым разбором строк, но код этот не совсем понятный. Я на всякий случай случай еговыложил, вдруг интересно будет. Помимо прочего там используется набор ХМЛ-файлов для типичных ответов. оффтопP.S. Её дословная цитата: "но вааще если у чувака русский бот - подари ему пистолет. Или словарь Зализняка. Но первое эффективнее" . ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2010, 21:42:35 |
|
||
|
Примитивный поисковик
|
|||
|---|---|---|---|
|
#18+
pszMyNick, блин, файл не вкладывается. Если надо, могу на мыло кинуть. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2010, 21:47:13 |
|
||
|
Примитивный поисковик
|
|||
|---|---|---|---|
|
#18+
Тут нужно вспоминать университетский курс по нейро-технологиям. Жуть. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.01.2010, 22:53:05 |
|
||
|
Примитивный поисковик
|
|||
|---|---|---|---|
|
#18+
Я, наверное, сам не очень разобрался в том, что от меня требуется. Теперь это больше напоминает задачу классификации. Есть обучающая выборка, в ней строки вида <номер класса, признаки класса>. Для одного класса указано допустим сто таких строк. И после такого обучения, необходимо вводимую пользователем фразу отнести к какому-либо классу. Сейчас для меня представляется сложным приплести сюда методы оценки вероятностей. Планирую для каждого слова подсчитать кол-во вхождений во всех признаках, и слово из запроса искать в этом новом файле, где кол-во вхождений больше, тот и рулит. Надо это как-то по уму, а вот как не знаю :( ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.01.2010, 10:35:43 |
|
||
|
Примитивный поисковик
|
|||
|---|---|---|---|
|
#18+
pszMyNick, оно? . Если да, советовал бы почитать английскую версию , она гораздо более полная. Ну и плюс есть про оценку вероятностей , тоже, правда, на английском (страницы на русском просто нет). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.01.2010, 11:03:03 |
|
||
|
Примитивный поисковик
|
|||
|---|---|---|---|
|
#18+
Mozok, Первую статью читал, а вот за вторую спасибо. Она кстати есть на русском =))) Мне как раз хотелось бы чтобы мне объяснили, как это реализовать - либо кодом, либо на пальцах. Просто вникать во все тонкости и пытаться придумать свою реализацию совсем нет времени. Всё дело в нехватке времени... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.01.2010, 11:16:37 |
|
||
|
Примитивный поисковик
|
|||
|---|---|---|---|
|
#18+
может это поможет? Теорема Байеса ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.01.2010, 06:32:02 |
|
||
|
Примитивный поисковик
|
|||
|---|---|---|---|
|
#18+
Чтобы не писать свое, можете использовать бизнес аналитику ms sql server Упрощенный алгоритм Байеса ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.01.2010, 06:36:08 |
|
||
|
|

start [/forum/topic.php?fid=16&fpage=110&tid=1343955]: |
0ms |
get settings: |
10ms |
get forum list: |
17ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
70ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
49ms |
get tp. blocked users: |
1ms |
| others: | 242ms |
| total: | 409ms |

| 0 / 0 |
