|
|
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
Всем доброго дня! Работаю над модулем, который ищет и исправляет ошибки в написании рускоязычных слов. Для корректной работы модуля его нужно обучить на тестовых данных. Данные необходимы в формате: - слово, написанное с ошибой - корректное написание данного слова - частота данной ошибки (опционально) К сожалению, базу ошибок и опечаток в подобном формате мне найти не удалось. Если кто-нибудь может поделиться ссылкой на такую базу, буду премного благодарен. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.12.2013, 13:55 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
DontAskMe, правильных слов --100т сочетаний букв ----миллионы стон стол стул здесь опечатка или все норма только человек угадает какое слово надо, по контексту и то не всегда ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.12.2013, 14:02 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
ПЕНСИОНЕРКА, Исправление ошибок, конечно, будет идти по контесту. Используется Language model + Error model. Однако нужно машину обучить, что скажем перепутать "а" с "о" более вероятно, чем перепутать "а" с "х". Для этого нужны примеры __реальных__ ошибок. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.12.2013, 15:21 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
Форум почитай - вагон ошибок найдешь :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.12.2013, 15:27 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
IgorNG, Думаю, нужна статистика на несколько миллионов случаев. Желательно, в удобно-читаемом для машины виде. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.12.2013, 15:33 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
DontAskMe, обычный словарь правильных слов найти легко далее берешь и начинаешь тянуть, как уже сказали, с того же форума текст все слова которые есть в словаре выкидываешь, т.е. они правильные оставшиеся либо отсутствуют в словаре (что решается его расширением), либо с ошибкой вот и получишь словарь статистики от разных людей, за разное время и огромное количество повторений ;) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.12.2013, 15:54 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
TJ001, Здесь есть много проблем. Если слово написанно в контексте ошибочно, но в словаре присутствует ("в течении", вместо "в течение", например), мы его таким образом не поймаем. Если мы нашли слово с ошибкой - как узнать корректное его исправление? Проблемы по большому счету решаются, но способ трудоемкий. Наверняка есть где-то уже готовая база. Корпусов русского языка, например, полно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.12.2013, 15:59 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
"в течении" и "в течение" - две правильные формы. Непонятно, почему вы считаете одну из них ошибкой. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.12.2013, 17:02 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.12.2013, 19:02 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
Basil A. Sidorov, Потому, что в предложение "в течении последнего времени" "в течении" написано с ошибкой. Я как раз и говорю о так называемых real-word errors - в результате совершения ошибки мы получаем словарное слово. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.12.2013, 19:18 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
DontAskMeК сожалению, базу ошибок и опечаток в подобном формате мне найти не удалось.А словарь "правильных" слов у вас есть? Тогда ошибочные нагенерите сами. Типичные ошибки - набор соседней по клавиатуре буквы вместо нужной, перестановка двух букв местами, пропуск буквы, лишняя буква. Более редкие - отдельные буквы не в той раскладке, задваивание не той буквы. А еще в одном слове может быть более одной ошибки. Правда, таких слов будут не миллионы, а многие миллиарды. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.12.2013, 19:38 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
DontAskMeBasil A. Sidorov, Потому, что в предложение "в течении последнего времени" "в течении" написано с ошибкой. Я как раз и говорю о так называемых real-word errors - в результате совершения ошибки мы получаем словарное слово.А "в течении реки времени" будет правильно. Так что одним словарем тут не обойдешься... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.12.2013, 19:39 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
Usman, Спасибо за ссылку, однако представленные там методы имеют ряд недостатков. В частности, я пытался использовать метрику Дамерау-Левешнтейна. Получается, например, следующее (на примере наименования улицы): для слова "совецкая" вариант "сопецкая" подходит больше, чем "советская", что очевидно неправильно. Для исправления ситуации необходимо обучить алгоритм весам замены символов и немного обобщить алгоритм. Для этого мне нужна база. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.12.2013, 21:57 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
... Чтоб дорога прямая Привела их к рублю, Я им руки ломаю, Я им ноги рублю... осталось только научить машину отличать слово "рублю" от слова "рублю" ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.12.2013, 00:07 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
Задача несложная, программизма не хватает. В Word такой же функционал работает, ну, какие проблемы, даже пример есть... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.12.2013, 00:15 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
Torre, Кто говорит о сложности задачи? Я лишь прошу линк на базу ошибок/опечаток. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.12.2013, 01:03 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
Torre, Вообще, по данной задаче ни одну PhD диссертацию защитили. А так, конечно, не сложная. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.12.2013, 01:06 |
|
||
|
База ошибок и опечаток при написании русских слов
|
|||
|---|---|---|---|
|
#18+
DontAskMe Я лишь прошу линк на базу ошибок/опечаток.Зачем он тебе? Ошибок больше, чем морфем, мысли рационально. Проверяй введенные слова на соответствие морфемам, этого достаточно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.12.2013, 01:50 |
|
||
|
|

start [/forum/topic.php?fid=16&msg=38494800&tid=1341546]: |
0ms |
get settings: |
9ms |
get forum list: |
14ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
196ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
63ms |
get tp. blocked users: |
2ms |
| others: | 247ms |
| total: | 548ms |

| 0 / 0 |
