|
|
|
NLP - Парсинг (Earley) предложений с большим количеством ошибок
|
|||
|---|---|---|---|
|
#18+
Задача заключается в том, что нужно распарсить предложение, которое содержит кучу ошибок и сокращений + ошибки в слитно-раздельном написании (представте себе лекции студента). Есть готовая реализация парсера и грамматика. На предложениях, которые написаны без ошибок, все отлично отрабатывает. А вот как бороться с ошибками не совсем понятно. Я так понимаю, есть стандартный подход к исправлению ошибок: error model (скажем, расстояние Дамерау-Левенштейна) + language model (скажем, n-gram'ы с каким-нибудь backoff-ом). В моем случае language model построить сложно, а где взять готовую тоже не ясно в силу специфики предметной области текстов. Вопрос: есть ли какие-нибудь алгоритмы, позволяющие исправлять ошибки по ходу парсинга? Какие алгоритмы эффективно применять к данной задаче? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.09.2012, 16:42 |
|
||
|
NLP - Парсинг (Earley) предложений с большим количеством ошибок
|
|||
|---|---|---|---|
|
#18+
DontAskMe, Составить словарь. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.09.2012, 16:45 |
|
||
|
NLP - Парсинг (Earley) предложений с большим количеством ошибок
|
|||
|---|---|---|---|
|
#18+
Khod, Словарь всех корректных слов есть. Что делать дальше? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.09.2012, 17:29 |
|
||
|
NLP - Парсинг (Earley) предложений с большим количеством ошибок
|
|||
|---|---|---|---|
|
#18+
... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.09.2012, 18:19 |
|
||
|
NLP - Парсинг (Earley) предложений с большим количеством ошибок
|
|||
|---|---|---|---|
|
#18+
Вы случайно омонимию своим парсером не снимаете? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.09.2012, 18:28 |
|
||
|
|

start [/forum/topic.php?fid=16&msg=37953001&tid=1342135]: |
0ms |
get settings: |
9ms |
get forum list: |
16ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
77ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
46ms |
get tp. blocked users: |
1ms |
| others: | 243ms |
| total: | 410ms |

| 0 / 0 |
