|
|
|
Apache Lucene генерация возможных словоформ
|
|||
|---|---|---|---|
|
#18+
Есть задача из нормальной формы слова сгенерировать всевозможные варианты словоформ, подскажите, можно ли такое провернуть используя Apache Lucene? Нужно примерно тоже самое, что делается в этом вопросе с помощью hunspell, но мне нужно, чтобы это можно было сделать чисто на java/ На текущий момент для русского языка нагуглил https://github.com/AKuznetsov/russianmorphology, но с помощью этого пока получается решить только обратную задачу по произвольной словоформе получить нормальную форму. Есть у кого нибудь подобный опыт? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.12.2015, 16:48 |
|
||
|
Apache Lucene генерация возможных словоформ
|
|||
|---|---|---|---|
|
#18+
just_vladimir, посмотри http://www.basistech.com/ ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.12.2015, 15:56 |
|
||
|
Apache Lucene генерация возможных словоформ
|
|||
|---|---|---|---|
|
#18+
Можно посмотреть исходники алгоритма Snowball. Он делает обратную задачу. Токенизирует слова. По сути ищет приставки, суффиксы и окончания. И приводит к корню. И как-то вывести из него обратную формулу. Тоесть взяв любой корень генерировать различные производные лексемы. По сабжу я не уверен что они будут иметь смысл с точки зрения русского языка. Но думаю для тестов автора пойдет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.12.2015, 16:37 |
|
||
|
|

start [/forum/topic.php?fid=59&msg=39131016&tid=2124544]: |
0ms |
get settings: |
11ms |
get forum list: |
15ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
143ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
42ms |
get tp. blocked users: |
1ms |
| others: | 238ms |
| total: | 469ms |

| 0 / 0 |
