|
data mining категоризация текста - bag of words ?
|
|||
---|---|---|---|
#18+
Задача: короткие тексты до 200 символов максимальная длина. Необходимо каждый текст отнести к определённой категории. Подсказка: Содержащиеся в тексте фразы из двух слов с большой вероятностью корректно определят их категорию. т.е. необходимо использовать модель 2-gram bag of words Но для версии 12.2 не нахожу такой модели категоризации ни для Oracle Text, ни для Data Mining. Вопросы: 1. есть ли такая модель в Oracle (вдруг оно как-то по-другому называется либо завуалировано) ? 2. если нет такой модели, то как решить задачу в таком случае? (полагаю нужно будет копать cloud database + integrated R) ... |
|||
:
Нравится:
Не нравится:
|
|||
29.04.2019, 15:21 |
|
data mining категоризация текста - bag of words ?
|
|||
---|---|---|---|
#18+
In this model, a text (such as a sentence or a document) is represented as the bag (multiset) of its words, disregarding grammar and even word order but keeping multiplicity - натуральный Oracle Text index: Код: plsql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39.
SY. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.04.2019, 15:37 |
|
data mining категоризация текста - bag of words ?
|
|||
---|---|---|---|
#18+
SY, what about categorization using 2-grams? Its not a big deal to create tokens. I dont have to develop algorithms myself. Question is about using oracle features. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.04.2019, 15:48 |
|
data mining категоризация текста - bag of words ?
|
|||
---|---|---|---|
#18+
Алгоритмов поиска - читай доку, например CONTAINS. SY. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.04.2019, 16:12 |
|
data mining категоризация текста - bag of words ?
|
|||
---|---|---|---|
#18+
SYАлгоритмов поиска - читай доку, например CONTAINS. Не поиска. Он про n-граммы спрашивает - токены из двух+ слов. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.04.2019, 16:31 |
|
data mining категоризация текста - bag of words ?
|
|||
---|---|---|---|
#18+
Ну тогда как-то так: Код: plsql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15.
X - слова 1, 1 + 5, 1 + 5 + 1 Y - слова 2, 2 + 3, 2 + 3 + 3 Z - слова 3, 3 + 1, 3 + 1 + 5 Значения в DR$TOKEN_INFO - HEX. SY. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.04.2019, 23:01 |
|
|
start [/forum/topic.php?fid=52&msg=39808022&tid=1882542]: |
0ms |
get settings: |
11ms |
get forum list: |
16ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
196ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
54ms |
get tp. blocked users: |
1ms |
others: | 17ms |
total: | 317ms |
0 / 0 |