Гость
Форумы / Oracle [игнор отключен] [закрыт для гостей] / data mining категоризация текста - bag of words ? / 6 сообщений из 6, страница 1 из 1
29.04.2019, 15:21
    #39807664
Shredder2003
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
data mining категоризация текста - bag of words ?
Задача: короткие тексты до 200 символов максимальная длина. Необходимо каждый текст отнести к определённой категории.
Подсказка: Содержащиеся в тексте фразы из двух слов с большой вероятностью корректно определят их категорию.

т.е. необходимо использовать модель 2-gram bag of words

Но для версии 12.2 не нахожу такой модели категоризации ни для Oracle Text, ни для Data Mining.
Вопросы:
1. есть ли такая модель в Oracle (вдруг оно как-то по-другому называется либо завуалировано) ?
2. если нет такой модели, то как решить задачу в таком случае? (полагаю нужно будет копать cloud database + integrated R)
...
Рейтинг: 0 / 0
29.04.2019, 15:37
    #39807683
SY
SY
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
data mining категоризация текста - bag of words ?
In this model, a text (such as a sentence or a document) is represented as the bag (multiset) of its words, disregarding grammar and even word order but keeping multiplicity - натуральный Oracle Text index:

Код: plsql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
SQL> create table tbl
  2    as
  3      select 'In this model, a text (such as a sentence or a document) is represented as the bag 
(multiset) of its words, disregarding grammar and even word order but keeping multiplicity' text fro
m dual;

Table created.

SQL> create index tbl_idx
  2    on tbl(text)
  3    indextype is ctxsys.ctxcat
  4  /

Index created.

SQL> select dr$token from dr$tbl_idx$i
  2  /

DR$TOKEN
----------------------------------------------------------------
BAG
DISREGARDING
DOCUMENT
EVEN
GRAMMAR
KEEPING
MODEL
MULTIPLICITY
MULTISET
ORDER
REPRESENTED
SENTENCE
TEXT
WORD
WORDS

15 rows selected.

SQL> 



SY.
...
Рейтинг: 0 / 0
29.04.2019, 15:48
    #39807694
Shredder2003
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
data mining категоризация текста - bag of words ?
SY,

what about categorization using 2-grams?
Its not a big deal to create tokens.
I dont have to develop algorithms myself.
Question is about using oracle features.
...
Рейтинг: 0 / 0
29.04.2019, 16:12
    #39807705
SY
SY
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
data mining категоризация текста - bag of words ?
Алгоритмов поиска - читай доку, например CONTAINS.

SY.
...
Рейтинг: 0 / 0
29.04.2019, 16:31
    #39807725
andrey_anonymous
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
data mining категоризация текста - bag of words ?
SYАлгоритмов поиска - читай доку, например CONTAINS.

Не поиска.
Он про n-граммы спрашивает - токены из двух+ слов.
...
Рейтинг: 0 / 0
29.04.2019, 23:01
    #39808022
SY
SY
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
data mining категоризация текста - bag of words ?
Ну тогда как-то так:

Код: plsql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
SQL> insert into tbl values('X Y Z Z Y X X Y Z')
  2  /

1 row created.

SQL> select * from dr$tbl_idx$i
  2  /

DR$TOKEN   DR$TOKEN_TYPE DR$ROWID           DR$TOKEN_INFO
---------- ------------- ------------------ ---------------
X                      0 AAAUcwAARAAAnDtAAA 010501
Y                      0 AAAUcwAARAAAnDtAAA 020303
Z                      0 AAAUcwAARAAAnDtAAA 030105

SQL> 



X - слова 1, 1 + 5, 1 + 5 + 1
Y - слова 2, 2 + 3, 2 + 3 + 3
Z - слова 3, 3 + 1, 3 + 1 + 5

Значения в DR$TOKEN_INFO - HEX.

SY.
...
Рейтинг: 0 / 0
Форумы / Oracle [игнор отключен] [закрыт для гостей] / data mining категоризация текста - bag of words ? / 6 сообщений из 6, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]