powered by simpleCommunicator - 2.0.53     © 2025 Programmizd 02
Форумы / Oracle [игнор отключен] [закрыт для гостей] / data mining категоризация текста - bag of words ?
6 сообщений из 6, страница 1 из 1
data mining категоризация текста - bag of words ?
    #39807664
Фотография Shredder2003
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Задача: короткие тексты до 200 символов максимальная длина. Необходимо каждый текст отнести к определённой категории.
Подсказка: Содержащиеся в тексте фразы из двух слов с большой вероятностью корректно определят их категорию.

т.е. необходимо использовать модель 2-gram bag of words

Но для версии 12.2 не нахожу такой модели категоризации ни для Oracle Text, ни для Data Mining.
Вопросы:
1. есть ли такая модель в Oracle (вдруг оно как-то по-другому называется либо завуалировано) ?
2. если нет такой модели, то как решить задачу в таком случае? (полагаю нужно будет копать cloud database + integrated R)
...
Рейтинг: 0 / 0
data mining категоризация текста - bag of words ?
    #39807683
Фотография SY
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
In this model, a text (such as a sentence or a document) is represented as the bag (multiset) of its words, disregarding grammar and even word order but keeping multiplicity - натуральный Oracle Text index:

Код: plsql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
SQL> create table tbl
  2    as
  3      select 'In this model, a text (such as a sentence or a document) is represented as the bag 
(multiset) of its words, disregarding grammar and even word order but keeping multiplicity' text fro
m dual;

Table created.

SQL> create index tbl_idx
  2    on tbl(text)
  3    indextype is ctxsys.ctxcat
  4  /

Index created.

SQL> select dr$token from dr$tbl_idx$i
  2  /

DR$TOKEN
----------------------------------------------------------------
BAG
DISREGARDING
DOCUMENT
EVEN
GRAMMAR
KEEPING
MODEL
MULTIPLICITY
MULTISET
ORDER
REPRESENTED
SENTENCE
TEXT
WORD
WORDS

15 rows selected.

SQL> 



SY.
...
Рейтинг: 0 / 0
data mining категоризация текста - bag of words ?
    #39807694
Фотография Shredder2003
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SY,

what about categorization using 2-grams?
Its not a big deal to create tokens.
I dont have to develop algorithms myself.
Question is about using oracle features.
...
Рейтинг: 0 / 0
data mining категоризация текста - bag of words ?
    #39807705
Фотография SY
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алгоритмов поиска - читай доку, например CONTAINS.

SY.
...
Рейтинг: 0 / 0
data mining категоризация текста - bag of words ?
    #39807725
Фотография andrey_anonymous
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SYАлгоритмов поиска - читай доку, например CONTAINS.

Не поиска.
Он про n-граммы спрашивает - токены из двух+ слов.
...
Рейтинг: 0 / 0
data mining категоризация текста - bag of words ?
    #39808022
Фотография SY
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну тогда как-то так:

Код: plsql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
SQL> insert into tbl values('X Y Z Z Y X X Y Z')
  2  /

1 row created.

SQL> select * from dr$tbl_idx$i
  2  /

DR$TOKEN   DR$TOKEN_TYPE DR$ROWID           DR$TOKEN_INFO
---------- ------------- ------------------ ---------------
X                      0 AAAUcwAARAAAnDtAAA 010501
Y                      0 AAAUcwAARAAAnDtAAA 020303
Z                      0 AAAUcwAARAAAnDtAAA 030105

SQL> 



X - слова 1, 1 + 5, 1 + 5 + 1
Y - слова 2, 2 + 3, 2 + 3 + 3
Z - слова 3, 3 + 1, 3 + 1 + 5

Значения в DR$TOKEN_INFO - HEX.

SY.
...
Рейтинг: 0 / 0
6 сообщений из 6, страница 1 из 1
Форумы / Oracle [игнор отключен] [закрыт для гостей] / data mining категоризация текста - bag of words ?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]