|
Классификация текстовых документов с помощью Oracle Data Mining и Oracle Text
|
|||
---|---|---|---|
#18+
Поставлена задача классификация документов средствами Oracle Text и Oracle Data Mining. В базе инфа о документах хранится в одной таблице, содержимое документов в другой в поле CLOB, крутится база на 11gR1 под виндой. Делаю все на PL/SQL по сэмплам отсюда . Там есть пример когда для классификации используется таблица с разнородными колонками, в числе которых и текст, приведен пример для метода SVM (опорных векторов), я же использую только колонку с текстом для классификации. Выделяю строки с содержимом документов для обучения в отдельную таблицу, создаю индекс CTXSYS.CONTEXT с такими параметрами: Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
Код: plaintext 1. 2. 3. 4. 5.
Код: plaintext 1. 2. 3. 4. 5. 6. 7.
Код: plaintext 1. 2. 3. 4.
В итоге классификация текстов работает, и довольно неплохо, надо сказать. Но стоит только поменять настройки для построение модели методом Naive bayes: Код: plaintext 1. 2. 3. 4.
Если же классифицировать не по текстовому полю, а по другим значениям (например, number и т.п.), работает как классификация методом опорных векторов, так и наивным байесом. Причем в "Oracle® Data Mining Concepts 11g Release 1 (11.1) B28129-04" указывается что вроде как Oracle Data Mining должен поддерживать классификацию текста методом Naive Bayes, a Oracle Text нет... (может тут где-то собака зарыта, но ведь использую я пакет DBMS_DATA_MINING): Mining Function Oracle Data Mining Oracle Text Classification Text or mixed data can be mined using SVM, Text can be mined using SVM, GLM, or Naive Bayes decision trees, or user-defined rules Может кто нибудь сталкивался с подобным!? Не уверен что привел достаточно подробные сведения, но могу уточнить... В частности интересует вопрос, работает ли вообще у кого-нибудь классификация текста наивным байесом? Уже исхитрялся и так и эдак, а он все равно равновероятный результат выдает, стоит только оставить для построения модели чисто текстовые данные. ... |
|||
:
Нравится:
Не нравится:
|
|||
01.12.2009, 18:54 |
|
Классификация текстовых документов с помощью Oracle Data Mining и Oracle Text
|
|||
---|---|---|---|
#18+
Итак, решение было найдено еще в начале января, только вот руки не доходили написать сообщение:) Может кто-то найдет через поисковик... Дело оказалось в глючной версии оракла 11.1.0.6, на 11.1.0.7 тот же самый код для построения модели классификации методом Байеса, без каких-либо изменений, прекрасно работает. Модель строится с вменяемыми коэффициентами для термов и нормально классифицирует тексты. Вот так. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.03.2010, 17:30 |
|
Классификация текстовых документов с помощью Oracle Data Mining и Oracle Text
|
|||
---|---|---|---|
#18+
Добрый день, уважаемый Dmitrych-G ! Извините пожалуйста за оффтоп, но не могли бы Вы предоставить более полный пример построения SVM модели в Oracle запросом? В частности, я не понимаю, что нужно указать в качестве settings_table_name: какая это должна быть таблица, с какими полями, с какими данными? Может быть, Вы можете скинуть ссылку на какое-либо руководство? Ничего не могу нагуглить(((( Заранее спасибо! ... |
|||
:
Нравится:
Не нравится:
|
|||
09.08.2013, 13:44 |
|
|
start [/forum/topic.php?fid=52&fpage=29&tid=1880604]: |
0ms |
get settings: |
11ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
42ms |
get topic data: |
13ms |
get forum data: |
3ms |
get page messages: |
36ms |
get tp. blocked users: |
2ms |
others: | 267ms |
total: | 396ms |
0 / 0 |