|
|
|
Тематическое моделирование или тематические термины.
|
|||
|---|---|---|---|
|
#18+
Появилось свободное время и я решила потратить его на невозможное. Надо определить тему документа. Документ может относиться к нескольким темам. 1) я залила тексты по рубрикам. 2) разбила текст на токены и привела к нормальной форме (сторонний продукт) 3) теперь у меня есть статистика участия слов в темах. А что мне теперь делать дальше? P.S. Темы разные по словарному запасу, как определить количество текстов для более точного определения? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2014, 14:30 |
|
||
|
Тематическое моделирование или тематические термины.
|
|||
|---|---|---|---|
|
#18+
WiskyА что мне теперь делать дальше? Теперь скармливай эти данные нейронной сети, пусть обучается. Posted via ActualForum NNTP Server 1.5 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2014, 14:44 |
|
||
|
Тематическое моделирование или тематические термины.
|
|||
|---|---|---|---|
|
#18+
Wisky, можно предположить, что есть эталонный базис "чисто тематических частот" и, соответсвенно, ваше измерение [любая тема -- её спектр (частотный).] -- есть линейная комбинация эталонных векторов. ( с допусками) предположение не хуже любого другого, [но заведомо неверное -- зависимость от авторов сильно не нулевая] в этом неверном приближении имеем: задача -- получить линейную комбинацию, базиса, минимально отличающуюся от измеренного спектра. (наименьшие квадраты) [-- далее можно пробовать уточнять модельное предположение, вводя квадратичные члены и прочие зависисмости] ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2014, 16:01 |
|
||
|
Тематическое моделирование или тематические термины.
|
|||
|---|---|---|---|
|
#18+
> Появилось свободное время и я решила потратить его на невозможное. Не слишком часто встречающаяся модель поведения. :) > Надо определить тему документа. Что вы понимаете под темой документа? Есть какие-то ограничения по выбору источников? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2014, 16:08 |
|
||
|
Тематическое моделирование или тематические термины.
|
|||
|---|---|---|---|
|
#18+
Зачем здесь нейронные сети? Слова имеют вес в темах, разве сложив тематические термины мы не получим принадлежности к каждой из тем? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2014, 23:46 |
|
||
|
Тематическое моделирование или тематические термины.
|
|||
|---|---|---|---|
|
#18+
Или применение НС скажется на производительности? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.11.2014, 07:45 |
|
||
|
Тематическое моделирование или тематические термины.
|
|||
|---|---|---|---|
|
#18+
... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.11.2014, 00:57 |
|
||
|
Тематическое моделирование или тематические термины.
|
|||
|---|---|---|---|
|
#18+
WiskyПоявилось свободное время и я решила потратить его на невозможное. Надо определить тему документа. Документ может относиться к нескольким темам. 1) я залила тексты по рубрикам. 2) разбила текст на токены и привела к нормальной форме (сторонний продукт) 3) теперь у меня есть статистика участия слов в темах. А что мне теперь делать дальше? P.S. Темы разные по словарному запасу, как определить количество текстов для более точного определения? Возьмите себе за правило обследовать базу данных патентов, а не форумов. Текущая практика дремуча, она и мусолится на форумах, - зачем вам это надо? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.11.2014, 01:18 |
|
||
|
|

start [/forum/topic.php?fid=32&msg=38808969&tid=1540735]: |
0ms |
get settings: |
9ms |
get forum list: |
12ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
157ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
46ms |
get tp. blocked users: |
1ms |
| others: | 14ms |
| total: | 260ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...