Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
Где можно почитать про сабжи? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.10.2006, 17:54 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
как таковую речь она не обнаруживает. она обнаруживает то, на что натренирована. натренируюшь ее слышать фразу "привет, медведь" она эту фразу услышит в соловьиной трели. http://htk.eng.cam.ac.uk/ http://users.iptelecom.net.ua/~agp1/arts/htkbook.pdf http://users.iptelecom.net.ua/~agp1/arts/HTK_basic_tutorial.pdf ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.10.2006, 02:32 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
tchingizкак таковую речь она не обнаруживает. она обнаруживает то, на что натренирована. Меня интересует не распонование речи, а обнаружение. Мне валится звук, и я должен определить, что там идет речь. И желательно не продукты, а алгоритмы. Т.е. звук валится в ALAW, мне его надо линеаризовать, а потом смотреть пороги и гармоники. Как это делается? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.10.2006, 11:14 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
А что есть речь ? Любой звук издаваемый человеком с помощью голоса ? А крик ужаса A-A-A-A-A это речь ? а цыканье тихим шепотом т-сссс это речь ? Какова вообще цель обнаружения ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.10.2006, 11:36 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
BarloneА что есть речь ? Любой звук издаваемый человеком с помощью голоса ? А крик ужаса A-A-A-A-A это речь ? а цыканье тихим шепотом т-сссс это речь ? Какова вообще цель обнаружения ? 1. Да хоть п....ж. . 2.1. Выделение разговора. 2.2. Экономия дискового пространства. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.10.2006, 12:03 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
хм, всякие VOIP-ные системы распознают не речь, а, наоборот, тишину. может, стоит поступить так же? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.10.2006, 12:54 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
miksoftхм, всякие VOIP-ные системы распознают не речь, а, наоборот, тишину. может, стоит поступить так же? А это не одно и то же? Выделение порогов, определение гармоник... Мне нужны алгоритмы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.10.2006, 12:56 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
Akh miksoftхм, всякие VOIP-ные системы распознают не речь, а, наоборот, тишину. может, стоит поступить так же? А это не одно и то же? Выделение порогов, определение гармоник... Мне нужны алгоритмы.кроме речи и тишины бывает масса других звуков :) а тишину, мне кажется, определить достаточно просто. например, среднеквадратичное значение сигнала в течение определенного периода не превышает определенного порога. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.10.2006, 13:03 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
miksoft Akh miksoftхм, всякие VOIP-ные системы распознают не речь, а, наоборот, тишину. может, стоит поступить так же? А это не одно и то же? Выделение порогов, определение гармоник... Мне нужны алгоритмы.кроме речи и тишины бывает масса других звуков :) а тишину, мне кажется, определить достаточно просто. например, среднеквадратичное значение сигнала в течение определенного периода не превышает определенного порога. 1. На сколько я знаю, сначала надо линеаризовать из ALAW 2. Потом: 2.1. Если по среднеквадратическому занчению: какой период, какой порог? 2.2. Как рассказывали: берется просто интеграл, и смтрится по порогам, потом ищутся гармоники. Кстати, мне кажется, что 2.1. как раз аналогичен 2.2., только чуть медленнее. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.10.2006, 13:09 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
Akh1. На сколько я знаю, сначала надо линеаризовать из ALAW A-law Akh2. Потом: 2.1. Если по среднеквадратическому занчению: какой период, какой порог?Это наверное экспериментально/настраиваемо ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.10.2006, 13:34 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
Akhгляньте несколько ссылочек: Некоторые аспекты технологий IP-телефонии Speech Coding файлик с исходником, который, возможно, будет полезен ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.10.2006, 13:49 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
miksoft Akhгляньте несколько ссылочек: Некоторые аспекты технологий IP-телефонии Speech Coding файлик с исходником, который, возможно, будет полезен Спасибо. Code for various ADPCM codecs, as well as the G711 A-law and u-law PCM, вроде, как раз то что надо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.10.2006, 14:25 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
Akh tchingizкак таковую речь она не обнаруживает. она обнаруживает то, на что натренирована. Меня интересует не распонование речи, а обнаружение. Мне валится звук, и я должен определить, что там идет речь. И желательно не продукты, а алгоритмы. Т.е. звук валится в ALAW, мне его надо линеаризовать, а потом смотреть пороги и гармоники. Как это делается? Алгоритмы там есть, смотрите ссылки. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.10.2006, 23:31 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
c127Алгоритмы там есть, смотрите ссылки. Воспроизвел алгоритм из исходиков, но возникла проблема: для микрофонов с разной чувствительностью идет постоянная состоявляющая во время тишины, которая для них разная (пробовал и СКО и сумму модулей амплитуды). Допустим для одного 300, а для другого 30. Причем, если говорить тихо на втором (на уровне 100-200), то это слышно на другом. Как определить порог? Путем анализа во времени по порогам, мне кажется не правельным, т.к., если говориться непрерывно продолжительное время, то может получиться, что за тишину можно взять голос, и звуковые данные будут теряться. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.10.2006, 12:20 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
Akh c127Алгоритмы там есть, смотрите ссылки. Воспроизвел алгоритм из исходиков, но возникла проблема: для микрофонов с разной чувствительностью идет постоянная состоявляющая во время тишины, которая для них разная (пробовал и СКО и сумму модулей амплитуды). Допустим для одного 300, а для другого 30. Причем, если говорить тихо на втором (на уровне 100-200), то это слышно на другом. Как определить порог? Путем анализа во времени по порогам, мне кажется не правельным, т.к., если говориться непрерывно продолжительное время, то может получиться, что за тишину можно взять голос, и звуковые данные будут теряться. Если мы говорим о ссылках http://www.sql.ru/forum/actualthread.aspx?tid=348352#3244824 то алгоритмы основаны на скрытых моделях Маркова (Hidden Markov Models, HMM). Для того чтобы модель распознавала тишину ее нужно тренировать. Берется набор файлов, содержащих то, что мы хотим узнавать как тишину, и тренируется. Я не уверен, но похоже что алгоритмы HTK проводят нормализацию самостоятельно. В идеале порог в явном виде задавать не нужно, но tchingiz говорит, что там вроде бы есть параметр командной строки, который отвечает за нормализацию, т.е. указав его можно как-то помочь алгоритму, но это делать не обязательно. Как раньше сказал tchingiz, у алгоритма, использованного в HTK, есть проблема: он обязательно что-то узнает. Т.е. не сможет сказать, что "этот звук я не знаю". Поэтому, например, нельзя обучить модели фонемам и задать правило: все что угодно, кроме фонем (например тишина). Для того, чтобы узнать "все что угодно кроме ..." нужно это "все что угодно" включить в обучающую последовательность, то есть построить соответствующую модель или несколько моделей. Но зато если это сделано, то работает довольно надежно. Вроде бы это на сегодняшний день самый надежный метод в распознавании звуков. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2006, 00:29 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
Мне кажется, что относительно простая задача решается слишком сложными средствами. Автору не надо распознавать речь, ему надо лишь обнаружить ее наличие. АФАИР, человек распознает человеческую речь исключительно посредством анализа спектра. Анализируются не абсолютные значения, но соотношения частот. Именно это позволяет понимать и бас, и фальцет. Поэтому я бы начал с простого разложения по Фурье и попробовал бы анализировать количество и соотношение пиков. Впрочем, ИМХО - специалистам виднее. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2006, 00:39 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
andrey_anonymous Поэтому я бы начал с простого разложения по Фурье и попробовал бы анализировать количество и соотношение пиков.. htk и построена на фурье ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2006, 02:57 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
Akh c127Алгоритмы там есть, смотрите ссылки. Воспроизвел алгоритм из исходиков, как это - воспроизвел из исходников? и из каких? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2006, 02:59 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
c127Если мы говорим о ссылках http://www.sql.ru/forum/actualthread.aspx?tid=348352#3244824 то алгоритмы основаны на скрытых моделях Маркова (Hidden Markov Models, HMM). Для того чтобы модель распознавала тишину ее нужно тренировать. Берется набор файлов, содержащих то, что мы хотим узнавать как тишину, и тренируется. Я не уверен, но похоже что алгоритмы HTK проводят нормализацию самостоятельно. В идеале порог в явном виде задавать не нужно, но tchingiz говорит, что там вроде бы есть параметр командной строки, который отвечает за нормализацию, т.е. указав его можно как-то помочь алгоритму, но это делать не обязательно. Как раньше сказал tchingiz, у алгоритма, использованного в HTK, есть проблема: он обязательно что-то узнает. Т.е. не сможет сказать, что "этот звук я не знаю". Поэтому, например, нельзя обучить модели фонемам и задать правило: все что угодно, кроме фонем (например тишина). Для того, чтобы узнать "все что угодно кроме ..." нужно это "все что угодно" включить в обучающую последовательность, то есть построить соответствующую модель или несколько моделей. Но зато если это сделано, то работает довольно надежно. Вроде бы это на сегодняшний день самый надежный метод в распознавании звуков. Для того, что бы научиться определять тишину, надо что бы в выборке были и тишина, и речь. Тогда алгоритм сможет подстроиться. Какую брать выборку? Человек 10 минут может непрерывно орать в трубку и я за тишину возьму самое маленькое орево, а потом, когда он начнет разговаривать нормально, то на время подстроения нового порога, речь будет проглатываться. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2006, 10:12 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
andrey_anonymousМне кажется, что относительно простая задача решается слишком сложными средствами. Автору не надо распознавать речь, ему надо лишь обнаружить ее наличие. АФАИР, человек распознает человеческую речь исключительно посредством анализа спектра. Анализируются не абсолютные значения, но соотношения частот. Именно это позволяет понимать и бас, и фальцет. Поэтому я бы начал с простого разложения по Фурье и попробовал бы анализировать количество и соотношение пиков. Впрочем, ИМХО - специалистам виднее. Сейчас, после принятия порога, начинаю оценивать разницу между средними квадритичными расположенными совсем рядом. Посмотрю результат. Зы а про фурье, применимому к данной задаче, на пальцах можно? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2006, 10:17 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
tchingiz Akh c127Алгоритмы там есть, смотрите ссылки. Воспроизвел алгоритм из исходиков, как это - воспроизвел из исходников? и из каких? Алгоритм линеаризации. Он же есть и в третьей ссылке mikesoft'а. Правда, сейчас уже использую другой. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2006, 10:19 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
tchingiz andrey_anonymous Поэтому я бы начал с простого разложения по Фурье и попробовал бы анализировать количество и соотношение пиков.. htk и построена на фурье А кто такой htk? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2006, 10:20 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
ИМХО В общем случае эта задача решения не имеет. Нужно придумать какие нибудь допущения. Например первое - распознать тишину от речи:)) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2006, 13:46 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
mikolasИМХО В общем случае эта задача решения не имеет. Нужно придумать какие нибудь допущения. Например первое - распознать тишину от речи:)) Да, да. Этим и занимаюсь. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2006, 15:01 |
|
||
|
Линеаризация звука, алгоритм обнаружения речи.
|
|||
|---|---|---|---|
|
#18+
Не хочу уходить от темы, так как много ответов еще жду (htk, фурье), но все же... Сейчас так: за выборку беру 1 мс, туда влазит 8 отсчетов. Беру СКО от выборки. Также считаю СКО по 20-ти выборкам. Если СКО>100 и разница между СКО хотябы один раз тоже больше 100 - началась речь. Далее смотрю, только разницы. В итоге получается довольно точное разпознование для двух устройств с разной чувствительностью микрофонов. И! Внимание! Выделяются чуть ли не слоги, т.е. получаются фонемы? Это уже получается база для Распознования Речи (слов). Такая задача, правда, у меня не стоит, но результат мне нравится. Так вот, хочу, еще сделать более надежным алгоритм выделения пауз, за счет, как тут говорилось, преобразования Фурье. Как это делается даже не представляю, и не знаю куда смотреть. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.10.2006, 15:09 |
|
||
|
|

start [/forum/topic.php?fid=16&msg=34048880&tid=1346527]: |
0ms |
get settings: |
9ms |
get forum list: |
15ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
48ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
53ms |
get tp. blocked users: |
1ms |
| others: | 264ms |
| total: | 406ms |

| 0 / 0 |
