Фонемное распознавание речи -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.217.58]

Модераторы: RaD, nsh

Новое голосование

Фонемное распознавание речи

starn

Сообщ. #181 , 07.07.09, 15:15

Unregistered

В источниках пишут, что для распознавания гласных звуков нужны первые две форманты: первая говорит о степени открытости-закрытости звука, вторая - о положении языка. Мне нужно написать такую программу в Матлабе.

Насколько я понимаю, если имеется авторегрессионная модель, то форманты - это локальные максимумы.
http://s51.radikal.ru/i132/0907/a5/bed119ca4e3c.gif

Не могу понять, как можно их извлечь из авторегрессионной модели.

Дополнено: этот вопрос снимается. Оказывается, функцию peaks нужно заменить на findpeaks.

Скрытый текст

Тут предлагается решение с использованием функции peaks, но оно выдаёт ошибку на последней из процитированных строк:

th = ar(x,n) % auto-regressive model of voice

[b,a] = th2tf(th) % transfer function of vocal tract

[h,w] = freqz(b,a); % frequency response of vocal tract

f = w.*fs/(2*pi);

semilogy(f,abs(h)) % semilogx and semilogy plot data

% as logarithmic scales for the x- and y-axis,

% respectively.

xlabel('Frequeny (Hz)')

ylabel('log scale frequency response')

title('Auto-Regressive Model of Vocal Tract')

hold on

[floc,fmag] = peaks(abs(h));

allfmnts = f(floc); % ERROR - ??? Subscript indices must either be real positive integers or logicals. error

И если имеется авторегрессионная модель, можно ли по ней полностью восстановить звук?

Сообщение отредактировано: starn - 08.07.09, 08:18

Hobbit	Сообщ. #182 , 08.07.09, 09:01
Unregistered	Интересуюсь: алгоритмы есть, публикации есть, вроде как задача решена, так вот любопытно какой процент сейчас реально фонем распознается?

Black*Eternal

Сообщ. #183 , 13.11.09, 01:39

Member

Профиль · PM

Рейтинг (т): 0

Хотелось бы поднять и продолжить полезную тему. Прочитал всю, запасся огромным количеством разных ссылок, знаний и структуировал тот малый материал, который у меня пытается присутствовать

Так и не понял, что такое гармоники. Форманты, понятно - всплески на спектре. А вот что такое гармоники? Такое впечатление, что тоже самое

Скорее всего они наверное иногда совпадают, а иногда нет... Или совершенно не так?

Анатоль

Сообщ. #184 , 13.11.09, 05:19

Full Member

Профиль · PM

Поощрения: 2 Dgm

Рейтинг (т): 6

Цитата Black*Eternal @ 13.11.09, 01:39

Так и не понял, что такое гармоники. Форманты, понятно - всплески на спектре

Тональные звуки состоят из частот, кратных частоте основного тона (ЧОТ).
Они и называются гармониками.
Когда звучит струна или голосовые связки то кроме основного тона (самой низкой частоты) в звуке есть и кратные ей частоты (гармоники). Обычно уменьшающейся амплитуды с ростом частоты.

Когда звук проходит через речевой аппарат человека, из за резонансных свойств речевых полостей некоторые частоты усиливаются (некоторые ослабляются). Резонансные максимумы речевого аппарата называют формантами.
Частоты и амплитуды формант, их динамика отображают положения и динамику артикуляции, поэтому важны для распознавания звуков речи.

На спектре звука мы можем наблюдать и гармоники и форманты.
Для низкого голоса, или при малой ширине окна гармоник мы не увидим, только форманты. Это максимумы огибающей спектра.

Black*Eternal

Сообщ. #185 , 13.11.09, 23:42

Member

Профиль · PM

Рейтинг (т): 0

Цитата Анатоль @ 13.11.09, 05:19

Тональные звуки состоят из частот, кратных частоте основного тона (ЧОТ). Они и называются гармониками.
Когда звучит струна или голосовые связки то кроме основного тона (самой низкой частоты) в звуке есть и кратные ей частоты (гармоники).
....
Когда звук проходит через речевой аппарат человека, из за резонансных свойств речевых полостей некоторые частоты усиливаются (некоторые ослабляются). Резонансные максимумы речевого аппарата называют формантами.

Гармоники "по совместительству" также являются некоторыми из формант?
Т.е. все высокие пики - это форманты, а гармониками являются из них те форманты, частоты которых кратны ЧОТу?
Или форманты это максимальные, а гармоники выражены очень малой мощностью и не имеют ничего общего с формантами? Пытаюсь понять как они друг с другом связаны..

Анатоль

Сообщ. #186 , 14.11.09, 05:21

Full Member

Профиль · PM

Поощрения: 2 Dgm

Рейтинг (т): 6

Цитата Black*Eternal

Гармоники "по совместительству" также являются некоторыми из формант?
Пытаюсь понять как они друг с другом связаны

Представте себе гребёнку, у которой зубья спилили так, что их высота вписывается в нек. гладкую кривую.
Представили?
Ну так зубья - это гармоники, а максимумы этой гладкой кривой - форманты.

Black*Eternal

Сообщ. #187 , 14.11.09, 13:56

Member

Профиль · PM

Рейтинг (т): 0

Цитата Анатоль @ 14.11.09, 05:21

Цитата Black*Eternal

Клёвый пример

Т.е. гармоники это сами составляющие (вот эти "вертикальные столбцы"), а форманты это локальные максимумы (этих столбцов)?

Skif	Сообщ. #188 , 14.11.09, 17:27
Member Профиль · PM Рейтинг (т): 5	На рисунке всплески синего цвета это гармоники. Всплески красного цвета форманты. Прикреплённый файлБезымянный.PNG (9.94 Кбайт, скачиваний: 636)

Black*Eternal	Сообщ. #189 , 14.11.09, 19:01
Member Профиль · PM Рейтинг (т): 0	Цитата Skif @ 14.11.09, 17:27 На рисунке всплески синего цвета это гармоники. Всплески красного цвета форманты. О, спасибо за картинку! А форманты это получается огибающая гормоники?

Skif

Сообщ. #190 , 15.11.09, 06:04

Member

Профиль · PM

Рейтинг (т): 5

Цитата Black*Eternal @ 14.11.09, 19:01

А форманты это получается огибающая гормоники?

Именно так. Ну точнее сказать, что форманты огибающие гармоник. Первый синий всплеск это первая гармоика, ее частота равна частоте колебаний голосовых связок. Второй всплеск это вторая гармоника, частота второй гармоники в два раза больше первой. Третий всплеск это третья гармоника. Ее частота в три раза больше первой. Если к примеру обозначим частоту первой гармоники через F1 а вторую через F2 и так далее. F3, F4.... То справедливо записать F2=2*F1; F3=3*F1; F4=4*F1. Из этого следует что вычислив частоту первой гармоники мы можем вычислить все остальные гармоники и рассчитать огибающую гармоник которая является амплитудно частотной характеристикой формантного фильтра. Найдя максимумы амплитудно частотной характеристики формантного фильтра мы найдем формантные частоты.

Анатоль

Сообщ. #191 , 15.11.09, 07:55

Full Member

Профиль · PM

Поощрения: 2 Dgm

Рейтинг (т): 6

Цитата Skif @ 15.11.09, 06:04

Из этого следует что вычислив частоту первой гармоники мы можем вычислить все остальные гармоники и рассчитать огибающую гармоник

По частоте первой гармоники мы можем вычислить частоты остальных гармоник, но не их амплитуды. Поэтому огибающей мы никак не получим из частоты первой гармоники.

Skif

Сообщ. #192 , 15.11.09, 10:41

Member

Профиль · PM

Рейтинг (т): 5

Цитата Анатоль @ 15.11.09, 07:55

Я подразумевал что спектр сигнала анализируемого отрезка времени уже расчитан. Верное замечание. Для того чтобы расчитать огибающую нужно знать спектр.

Black*Eternal

Сообщ. #193 , 15.11.09, 10:47

Member

Профиль · PM

Рейтинг (т): 0

Вот теперь я полностью понял, что имеется ввиду под гармониками и фонрмантами!

По поводу "рассчитать огибающую гармоник" я тоже не понял. Частоты найти, это понятно. Я уже поэкспериментировал со звуками, там действительно частота второй двое выше первой и далее частоты последующих гармоник ровно выше на разницу второй-первой. А вот получить мощности их наверное невозможно из первой.. Этож звучание изменится, нет разве? А может ли быть два разных звука с одинаковой первой гормоникой по частоте и мощности?

Кстати, а что такое обертон? Это другое название гармоник?

Skif

Сообщ. #194 , 15.11.09, 23:26

Member

Профиль · PM

Рейтинг (т): 5

Цитата Black*Eternal @ 15.11.09, 10:47

Оберто́ны (нем. Oberton — «верхний тон») в акустике — колебания полного объёма, а также различных частей какого-либо звучащего тела (струны, столба воздуха, мембраны, голосовых связок и т. д.). Обычно понятие обертона смешивается с понятием гармонических созвуков, однако несмотря на то, что любой гармонический созвук является обертоном, не любой обертон является гармоническим созвуком.

В общем обертон это то как звуччит инструмент. В нашем случае это звучание гласных речи. А инструментом является речеобразующий аппарат. человека

Расчиатать огибающую гармоник значит нарисовать красную линию. См рисунок выше. Соединить максимумы гармоник между собой.

Black*Eternal

Сообщ. #195 , 16.11.09, 00:36

Member

Профиль · PM

Рейтинг (т): 0

Цитата Skif @ 15.11.09, 23:26

В общем обертон это то как звучит инструмент.

А набор гормоник ведь и определяет звучание инструмента?

Так получается, что форманты это точки максимумов гармоник, которые мы соединяем линией?
Ведь говорим мы во множественном числе "форманты", значит их много.. а огибающая одна

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (15) « Первая ... 11 12 [13] 14 15 все

[ Script execution time: 0.1414 ] [ 15 queries used ] [ Generated: 25.05.26, 06:06 GMT ]