Фонемное распознавание речи -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.217.58]

Модераторы: RaD, nsh

Новое голосование

Фонемное распознавание речи

nsh

Сообщ. #136 , 21.05.07, 17:11

Moderator

Профиль · PM

Если набрать большую статистику по большому числу разных дикторов, можно выносить и независимые решения

Добавлено 21.05.07, 17:25
Статья Ямов С.И., Кабак И.С., Курочкин С.Н., Бродин А.Г.
МНОГОУРОВНЕВАЯ СИСТЕМА РАСПОЗНАВАНИЯ РЕЧИ

http://magazine.stankin.ru/arch/n_01/con_sys/005.html

Ну почитать можно

navigator29

Сообщ. #137 , 21.05.07, 17:42

Newbie

Профиль · PM

Рейтинг (т): нет

Цитата nsh @ 21.05.07, 17:11

Если набрать большую статистику по большому числу разных дикторов, можно выносить и независимые решения

большое спасибо.

Lebedev

Сообщ. #138 , 17.10.07, 14:29

Member

Профиль · PM

Рейтинг (т): 1

Цитата navigator29 @ 21.05.07, 16:50

Вот тут у меня 4 диктора произносят одну фонему, у всех разное количество формант. Как можно сказать по этим спектрограммам что это один звук? =)
никак?

Подскажите, в какой программе можно получить вот такой график по конкретной фонеме? Нужна не спектрограмма, а спектр.
А отсюда соответствующий вопрос. Спектрограмма имеет ось времени, в случае спектра её нет. Как в этом случае эта программа будет обрабатывать звукой файл, в котором время учитывается, как само собой разумеющееся.

neurofish

Сообщ. #139 , 17.10.07, 14:38

Member

Профиль · PM

Рейтинг (т): 3

это, скорее всего, возможно только для стационарных звуков. А их немного. Можно вычислять средний спектр (в спектралабе), но это сомнительный способ. Что касается картинки, то, судя по надписи, изображен то ли звук "и", то ли звук "ы". А они могут иметь несколько реализаций и быть нестационарными

Lebedev

Сообщ. #140 , 18.10.07, 01:17

Member

Профиль · PM

Рейтинг (т): 1

Цитата neurofish @ 17.10.07, 14:38

Спектрлаб это что такое?

Просто в книжках для некоторых звуков приводятся такие картинки, но не для всех. Я вот и хочу попробовать получить для некоторых других.
Если это сомнительный способ, то как тогда эти какртинки авторы получали?

nsh	Сообщ. #141 , 18.10.07, 05:45
Moderator Профиль · PM	Да любая программа это умеет, Wavesurfer http://www.speech.kth.se/wavesurfer/download.html например: Praat, конечно, продвинутее, но им пользоваться сложнее.

neurofish

Сообщ. #142 , 18.10.07, 19:19

Member

Профиль · PM

Рейтинг (т): 3

Цитата

Спектрлаб это что такое?

Spectralab - популярная программа анализа спектра

Цитата

Если это сомнительный способ, то как тогда эти какртинки авторы получали?

сомнителен этот способ не тем, что нельзя получить такой спектр, а тем, что пользы от этого занятия мало будет

Hobbit

Сообщ. #143 , 19.10.07, 10:39

Unregistered

Расчет спектра на времменом окне всегда дает лишь сечение спектрограммы, чтобы получить только классический компл. спектр, независимый от времени, надо взять фонограмму от минус бесконечности до плюс, что нереально.

Сообщение отредактировано: Hobbit - 19.10.07, 10:40

Lebedev

Сообщ. #144 , 20.10.07, 05:49

Member

Профиль · PM

Рейтинг (т): 1

Цитата neurofish @ 18.10.07, 19:19

сомнителен этот способ не тем, что нельзя получить такой спектр, а тем, что пользы от этого занятия мало будет

А если на основе набранной статистики (для конкретного диктора) по конкретной фонеме попробовать изменять параметры цифрового фильтра для синтеза спектра, полученно по статистике. Разве так нельзя добиться более хорошего кчества синтеза?

nsh

Сообщ. #145 , 20.10.07, 07:47

Moderator

Профиль · PM

Можно такое, только называется это не синтез а преобразование голоса (voice conversion/voice transformation). Записывается 30-40 предложений, строится матрица линейных пробразований, чтобы точно подгонять параметры мел-кепстра. Потом человек говорит, а его речь преобразуется в другой голос. Получается очень неплохо.

http://www.cs.cmu.edu/~awb/papers/icassp2005/0100009.pdf

Исходники этого дела есть внутри festvox.

kviper	Сообщ. #146 , 11.11.07, 14:40
Newbie Профиль · PM Рейтинг (т): нет	Столкнулса вот с таким вопросом: опознавание тона (голоса) и формирование искуственного голоса по опознаним даним. Может кто-нибуть что-нибуть посоветовать! Буду благодарен за подходящую литературу. Спасибо!

Skif

Сообщ. #147 , 12.11.07, 03:49

Member

Профиль · PM

Рейтинг (т): 5

Цитата Lebedev @ 17.10.07, 14:29

Как можно сказать по этим спектрограммам что это один звук?

Нужно анализировать огибающую спектра. Для примера я прикрепил рисунок. Всплески на спектре кратны частоте основного тона (ОТ). А огибающая характеризует спектр резонаторов. В связи с тем что частота ОТ различная у разных дикторов точность определения огибающей меняется от диктора к диктору. У женских голосов частота ОТ максимальная и всвязи с этим огибающая получается не совсем точная.

Добавлено 12.11.07, 03:55
Ко всему прочему важно при выполнении преобразования фурье учитывать что длина окна для различных дикторов постоянна, т.е. нужно использовать одну и ту же длину окна БПФ, для получения одной и той же частотной шкалы в результатах БПФ. От фонеме к фонеме спектры огибающих будут меняться и для нахождения областей в которых спектры различных фонем не пересекаюстя это отдельная задача.
Прикреплённый файл

f530495abab671b49a.jpg (90.64 Кбайт, скачиваний: 713)

Hobbit

Сообщ. #148 , 17.01.08, 20:16

Unregistered

Есть пара вопросов для уточнения, форманты: разные источники определяют несколько по-разному: 1- любой спектральный пик - форманта, 2- имеется область частоты ОТ с гармониками и более ВЧ-область формант, кто как понимает этот термин?

ПС Также изучаю вопрос о спектральных методах оценки ОТ. Поэтому интересуют ссылки на публикации.

kaa1

Сообщ. #149 , 18.01.08, 04:42

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Цитата Hobbit @ 17.01.08, 20:16

имеется область частоты ОТ с гармониками и более ВЧ-область формант

Гармоники основного тона уходят куда-то в район бесконечности, поэтому они не могут быть ниже по частоте, чем форманты.
Есть, например, такая книга: Общая и прикладная фонетика: учеб. пособие / Л. В. Златоустова, Р. К. Потапова, В. В. Потапов, В. Н. Трунин-Донской.
Выдержка из неё: "Наряду с частотой основного тона немаловажными параметрами, характеризующими вокализованный речевой сигнал, являются частоты формант. На форму звуковой волны, исходящей от голосового источника, накладываются частотные характеристики резонирующих полостей речевого тракта. Собственные частоты резонаторов являются наиболее усиленными в акустической картине звука. Эти усиленные частоты называют формантами.
На данный момент существует несколько определений частоты форманты. Первое – частотой форманты называют частоту полюса фильтрующей функции речевого тракта. Второе – частотой форманты называют среднюю (средневзвешенную) частоту спектра в области соответствующей форманты. Третье – за частоты формант принимают частоты максимумов спектра. Наиболее общепринятым является третий вариант определения."
Частота основного тона напрямую зависит от частоты колебаний голосовых складок. Гармоники основного тона кратны по частоте основному тону. Я на этом форуме значения формант уже приводил.

Цитата Hobbit @ 17.01.08, 20:16

интересуют ссылки на публикации

Есть в этом форуме прикреплённая тема про основной тон, там кое-что найдёте. А ещё есть классики, например, Рабинер.

Сообщение отредактировано: kaa1 - 18.01.08, 04:45

Hobbit

Сообщ. #150 , 20.01.08, 00:33

Unregistered

"Гармоники основного тона уходят куда-то в район бесконечности" - имелись ввиду первые 4-5.
"частотные характеристики резонирующих полостей речевого тракта" - в каком диапазоне частот АЧХ имеет максимумы? Не в области ли ВЧ по отношения к первой строке? - отсюда второе возможное определение
"Второе – частотой форманты называют среднюю (средневзвешенную) частоту спектра в области соответствующей форманты." Можно чуть подетальнее объяснить?

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (15) « Первая ... 8 9 [10] 11 12 ... 14 15 все

[ Script execution time: 0.1029 ] [ 15 queries used ] [ Generated: 25.05.26, 07:33 GMT ]