
![]() |
Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
|
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[216.73.216.3] |
![]() |
|
Страницы: (15) « Первая ... 8 9 [10] 11 12 ... 14 15 все ( Перейти к последнему сообщению ) |
![]() |
Сообщ.
#136
,
|
|
Если набрать большую статистику по большому числу разных дикторов, можно выносить и независимые решения
![]() Добавлено Статья Ямов С.И., Кабак И.С., Курочкин С.Н., Бродин А.Г. МНОГОУРОВНЕВАЯ СИСТЕМА РАСПОЗНАВАНИЯ РЕЧИ http://magazine.stankin.ru/arch/n_01/con_sys/005.html Ну почитать можно |
Сообщ.
#137
,
|
|
|
Цитата nsh @ Если набрать большую статистику по большому числу разных дикторов, можно выносить и независимые решения ![]() Добавлено Статья Ямов С.И., Кабак И.С., Курочкин С.Н., Бродин А.Г. МНОГОУРОВНЕВАЯ СИСТЕМА РАСПОЗНАВАНИЯ РЕЧИ http://magazine.stankin.ru/arch/n_01/con_sys/005.html Ну почитать можно большое спасибо. |
Сообщ.
#138
,
|
|
|
Цитата navigator29 @ Подскажите, в какой программе можно получить вот такой график по конкретной фонеме? Нужна не спектрограмма, а спектр. А отсюда соответствующий вопрос. Спектрограмма имеет ось времени, в случае спектра её нет. Как в этом случае эта программа будет обрабатывать звукой файл, в котором время учитывается, как само собой разумеющееся. |
Сообщ.
#139
,
|
|
|
это, скорее всего, возможно только для стационарных звуков. А их немного. Можно вычислять средний спектр (в спектралабе), но это сомнительный способ. Что касается картинки, то, судя по надписи, изображен то ли звук "и", то ли звук "ы". А они могут иметь несколько реализаций и быть нестационарными
|
Сообщ.
#140
,
|
|
|
Цитата neurofish @ это, скорее всего, возможно только для стационарных звуков. А их немного. Можно вычислять средний спектр (в спектралабе), но это сомнительный способ. Что касается картинки, то, судя по надписи, изображен то ли звук "и", то ли звук "ы". А они могут иметь несколько реализаций и быть нестационарными Спектрлаб это что такое? Просто в книжках для некоторых звуков приводятся такие картинки, но не для всех. Я вот и хочу попробовать получить для некоторых других. Если это сомнительный способ, то как тогда эти какртинки авторы получали? |
![]() |
Сообщ.
#141
,
|
|
Да любая программа это умеет, Wavesurfer http://www.speech.kth.se/wavesurfer/download.html например:
![]() Praat, конечно, продвинутее, но им пользоваться сложнее. |
Сообщ.
#142
,
|
|
|
Цитата Спектрлаб это что такое? Spectralab - популярная программа анализа спектра Цитата Если это сомнительный способ, то как тогда эти какртинки авторы получали? сомнителен этот способ не тем, что нельзя получить такой спектр, а тем, что пользы от этого занятия мало будет |
Сообщ.
#143
,
|
|
|
Расчет спектра на времменом окне всегда дает лишь сечение спектрограммы, чтобы получить только классический компл. спектр, независимый от времени, надо взять фонограмму от минус бесконечности до плюс, что нереально.
|
Сообщ.
#144
,
|
|
|
Цитата neurofish @ сомнителен этот способ не тем, что нельзя получить такой спектр, а тем, что пользы от этого занятия мало будет А если на основе набранной статистики (для конкретного диктора) по конкретной фонеме попробовать изменять параметры цифрового фильтра для синтеза спектра, полученно по статистике. Разве так нельзя добиться более хорошего кчества синтеза? |
![]() |
Сообщ.
#145
,
|
|
Можно такое, только называется это не синтез а преобразование голоса (voice conversion/voice transformation). Записывается 30-40 предложений, строится матрица линейных пробразований, чтобы точно подгонять параметры мел-кепстра. Потом человек говорит, а его речь преобразуется в другой голос. Получается очень неплохо.
http://www.cs.cmu.edu/~awb/papers/icassp2005/0100009.pdf Исходники этого дела есть внутри festvox. |
Сообщ.
#146
,
|
|
|
Столкнулса вот с таким вопросом: опознавание тона (голоса) и формирование искуственного голоса по опознаним даним.
Может кто-нибуть что-нибуть посоветовать! Буду благодарен за подходящую литературу. Спасибо! ![]() |
Сообщ.
#147
,
|
|
|
Цитата Lebedev @ Как можно сказать по этим спектрограммам что это один звук? Нужно анализировать огибающую спектра. Для примера я прикрепил рисунок. Всплески на спектре кратны частоте основного тона (ОТ). А огибающая характеризует спектр резонаторов. В связи с тем что частота ОТ различная у разных дикторов точность определения огибающей меняется от диктора к диктору. У женских голосов частота ОТ максимальная и всвязи с этим огибающая получается не совсем точная. Добавлено Ко всему прочему важно при выполнении преобразования фурье учитывать что длина окна для различных дикторов постоянна, т.е. нужно использовать одну и ту же длину окна БПФ, для получения одной и той же частотной шкалы в результатах БПФ. От фонеме к фонеме спектры огибающих будут меняться и для нахождения областей в которых спектры различных фонем не пересекаюстя это отдельная задача. Прикреплённый файл ![]() |
Сообщ.
#148
,
|
|
|
Есть пара вопросов для уточнения, форманты: разные источники определяют несколько по-разному: 1- любой спектральный пик - форманта, 2- имеется область частоты ОТ с гармониками и более ВЧ-область формант, кто как понимает этот термин?
ПС Также изучаю вопрос о спектральных методах оценки ОТ. Поэтому интересуют ссылки на публикации. |
Сообщ.
#149
,
|
|
|
Цитата Hobbit @ имеется область частоты ОТ с гармониками и более ВЧ-область формант Гармоники основного тона уходят куда-то в район бесконечности, поэтому они не могут быть ниже по частоте, чем форманты. Есть, например, такая книга: Общая и прикладная фонетика: учеб. пособие / Л. В. Златоустова, Р. К. Потапова, В. В. Потапов, В. Н. Трунин-Донской. Выдержка из неё: "Наряду с частотой основного тона немаловажными параметрами, характеризующими вокализованный речевой сигнал, являются частоты формант. На форму звуковой волны, исходящей от голосового источника, накладываются частотные характеристики резонирующих полостей речевого тракта. Собственные частоты резонаторов являются наиболее усиленными в акустической картине звука. Эти усиленные частоты называют формантами. На данный момент существует несколько определений частоты форманты. Первое – частотой форманты называют частоту полюса фильтрующей функции речевого тракта. Второе – частотой форманты называют среднюю (средневзвешенную) частоту спектра в области соответствующей форманты. Третье – за частоты формант принимают частоты максимумов спектра. Наиболее общепринятым является третий вариант определения." Частота основного тона напрямую зависит от частоты колебаний голосовых складок. Гармоники основного тона кратны по частоте основному тону. Я на этом форуме значения формант уже приводил. Цитата Hobbit @ интересуют ссылки на публикации Есть в этом форуме прикреплённая тема про основной тон, там кое-что найдёте. А ещё есть классики, например, Рабинер. |
Сообщ.
#150
,
|
|
|
"Гармоники основного тона уходят куда-то в район бесконечности" - имелись ввиду первые 4-5.
"частотные характеристики резонирующих полостей речевого тракта" - в каком диапазоне частот АЧХ имеет максимумы? Не в области ли ВЧ по отношения к первой строке? - отсюда второе возможное определение "Второе – частотой форманты называют среднюю (средневзвешенную) частоту спектра в области соответствующей форманты." Можно чуть подетальнее объяснить? |