Распознавание гласных звуков -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.52]

Модераторы: RaD, nsh

Новое голосование

Распознавание гласных звуков

immort001

Сообщ. #1 , 27.07.13, 17:17

Newbie

Профиль · PM

Рейтинг (т): нет

Уважаемые участники форума!

Ответьте, пожалуйста, на следующий вопрос: реально ли создать систему распознавания гласных звуков
по форме звуковой волны? и если нет, то почему? Был бы очень рад, если бы кто-то сказал, что этот
метод применяется (поиск ничего не дал, или плохо искал).

nsh

Сообщ. #2 , 28.07.13, 07:36

Moderator

Профиль · PM

Сначала нужно понять, что такое "форма звуковой волны". Гармоники звука могут быть сдвинуты по фазе, при этом звук сам почти не изменится, а значения амплитуд изменятся существенно.

В системах распознавания важно учитывать внутренние инварианты, такие как инвариантность к амплитуде, инвариантность к сдвигу. Без учёта инвариантов распознавание будет значительно менее надёжным.

immort001

Сообщ. #3 , 28.07.13, 08:38

Newbie

Профиль · PM

Рейтинг (т): нет

Принцип то вот какой подразумевается: есть запись звука [а], запись анализируется, так как звук гласный, то эта запись по большей
части будет состоять из периодов, похожих друг на друга. Эти периоды выделяются и в дальнейшем используются для распознавания
этого звука, произнесённого отдельно.

nsh

Сообщ. #4 , 28.07.13, 09:50

Moderator

Профиль · PM

Цитата

Принцип то вот какой подразумевается: есть запись звука [а], запись анализируется, так как звук гласный, то эта запись по большей части будет состоять из периодов, похожих друг на друга. Эти периоды выделяются и в дальнейшем используются для распознавания этого звука, произнесённого отдельно.

А форма звуковой волны тут причём?

immort001

Сообщ. #5 , 28.07.13, 10:02

Newbie

Профиль · PM

Рейтинг (т): нет

Форма звуковой волны эквивалентна временному представлению оцифрованного звукового сигнала.
Разве не так?
Поэтому если использовать описанный алгоритм, тогда распознавание как раз и выполняется по форме звуковой волны.
Если бы сигнал преобразовывался в частотную область, тогда по спектру.

TViT

Сообщ. #6 , 28.07.13, 11:26

Member

Профиль · PM

Рейтинг (т): 0

immort001 А если я в ладоши хлопну или дверью, форма огибающей сигнала будет как у вас - что вы будете пытаться распознавать???
Если же вы имеете ввиду распознавание по самому сигналу, то потребуются какие-то слепки с чем сравнивать. Например набор вейвлетов небольших функций разной формы. И придется опять же проходить этими вейвлетами по всему сигналу чтобы выяснить совпадение и развитие во времени той или иной формы в определенный момент.

Сообщение отредактировано: TViT - 28.07.13, 12:02

antonsrv8

Сообщ. #7 , 28.07.13, 11:28

Member

Профиль · PM

Рейтинг (т): 2

Цитата immort001 @ 28.07.13, 10:02

Поэтому если использовать описанный алгоритм, тогда распознавание как раз и выполняется по форме звуковой волны.

Только алгоритм этот никуда не годится и работать не будет:

Цитата nsh @ 28.07.13, 07:36

Гармоники звука могут быть сдвинуты по фазе, при этом звук сам почти не изменится, а значения амплитуд изменятся существенно.

То же самое немного другими словами и подробнее: форма звуковой волны НЕ ЯВЛЯЕТСЯ ИНВАРИАНТОМ. Проходя по каналам связи форма изменяется до неузнаваемости, а звуки не меняются. То есть человеческое ухо НЕ ВОСПРИНИМАЕТ ФАЗУ СПЕКТРАЛЬНЫХ КОМПОНЕНТ, ТОЛЬКО АМПЛИТУДУ (сам проверял). Природа этим пользуется и не заботится о форме волны. Так что любой алгоритм должен опираться на амплитудный спектр в той или иной форме (Фурье, КЛП, вейвлеты...)

По сути задачи - бесполезная и бессмыссленная. Из-за коартикуляции в естественной речи результаты распознавания будут более-менее приличными только для ударных гласных.

immort001

Сообщ. #8 , 29.07.13, 04:58

Newbie

Профиль · PM

Рейтинг (т): нет

Цитата TViT @ 28.07.13, 11:26

После хлопка дверью, конечно, звук [и] не появится.

Использование вейвлетов или Фурье, конечно же, подразумевалось (просто я забыл про это написать

)

Добавлено 29.07.13, 05:00

Цитата nsh @ 28.07.13, 07:36

В системах распознавания важно учитывать внутренние инварианты, такие как инвариантность к амплитуде, инвариантность к сдвигу. Без учёта инвариантов распознавание будет значительно менее надёжным.

т.е. нужно создать описание, которое будет инвариантно к изменению амплитуды?

а вот что вы подразумеваете под инвариантностью к сдвигу?

TViT

Сообщ. #9 , 29.07.13, 06:49

Member

Профиль · PM

Рейтинг (т): 0

Цитата

После хлопка дверью, конечно, звук [и] не появится.

А никто и не говорил что хлопок дверью способен генерировать какие либо гласные, хотя если дверь упруго колеблется после хлопка, то что-то вроде звука "у" может получится.

Разговор шел про форму волны сигнала. Поэтому и сказано было что форма, но не частота или переходы вразные частоты в нутри сигнала, похожая на ту которую вы ждет и пытаетесь распознать может проявится от внешних факторов и наложений различных звуков.

Инвариантность нужно обеспечить максимально по всем изменяющимся не основным параметрам - во времени, к амплитуде в какой-то мере к частоте, потому как женщина скажет слово оно будет выше по частоте, чем у мужчины, но иметь вид примерно одинаковый, а может и координально отличатся например если голос зашумлен (кстати шумы и эхо нужно тоже учитывать как абстрагирование от основных параметров распознавания в своей системе) или хриплый и т.д. и т.п.

Сообщение отредактировано: TViT - 29.07.13, 06:54

panfilovss

Сообщ. #10 , 29.07.13, 08:15

Newbie

Профиль · PM

Рейтинг (т): нет

immort001, рекомендую Вам почитать статьи Шелепова В.Ю. Список его работ можно посмотреть тут. Большинство из них печатались в журнале "Искусственный интеллект" и их можно найти в архиве НАН Украины.

Автор предлагает достаточно простые в реализации методы детектирования гласных и голосовых согласных фонем и их распознавания как раз на основе анализа АВП сигнала. Первую задачу он решает путем поиска квазипериодичных участков в звуковом потоке. Вторую (распознавание) - с помощью полосовых фильтров и попарных классификаторов.
Пример распознавателя есть тут. Владислав Юрьевич написал монографию, где все эти методы изложены достаточно подробно. Возможно, она есть где-то в интернете.

У меня был практический опыт работы с этими методами и я согласен с предыдущими комментаторами в том, что качество таких методов напрямую зависит от условий записи.

Haze

Сообщ. #11 , 30.07.13, 19:55

Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 3

Цитата immort001 @ 28.07.13, 08:38

так как звук гласный, то эта запись по большей
части будет состоять из периодов, похожих друг на друга.

надо гнать такие мысли из головы, если, конечно, не распознавание звуков только одного человека делаете.

immort001	Сообщ. #12 , 30.07.13, 20:31
Newbie Профиль · PM Рейтинг (т): нет	Цитата panfilovss @ 29.07.13, 08:15 Спасибо! скачал, изучаю. Цитата Haze @ 30.07.13, 19:55 А что, если не по осциллограмме сигнала это делать, а по спектрам периодов сигнала?

nsh	Сообщ. #13 , 31.07.13, 15:29
Moderator Профиль · PM	Цитата А что, если не по осциллограмме сигнала это делать, а по спектрам периодов сигнала? Будет получше. А если кепстр рассмотреть, ещё лучше будет.

immort001	Сообщ. #14 , 31.07.13, 19:34
Newbie Профиль · PM Рейтинг (т): нет	Цитата nsh @ 31.07.13, 15:29 Цитата А что, если не по осциллограмме сигнала это делать, а по спектрам периодов сигнала? Будет получше. А если кепстр рассмотреть, ещё лучше будет. а какой самый лучший способ?

nsh	Сообщ. #15 , 01.08.13, 15:49
Moderator Профиль · PM	Цитата а какой самый лучший способ? Лучшее враг хорошего.

Haze	Сообщ. #16 , 03.08.13, 10:44
Member Профиль · PM Поощрения: 1 Dgm Рейтинг (т): 3	Цитата immort001 @ 30.07.13, 20:31 Цитата (Haze @ 30 июля, 22:55) А что, если не по осциллограмме сигнала это делать, а по спектрам периодов сигнала? Делайте на основе MFCC и не изобретайте велосипед. Все делали -- у всех работает.

immort001	Сообщ. #17 , 07.08.13, 13:10
Newbie Профиль · PM Рейтинг (т): нет	Цитата nsh @ 01.08.13, 15:49 Цитата а какой самый лучший способ? Лучшее враг хорошего. Хорошо, а какие тогда ещё можно использовать способы?

webcoder88

Сообщ. #18 , 21.11.15, 10:40

Junior

Профиль · PM

Рейтинг (т): нет

Мел-кепстральные коэффициенты привязаны к конкретному голосу диктора. Этот метод лучше использовать в системах идентификации человека по голосу.
В свое время я программно резал гласные на периоды и сравнивал на графике (нужна расяжка, тк период понемногу изменяется в соответствии с интонацией) и даже пытался вычитать периоды друг из друга. Для выделения границ фонем использовал временной сдвиг на 1 период и вычитание сигналов по всему файлов. В теории должно что-то получится, а на практике ничего не получилось. Если из значений звукового файла вычесть те же значения его копии, то получается 0, те сдвигаешь на 1 период и получаются всплески на границах и прямая линия на остальном участке.

Лучше не пробовать.

Сообщение отредактировано: webcoder88 - 21.11.15, 10:49

zamir

Сообщ. #19 , 21.11.15, 12:18

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Цитата

Мел-кепстральные коэффициенты привязаны к конкретному голосу диктора.

Это не сильно мешает распознаванию гласных звуков. Усреднённые модели дают не плохой результат. Если в процессе распознавания адаптироваться к речевому тракту диктора, то результат распозвания гласных станет даже очень хорошим. В интернет есть результаты экспереминтов распознавания гласных при помощи формант при усреднении по всем дикторам и усреднении по распознаваемому диктору - результаты вполне причные, и это при том что признаков гораздо меньше чем в mfcc.

Сообщение отредактировано: zamir - 21.11.15, 22:14

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0411 ] [ 14 queries used ] [ Generated: 26.03.26, 18:04 GMT ]