Алгоритм распознавания речи -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [18.224.53.202]

Дорогие друзья! Поздравляем вас с днём Победы!

Модераторы: RaD, nsh

Новое голосование

Алгоритм распознавания речи , выбор алгоритма

Анатоль	Сообщ. #31 , 19.10.09, 04:36
Full Member Профиль · PM Поощрения: 2 Dgm Рейтинг (т): 6	Цитата Ungedonist @ 18.10.09, 18:14 То есть надо для каждого слова хранить ещё и последовательность фонем в слове? Вы о транскрипции? Ну да. Или хотя бы иметь правила, как эту(эти) последовательность получить.

Ungedonist	Сообщ. #32 , 19.10.09, 09:50
Unregistered	Можно взгдянуть на то, как у тебя реализовано распознавание речи, начиная от самого начала? Так будет наглядней, понятнее. А то я наверно тебе уже надоел своими вопросами

Анатоль	Сообщ. #33 , 19.10.09, 11:34
Full Member Профиль · PM Поощрения: 2 Dgm Рейтинг (т): 6	Ungedonist А Вы выложите тут свою распознавалку?

Ungedonist	Сообщ. #34 , 19.10.09, 13:23
Unregistered	Цитата Анатоль @ 19.10.09, 11:34 Ungedonist А Вы выложите тут свою распознавалку? Когда всё сделаю, тогда выложу! Быть может, это кому-то поможет. Данная тема является темой моего диплома, вот и хочу сделать что-то стоящее)

Анатоль	Сообщ. #35 , 19.10.09, 16:31
Full Member Профиль · PM Поощрения: 2 Dgm Рейтинг (т): 6	Ну что ж, давайте сделаем такой прецедент. Может ещё кто-то поддержит. Даю исходник "Васи".(REC42U.zip) Прикреплённый файлRec42U.zip (7.11 Кбайт, скачиваний: 806)

Ungedonist	Сообщ. #36 , 20.10.09, 21:02
Unregistered	большое спасибо

Black*Eternal

Сообщ. #37 , 07.11.09, 20:29

Member

Профиль · PM

Рейтинг (т): 0

Анатоль
А почему Вы считаете, что будущее распознавания за нейросетями? Потому что это мат. модель мозга?

Я тут пытаюсь понять вышеописанную Вами модель НС для распознавания звука. Пока не очень получается понять, что там на входном слое.. Поможите?

Цитата Анатоль @ 10.02.09, 09:13

Во входном - максимальное число сегментов умножить на количество признаков в одной точке и умножить на количество точек (в которых вычисляются признаки) в сегменте.

Совершенно не понятно как собираеются вот эти признаки.. Вообще, что тут имеется ввиду под признаками? Мощность сигнала на всех частотах звукового спектра? (чтобы таких частот не было слишком много - можно по порогу, наиболее мелкие отсеять, чтобы исключить незначительные, слабые частоты.. верно?).
Получается, мы выбираем участок звука (который Вы называете сегментом, да?) и собираем что ли все его признаки/мощности на протяжении всего звукового сегмента?

Анатоль

Сообщ. #38 , 08.11.09, 05:36

Full Member

Профиль · PM

Поощрения: 2 Dgm

Рейтинг (т): 6

Цитата Black*Eternal @ 07.11.09, 20:29

Пока не очень получается понять, что там на входном слое..

Единицей распознавания является целая фраза.
Она разбавается (автоматически) на сегменты (слоги).
Пусть ns - максимальное количество сегментов (в самой длинной фразе).
В каждом сегменте выбираем нек. количество точек, в которых вычисляем параметры.
Пусть nt - количество таких точек в сегменте.
В каждой такой точке вычисляем нек. акустические параметры.
Это какие-то характеристики огибающей спектра.
(Спектральные коэфициенты в шкале барк или мелл или какие-то их комбинации)
Пусть np - количество таких параметров.
Тогда общее количество чисел, поступающих на вход сети будет
N=ns*nt*np

Black*Eternal

Сообщ. #39 , 08.11.09, 10:41

Member

Профиль · PM

Рейтинг (т): 0

А что значит, что фраза разбивается автоматически на слоги? А как она сама может разбиваться? Всмысле, определённым алгоритмом мы её разбиваем?

Я думал на вход - слог подавать

предварительно уже выделенный из фразы/очередного слова..

Сообщение отредактировано: Black*Eternal - 08.11.09, 10:41

Анатоль

Сообщ. #40 , 08.11.09, 10:54

Full Member

Профиль · PM

Поощрения: 2 Dgm

Рейтинг (т): 6

Цитата Black*Eternal @ 08.11.09, 10:41

Я думал на вход - слог подавать предварительно уже выделенный из фразы/очередного слова..

Я тоже сейчас об этом подумываю.
Но в "Васе" на вход сети подаются одновременно все слоги фразы (предварительно выделенные). (Т.е. нек. акустические параметры из этих слогов).

Black*Eternal

Сообщ. #41 , 08.11.09, 14:37

Member

Профиль · PM

Рейтинг (т): 0

Ну проще-то во всяком случае пока что распознавать только слог, а потом уже подключать сегментацию слов на слоги..
Наверное так я и поступлю по началу, а потом уже буду думать как улучшать это дело.

А для распознавания слога на вход НС чего нам подать нужно? Звуковой спектр этого слога? Это будет выглядеть как двумерный массив - по строчкам например индексы отсчётов, а по колонкам соответственно частоты и их мощность.. получается трёхмерный массив.. хм

Кстати, а как это всё в НС затолкать?

Добавлено
а хотя.. туплю чё-то я. Берём на входы и прямо на все подаём весь спектр звука, соответственно на каждый вход - мощность очередной частоты.
Предварительно видать прийдётся нормировать значения мощности на отрезок -1, +1 или какой-то такой. Не помню уже какой диапазон чисел с какими активационными функциями работает. Посмотрим.

Сообщение отредактировано: Black*Eternal - 08.11.09, 15:25

Анатоль

Сообщ. #42 , 08.11.09, 15:49

Full Member

Профиль · PM

Поощрения: 2 Dgm

Рейтинг (т): 6

Сегментация всё-таки нужна.
Нужна точка перехода согласной в гласную.
А потом от этой точки можно взять по штук 3-5 точек влево и вправо.
И для каждой из них вектор параметров.
И это будет надёжной входной информацией для определения дифона.
Можно, конечно и по другому.

Black*Eternal

Сообщ. #43 , 08.11.09, 17:59

Member

Профиль · PM

Рейтинг (т): 0

Сегментация, всмысле, нужна даже для того случая когда мы подаём на вход один слог и на выходе пытаемся получить ответ, что это за слог?

Пока я не очень понимаю как там можно отслеживать переходы с согласной на гласную и наоборот.. поэтому наверное прийдётся пока что - по другому

Может, очень резкая смена спектровых частот говорит о переходе на следующую букву? Или какие там ещё могут быть особенности?

Сообщение отредактировано: Black*Eternal - 08.11.09, 18:01

Анатоль	Сообщ. #44 , 08.11.09, 18:32
Full Member Профиль · PM Поощрения: 2 Dgm Рейтинг (т): 6	Цитата Black*Eternal @ 08.11.09, 17:59 когда мы подаём на вход один слог и на выходе пытаемся получить ответ, что это за слог? Вы собираетесь вручную определять границы слога? Тогда что Вам мешает вручную задать и границы фонем?

Black*Eternal

Сообщ. #45 , 08.11.09, 19:02

Member

Профиль · PM

Рейтинг (т): 0

Цитата Анатоль @ 08.11.09, 18:32

Вы собираетесь вручную определять границы слога?

ну как.. у меня же в начале только один слог и будет на входе

а уж позже "когда-нибудь", я буду сегментированием заниматься, чтобы в написанный код эти слоги подавать. А пока что с одним слогом научить бы его.

Цитата Анатоль @ 08.11.09, 18:32

Тогда что Вам мешает вручную задать и границы фонем?

а зачем их задавать? пусть себе слог распознаёт

хотя... скорее всего "затянутые" гласные оно навряд ли распознает тогда? Например: "ба" и "бааааа".

Добавлено 08.11.09, 19:27
Кстати... по поводу протяжной буквы. Я вот тяну сейчас букву "а" и смотрю насколько со временем звучания изменяется спектр.. И изменяется, надо сказать, не сильно. В принципе, грубо говоря - один и тот же. Плюс/минус. Таким образом, может все последующие похожие спектры просто не учитывать?
Вот получили мы спектр буквы "а" и далее у нас "аааа" всё звучит. А спектр-то почти один и тот же.. и мы далее его просто игнорируем, раз он похожий..
Как такая идея?

Добавлено 08.11.09, 19:29
таким образом у нас, что одна "а", что протяжная - будет всего лишь одним спектром представлено, одним всплеском.. Или так проблему "скорости речи" не решить?

Добавлено 08.11.09, 19:32
но скорее всего, конечно, не неучитывать надо, а усреднить, я имел ввиду.

Добавлено 08.11.09, 19:33
хотя тут походу я говорю об усреднении фонемы, но слог ведь по-любому прийдётся как-то разделить на фонемы...

Сообщение отредактировано: Black*Eternal - 08.11.09, 19:33

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (7) 1 2 [3] 4 5 ... Последняя » все

[ Script execution time: 0,0633 ] [ 14 queries used ] [ Generated: 12.05.24, 02:35 GMT ]