Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[18.224.53.202] |
|
Страницы: (7) 1 2 [3] 4 5 ... Последняя » все ( Перейти к последнему сообщению ) |
Сообщ.
#31
,
|
|
|
Вы о транскрипции? Ну да. Или хотя бы иметь правила, как эту(эти) последовательность получить. |
Сообщ.
#32
,
|
|
|
Можно взгдянуть на то, как у тебя реализовано распознавание речи, начиная от самого начала?
Так будет наглядней, понятнее. А то я наверно тебе уже надоел своими вопросами |
Сообщ.
#33
,
|
|
|
Ungedonist
А Вы выложите тут свою распознавалку? |
Сообщ.
#34
,
|
|
|
Цитата Анатоль @ Ungedonist А Вы выложите тут свою распознавалку? Когда всё сделаю, тогда выложу! Быть может, это кому-то поможет. Данная тема является темой моего диплома, вот и хочу сделать что-то стоящее) |
Сообщ.
#35
,
|
|
|
Ну что ж, давайте сделаем такой прецедент.
Может ещё кто-то поддержит. Даю исходник "Васи".(REC42U.zip) Прикреплённый файлRec42U.zip (7.11 Кбайт, скачиваний: 806) |
Сообщ.
#36
,
|
|
|
большое спасибо
|
Сообщ.
#37
,
|
|
|
Анатоль
А почему Вы считаете, что будущее распознавания за нейросетями? Потому что это мат. модель мозга? Я тут пытаюсь понять вышеописанную Вами модель НС для распознавания звука. Пока не очень получается понять, что там на входном слое.. Поможите? Цитата Анатоль @ Во входном - максимальное число сегментов умножить на количество признаков в одной точке и умножить на количество точек (в которых вычисляются признаки) в сегменте. Совершенно не понятно как собираеются вот эти признаки.. Вообще, что тут имеется ввиду под признаками? Мощность сигнала на всех частотах звукового спектра? (чтобы таких частот не было слишком много - можно по порогу, наиболее мелкие отсеять, чтобы исключить незначительные, слабые частоты.. верно?). Получается, мы выбираем участок звука (который Вы называете сегментом, да?) и собираем что ли все его признаки/мощности на протяжении всего звукового сегмента? |
Сообщ.
#38
,
|
|
|
Цитата Black*Eternal @ Пока не очень получается понять, что там на входном слое.. Единицей распознавания является целая фраза. Она разбавается (автоматически) на сегменты (слоги). Пусть ns - максимальное количество сегментов (в самой длинной фразе). В каждом сегменте выбираем нек. количество точек, в которых вычисляем параметры. Пусть nt - количество таких точек в сегменте. В каждой такой точке вычисляем нек. акустические параметры. Это какие-то характеристики огибающей спектра. (Спектральные коэфициенты в шкале барк или мелл или какие-то их комбинации) Пусть np - количество таких параметров. Тогда общее количество чисел, поступающих на вход сети будет N=ns*nt*np |
Сообщ.
#39
,
|
|
|
А что значит, что фраза разбивается автоматически на слоги? А как она сама может разбиваться? Всмысле, определённым алгоритмом мы её разбиваем?
Я думал на вход - слог подавать предварительно уже выделенный из фразы/очередного слова.. |
Сообщ.
#40
,
|
|
|
Цитата Black*Eternal @ Я думал на вход - слог подавать предварительно уже выделенный из фразы/очередного слова.. Я тоже сейчас об этом подумываю. Но в "Васе" на вход сети подаются одновременно все слоги фразы (предварительно выделенные). (Т.е. нек. акустические параметры из этих слогов). |
Сообщ.
#41
,
|
|
|
Ну проще-то во всяком случае пока что распознавать только слог, а потом уже подключать сегментацию слов на слоги..
Наверное так я и поступлю по началу, а потом уже буду думать как улучшать это дело. А для распознавания слога на вход НС чего нам подать нужно? Звуковой спектр этого слога? Это будет выглядеть как двумерный массив - по строчкам например индексы отсчётов, а по колонкам соответственно частоты и их мощность.. получается трёхмерный массив.. хм Кстати, а как это всё в НС затолкать? Добавлено а хотя.. туплю чё-то я. Берём на входы и прямо на все подаём весь спектр звука, соответственно на каждый вход - мощность очередной частоты. Предварительно видать прийдётся нормировать значения мощности на отрезок -1, +1 или какой-то такой. Не помню уже какой диапазон чисел с какими активационными функциями работает. Посмотрим. |
Сообщ.
#42
,
|
|
|
Сегментация всё-таки нужна.
Нужна точка перехода согласной в гласную. А потом от этой точки можно взять по штук 3-5 точек влево и вправо. И для каждой из них вектор параметров. И это будет надёжной входной информацией для определения дифона. Можно, конечно и по другому. |
Сообщ.
#43
,
|
|
|
Сегментация, всмысле, нужна даже для того случая когда мы подаём на вход один слог и на выходе пытаемся получить ответ, что это за слог?
Пока я не очень понимаю как там можно отслеживать переходы с согласной на гласную и наоборот.. поэтому наверное прийдётся пока что - по другому Может, очень резкая смена спектровых частот говорит о переходе на следующую букву? Или какие там ещё могут быть особенности? |
Сообщ.
#44
,
|
|
|
Цитата Black*Eternal @ когда мы подаём на вход один слог и на выходе пытаемся получить ответ, что это за слог? Вы собираетесь вручную определять границы слога? Тогда что Вам мешает вручную задать и границы фонем? |
Сообщ.
#45
,
|
|
|
Цитата Анатоль @ Вы собираетесь вручную определять границы слога? ну как.. у меня же в начале только один слог и будет на входе а уж позже "когда-нибудь", я буду сегментированием заниматься, чтобы в написанный код эти слоги подавать. А пока что с одним слогом научить бы его. Цитата Анатоль @ Тогда что Вам мешает вручную задать и границы фонем? а зачем их задавать? пусть себе слог распознаёт хотя... скорее всего "затянутые" гласные оно навряд ли распознает тогда? Например: "ба" и "бааааа". Добавлено Кстати... по поводу протяжной буквы. Я вот тяну сейчас букву "а" и смотрю насколько со временем звучания изменяется спектр.. И изменяется, надо сказать, не сильно. В принципе, грубо говоря - один и тот же. Плюс/минус. Таким образом, может все последующие похожие спектры просто не учитывать? Вот получили мы спектр буквы "а" и далее у нас "аааа" всё звучит. А спектр-то почти один и тот же.. и мы далее его просто игнорируем, раз он похожий.. Как такая идея? Добавлено таким образом у нас, что одна "а", что протяжная - будет всего лишь одним спектром представлено, одним всплеском.. Или так проблему "скорости речи" не решить? Добавлено но скорее всего, конечно, не неучитывать надо, а усреднить, я имел ввиду. Добавлено хотя тут походу я говорю об усреднении фонемы, но слог ведь по-любому прийдётся как-то разделить на фонемы... |