На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
Дорогие друзья! Поздравляем вас с днём Победы!
msm.ru
Модераторы: RaD, nsh
Страницы: (7) 1 2 [3] 4 5 ... Последняя » все  ( Перейти к последнему сообщению )  
> Алгоритм распознавания речи , выбор алгоритма
    Цитата Ungedonist @
    То есть надо для каждого слова хранить ещё и последовательность фонем в слове?

    Вы о транскрипции?
    Ну да. Или хотя бы иметь правила, как эту(эти) последовательность получить.
      Можно взгдянуть на то, как у тебя реализовано распознавание речи, начиная от самого начала?
      Так будет наглядней, понятнее. А то я наверно тебе уже надоел своими вопросами :)
        Ungedonist
        А Вы выложите тут свою распознавалку?
          Цитата Анатоль @
          Ungedonist
          А Вы выложите тут свою распознавалку?

          Когда всё сделаю, тогда выложу!
          Быть может, это кому-то поможет.
          Данная тема является темой моего диплома, вот и хочу сделать что-то стоящее)
            Ну что ж, давайте сделаем такой прецедент.
            Может ещё кто-то поддержит.
            Даю исходник "Васи".(REC42U.zip)
            Прикреплённый файлПрикреплённый файлRec42U.zip (7.11 Кбайт, скачиваний: 806)
              большое спасибо
                Анатоль
                А почему Вы считаете, что будущее распознавания за нейросетями? Потому что это мат. модель мозга?

                Я тут пытаюсь понять вышеописанную Вами модель НС для распознавания звука. Пока не очень получается понять, что там на входном слое.. Поможите?

                Цитата Анатоль @
                Во входном - максимальное число сегментов умножить на количество признаков в одной точке и умножить на количество точек (в которых вычисляются признаки) в сегменте.

                Совершенно не понятно как собираеются вот эти признаки.. Вообще, что тут имеется ввиду под признаками? Мощность сигнала на всех частотах звукового спектра? (чтобы таких частот не было слишком много - можно по порогу, наиболее мелкие отсеять, чтобы исключить незначительные, слабые частоты.. верно?).
                Получается, мы выбираем участок звука (который Вы называете сегментом, да?) и собираем что ли все его признаки/мощности на протяжении всего звукового сегмента?
                  Цитата Black*Eternal @
                  Пока не очень получается понять, что там на входном слое..

                  Единицей распознавания является целая фраза.
                  Она разбавается (автоматически) на сегменты (слоги).
                  Пусть ns - максимальное количество сегментов (в самой длинной фразе).
                  В каждом сегменте выбираем нек. количество точек, в которых вычисляем параметры.
                  Пусть nt - количество таких точек в сегменте.
                  В каждой такой точке вычисляем нек. акустические параметры.
                  Это какие-то характеристики огибающей спектра.
                  (Спектральные коэфициенты в шкале барк или мелл или какие-то их комбинации)
                  Пусть np - количество таких параметров.
                  Тогда общее количество чисел, поступающих на вход сети будет
                  N=ns*nt*np
                    А что значит, что фраза разбивается автоматически на слоги? А как она сама может разбиваться? Всмысле, определённым алгоритмом мы её разбиваем?

                    Я думал на вход - слог подавать :) предварительно уже выделенный из фразы/очередного слова..
                    Сообщение отредактировано: Black*Eternal -
                      Цитата Black*Eternal @
                      Я думал на вход - слог подавать предварительно уже выделенный из фразы/очередного слова..


                      Я тоже сейчас об этом подумываю.
                      Но в "Васе" на вход сети подаются одновременно все слоги фразы (предварительно выделенные). (Т.е. нек. акустические параметры из этих слогов).
                        Ну проще-то во всяком случае пока что распознавать только слог, а потом уже подключать сегментацию слов на слоги..
                        Наверное так я и поступлю по началу, а потом уже буду думать как улучшать это дело.

                        А для распознавания слога на вход НС чего нам подать нужно? Звуковой спектр этого слога? Это будет выглядеть как двумерный массив - по строчкам например индексы отсчётов, а по колонкам соответственно частоты и их мощность.. получается трёхмерный массив.. хм :)
                        Кстати, а как это всё в НС затолкать?

                        Добавлено
                        а хотя.. туплю чё-то я. Берём на входы и прямо на все подаём весь спектр звука, соответственно на каждый вход - мощность очередной частоты.
                        Предварительно видать прийдётся нормировать значения мощности на отрезок -1, +1 или какой-то такой. Не помню уже какой диапазон чисел с какими активационными функциями работает. Посмотрим.
                        Сообщение отредактировано: Black*Eternal -
                          Сегментация всё-таки нужна.
                          Нужна точка перехода согласной в гласную.
                          А потом от этой точки можно взять по штук 3-5 точек влево и вправо.
                          И для каждой из них вектор параметров.
                          И это будет надёжной входной информацией для определения дифона.
                          Можно, конечно и по другому.
                            Сегментация, всмысле, нужна даже для того случая когда мы подаём на вход один слог и на выходе пытаемся получить ответ, что это за слог?

                            Пока я не очень понимаю как там можно отслеживать переходы с согласной на гласную и наоборот.. поэтому наверное прийдётся пока что - по другому :D
                            Может, очень резкая смена спектровых частот говорит о переходе на следующую букву? Или какие там ещё могут быть особенности?
                            Сообщение отредактировано: Black*Eternal -
                              Цитата Black*Eternal @
                              когда мы подаём на вход один слог и на выходе пытаемся получить ответ, что это за слог?

                              Вы собираетесь вручную определять границы слога?
                              Тогда что Вам мешает вручную задать и границы фонем?
                                Цитата Анатоль @
                                Вы собираетесь вручную определять границы слога?

                                ну как.. у меня же в начале только один слог и будет на входе :D а уж позже "когда-нибудь", я буду сегментированием заниматься, чтобы в написанный код эти слоги подавать. А пока что с одним слогом научить бы его.

                                Цитата Анатоль @
                                Тогда что Вам мешает вручную задать и границы фонем?

                                а зачем их задавать? пусть себе слог распознаёт :) хотя... скорее всего "затянутые" гласные оно навряд ли распознает тогда? Например: "ба" и "бааааа".

                                Добавлено
                                Кстати... по поводу протяжной буквы. Я вот тяну сейчас букву "а" и смотрю насколько со временем звучания изменяется спектр.. И изменяется, надо сказать, не сильно. В принципе, грубо говоря - один и тот же. Плюс/минус. Таким образом, может все последующие похожие спектры просто не учитывать?
                                Вот получили мы спектр буквы "а" и далее у нас "аааа" всё звучит. А спектр-то почти один и тот же.. и мы далее его просто игнорируем, раз он похожий..
                                Как такая идея?

                                Добавлено
                                таким образом у нас, что одна "а", что протяжная - будет всего лишь одним спектром представлено, одним всплеском.. Или так проблему "скорости речи" не решить?

                                Добавлено
                                но скорее всего, конечно, не неучитывать надо, а усреднить, я имел ввиду.

                                Добавлено
                                хотя тут походу я говорю об усреднении фонемы, но слог ведь по-любому прийдётся как-то разделить на фонемы...
                                Сообщение отредактировано: Black*Eternal -
                                1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)
                                0 пользователей:


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0633 ]   [ 14 queries used ]   [ Generated: 12.05.24, 02:35 GMT ]