На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (15) « Первая ... 13 14 [15]  все  ( Перейти к последнему сообщению )  
> Фонемное распознавание речи
    Значит че сразу: 1 и тот же спектрально звук в разных контекстах слышится человеком как разные фонемы - проверено.
    С детекторами скачков тоже не так все просто: в реальной речи 99% сильно недоартикулированно, порой даже глухие взрывные смазываются, про Л и гласный-гласный я ва-аще молчу.
      Цитата
      По современным представлениям слух использует два разных алгоритма кодирования сигнала.
      1. На частотах до 3-4 кГц кодируется форма сигнала. Нейроны имеют разные пороги срабатывания, поэтому сигнал кодируется номером нейрона с самым высоким порогом и числом сработавших нейронов. Однако частота следования импульсов в отдельно взятом нейроне не может превышать 300-400 Гц, т.к. на выделение медиатора и восстановление электрического равновесия уходит 1-2 мс. Поэтому на средних частотах близкорасположенные нейроны объединяются в группу (до 10 нейронов) и возбуждаются периодами сигнала по очереди (это положение называется теорией залпов). Этот алгоритм требует периодической структуры сигнала на протяжение порядка 10 периодов, что в частотной области означает узкополосный сигнал с шириной полосы около 300-400 Гц. Это обеспечивается функциональной фильтрацией сигнала в улитке. Таким образом, диапазон частот кодируемого сигнала достигает 3-4 кГц.

      Если частота следования импульсов в нейроне не может превышать 300-400Гц, то он не заметит импульсы с частотой больше 400Гц.
      Здесь полная аналогия с делителями входной частоты цифровых частотомеров. Допустим, частотомер собран на микросхемах серии K176 с максимальной рабочей частотой 2000кГц. Тогда предельная частота, измеряемая частотомером равна 2000кГц. Для расширения диапазона входной сигнал делят на 10, т.е. ставили декаду, например, на счетчике K155ИЕ2, предельная частота которого 10-15МГц или К531ИЕ14 (40МГц).
      Таким образом, декада из 10 нейронов выдаст выходной импульс только при длине импульсной последовательности в 4000Гц.
      Значит, входные нейроны либо способны регистриовать импульсы, следующие с частотой более 400Гц, но делят их на некий коэффициент, тк собственная максимальная частота генерации нейронов не превышает 300-400Гц, либо теряют часть импульсов, либо функционирует по-другому.

      Добавлено
      Возможно, что все поле состоит из одинаковых нейронов, каждый нейрон соответствует определенной частоте. Выбирает частоту механическая система слухового аппарата, а нейроны преобразуют амплитуду сигнала в частоту следования импульсов.
        Не менее интересная задача - выделение речевого сигнала от шумов и музыкального сопровождения.
        Самым перспективным направлением является обработка спектрограмм звукового сигнала. В источниках часто пишут, что речевой сигнал очень изменчив. А если использовать это свойство для его детектирования и очистки о остальных шумов. Если посмотреть на спектрограммы в Adobe Audition CS, можно заметить характерные формантные кривые речевого сигнала. Как правило, они имеют большую плотность энергии. Речь имеет много высших гармоник, которые можно отфильтровать режекторным фильтром.
        Можно наложить решетку с шагом, кратным мгновенному значению частоты основного сигнала и обнулить их.

        1. Можно представить речевой сигнал в виде текстр наложенных одна на другую.
        2. В виде объекта (четкое изображение неподвижного камня, смазанное изображение летящего камня).
        3. Если выводить или обрабатывать график вертикального участка спектрограммы. Частота основного тона будет совершать характерное движение вокруг некоторого среднего значения, что ловится с помощью детектора движения ;)
        Если форманты шума или музыки колеблются с меньшей амплитудой, то при некоторой чувств-ти детектора движения, он их не заметит.
        Вспомните глаз лягушки.
        Есть желание написать программу и проверить?
          Если я вас правильно понял, то такой подход сможет немного подавить шум.
          Для качественной очистки надо использовать машинное обучение.
          0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
          0 пользователей:


          Рейтинг@Mail.ru
          [ Script execution time: 0,0272 ]   [ 15 queries used ]   [ Generated: 29.03.24, 12:45 GMT ]