На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (3) 1 2 [3]  все  ( Перейти к последнему сообщению )  
> MFCC
    Народ а подскажите в чем смысл DCT. Читал про MFCC там на графиках показано что LPC, MFCC после DCT это коэффициенты которые огибают спектр что-то типа усреднения. Экспериментировал у себя по всякому после гребенки фильтров DCT, получается либо какой-то градиент, либо просто коэффициенты не похожие на спектр огибания. Да и примеры сколько не скачивал по DCT тоже спектр там не получается всегда квантуется или фильтруется и потом инверсное DCT.
    В чем проблема нужно делать квантование после DCT и потом инверсное DCT ? Чтобы получить как бы сжатые данные, информации о спектре?

    А если LPC и MFCC коэффициенты это упрощение и усреднение спектра для уменьшения данных, то почему не сделать просто скользящее среднее по спектру получится таже самая огибиющая спектра?
    Я правильно мыслю?




    Вот картинка от сюда ->
    Aldebaro Klautau - 11/22/05
    How are MFCCs used in speech recognition
    Прикреплённый файлПрикреплённый файлCoeffs.JPG (71,56 Кбайт, скачиваний: 608)
    Сообщение отредактировано: TViT -
      Квантование - вами выбрано правильное слово
      Задача DCT сделать квантование
      Получаем например 13 коэффициентов квантования
      Если будем смотреть только первый коэффициент - видим изменение большого кванта энергии
      Следующий коэффициент - квант энергии меньшего размера (второй наиболее значимый признак)
      и т.д.

      MFCC часто сравнивают с PCA - т.е. в обоих случаях выделяются главные компоненты которые упорядочены в порядке уменьшения их значимости

      Упорядоченные признаки нужны системе распознавания
      Сообщение отредактировано: zamir -
        zamir ну тык инверсное DCT делать нужно??? Чтобы обратно к спектру вернуться, только с потерей информации. А если инверсное DCT не делать, то огибающей спектра не получится, будут просто коэффициенты косинусного преобразования.
        Первый самый значащий коэффициент, а остальные менее значащие, если обнулить, то будет соответственно уровень сжатия с потерей начальных спектральных данных. И всегда коэффициент первый самый главный, а остальные можно обнулять это влияет на сжатие и потерю информации о спектре. Это же не огибающая спектра получится. Вот инверсное DCT вернет обратно в спектр и получится спектральная информация, только сжатая с потерей качества.

        А 13 первых коэффициентов, это при условии что 20 фильтров во временном окне, например слово делиться тоже на 20 временных окон, тайм слотов? Если фильтров например 30 то нужно первые 20 коэффициентов брать? Иначе потери информации о спектре будут сильными при сжатии.
        Сообщение отредактировано: TViT -
          Цитата
          ну тык инверсное DCT делать нужно??? Чтобы обратно к спектру вернуться, только с потерей информации.

          Если хотите визуализировать или синтезировать, можно сделать
          Но для распознавания - не нужно

          Цитата
          А если инверсное DCT не делать, то огибающей спектра не получится, будут просто коэффициенты косинусного преобразования.

          да, просто коэфициенты, которые являются упорядоченными принципиальными компонентами - это именно то что нужно системе распознавания

          Цитата
          А 13 первых коэффициентов, это при условии что 20 фильтров во временном окне, например слово делиться тоже на 20 временных окон, тайм слотов? Если фильтров например 30 то нужно первые 20 коэффициентов брать


          13 принципиальных компонент берётся потому что практикой доказано, что остальные (маленькие кванты энергии) не несут существенной информации
          13 коэффициентов берётся на окно например в 30мс.
          Как влияет число фильтров на необходимое количество DCT коэффициентов не скажу.
            Вопрос мб немного не в тему но все же
            нужно ли обрезать сигнал во временной области перед обработкой в частотной?

            Прикреплённый файлПрикреплённый файлFIgure1.jpg (24,05 Кбайт, скачиваний: 675)
            то что есть

            Прикреплённый файлПрикреплённый файлFIgure1___копия.jpg (40,75 Кбайт, скачиваний: 622)
            полезная часть

            если да то как?(ведь размерность должна оставаться одинаковой что в базе( эталонов) что в входном сигнале который сравнивается и эталонами)
              если вы будете делать преобразование Фурье то вам всё равно нужны все отчёты
              поэтому удаление надо интерпретировать как фильтрацию (убрать аплитуду там где вы считаете сигнала нет) - тогда я не вижу препятстивий для вашей задумки
              1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)
              0 пользователей:
              Страницы: (3) 1 2 [3]  все


              Рейтинг@Mail.ru
              [ Script execution time: 0,0447 ]   [ 17 queries used ]   [ Generated: 18.07.25, 01:21 GMT ]