На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
  
> Пример реализации HMM
    Вот потихоньку пишу свою библиотечку. Появилось нечто, которое уже и показать не стыдно. Это нечто лежит на http://ifolder.ru/7012128. Кратко опишу, что из себя представляет проект.

    А представляет он пока реализацию дискретной неэргодической HMM. HMM может сохранятся в файл формата xml, ну и загружаться оттуда естественно. Немного, но уже кое-что. Вместе с проектом идет примерчик как все это использовать. В качестве обучающей и тестовой последовательностей используются текстовые файлы, содержащие номера векторов кодовой книги. Эти номера получены после векторного квантования звуковых файлов TI Digits. Код квантователя пока в божеский вид не привел, поэтому не выкладываю :) На тестовой последовательности при числе состояний 7 и количестве символов 16 WER равен ~0,5%, что в принципе неплохо. Для каждого слова строилась своя кодовая книга.

    Вот так вот. может кому пригодится.
    PS: для сборки требуется boost и VS2005. Код распространяется без каких-либо ограничений.
      Добавил исходники под svn. Теперь они доступны по адресу http://speechlib.googlecode.com/svn/trunk
        хм....
        интересные результаты WER для дискретной модели...
        не планируете писать непрерывную?

        я сейчас пытаюсь - очень много подводных камней....
          да непрерывная модель есть. Только ее код надо в порядок привести, а все никак руки не доходят :( К тому же я в настоящее время пишу классы для вычисления speech features (MFCC там всякие и т.п.).
            да я хотябы на матлабе хочу чтоб заработало, там проще понять как и что протестировать и отладить..
            а если начнет работать то и в Си потом портировать не долго...
            ну или блоки для симулинка наваять...

            а си плюсовых я вообще боюсь :)
              Цитата jackfrost @
              да я хотябы на матлабе хочу чтоб заработало, там проще понять как и что протестировать и отладить..
              а если начнет работать то и в Си потом портировать не долго...

              Матлаб работает раз в 30 медленнее сишной программы. Это же на пенсию выйдешь, прежде чем программа работать закончит :) (совсем уж тривиальные случаи не рассматриваем).
                ну это смотря как написать...

                а на самом деле МАТЛАБ частенько почти даже догоняет Си...
                  Реализованы алгоритмы построения кодовой книги K-Means и UWA
                    Как у вас успехи с реализацией? Вы сделали переоценку в логарифмическом масштабе?
                    я тоже сделал нечто аналогичное, вам удалось найти каки-нубудь простенькие базы для распознования цифр?
                    не поделитесь? ;)
                      ну пока я пользовался для тестов базой TI-DIGITS. В принципе она доступна для скачивания в инете. Но если надо могу выложить.
                        Если не сложно, выложите куда-нибудь.
                        Как кстати успехи с цифрами?
                          обработанную базу (файлы переименованы и разложены по папкам) можно скачать по адресу http://ifolder.ru/8141655. Оригинальная база думаю вам не сильно нужна.
                            Спасибо огромное! то что нужно для тестирования алгоритмов!
                              вот еще ссылка на страницу рабинера, откуда можно скачать некоторые речевые базы.
                              http://www.caip.rutgers.edu/~lrr
                                Цитата phoenix367 @
                                обработанную базу (файлы переименованы и разложены по папкам) можно скачать по адресу http://ifolder.ru/8141655. Оригинальная база думаю вам не сильно нужна.

                                А зачем же вы ее так "обработали"? Зачем отрезали начало и конец у каждого файла?
                                  Чтобы народ в заблуждение не вводить, я бы не стал эту базу tidigits называть. А то, получается что и результаты путаются. в базе TIDIGITS последовательности цифр, а не изолированные цифры:

                                  http://www.ldc.upenn.edu/Catalog/docs/LDC93S10/readme.txt

                                  Хотя по размеру она примерно такая-же.
                                  Сообщение отредактировано: nsh -
                                    А, ну судя по описанию - у меня урезанная версия, где оставлены только изолированные цифры.
                                      Это четверть от исходной базы данных да еще и "обработанная"
                                        Так если не нравится - не пользуйтесь. В чем проблема?
                                          Отличная база, кусок TIDIGITS видимо.
                                          Ничего лучшего пока никто не предложил,
                                          KoPoBuH
                                          у вас есть полный TIDIGITS? прошу, выкладывайте...
                                            Цитата phoenix367 @
                                            Так если не нравится - не пользуйтесь. В чем проблема?

                                            Моя позиция простая - если есть исходный материал и ты готов вы выложить, то раздавать нужно в исходном виде, а не огрызки. И не мешать в одну кучу женщин и мужчин. Ну конечно "в исходном" не подразумевает убогий исходный формат. Минимальное преобразование нужно сделать. Как то преобразовать в WAVE формат и пересэмплировать на стандартную частоту.

                                            Полная база занимает 700 Мб. К сожалению я не могу ее выложить по некоторым причинам.
                                            Сообщение отредактировано: KoPoBuH -
                                              Пытаюсь разобраться в СММ, поэтому есть некоторые вопросы, может кто-нибудь подскажет? Так и не понял матрица вероятностей переходов для СММ является заданной /как в случае открытой ММ/ или ее как раз и нужно найти через вероятности появления параметров цепи. ПС Имеющаяся литература подзапутала сознание.
                                                Матрица переходов находится в процессе оценки параметров модели. Я же вроде выкладывал статью на эту тему. Она на русском даже.
                                                  Цитата phoenix367 @
                                                  обработанную базу (файлы переименованы и разложены по папкам) можно скачать по адресу http://ifolder.ru/8141655. Оригинальная база думаю вам не сильно нужна.

                                                  Приветствую всех! Народ, у кого есть эта база обрезанных цифр перезалейте плиз, а то эта ссылка (http://ifolder.ru/8141655) не робит уже! :help:

                                                  Добавлено
                                                  Цитата phoenix367 @
                                                  Вот потихоньку пишу свою библиотечку. Появилось нечто, которое уже и показать не стыдно. Это нечто лежит на http://ifolder.ru/7012128. Кратко опишу, что из себя представляет проект.

                                                  А представляет он пока реализацию дискретной неэргодической HMM. HMM может сохранятся в файл формата xml, ну и загружаться оттуда естественно. Немного, но уже кое-что. Вместе с проектом идет примерчик как все это использовать. В качестве обучающей и тестовой последовательностей используются текстовые файлы, содержащие номера векторов кодовой книги. Эти номера получены после векторного квантования звуковых файлов TI Digits. Код квантователя пока в божеский вид не привел, поэтому не выкладываю :) На тестовой последовательности при числе состояний 7 и количестве символов 16 WER равен ~0,5%, что в принципе неплохо. Для каждого слова строилась своя кодовая книга.

                                                  Вот так вот. может кому пригодится.
                                                  PS: для сборки требуется boost и VS2005. Код распространяется без каких-либо ограничений.

                                                  И это если можно тоже.!
                                                    Что не у кого нету? Или всем пофиг? :oops:
                                                      Базу с цифрами можно скачать по этой ссылке http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/
                                                      0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                                      0 пользователей:


                                                      Рейтинг@Mail.ru
                                                      [ Script execution time: 0,0579 ]   [ 15 queries used ]   [ Generated: 8.09.24, 10:48 GMT ]