Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[34.231.180.210] |
|
Сообщ.
#1
,
|
|
|
Вот потихоньку пишу свою библиотечку. Появилось нечто, которое уже и показать не стыдно. Это нечто лежит на http://ifolder.ru/7012128. Кратко опишу, что из себя представляет проект.
А представляет он пока реализацию дискретной неэргодической HMM. HMM может сохранятся в файл формата xml, ну и загружаться оттуда естественно. Немного, но уже кое-что. Вместе с проектом идет примерчик как все это использовать. В качестве обучающей и тестовой последовательностей используются текстовые файлы, содержащие номера векторов кодовой книги. Эти номера получены после векторного квантования звуковых файлов TI Digits. Код квантователя пока в божеский вид не привел, поэтому не выкладываю На тестовой последовательности при числе состояний 7 и количестве символов 16 WER равен ~0,5%, что в принципе неплохо. Для каждого слова строилась своя кодовая книга. Вот так вот. может кому пригодится. PS: для сборки требуется boost и VS2005. Код распространяется без каких-либо ограничений. |
Сообщ.
#2
,
|
|
|
Добавил исходники под svn. Теперь они доступны по адресу http://speechlib.googlecode.com/svn/trunk
|
Сообщ.
#3
,
|
|
|
хм....
интересные результаты WER для дискретной модели... не планируете писать непрерывную? я сейчас пытаюсь - очень много подводных камней.... |
Сообщ.
#4
,
|
|
|
да непрерывная модель есть. Только ее код надо в порядок привести, а все никак руки не доходят К тому же я в настоящее время пишу классы для вычисления speech features (MFCC там всякие и т.п.).
|
Сообщ.
#5
,
|
|
|
да я хотябы на матлабе хочу чтоб заработало, там проще понять как и что протестировать и отладить..
а если начнет работать то и в Си потом портировать не долго... ну или блоки для симулинка наваять... а си плюсовых я вообще боюсь |
Сообщ.
#6
,
|
|
|
Цитата jackfrost @ да я хотябы на матлабе хочу чтоб заработало, там проще понять как и что протестировать и отладить.. а если начнет работать то и в Си потом портировать не долго... Матлаб работает раз в 30 медленнее сишной программы. Это же на пенсию выйдешь, прежде чем программа работать закончит (совсем уж тривиальные случаи не рассматриваем). |
Сообщ.
#7
,
|
|
|
ну это смотря как написать...
а на самом деле МАТЛАБ частенько почти даже догоняет Си... |
Сообщ.
#8
,
|
|
|
Реализованы алгоритмы построения кодовой книги K-Means и UWA
|
Сообщ.
#9
,
|
|
|
Как у вас успехи с реализацией? Вы сделали переоценку в логарифмическом масштабе?
я тоже сделал нечто аналогичное, вам удалось найти каки-нубудь простенькие базы для распознования цифр? не поделитесь? |
Сообщ.
#10
,
|
|
|
ну пока я пользовался для тестов базой TI-DIGITS. В принципе она доступна для скачивания в инете. Но если надо могу выложить.
|
Сообщ.
#11
,
|
|
|
Если не сложно, выложите куда-нибудь.
Как кстати успехи с цифрами? |
Сообщ.
#12
,
|
|
|
обработанную базу (файлы переименованы и разложены по папкам) можно скачать по адресу http://ifolder.ru/8141655. Оригинальная база думаю вам не сильно нужна.
|
Сообщ.
#13
,
|
|
|
Спасибо огромное! то что нужно для тестирования алгоритмов!
|
Сообщ.
#14
,
|
|
|
вот еще ссылка на страницу рабинера, откуда можно скачать некоторые речевые базы.
http://www.caip.rutgers.edu/~lrr |
Сообщ.
#15
,
|
|
|
Цитата phoenix367 @ обработанную базу (файлы переименованы и разложены по папкам) можно скачать по адресу http://ifolder.ru/8141655. Оригинальная база думаю вам не сильно нужна. А зачем же вы ее так "обработали"? Зачем отрезали начало и конец у каждого файла? |
Сообщ.
#16
,
|
|
|
Чтобы народ в заблуждение не вводить, я бы не стал эту базу tidigits называть. А то, получается что и результаты путаются. в базе TIDIGITS последовательности цифр, а не изолированные цифры:
http://www.ldc.upenn.edu/Catalog/docs/LDC93S10/readme.txt Хотя по размеру она примерно такая-же. |
Сообщ.
#17
,
|
|
|
А, ну судя по описанию - у меня урезанная версия, где оставлены только изолированные цифры.
|
Сообщ.
#18
,
|
|
|
Это четверть от исходной базы данных да еще и "обработанная"
|
Сообщ.
#19
,
|
|
|
Так если не нравится - не пользуйтесь. В чем проблема?
|
Сообщ.
#20
,
|
|
|
Отличная база, кусок TIDIGITS видимо.
Ничего лучшего пока никто не предложил, KoPoBuH у вас есть полный TIDIGITS? прошу, выкладывайте... |
Сообщ.
#21
,
|
|
|
Цитата phoenix367 @ Так если не нравится - не пользуйтесь. В чем проблема? Моя позиция простая - если есть исходный материал и ты готов вы выложить, то раздавать нужно в исходном виде, а не огрызки. И не мешать в одну кучу женщин и мужчин. Ну конечно "в исходном" не подразумевает убогий исходный формат. Минимальное преобразование нужно сделать. Как то преобразовать в WAVE формат и пересэмплировать на стандартную частоту. Полная база занимает 700 Мб. К сожалению я не могу ее выложить по некоторым причинам. |
Сообщ.
#22
,
|
|
|
Пытаюсь разобраться в СММ, поэтому есть некоторые вопросы, может кто-нибудь подскажет? Так и не понял матрица вероятностей переходов для СММ является заданной /как в случае открытой ММ/ или ее как раз и нужно найти через вероятности появления параметров цепи. ПС Имеющаяся литература подзапутала сознание.
|
Сообщ.
#23
,
|
|
|
Матрица переходов находится в процессе оценки параметров модели. Я же вроде выкладывал статью на эту тему. Она на русском даже.
|
Сообщ.
#24
,
|
|
|
Цитата phoenix367 @ обработанную базу (файлы переименованы и разложены по папкам) можно скачать по адресу http://ifolder.ru/8141655. Оригинальная база думаю вам не сильно нужна. Приветствую всех! Народ, у кого есть эта база обрезанных цифр перезалейте плиз, а то эта ссылка (http://ifolder.ru/8141655) не робит уже! Добавлено Цитата phoenix367 @ Вот потихоньку пишу свою библиотечку. Появилось нечто, которое уже и показать не стыдно. Это нечто лежит на http://ifolder.ru/7012128. Кратко опишу, что из себя представляет проект. А представляет он пока реализацию дискретной неэргодической HMM. HMM может сохранятся в файл формата xml, ну и загружаться оттуда естественно. Немного, но уже кое-что. Вместе с проектом идет примерчик как все это использовать. В качестве обучающей и тестовой последовательностей используются текстовые файлы, содержащие номера векторов кодовой книги. Эти номера получены после векторного квантования звуковых файлов TI Digits. Код квантователя пока в божеский вид не привел, поэтому не выкладываю На тестовой последовательности при числе состояний 7 и количестве символов 16 WER равен ~0,5%, что в принципе неплохо. Для каждого слова строилась своя кодовая книга. Вот так вот. может кому пригодится. PS: для сборки требуется boost и VS2005. Код распространяется без каких-либо ограничений. И это если можно тоже.! |
Сообщ.
#25
,
|
|
|
Что не у кого нету? Или всем пофиг?
|
Сообщ.
#26
,
|
|
|
Базу с цифрами можно скачать по этой ссылке http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/
|