
![]() |
Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
|
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[18.189.43.15] |
![]() |
|
Страницы: (2) [1] 2 все ( Перейти к последнему сообщению ) |
Сообщ.
#1
,
|
|
|
Я интересуюсь (и занимаюсь) дикторонезависимым распознаванием отдельных слов (числительные, произнесенные голосом, шепотом и с фильтрацией) с целью обнаружить общие признаки в разных по спектру
речевых сигналах. Несколько образцов речевого материала находятся в прилагаемых звуковых файлах (11025 гц, 16 бит, моно, без справочной информации). Прослушать их можно демо-программой IRID.EXE. Справку можно получить по клавише F1 сразу после запуска программы. Хотелось бы получить сравнительную оценку от работающих в этом направлении. С удовольствием посмотрел бы ответные звуковые файлы. Буду благодарен ответившим. Моя почта: ivvi05@yandex.ru. PS. Полный пакет далеко не укладывается в 100кб, поэтому изьял 6 звуковых файлов, остался только один. Может быть потом удастся добавить их. |
![]() |
Сообщ.
#2
,
|
|
Цитата IVVI @ Хотелось бы получить сравнительную оценку от работающих в этом направлении. Чего оценивать-то? Ну записи какие-то. Цитата Несколько образцов речевого материала находятся в прилагаемых звуковых файлах (11025 гц, 16 бит, моно, без справочной информации). Прослушать их можно демо-программой IRID.EXE. Детский сад какой-то. Программу удалил. Если надо выложить звук - выкладывайте в WAV, чем послушать их, мы найдём. |
Сообщ.
#3
,
|
|
|
Добрый день nsh! Я полагаю, что у Вас есть программа распознавания речи. Подайте ей мой звуковой файл.
Если опознаны все слова - отлично! Такую оценку я хотел получить. Прикреплённый файл ![]() |
Сообщ.
#4
,
|
|
|
Добавляю второй файл IW01 (без расширения), записанный с сильным шумовым фоном.
|
Сообщ.
#5
,
|
|
|
Извините, архивный файл не прошел по размеру. Мой demo-пакет имеет 700кб и предложить его желающим
через форум оказалось не просто. Моя почта: IVVI05@YANDEX.RU, могу выслать. |
Сообщ.
#6
,
|
|
|
Еще попытка прикрепить архивный файл.
Прикреплённый файл ![]() |
Сообщ.
#7
,
|
|
|
Шепотный вариант.
Прикреплённый файл ![]() Прикреплённый файл ![]() |
Сообщ.
#8
,
|
|
|
Голосовой вариант, разные дикторы.
Прикреплённый файл ![]() Прикреплённый файл ![]() |
Сообщ.
#9
,
|
|
|
Как можно опознать звук 'ноль'.
Прикреплённый файл ![]() |
Сообщ.
#10
,
|
|
|
Пример слитной фразы 'мамамылараму', две реализации от разных типов
микрофонов (электродинамический и пьезо). Внизу представлена фрагмен- тация программой реализаций на фонемные участки. Пунктирные линии - паузы, зеленые - согласные, синие - гласные. Гласных звуков всего три. Четыре повторения гласной 'а' в каждой из реализаций имеют разные АЧХ, трудно сопоставить им один эталон. Самая нижняя кривая - поведение пе- риода основного тона. На участках гласных она относительно гладкая и имеет выбросы при смене артикуляции. Прикреплённый файл ![]() |
Сообщ.
#11
,
|
|
|
Достаточный интерес представляет и эта фраза. При обратном ее воспроизведении программа делает
только 4 ошибки на нормальном темпе и 8 на ускоренном. Прикреплённый файл ![]() Прикреплённый файл ![]() |
Сообщ.
#12
,
|
|
|
Свою поделку продолжаю, советов бросить пока нет, а уверенность в успехе растет (как и наша экономика).
Начинал с цифр и много времени ушло на это. Зато появилось представление как работать с речевыми сигналами (включая шепотную речь). Теперь стали доступны практически любые фразы, что демонстрирует последний пример. Однако, камнем преткновения продолжает оставаться стабильность опознания и эта проблема становится главной. В программе приоритет у фонетики (как сказано и что) и конфликты с орфографией пока не актуальны. Может кому-нибудь мои примеры пригодятся. Прикреплённый файл ![]() Прикреплённый файл ![]() |
Сообщ.
#13
,
|
|
|
Как можно опознать звуки 'при' - 'три'.
Прикреплённый файл ![]() Прикреплённый файл ![]() |
Сообщ.
#14
,
|
|
|
Владимир, так что за модели вы используете?
|
Сообщ.
#15
,
|
|
|
Модель своя, начатая еще в 1974 году на ЭВМ 'Минск-22'.
|