Распознавание речи без мифов -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.156]

Модераторы: RaD, nsh

Новое голосование

Распознавание речи без мифов , Улитка это не про слух. Результат многолетних размышлений.

babai-rais

Сообщ. #1 , 13.12.25, 20:02

Newbie

Профиль · PM

Рейтинг (т): нет

Распознавание речи без мифов: к чему мы пришли
Этот текст — итог длинного разговора о слухе и распознавании речи, в котором раз за разом всплывал один и тот же сбой: попытка объяснить распознавание через «волшебные свойства уха».
Мы этот сбой последовательно разобрали и выкинули.
1. Главный миф, с которого всё начинается
Почти любое объяснение распознавания речи стартует так:
ухо якобы само «раскладывает звук по частотам»,
«выделяет фонемы»,
«кодирует речь».
Это удобно — и неверно.
Ухо ничего не распознаёт.
Оно не знает, что такое речь.
Оно не знает, что такое фонема.
Оно даже не знает, что такое «звук» в смысле информации.
2. Что реально делает ухо
Если убрать мифологию, остаётся простое:
ухо — это периферийный датчик,
оно преобразует механические колебания в поток импульсов,
с грубой, шумной, нестабильной характеристикой,
сильно зависящей от размера, возраста и среды.
Форма улитки, барабанной перепонки и косточек:
не оптимизирована под речь,
не универсальна,
не инвариантна.
И это видно хотя бы потому, что:
птицы слышат без улитки,
киты слышат в другой гидродинамике,
люди понимают речь при крайне разном слухе.
3. Почему форма уха не может объяснять речь
Мы это проверяли раз за разом:
разные размеры → разные режимы колебаний;
разные формы → разные АЧХ;
разные среды → разные искажения.
Если бы распознавание речи опиралось на тонкую механику уха,
оно развалилось бы при первом же масштабировании.
Но этого не происходит.
Следовательно:

инварианты речи лежат не в ухе.
4. Где на самом деле сидят инварианты
К чему мы пришли:
Речь — это временной процесс, а не спектральная картинка.
Ключевая информация — в переходах, асимметриях и изменениях, а не в стационарных частотах.
Полезен не звук как энергия, а звук как работа во времени.
Ухо даёт сырой сигнал.
Распознавание начинается после него.
5. Что важно для распознавания (и что мы недооценивали)
Не:
точная форма волны,
абсолютные частоты,
«чистый спектр».
А:
моменты изменений,
знаки и асимметрии,
соотношение положительных и отрицательных участков,
временная структура полезной работы сигнала.
Именно это:
устойчиво к искажениям,
масштабируется,
переносится между голосами и условиями.
6. Почему ИИ повторяет те же ошибки
Большая часть систем распознавания речи:
копирует мифологию уха,
имитирует «улитку» через спектры и мел-шкалы,
пытается стабилизировать то, что стабилизировать не нужно.
В итоге модели:
тяжелые,
плохо обобщают,
требуют огромных данных,
ломаются вне обученной среды.
Не потому, что «мало данных»,
а потому что не там ищут инварианты.
7. Итог, к которому мы пришли
Коротко:
ухо — не распознаватель,
форма уха не объясняет речь,
биология не оптимизировала слух под язык,
распознавание — это работа с временной структурой,
инварианты речи лежат в динамике, а не в геометрии.
Если убрать мифы про ухо,
распознавание речи становится
задачей анализа изменений, а не анализа формы.
И это радикально упрощает картину —
если перестать объяснять её неправильно.

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0.0698 ] [ 14 queries used ] [ Generated: 2.08.26, 02:00 GMT ]