Распознавание речи без мифов
, Улитка это не про слух. Результат многолетних размышлений.
![]() |
Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
|
| ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
| [216.73.216.9] |
|
|
Распознавание речи без мифов
, Улитка это не про слух. Результат многолетних размышлений.
|
Сообщ.
#1
,
|
|
|
|
Распознавание речи без мифов: к чему мы пришли
Этот текст — итог длинного разговора о слухе и распознавании речи, в котором раз за разом всплывал один и тот же сбой: попытка объяснить распознавание через «волшебные свойства уха». Мы этот сбой последовательно разобрали и выкинули. 1. Главный миф, с которого всё начинается Почти любое объяснение распознавания речи стартует так: ухо якобы само «раскладывает звук по частотам», «выделяет фонемы», «кодирует речь». Это удобно — и неверно. Ухо ничего не распознаёт. Оно не знает, что такое речь. Оно не знает, что такое фонема. Оно даже не знает, что такое «звук» в смысле информации. 2. Что реально делает ухо Если убрать мифологию, остаётся простое: ухо — это периферийный датчик, оно преобразует механические колебания в поток импульсов, с грубой, шумной, нестабильной характеристикой, сильно зависящей от размера, возраста и среды. Форма улитки, барабанной перепонки и косточек: не оптимизирована под речь, не универсальна, не инвариантна. И это видно хотя бы потому, что: птицы слышат без улитки, киты слышат в другой гидродинамике, люди понимают речь при крайне разном слухе. 3. Почему форма уха не может объяснять речь Мы это проверяли раз за разом: разные размеры → разные режимы колебаний; разные формы → разные АЧХ; разные среды → разные искажения. Если бы распознавание речи опиралось на тонкую механику уха, оно развалилось бы при первом же масштабировании. Но этого не происходит. Следовательно: инварианты речи лежат не в ухе. 4. Где на самом деле сидят инварианты К чему мы пришли: Речь — это временной процесс, а не спектральная картинка. Ключевая информация — в переходах, асимметриях и изменениях, а не в стационарных частотах. Полезен не звук как энергия, а звук как работа во времени. Ухо даёт сырой сигнал. Распознавание начинается после него. 5. Что важно для распознавания (и что мы недооценивали) Не: точная форма волны, абсолютные частоты, «чистый спектр». А: моменты изменений, знаки и асимметрии, соотношение положительных и отрицательных участков, временная структура полезной работы сигнала. Именно это: устойчиво к искажениям, масштабируется, переносится между голосами и условиями. 6. Почему ИИ повторяет те же ошибки Большая часть систем распознавания речи: копирует мифологию уха, имитирует «улитку» через спектры и мел-шкалы, пытается стабилизировать то, что стабилизировать не нужно. В итоге модели: тяжелые, плохо обобщают, требуют огромных данных, ломаются вне обученной среды. Не потому, что «мало данных», а потому что не там ищут инварианты. 7. Итог, к которому мы пришли Коротко: ухо — не распознаватель, форма уха не объясняет речь, биология не оптимизировала слух под язык, распознавание — это работа с временной структурой, инварианты речи лежат в динамике, а не в геометрии. Если убрать мифы про ухо, распознавание речи становится задачей анализа изменений, а не анализа формы. И это радикально упрощает картину — если перестать объяснять её неправильно. |