На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
  
> Распознавание речи без мифов , Улитка это не про слух. Результат многолетних размышлений.
    Распознавание речи без мифов: к чему мы пришли
    Этот текст — итог длинного разговора о слухе и распознавании речи, в котором раз за разом всплывал один и тот же сбой: попытка объяснить распознавание через «волшебные свойства уха».
    Мы этот сбой последовательно разобрали и выкинули.
    1. Главный миф, с которого всё начинается
    Почти любое объяснение распознавания речи стартует так:
    ухо якобы само «раскладывает звук по частотам»,
    «выделяет фонемы»,
    «кодирует речь».
    Это удобно — и неверно.
    Ухо ничего не распознаёт.
    Оно не знает, что такое речь.
    Оно не знает, что такое фонема.
    Оно даже не знает, что такое «звук» в смысле информации.
    2. Что реально делает ухо
    Если убрать мифологию, остаётся простое:
    ухо — это периферийный датчик,
    оно преобразует механические колебания в поток импульсов,
    с грубой, шумной, нестабильной характеристикой,
    сильно зависящей от размера, возраста и среды.
    Форма улитки, барабанной перепонки и косточек:
    не оптимизирована под речь,
    не универсальна,
    не инвариантна.
    И это видно хотя бы потому, что:
    птицы слышат без улитки,
    киты слышат в другой гидродинамике,
    люди понимают речь при крайне разном слухе.
    3. Почему форма уха не может объяснять речь
    Мы это проверяли раз за разом:
    разные размеры → разные режимы колебаний;
    разные формы → разные АЧХ;
    разные среды → разные искажения.
    Если бы распознавание речи опиралось на тонкую механику уха,
    оно развалилось бы при первом же масштабировании.
    Но этого не происходит.
    Следовательно:

    инварианты речи лежат не в ухе.
    4. Где на самом деле сидят инварианты
    К чему мы пришли:
    Речь — это временной процесс, а не спектральная картинка.
    Ключевая информация — в переходах, асимметриях и изменениях, а не в стационарных частотах.
    Полезен не звук как энергия, а звук как работа во времени.
    Ухо даёт сырой сигнал.
    Распознавание начинается после него.
    5. Что важно для распознавания (и что мы недооценивали)
    Не:
    точная форма волны,
    абсолютные частоты,
    «чистый спектр».
    А:
    моменты изменений,
    знаки и асимметрии,
    соотношение положительных и отрицательных участков,
    временная структура полезной работы сигнала.
    Именно это:
    устойчиво к искажениям,
    масштабируется,
    переносится между голосами и условиями.
    6. Почему ИИ повторяет те же ошибки
    Большая часть систем распознавания речи:
    копирует мифологию уха,
    имитирует «улитку» через спектры и мел-шкалы,
    пытается стабилизировать то, что стабилизировать не нужно.
    В итоге модели:
    тяжелые,
    плохо обобщают,
    требуют огромных данных,
    ломаются вне обученной среды.
    Не потому, что «мало данных»,
    а потому что не там ищут инварианты.
    7. Итог, к которому мы пришли
    Коротко:
    ухо — не распознаватель,
    форма уха не объясняет речь,
    биология не оптимизировала слух под язык,
    распознавание — это работа с временной структурой,
    инварианты речи лежат в динамике, а не в геометрии.
    Если убрать мифы про ухо,
    распознавание речи становится
    задачей анализа изменений, а не анализа формы.
    И это радикально упрощает картину —
    если перестать объяснять её неправильно.
    0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
    0 пользователей:


    Рейтинг@Mail.ru
    [ Script execution time: 5,5952 ]   [ 15 queries used ]   [ Generated: 1.02.26, 22:49 GMT ]