<?xml version='1.0' encoding="utf-8"?>
      <rss version='2.0'>
      <channel>
      <title>Форум на Исходниках.RU</title>
      <link>https://forum.sources.ru</link>
      <description>Форум на Исходниках.RU</description>
      <generator>Форум на Исходниках.RU</generator>
  	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=470737&amp;view=findpost&amp;p=3933233</guid>
        <pubDate>Sat, 13 Dec 2025 20:02:17 +0000</pubDate>
        <title>Распознавание речи без мифов</title>
        <link>https://forum.sources.ru/index.php?showtopic=470737&amp;view=findpost&amp;p=3933233</link>
        <description><![CDATA[babai-rais: Распознавание речи без мифов: к чему мы пришли<br>Этот текст — итог длинного разговора о слухе и распознавании речи, в котором раз за разом всплывал один и тот же сбой: попытка объяснить распознавание через «волшебные свойства уха».<br>Мы этот сбой последовательно разобрали и выкинули.<br>1. Главный миф, с которого всё начинается<br>Почти любое объяснение распознавания речи стартует так:<br>ухо якобы само «раскладывает звук по частотам»,<br>«выделяет фонемы»,<br>«кодирует речь».<br>Это удобно — и неверно.<br>Ухо ничего не распознаёт.<br>Оно не знает, что такое речь.<br>Оно не знает, что такое фонема.<br>Оно даже не знает, что такое «звук» в смысле информации.<br>2. Что реально делает ухо<br>Если убрать мифологию, остаётся простое:<br>ухо — это периферийный датчик,<br>оно преобразует механические колебания в поток импульсов,<br>с грубой, шумной, нестабильной характеристикой,<br>сильно зависящей от размера, возраста и среды.<br>Форма улитки, барабанной перепонки и косточек:<br>не оптимизирована под речь,<br>не универсальна,<br>не инвариантна.<br>И это видно хотя бы потому, что:<br>птицы слышат без улитки,<br>киты слышат в другой гидродинамике,<br>люди понимают речь при крайне разном слухе.<br>3. Почему форма уха не может объяснять речь<br>Мы это проверяли раз за разом:<br>разные размеры → разные режимы колебаний;<br>разные формы → разные АЧХ;<br>разные среды → разные искажения.<br>Если бы распознавание речи опиралось на тонкую механику уха,<br>оно развалилось бы при первом же масштабировании.<br>Но этого не происходит.<br>Следовательно:<br><br>инварианты речи лежат не в ухе.<br>4. Где на самом деле сидят инварианты<br>К чему мы пришли:<br>Речь — это временной процесс, а не спектральная картинка.<br>Ключевая информация — в переходах, асимметриях и изменениях, а не в стационарных частотах.<br>Полезен не звук как энергия, а звук как работа во времени.<br>Ухо даёт сырой сигнал.<br>Распознавание начинается после него.<br>5. Что важно для распознавания (и что мы недооценивали)<br>Не:<br>точная форма волны,<br>абсолютные частоты,<br>«чистый спектр».<br>А:<br>моменты изменений,<br>знаки и асимметрии,<br>соотношение положительных и отрицательных участков,<br>временная структура полезной работы сигнала.<br>Именно это:<br>устойчиво к искажениям,<br>масштабируется,<br>переносится между голосами и условиями.<br>6. Почему ИИ повторяет те же ошибки<br>Большая часть систем распознавания речи:<br>копирует мифологию уха,<br>имитирует «улитку» через спектры и мел-шкалы,<br>пытается стабилизировать то, что стабилизировать не нужно.<br>В итоге модели:<br>тяжелые,<br>плохо обобщают,<br>требуют огромных данных,<br>ломаются вне обученной среды.<br>Не потому, что «мало данных»,<br>а потому что не там ищут инварианты.<br>7. Итог, к которому мы пришли<br>Коротко:<br>ухо — не распознаватель,<br>форма уха не объясняет речь,<br>биология не оптимизировала слух под язык,<br>распознавание — это работа с временной структурой,<br>инварианты речи лежат в динамике, а не в геометрии.<br>Если убрать мифы про ухо,<br>распознавание речи становится<br>задачей анализа изменений, а не анализа формы.<br>И это радикально упрощает картину —<br>если перестать объяснять её неправильно.]]></description>
        <author>babai-rais</author>
        <category>Речевые Технологии</category>
      </item>
	
      </channel>
      </rss>
	