На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (3) [1] 2 3  все  ( Перейти к последнему сообщению )  
> Модель слуховой системы , Как устроено ухо? Как мы слышим?
    Я пытаюсь рзработать цифровой спектральный анализатор который по параметрам бы повторял характеристики уха.
    Для реалиации этого мне нужно разобраться с двумя вопросами.
    1. Чувствительность уха к изменению ампитуды сигнала.
    2. Чувствительность уха к изменению частоты сигнала.

    По поводу чувствительности к изменению амплитуды есть много информации и самое главное есть кривые пороговой слышимости по амплитуде и характеристики маскировки. Что касается частотных свойств уха, то есть шкала в Мелах которая позволяет оценить чувствительность уха к изменению частоты, но я не могу найти пороговых храктеристик чувствительности уха к изменению частоты. Я ищу литературу с информацией о том какие частоты ухо может отличать, а какие нет. К примеру сможет ли ухо отличить 100 от 101Гц?
    Уже доказано, что ухо анализирует конечное число частотных полос. Следовательно у уха есть определенное разрешение по частоте. Для построения модели необходима информация о числе полосовых фильтров выходной сигнал с которых подается в мозг..
    Эта тема уже обсуждалась в форме, но так ни к чему конкретному и не пришли. Да, есть в книжках цифры 30000 14000 и т.п. Но это бстракция. Там далше написано, что для анализа ВЧ на один канал используется сразу по нескольку нейрнов. Следоваельно общее число 30000 нейронов участвующих в анализе сигнала ничего не дает.

    Вот как смог описал свой вопрос. Уже неделю рою инет и не могу найти хорошей книжки про "ухо". Люди добрые плиз помогите.
      Как всегда - это Алдошина.
      http://audio.micronet.lv/books/AldoshinaPsychoacoustics.zip
      фон Беркеши Г.-Физические проблемы физиологии слуха
      http://data.ufn.ru//ufn35/ufn35_6/Russian/r356d.pdf
      http://ufn.npi.msu.su/archive/russian/abstracts/abst8658.html
      Ржевкин С.Н.-Слух и речь в свете современных исследований
      http://ufn.npi.msu.su/archive/russian/abstracts/abst9479.html
      http://data.ufn.ru//ufn27/ufn27_3/Russian/r273c.pdf
      А. А. ВОЛОДИН, ПСИХОЛОГИЧЕСКИЕ АСПЕКТЫ ВОСПРИЯТИЯ МУЗЫКАЛЬНЫХ ЗВУКОВ
      http://humanities.edu.ru/db/msg/41591
      Звук: немного теории
      http://websound.ru/index.pl?theory_r

      ЛЕКЦИЯ 5 (4 ЧАСА). ВОСПРИЯТИЕ: ОБЩИЕ ЗАМЕЧАНИЯ, ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА СИГНАЛА
      http://edwardsemyonov.narod.ru/5/lecture5.html
      ЛЕКЦИЯ 6 (4 ЧАСА). СОБСТВЕННО ВОСПРИЯТИЕ
      http://edwardsemyonov.narod.ru/6/lecture6.html

      Steven W. Smith - "Научно-техническое руководство по цифровой обработке сигналов" Часть 22: Обработка звуковых сигналов[PDF, 560 Кб]
      http://www.autex.spb.ru/download/dsp/dsp_guide/ch22en-ru.pdf
      Восприятие и сжатие звука Дмитрий Шмунк
      http://auditech.ru/doc/persound.htm
      Книжки, которые можно найти в инете:
      Слуховая система, Ред. Я. А. Альтман, Наука, 1990
      Чистович, Венцов, Гранстрем, и др., Физиология речи. Восприятие речи человеком. Наука, 1976
      Сообщение отредактировано: grisania -
        По поводу Бекеши. Вот здесь больше информации:
        http://aml.nm.ru/psyhologi/bekeshi/1.htm
        Бекеши первоисточник основной информации по восприятию.
        Сообщение отредактировано: kaa1 -
          Добавлю пару статей:
          Донимает сонливость? Жалуетесь на упадок сил? Привычная работа дается с трудом?
          Локаторы с секретом
          http://www.consilium-medicum.com/media/viva/04_05/30.shtml
          Как измерить остроту слуха?
          http://vivovoco.rsl.ru/VV/JOURNAL/NATURE/05_99/SUPIN.PDF
          МУЗЫКАЛЬНАЯ АКУСТИКА
          http://www.mushar.ru/Muzacust/muzac_1.html
          Есть книжка, но в инете ее нет: Сапожков М.А., Михайлов В.Г. Вокодерна связь. - M: Радио и связь, 1983.
            Ирина Алдошина.
            всего слуховая система различает 620 градаций высоты тона
            (140 градаций в диапазоне до 500 Гц и 480 градаций в диапазоне от500 Гц до 16 кГц),
              Цитата Skif @
              Ирина Алдошина.
              всего слуховая система различает 620 градаций высоты тона
              (140 градаций в диапазоне до 500 Гц и 480 градаций в диапазоне от500 Гц до 16 кГц),

              Вроде различает в среднм только 150 градаций тона, а 620 - это максимальное возможное при высокой интенсивности звука:
              Цитата
              Хорошо известно, что частотный диапазон слуха простирается от 16 до 20000 Гц. Слуховая память позволяет удерживать до нескольких сотен градаций частоты. Их число уменьшается с понижением интенсивности звука. Поэтому среднее число градаций не более 150. Устройство органа слуха часто уподобляют цепочке резонаторов, настроенных на определенные полосы частот. Такая модель показывает хорошее приближение к устройству и результатам действия реальной слуховой улитки, в которой расположена базилярная мембрана, содержащая свыше 20000 осязающих волокон, которые передают возбуждающее воздействие через нервные окончания в слуховой центр мозга, где и происходит обработка полученных сигналов, вследствие чего слушатель воспринимает (субъективно) образовавшийся слуховой образ. Если слуховая память уже содержит предваряющую эмпирическую информацию о подобном или близком слуховом образе, то мозг идентифицирует ее как знакомую, идентичную или тождественную.

              Частотную разрешающую способность слуха обеспечивают полосы пропускания, образованные специфическим устройством органа слуха. Их называют критическими полосками, иногда - частотными группами. Всего таких полосок 24. Поэтому считается, что слух как бы превращает широкополосный звук со сплошным спектром частот в дискретный, т.е. состоящий из конечного числа составляющих, соответствующих включенным в работу числу критических полосок. Ранее было отмечено, что разрешающая способность слуха по амплитуде составляет несколько сот ступеней ощущения.

              Таким образом, совокупная разрешающая способность слуха по амплитуде и частоте в пределах области слышимости, ограниченной снизу порогом слышимости, а сверху - болевым порогом, составляет около 22000 элементарных градаций звуковых ощущений. Своего рода четкость звукового изображения. Заметим для справки, что число градаций зрительных ощущений составляет около 600000.

              Как было отмечено, орган слуха имеет 24 критические полоски, определяющие дискретную избирательность слуха и его разрешающую способность по частоте. если среднее число ощущаемых градаций по частоте около 150, то максимальное может доходить до 620 при высокой интенсивности звука.

              http://sound.amh.ru/theory/006.phtml
                Психоаккустическая модель слуховой системы реализована в стандарте сжатия звука MPEG
                Читать здесь:

                http://www.d-kornev.netpage.ru/_pages/_comp/mpeg/mpeg_faq.htm
                MPEG: Вопросы и ответы

                http://www.mpeg.org/MPEG/audio.html
                MPEG Audio Resources and Software

                и реализация для MATLAB !!!
                http://www.petitcolas.net/fabien/software/mpeg/
                mpeg for matlab
                  Цитата grisania @
                  Вроде различает в среднм только 150 градаций тона, а 620 - это максимальное возможное при высокой интенсивности звука:

                  При низкой частоте звука разрешающая способность слуховой системы лучше. Ухо может различить, например, 2 тона частой 100 и 103 Гц. Чем частота звука выше, тем ниже разрешающая способность. 1000 и 1005 Гц человек примет за звук с одной и той же частотой. Ширина критических полос как раз и определяет эту погрешность.
                  Примерно так.
                  Сообщение отредактировано: kaa1 -
                    Цитата kaa1 @
                    При низкой частоте звука разрешающая способность слуховой системы лучше. Ухо может различить, например, 2 тона частой 100 и 103 Гц. Чем частота звука выше, тем ниже разрешающая способность. 1000 и 1005 Гц человек примет за звук с одной и той же частотой. Ширина критических полос как раз и определяет эту погрешность.

                    Надо тут как-то учесть время и изменить класический принцип неопределенности - время-частота на какой-то психоакустический принцип неопределенности .
                    Цитата Звук: немного теории: http://websound.ru/index.pl?theory_r
                    Длительность звучания сказывается на воспринимаемой высоте тона критическим образом. Так, очень кратковременное звучание (менее 15 мс) любой частоты покажется на слух просто резким щелчком – слух будет неспособен различить высоту тона для такого сигнала. Высота тона начинает восприниматься лишь спустя 15 мс для частот в полосе 1000 – 2000 Гц и лишь спустя 60 мс – для частот ниже 500 Гц. Это явление называется инерционностью слуха.

                    Цитата Основы психоакустики: http://websound.ru/index.pl?theory_r
                    Ощущение высоты тона зависит и от его длительности: короткие звуки воспринимаются как сухой щелчок, но при удлинении звука щелчок начинает давать ощущение высоты тона. Время, требуемое для перехода от щелчка к тону, зависит от частоты: для низких частот требуется для распознания высоты тона примерно 60 мс, для частот от 1 до 2 кГц - 15 мс. Для сложных звуков это время увеличивается, для звуков речи оно может составлять 20-30 мс.

                    Цитата ЛЕКЦИЯ 6 (4 ЧАСА). СОБСТВЕННО ВОСПРИЯТИЕ: http://edwardsemyonov.narod.ru/6/lecture6.html
                    Динамика восприятия громкости по времени
                    Интервал времени, в течение которого вычисляется большая часть характеристик сигнала, составляет от 80 до 140 мс (в зависимости от экземпляра субъекта) и называется временным окном слухового анализатора. Средняя величина составляет около 100 мс.
                    После восприятия атаки сигнала чувствительность слуха притупляется на 30...40 мс. Этот феномен называется законом первой волны и служит для подавления реверберации. Полезно отметить, что снижается чувствительность обоих ушей, даже если сигнал подается на одно. Сигнал, приходящий после 30...40 мс, уже воспринимается как эхо.

                    Динамика
                    Высота тона в диапазоне 100-1000 Гц определяется приблизительно за 5 периодов сигнала вне зависимости от его частоты и за 5 мс при более высоких частотах.

                    Алгоритм определения высоты, как и многие другие алгоритмы обработки информации в нервной системе, плохо работает на стационарном сигнале. В слуховой коре больших полушарий мозга имеются группы клеток, которые никак не реагируют на чистые тоны, зато реагируют на изменение параметров сигнала, причем одни нейроны реагируют только на повышение частоты, другие - только на понижение, третьи на любое изменение. Эти частотные детекторы реагируют на частотную модуляцию с частотой до 7...12 Гц и наибольшую чувствительность имеют, когда во временное окно слухового анализатора укладывается половина периода частоты модуляции, что соответствует частоте модуляции 3,5-6 Гц. Этим свойством слухового аппарата объясняется большое эстетическое значение вибрато.

                    Например, у меня получается, что хватает 512 отсчетов для различения фонем, а это 32 мс.
                    Сообщение отредактировано: grisania -
                      Цитата grisania @
                      Например, у меня получается, что хватает 512 отсчетов для различения фонем, а это 32 мс.

                      Это какая частота дискретизации? Если 32мс - 512 отсчётов, то 1600Гц? Значит верхняя частота анализа максимум 800 Гц? Вторые форманты теряются в таком случае.
                      Цитата grisania @
                      Надо тут как-то учесть время и изменить класический принцип неопределенности - время-частота на какой-то психоакустический принцип неопределенности .

                      Я пытался пояснить разрешающую способность по частоте, а не по времени. Существует и последовательная маскировка речевого сигнала (по времени), учитывающая особенности временнОго восприятия. Но она более применима при сжатии сигнала, чем в распознавании.
                      Сообщение отредактировано: kaa1 -
                        Цитата kaa1 @
                        Это какая частота дискретизации? Если 32мс - 512 отсчётов, то 1600Гц? Значит верхняя частота анализа максимум 800 Гц? Вторые форманты теряются в таком случае.

                        Да частота дискретизации - 1600Гц, значит, вторых формант ненадо.
                        Вопрос?
                        Цитата http://www.keldysh.ru/papers/2001/prep87/prep2001_87.html
                        Известно, что наиболее информативные частоты человеческого голоса сосредоточенны в интервале 100Гц - 5КГц, поэтому в спектрограмме оставляют только гармоники, частоты которых попадают в этот интервал.

                        Как грамотно и по науке вырезать полосу частот 100Гц - 5КГц, если частота дискретизации - 1600Гц,
                        Сообщение отредактировано: grisania -
                          Цитата grisania @

                          Да частота дискретизации - 1600Гц, значит, вторых формант ненадо.

                          По первой форманте довольно трудно определить класс гласного:
                          1. При ЧОТ менее 150 Гц довольно часто максимум спектра находится не на частоте форманты, а на ЧОТ.
                          2. При ЧОТ более 200 Гц первая форманта и основной тон находятся на одной частоте (кроме А).
                          3. При ЧОТ 300 Гц и более в частотном окне анализа находятся только две гармоники, что усложняет распознавание.
                          4. Значения частоты первой форманты для У и Ы, а также Э и О примерно одинаковы.
                          5. Вполне возможно определение гласного как сонанта и наоборот.

                          Добавлено
                          Цитата grisania @
                          Как грамотно и по науке вырезать полосу частот 100Гц - 5КГц, если частота дискретизации - 1600Гц,

                          Это невозможно. По теореме Котельникова максимальное верхнее значение частотного окна анализа равняется частота дискретизации делённая на 2. На более высоких частотах наблюдается симметричное отражение частотного окна.
                            Цитата kaa1 @
                            Это невозможно. По теореме Котельникова максимальное верхнее значение частотного окна анализа равняется частота дискретизации делённая на 2. На более высоких частотах наблюдается симметричное отражение частотного окна.

                            Тогда как эту полосу вырезают в статье:
                            НЕЙРОСЕТЕВОЙ АНАЛИЗ И СОПОСТАВЛЕНИЕ ЧАСТОТНО-ВРЕМЕННЫХ ВЕКТОРОВ НА ОСНОВЕ КРАТКОСРОЧНОГО СПЕКТРАЛЬНОГО ПРЕДСТАВЛЕНИЯ И АДАПТИВНОГО ПРЕОБРАЗОВАНИЯ ЭРМИТА
                            Цитата http://www.keldysh.ru/papers/2001/prep87/prep2001_87.html
                            Известно, что наиболее информативные частоты человеческого голоса сосредоточенны в интервале 100 Гц - 5КГц, поэтому в спектрограмме оставляют только гармоники, частоты которых попадают в этот интервал
                              Цитата grisania @
                              Тогда как эту полосу вырезают в статье:

                              Там не указана частота дискретизации. Для того, чтобы вычленить 5 кГц частота дискретизации должна быть не менее 10кГц.
                                Цитата kaa1 @
                                Это невозможно. По теореме Котельникова максимальное верхнее значение частотного окна анализа равняется частота дискретизации делённая на 2. На более высоких частотах наблюдается симметричное отражение частотного окна.

                                Хорошо, тогда как отрезать только низкие частоты до 100Гц по науке при частоте дискретизации 1600Гц
                                Сообщение отредактировано: grisania -
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (3) [1] 2 3  все


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0570 ]   [ 15 queries used ]   [ Generated: 17.05.24, 17:35 GMT ]