На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (4) [1] 2 3 ... Последняя » все  ( Перейти к последнему сообщению )  
> Что слышим? Гармоники или их огибающую
    Чтобы распознать речь, надо понять как мы слышим и что - гармоники из спектра или их огибающую.
    Как происходит спектральное разложение звука. Идея такая - надо понять как человек создает пространство ощущений и как в этом замешана энергия.

    Процетирую, что сказал decan на другом форуме forum.vingrad.ru
    Цитата
    А задача по распознаванию речи стоит для себя или что?
    Просто есть некоторые мысли, хотелось поделиться, пообщаться.
    например начать надо с отметения проблемы ресурса (вычислительного) раз,
    осознание того что исследования в частотной области что-то ни к чему не ведут (можно представить какой человеческий ресурс на западе на это брошен).
    а также что использование различных "масочных" методов идентификации - тупость, т. е. можно конечно создать базу из 5 млн дикторов по 10 тысяч слов и т.д., но это что решение что-ли?
    А задачу надо начинать решать, как известно, с постановки т.е. с формализации, что такое распознать, что такое речь. Т. е. что за специфичный сигнал , который распознаётся при соотношении сигнал-шум 1:1, даже при том что шум - однотипный сигнал т. е. тоже речь.
    Короче кто солидарен с моим подходом к теме , прошу откликнутся.

    Я вот и откликнулся, но в начале я напомню всем как человек слышит, а потом каждый день буду добавлять. Без этих знаний не удастся решить проблему распознавания речи.
    ----------------------------------------------------------------------------------------------
    Цитата
    Спиральный канал улитки отделяется от барабанной лестницы т.н. основной (базилярной) мембраной, которая напоминает струнный инструмент в миниатюре. Она содержит ряд параллельных волокон различной длины и толщины, натянутых поперек спирального канала, причем волокна у основания спирального канала короткие и тонкие. Они постепенно удлиняются и утолщаются к концу улитки, как струны арфы. Мембрана покрыта рядами чувствительных, снабженных волосками клеток, составляющих т.н. кортиев орган, который выполняет высокоспециализированную функцию – превращает колебания основной мембраны в нервные импульсы. Волосковые клетки связаны с окончаниями нервных волокон, по выходе из кортиева органа образующих слуховой нерв (улитковую ветвь преддверно-улиткового нерва

    http://www.krugosvet.ru/articles/35/1003519/1003519a1.htm
    Цитата
    Кортиев орган
    Кортиев орган - рецепторная часть слухового анализатора. Кортиев орган преобразует энергию звуковых колебаний в нервное возбуждение. Кортиев орган расположен на основной мембране в улитковом канале внутреннего уха, заполненном эндолимфой. Кортиев орган состоит из ряда внутренних и трех рядов наружных воспринимающих звук волосковых клеток, от которых отходят волокна слухового нерва

    http://www.glossary.ru/cgi-bin/gl_sch2.cgi?RRrz)uiup!gtgrongyuw

    Цитата
    Теперь самое важное - кортиев орган. На "полу" улиткового протока ("по-научному" - базилярной мембране) располагаются скопления особых клеток. Каждая из них имеет на вершине специальные выросты - волоски, свободно плавающие в эндолимфе. Клетки, соответственно, называются волосковыми. Общее их количество составляет десятки тысяч, количество же волосков - и того больше: каждая клетка, в зависимости от вида, имеет от 30 до 120 волосков. К основанию волосковых клеток вплотную примыкают нервные окончания, а над "верхушечными" волосками нависает еще одна мембрана - текториальная...
    Итак, резюмируем: звуковые волны уловленные ушной раковиной, ударили в барабанную перепонку и вызвали ее колебания. Вместе с перепонкой пришла в движение конструкция из трех слуховых косточек, последняя из которых передала вибрацию в заполненный жидкостью лабиринт. Отсюда начинается звуковосприятие - движения овальной пластинки стремени вызывают "бегущую волну" перилимфы в верхней (преддверной) лестнице улитки. Прогибая "потолок" перепончатого лабиринта, эта волна докатывается до вершины улитки, где, "проскочив" через геликотрему, переходит в нижнюю (барабанную) лестницу. В последней тоже образуется "бегущая" перилимфатическая волна, которая приподнимает "пол" перепончатого лабиринта - базиллярную мембрану. В итоге приходит в движение эндолимфа, заполняющая перепончатый лабиринт. И отростки волосковых клеток, конечно, тоже. Они деформируются, что приводит к определенным химическим изменениям в их цитоплазме. Следом за химическими начинаются соответствующие изменения электрического потенциала волосковых клеток - и вот эти-то изменения передаются на нервные окончания, вплотную примыкающие к основанию данных клеток.
    Как говорится - свершилось! Звуковые волны (т.е. колебания механические), благодаря кортиеву органу, трансформировались в электрические колебания - сигналы, "понятные" головному мозгу. Это явление называется микрофонным эффектом улитки (если в основание волосковой клетки вживить микроэлектрод, соединить его с усилителем и динамиком, то можно убедиться в том что вышеозначенная клетка "работает" как самый обычный эстрадный микрофон). Дальнейшее уже является делом нервной системы, а последняя, как известно, осуществляет все ей предписанное быстро и точно.
    Электрические сигналы, подхваченные отростками нейронов, расположенным в спиральном узле, отправляются по волокнам преддверноулиткового нерва в область ядер этого нерва; затем проходят еще через пару "мозговых инстанций", и, наконец, достигают коры височных долей головного мозга. И только там, в аналитическом центре, механические колебания воздуха, вызванные взрывом хлопушки, "осознаются" нами как этот самый "взрыв хлопушки".
    Конечно, же приведенное выше описание слуховых процессов на самом деле является сильно усеченным и примитивизированным - многие моменты пришлось оставить "за кадром". Специалисты посвящают многостраничные диссертации разнице в химическом составе перилимфы и эндолимфы при разных состояниях организма, устройству и работе молекулярных каналов, расположенных в мембранах волосковых клеток и сотням других деталей функционирования слухового анализатора, но здесь приводить эти данные, в общем-то, было бы излишним. Так же, как и детали пространственно-залповой и "телефонных" теорий слуха, тонкости преобразующего механизма уха и т.д. Хотелось бы обратить внимание на другое: весь вышеописанный процесс "слушания" занял ничтожные доли секунды. "Оповестив" мозг о взрыве хлопушки, все функциональные звенья слухового анализатора (барабанная перепонка, слуховые косточки, мембраны и жидкости лабиринта, волоски и органеллы клеток кортиева органа, нервные волокна и нейроны) мгновенно пришли в готовность принять и обработать следующее звуковое явление окружающей среды. И так всю нашу жизнь. Разве это не достойно искреннего восхищения? Надеюсь, теперь Вы будете более уважительно относиться к дарованной человеку способности слышать мир - какой бы эта способность ни была.

    http://www.doktor.ru/au/faq/q1/index1.htm
    Цитата
    Кортиев орган
    - аппарата, впервые появляющийся во внутреннем ухе рептилий (у крокодилов), но достигающий полного развитии у млекопитающих и служащий, по предположению Гельмгольца, для разложения звуков на простые тона. Аппарат помещается в улитке (см. Ухо и Улитка; фиг. см. в ст. Слуховые клетки). В К. органе мы различаем: во-первых, так наз. клетки столбов и, во-вторых, собственно слуховые клетки, цилиндрической формы, с пучком неподвижных волосков на своем свободном конце. И те, и другие сидят на основной перепонке, состоящей на всем своем протяжении из нитевидных, упругих волокон, наподобие струн арфы, натянутых между нижней губой и спиральной связкой. Волокна в различных отделах улитки различной длины. У человека их насчитывают от шестнадцати до двадцати тысяч, и вероятно, каждое волокно отвечает колебаниям того или другого тона
    http://www.wikiznanie.ru/ru-wz/index.php/%d0%9a%d0%be%d1%80%d1%82%d0%b8%d0%b5%d0%b2_%d0%be%d1%80%d0%b3%d0%b0%d0%bd

    Резюмируя, у человека ухо подобно спектроанализатору параллельного действия . Он содержит от шестнадцати до двадцати тысяч (в других источниках пишут и тридцать тысяч) камертонов.
    Продолжение следует.
    Сообщение отредактировано: grisania -
      Продолжение
      Вопрос. Так сколько тонов или различных частот может воспринимать человек. Я нашел такое более-менее внятное объяснение, что только около 3000.

      Цитата
      Наиболее существенной, воспринимающей частью слухового аппарата являются нервные волосистые клетки, в которых заканчиваются волокна улиточного нерва. Нижними отростками своими они связаны со струнами основной перепонки, причем один ряд этих клеток лежит позади Кортиевых дуг, а три других - впереди от них. Верхний же конец этих нервных клеток усажен волосками, прикрытыми сверху толстой крышечной перепонкой, играющей, по всей вероятности, роль заглушителя. Всех этих волосистых нервных клеток имеется в каждой улитке человека от 16000 до 20000, причем основанием для клеток служит не одна, а три струны. Если принять 12000 за наименьшее число нервных волосистых клеток и считать, что для восприятия одного тона предназначены 4 клетки, лежащих на одной и той же струнной единице, то улитка человека была бы способна улавливать по меньшей мере 3000 тонов. Если Кортиев орган во всей его совокупности представляет у высших млекопитающих и человека специальный орган для восприятия сложных звуков, то в устройстве его должны быть даны все те механические условия, какими определяется все три основных свойства звуков: их сила,высота и тембр. Первая, т. е. сила звука обусловливается амплитудой колебаний волокон основной перепонки; чем сильнее вызванные внешним звуком колебания этих волокон, тем сильнее должны раздражаться волосяные клеточки, а вместе с ними окончания в них слухового нерва и тем сильнее будет возбуждение, а чрез это и слуховые ощущения. Для восприятия тонов различной высоты дана довольно длинная шкала струн основной перепонки различной длины, рассчитанная на восприятие не менее 3000 звуков различной высоты; наконец, в том же струнном аппарате основной перепонки даны условия для возникновения тембра звуков; так как с одной стороны тембр звуков зависит от примеси к основному тону звуков различных обертонов, а с другой - струнный аппарат Кортиева органа, как резонирующий анализатор, воспроизводит колебания, соответствующие не только основному тону, но и обертонов, то этим даны все условия для возникновения в слуховом ощущении и той стороны его, которая характеризуется словом тембр . Главным условием для образования слухового ощущения является то, чтобы колебания звучащего тела повторялись не менее чем 30 раз в секунду; более медленные колебания можно чувствовать, но не слышать, если только эти колебания простые, т. е. дают чистый тон. Когда же этот основный тон, в сущности не слышимый, сопровождается обертонами, то можно слышать последние и ошибочно утверждать, что слышим основный тон. Тон от органной трубы, делающей 33 колебания в сек., дает ощущения низкого жужжания, а с 40 колебаний в секунду тон делается совершенно ясным и способность различать высокие тоны прекращается приблизительно для большинства людей при 16000 колебаний в секунду. Способность различать один тон от другого неодинакова у различных людей; в то время как музыкальное ухо, т. с. люди с чутким наупражнявшимся ухом, замечают разницу, зависящую от полу или четверти вибраций в секунду, другие с тупым С. не различают тонов с разницею даже в несколько целых вибраций в секунду. Таковы условия возбуждения слухового ощущения в периферическом слуховом аппарате; что же касается превращения возбуждения окончании слухового нерва в осмысленное слуховое ощущение, то это является для нас совершенно таинственным актом полушарий головного мозга.

      http://dic.academic.ru/dic.nsf/brokgauz/19786

      Значит не 20-30 тысяч, если судить по числу струн, а не менее 3000 звуков различной высоты.

      Цитата
      Звуковые волны (т.е. колебания механические), благодаря кортиеву органу, трансформировались в электрические колебания - сигналы, "понятные" головному мозгу. Это явление называется микрофонным эффектом улитки (если в основание волосковой клетки вживить микроэлектрод, соединить его с усилителем и динамиком, то можно убедиться в том что вышеозначенная клетка "работает" как самый обычный эстрадный микрофон). Дальнейшее уже является делом нервной системы, а последняя, как известно, осуществляет все ей предписанное быстро и точно.

      http://www.doktor.ru/au/faq/q1/index1.htm

      Теперь как человек принимает эти сигналы. Я здесь вел переписку с ником EugenyVD (в миру он Евгений Дмитриев) на эту тему. Я ему задал этот вопрос. Он написал книгу по короткими сигналами. Ссылка есть на форуме.

      Цитата
      У меня вопрос, на который я не могу себе ответить и очень связанный с короткими сигналами.

      Стоят камертоны - они возбуждаются, например, их у человека примерно в ухе 30 000 (а может 3000). Пришел сигнал, понятно, что они не возбуждаются все сразу, а постепенно. Пришел 1-й кадр – ваш короткий сигнал. Он что-то возбудил. Появляется новые кадры, они возбуждают другие гармоники, но как? Пусть, например, энергия нового кадра хочет осесть на уже возбужденных камертонах. Как это физически осуществляется, т.к. как себе ведут уже возбудившиеся камертоны, если они, например, возбудились, а другие кадры коротких сигналов пополняют их энергию. Время идет, воздух колеблется, энергия непрерывно поступает в ухо. Но это не может продолжаться до бесконечности.
      Тут как бы не понятно время и спектр. Чтобы знать спектр, надо знать промежуток кадра.

      Может ответ такой. Энергия с камертонов-волосков снимается и идет в мозг. Хотя, что бы знать какие камертоны именно возбудились, т.е. знать спектр, надо знать длину кадра. Получается, что весь короткий сигнал (кадр) уже распределенный по спектру начинает движение в голове. Энергия сигнала пошла в мозг, где его уже обрабатывают нейроны, например, фильтруют. Какая длина короткого сигнала во времени (кадра), который идет в голову или это бессмысленный вопрос.
      Получается, что нет статики, как в разложении на гармоники – пока нет длины кадра, то нет спектра.
      В общем, вроде все как бы и понятно, но гложут сомнения, может не прав. Пытался решать диффурры. Ведь камертон это колебательный контур, но как он дополнительно поглощает энергию во времени, я не понял, и тоже не понял, как он ее отдает во времени. Вопросы, Вопросы, Вопросы.


      Кто может на это ответить? EugenyVD ответил, но это в другой раз.
        Я писал выше такое:
        Цитата
        Значит не 20-30 тысяч, если судить по числу струн, а не менее 3000 звуков различной высоты.

        Вчера нашел в амеровской книге
        "The Scientist and Engineer's Guide to Digital Signal Processing." Steven W. Smith. www.dspguide.com
        такие слова:
        Contained within the cochlea is the basilar membrane, the supporting structure for about 12,000 sensory cells forming the cochlear nerve. The basilar membrane is stiffest near the oval window, and becomes more flexible toward the opposite end, allowing it to act as a frequency spectrum analyzer. When exposed to a high frequency signal, the basilar membrane resonates where it is stiff, resulting in the excitation of nerve cells close to the oval window. Likewise, low frequency sounds excite nerve cells at the far end of the basilar membrane. This makes specific fibers in the cochlear nerve respond to specific frequencies. This organization is called the place principle, and is preserved throughout the auditory pathway into the brain.
        Перевод на русский смотри http://www.autex.spb.ru/download/dsp/dsp_guide/ch22en-ru.pdf

        Получается, что камертонов 12,000. Но для меня это очень хорошо.

        Теперь ответ Е. Дмитриева (ник EugenyVD).
        Цитата
        Я постарался Вашими словами изложить мое понимание поставленной проблемы.
        Время идет, воздух колеблется, энергия непрерывно поступает в ухо. Там стоят камертоны - они возбуждаются, например, их у человека примерно 30 000 (по моим сведениям их всего около 10). Пришел сигнал, они возбуждаются. Однако только те из них, которые имеют собственные частоты сходные с имеюшимися в сигнале (это вхождение их в резонанс). Пришел 1-й кадр ? короткий сигнал. Он какие-то камертоны возбудил. Появляются новые кадры. Они как возбуждают или гасят часть прежних, так и возбуждают другие камертоны, в зависимости от структуры спектра сигнала кадра. Пусть, например, энергия нового кадра хочет осесть на уже возбужденных камертонах. Как это физически осуществляется? Новые кадры коротких сигналов пополняют энергию камертонов, т.е. возрастает амплитуда их колебаний. Чтобы знать какие камертоны именно возбудились, т.е. знать спектр, не обязательно всякий раз знать длину кадра. Должна быть обеспечена лишь минимально допустимая длина кадра. Энергия с камертонов снимается и идет в мозг.
        Короткий сигнал (кадр) уже распределенный по спектру начинает движение в голове. Это огибающая сигнала. Высокочастотное заполнение сигнала (тон), как менее информативное в распознавании смысловой информации мало участвует. Далее энергия сигнала (амплитуды камертонов) поступает в мозг, где ее уже обрабатывают нейроны, например, фильтруют и т.д. Это продолжается беспрерывно. Камертон это колебательный контур, он поглощает энергию во времени путем увеличения амплитуды колебаний. Он ее также отдает во времени, уже уменьшая амплитуду, если резонанс пропадает. Получается, что нет статики, все в динамике.
        Поскольку реально звуковой сигнал поступает в ухо непрерывно, то все процессы в нем и в иозгу также непрерывны. Деление длинного сигнала на кадры искусственно и необходимо лишь для того, чтобы упрощать алгоритмы обработки и реализовывать их на цифровых но не на аналоговых вычислительных машинах.


        Тогда, что такое короткий сигнал. Рассмотрим такой случай:
        Пусть мы знаем, что фонема "а" кодируется на периоде времени [0,2T] гармоникой sin(t), что фонема "б" кодируется на таком же периоде времени [0,2T] гармоникой sin(2t). Теперь в промежутке времени [0,4T] сингнал явно непериодический. Пусть T очень маленькое, тогда на периоде времени [0,2T] одна гармоника, а периоде [T,4T] другая. А на периоде времени [0,4T] их много.
        Ясно, что t надо умножить на омегу=2*3,14/T. Не знаю как омегу вставить.
        Как тогда возбуждаются камертоны и как узнать, где начинается новая фонема?
        Мы когда смотрим на сигнал, то можем выделить отрезок времени, где начинается фонема, а человек вопринимает вектор сигналов и фонема для него не кадр во времени одного сигнала, а вектор кадров во времени, которые снимаются с камертонов.

        Также из ответа Е. Дмитриева возникает вопрос, что такое минимальная длина кадра - это всем
        известные 10 мс или как-то это связано с квантом энергии. Она не может передаваться непрерывно, а должна квантоваться. Этот квант энергии и определяет длину кадра. Такую квантованную звуковую энергию в твердых телах переносят фононы. Ссылка на статью про звуковые фононы без привязки к твердому телу есть в одной из книг Мясникова – известный классик звука и ультразвука.

        Поставим перед собой еще одну проблему
        Куда уходит звуковая энергия с камертонов в ухе. Только ее маленькая часть преобразуется в электрический сигнал, а энергия извне идет и идет, значит, амплитуда камертонов увеличивается и увеличивается. Так что происходит с этой энергией, куда она исчезает. Она же вся в мозг не поступает.
        Вопросы, Вопросы, Вопросы.
        Сообщение отредактировано: grisania -
          http://audio.micronet.lv/books/AldoshinaPsychoacoustics.zip
          Григорий, думаю, эта книга Вам пригодится.
            Пишет Е. Дмитриева (ник EugenyVD:
            Цитата
            Чтобы знать какие камертоны именно возбудились, т.е. знать спектр, не обязательно всякий раз знать длину кадра. Должна быть обеспечена лишь минимально допустимая длина кадра.

            Как узнать минимально допустимую длину кадру? Вроде для распознавания это уже экспериментально установлено - 10 мс. Это длина кадра совпадает с вашим пониманием длина кадра. Если это так, то получается, что 10 мс - это кадр, энергию которого может принять человек. Значит, 10 мс можно обосновать с этих позиций. Напимер на странице описано обоснование выбора длины кадра в 10 мс.
            http://offline.computerra.ru/1997/226/937/
            ”Временной (10 мс) интервал вычисления был определен и обоснован экспериментально еще на заре развития технологии автоматического распознавания речи. На этом интервале дискретный случайный процесс, представляющий оцифрованный речевой сигнал, считается стационарным, то есть, на таком временном интервале параметры голосового тракта значительно не изменяются”

            Пишет Е. Дмитриева (ник EugenyVD:
            Цитата
            Новые кадры коротких сигналов пополняют энергию камертонов, т.е. возрастает амплитуда их колебаний. Чтобы знать какие камертоны именно возбудились, т.е. знать спектр, не обязательно всякий раз знать длину кадра. Должна быть обеспечена лишь минимально допустимая длина кадра. Энергия с камертонов снимается и идет в мозг.

            Мне непонятна у вас фраза “знать спектр, не обязательно всякий раз надо знать длину кадра. Должна быть обеспечена лишь минимально допустимая длина кадра”. Кто ее определяет: природа, человек произвольно или какой-то аналог принципа неопределенности - энергия-время.

            Пишет Е. Дмитриева (ник EugenyVD:
            Цитата
            Энергия с камертонов снимается и идет в мозг. Короткий сигнал (кадр) уже распределенный по спектру начинает движение в голове. Это огибающая сигнала. Высокочастотное заполнение сигнала (тон), как менее информативное в распознавании смысловой информации мало участвует.

            Факт, что мы воспринимаем только огибающую сигнала, является известным и как-то обоснованным?. Если, да, то где это написано и какие приводятся рассуждения для обоснования?

            Так сколько же камертонов у нас в ухе?
            У нас теперь как-бы 3 варианта.
            1) 30 000;
            2) 3 000;
            3) 12 000

            Теперь ответы и мысли Е. Дмитриева (ник EugenyVD) о длине кадра (длина короткого сигнала) и огибающей:
            Цитата
            1. По поводу 30000. Все таки эта цифра наверное принадлежит другому параметру слухового аппарата.
            Если действительно в ухе имеются столько камертонов, то его разрешающая способность будет равна 20000Гц/30000=0.66Гц. То есть человек должен различать например звуки с частотами 5000.00Гц и 5000.66Гц. Полагаю, что даже для музыканта с абсолютным слухом это невозможно. Далее при таком количестве камертонов ухо должно точно определить состав спектра звука, состоящего из нескольких сотен различных гармоник из диапазона от 0 до 20кГц. На самом же деле если на рояле ударить например по 10-ти различным клавишам одновременно, то опять же ни один из выдающихся музыкантов на слух не определит - какие ноты были исполнены.
            2. По поводу длины кадра.
            Если этот параметр использовать в техническом устройстве для анализа речи, то согласен, что это должен быть интервал стационарности параметров речевого сигнала. С этим параметром связаны и частотные характеристики уха и речевого аппарата.
            3. По поводу огибающей речевого сигнала. Мое понимание следующее.
            Общение живых существ осуществляется через воздушную среду. При этом природой используется одно из ее свойств - проводимость для колебаний звуковой частоты. Поэтому для передачи информации необходимо лишь издавать эти колебания, одновременно их модулируя полезным сигналом. Потребная скорость передачи информации такова, что для зтого достаточно использовать низкочастотный сигнал. Это и есть огибающаяя. Частота высокочастотного сигнала большого значения для восприятия содержательной информации не имеет. Мы прекрасно понимаем и звонкую речь ребенка, женскую речь и низкие голоса мужчины. Поэтому устройство распознавания речи должно содержать демодулятор - низкочастотный фильтр. На его выходе будет гладкий сигнал - огибающая речи, которую легче анализировать, чем высокочастотный сигнал. На следующем этапе можно использовать мой метод определения спектра фрагментов огибающей с целью определения частот и амплитуд гармоник, содержащихся в этих фрагментах. Эти параметры могут служить
            в качестве признаков распознавания слов и букв речи.

            Ссылка на книгу Е. Дмитриева (ник EugenyVD)
            Главы книги (.doc или .pdf) должны нормально читаться с сайтов http://short-signal-sp.pochta.ru (считывание медленное)
            http://short-signal-sp.narod.ru (более старый и не полный вариант)
            Сообщение отредактировано: grisania -
              Цитата
              Многочисленные исследования были посвящены порогам различимости по высоте двух разных тонов,
              отличающихся по частоте. Результаты современных исследований представлены на рис.6, на котором видно,
              как слуховая система может различить по высоте два звука, отличающихся по частоте всего на 0,2%. Такая
              тонкая разрешающая способность слуха позволила установить, что ниже частоты 500 Гц можно выделить
              примерно 140 градаций высоты тона, в диапазоне от 500 Гц до 16 кГц - примерно 480 градаций высоты тона
              6
              (всего 620 градаций). В европейской музыке
              инструменты с равномерно темперированной шкалой
              используют порядка 100 градаций высоты тонов. Но
              возможности слуховой системы гораздо больше - 620
              градаций высоты, и это основа для развития
              современной микротоновой и спектральной музыки, то
              особенно продвинулось в связи с появлением
              компьютерных технологий.
              Ощущение высоты чистого тона (одной частоты) связано не только с частотой, но и с интенсивностью звука и
              его длительностью. Как показали различные исследования, при повышении интенсивности звука громкие
              низкие звуки кажутся еще ниже, а высокие звуки с повышением громкости кажутся слегка выше (зависимость
              показана на рисунке 7), для средних частот 1-2 кГц влияние интенсивности незаметно. Следует отметить, что
              эта зависимость незначительна, а для сложных музыкальных звуков почти незаметна. Это великое счастье
              для музыки, т.к. иначе при переходе от pp к ff звуковысотные отношения (мелодия и гармония) были бы
              нарушены.
              Ощущение высоты тона зависит и от его
              длительности: короткие звуки воспринимаются как
              сухой щелчок, но при удлинении звука щелчок
              начинает давать ощущение высоты тона. Время,
              требуемое для перехода от щелчка к тону, зависит от
              частоты: для низких частот требуется для
              распознания высоты тона примерно 60 мс, для частот
              от 1 до 2 кГц - 15 мс. Для сложных звуков это время
              увеличивается, для звуков речи оно может составлять
              20-30 мс.

              Ирина Алдошина
              "Основы психоакустики"
              Сообщение отредактировано: Prince -
                Цитата Prince @
                Ощущение высоты чистого тона (одной частоты) связано не только с частотой, но и с интенсивностью звука и
                его длительностью. Как показали различные исследования, при повышении интенсивности звука громкие
                низкие звуки кажутся еще ниже, а высокие звуки с повышением громкости кажутся слегка выше (зависимость
                показана на рисунке 7), для средних частот 1-2 кГц влияние интенсивности незаметно. Следует отметить, что
                эта зависимость незначительна, а для сложных музыкальных звуков почти незаметна. Это великое счастье
                для музыки, т.к. иначе при переходе от pp к ff звуковысотные отношения (мелодия и гармония) были бы
                нарушены.

                Ну написала это Ирина Алдошина"Основы психоакустики". Что с этим делать?
                Где присходит выроботка человеком ощущение высоты чистого тона? Это как-то делают струны в ухе или волосики или это результат обработки нейронами мозга.
                Но это важно понять. Можно начинать понимать или думать как человек делает нормировку звука по громкости.
                Может челоек в начале отмечает, что этот звук для него громкий, а потом нормирует как-то для себя в какие-то относильнве величины громкости. Есди, да, то как эти относильнве величины громкости меняются от человека к человеку
                Например, мы это начали обсуждать с neurofish в ветке "Программы анализа речи(речевого сигнала)"

                Цитата
                Многочисленные исследования были посвящены порогам различимости по высоте двух разных тонов,
                отличающихся по частоте. Результаты современных исследований представлены на рис.6, на котором видно,
                как слуховая система может различить по высоте два звука, отличающихся по частоте всего на 0,2%. Такая
                тонкая разрешающая способность слуха позволила установить, что ниже частоты 500 Гц можно выделить
                примерно 140 градаций высоты тона, в диапазоне от 500 Гц до 16 кГц - примерно 480 градаций высоты тона

                Ну написала это Ирина Алдошина"Основы психоакустики". Что с этим делать? Можно ли как вычислить на основе этой инфы сколько для этого надо камертонов человеку. То есть решить обратную задачу.
                Сообщение отредактировано: grisania -
                  Григорий, я подумал, что эта книга может Вам пригодится. Если нет, ну что ж, не читайте.
                    Цитата Prince @
                    Григорий, я подумал, что эта книга может Вам пригодится. Если нет, ну что ж, не читайте.

                    За книгу спасибо, но хотелось бы это перевестив в формулы, алгоритмы.
                    В ней дествительно обобщен большой материал. Удобно - все одном месте. Но в ней тактично обходится вопрос - какое же количество камертонов в ухе. Говорится - несколько тысяч. Может эта баба Алдошина умная и знает, что это пока неясно. Также как они гасится. В ссылке вверху есть какие-то слова про заглушители камертонов. Мне для постоения логики возбуждения эта инфа важна. Чем больше количество камертонов, тем больше размер пространсва, тем больше можно в нем рзместить иформации.
                    Но это я еще буду обсуждать. Немого инфы на эту тему. Такое пространсво вроде называют называют корреляцинным пространсвом. Тогда просто ухо человеческое - яркий пример как возникает такое корреляцинное пространсво физически. Про корреляцинное пространсво см. Станислава Тактаева, который пишет: исследован принцип выбора семантически ортогональных осей координат по признаку корреляции( по работам Е.В. Луценко).
                    http://www.taktaev.com/russian/cnp_prom
                    Этот Станислав Тактаев пишет что-то про фонемы, но это пока общие слова, толку от них мало.
                    http://www.taktaev.com/russian/cnp/using_of_theory/speech_recognitiom

                    Такими семантическими ортогональными осямы координат и станут камертоны, так как известно, что гармоники ортогональны.
                    Сообщение отредактировано: grisania -
                      Цитата
                      1. По поводу 30000. Все таки эта цифра наверное принадлежит другому параметру слухового аппарата.
                      Если действительно в ухе имеются столько камертонов, то его разрешающая способность будет равна 20000Гц/30000=0.66Гц. То есть человек должен различать например звуки с частотами 5000.00Гц и 5000.66Гц. Полагаю, что даже для музыканта с абсолютным слухом это невозможно.

                      В алгоритме получение этой оценки, как мне кажется, содержится ошибка (а, следовательно, и в самой оценке).
                      Я думаю, общеизвестно, что слух человека имеет логарифимческие характеристики как по амплитуде, так и по частоте: амплитуду принято измерять в дБ, а частоту - в октавах.
                      "Средней" частотой звукового диапазона можно считать примерно 600 Гц. Отличие 600.00 Гц от 600.66 составляет 0.1%, что по порядку величины находится в согласии с экспериментальными данными по различимости тонов разной высоты.
                      Цитата

                      Многочисленные исследования были посвящены порогам различимости по высоте двух разных тонов,
                      отличающихся по частоте. Результаты современных исследований представлены на рис.6, на котором видно,
                      как слуховая система может различить по высоте два звука, отличающихся по частоте всего на 0,2%. Такая
                      тонкая разрешающая способность слуха позволила установить, что ниже частоты 500 Гц можно выделить
                      примерно 140 градаций высоты тона, в диапазоне от 500 Гц до 16 кГц - примерно 480 градаций высоты тона

                      Да, цифра 0.2% является общепринятой. Но остальные оценки мне представляются крайне неправдоподобными.
                      Если брать равномерную шкалу, то октава вверх - это 500 раз по 0.2%, а октава вниз - 250 раз. Если взять боолее аккуратно в логарифмическом масштабе, получим, что на октаву приходится примерно 360 "ступенек" по 0.2%.
                      Повторяю: на КАЖДУЮ октаву. Которых от общепринятого порога 16 Гц до 500 - аж 5 штук. Т.е. по оценкам не 140, а 1800 градаций. И примерно столько же вверх. Хотя известно, что для низких и высоких частот этот интервал несколько больше.
                      В общем, мне представляется наиболее правдоподобной цифра в 2000-3000 различаемых человеком тонов.
                      Далее. Диапазон частот, передаваемых телефонной линией составляет примерно от 300-500 до 3000-3500. И считается, что в этом диапазоне находится ВСЯ необходимая для распознавания информация. Для диапазона 400-3200 (3 октавы) при ступеньках 0.2% (что близко к истине в данном диапазоне) их получается около 1000 штук. Мне кажется, из этой цифры логичнее всего и исходить как из максимальной оценки.
                      Другая оценка также следует из практики: как известно, "добротность" человеческого уха сравнительно низка и соответствует частотным полосам примерно 1/3 октавы, чем и пользуются звукорежиссеры. Т.е. для создания ЛЮБОЙ АЧХ достаточно 30-полосного эквалайзера, составленного из 1/3-октавных фильтров. На 3 рассматриваемых нами октавы (400-3200) достаточно 9 полос. (кстати, любопытно, что цифра 10 здесь звучала)
                      Т.е. получаем, что реальное количество полос, которое необходимо распознать лежит где-то в пределах от 10 до 1000.
                        Цитата andriano @
                        "Средней" частотой звукового диапазона можно считать примерно 600 Гц. Отличие 600.00 Гц от 600.66 составляет 0.1%, что по порядку величины находится в согласии с экспериментальными данными по различимости тонов разной высоты.

                        Так как человек слышит вынужденные колебания, то для него высота тона вещь в себе. Он не слышит чистую амлитуду. Слабые колебания зквуковой волны закачиваются в камертон и и их амлитуда будет очень высокой при резонансе. Максимальное значение АЧХ или амплитуда резонанса вычисляются по формуле:
                        Ар = F0/(2·m·β·ω0).
                        где F0 амплитуда вынужденной силы, β-коэффициентами затухания, ω0 - частота собственных колбаний.
                        m - массса для механического осциллятора. Что m соотвествует для камертона в ушах, я не знаю. Значит амплитуда, которую слышит человек зависит от частоты тона.
                        В отсутствие трения, т. е. при β = 0, резонансная амплитуда стремится к бесконечности. Это наверно дает ответ на ворпрос декана в начале этотого поста что за специфичный сигнал, который распознаётся при соотношении сигнал-шум 1:1, даже при том что шум - однотипный сигнал т. е. тоже речь.
                        Если на вас воздействует периодическое колебание и даже очень маленькой амлитуды, то его энергия на каждом периоде все больше и больше раскачивает камертон и вы слышите этот сигнал, т.е. обычный резонанс.
                        Еще раз подчеркиваю, что не слышите реальной амлитуды сигнала воздействия звуковой волны. За счет резонанса вы можете выделить даже слабый звуковой сигнал на фоне сильного шума. Поэтому высота тона -это вещь относительная и вне человека не существует, как и тембр, ритмичность и так далее. Как человек формирует для себя понятие высота тона я не знаю, но это не реальная амлитуда сигнала воздействия на вас звуковой волны.

                        Далее АЧХ у человека может меняться. Как работает настоящий нейрон? Если долго нет возбуждения, то как пишут нейронщики самое главное для нейрона - это повышение его чувствительности. Наверно так же работают и звуковые нейронные клетки.
                        Значит, АЧХ становится острее. Так доходит до квантовых эффектов, и мы может слышим фононы-звуковые кванты энергии.
                        Сообщение отредактировано: grisania -
                          Не знаю, насколько в струю, но хочется поделиться результатами ещё одного эксперимента:
                          беру wav файл короткого слова (в частности я брал слово "восемь")
                          делаю преобразование фурье в диапазоне 0- 3200 гц
                          разделяю результат на две части - одна из гармоник 0-1200, вторая - из гармоник 1800 -3200 (обратите внимание - посередине диапазона дырка 1200-1800 гц)
                          восстанавливаю сигнал - бля, и там и там понятно слово "восемь" , полохо, но понятно. Вот что это? Вот что после этого несёт информацию?
                          Сообщение отредактировано: decan -
                            Цитата decan @
                            восстанавливаю сигнал - бля, и там и там понятно слово "восемь" , полохо, но понятно. Вот что это? Вот что после этого несёт информацию?

                            А чего удивительного, может у человека работае HMM, он тоже отгадывает недостающие фонемы. HMM- это самый примитивный способ отгадать слово или фонему.
                            Также человеку важен смысл слова, а не как оно произносится. Это уже высший уровень распознавания. Но в начале надо поверить, что фонемы можно распознать и как-то надо научиться их выделить. То есть рапознавать более или менее четкую речь. Так как современные распознающие, которые не используют распознавания фонемы, распознают так:
                            Цитата Алекс Экслер exler@exler.ru
                            ....выяснилось, что есть еще несколько стандартных ситуаций, когда голос, тембр и интонации отличаются от стандартных. Так что пришлось создавать несколько файлов: "Леша утром", "Леша днем", "Леша вечером", "Леша выпивший", "Леша в состоянии синих крокодилов", "Леша, получивший хамское письмо e-mail-ом", "Леша, получивший приятное письмо e-mail-ом". Кстати, это оказалось очень удобно. Потому что команды можно четко привязывать к конкретной ситуации..........
                            Короче говоря, друзья мои, используйте программы распознавания речи! Используйте! Этим вы доставите немало приятных минут и себе, и домашним, и вашим друзьям. А вот для работы все эти штучки-дрючки использовать не надо. Потому что штучки-дрючки используются для развлечения, а не для работы. Попытки извлечь реальную пользу от программ голосового управления компьютером полностью эквивалентны попыткам изучения английского языка за три дня по методу Илоны Давыдовой... или как ее там...

                            http://lan-ksta.nnov.ru/forum/viewtopic.php?t=817
                            Copyright (э) 2001 Алекс Экслер exler@exler.ru

                            Хотя уже 2006 год и есть движение в этой области, но ситуация практически не изменилась, то есть везде HMM. Никто не рискует, а все идут по накатанной дорожке. Так как фирмы платят балабосы за реальные результаты
                            Сообщение отредактировано: grisania -
                              Вот опять мы возвращаемся к постановке задачи - не надо никакого смысла понимать!!!! Это через два уровня распознования!!!
                              Программа распознавания речи должна понять текст "керды-берды" - нет такого слова , а фонемы есть , вот их она и должна понять, а смысл , контекст, до этого как до Китая раком и это, к тому же, проще.
                              А писал я про то, что при усечении спектра до уровня при, котором в стандартном плане не хватает 60 % формант, информация сохраняется (голограмма да? если кто знает как она работает)
                                Цитата

                                Не знаю, насколько в струю, но хочется поделиться результатами ещё одного эксперимента:
                                беру wav файл короткого слова (в частности я брал слово "восемь")
                                делаю преобразование фурье в диапазоне 0- 3200 гц
                                разделяю результат на две части - одна из гармоник 0-1200, вторая - из гармоник 1800 -3200 (обратите внимание - посередине диапазона дырка 1200-1800 гц)
                                восстанавливаю сигнал - бля, и там и там понятно слово "восемь" , полохо, но понятно. Вот что это? Вот что после этого несёт информацию?


                                У меня еще один пример. Как такое может быть, что один и тот же звуковой сигнал может по разному воспринятся разными людьми? Одному послышалось одно, а второму - другое. Я вижу этому явлению, и приведенному выше эксперементу такое объяснение. И это отчасти является моим субъективным ответом на вопрос "Что слышим?". Просто мы слышим не то, что находится в звуковой волне, которую все и вся пытаются анализировать. Эта волна лишь вызывает у нас ассоциацию с тем объектом, который мы и называем звуковым образом. Звуковая волна это адрес объекта, а не сам объект. Мозг оперирует с объектами, а не их адресами. И при распознавании звука мозг не сравнивает звуковые волны по каким либо их параметрам. Он сравнивает образы (объекты), которые воссоздаются на основе этих волн.
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0909 ]   [ 15 queries used ]   [ Generated: 20.05.24, 23:16 GMT ]