На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (15) 1 2 [3] 4 5 ...  14 15 все  ( Перейти к последнему сообщению )  
> Фонемное распознавание речи
    grisania
    могу предложить следующее:
    Рабинер и Голд.Теория и применение цифровой обработки сигналов
    Анализ речи .Тони Робинсон
    Анализ, синтез и восприятие речи. Фланаган
    Быстрые алгоритмы цифровой обработки сигналов.blahut
    ВВЕДЕНИЕ В АНАЛИЗ РЕЧИ.Р. Якобсон, Г. М. Фант и М. Халле
    Джозеф Пикони.Методы моделирования сигнала в распознавании речи
    Линейное предсказание речи.Меркел_Грей
    Применение вейвлет-анализа сигнала в системе распознавания речи
    Применение цифровой обработки сигналов. Оппенгейм
    Сигналы помехи ошибки_М_Финк
    Теория и практика вейвлет-преобразования
    Харкевич. Спектры и анализ
    Цифровая обработка сигналов
    Цифровые фильтры. М.В. Хемминг
    есть и ещё.
      Ды.. Ну я понял тут есть с кем ообщаться..
      Кстати вопрос... Кто и как детектирует первую гарминику гласных т.е основной тон голосовой связки?
      Просто я при анализе гласных делаю следующее..
      1. Построение сонограммы 0-7000Гц с шагом в пять Гц. 1400 точек по частоте. шаг по времени 1/250 cек. Т.е 250 точек за секунду.
      2. Далее в этой матрице ищу периодические гамоники..
      3. Нахожу максимумы с шагом равным частоте осноного тона...
      4. Получившийся массив максимумов нормирую по частоте в массив из 140 точек. Т.Е. одна точка на 50Гц. Это маска гласной.
      5. Я получаю 250 таких масок за секунду. Формирую нейросеть для анализа масок.

      Добавлено
      Member
      НУ и как двухядерный...? Стоит купить? Реально раза в два быстрее работает?
      Я блин дома редко бываю... С нотебуком все время.. Мотаюсь по миру. А нотебуков двухядерных нет...

      Тоже литературы много... Надо систематизировать.


      Разделение гласных и сонорных основано на принципе сравнения уровней спектра в различных областях частотного диапазона с учетов фактора веса. Имеется таблица, где приведены ширины полос фильтров и фактор веса


      Ты проверял? работает? Или только теория. Я пока все что подобное находил.. Для моей базы данных дикоров не подходит..
      Вот кстати это вопрос.
      Нужно создать речевую базу данных.
      Как?
      Какие фонемы и слова включить?
      Ведь только своего голоса мало...
      У меня только 5ть дикторов мужчин и 3-и женщины.. Этого мало. Мало образцов.
      А вы откуда образцы для анализа берете?

      Добавлено
      Ко всем
      Нужно создать речевую базу данных.
        Цитата Skif @
        Нужно создать речевую базу данных.

        Создать речевую базу русского языка без дополнительного финансирования просто нереально. Посмотри как устроен TIMIT. Чтобы сделать что-то подобное надо найти хотя бы по сотне дикторов из каждого региона России (читай - федерального округа). Кто и на что этим будет заниматься? Но и это еще не все. Полученные треки надо будет разметить на фонемы. Где взять столько специалистов?
        Все промежуточные варианты не дадут приемлемых результатов в том случае, если пытаться сделать дикторонезависимую систему распознавания.
          phoenix367
          Мало из разных регионов России, так ещё жующие бутерброд на правой стороне зубов, затем на левой , затем потягиваясь , затем почёсываясь -вот только тогда....
          Бредни удивительные. Сделали такую английскую базу - нет результата и быть не может.
          Ну подумайте головой - для того чтобы идентифицировать китайца , их всех нужно сфотографировать в разных позах? , блять, не могу нормативно выражаться...
            phoenix367:
            TIMIT Я не видел. Если дадите ссылку на TIMIT , гляну.
            Ну а по поводу содания базы даных. А нас в этом чате сколько человек? А У каждого есть парочка друзей. Давай начнем с малого...
            В MP3 формате много весить не будет. Можно будет на серваке хранить. Ну а как анализировать речь без базы. Я только, как я говорил... с пяю дикторами играюсь... Давайте серьезно возьмемся за это.
            Блин, вот я тормоз... Ники то выше... Я вместо ников какую-то ерунду вставлял...
            decan
            Я понимаю, что ты хочешь все сразу. Ну для начала может без бутербродов? Бутерброды лучше отложить на потом.
            phoenix367
            Цитата
            Создать речевую базу русского языка без дополнительного финансирования просто нереально. Посмотри как устроен TIMIT. Чтобы сделать что-то подобное надо найти хотя бы по сотне дикторов из каждого региона России (читай - федерального округа). Кто и на что этим будет заниматься? Но и это еще не все. Полученные треки надо будет разметить на фонемы. Где взять столько специалистов?
            Ну, а что мы не специалисты. Или тут никто не верит в создание распознавалки?
            Про финансирование.... Дело не в деньгах.. Ну будут деньги и что? Ну дадут тебе 10тысяч долларов и ты сделаеш?
            Ну нужно глянуть TIMIT. Хоть какойто образец.. Если я правильно понял, то это буржуйская речевая база данных...
            Вы можете более детально результаты ваших работ описать. Ну или прислать откомпилированные файлы, как примеры.
            Давайте начнем менятся хотябы exe-шниками. Пока нет доверия. Каждый с кровью и потом писал свои проги.. Ну а этот форум и создан чтобы меняться.

            Вот мой спектральный анализатор который я использую для нализа речи. Если кого интересуют иходники, скину на мыло.
            Пока он не супер, но для гласных пойдет. Да, кстати... Если CPU usage будет 100% то значит у вас слабый комп. У меня P4 1,7ГГц все работает...

            Добавлено
            Да, и еще вопрос... Кто на чем пишет проги ил чего использует для анализа речи?
            Я пишу на C++ Builder..
            Ну C++ и WIN API оно всем кто с C++ знаком понятно будет...
            Прикреплённый файлПрикреплённый файлProject1.zip (153.75 Кбайт, скачиваний: 495)
              Цитата Skif @
              Создать речевую базу русского языка без дополнительного финансирования просто нереально. Посмотри как устроен TIMIT. Чтобы сделать что-то подобное надо найти хотя бы по сотне дикторов из каждого региона России (читай - федерального округа). Кто и на что этим будет заниматься? Но и это еще не все. Полученные треки надо будет разметить на фонемы. Где взять столько специалистов?

              Ссылку на TIMIT я тебе дам в личку, и тогда, посмотришь, у тебя задора поубавится. Про эту базу см.:
              http://www.ldc.upenn.edu/Catalog/readme_files/timit.readme.html

              На этом форуме есть ветка
              "Списки слов для речевых корпусов (словари для обучения систем распознавания речи)",
              где это активно обсуждалось как силами энтузиастов это сделать.
              Далее разметку этой базы на фонемы вообще-то нужно делать на компах фирмы Sun, где есть соответствующее матобеспечение для этого. Так это делает, например, какой-то очень известный институт по изучению речи в Германии (кажется им. Гумбольдта). Там я видел на картинках этот комп. Порывшись в инете можно найти. Далее для разбивки на фонемы амеры использовали прогу бьющую на фонемы, а потом уже вручную уточняли. У нас такой проги нет.
              Почитай статьи других как они делали русскою речевую базу:
              БАЗА РЕЧЕВЫХ ФРАГМЕНТОВ РУССКОГО ЯЗЫКА “ISABASE”
              http://www.uran.donetsk.ua/~masters/2002/fvti/nikolaenko/dis/lib/article9.htm
              Лепта в развитие речевых технологий в России
              http://www.pcweek.ru/Year2002/N4/CP1251/Industrial_built-in/chapt4.htm
              Эту базу уже сделали, но она вроде стоит 10 тыс. баков. И как говорят, что эта база даже TIMIT переплюнула, но TIMIT можно в США за копейки купить.
              Речевые корпусы (опыт разработки и использование)
              http://www.dialog-21.ru/Archive/2001/volume2/2_33.htm
              Инструментальная система для исследования и обработки речевых сигналов и создания речевых баз данных.
              http://www.philol.msu.ru/~otipl/SpeechGroup/publications/krivnova-2001-2004/krivnova_bogdanov_instrumentarij_2004.doc

              Поэтому надо не морочить себе башку. Какая разница фонемы какого языка распознавать. Если твои идеи будут работать с TIMIT, то будут работать и с другим языком. Например, все восточные страны редко распознают свои языки, все мучают TIMIT. Даже япошки, индусы, китайцы.
              TIMIT это классика и каждый может проверить на ней твои алгоритмы и сказать - да эта штука работает. А тогда можно и базу на русском делать или купить готовую.
              Сообщение отредактировано: grisania -
                grisania
                Убедил...

                Добавлено
                Ктонибудь выделяет периоды речи? Кто и какие алгоритмы использует. Какой диапазон изменения основного тона используется в программах.
                Я выделяю периодичность по спектру.
                Диапазон изменения 70-250Гц но этого недостаточно. В книжках даны средние значения, а в жизни разброс огромен 50-500Гц. А при увеличении диапазона изменеия частоты основного тона голоса надежность сисемы катастрофичеси падает. Help me.
                  grisania
                  Поповоду базы данных... Все же создавать надо. Покупать не по зубам. Согласен, что алгоритмы они для всех языков пойдут.... Пока можно все тестировать на TIMIT... Качаю пока.... Ну такого размера я не ожидал... Ну ничего...
                    Цитата Skif @
                    Кто-нибудь выделяет периоды речи? Кто и какие алгоритмы использует. Какой диапазон изменения основного тона используется в программах.
                    Я выделяю периодичность по спектру.
                    Диапазон изменения 70-250Гц но этого недостаточно. В книжках даны средние значения, а в жизни разброс огромен 50-500Гц. А при увеличении диапазона изменеия частоты основного тона голоса надежность сисемы катастрофичеси падает. Help me.

                    Периодичность основного тона голоса от человека к человеку прыгает. Даже у конкретного человека она зависит от его настроения. Я приводил пример, как работают современные проги распознавания речи в зависимости от настроения.
                    Мой знакомый основным тоном занимается давно, я могу у него спросить, если он не в отпуске. Хотя бы ссылки даст. Да, если нужны статьи из серии IEEE, то я могу их скачать через него.
                    Нл для распознавания фонем важно определить его наличие. Например, это позволит делить фонемы на глухие и звонкие. Разделение производится по признаку наличия или отсутствия основного тона. Так как я сторонник фильтров, то надо их использовать их иерархически. Как написано, например, в книге М.А Сапожков: "Речевой сигнал в кибернетике и связи". В этой книжке она не закончена, но применяя динамические спектры это можно доделать. Например, у амеров таких разбиений куча. Есть иерархически. Но классификация в книге М.А Сапожков как-то разумно объясняется.
                    И вообще, я считаю, что человек все обрабатывает фильтрами. Сигналы несут энергию, которые за счет нее активно действует на нас. Человек только учится в башке плотины (фильтры) расставить для моря инфы из вне.
                    Далее, надо учитывать затухание, оно объективно есть, а это Прони.
                    Я сделал на ftp сервере папку для обмена информацией. Каждый активный участник может там открыть там свою папку и класть туда интересные статьи, книги, исходники. Адрес могу сообщить в личку.
                      grisania
                      Давай.. Скинь адресок FTP. А там как с местом? Я сейчас все свои книжки систематизирую и в порядок привожу. Они все по частям закачаны и в разных форматах. Я все в PDF переделываю.. Части соединяю...
                      По поводу выделения основного тона... Я не могу найти готовые проги или хотябы оценку их надежности. Для того чтобы понять, то что сделал я это плохо или хорошо нужно с чем-то сравнить. А пока сравнить не с чем. Все говорят вот мол таким образом оценивалась погрешность и блок диаграмку рисуют.. А результатов исседований нет. Если не сложно то спроси у друга... Может литературу посоветует. Книжки это лучше всего...
                        Skif
                        А список, пока, литературы можешь представить?

                        Да, а почему такой интерес к основному тону? Ну несущая...?
                        Сообщение отредактировано: decan -
                          decan
                          сообщение 41
                          Цитата
                          Да, а почему такой интерес к основному тону? Ну несущая...?

                          Я там выше project оставил. Так вот произнеси 'А' в микрофон и ты увидиш полоски образованные спектром 'А'.
                          Я выделяю основной тон и соединяю максимумы этих полосок прямой. И получившийся "гладкий" спектр использую как маску для данной фонемы. Для один раз произнесенной фонемы я получаю поядка 200 масок. И их анализирую. Если надо скину прогу в которой это можно посмотреть.

                          Добавлено
                          1. Булинский, Ширяев. Теория случайных процессов
                          2. Ирина Алдошина. Основы психоакустики.
                          3. Бабкин В.В.Помехоустойчивый выделитель основного тона.
                          4. С.Н. Берштейн. Теория вероятностей.
                          5. Lawrence R. Bernard Gold. Теория и практика ЦОС
                          6. Трубецкой С.Т. Фонология и фонетика.
                          7. Дж. Бендат. А. Пирсол. Прикладной анализ случайных данных
                          8. Р.Блейхут. Быстрые алгоритмы ЦОС
                          9. Джеимс Л. Фланган. Анализ, синтез и восприятие речи.
                          10. М. Финк. Сигналы, помехи, ошибки.
                          11. Л.М Финк. Теория передачи дискретных сообщений.
                          12. А.А. Харкевич. Борьба с помехами.
                          13. Б.М. Лобанов. Анализ и синтез речи. Сборник научных трудов.
                          14. Д.Д.Маркел. А.Х.Грей. Линейное предсказание речи.
                          15. Юкио Сато. Обработка сигналов. Первое знакомство.
                          16. Дегтеренко А.Н. Кодирование речевых сигналов на основе систем с переменной структурой. (Диссертация магистрантская)
                          17. Дженкинс.Ваттс. Спектральный анализ и его приложения.
                          18. Кеносуки Фуканага. Введение в статистическую теорию распознавания образов.
                          19. Р.Брейсуэлл. Преобразование Хартли, теория и приложения.
                          20. Введение в цифровую фильтрацию. Под редакцией Богнера.
                            Skif
                            мне Grisania ftr прислал, так что имеющуюся у меня литературу ятуда потихоньку сложу.
                              Цитата decan @
                              Да, а почему такой интерес к основному тону? Ну несущая...?

                              Почитай Сапожкова лежит там, где decan сказал. Места пока много. Где-то 30 гигов.
                              Ну хотя бы отличить глухие от звонких.
                                grisania
                                Ну хотя бы отличить глухие от звонких.
                                ????
                                Это ты о чем?
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (15) 1 2 [3] 4 5 ...  14 15 все


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0382 ]   [ 15 queries used ]   [ Generated: 3.05.24, 09:56 GMT ]