Охота потягаться в создании системы распознавания речи -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [3.133.7.114]

Модераторы: RaD, nsh

Новое голосование

Охота потягаться в создании системы распознавания речи

nsh

Сообщ. #61 , 09.04.06, 18:46

Moderator

Профиль · PM

Цитата grisania @ 09.04.06, 18:38

Где достал ТIMIT? Есть знакомые, которые занимаются распознаванием фонем, но они пытаются распознавать слова. Создают огромные базы данных и ищут там похожие слова.

Вот здесь вроде TIMIT размеченный можно скачать

http://festvox.org/dbs/index.html

Кстати, если уж на то пошла речь, то нужно начать хотя бы с создания такой базы, например, и для кластерного синтеза и для распознавания нужна хорошо сбалансированная база данных. С этого и нужно начинать работу по созданию распознавалки и синтезатора.

Вот основная задача - кто способен написать 450 хорошо сбалансированных предложений, чтобы часто употребляемых слов было больше, чтобы фонемно а то и дифонемно сбалансированна была база. Чтобы рисунки интонаций все встречались. Таких русских свободных баз на сегодняшний момент нет. Имея такую базу и синтезатор и распознавалку сделать не так сложно.

Сообщение отредактировано: nsh - 10.04.06, 04:53

DimmK

Сообщ. #62 , 09.04.06, 21:01

Member

Профиль · PM

Рейтинг (т): 1

Цитата grisania @ 09.04.06, 08:13

Однако столкнулся с проблемой вырезания из TIMIT wav-файлов фонем.

Может это подойдет:

http://festvox.org/dbs/dbs_kal.html

CMU US KAL Diphone
This databases consists of a set of nonsense words containing all phone-phone transitions for US English. This database is free for any use (see licence for details). This database includes, waveforms, laryngograph (EGG) files, hand corrected labels, extracted pitchmarks, and various support files. It is released both as an example and in the hope you can make the festvox_kal voice sound better.
Packed versions in bzip2 and zip format.
Unpacked versions for your perusal, without requiring full down load. Note this is the actual waves, labs and pm used in building festvox_kallpc16k.tar.gz. The example directory is walkthrough of the diphone building code using autolabelling and hence doesn't have hand correction.
Diphone building example This contains the results of a full walkthrough of the US diphone building example in the festvox document. You don't need to download this as you can construct it from the waveforms, scripts in the festvox distribution, and (optionally) the EGG signals

Спасибо nsh

Добавлено 09.04.06, 21:08

Цитата nsh @ 09.04.06, 18:46

Таких русских свободных баз на сегодняшний момент нет. Имея такую базу и синтезатор и распознавалку сделать не так сложно.

На самом деле у Intel есть но в свободный доступ не дают (хотя вроде грозились).
Здесь о создании системы распознавания русской речи для Intel (интересно):
http://www.raai.org/about/persons/kibkalo/pages/SDT.ppt

grisania

Сообщ. #63 , 10.04.06, 04:52

Member

Профиль · PM

Рейтинг (т): 3

Цитата decan @ 09.04.06, 16:22

grisania
Далее: если можно ссылку на литературу с "...12 бинарным фонемным признакам Якобсона..."

Об 12 бинарных фонемных признаках Якобсона написано в хорошей популярной книжонке.
"Звуки и символы". Автора забыл. Дома где-то валяется, и как всегда срочно надо найти, то не найдешь, собака.
Там есть интересный пример.
Девочка как твою маму зовут?
Лита.
Не понял, наверно, Рита.
Да, Лита.
Девочка уже распознает фонемы "р" и "л", но не умеет включать вибрацию своего голоса.
В этой книжке пишется, что для всех языков мира достаточно 12-13 бинарных фонемных признаков.
Так вот прямо я не нашел про признаки Якобсона. Везде написано чуть-чуть. Якобсон, начав свои исследования в России, продолжил их в США где-то 1940 годах. Есть ссылки на его работы у амеров, но эти журналы очень старые.
Просьба. Если кто-нибудь знает какие-то ссылки и литературу про признаки Якобсона, то сообщите.
В Инете у англоязычных братьев по разуму что-то трудно найти. Например, google дает кучу ссылок, замучаешься искать.
Когда я распознавал гласные и согласные, то заметил, что хватает 300 отсчетов сигнала, но важно найти начало фонемы. Например, глухая "х" и звонкая "к" практически похожи, и где-то в начале фонем маленький кусочек звука их различает. У человека есть 30 000 камертонов в ухе, т.е. 30 000 -мерное пространство. А хватает 300 отсчетов сигнала фонемы, но каждая фонема лежит в своем подпространстве, т.е. ее пропускает свой фильтр.
Эти фильтры не авторегрессия или стационарность. Поэтому, на мой взгляд, всякие там автогресии и не давали объяснения 12-13 бинарным фонемным признакам Якобсона.
Aвторегрессия или стационарность годятся только для гласных, т.е. когда есть 2-3 ярко выраженные форманты

Сообщение отредактировано: grisania - 10.04.06, 05:27

decan	Сообщ. #64 , 10.04.06, 06:11
Member Профиль · PM Рейтинг (т): нет	grisania Спасибо за ответ

grisania

Сообщ. #65 , 10.04.06, 07:21

Member

Профиль · PM

Рейтинг (т): 3

Цитата DimmK @ 03.04.06, 13:50

Отдел мозга человека ответственный за слух состоит из 6 уровней и только первый уровень - это спектральный анализатор улитки. Всю работу по распознаванию выполняют остальные 5 уровней в левом полушарии + слуховая область правого полушария + необходимо еще понимание речи за которое отвечают другие отделы мозга.
Распознавание речи - сложная штука.

Как пишет Архангельский в книге "Путь программиста" человек информацию получает из внешнего мира в виде звуковых и световых волн.
Однако попытка представить мозг как память, где складируются знаниия - образы объектнов,вещей как точки n-мерноного пространства, ничего не дает.
Сигнал из внешнего мира моментально вызывает у человека ассоциацию, т.е. энергия сигнала пробивается через кучу фильтров, ища, что она может возбудить.
Объектно-вещное представление мира перенесено на базы данных. Объект или вещь для нас куча признаков и его по этим признакам надо отнести к какому-то изученному классу.
Я думаю, что у человека в мозгу действует логика возбуждения – наборы линейных и (может быть и не линейных) фильтров, которые пропускают сигнал.
Сигнал извне несет энергию, которая на нас воздействует. Например, белый шум все возбуждает, поэтому он неинформативен.

Это я напиасл для объяснения каскадов фильтров при распознавании фонем. Каскад гласная-согласная, каскад твердая-мягкая и т.д.

Сообщение отредактировано: grisania - 10.04.06, 14:00

RaD	Сообщ. #66 , 10.04.06, 09:35
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	Ну вы разошлись, пока я расслабился. Читал с интересом...

decan	Сообщ. #67 , 10.04.06, 14:53
Member Профиль · PM Рейтинг (т): нет	grisania А если можно, то по-поводу интерпретации этих 12 признаков Якобсона в спектре фонемы.

grisania

Сообщ. #68 , 10.04.06, 16:14

Member

Профиль · PM

Рейтинг (т): 3

Цитата decan @ 10.04.06, 14:53

А если можно, то по-поводу интерпретации этих 12 признаков Якобсона в спектре фонемы.

В придуманном мною методе, обобщается метод главных компонент для распознавания сигналов. Классическая теория распознавания использует логику Аристотеля – мир это мертвые объекты природы и их надо классифицировать. В этой теории завуалировано или нет уменьшают вероятность ошибки распознавания. Делаете вы это нейронными сетями или еще как-то. Я же уменьшаю энергию распознавания и для меня сигнал активен (он живой), он хочет быть распознанным и поэтому тыкается по фильтрам, ищет кто его пропустит.
Переход в спектр фонемы - это ортогональное преобразование в действительном пространстве или унитарное в комплексном (не меняет длин векторов). Значит, без разницы, где считать корреляционные матрицы или во временном представлении или спектральном.
У амеров в статье тоже пишется, если вы читали, временное представление лучше – оно устойчивее к шумам.
Во временном можно обрывать сигнал, уменьшая число отсчетов. Хватает, как я писал 300 отсчетов. Брал 3000 отсчетов, распознавание даже ухудшалось.
Ясно, что все привыкли переводить сигналы в спектр. Это и понятно, так как ухо человека подобно спектроанализатору параллельного действия. Ентый спектроанализатор содержит набор фильтров, настроенных на разные частоты и соединенных с нашей репой.
Об этом, например, пишет Э.Г. Кнеллер - генеральный директор ЗАО ”ИстраСофт”
"Нами была разработана математическая модель спектрального преобразователя. Эта модель основана на выделении спектра гребенкой рекурсивных фильтров с настройкой параметров выделения в соответствии с характеристиками чувствительности, близкими к естественному преобразователю звукового сигнала, каким является ухо." http://www.istrasoft.ru/speech.html#algorithm
Когда мы знаем что началась фонема, то на мой взгляд не надо переходить в спектр. Хотя кто знает, может взять логарифм спектра и будет лучше распознавание. Пока не знаю.
У меня больше забот как резать TIMIT на фонемы. Амеры тоже использовали TIMIT. Поэтому я хочу на ней проверить. У TIMIT большие фразы и в волне не видно, где начинается и кончается фонема. Только прога Cool Edit Pro 1.0 позволяет увеличить волну и увидеть начало и конец фонемы. Пытался скачать Adobe Audition 2.0., но она собака весит 400 мегов, и у меня все время обрыв связи. Прога Wavesurfer выделяет аллофоны (комбинации слипшихся" фонем) из TIMIT. Но мне они не нужны и в Wavesurfer не видно в волне начало и конец фонемы.
В общем суета сует.

grisania

Сообщ. #69 , 11.04.06, 04:17

Member

Профиль · PM

Рейтинг (т): 3

Цитата nsh @ 09.04.06, 18:46

Кстати, если уж на то пошла речь, то нужно начать хотя бы с создания такой базы, например, и для кластерного синтеза и для распознавания нужна хорошо сбалансированная база данных.

Кластерный анализ изучает звуки как мертвый объект. Вы пытаетесь выделить признаки фонем и их классифицировать по кластерам. Так как кластерный анализ происходит в n-мерном пространстве (n-число признаков), то вы разбиваете всё n-мерное пространство на области по числу классов. Теперь у вас есть простейший предикат. Принадлежит сигнал данному кластеру (множеству) или нет. Булева логика - да или нет.
Эта классическая логика и является тормозом распознавания речи и нейронных сетей.
Рассмотрим другую логику. У вас два камертона (1-ый и 2-ой) настроенные на разные частоты. Приходит сигнал, и камертоны возбуждаются. Если возбудился 1-ый камертон, то он принадлежит 1-ому классу, а 2-ой, то 2-ому классу. У вас получилась логика возбуждения. А если оба возбудились, то естественно принять по максимуму энергии. Камертоны тихо звучат, но оба, наверно, это шум. А если ни один не возбудился, то, значит, нет сигнала, но это не верно может это ультрозвукавая волна, а она для нас как бы из параллельного мира, т.е. нет прибора- камертона, который ее наблюдает.
В этом и есть коренное отличие логики возбуждения от теоретико-множественной или как я ее называю - объктно-вещной. Объект как бы принадлежит обоим классам.
Человечество уже столкнулось с этим явлением в квантовой механике. Электрон как волна пролезает через две дырки, так как на электрон смотрели как на объект с признаками – 3 координаты, 3 импульса. Хотели, что бы он лез только через одну дырку на экране. Однако электрон оказался не объектом, локализованном в точке, а волной и его надо изучать фильтрами. Квантовая механика учит, что области 3-мерного пространства – фильтры, локализующие электрон в пространстве как камертоны звуковую волну.
Каждый камертон выделяет свою гармонику и является проектором на одномерное пространство – простейший фильтр. Значит, используя логику возбуждения, надо найти такие подпространства, чтобы в каком-то смысле уменьшить какую-то ошибку распознавания. Я знаю точно, что я уменьшаю в каком-то смысле -энергию неправильного распознавания
Амеры в статье о главных компонентах (см. ссылку в др. посте) это и делают. Попарно сравнивая фонемы, ищут подпространства, т.е. фильтры, максимально реагирующие на свою фонему. Но они не понимают, что они уменьшают.
Явное противоречие у сегодняшних распознавателей речи. Создают фильтры, а логику используют теоретико-множественную. Поэтому забудем про кластерный анализ для звуков.
Не вижу откликов на свои посты, пишу как в космос. Хоть бы послали куда-нибудь, и то было бы веселее.

Сообщение отредактировано: grisania - 16.05.06, 06:13

DimmK

Сообщ. #70 , 11.04.06, 07:12

Member

Профиль · PM

Рейтинг (т): 1

Очень похоже на дерево решений - сначала определяется принаднежность к 1 из 2 классов по первому признаку (например гласная-согласная), затем каждый из классов делится на подклассы и т.д... пока не дойдет до конкретной фонемы.

decan

Сообщ. #71 , 11.04.06, 07:48

Member

Профиль · PM

Рейтинг (т): нет

grisania
.....У вас два камертона (1-ый и 2-ой) настроенные на разные частоты. Приходит сигнал, и камертоны возбуждаются. Если возбудился 1-ый камертон, то он принадлежит 1-ому классу, а 2-ой, то 2-ому классу. У вас получилась логика возбуждения. А если оба возбудились, то естественно принять по максимуму энергии.
.....
А чем это отличается от рассмотрения спектра, вернее максимума энергии в определённой частотной области спектра? Или я чего-то недопонял7

А касательно выделения фонем из речевых баз, ну по-моему опять возвращаемся к постановке задачи , которую никто не хочет обсуждать (кто такая фонема и каковы её признаки).
объясню на примере: предположим мы изучаем всю фотографию через прямоугольное окно (аналог временного в речевом сигнале), и имеем целью обнаружить автомобиль.
Пускай признаками автомобиля (слова) являются четыре колеса (фонемы). Так вот едем мы едем этим прямоугольником по фотографии, видим урну и пол колеса - можем мы идентифицировать "это" как интересующий нас объект в рамкам нашей постановки задачи - нет. Едем дальше - видим колесо, идентифиуцируем - колесо (фонема), часть автомобиля (слова), т.к. мы знаем признаки колеса (круг в проекции) и потому что мы учли их в постановке задачи.
А нет признаков - что ищем?

nsh

Сообщ. #72 , 11.04.06, 09:03

Moderator

Профиль · PM

Хотелось бы дискуссию перевести в более практическое русло.

Итак, создание распознавалки русского языка это сложный и
__многоступенчатый__ процесс. Для английского языка многое сделано и
доступно, в частности, есть свободно доступные размеченные базы, есть
свободно доступный фонетический словарь, есть интонационные схемы и
т.д. Для русского языка ничего подобного нет, нет даже хороших,
реализованных в коде правил транскрибирования текста. Алгоритм
распознавания фонем - важная часть, но не единственная. Сам по себе этот
алгоритм ничего не даст, потому что пользователям нужен конечный
продукт, который можно скачать, модифицировать под свои нужды,
установить и использовать.

Коммерческие распознавалки есть и создавать ещё одну нет смысла учитывая
огромные ресурсы, требуемые на разработку с нуля. Но, учитывая имеющийся
опыт английской распознавалки, того же sphinx можно и нужно создавать
свободный движок по распознаванию русской речи.

По поводу алгоритма классификации фонем, тема эта интересна, тут я согласен с decan, есть два
замечания. Первое, последовательность проекторов можно всегда
рассматривать как один проектор в многомерном пространстве признаков,
так что не совсем ясно, в чём отличие предложенного метода от
существующих. Тем более что хороший алгоритм обычно позволяет
использовать произволные наборы признаков для тренировки, добавить туда
ещё признаков не должно быть тяжело. Во-вторых, понятие фонемы очень
размыто, нет смысла распознавать отдельную фонему вне зависимости от
контекста (задача разбиения на фонемы вне зависимости от окружения не
имеет смысла). В целом же, все эти алгоритмы уже реализованы для
английского языка и используются на практике. Всё, что нам нужно -
адаптировать их.

Теперь о других частях системы распознавания. Тут должна быть создана и
хорошая база различных дикторов, размеченная, доступная для
использования. Нужны правила преобразования букв в звуки и т.д. В целом,
такой проект можно и нужно обсуждать. Более того, если есть желание, я
готов встретиться в Москве и рассказать/показать что нужно делать. В
большей части это рутинная деятельность, но без неё создание
распознавалки невозможно. Поэтому нужно просто проработать план и
взяться за работу.

Начало я уже указал - нужно создать фонетически сбалансированный набор
предложений небольшого объёма, с помощью которого можно будет записать
размеченную базу (на много дикторов) и который может использоваться в
дальнейшем для создании распознавалок (аналог того же TIMIT). Это
посильная и самодостаточная работа. Такая база была записана в одном из
НИИ (если не ошибаюсь, на 200 дикторов, объём больше 1 Gb), название уже
не помню, её можно поискать. Но она не распостраняется свободно, поэтому
можно считать, что это будет работа с нуля.

Сообщение отредактировано: nsh - 11.04.06, 09:08

grisania

Сообщ. #73 , 11.04.06, 09:35

Member

Профиль · PM

Рейтинг (т): 3

Цитата DimmK @ 11.04.06, 07:12

Совершенно верно.
Это типа парного сравнения, что делали амеры, но с деревом решений. При этом привлекается логика возбуждения или фильтров. Она некоммутативная. Это значит, что пропустив сигнал через фильтр A, а затем через фильтр В, т.е. АВ - не тоже, что ВА (АВ не равно ВА).
Однако, надо, наверно, применить знания, накопленные ранее, т.е. бинарные признаки Якобсона.
Я уже писал, что если классифицировать все фонемы сразу (например, их 42 штуки по классификации SAMPA), то надо привлекать более сложную математику. Для двух фонем это считается не так сложно. Поэтому когда я узнал про бинарные признаки Якобсона, я подумал, что природа и пошла по более простому пути.
Однако, ученый мир заворожен до сих пор инвариантными во времени фильтрами (пропускающими синусоиды), их проще строить, хотя появились вейвлеты. Есть амер Хармут. Х., который критикует синусоиды в своих книгах, например, «Теория секвентного анализа» и куче других книжках.
Однако инвариантные во времени фильтры не могут научно объяснить бинарные признаки Якобсона. Только все болтают о турбулентности согласных, а ей надо гимн петь. Турбулентность сделала возможным раскидать фонемы по подпространствам в 300 измерений, а все пространство имеет 30 000 измерений, т.е. сколько в ухе волосиков, то бишь камертонов. И как я подозреваю, поэтому все фонемы забинарились природой по Якобсону.
Ссылки на SAMPA
http://www.phon.ucl.ac.uk/home/sampa/russian.htm
www.auditech.ru/doc/cntrid/ click.php?action=download&id=14

Добавлено 11.04.06, 10:12

Цитата decan @ 11.04.06, 07:48

.....У вас два камертона (1-ый и 2-ой) настроенные на разные частоты. Приходит сигнал, и камертоны возбуждаются. Если возбудился 1-ый камертон, то он принадлежит 1-ому классу, а 2-ой, то 2-ому классу. У вас получилась логика возбуждения. А если оба возбудились, то естественно принять по максимуму энергии.

По вопросу видно, что начали думать, пока не отвечу, а задам встречный вопрос.
Разложим сигнал по полинам Чебышева, и ентый спектр разделим на две части и там будем искать в нем точку, которая разбивает ентый спектр на 2 части, так чтобы каждая фнема на своей части давала бы максимум энергии. Какой базис лучше? Вы скажите синусоиды - это все, а вот амер Хармут. Х. несогласен и критикует синусоиды в своих книгах, например, «Теория секвентного анализа» и куче других книжках.

Цитата decan @ 11.04.06, 07:48

.....А касательно выделения фонем из речевых баз, ну по-моему опять возвращаемся к постановке задачи , которую никто не хочет обсуждать (кто такая фонема и каковы её признаки)..

Нет у фонемы признаков - мы используем другую логику. Не логику принадлежности множеству, то бишь классу, а логику возбуждения и эта логика некоммутативна. Прнадлежность множеству - это куча признаков - это координаты вашего пространства. Значение признака выделяет изучаемый вами объект и вы его относите к классу.
У меня один признак энергия, кто больше шумит тому и сигнал принадлежит. Проблема только в том, как найти нужные камертоны?
После каждого фильтра ваш сигнал меняется. В квантовой механике - это называется принципом неопределенности Гейзенберга. Вы пытаетесь измерить координату электрона (локализовать его как точку и изучать его признаки), но тогда у вас плывет его импульс. В квантовой механике это называется коллапсам - разрушением. Например, вы хотите изучать зайца. Тогда вы должны рядом с ним бегать в лесу. Вы же его разрушаете, т.е. убиваете, приведя его в состояние удобное для вас, а потом изучаете.
Это не есть хорошо – изучать надо бегая рядом. Может он там НЛО и лесным духом по ночам в лесу становится.

Цитата decan @ 11.04.06, 07:48

.....А нет признаков - что ищем? )..

Ищем что возбудилось больше. Идет красывая девочка - я возбуждаюсь, а не меряю ее признаки красоты.
Конечно, это шутка. Логика возбуждения некоммутативна, синусоиды не единственный базис по чем можно раскладывать сигнал. Расцвет вейвлетов тому доказательство.

Сообщение отредактировано: grisania - 11.04.06, 13:57

DimmK

Сообщ. #74 , 11.04.06, 11:01

Member

Профиль · PM

Рейтинг (т): 1

Цитата grisania @ 11.04.06, 09:35

После каждого фильтра ваш сигнал меняется.

То есть ты предлагаешь пропустить сигнал через один фильтр, потом то что осталось - через второй фильтр и т.д... Смотреть какой набор фильтров "возбудился" и на основании этого классифицировать сигнал?
Интересно.
А потери информации? Идеальных фильтров не бывает.

grisania

Сообщ. #75 , 11.04.06, 11:41

Member

Профиль · PM

Рейтинг (т): 3

Цитата nsh @ 11.04.06, 09:03

Итак, создание распознавалки русского языка это сложный и
__многоступенчатый__ процесс. Для английского языка многое сделано и
доступно, в частности, есть свободно доступные размеченные базы, есть
свободно доступный фонетический словарь, есть интонационные схемы и
т.д. Для русского языка ничего подобного нет, нет даже хороших,
реализованных в коде правил транскрибирования текста. Алгоритм
распознавания фонем - важная часть, но не единственная. Сам по себе этот
алгоритм ничего не даст, потому что пользователям нужен конечный
продукт, который можно скачать, модифицировать под свои нужды,
установить и использовать.

Да, это нерешено хорошо даже у амеров. Билл Гейтс обещал в это веке, что вы компу будите давать указания, а воз и ныне там. Я на эту теме беседовал с Э.Г. Кнеллером - генеральным директором ЗАО ”ИстраСофт”. Он сказал, что путного нет ничего. Даже Пентагон как он сказал кинул огромные бабки на это (вроде миллиард баков), но результата нет.
Поэтому даже для английского это интересно и как бы денежнее.
Доступных размеченных баз для английского нет, свободно доступный фонетический словарь тоже нет.
То есть я хочу иметь отдельные каталоги звуков.
Stops - свой каталог; Affricates - свой каталог; Fricatives - свой каталог; Nasals -свой каталог;
Semivowels and Glides - свой каталог; Vowels - свой каталог.
Если знаете, то дайте ссылки.

Цитата nsh @ 11.04.06, 09:03

По поводу алгоритма классификации фонем, тема эта интересна, тут я согласен с decan, есть два
замечания. Первое, последовательность проекторов можно всегда
рассматривать как один проектор в многомерном пространстве признаков,
так что не совсем ясно, в чём отличие предложенного метода от
существующих. Тем более что хороший алгоритм обычно позволяет
использовать произволные наборы признаков для тренировки, добавить туда
ещё признаков не должно быть тяжело. Во-вторых, понятие фонемы очень
размыто, нет смысла распознавать отдельную фонему вне зависимости от
контекста (задача разбиения на фонемы вне зависимости от окружения не
имеет смысла). В целом же, все эти алгоритмы уже реализованы для
английского языка и используются на практике. Всё, что нам нужно -
адаптировать их.

Проекторы в многомерном пространстве признаков не коммутируют, я об этом написал. Это вам любой математик объяснит. Логика возбуждения некоммутативна.
”ИстраСофт” умеет прекрасно выделять фонемы.
http://www.istrasoft.ru/speech.html#algorithm
http://www.istrasoft.ru/Analysis%20of%20th...ry%20sounds.mht
Значит надо как то выпросить у ”ИстраСофт”, т.е. у господина Э.Г. Кнеллера DLL-ку по выделению фонем. Но он, наверно не даст.
Если вы знаете, как это сделать, то он вроде и не нужен.
Если не секрет дайте ссылки на алгоритмы, которые уже реализованы для английского языка. Мне кажется, применяя логику возбуждения их можно усовершенствовать.

--------------------------------------------------------------------------------

Мой план пока такой и как бы реальный и несложно реализуемый, step by step. В начале разбиение на фонемы (это уже умеют делать и хорошо) и применить усовершенствованный метод главных компонент для распознавания фонем. Это как можно сделать ясно и понятно. Все проверить на MatLabe
Я же вам дал ссылку на амеров, которые применили неусовершенствованный метод главных компонент и как они пишут получили неплохие результаты.
Они даже это запатентовали. В США за патент платить не слабо, мне так кажется. Они пацаны ушлые, бабье на ветер не кидают.

Мне как бы осталось вырезать фонемы из TIMIT и проверить амеров своим методом. Под свой метод я имею объяснение. Об этом уже много написал в др. постах.
Однако вырезать замучаешься. Всего у амеров по TIMIT классификации фонем: Stops - 8.; Affricates - 2; Fricatives - 8; Nasals – 7; Semivowels and Glides -7; Vowels -20. Всего 42.
Когда я классифицировал гласные и согласные, то брал для обучения 50 каждой фонемы и только нормальные звуки, которые есть во всех языках. Пусть надо взять по 100-200 фонем каждой, значит надо нарезать 4200-8400. Трудно одному это сделать.
Может кто-нибудь подсобит. Да это и поучительно, когда режешь сам, то видишь всякие эффекты.

Сделать распознавание речи для амеров мне, например, в кайф оболденный. Надо же моську им утереть. Даже, например, их фонемы распознать.

Добавлено 11.04.06, 12:13

Цитата DimmK @ 11.04.06, 11:01

Каждый фильтр высекает ненужную информацию. Но необязательно пропускать сигнал через каскады фильтров. Можно попарно сравнить, и методом голосования установить к какой он фонеме принадлежит.
Можно, как я писал все сразу классифицировать, но тогда возникают конъюнкция проекторов АБ, но они не коммутируют. Если проекторы А и Б не коммутируют, то линейный оператор АБ не проектор. Но это не страшно, и даже интереснее.

Сообщение отредактировано: grisania - 11.04.06, 13:24

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (15) « Первая ... 3 4 [5] 6 7 ... 14 15 все

[ Script execution time: 0,1428 ] [ 15 queries used ] [ Generated: 17.05.24, 13:16 GMT ]