Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[18.223.171.12] |
|
Страницы: (7) « Первая ... 3 4 [5] 6 7 все ( Перейти к последнему сообщению ) |
Сообщ.
#61
,
|
|
|
Смотря какие помехи и искажения, если вызванные прохождением сигнала через телефонный тракт (или что-то подобное), то 90% точности - реальная число. |
Сообщ.
#62
,
|
|
|
Искажения типа: голос звучит издалека, идет фоном музыка негромкая или проезжают автомобили. Если это возможно, кто возьмется написать такой модуль, выхватывающий фонему?
|
Сообщ.
#63
,
|
|
|
Ну это серьёзные искажения и помехи.
При проезжающем автомобиле, из распознавателя будут "выстреливать" фонемы типа Ш, Щ, Ч, С, Х и т.д. При музыке - зависит от музыки, а если ещё и поёт кто-нибудь, то сами понимаете - много ложной тревоги будет, очень много. Провильность 90% - нереальный уровень. Я так думаю. |
Сообщ.
#64
,
|
|
|
walter-simons
Цитата Так возможно написать маленький модуль, распознающий всего одну фонему но распознающий ее с 90% точностью независимо от пола, возраста, помех и искажений? конечно можно,любой человек на это способен.У спектра любой фонемы, есть набор признаков не зависящих от пола и тембра.Из этих признаков можно составить вектор(шаблон признаков фонемы),далее анализировать входящий спектр и если процент подобия векторов выше определённого уровня - значит найдена искомая фонема. |
Сообщ.
#65
,
|
|
|
Цитата При проезжающем автомобиле, из распознавателя будут "выстреливать" фонемы типа Ш, Щ, Ч, С, Х и т.д. Вы так думаете? Покрышки генерируют человеческие фонемы? или все таки есть разница? Даже если с акустической "точки зрения" разницы нет, мы же не принимаем к сведению шумовые "Ш, Щ, Ч.." Т.е. анализатор, конечно возбуждается, но высший отдел не принимает сигнал без контекста. Мы знаем, что автомобиль ничего нам не "скажет" и игнорируем шум. Я вот какое явление за собой заметил. Мне часто звонят по важным вопросам на мобильный. Мне очень важно не пропустить ни один звонок, поэтому я либо постоянно ношу с собой телефон, либо чутко прислушиваюсь. На мобильном простая мелодия (любая типа MIDI). Так вот, когда в другом источнике появляются отдельные звуки схожие по частоте с моим рингтонам, я сразу же каг-бы слышу что телефон звонил! Более того, когда есть источник сплошного шума (вода из крана) мне кажется, что телефон звонит. Клиника, однако? Нет, "курковая" зона мозга ловит все, что связано с рингтоном и бывает ошибается. |
Сообщ.
#66
,
|
|
|
Цитата walter-simons @ анализатор, конечно возбуждается, но высший отдел не принимает сигнал без контекста Но сделать программный продукт сделать таким, чтобы он работал как высший отдел человека (тем более не до конца изученный на настоящее время) - это из области научной фантастики Распознаватель фонем часто на месте импульсной помехи пишет "r". Разница вроде бы есть, но программный алгоритм её не видит. Или в слове "БЕТОН" последняя фонема определяется как "М", разница тоже есть, но если последний звук выделить и послушать отдельно от предыдущих, то можно и "М" услышать. Так и в вашем случае, если вырезать участок шума "Покрышки по песку" длительностью как фонема "Ш" в речи и дать наивному слушателю с вопросом: "какая фонема?". То он ответит "фонема "Ш", а не "это не фонема, это шум покрышек по песку". Программы работают гораздо хуже (пока ещё), чем способность распознавания у человека. |
Сообщ.
#67
,
|
|
|
Можно применить статистическую коррекцию, допустим "М" но слова БЕТОМ нет, есть похожее БЕТОН (90%) следовательно "Бетон". Разумеется, человек еще включает контекстную коррекцию, если речь шла о стройматериалах, он без труда проглотит искажения, если о таре для жидкостей, то вполне воспримет, как "Бидон"
Но в проводить такой анализ, такую дифференцировку не входит в задачи модуля-детектора фонем, пусть он ошибается, пусть дает ложные сигналы иногда. |
Сообщ.
#68
,
|
|
|
Цитата walter-simons @ Можно применить статистическую коррекцию, допустим "М" но слова БЕТОМ нет, есть похожее БЕТОН (90%) следовательно "Бетон". А если такое распознавание из-за искажения слова "Битум" или "Битым", тогда мы "удалимся" от этих слов, приминив стат. коррекцию. А если диктор специально произносил слово "Бетом" (аббревиатура, спец. термин, жаргон, шифр), тогда мы потеряем такое слово. А в случае слова "Кон" из-за ошибки распознавания получаем другое слово "Ком", стат. коррекция здесь не поможет. |
Сообщ.
#69
,
|
|
|
Да, возможно, но все это нюансы. Так есть такая программа, кто может написать, хотя бы ради эксперименты?
|
Сообщ.
#70
,
|
|
|
walter-simons
а зачем интересуетесь? |
Сообщ.
#71
,
|
|
|
Честно? Хочу инициировать революцию в обработке информации. Без личной выгоды.
|
Сообщ.
#72
,
|
|
|
конечно без личной выгоды по чужим исходникам легко совершать революции.А вы незадумывались над тем что авторы оригинальных алгоритмов годами собирали по крупицам информацию,проводили бесчисленные опыты и наблюдения,тратили сотни человеко-часов,средства, ломали голову,не спали ночами ворочаясь и стыкуя в голове куски головоломки...и всё это для того чтобы отдать результат просто так?!
|
Сообщ.
#73
,
|
|
|
Тут дело вот в чем. Рубеж уже близок, вычислительные мощности достаточны для решения этой задачи в "домашних условиях". Лавина уже назрела. Если не мы это сделаем, то сделают другие. Уважаемым авторам остается два пути, либо применить идеологию Open Sourse и стать именами мирового значения. Либо чахнуть над своими находками, пряча их под сукно, а когда необходимость в них отпадет, горестно вздыхать.
|
Сообщ.
#74
,
|
|
|
Цитата walter-simons @ Лавина уже назрела. Специалистов в области речевых технологий не так уж и много, чтобы говорить о лавине. И с программой, которая "ловит" одну фонему в речи революции не сделать. Уже несколько лет в открытом доступе лежат разработки научных университетов, автоматическое распознавание всех фонем в речи с точностью не хуже 80%. |
Сообщ.
#75
,
|
|
|
Ну, может и не так много. Я точно не один из них.
Просто попытался "незамыленным" взглядом посмотреть на проблему. Вот как я вижу решение: Звуковой сигнал преобразуют в спектр частот, по аналогии с функцией улитки органа слуха. Полученный поток одновременно предоставляют 43 модулям, каждый из которых настроен на свою фонему, как камертон на свою ноту. Выходной сигнал каждого модуля подается на нейронную сеть ассоциативной памяти. Ну, а память выдает определенный сигал, отражающий данное акустическое явление и даже связь с предыдущими и предсказание последующего события. Как то так. |