
![]() |
Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
|
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[216.73.217.4] |
![]() |
|
Страницы: (23) « Первая ... 6 7 [8] 9 10 ... 22 23 ( Перейти к последнему сообщению ) |
Сообщ.
#106
,
|
|
|
pocketsphinx распознает в демо-примере goforward.raw
Вопрос: где должен лежать и как д.б. прописан в конфигурации проекта MSVC10 файл goforward.raw? Положил этот файл в каталог запуска, где лежит exe демо-примера. Странное дело: exe демо не видит этого файла при запуске из IDE ("отладка"), но видит при ручном запуске (не в среде IDE) в том же каталоге (Debug) Таким образом, программка работает, но при запуске из IDE не видит файла, к-рый лежит рядом с ней, и выдает код возврата 1 а при запуске вручную - видит и отрабатывает с кодом 0 dummy |
Сообщ.
#107
,
|
|
|
извиняюсь за offtopic
Цитата у меня есть задачка, к-рую я когда-то обещал сделать для группы, к-рая занимается программами обучения языку - это IstraSoft и их пакет "Professor Higgins". судя по ссылкам эта задача у них давно решена http://www.speech-soft.ru/index.php?a=stat...stat=1181109804 http://istrasoft.ru/ru/tehnologii/innovaci...ializacija.html |
Сообщ.
#108
,
|
|
|
Возможно, но я пытался решить задачку своим способом - через нейросети - а они решали ее ad-hoc, выделив частотные и
временные параметры фонем в динамике вручную (на основе анализа человеком) и формируя набор правил для каждой фонемы. Т.е. в данный момент ученик отрабатывает конкретную фонему (звук), а они применяют свой набор правил именно для заданной фонемы, оценивая качество произнесения. Я себе представляю их решение таким. Моя попытка решения была похожей: тоже "система правил", но к-рую должна построить машина с использованием нейросети и набора features, к-рые я ей предъявлял. Но я столкнулся с проблемой вариативности произнесения в составе слова (в т.ч. по длительности) и качество распознавания было сколько-нибудь удовлетворительным только ударных для гласных. Последнее, что я пытался ввести в набор признаков - производные 1 и 2 порядка, но не довел дело до конца и "запал" на HMM. |
Сообщ.
#109
,
|
|
|
Цитата zamir @ извиняюсь за offtopic 2 Zamir Замир, а не Вы ли участвовали в конкурсе от ЦРТ с рез-том 28.3%? Интересуюсь потому, что конкурсное задание могло бы стать для меня содержательным упражнением в построении и настройке рускоязычного распознавателя (под Sphinx). Вопросы: - не ошибся ли я в своем предположении о Вашем участии? - по какой причине Вы не вошли в тройку призеров? - есть ли планы повторить попытку в след. конкурсе? - не нужны ли Вам помощники? Я только догадывался, какие решения используются и развиваются в ЦРТ. Из описания условий конкурса стало понятно, что они используют технологии в т.ч. на основе HMM. dummy Добавлено 2 nsh Николай! Я снимаю свой вопрос - распознаватель на pocketspinx у меня начал работать и на десктопе. Работает шустрее, чем на ноуте, но замечания по отображению рез-тов распознавания в "нечитабельной" под Win кодировке остались. dummy |
Сообщ.
#110
,
|
|
|
2 NSH
Николай! Продолжаю упражняться со Sphinx и начальное восхищение как-то улетучивается. Возможно мне показалось, но распознаватель под Sphinx4 работает "слабее", чем pocket. Вопросы: - насколько похожи (алгоритмически, структурно, идеологически) последние версии пакетов от CMU? - различаются ли алгоритмически пакеты от CMU и HTK (мне кажется - должны)? - в чем, м.б., принципиальная слабость реализаций подхода HMM, и какие альтернативные подходы известны? - Julius - это вариации на тему HMM, в чем различия? zamir упомянул, что Вы входите (или входили) в число разработчиков sphinx, Не укажете ли материал, к-рый хорошо, на Ваш взгляд, описывает логику sphinх с т.з. взаимодействия структур данных и процедур (логику построения и взаимодействия использованных моделей (акустическая, словарная, языковая), в каком виде хранятся рез-ты обучения (деревья принятия решений или другое), как строятся HMM в процессе обучения, как подбираются и в каком виде хранятся gaussian mixtures, подбираются ли коэфф. автокорреляции и взаимной корреляции распределений)? Вопросы, возможно, малосодержательные и говорят о плохом понимании темы, но хотелось бы получше усвоить логику подхода. С уважением, dummy |
![]() |
Сообщ.
#111
,
|
|
Цитата Возможно мне показалось, но распознаватель под Sphinx4 работает "слабее", чем pocket. Показалось Цитата - насколько похожи (алгоритмически, структурно, идеологически) последние версии пакетов от CMU? Существенных различий нет. Детальные различия приведены в таблице: http://nshmyrev.blogspot.ru/2011/07/decode...d-features.html но, чтобы понять их суть, нужно глубже изучить используемые алгоритмы. Цитата - различаются ли алгоритмически пакеты от CMU и HTK (мне кажется - должны)? Не существенно. Цитата - в чем, м.б., принципиальная слабость реализаций подхода HMM, и какие альтернативные подходы известны? HMM - универсальная математическая модель канала передачи информации, естественная для задачи распознавания речи. Цитата - Julius - это вариации на тему HMM, в чем различия? Существенных различий нет. Цитата Не укажете ли материал, к-рый хорошо, на Ваш взгляд, описывает логику sphinх с т.з. взаимодействия структур данных и процедур (логику построения и взаимодействия использованных моделей (акустическая, словарная, языковая), в каком виде хранятся рез-ты обучения (деревья принятия решений или другое), как строятся HMM в процессе обучения, как подбираются и в каком виде хранятся gaussian mixtures, подбираются ли коэфф. автокорреляции и взаимной корреляции распределений)? http://dsp-book.narod.ru/SLP1.djvu http://dsp-book.narod.ru/SLP2.djvu |
Сообщ.
#112
,
|
|
|
Благодарю за комменты!
Книжечку я уже прочитал, бегло признаюсь. Придется перечитать внимательнее. dummy Сообщения были разделены в тему "База записей слов" |
Сообщ.
#113
,
|
|
|
2 nsh
Николай! Вопрос: по каким правилам выполнена "транскрипция" слов в Вашей модели (msu_ru_nsh.dic)? Может ли быть поставлена задача автоматизации этой процедуры, т.ч. - в части построения словаря фонем (или звуков), - в части построения правил транскрипции? Вопрос возник потому, что отдельные транскрипции кажутся неочевидными, но за этим, вероятно, все-таки стоит какая-то система правил - какова она? Есть идея найти минимальный по объему, но достаточный по представительности словарь, к-рый требуется транскрибировать вручную (для русского языка). А затем можно собирать любой по объему корпус и транскрибировать его процедурой. Мне часто встречалось утверждение, что "доучивание" системы распознавания на голос пользователя существенно улучшает качество. Есть еще одна идея: предлагать пользователю минимальный набор слов или фраз, к-рый позволит дообучить систему и "индивидуализировать" ее с сообтветствующим улучшением кач-ва рапознавания. Возможно, это уже сделано, и я, как дилетант, просто этого не знаю... С алгоритмами HMM я поразбирался и поэскпериментировал, теперь разбираюсь с приложениями HMM к распознаванию (HTK и Sphinx). Книжка, к-рую Вы рекомендовали, кажется, подустарела, автор претендует на капитальное изложение вопроса к моменту написания (но это 2001г.), приводится много formulae, но малова-то (или нет совсем) связных описаний практических решений. По существу, это описание состояние вопроса и теоретическая подоплека на момент существования Whisper (Microsoft). В этом отношении документация на HTK выглядит конкретнее, конструктивнее и практичнее. Но все же "специфична" и не дает общего взгляда ![]() С уважением, dummy |
![]() |
Сообщ.
#114
,
|
|
Цитата Может ли быть поставлена задача автоматизации этой процедуры, т.ч. - в части построения словаря фонем (или звуков), - в части построения правил транскрипции? Такое уже есть: https://github.com/zamiron/ru4sphinx/ Цитата Есть еще одна идея: предлагать пользователю минимальный набор слов или фраз, к-рый позволит дообучить систему и "индивидуализировать" ее с сообтветствующим улучшением кач-ва рапознавания. Такое неплохо было бы создать. |
Сообщ.
#115
,
|
|
|
2 zamir
Замир, а не Ваше ли творение (zamiron) указал мне nsh в предыдущем посте? Если я обращаюсь по адресу, то вопросы: прочитал классификацию русских звуков (или фонем, как правильно?) к zamiron: "linguistic_questions...", правильно ли я понимаю, что эти идентификаторы использованы при построении .dic файла русской модели для sphinx? правила транскрипции можно найти в тексте перловских программ? можно ли по написанию слова, (приведенному) словарю и набору правил построить транскрипцию и она будет правильной (удовлетворительной) или нужно еще что-то (ударения или ?) достаточно ли приведенного состава обозначений(идентификаторов) звуков, чтобы их поставить в однозначное соответствие акустическим моделям звуков? мне кажется, что - нет и обозначений звуков с учетом приведенных признаков должно быть больше, т.е. с помощью этих обозначений может быть выполнена не вполне "фонетическая" транскрипция, а какое-то ее упрощение... возможно, что для целей обучения системы этого достаточно, но единственная ли это возможная система транскрипции или одна из многих? если ее возможно "детализировать", то не улучшит ли это качество работы системы, пусть и при нек-ром снижении быстродействия? я себе придумал задачку генерации СМС с использованием распознавателя (не обязательно слитно произносимых слов) она сродни задачке транскрипции, к-рую Вы решали, но является обратной к ней может быть она уже решена для русского языка и, если - да, то насколько удовлетворительно? в такой постановке задачка привлекательна для меня, поск-ку предполагаю, потребуется словарь фонем и правил "обратной" транскрипции звуков в буквенное написание возможно, я что-то упускаю - буду благодарен за корректировку постановки и замечания почти наверное, в работе процедуры будут сбои (ошибочная транскрипция) и надо будет предусмотреть удобный механизм корректировки (на основе речевых указаний) dummy |
![]() |
Сообщ.
#116
,
|
|
Цитата Замир, а не Ваше ли творение (zamiron) указал мне nsh в предыдущем посте? dummyguy, некрасиво называть результат сложной работы "творением". Вобщем-то, не мешало бы Вам быть вежливее. Цитата "linguistic_questions...", правильно ли я понимаю, что эти идентификаторы использованы при построении .dic файла русской модели для sphinx? Классификация используется для построения дерева решений для контекстно-зависимых моделей фонем. Цитата правила транскрипции можно найти в тексте перловских программ? Да Цитата можно ли по написанию слова, (приведенному) словарю и набору правил построить транскрипцию и она будет правильной (удовлетворительной) или нужно еще что-то (ударения или ?) Для русского языка важно правильное ударение Цитата достаточно ли приведенного состава обозначений(идентификаторов) звуков, чтобы их поставить в однозначное соответствие акустическим моделям звуков? Да, их даже слишком много. Цитата мне кажется, что - нет и обозначений звуков с учетом приведенных признаков должно быть больше, т.е. с помощью этих обозначений может быть выполнена не вполне "фонетическая" транскрипция, а какое-то ее упрощение... Технология позволяет это делать автоматически. Цитата возможно, что для целей обучения системы этого достаточно, но единственная ли это возможная система транскрипции или одна из многих? Различия обычно несущественные. Цитата если ее возможно "детализировать", то не улучшит ли это качество работы системы, пусть и при нек-ром снижении быстродействия? Она и так уточняется в процессе тренировки, когда создаются контекстно-зависимые модели. Цитата я себе придумал задачку генерации СМС с использованием распознавателя (не обязательно слитно произносимых слов) она сродни задачке транскрипции, к-рую Вы решали, но является обратной к ней. может быть она уже решена для русского языка и, если - да, то насколько удовлетворительно? Нет, не решена. Цитата в такой постановке задачка привлекательна для меня, поскольку предполагаю, потребуется словарь фонем и правил "обратной" транскрипции звуков в буквенное написание Такие правила создать несложно. |
Сообщ.
#117
,
|
|
|
Благодарю за ответы!
"Творение" в моем контексте - уважительное определение с оттенком восхищения. Я вовсе не иронизирую, но уважаю труд и компетентность. Мои "творения" не выше уровня упражнения или поделки и не лежат на sourceforge Был искренне удивлен, что задачка диктовки смс не решена для русского языка! Оч. хотелось бы для начала попытаться сделать макет на Java под Win, Может быть, посоветуете, как приступить к реализации этого проекта? В нек-ром приближении будем считать, что с теорией вопроса я ознакомился и терминологией владею. С уважением, dummy |
![]() |
Сообщ.
#118
,
|
|
Цитата Может быть, посоветуете, как приступить к реализации этого проекта? В нек-ром приближении будем считать, что с теорией вопроса я ознакомился и терминологией владею. Собрать тестовые данные. Открыть среду разработки и написать программу. Посмотреть, как программа работает. |
Сообщ.
#119
,
|
|
|
Хм-м, в блогах и на конфах вроде stackoverflow.com Вы не столь лаконичны...
C благодарностью за содержательные рекомендации ![]() dummy |
![]() |
Сообщ.
#120
,
|
|
Цитата C благодарностью за содержательные рекомендации Если какой-то этап непонятен, спрашивайте о подробностях. |