<?xml version='1.0' encoding="utf-8"?>
      <rss version='2.0'>
      <channel>
      <title>Форум на Исходниках.RU</title>
      <link>https://forum.sources.ru</link>
      <description>Форум на Исходниках.RU</description>
      <generator>Форум на Исходниках.RU</generator>
  	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3590761</guid>
        <pubDate>Thu, 09 Apr 2015 14:03:26 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3590761</link>
        <description><![CDATA[nsh: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Можно ли как-то заставить декодер в phone-loop рассматривать только самую правдоподобную гипотезу, при этом не отбрасывая гипотезы, соответствующие грамматике, чтобы решить задачу определения посторонних слов, но не выполнять ненужной работы?<br>
</div></div><br>
<br>
Эти изменения нужно вносить в код декодера.]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3590411</guid>
        <pubDate>Wed, 08 Apr 2015 17:29:20 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3590411</link>
        <description><![CDATA[AndKy: Сейчас провел тесты с использованием 2-х вариантов задания фонемного цикла и похоже что они эквивалентны как по скорости работы так и по результату]]></description>
        <author>AndKy</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3590350</guid>
        <pubDate>Wed, 08 Apr 2015 13:57:06 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3590350</link>
        <description><![CDATA[AndKy: Хотелось бы понять еще одну вещь о phone-loop.<br>
<br>
Когда декодер &quot;заходит&quot; в phone-loop, у него появляется множество возможных вариантов, того, какую цепочку звуков построить в соответствии с наблюдаемыми данными. Таким образом, декодер вынужден проделывать огромную работу, пытаясь установить какая из множества цепочек звуков наиболее правдоподобна, хотя мне нужно лишь знать - является ли распознанная гипотеза частью целевой грамматики или фонемного цикла.<br>
<br>
Можно ли как-то заставить декодер в phone-loop рассматривать только самую правдоподобную гипотезу, при этом не отбрасывая гипотезы, соответствующие грамматике, чтобы решить задачу определения посторонних слов, но не выполнять ненужной работы?<br>
<br>
Например, будет ли выигрыш в обработке, если phone-loop переопределить следующим образом? Ведь теперь цепочка строится из одного &quot;слова&quot; PHONE, имеющего 50 транскрипций<br>
jsgf<br>
<div class='tag-code'><span class='pre_code'></span><div class='code  code_collapsed ' title='Подсветка синтаксиса доступна зарегистрированным участникам Форума.' style=''><div><div><ol type="1"><div class="code_line">&#60;command&#62; = Hello World | &#60;OOG&#62;;</div><div class="code_line">&nbsp;</div><div class="code_line">&nbsp;&#60;OOG&#62; &nbsp; &nbsp; = (PHONE)*;</div></ol></div></div></div></div><script>preloadCodeButtons('1');</script><br>
dict<br>
<div class='tag-code'><span class='pre_code'></span><div class='code  code_collapsed ' title='Подсветка синтаксиса доступна зарегистрированным участникам Форума.' style=''><div><div><ol type="1"><div class="code_line">PHONE &nbsp; hh</div><div class="code_line">PHONE(2) &nbsp; &nbsp;f</div><div class="code_line">PHONE(3) &nbsp; &nbsp;gg</div><div class="code_line">PHONE(.) ...</div><div class="code_line">PHONE(50) tt</div><div class="code_line">...</div></ol></div></div></div></div>]]></description>
        <author>AndKy</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3589528</guid>
        <pubDate>Sun, 05 Apr 2015 18:03:33 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3589528</link>
        <description><![CDATA[AndKy: Понятно, спасибо&#33;]]></description>
        <author>AndKy</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3589527</guid>
        <pubDate>Sun, 05 Apr 2015 18:01:16 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3589527</link>
        <description><![CDATA[nsh: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>- является ли он эквивалентом Out-Of-Grammar ветви в грамматике?<br>
</div></div><br>
<br>
Ну почти, он для других целей используется.<br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>если да, то можно ли его использовать вместо того, чтобы описывать такой же phone-loop в грамматике?<br>
</div></div><br>
<br>
Пока нельзя.<br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>- Есть ли возможность управлять вероятностью входа в phone-loop и вероятностью вставки звука внутри цикла?<br>
</div></div><br>
<br>
В jsgf можно задавать веса:<br>
<br>
<div class='tag-code'><span class='pre_code'></span><div class='code  code_collapsed ' title='Подсветка синтаксиса доступна зарегистрированным участникам Форума.' style=''><div><div><ol type="1"><div class="code_line">&#60;command&#62; = Hello World | /1e-10/ &#60;OOG&#62;;</div></ol></div></div></div></div>]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3589476</guid>
        <pubDate>Sun, 05 Apr 2015 11:45:08 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3589476</link>
        <description><![CDATA[AndKy: Я смотрю, в Pocketsphinx есть объект <br>
<div class='tag-code'><span class='pre_code'></span><div class='code  code_collapsed ' title='Подсветка синтаксиса доступна зарегистрированным участникам Форума.' style=''><div><div><ol type="1"><div class="code_line">ps_search_t *phone_loop; /**&#60; Phone loop search for lookahead. */</div></ol></div></div></div></div><br>
но вот, не могу понять:<br>
 - является ли он эквивалентом Out-Of-Grammar ветви в грамматике?<br>
<div class='tag-code'><span class='pre_code'></span><div class='code  code_collapsed ' title='Подсветка синтаксиса доступна зарегистрированным участникам Форума.' style=''><div><div><ol type="1"><div class="code_line">&nbsp;&#60;command&#62; = Hello World | &#60;OOG&#62;;</div><div class="code_line">&nbsp;&#60;OOG&#62; &nbsp; &nbsp; = (PHONE1 | PHONE2 | ... | PHONE_END)*;</div></ol></div></div></div></div><br>
 - если да, то можно ли его использовать вместо того, чтобы описывать такой же phone-loop в грамматике?<br>
 - Есть ли возможность управлять вероятностью входа в phone-loop и вероятностью вставки звука внутри цикла?]]></description>
        <author>AndKy</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3589215</guid>
        <pubDate>Fri, 03 Apr 2015 19:20:47 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3589215</link>
        <description><![CDATA[nsh: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Я тут заметил, что в библиотеке при добавлении битового шума (dithering) применяется арифметическая операция сложения. Это приводит к тому, что в случае, если сигнал был ограничен сверху, происходит переполнение и спектр значительно разрушается. Возможно стоит использовать битовый xor для дайзеринга. Хотя врятли это сильно поможет при распознавании таких сигналов<br>
</div></div><br>
<br>
Спасибо, как-нибудь подправим<br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Пока не забыл)<br>
</div></div><br>
<br>
Эта часть пока не закончена, в ближайшие дни доделаем.]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3588649</guid>
        <pubDate>Wed, 01 Apr 2015 17:38:56 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3588649</link>
        <description><![CDATA[AndKy: Пока не забыл)<br>
<div class='tag-code'><span class='pre_code'></span><div class='code  code_collapsed ' title='Подсветка синтаксиса доступна зарегистрированным участникам Форума.' style=''><div><div><ol type="1"><div class="code_line">void</div><div class="code_line">fe_prespch_read_pcm(prespch_buf_t * prespch_buf, int16 *samples,</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;int32 *samples_num)</div><div class="code_line">{</div><div class="code_line">&nbsp;&nbsp; &nbsp;int i;</div><div class="code_line">&nbsp;&nbsp; &nbsp;int16 *cursample = samples;</div><div class="code_line">&nbsp;&nbsp; &nbsp;*samples_num = prespch_buf-&#62;npcm * prespch_buf-&#62;num_samples;</div><div class="code_line">&nbsp;&nbsp; &nbsp;for (i = 0; i &#60; prespch_buf-&#62;npcm; i++) {</div><div class="code_line">&nbsp;&nbsp; &nbsp;memcpy(cursample, &amp;prespch_buf-&#62;pcm_buf[prespch_buf-&#62;pcm_read_ptr * prespch_buf-&#62;num_samples],</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; prespch_buf-&#62;num_samples * sizeof(int16));</div><div class="code_line">&nbsp;&nbsp; &nbsp;prespch_buf-&#62;pcm_read_ptr = (prespch_buf-&#62;pcm_read_ptr + 1) % prespch_buf-&#62;num_frames_pcm;</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp;// Тут, стоит добавить</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp;// cursample += prespch_buf-&#62;num_samples;</div><div class="code_line">&nbsp;&nbsp; &nbsp;}</div><div class="code_line">&nbsp;&nbsp; &nbsp;prespch_buf-&#62;pcm_read_ptr = 0;</div><div class="code_line">&nbsp;&nbsp; &nbsp;prespch_buf-&#62;pcm_write_ptr = 0; &nbsp; &nbsp;</div><div class="code_line">&nbsp;&nbsp; &nbsp;prespch_buf-&#62;npcm = 0;</div><div class="code_line">&nbsp;&nbsp; &nbsp;return;</div><div class="code_line">}</div></ol></div></div></div></div>]]></description>
        <author>AndKy</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3588321</guid>
        <pubDate>Tue, 31 Mar 2015 22:00:51 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3588321</link>
        <description><![CDATA[AndKy: Я тут заметил, что в библиотеке при добавлении битового шума (dithering) применяется арифметическая операция сложения. Это приводит к тому, что в случае, если сигнал был ограничен сверху, происходит переполнение и спектр значительно разрушается. Возможно стоит использовать битовый xor для дайзеринга. Хотя врятли это сильно поможет при распознавании таких сигналов<br>
<br>
Тут, я орал в микрофон, чтобы увидеть чем отличается спектр при разных видах дайзеринга:<br>
<br>
<a class='tag-url' href='http://hostingkartinok.com/show-image.php?id=c3930622b19eb15d857b51d8872c3dbc' target='_blank'><img class='tag-img' src='http://s7.hostingkartinok.com/uploads/images/2015/03/c3930622b19eb15d857b51d8872c3dbc.png' alt='user posted image'></a>]]></description>
        <author>AndKy</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3587466</guid>
        <pubDate>Sun, 29 Mar 2015 13:33:02 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3587466</link>
        <description><![CDATA[nsh: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Так, значит декодер сам определяет есть ли в акустической модели необходимые трифоны и, если их нет, то берет соответствующие контекстно-независимые фонемы?<br>
</div></div><br>
<br>
Да]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3587448</guid>
        <pubDate>Sun, 29 Mar 2015 11:22:10 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3587448</link>
        <description><![CDATA[AndKy: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Режим поиска фонем включается -allphone &lt;lm&gt;.</div></div><br>
<br>
Понятно, спасибо<br>
<br>
Так, значит декодер сам определяет есть ли в акустической модели необходимые трифоны и, если их нет, то берет соответствующие контекстно-независимые фонемы?]]></description>
        <author>AndKy</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3587440</guid>
        <pubDate>Sun, 29 Mar 2015 10:50:54 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3587440</link>
        <description><![CDATA[nsh: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Я думал флаг -allphone_cd yes и означает включение режима поиска фонем<br>
</div></div><br>
<br>
Режим поиска фонем включается <span class="tag-font" data-value="Courier" style="font-family:Courier">-allphone &lt;lm&gt;</span>.]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3587390</guid>
        <pubDate>Sat, 28 Mar 2015 20:43:26 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3587390</link>
        <description><![CDATA[AndKy: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Размер CI модели с десятком CD сенонов должен быть меньше 100кб. Откуда 400 взялось - не очень понятно.</div></div><br>
У меня выходит, что размер mean и var примерно равен 51 (фонем) x 3(кол-во сенонов на фонему) x 39 (mfcc) x 8 (гаусс) x 4 (sizeof(float)) = 186 kB<br>
Плюс остальные файлы. Вот и выходит примерно 400 kB<br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Этот ключ действует только в режиме поиска фонем</div></div><br>
Не совсем понял, что имелось ввиду. Я думал флаг -allphone_cd yes и означает включение режима поиска фонем<br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Можно использовать контекстно-независимую модель, но точность определения будет ниже и порог срабатывания нужно другой подбирать. </div></div><br>
<br>
Да, я как раз пробовал с фразой &quot;голосовое управление&quot;. Очень хорошо работало с контекстно-зависимой моделью,<br>
но для контекстно-независимой, даже при очень чувствительном пороге (-kws_threshold 1e-60...1e-300) приходилось по несколько раз повторять фразу, чтобы добиться реакции. Поэтому я и решил оставить трифоны]]></description>
        <author>AndKy</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3587374</guid>
        <pubDate>Sat, 28 Mar 2015 19:31:14 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3587374</link>
        <description><![CDATA[nsh: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>- Если есть фраза &quot;раз два&quot; то для ее транскрипции необходимы следующие трифоны:<br>
</div></div><br>
<br>
В целом правильно, но kws SIL по умолчанию не вставляет. Если хочется с SIL, нужно просто добавить вторую фразу в поиск:  &quot;раз &lt;sil&gt; два&quot;.<br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '> Достаточно ли сохранить используемые трифоны для правильной работы алгоритма поиска ключевого слова?<br>
</div></div><br>
<br>
Да<br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>При этом при распознавании фраз, определенных грамматикой, существенной разницы в точности я не заметил.<br>
</div></div><br>
<br>
Точность должна быть ниже при использовании ci модели<br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>что для небольшого словаря можно использовать контекстно независимые модели (-allphone_cd). Это позволило сократить общий размер акустической модели с 8 Mb (сделав mdef бинарным, общий размер станет ~5Mb) до 400 kB.<br>
</div></div><br>
<br>
Этот ключ действует только в режиме поиска фонем<br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Похоже, что данный поиск не поддерживает контекстно-независимого режима (-allphone_cd)? Или он очень чувствителен по отношению к контекстно зависимым фонемам?<br>
</div></div><br>
<br>
Можно использовать контекстно-независимую модель, но точность определения будет ниже и порог срабатывания нужно другой подбирать. <br>
<br>
<span class="tag-color tag-color-named" data-value="mergepost" style="color: mergepost"><span class='tag-size' data-value='7' style='font-size:7pt;'>Добавлено <time class="tag-mergetime" datetime="2015-03-28T19:52:06+00:00">28.03.15, 19:52</time></span></span><br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '> Это позволило сократить общий размер акустической модели с 8 Mb (сделав mdef бинарным, общий размер станет ~5Mb) до 400 kB.</div></div><br>
<br>
Размер CI модели с десятком CD сенонов должен быть меньше 100кб. Откуда 400 взялось - не очень понятно.]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3587303</guid>
        <pubDate>Sat, 28 Mar 2015 12:05:29 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3587303</link>
        <description><![CDATA[AndKy: Спасибо за объяснения. Они очень помогли :good: <br>
<br>
До этого я спрашивал о возможных путях сокращения размера акустической модели и в итоге остановился на том,<br>
что для небольшого словаря можно использовать контекстно независимые модели (-allphone_cd). Это позволило сократить общий размер акустической модели с 8 Mb (сделав mdef бинарным, общий размер станет ~5Mb) до 400 kB.<br>
При этом при распознавании фраз, определенных грамматикой, существенной разницы в точности я не заметил.<br>
<br>
Однако, совсем иная картина складывается при использовании поиска ключевого слова (-kws). Похоже, что данный поиск не поддерживает контекстно-независимого режима (-allphone_cd)? Или он очень чувствителен по отношению к контекстно зависимым фонемам?<br>
<br>
В связи с этим, я планирую добавить к контекстно-независимой акустической модели, те трифоны, которые реально используются в транскрипции ключевого слова (а может быть и всех фраз грамматики, если это не приведет к существенному увеличению размера акустической модели).<br>
<br>
Собственно для этого, я хотел узнать:<br>
  - Если есть фраза &quot;раз два&quot; то для ее транскрипции необходимы следующие трифоны:<br>
<div class='tag-code'><span class='pre_code'></span><div class='code  code_collapsed ' title='Подсветка синтаксиса доступна зарегистрированным участникам Форума.' style=''><div><div><ol type="1"><div class="code_line">#base lft &nbsp;rt p</div><div class="code_line">&nbsp;&nbsp; &nbsp;r SIL &nbsp;aa b &nbsp;</div><div class="code_line">&nbsp;&nbsp; aa &nbsp; r &nbsp; s i</div><div class="code_line">&nbsp;&nbsp; &nbsp;s &nbsp;aa SIL e &nbsp; &nbsp;&#60;- &nbsp;После звука &#39;s&#39; идет SIL или </div><div class="code_line">&nbsp;&nbsp; &nbsp;s &nbsp;aa &nbsp; d e &nbsp; &nbsp;&#60;- &nbsp;после звука &#39;s&#39; идет &#39;d&#39; от следующего слова </div><div class="code_line">&nbsp;&nbsp; &nbsp;d SIL &nbsp; v b &nbsp; &nbsp;&#60;- &nbsp;Перед звуком &#39;d&#39; идет SIL или</div><div class="code_line">&nbsp;&nbsp; &nbsp;d &nbsp; s &nbsp; v b &nbsp; &nbsp;&#60;- &nbsp;перед звуком &#39;d&#39; идет &#39;s&#39; от предыдущего слова</div><div class="code_line">&nbsp;&nbsp; &nbsp;v &nbsp; d &nbsp;aa i</div><div class="code_line">&nbsp;&nbsp; aa &nbsp; v SIL e</div></ol></div></div></div></div><br>
  Правильно, или тут что-то лишнее или наоборот, чего-то не хватает?<br>
<br>
  - Достаточно ли сохранить используемые трифоны для правильной работы алгоритма поиска ключевого слова?]]></description>
        <author>AndKy</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3569278</guid>
        <pubDate>Fri, 30 Jan 2015 14:46:04 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3569278</link>
        <description><![CDATA[nsh: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Хорошо, а если преобразовать грамматику или fsg в lm модель, можно ли получить от этого какую-то выгоду?<br>
</div></div><br>
<br>
Можно, lm не накладывает жёстких условий, позволяет чередовать слова в любом порядке.<br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Я читал, что можно на основе грамматики сгенерировать список всевозможных фраз, а затем по нему построить лингвистическую модель. Будет ли такая модель лучше fsg представления?</div></div><br>
<br>
Такая модель не будет эквивалентна fsg представлению, например если в грамматики слова следовали строго одно за другим, в lm появится возможность пропускать слова. Для некоторых приложений такое преобразование имеет смысл.]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3568537</guid>
        <pubDate>Wed, 28 Jan 2015 15:33:16 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3568537</link>
        <description><![CDATA[AndKy: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Нет не является, в lm представлении можно отслеживать эффективно контекст</div></div><br>
<br>
Хорошо, а если преобразовать грамматику или fsg в lm модель, можно ли получить от этого какую-то выгоду?<br>
<br>
Я читал, что можно на основе грамматики сгенерировать список всевозможных фраз, а затем по нему построить лингвистическую модель. Будет ли такая модель лучше fsg представления?]]></description>
        <author>AndKy</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3568082</guid>
        <pubDate>Tue, 27 Jan 2015 13:24:13 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3568082</link>
        <description><![CDATA[nsh: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Приводятся ли все эти LM к некоторой единой форме, или для разных моделей используются различные алгоритмы декодирования? <br>
</div></div><br>
<br>
Да, приводятся. LM можно преобразовать в FSG. Вот тут можете посмотреть страница 102:<br>
<br>
<a class='tag-url' href='http://www.lvcsr.com/static/pubs/apsipa_09_tutorial_dixon_furui.pdf' target='_blank'>http://www.lvcsr.com/static/pubs/apsipa_09...dixon_furui.pdf</a><br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>или для разных моделей используются различные алгоритмы декодирования? <br>
</div></div><br>
<br>
Алгоритмы разные и используют особенности моделей языка.<br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Если задаю LM через грамматику, которую конвертирую в fsg формат, является ли такое представление LM оптимальным?<br>
</div></div><br>
<br>
Нет не является, в lm представлении можно отслеживать эффективно контекст. Например, триграммную модель можно быстро превратить в биграмную. В FSG представлении эта информация теряется.]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3567436</guid>
        <pubDate>Mon, 26 Jan 2015 15:25:27 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3567436</link>
        <description><![CDATA[AndKy: У меня возник вопрос, связанный с форматами лингвистических моделей(.lm, .dmp, .fsg, .jsgf), поддерживаемых в PocketSphinx.<br><br>Приводятся ли все эти LM к некоторой единой форме, или для разных моделей используются различные алгоритмы декодирования? <br><br>Если задаю LM через грамматику, которую конвертирую в fsg формат, является ли такое представление LM оптимальным?]]></description>
        <author>AndKy</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3565691</guid>
        <pubDate>Wed, 21 Jan 2015 11:54:14 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3565691</link>
        <description><![CDATA[AndKy: <strong class='tag-b'>nsh,</strong> спасибо, очень интересная работа&#33;]]></description>
        <author>AndKy</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3565537</guid>
        <pubDate>Wed, 21 Jan 2015 08:04:57 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3565537</link>
        <description><![CDATA[nsh: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Есть ли еще какие-нибудь источники описывающие особенности реализации PocketSphinx?<br>
</div></div><br>
<br>
Наиболее подробно алгоритмы Pocketsphinx описаны в диссертации:<br>
<br>
Efficient algorithms for speech recognition<br>
<a class='tag-url' href='http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.72.3560' target='_blank'>http://citeseerx.ist.psu.edu/viewdoc/summa...=10.1.1.72.3560</a>]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3565229</guid>
        <pubDate>Tue, 20 Jan 2015 11:52:14 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3565229</link>
        <description><![CDATA[AndKy: Продолжаю вникать в PocketSphinx, пытаясь понять внутреннюю организацию библиотеки. В исходниках довольно мало комментариев, а на сайте CMU Sphinx я нашел только общее описание применяемых подходов. Более подробное описание нашел в статье, описывающей некоторые детали реализации декодера <a class='tag-url' href='http://www.merl.com/publications/docs/TR2003-110.pdf' target='_blank'>http://www.merl.com/publications/docs/TR2003-110.pdf</a><br>
<br>
Есть ли еще какие-нибудь источники описывающие особенности реализации PocketSphinx?]]></description>
        <author>AndKy</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3564248</guid>
        <pubDate>Sat, 17 Jan 2015 13:41:25 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3564248</link>
        <description><![CDATA[nsh: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Во-вторых, нельзя ли сократить размер акустической модели? Наверняка, для фраз из ограниченного набора слов, некоторая часть моделей трифонов не будет использована. Можно ли вырезать избыточные модели или вообще преобразовать модель к контекстно-независимым звуковым единицам? Если уменьшить число коэффициентов в акустической модели уже после обучения. Будет ли она работоспособна?</div></div><br>
<br>
Да, можно так сделать.]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3563008</guid>
        <pubDate>Wed, 14 Jan 2015 15:46:39 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3563008</link>
        <description><![CDATA[uk8amk: Тоже интересует данная тема.<br>
Про Sphinx ничего не скажу, но Microchip когда-то делал оптимизированную голосовую библиотеку для своих контроллеров.<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>dsPIC30F<br>
SPEECH RECOGNITION<br>
WORD LIBRARY BUILDER<br>
USER’S GUIDE</div></div><br>
и также<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>dsPIC30F Speech Recognition Library</div></div><br>
<br>
Про ресурсы написано такое:<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Resource Requirements<br>
Sampling Interface: Si-3000 Audio Codec operating at 12.0 kHz<br>
System Operating Frequency: 12.288, 18.432 or 24.576 MHz<br>
Computational Power: 8 MIPs<br>
Program Flash Memory: 18 KB + 1.5 KB for each library word<br>
RAM: &lt;3.0 KB</div></div><br>
<br>
Пробовать не пришлось т.к. процы для меня экзотические, да и библиотека сама в объектных кодах и распространяется на CD.]]></description>
        <author>uk8amk</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3561950</guid>
        <pubDate>Mon, 12 Jan 2015 13:05:46 +0000</pubDate>
        <title>Оптимизация PocketSphinx для аппаратной реализации</title>
        <link>https://forum.sources.ru/index.php?showtopic=398211&amp;view=findpost&amp;p=3561950</link>
        <description><![CDATA[AndKy: Хотелось бы узнать, пробовал ли кто-нибудь реализовать распознавание речи с ограниченным словарем ( &lt; 100 слов) на основе МК. Какие требования по производительности и памяти следует предъявлять к МК для реализации такой системы?<br><br>Какие можно предложить способы для минимизации размера акустической модели, а также самого исполняемого файла.<br><br>Например, существует различные форматы для хранения языковой модели (.lm, .dmp, .fsg, .jsgf) одни из которых представляют данные в текстовом виде, другие в бинарном. Аналогично и с акустической моделью. А нет ли возможности, после инициализации объекта декодера, полностью сохранить его состояние в память, а затем загрузить его минуя стадию разбора командной строки и построения внутренних объектов на основе данных из текстовых файлов?<br><br>Во-вторых, нельзя ли сократить размер акустической модели? Наверняка, для фраз из ограниченного набора слов, некоторая часть моделей трифонов не будет использована. Можно ли вырезать избыточные модели или вообще преобразовать модель к контекстно-независимым звуковым единицам?<br><br>Если уменьшить число коэффициентов в акустической модели уже после обучения. Будет ли она работоспособна? :scratch:]]></description>
        <author>AndKy</author>
        <category>Речевые Технологии</category>
      </item>
	
      </channel>
      </rss>
	