На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
  
> TTS а на микроконтроллере ARM CORTEX M3 , Перевод текста в звук на микроконтроллере ARM CORTEX M3
    Добрый день уважаимые форумчаны.
    Интересует тема синтеза речи из текста на микроконтроллера из архитектурой ARM CORTEX M3. Занимался ли кто то данной задачей ?? Имееться ли положительный опыт?
    Все предидущие темы относительно синтеза звука относяться к системам с почти неограничеными ресурсами для решения данной задачи, но интерсно как можно решить ее в ограниченном пространсте.
    Спасибо за ответ !!!!
      Можно запустить espeak http://espeak.sourceforge.net

      https://www.youtube.com/watch?v=Mp36t1opRk0

      Исходники там прилагаются
        То видео я видел. Но качество звука на видео и пример из сайта как то расходятся((. Но вставить этот код в свой проэкт я попробую )
        Скажите, пожалуйста, вы много занимались утилитой FLITE, реально ее портировать на STM32f103 ?
        Хотя бы ядро ядро, до точки где буффер заполняется семплами, что бы семплы не писались в файл, а на прямую передавать в DAC или ШИМ ??
        Спасибо )
          В наше время не имеет смысла пытаться запихнуть сложные задачи на такую ерунду. Сейчас доступны гораздо более мощные и маленькие чипы за сравнимую цену. Используются для IOT, например такое:

          ftp://ftp.ingenic.com/SOC/M200/M200_PB.PDF

          На нём даже pocketsphinx отлично работает.
            Вот ещё такая штука есть как вчера узнал

            https://www.artik.io/hardware/artik-10

            А вот так на ней распознавание работает, полный анализ семантический и синтез неплохой всё на устройстве

            https://www.youtube.com/watch?v=ObD_wIw0pys
            Сообщение отредактировано: nsh -
              nsh
              Есть же spp.exe (предвестник Фонемафона?), качество звука не торт, но ведь работало на древних машинах и весило 30кб. Неужели ничего нет подобного класса с исходниками?

              Я вот тут хочу из Николая базу дифонов сдампить (в общем-то она там в открытом виде лежит, вместе с оффсетами), но слабо представляю как их потом клеить. Хотелось бы простую имплементацию на сишке получить в итоге. Неужели совсем ничего готового нет?
                Цитата powitoju @
                качество звука не торт, но ведь работало на древних машинах и весило 30кб. Неужели ничего нет подобного класса с исходниками?


                Есть, но зачем. Сейчас у пользователей немного другие ожидания.
                  nsh
                  Сейчас у пользователей немного другие ожидания.
                  Пользователи бывают разные, как и юзкейсы. Иногда лучше получить синтез уровня spp, чем не получить ничего вообще. Это могут быть системы оповещения (экраны нынче стоят копейки, но не везде их можно воткнуть, а морзянку проигрывать совсем не юзерфрендли), это могут быть системы помощи слепым, а мне вообще нужно "прототипирование речи", т.е. быстрое и дешевое создание больших объемов речи, которую потом перезапишут актеры с нормальным произношением. Я бы конечно мог дергать актеров почаще и делать много-много черновых работ, подгоняя границы сказанного, редактируя и снова пробуя новые варианты, но человеческое мясо слишком ленивое и дорогое, а дергать SAPI5 и медленно, и не всегда возможно, я уж не говорю о таких мелочах как всякие лицензии. У меня еще один кандидат на реверсинг - это Greatsynt, дифонная база которого тоже лежит открыто.

                  Я не могу требовать от тебя чего-либо, но быть может в минутку печали ты напишешь статейку вида "пишем синтезатор речи с нуля из говна и палок", от чего и тебе, и другим станет веселей. Пока же я читал массу литературы по данной проблеме (взять хотя бы тот же festvox или творения Лобанова), но написать свое пока не могу, а чужое, пусть даже совсем примитивное, идет без сорсов.
                    Так чем festvox не устраивает на начальных порах? И документации полно и open source....
                    Сообщение отредактировано: zamir -
                      zamir
                      Festvox скорее книжка с набором скриптов, причем я так понимаю, несколько устаревшая. Книжка для создания своего голоса, а не своего синтезатора (ну или я чего-то не увидел там, ткни носом, если я не прав). Опенсорсность мне тоже мало пользы несет, мне нужна своя реализация.
                        Книжка есть хорошая от создателя Festival Paul Taylor Text to speech synthesis

                        http://svr-www.eng.cam.ac.uk/~pat40/ttsbook_draft_2.pdf

                        Цитата
                        а чужое, пусть даже совсем примитивное, идет без сорсов.


                        espeak хороший синтезатор и простой.
                          nsh
                          espeak хороший синтезатор и простой.
                          Я бы не назвал его простым. Во-первых, в нем 2 синтезатора, во-вторых, у него 2 ветки (espeak + espeak-ng). Во-вторых, как это уже наверное понятно, мне нужно эмбед-версию, чтобы включить в свою кодовую базу (речь идет не о сокрытии, а о тонкой настройке и сокращении оверхеда). Видимо надо будет искать книжки "как работает еспик" и попробовать сделать свой примитивный велосипед, повторяя каждый шаг.
                          0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                          0 пользователей:


                          Рейтинг@Mail.ru
                          [ Script execution time: 0,0292 ]   [ 15 queries used ]   [ Generated: 16.04.24, 13:59 GMT ]