TTS а на микроконтроллере ARM CORTEX M3 -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [3.129.247.196]

Модераторы: RaD, nsh

Новое голосование

TTS а на микроконтроллере ARM CORTEX M3 , Перевод текста в звук на микроконтроллере ARM CORTEX M3

Gooddjamp

Сообщ. #1 , 29.03.16, 07:42

Newbie

Профиль · PM

Рейтинг (т): нет

Добрый день уважаимые форумчаны.
Интересует тема синтеза речи из текста на микроконтроллера из архитектурой ARM CORTEX M3. Занимался ли кто то данной задачей ?? Имееться ли положительный опыт?
Все предидущие темы относительно синтеза звука относяться к системам с почти неограничеными ресурсами для решения данной задачи, но интерсно как можно решить ее в ограниченном пространсте.
Спасибо за ответ !!!!

nsh	Сообщ. #2 , 29.03.16, 11:02
Moderator Профиль · PM	Можно запустить espeak http://espeak.sourceforge.net https://www.youtube.com/watch?v=Mp36t1opRk0 Исходники там прилагаются

Gooddjamp

Сообщ. #3 , 29.03.16, 13:33

Newbie

Профиль · PM

Рейтинг (т): нет

То видео я видел. Но качество звука на видео и пример из сайта как то расходятся((. Но вставить этот код в свой проэкт я попробую )
Скажите, пожалуйста, вы много занимались утилитой FLITE, реально ее портировать на STM32f103 ?
Хотя бы ядро ядро, до точки где буффер заполняется семплами, что бы семплы не писались в файл, а на прямую передавать в DAC или ШИМ ??
Спасибо )

nsh

Сообщ. #4 , 29.03.16, 16:05

Moderator

Профиль · PM

В наше время не имеет смысла пытаться запихнуть сложные задачи на такую ерунду. Сейчас доступны гораздо более мощные и маленькие чипы за сравнимую цену. Используются для IOT, например такое:

ftp://ftp.ingenic.com/SOC/M200/M200_PB.PDF

На нём даже pocketsphinx отлично работает.

nsh

Сообщ. #5 , 06.04.16, 18:56

Moderator

Профиль · PM

Вот ещё такая штука есть как вчера узнал

https://www.artik.io/hardware/artik-10

А вот так на ней распознавание работает, полный анализ семантический и синтез неплохой всё на устройстве

https://www.youtube.com/watch?v=ObD_wIw0pys

Сообщение отредактировано: nsh - 06.04.16, 18:57

powitoju

Сообщ. #6 , 18.10.16, 12:07

Newbie

Профиль · PM

nsh
Есть же spp.exe (предвестник Фонемафона?), качество звука не торт, но ведь работало на древних машинах и весило 30кб. Неужели ничего нет подобного класса с исходниками?

Я вот тут хочу из Николая базу дифонов сдампить (в общем-то она там в открытом виде лежит, вместе с оффсетами), но слабо представляю как их потом клеить. Хотелось бы простую имплементацию на сишке получить в итоге. Неужели совсем ничего готового нет?

nsh	Сообщ. #7 , 18.10.16, 13:01
Moderator Профиль · PM	Цитата powitoju @ 18.10.16, 12:07 качество звука не торт, но ведь работало на древних машинах и весило 30кб. Неужели ничего нет подобного класса с исходниками? Есть, но зачем. Сейчас у пользователей немного другие ожидания.

powitoju

Сообщ. #8 , 18.10.16, 20:58

Newbie

Профиль · PM

nsh
Сейчас у пользователей немного другие ожидания.
Пользователи бывают разные, как и юзкейсы. Иногда лучше получить синтез уровня spp, чем не получить ничего вообще. Это могут быть системы оповещения (экраны нынче стоят копейки, но не везде их можно воткнуть, а морзянку проигрывать совсем не юзерфрендли), это могут быть системы помощи слепым, а мне вообще нужно "прототипирование речи", т.е. быстрое и дешевое создание больших объемов речи, которую потом перезапишут актеры с нормальным произношением. Я бы конечно мог дергать актеров почаще и делать много-много черновых работ, подгоняя границы сказанного, редактируя и снова пробуя новые варианты, но человеческое мясо слишком ленивое и дорогое, а дергать SAPI5 и медленно, и не всегда возможно, я уж не говорю о таких мелочах как всякие лицензии. У меня еще один кандидат на реверсинг - это Greatsynt, дифонная база которого тоже лежит открыто.

Я не могу требовать от тебя чего-либо, но быть может в минутку печали ты напишешь статейку вида "пишем синтезатор речи с нуля из говна и палок", от чего и тебе, и другим станет веселей. Пока же я читал массу литературы по данной проблеме (взять хотя бы тот же festvox или творения Лобанова), но написать свое пока не могу, а чужое, пусть даже совсем примитивное, идет без сорсов.

zamir	Сообщ. #9 , 19.10.16, 19:59
Full Member Профиль · PM Поощрения: 1 Dgm Рейтинг (т): 9	Так чем festvox не устраивает на начальных порах? И документации полно и open source.... Сообщение отредактировано: zamir - 22.10.16, 05:56

powitoju

Сообщ. #10 , 20.10.16, 10:05

Newbie

Профиль · PM

zamir
Festvox скорее книжка с набором скриптов, причем я так понимаю, несколько устаревшая. Книжка для создания своего голоса, а не своего синтезатора (ну или я чего-то не увидел там, ткни носом, если я не прав). Опенсорсность мне тоже мало пользы несет, мне нужна своя реализация.

nsh	Сообщ. #11 , 20.10.16, 13:40
Moderator Профиль · PM	Книжка есть хорошая от создателя Festival Paul Taylor Text to speech synthesis http://svr-www.eng.cam.ac.uk/~pat40/ttsbook_draft_2.pdf Цитата а чужое, пусть даже совсем примитивное, идет без сорсов. espeak хороший синтезатор и простой.

powitoju

Сообщ. #12 , 20.10.16, 14:04

Newbie

Профиль · PM

nsh
espeak хороший синтезатор и простой.
Я бы не назвал его простым. Во-первых, в нем 2 синтезатора, во-вторых, у него 2 ветки (espeak + espeak-ng). Во-вторых, как это уже наверное понятно, мне нужно эмбед-версию, чтобы включить в свою кодовую базу (речь идет не о сокрытии, а о тонкой настройке и сокращении оверхеда). Видимо надо будет искать книжки "как работает еспик" и попробовать сделать свой примитивный велосипед, повторяя каждый шаг.

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0292 ] [ 15 queries used ] [ Generated: 16.04.24, 13:59 GMT ]