
![]() |
Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
|
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[3.133.139.156] |
![]() |
|
![]() |
Сообщ.
#1
,
|
|
Интересное изложение с точки зрения биолога, с точки зрения алгоритмов не совсем корректное, к сожалению, особенно про "настройку на частоту"
https://postnauka.ru/video/80498 |
Сообщ.
#2
,
|
|
|
После Стивина Хокинга уже не так конечно впечатляет, но мне понравилось
![]() В своё время я натренировал небольшую модельку для выделения речи на фоне шума. В виду её простоты на выходе получался сигнал на котором речь звучала немного громче а шумы немного тишы. Это конечно не тот результат которого хотелось бы добиться, но в целом надо сказать, человек тоже не может полностью абстрагироваться от шума. |
Сообщ.
#3
,
|
|
|
В отношение анализа дельт без привязки в конкретной частоте.
Сделал небольшой анализ дельты 1-го mfcc коэффициента. Целью было сравнить фонемы по их расположению по частоте относительно друг друга. Вот что получилось. (чем больше значение, тем ниже частота, чем меньше значение тем выше частота) Сортировка соответственно от высоких частот к низким. Цитата ff -28.4925983271514 kk -22.1457409562266 ss -21.9182565328243 zh -21.1730581136364 hh -20.2956305025137 sh -16.2841631293191 sch -13.4426965239441 ch -13.0220352076175 s -12.0032915328243 i -9.39811365298489 ii -9.03696403463927 je -8.51532160251373 ee -7.6259891226158 zz -6.66204767471415 a -5.28603142832275 ja -5.00070278965518 j -4.57166490865801 uj -4.40318814194092 yy -4.33105090378656 dd -4.0924967485404 ll -4.04015608333333 h -3.94381250065556 rr -3.25564283333333 oo -2.7955186710029 r -2.49614036363636 k -2.09306877701038 jo -1.94288130434783 aa -1.73597100704648 f -1.72382017524738 bb -1.472836875 pp -0.62289941203754 c -0.5197918499627 t -0.47830776985735 gg -0.187006145750379 n 0 nn 0.45646005511364 vv 0.642821098484851 ay 0.81151402852664 ju 1.40627105662393 p 1.53098308120717 tt 1.58755768748768 y 1.76955512701149 v 1.87700472698267 SIL 2.49411244312688 d 2.50337069748627 m 2.76881464377337 z 2.98258150247965 u 3.33331669565622 l 3.8470985 g 4.0949752523842 uu 6.0213557232906 b 8.42288433201577 mm 8.60408273011364 Часть фонем конечно-же сравнивать нельзя (привожу результат как он есть). Результат не претендует на правильность. Но в целом из полученного результата очевидно очевидное ![]() на базе 1-го коэфицента неплохо выделяются шипящие: Цитата ff -28.4925983271514 kk -22.1457409562266 ss -21.9182565328243 zh -21.1730581136364 hh -20.2956305025137 sh -16.2841631293191 sch -13.4426965239441 ch -13.0220352076175 s -12.0032915328243 Хотя конечно в отношении звука kk у меня есть сомнения, ибо это не шипящий. Взрывные у меня в принципе нормально не размечены. Для гласных самая высокая частота у фонемы ii, самая низкая у uu Цитата ii -9.03696403463927 ee -7.6259891226158 yy -4.33105090378656 oo -2.7955186710029 aa -1.73597100704648 uu 6.0213557232906 ^^^ кстати тут oo и aa по идее должны быть местами поменяны, возможно ошибка в разметке Разметка фонемы f в моей базе плохая ![]() |
![]() |
Сообщ.
#4
,
|
|
Цитата zamir @ Но в целом из полученного результата очевидно очевидное Тут интереснее быструю речь анализировать, где аллофоны вообще пропускаются. Вот там никакие коэффициенты не помогут. |