На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (19) « Первая ... 13 14 [15] 16 17 ... Последняя » все  ( Перейти к последнему сообщению )  
> Новая база для синтеза речи , и голос для festival
    не выходит... :(

    ExpandedWrap disabled
      Dataset of 8292 vectors of 62 parameters from: festival/feats/pau_2.feats
      RMSE 0.1207 Correlation is 0.9661 Mean (abs) Error 0.0769 (0.0930)
      Dataset of 17248 vectors of 62 parameters from: festival/feats/pau_3.feats
      Dataset of 17248 vectors of 62 parameters from: festival/feats/pau_3.feats
      RMSE 0.2080 Correlation is 0.8451 Mean (abs) Error 0.0862 (0.1893)
      SIOD ERROR: not a number : -nan
      R/bin/wagon  -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/aa_1.feats' -test 'festival/feats/aa_1.feats' -balance 0 -track 'festival/disttabs/aa_1.mcep' -stop 50 -output 'festiva
      l/trees/aa_1_mcep.tree'
      Clustergen mcep tree build on: aa_2
      $ESTDIR/bin/wagon  -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/aa_2.feats' -test 'festival/feats/aa_2.feats' -balance 0 -track 'festival/disttabs/aa_2.mcep' -stop 50 -output 'f
      estival/trees/aa_2_mcep.tree'
      Clustergen mcep tree build on: aa_3
      $ESTDIR/bin/wagon  -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/aa_3.feats' -test 'festival/feats/aa_3.feats' -balance 0 -track 'festival/disttabs/aa_3.mcep' -stop 50 -output 'f
      estival/trees/aa_3_mcep.tree'
      Clustergen mcep tree build on: mm_1
      $ESTDIR/bin/wagon  -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/mm_1.feats' -test 'festival/feats/mm_1.feats' -balance 0 -track 'festival/disttabs/mm_1.mcep' -stop 50 -output 'f
      estival/trees/mm_1_mcep.tree'
      Clustergen mcep tree build on: mm_2
      $ESTDIR/bin/wagon  -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/mm_2.feats' -test 'festival/feats/mm_2.feats' -balance 0 -track 'festival/disttabs/mm_2.mcep' -stop 50 -output 'f
      estival/trees/mm_2_mcep.tree'
      Clustergen mcep tree build on: mm_3
      $ESTDIR/bin/wagon  -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/mm_3.feats' -test 'festival/feats/mm_3.feats' -balance 0 -track 'festival/disttabs/mm_3.mcep' -stop 50 -output 'f
      estival/trees/mm_3_mcep.tree'
      Clustergen mcep tree build on: i_1
      $ESTDIR/bin/wagon  -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/i_1.feats' -test 'festival/feats/i_1.feats' -balance 0 -track 'festival/disttabs/i_1.mcep' -stop 50 -output 'fest
      ival/trees/i_1_mcep.tree'
      Clustergen mcep tree build on: i_2
      $ESTDIR/bin/wagon  -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/i_2.feats' -test 'festival/feats/i_2.feats' -balance 0 -track 'festival/disttabs/i_2.mcep' -stop 50 -output 'fest
      ival/trees/i_2_mcep.tree'
      Clustergen mcep tree build on: i_3
      $ESTDIR/bin/wagon  -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/i_3.feats' -test 'festival/feats/i_3.feats' -balance 0 -track 'festival/disttabs/i_3.mcep' -stop 50 -output 'fest
      ival/trees/i_3_mcep.tree'
      Clustergen mcep tree build on: pau_1
      $ESTDIR/bin/wagon  -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/pau_1.feats' -test 'festival/feats/pau_1.feats' -balance 0 -track 'festival/disttabs/pau_1.mcep' -stop 50 -output
       'festival/trees/pau_1_mcep.tree'
      Clustergen mcep tree build on: pau_2
      $ESTDIR/bin/wagon  -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/pau_2.feats' -test 'festival/feats/pau_2.feats' -balance 0 -track 'festival/disttabs/pau_2.mcep' -stop 50 -output
       'festival/trees/pau_2_mcep.tree'
      Clustergen mcep tree build on: pau_3
      $ESTDIR/bin/wagon  -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/pau_3.feats' -test 'festival/feats/pau_3.feats' -balance 0 -track 'festival/disttabs/pau_3.mcep' -stop 50 -output
       'festival/trees/pau_3_mcep.tree'
      BACKTRACE:
         0: (f (car l2))
         1: (cons (f (car l2)) r)
         2: (set! r (cons (f (car l2)) r))
         3: (while l2 (set! r (cons (f (car l2)) r)) (set! l2 (cdr l2)))
         4: (mapcar
          (lambda
           (x)
           (...))
          (caar tree))
         5: (clustergen::dump_tree_vectors (car (cdr (cdr tree))) rawtrackfd)
         6: (clustergen::dump_tree_vectors (car (cdr tree)) rawtrackfd)
         7: (clustergen::dump_tree_vectors (car (cdr tree)) rawtrackfd)
         8: (clustergen::dump_tree_vectors (car (cdr (cdr tree))) closing a file left open: festival/trees/msu_ru_nsh_mcep.rawparams
      closing a file left open: festival/trees/msu_ru_nsh_mcep.tree
      rawtrackfd)
         9: (clustergen::dump_tree_vectors (car (cdr (cdr tree))) rawtrackfd)
        10: (clustergen::dump_tree_vectors (car (cdr (cdr tree))) rawtrackfd)
      Цитата
      нашёл nan в festival/trees/k_1_mcep.tree (встречается в одном файле один раз)


      Nan нужно искать внутри mcep файлов, а не в деревьях. В деревьях они как следствие. После того, как nan найден проще всего проблемный файл из базы выкинуть, удалив из etc/txt.done.data
        я понимаю, но все остальные mcep файлы бинарные...
        ищу в файлах *mcep* последовательность nan

        нашёл следующее:
        находится последовательность в *.mcep в папках mcep_deltas и mcep
        большей частью это бинарный файл

        Цитата
        .nan>..).p
        [.e.NaN=...
        .*<nan..pU
        K...NaN..
        ..U.NAn...
        .=.l.<naN...`=
        .^Z>nAN..dw
        ^E.\.^T=nAn.=XY
        ^W8>nAN..j
        ...؛=nan=.^^
        =..мNAn=.|<=
        P..nAn??um
        ...NaN>ڗ.
        .^G^>NAN=M.^@
        ...naN.,|b=
        =#^.;nAN<*.@
        ./.<NAN=.P.
        ;. ֘.nan.9C..
        =^U.\=naN<
        D.nAn..*
        .;Nan.U^
        ..U>Nan=t..
        |..<nan=.^U
        ¶^B.nan.E
        ^[>nAn.
        T..>NaN.



        это больше похоже на случайность...
        с какой последовательностью стоит удалить файл?

        p.s. взял метки sphinx - пересобираю всё по новой, завтра скажу собралось или нет.
          Цитата
          я понимаю, но все остальные mcep файлы бинарные...


          В файлах mcep лежат числа. Перевести их в текстовую форму можно с помощью ch_track из speech_tools.
            [mcep]# ch_track *.mcep |grep -i nan
            [mcep_deltas]# ch_track *.mcep |grep -i nan
            после сборки с метками sphinx таких файлов нет
            но требуются файлы lab/ru_0006.sl которые sphinx не создаёт

            Цитата
            ru_0001 Processing
            Cannot open file lab/ru_0001.sl as tokenstream
            load_relation: can't open relation input file lab/ru_0001.sl
            utt.load.relation: loading from "lab/ru_0001.sl" failed


            пробую дальше...
              Для clustergen нужна разметка уровня состояний HMM, а не уровня аллофонов. Разметка от sphinx3 не подойдёт, только ehmm.
                Нигде nan не обнаружил

                # ch_track ./mcep/*.mcep |grep -i na
                # ch_track ./mcep_deltas/*.mcep |grep -i na
                # ch_track ./ccoefs/*.mcep |grep -i na
                # ch_track ./festival/disttabs/*.mcep |grep -i na

                :wall:

                значений -0.00000 и 0.00000 в файлах полно

                ((((111.878 -nan) (0.984285 0.426654) (1.32527 0.18907) (-0.289974 0.173128)

                пробовал искать в ./mcep/*.mcep значения 111.878 0.984285 - не нашёл

                запускаю

                ./bin/do_clustergen cluster 1>./10_cluster.log 2>&1

                полный лог

                http://z1.prolink.ru/sphinx/10_cluster.log

                у вас есть ещё идеи? :)
                  регулярными выражениями проверил что везде только цифры, каких либо левых символов нет
                    удалил ./mcep/*.mcep начиная с 500
                    собралось
                    голос через чур дрожащим получился
                    ещё пока разирался нашёл вот такие проблемные места у себя из-за выравнивания материала при помощи sphinx
                    # cat ./txt.done.data.save |grep ' к -- '
                    ( ru_0455 "-- з+а воскр+есной -- литург+ией -- он+а подним+ала глаз+а ат мол+итвенника -- +и м+еж с+изых клуб+ов л+адана -- вознос+ившихся к -- к+уполу -- в+идела кр+откий л+ик -- д+евы мар+ии" )
                    ( ru_0684 "к+ак пробуд+ились вн+овь люб+овь -- над+ежды -- +и мол+итва В груд+и -- к -- кот+орой приж+ался мал+ютка" )

                    это могло повлиять?
                    без файла ru_0684 я пересобирать пробовал - результат тот же
                    с файлом ru_0455 оно сейчас собралось

                    Прикреплённый файлПрикреплённый файлcg_test.rar (126,69 Кбайт, скачиваний: 412)
                      move_label пыхтит, вроде даже что-то понемногу двигается, но на каждом этапе в логах появляются ошибки
                      Цитата

                      IOD ERROR: could not open file etc/txt.done.data.train
                      Pass 10 find MCDs
                      SIOD ERROR: could not open file etc/txt.done.data.test
                      cat: etc/txt.done.data.test: Нет такого файла или каталога
                      awk: cmd. line:1: fatal: division by zero attempted
                      cat: etc/txt.done.data.test: Нет такого файла или каталога
                      awk: cmd. line:1: fatal: division by zero attempted


                      из которых можно предположить что для работы этого алгоритма надо что-то ещё...
                      не просветите по этому вопросу?
                        С помощью скрипта traintest нужно разбить файл базы etc/txt.done.data на две части - etc/txt.done.data.train и etc/txt.done.data.test. На первой части голос будет тренироваться, на второй тестироваться.
                        Сообщение отредактировано: nsh -
                          это трындец...
                          нашёл файл из-за которого вылезал nan методом перебора - удалил его
                          разбивил файлы при помощи traintest
                          при запуске move_label модель не собирается
                          переразбил - первая модель собралась, но при перемещении меток снова возникает nan и модель не собирается...
                            Видимо настало время подумать, почему появляется nan.
                            Сообщение отредактировано: nsh -
                              я думал...
                              появляется только в фонеме k
                              в mcep файлах nan не обнаружен
                              выше я написал что есть последовательности "к кот+орой", "к к+уполу" в которых "к к" может являться одной фонемой, хотя транскриптор выводит две фонемы, но прикол в том что ни одно из этих предложений не явилось причиной почему я не мог создать кластер синтез
                              что бы думать глубже или правильнее у меня не хватает знаний и опыта.
                              а сбор этого добра занимает много времени... у меня уже один диск вышел из строя (хорошо ещё что softraid настроен) пока я этими многочисленными сборками занимаюсь...
                              Сообщение отредактировано: zamir -
                                Так дам действительно должна быть только одна k.

                                Видимо, надо на стадии postlex надо двойную k просто убирать и пересобрать всё.
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0563 ]   [ 17 queries used ]   [ Generated: 15.09.25, 16:05 GMT ]