update

mall5 · Apr 1, 2023 · 7a315a8 · 7a315a8
1 parent c7e6dbe
commit 7a315a8
Show file tree

Hide file tree

Showing 43 changed files with 53 additions and 277 deletions.
diff --git a/NeuralSeq/usr/configs/base.yaml → NeuralSeq/egs/egs_bases/svs/base.yaml b/NeuralSeq/usr/configs/base.yaml → NeuralSeq/egs/egs_bases/svs/base.yaml
@@ -1,4 +1,4 @@
-task_cls: usr.task.DiffFsTask
+task_cls: tasks.svs.task.DiffFsTask
 pitch_type: frame
 timesteps: 100
 dilation_cycle_length: 1

diff --git a/NeuralSeq/usr/configs/lj_ds_beta6.yaml → NeuralSeq/egs/egs_bases/svs/lj_ds_beta6.yaml b/NeuralSeq/usr/configs/lj_ds_beta6.yaml → NeuralSeq/egs/egs_bases/svs/lj_ds_beta6.yaml
@@ -23,7 +23,7 @@ spec_max: [ -0.5982, -0.0778,  0.1205,  0.2747,  0.4657,  0.5123,  0.5684,  0.70
             0.0086, -0.0698,  0.1385,  0.0941,  0.1864,  0.1225,  0.2176,  0.2566,
             0.1670,  0.1007,  0.1444,  0.0888,  0.1998,  0.2414,  0.2932,  0.3047 ]
 
-task_cls: usr.diffspeech_task.DiffSpeechTask
+task_cls: tasks.svs.diffspeech_task.DiffSpeechTask
 vocoder: vocoders.hifigan.HifiGAN
 vocoder_ckpt: checkpoints/0414_hifi_lj_1
 num_valid_plots: 10

diff --git a/.../configs/midi/cascade/opencs/aux_rel.yaml → ...ases/svs/midi/cascade/opencs/aux_rel.yaml b/.../configs/midi/cascade/opencs/aux_rel.yaml → ...ases/svs/midi/cascade/opencs/aux_rel.yaml
@@ -1,6 +1,6 @@
 base_config:
   - configs/singing/fs2.yaml
-  - usr/configs/midi/cascade/opencs/opencpop_statis.yaml
+  - egs/egs_bases/svs/midi/cascade/opencs/opencpop_statis.yaml
 
 audio_sample_rate: 24000
 hop_size: 128            # Hop size.
@@ -42,8 +42,8 @@ test_prefixes: [
     '2100',
 ]
 
-task_cls: usr.diffsinger_task.AuxDecoderMIDITask
-#vocoder: usr.singingvocoder.highgan.HighGAN
+task_cls: tasks.svs.diffsinger_task.AuxDecoderMIDITask
+#vocoder: tasks.svs.singingvocoder.highgan.HighGAN
 #vocoder_ckpt: checkpoints/h_2_model/checkpoint-530000steps.pkl
 vocoder: vocoders.hifigan.HifiGAN
 vocoder_ckpt: checkpoints/0109_hifigan_bigpopcs_hop128

diff --git a/...configs/midi/cascade/opencs/ds60_rel.yaml → ...ses/svs/midi/cascade/opencs/ds60_rel.yaml b/...configs/midi/cascade/opencs/ds60_rel.yaml → ...ses/svs/midi/cascade/opencs/ds60_rel.yaml
@@ -1,6 +1,6 @@
 base_config:
-  - usr/configs/popcs_ds_beta6.yaml
-  - usr/configs/midi/cascade/opencs/opencpop_statis.yaml
+  - egs/egs_bases/svs/popcs_ds_beta6.yaml
+  - egs/egs_bases/svs/midi/cascade/opencs/opencpop_statis.yaml
 
 binarizer_cls: data_gen.singing.binarize.OpencpopBinarizer
 binary_data_dir: 'data/binary/opencpop-midi-dp'
@@ -21,7 +21,7 @@ pe_ckpt: ''
 
 fs2_ckpt: 'checkpoints/0302_opencpop_fs_midi/model_ckpt_steps_160000.ckpt'  #
 #num_valid_plots: 0
-task_cls: usr.diffsinger_task.DiffSingerMIDITask
+task_cls: tasks.svs.diffsinger_task.DiffSingerMIDITask
 
 K_step: 60
 max_tokens: 36000

diff --git a/.../midi/cascade/opencs/opencpop_statis.yaml → .../midi/cascade/opencs/opencpop_statis.yaml b/.../midi/cascade/opencs/opencpop_statis.yaml → .../midi/cascade/opencs/opencpop_statis.yaml
diff --git a/...nfigs/midi/e2e/opencpop/ds1000-10dil.yaml → ...s/svs/midi/e2e/opencpop/ds1000-10dil.yaml b/...nfigs/midi/e2e/opencpop/ds1000-10dil.yaml → ...s/svs/midi/e2e/opencpop/ds1000-10dil.yaml
@@ -1,6 +1,6 @@
 base_config:
-  - usr/configs/popcs_ds_beta6.yaml
-  - usr/configs/midi/cascade/opencs/opencpop_statis.yaml
+  - egs/egs_bases/svs/popcs_ds_beta6.yaml
+  - egs/egs_bases/svs/midi/cascade/opencs/opencpop_statis.yaml
 
 binarizer_cls: data_gen.singing.binarize.OpencpopBinarizer
 binary_data_dir: 'data/binary/opencpop-midi-dp'
@@ -17,7 +17,7 @@ dur_predictor_layers: 5  # *
 
 fs2_ckpt: ''  #
 #num_valid_plots: 0
-task_cls: usr.diffsinger_task.DiffSingerMIDITask
+task_cls: tasks.svs.diffsinger_task.DiffSingerMIDITask
 
 timesteps: 1000
 K_step: 1000

diff --git a/...usr/configs/midi/e2e/opencpop/ds1000.yaml → ...s_bases/svs/midi/e2e/opencpop/ds1000.yaml b/...usr/configs/midi/e2e/opencpop/ds1000.yaml → ...s_bases/svs/midi/e2e/opencpop/ds1000.yaml
@@ -1,6 +1,6 @@
 base_config:
-  - usr/configs/popcs_ds_beta6.yaml
-  - usr/configs/midi/cascade/opencs/opencpop_statis.yaml
+  - egs/egs_bases/svs/popcs_ds_beta6.yaml
+  - egs/egs_bases/svs/midi/cascade/opencs/opencpop_statis.yaml
 
 binarizer_cls: data_gen.singing.binarize.OpencpopBinarizer
 binary_data_dir: 'data/binary/opencpop-midi-dp'
@@ -17,7 +17,7 @@ dur_predictor_layers: 5  # *
 
 fs2_ckpt: ''  #
 #num_valid_plots: 0
-task_cls: usr.diffsinger_task.DiffSingerMIDITask
+task_cls: tasks.svs.diffsinger_task.DiffSingerMIDITask
 
 # for diffusion schedule
 timesteps: 1000

diff --git a/...figs/midi/e2e/opencpop/ds100_adj_rel.yaml → .../svs/midi/e2e/opencpop/ds100_adj_rel.yaml b/...figs/midi/e2e/opencpop/ds100_adj_rel.yaml → .../svs/midi/e2e/opencpop/ds100_adj_rel.yaml
@@ -1,6 +1,6 @@
 base_config:
-  - usr/configs/popcs_ds_beta6.yaml
-  - usr/configs/midi/cascade/opencs/opencpop_statis.yaml
+  - egs/egs_bases/svs/popcs_ds_beta6.yaml
+  - egs/egs_bases/svs/midi/cascade/opencs/opencpop_statis.yaml
 
 binarizer_cls: data_gen.singing.binarize.OpencpopBinarizer
 binary_data_dir: 'data/binary/opencpop-midi-dp'
@@ -17,7 +17,7 @@ dur_predictor_layers: 5  # *
 
 fs2_ckpt: ''  #
 #num_valid_plots: 0
-task_cls: usr.diffsinger_task.DiffSingerMIDITask
+task_cls: tasks.svs.diffsinger_task.DiffSingerMIDITask
 
 K_step: 100
 max_tokens: 36000

diff --git a/...configs/midi/e2e/popcs/ds100_adj_rel.yaml → ...ses/svs/midi/e2e/popcs/ds100_adj_rel.yaml b/...configs/midi/e2e/popcs/ds100_adj_rel.yaml → ...ses/svs/midi/e2e/popcs/ds100_adj_rel.yaml
@@ -1,6 +1,6 @@
 base_config:
-  - usr/configs/popcs_ds_beta6.yaml
-  - usr/configs/midi/cascade/popcs/popcs_statis.yaml
+  - egs/egs_bases/svs/popcs_ds_beta6.yaml
+  - egs/egs_bases/svs/midi/cascade/popcs/popcs_statis.yaml
 
 binarizer_cls: data_gen.singing.binarize.MidiSingingBinarizer
 binary_data_dir: 'data/binary/popcs-midi-dp'
@@ -17,7 +17,7 @@ dur_predictor_layers: 5  # *
 
 fs2_ckpt: ''  #
 #num_valid_plots: 0
-task_cls: usr.diffsinger_task.DiffSingerMIDITask
+task_cls: tasks.svs.diffsinger_task.DiffSingerMIDITask
 
 K_step: 100
 max_tokens: 40000

diff --git a/NeuralSeq/usr/configs/midi/pe.yaml → NeuralSeq/egs/egs_bases/svs/midi/pe.yaml b/NeuralSeq/usr/configs/midi/pe.yaml → NeuralSeq/egs/egs_bases/svs/midi/pe.yaml
diff --git a/NeuralSeq/usr/configs/popcs_ds_beta6.yaml → ...Seq/egs/egs_bases/svs/popcs_ds_beta6.yaml b/NeuralSeq/usr/configs/popcs_ds_beta6.yaml → ...Seq/egs/egs_bases/svs/popcs_ds_beta6.yaml
@@ -48,8 +48,8 @@ spec_max: [ 0.2645,  0.0583, -0.2344, -0.0184,  0.1227,  0.1533,  0.1103,  0.121
             -0.8770, -0.9520, -0.8749, -0.7297, -0.8374, -0.8667, -0.7157, -0.9035,
             -0.9219, -0.8801, -0.9298, -0.9009, -0.9604, -1.0537, -1.0781, -1.3766]
 
-task_cls: usr.diffsinger_task.DiffSingerTask
-#vocoder: usr.singingvocoder.highgan.HighGAN
+task_cls: tasks.svs.diffsinger_task.DiffSingerTask
+#vocoder: tasks.svs.singingvocoder.highgan.HighGAN
 #vocoder_ckpt: checkpoints/h_2_model/checkpoint-530000steps.pkl
 vocoder: vocoders.hifigan.HifiGAN
 vocoder_ckpt: checkpoints/0109_hifigan_bigpopcs_hop128

diff --git a/...q/usr/configs/popcs_ds_beta6_offline.yaml → ...egs_bases/svs/popcs_ds_beta6_offline.yaml b/...q/usr/configs/popcs_ds_beta6_offline.yaml → ...egs_bases/svs/popcs_ds_beta6_offline.yaml
@@ -3,7 +3,7 @@ base_config:
 
 fs2_ckpt: checkpoints/popcs_fs2_pmf0_1230/model_ckpt_steps_160000.ckpt  # to be infer
 num_valid_plots: 0
-task_cls: usr.diffsinger_task.DiffSingerOfflineTask
+task_cls: tasks.svs.diffsinger_task.DiffSingerOfflineTask
 
 # tmp:
 #pe_enable: true

diff --git a/NeuralSeq/usr/configs/popcs_fs2.yaml → NeuralSeq/egs/egs_bases/svs/popcs_fs2.yaml b/NeuralSeq/usr/configs/popcs_fs2.yaml → NeuralSeq/egs/egs_bases/svs/popcs_fs2.yaml
@@ -26,7 +26,7 @@ test_prefixes: [
 ]
 
 task_cls: tasks.tts.fs2.FastSpeech2Task
-#vocoder: usr.singingvocoder.highgan.HighGAN
+#vocoder: tasks.svs.singingvocoder.highgan.HighGAN
 #vocoder_ckpt: checkpoints/h_2_model/checkpoint-530000steps.pkl
 vocoder: vocoders.hifigan.HifiGAN
 vocoder_ckpt: checkpoints/0109_hifigan_bigpopcs_hop128

diff --git a/NeuralSeq/inference/svs/ds_cascade.py b/NeuralSeq/inference/svs/ds_cascade.py
@@ -2,8 +2,8 @@
 from inference.svs.base_svs_infer import BaseSVSInfer
 from utils import load_ckpt
 from utils.hparams import hparams
-from usr.diff.shallow_diffusion_tts import GaussianDiffusion
-from usr.diffsinger_task import DIFF_DECODERS
+from modulesmodules.diff.shallow_diffusion_tts import GaussianDiffusion
+from tasks.svs.diffsinger_task import DIFF_DECODERS
 
 class DiffSingerCascadeInfer(BaseSVSInfer):
     def build_model(self):
@@ -51,4 +51,4 @@ def forward_model(self, inp):
     }  # input like Opencpop dataset.
     DiffSingerCascadeInfer.example_run(inp)
 
-# # CUDA_VISIBLE_DEVICES=1 python inference/svs/ds_cascade.py --config usr/configs/midi/cascade/opencs/ds60_rel.yaml --exp_name 0303_opencpop_ds58_midi
+# # CUDA_VISIBLE_DEVICES=1 python inference/svs/ds_cascade.py --config egs/egs_bases/svs/midi/cascade/opencs/ds60_rel.yaml --exp_name 0303_opencpop_ds58_midi
diff --git a/NeuralSeq/inference/svs/ds_e2e.py b/NeuralSeq/inference/svs/ds_e2e.py
@@ -4,8 +4,8 @@
 from inference.svs.base_svs_infer import BaseSVSInfer
 from utils import load_ckpt
 from utils.hparams import hparams
-from usr.diff.shallow_diffusion_tts import GaussianDiffusion
-from usr.diffsinger_task import DIFF_DECODERS
+from modulesmodules.diff.shallow_diffusion_tts import GaussianDiffusion
+from tasks.svs.diffsinger_task import DIFF_DECODERS
 from modules.fastspeech.pe import PitchExtractor
 import utils
 
@@ -64,4 +64,4 @@ def forward_model(self, inp):
     DiffSingerE2EInfer.example_run(inp)
 
 
-# CUDA_VISIBLE_DEVICES=3 python inference/svs/ds_e2e.py --config usr/configs/midi/e2e/opencpop/ds100_adj_rel.yaml --exp_name 0228_opencpop_ds100_rel
+# CUDA_VISIBLE_DEVICES=3 python inference/svs/ds_e2e.py --config egs/egs_bases/svs/midi/e2e/opencpop/ds100_adj_rel.yaml --exp_name 0228_opencpop_ds100_rel
diff --git a/NeuralSeq/inference/svs/gradio/gradio_settings.yaml b/NeuralSeq/inference/svs/gradio/gradio_settings.yaml
diff --git a/NeuralSeq/inference/svs/gradio/infer.py b/NeuralSeq/inference/svs/gradio/infer.py
diff --git a/NeuralSeq/inference/tts/GenerSpeech.py b/NeuralSeq/inference/tts/GenerSpeech.py
@@ -1,12 +1,15 @@
 import torch
+import os
+import importlib
 from inference.tts.base_tts_infer import BaseTTSInfer
 from utils.ckpt_utils import load_ckpt, get_last_checkpoint
 from modules.GenerSpeech.model.generspeech import GenerSpeech
-import os
 from data_gen.tts.emotion import inference as EmotionEncoder
 from data_gen.tts.emotion.inference import embed_utterance as Embed_utterance
 from data_gen.tts.emotion.inference import preprocess_wav
-
+from data_gen.tts.data_gen_utils import is_sil_phoneme
+from resemblyzer import VoiceEncoder
+from utils import audio
 class GenerSpeechInfer(BaseTTSInfer):
     def build_model(self):
         model = GenerSpeech(self.ph_encoder)

diff --git a/NeuralSeq/inference/tts/SyntaSpeech.py → NeuralSeq/inference/tts/PortaSpeech.py b/NeuralSeq/inference/tts/SyntaSpeech.py → NeuralSeq/inference/tts/PortaSpeech.py
diff --git a/NeuralSeq/inference/tts/base_tts_infer.py b/NeuralSeq/inference/tts/base_tts_infer.py
@@ -1,6 +1,3 @@
-from data_gen.tts.data_gen_utils import is_sil_phoneme
-from resemblyzer import VoiceEncoder
-from data_gen.tts.data_gen_utils import build_phone_encoder, build_word_encoder
 from tasks.tts.dataset_utils import FastSpeechWordDataset
 from tasks.tts.tts_utils import load_data_preprocessor
 from vocoders.hifigan import HifiGanGenerator

diff --git a/NeuralSeq/inference/tts/gradio/gradio_settings.yaml b/NeuralSeq/inference/tts/gradio/gradio_settings.yaml