Spaces:

dangtr0408
/

StyleTTS2-lite-vi-space

Running on Zero

App Files Files Community

dangtr0408 commited on 23 days ago

Commit

2761ffc

1 Parent(s): a6f6f36

new model

Browse files

Files changed (1) hide show

app.py +8 -17

app.py CHANGED Viewed

@@ -24,8 +24,7 @@ model = StyleTTS2(config_path, models_path).to(device)
 # Core inference function
 def process_inputs(text_prompt, reference_audio_paths,
-                   n_merge, randomness, smooth_dur,
-                   denoise, t_denoise, split_dur):
     speakers = {}
     for i, path in enumerate(reference_audio_paths, 1):
@@ -36,11 +35,7 @@ def process_inputs(text_prompt, reference_audio_paths,
             "speed": 1.1
     }
-    # Synthesize audio
-    r = model.generate(
-        text_prompt, speakers, denoise, t_denoise,
-        split_dur, "[id_1]", n_merge, randomness, smooth_dur
-    )
     r = r / np.abs(r).max()
     sf.write("output.wav", r, samplerate=24000)
@@ -68,12 +63,10 @@ with gr.Blocks(css=custom_css) as demo:
         reference_audios = gr.File(label="Reference Audios", file_types=[".wav", ".mp3", ".flac"], file_count="multiple", elem_id="custom-box")
     # Parameters
     with gr.Accordion("Advanced Settings", open=False):
-        denoise = gr.Checkbox(label="Apply Denoising", value=True)
-        t_denoise = gr.Slider(0.0, 1.0, value=0.3, label="Denoise Strength")
-        n_merge = gr.Slider(1, 30, value=16, label="Min Words to Merge")
-        randomness = gr.Slider(0.0, 1.0, value=0.2, label="Randomness")
-        smooth_dur = gr.Slider(0.0, 1.0, value=0.15, label="Smooth Duration")
-        split_dur = gr.Slider(0, 10, step=1, value=3, label="Split Ref Audio Duration")
     submit_button = gr.Button("Synthesize")
     synthesized_audio = gr.Audio(label="Synthesized Audio", type="filepath")
@@ -84,11 +77,9 @@ with gr.Blocks(css=custom_css) as demo:
             text_prompt,
             reference_audios,
             n_merge,
-            randomness,
-            smooth_dur,
             denoise,
-            t_denoise,
-            split_dur
         ],
         outputs=synthesized_audio
     )

 # Core inference function
 def process_inputs(text_prompt, reference_audio_paths,
+                   n_merge, denoise, avg_style,stabilize):
     speakers = {}
     for i, path in enumerate(reference_audio_paths, 1):
             "speed": 1.1
     }
+    r = model.generate(text_prompt, speakers, avg_style, stabilize, denoise, n_merge, "[id_1]")
     r = r / np.abs(r).max()
     sf.write("output.wav", r, samplerate=24000)
         reference_audios = gr.File(label="Reference Audios", file_types=[".wav", ".mp3", ".flac"], file_count="multiple", elem_id="custom-box")
     # Parameters
     with gr.Accordion("Advanced Settings", open=False):
+        denoise = gr.Slider(0.0, 1.0, value=0.6, label="Denoise Strength")
+        avg_style = gr.Checkbox(label="Use Average Styles", value=True)
+        stabilize = gr.Checkbox(label="Stabilize Speaking Speed", value=True)
+        n_merge = gr.Slider(10, 30, value=16, label="Min Words to Merge")
     submit_button = gr.Button("Synthesize")
     synthesized_audio = gr.Audio(label="Synthesized Audio", type="filepath")
             text_prompt,
             reference_audios,
             n_merge,
             denoise,
+            avg_style,
+            stabilize
         ],
         outputs=synthesized_audio
     )