Spaces:

Difficult-Burger
/

vevo-test

Build error

App Files Files Community

积极的屁孩 commited on Apr 16

Commit

c65b183

1 Parent(s): 92e6065

adjust badges

Browse files

Files changed (1) hide show

app.py +5 -5

app.py CHANGED Viewed

@@ -525,7 +525,7 @@ def vevo_voice(content_wav, style_reference_wav, timbre_reference_wav):
         traceback.print_exc()
         raise e
-def vevo_tts(text, ref_wav, timbre_ref_wav=None, style_ref_text=None, src_language="en", ref_language="en"):
     temp_ref_path = "wav/temp_ref.wav"
     temp_timbre_path = "wav/temp_timbre.wav"
     output_path = "wav/output_vevotts.wav"
@@ -561,7 +561,7 @@ def vevo_tts(text, ref_wav, timbre_ref_wav=None, style_ref_text=None, src_langua
     # 打印debug信息
     print(f"Reference audio shape: {ref_tensor.shape}, sample rate: {ref_sr}")
     if style_ref_text:
-        print(f"Style reference text: {style_ref_text}")
     # 保存上传的音频
     torchaudio.save(temp_ref_path, ref_tensor, ref_sr)
@@ -607,7 +607,7 @@ def vevo_tts(text, ref_wav, timbre_ref_wav=None, style_ref_text=None, src_langua
             timbre_ref_wav_path=temp_timbre_path,
             style_ref_wav_text=style_ref_text,
             src_text_language=src_language,
-            style_ref_wav_text_language=ref_language,
         )
         # 检查生成音频是否为数值异常
@@ -693,15 +693,15 @@ with gr.Blocks(title="Vevo DEMO") as demo:
                 tts_src_language = gr.Dropdown(["en", "zh", "de", "fr", "ja", "ko"], label="Text Language", value="en")
                 tts_reference = gr.Audio(label="Style Reference", type="numpy")
                 tts_style_ref_text = gr.Textbox(label="Style Reference Text", placeholder="Enter style reference text...", lines=3)
                 tts_timbre_reference = gr.Audio(label="Timbre Reference", type="numpy")
-                tts_ref_language = gr.Dropdown(["en", "zh", "de", "fr", "ja", "ko"], label="Reference Audio Language", value="en")
                 tts_button = gr.Button("Generate")
             with gr.Column():
                 tts_output = gr.Audio(label="Result")
         tts_button.click(
             vevo_tts,
-            inputs=[tts_text, tts_reference, tts_timbre_reference, tts_style_ref_text, tts_src_language, tts_ref_language],
             outputs=tts_output
         )

         traceback.print_exc()
         raise e
+def vevo_tts(text, ref_wav, timbre_ref_wav=None, style_ref_text=None, src_language="en", ref_language="en", style_ref_text_language="en"):
     temp_ref_path = "wav/temp_ref.wav"
     temp_timbre_path = "wav/temp_timbre.wav"
     output_path = "wav/output_vevotts.wav"
     # 打印debug信息
     print(f"Reference audio shape: {ref_tensor.shape}, sample rate: {ref_sr}")
     if style_ref_text:
+        print(f"Style reference text: {style_ref_text}, language: {style_ref_text_language}")
     # 保存上传的音频
     torchaudio.save(temp_ref_path, ref_tensor, ref_sr)
             timbre_ref_wav_path=temp_timbre_path,
             style_ref_wav_text=style_ref_text,
             src_text_language=src_language,
+            style_ref_wav_text_language=style_ref_text_language,
         )
         # 检查生成音频是否为数值异常
                 tts_src_language = gr.Dropdown(["en", "zh", "de", "fr", "ja", "ko"], label="Text Language", value="en")
                 tts_reference = gr.Audio(label="Style Reference", type="numpy")
                 tts_style_ref_text = gr.Textbox(label="Style Reference Text", placeholder="Enter style reference text...", lines=3)
+                tts_style_ref_text_language = gr.Dropdown(["en", "zh", "de", "fr", "ja", "ko"], label="Style Reference Text Language", value="en")
                 tts_timbre_reference = gr.Audio(label="Timbre Reference", type="numpy")
                 tts_button = gr.Button("Generate")
             with gr.Column():
                 tts_output = gr.Audio(label="Result")
         tts_button.click(
             vevo_tts,
+            inputs=[tts_text, tts_reference, tts_timbre_reference, tts_style_ref_text, tts_src_language, tts_ref_language, tts_style_ref_text_language],
             outputs=tts_output
         )