Spaces:

Difficult-Burger
/

vevo-test

Build error

App Files Files Community

积极的屁孩 commited on Apr 10

Commit

ced52e3

1 Parent(s): b3c35e4

debug

Browse files

Files changed (2) hide show

README.md +33 -0
app.py +14 -47

README.md CHANGED Viewed

@@ -11,3 +11,36 @@ license: apache-2.0
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
+# Vevo语音转换模型演示
+这是基于[amphion/Vevo](https://huggingface.co/amphion/Vevo)模型的Gradio演示应用。Vevo是一个强大的语音转换模型，支持多种语音处理功能。
+## 功能
+- **语音转换 (VevoVoice)**: 将内容音频的内容转换为参考音频的风格和音色
+- **风格转换 (VevoStyle)**: 将内容音频的风格转换为参考音频的风格，保留原始音色
+- **音色转换 (VevoTimbre)**: 将内容音频的音色转换为参考音频的音色，保留内容和风格
+- **文本转语音 (VevoTTS)**: 将输入文本转换为语音，使用参考音频的风格和音色
+## 安装
+```bash
+pip install -r requirements.txt
+```
+## 运行
+```bash
+python app.py
+```
+## 模型来源
+- 模型：[amphion/Vevo](https://huggingface.co/amphion/Vevo)
+- 原始仓库：[open-mmlab/Amphion](https://github.com/open-mmlab/Amphion)
+## 注意事项
+- 首次运行时，会自动下载模型文件，可能需要一些时间
+- 音频输入应为WAV格式，采样率为24kHz

app.py CHANGED Viewed

@@ -334,24 +334,15 @@ class VevoGradioApp:
         """语音转换功能"""
         pipeline = self.init_voice_conversion_pipeline()
-        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as content_file, \
-             tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as reference_file, \
-             tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as output_file:
-            content_path = content_file.name
-            reference_path = reference_file.name
             output_path = output_file.name
-            # 保存上传的音频文件
-            content_audio.save(content_path)
-            reference_audio.save(reference_path)
             # 执行语音转换
             gen_audio = pipeline.inference_ar_and_fm(
-                src_wav_path=content_path,
                 src_text=None,
-                style_ref_wav_path=reference_path,
-                timbre_ref_wav_path=reference_path,
             )
             save_audio(gen_audio, output_path=output_path)
@@ -361,24 +352,15 @@ class VevoGradioApp:
         """风格转换功能"""
         pipeline = self.init_voice_conversion_pipeline()
-        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as content_file, \
-             tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as style_file, \
-             tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as output_file:
-            content_path = content_file.name
-            style_path = style_file.name
             output_path = output_file.name
-            # 保存上传的音频文件
-            content_audio.save(content_path)
-            style_audio.save(style_path)
             # 执行风格转换
             gen_audio = pipeline.inference_ar_and_fm(
-                src_wav_path=content_path,
                 src_text=None,
-                style_ref_wav_path=style_path,
-                timbre_ref_wav_path=content_path,
             )
             save_audio(gen_audio, output_path=output_path)
@@ -388,22 +370,13 @@ class VevoGradioApp:
         """音色转换功能"""
         pipeline = self.init_timbre_pipeline()
-        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as content_file, \
-             tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as reference_file, \
-             tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as output_file:
-            content_path = content_file.name
-            reference_path = reference_file.name
             output_path = output_file.name
-            # 保存上传的音频文件
-            content_audio.save(content_path)
-            reference_audio.save(reference_path)
             # 执行音色转换
             gen_audio = pipeline.inference_fm(
-                src_wav_path=content_path,
-                timbre_ref_wav_path=reference_path,
                 flow_matching_steps=32,
             )
             save_audio(gen_audio, output_path=output_path)
@@ -414,21 +387,15 @@ class VevoGradioApp:
         """文本转语音功能"""
         pipeline = self.init_tts_pipeline()
-        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as ref_file, \
-             tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as output_file:
-            ref_path = ref_file.name
             output_path = output_file.name
-            # 保存上传的音频文件
-            ref_audio.save(ref_path)
             # 执行文本转语音
             gen_audio = pipeline.inference_ar_and_fm(
                 src_wav_path=None,
                 src_text=text,
-                style_ref_wav_path=ref_path,
-                timbre_ref_wav_path=ref_path,
                 style_ref_wav_text=ref_text if ref_text else None,
                 src_text_language=src_language,
                 style_ref_wav_text_language=ref_language,

         """语音转换功能"""
         pipeline = self.init_voice_conversion_pipeline()
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as output_file:
             output_path = output_file.name
             # 执行语音转换
             gen_audio = pipeline.inference_ar_and_fm(
+                src_wav_path=content_audio,  # 直接使用路径
                 src_text=None,
+                style_ref_wav_path=reference_audio,  # 直接使用路径
+                timbre_ref_wav_path=reference_audio,
             )
             save_audio(gen_audio, output_path=output_path)
         """风格转换功能"""
         pipeline = self.init_voice_conversion_pipeline()
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as output_file:
             output_path = output_file.name
             # 执行风格转换
             gen_audio = pipeline.inference_ar_and_fm(
+                src_wav_path=content_audio,  # 直接使用路径
                 src_text=None,
+                style_ref_wav_path=style_audio,  # 直接使用路径
+                timbre_ref_wav_path=content_audio,
             )
             save_audio(gen_audio, output_path=output_path)
         """音色转换功能"""
         pipeline = self.init_timbre_pipeline()
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as output_file:
             output_path = output_file.name
             # 执行音色转换
             gen_audio = pipeline.inference_fm(
+                src_wav_path=content_audio,  # 直接使用路径
+                timbre_ref_wav_path=reference_audio,  # 直接使用路径
                 flow_matching_steps=32,
             )
             save_audio(gen_audio, output_path=output_path)
         """文本转语音功能"""
         pipeline = self.init_tts_pipeline()
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as output_file:
             output_path = output_file.name
             # 执行文本转语音
             gen_audio = pipeline.inference_ar_and_fm(
                 src_wav_path=None,
                 src_text=text,
+                style_ref_wav_path=ref_audio,  # 直接使用路径
+                timbre_ref_wav_path=ref_audio,
                 style_ref_wav_text=ref_text if ref_text else None,
                 src_text_language=src_language,
                 style_ref_wav_text_language=ref_language,