Spaces:

Viole11
/

VideoDubbingAI-v2

Running

App Files Files Community

Viole11 commited on Apr 19

Commit

a7b6452

verified ·

1 Parent(s): 9e1e4cd

Upload 2 files

Browse files

Files changed (2) hide show

app.py +82 -0
requirements.txt +4 -0

app.py ADDED Viewed

	@@ -0,0 +1,82 @@

+import gradio as gr
+from TTS.api import TTS
+import os
+def process_audio(audio, language, custom_text):
+    try:
+        if not custom_text:
+            return "Ошибка: Пожалуйста, введите текст для синтеза."
+        if not audio:
+            return "Ошибка: Пожалуйста, загрузите аудиофайл."
+        # 1. Проверка входного аудио
+        print("Проверка аудиофайла...")
+        audio_path = audio
+        if not os.path.exists(audio_path):
+            return "Ошибка: Аудиофайл не найден."
+        # 2. Синтез речи с клонированием голоса
+        print("Синтез речи с клонированием голоса...")
+        lang_map = {
+            "Inglês": "en", "Espanhol": "es", "Francês": "fr", "Alemão": "de",
+            "Italiano": "it", "Português": "pt", "Polonês": "pl", "Turco": "tr",
+            "Russo": "ru", "Holandês": "nl", "Tcheco": "cs", "Árabe": "ar",
+            "Chinês (Simplificado)": "zh-cn", "Japonês": "ja", "Húngaro": "hu",
+            "Coreano": "ko", "Hindi": "hi"
+        }
+        target_lang = lang_map.get(language, "ru")
+        try:
+            tts = TTS(
+                model_name="tts_models/multilingual/multi-dataset/xtts_v2",
+                progress_bar=True,
+                gpu=False
+            )
+        except Exception as e:
+            print(f"Ошибка загрузки модели XTTS-v2: {e}")
+            return f"Ошибка: Не удалось загрузить модель TTS. Детали: {str(e)}"
+        output_audio = "cloned_audio.wav"
+        try:
+            tts.tts_to_file(
+                text=custom_text,
+                speaker_wav=audio_path,
+                language=target_lang,
+                file_path=output_audio
+            )
+        except Exception as e:
+            print(f"Ошибка синтеза речи: {e}")
+            return f"Ошибка: Не удалось синтезировать речь. Детали: {str(e)}"
+        # Проверка результата
+        if os.path.exists(output_audio):
+            return output_audio
+        else:
+            return "Ошибка: Выходной файл не создан."
+    except Exception as e:
+        print(f"Общая ошибка: {e}")
+        return str(e)
+# Gradio интерфейс
+audio = gr.Audio(label="Загрузите аудиофайл", type="filepath")
+dropdown = gr.Dropdown(choices=["Inglês", "Espanhol", "Francês", "Alemão", "Italiano", "Português", "Polonês", "Turco", "Russo", "Holandês", "Tcheco", "Árabe", "Chinês (Simplificado)", "Japonês", "Húngaro", "Coreano", "Hindi"], label="Idioma de Destino для синтеза", value="Russo")
+custom_text_input = gr.Textbox(label="Введите текст для синтеза (обязательно)", placeholder="Например: Привет, это тестовое аудио!")
+iface = gr.Interface(
+    fn=process_audio,
+    inputs=[audio, dropdown, custom_text_input],
+    outputs=gr.Audio(label="Синтезированное аудио"),
+    title="Синтез аудио с клонированием голоса",
+    description="Загрузите аудиофайл и введите текст для синтеза с клонированием голоса с использованием XTTS-v2."
+)
+with gr.Blocks() as demo:
+    iface.render()
+    gr.Markdown("""
+    **Примечания:**
+    - Загружайте аудиофайлы (.wav или .mp3) длительностью 3–10 секунд для лучшего качества.
+    - Обработка на CPU может занять 1–3 минуты.
+    - Используется Coqui TTS (XTTS-v2, поддерживает 17 языков, включая русский).
+    """)
+demo.launch(debug=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+coqui-tts==0.25.0
+gradio>=4.44.1
+numpy>=1.25.2,<2.0
+torch>=2.0.0