Spaces:

Athspi-ai
/

Audio-translation

Running

App Files Files Community

Athspi commited on Feb 23

Commit

dbe8a71

verified ·

1 Parent(s): 1258dc7

Create app.py

Browse files

Files changed (1) hide show

app.py +107 -0

app.py ADDED Viewed

	@@ -0,0 +1,107 @@

+import os
+import gradio as gr
+from faster_whisper import WhisperModel
+import google.generativeai as genai
+from gtts import gTTS, lang
+import tempfile
+# Configure Gemini API (replace with your API key or use environment variable)
+GEMINI_API_KEY = os.getenv("GEMINI_API_KEY", "YOUR_GEMINI_API_KEY_HERE")
+genai.configure(api_key=GEMINI_API_KEY)
+# Initialize the faster-whisper model
+model_size = "Systran/faster-whisper-large-v3"
+whisper_model = WhisperModel(model_size, device="auto", compute_type="float16")
+# Function to transcribe audio using faster-whisper
+def transcribe_audio(audio_file):
+    try:
+        segments, info = whisper_model.transcribe(audio_file, beam_size=5)
+        transcription = " ".join([segment.text for segment in segments])
+        detected_language = info.language
+        return transcription, detected_language, None
+    except Exception as e:
+        return None, None, f"Transcription error: {str(e)}"
+# Function to translate text using Gemini API with a magic prompt
+def translate_text(text, target_language):
+    try:
+        model = genai.GenerativeModel("gemini-1.5-flash")
+        # Magic prompt to ensure only translated text is returned
+        prompt = f"Translate the following text to {target_language} and return only the translated text with no additional explanation or commentary:\n\n{text}"
+        response = model.generate_content(prompt)
+        translated_text = response.text.strip()
+        return translated_text, None
+    except Exception as e:
+        return None, f"Translation error: {str(e)}"
+# Function to convert text to speech using gTTS with full language support
+def text_to_speech(text, language):
+    try:
+        # Get all supported languages from gTTS
+        lang_map = lang.tts_langs()
+        # Use the language code directly if supported, otherwise default to 'en'
+        tts_lang = language.lower() if language.lower() in lang_map else "en"
+        tts = gTTS(text=text, lang=tts_lang, slow=False)
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as fp:
+            tts.save(fp.name)
+            return fp.name, None
+    except Exception as e:
+        return None, f"TTS error: {str(e)}"
+# Main function to process audio input and return outputs
+def process_audio(audio_file, target_language):
+    # Step 1: Transcribe audio
+    transcription, detected_language, error = transcribe_audio(audio_file)
+    if error:
+        return error, None, None, None
+    # Step 2: Translate transcription
+    translated_text, error = translate_text(transcription, target_language)
+    if error:
+        return error, transcription, None, None
+    # Step 3: Convert translated text to speech
+    # Map target language name to gTTS language code
+    lang_map = lang.tts_langs()
+    # Convert target_language to lowercase keys as in lang_map
+    lang_key = next((k for k, v in lang_map.items() if v.lower() == target_language.lower()), "en")
+    audio_output, error = text_to_speech(translated_text, lang_key)
+    if error:
+        return error, transcription, translated_text, None
+    return None, transcription, translated_text, audio_output
+# Gradio interface
+with gr.Blocks(title="AI Audio Translator") as demo:
+    gr.Markdown("# AI Audio Translator")
+    gr.Markdown("Upload an audio file, select a target language, and get the transcription, translation, and translated audio!")
+    # Get all supported languages from gTTS
+    supported_langs = {v: k for k, v in lang.tts_langs().items()}  # {name: code}
+    language_choices = list(supported_langs.keys())  # List of language names
+    with gr.Row():
+        audio_input = gr.Audio(sources=["upload", "microphone"], type="filepath", label="Input Audio")
+        target_lang = gr.Dropdown(
+            choices=sorted(language_choices),
+            value="Spanish",
+            label="Target Language"
+        )
+    submit_btn = gr.Button("Translate")
+    with gr.Row():
+        error_output = gr.Textbox(label="Error", visible=True)
+        transcription_output = gr.Textbox(label="Transcription")
+        translation_output = gr.Textbox(label="Translated Text")
+        audio_output = gr.Audio(label="Translated Audio")
+    submit_btn.click(
+        fn=process_audio,
+        inputs=[audio_input, target_lang],
+        outputs=[error_output, transcription_output, translation_output, audio_output]
+    )
+# Launch the app
+demo.launch()