Spaces:

camanalo1
/

MyAlexa

Sleeping

App Files Files Community

camanalo1 commited on May 1, 2024

Commit

4ae34f2

verified ·

1 Parent(s): 311f586

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -30

app.py CHANGED Viewed

@@ -1,41 +1,34 @@
 import gradio as gr
 from transformers import pipeline, VitsTokenizer, VitsModel, set_seed
 import soundfile as sf
 # Initialize ASR pipeline
-transcriber = pipeline("automatic-speech-recognition", model="facebook/s2t-small-librispeech-asr")
-# Initialize LLM pipeline
-generator = pipeline("text-generation", model="microsoft/Phi-3-mini-4k-instruct", trust_remote_code=True)
-# Initialize TTS tokenizer and model
-tokenizer_tts = VitsTokenizer.from_pretrained("facebook/mms-tts-eng")
-model_tts = VitsModel.from_pretrained("facebook/mms-tts-eng")
 print("TTS Tokenizer:", tokenizer_tts)  # Print the tokenizer for the TTS model
 def transcribe_and_generate_audio(audio):
-    try:
-        # Transcribe audio
-        asr_output = transcriber(audio)["text"]
-        print("ASR Output:", asr_output)
-        # Generate text based on ASR output
-        generated_text = generator(asr_output)[0]['generated_text']
-        print("Generated Text:", generated_text)
-        # Generate audio from text using TTS model
-        inputs = tokenizer_tts(text=generated_text, return_tensors="pt")
-        set_seed(555)
-        with torch.no_grad():
-            outputs = model_tts(**inputs)
-        waveform = outputs.waveform[0]
-        waveform_path = "output.wav"
-        sf.write(waveform_path, waveform.numpy(), 16000, format='wav')
-        return waveform_path, asr_output, generated_text
-    except Exception as e:
-        return f"Error: {str(e)}"
 # Define Gradio interface
 audio_input = gr.Interface(

 import gradio as gr
 from transformers import pipeline, VitsTokenizer, VitsModel, set_seed
+import numpy as np
+import torch
+import io
 import soundfile as sf
 # Initialize ASR pipeline
 print("TTS Tokenizer:", tokenizer_tts)  # Print the tokenizer for the TTS model
 def transcribe_and_generate_audio(audio):
+    sr, y = audio
+    y = y.astype(np.float32)
+    y /= np.max(np.abs(y))
+    # Transcribe audio
+    asr_output = transcriber({"sampling_rate": sr, "raw": y})["text"]
+    # Generate text based on ASR output
+    generated_text = generator(asr_output)[0]['generated_text']
+    # Generate audio from text using TTS model
+    inputs = tokenizer_tts(text=generated_text, return_tensors="pt")
+    set_seed(555)
+    with torch.no_grad():
+        outputs = model_tts(**inputs)
+    waveform = outputs.waveform[0]
+    waveform_path = "output.wav"
+    sf.write(waveform_path, waveform.numpy(), 16000, format='wav')
+    return waveform_path
 # Define Gradio interface
 audio_input = gr.Interface(