Spaces:

Emmanuel08
/

Sp_to_txt_realtime

Sleeping

Emmanuel08 commited on Feb 23

Commit

4c9dfad

verified ·

1 Parent(s): 5f8d86b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,29 +2,22 @@ import gradio as gr
 from transformers import AutoProcessor, AutoModelForCTC
 import torch
 import soundfile as sf
-# Load the FastConformer model and processor
-processor = AutoProcessor.from_pretrained("nvidia/stt_en_fastconformer_hybrid_large_pc")
-model = AutoModelForCTC.from_pretrained("nvidia/stt_en_fastconformer_hybrid_large_pc")
 # Function to transcribe audio
 def transcribe_audio(audio_file):
-    audio_input, sample_rate = sf.read(audio_file)
-    inputs = processor(audio_input, sampling_rate=sample_rate, return_tensors="pt")
-    with torch.no_grad():
-        logits = model(**inputs).logits
-    predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = processor.batch_decode(predicted_ids)[0]
-    return transcription
-# Create a Gradio interface
 iface = gr.Interface(
     fn=transcribe_audio,
     inputs=gr.Audio(type="filepath"),
     outputs="text",
-    title="Real-Time Transcription with FastConformer",
-    description="Upload an audio file to transcribe it using NVIDIA FastConformer."
 )
-# Launch the app
 iface.launch()

 from transformers import AutoProcessor, AutoModelForCTC
 import torch
 import soundfile as sf
+import nemo.collections.asr as nemo_asr
+import gradio as gr
+# Load the model
+model = nemo_asr.models.ASRModel.from_pretrained("nvidia/stt_en_fastconformer_hybrid_large_pc")
 # Function to transcribe audio
 def transcribe_audio(audio_file):
+    transcription = model.transcribe([audio_file])
+    return transcription[0]
+# Gradio interface
 iface = gr.Interface(
     fn=transcribe_audio,
     inputs=gr.Audio(type="filepath"),
     outputs="text",
+    title="Real-Time Transcription with FastConformer"
 )
 iface.launch()