Spaces:

GavinHuang
/

asr-demo

Running on Zero

GavinHuang commited on 8 days ago

Commit

0011522

1 Parent(s): 779d79b

fix: enhance transcription process with audio feedback and temporary file management

Files changed (1) hide show

app.py CHANGED Viewed

@@ -36,13 +36,16 @@ def transcribe(audio, state=""):
             audio_data = audio_data.mean(axis=1) if audio_data.ndim > 1 else audio_data  # To mono
             temp_file = "temp_audio.wav"
             sf.write(temp_file, audio_data, samplerate=16000)
             # Transcribe
             if torch.cuda.is_available():
                 model = model.cuda()
             transcription = model.transcribe([temp_file])[0]
             model = model.cpu()
             os.remove(temp_file)
             # Clear buffer
             audio_buffer = []
@@ -86,7 +89,7 @@ with gr.Blocks(title="Real-time Speech-to-Text with NeMo") as demo:
         inputs=[audio_input, state],
         outputs=[state, streaming_text],
     )
     # Clear the transcription
     def clear_transcription():
         return "", "", ""

             audio_data = audio_data.mean(axis=1) if audio_data.ndim > 1 else audio_data  # To mono
             temp_file = "temp_audio.wav"
             sf.write(temp_file, audio_data, samplerate=16000)
+            print("Transcribing audio...")
             # Transcribe
             if torch.cuda.is_available():
                 model = model.cuda()
             transcription = model.transcribe([temp_file])[0]
+            print(f"Transcription: {transcription}")
             model = model.cpu()
             os.remove(temp_file)
+            print("Temporary file removed.")
             # Clear buffer
             audio_buffer = []
         inputs=[audio_input, state],
         outputs=[state, streaming_text],
     )
     # Clear the transcription
     def clear_transcription():
         return "", "", ""