Spaces:

GavinHuang
/

asr-demo

Running on Zero

App Files Files Community

GavinHuang commited on 6 days ago

Commit

f374409

1 Parent(s): 2b5f9bc

fix: improve audio processing in transcribe function with longer chunk duration and normalization

Browse files

Files changed (1) hide show

app.py +24 -23

app.py CHANGED Viewed

@@ -54,7 +54,6 @@ def transcribe(audio, model_name="nvidia/parakeet-tdt-0.6b-v2", state="", audio_
         return state, state, audio_buffer, last_processed_time
     print(f"Received audio input of type: {type(audio)}")
     if isinstance(audio, tuple) and len(audio) == 2 and isinstance(audio[1], np.ndarray):
         sample_rate, audio_data = audio
         print(f"Sample rate: {sample_rate}, Audio shape: {audio_data.shape}")
@@ -67,15 +66,16 @@ def transcribe(audio, model_name="nvidia/parakeet-tdt-0.6b-v2", state="", audio_
         total_duration = total_samples / sample_rate
         print(f"Total buffered duration: {total_duration:.2f}s")
-        # Process 3-second chunks with 1-second step size (2-second overlap)
-        chunk_duration = 3.0  # seconds
-        step_size = 1.0      # seconds
-        min_samples = int(chunk_duration * 16000)  # 3s at 16kHz
         if total_duration < chunk_duration:
             print(f"Buffering audio, total duration: {total_duration:.2f}s")
             return state, state, audio_buffer, last_processed_time
         try:
             # Concatenate buffered chunks
             full_audio = np.concatenate(audio_buffer)
@@ -88,7 +88,12 @@ def transcribe(audio, model_name="nvidia/parakeet-tdt-0.6b-v2", state="", audio_
             else:
                 full_audio = full_audio.astype(float)
-            # Process 3-second chunks
             new_state = state
             current_time = last_processed_time
             total_samples_16k = len(full_audio)
@@ -107,6 +112,7 @@ def transcribe(audio, model_name="nvidia/parakeet-tdt-0.6b-v2", state="", audio_
                 sf.write(temp_file, chunk, samplerate=16000)
                 # Transcribe
                 hypothesis = model.transcribe([temp_file])[0]
                 transcription = hypothesis.text
                 print(f"Transcription: {transcription}")
@@ -181,10 +187,14 @@ with gr.Blocks(title="Real-time Speech-to-Text with NeMo") as demo:
                 label="Select ASR Model"
             )
         with gr.Column(scale=1):
-            load_button = gr.Button("Load Selected Model")
     # Status indicator for model loading
-    model_status = gr.Textbox(value=f"Current model: {current_model_name}", label="Model Status")
     # Create tabs for real-time and file-based transcription
     with gr.Tabs():
@@ -199,7 +209,7 @@ with gr.Blocks(title="Real-time Speech-to-Text with NeMo") as demo:
                         label="Speak into your microphone"
                     )
-                    clear_btn = gr.Button("Clear Transcript")
                 with gr.Column(scale=3):
                     text_output = gr.Textbox(
@@ -212,7 +222,7 @@ with gr.Blocks(title="Real-time Speech-to-Text with NeMo") as demo:
                         placeholder="Real-time results will appear here...",
                         lines=2
                     )
-          # File-based transcription tab
         with gr.TabItem("File Transcription"):
             with gr.Row():
                 with gr.Column(scale=2):
@@ -258,7 +268,8 @@ with gr.Blocks(title="Real-time Speech-to-Text with NeMo") as demo:
         inputs=[model_dropdown],
         outputs=[model_status, audio_buffer, last_processed_time]
     )
-      # Handle the audio stream for real-time transcription
     audio_input.stream(
         fn=transcribe,
         inputs=[audio_input, model_dropdown, state, audio_buffer, last_processed_time],
@@ -272,16 +283,6 @@ with gr.Blocks(title="Real-time Speech-to-Text with NeMo") as demo:
         outputs=[file_transcription]
     )
-    # Clear the transcription
-    def clear_transcription():
-        return "", "", None, 0
-    clear_btn.click(
-        fn=clear_transcription,
-        inputs=[],
-        outputs=[text_output, streaming_text, audio_buffer, last_processed_time]
-    )
     # Update the main text output when the state changes
     state.change(
         fn=lambda s: s,

         return state, state, audio_buffer, last_processed_time
     print(f"Received audio input of type: {type(audio)}")
     if isinstance(audio, tuple) and len(audio) == 2 and isinstance(audio[1], np.ndarray):
         sample_rate, audio_data = audio
         print(f"Sample rate: {sample_rate}, Audio shape: {audio_data.shape}")
         total_duration = total_samples / sample_rate
         print(f"Total buffered duration: {total_duration:.2f}s")
+        # Process 5-second chunks with 2-second step size (3-second overlap)
+        # Using longer chunks usually helps with transcription accuracy
+        chunk_duration = 5.0  # seconds (increased from 2.0)
+        step_size = 2.0      # seconds (increased from 1.0)
+        # min_samples = int(chunk_duration * 16000)  # 5s at 16kHz
         if total_duration < chunk_duration:
             print(f"Buffering audio, total duration: {total_duration:.2f}s")
             return state, state, audio_buffer, last_processed_time
         try:
             # Concatenate buffered chunks
             full_audio = np.concatenate(audio_buffer)
             else:
                 full_audio = full_audio.astype(float)
+            # Normalize audio (helps with consistent volume levels)
+            if np.abs(full_audio).max() > 0:
+                full_audio = full_audio / np.abs(full_audio).max() * 0.9
+                print("Audio normalized to improve transcription")
+            # Process chunks
             new_state = state
             current_time = last_processed_time
             total_samples_16k = len(full_audio)
                 sf.write(temp_file, chunk, samplerate=16000)
                 # Transcribe
+                print(f"Transcribing chunk of duration {chunk_duration}s...")
                 hypothesis = model.transcribe([temp_file])[0]
                 transcription = hypothesis.text
                 print(f"Transcription: {transcription}")
                 label="Select ASR Model"
             )
         with gr.Column(scale=1):
+            load_button = gr.Button("Load Selected Model", elem_id="load-button", elem_classes=["btn-blue"])
     # Status indicator for model loading
+    model_status = gr.Textbox(
+        value=f"Current model: {current_model_name}",
+        label="Model Status",
+        container=False
+    )
     # Create tabs for real-time and file-based transcription
     with gr.Tabs():
                         label="Speak into your microphone"
                     )
+                    # clear_btn = gr.Button("Clear Transcript")
                 with gr.Column(scale=3):
                     text_output = gr.Textbox(
                         placeholder="Real-time results will appear here...",
                         lines=2
                     )
+        # File-based transcription tab
         with gr.TabItem("File Transcription"):
             with gr.Row():
                 with gr.Column(scale=2):
         inputs=[model_dropdown],
         outputs=[model_status, audio_buffer, last_processed_time]
     )
+    # Handle the audio stream for real-time transcription
+    streaming_text = gr.State(value="")
     audio_input.stream(
         fn=transcribe,
         inputs=[audio_input, model_dropdown, state, audio_buffer, last_processed_time],
         outputs=[file_transcription]
     )
     # Update the main text output when the state changes
     state.change(
         fn=lambda s: s,