MMS-transcription

Runtime error

App Files Files Community

raphaelmerx commited on Jun 27, 2023

Commit

d690b2a

1 Parent(s): 37d60b5

Transcribe in chunks

Browse files

Avoid OOM on large audio files

Files changed (1) hide show

app.py +28 -16

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 from transformers import Wav2Vec2ForCTC, AutoProcessor
 import torch
 import librosa
 import json
@@ -24,20 +25,30 @@ def transcribe(audio_file_mic=None, audio_file_upload=None, language="English (e
     # Make sure audio is 16kHz
     speech, sample_rate = librosa.load(audio_file)
     if sample_rate != 16000:
         speech = librosa.resample(speech, orig_sr=sample_rate, target_sr=16000)
-    # Keep the same model in memory and simply switch out the language adapters by calling load_adapter() for the model and set_target_lang() for the tokenizer
     language_code = iso_codes[language]
     processor.tokenizer.set_target_lang(language_code)
     model.load_adapter(language_code)
-    inputs = processor(speech, sampling_rate=16_000, return_tensors="pt")
-    with torch.no_grad():
-        outputs = model(**inputs).logits
-    ids = torch.argmax(outputs, dim=-1)[0]
-    transcription = processor.decode(ids)
     return transcription
 examples = [
@@ -50,14 +61,15 @@ examples = [
 description = '''Automatic Speech Recognition with [MMS](https://ai.facebook.com/blog/multilingual-model-speech-recognition/) (Massively Multilingual Speech) by Meta.
 Supports [1162 languages](https://dl.fbaipublicfiles.com/mms/misc/language_coverage_mms.html). Read the paper for more details: [Scaling Speech Technology to 1,000+ Languages](https://arxiv.org/abs/2305.13516).'''
-iface = gr.Interface(fn=transcribe,
-                     inputs=[
-                         gr.Audio(source="microphone", type="filepath", label="Record Audio"),
-                         gr.Audio(source="upload", type="filepath", label="Upload Audio"),
-                         gr.Dropdown(choices=languages, label="Language", value="English (eng)")
-                         ],
-                     outputs=gr.Textbox(label="Transcription"),
-                     examples=examples,
-                     description=description
-                     )
 iface.launch()

 import gradio as gr
 from transformers import Wav2Vec2ForCTC, AutoProcessor
 import torch
+import numpy as np
 import librosa
 import json
     # Make sure audio is 16kHz
     speech, sample_rate = librosa.load(audio_file)
     if sample_rate != 16000:
+        print('resampling')
         speech = librosa.resample(speech, orig_sr=sample_rate, target_sr=16000)
+    # Cut speech into chunks
+    chunk_size = 30 * 16000  # 30s * 16000Hz
+    chunks = np.split(speech, np.arange(chunk_size, len(speech), chunk_size))
+    # load model adapter for this language
     language_code = iso_codes[language]
     processor.tokenizer.set_target_lang(language_code)
     model.load_adapter(language_code)
+    transcriptions = []
+    for chunk in chunks:
+        inputs = processor(chunk, sampling_rate=16_000, return_tensors="pt")
+        with torch.no_grad():
+            outputs = model(**inputs).logits
+        ids = torch.argmax(outputs, dim=-1)[0]
+        transcription = processor.decode(ids)
+        transcriptions.append(transcription)
+    transcription = ' '.join(transcriptions)
     return transcription
 examples = [
 description = '''Automatic Speech Recognition with [MMS](https://ai.facebook.com/blog/multilingual-model-speech-recognition/) (Massively Multilingual Speech) by Meta.
 Supports [1162 languages](https://dl.fbaipublicfiles.com/mms/misc/language_coverage_mms.html). Read the paper for more details: [Scaling Speech Technology to 1,000+ Languages](https://arxiv.org/abs/2305.13516).'''
+iface = gr.Interface(
+    fn=transcribe,
+    inputs=[
+        gr.Audio(source="microphone", type="filepath", label="Record Audio"),
+        gr.Audio(source="upload", type="filepath", label="Upload Audio"),
+        gr.Dropdown(choices=languages, label="Language", value="English (eng)")
+    ],
+    outputs=gr.Textbox(label="Transcription"),
+    examples=examples,
+    description=description
+)
 iface.launch()