Spaces:

Pontonkid
/

Audio-transcriptions

Sleeping

App Files Files Community

Pontonkid commited on Apr 2

Commit

f16a2a2

verified ·

1 Parent(s): ae8b5ff

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -46

app.py CHANGED Viewed

@@ -3,71 +3,71 @@ import torch
 from faster_whisper import WhisperModel
 import pandas as pd
-# Define model size
 model_size = "large-v2"
-def get_device():
-    return "cuda:0" if torch.cuda.is_available() else "cpu"
-# Initialize model based on available hardware
-device = get_device()
 if device == "cuda:0":
     model_whisper = WhisperModel(model_size, device="cuda", compute_type="float16")
 else:
     model_whisper = WhisperModel(model_size, device="cpu", compute_type="int8")
 def get_filename(file_obj):
     return file_obj.name.split("/")[-1]
 def audio_to_transcript(file_obj):
-    """Converts uploaded audio to a transcript with timestamps."""
-    if not file_obj:
-        return "No file uploaded.", None, None
-    filename = get_filename(file_obj)
     try:
         segments, _ = model_whisper.transcribe(file_obj.name, beam_size=5, vad_filter=True)
     except:
-        return "Error processing file.", None, None
-    start_segments, end_segments, text_segments = [], [], []
     for segment in segments:
-        start_segments.append(segment.start)
-        end_segments.append(segment.end)
-        text_segments.append(segment.text)
-    df = pd.DataFrame({"Start Time": start_segments, "End Time": end_segments, "Text": text_segments})
-    csv_file = filename.replace(".wav", "").replace(".mp3", "") + "_transcript.csv"
     df.to_csv(csv_file, encoding="utf-8", index=False)
-    return filename, csv_file, df
-# Gradio UI
-definition = """
-## 🎙️ Audio Transcription App
-This app allows you to upload an audio file and get an accurate transcript with timestamps.
-It uses **Faster-Whisper**, a fast and efficient ASR model, to generate transcriptions.
-Simply upload your file, and the app will process and return a CSV transcript.
-"""
-with gr.Blocks(theme="soft") as iface:
-    gr.Markdown(definition)
-    with gr.Row():
-        audio_input = gr.File(label="Upload an Audio File", type="file")
-        file_preview = gr.Textbox(label="Uploaded File Name", interactive=False)
-    transcribe_btn = gr.Button("Transcribe 🎧")
-    progress = gr.Markdown("_Processing... Please wait._", visible=False)
-    with gr.Row():
-        csv_output = gr.File(label="Download Transcript (CSV)", visible=False)
-        transcript_df = gr.DataFrame(headers=["Start Time", "End Time", "Text"], label="Transcript Preview")
-    def update_file_name(file):
-        return file.name if file else "No file uploaded."
-    audio_input.change(update_file_name, inputs=[audio_input], outputs=[file_preview])
-    transcribe_btn.click(audio_to_transcript, inputs=[audio_input], outputs=[file_preview, csv_output, transcript_df], show_progress=True)
 iface.launch(debug=True)

 from faster_whisper import WhisperModel
 import pandas as pd
+# Model size selection
 model_size = "large-v2"
+# Get device
+device = "cuda:0" if torch.cuda.is_available() else "cpu"
+# Initialize model based on device
 if device == "cuda:0":
+    # Run on GPU with FP16
     model_whisper = WhisperModel(model_size, device="cuda", compute_type="float16")
 else:
+    # Run on CPU with INT8
     model_whisper = WhisperModel(model_size, device="cpu", compute_type="int8")
+# Function to get filename from file object
 def get_filename(file_obj):
     return file_obj.name.split("/")[-1]
+# Function to transcribe audio to text
 def audio_to_transcript(file_obj):
     try:
+        filename = get_filename(file_obj)
         segments, _ = model_whisper.transcribe(file_obj.name, beam_size=5, vad_filter=True)
     except:
+        filename = file_obj.split("/")[-1]
+        segments, _ = model_whisper.transcribe(file_obj, beam_size=5, vad_filter=True)
+    # Initialize lists to store transcription data
+    start_segments, end_segments, text_segments = list(), list(), list()
+    # Process each segment for start time, end time, and text
     for segment in segments:
+        start, end, text = segment.start, segment.end, segment.text
+        start_segments.append(start)
+        end_segments.append(end)
+        text_segments.append(text)
+    # Save transcript to CSV
+    df = pd.DataFrame()
+    df["start"] = start_segments
+    df["end"] = end_segments
+    df["text"] = text_segments
+    # Define output CSV file
+    csv_file = filename.split(".")[0] + ".csv"
     df.to_csv(csv_file, encoding="utf-8", index=False)
+    path_to_csv = gr.File.update(value=csv_file, visible=True)
+    return filename, path_to_csv, df
+## Gradio Interface Setup
+headers = ["start", "end", "text"]
+iface = gr.Interface(
+    fn=audio_to_transcript,
+    inputs=gr.File(label="Upload an Audio File", type="filepath"),
+    outputs=[
+        gr.Textbox(label="Audio file name"),
+        gr.File(label="Transcript CSV file"),
+        gr.DataFrame(label="Transcript", headers=headers),
+    ],
+    allow_flagging="never",
+    title="Audio to Transcript",
+    description="Upload an audio file, and this tool will return a transcript with time-stamped segments.",
+    theme="compact",  # Enhanced UI theme for simplicity
+)
 iface.launch(debug=True)