Spaces:

vankienemk
/

Voice-regconizer

Running

App Files Files Community

vankienemk commited on 24 days ago

Commit

901f41e

verified ·

1 Parent(s): 42c8dff

Update app.py

Browse files

Clean app using pipeline only

Files changed (1) hide show

app.py +13 -35

app.py CHANGED Viewed

@@ -1,45 +1,23 @@
 import gradio as gr
 from transformers import pipeline
-# Load mô hình nhận diện giọng nói (ASR)
 asr = pipeline("automatic-speech-recognition", model="openai/whisper-base")
-# Load mô hình ngôn ngữ (tùy chọn)
-llm = pipeline("text-generation", model="mrm8488/t5-base-finetuned-question-generation-ap", max_new_tokens=100)
-# Xử lý âm thanh: Nhận dạng giọng nói
 def transcribe(audio_file):
     if audio_file is None:
-        return "Không có file âm thanh."
     result = asr(audio_file)
-    text = result["text"]
-    return text
-# Gửi văn bản vào LLM (nếu muốn)
-def ask_llm(text):
-    if not text:
-        return "Chưa có văn bản đầu vào"
-    response = llm(text)
-    return response[0]["generated_text"]
-# Gradio UI
-with gr.Blocks() as demo:
-    gr.Markdown("# Voice Assistant Demo")
-    gr.Markdown("### Gửi file âm thanh để nhận diện giọng nói bằng Whisper")
-    with gr.Row():
-        audio_input = gr.Audio(label="Chọn file âm thanh", type="filepath")
-        btn_transcribe = gr.Button("Nhận diện giọng nói")
-    transcript_output = gr.Textbox(label="Kết quả nhận diện")
-    btn_transcribe.click(fn=transcribe, inputs=audio_input, outputs=transcript_output)
-    gr.Markdown("### Gửi văn bản vào mô hình LLM")
-    llm_input = gr.Textbox(label="Văn bản đầu vào")
-    btn_llm = gr.Button("Gửi vào LLM")
-    llm_output = gr.Textbox(label="Kết quả LLM")
-    btn_llm.click(fn=ask_llm, inputs=llm_input, outputs=llm_output)
 demo.launch()

 import gradio as gr
 from transformers import pipeline
+# Tạo pipeline nhận diện giọng nói
 asr = pipeline("automatic-speech-recognition", model="openai/whisper-base")
+# Hàm xử lý âm thanh
 def transcribe(audio_file):
     if audio_file is None:
+        return "Chưa có file âm thanh."
     result = asr(audio_file)
+    return result["text"]
+# Tạo giao diện
+demo = gr.Interface(
+    fn=transcribe,
+    inputs=gr.Audio(source="upload", type="filepath", label="Tải lên file âm thanh (.wav, .mp3...)"),
+    outputs=gr.Textbox(label="Kết quả chuyển văn bản"),
+    title="Nhận diện giọng nói bằng Whisper",
+    description="Tải file âm thanh và hệ thống sẽ nhận diện nội dung giọng nói bằng mô hình Whisper của OpenAI."
+)
 demo.launch()