Spaces:

101Frost
/

wav2vec2

Running

App Files Files Community

101Frost commited on 4 days ago

Commit

d949c72

verified ·

1 Parent(s): dd8edb5

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -17

app.py CHANGED Viewed

@@ -9,17 +9,31 @@ import editdistance
 from jiwer import wer
 import json
-# Load model once at startup
-model_name = "jonatasgrosman/wav2vec2-large-xlsr-53-arabic"
-processor = Wav2Vec2Processor.from_pretrained(model_name)
-model = Wav2Vec2ForCTC.from_pretrained(model_name)
-epi = epitran.Epitran('ara-Arab')
 def clean_phonemes(ipa):
     """Remove diacritics and length markers from phonemes"""
     return re.sub(r'[\u064B-\u0652\u02D0]', '', ipa)
 def analyze_phonemes(language, reference_text, audio_file):
     # Convert reference text to phonemes
     ref_phonemes = []
     for word in reference_text.split():
@@ -46,6 +60,7 @@ def analyze_phonemes(language, reference_text, audio_file):
     # Prepare results in JSON format
     results = {
         "reference_text": reference_text,
         "transcription": transcription,
         "word_alignment": [],
@@ -110,17 +125,43 @@ def analyze_phonemes(language, reference_text, audio_file):
     return json.dumps(results, indent=2, ensure_ascii=False)
-# Create Gradio interface
-demo = gr.Interface(
-    fn=analyze_phonemes,
-    inputs=[
-        gr.Dropdown(["Arabic"], label="Language", value="Arabic"),
-        gr.Textbox(label="Reference Text", value="فَبِأَيِّ آلَاءِ رَبِّكُمَا تُكَذِّبَانِ"),
-        gr.File(label="Upload Audio File", type="file")
-    ],
-    outputs=gr.JSON(label="Phoneme Alignment Results"),
-    title="Arabic Phoneme Alignment Analysis",
-    description="Compare audio pronunciation with reference text at phoneme level"
-)
 demo.launch()

 from jiwer import wer
 import json
+# Load both models at startup
+MODELS = {
+    "Arabic": {
+        "processor": Wav2Vec2Processor.from_pretrained("jonatasgrosman/wav2vec2-large-xlsr-53-arabic"),
+        "model": Wav2Vec2ForCTC.from_pretrained("jonatasgrosman/wav2vec2-large-xlsr-53-arabic"),
+        "epitran": epitran.Epitran("ara-Arab")
+    },
+    "English": {
+        "processor": Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h-lv60-self"),
+        "model": Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h-lv60-self"),
+        "epitran": epitran.Epitran("eng-Latn")
+    }
+}
 def clean_phonemes(ipa):
     """Remove diacritics and length markers from phonemes"""
     return re.sub(r'[\u064B-\u0652\u02D0]', '', ipa)
 def analyze_phonemes(language, reference_text, audio_file):
+    # Get the appropriate model components
+    lang_models = MODELS[language]
+    processor = lang_models["processor"]
+    model = lang_models["model"]
+    epi = lang_models["epitran"]
     # Convert reference text to phonemes
     ref_phonemes = []
     for word in reference_text.split():
     # Prepare results in JSON format
     results = {
+        "language": language,
         "reference_text": reference_text,
         "transcription": transcription,
         "word_alignment": [],
     return json.dumps(results, indent=2, ensure_ascii=False)
+# Create Gradio interface with language-specific default text
+def get_default_text(language):
+    return {
+        "Arabic": "فَبِأَيِّ آلَاءِ رَبِّكُمَا تُكَذِّبَانِ",
+        "English": "The quick brown fox jumps over the lazy dog"
+    }.get(language, "")
+with gr.Blocks() as demo:
+    gr.Markdown("# Multilingual Phoneme Alignment Analysis")
+    gr.Markdown("Compare audio pronunciation with reference text at phoneme level")
+    with gr.Row():
+        language = gr.Dropdown(
+            ["Arabic", "English"],
+            label="Language",
+            value="Arabic"
+        )
+        reference_text = gr.Textbox(
+            label="Reference Text",
+            value=get_default_text("Arabic")
+        )
+    audio_input = gr.File(label="Upload Audio File", type="file")
+    submit_btn = gr.Button("Analyze")
+    output = gr.JSON(label="Phoneme Alignment Results")
+    # Update default text when language changes
+    language.change(
+        fn=get_default_text,
+        inputs=language,
+        outputs=reference_text
+    )
+    submit_btn.click(
+        fn=analyze_phonemes,
+        inputs=[language, reference_text, audio_input],
+        outputs=output
+    )
 demo.launch()