Spaces:

101Frost
/

wav2vec2

Running

App Files Files Community

101Frost commited on 12 days ago

Commit

1acef58

verified ·

1 Parent(s): df2e373

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -27

app.py CHANGED Viewed

@@ -8,6 +8,8 @@ import difflib
 import editdistance
 from jiwer import wer
 import json
 # Load both models at startup
 MODELS = {
@@ -19,7 +21,7 @@ MODELS = {
     "English": {
         "processor": Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h"),
         "model": Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h"),
-        "epitran": epitran.Epitran("eng-Latn")
     }
 }
@@ -27,9 +29,29 @@ MODELS = {
 for lang in MODELS.values():
     lang["model"].config.ctc_loss_reduction = "mean"
-def clean_phonemes(ipa):
     """Remove diacritics and length markers from phonemes"""
-    return re.sub(r'[\u064B-\u0652\u02D0]', '', ipa)
 def analyze_phonemes(language, reference_text, audio_file):
     # Get the appropriate model components
@@ -37,31 +59,34 @@ def analyze_phonemes(language, reference_text, audio_file):
     processor = lang_models["processor"]
     model = lang_models["model"]
     epi = lang_models["epitran"]
     # Convert reference text to phonemes
     ref_phonemes = []
     for word in reference_text.split():
-        ipa = epi.transliterate(word)
-        ipa_clean = clean_phonemes(ipa)
         ref_phonemes.append(list(ipa_clean))
     # Process audio file
     audio, sr = librosa.load(audio_file, sr=16000)
     input_values = processor(audio, sampling_rate=16000, return_tensors="pt").input_values
     # Get transcription
     with torch.no_grad():
         logits = model(input_values).logits
         pred_ids = torch.argmax(logits, dim=-1)
         transcription = processor.batch_decode(pred_ids)[0].strip()
     # Convert transcription to phonemes
     obs_phonemes = []
     for word in transcription.split():
-        ipa = epi.transliterate(word)
-        ipa_clean = clean_phonemes(ipa)
         obs_phonemes.append(list(ipa_clean))
     # Prepare results in JSON format
     results = {
         "language": language,
@@ -70,20 +95,20 @@ def analyze_phonemes(language, reference_text, audio_file):
         "word_alignment": [],
         "metrics": {}
     }
     # Calculate metrics
     total_phoneme_errors = 0
     total_phoneme_length = 0
     correct_words = 0
     total_word_length = len(ref_phonemes)
     # Word-by-word alignment
     for i, (ref, obs) in enumerate(zip(ref_phonemes, obs_phonemes)):
         ref_str = ''.join(ref)
         obs_str = ''.join(obs)
         edits = editdistance.eval(ref, obs)
         acc = round((1 - edits / max(1, len(ref))) * 100, 2)
         # Get error details
         matcher = difflib.SequenceMatcher(None, ref, obs)
         ops = matcher.get_opcodes()
@@ -97,7 +122,7 @@ def analyze_phonemes(language, reference_text, audio_file):
                     "reference": ref_seg,
                     "observed": obs_seg
                 })
         results["word_alignment"].append({
             "word_index": i,
             "reference_phonemes": ref_str,
@@ -107,18 +132,18 @@ def analyze_phonemes(language, reference_text, audio_file):
             "is_correct": edits == 0,
             "errors": error_details
         })
         total_phoneme_errors += edits
         total_phoneme_length += len(ref)
         correct_words += 1 if edits == 0 else 0
-    # Calculate metrics
     phoneme_acc = round((1 - total_phoneme_errors / max(1, total_phoneme_length)) * 100, 2)
     phoneme_er = round((total_phoneme_errors / max(1, total_phoneme_length)) * 100, 2)
     word_acc = round((correct_words / max(1, total_word_length)) * 100, 2)
     word_er = round(((total_word_length - correct_words) / max(1, total_word_length)) * 100, 2)
     text_wer = round(wer(reference_text, transcription) * 100, 2)
     results["metrics"] = {
         "word_accuracy": word_acc,
         "word_error_rate": word_er,
@@ -126,7 +151,7 @@ def analyze_phonemes(language, reference_text, audio_file):
         "phoneme_error_rate": phoneme_er,
         "asr_word_error_rate": text_wer
     }
     return json.dumps(results, indent=2, ensure_ascii=False)
 # Create Gradio interface with language-specific default text
@@ -139,7 +164,7 @@ def get_default_text(language):
 with gr.Blocks() as demo:
     gr.Markdown("# Multilingual Phoneme Alignment Analysis")
     gr.Markdown("Compare audio pronunciation with reference text at phoneme level")
     with gr.Row():
         language = gr.Dropdown(
             ["Arabic", "English"],
@@ -150,22 +175,21 @@ with gr.Blocks() as demo:
             label="Reference Text",
             value=get_default_text("Arabic")
         )
     audio_input = gr.Audio(label="Upload Audio File", type="filepath")
     submit_btn = gr.Button("Analyze")
     output = gr.JSON(label="Phoneme Alignment Results")
-    # Update default text when language changes
     language.change(
         fn=get_default_text,
         inputs=language,
         outputs=reference_text
     )
     submit_btn.click(
         fn=analyze_phonemes,
         inputs=[language, reference_text, audio_input],
         outputs=output
     )
-demo.launch()

 import editdistance
 from jiwer import wer
 import json
+import string
+import eng_to_ipa as ipa
 # Load both models at startup
 MODELS = {
     "English": {
         "processor": Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h"),
         "model": Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h"),
+        "epitran": None  # Not needed; using eng_to_ipa
     }
 }
 for lang in MODELS.values():
     lang["model"].config.ctc_loss_reduction = "mean"
+def clean_phonemes(ipa_text):
     """Remove diacritics and length markers from phonemes"""
+    return re.sub(r'[\u064B-\u0652\u02D0]', '', ipa_text)
+def safe_transliterate_arabic(epi, word):
+    try:
+        word = word.strip()
+        ipa = epi.transliterate(word)
+        if not ipa.strip():
+            raise ValueError("Empty IPA string")
+        return clean_phonemes(ipa)
+    except Exception as e:
+        print(f"[Warning] Arabic transliteration failed for '{word}': {e}")
+        return ""
+def transliterate_english(word):
+    try:
+        word = word.lower().translate(str.maketrans('', '', string.punctuation))
+        ipa_text = ipa.convert(word)
+        return clean_phonemes(ipa_text)
+    except Exception as e:
+        print(f"[Warning] English IPA conversion failed for '{word}': {e}")
+        return ""
 def analyze_phonemes(language, reference_text, audio_file):
     # Get the appropriate model components
     processor = lang_models["processor"]
     model = lang_models["model"]
     epi = lang_models["epitran"]
+    if language == "Arabic":
+        transliterate_fn = lambda word: safe_transliterate_arabic(epi, word)
+    else:
+        transliterate_fn = transliterate_english
     # Convert reference text to phonemes
     ref_phonemes = []
     for word in reference_text.split():
+        ipa_clean = transliterate_fn(word)
         ref_phonemes.append(list(ipa_clean))
     # Process audio file
     audio, sr = librosa.load(audio_file, sr=16000)
     input_values = processor(audio, sampling_rate=16000, return_tensors="pt").input_values
     # Get transcription
     with torch.no_grad():
         logits = model(input_values).logits
         pred_ids = torch.argmax(logits, dim=-1)
         transcription = processor.batch_decode(pred_ids)[0].strip()
     # Convert transcription to phonemes
     obs_phonemes = []
     for word in transcription.split():
+        ipa_clean = transliterate_fn(word)
         obs_phonemes.append(list(ipa_clean))
     # Prepare results in JSON format
     results = {
         "language": language,
         "word_alignment": [],
         "metrics": {}
     }
     # Calculate metrics
     total_phoneme_errors = 0
     total_phoneme_length = 0
     correct_words = 0
     total_word_length = len(ref_phonemes)
     # Word-by-word alignment
     for i, (ref, obs) in enumerate(zip(ref_phonemes, obs_phonemes)):
         ref_str = ''.join(ref)
         obs_str = ''.join(obs)
         edits = editdistance.eval(ref, obs)
         acc = round((1 - edits / max(1, len(ref))) * 100, 2)
         # Get error details
         matcher = difflib.SequenceMatcher(None, ref, obs)
         ops = matcher.get_opcodes()
                     "reference": ref_seg,
                     "observed": obs_seg
                 })
         results["word_alignment"].append({
             "word_index": i,
             "reference_phonemes": ref_str,
             "is_correct": edits == 0,
             "errors": error_details
         })
         total_phoneme_errors += edits
         total_phoneme_length += len(ref)
         correct_words += 1 if edits == 0 else 0
+    # Final metrics
     phoneme_acc = round((1 - total_phoneme_errors / max(1, total_phoneme_length)) * 100, 2)
     phoneme_er = round((total_phoneme_errors / max(1, total_phoneme_length)) * 100, 2)
     word_acc = round((correct_words / max(1, total_word_length)) * 100, 2)
     word_er = round(((total_word_length - correct_words) / max(1, total_word_length)) * 100, 2)
     text_wer = round(wer(reference_text, transcription) * 100, 2)
     results["metrics"] = {
         "word_accuracy": word_acc,
         "word_error_rate": word_er,
         "phoneme_error_rate": phoneme_er,
         "asr_word_error_rate": text_wer
     }
     return json.dumps(results, indent=2, ensure_ascii=False)
 # Create Gradio interface with language-specific default text
 with gr.Blocks() as demo:
     gr.Markdown("# Multilingual Phoneme Alignment Analysis")
     gr.Markdown("Compare audio pronunciation with reference text at phoneme level")
     with gr.Row():
         language = gr.Dropdown(
             ["Arabic", "English"],
             label="Reference Text",
             value=get_default_text("Arabic")
         )
     audio_input = gr.Audio(label="Upload Audio File", type="filepath")
     submit_btn = gr.Button("Analyze")
     output = gr.JSON(label="Phoneme Alignment Results")
     language.change(
         fn=get_default_text,
         inputs=language,
         outputs=reference_text
     )
     submit_btn.click(
         fn=analyze_phonemes,
         inputs=[language, reference_text, audio_input],
         outputs=output
     )
+demo.launch()