Spaces:

101Frost
/

wav2vec2

Running

101Frost commited on 4 days ago

Commit

2222b3b

verified ·

1 Parent(s): 1040e0e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -17,12 +17,16 @@ MODELS = {
         "epitran": epitran.Epitran("ara-Arab")
     },
     "English": {
-        "processor": Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h-lv60-self"),
-        "model": Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h-lv60-self"),
         "epitran": epitran.Epitran("eng-Latn")
     }
 }
 def clean_phonemes(ipa):
     """Remove diacritics and length markers from phonemes"""
     return re.sub(r'[\u064B-\u0652\u02D0]', '', ipa)
@@ -42,7 +46,7 @@ def analyze_phonemes(language, reference_text, audio_file):
         ref_phonemes.append(list(ipa_clean))
     # Process audio file
-    audio, sr = librosa.load(audio_file.name, sr=16000)
     input_values = processor(audio, sampling_rate=16000, return_tensors="pt").input_values
     # Get transcription
@@ -147,7 +151,7 @@ with gr.Blocks() as demo:
             value=get_default_text("Arabic")
         )
-    audio_input = gr.File(label="Upload Audio File", type="file")
     submit_btn = gr.Button("Analyze")
     output = gr.JSON(label="Phoneme Alignment Results")

         "epitran": epitran.Epitran("ara-Arab")
     },
     "English": {
+        "processor": Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h"),
+        "model": Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h"),
         "epitran": epitran.Epitran("eng-Latn")
     }
 }
+# Suppress the warning about newly initialized weights
+for lang in MODELS.values():
+    lang["model"].config.ctc_loss_reduction = "mean"
 def clean_phonemes(ipa):
     """Remove diacritics and length markers from phonemes"""
     return re.sub(r'[\u064B-\u0652\u02D0]', '', ipa)
         ref_phonemes.append(list(ipa_clean))
     # Process audio file
+    audio, sr = librosa.load(audio_file, sr=16000)
     input_values = processor(audio, sampling_rate=16000, return_tensors="pt").input_values
     # Get transcription
             value=get_default_text("Arabic")
         )
+    audio_input = gr.Audio(label="Upload Audio File", type="filepath")
     submit_btn = gr.Button("Analyze")
     output = gr.JSON(label="Phoneme Alignment Results")