Spaces:

SimpleFrog
/

WER_Evaluation

Running

SimpleFrog commited on 4 days ago

Commit

6802a5d

verified ·

1 Parent(s): bf692e1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -16,6 +16,7 @@ import librosa
 import numpy as np
 import evaluate
 import tempfile
 st.title("📊 Évaluation WER d'un modèle Whisper")
 st.markdown("Ce Space permet d'évaluer la performance WER d'un modèle Whisper sur un dataset audio.")
@@ -42,7 +43,7 @@ if start_eval:
     # 🔹 Télécharger dataset
     with st.spinner("Chargement du dataset..."):
         try:
-            dataset = load_dataset(dataset_link, data_files="metadata.csv", split="train", token=hf_token)
         except Exception as e:
             st.error(f"Erreur lors du chargement du dataset : {e}")
             st.stop()
@@ -63,13 +64,17 @@ if start_eval:
     results = []
     for example in dataset:
         try:
-            audio_path = example["file_name"]  # full path or relative path in AudioFolder
             reference = example["text"]
-            st.write(example)
-            st.write("Exemple brut :", dataset[0])
             # Load audio (we assume dataset is structured with 'file_name')
             waveform, _ = librosa.load(audio_path, sr=16000)

 import numpy as np
 import evaluate
 import tempfile
+from huggingface_hub import hf_hub_download
 st.title("📊 Évaluation WER d'un modèle Whisper")
 st.markdown("Ce Space permet d'évaluer la performance WER d'un modèle Whisper sur un dataset audio.")
     # 🔹 Télécharger dataset
     with st.spinner("Chargement du dataset..."):
         try:
+            dataset = load_dataset(dataset_link, data_files="metadata.csv", data_dir=".", split="train", token=hf_token)
         except Exception as e:
             st.error(f"Erreur lors du chargement du dataset : {e}")
             st.stop()
     results = []
+    # Téléchargement explicite du dossier audio (chemin local vers chaque fichier)
+    repo_local_path = hf_hub_download(dataset_link, repo_type="dataset", token=hf_token)
     for example in dataset:
         try:
+            #audio_path = example["file_name"]  # full path or relative path in AudioFolder
+            audio_path = os.path.join(repo_local_path, example["file_name"])
             reference = example["text"]
+            #st.write(example)
+            #st.write("Exemple brut :", dataset[0])
             # Load audio (we assume dataset is structured with 'file_name')
             waveform, _ = librosa.load(audio_path, sr=16000)