Spaces:

tahirsher
/

ASR_Model_for_Transcription_into_Text

Sleeping

App Files Files Community

tahirsher commited on Mar 9

Commit

fcd8965

verified ·

1 Parent(s): cd7aa15

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -9

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import os
 import torch
 import torchaudio
-import tarfile
 import numpy as np
 import streamlit as st
 from datasets import load_dataset
@@ -28,31 +28,33 @@ model.to(device)
 print(f"✅ Model loaded on {device}")
 # ================================
-# 2️⃣ Load Dataset (LibriSpeech)
 # ================================
-DATASET_TAR_PATH = "dev-clean.tar.gz"  # The uploaded dataset in Hugging Face space
-EXTRACT_PATH = "./librispeech_dev_clean"  # Extracted folder
-# Extract dataset if not already extracted
 if not os.path.exists(EXTRACT_PATH):
     print("🔄 Extracting dataset...")
     with tarfile.open(DATASET_TAR_PATH, "r:gz") as tar:
         tar.extractall(EXTRACT_PATH)
     print("✅ Extraction complete.")
-# Load dataset from extracted path
 dataset = load_dataset("librispeech_asr", data_dir=EXTRACT_PATH, split="train", trust_remote_code=True)
-print(f"✅ Dataset Loaded! {dataset}")
 # ================================
 # 3️⃣ Preprocess Dataset
 # ================================
 def preprocess_audio(batch):
     audio = batch["audio"]
     waveform, sample_rate = torchaudio.load(audio["path"])
-    # Resample to 16kHz
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
     # Convert to model input format
@@ -62,6 +64,7 @@ def preprocess_audio(batch):
 # Apply preprocessing
 dataset = dataset.map(preprocess_audio, remove_columns=["audio"])
 # ================================
 # 4️⃣ Training Arguments & Trainer

 import os
+import tarfile
 import torch
 import torchaudio
 import numpy as np
 import streamlit as st
 from datasets import load_dataset
 print(f"✅ Model loaded on {device}")
 # ================================
+# 2️⃣ Load Dataset (LibriSpeech) from Extracted Path
 # ================================
+DATASET_TAR_PATH = "dev-clean.tar.gz"  # Uploaded dataset in your Hugging Face Space
+EXTRACT_PATH = "./librispeech_dev_clean"  # Extracted dataset folder
+# Extract dataset only if not already extracted
 if not os.path.exists(EXTRACT_PATH):
     print("🔄 Extracting dataset...")
     with tarfile.open(DATASET_TAR_PATH, "r:gz") as tar:
         tar.extractall(EXTRACT_PATH)
     print("✅ Extraction complete.")
+else:
+    print("✅ Dataset already extracted.")
+# ✅ Load dataset from extracted folder
 dataset = load_dataset("librispeech_asr", data_dir=EXTRACT_PATH, split="train", trust_remote_code=True)
+print(f"✅ Dataset Loaded Successfully! Size: {len(dataset)}")
 # ================================
 # 3️⃣ Preprocess Dataset
 # ================================
 def preprocess_audio(batch):
+    """Converts raw audio to a model-compatible format."""
     audio = batch["audio"]
     waveform, sample_rate = torchaudio.load(audio["path"])
+    # Resample to 16kHz (ASR models usually require this)
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
     # Convert to model input format
 # Apply preprocessing
 dataset = dataset.map(preprocess_audio, remove_columns=["audio"])
+print(f"✅ Dataset Preprocessed! Ready for Fine-Tuning.")
 # ================================
 # 4️⃣ Training Arguments & Trainer