Spaces:

tahirsher
/

ASR_Model_for_Transcription_into_Text

Sleeping

App Files Files Community

tahirsher commited on Mar 10

Commit

771c2e9

verified ·

1 Parent(s): aa42e50

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -23

app.py CHANGED Viewed

@@ -37,7 +37,7 @@ model.to(device)
 print(f"✅ Model loaded on {device}")
 # ================================
-# 3️⃣ Load and Prepare Dataset
 # ================================
 DATASET_TAR_PATH = "dev-clean.tar.gz"
 EXTRACT_PATH = "./librispeech_dev_clean"
@@ -50,35 +50,41 @@ if not os.path.exists(EXTRACT_PATH):
 else:
     print("✅ Dataset already extracted.")
-# Load dataset with transcripts
-dataset = load_dataset("librispeech_asr", "clean", split="train", trust_remote_code=True)
-# Ensure dataset has transcripts
-if "text" not in dataset.column_names:
-    raise ValueError("❌ Dataset is missing transcription text!")
-# Preprocessing Function
-def preprocess_data(batch):
-    # Process audio
-    waveform, sample_rate = torchaudio.load(batch["file"])
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
-    batch["input_features"] = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features[0]
-    # Tokenize transcript text
-    batch["labels"] = processor.tokenizer(batch["text"], padding="max_length", truncation=True, return_tensors="pt").input_ids[0]
-    return batch
-# Apply preprocessing
-dataset = dataset.map(preprocess_data, remove_columns=["file", "audio", "text"])
-# Split into train & eval
 train_size = int(0.8 * len(dataset))
-train_dataset = dataset.select(range(train_size))
-eval_dataset = dataset.select(range(train_size, len(dataset)))
-print(f"✅ Dataset Prepared! Training: {len(train_dataset)}, Evaluation: {len(eval_dataset)}")
 # ================================
 # 4️⃣ Training Arguments & Trainer

 print(f"✅ Model loaded on {device}")
 # ================================
+# 3️⃣ Load Dataset (Recursively from Extracted Path)
 # ================================
 DATASET_TAR_PATH = "dev-clean.tar.gz"
 EXTRACT_PATH = "./librispeech_dev_clean"
 else:
     print("✅ Dataset already extracted.")
+AUDIO_FOLDER = os.path.join(EXTRACT_PATH, "LibriSpeech", "dev-clean")
+def find_audio_files(base_folder):
+    """Recursively search for all .flac files in subdirectories."""
+    audio_files = []
+    for root, _, files in os.walk(base_folder):
+        for file in files:
+            if file.endswith(".flac"):
+                audio_files.append(os.path.join(root, file))
+    return audio_files
+audio_files = find_audio_files(AUDIO_FOLDER)
+if not audio_files:
+    raise FileNotFoundError(f"❌ No .flac files found in {AUDIO_FOLDER}. Check dataset structure!")
+print(f"✅ Found {len(audio_files)} audio files in dataset!")
+# ================================
+# 4️⃣ Preprocess Dataset
+# ================================
+def load_and_process_audio(audio_path):
+    """Loads and processes a single audio file into model format."""
+    waveform, sample_rate = torchaudio.load(audio_path)
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
+    input_features = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features[0]
+    return input_features
+dataset = [{"input_features": load_and_process_audio(f), "labels": []} for f in audio_files[:100]]
 train_size = int(0.8 * len(dataset))
+train_dataset = dataset[:train_size]
+eval_dataset = dataset[train_size:]
+print(f"✅ Dataset Loaded! Training: {len(train_dataset)}, Evaluation: {len(eval_dataset)}")
 # ================================
 # 4️⃣ Training Arguments & Trainer