Spaces:

tahirsher
/

ASR_Model_for_Transcription_into_Text

Sleeping

App Files Files Community

tahirsher commited on Mar 9

Commit

3a79217

verified ·

1 Parent(s): 78855a4

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -15

app.py CHANGED Viewed

@@ -29,10 +29,10 @@ print(f"✅ Model loaded on {device}")
 # ================================
 # 2️⃣ Load Dataset (Recursively from Extracted Path)
 # ================================
-DATASET_TAR_PATH = "dev-clean.tar.gz"  # Dataset stored in Hugging Face Space
-EXTRACT_PATH = "./librispeech_dev_clean"  # Extracted dataset folder
-# Extract dataset only if not already extracted
 if not os.path.exists(EXTRACT_PATH):
     print("🔄 Extracting dataset...")
     with tarfile.open(DATASET_TAR_PATH, "r:gz") as tar:
@@ -41,7 +41,7 @@ if not os.path.exists(EXTRACT_PATH):
 else:
     print("✅ Dataset already extracted.")
-# Define the base directory where audio files are stored
 AUDIO_FOLDER = os.path.join(EXTRACT_PATH, "LibriSpeech", "dev-clean")
 # Recursively find all `.flac` files inside the dataset directory
@@ -57,7 +57,6 @@ def find_audio_files(base_folder):
 # Get all audio files
 audio_files = find_audio_files(AUDIO_FOLDER)
-# Check if audio files were found
 if not audio_files:
     raise FileNotFoundError(f"❌ No .flac files found in {AUDIO_FOLDER}. Check dataset structure!")
@@ -73,22 +72,27 @@ def load_and_process_audio(audio_path):
     # Resample to 16kHz
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
-    # Convert to model input format (Fixed key: use input_features instead of input_values)
     input_features = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features[0]
     return input_features
 # Manually create dataset structure
-dataset = [{"input_features": load_and_process_audio(f), "labels": []} for f in audio_files[:100]]  # Load first 100
-print(f"✅ Dataset Loaded! Processed {len(dataset)} audio files.")
 # ================================
 # 4️⃣ Training Arguments & Trainer
 # ================================
 training_args = TrainingArguments(
     output_dir="./asr_model_finetuned",
-    evaluation_strategy="epoch",
     save_strategy="epoch",
     learning_rate=5e-5,
     per_device_train_batch_size=8,
@@ -102,15 +106,15 @@ training_args = TrainingArguments(
 )
 # Data collator (for dynamic padding)
-data_collator = DataCollatorForSeq2Seq(processor.tokenizer, model=model)
-# Define Trainer
 trainer = Trainer(
     model=model,
     args=training_args,
-    train_dataset=dataset,
-    eval_dataset=None,  # No validation dataset for now
-    tokenizer=processor.feature_extractor,
     data_collator=data_collator,
 )
@@ -140,7 +144,7 @@ if audio_file:
     waveform, sample_rate = torchaudio.load(audio_path)
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
-    # Convert audio to model input (Fixed key: use input_features)
     input_features = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features[0]
     # Perform ASR inference

 # ================================
 # 2️⃣ Load Dataset (Recursively from Extracted Path)
 # ================================
+DATASET_TAR_PATH = "dev-clean.tar.gz"
+EXTRACT_PATH = "./librispeech_dev_clean"
+# Extract dataset if not already extracted
 if not os.path.exists(EXTRACT_PATH):
     print("🔄 Extracting dataset...")
     with tarfile.open(DATASET_TAR_PATH, "r:gz") as tar:
 else:
     print("✅ Dataset already extracted.")
+# Base directory where audio files are stored
 AUDIO_FOLDER = os.path.join(EXTRACT_PATH, "LibriSpeech", "dev-clean")
 # Recursively find all `.flac` files inside the dataset directory
 # Get all audio files
 audio_files = find_audio_files(AUDIO_FOLDER)
 if not audio_files:
     raise FileNotFoundError(f"❌ No .flac files found in {AUDIO_FOLDER}. Check dataset structure!")
     # Resample to 16kHz
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
+    # Convert to model input format
     input_features = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features[0]
     return input_features
 # Manually create dataset structure
+dataset = [{"input_features": load_and_process_audio(f), "labels": []} for f in audio_files[:100]]
+# Split dataset into train and eval (Recommended Fix)
+train_size = int(0.9 * len(dataset))
+train_dataset = dataset[:train_size]
+eval_dataset = dataset[train_size:]
+print(f"✅ Dataset Loaded! Training: {len(train_dataset)}, Evaluation: {len(eval_dataset)}")
 # ================================
 # 4️⃣ Training Arguments & Trainer
 # ================================
 training_args = TrainingArguments(
     output_dir="./asr_model_finetuned",
+    eval_strategy="epoch",  # Fix: Proper evaluation
     save_strategy="epoch",
     learning_rate=5e-5,
     per_device_train_batch_size=8,
 )
 # Data collator (for dynamic padding)
+data_collator = DataCollatorForSeq2Seq(processor, model=model)
+# Define Trainer (Fixed `processing_class` warning)
 trainer = Trainer(
     model=model,
     args=training_args,
+    train_dataset=train_dataset,
+    eval_dataset=eval_dataset,  # Fix: Providing eval_dataset
+    processing_class=processor,  # Fix: Replacing deprecated `tokenizer`
     data_collator=data_collator,
 )
     waveform, sample_rate = torchaudio.load(audio_path)
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
+    # Convert audio to model input
     input_features = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features[0]
     # Perform ASR inference