Spaces:

tahirsher
/

ASR_Model_for_Transcription_into_Text

Sleeping

App Files Files Community

tahirsher commited on Mar 10

Commit

a06453c

verified ·

1 Parent(s): 1cf13ee

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -27

app.py CHANGED Viewed

@@ -37,34 +37,35 @@ model.to(device)
 print(f"✅ Model loaded on {device}")
 # ================================
-# 3️⃣ Load Dataset (With Fixes)
 # ================================
 DATASET_TAR_PATH = "dev-clean.tar.gz"
 EXTRACT_PATH = "./librispeech_dev_clean"
-AUDIO_FOLDER = os.path.join(EXTRACT_PATH, "LibriSpeech", "dev-clean")
-if not os.path.exists(AUDIO_FOLDER):
     print("🔄 Extracting dataset...")
-    try:
-        with tarfile.open(DATASET_TAR_PATH, "r:gz") as tar:
-            tar.extractall(EXTRACT_PATH)
-        print("✅ Extraction complete.")
-    except Exception as e:
-        raise RuntimeError(f"❌ Dataset extraction failed: {e}")
 else:
     print("✅ Dataset already extracted.")
 def find_audio_files(base_folder):
-    return [os.path.join(root, file) for root, _, files in os.walk(base_folder) for file in files if file.endswith(".flac")]
 audio_files = find_audio_files(AUDIO_FOLDER)
 if not audio_files:
     raise FileNotFoundError(f"❌ No .flac files found in {AUDIO_FOLDER}. Check dataset structure!")
 print(f"✅ Found {len(audio_files)} audio files in dataset!")
 # ================================
-# 4️⃣ Load Transcripts (Fixed Mapping)
 # ================================
 def load_transcripts():
     transcript_dict = {}
@@ -82,10 +83,11 @@ def load_transcripts():
 transcripts = load_transcripts()
 if not transcripts:
     raise FileNotFoundError("❌ No transcripts found! Check dataset structure.")
 print(f"✅ Loaded {len(transcripts)} transcripts.")
 # ================================
-# 5️⃣ Preprocess Dataset (Fixed `input_ids` Issue)
 # ================================
 def load_and_process_audio(audio_path):
     waveform, sample_rate = torchaudio.load(audio_path)
@@ -94,17 +96,17 @@ def load_and_process_audio(audio_path):
     input_features = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features[0]
     return input_features
-dataset = []
-for audio_file in audio_files[:100]:
-    file_id = os.path.basename(audio_file).replace(".flac", "")
-    if file_id in transcripts:
-        input_features = load_and_process_audio(audio_file)
-        labels = processor.tokenizer(transcripts[file_id], padding="max_length", truncation=True, return_tensors="pt").input_ids[0]
-        dataset.append({"input_features": input_features, "labels": labels})
 train_size = int(0.8 * len(dataset))
-train_dataset = dataset[:train_size]
-eval_dataset = dataset[train_size:]
 print(f"✅ Dataset Prepared! Training: {len(train_dataset)}, Evaluation: {len(eval_dataset)}")
@@ -118,7 +120,7 @@ batch_size = st.sidebar.select_slider("Batch Size", options=[2, 4, 8, 16], value
 attack_strength = st.sidebar.slider("Attack Strength", 0.0, 0.9, 0.1)
 # ================================
-# 7️⃣ Streamlit ASR Web App (Fixed Security & Processing)
 # ================================
 st.title("🎙️ Speech-to-Text ASR Model with Security Features 🎶")
@@ -133,18 +135,19 @@ if audio_file:
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
     waveform = waveform.to(dtype=torch.float32)
-    # Apply adversarial attack noise with limit
-    noise = torch.randn_like(waveform) * attack_strength
-    adversarial_waveform = torch.clamp(waveform + noise, -1.0, 1.0)
     input_features = processor(adversarial_waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features.to(device)
     with torch.inference_mode():
-        generated_ids = model.generate(input_features, max_length=200, num_beams=2, do_sample=False, use_cache=True, attention_mask=torch.ones(input_features.shape, dtype=torch.long).to(device))
         transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
     if attack_strength > 0.1:
         st.warning("⚠️ Adversarial attack detected! Transcription may be affected.")
     st.success("📄 Secure Transcription:")
-    st.write(transcription)

 print(f"✅ Model loaded on {device}")
 # ================================
+# 3️⃣ Load Dataset (From Extracted Folder)
 # ================================
 DATASET_TAR_PATH = "dev-clean.tar.gz"
 EXTRACT_PATH = "./librispeech_dev_clean"
+if not os.path.exists(EXTRACT_PATH):
     print("🔄 Extracting dataset...")
+    with tarfile.open(DATASET_TAR_PATH, "r:gz") as tar:
+        tar.extractall(EXTRACT_PATH)
+    print("✅ Extraction complete.")
 else:
     print("✅ Dataset already extracted.")
+AUDIO_FOLDER = os.path.join(EXTRACT_PATH, "LibriSpeech", "dev-clean")
 def find_audio_files(base_folder):
+    return [os.path.join(root, file)
+            for root, _, files in os.walk(base_folder)
+            for file in files if file.endswith(".flac")]
 audio_files = find_audio_files(AUDIO_FOLDER)
 if not audio_files:
     raise FileNotFoundError(f"❌ No .flac files found in {AUDIO_FOLDER}. Check dataset structure!")
 print(f"✅ Found {len(audio_files)} audio files in dataset!")
 # ================================
+# 4️⃣ Load Transcripts
 # ================================
 def load_transcripts():
     transcript_dict = {}
 transcripts = load_transcripts()
 if not transcripts:
     raise FileNotFoundError("❌ No transcripts found! Check dataset structure.")
 print(f"✅ Loaded {len(transcripts)} transcripts.")
 # ================================
+# 5️⃣ Preprocess Dataset (Fixing `input_ids` issue)
 # ================================
 def load_and_process_audio(audio_path):
     waveform, sample_rate = torchaudio.load(audio_path)
     input_features = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features[0]
     return input_features
+dataset = [
+    {
+        "input_features": load_and_process_audio(audio_file),
+        "labels": processor.tokenizer(transcripts[os.path.basename(audio_file).replace(".flac", "")],
+                                      padding="max_length", truncation=True, return_tensors="pt").input_ids[0]
+    }
+    for audio_file in audio_files[:100] if os.path.basename(audio_file).replace(".flac", "") in transcripts
+]
 train_size = int(0.8 * len(dataset))
+train_dataset, eval_dataset = dataset[:train_size], dataset[train_size:]
 print(f"✅ Dataset Prepared! Training: {len(train_dataset)}, Evaluation: {len(eval_dataset)}")
 attack_strength = st.sidebar.slider("Attack Strength", 0.0, 0.9, 0.1)
 # ================================
+# 7️⃣ Streamlit ASR Web App (Fast Decoding & Security Features)
 # ================================
 st.title("🎙️ Speech-to-Text ASR Model with Security Features 🎶")
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
     waveform = waveform.to(dtype=torch.float32)
+    # Simulate an adversarial attack by injecting random noise
+    adversarial_waveform = waveform + (attack_strength * torch.randn_like(waveform))
+    adversarial_waveform = torch.clamp(adversarial_waveform, -1.0, 1.0)
     input_features = processor(adversarial_waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features.to(device)
     with torch.inference_mode():
+        generated_ids = model.generate(input_features, max_length=200, num_beams=2, do_sample=False, use_cache=True,
+                                       attention_mask=torch.ones(input_features.shape, dtype=torch.long).to(device))
         transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
     if attack_strength > 0.1:
         st.warning("⚠️ Adversarial attack detected! Transcription may be affected.")
     st.success("📄 Secure Transcription:")
+    st.write(transcription)