Spaces:

tahirsher
/

ASR_Model_for_Transcription_into_Text

Sleeping

App Files Files Community

tahirsher commited on Mar 10

Commit

8d19597

verified ·

1 Parent(s): a4a32f2

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -15

app.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import os
 import torch
 import torchaudio
-import librosa
 import streamlit as st
 from huggingface_hub import login
 from transformers import AutoProcessor, AutoModelForCTC
@@ -69,31 +68,29 @@ if audio_file:
     with open(audio_path, "wb") as f:
         f.write(audio_file.read())
-    # Load and preprocess the audio file using librosa
-    speech, sr = librosa.load(audio_path, sr=16000)
     # ================================
     # ✅ Optimized Adversarial Attack Handling
     # ================================
-    noise = attack_strength * torch.randn_like(torch.tensor(speech))
-    adversarial_waveform = torch.tensor(speech) + noise
     adversarial_waveform = torch.clamp(adversarial_waveform, -1.0, 1.0)
-    # Remove background noise for speed & accuracy
-    denoised_waveform = torchaudio.functional.vad(adversarial_waveform, sample_rate=16000)
     # ================================
     # ✅ Fast Transcription Processing with Conformer
     # ================================
-    # Convert waveform into the required format
-    inputs = processor(denoised_waveform.numpy(), sampling_rate=sr, return_tensors="pt", padding=True).to("cuda" if torch.cuda.is_available() else "cpu")
-    # Make sure the input has batch dimension (even if it's one example)
-    if len(inputs.input_values.shape) == 1:
-        inputs.input_values = inputs.input_values.unsqueeze(0)
     with torch.no_grad():
-        logits = model(**inputs).logits
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = processor.batch_decode(predicted_ids)

 import os
 import torch
 import torchaudio
 import streamlit as st
 from huggingface_hub import login
 from transformers import AutoProcessor, AutoModelForCTC
     with open(audio_path, "wb") as f:
         f.write(audio_file.read())
+    # Load and preprocess the audio file using torchaudio
+    waveform, sample_rate = torchaudio.load(audio_path)
+    waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
+    waveform = waveform.to(dtype=torch.float32)
     # ================================
     # ✅ Optimized Adversarial Attack Handling
     # ================================
+    noise = attack_strength * torch.randn_like(waveform)
+    adversarial_waveform = waveform + noise
     adversarial_waveform = torch.clamp(adversarial_waveform, -1.0, 1.0)
     # ================================
     # ✅ Fast Transcription Processing with Conformer
     # ================================
+    input_features = processor(adversarial_waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features.to("cuda" if torch.cuda.is_available() else "cpu")
+    # Ensure the input has batch dimension (even if it's one example)
+    if len(input_features.shape) == 1:
+        input_features = input_features.unsqueeze(0)
     with torch.no_grad():
+        logits = model(input_features).logits
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = processor.batch_decode(predicted_ids)