Spaces:

tahirsher
/

ASR_Model_for_Transcription_into_Text

Sleeping

App Files Files Community

tahirsher commited on Mar 10

Commit

6027573

verified ·

1 Parent(s): 15b7647

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -16

app.py CHANGED Viewed

@@ -1,9 +1,10 @@
 import os
 import torch
 import torchaudio
 import streamlit as st
 from huggingface_hub import login
-from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
 # ================================
 # 1️⃣ Authenticate with Hugging Face Hub (Securely)
@@ -18,9 +19,9 @@ login(token=HF_TOKEN)
 # ================================
 # 2️⃣ Load Conformer Model & Processor
 # ================================
-MODEL_NAME = "facebook/wav2vec2-conformer-rel-pos-large"
 processor = AutoProcessor.from_pretrained(MODEL_NAME)
-model = AutoModelForSpeechSeq2Seq.from_pretrained(MODEL_NAME)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
@@ -47,25 +48,23 @@ if audio_file:
     with open(audio_path, "wb") as f:
         f.write(audio_file.read())
-    waveform, sample_rate = torchaudio.load(audio_path)
-    waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
-    waveform = waveform.to(dtype=torch.float32)
     # Simulate an adversarial attack by injecting random noise
-    adversarial_waveform = waveform + (attack_strength * torch.randn_like(waveform))
-    adversarial_waveform = torch.clamp(adversarial_waveform, -1.0, 1.0)
-    inputs = processor(adversarial_waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt")
-    input_features = inputs.input_values.to(device)
-    attention_mask = inputs.attention_mask.to(device) if "attention_mask" in inputs else None
-    with torch.inference_mode():
-        generated_ids = model.generate(input_features, max_length=200, num_beams=2, do_sample=False, use_cache=True,
-                                       attention_mask=attention_mask)
-        transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
     if attack_strength > 0.1:
         st.warning("⚠️ Adversarial attack detected! Transcription may be affected.")
     st.success("📄 Secure Transcription:")
-    st.write(transcription)

 import os
 import torch
 import torchaudio
+import librosa
 import streamlit as st
 from huggingface_hub import login
+from transformers import AutoProcessor, AutoModelForCTC
 # ================================
 # 1️⃣ Authenticate with Hugging Face Hub (Securely)
 # ================================
 # 2️⃣ Load Conformer Model & Processor
 # ================================
+MODEL_NAME = "deepl-project/conformer-finetunning"
 processor = AutoProcessor.from_pretrained(MODEL_NAME)
+model = AutoModelForCTC.from_pretrained(MODEL_NAME)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
     with open(audio_path, "wb") as f:
         f.write(audio_file.read())
+    speech, sr = librosa.load(audio_path, sr=16000)
     # Simulate an adversarial attack by injecting random noise
+    adversarial_speech = speech + (attack_strength * np.random.randn(*speech.shape))
+    adversarial_speech = np.clip(adversarial_speech, -1.0, 1.0)
+    inputs = processor(adversarial_speech, sampling_rate=sr, return_tensors="pt", padding=True)
+    input_values = inputs.input_values.to(device)
+    with torch.no_grad():
+        logits = model(input_values).logits
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
     if attack_strength > 0.1:
         st.warning("⚠️ Adversarial attack detected! Transcription may be affected.")
     st.success("📄 Secure Transcription:")
+    st.write(transcription[0])