Spaces:

tahirsher
/

ASR_Model_for_Transcription_into_Text

Sleeping

App Files Files Community

tahirsher commited on Mar 10

Commit

a312467

verified ·

1 Parent(s): 2e48e3c

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -38

app.py CHANGED Viewed

@@ -131,12 +131,12 @@ batch_size = st.sidebar.select_slider("Batch Size", options=[2, 4, 8, 16], value
 # ================================
 training_args = TrainingArguments(
     output_dir="./asr_model_finetuned",
-    evaluation_strategy="epoch",
     save_strategy="epoch",
-    learning_rate=learning_rate,
-    per_device_train_batch_size=batch_size,
-    per_device_eval_batch_size=batch_size,
-    num_train_epochs=num_epochs,
     weight_decay=0.01,
     logging_dir="./logs",
     logging_steps=500,
@@ -157,27 +157,7 @@ trainer = Trainer(
 )
 # ================================
-# 8️⃣ Fine-Tuning Execution & Training Stats
-# ================================
-if st.sidebar.button("🚀 Start Fine-Tuning"):
-    with st.spinner("Fine-tuning in progress... Please wait!"):
-        trainer.train()
-    st.success("✅ Fine-Tuning Completed! Model updated.")
-    # ✅ Plot Training Loss
-    train_loss = trainer.state.log_history
-    losses = [entry['loss'] for entry in train_loss if 'loss' in entry]
-    plt.figure(figsize=(8, 5))
-    plt.plot(range(len(losses)), losses, label="Training Loss", color="blue")
-    plt.xlabel("Steps")
-    plt.ylabel("Loss")
-    plt.title("Training Loss Over Time")
-    plt.legend()
-    st.pyplot(plt)
-# ================================
-# 9️⃣ Streamlit ASR Web App (Proper Decoding)
 # ================================
 st.title("🎙️ Speech-to-Text ASR Model with Fine-Tuning 🎶")
@@ -191,22 +171,21 @@ if audio_file:
     waveform, sample_rate = torchaudio.load(audio_path)
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
-    input_features = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features
-    input_tensor = input_features.to(device)
-    # ✅ FIX: Use `generate()` for Proper Transcription
-    with torch.no_grad():
         generated_ids = model.generate(
-            input_tensor,
-            max_length=500,
-            num_beams=5,
-            do_sample=True,
-            top_k=50
         )
         transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
-    # Display transcription
     st.success("📄 Transcription:")
     st.write(transcription)

 # ================================
 training_args = TrainingArguments(
     output_dir="./asr_model_finetuned",
+    eval_strategy="epoch",
     save_strategy="epoch",
+    learning_rate=learning_rate,
+    per_device_train_batch_size=batch_size,
+    per_device_eval_batch_size=batch_size,
+    num_train_epochs=num_epochs,
     weight_decay=0.01,
     logging_dir="./logs",
     logging_steps=500,
 )
 # ================================
+# 8️⃣ Streamlit ASR Web App (Fast Decoding)
 # ================================
 st.title("🎙️ Speech-to-Text ASR Model with Fine-Tuning 🎶")
     waveform, sample_rate = torchaudio.load(audio_path)
     waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
+    input_features = processor(
+        waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt"
+    ).input_features.to(device)
+    with torch.inference_mode():
         generated_ids = model.generate(
+            input_features,
+            max_length=200,
+            num_beams=2,
+            do_sample=False,
+            use_cache=True,
+            language="en",
+            attention_mask=torch.ones(input_features.shape, dtype=torch.long).to(device),
         )
         transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
     st.success("📄 Transcription:")
     st.write(transcription)