Spaces:

BinKhoaLe1812
/

Interview_AI

Running

LiamKhoaLe commited on Apr 22

Commit

218573f

1 Parent(s): f1e695a

Change to torchaudio

Files changed (2) hide show

app.py CHANGED Viewed

@@ -13,6 +13,7 @@ from fastapi.staticfiles import StaticFiles
 # AI + LLM
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 import torch
 import soundfile as sf
 from google import genai
 from google.genai import types
@@ -130,7 +131,8 @@ async def voice_transcribe(file: UploadFile = File(...)):  # noqa: B008
         tmp_path = tmp.name
     try:
         # ── 1. Transcribe
-        speech, sample_rate = sf.read(tmp_path)
         inputs = processor(speech, sampling_rate=sample_rate, return_tensors="pt")
         input_features = inputs["input_features"].to("cpu")
         generated_ids = model.generate(input_features)

 # AI + LLM
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 import torch
+import torchaudio
 import soundfile as sf
 from google import genai
 from google.genai import types
         tmp_path = tmp.name
     try:
         # ── 1. Transcribe
+        waveform, sample_rate = torchaudio.load(tmp_path)
+        speech = waveform[0].numpy()  # Convert to numpy for WhisperProcessor
         inputs = processor(speech, sampling_rate=sample_rate, return_tensors="pt")
         input_features = inputs["input_features"].to("cpu")
         generated_ids = model.generate(input_features)

requirements.txt CHANGED Viewed

@@ -8,6 +8,7 @@ python-multipart       # File uploads
 soundfile
 transformers==4.38.2  # ensure recent enough
 torch
 huggingface_hub
 # Gemini Flash 2.5

 soundfile
 transformers==4.38.2  # ensure recent enough
 torch
+torchaudio>=2.1.0
 huggingface_hub
 # Gemini Flash 2.5