Spaces:

BinKhoaLe1812
/

Interview_AI

Running

LiamKhoaLe commited on 16 days ago

Commit

6e2027d

1 Parent(s): abebb93

Rm torchaudio, use resampy

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 # Access site: https://binkhoale1812-interview-ai.hf.space/
 import os
 import tempfile
 from pathlib import Path
 from typing import Dict
@@ -12,12 +13,13 @@ from fastapi.staticfiles import StaticFiles
 # AI + LLM
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
-import torch
-os.environ["NUMBA_DISABLE_CACHE"] = "1"
-import librosa
 from google import genai
 from google.genai import types
 ############################################
 # ── Configuration ────────────────────────
@@ -132,7 +134,17 @@ async def voice_transcribe(file: UploadFile = File(...)):  # noqa: B008
         tmp_path = tmp.name
     try:
         # ── 1. Transcribe
-        speech, sample_rate = librosa.load(tmp_path, sr=16000)
         inputs = processor(speech, sampling_rate=sample_rate, return_tensors="pt")
         input_features = inputs["input_features"].to("cpu")
         generated_ids = model.generate(input_features)

 # Access site: https://binkhoale1812-interview-ai.hf.space/
 import os
+os.environ["NUMBA_DISABLE_CACHE"] = "1"
 import tempfile
 from pathlib import Path
 from typing import Dict
 # AI + LLM
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 from google import genai
 from google.genai import types
+# Audio Transcribe
+from scipy.io import wavfile
+import resampy
+import numpy as np
 ############################################
 # ── Configuration ────────────────────────
         tmp_path = tmp.name
     try:
         # ── 1. Transcribe
+        # Load WAV
+        sample_rate, data = wavfile.read(tmp_path)
+        # Convert to float32 if needed
+        if data.dtype != np.float32:
+            data = data.astype(np.float32) / np.iinfo(data.dtype).max
+        # Resample to 16 kHz for Whisper
+        if sample_rate != 16000:
+            data = resampy.resample(data, sample_rate, 16000)
+            sample_rate = 16000
+        # Obtain speech and process to tensor
+        speech = data
         inputs = processor(speech, sampling_rate=sample_rate, return_tensors="pt")
         input_features = inputs["input_features"].to("cpu")
         generated_ids = model.generate(input_features)

requirements.txt CHANGED Viewed

@@ -4,11 +4,11 @@ uvicorn[standard]
 aiofiles               # Static file serving
 python-multipart       # File uploads
-# Voice‑to‑text (Whisper via 🤗 Transformers)
 transformers==4.38.2  # ensure recent enough
-torch
 huggingface_hub
-librosa
 # Gemini Flash 2.5
 google-genai

 aiofiles               # Static file serving
 python-multipart       # File uploads
+# Voice‑to‑text (Whisper via Transformers)
 transformers==4.38.2  # ensure recent enough
 huggingface_hub
+scipy
+resampy
 # Gemini Flash 2.5
 google-genai