Spaces:

DroolingPanda
/

teachingAssistant

Running

Michael Hu commited on Jan 26

Commit

a4f48aa

1 Parent(s): 2477bc4

fix audio string to data

Files changed (2) hide show

requirements.txt CHANGED Viewed

@@ -12,4 +12,6 @@ phonemizer>=3.0
 scipy>=1.11
 munch>=2.5
 accelerate>=1.2.0
 # git+https://github.com/hexgrad/Kokoro-82M

 scipy>=1.11
 munch>=2.5
 accelerate>=1.2.0
+soundfile>=0.13.0
+libsndfile1
 # git+https://github.com/hexgrad/Kokoro-82M

utils/stt.py CHANGED Viewed

@@ -9,6 +9,7 @@ logger = logging.getLogger(__name__)
 import torch
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
 from pydub import AudioSegment
 def transcribe_audio(audio_path):
     """
@@ -46,8 +47,11 @@ def transcribe_audio(audio_path):
         # Processing
         logger.info("Processing audio input")
         inputs = processor(
-            wav_path,
             sampling_rate=16000,
             return_tensors="pt",
             truncation=True,

 import torch
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
 from pydub import AudioSegment
+import soundfile as sf  # Add this import
 def transcribe_audio(audio_path):
     """
         # Processing
         logger.info("Processing audio input")
+        logger.debug("Loading audio data")
+        audio_data, sample_rate = sf.read(wav_path)
+        audio_data = audio_data.astype(np.float32)
         inputs = processor(
+            audio_data,  # Pass audio array instead of path
             sampling_rate=16000,
             return_tensors="pt",
             truncation=True,