Spaces:

AnyaSchen
/

whisper-websocket

Paused

AnyaSchen commited on 26 days ago

Commit

b8a4e79

1 Parent(s): 46ae0d5

feat: try to add language detector 3

Files changed (2) hide show

language_detector.py CHANGED Viewed

@@ -1,4 +1,4 @@
-import whisper
 import numpy as np
 import logging
 import io
@@ -14,7 +14,7 @@ class LanguageDetector:
         Args:
             model_name (str): Name of the Whisper model to use. Default is "tiny" which is sufficient for language detection.
         """
-        self.model = whisper.load_model(model_name)
         logger.info(f"Loaded Whisper model {model_name} for language detection")
     def detect_language_from_file(self, audio_file_path):
@@ -30,11 +30,11 @@ class LanguageDetector:
         """
         try:
             # Load and preprocess audio
-            audio = whisper.load_audio(audio_file_path)
-            audio = whisper.pad_or_trim(audio)
             # Make log-Mel spectrogram
-            mel = whisper.log_mel_spectrogram(audio).to(self.model.device)
             # Detect language
             _, probs = self.model.detect_language(mel)
@@ -67,10 +67,10 @@ class LanguageDetector:
             audio = (audio * 32768).astype(np.int16)
             # Load and preprocess audio
-            audio = whisper.pad_or_trim(audio)
             # Make log-Mel spectrogram
-            mel = whisper.log_mel_spectrogram(audio).to(self.model.device)
             # Detect language
             _, probs = self.model.detect_language(mel)

+import whisper as whp
 import numpy as np
 import logging
 import io
         Args:
             model_name (str): Name of the Whisper model to use. Default is "tiny" which is sufficient for language detection.
         """
+        self.model = whp.load_model(model_name)
         logger.info(f"Loaded Whisper model {model_name} for language detection")
     def detect_language_from_file(self, audio_file_path):
         """
         try:
             # Load and preprocess audio
+            audio = whp.load_audio(audio_file_path)
+            audio = whp.pad_or_trim(audio)
             # Make log-Mel spectrogram
+            mel = whp.log_mel_spectrogram(audio).to(self.model.device)
             # Detect language
             _, probs = self.model.detect_language(mel)
             audio = (audio * 32768).astype(np.int16)
             # Load and preprocess audio
+            audio = whp.pad_or_trim(audio)
             # Make log-Mel spectrogram
+            mel = whp.log_mel_spectrogram(audio).to(self.model.device)
             # Detect language
             _, probs = self.model.detect_language(mel)

requirements.txt CHANGED Viewed

@@ -13,5 +13,5 @@ setuptools>=65.5.1
 librosa>=0.10.0
 mosestokenizer
 hf_xet
-whisper
 librosa

 librosa>=0.10.0
 mosestokenizer
 hf_xet
+openai-whisper
 librosa