stt-4

Running

bcci commited on Feb 27

Commit

15b3060

verified ·

1 Parent(s): 4691b60

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -49,21 +49,21 @@ def pcm16_to_float32(pcm_data: bytes) -> np.ndarray:
     float_data = int_data.astype(np.float32) / 32768.0
     return float_data
 @app.websocket("/ws/transcribe")
 async def websocket_endpoint(websocket: WebSocket):
     await websocket.accept()
-    # Initialize models.
-    model_name = "moonshine/tiny"
-    transcriber = Transcriber(model_name=model_name, rate=SAMPLING_RATE)
-    vad_model = load_silero_vad(onnx=True)
-    vad_iterator = VADIterator(
-        model=vad_model,
-        sampling_rate=SAMPLING_RATE,
-        threshold=0.5,
-        min_silence_duration_ms=300,
-    )
     caption_cache = []
     lookback_size = LOOKBACK_CHUNKS * CHUNK_SIZE
     speech = np.empty(0, dtype=np.float32)
@@ -154,7 +154,7 @@ async def get_home():
                       mediaStream = await navigator.mediaDevices.getUserMedia({ audio: true });
                       audioContext = new AudioContext({ sampleRate: 16000 });
                       const source = audioContext.createMediaStreamSource(mediaStream);
-                      scriptProcessor = audioContext.createScriptProcessor(1024, 1, 1);
                       scriptProcessor.onaudioprocess = function(event) {
                           const inputData = event.inputBuffer.getChannelData(0);
                           const pcm16 = floatTo16BitPCM(inputData);

     float_data = int_data.astype(np.float32) / 32768.0
     return float_data
+# Initialize models.
+model_name = "moonshine/tiny"
+transcriber = Transcriber(model_name=model_name, rate=SAMPLING_RATE)
+vad_model = load_silero_vad(onnx=True)
+vad_iterator = VADIterator(
+    model=vad_model,
+    sampling_rate=SAMPLING_RATE,
+    threshold=0.5,
+    min_silence_duration_ms=300,
+)
 @app.websocket("/ws/transcribe")
 async def websocket_endpoint(websocket: WebSocket):
     await websocket.accept()
     caption_cache = []
     lookback_size = LOOKBACK_CHUNKS * CHUNK_SIZE
     speech = np.empty(0, dtype=np.float32)
                       mediaStream = await navigator.mediaDevices.getUserMedia({ audio: true });
                       audioContext = new AudioContext({ sampleRate: 16000 });
                       const source = audioContext.createMediaStreamSource(mediaStream);
+                      scriptProcessor = audioContext.createScriptProcessor(512, 1, 1);
                       scriptProcessor.onaudioprocess = function(event) {
                           const inputData = event.inputBuffer.getChannelData(0);
                           const pcm16 = floatTo16BitPCM(inputData);