documentaitestv4

Sleeping

App Files Files Community

IAMTFRMZA commited on Apr 16

Commit

e24f5bc

verified ·

1 Parent(s): 1c4cc7f

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -23

app.py CHANGED Viewed

@@ -1,13 +1,14 @@
 import gradio as gr
 import os, time, re, json, base64, asyncio, threading, uuid, io
 import numpy as np
 import soundfile as sf
 from pydub import AudioSegment
 from openai import OpenAI
-from websockets import connect, Data, ClientConnection
 from dotenv import load_dotenv
-# ============ Load Secrets ============
 load_dotenv()
 OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
 ASSISTANT_ID = os.getenv("ASSISTANT_ID")
@@ -17,34 +18,48 @@ HEADERS = {"Authorization": f"Bearer {OPENAI_API_KEY}", "OpenAI-Beta": "realtime
 WS_URI = "wss://api.openai.com/v1/realtime?intent=transcription"
 connections = {}
-# ============ WebSocket Client ============
 class WebSocketClient:
     def __init__(self, uri, headers, client_id):
-        self.uri, self.headers, self.client_id = uri, headers, client_id
         self.websocket = None
         self.queue = asyncio.Queue(maxsize=10)
         self.transcript = ""
     async def connect(self):
-        self.websocket = await connect(self.uri, additional_headers=self.headers)
-        with open("openai_transcription_settings.json", "r") as f:
-            await self.websocket.send(f.read())
-        await asyncio.gather(self.receive_messages(), self.send_audio_chunks())
     def run(self):
-        loop = asyncio.new_event_loop()
-        asyncio.set_event_loop(loop)
-        loop.run_until_complete(self.connect())
     async def send_audio_chunks(self):
         while True:
             sr, arr = await self.queue.get()
-            if arr.ndim > 1: arr = arr.mean(axis=1)
-            arr = (arr / np.max(np.abs(arr))) if np.max(np.abs(arr)) > 0 else arr
             int16 = (arr * 32767).astype(np.int16)
-            buf = io.BytesIO(); sf.write(buf, int16, sr, format='WAV', subtype='PCM_16')
             audio = AudioSegment.from_file(buf, format="wav").set_frame_rate(24000)
-            out = io.BytesIO(); audio.export(out, format="wav"); out.seek(0)
             await self.websocket.send(json.dumps({
                 "type": "input_audio_buffer.append",
                 "audio": base64.b64encode(out.read()).decode()
@@ -56,10 +71,7 @@ class WebSocketClient:
             if data["type"] == "conversation.item.input_audio_transcription.delta":
                 self.transcript += data["delta"]
-    def enqueue_audio_chunk(self, sr, arr):
-        if not self.queue.full():
-            asyncio.run_coroutine_threadsafe(self.queue.put((sr, arr)), asyncio.get_event_loop())
 def create_ws():
     cid = str(uuid.uuid4())
     client = WebSocketClient(WS_URI, HEADERS, cid)
@@ -68,13 +80,15 @@ def create_ws():
     return cid
 def send_audio(chunk, cid):
-    if cid not in connections: return "Connecting..."
     sr, arr = chunk
     connections[cid].enqueue_audio_chunk(sr, arr)
     return connections[cid].transcript
 def clear_transcript(cid):
-    if cid in connections: connections[cid].transcript = ""
     return ""
 # ============ Chat Assistant ============
@@ -116,7 +130,6 @@ def handle_chat(user_input, history, thread_id, image_url):
 with gr.Blocks(theme=gr.themes.Soft()) as app:
     gr.Markdown("# 📄 Document AI Assistant")
-    # STATES
     chat_state = gr.State([])
     thread_state = gr.State()
     image_state = gr.State()
@@ -141,7 +154,7 @@ with gr.Blocks(theme=gr.themes.Soft()) as app:
                     voice_transcript = gr.Textbox(label="Transcript", lines=2, interactive=False)
                 clear_btn = gr.Button("🧹 Clear Transcript")
-    # FUNCTIONAL CONNECTIONS
     def toggle_voice(curr):
         return not curr, gr.update(visible=not curr)

+# top of the file
 import gradio as gr
 import os, time, re, json, base64, asyncio, threading, uuid, io
 import numpy as np
 import soundfile as sf
 from pydub import AudioSegment
 from openai import OpenAI
+from websockets import connect
 from dotenv import load_dotenv
+# Load secrets
 load_dotenv()
 OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
 ASSISTANT_ID = os.getenv("ASSISTANT_ID")
 WS_URI = "wss://api.openai.com/v1/realtime?intent=transcription"
 connections = {}
+# WebSocket Client
 class WebSocketClient:
     def __init__(self, uri, headers, client_id):
+        self.uri = uri
+        self.headers = headers
+        self.client_id = client_id
         self.websocket = None
         self.queue = asyncio.Queue(maxsize=10)
         self.transcript = ""
+        self.loop = asyncio.new_event_loop()
     async def connect(self):
+        try:
+            self.websocket = await connect(self.uri, additional_headers=self.headers)
+            with open("openai_transcription_settings.json", "r") as f:
+                await self.websocket.send(f.read())
+            await asyncio.gather(self.receive_messages(), self.send_audio_chunks())
+        except Exception as e:
+            print(f"🔴 WebSocket Connection Failed: {e}")
     def run(self):
+        asyncio.set_event_loop(self.loop)
+        self.loop.run_until_complete(self.connect())
+    def enqueue_audio_chunk(self, sr, arr):
+        if not self.queue.full():
+            asyncio.run_coroutine_threadsafe(self.queue.put((sr, arr)), self.loop)
     async def send_audio_chunks(self):
         while True:
             sr, arr = await self.queue.get()
+            if arr.ndim > 1:
+                arr = arr.mean(axis=1)
+            if np.max(np.abs(arr)) > 0:
+                arr = arr / np.max(np.abs(arr))
             int16 = (arr * 32767).astype(np.int16)
+            buf = io.BytesIO()
+            sf.write(buf, int16, sr, format='WAV', subtype='PCM_16')
             audio = AudioSegment.from_file(buf, format="wav").set_frame_rate(24000)
+            out = io.BytesIO()
+            audio.export(out, format="wav")
+            out.seek(0)
             await self.websocket.send(json.dumps({
                 "type": "input_audio_buffer.append",
                 "audio": base64.b64encode(out.read()).decode()
             if data["type"] == "conversation.item.input_audio_transcription.delta":
                 self.transcript += data["delta"]
+# Real-time transcription connection manager
 def create_ws():
     cid = str(uuid.uuid4())
     client = WebSocketClient(WS_URI, HEADERS, cid)
     return cid
 def send_audio(chunk, cid):
+    if not cid or cid not in connections:
+        return "Connecting..."
     sr, arr = chunk
     connections[cid].enqueue_audio_chunk(sr, arr)
     return connections[cid].transcript
 def clear_transcript(cid):
+    if cid in connections:
+        connections[cid].transcript = ""
     return ""
 # ============ Chat Assistant ============
 with gr.Blocks(theme=gr.themes.Soft()) as app:
     gr.Markdown("# 📄 Document AI Assistant")
     chat_state = gr.State([])
     thread_state = gr.State()
     image_state = gr.State()
                     voice_transcript = gr.Textbox(label="Transcript", lines=2, interactive=False)
                 clear_btn = gr.Button("🧹 Clear Transcript")
+    # Functional bindings
     def toggle_voice(curr):
         return not curr, gr.update(visible=not curr)