documentaitestv4

Sleeping

App Files Files Community

IAMTFRMZA commited on 18 days ago

Commit

51a57c1

verified ·

1 Parent(s): b1ba257

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -22

app.py CHANGED Viewed

@@ -13,6 +13,10 @@ from pydub import AudioSegment
 import time
 import uuid
 class LogColors:
     OK = '\033[94m'
     SUCCESS = '\033[92m'
@@ -31,11 +35,13 @@ WEBSOCKET_HEADERS = {
     "OpenAI-Beta": "realtime=v1"
 }
-css = """
-"""
 connections = {}
 class WebSocketClient:
     def __init__(self, uri: str, headers: dict, client_id: str):
         self.uri = uri
@@ -51,7 +57,6 @@ class WebSocketClient:
             self.websocket = await connect(self.uri, additional_headers=self.headers)
             print(f"{LogColors.SUCCESS}Connected to OpenAI WebSocket{LogColors.ENDC}\n")
-            # Send session settings to OpenAI
             with open("openai_transcription_settings.json", "r") as f:
                 settings = f.read()
                 await self.websocket.send(settings)
@@ -73,7 +78,7 @@ class WebSocketClient:
                 delta = message_object["delta"]
                 self.transcript += delta
             elif message_object["type"] == "conversation.item.input_audio_transcription.completed":
-                self.transcript += ' ' if len(self.transcript) and self.transcript[-1] != ' ' else ''
         else:
             print(f"{LogColors.ERROR}Error: {message}{LogColors.ENDC}")
@@ -82,23 +87,18 @@ class WebSocketClient:
             audio_data = await self.queue.get()
             sample_rate, audio_array = audio_data
             if self.websocket:
-                # Convert to mono if stereo
                 if audio_array.ndim > 1:
                     audio_array = audio_array.mean(axis=1)
-                # Convert to float32 and normalize
                 audio_array = audio_array.astype(np.float32)
                 audio_array /= np.max(np.abs(audio_array)) if np.max(np.abs(audio_array)) > 0 else 1.0
-                # Convert to 16-bit PCM
                 audio_array_int16 = (audio_array * 32767).astype(np.int16)
                 audio_buffer = io.BytesIO()
                 sf.write(audio_buffer, audio_array_int16, sample_rate, format='WAV', subtype='PCM_16')
                 audio_buffer.seek(0)
                 audio_segment = AudioSegment.from_file(audio_buffer, format="wav")
                 resampled_audio = audio_segment.set_frame_rate(24000)
                 output_buffer = io.BytesIO()
                 resampled_audio.export(output_buffer, format="wav")
                 output_buffer.seek(0)
@@ -124,6 +124,10 @@ class WebSocketClient:
         print(f"{LogColors.WARNING}WebSocket connection closed{LogColors.ENDC}")
 def send_audio_chunk(new_chunk: gr.Audio, client_id: str):
     if client_id not in connections:
         return "Connection is being established, please try again in a few seconds."
@@ -142,21 +146,34 @@ def clear_transcript(client_id):
         connections[client_id].transcript = ""
     return ""
-if __name__ == "__main__":
-    with gr.Blocks(css=css, theme=gr.themes.Soft()) as demo:
-        gr.Markdown(f"# Realtime transcription demo")
         with gr.Row():
-            with gr.Column():
-                output_textbox = gr.Textbox(label="Transcript", value="", lines=7, interactive=False, autoscroll=True)
-        with gr.Row():
             with gr.Column(scale=5):
                 audio_input = gr.Audio(streaming=True, format="wav")
             with gr.Column():
-                clear_button = gr.Button("Clear")
         client_id = gr.State()
         clear_button.click(clear_transcript, inputs=[client_id], outputs=[output_textbox])
-        audio_input.stream(send_audio_chunk, [audio_input, client_id], [output_textbox], stream_every=0.5, concurrency_limit=None)
         demo.load(create_new_websocket_connection, outputs=[client_id])
-    demo.launch()

 import time
 import uuid
+# =========================
+# Setup & Configuration
+# =========================
 class LogColors:
     OK = '\033[94m'
     SUCCESS = '\033[92m'
     "OpenAI-Beta": "realtime=v1"
 }
+css = ""
 connections = {}
+# =========================
+# WebSocket Client Class
+# =========================
 class WebSocketClient:
     def __init__(self, uri: str, headers: dict, client_id: str):
         self.uri = uri
             self.websocket = await connect(self.uri, additional_headers=self.headers)
             print(f"{LogColors.SUCCESS}Connected to OpenAI WebSocket{LogColors.ENDC}\n")
             with open("openai_transcription_settings.json", "r") as f:
                 settings = f.read()
                 await self.websocket.send(settings)
                 delta = message_object["delta"]
                 self.transcript += delta
             elif message_object["type"] == "conversation.item.input_audio_transcription.completed":
+                self.transcript += ' ' if self.transcript and self.transcript[-1] != ' ' else ''
         else:
             print(f"{LogColors.ERROR}Error: {message}{LogColors.ENDC}")
             audio_data = await self.queue.get()
             sample_rate, audio_array = audio_data
             if self.websocket:
                 if audio_array.ndim > 1:
                     audio_array = audio_array.mean(axis=1)
                 audio_array = audio_array.astype(np.float32)
                 audio_array /= np.max(np.abs(audio_array)) if np.max(np.abs(audio_array)) > 0 else 1.0
                 audio_array_int16 = (audio_array * 32767).astype(np.int16)
                 audio_buffer = io.BytesIO()
                 sf.write(audio_buffer, audio_array_int16, sample_rate, format='WAV', subtype='PCM_16')
                 audio_buffer.seek(0)
                 audio_segment = AudioSegment.from_file(audio_buffer, format="wav")
                 resampled_audio = audio_segment.set_frame_rate(24000)
                 output_buffer = io.BytesIO()
                 resampled_audio.export(output_buffer, format="wav")
                 output_buffer.seek(0)
         print(f"{LogColors.WARNING}WebSocket connection closed{LogColors.ENDC}")
+# =========================
+# Helper Functions
+# =========================
 def send_audio_chunk(new_chunk: gr.Audio, client_id: str):
     if client_id not in connections:
         return "Connection is being established, please try again in a few seconds."
         connections[client_id].transcript = ""
     return ""
+# =========================
+# Gradio UI Sections
+# =========================
+with gr.Blocks(css=css, theme=gr.themes.Soft()) as demo:
+    with gr.Tab("💬 Chat Assistant"):
+        gr.Markdown("### Chat Section (Coming Soon)")
+        gr.Textbox(label="Your question")
+        gr.Button("Send")
+    with gr.Tab("📄 Document Viewer"):
+        gr.Markdown("### Upload and View Documents")
+        gr.File(label="Upload Document", file_types=[".pdf", ".txt", ".docx"])
+        gr.Textbox(label="Document Preview", lines=10)
+    with gr.Tab("🎤 Voice Transcription"):
+        gr.Markdown("### Realtime Voice-to-Text Transcription")
+        with gr.Row():
+            output_textbox = gr.Textbox(label="Transcript", lines=7, interactive=False, autoscroll=True)
         with gr.Row():
             with gr.Column(scale=5):
                 audio_input = gr.Audio(streaming=True, format="wav")
             with gr.Column():
+                clear_button = gr.Button("Clear Transcript")
         client_id = gr.State()
         clear_button.click(clear_transcript, inputs=[client_id], outputs=[output_textbox])
+        audio_input.stream(send_audio_chunk, [audio_input, client_id], [output_textbox], stream_every=0.5)
         demo.load(create_new_websocket_connection, outputs=[client_id])
+demo.launch()