Spaces:

IAMTFRMZA
/

documentaitest

Sleeping

App Files Files Community

IAMTFRMZA commited on 16 days ago

Commit

1c29e60

verified ·

1 Parent(s): a0f6b11

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -46

app.py CHANGED Viewed

@@ -1,6 +1,4 @@
 import streamlit as st
-from streamlit_webrtc import webrtc_streamer, AudioProcessorBase
-import av
 import numpy as np
 import tempfile
 import soundfile as sf
@@ -8,15 +6,7 @@ import os
 import time
 import re
 from openai import OpenAI
-# ------------------ Audio Processor ------------------
-class AudioRecorder(AudioProcessorBase):
-    def __init__(self):
-        self.recorded_frames = []
-    def recv(self, frame: av.AudioFrame) -> av.AudioFrame:
-        self.recorded_frames.append(frame)
-        return frame
 # ------------------ App Configuration ------------------
 st.set_page_config(page_title="Document AI Assistant", layout="wide")
@@ -71,40 +61,34 @@ with col1:
 # ------------------ Voice Input Processing ------------------
 with col2:
     st.markdown("### 🎙️ Voice Input (Optional)")
-    webrtc_ctx = webrtc_streamer(
-        key="voice-input",
-        mode="SENDONLY",
-        audio_processor_factory=AudioRecorder,
-        media_stream_constraints={"audio": True, "video": False},
-        async_processing=True,
-    )
-    if webrtc_ctx.audio_processor and not webrtc_ctx.state.playing and webrtc_ctx.audio_processor.recorded_frames:
         st.info("Transcribing your voice...")
-        wav_path = tempfile.mktemp(suffix=".wav")
-        with open(wav_path, "wb") as f:
-            frames = webrtc_ctx.audio_processor.recorded_frames
-            audio = frames[0].to_ndarray()
-            for frame in frames[1:]:
-                audio = np.concatenate((audio, frame.to_ndarray()), axis=1)
-            sf.write(f, audio.T, samplerate=frames[0].sample_rate, format="WAV")
-        audio_file = open(wav_path, "rb")
-        try:
-            whisper_result = client.audio.transcriptions.create(model="whisper-1", file=audio_file, response_format="json")
-            transcript = whisper_result.text.strip()
-            confidence = whisper_result.get("confidence", "N/A")
-            if transcript:
-                st.success(f"Recognized: {transcript}")
-                st.caption(f"🧠 Confidence: {confidence}")
-                if preview_toggle:
-                    st.session_state.transcript_preview = transcript
-                else:
-                    st.session_state.messages.append({"role": "user", "content": transcript})
-                    st.rerun()
-        except Exception as e:
-            st.error(f"❌ Transcription failed: {str(e)}")
     if st.session_state.transcript_preview:
         st.markdown("---")
@@ -151,7 +135,7 @@ with col2:
             st.session_state.messages.append({"role": "assistant", "content": assistant_message})
             image_match = re.search(
-                r'https://raw\\.githubusercontent\\.com/AndrewLORTech/surgical-pathology-manual/main/[\\w\\-/]*\\.png',
                 assistant_message
             )
             if image_match:
@@ -164,4 +148,4 @@ with col2:
     for message in reversed(st.session_state.messages):
         role, content = message["role"], message["content"]
-        st.chat_message(role).write(content)

 import streamlit as st
 import numpy as np
 import tempfile
 import soundfile as sf
 import time
 import re
 from openai import OpenAI
+from streamlit_audio_recorder import audio_recorder
 # ------------------ App Configuration ------------------
 st.set_page_config(page_title="Document AI Assistant", layout="wide")
 # ------------------ Voice Input Processing ------------------
 with col2:
     st.markdown("### 🎙️ Voice Input (Optional)")
+    audio_bytes = audio_recorder(pause_threshold=2.0)
+    if audio_bytes:
         st.info("Transcribing your voice...")
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
+            tmp.write(audio_bytes)
+            tmp_path = tmp.name
+        with open(tmp_path, "rb") as audio_file:
+            try:
+                whisper_result = client.audio.transcriptions.create(
+                    model="whisper-1",
+                    file=audio_file,
+                    response_format="json"
+                )
+                transcript = whisper_result.text.strip()
+                confidence = whisper_result.get("confidence", "N/A")
+                if transcript:
+                    st.success(f"Recognized: {transcript}")
+                    st.caption(f"🧠 Confidence: {confidence}")
+                    if preview_toggle:
+                        st.session_state.transcript_preview = transcript
+                    else:
+                        st.session_state.messages.append({"role": "user", "content": transcript})
+                        st.rerun()
+            except Exception as e:
+                st.error(f"❌ Transcription failed: {str(e)}")
     if st.session_state.transcript_preview:
         st.markdown("---")
             st.session_state.messages.append({"role": "assistant", "content": assistant_message})
             image_match = re.search(
+                r'https://raw\.githubusercontent\.com/AndrewLORTech/surgical-pathology-manual/main/[\w\-/]*\.png',
                 assistant_message
             )
             if image_match:
     for message in reversed(st.session_state.messages):
         role, content = message["role"], message["content"]
+        st.chat_message(role).write(content)