Spaces:

IAMTFRMZA
/

documentaitest

Running

App Files Files Community

IAMTFRMZA commited on 28 days ago

Commit

81240ab

verified ·

1 Parent(s): 887c5ba

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -47

app.py CHANGED Viewed

@@ -5,10 +5,9 @@ import re
 import requests
 import tempfile
 import wave
-import av
 import numpy as np
 from openai import OpenAI
-from streamlit_webrtc import webrtc_streamer, WebRtcMode
 # ------------------ Page Config ------------------
 st.set_page_config(page_title="Document AI Assistant", layout="wide")
@@ -26,9 +25,9 @@ if not OPENAI_API_KEY or not ASSISTANT_ID:
 client = OpenAI(api_key=OPENAI_API_KEY)
 # ------------------ Session State Init ------------------
-for key in ["messages", "thread_id", "image_url", "audio_buffer", "transcript"]:
     if key not in st.session_state:
-        st.session_state[key] = [] if key == "messages" or key == "audio_buffer" else None
 # ------------------ Whisper Transcription ------------------
 def transcribe_audio(file_path, api_key):
@@ -41,23 +40,13 @@ def transcribe_audio(file_path, api_key):
         )
     return response.json().get("text", None)
-# ------------------ Audio Save Helper ------------------
-def save_wav(frames, path, rate=48000):
-    audio_data = np.concatenate(frames)
-    with wave.open(path, 'wb') as wf:
-        wf.setnchannels(1)
-        wf.setsampwidth(2)
-        wf.setframerate(rate)
-        wf.writeframes(audio_data.tobytes())
-# ------------------ Sidebar Controls ------------------
 st.sidebar.header("🔧 Settings")
 if st.sidebar.button("🔄 Clear Chat"):
     st.session_state.messages = []
     st.session_state.thread_id = None
     st.session_state.image_url = None
     st.session_state.transcript = None
-    st.session_state.audio_buffer = []
     st.rerun()
 show_image = st.sidebar.checkbox("📖 Show Document Image", value=True)
@@ -68,44 +57,31 @@ with col1:
     if show_image and st.session_state.image_url:
         st.image(st.session_state.image_url, caption="📑 Extracted Page", use_container_width=True)
-# ------------------ Chat + Voice Panel ------------------
 with col2:
     for message in st.session_state.messages:
         st.chat_message(message["role"]).write(message["content"])
-    st.subheader("🎙️ Real-time Voice Input")
-    is_recording = st.checkbox("🎤 Start Recording")
-    if is_recording:
-        audio_ctx = webrtc_streamer(key="voice", mode=WebRtcMode.SENDONLY)
-        if audio_ctx.audio_receiver:
-            try:
-                audio_frames = []
-                while True:
-                    result = audio_ctx.audio_receiver.recv()
-                    audio_data = result.to_ndarray()
-                    audio_frames.append(audio_data)
-                    if len(audio_frames) > 30:
-                        break
-                tmp_path = tempfile.NamedTemporaryFile(delete=False, suffix=".wav").name
-                save_wav(audio_frames, tmp_path)
-                st.audio(tmp_path, format="audio/wav")
-                with st.spinner("🧠 Transcribing..."):
-                    transcript = transcribe_audio(tmp_path, OPENAI_API_KEY)
-                if transcript:
-                    st.session_state.transcript = transcript
-                    st.success("📝 Transcript: " + transcript)
-                    with open(tmp_path, "rb") as f:
-                        st.download_button("⬇️ Download Audio", f, file_name="recording.wav", mime="audio/wav")
-            except Exception as e:
-                st.error(f"Recording failed: {str(e)}")
-    # Confirm & send transcript
     if st.session_state.transcript:
         if st.button("✅ Send Transcript to Assistant"):
             user_input = st.session_state.transcript
@@ -138,6 +114,7 @@ with col2:
                 st.chat_message("assistant").write(assistant_message)
                 st.session_state.messages.append({"role": "assistant", "content": assistant_message})
                 image_match = re.search(
                     r'https://raw\.githubusercontent\.com/AndrewLORTech/surgical-pathology-manual/main/[\w\-/]*\.png',
                     assistant_message
@@ -148,8 +125,9 @@ with col2:
             except Exception as e:
                 st.error(f"❌ Error: {str(e)}")
-    # Text input fallback
     if prompt := st.chat_input("💬 Or type your question..."):
         st.session_state.messages.append({"role": "user", "content": prompt})
         st.chat_message("user").write(prompt)
-        # Same logic could be duplicated here or modularized

 import requests
 import tempfile
 import wave
 import numpy as np
 from openai import OpenAI
+from streamlit_audio_recorder import audio_recorder
 # ------------------ Page Config ------------------
 st.set_page_config(page_title="Document AI Assistant", layout="wide")
 client = OpenAI(api_key=OPENAI_API_KEY)
 # ------------------ Session State Init ------------------
+for key in ["messages", "thread_id", "image_url", "transcript"]:
     if key not in st.session_state:
+        st.session_state[key] = [] if key == "messages" else None
 # ------------------ Whisper Transcription ------------------
 def transcribe_audio(file_path, api_key):
         )
     return response.json().get("text", None)
+# ------------------ Sidebar & Layout ------------------
 st.sidebar.header("🔧 Settings")
 if st.sidebar.button("🔄 Clear Chat"):
     st.session_state.messages = []
     st.session_state.thread_id = None
     st.session_state.image_url = None
     st.session_state.transcript = None
     st.rerun()
 show_image = st.sidebar.checkbox("📖 Show Document Image", value=True)
     if show_image and st.session_state.image_url:
         st.image(st.session_state.image_url, caption="📑 Extracted Page", use_container_width=True)
+# ------------------ Chat + Mic Panel ------------------
 with col2:
     for message in st.session_state.messages:
         st.chat_message(message["role"]).write(message["content"])
+    st.subheader("🎙️ Ask with Your Voice")
+    audio_bytes = audio_recorder(pause_threshold=3.0, energy_threshold=-1.0, sample_rate=44100)
+    if audio_bytes:
+        # Save temporary WAV file
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmpfile:
+            tmpfile.write(audio_bytes)
+            tmp_path = tmpfile.name
+        st.audio(tmp_path, format="audio/wav")
+        with st.spinner("🧠 Transcribing..."):
+            transcript = transcribe_audio(tmp_path, OPENAI_API_KEY)
+        if transcript:
+            st.success("📝 Transcript: " + transcript)
+            st.session_state.transcript = transcript
+    # Submit Transcript to Assistant
     if st.session_state.transcript:
         if st.button("✅ Send Transcript to Assistant"):
             user_input = st.session_state.transcript
                 st.chat_message("assistant").write(assistant_message)
                 st.session_state.messages.append({"role": "assistant", "content": assistant_message})
+                # Extract GitHub image if available
                 image_match = re.search(
                     r'https://raw\.githubusercontent\.com/AndrewLORTech/surgical-pathology-manual/main/[\w\-/]*\.png',
                     assistant_message
             except Exception as e:
                 st.error(f"❌ Error: {str(e)}")
+    # Fallback text input
     if prompt := st.chat_input("💬 Or type your question..."):
         st.session_state.messages.append({"role": "user", "content": prompt})
         st.chat_message("user").write(prompt)
+        st.session_state.transcript = prompt  # Treat like voice input for now