Spaces:

IAMTFRMZA
/

documentaitest

Running

App Files Files Community

documentaitest / app.py

IAMTFRMZA

Update app.py

8077eca verified about 1 month ago

raw

history blame

6.37 kB

	import streamlit as st
	import os
	import time
	import re
	import requests
	import tempfile
	from openai import OpenAI
	from streamlit_webrtc import webrtc_streamer, WebRtcMode
	import av
	import numpy as np
	import wave

	# ------------------ Configuration ------------------
	st.set_page_config(page_title="Document AI Assistant", layout="wide")
	st.title("📄 Document AI Assistant")
	st.caption("Chat with an AI Assistant on your medical/pathology documents")

	# ------------------ Secrets ------------------
	OPENAI_API_KEY = os.environ.get("OPENAI_API_KEY")
	ASSISTANT_ID = os.environ.get("ASSISTANT_ID")

	if not OPENAI_API_KEY or not ASSISTANT_ID:
	st.error("❌ Missing secrets. Please set both OPENAI_API_KEY and ASSISTANT_ID in your Hugging Face Space settings.")
	st.stop()

	client = OpenAI(api_key=OPENAI_API_KEY)

	# ------------------ Session State ------------------
	if "messages" not in st.session_state:
	st.session_state.messages = []
	if "thread_id" not in st.session_state:
	st.session_state.thread_id = None
	if "image_url" not in st.session_state:
	st.session_state.image_url = None
	if "audio_buffer" not in st.session_state:
	st.session_state.audio_buffer = []

	# ------------------ Whisper Transcription ------------------
	def transcribe_audio(file_path, api_key):
	with open(file_path, "rb") as f:
	response = requests.post(
	"https://api.openai.com/v1/audio/transcriptions",
	headers={"Authorization": f"Bearer {api_key}"},
	files={"file": f},
	data={"model": "whisper-1"}
	)
	return response.json().get("text", None)

	# ------------------ Audio Recorder ------------------
	class AudioProcessor:
	def __init__(self):
	self.frames = []

	def recv(self, frame):
	audio = frame.to_ndarray()
	self.frames.append(audio)
	return av.AudioFrame.from_ndarray(audio, layout="mono")

	def save_wav(frames, path, rate=48000):
	audio_data = np.concatenate(frames)
	with wave.open(path, 'wb') as wf:
	wf.setnchannels(1)
	wf.setsampwidth(2)
	wf.setframerate(rate)
	wf.writeframes(audio_data.tobytes())

	# ------------------ Sidebar & Image Panel ------------------
	st.sidebar.header("🔧 Settings")
	if st.sidebar.button("🔄 Clear Chat"):
	st.session_state.messages = []
	st.session_state.thread_id = None
	st.session_state.image_url = None
	st.rerun()

	show_image = st.sidebar.checkbox("📖 Show Document Image", value=True)
	col1, col2 = st.columns([1, 2])

	with col1:
	if show_image and st.session_state.image_url:
	st.image(st.session_state.image_url, caption="📑 Extracted Page", use_container_width=True)

	# ------------------ Chat & Voice Panel ------------------
	with col2:
	for message in st.session_state.messages:
	st.chat_message(message["role"]).write(message["content"])

	# 🎤 Real-time voice recorder
	st.subheader("🎙️ Ask with your voice")
	audio_ctx = webrtc_streamer(
	key="speech",
	mode=WebRtcMode.SENDONLY,
	in_audio_enabled=True,
	audio_receiver_size=256
	)

	if audio_ctx.audio_receiver:
	audio_processor = AudioProcessor()
	result = audio_ctx.audio_receiver.recv()
	audio_data = result.to_ndarray()
	st.session_state.audio_buffer.append(audio_data)

	# ⏱️ Auto stop after ~3 seconds
	if len(st.session_state.audio_buffer) > 30:
	tmp_path = tempfile.NamedTemporaryFile(delete=False, suffix=".wav").name
	save_wav(st.session_state.audio_buffer, tmp_path)
	st.session_state.audio_buffer = []

	with st.spinner("🧠 Transcribing..."):
	transcript = transcribe_audio(tmp_path, OPENAI_API_KEY)

	if transcript:
	st.success("📝 " + transcript)
	st.session_state.messages.append({"role": "user", "content": transcript})
	st.chat_message("user").write(transcript)
	prompt = transcript

	try:
	if st.session_state.thread_id is None:
	thread = client.beta.threads.create()
	st.session_state.thread_id = thread.id

	thread_id = st.session_state.thread_id

	client.beta.threads.messages.create(
	thread_id=thread_id,
	role="user",
	content=prompt
	)

	run = client.beta.threads.runs.create(
	thread_id=thread_id,
	assistant_id=ASSISTANT_ID
	)

	with st.spinner("Assistant is thinking..."):
	while True:
	run_status = client.beta.threads.runs.retrieve(
	thread_id=thread_id,
	run_id=run.id
	)
	if run_status.status == "completed":
	break
	time.sleep(1)

	messages = client.beta.threads.messages.list(thread_id=thread_id)
	assistant_message = None
	for message in reversed(messages.data):
	if message.role == "assistant":
	assistant_message = message.content[0].text.value
	break

	st.chat_message("assistant").write(assistant_message)
	st.session_state.messages.append({"role": "assistant", "content": assistant_message})

	image_match = re.search(
	r'https://raw\.githubusercontent\.com/AndrewLORTech/surgical-pathology-manual/main/[\w\-/]*\.png',
	assistant_message
	)
	if image_match:
	st.session_state.image_url = image_match.group(0)

	except Exception as e:
	st.error(f"❌ Error: {str(e)}")

	# Fallback text input
	if prompt := st.chat_input("💬 Or type your question..."):
	st.session_state.messages.append({"role": "user", "content": prompt})
	st.chat_message("user").write(prompt)
	# You can add assistant logic here if you want it to run immediately