Spaces:

BaRiDo
/

IBMHackRAG

Sleeping

App Files Files Community

BaRiDo commited on Feb 24

Commit

0527179

verified ·

1 Parent(s): ac88d86

Update app.py

Browse files

Files changed (1) hide show

app.py +70 -52

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ import sentence_transformers
 import streamlit as st
 VECTOR_DB ="bbf2ef09-875b-4737-a793-499409a108b0"
 IBM_API_KEY = os.getenv("IBM_API_KEY")
@@ -13,8 +14,8 @@ IBM_URL_CHAT = "https://us-south.ml.cloud.ibm.com/ml/v1/text/chat?version=2023-1
 if "messages" not in st.session_state:
     st.session_state.messages = []
-if "user_input" not in st.session_state:
-    st.session_state.user_input = ""
 # Load the banner image from the same directory
 st.image("banner_policy.jpg", use_container_width=True)
@@ -47,8 +48,8 @@ def IBM_chat (messages):
         "project_id": os.getenv("IBM_PROJECT_ID"),
         "messages": messages,
         "max_tokens": 10000,
-        "temperature": 0.3,
-        "time_limit": 20000
     }
     headers = {
     	"Accept": "application/json",
@@ -80,13 +81,14 @@ if "client" not in st.session_state:
     with st.spinner("⏳ Waking the wizard ..."):
         IBM_token()
         wml_credentials = get_credentials()
-        st.session_state.client = APIClient(credentials=wml_credentials, project_id=os.getenv("IBM_PROJECT_ID"))
-        vector_index_details = st.session_state.client.data_assets.get_details(VECTOR_DB)
-        st.session_state.vector_index_properties = vector_index_details["entity"]["vector_index"]
-        st.session_state.top_n = 20 if st.session_state.vector_index_properties["settings"].get("rerank") else int(st.session_state.vector_index_properties["settings"]["top_k"])
-        st.session_state.emb = SentenceTransformerEmbeddings('sentence-transformers/all-MiniLM-L6-v2')
 def rerank( client, documents, query, top_n ):
     from ibm_watsonx_ai.foundation_models import Rerank
@@ -121,11 +123,16 @@ import random
 import string
 def hydrate_chromadb():
-    data = st.session_state.client.data_assets.get_content(VECTOR_DB)
-    content = gzip.decompress(data)
-    stringified_vectors = str(content, "utf-8")
-    vectors = json.loads(stringified_vectors)
     chroma_client = chromadb.PersistentClient(path="./chroma_db")
     # make sure collection is empty if it already existed
@@ -143,20 +150,23 @@ def hydrate_chromadb():
     for vector in vectors:
         vector_embeddings.append(vector["embedding"])
-        vector_documents.append(vector["content"])
-        metadata = vector["metadata"]
-        lines = metadata["loc"]["lines"]
         clean_metadata = {}
-        clean_metadata["asset_id"] = metadata["asset_id"]
-        clean_metadata["asset_name"] = metadata["asset_name"]
-        clean_metadata["url"] = metadata["url"]
-        clean_metadata["from"] = lines["from"]
-        clean_metadata["to"] = lines["to"]
         vector_metadatas.append(clean_metadata)
-        asset_id = vector["metadata"]["asset_id"]
         random_string = ''.join(random.choices(string.ascii_uppercase + string.digits, k=10))
-        id = "{}:{}-{}-{}".format(asset_id, lines["from"], lines["to"], random_string)
-        vector_ids.append(id)
     collection.add(
         embeddings=vector_embeddings,
@@ -180,57 +190,65 @@ def proximity_search( question ):
     documents = list(reversed(query_result["documents"][0]))
-    if st.session_state.vector_index_properties["settings"].get("rerank"):
-        documents = rerank(st.session_state.client, documents, question, st.session_state.vector_index_properties["settings"]["top_k"])
     return "\n".join(documents)
 # Streamlit UI
 st.title("🔍 Synergy Scroll")
 st.subheader("AI-Powered Project & Policy Matching")
 st.write("Explore the Lab Lab Library to find relevant past projects that align with your policy or new initiative.")
 # Suggested search queries as buttons
 col1, col2, col3 = st.columns(3)
 with col1:
-    q = "Projects to link with Solarpunk"
     if st.button(q):
-        st.session_state["user_input"] = q
 with col2:
-    q = "Projects to implement DEI"
     if st.button(q):
-        st.session_state["user_input"] = q
 with col3:
-    q = "Projects with decentral focus"
     if st.button(q):
-        st.session_state["user_input"] = q
 # User input in Streamlit
-user_input = st.text_input("Describe your policy or project to find relevant Lab Lab projects...", value=st.session_state.user_input, key="text_input")
-if user_input:
-    st.session_state["user_input"] = user_input
 # Display chat history
 #for message in st.session_state.messages:
 #    with st.chat_message(message["role"]):
 #        st.markdown(message["content"])
-if st.session_state["user_input"]:
-    # add the submissions as context (only in prompt, not in history)
-    grounding = proximity_search(st.session_state["user_input"])
-    prompt = st.session_state["user_input"] + ". For a project share the image as markdown and mention the url as well. The context for the question: " + grounding;
-    messages = st.session_state.messages.copy()
-    messages.append({"role": "user", "content": prompt})
-    st.session_state.messages.append({"role": "user", "content": st.session_state["user_input"]})
-    # Get response from IBM
-    with st.spinner("Thinking..."):
-        assistant_reply = IBM_chat(messages)
-    # Display assistant message
-    st.chat_message("assistant").markdown(assistant_reply)
-    st.session_state.messages.append({"role": "assistant", "content": assistant_reply})

 import streamlit as st
 VECTOR_DB ="bbf2ef09-875b-4737-a793-499409a108b0"
+JSON_DB = "f49e274a-b5c3-4573-81a2-32df8f96e97b"
 IBM_API_KEY = os.getenv("IBM_API_KEY")
 if "messages" not in st.session_state:
     st.session_state.messages = []
+if "query" not in st.session_state:
+    st.session_state.query = ""
 # Load the banner image from the same directory
 st.image("banner_policy.jpg", use_container_width=True)
         "project_id": os.getenv("IBM_PROJECT_ID"),
         "messages": messages,
         "max_tokens": 10000,
+        "temperature": 0.7,
+        "time_limit": 30000
     }
     headers = {
     	"Accept": "application/json",
     with st.spinner("⏳ Waking the wizard ..."):
         IBM_token()
         wml_credentials = get_credentials()
+        st.session_state.client = APIClient(credentials=wml_credentials, project_id=os.getenv("IBM_PROJECT_ID"))
+        #vector_index_details = st.session_state.client.data_assets.get_details(VECTOR_DB)
+        #st.session_state.vector_index_properties = vector_index_details["entity"]["vector_index"]
+        #st.session_state.top_n = 20 if st.session_state.vector_index_properties["settings"].get("rerank") else int(st.session_state.vector_index_properties["settings"]["top_k"])
+        st.session_state.emb = SentenceTransformerEmbeddings('sentence-transformers/all-MiniLM-L6-v2')
+        st.session_state.top_n = 10
 def rerank( client, documents, query, top_n ):
     from ibm_watsonx_ai.foundation_models import Rerank
 import string
 def hydrate_chromadb():
+    #data = st.session_state.client.data_assets.get_content(JSON_DB)
+    #stringified_vectors = str(content, "utf-8")
+    with open("lablab - json.txt", "r", encoding="utf-8") as f:
+    #with open("lablab.gzip", "rb") as f:
+        gz = f.read()
+    #content = gzip.decompress(gz)
+    #stringified_vectors = str(content, "utf-8")
+    vectors = json.loads(gz)
     chroma_client = chromadb.PersistentClient(path="./chroma_db")
     # make sure collection is empty if it already existed
     for vector in vectors:
         vector_embeddings.append(vector["embedding"])
+        vector_documents.append(vector["content"]
+                               )
+        #metadata = vector["metadata"]
+        #lines = metadata["loc"]["lines"]
         clean_metadata = {}
+        clean_metadata["source"] = "Lablab website"
+        #clean_metadata["asset_id"] = metadata["asset_id"]
+        #clean_metadata["asset_name"] = metadata["asset_name"]
+        #clean_metadata["url"] = metadata["url"]
+        #clean_metadata["from"] = lines["from"]
+        #clean_metadata["to"] = lines["to"]
         vector_metadatas.append(clean_metadata)
+        #asset_id = vector["metadata"]["asset_id"]
         random_string = ''.join(random.choices(string.ascii_uppercase + string.digits, k=10))
+        #id = "{}:{}-{}-{}".format(asset_id, lines["from"], lines["to"], random_string)
+        vector_ids.append(random_string)
     collection.add(
         embeddings=vector_embeddings,
     documents = list(reversed(query_result["documents"][0]))
+    #if st.session_state.vector_index_properties["settings"].get("rerank"):
+    #    documents = rerank(st.session_state.client, documents, question, 10) # st.session_state.vector_index_properties["settings"]["top_k"])
     return "\n".join(documents)
+def do_query(query):
+    # add the submissions as context (only in prompt, not in history)
+    grounding = proximity_search(query)
+    prompt = query + ". For a project share the image as markdown and mention the url as well. The context for the question: " + grounding;
+    #messages = st.session_state.messages.copy()
+    #messages.append({"role": "user", "content": prompt})
+    #st.session_state.messages.append({"role": "user", "content": query})
+    messages = [{"role": "user", "content": prompt}]
+    # Get response from IBM
+    with st.spinner("Thinking..."):
+        assistant_reply = IBM_chat(messages)
+    # Display assistant message
+    st.chat_message("assistant").markdown(assistant_reply)
+    #st.session_state.messages.append({"role": "assistant", "content": assistant_reply})
+    #st.session_state.query = query
 # Streamlit UI
 st.title("🔍 Synergy Scroll")
 st.subheader("AI-Powered Project & Policy Matching")
 st.write("Explore the Lab Lab Library to find relevant past projects that align with your policy or new initiative.")
+query = ""
 # Suggested search queries as buttons
 col1, col2, col3 = st.columns(3)
 with col1:
+    q = "Projects with a link with Solarpunk"
     if st.button(q):
+        query = q
 with col2:
+    q = "DEI aware projects"
     if st.button(q):
+        query = q
 with col3:
+    q = "Decentral projects"
     if st.button(q):
+        query = q
 # User input in Streamlit
+user_input = st.text_input("Describe your policy or project to find relevant Lab Lab projects...", "")
 # Display chat history
 #for message in st.session_state.messages:
 #    with st.chat_message(message["role"]):
 #        st.markdown(message["content"])
+if user_input:
+    do_query(user_input)
+if query:
+    do_query(query)