Spaces:

pradeepsengarr
/

Bot_RAG

Sleeping

App Files Files Community

pradeepsengarr commited on Apr 16

Commit

7afdcd2

verified ·

1 Parent(s): 44a599e

Update app.py

Browse files

Files changed (1) hide show

app.py +60 -59

app.py CHANGED Viewed

@@ -137,88 +137,89 @@
 #     st.info("Upload a PDF to begin.")
 import streamlit as st
 from langchain_community.document_loaders import PyPDFLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.vectorstores import FAISS
-from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
 from langchain.llms import HuggingFaceHub
-import os
-# Set Hugging Face API Token
-os.environ["HUGGINGFACEHUB_API_TOKEN"] = "your_huggingfacehub_api_token_here"
-# Custom Prompt
 custom_prompt = PromptTemplate(
     input_variables=["context", "question"],
     template="""
-You are a helpful assistant. Use the context below to answer the question.
-If the answer is not in the context, say "I don't know."
 Context:
 {context}
-Question:
-{question}
-Answer:
-"""
 )
-# Load PDF and split into chunks
-from langchain_community.document_loaders import PyPDFLoader
-import tempfile
-def load_and_split_pdf(uploaded_file):
-    with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
-        tmp_file.write(uploaded_file.read())
-        tmp_file_path = tmp_file.name
-    loader = PyPDFLoader(tmp_file_path)
-    documents = loader.load()
-    # Then your text splitting logic follows
-    text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
-    chunks = text_splitter.split_documents(documents)
-    return chunks
-# Build vectorstore from document chunks
-def build_vectorstore(chunks):
-    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-    db = FAISS.from_documents(chunks, embedding=embeddings)
-    return db
 # Build QA chain
 def build_qa_chain(vectorstore):
-    llm = HuggingFaceHub(repo_id="mistralai/Mistral-7B-Instruct-v0.1", model_kwargs={"temperature": 0.2, "max_length": 512})
     qa_chain = RetrievalQA.from_chain_type(
         llm=llm,
-        retriever=vectorstore.as_retriever(),
-        chain_type="stuff",
         chain_type_kwargs={"prompt": custom_prompt}
     )
     return qa_chain
-# Streamlit App
-st.set_page_config(page_title="Accurate PDF Chatbot", layout="centered")
-st.title("PDF QA Chatbot - RAG Powered")
-uploaded_file = st.file_uploader("Upload a PDF", type="pdf")
-if uploaded_file:
-    with st.spinner("Reading and processing PDF..."):
-        chunks = load_and_split_pdf(uploaded_file)
-        vectorstore = build_vectorstore(chunks)
-        qa_chain = build_qa_chain(vectorstore)
-        st.success("PDF processed. Ask your question below.")
-    question = st.text_input("Ask a question from the PDF:")
-    if question:
-        with st.spinner("Searching answer..."):
-            answer = qa_chain.run(question)
-            st.markdown(f"**Answer:** {answer}")

 #     st.info("Upload a PDF to begin.")
+import os
 import streamlit as st
 from langchain_community.document_loaders import PyPDFLoader
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
 from langchain.llms import HuggingFaceHub
+# Set your Hugging Face API token here
+os.environ["HUGGINGFACEHUB_API_TOKEN"] = "your_hf_token_here"
+# Load and split PDF
+def load_and_split_pdf(uploaded_file):
+    with open("temp.pdf", "wb") as f:
+        f.write(uploaded_file.read())
+    loader = PyPDFLoader("temp.pdf")
+    documents = loader.load()
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
+    chunks = text_splitter.split_documents(documents)
+    return chunks
+# Build vectorstore
+def build_vectorstore(chunks):
+    embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+    vectorstore = FAISS.from_documents(chunks, embedding=embedding_model)
+    return vectorstore
+# Load Lamini or other HF model
+def get_llm():
+    return HuggingFaceHub(
+        repo_id="lamini/lamini-13b-chat",
+        model_kwargs={"temperature": 0.2, "max_new_tokens": 512}
+    )
+# Create prompt template (optional for better accuracy)
 custom_prompt = PromptTemplate(
     input_variables=["context", "question"],
     template="""
+You are a helpful assistant. Use the following context to answer the question as accurately as possible.
+If the answer is not in the context, respond with "Not found in the document."
 Context:
 {context}
+Question: {question}
+Answer:"""
 )
 # Build QA chain
 def build_qa_chain(vectorstore):
+    llm = get_llm()
     qa_chain = RetrievalQA.from_chain_type(
         llm=llm,
+        retriever=vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 5}),
         chain_type_kwargs={"prompt": custom_prompt}
     )
     return qa_chain
+# Streamlit UI
+def main():
+    st.set_page_config(page_title="PDF Chatbot", layout="wide")
+    st.title("Chat with your PDF")
+    uploaded_file = st.file_uploader("Upload a PDF", type=["pdf"])
+    if uploaded_file:
+        st.success("PDF uploaded successfully!")
+        with st.spinner("Processing PDF..."):
+            chunks = load_and_split_pdf(uploaded_file)
+            vectorstore = build_vectorstore(chunks)
+            qa_chain = build_qa_chain(vectorstore)
+        st.success("Ready to chat!")
+        user_question = st.text_input("Ask a question based on the PDF:")
+        if user_question:
+            with st.spinner("Generating answer..."):
+                result = qa_chain.run(user_question)
+                st.markdown("**Answer:**")
+                st.write(result)
+if __name__ == "__main__":
+    main()