Spaces:

bainskarman
/

AllAboutRAG

Sleeping

App Files Files Community

bainskarman commited on Mar 13

Commit

9d72b0b

verified ·

1 Parent(s): 06b340c

Update app.py

Browse files

Files changed (1) hide show

app.py +53 -9

app.py CHANGED Viewed

@@ -1,12 +1,13 @@
 import streamlit as st
 from PyPDF2 import PdfReader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.chains import RetrievalQA
 from langchain.llms import HuggingFacePipeline
 import torch
 from transformers import pipeline
 # Load a smaller LLM (e.g., Zephyr-7B or Mistral-7B)
 def load_llm():
@@ -30,17 +31,45 @@ def split_text(text, chunk_size=1000, chunk_overlap=200):
     return chunks
 # Create embeddings and vector store
-def create_vector_store(chunks):
     embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
-    vector_store = FAISS.from_texts(chunks, embeddings)
     return vector_store
 # Query the PDF
-def query_pdf(vector_store, query, llm):
-    qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=vector_store.as_retriever())
     result = qa.run(query)
     return result
 # Streamlit App
 def main():
     st.title("Chat with PDF")
@@ -55,11 +84,25 @@ def main():
     # Extract text
     text = extract_text_from_pdf(uploaded_file)
     # Split text into chunks
-    chunks = split_text(text)
     # Create vector store
-    vector_store = create_vector_store(chunks)
     # Load LLM
     llm = load_llm()
@@ -67,15 +110,16 @@ def main():
     # Query translation options
     query_method = st.selectbox(
         "Query Translation Method",
-        ["Multi-Query", "RAG Fusion", "Decomposition", "Step Back", "HyDE"],
         help="Choose a method to improve query retrieval."
     )
     # User input
     query = st.text_input("Ask a question about the PDF:")
     if query:
         # Query the PDF
-        result = query_pdf(vector_store, query, llm)
         st.write("**Answer:**", result["answer"])
         st.write("**Source Text:**", result["source_text"])

 import streamlit as st
 from PyPDF2 import PdfReader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.embeddings import HuggingFaceEmbeddings  # Updated import
 from langchain.vectorstores import FAISS
 from langchain.chains import RetrievalQA
 from langchain.llms import HuggingFacePipeline
 import torch
 from transformers import pipeline
+from langdetect import detect
 # Load a smaller LLM (e.g., Zephyr-7B or Mistral-7B)
 def load_llm():
     return chunks
 # Create embeddings and vector store
+def create_vector_store(chunks, indexing_method="multi-representation"):
     embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
+    if indexing_method == "multi-representation":
+        vector_store = FAISS.from_texts(chunks, embeddings)
+    elif indexing_method == "raptors":
+        # Implement RAPTORS logic here (e.g., hierarchical chunking)
+        vector_store = FAISS.from_texts(chunks, embeddings)
+    elif indexing_method == "colbert":
+        # Implement ColBERT logic here (e.g., contextualized embeddings)
+        vector_store = FAISS.from_texts(chunks, embeddings)
     return vector_store
 # Query the PDF
+def query_pdf(vector_store, query, llm, query_method="multi-query"):
+    if query_method == "multi-query":
+        # Implement Multi-Query logic here
+        qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=vector_store.as_retriever())
+    elif query_method == "rag-fusion":
+        # Implement RAG Fusion logic here
+        qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=vector_store.as_retriever())
+    elif query_method == "decomposition":
+        # Implement Decomposition logic here
+        qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=vector_store.as_retriever())
+    elif query_method == "step-back":
+        # Implement Step Back logic here
+        qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=vector_store.as_retriever())
+    elif query_method == "hyde":
+        # Implement HyDE logic here
+        qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=vector_store.as_retriever())
     result = qa.run(query)
     return result
+# Detect language of the text
+def detect_language(text):
+    try:
+        return detect(text)
+    except:
+        return "en"  # Default to English if detection fails
 # Streamlit App
 def main():
     st.title("Chat with PDF")
     # Extract text
     text = extract_text_from_pdf(uploaded_file)
+    # Detect language
+    language = detect_language(text)
+    st.write(f"Detected Language: {language}")
     # Split text into chunks
+    chunk_size = st.slider("Chunk Size", 500, 2000, 1000)
+    chunk_overlap = st.slider("Chunk Overlap", 0, 500, 200)
+    chunks = split_text(text, chunk_size=chunk_size, chunk_overlap=chunk_overlap)
+    # Indexing options
+    indexing_method = st.selectbox(
+        "Indexing Method",
+        ["multi-representation", "raptors", "colbert"],
+        help="Choose how to index the PDF text."
+    )
+    st.write(f"**Indexing Method:** {indexing_method}")
     # Create vector store
+    vector_store = create_vector_store(chunks, indexing_method=indexing_method)
     # Load LLM
     llm = load_llm()
     # Query translation options
     query_method = st.selectbox(
         "Query Translation Method",
+        ["multi-query", "rag-fusion", "decomposition", "step-back", "hyde"],
         help="Choose a method to improve query retrieval."
     )
+    st.write(f"**Query Translation Method:** {query_method}")
     # User input
     query = st.text_input("Ask a question about the PDF:")
     if query:
         # Query the PDF
+        result = query_pdf(vector_store, query, llm, query_method=query_method)
         st.write("**Answer:**", result["answer"])
         st.write("**Source Text:**", result["source_text"])