Spaces:

bainskarman
/

AllAboutRAG

Sleeping

App Files Files Community

bainskarman commited on Mar 13

Commit

a1fd273

verified ·

1 Parent(s): 5e06280

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -11

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ from PyPDF2 import PdfReader
 token = os.environ.get("Key2")  # Replace "KEY2" with your secret key name
 # Function to query the Hugging Face API
-def query_huggingface_api(prompt, max_new_tokens=50, temperature=0.7, top_k=50):
     model_name = "HuggingFaceH4/zephyr-7b-alpha"  # Replace with your preferred model
     api_url = f"https://api-inference.huggingface.co/models/{model_name}"
     headers = {"Authorization": f"Bearer {token}"}
@@ -34,13 +34,19 @@ def detect_language(text):
     except:
         return "en"  # Default to English if detection fails
-# Function to extract text from PDF
 def extract_text_from_pdf(pdf_file):
     pdf_reader = PdfReader(pdf_file)
-    text = ""
-    for page in pdf_reader.pages:
-        text += page.extract_text()
-    return text
 # Default system prompts for each query translation method
 DEFAULT_SYSTEM_PROMPTS = {
@@ -88,7 +94,7 @@ def main():
     # LLM Parameters
     st.sidebar.header("LLM Parameters")
-    max_new_tokens = st.sidebar.slider("Max New Tokens", 10, 100, 50)
     temperature = st.sidebar.slider("Temperature", 0.1, 1.0, 0.7)
     top_k = st.sidebar.slider("Top K", 1, 100, 50)
@@ -133,11 +139,14 @@ def main():
             if response:
                 st.write("**Response:**", response)
-    # Display PDF text if uploaded
     if pdf_file is not None:
-        st.header("PDF Content")
-        pdf_text = extract_text_from_pdf(pdf_file)
-        st.write(pdf_text)
 if __name__ == "__main__":
     main()

 token = os.environ.get("Key2")  # Replace "KEY2" with your secret key name
 # Function to query the Hugging Face API
+def query_huggingface_api(prompt, max_new_tokens=1000, temperature=0.7, top_k=50):
     model_name = "HuggingFaceH4/zephyr-7b-alpha"  # Replace with your preferred model
     api_url = f"https://api-inference.huggingface.co/models/{model_name}"
     headers = {"Authorization": f"Bearer {token}"}
     except:
         return "en"  # Default to English if detection fails
+# Function to extract text from PDF with line and page numbers
 def extract_text_from_pdf(pdf_file):
     pdf_reader = PdfReader(pdf_file)
+    text_data = []
+    for page_num, page in enumerate(pdf_reader.pages):
+        lines = page.extract_text().split('\n')
+        for line_num, line in enumerate(lines):
+            text_data.append({
+                "page": page_num + 1,
+                "line": line_num + 1,
+                "content": line
+            })
+    return text_data
 # Default system prompts for each query translation method
 DEFAULT_SYSTEM_PROMPTS = {
     # LLM Parameters
     st.sidebar.header("LLM Parameters")
+    max_new_tokens = st.sidebar.slider("Max New Tokens", 10, 1000, 1000)
     temperature = st.sidebar.slider("Temperature", 0.1, 1.0, 0.7)
     top_k = st.sidebar.slider("Top K", 1, 100, 50)
             if response:
                 st.write("**Response:**", response)
+    # Process PDF content if uploaded
     if pdf_file is not None:
+        pdf_text_data = extract_text_from_pdf(pdf_file)
+        if prompt:
+            # Search for relevant content in the PDF
+            for entry in pdf_text_data:
+                if prompt.lower() in entry["content"].lower():
+                    st.write(f"**Page {entry['page']}, Line {entry['line']}:** {entry['content']}")
 if __name__ == "__main__":
     main()