Spaces:

pradeepsengarr
/

Bot_RAG

Sleeping

pradeepsengarr commited on Apr 15

Commit

6ccf2cb

verified ·

1 Parent(s): 3875c87

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -101,12 +101,11 @@
 # if __name__ == "__main__":
 #     main()
 import os
-import PyPDF2
 import logging
 import math
 import streamlit as st
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
 from langchain_community.document_loaders import PDFMinerLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
@@ -135,14 +134,14 @@ base_model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
 # Helper Functions
 def extract_text_from_pdf(file_path):
-    """Extract text from a PDF using PyPDF2."""
     try:
-        with open(file_path, 'rb') as file:
-            reader = PyPDF2.PdfReader(file)
-            text = ""
-            for page in range(len(reader.pages)):
-                text += reader.pages[page].extract_text()
-            return text
     except Exception as e:
         logging.error(f"Error reading PDF {file_path}: {e}")
         return None
@@ -161,7 +160,7 @@ def data_ingestion():
                 file_path = os.path.join(uploaded_files_dir, filename)
                 logging.info(f"Processing file: {file_path}")
-                # Extract text using PyPDF2
                 text = extract_text_from_pdf(file_path)
                 if text:

 # if __name__ == "__main__":
 #     main()
 import os
 import logging
 import math
 import streamlit as st
+import fitz  # PyMuPDF
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
 from langchain_community.document_loaders import PDFMinerLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 # Helper Functions
 def extract_text_from_pdf(file_path):
+    """Extract text from a PDF using PyMuPDF (fitz)."""
     try:
+        doc = fitz.open(file_path)
+        text = ""
+        for page_num in range(doc.page_count):
+            page = doc.load_page(page_num)
+            text += page.get_text("text")
+        return text
     except Exception as e:
         logging.error(f"Error reading PDF {file_path}: {e}")
         return None
                 file_path = os.path.join(uploaded_files_dir, filename)
                 logging.info(f"Processing file: {file_path}")
+                # Extract text using PyMuPDF
                 text = extract_text_from_pdf(file_path)
                 if text: