Spaces:

Prashasst
/

Medical_Lab_Test_Extraction_Pipeline

Sleeping

Prashasst commited on Mar 6

Commit

42ba117

verified ·

1 Parent(s): 0eb6eb5

Update app.py

fixed minor bugs

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,35 +1,50 @@
 import gradio as gr
 import pandas as pd
-import os
-import fitz
 import pytesseract
 import base64
 from google import genai
 from google.genai import types
-googel_api=os.getenv("google_api")
 def read_pdf(pdf_path):
     text = ""
     doc = fitz.open(pdf_path)
     for page_num in range(len(doc)):
         page = doc.load_page(page_num)
-        page_text = page.get_text()
-        if page_text.strip():
-            text += page_text + "\n"
-        else:
-            # print(f"Image found in Page {page_num + 1} Performing OCR...")
-            images = convert_from_path(pdf_path, first_page=page_num + 1, last_page=page_num + 1)
-            for img in images:
-                text += pytesseract.image_to_string(img) + "\n"
-    # print(f"Extracted text preview:\n{text[:600]}...")
     return text.strip()
 def generate(extracted_text):
     client = genai.Client(
         api_key=google_api,

 import gradio as gr
 import pandas as pd
+import fitz  # PyMuPDF
 import pytesseract
+from pdf2image import convert_from_path
+import os
 import base64
 from google import genai
 from google.genai import types
+google_api=os.getenv("google_api")
 def read_pdf(pdf_path):
     text = ""
     doc = fitz.open(pdf_path)
     for page_num in range(len(doc)):
         page = doc.load_page(page_num)
+        page_text = page.get_text("text").strip()  # Extract text from page
+        # Extract Images for OCR
+        images = page.get_images(full=True)  # Check if the page has images
+        ocr_text = ""
+        if images:  # If images exist, process them
+            print(f"Page {page_num + 1} contains images, performing OCR...")
+            img_pages = convert_from_path(pdf_path, first_page=page_num + 1, last_page=page_num + 1)
+            for img in img_pages:
+                ocr_text += pytesseract.image_to_string(img).strip() + "\n"
+        # Combine both text extraction methods
+        combined_text = f"{page_text}\n{ocr_text}".strip()
+        if combined_text:
+            text += combined_text + "\n\n"
     return text.strip()
 def generate(extracted_text):
     client = genai.Client(
         api_key=google_api,