Spaces:

Sakshiw1
/

OCR_app

Sleeping

Sakshiw1 commited on Sep 26, 2024

Commit

f60c847

verified ·

1 Parent(s): c2b1a45

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,12 +1,13 @@
 import gradio as gr
-from transformers import pipeline
 import re
-# Load the OCR pipeline
-ocr_pipeline = pipeline("image-to-text", model="microsoft/trocr-base-stage1")
 def perform_ocr(image):
-    text = ocr_pipeline(image)[0]['generated_text']
     return text
 def search_first_keyword_in_text(text, keyword):
@@ -23,6 +24,8 @@ def search_first_keyword_in_text(text, keyword):
 def ocr_and_search(image, keyword):
     try:
         extracted_text = perform_ocr(image)
         search_result = search_first_keyword_in_text(extracted_text, keyword)
         return extracted_text, search_result

+import pytesseract
+from PIL import Image
 import gradio as gr
 import re
+# Configure Tesseract path (update if needed)
+pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
 def perform_ocr(image):
+    text = pytesseract.image_to_string(image, lang='hin+eng')
     return text
 def search_first_keyword_in_text(text, keyword):
 def ocr_and_search(image, keyword):
     try:
+        # Resize the image to a manageable size for processing
+        image = image.resize((800, 600))  # Adjust size as needed
         extracted_text = perform_ocr(image)
         search_result = search_first_keyword_in_text(extracted_text, keyword)
         return extracted_text, search_result