Spaces:

dhruvanwd
/

captcha-ocr

Sleeping

Sumit Kumar commited on Apr 23

Commit

2937f6c

1 Parent(s): 1175fd3

Add captcha resolution functionality and update requirements

- Implement `resolve_captcha` function in `captcha.py` to decode images and extract text using a pre-trained model.
- Add new endpoint `/resolve_captcha` in `app.py` for handling captcha resolution requests.
- Update `requirements.txt` to include necessary dependencies for image processing and model inference.
- Create `.gitignore` file to exclude `__pycache__` from version control.

Files changed (4) hide show

.gitignore +1 -0
app.py +21 -1
captcha.py +38 -0
requirements.txt +5 -0

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ __pycache__

app.py CHANGED Viewed

@@ -1,7 +1,14 @@
 from fastapi import FastAPI
 app = FastAPI()
 @app.get("/")
 def greet_json():
     return {"Hello": "World!"}
@@ -9,4 +16,17 @@ def greet_json():
 @app.get("/greet/{name}")
 def greet_name(name: str):
-    return {"Hello": name}

 from fastapi import FastAPI
+from captcha import resolve_captcha
+from pydantic import BaseModel
 app = FastAPI()
+class Item(BaseModel):
+    image_path: str
 @app.get("/")
 def greet_json():
     return {"Hello": "World!"}
 @app.get("/greet/{name}")
 def greet_name(name: str):
+    return {"Hello": name}
+@app.post("/resolve_captcha")
+def decode_captcha(item: Item):
+    """
+    Decode the captcha image and return the text.
+    """
+    try:
+        result = resolve_captcha(item.image_path)
+        return {"captcha_text": result}
+    except Exception as e:
+        return {"error": str(e)}

captcha.py ADDED Viewed

	@@ -0,0 +1,38 @@

+import os
+os.environ['TF_ENABLE_ONEDNN_OPTS'] = '0'
+from transformers import VisionEncoderDecoderModel, TrOCRProcessor
+from PIL import Image
+import io
+import base64
+# Load model and processor
+processor = TrOCRProcessor.from_pretrained("anuashok/ocr-captcha-v3", use_fast=True)
+model = VisionEncoderDecoderModel.from_pretrained(
+    "anuashok/ocr-captcha-v3")
+def resolve_captcha(image_path):
+    # Check if input is base64 string
+    if isinstance(image_path, str) and image_path.startswith('data:image'):
+        # Extract the base64 data after the comma
+        base64_data = image_path.split(',')[1]
+        # Decode base64 to bytes
+        image_bytes = base64.b64decode(base64_data)
+        # Create PIL Image from bytes
+        image = Image.open(io.BytesIO(image_bytes)).convert("RGBA")
+    else:
+        # Handle as regular file path
+        image = Image.open(image_path).convert("RGBA")
+    background = Image.new("RGBA", image.size, (255, 255, 255))
+    combined = Image.alpha_composite(background, image).convert("RGB")
+    # Prepare image for the model
+    pixel_values = processor(combined, return_tensors="pt").pixel_values
+    # Generate text
+    generated_ids = model.generate(pixel_values)
+    generated_text = processor.batch_decode(
+        generated_ids, skip_special_tokens=True)[0]
+    return generated_text

requirements.txt CHANGED Viewed

@@ -1,2 +1,7 @@
 fastapi
 uvicorn[standard]

 fastapi
 uvicorn[standard]
+transformers
+pillow
+tensorflow
+torch
+torchvision