Spaces:

ikraamkb
/

qtAnswering

Running

App Files Files Community

ikraamkb commited on 29 days ago

Commit

eda835f

verified ·

1 Parent(s): 70c714b

Update appImage.py

Browse files

Files changed (1) hide show

appImage.py +2 -84

appImage.py CHANGED Viewed

@@ -1,5 +1,4 @@
-"""
-### ✅ appImage.py — Image QA Backend (Cleaned)
 from fastapi import FastAPI
 from fastapi.responses import RedirectResponse, JSONResponse, FileResponse
 import os
@@ -58,85 +57,4 @@ def answer_question_from_image(image, question):
 @app.get("/")
 def home():
-    return RedirectResponse(url="/templates/home.html")"""
-from fastapi import FastAPI
-from fastapi.responses import RedirectResponse, JSONResponse, FileResponse
-import os
-from PIL import Image
-from transformers import ViltProcessor, ViltForQuestionAnswering, AutoProcessor, AutoModelForCausalLM
-from gtts import gTTS
-import easyocr
-import torch
-import tempfile
-import numpy as np
-from io import BytesIO
-app = FastAPI()
-# Initialize models with optimized settings
-vqa_processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
-vqa_model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
-# Load GIT model with performance optimizations
-git_processor = AutoProcessor.from_pretrained("microsoft/git-large-coco")
-git_model = AutoModelForCausalLM.from_pretrained(
-    "microsoft/git-large-coco",
-    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
-    device_map="auto"
-)
-reader = easyocr.Reader(['en', 'fr'], gpu=torch.cuda.is_available())
-def classify_question(question: str):
-    """Optimized question classification"""
-    q = question.lower()
-    if any(w in q for w in ["text", "say", "written", "read"]):
-        return "ocr"
-    if any(w in q for w in ["caption", "describe", "what is in the image"]):
-        return "caption"
-    return "vqa"
-@torch.inference_mode()
-def generate_caption(image):
-    """Optimized caption generation with GIT model"""
-    try:
-        inputs = git_processor(images=image, return_tensors="pt").to(git_model.device)
-        outputs = git_model.generate(**inputs, max_length=50)
-        return git_processor.batch_decode(outputs, skip_special_tokens=True)[0]
-    except Exception as e:
-        print(f"Caption generation error: {e}")
-        return "Could not generate caption"
-def answer_question_from_image(image, question):
-    if image is None or not question.strip():
-        return "Please upload an image and ask a question.", None
-    mode = classify_question(question)
-    try:
-        if mode == "ocr":
-            result = reader.readtext(np.array(image))
-            answer = " ".join([entry[1] for entry in result]) or "No readable text found."
-        elif mode == "caption":
-            answer = generate_caption(image)
-        else:  # VQA mode
-            inputs = vqa_processor(image, question, return_tensors="pt")
-            with torch.no_grad():
-                outputs = vqa_model(**inputs)
-            predicted_id = outputs.logits.argmax(-1).item()
-            answer = vqa_model.config.id2label[predicted_id]
-        # Generate audio response
-        tts = gTTS(text=answer)
-        with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp:
-            tts.save(tmp.name)
-            return answer, tmp.name
-    except Exception as e:
-        return f"Error: {e}", None
-@app.get("/")
-def home():
-    return RedirectResponse(url="/templates/home.html")

 from fastapi import FastAPI
 from fastapi.responses import RedirectResponse, JSONResponse, FileResponse
 import os
 @app.get("/")
 def home():
+    return RedirectResponse(url="/templates/home.html")