Spaces:

ikraamkb
/

qtAnswering

Running

App Files Files Community

ikraamkb commited on Apr 11

Commit

c255de1

verified ·

1 Parent(s): 9e9ecd2

Update appImage.py

Browse files

Files changed (1) hide show

appImage.py +23 -35

appImage.py CHANGED Viewed

@@ -49,40 +49,26 @@ def answer_question_from_image(image, question):
     predicted_id = outputs.logits.argmax(-1).item()
     return vqa_model.config.id2label[predicted_id]"""
-from fastapi import FastAPI, Request, UploadFile, Form
-from fastapi.responses import RedirectResponse, FileResponse, HTMLResponse, JSONResponse
-from fastapi.staticfiles import StaticFiles
-from fastapi.templating import Jinja2Templates
 import os
-import shutil
 from PIL import Image
 from transformers import ViltProcessor, ViltForQuestionAnswering, pipeline
 from gtts import gTTS
 import easyocr
 import torch
 import tempfile
-import gradio as gr
 import numpy as np
 app = FastAPI()
-# Setup templates and static
-app.mount("/static", StaticFiles(directory="static"), name="static")
-app.mount("/resources", StaticFiles(directory="resources"), name="resources")
-templates = Jinja2Templates(directory="templates")
-# Serve custom HTML at /
-@app.get("/", response_class=HTMLResponse)
-def serve_home(request: Request):
-    return templates.TemplateResponse("home.html", {"request": request})
-# Load Models
 vqa_processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 vqa_model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 captioner = pipeline("image-to-text", model="nlpconnect/vit-gpt2-image-captioning")
-reader = easyocr.Reader(['en'], gpu=False, download_enabled=True)
-# Determine which feature to use
 def classify_question(question: str):
     question_lower = question.lower()
     if any(word in question_lower for word in ["text", "say", "written", "read"]):
@@ -92,7 +78,6 @@ def classify_question(question: str):
     else:
         return "vqa"
-# Answer logic
 def answer_question_from_image(image, question):
     if image is None or not question.strip():
         return "Please upload an image and ask a question.", None
@@ -106,11 +91,13 @@ def answer_question_from_image(image, question):
             answer = text.strip() or "No readable text found."
         except Exception as e:
             answer = f"OCR Error: {e}"
     elif mode == "caption":
         try:
             answer = captioner(image)[0]['generated_text']
         except Exception as e:
             answer = f"Captioning error: {e}"
     else:
         try:
             inputs = vqa_processor(image, question, return_tensors="pt")
@@ -131,25 +118,26 @@ def answer_question_from_image(image, question):
     return answer, audio_path
-# API Endpoint for frontend
 @app.post("/predict")
-async def predict(file: UploadFile = Form(...), question: str = Form(...)):
     try:
-        file_ext = file.filename.split(".")[-1].lower()
-        image = Image.open(file.file)
         answer, audio_path = answer_question_from_image(image, question)
-        return JSONResponse({
-            "answer": answer,
-            "audio": f"/audio/{os.path.basename(audio_path)}" if audio_path else None
-        })
     except Exception as e:
-        return JSONResponse({"error": f"Server error: {e}"}, status_code=500)
-# Serve audio responses
 @app.get("/audio/{filename}")
-def serve_audio(filename: str):
-    audio_path = os.path.join(tempfile.gettempdir(), filename)
-    if os.path.exists(audio_path):
-        return FileResponse(audio_path, media_type="audio/mpeg")
-    return JSONResponse({"error": "File not found"}, status_code=404)

     predicted_id = outputs.logits.argmax(-1).item()
     return vqa_model.config.id2label[predicted_id]"""
+from fastapi import FastAPI, UploadFile, Form
+from fastapi.responses import RedirectResponse, JSONResponse, FileResponse
 import os
 from PIL import Image
 from transformers import ViltProcessor, ViltForQuestionAnswering, pipeline
 from gtts import gTTS
 import easyocr
 import torch
 import tempfile
 import numpy as np
+from io import BytesIO
 app = FastAPI()
+# Load models
 vqa_processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 vqa_model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 captioner = pipeline("image-to-text", model="nlpconnect/vit-gpt2-image-captioning")
+reader = easyocr.Reader(['en', 'fr'])
 def classify_question(question: str):
     question_lower = question.lower()
     if any(word in question_lower for word in ["text", "say", "written", "read"]):
     else:
         return "vqa"
 def answer_question_from_image(image, question):
     if image is None or not question.strip():
         return "Please upload an image and ask a question.", None
             answer = text.strip() or "No readable text found."
         except Exception as e:
             answer = f"OCR Error: {e}"
     elif mode == "caption":
         try:
             answer = captioner(image)[0]['generated_text']
         except Exception as e:
             answer = f"Captioning error: {e}"
     else:
         try:
             inputs = vqa_processor(image, question, return_tensors="pt")
     return answer, audio_path
 @app.post("/predict")
+async def predict(question: str = Form(...), file: UploadFile = Form(...)):
     try:
+        image_data = await file.read()
+        image = Image.open(BytesIO(image_data)).convert("RGB")
         answer, audio_path = answer_question_from_image(image, question)
+        if audio_path and os.path.exists(audio_path):
+            return JSONResponse({"answer": answer, "audio": f"/audio/{os.path.basename(audio_path)}"})
+        else:
+            return JSONResponse({"answer": answer})
     except Exception as e:
+        return JSONResponse({"error": str(e)})
 @app.get("/audio/{filename}")
+async def get_audio(filename: str):
+    filepath = os.path.join(tempfile.gettempdir(), filename)
+    return FileResponse(filepath, media_type="audio/mpeg")
+@app.get("/")
+def home():
+    return RedirectResponse(url="/static/home.html")