Spaces:

ikraamkb
/

qtAnswering

Running

App Files Files Community

ikraamkb commited on Apr 12

Commit

7abb419

verified ·

1 Parent(s): 9f09ae7

Update appImage.py

Browse files

Files changed (1) hide show

appImage.py +13 -45

appImage.py CHANGED Viewed

@@ -49,7 +49,8 @@ def answer_question_from_image(image, question):
     predicted_id = outputs.logits.argmax(-1).item()
     return vqa_model.config.id2label[predicted_id]"""
-from fastapi import FastAPI, UploadFile, Form
 from fastapi.responses import RedirectResponse, JSONResponse, FileResponse
 import os
 from PIL import Image
@@ -63,20 +64,18 @@ from io import BytesIO
 app = FastAPI()
-# Load models
 vqa_processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 vqa_model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 captioner = pipeline("image-to-text", model="nlpconnect/vit-gpt2-image-captioning")
 reader = easyocr.Reader(['en', 'fr'])
 def classify_question(question: str):
-    question_lower = question.lower()
-    if any(word in question_lower for word in ["text", "say", "written", "read"]):
         return "ocr"
-    elif any(word in question_lower for word in ["caption", "describe", "what is in the image"]):
         return "caption"
-    else:
-        return "vqa"
 def answer_question_from_image(image, question):
     if image is None or not question.strip():
@@ -84,59 +83,28 @@ def answer_question_from_image(image, question):
     mode = classify_question(question)
-    if mode == "ocr":
-        try:
             result = reader.readtext(np.array(image))
-            text = " ".join([entry[1] for entry in result])
-            answer = text.strip() or "No readable text found."
-        except Exception as e:
-            answer = f"OCR Error: {e}"
-    elif mode == "caption":
-        try:
             answer = captioner(image)[0]['generated_text']
-        except Exception as e:
-            answer = f"Captioning error: {e}"
-    else:
-        try:
             inputs = vqa_processor(image, question, return_tensors="pt")
             with torch.no_grad():
                 outputs = vqa_model(**inputs)
             predicted_id = outputs.logits.argmax(-1).item()
             answer = vqa_model.config.id2label[predicted_id]
-        except Exception as e:
-            answer = f"VQA error: {e}"
-    try:
         tts = gTTS(text=answer)
         with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp:
             tts.save(tmp.name)
-            audio_path = tmp.name
-    except Exception as e:
-        return f"Answer: {answer}\n\n⚠️ Audio generation error: {e}", None
-    return answer, audio_path
-@app.post("/predict")
-async def predict(question: str = Form(...), file: UploadFile = Form(...)):
-    try:
-        image_data = await file.read()
-        image = Image.open(BytesIO(image_data)).convert("RGB")
-        answer, audio_path = answer_question_from_image(image, question)
-        if audio_path and os.path.exists(audio_path):
-            return JSONResponse({"answer": answer, "audio": f"/audio/{os.path.basename(audio_path)}"})
-        else:
-            return JSONResponse({"answer": answer})
     except Exception as e:
-        return JSONResponse({"error": str(e)})
-@app.get("/audio/{filename}")
-async def get_audio(filename: str):
-    filepath = os.path.join(tempfile.gettempdir(), filename)
-    return FileResponse(filepath, media_type="audio/mpeg")
 @app.get("/")
 def home():

     predicted_id = outputs.logits.argmax(-1).item()
     return vqa_model.config.id2label[predicted_id]"""
+### ✅ appImage.py — Image QA Backend (Cleaned)
+from fastapi import FastAPI
 from fastapi.responses import RedirectResponse, JSONResponse, FileResponse
 import os
 from PIL import Image
 app = FastAPI()
 vqa_processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 vqa_model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 captioner = pipeline("image-to-text", model="nlpconnect/vit-gpt2-image-captioning")
 reader = easyocr.Reader(['en', 'fr'])
 def classify_question(question: str):
+    q = question.lower()
+    if any(w in q for w in ["text", "say", "written", "read"]):
         return "ocr"
+    if any(w in q for w in ["caption", "describe", "what is in the image"]):
         return "caption"
+    return "vqa"
 def answer_question_from_image(image, question):
     if image is None or not question.strip():
     mode = classify_question(question)
+    try:
+        if mode == "ocr":
             result = reader.readtext(np.array(image))
+            answer = " ".join([entry[1] for entry in result]) or "No readable text found."
+        elif mode == "caption":
             answer = captioner(image)[0]['generated_text']
+        else:
             inputs = vqa_processor(image, question, return_tensors="pt")
             with torch.no_grad():
                 outputs = vqa_model(**inputs)
             predicted_id = outputs.logits.argmax(-1).item()
             answer = vqa_model.config.id2label[predicted_id]
         tts = gTTS(text=answer)
         with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp:
             tts.save(tmp.name)
+            return answer, tmp.name
     except Exception as e:
+        return f"Error: {e}", None
 @app.get("/")
 def home():