Spaces:

AIWebDev
/

smartdocai

Running

App Files Files Community

malaknihed commited on 20 days ago

Commit

401cfef

verified ·

1 Parent(s): 0f65f9d

Update app.py

Browse files

Files changed (1) hide show

app.py +160 -0

app.py CHANGED Viewed

@@ -250,6 +250,166 @@ plt.close()
     except Exception as e:
         return {"error": f"Erreur lors de la génération du graphique : {str(e)}"}
 # Servir les fichiers statiques (HTML, CSS, JS)

     except Exception as e:
         return {"error": f"Erreur lors de la génération du graphique : {str(e)}"}
+# Charger le modèle de résumé
+summarizer = None
+try:
+    summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
+    logging.info("✅ Modèle de résumé chargé avec succès !")
+except Exception as e:
+    logging.error(f"❌ Erreur chargement modèle résumé : {e}")
+try:
+    image_captioning = pipeline("image-to-text", model="nlpconnect/vit-gpt2-image-captioning")
+    logging.info("✅ Modèle d'image chargé avec succès !")
+except Exception as e:
+    image_captioning = None
+    logging.error(f"❌ Erreur chargement modèle image : {e}")
+# Fonction pour extraire le texte d'un fichier Word
+def extract_text_from_docx(docx_file):
+    doc = Document(BytesIO(docx_file))
+    text = "\n".join([para.text for para in doc.paragraphs])
+    return text
+# Fonction pour extraire le texte d'un fichier Excel
+def extract_text_from_excel(xlsx_file):
+    # Utiliser pandas pour lire le fichier Excel
+    df = pd.read_excel(BytesIO(xlsx_file))
+    text = df.to_string(index=False)
+    return text
+# Fonction pour extraire le texte d'un fichier PowerPoint
+def extract_text_from_pptx(pptx_file):
+    presentation = Presentation(BytesIO(pptx_file))
+    text = ""
+    for slide in presentation.slides:
+        for shape in slide.shapes:
+            if hasattr(shape, "text"):
+                text += shape.text + "\n"
+    return text
+# Endpoint pour la fonctionnalité de résumé
+@app.post("/summarize/")
+async def summarize(file: UploadFile = File(...)):
+    # Si le modèle n'est pas encore chargé, retourner un message indiquant que le modèle est en train de se charger
+    if summarizer is None:
+        return {"message": "Le modèle est en cours de chargement, veuillez patienter..."}
+    # Extraire le contenu du fichier téléchargé
+    contents = await file.read()
+    # Identifier le type de fichier et extraire le texte
+    if file.filename.endswith(".pdf"):
+        text = extract_text(BytesIO(contents))
+    elif file.filename.endswith(".docx"):
+        text = extract_text_from_docx(contents)
+    elif file.filename.endswith(".xls") or file.filename.endswith(".xlsx"):
+        text = extract_text_from_excel(contents)
+    elif file.filename.endswith(".pptx") or file.filename.endswith(".ppt"):
+        text = extract_text_from_pptx(contents)
+    else:
+        return {"summary": "Résumé non disponible pour ce format de fichier."}
+    # Si un modèle de résumé est chargé, effectuer le résumé
+    try:
+        if summarizer:
+            summary = summarizer(text[:1024])  # Limiter la taille d'entrée pour le modèle
+            summary_text = summary[0]['summary_text']
+        else:
+            summary_text = "❌ Modèle de résumé non disponible."
+    except Exception as e:
+        summary_text = f"❌ Erreur lors de la génération du résumé : {e}"
+    # Retourner le résumé généré
+    return {"summary": summary_text}
+@app.post("/image-caption/")
+async def caption_image(file: UploadFile = File(...)):
+    if image_captioning is None:
+        return JSONResponse(content={"error": "Le modèle de captioning n'est pas disponible."}, status_code=500)
+    try:
+        contents = await file.read()
+        image = Image.open(io.BytesIO(contents)).convert("RGB")
+        result = image_captioning(image)
+        caption = result[0]['generated_text']
+        return {"caption": caption}
+    except Exception as e:
+        return JSONResponse(content={"error": str(e)}, status_code=500)
+try:
+    qa_pipeline = pipeline("question-answering", model="deepset/roberta-base-squad2")
+    logging.info("✅ Modèle QA Texte chargé avec succès !")
+except Exception as e:
+    qa_pipeline = None
+    logging.error(f"❌ Erreur chargement modèle QA Texte : {e}")
+try:
+    image_qa_pipeline = pipeline("visual-question-answering", model="Salesforce/blip-vqa-base")
+    logging.info("✅ Modèle QA Image chargé avec succès !")
+except Exception as e:
+    image_qa_pipeline = None
+    logging.error(f"❌ Erreur chargement modèle QA Image : {e}")
+@app.post("/doc-qa/")
+async def doc_question_answer(file: UploadFile = File(...), question: str = Form(...)):
+    if qa_pipeline is None:
+        return JSONResponse(content={"error": "Modèle indisponible."}, status_code=500)
+    try:
+        contents = await file.read()
+        filename = file.filename.lower()
+        if filename.endswith(".docx"):
+            with open("temp.docx", "wb") as f:
+                f.write(contents)
+            context = docx2txt.process("temp.docx")
+        elif filename.endswith((".xlsx", ".xls")):
+            df = pd.read_excel(BytesIO(contents))
+            context = df.to_string(index=False)
+        elif filename.endswith(".pptx"):
+            presentation = Presentation(BytesIO(contents))
+            context = ""
+            for slide in presentation.slides:
+                for shape in slide.shapes:
+                    if hasattr(shape, "text"):
+                        context += shape.text + "\n"
+        elif filename.endswith(".pdf"):
+            context = extract_text(BytesIO(contents))
+        else:
+            return JSONResponse(content={"error": "Format non supporté."}, status_code=400)
+        result = qa_pipeline(question=question, context=context)
+        return {"answer": result["answer"]}
+    except Exception as e:
+        return JSONResponse(content={"error": str(e)}, status_code=500)
+@app.post("/image-qa/")
+async def image_qa(file: UploadFile = File(...), question: str = Form(...)):
+    if image_qa_pipeline is None:
+        return JSONResponse(content={"error": "Le modèle n'est pas disponible."}, status_code=500)
+    try:
+        contents = await file.read()
+        image = Image.open(io.BytesIO(contents)).convert("RGB")
+        result = image_qa_pipeline(image=image, question=question)
+        answer = result[0]['answer']
+        return {"answer": answer}
+    except Exception as e:
+        return JSONResponse(content={"error": str(e)}, status_code=500)
 # Servir les fichiers statiques (HTML, CSS, JS)