Spaces:

ikraamkb
/

Summarization

Sleeping

App Files Files Community

ikraamkb commited on Apr 26

Commit

6f78a44

verified ·

1 Parent(s): 89a3550

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -88

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
- import gradio as gr
 from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM
 import fitz  # PyMuPDF
 import docx
@@ -6,34 +7,35 @@ import pptx
 import openpyxl
 import re
 import nltk
-from nltk.tokenize import sent_tokenize
 import torch
-from fastapi import FastAPI
-from fastapi.responses import RedirectResponse, FileResponse, JSONResponse
 from gtts import gTTS
 import tempfile
 import os
 import easyocr
-from fpdf import FPDF
 import datetime
-from concurrent.futures import ThreadPoolExecutor
 import hashlib
 nltk.download('punkt', quiet=True)
 app = FastAPI()
 MODEL_NAME = "facebook/bart-large-cnn"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)
 model.eval()
 summarizer = pipeline("summarization", model=model, tokenizer=tokenizer, device=-1, batch_size=4)
 reader = easyocr.Reader(['en'], gpu=torch.cuda.is_available())
-executor = ThreadPoolExecutor()
 summary_cache = {}
 def clean_text(text: str) -> str:
     text = re.sub(r'\s+', ' ', text)
     text = re.sub(r'\u2022\s*|\d\.\s+', '', text)
@@ -110,20 +112,18 @@ def generate_summary(text: str, length: str = "medium") -> str:
         "long": {"max_length": 300, "min_length": 210}
     }
     chunks = chunk_text(text)
-    try:
-        summaries = summarizer(
-            chunks,
-            max_length=length_params[length]["max_length"],
-            min_length=length_params[length]["min_length"],
-            do_sample=False,
-            truncation=True,
-            no_repeat_ngram_size=2,
-            num_beams=2,
-            early_stopping=True
-        )
-        summary_texts = [s['summary_text'] for s in summaries]
-    except Exception as e:
-        summary_texts = [f"[Batch error: {str(e)}]"]
     final_summary = " ".join(summary_texts)
     final_summary = ". ".join(s.strip().capitalize() for s in final_summary.split(". ") if s.strip())
@@ -138,15 +138,13 @@ def text_to_speech(text: str):
         temp_audio = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
         tts.save(temp_audio.name)
         return temp_audio.name
-    except Exception as e:
-        print(f"Error in text-to-speech: {e}")
         return ""
 def create_pdf(summary: str, original_filename: str):
     try:
         pdf = FPDF()
         pdf.add_page()
-        pdf.set_font("Arial", size=12)
         pdf.set_font("Arial", 'B', 16)
         pdf.cell(200, 10, txt="Document Summary", ln=1, align='C')
         pdf.set_font("Arial", size=12)
@@ -157,75 +155,46 @@ def create_pdf(summary: str, original_filename: str):
         temp_pdf = tempfile.NamedTemporaryFile(delete=False, suffix=".pdf")
         pdf.output(temp_pdf.name)
         return temp_pdf.name
-    except Exception as e:
-        print(f"Error creating PDF: {e}")
         return ""
-def summarize_document(file, summary_length: str, enable_tts: bool = True):
-    if file is None:
-        return "Please upload a document first", "", None, None
-    file_path = file.name
-    file_extension = file_path.split(".")[-1].lower()
-    original_filename = os.path.basename(file_path)
-    text, error = extract_text(file_path, file_extension)
     if error:
-        return error, "", None, None
     if not text or len(text.split()) < 30:
-        return "Document is too short or contains too little text to summarize", "", None, None
-    try:
-        summary = generate_summary(text, summary_length)
-        audio_path = text_to_speech(summary) if enable_tts else None
-        pdf_path = create_pdf(summary, original_filename) if summary else None
-        return summary, "", audio_path, pdf_path
-    except Exception as e:
-        return f"Summarization error: {str(e)}", "", None, None
-with gr.Blocks(title="Document Summarizer", theme=gr.themes.Soft()) as demo:
-    gr.Markdown("# 📄 Advanced Document Summarizer")
-    gr.Markdown("Upload a document to generate a summary with audio and optional PDF download")
-    with gr.Row():
-        with gr.Column():
-            file_input = gr.File(
-                label="Upload Document",
-                file_types=[".pdf", ".docx", ".pptx", ".xlsx", ".jpg", ".jpeg", ".png"],
-                type="filepath"
-            )
-            length_radio = gr.Radio(
-                ["short", "medium", "long"],
-                value="medium",
-                label="Summary Length"
-            )
-            submit_btn = gr.Button("Generate Summary", variant="primary")
-        with gr.Column():
-            output = gr.Textbox(label="Summary", lines=10)
-            audio_output = gr.Audio(label="Audio Summary")
-            pdf_download = gr.File(label="Download Summary as PDF", visible=False)
-    def summarize_and_return_ui(file, summary_length):
-        summary, _, audio_path, pdf_path = summarize_document(file, summary_length)
-        return (
-            summary,
-            audio_path,
-            gr.File(visible=pdf_path is not None, value=pdf_path)
-        )
-    submit_btn.click(
-        fn=summarize_and_return_ui,
-        inputs=[file_input, length_radio],
-        outputs=[output, audio_output, pdf_download]
-    )
 @app.get("/files/{file_name}")
-async def get_file(file_name: str):
-    file_path = os.path.join(tempfile.gettempdir(), file_name)
-    if os.path.exists(file_path):
-        return FileResponse(file_path)
     return JSONResponse({"error": "File not found"}, status_code=404)
-app = gr.mount_gradio_app(app, demo, path="/")
 @app.get("/")
-def redirect_to_interface():
-    return RedirectResponse(url="/")

+from fastapi import FastAPI, UploadFile, File, Form
+from fastapi.responses import RedirectResponse, FileResponse, JSONResponse
 from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM
 import fitz  # PyMuPDF
 import docx
 import openpyxl
 import re
 import nltk
 import torch
+from nltk.tokenize import sent_tokenize
 from gtts import gTTS
+from fpdf import FPDF
 import tempfile
 import os
 import easyocr
 import datetime
 import hashlib
+# Initialize
 nltk.download('punkt', quiet=True)
 app = FastAPI()
+# Load Summarizer Model
 MODEL_NAME = "facebook/bart-large-cnn"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)
 model.eval()
 summarizer = pipeline("summarization", model=model, tokenizer=tokenizer, device=-1, batch_size=4)
+# Load OCR Reader
 reader = easyocr.Reader(['en'], gpu=torch.cuda.is_available())
+# Cache
 summary_cache = {}
+# --- Helper Functions ---
 def clean_text(text: str) -> str:
     text = re.sub(r'\s+', ' ', text)
     text = re.sub(r'\u2022\s*|\d\.\s+', '', text)
         "long": {"max_length": 300, "min_length": 210}
     }
     chunks = chunk_text(text)
+    summaries = summarizer(
+        chunks,
+        max_length=length_params[length]["max_length"],
+        min_length=length_params[length]["min_length"],
+        do_sample=False,
+        truncation=True,
+        no_repeat_ngram_size=2,
+        num_beams=2,
+        early_stopping=True
+    )
+    summary_texts = [s['summary_text'] for s in summaries]
     final_summary = " ".join(summary_texts)
     final_summary = ". ".join(s.strip().capitalize() for s in final_summary.split(". ") if s.strip())
         temp_audio = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
         tts.save(temp_audio.name)
         return temp_audio.name
+    except Exception:
         return ""
 def create_pdf(summary: str, original_filename: str):
     try:
         pdf = FPDF()
         pdf.add_page()
         pdf.set_font("Arial", 'B', 16)
         pdf.cell(200, 10, txt="Document Summary", ln=1, align='C')
         pdf.set_font("Arial", size=12)
         temp_pdf = tempfile.NamedTemporaryFile(delete=False, suffix=".pdf")
         pdf.output(temp_pdf.name)
         return temp_pdf.name
+    except Exception:
         return ""
+# --- API Endpoints ---
+@app.post("/summarize/")
+async def summarize_api(file: UploadFile = File(...), length: str = Form("medium")):
+    contents = await file.read()
+    with tempfile.NamedTemporaryFile(delete=False) as tmp_file:
+        tmp_file.write(contents)
+        tmp_path = tmp_file.name
+    file_ext = tmp_path.split('.')[-1].lower()
+    text, error = extract_text(tmp_path, file_ext)
     if error:
+        return JSONResponse({"detail": error}, status_code=400)
     if not text or len(text.split()) < 30:
+        return JSONResponse({"detail": "Document too short to summarize"}, status_code=400)
+    summary = generate_summary(text, length)
+    audio_path = text_to_speech(summary)
+    pdf_path = create_pdf(summary, file.filename)
+    response = {"summary": summary}
+    if audio_path:
+        response["audioUrl"] = f"/files/{os.path.basename(audio_path)}"
+    if pdf_path:
+        response["pdfUrl"] = f"/files/{os.path.basename(pdf_path)}"
+    return JSONResponse(response)
 @app.get("/files/{file_name}")
+async def serve_file(file_name: str):
+    path = os.path.join(tempfile.gettempdir(), file_name)
+    if os.path.exists(path):
+        return FileResponse(path)
     return JSONResponse({"error": "File not found"}, status_code=404)
 @app.get("/")
+def home():
+    return RedirectResponse(url="/")