Spaces:

CodeKing555
/

Quizzz

Sleeping

App Files Files Community

CodeKing555 commited on Jan 31

Commit

d0fff4c

verified ·

1 Parent(s): 8b298be

Create app.py

Browse files

Files changed (1) hide show

app.py +133 -0

app.py ADDED Viewed

	@@ -0,0 +1,133 @@

+import gradio as gr
+import pdfplumber
+import torch
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+# ------------------------------------------------------------------------------
+# 1) Modell laden (valhalla/t5-base-qg-hl)
+# ------------------------------------------------------------------------------
+MODEL_NAME = "valhalla/t5-base-qg-hl"
+print(f"Lade Tokenizer und Modell: {MODEL_NAME}")
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)
+# Optional: auf CPU behalten (gratis, aber langsamer) oder GPU nutzen, wenn Hugging Face
+# Community GPU verfügbar ist (dann model.to("cuda"))
+device = torch.device("cpu")
+model.to(device)
+# ------------------------------------------------------------------------------
+# 2) PDF-Text extrahieren
+# ------------------------------------------------------------------------------
+def extract_text_from_pdf(pdf_file):
+    """
+    Extrahiert den Text aller Seiten aus einem hochgeladenen PDF.
+    """
+    if pdf_file is None:
+        return ""
+    text = ""
+    with pdfplumber.open(pdf_file) as pdf:
+        for page in pdf.pages:
+            text += page.extract_text() + "\n"
+    # Minimales Cleaning
+    text = " ".join(text.split())
+    return text
+# ------------------------------------------------------------------------------
+# 3) Question Generation mit T5
+#    Dieses Modell ("valhalla/t5-base-qg-hl") nutzt einen 'Highlight-basierten'
+#    Ansatz. Am einfachsten probieren wir, den gesamten Text an das Modell zu geben.
+#    Für bessere Qualität könnte man (a) Text kürzen, (b) "answer highlighting" machen.
+# ------------------------------------------------------------------------------
+def generate_questions(text_chunk, max_length=128):
+    """
+    Fragt das T5-QG-Modell nach Fragen für den gegebenen Text.
+    Achtung: 'valhalla/t5-base-qg-hl' erwartet i.d.R. 'question: ... context: ...' oder
+    'generate question: ...' Prompts. Wir machen ein einfaches prompt-engineering.
+    """
+    # Einfacher Prompt: wir fügen "generate question:" voran
+    prompt_text = f"generate question: {text_chunk}"
+    inputs = tokenizer.encode(prompt_text, return_tensors="pt").to(device)
+    output = model.generate(
+        inputs,
+        max_length=max_length,
+        num_beams=4,
+        early_stopping=True
+    )
+    question = tokenizer.decode(output[0], skip_special_tokens=True)
+    return question
+# ------------------------------------------------------------------------------
+# 4) Gradio-Workflows
+# ------------------------------------------------------------------------------
+def process_pdf(pdf_file, num_questions):
+    """
+    1) PDF extrahieren
+    2) Kürzen (Text chunk)
+    3) Mehrere Fragen generieren
+    """
+    if pdf_file is None:
+        return "Keine PDF hochgeladen."
+    # PDF-Text holen
+    text = extract_text_from_pdf(pdf_file.name)
+    if not text:
+        return "Text konnte nicht extrahiert werden oder PDF ist leer."
+    # Ggf. nur ersten 1500 Zeichen nehmen, damit wir das Modell nicht überfüttern
+    text_chunk = text[:1500]
+    # Generiere mehrere Fragen
+    questions_output = []
+    for i in range(num_questions):
+        q = generate_questions(text_chunk)
+        questions_output.append(f"Frage {i+1}: {q}")
+    # Kombiniere das als Ausgabe
+    final_output = "\n\n".join(questions_output)
+    return final_output
+def build_app():
+    with gr.Blocks() as demo:
+        gr.Markdown("# QG-PDF – Fragegenerierung aus PDF (ohne OpenAI)")
+        gr.Markdown(
+            "Lade ein PDF hoch und wähle, wie viele Fragen generiert werden sollen. "
+            "Wir verwenden das Modell **valhalla/t5-base-qg-hl**, "
+            "das (meist) eine offene Frage ausgibt."
+        )
+        with gr.Row():
+            pdf_file = gr.File(label="📄 PDF hochladen")
+            q_slider = gr.Slider(
+                minimum=1,
+                maximum=5,
+                step=1,
+                value=3,
+                label="Anzahl Fragen"
+            )
+        generate_btn = gr.Button("Fragen generieren")
+        output_box = gr.Textbox(
+            label="Generierte Fragen",
+            lines=10
+        )
+        def on_click_generate(pdf, q_num):
+            return process_pdf(pdf, q_num)
+        generate_btn.click(
+            fn=on_click_generate,
+            inputs=[pdf_file, q_slider],
+            outputs=[output_box]
+        )
+    return demo
+demo = build_app()
+if __name__ == "__main__":
+    demo.launch()