Spaces:
Sleeping
Sleeping
File size: 6,107 Bytes
00832a8 b54a6bc 19c3ca0 7cba34a 19c3ca0 7cba34a f025ed5 d329e85 19c3ca0 7cba34a f025ed5 7cba34a b54a6bc e341366 4d995a1 b54a6bc 63918e4 19c3ca0 63918e4 85b6c95 63918e4 85b6c95 63918e4 b527142 85b6c95 63918e4 85b6c95 b527142 85b6c95 1b22788 19c3ca0 63918e4 19c3ca0 1b22788 b527142 19c3ca0 b527142 19c3ca0 b54a6bc 63918e4 f025ed5 7cba34a b54a6bc f025ed5 e341366 d35d511 f025ed5 19c3ca0 f025ed5 19c3ca0 63918e4 1b22788 63918e4 f025ed5 63918e4 19c3ca0 63918e4 19c3ca0 f025ed5 63918e4 85b6c95 f025ed5 19c3ca0 85b6c95 19c3ca0 1b22788 19c3ca0 1e129b0 19c3ca0 1e129b0 7cba34a 63918e4 f025ed5 7cba34a f025ed5 19c3ca0 63918e4 7cba34a b54a6bc b527142 b54a6bc 7cba34a f025ed5 63918e4 b527142 63918e4 b527142 7cba34a f61af4a f025ed5 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 |
import gradio as gr
import PyPDF2
import os
import json
import vertexai
from vertexai.generative_models import GenerativeModel, Part, SafetySetting
# Configuración global
generation_config = {
"max_output_tokens": 8192,
"temperature": 0,
"top_p": 0.8,
}
safety_settings = [
SafetySetting(
category=SafetySetting.HarmCategory.HARM_CATEGORY_HATE_SPEECH,
threshold=SafetySetting.HarmBlockThreshold.OFF
),
SafetySetting(
category=SafetySetting.HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT,
threshold=SafetySetting.HarmBlockThreshold.OFF
),
SafetySetting(
category=SafetySetting.HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT,
threshold=SafetySetting.HarmBlockThreshold.OFF
),
SafetySetting(
category=SafetySetting.HarmCategory.HARM_CATEGORY_HARASSMENT,
threshold=SafetySetting.HarmBlockThreshold.OFF
),
]
def configurar_credenciales(json_path: str):
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = json_path
def extraer_texto(pdf_path: str) -> str:
texto_total = ""
with open(pdf_path, "rb") as f:
lector = PyPDF2.PdfReader(f)
for page in lector.pages:
texto_total += page.extract_text() or ""
return texto_total
def parsear_con_llm(texto_pdf: str, model: GenerativeModel) -> dict:
"""
Prompt más flexible:
- Reconoce enumeraciones en secciones 'Preguntas' y 'RESPUESTAS', p. ej. '1.', '2)', '3-'.
- Permite que las preguntas tengan texto como "Teniendo en cuenta que..." sin la palabra "Pregunta".
- Devuelve un JSON que asocia la pregunta X con la respuesta X.
"""
prompt = f"""
Eres un parser de texto que recibe el contenido de un PDF con:
- Una sección de \"Preguntas\" enumeradas (1., 2., 3..., etc.).
- Una sección de \"RESPUESTAS\" enumeradas de la misma forma.
Para cada número (1, 2, 3, 4, 5, 6...), empareja la pregunta con la respuesta.
Devuélvelo en un JSON con el siguiente formato:
{{
"Pregunta 1": "texto de la respuesta 1",
"Pregunta 2": "texto de la respuesta 2",
...
}}
Reglas:
1. Si una pregunta dice \"1. Teniendo en cuenta...\", eso es \"Pregunta 1\".
2. Si en la sección RESPUESTAS dice \"1. Metabolismo...\", esa es la Respuesta 1.
3. Si no hay correspondencia entre pregunta y respuesta, deja la respuesta como cadena vacía.
4. Si no hay nada, devuelve un JSON vacío: {{}}.
Texto PDF:
{texto_pdf}
Devuelve solo el JSON, sin explicaciones adicionales.
"""
part_text = Part.from_text(prompt)
response = model.generate_content(
[part_text],
generation_config=generation_config,
safety_settings=safety_settings,
stream=False
)
# Intentamos parsear el contenido como JSON
try:
data = json.loads(response.text.strip())
if isinstance(data, dict):
return data
else:
return {}
except:
return {}
def comparar_preguntas_respuestas(dict_docente: dict, dict_alumno: dict) -> str:
"""Compara dict_docente vs dict_alumno y retorna retroalimentación."""
retroalimentacion = []
for pregunta, resp_correcta in dict_docente.items():
resp_alumno = dict_alumno.get(pregunta, None)
if resp_alumno is None:
retroalimentacion.append(f"**{pregunta}**\nNo fue asignada al alumno.\n")
else:
retroalimentacion.append(
f"**{pregunta}**\n"
f"Respuesta del alumno: {resp_alumno}\n"
f"Respuesta correcta: {resp_correcta}\n"
)
return "\n".join(retroalimentacion)
def revisar_examen(json_cred, pdf_docente, pdf_alumno):
"""Función generadora que muestra progreso en Gradio con yield."""
yield "Cargando credenciales..."
try:
configurar_credenciales(json_cred.name)
yield "Inicializando Vertex AI..."
vertexai.init(project="deploygpt", location="us-central1")
yield "Extrayendo texto del PDF del docente..."
texto_docente = extraer_texto(pdf_docente.name)
yield "Extrayendo texto del PDF del alumno..."
texto_alumno = extraer_texto(pdf_alumno.name)
yield "Parseando preguntas/respuestas del docente..."
model = GenerativeModel(
"gemini-1.5-pro-001",
system_instruction=["Eres un parser estricto."]
)
dict_docente = parsear_con_llm(texto_docente, model)
yield "Parseando preguntas/respuestas del alumno..."
dict_alumno = parsear_con_llm(texto_alumno, model)
yield "Comparando..."
feedback = comparar_preguntas_respuestas(dict_docente, dict_alumno)
if len(feedback.strip()) < 5:
yield "No se encontraron preguntas o respuestas válidas."
return
yield "Generando resumen final..."
summary_prompt = f"""
Eres un profesor experto de bioquímica. Te muestro la comparación de preguntas y respuestas:
{feedback}
Por favor, genera un breve resumen del desempeño del alumno
sin inventar preguntas adicionales.
"""
summary_part = Part.from_text(summary_prompt)
summary_resp = model.generate_content(
[summary_part],
generation_config=generation_config,
safety_settings=safety_settings,
stream=False
)
final_result = f"{feedback}\n\n**Resumen**\n{summary_resp.text.strip()}"
yield final_result
except Exception as e:
yield f"Error al procesar: {str(e)}"
import gradio as gr
interface = gr.Interface(
fn=revisar_examen,
inputs=[
gr.File(label="Credenciales JSON"),
gr.File(label="PDF del Docente"),
gr.File(label="PDF Alumno")
],
outputs="text",
title="Revisión de Exámenes (Preguntas enumeradas + RESPUESTAS enumeradas)",
description=(
"Sube tus credenciales, el PDF del docente y el PDF del alumno. El LLM "
"buscará enumeraciones (1., 2., 3., etc.) en PREGUNTAS y RESPUESTAS y "
"mostrará el avance paso a paso."
)
)
interface.launch(debug=True)
|