Spaces:
Running
Running
Upload 2 files
Browse files- app.py +78 -0
- requirements.txt +2 -0
app.py
ADDED
@@ -0,0 +1,78 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
import gradio as gr
|
2 |
+
import pandas as pd
|
3 |
+
|
4 |
+
headers = [
|
5 |
+
"Modelo",
|
6 |
+
"Promedio",
|
7 |
+
"Español Mexicano",
|
8 |
+
"Español España",
|
9 |
+
"Español Argentino",
|
10 |
+
"Español Cubano",
|
11 |
+
"Español Colombiano",
|
12 |
+
"Español Chileno"
|
13 |
+
]
|
14 |
+
|
15 |
+
data = [
|
16 |
+
["Gemini 2.5 Pro Exp 03-25", 99.93, 100.00, 99.75, 100.00, 99.85, 100.00, 100.00],
|
17 |
+
["Gemini 2.0 Flash", 95.64, 95.30, 96.05, 96.40, 94.60, 95.60, 95.90],
|
18 |
+
["Gemini 2.0 Flash Lite", 94.22, 96.25, 92.80, 96.30, 94.00, 93.30, 92.65],
|
19 |
+
["DeepSeek R1 Distill Llama 70B", 66.28, 68.50, 65.90, 79.45, 64.80, 59.40, 59.65],
|
20 |
+
["QwQ 32b", 65.81, 51.50, 87.15, 72.15, 57.95, 52.15, 73.95],
|
21 |
+
["Llama 3.3 70b", 63.19, 66.00, 69.85, 66.10, 77.65, 49.25, 61.70],
|
22 |
+
["Llama 3.1 8b", 46.23, 46.50, 58.80, 53.25, 46.40, 44.15, 28.25],
|
23 |
+
["Mistral Saba 24b", 39.47, 38.10, 35.40, 49.10, 46.20, 29.95, 38.05]
|
24 |
+
]
|
25 |
+
|
26 |
+
df_results = pd.DataFrame(data, columns=headers)
|
27 |
+
|
28 |
+
info_text = """
|
29 |
+
## Acerca de BBS (Barcenas Benchmark Spanish)
|
30 |
+
|
31 |
+
Bienvenido al Barcenas Benchmark Spanish (BBS).
|
32 |
+
|
33 |
+
**Objetivo:**
|
34 |
+
El objetivo de este benchmark es evaluar y comparar el rendimiento de diferentes modelos de lenguaje de gran tamaño (LLM) específicamente en diversas variantes del idioma español.
|
35 |
+
|
36 |
+
El benchmark se encuentra en una fase temprana de desarrollo y aún requiere mejoras en las evaluaciones, el número de LLM, entre otros aspectos. Se espera que con más recursos y tiempo se pueda desarrollar un benchmark más sólido.
|
37 |
+
|
38 |
+
**Metodología:**
|
39 |
+
* Se utilizaron las APIs de Groq y Gemini para estas pruebas.
|
40 |
+
* Se solicitó al LLM que generara varios Tweets predefinidos en las variantes del español evaluadas.
|
41 |
+
* Con ciertos parámetros predefinidos, se evaluó al LLM en las diferentes variantes del español y se calculó un promedio general.
|
42 |
+
|
43 |
+
**Interpretación de Resultados:**
|
44 |
+
* Los modelos Gemini presentan un rendimiento superior en todos los aspectos relacionados con el acento español, mostrando un nivel notablemente más alto, al menos según los resultados preliminares de este benchmark.
|
45 |
+
|
46 |
+
**Actualizaciones Futuras:**
|
47 |
+
* Se busca incluir en el futuro más LLM, como los de OpenAI, Anthropic, DeepSeek, Grok, etc. La falta de recursos de las APIs impidió la inclusión de estos LLM en esta etapa.
|
48 |
+
* Además, se busca mejorar la dificultad de las pruebas y obtener una visión más clara de cuál LLM es el más adecuado para cada variante del español.
|
49 |
+
|
50 |
+
Un agradecimiento especial a Ismael Medina Muñoz, Senior Microsoft Consultant, por la idea de evaluar e investigar los LLM en español.
|
51 |
+
|
52 |
+
**Hecho con amor y cariño por Danielbrdz**
|
53 |
+
"""
|
54 |
+
|
55 |
+
with gr.Blocks(theme=gr.themes.Default()) as demo:
|
56 |
+
# Título Principal
|
57 |
+
gr.Markdown("# BBS")
|
58 |
+
# Subtítulo
|
59 |
+
gr.Markdown("## (Barcenas Benchmark Spanish)")
|
60 |
+
|
61 |
+
with gr.Tabs():
|
62 |
+
# Pestaña 1: Resultados
|
63 |
+
with gr.Tab("Resultados"):
|
64 |
+
gr.Markdown("### Tabla de Clasificación de Modelos")
|
65 |
+
# Usamos gr.DataFrame para mostrar los datos tabulares
|
66 |
+
gr.DataFrame(
|
67 |
+
value=df_results,
|
68 |
+
headers=headers,
|
69 |
+
# Especificar tipos de datos ayuda a la visualización y posible ordenación
|
70 |
+
datatype=["str", "number", "number", "number", "number", "number", "number", "number"],
|
71 |
+
wrap=True # Permite que el texto largo se ajuste dentro de las celdas
|
72 |
+
)
|
73 |
+
|
74 |
+
with gr.Tab("Información"):
|
75 |
+
# Usamos gr.Markdown para mostrar el texto con formato
|
76 |
+
gr.Markdown(info_text)
|
77 |
+
|
78 |
+
demo.launch()
|
requirements.txt
ADDED
@@ -0,0 +1,2 @@
|
|
|
|
|
|
|
1 |
+
gradio
|
2 |
+
pandas
|