Spaces:

CIIRC-NLP
/

czechbench_leaderboard

Running

App Files Files Community

davidadamczyk commited on Sep 5, 2024

Commit

33ce85b

1 Parent(s): c2f28e6

Update columns

Browse files

Files changed (2) hide show

src/display/about.py +15 -19
src/display/utils.py +16 -20

src/display/about.py CHANGED Viewed

@@ -12,26 +12,22 @@ class Task:
 # Init: to update with your specific keys
 class Tasks(Enum):
     # task_key in the json file, metric_key in the json file, name to display in the leaderboard
-    task0 = Task("task_agree", "accuracy", "agree")
-    task1 = Task("task_anli", "accuracy", "anli")
-    task2 = Task("task_agree_en", "accuracy", "anli_en")
-    task3 = Task("arc_challenge", "accuracy", "arc_challenge")
-    task4 = Task("arc_easy", "accuracy", "arc_easy")
-    task5 = Task("belebele", "accuracy", "belebele")
-    task6 = Task("ctkfacts", "accuracy", "ctkfacts")
     task7 = Task("ctkfacts_en", "accuracy", "ctkfacts_en")
-    task8 = Task("czechnews", "accuracy", "czechnews")
-    task9 = Task("facebook_comments", "accuracy", "facebook_comments")
-    task10 = Task("klokánek", "accuracy", "klokánek")
-    task11 = Task("mall_reviews", "accuracy", "mall_reviews")
-    task12 = Task("mmlu", "accuracy", "mmlu")
-    task13 = Task("snli", "accuracy", "snli")
-    task14 = Task("snli_en", "accuracy", "snli_en")
-    task15 = Task("subjectivity", "accuracy", "subjectivity")
-    task16 = Task("subjectivity_en", "accuracy", "subjectivity_en")
-    task17 = Task("truthfulqa", "accuracy", "truthfulqa")
-    task18 = Task("gsm8k", "accuracy", "gsm8k")
-    task19 = Task("squad", "accuracy", "squad")
 # Your leaderboard name
 TITLE = """<h1 align="center" id="space-title">🇨🇿 CzechBench Leaderboard</h1>"""

 # Init: to update with your specific keys
 class Tasks(Enum):
     # task_key in the json file, metric_key in the json file, name to display in the leaderboard
+    task0 = Task("agree_cs", "accuracy", "agree_cs")
+    task1 = Task("anli_cs", "accuracy", "anli_cs")
+    task2 = Task("arc_challenge_cs", "accuracy", "arc_challenge_cs")
+    task3 = Task("arc_easy_cs", "accuracy", "arc_easy_cs")
+    task4 = Task("belebele_cs", "accuracy", "belebele_cs")
+    task5 = Task("ctkfacts_cs", "accuracy", "ctkfacts_cs")
+    task6 = Task("czechnews_cs", "accuracy", "czechnews_cs")
     task7 = Task("ctkfacts_en", "accuracy", "ctkfacts_en")
+    task8 = Task("fb_comments_cs", "accuracy", "fb_comments_cs")
+    task9 = Task("gsm8k_cs", "accuracy", "gsm8k_cs")
+    task10 = Task("klokanek_cs", "accuracy", "klokanek_cs")
+    task11 = Task("mall_reviews_cs", "accuracy", "mall_reviews_cs")
+    task12 = Task("mmlu_cs", "accuracy", "mmlu_cs")
+    task13 = Task("sqad_cs", "accuracy", "sqad_cs")
+    task14 = Task("subjectivity_cs", "accuracy", "subjectivity_cs")
+    task15 = Task("truthfulqa_cs", "accuracy", "truthfulqa_cs")
 # Your leaderboard name
 TITLE = """<h1 align="center" id="space-title">🇨🇿 CzechBench Leaderboard</h1>"""

src/display/utils.py CHANGED Viewed

@@ -48,26 +48,22 @@ auto_eval_column_dict.append(["dummy", ColumnContent, ColumnContent("model_name_
 """
 auto_eval_column_dict.append(["eval_name", ColumnContent, ColumnContent("eval_name", "str", True, never_hidden=True)])
-auto_eval_column_dict.append(["agree", ColumnContent, ColumnContent("agree", "number", True)])
-auto_eval_column_dict.append(["anli", ColumnContent, ColumnContent("anli", "number", True)])
-auto_eval_column_dict.append(["anli_en", ColumnContent, ColumnContent("anli_en", "number", True)])
-auto_eval_column_dict.append(["arc_challenge", ColumnContent, ColumnContent("arc_challenge", "number", True)])
-auto_eval_column_dict.append(["arc_easy", ColumnContent, ColumnContent("arc_easy", "number", True)])
-auto_eval_column_dict.append(["belebele", ColumnContent, ColumnContent("belebele", "number", True)])
-auto_eval_column_dict.append(["ctkfacts", ColumnContent, ColumnContent("ctkfacts", "number", True)])
-auto_eval_column_dict.append(["ctkfacts_en", ColumnContent, ColumnContent("ctkfacts_en", "number", True)])
-auto_eval_column_dict.append(["czechnews", ColumnContent, ColumnContent("czechnews", "number", True)])
-auto_eval_column_dict.append(["facebook_comments", ColumnContent, ColumnContent("facebook_comments", "number", True)])
-auto_eval_column_dict.append(["klokánek", ColumnContent, ColumnContent("klokánek", "number", True)])
-auto_eval_column_dict.append(["mall_reviews", ColumnContent, ColumnContent("mall_reviews", "number", True)])
-auto_eval_column_dict.append(["mmlu", ColumnContent, ColumnContent("mmlu", "number", True)])
-auto_eval_column_dict.append(["snli", ColumnContent, ColumnContent("snli", "number", True)])
-auto_eval_column_dict.append(["snli_en", ColumnContent, ColumnContent("snli_en", "number", True)])
-auto_eval_column_dict.append(["subjectivity", ColumnContent, ColumnContent("subjectivity", "number", True)])
-auto_eval_column_dict.append(["subjectivity_en", ColumnContent, ColumnContent("subjectivity_en", "number", True)])
-auto_eval_column_dict.append(["truthfulqa", ColumnContent, ColumnContent("truthfulqa", "number", True)])
-auto_eval_column_dict.append(["gsm8k", ColumnContent, ColumnContent("gsm8k", "number", True)])
-auto_eval_column_dict.append(["squad", ColumnContent, ColumnContent("squad", "number", True)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)

 """
 auto_eval_column_dict.append(["eval_name", ColumnContent, ColumnContent("eval_name", "str", True, never_hidden=True)])
+auto_eval_column_dict.append(["agree_cs", ColumnContent, ColumnContent("agree_cs", "number", True)])
+auto_eval_column_dict.append(["anli_cs", ColumnContent, ColumnContent("anli_cs", "number", True)])
+auto_eval_column_dict.append(["arc_challenge_cs", ColumnContent, ColumnContent("arc_challenge_cs", "number", True)])
+auto_eval_column_dict.append(["arc_easy_cs", ColumnContent, ColumnContent("arc_easy_cs", "number", True)])
+auto_eval_column_dict.append(["belebele_cs", ColumnContent, ColumnContent("belebele_cs", "number", True)])
+auto_eval_column_dict.append(["ctkfacts_cs", ColumnContent, ColumnContent("ctkfacts_cs", "number", True)])
+auto_eval_column_dict.append(["czechnews_cs", ColumnContent, ColumnContent("czechnews_cs", "number", True)])
+auto_eval_column_dict.append(["fb_comments_cs", ColumnContent, ColumnContent("fb_comments_cs", "number", True)])
+auto_eval_column_dict.append(["gsm8k_cs", ColumnContent, ColumnContent("gsm8k_cs", "number", True)])
+auto_eval_column_dict.append(["klokanek_cs", ColumnContent, ColumnContent("klokanek_cs", "number", True)])
+auto_eval_column_dict.append(["mall_reviews_cs", ColumnContent, ColumnContent("mall_reviews_cs", "number", True)])
+auto_eval_column_dict.append(["mmlu_cs", ColumnContent, ColumnContent("mmlu_cs", "number", True)])
+auto_eval_column_dict.append(["sqad_cs", ColumnContent, ColumnContent("sqad_cs", "number", True)])
+auto_eval_column_dict.append(["subjectivity_cs", ColumnContent, ColumnContent("subjectivity_cs", "number", True)])
+auto_eval_column_dict.append(["truthfulqa_cs", ColumnContent, ColumnContent("truthfulqa_cs", "number", True)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)