llm-security-leaderboard

Running

App Files Files Community

Daniel Kantor commited on 27 days ago

Commit

f9e5c6c

1 Parent(s): aa23200

show failed models on dashboard

Browse files

Files changed (2) hide show

backend/app/services/models.py +5 -8
frontend/src/pages/AddModelPage/components/EvaluationQueues/EvaluationQueues.js +52 -13

backend/app/services/models.py CHANGED Viewed

@@ -4,10 +4,8 @@ import json
 import os
 from pathlib import Path
 import logging
-import aiohttp
 import time
 from huggingface_hub import HfApi
-from huggingface_hub.utils import build_hf_headers
 from datasets import disable_progress_bar
 import sys
 import contextlib
@@ -142,7 +140,7 @@ class ModelService(HuggingFaceService):
             self._log_repo_operation("read", QUEUE_REPO, "Refreshing models cache")
             # Initialize models dictionary
-            models = {"finished": [], "evaluating": [], "pending": []}
             try:
                 logger.info(LogFormatter.subsection("DATASET LOADING"))
@@ -184,6 +182,7 @@ class ModelService(HuggingFaceService):
                             "PENDING": ["PENDING"],
                             "EVALUATING": ["RUNNING"],
                             "FINISHED": ["FINISHED"],
                         }
                         for target, source_statuses in status_map.items():
@@ -254,6 +253,7 @@ class ModelService(HuggingFaceService):
                     "Finished": len(models["finished"]),
                     "Evaluating": len(models["evaluating"]),
                     "Pending": len(models["pending"]),
                 }
                 for line in LogFormatter.stats(stats, "Models by Status"):
                     logger.info(line)
@@ -425,7 +425,6 @@ class ModelService(HuggingFaceService):
             # Check in all statuses (pending, evaluating, finished)
             for status, models in existing_models.items():
                 for model in models:
-                    print(model)
                     if (
                         model["name"] == model_data["model_id"]
                         and model["revision"] == model_data["revision"]
@@ -480,7 +479,7 @@ class ModelService(HuggingFaceService):
         # Size limits based on precision
         if model_size > 15:
-            error_msg = f"Model too large (limit: 15B)"
             logger.error(LogFormatter.error("Size limit exceeded", error_msg))
             raise Exception(error_msg)
@@ -488,9 +487,7 @@ class ModelService(HuggingFaceService):
             model_data["model_id"], model_data["revision"]
         )
         if not valid:
-            logger.error(
-                LogFormatter.error("Chat template validation failed", error)
-            )
             raise Exception(error)
         logger.info(LogFormatter.success("Chat template validation passed"))

 import os
 from pathlib import Path
 import logging
 import time
 from huggingface_hub import HfApi
 from datasets import disable_progress_bar
 import sys
 import contextlib
             self._log_repo_operation("read", QUEUE_REPO, "Refreshing models cache")
             # Initialize models dictionary
+            models = {"finished": [], "evaluating": [], "pending": [], "failed": []}
             try:
                 logger.info(LogFormatter.subsection("DATASET LOADING"))
                             "PENDING": ["PENDING"],
                             "EVALUATING": ["RUNNING"],
                             "FINISHED": ["FINISHED"],
+                            "FAILED": ["FAILED"],
                         }
                         for target, source_statuses in status_map.items():
                     "Finished": len(models["finished"]),
                     "Evaluating": len(models["evaluating"]),
                     "Pending": len(models["pending"]),
+                    "Failed": len(models["failed"]),
                 }
                 for line in LogFormatter.stats(stats, "Models by Status"):
                     logger.info(line)
             # Check in all statuses (pending, evaluating, finished)
             for status, models in existing_models.items():
                 for model in models:
                     if (
                         model["name"] == model_data["model_id"]
                         and model["revision"] == model_data["revision"]
         # Size limits based on precision
         if model_size > 15:
+            error_msg = "Model too large (limit: 15B)"
             logger.error(LogFormatter.error("Size limit exceeded", error_msg))
             raise Exception(error_msg)
             model_data["model_id"], model_data["revision"]
         )
         if not valid:
+            logger.error(LogFormatter.error("Chat template validation failed", error))
             raise Exception(error)
         logger.info(LogFormatter.success("Chat template validation passed"))

frontend/src/pages/AddModelPage/components/EvaluationQueues/EvaluationQueues.js CHANGED Viewed

@@ -414,11 +414,12 @@ const QueueAccordion = ({
               label={models.length}
               size={isMobile ? "small" : "medium"}
               color={
-                status === "finished"
-                  ? "success"
-                  : status === "evaluating"
-                  ? "warning"
-                  : "info"
               }
               variant="outlined"
               sx={(theme) => ({
@@ -431,20 +432,20 @@ const QueueAccordion = ({
                   status === "finished"
                     ? theme.palette.success[100]
                     : status === "evaluating"
-                    ? theme.palette.warning[100]
-                    : theme.palette.info[100],
                 borderColor:
                   status === "finished"
                     ? theme.palette.success[400]
                     : status === "evaluating"
-                    ? theme.palette.warning[400]
-                    : theme.palette.info[400],
                 color:
                   status === "finished"
                     ? theme.palette.success[700]
                     : status === "evaluating"
-                    ? theme.palette.warning[700]
-                    : theme.palette.info[700],
                 "& .MuiChip-label": {
                   px: { xs: 1, sm: 1.2 },
                   width: "100%",
@@ -454,8 +455,8 @@ const QueueAccordion = ({
                     status === "finished"
                       ? theme.palette.success[200]
                       : status === "evaluating"
-                      ? theme.palette.warning[200]
-                      : theme.palette.info[200],
                 },
               })}
             />
@@ -496,6 +497,7 @@ const EvaluationQueues = ({ defaultExpanded = true }) => {
     pending: [],
     evaluating: [],
     finished: [],
   });
   const [loading, setLoading] = useState(true);
   const [error, setError] = useState(null);
@@ -524,6 +526,7 @@ const EvaluationQueues = ({ defaultExpanded = true }) => {
           finished: sortByDate(data.finished),
           evaluating: sortByDate(data.evaluating),
           pending: sortByDate(data.pending),
         });
       } catch (err) {
         setError(err.message);
@@ -537,6 +540,7 @@ const EvaluationQueues = ({ defaultExpanded = true }) => {
     return () => clearInterval(interval);
   }, []);
   const handleMainAccordionChange = (panel) => (event, isExpanded) => {
     setExpanded(isExpanded ? panel : false);
   };
@@ -721,6 +725,31 @@ const EvaluationQueues = ({ defaultExpanded = true }) => {
                   },
                 }}
               />
             </Stack>
           )}
           {loading && (
@@ -777,6 +806,16 @@ const EvaluationQueues = ({ defaultExpanded = true }) => {
               onChange={handleQueueAccordionChange("finished")}
               loading={loading}
             />
           </>
         )}
       </AccordionDetails>

               label={models.length}
               size={isMobile ? "small" : "medium"}
               color={
+                {
+                  "finished": "success",
+                  "pending": "info",
+                  "evaluating": "warning",
+                  "failed": "error",
+                }[status]
               }
               variant="outlined"
               sx={(theme) => ({
                   status === "finished"
                     ? theme.palette.success[100]
                     : status === "evaluating"
+                      ? theme.palette.warning[100]
+                      : theme.palette.info[100],
                 borderColor:
                   status === "finished"
                     ? theme.palette.success[400]
                     : status === "evaluating"
+                      ? theme.palette.warning[400]
+                      : theme.palette.info[400],
                 color:
                   status === "finished"
                     ? theme.palette.success[700]
                     : status === "evaluating"
+                      ? theme.palette.warning[700]
+                      : theme.palette.info[700],
                 "& .MuiChip-label": {
                   px: { xs: 1, sm: 1.2 },
                   width: "100%",
                     status === "finished"
                       ? theme.palette.success[200]
                       : status === "evaluating"
+                        ? theme.palette.warning[200]
+                        : theme.palette.info[200],
                 },
               })}
             />
     pending: [],
     evaluating: [],
     finished: [],
+    failed: [],
   });
   const [loading, setLoading] = useState(true);
   const [error, setError] = useState(null);
           finished: sortByDate(data.finished),
           evaluating: sortByDate(data.evaluating),
           pending: sortByDate(data.pending),
+          failed: sortByDate(data.failed),
         });
       } catch (err) {
         setError(err.message);
     return () => clearInterval(interval);
   }, []);
   const handleMainAccordionChange = (panel) => (event, isExpanded) => {
     setExpanded(isExpanded ? panel : false);
   };
                   },
                 }}
               />
+              <Chip
+                label={`${models.failed.length} Failed`}
+                size={isMobile ? "small" : "medium"}
+                color="error"
+                variant="outlined"
+                sx={{
+                  borderWidth: 2,
+                  fontWeight: 600,
+                  fontSize: { xs: "0.75rem", sm: "0.875rem" },
+                  height: { xs: "24px", sm: "32px" },
+                  bgcolor: "success.100",
+                  borderColor: "success.400",
+                  color: "success.700",
+                  width: { xs: "100%", sm: "auto" },
+                  "& .MuiChip-label": {
+                    px: { xs: 1, sm: 1.2 },
+                    width: "100%",
+                    display: "flex",
+                    justifyContent: "center",
+                  },
+                  "&:hover": {
+                    bgcolor: "success.200",
+                  },
+                }}
+              />
             </Stack>
           )}
           {loading && (
               onChange={handleQueueAccordionChange("finished")}
               loading={loading}
             />
+            <QueueAccordion
+              title="Failed evaluations"
+              models={models.failed}
+              status="failed"
+              emptyMessage="No failed evaluations"
+              expanded={expandedQueues.has("failed")}
+              onChange={handleQueueAccordionChange("failed")}
+              loading={loading}
+            />
           </>
         )}
       </AccordionDetails>