Spaces:

yourbench
/

demo

Running on CPU Upgrade

App Files Files Community

tfrere commited on 26 days ago

Commit

22c253b

1 Parent(s): ff91163

update evaluation progress

Browse files

Files changed (3) hide show

backend/lighteval_task/lighteval_task.py +73 -43
backend/tasks/evaluation_task.py +60 -4
frontend/src/components/BenchmarkGenerator.jsx +1 -1

backend/lighteval_task/lighteval_task.py CHANGED Viewed

@@ -226,54 +226,84 @@ class JudgeLLMYourBench(JudgeLLM):
         )
     def compute(self, sample_ids: list[str], responses: list, formatted_docs: list[Doc]) -> list[dict[str, float]]:
-        # If we are evaluating a multiturn task, we need to have specific field in the formatted doc
-        questions = [formatted_doc.specific["question"] for formatted_doc in formatted_docs]
-        golds = [formatted_doc.get_golds()[0] for formatted_doc in formatted_docs]
-        predictions = [response[0].result[0] for response in responses]
-        options = [None] * len(questions)
-        chunks = [formatted_doc.specific["chunks"][0] for formatted_doc in formatted_docs]
-        documents = [formatted_doc.specific["document"] for formatted_doc in formatted_docs]
-        # Ajout de logs pour déboguer
-        logger.info(f"Questions: {questions}")
-        logger.info(f"Predictions: {predictions}")
-        logger.info(f"Golds: {golds}")
-        # Au lieu d'utiliser le juge, qui semble avoir des problèmes,
-        # Utilisons une approche simplifiée basée sur la présence des éléments clés
-        # de la réponse de référence dans la réponse du modèle
-        scores = []
-        for i in range(len(questions)):
-            prediction = str(predictions[i]).lower()
-            gold = str(golds[i]).lower()
-            # Extraire les mots clés de la réponse de référence (mots de plus de 4 lettres)
-            key_terms = [word for word in gold.split() if len(word) > 4]
-            # Calculer la proportion de mots clés présents dans la réponse du modèle
-            matches = sum(1 for term in key_terms if term in prediction)
-            coverage = matches / len(key_terms) if key_terms else 0
-            # Considérer une réponse correcte si elle couvre au moins 40% des mots clés
-            # C'est moins strict que les 60% initiaux, mais plus strict que 0%
-            score = 1.0 if coverage >= 0.4 else 0.0
-            logger.info(f"Couverture des mots clés pour la question {i+1}: {coverage:.2f} ({matches}/{len(key_terms)})")
-            logger.info(f"Score attribué: {score}")
-            scores.append(score)
-        logger.info(f"Scores bruts: {scores}")
-        metrics = []
-        for i in range(len(sample_ids)):
-            metrics.append(
-                {
-                    "accuracy": scores[i],
-                }
-            )
-        return metrics
 ZEROSHOT_QA_USER_PROMPT = """Answer the following question:

         )
     def compute(self, sample_ids: list[str], responses: list, formatted_docs: list[Doc]) -> list[dict[str, float]]:
+        # Ajout de debugging pour voir la structure complète des données
+        logger.info(f"Nombre de sample_ids: {len(sample_ids)}")
+        logger.info(f"Nombre de responses: {len(responses)}")
+        logger.info(f"Nombre de formatted_docs: {len(formatted_docs)}")
+        try:
+            # If we are evaluating a multiturn task, we need to have specific field in the formatted doc
+            questions = [formatted_doc.specific["question"] for formatted_doc in formatted_docs]
+            golds = [formatted_doc.get_golds()[0] for formatted_doc in formatted_docs]
+            predictions = [response[0].result[0] for response in responses]
+            options = [None] * len(questions)
+            # Ajout de logs détaillés avant l'accès problématique
+            for i, doc in enumerate(formatted_docs):
+                logger.info(f"Document {i} - Clés: {doc.specific.keys()}")
+                if "chunks" in doc.specific:
+                    logger.info(f"Document {i} - Chunks: {doc.specific['chunks']} (type: {type(doc.specific['chunks'])}, longueur: {len(doc.specific['chunks'])})")
+                else:
+                    logger.info(f"Document {i} - Pas de chunks trouvés!")
+            # Protection contre les listes vides
+            chunks = []
+            for doc in formatted_docs:
+                if "chunks" in doc.specific and doc.specific["chunks"] and len(doc.specific["chunks"]) > 0:
+                    chunks.append(doc.specific["chunks"][0])
+                else:
+                    # Utiliser une valeur par défaut quand chunks est absent ou vide
+                    chunks.append("")
+            documents = [formatted_doc.specific["document"] for formatted_doc in formatted_docs]
+            # Ajout de logs pour déboguer
+            logger.info(f"Questions: {questions}")
+            logger.info(f"Predictions: {predictions}")
+            logger.info(f"Golds: {golds}")
+            # Au lieu d'utiliser le juge, qui semble avoir des problèmes,
+            # Utilisons une approche simplifiée basée sur la présence des éléments clés
+            # de la réponse de référence dans la réponse du modèle
+            scores = []
+            for i in range(len(questions)):
+                prediction = str(predictions[i]).lower()
+                gold = str(golds[i]).lower()
+                # Extraire les mots clés de la réponse de référence (mots de plus de 4 lettres)
+                key_terms = [word for word in gold.split() if len(word) > 4]
+                # Calculer la proportion de mots clés présents dans la réponse du modèle
+                matches = sum(1 for term in key_terms if term in prediction)
+                coverage = matches / len(key_terms) if key_terms else 0
+                # Considérer une réponse correcte si elle couvre au moins 40% des mots clés
+                # C'est moins strict que les 60% initiaux, mais plus strict que 0%
+                score = 1.0 if coverage >= 0.4 else 0.0
+                logger.info(f"Couverture des mots clés pour la question {i+1}: {coverage:.2f} ({matches}/{len(key_terms)})")
+                logger.info(f"Score attribué: {score}")
+                scores.append(score)
+            logger.info(f"Scores bruts: {scores}")
+            metrics = []
+            for i in range(len(sample_ids)):
+                metrics.append(
+                    {
+                        "accuracy": scores[i],
+                    }
+                )
+            return metrics
+        except Exception as e:
+            logger.error(f"Erreur dans la fonction compute: {str(e)}")
+            logger.exception("Détails de l'erreur:")
+            # Retourner un résultat par défaut en cas d'erreur
+            return [{"accuracy": 0.0} for _ in sample_ids]
 ZEROSHOT_QA_USER_PROMPT = """Answer the following question:

backend/tasks/evaluation_task.py CHANGED Viewed

@@ -194,7 +194,26 @@ TASKS_TABLE = [yourbench]
             )
             try:
-                await asyncio.wait_for(process.communicate(), timeout=self.timeout)
             except asyncio.TimeoutError:
                 process.kill()
                 print(f"[{datetime.now().strftime('%H:%M:%S')}] Evaluation timed out for {model_name} after {time.time() - start_time:.2f}s")
@@ -230,11 +249,33 @@ TASKS_TABLE = [yourbench]
         try:
             # Get results from the output file
             results_dir = Path(output_dir) / "results" / model_name.replace("/", "/")
-            results_file = next(results_dir.glob("results_*.json"))
             with open(results_file) as f:
                 results = json.load(f)
-                accuracy = results["results"]["all"]["accuracy"]
             result_data = {
                 "model": model_name,
@@ -274,7 +315,7 @@ TASKS_TABLE = [yourbench]
         # Load environment variables
         load_dotenv()
-        # Models to evaluate
         models = [
             "Qwen/QwQ-32B",
             "Qwen/Qwen2.5-72B-Instruct",
@@ -283,6 +324,21 @@ TASKS_TABLE = [yourbench]
             "mistralai/Mistral-Small-24B-Instruct-2501",
         ]
         # Step 1: Check available providers for each model
         await self.update_step("finding_available_model_providers")
         print(f"[{datetime.now().strftime('%H:%M:%S')}] Checking available providers for models...")

             )
             try:
+                print(f"[{datetime.now().strftime('%H:%M:%S')}] Running command: {' '.join(cmd_args)}")
+                stdout, stderr = await asyncio.wait_for(process.communicate(), timeout=self.timeout)
+                # Log stdout and stderr
+                if stdout:
+                    stdout_decoded = stdout.decode('utf-8')
+                    print(f"[{datetime.now().strftime('%H:%M:%S')}] LightEval STDOUT for {model_name}:")
+                    for line in stdout_decoded.splitlines():
+                        print(f"[STDOUT] {line}")
+                if stderr:
+                    stderr_decoded = stderr.decode('utf-8')
+                    print(f"[{datetime.now().strftime('%H:%M:%S')}] LightEval STDERR for {model_name}:")
+                    for line in stderr_decoded.splitlines():
+                        print(f"[STDERR] {line}")
+                # Check return code
+                if process.returncode != 0:
+                    print(f"[{datetime.now().strftime('%H:%M:%S')}] LightEval failed with return code {process.returncode}")
             except asyncio.TimeoutError:
                 process.kill()
                 print(f"[{datetime.now().strftime('%H:%M:%S')}] Evaluation timed out for {model_name} after {time.time() - start_time:.2f}s")
         try:
             # Get results from the output file
             results_dir = Path(output_dir) / "results" / model_name.replace("/", "/")
+            print(f"[{datetime.now().strftime('%H:%M:%S')}] Looking for results in {results_dir}")
+            if not results_dir.exists():
+                print(f"[{datetime.now().strftime('%H:%M:%S')}] Results directory doesn't exist for {model_name}")
+                raise FileNotFoundError(f"Results directory not found: {results_dir}")
+            results_files = list(results_dir.glob("results_*.json"))
+            if not results_files:
+                print(f"[{datetime.now().strftime('%H:%M:%S')}] No results files found in {results_dir}")
+                raise FileNotFoundError(f"No results files found in {results_dir}")
+            results_file = results_files[0]
+            print(f"[{datetime.now().strftime('%H:%M:%S')}] Using results file: {results_file}")
             with open(results_file) as f:
                 results = json.load(f)
+                print(f"[{datetime.now().strftime('%H:%M:%S')}] Results structure: {json.dumps(list(results.keys()))}")
+                # Vérifier que la structure est celle attendue
+                if "results" in results and "all" in results["results"] and "accuracy" in results["results"]["all"]:
+                    accuracy = results["results"]["all"]["accuracy"]
+                    print(f"[{datetime.now().strftime('%H:%M:%S')}] Extracted accuracy: {accuracy}")
+                else:
+                    print(f"[{datetime.now().strftime('%H:%M:%S')}] Structure de résultats inattendue. Clés disponibles: {list(results.keys())}")
+                    if "results" in results:
+                        print(f"[{datetime.now().strftime('%H:%M:%S')}] Clés dans 'results': {list(results['results'].keys()) if isinstance(results['results'], dict) else 'pas un dictionnaire'}")
+                    raise ValueError(f"Structure de résultats inattendue pour {model_name}")
             result_data = {
                 "model": model_name,
         # Load environment variables
         load_dotenv()
+        # Models to evaluate - uniquement les modèles accessibles
         models = [
             "Qwen/QwQ-32B",
             "Qwen/Qwen2.5-72B-Instruct",
             "mistralai/Mistral-Small-24B-Instruct-2501",
         ]
+        # Log pour voir la structure du dataset
+        try:
+            from datasets import load_dataset
+            print(f"[{datetime.now().strftime('%H:%M:%S')}] Tentative de chargement du dataset {self.dataset_name} pour inspection")
+            dataset = load_dataset(self.dataset_name, "single_shot_questions", split="train")
+            # Vérifier la structure du premier exemple
+            if len(dataset) > 0:
+                first_example = dataset[0]
+                print(f"[{datetime.now().strftime('%H:%M:%S')}] Structure du premier exemple:")
+                print(f"[{datetime.now().strftime('%H:%M:%S')}] Clés: {first_example.keys()}")
+                print(f"[{datetime.now().strftime('%H:%M:%S')}] Citations: {first_example.get('citations', 'non trouvé')}")
+        except Exception as e:
+            print(f"[{datetime.now().strftime('%H:%M:%S')}] Erreur lors de l'inspection du dataset: {str(e)}")
         # Step 1: Check available providers for each model
         await self.update_step("finding_available_model_providers")
         print(f"[{datetime.now().strftime('%H:%M:%S')}] Checking available providers for models...")

frontend/src/components/BenchmarkGenerator.jsx CHANGED Viewed

@@ -539,7 +539,7 @@ const BenchmarkGenerator = ({ sessionId, isDefaultDocument, onComplete }) => {
             fontWeight: 500,
           }}
         >
-          Estimated time: ~ 1 min 30s
         </Typography>
       </Box>

             fontWeight: 500,
           }}
         >
+          Estimated time: ~ 1m30s
         </Typography>
       </Box>