Spaces:

dongsheng
/

docker_test

Sleeping

App Files Files Community

朱东升 commited on Mar 19

Commit

8cc5c8e

1 Parent(s): fd2c041

update32

Browse files

Files changed (4) hide show

src/containerized_eval.py +30 -20
src/evaluation/evaluator.py +21 -9
src/queue/queue_processor.py +13 -2
src/ui/dashboard.py +27 -2

src/containerized_eval.py CHANGED Viewed

@@ -65,24 +65,34 @@ EVALUATORS = {
     "go_test.go": (eval_go.eval_script, "_test.go"),
 }
-def eval_string_script(language, code):
-    """
-    Evaluate code in a specific language
-    This is a placeholder for the actual implementation. In a real scenario,
-    this would contain the actual code evaluation logic.
-    """
-    try:
-        if not language or not code:
-            return {"status": "Exception", "error": "Language or code is missing"}
-        # This is where the actual logic would be implemented
-        # For now, we'll just return a simulated success
         return {
-            "status": "OK",
-            "result": "Evaluation completed successfully",
-            "language": language,
-            "code_length": len(code)
-        }
-    except Exception as e:
-        return {"status": "Exception", "error": str(e)}

     "go_test.go": (eval_go.eval_script, "_test.go"),
 }
+def eval_string_script(language, program):
+    if language in EVALUATORS:
+        (eval_script, file_ext) = EVALUATORS[language]
+    else:
+        eval_module = __import__(f"eval_{language}" if language != "go_test.go" else "eval_go")
+        eval_script = eval_module.eval_script
+        file_ext = f".{language}" if language != "go_test.go" else "_test.go"
+    with tempfile.NamedTemporaryFile(suffix=file_ext, delete=True) as f:
+        f.write(program.encode("utf-8"))
+        f.flush()
+        result = eval_script(Path(f.name))
+        # Only save the first 2K of output from the running program. Any futher
+        # output is very likely an exceptionally long stack trace or a long
+        # series of prints.
+        if type(result["stdout"]) == bytes:
+            result["stdout"] = result["stdout"].decode("utf-8", errors="ignore")
+        if result["stdout"] is None:
+            result["stdout"] = ""
+        if result["stderr"] is None:
+            result["stderr"] = ""
+        if type(result["stderr"]) == bytes:
+            result["stderr"] = result["stderr"].decode("utf-8", errors="ignore")
+        assert type(result["stdout"]) == str
+        assert type(result["stderr"]) == str
         return {
+            "program": program,
+            "stdout": result['stdout'].replace("!!int", "")[:2048],
+            "stderr": result['stderr'][:2048],
+            "exit_code": result['exit_code'],
+            "status": result['status']
+        }

src/evaluation/evaluator.py CHANGED Viewed

@@ -25,11 +25,15 @@ def evaluate(input_data):
                 item = future_to_item[future]
                 try:
                     result = future.result()
-                    item.update(result)
-                    results.append(item)
                 except Exception as e:
-                    item.update({"status": "Exception", "error": str(e)})
-                    results.append(item)
         return results
     except Exception as e:
@@ -52,23 +56,31 @@ def evaluate_single_case(input_data):
         results = []
         for comp in completions:
-            code = input_data.get('prompt') + comp + '\n' + input_data.get('tests')
             # Try up to max_retries + 1 times for all test cases
             for attempt in range(max_retries + 1):
                 result = evaluate_code(code, language)
-                # If success or last attempt, return/record the result
                 if result["status"] == "OK" or attempt == max_retries:
-                    if result["status"] == "OK":
-                        return result
                     results.append(result)
                     break
                 # For retries, briefly wait to allow resources to stabilize
                 time.sleep(0.3)
-        return results[0]
     except Exception as e:
         return {"status": "Exception", "error": str(e)}

                 item = future_to_item[future]
                 try:
                     result = future.result()
+                    # Preserve original item data but add result fields
+                    updated_item = item.copy()
+                    if isinstance(result, dict):
+                        updated_item.update(result)
+                    results.append(updated_item)
                 except Exception as e:
+                    updated_item = item.copy()
+                    updated_item.update({"status": "Exception", "error": str(e)})
+                    results.append(updated_item)
         return results
     except Exception as e:
         results = []
         for comp in completions:
+            code = input_data.get('prompt', '') + comp + '\n' + input_data.get('tests', '')
             # Try up to max_retries + 1 times for all test cases
             for attempt in range(max_retries + 1):
                 result = evaluate_code(code, language)
+                # If success or last attempt, add to results
                 if result["status"] == "OK" or attempt == max_retries:
                     results.append(result)
                     break
                 # For retries, briefly wait to allow resources to stabilize
                 time.sleep(0.3)
+        # If we have at least one successful result, return that
+        successful_results = [r for r in results if r["status"] == "OK"]
+        if successful_results:
+            return successful_results[0]
+        # Otherwise return the first result
+        if results:
+            return results[0]
+        # Fallback error in case no results were collected
+        return {"status": "Exception", "error": "Failed to evaluate code"}
     except Exception as e:
         return {"status": "Exception", "error": str(e)}

src/queue/queue_processor.py CHANGED Viewed

@@ -42,7 +42,18 @@ class QueueProcessor:
                 process_time = end_time - self.task_queue.task_status[task_id]['start_time']
                 with self.task_queue.lock:
-                    self.task_queue.task_status[task_id]['status'] = 'completed'
                     self.task_queue.task_status[task_id]['result'] = result
                     self.task_queue.task_status[task_id]['end_time'] = end_time
                     self.task_queue.task_status[task_id]['process_time'] = process_time
@@ -53,7 +64,7 @@ class QueueProcessor:
                         'task_id': task_id,
                         'request_time': request_time,
                         'process_time': process_time,
-                        'status': 'completed',
                         'factors': self.task_queue.task_status[task_id].get('estimated_factors', {})
                     })
                     while len(self.task_queue.task_history) > 200:

                 process_time = end_time - self.task_queue.task_status[task_id]['start_time']
                 with self.task_queue.lock:
+                    # Set status based on evaluation result
+                    if isinstance(result, dict) and result.get('status') == 'Exception':
+                        self.task_queue.task_status[task_id]['status'] = 'error'
+                        self.task_queue.task_status[task_id]['error'] = result.get('error', 'Unknown error')
+                    elif isinstance(result, list) and any(item.get('status') == 'Exception' for item in result if isinstance(item, dict)):
+                        self.task_queue.task_status[task_id]['status'] = 'error'
+                        error_items = [item for item in result if isinstance(item, dict) and item.get('status') == 'Exception']
+                        if error_items:
+                            self.task_queue.task_status[task_id]['error'] = error_items[0].get('error', 'Unknown error')
+                    else:
+                        self.task_queue.task_status[task_id]['status'] = 'completed'
                     self.task_queue.task_status[task_id]['result'] = result
                     self.task_queue.task_status[task_id]['end_time'] = end_time
                     self.task_queue.task_status[task_id]['process_time'] = process_time
                         'task_id': task_id,
                         'request_time': request_time,
                         'process_time': process_time,
+                        'status': self.task_queue.task_status[task_id]['status'],
                         'factors': self.task_queue.task_status[task_id].get('estimated_factors', {})
                     })
                     while len(self.task_queue.task_history) > 200:

src/ui/dashboard.py CHANGED Viewed

@@ -13,18 +13,22 @@ class Dashboard:
         tasks_html = ""
         for task in reversed(queue_info['recent_tasks']):
             tasks_html += f"""
-            <tr>
                 <td>{task['task_id'][:8]}...</td>
                 <td>{datetime.fromtimestamp(task['request_time']).strftime('%H:%M:%S')}</td>
                 <td>{self.time_estimator.format_time(task['process_time'])}</td>
             </tr>
             """
         if not tasks_html:
             tasks_html = """
             <tr>
-                <td colspan="3" style="text-align: center; padding: 20px;">No historical tasks</td>
             </tr>
             """
@@ -61,6 +65,7 @@ class Dashboard:
                             <th>Task ID</th>
                             <th>Request Time</th>
                             <th>Processing Time</th>
                         </tr>
                     </thead>
                     <tbody>
@@ -204,6 +209,26 @@ class Dashboard:
         .recent-tasks tbody tr:hover {
             background-color: #f8f9fa;
         }
         .tabs {
             margin-top: 20px;

         tasks_html = ""
         for task in reversed(queue_info['recent_tasks']):
+            status_class = "success" if task['status'] == 'completed' else "error" if task['status'] == 'error' else ""
+            status_icon = "✓" if task['status'] == 'completed' else "✗" if task['status'] == 'error' else "⚙"
             tasks_html += f"""
+            <tr class="{status_class}">
                 <td>{task['task_id'][:8]}...</td>
                 <td>{datetime.fromtimestamp(task['request_time']).strftime('%H:%M:%S')}</td>
                 <td>{self.time_estimator.format_time(task['process_time'])}</td>
+                <td class="status-cell {status_class}">{status_icon} {task['status'].capitalize()}</td>
             </tr>
             """
         if not tasks_html:
             tasks_html = """
             <tr>
+                <td colspan="4" style="text-align: center; padding: 20px;">No historical tasks</td>
             </tr>
             """
                             <th>Task ID</th>
                             <th>Request Time</th>
                             <th>Processing Time</th>
+                            <th>Status</th>
                         </tr>
                     </thead>
                     <tbody>
         .recent-tasks tbody tr:hover {
             background-color: #f8f9fa;
         }
+        .recent-tasks tr.success {
+            background-color: #e7f5e7;
+        }
+        .recent-tasks tr.error {
+            background-color: #f8d7da;
+        }
+        .status-cell {
+            font-weight: bold;
+        }
+        .status-cell.success {
+            color: #28a745;
+        }
+        .status-cell.error {
+            color: #dc3545;
+        }
         .tabs {
             margin-top: 20px;