AgentRewardBench - a McGill-NLP Collection

McGill-NLP 's Collections

Unequal unlearning

AgentRewardBench

CHASE

LLM2Vec

WebLINX

AURORA

Statcan Dialogue Dataset & Models

AgentRewardBench

updated 24 days ago

AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories

Paper • 2504.08942 • Published 27 days ago • 27
McGill-NLP/agent-reward-bench

Viewer • Updated 18 days ago • 1.41k • 3.55k • 2
Running

4

4

Agent Reward Bench Demo

💻

Visualize agent interactions with WebArena tasks
Running

Agent Reward Bench Leaderboard

🥇

Leaderboard for AgentRewardBench