GenerativeReasoningBenchmark / data /action_count_0402.json
zhwang4ai's picture
init leaderboard
f49345e
{
"RelicEnv": {
"qwen2.5-3b-instruct": 0.576,
"qwen2.5-7b-instruct": 0.5228666666666666,
"qwen2.5-14b-instruct": 0.3816,
"qwen2.5-32b-instruct": 0.4269333333333333,
"qwen2.5-72b-instruct": 0.3848666666666667,
"llama-3.1-8b-instruct": 0.6459999999999999,
"llama-3.1-70b-instruct": 0.41696190476190476,
"llama-3.2-3b-instruct": 0.5766095238095238,
"llama-3.3-70b-instruct": 0.33466666666666656,
"mistral-large-instruct-2411": 0.492,
"gemma-2-27b-it": 0.48513333333333336,
"gemma-2-9b-it": 0.668695238095238,
"deepseek-v3": 0.5289999999999999,
"deepseek-r1": 0.523295238095238,
"qwq-32b": 0.5080190476190476,
"Average": 0.49817650793650786
},
"HerbEnv": {
"qwen2.5-3b-instruct": 0.6345333333333334,
"qwen2.5-7b-instruct": 0.6564,
"qwen2.5-14b-instruct": 0.4304,
"qwen2.5-32b-instruct": 0.4564666666666667,
"qwen2.5-72b-instruct": 0.43260000000000004,
"llama-3.1-8b-instruct": 0.7072,
"llama-3.1-70b-instruct": 0.4986,
"llama-3.2-3b-instruct": 0.7223333333333333,
"llama-3.3-70b-instruct": 0.49833333333333335,
"mistral-large-instruct-2411": 0.5494,
"gemma-2-27b-it": 0.5511999999999999,
"gemma-2-9b-it": 0.7503333333333334,
"deepseek-v3": 0.42873333333333336,
"deepseek-r1": 0.5064666666666666,
"qwq-32b": 0.5062666666666666,
"Average": 0.5552844444444445
},
"TransdimensionalEnv": {
"qwen2.5-3b-instruct": 0.8419333333333332,
"qwen2.5-7b-instruct": 0.7645333333333333,
"qwen2.5-14b-instruct": 0.5994666666666667,
"qwen2.5-32b-instruct": 0.5703333333333334,
"qwen2.5-72b-instruct": 0.5725333333333333,
"llama-3.1-8b-instruct": 0.8210666666666666,
"llama-3.1-70b-instruct": 0.5205333333333333,
"llama-3.2-3b-instruct": 0.7700666666666665,
"llama-3.3-70b-instruct": 0.5580666666666667,
"mistral-large-instruct-2411": 0.6012666666666666,
"gemma-2-27b-it": 0.7089999999999999,
"gemma-2-9b-it": 0.9037333333333333,
"deepseek-v3": 0.6178,
"deepseek-r1": 0.5913999999999999,
"qwq-32b": 0.653,
"Average": 0.6729822222222223
},
"SorcererEnv": {
"qwen2.5-3b-instruct": 1.0192666666666665,
"qwen2.5-7b-instruct": 1.0209333333333332,
"qwen2.5-14b-instruct": 0.7593333333333334,
"qwen2.5-32b-instruct": 0.8110666666666667,
"qwen2.5-72b-instruct": 0.7878666666666667,
"llama-3.1-8b-instruct": 1.0720666666666667,
"llama-3.1-70b-instruct": 0.7602666666666668,
"llama-3.2-3b-instruct": 1.0208666666666666,
"llama-3.3-70b-instruct": 0.7425333333333334,
"mistral-large-instruct-2411": 0.8440666666666667,
"gemma-2-27b-it": 0.8615333333333333,
"gemma-2-9b-it": 1.1598666666666666,
"deepseek-v3": 0.8091333333333333,
"deepseek-r1": 0.8958,
"qwq-32b": 0.8321999999999999,
"Average": 0.89312
},
"QuantumEnv": {
"qwen2.5-3b-instruct": 1.0699999999999998,
"qwen2.5-7b-instruct": 0.8955333333333334,
"qwen2.5-14b-instruct": 0.7378666666666667,
"qwen2.5-32b-instruct": 0.7390666666666666,
"qwen2.5-72b-instruct": 0.649,
"llama-3.1-8b-instruct": 1.083,
"llama-3.1-70b-instruct": 0.7020666666666668,
"llama-3.2-3b-instruct": 1.0911333333333335,
"llama-3.3-70b-instruct": 0.6975333333333333,
"mistral-large-instruct-2411": 0.7345333333333333,
"gemma-2-27b-it": 0.7445333333333334,
"gemma-2-9b-it": 1.1341999999999999,
"deepseek-v3": 0.7477333333333334,
"deepseek-r1": 0.7415333333333334,
"qwq-32b": 0.7549333333333333,
"Average": 0.8348444444444444
},
"AstronomyEnv": {
"qwen2.5-3b-instruct": 0.8259333333333334,
"qwen2.5-7b-instruct": 0.8053333333333335,
"qwen2.5-14b-instruct": 0.4937333333333333,
"qwen2.5-32b-instruct": 0.5776666666666666,
"qwen2.5-72b-instruct": 0.4677999999999999,
"llama-3.1-8b-instruct": 0.836,
"llama-3.1-70b-instruct": 0.5228,
"llama-3.2-3b-instruct": 0.8694000000000001,
"llama-3.3-70b-instruct": 0.5525333333333332,
"mistral-large-instruct-2411": 0.4943999999999999,
"gemma-2-27b-it": 0.6376000000000001,
"gemma-2-9b-it": 0.7730666666666668,
"deepseek-v3": 0.5540666666666666,
"deepseek-r1": 0.4287333333333333,
"qwq-32b": 0.4580666666666667,
"Average": 0.6198088888888889
},
"MusicGenresEnv": {
"qwen2.5-3b-instruct": 0.6298666666666667,
"qwen2.5-7b-instruct": 0.5864666666666667,
"qwen2.5-14b-instruct": 0.3452,
"qwen2.5-32b-instruct": 0.37546666666666667,
"qwen2.5-72b-instruct": 0.398,
"llama-3.1-8b-instruct": 0.6799999999999999,
"llama-3.1-70b-instruct": 0.44333333333333336,
"llama-3.2-3b-instruct": 0.8452,
"llama-3.3-70b-instruct": 0.49539999999999995,
"mistral-large-instruct-2411": 0.3673333333333333,
"gemma-2-27b-it": 0.5542666666666667,
"gemma-2-9b-it": 0.6927333333333332,
"deepseek-v3": 0.3997333333333334,
"deepseek-r1": 0.3074,
"qwq-32b": 0.30833333333333335,
"Average": 0.49524888888888896
},
"CloudEnv": {
"qwen2.5-3b-instruct": 0.7101999999999999,
"qwen2.5-7b-instruct": 0.6398380952380952,
"qwen2.5-14b-instruct": 0.2948095238095238,
"qwen2.5-32b-instruct": 0.39837142857142854,
"qwen2.5-72b-instruct": 0.3368666666666667,
"llama-3.1-8b-instruct": 0.6846857142857142,
"llama-3.1-70b-instruct": 0.4453333333333333,
"llama-3.2-3b-instruct": 0.7733333333333332,
"llama-3.3-70b-instruct": 0.4490380952380952,
"mistral-large-instruct-2411": 0.23912380952380952,
"gemma-2-27b-it": 0.406047619047619,
"gemma-2-9b-it": 0.675342857142857,
"deepseek-v3": 0.3188952380952381,
"deepseek-r1": 0.16405714285714285,
"qwq-32b": 0.20542857142857143,
"Average": 0.44942476190476194
},
"CuisineEnv": {
"qwen2.5-3b-instruct": 1.0595999999999999,
"qwen2.5-7b-instruct": 1.085838095238095,
"qwen2.5-14b-instruct": 0.882352380952381,
"qwen2.5-32b-instruct": 0.9331333333333334,
"qwen2.5-72b-instruct": 0.873,
"llama-3.1-8b-instruct": 1.1925238095238095,
"llama-3.1-70b-instruct": 0.9360190476190476,
"llama-3.2-3b-instruct": 1.2040571428571427,
"llama-3.3-70b-instruct": 1.0072571428571429,
"mistral-large-instruct-2411": 0.9003428571428571,
"gemma-2-27b-it": 1.1492285714285715,
"gemma-2-9b-it": 1.2268285714285714,
"deepseek-v3": 0.8427809523809524,
"deepseek-r1": 0.8026761904761905,
"qwq-32b": 0.8055523809523809,
"Average": 0.9934126984126983
},
"PlantEnv": {
"qwen2.5-3b-instruct": 0.6316666666666666,
"qwen2.5-7b-instruct": 0.6612000000000001,
"qwen2.5-14b-instruct": 0.6797333333333333,
"qwen2.5-32b-instruct": 0.7276666666666667,
"qwen2.5-72b-instruct": 0.6846666666666665,
"llama-3.1-8b-instruct": 0.7318666666666667,
"llama-3.1-70b-instruct": 0.6868666666666666,
"llama-3.2-3b-instruct": 0.7314,
"llama-3.3-70b-instruct": 0.739,
"mistral-large-instruct-2411": 0.6728666666666665,
"gemma-2-27b-it": 0.7182666666666666,
"gemma-2-9b-it": 0.7471333333333334,
"deepseek-v3": 0.6415333333333332,
"deepseek-r1": 0.6114666666666666,
"qwq-32b": 0.6385333333333333,
"Average": 0.6869244444444446
},
"HistoricalEnv": {
"qwen2.5-3b-instruct": 0.5945333333333332,
"qwen2.5-7b-instruct": 0.5029999999999999,
"qwen2.5-14b-instruct": 0.41719999999999996,
"qwen2.5-32b-instruct": 0.49926666666666664,
"qwen2.5-72b-instruct": 0.4616666666666667,
"llama-3.1-8b-instruct": 0.6741999999999999,
"llama-3.1-70b-instruct": 0.43866666666666665,
"llama-3.2-3b-instruct": 0.6622666666666666,
"llama-3.3-70b-instruct": 0.44580000000000003,
"mistral-large-instruct-2411": 0.30566666666666664,
"gemma-2-27b-it": 0.43679999999999997,
"gemma-2-9b-it": 0.6955333333333333,
"deepseek-v3": 0.3064,
"deepseek-r1": 0.1416,
"qwq-32b": 0.19106666666666666,
"Average": 0.4515777777777778
},
"GadgetEnv": {
"qwen2.5-3b-instruct": 0.7405999999999999,
"qwen2.5-7b-instruct": 0.7083999999999999,
"qwen2.5-14b-instruct": 0.48,
"qwen2.5-32b-instruct": 0.5347999999999999,
"qwen2.5-72b-instruct": 0.48633333333333334,
"llama-3.1-8b-instruct": 0.7890666666666666,
"llama-3.1-70b-instruct": 0.4845999999999999,
"llama-3.2-3b-instruct": 0.7646,
"llama-3.3-70b-instruct": 0.5077999999999999,
"mistral-large-instruct-2411": 0.6042666666666665,
"gemma-2-27b-it": 0.6635333333333333,
"gemma-2-9b-it": 0.8321333333333332,
"deepseek-v3": 0.5766666666666667,
"deepseek-r1": 0.6070666666666666,
"qwq-32b": 0.6155333333333333,
"Average": 0.6263599999999999
},
"TimeTravelEnv": {
"qwen2.5-3b-instruct": 0.976,
"qwen2.5-7b-instruct": 0.8145999999999999,
"qwen2.5-14b-instruct": 0.6627333333333333,
"qwen2.5-32b-instruct": 0.6956666666666667,
"qwen2.5-72b-instruct": 0.6541333333333333,
"llama-3.1-8b-instruct": 0.8264666666666665,
"llama-3.1-70b-instruct": 0.6590666666666667,
"llama-3.2-3b-instruct": 0.8872666666666665,
"llama-3.3-70b-instruct": 0.7066000000000001,
"mistral-large-instruct-2411": 0.7033333333333334,
"gemma-2-27b-it": 0.8493333333333334,
"gemma-2-9b-it": 1.0604666666666667,
"deepseek-v3": 0.7296666666666667,
"deepseek-r1": 0.6510666666666667,
"qwq-32b": 0.6808666666666667,
"Average": 0.7704844444444444
},
"PollutionEnv": {
"qwen2.5-3b-instruct": 0.8957809523809523,
"qwen2.5-7b-instruct": 0.8026,
"qwen2.5-14b-instruct": 0.6021904761904762,
"qwen2.5-32b-instruct": 0.6871238095238095,
"qwen2.5-72b-instruct": 0.6281809523809524,
"llama-3.1-8b-instruct": 0.9049904761904761,
"llama-3.1-70b-instruct": 0.609295238095238,
"llama-3.2-3b-instruct": 0.9090761904761905,
"llama-3.3-70b-instruct": 0.615352380952381,
"mistral-large-instruct-2411": 0.595695238095238,
"gemma-2-27b-it": 0.7770761904761903,
"gemma-2-9b-it": 0.8730190476190476,
"deepseek-v3": 0.6199238095238095,
"deepseek-r1": 0.5457142857142857,
"qwq-32b": 0.5781333333333333,
"Average": 0.7096101587301588
},
"DemographicEnv": {
"qwen2.5-3b-instruct": 1.2349333333333334,
"qwen2.5-7b-instruct": 0.9282,
"qwen2.5-14b-instruct": 0.8947999999999998,
"qwen2.5-32b-instruct": 0.8493999999999999,
"qwen2.5-72b-instruct": 0.8458,
"llama-3.1-8b-instruct": 1.1641333333333332,
"llama-3.1-70b-instruct": 0.8899333333333332,
"llama-3.2-3b-instruct": 1.1756666666666669,
"llama-3.3-70b-instruct": 0.8181999999999998,
"mistral-large-instruct-2411": 0.8889333333333335,
"gemma-2-27b-it": 1.1206,
"gemma-2-9b-it": 1.2548,
"deepseek-v3": 0.937,
"deepseek-r1": 0.8470666666666669,
"qwq-32b": 0.8959333333333334,
"Average": 0.9830266666666666
},
"GeneticEnv": {
"qwen2.5-3b-instruct": 0.8742666666666669,
"qwen2.5-7b-instruct": 0.7093333333333331,
"qwen2.5-14b-instruct": 0.40293333333333337,
"qwen2.5-32b-instruct": 0.44313333333333327,
"qwen2.5-72b-instruct": 0.42733333333333323,
"llama-3.1-8b-instruct": 0.7788666666666665,
"llama-3.1-70b-instruct": 0.39159999999999995,
"llama-3.2-3b-instruct": 0.8340666666666667,
"llama-3.3-70b-instruct": 0.4035333333333334,
"mistral-large-instruct-2411": 0.4183333333333333,
"gemma-2-27b-it": 0.4676666666666667,
"gemma-2-9b-it": 0.8420000000000002,
"deepseek-v3": 0.39733333333333337,
"deepseek-r1": 0.3223333333333333,
"qwq-32b": 0.4328,
"Average": 0.5430355555555555
},
"CraftsmanEnv": {
"qwen2.5-3b-instruct": 0.8531238095238095,
"qwen2.5-7b-instruct": 0.8701333333333332,
"qwen2.5-14b-instruct": 0.636152380952381,
"qwen2.5-32b-instruct": 0.5899619047619048,
"qwen2.5-72b-instruct": 0.6157428571428571,
"llama-3.1-8b-instruct": 0.906847619047619,
"llama-3.1-70b-instruct": 0.6374285714285713,
"llama-3.2-3b-instruct": 0.9079333333333333,
"llama-3.3-70b-instruct": 0.7432857142857142,
"mistral-large-instruct-2411": 0.5945047619047619,
"gemma-2-27b-it": 0.8030285714285714,
"gemma-2-9b-it": 0.9558666666666668,
"deepseek-v3": 0.6411523809523809,
"deepseek-r1": 0.572504761904762,
"qwq-32b": 0.5707142857142857,
"Average": 0.7265587301587301
},
"StarConstellationEnv": {
"qwen2.5-3b-instruct": 0.9018,
"qwen2.5-7b-instruct": 0.8849999999999998,
"qwen2.5-14b-instruct": 0.6111333333333333,
"qwen2.5-32b-instruct": 0.6682,
"qwen2.5-72b-instruct": 0.6413333333333333,
"llama-3.1-8b-instruct": 0.8276666666666668,
"llama-3.1-70b-instruct": 0.6845333333333333,
"llama-3.2-3b-instruct": 0.8996666666666666,
"llama-3.3-70b-instruct": 0.7238666666666665,
"mistral-large-instruct-2411": 0.6063333333333333,
"gemma-2-27b-it": 0.6717333333333333,
"gemma-2-9b-it": 0.8695999999999999,
"deepseek-v3": 0.55,
"deepseek-r1": 0.4897333333333334,
"qwq-32b": 0.5618000000000001,
"Average": 0.7061600000000001
},
"MythicalCreatureEnv": {
"qwen2.5-3b-instruct": 0.9463333333333332,
"qwen2.5-7b-instruct": 1.0008666666666666,
"qwen2.5-14b-instruct": 0.8189999999999997,
"qwen2.5-32b-instruct": 0.7707333333333333,
"qwen2.5-72b-instruct": 0.8385333333333334,
"llama-3.1-8b-instruct": 1.0950666666666666,
"llama-3.1-70b-instruct": 0.7916,
"llama-3.2-3b-instruct": 1.1887333333333332,
"llama-3.3-70b-instruct": 0.7888666666666666,
"mistral-large-instruct-2411": 0.7903999999999999,
"gemma-2-27b-it": 0.9704666666666666,
"gemma-2-9b-it": 1.1304666666666665,
"deepseek-v3": 0.7574,
"deepseek-r1": 0.7734,
"qwq-32b": 0.7396,
"Average": 0.8934311111111112
},
"ArtStyleEnv": {
"qwen2.5-3b-instruct": 0.9593238095238095,
"qwen2.5-7b-instruct": 0.8611714285714285,
"qwen2.5-14b-instruct": 0.6572000000000001,
"qwen2.5-32b-instruct": 0.6888190476190477,
"qwen2.5-72b-instruct": 0.6664380952380953,
"llama-3.1-8b-instruct": 0.9826952380952381,
"llama-3.1-70b-instruct": 0.6773714285714286,
"llama-3.2-3b-instruct": 1.0108000000000001,
"llama-3.3-70b-instruct": 0.7458571428571428,
"mistral-large-instruct-2411": 0.627504761904762,
"gemma-2-27b-it": 0.8328380952380952,
"gemma-2-9b-it": 1.0002666666666666,
"deepseek-v3": 0.723047619047619,
"deepseek-r1": 0.666,
"qwq-32b": 0.6872952380952381,
"Average": 0.7857752380952383
},
"CookingEnv": {
"qwen2.5-3b-instruct": 0.9731333333333332,
"qwen2.5-7b-instruct": 0.8531999999999998,
"qwen2.5-14b-instruct": 0.6777333333333333,
"qwen2.5-32b-instruct": 0.6949333333333334,
"qwen2.5-72b-instruct": 0.6868666666666666,
"llama-3.1-8b-instruct": 0.9575333333333333,
"llama-3.1-70b-instruct": 0.6741333333333334,
"llama-3.2-3b-instruct": 0.9920666666666665,
"llama-3.3-70b-instruct": 0.7073999999999999,
"mistral-large-instruct-2411": 0.6852,
"gemma-2-27b-it": 0.8009999999999998,
"gemma-2-9b-it": 0.9400666666666666,
"deepseek-v3": 0.6910000000000001,
"deepseek-r1": 0.6202666666666665,
"qwq-32b": 0.5726666666666667,
"Average": 0.7684799999999999
},
"HistoricalBattleEnv": {
"qwen2.5-3b-instruct": 0.3906380952380952,
"qwen2.5-7b-instruct": 0.39269523809523804,
"qwen2.5-14b-instruct": 0.36508571428571424,
"qwen2.5-32b-instruct": 0.3839047619047619,
"qwen2.5-72b-instruct": 0.37189523809523806,
"llama-3.1-8b-instruct": 0.5100190476190476,
"llama-3.1-70b-instruct": 0.3623142857142857,
"llama-3.2-3b-instruct": 0.5539428571428571,
"llama-3.3-70b-instruct": 0.3407428571428571,
"mistral-large-instruct-2411": 0.26249523809523806,
"gemma-2-27b-it": 0.3749619047619047,
"gemma-2-9b-it": 0.4291904761904761,
"deepseek-v3": 0.2707428571428572,
"deepseek-r1": 0.12205714285714286,
"qwq-32b": 0.1069238095238095,
"Average": 0.34917396825396824
},
"FungalEnv": {
"qwen2.5-3b-instruct": 0.9867619047619047,
"qwen2.5-7b-instruct": 0.7690285714285714,
"qwen2.5-14b-instruct": 0.5497523809523809,
"qwen2.5-32b-instruct": 0.5654571428571428,
"qwen2.5-72b-instruct": 0.5338571428571429,
"llama-3.1-8b-instruct": 0.9299904761904761,
"llama-3.1-70b-instruct": 0.6940095238095237,
"llama-3.2-3b-instruct": 1.0453999999999999,
"llama-3.3-70b-instruct": 0.6804285714285714,
"mistral-large-instruct-2411": 0.5070380952380952,
"gemma-2-27b-it": 0.6260571428571428,
"gemma-2-9b-it": 1.0525142857142857,
"deepseek-v3": 0.4512380952380953,
"deepseek-r1": 0.41535238095238086,
"qwq-32b": 0.4612952380952381,
"Average": 0.6845453968253967
},
"CryptographyEnv": {
"qwen2.5-3b-instruct": 0.7157333333333333,
"qwen2.5-7b-instruct": 0.7917428571428571,
"qwen2.5-14b-instruct": 0.5772095238095238,
"qwen2.5-32b-instruct": 0.5362666666666666,
"qwen2.5-72b-instruct": 0.5816380952380952,
"llama-3.1-8b-instruct": 0.7762666666666667,
"llama-3.1-70b-instruct": 0.5880761904761905,
"llama-3.2-3b-instruct": 0.9222476190476192,
"llama-3.3-70b-instruct": 0.6200666666666668,
"mistral-large-instruct-2411": 0.43243809523809523,
"gemma-2-27b-it": 0.6965333333333332,
"gemma-2-9b-it": 0.9170952380952381,
"deepseek-v3": 0.4242190476190476,
"deepseek-r1": 0.31665714285714286,
"qwq-32b": 0.3307142857142857,
"Average": 0.6151269841269841
},
"StorageEnv": {
"qwen2.5-3b-instruct": 0.5999999999999999,
"qwen2.5-7b-instruct": 0.5174666666666666,
"qwen2.5-14b-instruct": 0.26799999999999996,
"qwen2.5-32b-instruct": 0.3171333333333333,
"qwen2.5-72b-instruct": 0.30706666666666665,
"llama-3.1-8b-instruct": 0.6547333333333333,
"llama-3.1-70b-instruct": 0.3390666666666667,
"llama-3.2-3b-instruct": 0.6575333333333333,
"llama-3.3-70b-instruct": 0.2899333333333334,
"mistral-large-instruct-2411": 0.28440000000000004,
"gemma-2-27b-it": 0.4133333333333333,
"gemma-2-9b-it": 0.5988666666666667,
"deepseek-v3": 0.34040000000000004,
"deepseek-r1": 0.3333333333333333,
"qwq-32b": 0.33946666666666664,
"Average": 0.41738222222222215
},
"RoverEnv": {
"qwen2.5-3b-instruct": 0.9546666666666667,
"qwen2.5-7b-instruct": 1.0193333333333334,
"qwen2.5-14b-instruct": 0.5934,
"qwen2.5-32b-instruct": 0.6414,
"qwen2.5-72b-instruct": 0.5923999999999999,
"llama-3.1-8b-instruct": 0.9858666666666667,
"llama-3.1-70b-instruct": 0.7111333333333333,
"llama-3.2-3b-instruct": 1.0410666666666666,
"llama-3.3-70b-instruct": 0.6332666666666666,
"mistral-large-instruct-2411": 0.7143999999999999,
"gemma-2-27b-it": 0.7877333333333333,
"gemma-2-9b-it": 1.0685333333333333,
"deepseek-v3": 0.7905333333333333,
"deepseek-r1": 0.7494,
"qwq-32b": 0.7479333333333333,
"Average": 0.8020711111111112
},
"FashionEnv": {
"qwen2.5-3b-instruct": 1.0357333333333334,
"qwen2.5-7b-instruct": 1.081152380952381,
"qwen2.5-14b-instruct": 0.7285238095238096,
"qwen2.5-32b-instruct": 0.7431523809523809,
"qwen2.5-72b-instruct": 0.7598666666666667,
"llama-3.1-8b-instruct": 1.0961333333333332,
"llama-3.1-70b-instruct": 0.8041333333333333,
"llama-3.2-3b-instruct": 1.1326571428571426,
"llama-3.3-70b-instruct": 0.8184666666666667,
"mistral-large-instruct-2411": 0.8105238095238094,
"gemma-2-27b-it": 0.9382190476190475,
"gemma-2-9b-it": 1.0972,
"deepseek-v3": 0.8063809523809524,
"deepseek-r1": 0.7738476190476191,
"qwq-32b": 0.8007333333333335,
"Average": 0.8951149206349207
},
"LicenseEnv": {
"qwen2.5-3b-instruct": 0.7847999999999999,
"qwen2.5-7b-instruct": 0.8215333333333333,
"qwen2.5-14b-instruct": 0.6174666666666666,
"qwen2.5-32b-instruct": 0.7098666666666666,
"qwen2.5-72b-instruct": 0.7198666666666667,
"llama-3.1-8b-instruct": 0.8523333333333334,
"llama-3.1-70b-instruct": 0.6513333333333332,
"llama-3.2-3b-instruct": 0.9648666666666668,
"llama-3.3-70b-instruct": 0.6662000000000001,
"mistral-large-instruct-2411": 0.6437333333333333,
"gemma-2-27b-it": 0.7512666666666666,
"gemma-2-9b-it": 0.8070666666666666,
"deepseek-v3": 0.6174666666666666,
"deepseek-r1": 0.5982666666666666,
"qwq-32b": 0.6115999999999999,
"Average": 0.7211777777777777
},
"VirusClassificationEnv": {
"qwen2.5-3b-instruct": 0.5887238095238095,
"qwen2.5-7b-instruct": 0.6255999999999999,
"qwen2.5-14b-instruct": 0.43513333333333326,
"qwen2.5-32b-instruct": 0.4164,
"qwen2.5-72b-instruct": 0.39893333333333336,
"llama-3.1-8b-instruct": 0.6247333333333334,
"llama-3.1-70b-instruct": 0.5219333333333334,
"llama-3.2-3b-instruct": 0.6386095238095237,
"llama-3.3-70b-instruct": 0.4547333333333333,
"mistral-large-instruct-2411": 0.3114571428571429,
"gemma-2-27b-it": 0.48719999999999997,
"gemma-2-9b-it": 0.6325809523809524,
"deepseek-v3": 0.30473333333333336,
"deepseek-r1": 0.2137142857142857,
"qwq-32b": 0.22217142857142855,
"Average": 0.45844380952380953
},
"TestingEnv": {
"qwen2.5-3b-instruct": 0.5297333333333333,
"qwen2.5-7b-instruct": 0.5164666666666667,
"qwen2.5-14b-instruct": 0.4224666666666666,
"qwen2.5-32b-instruct": 0.4540666666666667,
"qwen2.5-72b-instruct": 0.39493333333333325,
"llama-3.1-8b-instruct": 0.5270666666666667,
"llama-3.1-70b-instruct": 0.3365333333333333,
"llama-3.2-3b-instruct": 0.5638666666666666,
"llama-3.3-70b-instruct": 0.39473333333333327,
"mistral-large-instruct-2411": 0.3972,
"gemma-2-27b-it": 0.5658,
"gemma-2-9b-it": 0.6542,
"deepseek-v3": 0.37939999999999996,
"deepseek-r1": 0.25579999999999997,
"qwq-32b": 0.3352,
"Average": 0.44849777777777783
},
"NarrativeDetectEnv": {
"qwen2.5-3b-instruct": 1.0932666666666666,
"qwen2.5-7b-instruct": 0.9698666666666667,
"qwen2.5-14b-instruct": 0.8831333333333333,
"qwen2.5-32b-instruct": 0.7640666666666666,
"qwen2.5-72b-instruct": 0.8158000000000001,
"llama-3.1-8b-instruct": 1.0600666666666667,
"llama-3.1-70b-instruct": 0.8113999999999999,
"llama-3.2-3b-instruct": 1.2458666666666667,
"llama-3.3-70b-instruct": 0.8439333333333334,
"mistral-large-instruct-2411": 0.8011333333333333,
"gemma-2-27b-it": 1.0462666666666665,
"gemma-2-9b-it": 1.0814666666666668,
"deepseek-v3": 0.9039333333333334,
"deepseek-r1": 0.82,
"qwq-32b": 0.8263999999999999,
"Average": 0.9311066666666665
},
"RenewableEnergyEnv": {
"qwen2.5-3b-instruct": 1.2372,
"qwen2.5-7b-instruct": 1.209,
"qwen2.5-14b-instruct": 1.018,
"qwen2.5-32b-instruct": 0.8681999999999999,
"qwen2.5-72b-instruct": 0.8295333333333333,
"llama-3.1-8b-instruct": 1.3595333333333333,
"llama-3.1-70b-instruct": 0.8166666666666667,
"llama-3.2-3b-instruct": 1.2722666666666664,
"llama-3.3-70b-instruct": 0.9336000000000002,
"mistral-large-instruct-2411": 0.8966666666666667,
"gemma-2-27b-it": 1.2019333333333333,
"gemma-2-9b-it": 1.3341999999999998,
"deepseek-v3": 0.898,
"deepseek-r1": 0.8659333333333334,
"qwq-32b": 0.9053333333333334,
"Average": 1.043071111111111
},
"CelestialEnv": {
"qwen2.5-3b-instruct": 0.8438666666666667,
"qwen2.5-7b-instruct": 0.8887999999999998,
"qwen2.5-14b-instruct": 0.6514,
"qwen2.5-32b-instruct": 0.6459333333333334,
"qwen2.5-72b-instruct": 0.6326666666666666,
"llama-3.1-8b-instruct": 0.9612666666666666,
"llama-3.1-70b-instruct": 0.6192,
"llama-3.2-3b-instruct": 0.8965333333333334,
"llama-3.3-70b-instruct": 0.6164,
"mistral-large-instruct-2411": 0.6203333333333334,
"gemma-2-27b-it": 0.7378,
"gemma-2-9b-it": 0.9489333333333333,
"deepseek-v3": 0.6561999999999999,
"deepseek-r1": 0.5421333333333334,
"qwq-32b": 0.5784666666666667,
"Average": 0.7226622222222223
},
"SpiceEnv": {
"qwen2.5-3b-instruct": 0.6036476190476192,
"qwen2.5-7b-instruct": 0.6609809523809524,
"qwen2.5-14b-instruct": 0.40272380952380954,
"qwen2.5-32b-instruct": 0.5753809523809524,
"qwen2.5-72b-instruct": 0.46193333333333336,
"llama-3.1-8b-instruct": 0.6512666666666667,
"llama-3.1-70b-instruct": 0.5352666666666666,
"llama-3.2-3b-instruct": 0.6274,
"llama-3.3-70b-instruct": 0.594,
"mistral-large-instruct-2411": 0.45503809523809513,
"gemma-2-27b-it": 0.6168666666666667,
"gemma-2-9b-it": 0.7341333333333334,
"deepseek-v3": 0.31380952380952376,
"deepseek-r1": 0.36774285714285704,
"qwq-32b": 0.37498095238095236,
"Average": 0.5316780952380953
},
"WildlifeEnv": {
"qwen2.5-3b-instruct": 0.7888,
"qwen2.5-7b-instruct": 0.7621333333333333,
"qwen2.5-14b-instruct": 0.6147999999999999,
"qwen2.5-32b-instruct": 0.7297333333333332,
"qwen2.5-72b-instruct": 0.6115999999999999,
"llama-3.1-8b-instruct": 0.8686666666666666,
"llama-3.1-70b-instruct": 0.6302,
"llama-3.2-3b-instruct": 0.7972666666666667,
"llama-3.3-70b-instruct": 0.6359999999999999,
"mistral-large-instruct-2411": 0.6615333333333333,
"gemma-2-27b-it": 0.7294666666666667,
"gemma-2-9b-it": 0.8138666666666665,
"deepseek-v3": 0.6534000000000001,
"deepseek-r1": 0.7072666666666667,
"qwq-32b": 0.7271333333333333,
"Average": 0.7154577777777777
},
"VehicleEnv": {
"qwen2.5-3b-instruct": 0.9630666666666666,
"qwen2.5-7b-instruct": 0.9056000000000001,
"qwen2.5-14b-instruct": 0.7067333333333332,
"qwen2.5-32b-instruct": 0.5080666666666666,
"qwen2.5-72b-instruct": 0.4952666666666666,
"llama-3.1-8b-instruct": 1.0144666666666668,
"llama-3.1-70b-instruct": 0.6701333333333334,
"llama-3.2-3b-instruct": 1.0123333333333333,
"llama-3.3-70b-instruct": 0.6127333333333332,
"mistral-large-instruct-2411": 0.37593333333333334,
"gemma-2-27b-it": 0.7358666666666668,
"gemma-2-9b-it": 1.0004666666666666,
"deepseek-v3": 0.38853333333333334,
"deepseek-r1": 0.30946666666666667,
"qwq-32b": 0.3487333333333333,
"Average": 0.6698266666666667
},
"BeverageEnv": {
"qwen2.5-3b-instruct": 1.1309999999999998,
"qwen2.5-7b-instruct": 1.0566666666666666,
"qwen2.5-14b-instruct": 0.7231333333333334,
"qwen2.5-32b-instruct": 0.8653333333333334,
"qwen2.5-72b-instruct": 0.8098666666666666,
"llama-3.1-8b-instruct": 1.0646666666666664,
"llama-3.1-70b-instruct": 0.7819333333333334,
"llama-3.2-3b-instruct": 1.0867999999999998,
"llama-3.3-70b-instruct": 0.8621333333333332,
"mistral-large-instruct-2411": 0.8074666666666666,
"gemma-2-27b-it": 0.9830666666666668,
"gemma-2-9b-it": 1.0837999999999999,
"deepseek-v3": 0.7968,
"deepseek-r1": 0.7807333333333334,
"qwq-32b": 0.7677333333333334,
"Average": 0.9067422222222222
},
"ControlEnv": {
"qwen2.5-3b-instruct": 1.2409333333333332,
"qwen2.5-7b-instruct": 1.1129999999999998,
"qwen2.5-14b-instruct": 0.9396000000000001,
"qwen2.5-32b-instruct": 0.9234,
"qwen2.5-72b-instruct": 0.8239333333333333,
"llama-3.1-8b-instruct": 1.1922666666666668,
"llama-3.1-70b-instruct": 0.8639999999999999,
"llama-3.2-3b-instruct": 1.1910666666666665,
"llama-3.3-70b-instruct": 0.9382666666666666,
"mistral-large-instruct-2411": 0.9432666666666666,
"gemma-2-27b-it": 1.0350666666666668,
"gemma-2-9b-it": 1.3362,
"deepseek-v3": 0.8779333333333333,
"deepseek-r1": 0.8366666666666667,
"qwq-32b": 0.8624666666666666,
"Average": 1.007871111111111
},
"CurrencyEnv": {
"qwen2.5-3b-instruct": 1.1619999999999997,
"qwen2.5-7b-instruct": 1.1104666666666667,
"qwen2.5-14b-instruct": 1.0066666666666666,
"qwen2.5-32b-instruct": 0.9369333333333332,
"qwen2.5-72b-instruct": 0.9753999999999999,
"llama-3.1-8b-instruct": 1.2676666666666667,
"llama-3.1-70b-instruct": 0.8947999999999998,
"llama-3.2-3b-instruct": 1.261,
"llama-3.3-70b-instruct": 0.9674666666666665,
"mistral-large-instruct-2411": 0.8869999999999998,
"gemma-2-27b-it": 1.0257333333333334,
"gemma-2-9b-it": 1.3512,
"deepseek-v3": 0.9630666666666666,
"deepseek-r1": 0.8782666666666665,
"qwq-32b": 0.9007999999999999,
"Average": 1.0392311111111112
},
"MarketingEnv": {
"qwen2.5-3b-instruct": 0.7427333333333332,
"qwen2.5-7b-instruct": 0.6565333333333332,
"qwen2.5-14b-instruct": 0.6416000000000001,
"qwen2.5-32b-instruct": 0.5615333333333333,
"qwen2.5-72b-instruct": 0.5475333333333334,
"llama-3.1-8b-instruct": 0.7419999999999999,
"llama-3.1-70b-instruct": 0.5211333333333333,
"llama-3.2-3b-instruct": 0.7737333333333333,
"llama-3.3-70b-instruct": 0.5229999999999999,
"mistral-large-instruct-2411": 0.5469999999999999,
"gemma-2-27b-it": 0.7222000000000001,
"gemma-2-9b-it": 0.8039333333333334,
"deepseek-v3": 0.6286666666666666,
"deepseek-r1": 0.5670666666666666,
"qwq-32b": 0.5600666666666666,
"Average": 0.6359155555555555
},
"BotanicalEnv": {
"qwen2.5-3b-instruct": 1.3478666666666668,
"qwen2.5-7b-instruct": 1.3568,
"qwen2.5-14b-instruct": 0.7390000000000001,
"qwen2.5-32b-instruct": 0.9401333333333334,
"qwen2.5-72b-instruct": 0.8344666666666665,
"llama-3.1-8b-instruct": 1.3095999999999999,
"llama-3.1-70b-instruct": 0.8597999999999999,
"llama-3.2-3b-instruct": 1.2815999999999999,
"llama-3.3-70b-instruct": 0.9140666666666665,
"mistral-large-instruct-2411": 0.8783333333333333,
"gemma-2-27b-it": 1.0331333333333332,
"gemma-2-9b-it": 1.4613999999999998,
"deepseek-v3": 0.8467333333333332,
"deepseek-r1": 0.6417333333333334,
"qwq-32b": 0.6957333333333333,
"Average": 1.00936
},
"CircusActEnv": {
"qwen2.5-3b-instruct": 0.966,
"qwen2.5-7b-instruct": 0.8732666666666665,
"qwen2.5-14b-instruct": 0.7160666666666667,
"qwen2.5-32b-instruct": 0.6424000000000001,
"qwen2.5-72b-instruct": 0.6185333333333333,
"llama-3.1-8b-instruct": 1.0588000000000002,
"llama-3.1-70b-instruct": 0.6578,
"llama-3.2-3b-instruct": 1.0192666666666663,
"llama-3.3-70b-instruct": 0.6707333333333333,
"mistral-large-instruct-2411": 0.5906,
"gemma-2-27b-it": 0.8663333333333334,
"gemma-2-9b-it": 0.9901333333333333,
"deepseek-v3": 0.6095333333333334,
"deepseek-r1": 0.5542666666666667,
"qwq-32b": 0.612,
"Average": 0.7630488888888889
},
"AudioDialectEnv": {
"qwen2.5-3b-instruct": 1.1560666666666666,
"qwen2.5-7b-instruct": 1.1981333333333333,
"qwen2.5-14b-instruct": 0.9919333333333332,
"qwen2.5-32b-instruct": 0.9843999999999999,
"qwen2.5-72b-instruct": 1.0026,
"llama-3.1-8b-instruct": 1.1826,
"llama-3.1-70b-instruct": 1.049,
"llama-3.2-3b-instruct": 1.2086666666666668,
"llama-3.3-70b-instruct": 1.1178666666666666,
"mistral-large-instruct-2411": 0.9938666666666667,
"gemma-2-27b-it": 1.1272666666666669,
"gemma-2-9b-it": 1.255666666666667,
"deepseek-v3": 0.9454666666666667,
"deepseek-r1": 0.8542666666666667,
"qwq-32b": 0.9452,
"Average": 1.0675333333333334
},
"LeadershipEnv": {
"qwen2.5-3b-instruct": 1.1378,
"qwen2.5-7b-instruct": 1.1529333333333334,
"qwen2.5-14b-instruct": 0.9892285714285715,
"qwen2.5-32b-instruct": 1.036095238095238,
"qwen2.5-72b-instruct": 0.9751333333333333,
"llama-3.1-8b-instruct": 1.2512571428571426,
"llama-3.1-70b-instruct": 0.9471428571428572,
"llama-3.2-3b-instruct": 1.450133333333333,
"llama-3.3-70b-instruct": 1.0285999999999997,
"mistral-large-instruct-2411": 0.9162380952380952,
"gemma-2-27b-it": 1.2164380952380953,
"gemma-2-9b-it": 1.3166761904761903,
"deepseek-v3": 0.9108571428571428,
"deepseek-r1": 0.9028190476190476,
"qwq-32b": 0.8550952380952381,
"Average": 1.0724298412698412
},
"TransportEnv": {
"qwen2.5-3b-instruct": 0.7256761904761905,
"qwen2.5-7b-instruct": 0.6674,
"qwen2.5-14b-instruct": 0.425752380952381,
"qwen2.5-32b-instruct": 0.5705047619047618,
"qwen2.5-72b-instruct": 0.4020666666666667,
"llama-3.1-8b-instruct": 0.7760380952380952,
"llama-3.1-70b-instruct": 0.5022666666666666,
"llama-3.2-3b-instruct": 0.8045333333333333,
"llama-3.3-70b-instruct": 0.5512285714285714,
"mistral-large-instruct-2411": 0.4226571428571429,
"gemma-2-27b-it": 0.6612190476190476,
"gemma-2-9b-it": 0.7567999999999999,
"deepseek-v3": 0.4245333333333333,
"deepseek-r1": 0.35583809523809523,
"qwq-32b": 0.42556190476190475,
"Average": 0.5648050793650794
},
"EcologicalEnv": {
"qwen2.5-3b-instruct": 0.5565333333333333,
"qwen2.5-7b-instruct": 0.3861333333333333,
"qwen2.5-14b-instruct": 0.23986666666666662,
"qwen2.5-32b-instruct": 0.2175333333333333,
"qwen2.5-72b-instruct": 0.2650666666666667,
"llama-3.1-8b-instruct": 0.5481333333333334,
"llama-3.1-70b-instruct": 0.27026666666666666,
"llama-3.2-3b-instruct": 0.5608666666666666,
"llama-3.3-70b-instruct": 0.34073333333333333,
"mistral-large-instruct-2411": 0.18666666666666668,
"gemma-2-27b-it": 0.3159333333333333,
"gemma-2-9b-it": 0.49386666666666673,
"deepseek-v3": 0.25439999999999996,
"deepseek-r1": 0.13513333333333333,
"qwq-32b": 0.1812,
"Average": 0.3301555555555555
},
"MythicEnv": {
"qwen2.5-3b-instruct": 1.1101999999999999,
"qwen2.5-7b-instruct": 0.9876000000000001,
"qwen2.5-14b-instruct": 0.7183999999999999,
"qwen2.5-32b-instruct": 0.8451333333333334,
"qwen2.5-72b-instruct": 0.7776666666666666,
"llama-3.1-8b-instruct": 1.1285333333333334,
"llama-3.1-70b-instruct": 0.8145999999999999,
"llama-3.2-3b-instruct": 1.2702,
"llama-3.3-70b-instruct": 0.8547333333333332,
"mistral-large-instruct-2411": 0.7791333333333332,
"gemma-2-27b-it": 0.9578666666666666,
"gemma-2-9b-it": 1.1880000000000002,
"deepseek-v3": 0.7562,
"deepseek-r1": 0.628,
"qwq-32b": 0.7259333333333334,
"Average": 0.9028133333333334
},
"EnzymeEnv": {
"qwen2.5-3b-instruct": 0.5272666666666666,
"qwen2.5-7b-instruct": 0.5749999999999998,
"qwen2.5-14b-instruct": 0.45233333333333325,
"qwen2.5-32b-instruct": 0.44746666666666657,
"qwen2.5-72b-instruct": 0.4640666666666666,
"llama-3.1-8b-instruct": 0.6982666666666667,
"llama-3.1-70b-instruct": 0.4665333333333333,
"llama-3.2-3b-instruct": 0.7106666666666666,
"llama-3.3-70b-instruct": 0.4798,
"mistral-large-instruct-2411": 0.425,
"gemma-2-27b-it": 0.5391999999999999,
"gemma-2-9b-it": 0.6941333333333333,
"deepseek-v3": 0.37926666666666664,
"deepseek-r1": 0.38086666666666663,
"qwq-32b": 0.4045333333333333,
"Average": 0.5096266666666667
},
"OSKernelEnv": {
"qwen2.5-3b-instruct": 1.1656,
"qwen2.5-7b-instruct": 1.3032,
"qwen2.5-14b-instruct": 0.8570666666666666,
"qwen2.5-32b-instruct": 0.8768666666666667,
"qwen2.5-72b-instruct": 0.8728,
"llama-3.1-8b-instruct": 1.184,
"llama-3.1-70b-instruct": 0.8322666666666667,
"llama-3.2-3b-instruct": 1.3510000000000002,
"llama-3.3-70b-instruct": 0.8083333333333333,
"mistral-large-instruct-2411": 0.8513333333333332,
"gemma-2-27b-it": 1.0258666666666667,
"gemma-2-9b-it": 1.3057333333333332,
"deepseek-v3": 0.8445333333333332,
"deepseek-r1": 0.7511333333333332,
"qwq-32b": 0.8475333333333334,
"Average": 0.9918177777777777
},
"MineralClassificationEnv": {
"qwen2.5-3b-instruct": 1.0583333333333333,
"qwen2.5-7b-instruct": 1.0704666666666667,
"qwen2.5-14b-instruct": 0.7609999999999999,
"qwen2.5-32b-instruct": 0.7188666666666668,
"qwen2.5-72b-instruct": 0.6955333333333333,
"llama-3.1-8b-instruct": 1.1152000000000002,
"llama-3.1-70b-instruct": 0.6619333333333334,
"llama-3.2-3b-instruct": 1.1165333333333334,
"llama-3.3-70b-instruct": 0.6672666666666666,
"mistral-large-instruct-2411": 0.7607333333333333,
"gemma-2-27b-it": 0.9294,
"gemma-2-9b-it": 1.2250666666666667,
"deepseek-v3": 0.8092,
"deepseek-r1": 0.7899999999999999,
"qwq-32b": 0.7879333333333334,
"Average": 0.8778311111111109
},
"EconomicEnv": {
"qwen2.5-3b-instruct": 1.1286,
"qwen2.5-7b-instruct": 1.16,
"qwen2.5-14b-instruct": 0.8704666666666666,
"qwen2.5-32b-instruct": 0.8274666666666667,
"qwen2.5-72b-instruct": 0.7895333333333333,
"llama-3.1-8b-instruct": 1.1526666666666667,
"llama-3.1-70b-instruct": 0.7768,
"llama-3.2-3b-instruct": 1.1796666666666666,
"llama-3.3-70b-instruct": 0.8427333333333333,
"mistral-large-instruct-2411": 0.8880666666666667,
"gemma-2-27b-it": 1.0978666666666665,
"gemma-2-9b-it": 1.4352000000000003,
"deepseek-v3": 0.9310666666666668,
"deepseek-r1": 0.8318000000000001,
"qwq-32b": 0.8415333333333332,
"Average": 0.9835644444444444
},
"DetectiveEnv": {
"qwen2.5-3b-instruct": 0.9592666666666666,
"qwen2.5-7b-instruct": 0.8579333333333332,
"qwen2.5-14b-instruct": 0.5528666666666666,
"qwen2.5-32b-instruct": 0.6906666666666667,
"qwen2.5-72b-instruct": 0.6596,
"llama-3.1-8b-instruct": 1.0208666666666666,
"llama-3.1-70b-instruct": 0.7068,
"llama-3.2-3b-instruct": 1.0127333333333335,
"llama-3.3-70b-instruct": 0.7222666666666665,
"mistral-large-instruct-2411": 0.6398666666666667,
"gemma-2-27b-it": 1.0352000000000001,
"gemma-2-9b-it": 1.2517999999999998,
"deepseek-v3": 0.6811999999999999,
"deepseek-r1": 0.6839333333333333,
"qwq-32b": 0.6996,
"Average": 0.81164
},
"ChessEnv": {
"qwen2.5-3b-instruct": 0.9558666666666668,
"qwen2.5-7b-instruct": 1.0245333333333335,
"qwen2.5-14b-instruct": 0.8131333333333333,
"qwen2.5-32b-instruct": 0.8892,
"qwen2.5-72b-instruct": 0.8331999999999999,
"llama-3.1-8b-instruct": 1.1225333333333334,
"llama-3.1-70b-instruct": 0.7468666666666667,
"llama-3.2-3b-instruct": 1.1218,
"llama-3.3-70b-instruct": 0.8098666666666666,
"mistral-large-instruct-2411": 0.7781333333333335,
"gemma-2-27b-it": 1.01,
"gemma-2-9b-it": 1.2222666666666666,
"deepseek-v3": 0.7901333333333332,
"deepseek-r1": 0.7748,
"qwq-32b": 0.8231333333333334,
"Average": 0.9143644444444444
},
"MythicalEnv": {
"qwen2.5-3b-instruct": 0.9932000000000001,
"qwen2.5-7b-instruct": 1.0899333333333334,
"qwen2.5-14b-instruct": 0.7302,
"qwen2.5-32b-instruct": 0.8645999999999999,
"qwen2.5-72b-instruct": 0.8496666666666666,
"llama-3.1-8b-instruct": 1.0838,
"llama-3.1-70b-instruct": 0.8592000000000001,
"llama-3.2-3b-instruct": 1.0404666666666667,
"llama-3.3-70b-instruct": 0.8421333333333333,
"mistral-large-instruct-2411": 0.8762666666666666,
"gemma-2-27b-it": 0.8621333333333334,
"gemma-2-9b-it": 1.0032,
"deepseek-v3": 0.885,
"deepseek-r1": 0.7668000000000001,
"qwq-32b": 0.8260000000000002,
"Average": 0.90484
},
"ChemicalCompoundsEnv": {
"qwen2.5-3b-instruct": 0.8311047619047619,
"qwen2.5-7b-instruct": 0.8545238095238095,
"qwen2.5-14b-instruct": 0.6625238095238095,
"qwen2.5-32b-instruct": 0.7971619047619047,
"qwen2.5-72b-instruct": 0.7787238095238094,
"llama-3.1-8b-instruct": 0.9210666666666665,
"llama-3.1-70b-instruct": 0.8095619047619046,
"llama-3.2-3b-instruct": 0.870647619047619,
"llama-3.3-70b-instruct": 0.8861619047619047,
"mistral-large-instruct-2411": 0.665295238095238,
"gemma-2-27b-it": 0.8178285714285713,
"gemma-2-9b-it": 0.9217333333333333,
"deepseek-v3": 0.6765047619047617,
"deepseek-r1": 0.4232571428571429,
"qwq-32b": 0.41698095238095234,
"Average": 0.7555384126984125
},
"ArchitecturalEnv": {
"qwen2.5-3b-instruct": 0.8535333333333333,
"qwen2.5-7b-instruct": 0.9366666666666668,
"qwen2.5-14b-instruct": 0.6431333333333333,
"qwen2.5-32b-instruct": 0.7234666666666666,
"qwen2.5-72b-instruct": 0.6861333333333335,
"llama-3.1-8b-instruct": 0.9704666666666666,
"llama-3.1-70b-instruct": 0.769,
"llama-3.2-3b-instruct": 1.0212666666666665,
"llama-3.3-70b-instruct": 0.8717333333333332,
"mistral-large-instruct-2411": 0.6912,
"gemma-2-27b-it": 0.8425333333333332,
"gemma-2-9b-it": 1.0264,
"deepseek-v3": 0.6093333333333333,
"deepseek-r1": 0.6285333333333333,
"qwq-32b": 0.6964,
"Average": 0.7979866666666668
},
"ComputationEnv": {
"qwen2.5-3b-instruct": 0.9820666666666668,
"qwen2.5-7b-instruct": 0.9801333333333334,
"qwen2.5-14b-instruct": 0.7334666666666666,
"qwen2.5-32b-instruct": 0.6850666666666666,
"qwen2.5-72b-instruct": 0.6938000000000001,
"llama-3.1-8b-instruct": 1.0237333333333332,
"llama-3.1-70b-instruct": 0.6686,
"llama-3.2-3b-instruct": 1.0106666666666666,
"llama-3.3-70b-instruct": 0.6860666666666666,
"mistral-large-instruct-2411": 0.7517333333333334,
"gemma-2-27b-it": 0.8299999999999998,
"gemma-2-9b-it": 1.0842666666666667,
"deepseek-v3": 0.7249999999999999,
"deepseek-r1": 0.7374666666666667,
"qwq-32b": 0.7521999999999999,
"Average": 0.8229511111111111
},
"MachinePartEnv": {
"qwen2.5-3b-instruct": 0.9062666666666666,
"qwen2.5-7b-instruct": 0.8395333333333334,
"qwen2.5-14b-instruct": 0.6237999999999999,
"qwen2.5-32b-instruct": 0.6204666666666667,
"qwen2.5-72b-instruct": 0.6410666666666667,
"llama-3.1-8b-instruct": 0.8998666666666665,
"llama-3.1-70b-instruct": 0.5422666666666667,
"llama-3.2-3b-instruct": 0.9272,
"llama-3.3-70b-instruct": 0.5463333333333333,
"mistral-large-instruct-2411": 0.5808,
"gemma-2-27b-it": 0.6800666666666666,
"gemma-2-9b-it": 0.9401999999999997,
"deepseek-v3": 0.6576,
"deepseek-r1": 0.6320666666666666,
"qwq-32b": 0.5902,
"Average": 0.7085155555555555
},
"LiteraryEnv": {
"qwen2.5-3b-instruct": 0.7915619047619047,
"qwen2.5-7b-instruct": 0.684247619047619,
"qwen2.5-14b-instruct": 0.4320857142857143,
"qwen2.5-32b-instruct": 0.47454285714285704,
"qwen2.5-72b-instruct": 0.45714285714285713,
"llama-3.1-8b-instruct": 0.7595047619047619,
"llama-3.1-70b-instruct": 0.5143047619047618,
"llama-3.2-3b-instruct": 0.8008476190476189,
"llama-3.3-70b-instruct": 0.5506952380952381,
"mistral-large-instruct-2411": 0.5536571428571427,
"gemma-2-27b-it": 0.6854666666666664,
"gemma-2-9b-it": 0.8457333333333332,
"deepseek-v3": 0.5392285714285714,
"deepseek-r1": 0.5025047619047619,
"qwq-32b": 0.4939333333333332,
"Average": 0.6056971428571427
},
"MarineEnv": {
"qwen2.5-3b-instruct": 1.0838666666666668,
"qwen2.5-7b-instruct": 1.0142666666666666,
"qwen2.5-14b-instruct": 0.7625333333333334,
"qwen2.5-32b-instruct": 0.7773333333333333,
"qwen2.5-72b-instruct": 0.8016666666666667,
"llama-3.1-8b-instruct": 1.1154666666666668,
"llama-3.1-70b-instruct": 0.8399333333333333,
"llama-3.2-3b-instruct": 1.1426000000000003,
"llama-3.3-70b-instruct": 0.8375999999999999,
"mistral-large-instruct-2411": 0.8630666666666666,
"gemma-2-27b-it": 0.9411333333333334,
"gemma-2-9b-it": 1.1442,
"deepseek-v3": 0.8894666666666666,
"deepseek-r1": 0.8458,
"qwq-32b": 0.8745333333333333,
"Average": 0.9288977777777778
},
"PhilosophyEnv": {
"qwen2.5-3b-instruct": 1.05,
"qwen2.5-7b-instruct": 1.3602666666666665,
"qwen2.5-14b-instruct": 0.6244,
"qwen2.5-32b-instruct": 0.6048,
"qwen2.5-72b-instruct": 0.6090666666666666,
"llama-3.1-8b-instruct": 1.0042666666666666,
"llama-3.1-70b-instruct": 0.6868,
"llama-3.2-3b-instruct": 1.2236666666666667,
"llama-3.3-70b-instruct": 0.6848666666666666,
"mistral-large-instruct-2411": 0.5620666666666667,
"gemma-2-27b-it": 0.9582,
"gemma-2-9b-it": 0.9566666666666667,
"deepseek-v3": 0.5928666666666667,
"deepseek-r1": 0.5505333333333333,
"qwq-32b": 0.5388666666666666,
"Average": 0.800488888888889
},
"ArchaeologicalEnv": {
"qwen2.5-3b-instruct": 1.0586,
"qwen2.5-7b-instruct": 0.8644000000000001,
"qwen2.5-14b-instruct": 0.7687333333333333,
"qwen2.5-32b-instruct": 0.724,
"qwen2.5-72b-instruct": 0.7683333333333333,
"llama-3.1-8b-instruct": 1.0757999999999999,
"llama-3.1-70b-instruct": 0.7328666666666667,
"llama-3.2-3b-instruct": 1.0688666666666666,
"llama-3.3-70b-instruct": 0.7887333333333334,
"mistral-large-instruct-2411": 0.7232,
"gemma-2-27b-it": 0.8009999999999999,
"gemma-2-9b-it": 1.0729333333333333,
"deepseek-v3": 0.6970000000000001,
"deepseek-r1": 0.5904666666666667,
"qwq-32b": 0.6000666666666665,
"Average": 0.8223333333333332
},
"GemstoneEnv": {
"qwen2.5-3b-instruct": 0.7110285714285715,
"qwen2.5-7b-instruct": 0.7523809523809524,
"qwen2.5-14b-instruct": 0.4729333333333333,
"qwen2.5-32b-instruct": 0.5357714285714286,
"qwen2.5-72b-instruct": 0.6073238095238096,
"llama-3.1-8b-instruct": 0.8096666666666665,
"llama-3.1-70b-instruct": 0.6153904761904763,
"llama-3.2-3b-instruct": 0.7933904761904762,
"llama-3.3-70b-instruct": 0.5937238095238094,
"mistral-large-instruct-2411": 0.4208952380952381,
"gemma-2-27b-it": 0.5776761904761905,
"gemma-2-9b-it": 0.7067619047619047,
"deepseek-v3": 0.41441904761904763,
"deepseek-r1": 0.38596190476190473,
"qwq-32b": 0.34542857142857136,
"Average": 0.5828501587301588
},
"MicrobiologyEnv": {
"qwen2.5-3b-instruct": 0.9303809523809525,
"qwen2.5-7b-instruct": 0.9467904761904762,
"qwen2.5-14b-instruct": 0.5958380952380952,
"qwen2.5-32b-instruct": 0.6932190476190476,
"qwen2.5-72b-instruct": 0.5158190476190476,
"llama-3.1-8b-instruct": 0.9718666666666668,
"llama-3.1-70b-instruct": 0.7010476190476191,
"llama-3.2-3b-instruct": 1.0090190476190477,
"llama-3.3-70b-instruct": 0.7338666666666666,
"mistral-large-instruct-2411": 0.6196380952380951,
"gemma-2-27b-it": 0.7761333333333335,
"gemma-2-9b-it": 1.0257809523809525,
"deepseek-v3": 0.5738761904761904,
"deepseek-r1": 0.5433809523809524,
"qwq-32b": 0.5820380952380952,
"Average": 0.7479130158730157
},
"SciFiEnv": {
"qwen2.5-3b-instruct": 0.9241999999999999,
"qwen2.5-7b-instruct": 1.222,
"qwen2.5-14b-instruct": 0.6346,
"qwen2.5-32b-instruct": 0.6923333333333332,
"qwen2.5-72b-instruct": 0.7514666666666667,
"llama-3.1-8b-instruct": 1.1545999999999998,
"llama-3.1-70b-instruct": 0.6702,
"llama-3.2-3b-instruct": 1.0696,
"llama-3.3-70b-instruct": 0.7630666666666667,
"mistral-large-instruct-2411": 0.6732666666666667,
"gemma-2-27b-it": 0.8202,
"gemma-2-9b-it": 1.0992666666666666,
"deepseek-v3": 0.6295999999999999,
"deepseek-r1": 0.5723333333333334,
"qwq-32b": 0.6310666666666667,
"Average": 0.82052
},
"HormoneEnv": {
"qwen2.5-3b-instruct": 0.6477999999999999,
"qwen2.5-7b-instruct": 0.5792666666666666,
"qwen2.5-14b-instruct": 0.42300000000000004,
"qwen2.5-32b-instruct": 0.4808,
"qwen2.5-72b-instruct": 0.47140000000000004,
"llama-3.1-8b-instruct": 0.6914,
"llama-3.1-70b-instruct": 0.3943333333333333,
"llama-3.2-3b-instruct": 0.6731999999999999,
"llama-3.3-70b-instruct": 0.4046,
"mistral-large-instruct-2411": 0.47793333333333327,
"gemma-2-27b-it": 0.49526666666666663,
"gemma-2-9b-it": 0.6825333333333333,
"deepseek-v3": 0.4746666666666667,
"deepseek-r1": 0.4145333333333333,
"qwq-32b": 0.4527333333333333,
"Average": 0.5175644444444445
},
"SculptorEnv": {
"qwen2.5-3b-instruct": 1.1031333333333335,
"qwen2.5-7b-instruct": 0.9707333333333334,
"qwen2.5-14b-instruct": 0.8746666666666666,
"qwen2.5-32b-instruct": 0.9588666666666666,
"qwen2.5-72b-instruct": 0.9808,
"llama-3.1-8b-instruct": 1.215,
"llama-3.1-70b-instruct": 1.0109333333333332,
"llama-3.2-3b-instruct": 1.2163333333333335,
"llama-3.3-70b-instruct": 0.9847999999999999,
"mistral-large-instruct-2411": 0.9626666666666667,
"gemma-2-27b-it": 1.1294666666666668,
"gemma-2-9b-it": 1.2386666666666666,
"deepseek-v3": 0.9729333333333333,
"deepseek-r1": 0.8991999999999999,
"qwq-32b": 0.9352666666666666,
"Average": 1.0302311111111113
},
"NeuroEnv": {
"qwen2.5-3b-instruct": 1.0565999999999998,
"qwen2.5-7b-instruct": 0.9228666666666665,
"qwen2.5-14b-instruct": 0.6512666666666667,
"qwen2.5-32b-instruct": 0.7456666666666667,
"qwen2.5-72b-instruct": 0.628,
"llama-3.1-8b-instruct": 1.0157333333333336,
"llama-3.1-70b-instruct": 0.6142,
"llama-3.2-3b-instruct": 1.0081333333333333,
"llama-3.3-70b-instruct": 0.5914,
"mistral-large-instruct-2411": 0.7068,
"gemma-2-27b-it": 0.6496666666666667,
"gemma-2-9b-it": 1.0555333333333334,
"deepseek-v3": 0.7531333333333333,
"deepseek-r1": 0.6508666666666667,
"qwq-32b": 0.8050666666666666,
"Average": 0.7903288888888889
},
"OceanEnv": {
"qwen2.5-3b-instruct": 0.9513333333333334,
"qwen2.5-7b-instruct": 0.766,
"qwen2.5-14b-instruct": 0.6742,
"qwen2.5-32b-instruct": 0.7434,
"qwen2.5-72b-instruct": 0.6952666666666667,
"llama-3.1-8b-instruct": 0.9298666666666667,
"llama-3.1-70b-instruct": 0.6888,
"llama-3.2-3b-instruct": 1.0092666666666668,
"llama-3.3-70b-instruct": 0.7631333333333334,
"mistral-large-instruct-2411": 0.6806000000000001,
"gemma-2-27b-it": 0.8006666666666667,
"gemma-2-9b-it": 0.9381333333333334,
"deepseek-v3": 0.5634666666666666,
"deepseek-r1": 0.5218666666666666,
"qwq-32b": 0.5317333333333332,
"Average": 0.7505155555555555
},
"MineralEnv": {
"qwen2.5-3b-instruct": 0.4416333333333333,
"qwen2.5-7b-instruct": 0.40716190476190484,
"qwen2.5-14b-instruct": 0.13431428571428572,
"qwen2.5-32b-instruct": 0.18465714285714285,
"qwen2.5-72b-instruct": 0.17393809523809525,
"llama-3.1-8b-instruct": 0.4482333333333333,
"llama-3.1-70b-instruct": 0.2729857142857143,
"llama-3.2-3b-instruct": 0.46588571428571424,
"llama-3.3-70b-instruct": 0.2577333333333333,
"mistral-large-instruct-2411": 0.2553095238095238,
"gemma-2-27b-it": 0.3398333333333333,
"gemma-2-9b-it": 0.4829333333333333,
"deepseek-v3": 0.17311428571428572,
"deepseek-r1": 0.19182857142857146,
"qwq-32b": 0.2801666666666667,
"Average": 0.30064857142857143
},
"FishEnv": {
"qwen2.5-3b-instruct": 1.2468666666666668,
"qwen2.5-7b-instruct": 1.3481999999999998,
"qwen2.5-14b-instruct": 0.9705999999999999,
"qwen2.5-32b-instruct": 1.0598666666666667,
"qwen2.5-72b-instruct": 0.9867999999999999,
"llama-3.1-8b-instruct": 1.3636666666666666,
"llama-3.1-70b-instruct": 1.0207333333333335,
"llama-3.2-3b-instruct": 1.4142666666666668,
"llama-3.3-70b-instruct": 1.0358,
"mistral-large-instruct-2411": 0.9927999999999999,
"gemma-2-27b-it": 1.1742,
"gemma-2-9b-it": 1.3645999999999998,
"deepseek-v3": 1.0188,
"deepseek-r1": 0.9213333333333333,
"qwq-32b": 0.9852666666666667,
"Average": 1.12692
},
"MartialArtsEnv": {
"qwen2.5-3b-instruct": 1.0723333333333334,
"qwen2.5-7b-instruct": 1.0198,
"qwen2.5-14b-instruct": 0.7902666666666667,
"qwen2.5-32b-instruct": 0.8842000000000001,
"qwen2.5-72b-instruct": 0.9042666666666666,
"llama-3.1-8b-instruct": 1.117,
"llama-3.1-70b-instruct": 0.8526666666666667,
"llama-3.2-3b-instruct": 1.1304,
"llama-3.3-70b-instruct": 0.9208000000000001,
"mistral-large-instruct-2411": 0.8798666666666666,
"gemma-2-27b-it": 1.0068666666666666,
"gemma-2-9b-it": 1.1265333333333334,
"deepseek-v3": 0.7828666666666667,
"deepseek-r1": 0.7744,
"qwq-32b": 0.8414000000000001,
"Average": 0.9402444444444444
},
"RocketFuelEnv": {
"qwen2.5-3b-instruct": 0.8296666666666667,
"qwen2.5-7b-instruct": 0.8119333333333334,
"qwen2.5-14b-instruct": 0.3957333333333334,
"qwen2.5-32b-instruct": 0.5435333333333333,
"qwen2.5-72b-instruct": 0.4489333333333333,
"llama-3.1-8b-instruct": 0.8727333333333332,
"llama-3.1-70b-instruct": 0.5453999999999999,
"llama-3.2-3b-instruct": 0.8820666666666666,
"llama-3.3-70b-instruct": 0.5007333333333334,
"mistral-large-instruct-2411": 0.4926666666666666,
"gemma-2-27b-it": 0.5702666666666667,
"gemma-2-9b-it": 0.9189333333333332,
"deepseek-v3": 0.45919999999999994,
"deepseek-r1": 0.44160000000000005,
"qwq-32b": 0.4107333333333333,
"Average": 0.6082755555555556
},
"MLEnv": {
"qwen2.5-3b-instruct": 1.0853809523809523,
"qwen2.5-7b-instruct": 0.9570571428571428,
"qwen2.5-14b-instruct": 0.7381333333333332,
"qwen2.5-32b-instruct": 0.7021238095238095,
"qwen2.5-72b-instruct": 0.6462666666666667,
"llama-3.1-8b-instruct": 1.0434,
"llama-3.1-70b-instruct": 0.6853333333333332,
"llama-3.2-3b-instruct": 1.0912,
"llama-3.3-70b-instruct": 0.8062666666666667,
"mistral-large-instruct-2411": 0.742590476190476,
"gemma-2-27b-it": 0.9825333333333333,
"gemma-2-9b-it": 1.1573333333333333,
"deepseek-v3": 0.7192761904761905,
"deepseek-r1": 0.6918,
"qwq-32b": 0.6837333333333333,
"Average": 0.8488285714285714
},
"PoliticalManifestoEnv": {
"qwen2.5-3b-instruct": 1.094,
"qwen2.5-7b-instruct": 1.0524666666666664,
"qwen2.5-14b-instruct": 0.8964666666666666,
"qwen2.5-32b-instruct": 0.9097333333333332,
"qwen2.5-72b-instruct": 0.9074666666666668,
"llama-3.1-8b-instruct": 1.1484666666666665,
"llama-3.1-70b-instruct": 0.9022666666666666,
"llama-3.2-3b-instruct": 1.2590666666666668,
"llama-3.3-70b-instruct": 0.9182666666666666,
"mistral-large-instruct-2411": 0.9239333333333335,
"gemma-2-27b-it": 1.1248666666666667,
"gemma-2-9b-it": 1.2280666666666664,
"deepseek-v3": 0.9872,
"deepseek-r1": 0.9032,
"qwq-32b": 0.9002666666666667,
"Average": 1.0103822222222223
},
"CoffeeEnv": {
"qwen2.5-3b-instruct": 0.5574857142857143,
"qwen2.5-7b-instruct": 0.5191999999999999,
"qwen2.5-14b-instruct": 0.287847619047619,
"qwen2.5-32b-instruct": 0.3643714285714286,
"qwen2.5-72b-instruct": 0.32374285714285717,
"llama-3.1-8b-instruct": 0.6735904761904761,
"llama-3.1-70b-instruct": 0.4418666666666667,
"llama-3.2-3b-instruct": 0.6586857142857143,
"llama-3.3-70b-instruct": 0.3596190476190476,
"mistral-large-instruct-2411": 0.32551428571428564,
"gemma-2-27b-it": 0.4073619047619047,
"gemma-2-9b-it": 0.5588,
"deepseek-v3": 0.3131333333333334,
"deepseek-r1": 0.2641047619047619,
"qwq-32b": 0.2930095238095238,
"Average": 0.4232222222222221
},
"MotifAnalysisEnv": {
"qwen2.5-3b-instruct": 1.5359333333333334,
"qwen2.5-7b-instruct": 1.3934000000000002,
"qwen2.5-14b-instruct": 1.2638,
"qwen2.5-32b-instruct": 1.3157999999999999,
"qwen2.5-72b-instruct": 1.2424,
"llama-3.1-8b-instruct": 1.5532666666666666,
"llama-3.1-70b-instruct": 1.3790666666666664,
"llama-3.2-3b-instruct": 1.6122,
"llama-3.3-70b-instruct": 1.5049333333333332,
"mistral-large-instruct-2411": 1.2954666666666665,
"gemma-2-27b-it": 1.5349999999999997,
"gemma-2-9b-it": 1.5813333333333335,
"deepseek-v3": 1.1815333333333333,
"deepseek-r1": 0.9527999999999999,
"qwq-32b": 1.0904666666666667,
"Average": 1.3624933333333333
},
"NutritionEnv": {
"qwen2.5-3b-instruct": 1.1223333333333332,
"qwen2.5-7b-instruct": 1.1436666666666666,
"qwen2.5-14b-instruct": 0.8542666666666667,
"qwen2.5-32b-instruct": 0.8586666666666666,
"qwen2.5-72b-instruct": 0.8068666666666667,
"llama-3.1-8b-instruct": 1.1504666666666665,
"llama-3.1-70b-instruct": 0.7640666666666667,
"llama-3.2-3b-instruct": 1.1206666666666667,
"llama-3.3-70b-instruct": 0.7728,
"mistral-large-instruct-2411": 0.8578666666666667,
"gemma-2-27b-it": 0.9822,
"gemma-2-9b-it": 1.1840000000000002,
"deepseek-v3": 0.8118666666666666,
"deepseek-r1": 0.8373333333333333,
"qwq-32b": 0.8091999999999999,
"Average": 0.9384177777777779
},
"MalwareEnv": {
"qwen2.5-3b-instruct": 1.0660666666666665,
"qwen2.5-7b-instruct": 0.9987333333333333,
"qwen2.5-14b-instruct": 0.8055999999999999,
"qwen2.5-32b-instruct": 0.9301333333333333,
"qwen2.5-72b-instruct": 0.8351333333333333,
"llama-3.1-8b-instruct": 1.0980666666666667,
"llama-3.1-70b-instruct": 0.8638666666666666,
"llama-3.2-3b-instruct": 1.1550666666666667,
"llama-3.3-70b-instruct": 0.9002666666666667,
"mistral-large-instruct-2411": 0.8474,
"gemma-2-27b-it": 1.0784666666666667,
"gemma-2-9b-it": 1.1739333333333335,
"deepseek-v3": 0.8863333333333333,
"deepseek-r1": 0.7370666666666666,
"qwq-32b": 0.8452666666666666,
"Average": 0.9480933333333336
},
"GeologicalEnv": {
"qwen2.5-3b-instruct": 0.7544666666666666,
"qwen2.5-7b-instruct": 0.6998666666666666,
"qwen2.5-14b-instruct": 0.5382,
"qwen2.5-32b-instruct": 0.6078666666666667,
"qwen2.5-72b-instruct": 0.5856,
"llama-3.1-8b-instruct": 0.8460666666666666,
"llama-3.1-70b-instruct": 0.6026,
"llama-3.2-3b-instruct": 0.7952666666666668,
"llama-3.3-70b-instruct": 0.6526,
"mistral-large-instruct-2411": 0.5856666666666667,
"gemma-2-27b-it": 0.7190666666666667,
"gemma-2-9b-it": 0.8308666666666668,
"deepseek-v3": 0.5351333333333332,
"deepseek-r1": 0.5818,
"qwq-32b": 0.5489999999999999,
"Average": 0.6589377777777776
},
"TheatricalEnv": {
"qwen2.5-3b-instruct": 1.0014666666666667,
"qwen2.5-7b-instruct": 0.9438000000000001,
"qwen2.5-14b-instruct": 0.7684666666666666,
"qwen2.5-32b-instruct": 0.7975333333333333,
"qwen2.5-72b-instruct": 0.7806666666666666,
"llama-3.1-8b-instruct": 0.9822666666666666,
"llama-3.1-70b-instruct": 0.6897333333333333,
"llama-3.2-3b-instruct": 1.2334666666666667,
"llama-3.3-70b-instruct": 0.7385333333333334,
"mistral-large-instruct-2411": 0.7150666666666667,
"gemma-2-27b-it": 0.9279999999999999,
"gemma-2-9b-it": 1.0476666666666667,
"deepseek-v3": 0.7080666666666667,
"deepseek-r1": 0.7016000000000001,
"qwq-32b": 0.7614000000000001,
"Average": 0.8531822222222224
},
"PrintingTechniqueEnv": {
"qwen2.5-3b-instruct": 0.5242857142857142,
"qwen2.5-7b-instruct": 0.4669809523809524,
"qwen2.5-14b-instruct": 0.2997142857142857,
"qwen2.5-32b-instruct": 0.3549714285714286,
"qwen2.5-72b-instruct": 0.27769523809523805,
"llama-3.1-8b-instruct": 0.5112857142857143,
"llama-3.1-70b-instruct": 0.3614476190476191,
"llama-3.2-3b-instruct": 0.5472571428571429,
"llama-3.3-70b-instruct": 0.3488571428571428,
"mistral-large-instruct-2411": 0.34679999999999994,
"gemma-2-27b-it": 0.4303714285714285,
"gemma-2-9b-it": 0.5662952380952382,
"deepseek-v3": 0.29273333333333335,
"deepseek-r1": 0.31156190476190476,
"qwq-32b": 0.3049809523809524,
"Average": 0.3963492063492063
},
"StellarEnv": {
"qwen2.5-3b-instruct": 0.9369333333333332,
"qwen2.5-7b-instruct": 0.7797999999999999,
"qwen2.5-14b-instruct": 0.6935333333333333,
"qwen2.5-32b-instruct": 0.7302666666666666,
"qwen2.5-72b-instruct": 0.6992,
"llama-3.1-8b-instruct": 0.9464666666666665,
"llama-3.1-70b-instruct": 0.7085999999999999,
"llama-3.2-3b-instruct": 0.9724666666666666,
"llama-3.3-70b-instruct": 0.7429999999999999,
"mistral-large-instruct-2411": 0.6746,
"gemma-2-27b-it": 0.8274666666666667,
"gemma-2-9b-it": 0.9978,
"deepseek-v3": 0.6367333333333333,
"deepseek-r1": 0.6487333333333332,
"qwq-32b": 0.7190666666666667,
"Average": 0.7809777777777777
},
"SoilEnv": {
"qwen2.5-3b-instruct": 1.2182666666666666,
"qwen2.5-7b-instruct": 1.0028666666666668,
"qwen2.5-14b-instruct": 0.8012666666666665,
"qwen2.5-32b-instruct": 0.8625999999999999,
"qwen2.5-72b-instruct": 0.7968666666666666,
"llama-3.1-8b-instruct": 1.1898,
"llama-3.1-70b-instruct": 0.8916000000000001,
"llama-3.2-3b-instruct": 1.1725333333333334,
"llama-3.3-70b-instruct": 0.9216,
"mistral-large-instruct-2411": 0.8744,
"gemma-2-27b-it": 0.9574666666666667,
"gemma-2-9b-it": 1.1284,
"deepseek-v3": 0.9315333333333333,
"deepseek-r1": 0.8695333333333334,
"qwq-32b": 0.8491333333333333,
"Average": 0.9645244444444445
},
"SoftwareEnv": {
"qwen2.5-3b-instruct": 0.7055999999999999,
"qwen2.5-7b-instruct": 0.6421333333333334,
"qwen2.5-14b-instruct": 0.4560666666666666,
"qwen2.5-32b-instruct": 0.484,
"qwen2.5-72b-instruct": 0.4653999999999999,
"llama-3.1-8b-instruct": 0.6588666666666667,
"llama-3.1-70b-instruct": 0.4653333333333333,
"llama-3.2-3b-instruct": 0.7011999999999998,
"llama-3.3-70b-instruct": 0.49446666666666667,
"mistral-large-instruct-2411": 0.46806666666666663,
"gemma-2-27b-it": 0.6290000000000001,
"gemma-2-9b-it": 0.7563333333333333,
"deepseek-v3": 0.46806666666666674,
"deepseek-r1": 0.4063333333333333,
"qwq-32b": 0.4793333333333333,
"Average": 0.5520133333333334
},
"CarIdentificationEnv": {
"qwen2.5-3b-instruct": 0.6415809523809524,
"qwen2.5-7b-instruct": 0.7830761904761905,
"qwen2.5-14b-instruct": 0.11047619047619046,
"qwen2.5-32b-instruct": 0.1649142857142857,
"qwen2.5-72b-instruct": 0.11052380952380951,
"llama-3.1-8b-instruct": 0.6149333333333332,
"llama-3.1-70b-instruct": 0.30315238095238095,
"llama-3.2-3b-instruct": 0.8439333333333332,
"llama-3.3-70b-instruct": 0.23700952380952378,
"mistral-large-instruct-2411": 0.2485809523809524,
"gemma-2-27b-it": 0.3316761904761905,
"gemma-2-9b-it": 0.6974666666666666,
"deepseek-v3": 0.18107619047619045,
"deepseek-r1": 0.21692380952380952,
"qwq-32b": 0.25435238095238094,
"Average": 0.38264507936507924
},
"PharmaceuticalEnv": {
"qwen2.5-3b-instruct": 0.6446285714285713,
"qwen2.5-7b-instruct": 0.6438761904761904,
"qwen2.5-14b-instruct": 0.46221904761904764,
"qwen2.5-32b-instruct": 0.5071333333333333,
"qwen2.5-72b-instruct": 0.47396190476190475,
"llama-3.1-8b-instruct": 0.7244190476190476,
"llama-3.1-70b-instruct": 0.5232666666666667,
"llama-3.2-3b-instruct": 0.7074666666666667,
"llama-3.3-70b-instruct": 0.5709238095238094,
"mistral-large-instruct-2411": 0.5165238095238095,
"gemma-2-27b-it": 0.639904761904762,
"gemma-2-9b-it": 0.7634666666666667,
"deepseek-v3": 0.5126,
"deepseek-r1": 0.5030857142857144,
"qwq-32b": 0.5336571428571428,
"Average": 0.5818088888888888
},
"NetworkEnv": {
"qwen2.5-3b-instruct": 0.9304666666666666,
"qwen2.5-7b-instruct": 0.9181333333333332,
"qwen2.5-14b-instruct": 0.7156,
"qwen2.5-32b-instruct": 0.7281333333333334,
"qwen2.5-72b-instruct": 0.7013333333333333,
"llama-3.1-8b-instruct": 0.9331333333333334,
"llama-3.1-70b-instruct": 0.6774666666666667,
"llama-3.2-3b-instruct": 1.0052666666666665,
"llama-3.3-70b-instruct": 0.6723999999999999,
"mistral-large-instruct-2411": 0.6792666666666667,
"gemma-2-27b-it": 0.8334666666666667,
"gemma-2-9b-it": 0.9756,
"deepseek-v3": 0.6752666666666667,
"deepseek-r1": 0.6507333333333334,
"qwq-32b": 0.7018000000000001,
"Average": 0.7865377777777778
},
"BirdNestEnv": {
"qwen2.5-3b-instruct": 0.9391333333333332,
"qwen2.5-7b-instruct": 0.9543333333333333,
"qwen2.5-14b-instruct": 0.8100666666666665,
"qwen2.5-32b-instruct": 0.9158,
"qwen2.5-72b-instruct": 0.8606666666666666,
"llama-3.1-8b-instruct": 0.9903999999999998,
"llama-3.1-70b-instruct": 0.9222666666666666,
"llama-3.2-3b-instruct": 1.026333333333333,
"llama-3.3-70b-instruct": 0.9565999999999999,
"mistral-large-instruct-2411": 0.8474666666666666,
"gemma-2-27b-it": 0.9609333333333334,
"gemma-2-9b-it": 1.0085333333333333,
"deepseek-v3": 0.7617999999999998,
"deepseek-r1": 0.6876,
"qwq-32b": 0.7255999999999999,
"Average": 0.8911688888888886
},
"EnergyEnv": {
"qwen2.5-3b-instruct": 1.0884,
"qwen2.5-7b-instruct": 1.0123904761904763,
"qwen2.5-14b-instruct": 0.7312285714285716,
"qwen2.5-32b-instruct": 0.8728190476190475,
"qwen2.5-72b-instruct": 0.8609333333333332,
"llama-3.1-8b-instruct": 1.1586666666666665,
"llama-3.1-70b-instruct": 0.9046,
"llama-3.2-3b-instruct": 1.1040666666666665,
"llama-3.3-70b-instruct": 1.0045904761904763,
"mistral-large-instruct-2411": 0.7872380952380952,
"gemma-2-27b-it": 1.0375904761904762,
"gemma-2-9b-it": 1.1858666666666666,
"deepseek-v3": 0.8143523809523809,
"deepseek-r1": 0.6982476190476191,
"qwq-32b": 0.7441428571428571,
"Average": 0.9336755555555555
},
"LanguageEnv": {
"qwen2.5-3b-instruct": 1.1255333333333333,
"qwen2.5-7b-instruct": 1.1768,
"qwen2.5-14b-instruct": 1.0519333333333332,
"qwen2.5-32b-instruct": 0.9997999999999999,
"qwen2.5-72b-instruct": 0.9798000000000002,
"llama-3.1-8b-instruct": 1.1883333333333335,
"llama-3.1-70b-instruct": 1.0505333333333333,
"llama-3.2-3b-instruct": 1.204333333333333,
"llama-3.3-70b-instruct": 1.1250666666666667,
"mistral-large-instruct-2411": 0.9846666666666666,
"gemma-2-27b-it": 1.1916666666666669,
"gemma-2-9b-it": 1.2723333333333335,
"deepseek-v3": 0.9475333333333333,
"deepseek-r1": 0.7798666666666666,
"qwq-32b": 0.8547333333333332,
"Average": 1.0621955555555558
},
"AlgorithmEnv": {
"qwen2.5-3b-instruct": 0.9703333333333333,
"qwen2.5-7b-instruct": 0.8614666666666666,
"qwen2.5-14b-instruct": 0.6675333333333334,
"qwen2.5-32b-instruct": 0.7172,
"qwen2.5-72b-instruct": 0.7046666666666666,
"llama-3.1-8b-instruct": 0.8993333333333332,
"llama-3.1-70b-instruct": 0.6912666666666667,
"llama-3.2-3b-instruct": 0.8341333333333333,
"llama-3.3-70b-instruct": 0.7737333333333333,
"mistral-large-instruct-2411": 0.6648000000000001,
"gemma-2-27b-it": 0.9326000000000001,
"gemma-2-9b-it": 1.0570666666666668,
"deepseek-v3": 0.7781333333333332,
"deepseek-r1": 0.6048,
"qwq-32b": 0.656,
"Average": 0.787537777777778
},
"MathematicalEnv": {
"qwen2.5-3b-instruct": 0.7803333333333333,
"qwen2.5-7b-instruct": 0.5459333333333333,
"qwen2.5-14b-instruct": 0.4785333333333333,
"qwen2.5-32b-instruct": 0.5025333333333333,
"qwen2.5-72b-instruct": 0.47973333333333334,
"llama-3.1-8b-instruct": 0.7568666666666667,
"llama-3.1-70b-instruct": 0.4238666666666667,
"llama-3.2-3b-instruct": 0.7148666666666668,
"llama-3.3-70b-instruct": 0.4582,
"mistral-large-instruct-2411": 0.4603999999999999,
"gemma-2-27b-it": 0.6693333333333333,
"gemma-2-9b-it": 0.8029999999999999,
"deepseek-v3": 0.44066666666666665,
"deepseek-r1": 0.3256,
"qwq-32b": 0.41286666666666666,
"Average": 0.5501822222222222
},
"MusicalEnv": {
"qwen2.5-3b-instruct": 0.7868666666666665,
"qwen2.5-7b-instruct": 0.6212,
"qwen2.5-14b-instruct": 0.4023333333333333,
"qwen2.5-32b-instruct": 0.44286666666666663,
"qwen2.5-72b-instruct": 0.40346666666666664,
"llama-3.1-8b-instruct": 0.6890666666666666,
"llama-3.1-70b-instruct": 0.43373333333333336,
"llama-3.2-3b-instruct": 0.7595333333333332,
"llama-3.3-70b-instruct": 0.3923333333333333,
"mistral-large-instruct-2411": 0.46593333333333337,
"gemma-2-27b-it": 0.6487999999999999,
"gemma-2-9b-it": 0.7524,
"deepseek-v3": 0.47313333333333335,
"deepseek-r1": 0.4392666666666667,
"qwq-32b": 0.4437333333333334,
"Average": 0.5436444444444444
},
"InventorEnv": {
"qwen2.5-3b-instruct": 1.1748,
"qwen2.5-7b-instruct": 1.0563999999999998,
"qwen2.5-14b-instruct": 0.7145333333333334,
"qwen2.5-32b-instruct": 0.7015999999999999,
"qwen2.5-72b-instruct": 0.7992666666666667,
"llama-3.1-8b-instruct": 1.1523999999999996,
"llama-3.1-70b-instruct": 0.7999333333333334,
"llama-3.2-3b-instruct": 1.2088,
"llama-3.3-70b-instruct": 0.9067333333333334,
"mistral-large-instruct-2411": 0.6736000000000001,
"gemma-2-27b-it": 0.8846,
"gemma-2-9b-it": 1.2016666666666667,
"deepseek-v3": 0.5913333333333333,
"deepseek-r1": 0.5467333333333333,
"qwq-32b": 0.5757333333333332,
"Average": 0.8658755555555557
},
"MedicalEnv": {
"qwen2.5-3b-instruct": 0.6536,
"qwen2.5-7b-instruct": 0.5706761904761904,
"qwen2.5-14b-instruct": 0.49113333333333326,
"qwen2.5-32b-instruct": 0.5525238095238094,
"qwen2.5-72b-instruct": 0.4351047619047619,
"llama-3.1-8b-instruct": 0.675742857142857,
"llama-3.1-70b-instruct": 0.4085142857142857,
"llama-3.2-3b-instruct": 0.6928952380952381,
"llama-3.3-70b-instruct": 0.44421904761904757,
"mistral-large-instruct-2411": 0.3882190476190476,
"gemma-2-27b-it": 0.4850761904761905,
"gemma-2-9b-it": 0.6444000000000001,
"deepseek-v3": 0.42532380952380955,
"deepseek-r1": 0.4207714285714285,
"qwq-32b": 0.5122666666666668,
"Average": 0.5200311111111111
},
"MusicEnv": {
"qwen2.5-3b-instruct": 0.8416666666666666,
"qwen2.5-7b-instruct": 1.0005333333333333,
"qwen2.5-14b-instruct": 0.6241333333333333,
"qwen2.5-32b-instruct": 0.6859999999999999,
"qwen2.5-72b-instruct": 0.5986190476190476,
"llama-3.1-8b-instruct": 0.8823619047619047,
"llama-3.1-70b-instruct": 0.620095238095238,
"llama-3.2-3b-instruct": 1.0788857142857142,
"llama-3.3-70b-instruct": 0.6707809523809523,
"mistral-large-instruct-2411": 0.6624857142857142,
"gemma-2-27b-it": 0.7730666666666666,
"gemma-2-9b-it": 0.9248000000000001,
"deepseek-v3": 0.6254857142857142,
"deepseek-r1": 0.6092095238095239,
"qwq-32b": 0.6053809523809524,
"Average": 0.7469003174603175
},
"FantasyEnv": {
"qwen2.5-3b-instruct": 0.6738,
"qwen2.5-7b-instruct": 0.6780571428571429,
"qwen2.5-14b-instruct": 0.20936190476190478,
"qwen2.5-32b-instruct": 0.23541904761904764,
"qwen2.5-72b-instruct": 0.3943904761904762,
"llama-3.1-8b-instruct": 0.6281142857142856,
"llama-3.1-70b-instruct": 0.3229714285714286,
"llama-3.2-3b-instruct": 0.7130571428571428,
"llama-3.3-70b-instruct": 0.2710190476190476,
"mistral-large-instruct-2411": 0.1259142857142857,
"gemma-2-27b-it": 0.35649523809523803,
"gemma-2-9b-it": 0.7076952380952382,
"deepseek-v3": 0.056790476190476204,
"deepseek-r1": -0.025180952380952377,
"qwq-32b": 0.03801904761904761,
"Average": 0.35906158730158727
},
"EducationEnv": {
"qwen2.5-3b-instruct": 0.9363999999999999,
"qwen2.5-7b-instruct": 0.9230666666666666,
"qwen2.5-14b-instruct": 0.7015333333333333,
"qwen2.5-32b-instruct": 0.6477333333333334,
"qwen2.5-72b-instruct": 0.6232,
"llama-3.1-8b-instruct": 0.9055333333333333,
"llama-3.1-70b-instruct": 0.5771333333333334,
"llama-3.2-3b-instruct": 0.8691333333333334,
"llama-3.3-70b-instruct": 0.6331333333333333,
"mistral-large-instruct-2411": 0.6769333333333332,
"gemma-2-27b-it": 0.7234,
"gemma-2-9b-it": 0.8838666666666667,
"deepseek-v3": 0.7129333333333334,
"deepseek-r1": 0.7282666666666666,
"qwq-32b": 0.7233333333333334,
"Average": 0.7510399999999999
},
"ChemicalEnv": {
"qwen2.5-3b-instruct": 1.0222666666666664,
"qwen2.5-7b-instruct": 1.1687333333333334,
"qwen2.5-14b-instruct": 0.8354666666666667,
"qwen2.5-32b-instruct": 0.8561333333333334,
"qwen2.5-72b-instruct": 0.8254666666666667,
"llama-3.1-8b-instruct": 1.1288,
"llama-3.1-70b-instruct": 0.8285333333333333,
"llama-3.2-3b-instruct": 1.1526666666666665,
"llama-3.3-70b-instruct": 0.9390666666666666,
"mistral-large-instruct-2411": 0.8290666666666666,
"gemma-2-27b-it": 0.953533333333333,
"gemma-2-9b-it": 1.1003333333333334,
"deepseek-v3": 0.8336666666666668,
"deepseek-r1": 0.8385333333333334,
"qwq-32b": 0.7902666666666667,
"Average": 0.9401688888888889
},
"Average": {
"qwen2.5-3b-instruct": 0.9038483262611976,
"qwen2.5-7b-instruct": 0.867841584158416,
"qwen2.5-14b-instruct": 0.635130598774163,
"qwen2.5-32b-instruct": 0.6698686468646864,
"qwen2.5-72b-instruct": 0.6424673738802452,
"llama-3.1-8b-instruct": 0.9346749174917492,
"llama-3.1-70b-instruct": 0.660992975011787,
"llama-3.2-3b-instruct": 0.9649007072135783,
"llama-3.3-70b-instruct": 0.6869286185761432,
"mistral-large-instruct-2411": 0.6406110796793965,
"gemma-2-27b-it": 0.7896256954266856,
"gemma-2-9b-it": 0.9722245167373881,
"deepseek-v3": 0.6361851013672796,
"deepseek-r1": 0.5821313531353135,
"qwq-32b": 0.6111832626119755
}
}