|
{ |
|
"RelicEnv": { |
|
"qwen2.5-3b-instruct": 0.576, |
|
"qwen2.5-7b-instruct": 0.5228666666666666, |
|
"qwen2.5-14b-instruct": 0.3816, |
|
"qwen2.5-32b-instruct": 0.4269333333333333, |
|
"qwen2.5-72b-instruct": 0.3848666666666667, |
|
"llama-3.1-8b-instruct": 0.6459999999999999, |
|
"llama-3.1-70b-instruct": 0.41696190476190476, |
|
"llama-3.2-3b-instruct": 0.5766095238095238, |
|
"llama-3.3-70b-instruct": 0.33466666666666656, |
|
"mistral-large-instruct-2411": 0.492, |
|
"gemma-2-27b-it": 0.48513333333333336, |
|
"gemma-2-9b-it": 0.668695238095238, |
|
"deepseek-v3": 0.5289999999999999, |
|
"deepseek-r1": 0.523295238095238, |
|
"qwq-32b": 0.5080190476190476, |
|
"Average": 0.49817650793650786 |
|
}, |
|
"HerbEnv": { |
|
"qwen2.5-3b-instruct": 0.6345333333333334, |
|
"qwen2.5-7b-instruct": 0.6564, |
|
"qwen2.5-14b-instruct": 0.4304, |
|
"qwen2.5-32b-instruct": 0.4564666666666667, |
|
"qwen2.5-72b-instruct": 0.43260000000000004, |
|
"llama-3.1-8b-instruct": 0.7072, |
|
"llama-3.1-70b-instruct": 0.4986, |
|
"llama-3.2-3b-instruct": 0.7223333333333333, |
|
"llama-3.3-70b-instruct": 0.49833333333333335, |
|
"mistral-large-instruct-2411": 0.5494, |
|
"gemma-2-27b-it": 0.5511999999999999, |
|
"gemma-2-9b-it": 0.7503333333333334, |
|
"deepseek-v3": 0.42873333333333336, |
|
"deepseek-r1": 0.5064666666666666, |
|
"qwq-32b": 0.5062666666666666, |
|
"Average": 0.5552844444444445 |
|
}, |
|
"TransdimensionalEnv": { |
|
"qwen2.5-3b-instruct": 0.8419333333333332, |
|
"qwen2.5-7b-instruct": 0.7645333333333333, |
|
"qwen2.5-14b-instruct": 0.5994666666666667, |
|
"qwen2.5-32b-instruct": 0.5703333333333334, |
|
"qwen2.5-72b-instruct": 0.5725333333333333, |
|
"llama-3.1-8b-instruct": 0.8210666666666666, |
|
"llama-3.1-70b-instruct": 0.5205333333333333, |
|
"llama-3.2-3b-instruct": 0.7700666666666665, |
|
"llama-3.3-70b-instruct": 0.5580666666666667, |
|
"mistral-large-instruct-2411": 0.6012666666666666, |
|
"gemma-2-27b-it": 0.7089999999999999, |
|
"gemma-2-9b-it": 0.9037333333333333, |
|
"deepseek-v3": 0.6178, |
|
"deepseek-r1": 0.5913999999999999, |
|
"qwq-32b": 0.653, |
|
"Average": 0.6729822222222223 |
|
}, |
|
"SorcererEnv": { |
|
"qwen2.5-3b-instruct": 1.0192666666666665, |
|
"qwen2.5-7b-instruct": 1.0209333333333332, |
|
"qwen2.5-14b-instruct": 0.7593333333333334, |
|
"qwen2.5-32b-instruct": 0.8110666666666667, |
|
"qwen2.5-72b-instruct": 0.7878666666666667, |
|
"llama-3.1-8b-instruct": 1.0720666666666667, |
|
"llama-3.1-70b-instruct": 0.7602666666666668, |
|
"llama-3.2-3b-instruct": 1.0208666666666666, |
|
"llama-3.3-70b-instruct": 0.7425333333333334, |
|
"mistral-large-instruct-2411": 0.8440666666666667, |
|
"gemma-2-27b-it": 0.8615333333333333, |
|
"gemma-2-9b-it": 1.1598666666666666, |
|
"deepseek-v3": 0.8091333333333333, |
|
"deepseek-r1": 0.8958, |
|
"qwq-32b": 0.8321999999999999, |
|
"Average": 0.89312 |
|
}, |
|
"QuantumEnv": { |
|
"qwen2.5-3b-instruct": 1.0699999999999998, |
|
"qwen2.5-7b-instruct": 0.8955333333333334, |
|
"qwen2.5-14b-instruct": 0.7378666666666667, |
|
"qwen2.5-32b-instruct": 0.7390666666666666, |
|
"qwen2.5-72b-instruct": 0.649, |
|
"llama-3.1-8b-instruct": 1.083, |
|
"llama-3.1-70b-instruct": 0.7020666666666668, |
|
"llama-3.2-3b-instruct": 1.0911333333333335, |
|
"llama-3.3-70b-instruct": 0.6975333333333333, |
|
"mistral-large-instruct-2411": 0.7345333333333333, |
|
"gemma-2-27b-it": 0.7445333333333334, |
|
"gemma-2-9b-it": 1.1341999999999999, |
|
"deepseek-v3": 0.7477333333333334, |
|
"deepseek-r1": 0.7415333333333334, |
|
"qwq-32b": 0.7549333333333333, |
|
"Average": 0.8348444444444444 |
|
}, |
|
"AstronomyEnv": { |
|
"qwen2.5-3b-instruct": 0.8259333333333334, |
|
"qwen2.5-7b-instruct": 0.8053333333333335, |
|
"qwen2.5-14b-instruct": 0.4937333333333333, |
|
"qwen2.5-32b-instruct": 0.5776666666666666, |
|
"qwen2.5-72b-instruct": 0.4677999999999999, |
|
"llama-3.1-8b-instruct": 0.836, |
|
"llama-3.1-70b-instruct": 0.5228, |
|
"llama-3.2-3b-instruct": 0.8694000000000001, |
|
"llama-3.3-70b-instruct": 0.5525333333333332, |
|
"mistral-large-instruct-2411": 0.4943999999999999, |
|
"gemma-2-27b-it": 0.6376000000000001, |
|
"gemma-2-9b-it": 0.7730666666666668, |
|
"deepseek-v3": 0.5540666666666666, |
|
"deepseek-r1": 0.4287333333333333, |
|
"qwq-32b": 0.4580666666666667, |
|
"Average": 0.6198088888888889 |
|
}, |
|
"MusicGenresEnv": { |
|
"qwen2.5-3b-instruct": 0.6298666666666667, |
|
"qwen2.5-7b-instruct": 0.5864666666666667, |
|
"qwen2.5-14b-instruct": 0.3452, |
|
"qwen2.5-32b-instruct": 0.37546666666666667, |
|
"qwen2.5-72b-instruct": 0.398, |
|
"llama-3.1-8b-instruct": 0.6799999999999999, |
|
"llama-3.1-70b-instruct": 0.44333333333333336, |
|
"llama-3.2-3b-instruct": 0.8452, |
|
"llama-3.3-70b-instruct": 0.49539999999999995, |
|
"mistral-large-instruct-2411": 0.3673333333333333, |
|
"gemma-2-27b-it": 0.5542666666666667, |
|
"gemma-2-9b-it": 0.6927333333333332, |
|
"deepseek-v3": 0.3997333333333334, |
|
"deepseek-r1": 0.3074, |
|
"qwq-32b": 0.30833333333333335, |
|
"Average": 0.49524888888888896 |
|
}, |
|
"CloudEnv": { |
|
"qwen2.5-3b-instruct": 0.7101999999999999, |
|
"qwen2.5-7b-instruct": 0.6398380952380952, |
|
"qwen2.5-14b-instruct": 0.2948095238095238, |
|
"qwen2.5-32b-instruct": 0.39837142857142854, |
|
"qwen2.5-72b-instruct": 0.3368666666666667, |
|
"llama-3.1-8b-instruct": 0.6846857142857142, |
|
"llama-3.1-70b-instruct": 0.4453333333333333, |
|
"llama-3.2-3b-instruct": 0.7733333333333332, |
|
"llama-3.3-70b-instruct": 0.4490380952380952, |
|
"mistral-large-instruct-2411": 0.23912380952380952, |
|
"gemma-2-27b-it": 0.406047619047619, |
|
"gemma-2-9b-it": 0.675342857142857, |
|
"deepseek-v3": 0.3188952380952381, |
|
"deepseek-r1": 0.16405714285714285, |
|
"qwq-32b": 0.20542857142857143, |
|
"Average": 0.44942476190476194 |
|
}, |
|
"CuisineEnv": { |
|
"qwen2.5-3b-instruct": 1.0595999999999999, |
|
"qwen2.5-7b-instruct": 1.085838095238095, |
|
"qwen2.5-14b-instruct": 0.882352380952381, |
|
"qwen2.5-32b-instruct": 0.9331333333333334, |
|
"qwen2.5-72b-instruct": 0.873, |
|
"llama-3.1-8b-instruct": 1.1925238095238095, |
|
"llama-3.1-70b-instruct": 0.9360190476190476, |
|
"llama-3.2-3b-instruct": 1.2040571428571427, |
|
"llama-3.3-70b-instruct": 1.0072571428571429, |
|
"mistral-large-instruct-2411": 0.9003428571428571, |
|
"gemma-2-27b-it": 1.1492285714285715, |
|
"gemma-2-9b-it": 1.2268285714285714, |
|
"deepseek-v3": 0.8427809523809524, |
|
"deepseek-r1": 0.8026761904761905, |
|
"qwq-32b": 0.8055523809523809, |
|
"Average": 0.9934126984126983 |
|
}, |
|
"PlantEnv": { |
|
"qwen2.5-3b-instruct": 0.6316666666666666, |
|
"qwen2.5-7b-instruct": 0.6612000000000001, |
|
"qwen2.5-14b-instruct": 0.6797333333333333, |
|
"qwen2.5-32b-instruct": 0.7276666666666667, |
|
"qwen2.5-72b-instruct": 0.6846666666666665, |
|
"llama-3.1-8b-instruct": 0.7318666666666667, |
|
"llama-3.1-70b-instruct": 0.6868666666666666, |
|
"llama-3.2-3b-instruct": 0.7314, |
|
"llama-3.3-70b-instruct": 0.739, |
|
"mistral-large-instruct-2411": 0.6728666666666665, |
|
"gemma-2-27b-it": 0.7182666666666666, |
|
"gemma-2-9b-it": 0.7471333333333334, |
|
"deepseek-v3": 0.6415333333333332, |
|
"deepseek-r1": 0.6114666666666666, |
|
"qwq-32b": 0.6385333333333333, |
|
"Average": 0.6869244444444446 |
|
}, |
|
"HistoricalEnv": { |
|
"qwen2.5-3b-instruct": 0.5945333333333332, |
|
"qwen2.5-7b-instruct": 0.5029999999999999, |
|
"qwen2.5-14b-instruct": 0.41719999999999996, |
|
"qwen2.5-32b-instruct": 0.49926666666666664, |
|
"qwen2.5-72b-instruct": 0.4616666666666667, |
|
"llama-3.1-8b-instruct": 0.6741999999999999, |
|
"llama-3.1-70b-instruct": 0.43866666666666665, |
|
"llama-3.2-3b-instruct": 0.6622666666666666, |
|
"llama-3.3-70b-instruct": 0.44580000000000003, |
|
"mistral-large-instruct-2411": 0.30566666666666664, |
|
"gemma-2-27b-it": 0.43679999999999997, |
|
"gemma-2-9b-it": 0.6955333333333333, |
|
"deepseek-v3": 0.3064, |
|
"deepseek-r1": 0.1416, |
|
"qwq-32b": 0.19106666666666666, |
|
"Average": 0.4515777777777778 |
|
}, |
|
"GadgetEnv": { |
|
"qwen2.5-3b-instruct": 0.7405999999999999, |
|
"qwen2.5-7b-instruct": 0.7083999999999999, |
|
"qwen2.5-14b-instruct": 0.48, |
|
"qwen2.5-32b-instruct": 0.5347999999999999, |
|
"qwen2.5-72b-instruct": 0.48633333333333334, |
|
"llama-3.1-8b-instruct": 0.7890666666666666, |
|
"llama-3.1-70b-instruct": 0.4845999999999999, |
|
"llama-3.2-3b-instruct": 0.7646, |
|
"llama-3.3-70b-instruct": 0.5077999999999999, |
|
"mistral-large-instruct-2411": 0.6042666666666665, |
|
"gemma-2-27b-it": 0.6635333333333333, |
|
"gemma-2-9b-it": 0.8321333333333332, |
|
"deepseek-v3": 0.5766666666666667, |
|
"deepseek-r1": 0.6070666666666666, |
|
"qwq-32b": 0.6155333333333333, |
|
"Average": 0.6263599999999999 |
|
}, |
|
"TimeTravelEnv": { |
|
"qwen2.5-3b-instruct": 0.976, |
|
"qwen2.5-7b-instruct": 0.8145999999999999, |
|
"qwen2.5-14b-instruct": 0.6627333333333333, |
|
"qwen2.5-32b-instruct": 0.6956666666666667, |
|
"qwen2.5-72b-instruct": 0.6541333333333333, |
|
"llama-3.1-8b-instruct": 0.8264666666666665, |
|
"llama-3.1-70b-instruct": 0.6590666666666667, |
|
"llama-3.2-3b-instruct": 0.8872666666666665, |
|
"llama-3.3-70b-instruct": 0.7066000000000001, |
|
"mistral-large-instruct-2411": 0.7033333333333334, |
|
"gemma-2-27b-it": 0.8493333333333334, |
|
"gemma-2-9b-it": 1.0604666666666667, |
|
"deepseek-v3": 0.7296666666666667, |
|
"deepseek-r1": 0.6510666666666667, |
|
"qwq-32b": 0.6808666666666667, |
|
"Average": 0.7704844444444444 |
|
}, |
|
"PollutionEnv": { |
|
"qwen2.5-3b-instruct": 0.8957809523809523, |
|
"qwen2.5-7b-instruct": 0.8026, |
|
"qwen2.5-14b-instruct": 0.6021904761904762, |
|
"qwen2.5-32b-instruct": 0.6871238095238095, |
|
"qwen2.5-72b-instruct": 0.6281809523809524, |
|
"llama-3.1-8b-instruct": 0.9049904761904761, |
|
"llama-3.1-70b-instruct": 0.609295238095238, |
|
"llama-3.2-3b-instruct": 0.9090761904761905, |
|
"llama-3.3-70b-instruct": 0.615352380952381, |
|
"mistral-large-instruct-2411": 0.595695238095238, |
|
"gemma-2-27b-it": 0.7770761904761903, |
|
"gemma-2-9b-it": 0.8730190476190476, |
|
"deepseek-v3": 0.6199238095238095, |
|
"deepseek-r1": 0.5457142857142857, |
|
"qwq-32b": 0.5781333333333333, |
|
"Average": 0.7096101587301588 |
|
}, |
|
"DemographicEnv": { |
|
"qwen2.5-3b-instruct": 1.2349333333333334, |
|
"qwen2.5-7b-instruct": 0.9282, |
|
"qwen2.5-14b-instruct": 0.8947999999999998, |
|
"qwen2.5-32b-instruct": 0.8493999999999999, |
|
"qwen2.5-72b-instruct": 0.8458, |
|
"llama-3.1-8b-instruct": 1.1641333333333332, |
|
"llama-3.1-70b-instruct": 0.8899333333333332, |
|
"llama-3.2-3b-instruct": 1.1756666666666669, |
|
"llama-3.3-70b-instruct": 0.8181999999999998, |
|
"mistral-large-instruct-2411": 0.8889333333333335, |
|
"gemma-2-27b-it": 1.1206, |
|
"gemma-2-9b-it": 1.2548, |
|
"deepseek-v3": 0.937, |
|
"deepseek-r1": 0.8470666666666669, |
|
"qwq-32b": 0.8959333333333334, |
|
"Average": 0.9830266666666666 |
|
}, |
|
"GeneticEnv": { |
|
"qwen2.5-3b-instruct": 0.8742666666666669, |
|
"qwen2.5-7b-instruct": 0.7093333333333331, |
|
"qwen2.5-14b-instruct": 0.40293333333333337, |
|
"qwen2.5-32b-instruct": 0.44313333333333327, |
|
"qwen2.5-72b-instruct": 0.42733333333333323, |
|
"llama-3.1-8b-instruct": 0.7788666666666665, |
|
"llama-3.1-70b-instruct": 0.39159999999999995, |
|
"llama-3.2-3b-instruct": 0.8340666666666667, |
|
"llama-3.3-70b-instruct": 0.4035333333333334, |
|
"mistral-large-instruct-2411": 0.4183333333333333, |
|
"gemma-2-27b-it": 0.4676666666666667, |
|
"gemma-2-9b-it": 0.8420000000000002, |
|
"deepseek-v3": 0.39733333333333337, |
|
"deepseek-r1": 0.3223333333333333, |
|
"qwq-32b": 0.4328, |
|
"Average": 0.5430355555555555 |
|
}, |
|
"CraftsmanEnv": { |
|
"qwen2.5-3b-instruct": 0.8531238095238095, |
|
"qwen2.5-7b-instruct": 0.8701333333333332, |
|
"qwen2.5-14b-instruct": 0.636152380952381, |
|
"qwen2.5-32b-instruct": 0.5899619047619048, |
|
"qwen2.5-72b-instruct": 0.6157428571428571, |
|
"llama-3.1-8b-instruct": 0.906847619047619, |
|
"llama-3.1-70b-instruct": 0.6374285714285713, |
|
"llama-3.2-3b-instruct": 0.9079333333333333, |
|
"llama-3.3-70b-instruct": 0.7432857142857142, |
|
"mistral-large-instruct-2411": 0.5945047619047619, |
|
"gemma-2-27b-it": 0.8030285714285714, |
|
"gemma-2-9b-it": 0.9558666666666668, |
|
"deepseek-v3": 0.6411523809523809, |
|
"deepseek-r1": 0.572504761904762, |
|
"qwq-32b": 0.5707142857142857, |
|
"Average": 0.7265587301587301 |
|
}, |
|
"StarConstellationEnv": { |
|
"qwen2.5-3b-instruct": 0.9018, |
|
"qwen2.5-7b-instruct": 0.8849999999999998, |
|
"qwen2.5-14b-instruct": 0.6111333333333333, |
|
"qwen2.5-32b-instruct": 0.6682, |
|
"qwen2.5-72b-instruct": 0.6413333333333333, |
|
"llama-3.1-8b-instruct": 0.8276666666666668, |
|
"llama-3.1-70b-instruct": 0.6845333333333333, |
|
"llama-3.2-3b-instruct": 0.8996666666666666, |
|
"llama-3.3-70b-instruct": 0.7238666666666665, |
|
"mistral-large-instruct-2411": 0.6063333333333333, |
|
"gemma-2-27b-it": 0.6717333333333333, |
|
"gemma-2-9b-it": 0.8695999999999999, |
|
"deepseek-v3": 0.55, |
|
"deepseek-r1": 0.4897333333333334, |
|
"qwq-32b": 0.5618000000000001, |
|
"Average": 0.7061600000000001 |
|
}, |
|
"MythicalCreatureEnv": { |
|
"qwen2.5-3b-instruct": 0.9463333333333332, |
|
"qwen2.5-7b-instruct": 1.0008666666666666, |
|
"qwen2.5-14b-instruct": 0.8189999999999997, |
|
"qwen2.5-32b-instruct": 0.7707333333333333, |
|
"qwen2.5-72b-instruct": 0.8385333333333334, |
|
"llama-3.1-8b-instruct": 1.0950666666666666, |
|
"llama-3.1-70b-instruct": 0.7916, |
|
"llama-3.2-3b-instruct": 1.1887333333333332, |
|
"llama-3.3-70b-instruct": 0.7888666666666666, |
|
"mistral-large-instruct-2411": 0.7903999999999999, |
|
"gemma-2-27b-it": 0.9704666666666666, |
|
"gemma-2-9b-it": 1.1304666666666665, |
|
"deepseek-v3": 0.7574, |
|
"deepseek-r1": 0.7734, |
|
"qwq-32b": 0.7396, |
|
"Average": 0.8934311111111112 |
|
}, |
|
"ArtStyleEnv": { |
|
"qwen2.5-3b-instruct": 0.9593238095238095, |
|
"qwen2.5-7b-instruct": 0.8611714285714285, |
|
"qwen2.5-14b-instruct": 0.6572000000000001, |
|
"qwen2.5-32b-instruct": 0.6888190476190477, |
|
"qwen2.5-72b-instruct": 0.6664380952380953, |
|
"llama-3.1-8b-instruct": 0.9826952380952381, |
|
"llama-3.1-70b-instruct": 0.6773714285714286, |
|
"llama-3.2-3b-instruct": 1.0108000000000001, |
|
"llama-3.3-70b-instruct": 0.7458571428571428, |
|
"mistral-large-instruct-2411": 0.627504761904762, |
|
"gemma-2-27b-it": 0.8328380952380952, |
|
"gemma-2-9b-it": 1.0002666666666666, |
|
"deepseek-v3": 0.723047619047619, |
|
"deepseek-r1": 0.666, |
|
"qwq-32b": 0.6872952380952381, |
|
"Average": 0.7857752380952383 |
|
}, |
|
"CookingEnv": { |
|
"qwen2.5-3b-instruct": 0.9731333333333332, |
|
"qwen2.5-7b-instruct": 0.8531999999999998, |
|
"qwen2.5-14b-instruct": 0.6777333333333333, |
|
"qwen2.5-32b-instruct": 0.6949333333333334, |
|
"qwen2.5-72b-instruct": 0.6868666666666666, |
|
"llama-3.1-8b-instruct": 0.9575333333333333, |
|
"llama-3.1-70b-instruct": 0.6741333333333334, |
|
"llama-3.2-3b-instruct": 0.9920666666666665, |
|
"llama-3.3-70b-instruct": 0.7073999999999999, |
|
"mistral-large-instruct-2411": 0.6852, |
|
"gemma-2-27b-it": 0.8009999999999998, |
|
"gemma-2-9b-it": 0.9400666666666666, |
|
"deepseek-v3": 0.6910000000000001, |
|
"deepseek-r1": 0.6202666666666665, |
|
"qwq-32b": 0.5726666666666667, |
|
"Average": 0.7684799999999999 |
|
}, |
|
"HistoricalBattleEnv": { |
|
"qwen2.5-3b-instruct": 0.3906380952380952, |
|
"qwen2.5-7b-instruct": 0.39269523809523804, |
|
"qwen2.5-14b-instruct": 0.36508571428571424, |
|
"qwen2.5-32b-instruct": 0.3839047619047619, |
|
"qwen2.5-72b-instruct": 0.37189523809523806, |
|
"llama-3.1-8b-instruct": 0.5100190476190476, |
|
"llama-3.1-70b-instruct": 0.3623142857142857, |
|
"llama-3.2-3b-instruct": 0.5539428571428571, |
|
"llama-3.3-70b-instruct": 0.3407428571428571, |
|
"mistral-large-instruct-2411": 0.26249523809523806, |
|
"gemma-2-27b-it": 0.3749619047619047, |
|
"gemma-2-9b-it": 0.4291904761904761, |
|
"deepseek-v3": 0.2707428571428572, |
|
"deepseek-r1": 0.12205714285714286, |
|
"qwq-32b": 0.1069238095238095, |
|
"Average": 0.34917396825396824 |
|
}, |
|
"FungalEnv": { |
|
"qwen2.5-3b-instruct": 0.9867619047619047, |
|
"qwen2.5-7b-instruct": 0.7690285714285714, |
|
"qwen2.5-14b-instruct": 0.5497523809523809, |
|
"qwen2.5-32b-instruct": 0.5654571428571428, |
|
"qwen2.5-72b-instruct": 0.5338571428571429, |
|
"llama-3.1-8b-instruct": 0.9299904761904761, |
|
"llama-3.1-70b-instruct": 0.6940095238095237, |
|
"llama-3.2-3b-instruct": 1.0453999999999999, |
|
"llama-3.3-70b-instruct": 0.6804285714285714, |
|
"mistral-large-instruct-2411": 0.5070380952380952, |
|
"gemma-2-27b-it": 0.6260571428571428, |
|
"gemma-2-9b-it": 1.0525142857142857, |
|
"deepseek-v3": 0.4512380952380953, |
|
"deepseek-r1": 0.41535238095238086, |
|
"qwq-32b": 0.4612952380952381, |
|
"Average": 0.6845453968253967 |
|
}, |
|
"CryptographyEnv": { |
|
"qwen2.5-3b-instruct": 0.7157333333333333, |
|
"qwen2.5-7b-instruct": 0.7917428571428571, |
|
"qwen2.5-14b-instruct": 0.5772095238095238, |
|
"qwen2.5-32b-instruct": 0.5362666666666666, |
|
"qwen2.5-72b-instruct": 0.5816380952380952, |
|
"llama-3.1-8b-instruct": 0.7762666666666667, |
|
"llama-3.1-70b-instruct": 0.5880761904761905, |
|
"llama-3.2-3b-instruct": 0.9222476190476192, |
|
"llama-3.3-70b-instruct": 0.6200666666666668, |
|
"mistral-large-instruct-2411": 0.43243809523809523, |
|
"gemma-2-27b-it": 0.6965333333333332, |
|
"gemma-2-9b-it": 0.9170952380952381, |
|
"deepseek-v3": 0.4242190476190476, |
|
"deepseek-r1": 0.31665714285714286, |
|
"qwq-32b": 0.3307142857142857, |
|
"Average": 0.6151269841269841 |
|
}, |
|
"StorageEnv": { |
|
"qwen2.5-3b-instruct": 0.5999999999999999, |
|
"qwen2.5-7b-instruct": 0.5174666666666666, |
|
"qwen2.5-14b-instruct": 0.26799999999999996, |
|
"qwen2.5-32b-instruct": 0.3171333333333333, |
|
"qwen2.5-72b-instruct": 0.30706666666666665, |
|
"llama-3.1-8b-instruct": 0.6547333333333333, |
|
"llama-3.1-70b-instruct": 0.3390666666666667, |
|
"llama-3.2-3b-instruct": 0.6575333333333333, |
|
"llama-3.3-70b-instruct": 0.2899333333333334, |
|
"mistral-large-instruct-2411": 0.28440000000000004, |
|
"gemma-2-27b-it": 0.4133333333333333, |
|
"gemma-2-9b-it": 0.5988666666666667, |
|
"deepseek-v3": 0.34040000000000004, |
|
"deepseek-r1": 0.3333333333333333, |
|
"qwq-32b": 0.33946666666666664, |
|
"Average": 0.41738222222222215 |
|
}, |
|
"RoverEnv": { |
|
"qwen2.5-3b-instruct": 0.9546666666666667, |
|
"qwen2.5-7b-instruct": 1.0193333333333334, |
|
"qwen2.5-14b-instruct": 0.5934, |
|
"qwen2.5-32b-instruct": 0.6414, |
|
"qwen2.5-72b-instruct": 0.5923999999999999, |
|
"llama-3.1-8b-instruct": 0.9858666666666667, |
|
"llama-3.1-70b-instruct": 0.7111333333333333, |
|
"llama-3.2-3b-instruct": 1.0410666666666666, |
|
"llama-3.3-70b-instruct": 0.6332666666666666, |
|
"mistral-large-instruct-2411": 0.7143999999999999, |
|
"gemma-2-27b-it": 0.7877333333333333, |
|
"gemma-2-9b-it": 1.0685333333333333, |
|
"deepseek-v3": 0.7905333333333333, |
|
"deepseek-r1": 0.7494, |
|
"qwq-32b": 0.7479333333333333, |
|
"Average": 0.8020711111111112 |
|
}, |
|
"FashionEnv": { |
|
"qwen2.5-3b-instruct": 1.0357333333333334, |
|
"qwen2.5-7b-instruct": 1.081152380952381, |
|
"qwen2.5-14b-instruct": 0.7285238095238096, |
|
"qwen2.5-32b-instruct": 0.7431523809523809, |
|
"qwen2.5-72b-instruct": 0.7598666666666667, |
|
"llama-3.1-8b-instruct": 1.0961333333333332, |
|
"llama-3.1-70b-instruct": 0.8041333333333333, |
|
"llama-3.2-3b-instruct": 1.1326571428571426, |
|
"llama-3.3-70b-instruct": 0.8184666666666667, |
|
"mistral-large-instruct-2411": 0.8105238095238094, |
|
"gemma-2-27b-it": 0.9382190476190475, |
|
"gemma-2-9b-it": 1.0972, |
|
"deepseek-v3": 0.8063809523809524, |
|
"deepseek-r1": 0.7738476190476191, |
|
"qwq-32b": 0.8007333333333335, |
|
"Average": 0.8951149206349207 |
|
}, |
|
"LicenseEnv": { |
|
"qwen2.5-3b-instruct": 0.7847999999999999, |
|
"qwen2.5-7b-instruct": 0.8215333333333333, |
|
"qwen2.5-14b-instruct": 0.6174666666666666, |
|
"qwen2.5-32b-instruct": 0.7098666666666666, |
|
"qwen2.5-72b-instruct": 0.7198666666666667, |
|
"llama-3.1-8b-instruct": 0.8523333333333334, |
|
"llama-3.1-70b-instruct": 0.6513333333333332, |
|
"llama-3.2-3b-instruct": 0.9648666666666668, |
|
"llama-3.3-70b-instruct": 0.6662000000000001, |
|
"mistral-large-instruct-2411": 0.6437333333333333, |
|
"gemma-2-27b-it": 0.7512666666666666, |
|
"gemma-2-9b-it": 0.8070666666666666, |
|
"deepseek-v3": 0.6174666666666666, |
|
"deepseek-r1": 0.5982666666666666, |
|
"qwq-32b": 0.6115999999999999, |
|
"Average": 0.7211777777777777 |
|
}, |
|
"VirusClassificationEnv": { |
|
"qwen2.5-3b-instruct": 0.5887238095238095, |
|
"qwen2.5-7b-instruct": 0.6255999999999999, |
|
"qwen2.5-14b-instruct": 0.43513333333333326, |
|
"qwen2.5-32b-instruct": 0.4164, |
|
"qwen2.5-72b-instruct": 0.39893333333333336, |
|
"llama-3.1-8b-instruct": 0.6247333333333334, |
|
"llama-3.1-70b-instruct": 0.5219333333333334, |
|
"llama-3.2-3b-instruct": 0.6386095238095237, |
|
"llama-3.3-70b-instruct": 0.4547333333333333, |
|
"mistral-large-instruct-2411": 0.3114571428571429, |
|
"gemma-2-27b-it": 0.48719999999999997, |
|
"gemma-2-9b-it": 0.6325809523809524, |
|
"deepseek-v3": 0.30473333333333336, |
|
"deepseek-r1": 0.2137142857142857, |
|
"qwq-32b": 0.22217142857142855, |
|
"Average": 0.45844380952380953 |
|
}, |
|
"TestingEnv": { |
|
"qwen2.5-3b-instruct": 0.5297333333333333, |
|
"qwen2.5-7b-instruct": 0.5164666666666667, |
|
"qwen2.5-14b-instruct": 0.4224666666666666, |
|
"qwen2.5-32b-instruct": 0.4540666666666667, |
|
"qwen2.5-72b-instruct": 0.39493333333333325, |
|
"llama-3.1-8b-instruct": 0.5270666666666667, |
|
"llama-3.1-70b-instruct": 0.3365333333333333, |
|
"llama-3.2-3b-instruct": 0.5638666666666666, |
|
"llama-3.3-70b-instruct": 0.39473333333333327, |
|
"mistral-large-instruct-2411": 0.3972, |
|
"gemma-2-27b-it": 0.5658, |
|
"gemma-2-9b-it": 0.6542, |
|
"deepseek-v3": 0.37939999999999996, |
|
"deepseek-r1": 0.25579999999999997, |
|
"qwq-32b": 0.3352, |
|
"Average": 0.44849777777777783 |
|
}, |
|
"NarrativeDetectEnv": { |
|
"qwen2.5-3b-instruct": 1.0932666666666666, |
|
"qwen2.5-7b-instruct": 0.9698666666666667, |
|
"qwen2.5-14b-instruct": 0.8831333333333333, |
|
"qwen2.5-32b-instruct": 0.7640666666666666, |
|
"qwen2.5-72b-instruct": 0.8158000000000001, |
|
"llama-3.1-8b-instruct": 1.0600666666666667, |
|
"llama-3.1-70b-instruct": 0.8113999999999999, |
|
"llama-3.2-3b-instruct": 1.2458666666666667, |
|
"llama-3.3-70b-instruct": 0.8439333333333334, |
|
"mistral-large-instruct-2411": 0.8011333333333333, |
|
"gemma-2-27b-it": 1.0462666666666665, |
|
"gemma-2-9b-it": 1.0814666666666668, |
|
"deepseek-v3": 0.9039333333333334, |
|
"deepseek-r1": 0.82, |
|
"qwq-32b": 0.8263999999999999, |
|
"Average": 0.9311066666666665 |
|
}, |
|
"RenewableEnergyEnv": { |
|
"qwen2.5-3b-instruct": 1.2372, |
|
"qwen2.5-7b-instruct": 1.209, |
|
"qwen2.5-14b-instruct": 1.018, |
|
"qwen2.5-32b-instruct": 0.8681999999999999, |
|
"qwen2.5-72b-instruct": 0.8295333333333333, |
|
"llama-3.1-8b-instruct": 1.3595333333333333, |
|
"llama-3.1-70b-instruct": 0.8166666666666667, |
|
"llama-3.2-3b-instruct": 1.2722666666666664, |
|
"llama-3.3-70b-instruct": 0.9336000000000002, |
|
"mistral-large-instruct-2411": 0.8966666666666667, |
|
"gemma-2-27b-it": 1.2019333333333333, |
|
"gemma-2-9b-it": 1.3341999999999998, |
|
"deepseek-v3": 0.898, |
|
"deepseek-r1": 0.8659333333333334, |
|
"qwq-32b": 0.9053333333333334, |
|
"Average": 1.043071111111111 |
|
}, |
|
"CelestialEnv": { |
|
"qwen2.5-3b-instruct": 0.8438666666666667, |
|
"qwen2.5-7b-instruct": 0.8887999999999998, |
|
"qwen2.5-14b-instruct": 0.6514, |
|
"qwen2.5-32b-instruct": 0.6459333333333334, |
|
"qwen2.5-72b-instruct": 0.6326666666666666, |
|
"llama-3.1-8b-instruct": 0.9612666666666666, |
|
"llama-3.1-70b-instruct": 0.6192, |
|
"llama-3.2-3b-instruct": 0.8965333333333334, |
|
"llama-3.3-70b-instruct": 0.6164, |
|
"mistral-large-instruct-2411": 0.6203333333333334, |
|
"gemma-2-27b-it": 0.7378, |
|
"gemma-2-9b-it": 0.9489333333333333, |
|
"deepseek-v3": 0.6561999999999999, |
|
"deepseek-r1": 0.5421333333333334, |
|
"qwq-32b": 0.5784666666666667, |
|
"Average": 0.7226622222222223 |
|
}, |
|
"SpiceEnv": { |
|
"qwen2.5-3b-instruct": 0.6036476190476192, |
|
"qwen2.5-7b-instruct": 0.6609809523809524, |
|
"qwen2.5-14b-instruct": 0.40272380952380954, |
|
"qwen2.5-32b-instruct": 0.5753809523809524, |
|
"qwen2.5-72b-instruct": 0.46193333333333336, |
|
"llama-3.1-8b-instruct": 0.6512666666666667, |
|
"llama-3.1-70b-instruct": 0.5352666666666666, |
|
"llama-3.2-3b-instruct": 0.6274, |
|
"llama-3.3-70b-instruct": 0.594, |
|
"mistral-large-instruct-2411": 0.45503809523809513, |
|
"gemma-2-27b-it": 0.6168666666666667, |
|
"gemma-2-9b-it": 0.7341333333333334, |
|
"deepseek-v3": 0.31380952380952376, |
|
"deepseek-r1": 0.36774285714285704, |
|
"qwq-32b": 0.37498095238095236, |
|
"Average": 0.5316780952380953 |
|
}, |
|
"WildlifeEnv": { |
|
"qwen2.5-3b-instruct": 0.7888, |
|
"qwen2.5-7b-instruct": 0.7621333333333333, |
|
"qwen2.5-14b-instruct": 0.6147999999999999, |
|
"qwen2.5-32b-instruct": 0.7297333333333332, |
|
"qwen2.5-72b-instruct": 0.6115999999999999, |
|
"llama-3.1-8b-instruct": 0.8686666666666666, |
|
"llama-3.1-70b-instruct": 0.6302, |
|
"llama-3.2-3b-instruct": 0.7972666666666667, |
|
"llama-3.3-70b-instruct": 0.6359999999999999, |
|
"mistral-large-instruct-2411": 0.6615333333333333, |
|
"gemma-2-27b-it": 0.7294666666666667, |
|
"gemma-2-9b-it": 0.8138666666666665, |
|
"deepseek-v3": 0.6534000000000001, |
|
"deepseek-r1": 0.7072666666666667, |
|
"qwq-32b": 0.7271333333333333, |
|
"Average": 0.7154577777777777 |
|
}, |
|
"VehicleEnv": { |
|
"qwen2.5-3b-instruct": 0.9630666666666666, |
|
"qwen2.5-7b-instruct": 0.9056000000000001, |
|
"qwen2.5-14b-instruct": 0.7067333333333332, |
|
"qwen2.5-32b-instruct": 0.5080666666666666, |
|
"qwen2.5-72b-instruct": 0.4952666666666666, |
|
"llama-3.1-8b-instruct": 1.0144666666666668, |
|
"llama-3.1-70b-instruct": 0.6701333333333334, |
|
"llama-3.2-3b-instruct": 1.0123333333333333, |
|
"llama-3.3-70b-instruct": 0.6127333333333332, |
|
"mistral-large-instruct-2411": 0.37593333333333334, |
|
"gemma-2-27b-it": 0.7358666666666668, |
|
"gemma-2-9b-it": 1.0004666666666666, |
|
"deepseek-v3": 0.38853333333333334, |
|
"deepseek-r1": 0.30946666666666667, |
|
"qwq-32b": 0.3487333333333333, |
|
"Average": 0.6698266666666667 |
|
}, |
|
"BeverageEnv": { |
|
"qwen2.5-3b-instruct": 1.1309999999999998, |
|
"qwen2.5-7b-instruct": 1.0566666666666666, |
|
"qwen2.5-14b-instruct": 0.7231333333333334, |
|
"qwen2.5-32b-instruct": 0.8653333333333334, |
|
"qwen2.5-72b-instruct": 0.8098666666666666, |
|
"llama-3.1-8b-instruct": 1.0646666666666664, |
|
"llama-3.1-70b-instruct": 0.7819333333333334, |
|
"llama-3.2-3b-instruct": 1.0867999999999998, |
|
"llama-3.3-70b-instruct": 0.8621333333333332, |
|
"mistral-large-instruct-2411": 0.8074666666666666, |
|
"gemma-2-27b-it": 0.9830666666666668, |
|
"gemma-2-9b-it": 1.0837999999999999, |
|
"deepseek-v3": 0.7968, |
|
"deepseek-r1": 0.7807333333333334, |
|
"qwq-32b": 0.7677333333333334, |
|
"Average": 0.9067422222222222 |
|
}, |
|
"ControlEnv": { |
|
"qwen2.5-3b-instruct": 1.2409333333333332, |
|
"qwen2.5-7b-instruct": 1.1129999999999998, |
|
"qwen2.5-14b-instruct": 0.9396000000000001, |
|
"qwen2.5-32b-instruct": 0.9234, |
|
"qwen2.5-72b-instruct": 0.8239333333333333, |
|
"llama-3.1-8b-instruct": 1.1922666666666668, |
|
"llama-3.1-70b-instruct": 0.8639999999999999, |
|
"llama-3.2-3b-instruct": 1.1910666666666665, |
|
"llama-3.3-70b-instruct": 0.9382666666666666, |
|
"mistral-large-instruct-2411": 0.9432666666666666, |
|
"gemma-2-27b-it": 1.0350666666666668, |
|
"gemma-2-9b-it": 1.3362, |
|
"deepseek-v3": 0.8779333333333333, |
|
"deepseek-r1": 0.8366666666666667, |
|
"qwq-32b": 0.8624666666666666, |
|
"Average": 1.007871111111111 |
|
}, |
|
"CurrencyEnv": { |
|
"qwen2.5-3b-instruct": 1.1619999999999997, |
|
"qwen2.5-7b-instruct": 1.1104666666666667, |
|
"qwen2.5-14b-instruct": 1.0066666666666666, |
|
"qwen2.5-32b-instruct": 0.9369333333333332, |
|
"qwen2.5-72b-instruct": 0.9753999999999999, |
|
"llama-3.1-8b-instruct": 1.2676666666666667, |
|
"llama-3.1-70b-instruct": 0.8947999999999998, |
|
"llama-3.2-3b-instruct": 1.261, |
|
"llama-3.3-70b-instruct": 0.9674666666666665, |
|
"mistral-large-instruct-2411": 0.8869999999999998, |
|
"gemma-2-27b-it": 1.0257333333333334, |
|
"gemma-2-9b-it": 1.3512, |
|
"deepseek-v3": 0.9630666666666666, |
|
"deepseek-r1": 0.8782666666666665, |
|
"qwq-32b": 0.9007999999999999, |
|
"Average": 1.0392311111111112 |
|
}, |
|
"MarketingEnv": { |
|
"qwen2.5-3b-instruct": 0.7427333333333332, |
|
"qwen2.5-7b-instruct": 0.6565333333333332, |
|
"qwen2.5-14b-instruct": 0.6416000000000001, |
|
"qwen2.5-32b-instruct": 0.5615333333333333, |
|
"qwen2.5-72b-instruct": 0.5475333333333334, |
|
"llama-3.1-8b-instruct": 0.7419999999999999, |
|
"llama-3.1-70b-instruct": 0.5211333333333333, |
|
"llama-3.2-3b-instruct": 0.7737333333333333, |
|
"llama-3.3-70b-instruct": 0.5229999999999999, |
|
"mistral-large-instruct-2411": 0.5469999999999999, |
|
"gemma-2-27b-it": 0.7222000000000001, |
|
"gemma-2-9b-it": 0.8039333333333334, |
|
"deepseek-v3": 0.6286666666666666, |
|
"deepseek-r1": 0.5670666666666666, |
|
"qwq-32b": 0.5600666666666666, |
|
"Average": 0.6359155555555555 |
|
}, |
|
"BotanicalEnv": { |
|
"qwen2.5-3b-instruct": 1.3478666666666668, |
|
"qwen2.5-7b-instruct": 1.3568, |
|
"qwen2.5-14b-instruct": 0.7390000000000001, |
|
"qwen2.5-32b-instruct": 0.9401333333333334, |
|
"qwen2.5-72b-instruct": 0.8344666666666665, |
|
"llama-3.1-8b-instruct": 1.3095999999999999, |
|
"llama-3.1-70b-instruct": 0.8597999999999999, |
|
"llama-3.2-3b-instruct": 1.2815999999999999, |
|
"llama-3.3-70b-instruct": 0.9140666666666665, |
|
"mistral-large-instruct-2411": 0.8783333333333333, |
|
"gemma-2-27b-it": 1.0331333333333332, |
|
"gemma-2-9b-it": 1.4613999999999998, |
|
"deepseek-v3": 0.8467333333333332, |
|
"deepseek-r1": 0.6417333333333334, |
|
"qwq-32b": 0.6957333333333333, |
|
"Average": 1.00936 |
|
}, |
|
"CircusActEnv": { |
|
"qwen2.5-3b-instruct": 0.966, |
|
"qwen2.5-7b-instruct": 0.8732666666666665, |
|
"qwen2.5-14b-instruct": 0.7160666666666667, |
|
"qwen2.5-32b-instruct": 0.6424000000000001, |
|
"qwen2.5-72b-instruct": 0.6185333333333333, |
|
"llama-3.1-8b-instruct": 1.0588000000000002, |
|
"llama-3.1-70b-instruct": 0.6578, |
|
"llama-3.2-3b-instruct": 1.0192666666666663, |
|
"llama-3.3-70b-instruct": 0.6707333333333333, |
|
"mistral-large-instruct-2411": 0.5906, |
|
"gemma-2-27b-it": 0.8663333333333334, |
|
"gemma-2-9b-it": 0.9901333333333333, |
|
"deepseek-v3": 0.6095333333333334, |
|
"deepseek-r1": 0.5542666666666667, |
|
"qwq-32b": 0.612, |
|
"Average": 0.7630488888888889 |
|
}, |
|
"AudioDialectEnv": { |
|
"qwen2.5-3b-instruct": 1.1560666666666666, |
|
"qwen2.5-7b-instruct": 1.1981333333333333, |
|
"qwen2.5-14b-instruct": 0.9919333333333332, |
|
"qwen2.5-32b-instruct": 0.9843999999999999, |
|
"qwen2.5-72b-instruct": 1.0026, |
|
"llama-3.1-8b-instruct": 1.1826, |
|
"llama-3.1-70b-instruct": 1.049, |
|
"llama-3.2-3b-instruct": 1.2086666666666668, |
|
"llama-3.3-70b-instruct": 1.1178666666666666, |
|
"mistral-large-instruct-2411": 0.9938666666666667, |
|
"gemma-2-27b-it": 1.1272666666666669, |
|
"gemma-2-9b-it": 1.255666666666667, |
|
"deepseek-v3": 0.9454666666666667, |
|
"deepseek-r1": 0.8542666666666667, |
|
"qwq-32b": 0.9452, |
|
"Average": 1.0675333333333334 |
|
}, |
|
"LeadershipEnv": { |
|
"qwen2.5-3b-instruct": 1.1378, |
|
"qwen2.5-7b-instruct": 1.1529333333333334, |
|
"qwen2.5-14b-instruct": 0.9892285714285715, |
|
"qwen2.5-32b-instruct": 1.036095238095238, |
|
"qwen2.5-72b-instruct": 0.9751333333333333, |
|
"llama-3.1-8b-instruct": 1.2512571428571426, |
|
"llama-3.1-70b-instruct": 0.9471428571428572, |
|
"llama-3.2-3b-instruct": 1.450133333333333, |
|
"llama-3.3-70b-instruct": 1.0285999999999997, |
|
"mistral-large-instruct-2411": 0.9162380952380952, |
|
"gemma-2-27b-it": 1.2164380952380953, |
|
"gemma-2-9b-it": 1.3166761904761903, |
|
"deepseek-v3": 0.9108571428571428, |
|
"deepseek-r1": 0.9028190476190476, |
|
"qwq-32b": 0.8550952380952381, |
|
"Average": 1.0724298412698412 |
|
}, |
|
"TransportEnv": { |
|
"qwen2.5-3b-instruct": 0.7256761904761905, |
|
"qwen2.5-7b-instruct": 0.6674, |
|
"qwen2.5-14b-instruct": 0.425752380952381, |
|
"qwen2.5-32b-instruct": 0.5705047619047618, |
|
"qwen2.5-72b-instruct": 0.4020666666666667, |
|
"llama-3.1-8b-instruct": 0.7760380952380952, |
|
"llama-3.1-70b-instruct": 0.5022666666666666, |
|
"llama-3.2-3b-instruct": 0.8045333333333333, |
|
"llama-3.3-70b-instruct": 0.5512285714285714, |
|
"mistral-large-instruct-2411": 0.4226571428571429, |
|
"gemma-2-27b-it": 0.6612190476190476, |
|
"gemma-2-9b-it": 0.7567999999999999, |
|
"deepseek-v3": 0.4245333333333333, |
|
"deepseek-r1": 0.35583809523809523, |
|
"qwq-32b": 0.42556190476190475, |
|
"Average": 0.5648050793650794 |
|
}, |
|
"EcologicalEnv": { |
|
"qwen2.5-3b-instruct": 0.5565333333333333, |
|
"qwen2.5-7b-instruct": 0.3861333333333333, |
|
"qwen2.5-14b-instruct": 0.23986666666666662, |
|
"qwen2.5-32b-instruct": 0.2175333333333333, |
|
"qwen2.5-72b-instruct": 0.2650666666666667, |
|
"llama-3.1-8b-instruct": 0.5481333333333334, |
|
"llama-3.1-70b-instruct": 0.27026666666666666, |
|
"llama-3.2-3b-instruct": 0.5608666666666666, |
|
"llama-3.3-70b-instruct": 0.34073333333333333, |
|
"mistral-large-instruct-2411": 0.18666666666666668, |
|
"gemma-2-27b-it": 0.3159333333333333, |
|
"gemma-2-9b-it": 0.49386666666666673, |
|
"deepseek-v3": 0.25439999999999996, |
|
"deepseek-r1": 0.13513333333333333, |
|
"qwq-32b": 0.1812, |
|
"Average": 0.3301555555555555 |
|
}, |
|
"MythicEnv": { |
|
"qwen2.5-3b-instruct": 1.1101999999999999, |
|
"qwen2.5-7b-instruct": 0.9876000000000001, |
|
"qwen2.5-14b-instruct": 0.7183999999999999, |
|
"qwen2.5-32b-instruct": 0.8451333333333334, |
|
"qwen2.5-72b-instruct": 0.7776666666666666, |
|
"llama-3.1-8b-instruct": 1.1285333333333334, |
|
"llama-3.1-70b-instruct": 0.8145999999999999, |
|
"llama-3.2-3b-instruct": 1.2702, |
|
"llama-3.3-70b-instruct": 0.8547333333333332, |
|
"mistral-large-instruct-2411": 0.7791333333333332, |
|
"gemma-2-27b-it": 0.9578666666666666, |
|
"gemma-2-9b-it": 1.1880000000000002, |
|
"deepseek-v3": 0.7562, |
|
"deepseek-r1": 0.628, |
|
"qwq-32b": 0.7259333333333334, |
|
"Average": 0.9028133333333334 |
|
}, |
|
"EnzymeEnv": { |
|
"qwen2.5-3b-instruct": 0.5272666666666666, |
|
"qwen2.5-7b-instruct": 0.5749999999999998, |
|
"qwen2.5-14b-instruct": 0.45233333333333325, |
|
"qwen2.5-32b-instruct": 0.44746666666666657, |
|
"qwen2.5-72b-instruct": 0.4640666666666666, |
|
"llama-3.1-8b-instruct": 0.6982666666666667, |
|
"llama-3.1-70b-instruct": 0.4665333333333333, |
|
"llama-3.2-3b-instruct": 0.7106666666666666, |
|
"llama-3.3-70b-instruct": 0.4798, |
|
"mistral-large-instruct-2411": 0.425, |
|
"gemma-2-27b-it": 0.5391999999999999, |
|
"gemma-2-9b-it": 0.6941333333333333, |
|
"deepseek-v3": 0.37926666666666664, |
|
"deepseek-r1": 0.38086666666666663, |
|
"qwq-32b": 0.4045333333333333, |
|
"Average": 0.5096266666666667 |
|
}, |
|
"OSKernelEnv": { |
|
"qwen2.5-3b-instruct": 1.1656, |
|
"qwen2.5-7b-instruct": 1.3032, |
|
"qwen2.5-14b-instruct": 0.8570666666666666, |
|
"qwen2.5-32b-instruct": 0.8768666666666667, |
|
"qwen2.5-72b-instruct": 0.8728, |
|
"llama-3.1-8b-instruct": 1.184, |
|
"llama-3.1-70b-instruct": 0.8322666666666667, |
|
"llama-3.2-3b-instruct": 1.3510000000000002, |
|
"llama-3.3-70b-instruct": 0.8083333333333333, |
|
"mistral-large-instruct-2411": 0.8513333333333332, |
|
"gemma-2-27b-it": 1.0258666666666667, |
|
"gemma-2-9b-it": 1.3057333333333332, |
|
"deepseek-v3": 0.8445333333333332, |
|
"deepseek-r1": 0.7511333333333332, |
|
"qwq-32b": 0.8475333333333334, |
|
"Average": 0.9918177777777777 |
|
}, |
|
"MineralClassificationEnv": { |
|
"qwen2.5-3b-instruct": 1.0583333333333333, |
|
"qwen2.5-7b-instruct": 1.0704666666666667, |
|
"qwen2.5-14b-instruct": 0.7609999999999999, |
|
"qwen2.5-32b-instruct": 0.7188666666666668, |
|
"qwen2.5-72b-instruct": 0.6955333333333333, |
|
"llama-3.1-8b-instruct": 1.1152000000000002, |
|
"llama-3.1-70b-instruct": 0.6619333333333334, |
|
"llama-3.2-3b-instruct": 1.1165333333333334, |
|
"llama-3.3-70b-instruct": 0.6672666666666666, |
|
"mistral-large-instruct-2411": 0.7607333333333333, |
|
"gemma-2-27b-it": 0.9294, |
|
"gemma-2-9b-it": 1.2250666666666667, |
|
"deepseek-v3": 0.8092, |
|
"deepseek-r1": 0.7899999999999999, |
|
"qwq-32b": 0.7879333333333334, |
|
"Average": 0.8778311111111109 |
|
}, |
|
"EconomicEnv": { |
|
"qwen2.5-3b-instruct": 1.1286, |
|
"qwen2.5-7b-instruct": 1.16, |
|
"qwen2.5-14b-instruct": 0.8704666666666666, |
|
"qwen2.5-32b-instruct": 0.8274666666666667, |
|
"qwen2.5-72b-instruct": 0.7895333333333333, |
|
"llama-3.1-8b-instruct": 1.1526666666666667, |
|
"llama-3.1-70b-instruct": 0.7768, |
|
"llama-3.2-3b-instruct": 1.1796666666666666, |
|
"llama-3.3-70b-instruct": 0.8427333333333333, |
|
"mistral-large-instruct-2411": 0.8880666666666667, |
|
"gemma-2-27b-it": 1.0978666666666665, |
|
"gemma-2-9b-it": 1.4352000000000003, |
|
"deepseek-v3": 0.9310666666666668, |
|
"deepseek-r1": 0.8318000000000001, |
|
"qwq-32b": 0.8415333333333332, |
|
"Average": 0.9835644444444444 |
|
}, |
|
"DetectiveEnv": { |
|
"qwen2.5-3b-instruct": 0.9592666666666666, |
|
"qwen2.5-7b-instruct": 0.8579333333333332, |
|
"qwen2.5-14b-instruct": 0.5528666666666666, |
|
"qwen2.5-32b-instruct": 0.6906666666666667, |
|
"qwen2.5-72b-instruct": 0.6596, |
|
"llama-3.1-8b-instruct": 1.0208666666666666, |
|
"llama-3.1-70b-instruct": 0.7068, |
|
"llama-3.2-3b-instruct": 1.0127333333333335, |
|
"llama-3.3-70b-instruct": 0.7222666666666665, |
|
"mistral-large-instruct-2411": 0.6398666666666667, |
|
"gemma-2-27b-it": 1.0352000000000001, |
|
"gemma-2-9b-it": 1.2517999999999998, |
|
"deepseek-v3": 0.6811999999999999, |
|
"deepseek-r1": 0.6839333333333333, |
|
"qwq-32b": 0.6996, |
|
"Average": 0.81164 |
|
}, |
|
"ChessEnv": { |
|
"qwen2.5-3b-instruct": 0.9558666666666668, |
|
"qwen2.5-7b-instruct": 1.0245333333333335, |
|
"qwen2.5-14b-instruct": 0.8131333333333333, |
|
"qwen2.5-32b-instruct": 0.8892, |
|
"qwen2.5-72b-instruct": 0.8331999999999999, |
|
"llama-3.1-8b-instruct": 1.1225333333333334, |
|
"llama-3.1-70b-instruct": 0.7468666666666667, |
|
"llama-3.2-3b-instruct": 1.1218, |
|
"llama-3.3-70b-instruct": 0.8098666666666666, |
|
"mistral-large-instruct-2411": 0.7781333333333335, |
|
"gemma-2-27b-it": 1.01, |
|
"gemma-2-9b-it": 1.2222666666666666, |
|
"deepseek-v3": 0.7901333333333332, |
|
"deepseek-r1": 0.7748, |
|
"qwq-32b": 0.8231333333333334, |
|
"Average": 0.9143644444444444 |
|
}, |
|
"MythicalEnv": { |
|
"qwen2.5-3b-instruct": 0.9932000000000001, |
|
"qwen2.5-7b-instruct": 1.0899333333333334, |
|
"qwen2.5-14b-instruct": 0.7302, |
|
"qwen2.5-32b-instruct": 0.8645999999999999, |
|
"qwen2.5-72b-instruct": 0.8496666666666666, |
|
"llama-3.1-8b-instruct": 1.0838, |
|
"llama-3.1-70b-instruct": 0.8592000000000001, |
|
"llama-3.2-3b-instruct": 1.0404666666666667, |
|
"llama-3.3-70b-instruct": 0.8421333333333333, |
|
"mistral-large-instruct-2411": 0.8762666666666666, |
|
"gemma-2-27b-it": 0.8621333333333334, |
|
"gemma-2-9b-it": 1.0032, |
|
"deepseek-v3": 0.885, |
|
"deepseek-r1": 0.7668000000000001, |
|
"qwq-32b": 0.8260000000000002, |
|
"Average": 0.90484 |
|
}, |
|
"ChemicalCompoundsEnv": { |
|
"qwen2.5-3b-instruct": 0.8311047619047619, |
|
"qwen2.5-7b-instruct": 0.8545238095238095, |
|
"qwen2.5-14b-instruct": 0.6625238095238095, |
|
"qwen2.5-32b-instruct": 0.7971619047619047, |
|
"qwen2.5-72b-instruct": 0.7787238095238094, |
|
"llama-3.1-8b-instruct": 0.9210666666666665, |
|
"llama-3.1-70b-instruct": 0.8095619047619046, |
|
"llama-3.2-3b-instruct": 0.870647619047619, |
|
"llama-3.3-70b-instruct": 0.8861619047619047, |
|
"mistral-large-instruct-2411": 0.665295238095238, |
|
"gemma-2-27b-it": 0.8178285714285713, |
|
"gemma-2-9b-it": 0.9217333333333333, |
|
"deepseek-v3": 0.6765047619047617, |
|
"deepseek-r1": 0.4232571428571429, |
|
"qwq-32b": 0.41698095238095234, |
|
"Average": 0.7555384126984125 |
|
}, |
|
"ArchitecturalEnv": { |
|
"qwen2.5-3b-instruct": 0.8535333333333333, |
|
"qwen2.5-7b-instruct": 0.9366666666666668, |
|
"qwen2.5-14b-instruct": 0.6431333333333333, |
|
"qwen2.5-32b-instruct": 0.7234666666666666, |
|
"qwen2.5-72b-instruct": 0.6861333333333335, |
|
"llama-3.1-8b-instruct": 0.9704666666666666, |
|
"llama-3.1-70b-instruct": 0.769, |
|
"llama-3.2-3b-instruct": 1.0212666666666665, |
|
"llama-3.3-70b-instruct": 0.8717333333333332, |
|
"mistral-large-instruct-2411": 0.6912, |
|
"gemma-2-27b-it": 0.8425333333333332, |
|
"gemma-2-9b-it": 1.0264, |
|
"deepseek-v3": 0.6093333333333333, |
|
"deepseek-r1": 0.6285333333333333, |
|
"qwq-32b": 0.6964, |
|
"Average": 0.7979866666666668 |
|
}, |
|
"ComputationEnv": { |
|
"qwen2.5-3b-instruct": 0.9820666666666668, |
|
"qwen2.5-7b-instruct": 0.9801333333333334, |
|
"qwen2.5-14b-instruct": 0.7334666666666666, |
|
"qwen2.5-32b-instruct": 0.6850666666666666, |
|
"qwen2.5-72b-instruct": 0.6938000000000001, |
|
"llama-3.1-8b-instruct": 1.0237333333333332, |
|
"llama-3.1-70b-instruct": 0.6686, |
|
"llama-3.2-3b-instruct": 1.0106666666666666, |
|
"llama-3.3-70b-instruct": 0.6860666666666666, |
|
"mistral-large-instruct-2411": 0.7517333333333334, |
|
"gemma-2-27b-it": 0.8299999999999998, |
|
"gemma-2-9b-it": 1.0842666666666667, |
|
"deepseek-v3": 0.7249999999999999, |
|
"deepseek-r1": 0.7374666666666667, |
|
"qwq-32b": 0.7521999999999999, |
|
"Average": 0.8229511111111111 |
|
}, |
|
"MachinePartEnv": { |
|
"qwen2.5-3b-instruct": 0.9062666666666666, |
|
"qwen2.5-7b-instruct": 0.8395333333333334, |
|
"qwen2.5-14b-instruct": 0.6237999999999999, |
|
"qwen2.5-32b-instruct": 0.6204666666666667, |
|
"qwen2.5-72b-instruct": 0.6410666666666667, |
|
"llama-3.1-8b-instruct": 0.8998666666666665, |
|
"llama-3.1-70b-instruct": 0.5422666666666667, |
|
"llama-3.2-3b-instruct": 0.9272, |
|
"llama-3.3-70b-instruct": 0.5463333333333333, |
|
"mistral-large-instruct-2411": 0.5808, |
|
"gemma-2-27b-it": 0.6800666666666666, |
|
"gemma-2-9b-it": 0.9401999999999997, |
|
"deepseek-v3": 0.6576, |
|
"deepseek-r1": 0.6320666666666666, |
|
"qwq-32b": 0.5902, |
|
"Average": 0.7085155555555555 |
|
}, |
|
"LiteraryEnv": { |
|
"qwen2.5-3b-instruct": 0.7915619047619047, |
|
"qwen2.5-7b-instruct": 0.684247619047619, |
|
"qwen2.5-14b-instruct": 0.4320857142857143, |
|
"qwen2.5-32b-instruct": 0.47454285714285704, |
|
"qwen2.5-72b-instruct": 0.45714285714285713, |
|
"llama-3.1-8b-instruct": 0.7595047619047619, |
|
"llama-3.1-70b-instruct": 0.5143047619047618, |
|
"llama-3.2-3b-instruct": 0.8008476190476189, |
|
"llama-3.3-70b-instruct": 0.5506952380952381, |
|
"mistral-large-instruct-2411": 0.5536571428571427, |
|
"gemma-2-27b-it": 0.6854666666666664, |
|
"gemma-2-9b-it": 0.8457333333333332, |
|
"deepseek-v3": 0.5392285714285714, |
|
"deepseek-r1": 0.5025047619047619, |
|
"qwq-32b": 0.4939333333333332, |
|
"Average": 0.6056971428571427 |
|
}, |
|
"MarineEnv": { |
|
"qwen2.5-3b-instruct": 1.0838666666666668, |
|
"qwen2.5-7b-instruct": 1.0142666666666666, |
|
"qwen2.5-14b-instruct": 0.7625333333333334, |
|
"qwen2.5-32b-instruct": 0.7773333333333333, |
|
"qwen2.5-72b-instruct": 0.8016666666666667, |
|
"llama-3.1-8b-instruct": 1.1154666666666668, |
|
"llama-3.1-70b-instruct": 0.8399333333333333, |
|
"llama-3.2-3b-instruct": 1.1426000000000003, |
|
"llama-3.3-70b-instruct": 0.8375999999999999, |
|
"mistral-large-instruct-2411": 0.8630666666666666, |
|
"gemma-2-27b-it": 0.9411333333333334, |
|
"gemma-2-9b-it": 1.1442, |
|
"deepseek-v3": 0.8894666666666666, |
|
"deepseek-r1": 0.8458, |
|
"qwq-32b": 0.8745333333333333, |
|
"Average": 0.9288977777777778 |
|
}, |
|
"PhilosophyEnv": { |
|
"qwen2.5-3b-instruct": 1.05, |
|
"qwen2.5-7b-instruct": 1.3602666666666665, |
|
"qwen2.5-14b-instruct": 0.6244, |
|
"qwen2.5-32b-instruct": 0.6048, |
|
"qwen2.5-72b-instruct": 0.6090666666666666, |
|
"llama-3.1-8b-instruct": 1.0042666666666666, |
|
"llama-3.1-70b-instruct": 0.6868, |
|
"llama-3.2-3b-instruct": 1.2236666666666667, |
|
"llama-3.3-70b-instruct": 0.6848666666666666, |
|
"mistral-large-instruct-2411": 0.5620666666666667, |
|
"gemma-2-27b-it": 0.9582, |
|
"gemma-2-9b-it": 0.9566666666666667, |
|
"deepseek-v3": 0.5928666666666667, |
|
"deepseek-r1": 0.5505333333333333, |
|
"qwq-32b": 0.5388666666666666, |
|
"Average": 0.800488888888889 |
|
}, |
|
"ArchaeologicalEnv": { |
|
"qwen2.5-3b-instruct": 1.0586, |
|
"qwen2.5-7b-instruct": 0.8644000000000001, |
|
"qwen2.5-14b-instruct": 0.7687333333333333, |
|
"qwen2.5-32b-instruct": 0.724, |
|
"qwen2.5-72b-instruct": 0.7683333333333333, |
|
"llama-3.1-8b-instruct": 1.0757999999999999, |
|
"llama-3.1-70b-instruct": 0.7328666666666667, |
|
"llama-3.2-3b-instruct": 1.0688666666666666, |
|
"llama-3.3-70b-instruct": 0.7887333333333334, |
|
"mistral-large-instruct-2411": 0.7232, |
|
"gemma-2-27b-it": 0.8009999999999999, |
|
"gemma-2-9b-it": 1.0729333333333333, |
|
"deepseek-v3": 0.6970000000000001, |
|
"deepseek-r1": 0.5904666666666667, |
|
"qwq-32b": 0.6000666666666665, |
|
"Average": 0.8223333333333332 |
|
}, |
|
"GemstoneEnv": { |
|
"qwen2.5-3b-instruct": 0.7110285714285715, |
|
"qwen2.5-7b-instruct": 0.7523809523809524, |
|
"qwen2.5-14b-instruct": 0.4729333333333333, |
|
"qwen2.5-32b-instruct": 0.5357714285714286, |
|
"qwen2.5-72b-instruct": 0.6073238095238096, |
|
"llama-3.1-8b-instruct": 0.8096666666666665, |
|
"llama-3.1-70b-instruct": 0.6153904761904763, |
|
"llama-3.2-3b-instruct": 0.7933904761904762, |
|
"llama-3.3-70b-instruct": 0.5937238095238094, |
|
"mistral-large-instruct-2411": 0.4208952380952381, |
|
"gemma-2-27b-it": 0.5776761904761905, |
|
"gemma-2-9b-it": 0.7067619047619047, |
|
"deepseek-v3": 0.41441904761904763, |
|
"deepseek-r1": 0.38596190476190473, |
|
"qwq-32b": 0.34542857142857136, |
|
"Average": 0.5828501587301588 |
|
}, |
|
"MicrobiologyEnv": { |
|
"qwen2.5-3b-instruct": 0.9303809523809525, |
|
"qwen2.5-7b-instruct": 0.9467904761904762, |
|
"qwen2.5-14b-instruct": 0.5958380952380952, |
|
"qwen2.5-32b-instruct": 0.6932190476190476, |
|
"qwen2.5-72b-instruct": 0.5158190476190476, |
|
"llama-3.1-8b-instruct": 0.9718666666666668, |
|
"llama-3.1-70b-instruct": 0.7010476190476191, |
|
"llama-3.2-3b-instruct": 1.0090190476190477, |
|
"llama-3.3-70b-instruct": 0.7338666666666666, |
|
"mistral-large-instruct-2411": 0.6196380952380951, |
|
"gemma-2-27b-it": 0.7761333333333335, |
|
"gemma-2-9b-it": 1.0257809523809525, |
|
"deepseek-v3": 0.5738761904761904, |
|
"deepseek-r1": 0.5433809523809524, |
|
"qwq-32b": 0.5820380952380952, |
|
"Average": 0.7479130158730157 |
|
}, |
|
"SciFiEnv": { |
|
"qwen2.5-3b-instruct": 0.9241999999999999, |
|
"qwen2.5-7b-instruct": 1.222, |
|
"qwen2.5-14b-instruct": 0.6346, |
|
"qwen2.5-32b-instruct": 0.6923333333333332, |
|
"qwen2.5-72b-instruct": 0.7514666666666667, |
|
"llama-3.1-8b-instruct": 1.1545999999999998, |
|
"llama-3.1-70b-instruct": 0.6702, |
|
"llama-3.2-3b-instruct": 1.0696, |
|
"llama-3.3-70b-instruct": 0.7630666666666667, |
|
"mistral-large-instruct-2411": 0.6732666666666667, |
|
"gemma-2-27b-it": 0.8202, |
|
"gemma-2-9b-it": 1.0992666666666666, |
|
"deepseek-v3": 0.6295999999999999, |
|
"deepseek-r1": 0.5723333333333334, |
|
"qwq-32b": 0.6310666666666667, |
|
"Average": 0.82052 |
|
}, |
|
"HormoneEnv": { |
|
"qwen2.5-3b-instruct": 0.6477999999999999, |
|
"qwen2.5-7b-instruct": 0.5792666666666666, |
|
"qwen2.5-14b-instruct": 0.42300000000000004, |
|
"qwen2.5-32b-instruct": 0.4808, |
|
"qwen2.5-72b-instruct": 0.47140000000000004, |
|
"llama-3.1-8b-instruct": 0.6914, |
|
"llama-3.1-70b-instruct": 0.3943333333333333, |
|
"llama-3.2-3b-instruct": 0.6731999999999999, |
|
"llama-3.3-70b-instruct": 0.4046, |
|
"mistral-large-instruct-2411": 0.47793333333333327, |
|
"gemma-2-27b-it": 0.49526666666666663, |
|
"gemma-2-9b-it": 0.6825333333333333, |
|
"deepseek-v3": 0.4746666666666667, |
|
"deepseek-r1": 0.4145333333333333, |
|
"qwq-32b": 0.4527333333333333, |
|
"Average": 0.5175644444444445 |
|
}, |
|
"SculptorEnv": { |
|
"qwen2.5-3b-instruct": 1.1031333333333335, |
|
"qwen2.5-7b-instruct": 0.9707333333333334, |
|
"qwen2.5-14b-instruct": 0.8746666666666666, |
|
"qwen2.5-32b-instruct": 0.9588666666666666, |
|
"qwen2.5-72b-instruct": 0.9808, |
|
"llama-3.1-8b-instruct": 1.215, |
|
"llama-3.1-70b-instruct": 1.0109333333333332, |
|
"llama-3.2-3b-instruct": 1.2163333333333335, |
|
"llama-3.3-70b-instruct": 0.9847999999999999, |
|
"mistral-large-instruct-2411": 0.9626666666666667, |
|
"gemma-2-27b-it": 1.1294666666666668, |
|
"gemma-2-9b-it": 1.2386666666666666, |
|
"deepseek-v3": 0.9729333333333333, |
|
"deepseek-r1": 0.8991999999999999, |
|
"qwq-32b": 0.9352666666666666, |
|
"Average": 1.0302311111111113 |
|
}, |
|
"NeuroEnv": { |
|
"qwen2.5-3b-instruct": 1.0565999999999998, |
|
"qwen2.5-7b-instruct": 0.9228666666666665, |
|
"qwen2.5-14b-instruct": 0.6512666666666667, |
|
"qwen2.5-32b-instruct": 0.7456666666666667, |
|
"qwen2.5-72b-instruct": 0.628, |
|
"llama-3.1-8b-instruct": 1.0157333333333336, |
|
"llama-3.1-70b-instruct": 0.6142, |
|
"llama-3.2-3b-instruct": 1.0081333333333333, |
|
"llama-3.3-70b-instruct": 0.5914, |
|
"mistral-large-instruct-2411": 0.7068, |
|
"gemma-2-27b-it": 0.6496666666666667, |
|
"gemma-2-9b-it": 1.0555333333333334, |
|
"deepseek-v3": 0.7531333333333333, |
|
"deepseek-r1": 0.6508666666666667, |
|
"qwq-32b": 0.8050666666666666, |
|
"Average": 0.7903288888888889 |
|
}, |
|
"OceanEnv": { |
|
"qwen2.5-3b-instruct": 0.9513333333333334, |
|
"qwen2.5-7b-instruct": 0.766, |
|
"qwen2.5-14b-instruct": 0.6742, |
|
"qwen2.5-32b-instruct": 0.7434, |
|
"qwen2.5-72b-instruct": 0.6952666666666667, |
|
"llama-3.1-8b-instruct": 0.9298666666666667, |
|
"llama-3.1-70b-instruct": 0.6888, |
|
"llama-3.2-3b-instruct": 1.0092666666666668, |
|
"llama-3.3-70b-instruct": 0.7631333333333334, |
|
"mistral-large-instruct-2411": 0.6806000000000001, |
|
"gemma-2-27b-it": 0.8006666666666667, |
|
"gemma-2-9b-it": 0.9381333333333334, |
|
"deepseek-v3": 0.5634666666666666, |
|
"deepseek-r1": 0.5218666666666666, |
|
"qwq-32b": 0.5317333333333332, |
|
"Average": 0.7505155555555555 |
|
}, |
|
"MineralEnv": { |
|
"qwen2.5-3b-instruct": 0.4416333333333333, |
|
"qwen2.5-7b-instruct": 0.40716190476190484, |
|
"qwen2.5-14b-instruct": 0.13431428571428572, |
|
"qwen2.5-32b-instruct": 0.18465714285714285, |
|
"qwen2.5-72b-instruct": 0.17393809523809525, |
|
"llama-3.1-8b-instruct": 0.4482333333333333, |
|
"llama-3.1-70b-instruct": 0.2729857142857143, |
|
"llama-3.2-3b-instruct": 0.46588571428571424, |
|
"llama-3.3-70b-instruct": 0.2577333333333333, |
|
"mistral-large-instruct-2411": 0.2553095238095238, |
|
"gemma-2-27b-it": 0.3398333333333333, |
|
"gemma-2-9b-it": 0.4829333333333333, |
|
"deepseek-v3": 0.17311428571428572, |
|
"deepseek-r1": 0.19182857142857146, |
|
"qwq-32b": 0.2801666666666667, |
|
"Average": 0.30064857142857143 |
|
}, |
|
"FishEnv": { |
|
"qwen2.5-3b-instruct": 1.2468666666666668, |
|
"qwen2.5-7b-instruct": 1.3481999999999998, |
|
"qwen2.5-14b-instruct": 0.9705999999999999, |
|
"qwen2.5-32b-instruct": 1.0598666666666667, |
|
"qwen2.5-72b-instruct": 0.9867999999999999, |
|
"llama-3.1-8b-instruct": 1.3636666666666666, |
|
"llama-3.1-70b-instruct": 1.0207333333333335, |
|
"llama-3.2-3b-instruct": 1.4142666666666668, |
|
"llama-3.3-70b-instruct": 1.0358, |
|
"mistral-large-instruct-2411": 0.9927999999999999, |
|
"gemma-2-27b-it": 1.1742, |
|
"gemma-2-9b-it": 1.3645999999999998, |
|
"deepseek-v3": 1.0188, |
|
"deepseek-r1": 0.9213333333333333, |
|
"qwq-32b": 0.9852666666666667, |
|
"Average": 1.12692 |
|
}, |
|
"MartialArtsEnv": { |
|
"qwen2.5-3b-instruct": 1.0723333333333334, |
|
"qwen2.5-7b-instruct": 1.0198, |
|
"qwen2.5-14b-instruct": 0.7902666666666667, |
|
"qwen2.5-32b-instruct": 0.8842000000000001, |
|
"qwen2.5-72b-instruct": 0.9042666666666666, |
|
"llama-3.1-8b-instruct": 1.117, |
|
"llama-3.1-70b-instruct": 0.8526666666666667, |
|
"llama-3.2-3b-instruct": 1.1304, |
|
"llama-3.3-70b-instruct": 0.9208000000000001, |
|
"mistral-large-instruct-2411": 0.8798666666666666, |
|
"gemma-2-27b-it": 1.0068666666666666, |
|
"gemma-2-9b-it": 1.1265333333333334, |
|
"deepseek-v3": 0.7828666666666667, |
|
"deepseek-r1": 0.7744, |
|
"qwq-32b": 0.8414000000000001, |
|
"Average": 0.9402444444444444 |
|
}, |
|
"RocketFuelEnv": { |
|
"qwen2.5-3b-instruct": 0.8296666666666667, |
|
"qwen2.5-7b-instruct": 0.8119333333333334, |
|
"qwen2.5-14b-instruct": 0.3957333333333334, |
|
"qwen2.5-32b-instruct": 0.5435333333333333, |
|
"qwen2.5-72b-instruct": 0.4489333333333333, |
|
"llama-3.1-8b-instruct": 0.8727333333333332, |
|
"llama-3.1-70b-instruct": 0.5453999999999999, |
|
"llama-3.2-3b-instruct": 0.8820666666666666, |
|
"llama-3.3-70b-instruct": 0.5007333333333334, |
|
"mistral-large-instruct-2411": 0.4926666666666666, |
|
"gemma-2-27b-it": 0.5702666666666667, |
|
"gemma-2-9b-it": 0.9189333333333332, |
|
"deepseek-v3": 0.45919999999999994, |
|
"deepseek-r1": 0.44160000000000005, |
|
"qwq-32b": 0.4107333333333333, |
|
"Average": 0.6082755555555556 |
|
}, |
|
"MLEnv": { |
|
"qwen2.5-3b-instruct": 1.0853809523809523, |
|
"qwen2.5-7b-instruct": 0.9570571428571428, |
|
"qwen2.5-14b-instruct": 0.7381333333333332, |
|
"qwen2.5-32b-instruct": 0.7021238095238095, |
|
"qwen2.5-72b-instruct": 0.6462666666666667, |
|
"llama-3.1-8b-instruct": 1.0434, |
|
"llama-3.1-70b-instruct": 0.6853333333333332, |
|
"llama-3.2-3b-instruct": 1.0912, |
|
"llama-3.3-70b-instruct": 0.8062666666666667, |
|
"mistral-large-instruct-2411": 0.742590476190476, |
|
"gemma-2-27b-it": 0.9825333333333333, |
|
"gemma-2-9b-it": 1.1573333333333333, |
|
"deepseek-v3": 0.7192761904761905, |
|
"deepseek-r1": 0.6918, |
|
"qwq-32b": 0.6837333333333333, |
|
"Average": 0.8488285714285714 |
|
}, |
|
"PoliticalManifestoEnv": { |
|
"qwen2.5-3b-instruct": 1.094, |
|
"qwen2.5-7b-instruct": 1.0524666666666664, |
|
"qwen2.5-14b-instruct": 0.8964666666666666, |
|
"qwen2.5-32b-instruct": 0.9097333333333332, |
|
"qwen2.5-72b-instruct": 0.9074666666666668, |
|
"llama-3.1-8b-instruct": 1.1484666666666665, |
|
"llama-3.1-70b-instruct": 0.9022666666666666, |
|
"llama-3.2-3b-instruct": 1.2590666666666668, |
|
"llama-3.3-70b-instruct": 0.9182666666666666, |
|
"mistral-large-instruct-2411": 0.9239333333333335, |
|
"gemma-2-27b-it": 1.1248666666666667, |
|
"gemma-2-9b-it": 1.2280666666666664, |
|
"deepseek-v3": 0.9872, |
|
"deepseek-r1": 0.9032, |
|
"qwq-32b": 0.9002666666666667, |
|
"Average": 1.0103822222222223 |
|
}, |
|
"CoffeeEnv": { |
|
"qwen2.5-3b-instruct": 0.5574857142857143, |
|
"qwen2.5-7b-instruct": 0.5191999999999999, |
|
"qwen2.5-14b-instruct": 0.287847619047619, |
|
"qwen2.5-32b-instruct": 0.3643714285714286, |
|
"qwen2.5-72b-instruct": 0.32374285714285717, |
|
"llama-3.1-8b-instruct": 0.6735904761904761, |
|
"llama-3.1-70b-instruct": 0.4418666666666667, |
|
"llama-3.2-3b-instruct": 0.6586857142857143, |
|
"llama-3.3-70b-instruct": 0.3596190476190476, |
|
"mistral-large-instruct-2411": 0.32551428571428564, |
|
"gemma-2-27b-it": 0.4073619047619047, |
|
"gemma-2-9b-it": 0.5588, |
|
"deepseek-v3": 0.3131333333333334, |
|
"deepseek-r1": 0.2641047619047619, |
|
"qwq-32b": 0.2930095238095238, |
|
"Average": 0.4232222222222221 |
|
}, |
|
"MotifAnalysisEnv": { |
|
"qwen2.5-3b-instruct": 1.5359333333333334, |
|
"qwen2.5-7b-instruct": 1.3934000000000002, |
|
"qwen2.5-14b-instruct": 1.2638, |
|
"qwen2.5-32b-instruct": 1.3157999999999999, |
|
"qwen2.5-72b-instruct": 1.2424, |
|
"llama-3.1-8b-instruct": 1.5532666666666666, |
|
"llama-3.1-70b-instruct": 1.3790666666666664, |
|
"llama-3.2-3b-instruct": 1.6122, |
|
"llama-3.3-70b-instruct": 1.5049333333333332, |
|
"mistral-large-instruct-2411": 1.2954666666666665, |
|
"gemma-2-27b-it": 1.5349999999999997, |
|
"gemma-2-9b-it": 1.5813333333333335, |
|
"deepseek-v3": 1.1815333333333333, |
|
"deepseek-r1": 0.9527999999999999, |
|
"qwq-32b": 1.0904666666666667, |
|
"Average": 1.3624933333333333 |
|
}, |
|
"NutritionEnv": { |
|
"qwen2.5-3b-instruct": 1.1223333333333332, |
|
"qwen2.5-7b-instruct": 1.1436666666666666, |
|
"qwen2.5-14b-instruct": 0.8542666666666667, |
|
"qwen2.5-32b-instruct": 0.8586666666666666, |
|
"qwen2.5-72b-instruct": 0.8068666666666667, |
|
"llama-3.1-8b-instruct": 1.1504666666666665, |
|
"llama-3.1-70b-instruct": 0.7640666666666667, |
|
"llama-3.2-3b-instruct": 1.1206666666666667, |
|
"llama-3.3-70b-instruct": 0.7728, |
|
"mistral-large-instruct-2411": 0.8578666666666667, |
|
"gemma-2-27b-it": 0.9822, |
|
"gemma-2-9b-it": 1.1840000000000002, |
|
"deepseek-v3": 0.8118666666666666, |
|
"deepseek-r1": 0.8373333333333333, |
|
"qwq-32b": 0.8091999999999999, |
|
"Average": 0.9384177777777779 |
|
}, |
|
"MalwareEnv": { |
|
"qwen2.5-3b-instruct": 1.0660666666666665, |
|
"qwen2.5-7b-instruct": 0.9987333333333333, |
|
"qwen2.5-14b-instruct": 0.8055999999999999, |
|
"qwen2.5-32b-instruct": 0.9301333333333333, |
|
"qwen2.5-72b-instruct": 0.8351333333333333, |
|
"llama-3.1-8b-instruct": 1.0980666666666667, |
|
"llama-3.1-70b-instruct": 0.8638666666666666, |
|
"llama-3.2-3b-instruct": 1.1550666666666667, |
|
"llama-3.3-70b-instruct": 0.9002666666666667, |
|
"mistral-large-instruct-2411": 0.8474, |
|
"gemma-2-27b-it": 1.0784666666666667, |
|
"gemma-2-9b-it": 1.1739333333333335, |
|
"deepseek-v3": 0.8863333333333333, |
|
"deepseek-r1": 0.7370666666666666, |
|
"qwq-32b": 0.8452666666666666, |
|
"Average": 0.9480933333333336 |
|
}, |
|
"GeologicalEnv": { |
|
"qwen2.5-3b-instruct": 0.7544666666666666, |
|
"qwen2.5-7b-instruct": 0.6998666666666666, |
|
"qwen2.5-14b-instruct": 0.5382, |
|
"qwen2.5-32b-instruct": 0.6078666666666667, |
|
"qwen2.5-72b-instruct": 0.5856, |
|
"llama-3.1-8b-instruct": 0.8460666666666666, |
|
"llama-3.1-70b-instruct": 0.6026, |
|
"llama-3.2-3b-instruct": 0.7952666666666668, |
|
"llama-3.3-70b-instruct": 0.6526, |
|
"mistral-large-instruct-2411": 0.5856666666666667, |
|
"gemma-2-27b-it": 0.7190666666666667, |
|
"gemma-2-9b-it": 0.8308666666666668, |
|
"deepseek-v3": 0.5351333333333332, |
|
"deepseek-r1": 0.5818, |
|
"qwq-32b": 0.5489999999999999, |
|
"Average": 0.6589377777777776 |
|
}, |
|
"TheatricalEnv": { |
|
"qwen2.5-3b-instruct": 1.0014666666666667, |
|
"qwen2.5-7b-instruct": 0.9438000000000001, |
|
"qwen2.5-14b-instruct": 0.7684666666666666, |
|
"qwen2.5-32b-instruct": 0.7975333333333333, |
|
"qwen2.5-72b-instruct": 0.7806666666666666, |
|
"llama-3.1-8b-instruct": 0.9822666666666666, |
|
"llama-3.1-70b-instruct": 0.6897333333333333, |
|
"llama-3.2-3b-instruct": 1.2334666666666667, |
|
"llama-3.3-70b-instruct": 0.7385333333333334, |
|
"mistral-large-instruct-2411": 0.7150666666666667, |
|
"gemma-2-27b-it": 0.9279999999999999, |
|
"gemma-2-9b-it": 1.0476666666666667, |
|
"deepseek-v3": 0.7080666666666667, |
|
"deepseek-r1": 0.7016000000000001, |
|
"qwq-32b": 0.7614000000000001, |
|
"Average": 0.8531822222222224 |
|
}, |
|
"PrintingTechniqueEnv": { |
|
"qwen2.5-3b-instruct": 0.5242857142857142, |
|
"qwen2.5-7b-instruct": 0.4669809523809524, |
|
"qwen2.5-14b-instruct": 0.2997142857142857, |
|
"qwen2.5-32b-instruct": 0.3549714285714286, |
|
"qwen2.5-72b-instruct": 0.27769523809523805, |
|
"llama-3.1-8b-instruct": 0.5112857142857143, |
|
"llama-3.1-70b-instruct": 0.3614476190476191, |
|
"llama-3.2-3b-instruct": 0.5472571428571429, |
|
"llama-3.3-70b-instruct": 0.3488571428571428, |
|
"mistral-large-instruct-2411": 0.34679999999999994, |
|
"gemma-2-27b-it": 0.4303714285714285, |
|
"gemma-2-9b-it": 0.5662952380952382, |
|
"deepseek-v3": 0.29273333333333335, |
|
"deepseek-r1": 0.31156190476190476, |
|
"qwq-32b": 0.3049809523809524, |
|
"Average": 0.3963492063492063 |
|
}, |
|
"StellarEnv": { |
|
"qwen2.5-3b-instruct": 0.9369333333333332, |
|
"qwen2.5-7b-instruct": 0.7797999999999999, |
|
"qwen2.5-14b-instruct": 0.6935333333333333, |
|
"qwen2.5-32b-instruct": 0.7302666666666666, |
|
"qwen2.5-72b-instruct": 0.6992, |
|
"llama-3.1-8b-instruct": 0.9464666666666665, |
|
"llama-3.1-70b-instruct": 0.7085999999999999, |
|
"llama-3.2-3b-instruct": 0.9724666666666666, |
|
"llama-3.3-70b-instruct": 0.7429999999999999, |
|
"mistral-large-instruct-2411": 0.6746, |
|
"gemma-2-27b-it": 0.8274666666666667, |
|
"gemma-2-9b-it": 0.9978, |
|
"deepseek-v3": 0.6367333333333333, |
|
"deepseek-r1": 0.6487333333333332, |
|
"qwq-32b": 0.7190666666666667, |
|
"Average": 0.7809777777777777 |
|
}, |
|
"SoilEnv": { |
|
"qwen2.5-3b-instruct": 1.2182666666666666, |
|
"qwen2.5-7b-instruct": 1.0028666666666668, |
|
"qwen2.5-14b-instruct": 0.8012666666666665, |
|
"qwen2.5-32b-instruct": 0.8625999999999999, |
|
"qwen2.5-72b-instruct": 0.7968666666666666, |
|
"llama-3.1-8b-instruct": 1.1898, |
|
"llama-3.1-70b-instruct": 0.8916000000000001, |
|
"llama-3.2-3b-instruct": 1.1725333333333334, |
|
"llama-3.3-70b-instruct": 0.9216, |
|
"mistral-large-instruct-2411": 0.8744, |
|
"gemma-2-27b-it": 0.9574666666666667, |
|
"gemma-2-9b-it": 1.1284, |
|
"deepseek-v3": 0.9315333333333333, |
|
"deepseek-r1": 0.8695333333333334, |
|
"qwq-32b": 0.8491333333333333, |
|
"Average": 0.9645244444444445 |
|
}, |
|
"SoftwareEnv": { |
|
"qwen2.5-3b-instruct": 0.7055999999999999, |
|
"qwen2.5-7b-instruct": 0.6421333333333334, |
|
"qwen2.5-14b-instruct": 0.4560666666666666, |
|
"qwen2.5-32b-instruct": 0.484, |
|
"qwen2.5-72b-instruct": 0.4653999999999999, |
|
"llama-3.1-8b-instruct": 0.6588666666666667, |
|
"llama-3.1-70b-instruct": 0.4653333333333333, |
|
"llama-3.2-3b-instruct": 0.7011999999999998, |
|
"llama-3.3-70b-instruct": 0.49446666666666667, |
|
"mistral-large-instruct-2411": 0.46806666666666663, |
|
"gemma-2-27b-it": 0.6290000000000001, |
|
"gemma-2-9b-it": 0.7563333333333333, |
|
"deepseek-v3": 0.46806666666666674, |
|
"deepseek-r1": 0.4063333333333333, |
|
"qwq-32b": 0.4793333333333333, |
|
"Average": 0.5520133333333334 |
|
}, |
|
"CarIdentificationEnv": { |
|
"qwen2.5-3b-instruct": 0.6415809523809524, |
|
"qwen2.5-7b-instruct": 0.7830761904761905, |
|
"qwen2.5-14b-instruct": 0.11047619047619046, |
|
"qwen2.5-32b-instruct": 0.1649142857142857, |
|
"qwen2.5-72b-instruct": 0.11052380952380951, |
|
"llama-3.1-8b-instruct": 0.6149333333333332, |
|
"llama-3.1-70b-instruct": 0.30315238095238095, |
|
"llama-3.2-3b-instruct": 0.8439333333333332, |
|
"llama-3.3-70b-instruct": 0.23700952380952378, |
|
"mistral-large-instruct-2411": 0.2485809523809524, |
|
"gemma-2-27b-it": 0.3316761904761905, |
|
"gemma-2-9b-it": 0.6974666666666666, |
|
"deepseek-v3": 0.18107619047619045, |
|
"deepseek-r1": 0.21692380952380952, |
|
"qwq-32b": 0.25435238095238094, |
|
"Average": 0.38264507936507924 |
|
}, |
|
"PharmaceuticalEnv": { |
|
"qwen2.5-3b-instruct": 0.6446285714285713, |
|
"qwen2.5-7b-instruct": 0.6438761904761904, |
|
"qwen2.5-14b-instruct": 0.46221904761904764, |
|
"qwen2.5-32b-instruct": 0.5071333333333333, |
|
"qwen2.5-72b-instruct": 0.47396190476190475, |
|
"llama-3.1-8b-instruct": 0.7244190476190476, |
|
"llama-3.1-70b-instruct": 0.5232666666666667, |
|
"llama-3.2-3b-instruct": 0.7074666666666667, |
|
"llama-3.3-70b-instruct": 0.5709238095238094, |
|
"mistral-large-instruct-2411": 0.5165238095238095, |
|
"gemma-2-27b-it": 0.639904761904762, |
|
"gemma-2-9b-it": 0.7634666666666667, |
|
"deepseek-v3": 0.5126, |
|
"deepseek-r1": 0.5030857142857144, |
|
"qwq-32b": 0.5336571428571428, |
|
"Average": 0.5818088888888888 |
|
}, |
|
"NetworkEnv": { |
|
"qwen2.5-3b-instruct": 0.9304666666666666, |
|
"qwen2.5-7b-instruct": 0.9181333333333332, |
|
"qwen2.5-14b-instruct": 0.7156, |
|
"qwen2.5-32b-instruct": 0.7281333333333334, |
|
"qwen2.5-72b-instruct": 0.7013333333333333, |
|
"llama-3.1-8b-instruct": 0.9331333333333334, |
|
"llama-3.1-70b-instruct": 0.6774666666666667, |
|
"llama-3.2-3b-instruct": 1.0052666666666665, |
|
"llama-3.3-70b-instruct": 0.6723999999999999, |
|
"mistral-large-instruct-2411": 0.6792666666666667, |
|
"gemma-2-27b-it": 0.8334666666666667, |
|
"gemma-2-9b-it": 0.9756, |
|
"deepseek-v3": 0.6752666666666667, |
|
"deepseek-r1": 0.6507333333333334, |
|
"qwq-32b": 0.7018000000000001, |
|
"Average": 0.7865377777777778 |
|
}, |
|
"BirdNestEnv": { |
|
"qwen2.5-3b-instruct": 0.9391333333333332, |
|
"qwen2.5-7b-instruct": 0.9543333333333333, |
|
"qwen2.5-14b-instruct": 0.8100666666666665, |
|
"qwen2.5-32b-instruct": 0.9158, |
|
"qwen2.5-72b-instruct": 0.8606666666666666, |
|
"llama-3.1-8b-instruct": 0.9903999999999998, |
|
"llama-3.1-70b-instruct": 0.9222666666666666, |
|
"llama-3.2-3b-instruct": 1.026333333333333, |
|
"llama-3.3-70b-instruct": 0.9565999999999999, |
|
"mistral-large-instruct-2411": 0.8474666666666666, |
|
"gemma-2-27b-it": 0.9609333333333334, |
|
"gemma-2-9b-it": 1.0085333333333333, |
|
"deepseek-v3": 0.7617999999999998, |
|
"deepseek-r1": 0.6876, |
|
"qwq-32b": 0.7255999999999999, |
|
"Average": 0.8911688888888886 |
|
}, |
|
"EnergyEnv": { |
|
"qwen2.5-3b-instruct": 1.0884, |
|
"qwen2.5-7b-instruct": 1.0123904761904763, |
|
"qwen2.5-14b-instruct": 0.7312285714285716, |
|
"qwen2.5-32b-instruct": 0.8728190476190475, |
|
"qwen2.5-72b-instruct": 0.8609333333333332, |
|
"llama-3.1-8b-instruct": 1.1586666666666665, |
|
"llama-3.1-70b-instruct": 0.9046, |
|
"llama-3.2-3b-instruct": 1.1040666666666665, |
|
"llama-3.3-70b-instruct": 1.0045904761904763, |
|
"mistral-large-instruct-2411": 0.7872380952380952, |
|
"gemma-2-27b-it": 1.0375904761904762, |
|
"gemma-2-9b-it": 1.1858666666666666, |
|
"deepseek-v3": 0.8143523809523809, |
|
"deepseek-r1": 0.6982476190476191, |
|
"qwq-32b": 0.7441428571428571, |
|
"Average": 0.9336755555555555 |
|
}, |
|
"LanguageEnv": { |
|
"qwen2.5-3b-instruct": 1.1255333333333333, |
|
"qwen2.5-7b-instruct": 1.1768, |
|
"qwen2.5-14b-instruct": 1.0519333333333332, |
|
"qwen2.5-32b-instruct": 0.9997999999999999, |
|
"qwen2.5-72b-instruct": 0.9798000000000002, |
|
"llama-3.1-8b-instruct": 1.1883333333333335, |
|
"llama-3.1-70b-instruct": 1.0505333333333333, |
|
"llama-3.2-3b-instruct": 1.204333333333333, |
|
"llama-3.3-70b-instruct": 1.1250666666666667, |
|
"mistral-large-instruct-2411": 0.9846666666666666, |
|
"gemma-2-27b-it": 1.1916666666666669, |
|
"gemma-2-9b-it": 1.2723333333333335, |
|
"deepseek-v3": 0.9475333333333333, |
|
"deepseek-r1": 0.7798666666666666, |
|
"qwq-32b": 0.8547333333333332, |
|
"Average": 1.0621955555555558 |
|
}, |
|
"AlgorithmEnv": { |
|
"qwen2.5-3b-instruct": 0.9703333333333333, |
|
"qwen2.5-7b-instruct": 0.8614666666666666, |
|
"qwen2.5-14b-instruct": 0.6675333333333334, |
|
"qwen2.5-32b-instruct": 0.7172, |
|
"qwen2.5-72b-instruct": 0.7046666666666666, |
|
"llama-3.1-8b-instruct": 0.8993333333333332, |
|
"llama-3.1-70b-instruct": 0.6912666666666667, |
|
"llama-3.2-3b-instruct": 0.8341333333333333, |
|
"llama-3.3-70b-instruct": 0.7737333333333333, |
|
"mistral-large-instruct-2411": 0.6648000000000001, |
|
"gemma-2-27b-it": 0.9326000000000001, |
|
"gemma-2-9b-it": 1.0570666666666668, |
|
"deepseek-v3": 0.7781333333333332, |
|
"deepseek-r1": 0.6048, |
|
"qwq-32b": 0.656, |
|
"Average": 0.787537777777778 |
|
}, |
|
"MathematicalEnv": { |
|
"qwen2.5-3b-instruct": 0.7803333333333333, |
|
"qwen2.5-7b-instruct": 0.5459333333333333, |
|
"qwen2.5-14b-instruct": 0.4785333333333333, |
|
"qwen2.5-32b-instruct": 0.5025333333333333, |
|
"qwen2.5-72b-instruct": 0.47973333333333334, |
|
"llama-3.1-8b-instruct": 0.7568666666666667, |
|
"llama-3.1-70b-instruct": 0.4238666666666667, |
|
"llama-3.2-3b-instruct": 0.7148666666666668, |
|
"llama-3.3-70b-instruct": 0.4582, |
|
"mistral-large-instruct-2411": 0.4603999999999999, |
|
"gemma-2-27b-it": 0.6693333333333333, |
|
"gemma-2-9b-it": 0.8029999999999999, |
|
"deepseek-v3": 0.44066666666666665, |
|
"deepseek-r1": 0.3256, |
|
"qwq-32b": 0.41286666666666666, |
|
"Average": 0.5501822222222222 |
|
}, |
|
"MusicalEnv": { |
|
"qwen2.5-3b-instruct": 0.7868666666666665, |
|
"qwen2.5-7b-instruct": 0.6212, |
|
"qwen2.5-14b-instruct": 0.4023333333333333, |
|
"qwen2.5-32b-instruct": 0.44286666666666663, |
|
"qwen2.5-72b-instruct": 0.40346666666666664, |
|
"llama-3.1-8b-instruct": 0.6890666666666666, |
|
"llama-3.1-70b-instruct": 0.43373333333333336, |
|
"llama-3.2-3b-instruct": 0.7595333333333332, |
|
"llama-3.3-70b-instruct": 0.3923333333333333, |
|
"mistral-large-instruct-2411": 0.46593333333333337, |
|
"gemma-2-27b-it": 0.6487999999999999, |
|
"gemma-2-9b-it": 0.7524, |
|
"deepseek-v3": 0.47313333333333335, |
|
"deepseek-r1": 0.4392666666666667, |
|
"qwq-32b": 0.4437333333333334, |
|
"Average": 0.5436444444444444 |
|
}, |
|
"InventorEnv": { |
|
"qwen2.5-3b-instruct": 1.1748, |
|
"qwen2.5-7b-instruct": 1.0563999999999998, |
|
"qwen2.5-14b-instruct": 0.7145333333333334, |
|
"qwen2.5-32b-instruct": 0.7015999999999999, |
|
"qwen2.5-72b-instruct": 0.7992666666666667, |
|
"llama-3.1-8b-instruct": 1.1523999999999996, |
|
"llama-3.1-70b-instruct": 0.7999333333333334, |
|
"llama-3.2-3b-instruct": 1.2088, |
|
"llama-3.3-70b-instruct": 0.9067333333333334, |
|
"mistral-large-instruct-2411": 0.6736000000000001, |
|
"gemma-2-27b-it": 0.8846, |
|
"gemma-2-9b-it": 1.2016666666666667, |
|
"deepseek-v3": 0.5913333333333333, |
|
"deepseek-r1": 0.5467333333333333, |
|
"qwq-32b": 0.5757333333333332, |
|
"Average": 0.8658755555555557 |
|
}, |
|
"MedicalEnv": { |
|
"qwen2.5-3b-instruct": 0.6536, |
|
"qwen2.5-7b-instruct": 0.5706761904761904, |
|
"qwen2.5-14b-instruct": 0.49113333333333326, |
|
"qwen2.5-32b-instruct": 0.5525238095238094, |
|
"qwen2.5-72b-instruct": 0.4351047619047619, |
|
"llama-3.1-8b-instruct": 0.675742857142857, |
|
"llama-3.1-70b-instruct": 0.4085142857142857, |
|
"llama-3.2-3b-instruct": 0.6928952380952381, |
|
"llama-3.3-70b-instruct": 0.44421904761904757, |
|
"mistral-large-instruct-2411": 0.3882190476190476, |
|
"gemma-2-27b-it": 0.4850761904761905, |
|
"gemma-2-9b-it": 0.6444000000000001, |
|
"deepseek-v3": 0.42532380952380955, |
|
"deepseek-r1": 0.4207714285714285, |
|
"qwq-32b": 0.5122666666666668, |
|
"Average": 0.5200311111111111 |
|
}, |
|
"MusicEnv": { |
|
"qwen2.5-3b-instruct": 0.8416666666666666, |
|
"qwen2.5-7b-instruct": 1.0005333333333333, |
|
"qwen2.5-14b-instruct": 0.6241333333333333, |
|
"qwen2.5-32b-instruct": 0.6859999999999999, |
|
"qwen2.5-72b-instruct": 0.5986190476190476, |
|
"llama-3.1-8b-instruct": 0.8823619047619047, |
|
"llama-3.1-70b-instruct": 0.620095238095238, |
|
"llama-3.2-3b-instruct": 1.0788857142857142, |
|
"llama-3.3-70b-instruct": 0.6707809523809523, |
|
"mistral-large-instruct-2411": 0.6624857142857142, |
|
"gemma-2-27b-it": 0.7730666666666666, |
|
"gemma-2-9b-it": 0.9248000000000001, |
|
"deepseek-v3": 0.6254857142857142, |
|
"deepseek-r1": 0.6092095238095239, |
|
"qwq-32b": 0.6053809523809524, |
|
"Average": 0.7469003174603175 |
|
}, |
|
"FantasyEnv": { |
|
"qwen2.5-3b-instruct": 0.6738, |
|
"qwen2.5-7b-instruct": 0.6780571428571429, |
|
"qwen2.5-14b-instruct": 0.20936190476190478, |
|
"qwen2.5-32b-instruct": 0.23541904761904764, |
|
"qwen2.5-72b-instruct": 0.3943904761904762, |
|
"llama-3.1-8b-instruct": 0.6281142857142856, |
|
"llama-3.1-70b-instruct": 0.3229714285714286, |
|
"llama-3.2-3b-instruct": 0.7130571428571428, |
|
"llama-3.3-70b-instruct": 0.2710190476190476, |
|
"mistral-large-instruct-2411": 0.1259142857142857, |
|
"gemma-2-27b-it": 0.35649523809523803, |
|
"gemma-2-9b-it": 0.7076952380952382, |
|
"deepseek-v3": 0.056790476190476204, |
|
"deepseek-r1": -0.025180952380952377, |
|
"qwq-32b": 0.03801904761904761, |
|
"Average": 0.35906158730158727 |
|
}, |
|
"EducationEnv": { |
|
"qwen2.5-3b-instruct": 0.9363999999999999, |
|
"qwen2.5-7b-instruct": 0.9230666666666666, |
|
"qwen2.5-14b-instruct": 0.7015333333333333, |
|
"qwen2.5-32b-instruct": 0.6477333333333334, |
|
"qwen2.5-72b-instruct": 0.6232, |
|
"llama-3.1-8b-instruct": 0.9055333333333333, |
|
"llama-3.1-70b-instruct": 0.5771333333333334, |
|
"llama-3.2-3b-instruct": 0.8691333333333334, |
|
"llama-3.3-70b-instruct": 0.6331333333333333, |
|
"mistral-large-instruct-2411": 0.6769333333333332, |
|
"gemma-2-27b-it": 0.7234, |
|
"gemma-2-9b-it": 0.8838666666666667, |
|
"deepseek-v3": 0.7129333333333334, |
|
"deepseek-r1": 0.7282666666666666, |
|
"qwq-32b": 0.7233333333333334, |
|
"Average": 0.7510399999999999 |
|
}, |
|
"ChemicalEnv": { |
|
"qwen2.5-3b-instruct": 1.0222666666666664, |
|
"qwen2.5-7b-instruct": 1.1687333333333334, |
|
"qwen2.5-14b-instruct": 0.8354666666666667, |
|
"qwen2.5-32b-instruct": 0.8561333333333334, |
|
"qwen2.5-72b-instruct": 0.8254666666666667, |
|
"llama-3.1-8b-instruct": 1.1288, |
|
"llama-3.1-70b-instruct": 0.8285333333333333, |
|
"llama-3.2-3b-instruct": 1.1526666666666665, |
|
"llama-3.3-70b-instruct": 0.9390666666666666, |
|
"mistral-large-instruct-2411": 0.8290666666666666, |
|
"gemma-2-27b-it": 0.953533333333333, |
|
"gemma-2-9b-it": 1.1003333333333334, |
|
"deepseek-v3": 0.8336666666666668, |
|
"deepseek-r1": 0.8385333333333334, |
|
"qwq-32b": 0.7902666666666667, |
|
"Average": 0.9401688888888889 |
|
}, |
|
"Average": { |
|
"qwen2.5-3b-instruct": 0.9038483262611976, |
|
"qwen2.5-7b-instruct": 0.867841584158416, |
|
"qwen2.5-14b-instruct": 0.635130598774163, |
|
"qwen2.5-32b-instruct": 0.6698686468646864, |
|
"qwen2.5-72b-instruct": 0.6424673738802452, |
|
"llama-3.1-8b-instruct": 0.9346749174917492, |
|
"llama-3.1-70b-instruct": 0.660992975011787, |
|
"llama-3.2-3b-instruct": 0.9649007072135783, |
|
"llama-3.3-70b-instruct": 0.6869286185761432, |
|
"mistral-large-instruct-2411": 0.6406110796793965, |
|
"gemma-2-27b-it": 0.7896256954266856, |
|
"gemma-2-9b-it": 0.9722245167373881, |
|
"deepseek-v3": 0.6361851013672796, |
|
"deepseek-r1": 0.5821313531353135, |
|
"qwq-32b": 0.6111832626119755 |
|
} |
|
} |