{ "RelicEnv": { "qwen2.5-3b-instruct": 0.576, "qwen2.5-7b-instruct": 0.5228666666666666, "qwen2.5-14b-instruct": 0.3816, "qwen2.5-32b-instruct": 0.4269333333333333, "qwen2.5-72b-instruct": 0.3848666666666667, "llama-3.1-8b-instruct": 0.6459999999999999, "llama-3.1-70b-instruct": 0.41696190476190476, "llama-3.2-3b-instruct": 0.5766095238095238, "llama-3.3-70b-instruct": 0.33466666666666656, "mistral-large-instruct-2411": 0.492, "gemma-2-27b-it": 0.48513333333333336, "gemma-2-9b-it": 0.668695238095238, "deepseek-v3": 0.5289999999999999, "deepseek-r1": 0.523295238095238, "qwq-32b": 0.5080190476190476, "Average": 0.49817650793650786 }, "HerbEnv": { "qwen2.5-3b-instruct": 0.6345333333333334, "qwen2.5-7b-instruct": 0.6564, "qwen2.5-14b-instruct": 0.4304, "qwen2.5-32b-instruct": 0.4564666666666667, "qwen2.5-72b-instruct": 0.43260000000000004, "llama-3.1-8b-instruct": 0.7072, "llama-3.1-70b-instruct": 0.4986, "llama-3.2-3b-instruct": 0.7223333333333333, "llama-3.3-70b-instruct": 0.49833333333333335, "mistral-large-instruct-2411": 0.5494, "gemma-2-27b-it": 0.5511999999999999, "gemma-2-9b-it": 0.7503333333333334, "deepseek-v3": 0.42873333333333336, "deepseek-r1": 0.5064666666666666, "qwq-32b": 0.5062666666666666, "Average": 0.5552844444444445 }, "TransdimensionalEnv": { "qwen2.5-3b-instruct": 0.8419333333333332, "qwen2.5-7b-instruct": 0.7645333333333333, "qwen2.5-14b-instruct": 0.5994666666666667, "qwen2.5-32b-instruct": 0.5703333333333334, "qwen2.5-72b-instruct": 0.5725333333333333, "llama-3.1-8b-instruct": 0.8210666666666666, "llama-3.1-70b-instruct": 0.5205333333333333, "llama-3.2-3b-instruct": 0.7700666666666665, "llama-3.3-70b-instruct": 0.5580666666666667, "mistral-large-instruct-2411": 0.6012666666666666, "gemma-2-27b-it": 0.7089999999999999, "gemma-2-9b-it": 0.9037333333333333, "deepseek-v3": 0.6178, "deepseek-r1": 0.5913999999999999, "qwq-32b": 0.653, "Average": 0.6729822222222223 }, "SorcererEnv": { "qwen2.5-3b-instruct": 1.0192666666666665, "qwen2.5-7b-instruct": 1.0209333333333332, "qwen2.5-14b-instruct": 0.7593333333333334, "qwen2.5-32b-instruct": 0.8110666666666667, "qwen2.5-72b-instruct": 0.7878666666666667, "llama-3.1-8b-instruct": 1.0720666666666667, "llama-3.1-70b-instruct": 0.7602666666666668, "llama-3.2-3b-instruct": 1.0208666666666666, "llama-3.3-70b-instruct": 0.7425333333333334, "mistral-large-instruct-2411": 0.8440666666666667, "gemma-2-27b-it": 0.8615333333333333, "gemma-2-9b-it": 1.1598666666666666, "deepseek-v3": 0.8091333333333333, "deepseek-r1": 0.8958, "qwq-32b": 0.8321999999999999, "Average": 0.89312 }, "QuantumEnv": { "qwen2.5-3b-instruct": 1.0699999999999998, "qwen2.5-7b-instruct": 0.8955333333333334, "qwen2.5-14b-instruct": 0.7378666666666667, "qwen2.5-32b-instruct": 0.7390666666666666, "qwen2.5-72b-instruct": 0.649, "llama-3.1-8b-instruct": 1.083, "llama-3.1-70b-instruct": 0.7020666666666668, "llama-3.2-3b-instruct": 1.0911333333333335, "llama-3.3-70b-instruct": 0.6975333333333333, "mistral-large-instruct-2411": 0.7345333333333333, "gemma-2-27b-it": 0.7445333333333334, "gemma-2-9b-it": 1.1341999999999999, "deepseek-v3": 0.7477333333333334, "deepseek-r1": 0.7415333333333334, "qwq-32b": 0.7549333333333333, "Average": 0.8348444444444444 }, "AstronomyEnv": { "qwen2.5-3b-instruct": 0.8259333333333334, "qwen2.5-7b-instruct": 0.8053333333333335, "qwen2.5-14b-instruct": 0.4937333333333333, "qwen2.5-32b-instruct": 0.5776666666666666, "qwen2.5-72b-instruct": 0.4677999999999999, "llama-3.1-8b-instruct": 0.836, "llama-3.1-70b-instruct": 0.5228, "llama-3.2-3b-instruct": 0.8694000000000001, "llama-3.3-70b-instruct": 0.5525333333333332, "mistral-large-instruct-2411": 0.4943999999999999, "gemma-2-27b-it": 0.6376000000000001, "gemma-2-9b-it": 0.7730666666666668, "deepseek-v3": 0.5540666666666666, "deepseek-r1": 0.4287333333333333, "qwq-32b": 0.4580666666666667, "Average": 0.6198088888888889 }, "MusicGenresEnv": { "qwen2.5-3b-instruct": 0.6298666666666667, "qwen2.5-7b-instruct": 0.5864666666666667, "qwen2.5-14b-instruct": 0.3452, "qwen2.5-32b-instruct": 0.37546666666666667, "qwen2.5-72b-instruct": 0.398, "llama-3.1-8b-instruct": 0.6799999999999999, "llama-3.1-70b-instruct": 0.44333333333333336, "llama-3.2-3b-instruct": 0.8452, "llama-3.3-70b-instruct": 0.49539999999999995, "mistral-large-instruct-2411": 0.3673333333333333, "gemma-2-27b-it": 0.5542666666666667, "gemma-2-9b-it": 0.6927333333333332, "deepseek-v3": 0.3997333333333334, "deepseek-r1": 0.3074, "qwq-32b": 0.30833333333333335, "Average": 0.49524888888888896 }, "CloudEnv": { "qwen2.5-3b-instruct": 0.7101999999999999, "qwen2.5-7b-instruct": 0.6398380952380952, "qwen2.5-14b-instruct": 0.2948095238095238, "qwen2.5-32b-instruct": 0.39837142857142854, "qwen2.5-72b-instruct": 0.3368666666666667, "llama-3.1-8b-instruct": 0.6846857142857142, "llama-3.1-70b-instruct": 0.4453333333333333, "llama-3.2-3b-instruct": 0.7733333333333332, "llama-3.3-70b-instruct": 0.4490380952380952, "mistral-large-instruct-2411": 0.23912380952380952, "gemma-2-27b-it": 0.406047619047619, "gemma-2-9b-it": 0.675342857142857, "deepseek-v3": 0.3188952380952381, "deepseek-r1": 0.16405714285714285, "qwq-32b": 0.20542857142857143, "Average": 0.44942476190476194 }, "CuisineEnv": { "qwen2.5-3b-instruct": 1.0595999999999999, "qwen2.5-7b-instruct": 1.085838095238095, "qwen2.5-14b-instruct": 0.882352380952381, "qwen2.5-32b-instruct": 0.9331333333333334, "qwen2.5-72b-instruct": 0.873, "llama-3.1-8b-instruct": 1.1925238095238095, "llama-3.1-70b-instruct": 0.9360190476190476, "llama-3.2-3b-instruct": 1.2040571428571427, "llama-3.3-70b-instruct": 1.0072571428571429, "mistral-large-instruct-2411": 0.9003428571428571, "gemma-2-27b-it": 1.1492285714285715, "gemma-2-9b-it": 1.2268285714285714, "deepseek-v3": 0.8427809523809524, "deepseek-r1": 0.8026761904761905, "qwq-32b": 0.8055523809523809, "Average": 0.9934126984126983 }, "PlantEnv": { "qwen2.5-3b-instruct": 0.6316666666666666, "qwen2.5-7b-instruct": 0.6612000000000001, "qwen2.5-14b-instruct": 0.6797333333333333, "qwen2.5-32b-instruct": 0.7276666666666667, "qwen2.5-72b-instruct": 0.6846666666666665, "llama-3.1-8b-instruct": 0.7318666666666667, "llama-3.1-70b-instruct": 0.6868666666666666, "llama-3.2-3b-instruct": 0.7314, "llama-3.3-70b-instruct": 0.739, "mistral-large-instruct-2411": 0.6728666666666665, "gemma-2-27b-it": 0.7182666666666666, "gemma-2-9b-it": 0.7471333333333334, "deepseek-v3": 0.6415333333333332, "deepseek-r1": 0.6114666666666666, "qwq-32b": 0.6385333333333333, "Average": 0.6869244444444446 }, "HistoricalEnv": { "qwen2.5-3b-instruct": 0.5945333333333332, "qwen2.5-7b-instruct": 0.5029999999999999, "qwen2.5-14b-instruct": 0.41719999999999996, "qwen2.5-32b-instruct": 0.49926666666666664, "qwen2.5-72b-instruct": 0.4616666666666667, "llama-3.1-8b-instruct": 0.6741999999999999, "llama-3.1-70b-instruct": 0.43866666666666665, "llama-3.2-3b-instruct": 0.6622666666666666, "llama-3.3-70b-instruct": 0.44580000000000003, "mistral-large-instruct-2411": 0.30566666666666664, "gemma-2-27b-it": 0.43679999999999997, "gemma-2-9b-it": 0.6955333333333333, "deepseek-v3": 0.3064, "deepseek-r1": 0.1416, "qwq-32b": 0.19106666666666666, "Average": 0.4515777777777778 }, "GadgetEnv": { "qwen2.5-3b-instruct": 0.7405999999999999, "qwen2.5-7b-instruct": 0.7083999999999999, "qwen2.5-14b-instruct": 0.48, "qwen2.5-32b-instruct": 0.5347999999999999, "qwen2.5-72b-instruct": 0.48633333333333334, "llama-3.1-8b-instruct": 0.7890666666666666, "llama-3.1-70b-instruct": 0.4845999999999999, "llama-3.2-3b-instruct": 0.7646, "llama-3.3-70b-instruct": 0.5077999999999999, "mistral-large-instruct-2411": 0.6042666666666665, "gemma-2-27b-it": 0.6635333333333333, "gemma-2-9b-it": 0.8321333333333332, "deepseek-v3": 0.5766666666666667, "deepseek-r1": 0.6070666666666666, "qwq-32b": 0.6155333333333333, "Average": 0.6263599999999999 }, "TimeTravelEnv": { "qwen2.5-3b-instruct": 0.976, "qwen2.5-7b-instruct": 0.8145999999999999, "qwen2.5-14b-instruct": 0.6627333333333333, "qwen2.5-32b-instruct": 0.6956666666666667, "qwen2.5-72b-instruct": 0.6541333333333333, "llama-3.1-8b-instruct": 0.8264666666666665, "llama-3.1-70b-instruct": 0.6590666666666667, "llama-3.2-3b-instruct": 0.8872666666666665, "llama-3.3-70b-instruct": 0.7066000000000001, "mistral-large-instruct-2411": 0.7033333333333334, "gemma-2-27b-it": 0.8493333333333334, "gemma-2-9b-it": 1.0604666666666667, "deepseek-v3": 0.7296666666666667, "deepseek-r1": 0.6510666666666667, "qwq-32b": 0.6808666666666667, "Average": 0.7704844444444444 }, "PollutionEnv": { "qwen2.5-3b-instruct": 0.8957809523809523, "qwen2.5-7b-instruct": 0.8026, "qwen2.5-14b-instruct": 0.6021904761904762, "qwen2.5-32b-instruct": 0.6871238095238095, "qwen2.5-72b-instruct": 0.6281809523809524, "llama-3.1-8b-instruct": 0.9049904761904761, "llama-3.1-70b-instruct": 0.609295238095238, "llama-3.2-3b-instruct": 0.9090761904761905, "llama-3.3-70b-instruct": 0.615352380952381, "mistral-large-instruct-2411": 0.595695238095238, "gemma-2-27b-it": 0.7770761904761903, "gemma-2-9b-it": 0.8730190476190476, "deepseek-v3": 0.6199238095238095, "deepseek-r1": 0.5457142857142857, "qwq-32b": 0.5781333333333333, "Average": 0.7096101587301588 }, "DemographicEnv": { "qwen2.5-3b-instruct": 1.2349333333333334, "qwen2.5-7b-instruct": 0.9282, "qwen2.5-14b-instruct": 0.8947999999999998, "qwen2.5-32b-instruct": 0.8493999999999999, "qwen2.5-72b-instruct": 0.8458, "llama-3.1-8b-instruct": 1.1641333333333332, "llama-3.1-70b-instruct": 0.8899333333333332, "llama-3.2-3b-instruct": 1.1756666666666669, "llama-3.3-70b-instruct": 0.8181999999999998, "mistral-large-instruct-2411": 0.8889333333333335, "gemma-2-27b-it": 1.1206, "gemma-2-9b-it": 1.2548, "deepseek-v3": 0.937, "deepseek-r1": 0.8470666666666669, "qwq-32b": 0.8959333333333334, "Average": 0.9830266666666666 }, "GeneticEnv": { "qwen2.5-3b-instruct": 0.8742666666666669, "qwen2.5-7b-instruct": 0.7093333333333331, "qwen2.5-14b-instruct": 0.40293333333333337, "qwen2.5-32b-instruct": 0.44313333333333327, "qwen2.5-72b-instruct": 0.42733333333333323, "llama-3.1-8b-instruct": 0.7788666666666665, "llama-3.1-70b-instruct": 0.39159999999999995, "llama-3.2-3b-instruct": 0.8340666666666667, "llama-3.3-70b-instruct": 0.4035333333333334, "mistral-large-instruct-2411": 0.4183333333333333, "gemma-2-27b-it": 0.4676666666666667, "gemma-2-9b-it": 0.8420000000000002, "deepseek-v3": 0.39733333333333337, "deepseek-r1": 0.3223333333333333, "qwq-32b": 0.4328, "Average": 0.5430355555555555 }, "CraftsmanEnv": { "qwen2.5-3b-instruct": 0.8531238095238095, "qwen2.5-7b-instruct": 0.8701333333333332, "qwen2.5-14b-instruct": 0.636152380952381, "qwen2.5-32b-instruct": 0.5899619047619048, "qwen2.5-72b-instruct": 0.6157428571428571, "llama-3.1-8b-instruct": 0.906847619047619, "llama-3.1-70b-instruct": 0.6374285714285713, "llama-3.2-3b-instruct": 0.9079333333333333, "llama-3.3-70b-instruct": 0.7432857142857142, "mistral-large-instruct-2411": 0.5945047619047619, "gemma-2-27b-it": 0.8030285714285714, "gemma-2-9b-it": 0.9558666666666668, "deepseek-v3": 0.6411523809523809, "deepseek-r1": 0.572504761904762, "qwq-32b": 0.5707142857142857, "Average": 0.7265587301587301 }, "StarConstellationEnv": { "qwen2.5-3b-instruct": 0.9018, "qwen2.5-7b-instruct": 0.8849999999999998, "qwen2.5-14b-instruct": 0.6111333333333333, "qwen2.5-32b-instruct": 0.6682, "qwen2.5-72b-instruct": 0.6413333333333333, "llama-3.1-8b-instruct": 0.8276666666666668, "llama-3.1-70b-instruct": 0.6845333333333333, "llama-3.2-3b-instruct": 0.8996666666666666, "llama-3.3-70b-instruct": 0.7238666666666665, "mistral-large-instruct-2411": 0.6063333333333333, "gemma-2-27b-it": 0.6717333333333333, "gemma-2-9b-it": 0.8695999999999999, "deepseek-v3": 0.55, "deepseek-r1": 0.4897333333333334, "qwq-32b": 0.5618000000000001, "Average": 0.7061600000000001 }, "MythicalCreatureEnv": { "qwen2.5-3b-instruct": 0.9463333333333332, "qwen2.5-7b-instruct": 1.0008666666666666, "qwen2.5-14b-instruct": 0.8189999999999997, "qwen2.5-32b-instruct": 0.7707333333333333, "qwen2.5-72b-instruct": 0.8385333333333334, "llama-3.1-8b-instruct": 1.0950666666666666, "llama-3.1-70b-instruct": 0.7916, "llama-3.2-3b-instruct": 1.1887333333333332, "llama-3.3-70b-instruct": 0.7888666666666666, "mistral-large-instruct-2411": 0.7903999999999999, "gemma-2-27b-it": 0.9704666666666666, "gemma-2-9b-it": 1.1304666666666665, "deepseek-v3": 0.7574, "deepseek-r1": 0.7734, "qwq-32b": 0.7396, "Average": 0.8934311111111112 }, "ArtStyleEnv": { "qwen2.5-3b-instruct": 0.9593238095238095, "qwen2.5-7b-instruct": 0.8611714285714285, "qwen2.5-14b-instruct": 0.6572000000000001, "qwen2.5-32b-instruct": 0.6888190476190477, "qwen2.5-72b-instruct": 0.6664380952380953, "llama-3.1-8b-instruct": 0.9826952380952381, "llama-3.1-70b-instruct": 0.6773714285714286, "llama-3.2-3b-instruct": 1.0108000000000001, "llama-3.3-70b-instruct": 0.7458571428571428, "mistral-large-instruct-2411": 0.627504761904762, "gemma-2-27b-it": 0.8328380952380952, "gemma-2-9b-it": 1.0002666666666666, "deepseek-v3": 0.723047619047619, "deepseek-r1": 0.666, "qwq-32b": 0.6872952380952381, "Average": 0.7857752380952383 }, "CookingEnv": { "qwen2.5-3b-instruct": 0.9731333333333332, "qwen2.5-7b-instruct": 0.8531999999999998, "qwen2.5-14b-instruct": 0.6777333333333333, "qwen2.5-32b-instruct": 0.6949333333333334, "qwen2.5-72b-instruct": 0.6868666666666666, "llama-3.1-8b-instruct": 0.9575333333333333, "llama-3.1-70b-instruct": 0.6741333333333334, "llama-3.2-3b-instruct": 0.9920666666666665, "llama-3.3-70b-instruct": 0.7073999999999999, "mistral-large-instruct-2411": 0.6852, "gemma-2-27b-it": 0.8009999999999998, "gemma-2-9b-it": 0.9400666666666666, "deepseek-v3": 0.6910000000000001, "deepseek-r1": 0.6202666666666665, "qwq-32b": 0.5726666666666667, "Average": 0.7684799999999999 }, "HistoricalBattleEnv": { "qwen2.5-3b-instruct": 0.3906380952380952, "qwen2.5-7b-instruct": 0.39269523809523804, "qwen2.5-14b-instruct": 0.36508571428571424, "qwen2.5-32b-instruct": 0.3839047619047619, "qwen2.5-72b-instruct": 0.37189523809523806, "llama-3.1-8b-instruct": 0.5100190476190476, "llama-3.1-70b-instruct": 0.3623142857142857, "llama-3.2-3b-instruct": 0.5539428571428571, "llama-3.3-70b-instruct": 0.3407428571428571, "mistral-large-instruct-2411": 0.26249523809523806, "gemma-2-27b-it": 0.3749619047619047, "gemma-2-9b-it": 0.4291904761904761, "deepseek-v3": 0.2707428571428572, "deepseek-r1": 0.12205714285714286, "qwq-32b": 0.1069238095238095, "Average": 0.34917396825396824 }, "FungalEnv": { "qwen2.5-3b-instruct": 0.9867619047619047, "qwen2.5-7b-instruct": 0.7690285714285714, "qwen2.5-14b-instruct": 0.5497523809523809, "qwen2.5-32b-instruct": 0.5654571428571428, "qwen2.5-72b-instruct": 0.5338571428571429, "llama-3.1-8b-instruct": 0.9299904761904761, "llama-3.1-70b-instruct": 0.6940095238095237, "llama-3.2-3b-instruct": 1.0453999999999999, "llama-3.3-70b-instruct": 0.6804285714285714, "mistral-large-instruct-2411": 0.5070380952380952, "gemma-2-27b-it": 0.6260571428571428, "gemma-2-9b-it": 1.0525142857142857, "deepseek-v3": 0.4512380952380953, "deepseek-r1": 0.41535238095238086, "qwq-32b": 0.4612952380952381, "Average": 0.6845453968253967 }, "CryptographyEnv": { "qwen2.5-3b-instruct": 0.7157333333333333, "qwen2.5-7b-instruct": 0.7917428571428571, "qwen2.5-14b-instruct": 0.5772095238095238, "qwen2.5-32b-instruct": 0.5362666666666666, "qwen2.5-72b-instruct": 0.5816380952380952, "llama-3.1-8b-instruct": 0.7762666666666667, "llama-3.1-70b-instruct": 0.5880761904761905, "llama-3.2-3b-instruct": 0.9222476190476192, "llama-3.3-70b-instruct": 0.6200666666666668, "mistral-large-instruct-2411": 0.43243809523809523, "gemma-2-27b-it": 0.6965333333333332, "gemma-2-9b-it": 0.9170952380952381, "deepseek-v3": 0.4242190476190476, "deepseek-r1": 0.31665714285714286, "qwq-32b": 0.3307142857142857, "Average": 0.6151269841269841 }, "StorageEnv": { "qwen2.5-3b-instruct": 0.5999999999999999, "qwen2.5-7b-instruct": 0.5174666666666666, "qwen2.5-14b-instruct": 0.26799999999999996, "qwen2.5-32b-instruct": 0.3171333333333333, "qwen2.5-72b-instruct": 0.30706666666666665, "llama-3.1-8b-instruct": 0.6547333333333333, "llama-3.1-70b-instruct": 0.3390666666666667, "llama-3.2-3b-instruct": 0.6575333333333333, "llama-3.3-70b-instruct": 0.2899333333333334, "mistral-large-instruct-2411": 0.28440000000000004, "gemma-2-27b-it": 0.4133333333333333, "gemma-2-9b-it": 0.5988666666666667, "deepseek-v3": 0.34040000000000004, "deepseek-r1": 0.3333333333333333, "qwq-32b": 0.33946666666666664, "Average": 0.41738222222222215 }, "RoverEnv": { "qwen2.5-3b-instruct": 0.9546666666666667, "qwen2.5-7b-instruct": 1.0193333333333334, "qwen2.5-14b-instruct": 0.5934, "qwen2.5-32b-instruct": 0.6414, "qwen2.5-72b-instruct": 0.5923999999999999, "llama-3.1-8b-instruct": 0.9858666666666667, "llama-3.1-70b-instruct": 0.7111333333333333, "llama-3.2-3b-instruct": 1.0410666666666666, "llama-3.3-70b-instruct": 0.6332666666666666, "mistral-large-instruct-2411": 0.7143999999999999, "gemma-2-27b-it": 0.7877333333333333, "gemma-2-9b-it": 1.0685333333333333, "deepseek-v3": 0.7905333333333333, "deepseek-r1": 0.7494, "qwq-32b": 0.7479333333333333, "Average": 0.8020711111111112 }, "FashionEnv": { "qwen2.5-3b-instruct": 1.0357333333333334, "qwen2.5-7b-instruct": 1.081152380952381, "qwen2.5-14b-instruct": 0.7285238095238096, "qwen2.5-32b-instruct": 0.7431523809523809, "qwen2.5-72b-instruct": 0.7598666666666667, "llama-3.1-8b-instruct": 1.0961333333333332, "llama-3.1-70b-instruct": 0.8041333333333333, "llama-3.2-3b-instruct": 1.1326571428571426, "llama-3.3-70b-instruct": 0.8184666666666667, "mistral-large-instruct-2411": 0.8105238095238094, "gemma-2-27b-it": 0.9382190476190475, "gemma-2-9b-it": 1.0972, "deepseek-v3": 0.8063809523809524, "deepseek-r1": 0.7738476190476191, "qwq-32b": 0.8007333333333335, "Average": 0.8951149206349207 }, "LicenseEnv": { "qwen2.5-3b-instruct": 0.7847999999999999, "qwen2.5-7b-instruct": 0.8215333333333333, "qwen2.5-14b-instruct": 0.6174666666666666, "qwen2.5-32b-instruct": 0.7098666666666666, "qwen2.5-72b-instruct": 0.7198666666666667, "llama-3.1-8b-instruct": 0.8523333333333334, "llama-3.1-70b-instruct": 0.6513333333333332, "llama-3.2-3b-instruct": 0.9648666666666668, "llama-3.3-70b-instruct": 0.6662000000000001, "mistral-large-instruct-2411": 0.6437333333333333, "gemma-2-27b-it": 0.7512666666666666, "gemma-2-9b-it": 0.8070666666666666, "deepseek-v3": 0.6174666666666666, "deepseek-r1": 0.5982666666666666, "qwq-32b": 0.6115999999999999, "Average": 0.7211777777777777 }, "VirusClassificationEnv": { "qwen2.5-3b-instruct": 0.5887238095238095, "qwen2.5-7b-instruct": 0.6255999999999999, "qwen2.5-14b-instruct": 0.43513333333333326, "qwen2.5-32b-instruct": 0.4164, "qwen2.5-72b-instruct": 0.39893333333333336, "llama-3.1-8b-instruct": 0.6247333333333334, "llama-3.1-70b-instruct": 0.5219333333333334, "llama-3.2-3b-instruct": 0.6386095238095237, "llama-3.3-70b-instruct": 0.4547333333333333, "mistral-large-instruct-2411": 0.3114571428571429, "gemma-2-27b-it": 0.48719999999999997, "gemma-2-9b-it": 0.6325809523809524, "deepseek-v3": 0.30473333333333336, "deepseek-r1": 0.2137142857142857, "qwq-32b": 0.22217142857142855, "Average": 0.45844380952380953 }, "TestingEnv": { "qwen2.5-3b-instruct": 0.5297333333333333, "qwen2.5-7b-instruct": 0.5164666666666667, "qwen2.5-14b-instruct": 0.4224666666666666, "qwen2.5-32b-instruct": 0.4540666666666667, "qwen2.5-72b-instruct": 0.39493333333333325, "llama-3.1-8b-instruct": 0.5270666666666667, "llama-3.1-70b-instruct": 0.3365333333333333, "llama-3.2-3b-instruct": 0.5638666666666666, "llama-3.3-70b-instruct": 0.39473333333333327, "mistral-large-instruct-2411": 0.3972, "gemma-2-27b-it": 0.5658, "gemma-2-9b-it": 0.6542, "deepseek-v3": 0.37939999999999996, "deepseek-r1": 0.25579999999999997, "qwq-32b": 0.3352, "Average": 0.44849777777777783 }, "NarrativeDetectEnv": { "qwen2.5-3b-instruct": 1.0932666666666666, "qwen2.5-7b-instruct": 0.9698666666666667, "qwen2.5-14b-instruct": 0.8831333333333333, "qwen2.5-32b-instruct": 0.7640666666666666, "qwen2.5-72b-instruct": 0.8158000000000001, "llama-3.1-8b-instruct": 1.0600666666666667, "llama-3.1-70b-instruct": 0.8113999999999999, "llama-3.2-3b-instruct": 1.2458666666666667, "llama-3.3-70b-instruct": 0.8439333333333334, "mistral-large-instruct-2411": 0.8011333333333333, "gemma-2-27b-it": 1.0462666666666665, "gemma-2-9b-it": 1.0814666666666668, "deepseek-v3": 0.9039333333333334, "deepseek-r1": 0.82, "qwq-32b": 0.8263999999999999, "Average": 0.9311066666666665 }, "RenewableEnergyEnv": { "qwen2.5-3b-instruct": 1.2372, "qwen2.5-7b-instruct": 1.209, "qwen2.5-14b-instruct": 1.018, "qwen2.5-32b-instruct": 0.8681999999999999, "qwen2.5-72b-instruct": 0.8295333333333333, "llama-3.1-8b-instruct": 1.3595333333333333, "llama-3.1-70b-instruct": 0.8166666666666667, "llama-3.2-3b-instruct": 1.2722666666666664, "llama-3.3-70b-instruct": 0.9336000000000002, "mistral-large-instruct-2411": 0.8966666666666667, "gemma-2-27b-it": 1.2019333333333333, "gemma-2-9b-it": 1.3341999999999998, "deepseek-v3": 0.898, "deepseek-r1": 0.8659333333333334, "qwq-32b": 0.9053333333333334, "Average": 1.043071111111111 }, "CelestialEnv": { "qwen2.5-3b-instruct": 0.8438666666666667, "qwen2.5-7b-instruct": 0.8887999999999998, "qwen2.5-14b-instruct": 0.6514, "qwen2.5-32b-instruct": 0.6459333333333334, "qwen2.5-72b-instruct": 0.6326666666666666, "llama-3.1-8b-instruct": 0.9612666666666666, "llama-3.1-70b-instruct": 0.6192, "llama-3.2-3b-instruct": 0.8965333333333334, "llama-3.3-70b-instruct": 0.6164, "mistral-large-instruct-2411": 0.6203333333333334, "gemma-2-27b-it": 0.7378, "gemma-2-9b-it": 0.9489333333333333, "deepseek-v3": 0.6561999999999999, "deepseek-r1": 0.5421333333333334, "qwq-32b": 0.5784666666666667, "Average": 0.7226622222222223 }, "SpiceEnv": { "qwen2.5-3b-instruct": 0.6036476190476192, "qwen2.5-7b-instruct": 0.6609809523809524, "qwen2.5-14b-instruct": 0.40272380952380954, "qwen2.5-32b-instruct": 0.5753809523809524, "qwen2.5-72b-instruct": 0.46193333333333336, "llama-3.1-8b-instruct": 0.6512666666666667, "llama-3.1-70b-instruct": 0.5352666666666666, "llama-3.2-3b-instruct": 0.6274, "llama-3.3-70b-instruct": 0.594, "mistral-large-instruct-2411": 0.45503809523809513, "gemma-2-27b-it": 0.6168666666666667, "gemma-2-9b-it": 0.7341333333333334, "deepseek-v3": 0.31380952380952376, "deepseek-r1": 0.36774285714285704, "qwq-32b": 0.37498095238095236, "Average": 0.5316780952380953 }, "WildlifeEnv": { "qwen2.5-3b-instruct": 0.7888, "qwen2.5-7b-instruct": 0.7621333333333333, "qwen2.5-14b-instruct": 0.6147999999999999, "qwen2.5-32b-instruct": 0.7297333333333332, "qwen2.5-72b-instruct": 0.6115999999999999, "llama-3.1-8b-instruct": 0.8686666666666666, "llama-3.1-70b-instruct": 0.6302, "llama-3.2-3b-instruct": 0.7972666666666667, "llama-3.3-70b-instruct": 0.6359999999999999, "mistral-large-instruct-2411": 0.6615333333333333, "gemma-2-27b-it": 0.7294666666666667, "gemma-2-9b-it": 0.8138666666666665, "deepseek-v3": 0.6534000000000001, "deepseek-r1": 0.7072666666666667, "qwq-32b": 0.7271333333333333, "Average": 0.7154577777777777 }, "VehicleEnv": { "qwen2.5-3b-instruct": 0.9630666666666666, "qwen2.5-7b-instruct": 0.9056000000000001, "qwen2.5-14b-instruct": 0.7067333333333332, "qwen2.5-32b-instruct": 0.5080666666666666, "qwen2.5-72b-instruct": 0.4952666666666666, "llama-3.1-8b-instruct": 1.0144666666666668, "llama-3.1-70b-instruct": 0.6701333333333334, "llama-3.2-3b-instruct": 1.0123333333333333, "llama-3.3-70b-instruct": 0.6127333333333332, "mistral-large-instruct-2411": 0.37593333333333334, "gemma-2-27b-it": 0.7358666666666668, "gemma-2-9b-it": 1.0004666666666666, "deepseek-v3": 0.38853333333333334, "deepseek-r1": 0.30946666666666667, "qwq-32b": 0.3487333333333333, "Average": 0.6698266666666667 }, "BeverageEnv": { "qwen2.5-3b-instruct": 1.1309999999999998, "qwen2.5-7b-instruct": 1.0566666666666666, "qwen2.5-14b-instruct": 0.7231333333333334, "qwen2.5-32b-instruct": 0.8653333333333334, "qwen2.5-72b-instruct": 0.8098666666666666, "llama-3.1-8b-instruct": 1.0646666666666664, "llama-3.1-70b-instruct": 0.7819333333333334, "llama-3.2-3b-instruct": 1.0867999999999998, "llama-3.3-70b-instruct": 0.8621333333333332, "mistral-large-instruct-2411": 0.8074666666666666, "gemma-2-27b-it": 0.9830666666666668, "gemma-2-9b-it": 1.0837999999999999, "deepseek-v3": 0.7968, "deepseek-r1": 0.7807333333333334, "qwq-32b": 0.7677333333333334, "Average": 0.9067422222222222 }, "ControlEnv": { "qwen2.5-3b-instruct": 1.2409333333333332, "qwen2.5-7b-instruct": 1.1129999999999998, "qwen2.5-14b-instruct": 0.9396000000000001, "qwen2.5-32b-instruct": 0.9234, "qwen2.5-72b-instruct": 0.8239333333333333, "llama-3.1-8b-instruct": 1.1922666666666668, "llama-3.1-70b-instruct": 0.8639999999999999, "llama-3.2-3b-instruct": 1.1910666666666665, "llama-3.3-70b-instruct": 0.9382666666666666, "mistral-large-instruct-2411": 0.9432666666666666, "gemma-2-27b-it": 1.0350666666666668, "gemma-2-9b-it": 1.3362, "deepseek-v3": 0.8779333333333333, "deepseek-r1": 0.8366666666666667, "qwq-32b": 0.8624666666666666, "Average": 1.007871111111111 }, "CurrencyEnv": { "qwen2.5-3b-instruct": 1.1619999999999997, "qwen2.5-7b-instruct": 1.1104666666666667, "qwen2.5-14b-instruct": 1.0066666666666666, "qwen2.5-32b-instruct": 0.9369333333333332, "qwen2.5-72b-instruct": 0.9753999999999999, "llama-3.1-8b-instruct": 1.2676666666666667, "llama-3.1-70b-instruct": 0.8947999999999998, "llama-3.2-3b-instruct": 1.261, "llama-3.3-70b-instruct": 0.9674666666666665, "mistral-large-instruct-2411": 0.8869999999999998, "gemma-2-27b-it": 1.0257333333333334, "gemma-2-9b-it": 1.3512, "deepseek-v3": 0.9630666666666666, "deepseek-r1": 0.8782666666666665, "qwq-32b": 0.9007999999999999, "Average": 1.0392311111111112 }, "MarketingEnv": { "qwen2.5-3b-instruct": 0.7427333333333332, "qwen2.5-7b-instruct": 0.6565333333333332, "qwen2.5-14b-instruct": 0.6416000000000001, "qwen2.5-32b-instruct": 0.5615333333333333, "qwen2.5-72b-instruct": 0.5475333333333334, "llama-3.1-8b-instruct": 0.7419999999999999, "llama-3.1-70b-instruct": 0.5211333333333333, "llama-3.2-3b-instruct": 0.7737333333333333, "llama-3.3-70b-instruct": 0.5229999999999999, "mistral-large-instruct-2411": 0.5469999999999999, "gemma-2-27b-it": 0.7222000000000001, "gemma-2-9b-it": 0.8039333333333334, "deepseek-v3": 0.6286666666666666, "deepseek-r1": 0.5670666666666666, "qwq-32b": 0.5600666666666666, "Average": 0.6359155555555555 }, "BotanicalEnv": { "qwen2.5-3b-instruct": 1.3478666666666668, "qwen2.5-7b-instruct": 1.3568, "qwen2.5-14b-instruct": 0.7390000000000001, "qwen2.5-32b-instruct": 0.9401333333333334, "qwen2.5-72b-instruct": 0.8344666666666665, "llama-3.1-8b-instruct": 1.3095999999999999, "llama-3.1-70b-instruct": 0.8597999999999999, "llama-3.2-3b-instruct": 1.2815999999999999, "llama-3.3-70b-instruct": 0.9140666666666665, "mistral-large-instruct-2411": 0.8783333333333333, "gemma-2-27b-it": 1.0331333333333332, "gemma-2-9b-it": 1.4613999999999998, "deepseek-v3": 0.8467333333333332, "deepseek-r1": 0.6417333333333334, "qwq-32b": 0.6957333333333333, "Average": 1.00936 }, "CircusActEnv": { "qwen2.5-3b-instruct": 0.966, "qwen2.5-7b-instruct": 0.8732666666666665, "qwen2.5-14b-instruct": 0.7160666666666667, "qwen2.5-32b-instruct": 0.6424000000000001, "qwen2.5-72b-instruct": 0.6185333333333333, "llama-3.1-8b-instruct": 1.0588000000000002, "llama-3.1-70b-instruct": 0.6578, "llama-3.2-3b-instruct": 1.0192666666666663, "llama-3.3-70b-instruct": 0.6707333333333333, "mistral-large-instruct-2411": 0.5906, "gemma-2-27b-it": 0.8663333333333334, "gemma-2-9b-it": 0.9901333333333333, "deepseek-v3": 0.6095333333333334, "deepseek-r1": 0.5542666666666667, "qwq-32b": 0.612, "Average": 0.7630488888888889 }, "AudioDialectEnv": { "qwen2.5-3b-instruct": 1.1560666666666666, "qwen2.5-7b-instruct": 1.1981333333333333, "qwen2.5-14b-instruct": 0.9919333333333332, "qwen2.5-32b-instruct": 0.9843999999999999, "qwen2.5-72b-instruct": 1.0026, "llama-3.1-8b-instruct": 1.1826, "llama-3.1-70b-instruct": 1.049, "llama-3.2-3b-instruct": 1.2086666666666668, "llama-3.3-70b-instruct": 1.1178666666666666, "mistral-large-instruct-2411": 0.9938666666666667, "gemma-2-27b-it": 1.1272666666666669, "gemma-2-9b-it": 1.255666666666667, "deepseek-v3": 0.9454666666666667, "deepseek-r1": 0.8542666666666667, "qwq-32b": 0.9452, "Average": 1.0675333333333334 }, "LeadershipEnv": { "qwen2.5-3b-instruct": 1.1378, "qwen2.5-7b-instruct": 1.1529333333333334, "qwen2.5-14b-instruct": 0.9892285714285715, "qwen2.5-32b-instruct": 1.036095238095238, "qwen2.5-72b-instruct": 0.9751333333333333, "llama-3.1-8b-instruct": 1.2512571428571426, "llama-3.1-70b-instruct": 0.9471428571428572, "llama-3.2-3b-instruct": 1.450133333333333, "llama-3.3-70b-instruct": 1.0285999999999997, "mistral-large-instruct-2411": 0.9162380952380952, "gemma-2-27b-it": 1.2164380952380953, "gemma-2-9b-it": 1.3166761904761903, "deepseek-v3": 0.9108571428571428, "deepseek-r1": 0.9028190476190476, "qwq-32b": 0.8550952380952381, "Average": 1.0724298412698412 }, "TransportEnv": { "qwen2.5-3b-instruct": 0.7256761904761905, "qwen2.5-7b-instruct": 0.6674, "qwen2.5-14b-instruct": 0.425752380952381, "qwen2.5-32b-instruct": 0.5705047619047618, "qwen2.5-72b-instruct": 0.4020666666666667, "llama-3.1-8b-instruct": 0.7760380952380952, "llama-3.1-70b-instruct": 0.5022666666666666, "llama-3.2-3b-instruct": 0.8045333333333333, "llama-3.3-70b-instruct": 0.5512285714285714, "mistral-large-instruct-2411": 0.4226571428571429, "gemma-2-27b-it": 0.6612190476190476, "gemma-2-9b-it": 0.7567999999999999, "deepseek-v3": 0.4245333333333333, "deepseek-r1": 0.35583809523809523, "qwq-32b": 0.42556190476190475, "Average": 0.5648050793650794 }, "EcologicalEnv": { "qwen2.5-3b-instruct": 0.5565333333333333, "qwen2.5-7b-instruct": 0.3861333333333333, "qwen2.5-14b-instruct": 0.23986666666666662, "qwen2.5-32b-instruct": 0.2175333333333333, "qwen2.5-72b-instruct": 0.2650666666666667, "llama-3.1-8b-instruct": 0.5481333333333334, "llama-3.1-70b-instruct": 0.27026666666666666, "llama-3.2-3b-instruct": 0.5608666666666666, "llama-3.3-70b-instruct": 0.34073333333333333, "mistral-large-instruct-2411": 0.18666666666666668, "gemma-2-27b-it": 0.3159333333333333, "gemma-2-9b-it": 0.49386666666666673, "deepseek-v3": 0.25439999999999996, "deepseek-r1": 0.13513333333333333, "qwq-32b": 0.1812, "Average": 0.3301555555555555 }, "MythicEnv": { "qwen2.5-3b-instruct": 1.1101999999999999, "qwen2.5-7b-instruct": 0.9876000000000001, "qwen2.5-14b-instruct": 0.7183999999999999, "qwen2.5-32b-instruct": 0.8451333333333334, "qwen2.5-72b-instruct": 0.7776666666666666, "llama-3.1-8b-instruct": 1.1285333333333334, "llama-3.1-70b-instruct": 0.8145999999999999, "llama-3.2-3b-instruct": 1.2702, "llama-3.3-70b-instruct": 0.8547333333333332, "mistral-large-instruct-2411": 0.7791333333333332, "gemma-2-27b-it": 0.9578666666666666, "gemma-2-9b-it": 1.1880000000000002, "deepseek-v3": 0.7562, "deepseek-r1": 0.628, "qwq-32b": 0.7259333333333334, "Average": 0.9028133333333334 }, "EnzymeEnv": { "qwen2.5-3b-instruct": 0.5272666666666666, "qwen2.5-7b-instruct": 0.5749999999999998, "qwen2.5-14b-instruct": 0.45233333333333325, "qwen2.5-32b-instruct": 0.44746666666666657, "qwen2.5-72b-instruct": 0.4640666666666666, "llama-3.1-8b-instruct": 0.6982666666666667, "llama-3.1-70b-instruct": 0.4665333333333333, "llama-3.2-3b-instruct": 0.7106666666666666, "llama-3.3-70b-instruct": 0.4798, "mistral-large-instruct-2411": 0.425, "gemma-2-27b-it": 0.5391999999999999, "gemma-2-9b-it": 0.6941333333333333, "deepseek-v3": 0.37926666666666664, "deepseek-r1": 0.38086666666666663, "qwq-32b": 0.4045333333333333, "Average": 0.5096266666666667 }, "OSKernelEnv": { "qwen2.5-3b-instruct": 1.1656, "qwen2.5-7b-instruct": 1.3032, "qwen2.5-14b-instruct": 0.8570666666666666, "qwen2.5-32b-instruct": 0.8768666666666667, "qwen2.5-72b-instruct": 0.8728, "llama-3.1-8b-instruct": 1.184, "llama-3.1-70b-instruct": 0.8322666666666667, "llama-3.2-3b-instruct": 1.3510000000000002, "llama-3.3-70b-instruct": 0.8083333333333333, "mistral-large-instruct-2411": 0.8513333333333332, "gemma-2-27b-it": 1.0258666666666667, "gemma-2-9b-it": 1.3057333333333332, "deepseek-v3": 0.8445333333333332, "deepseek-r1": 0.7511333333333332, "qwq-32b": 0.8475333333333334, "Average": 0.9918177777777777 }, "MineralClassificationEnv": { "qwen2.5-3b-instruct": 1.0583333333333333, "qwen2.5-7b-instruct": 1.0704666666666667, "qwen2.5-14b-instruct": 0.7609999999999999, "qwen2.5-32b-instruct": 0.7188666666666668, "qwen2.5-72b-instruct": 0.6955333333333333, "llama-3.1-8b-instruct": 1.1152000000000002, "llama-3.1-70b-instruct": 0.6619333333333334, "llama-3.2-3b-instruct": 1.1165333333333334, "llama-3.3-70b-instruct": 0.6672666666666666, "mistral-large-instruct-2411": 0.7607333333333333, "gemma-2-27b-it": 0.9294, "gemma-2-9b-it": 1.2250666666666667, "deepseek-v3": 0.8092, "deepseek-r1": 0.7899999999999999, "qwq-32b": 0.7879333333333334, "Average": 0.8778311111111109 }, "EconomicEnv": { "qwen2.5-3b-instruct": 1.1286, "qwen2.5-7b-instruct": 1.16, "qwen2.5-14b-instruct": 0.8704666666666666, "qwen2.5-32b-instruct": 0.8274666666666667, "qwen2.5-72b-instruct": 0.7895333333333333, "llama-3.1-8b-instruct": 1.1526666666666667, "llama-3.1-70b-instruct": 0.7768, "llama-3.2-3b-instruct": 1.1796666666666666, "llama-3.3-70b-instruct": 0.8427333333333333, "mistral-large-instruct-2411": 0.8880666666666667, "gemma-2-27b-it": 1.0978666666666665, "gemma-2-9b-it": 1.4352000000000003, "deepseek-v3": 0.9310666666666668, "deepseek-r1": 0.8318000000000001, "qwq-32b": 0.8415333333333332, "Average": 0.9835644444444444 }, "DetectiveEnv": { "qwen2.5-3b-instruct": 0.9592666666666666, "qwen2.5-7b-instruct": 0.8579333333333332, "qwen2.5-14b-instruct": 0.5528666666666666, "qwen2.5-32b-instruct": 0.6906666666666667, "qwen2.5-72b-instruct": 0.6596, "llama-3.1-8b-instruct": 1.0208666666666666, "llama-3.1-70b-instruct": 0.7068, "llama-3.2-3b-instruct": 1.0127333333333335, "llama-3.3-70b-instruct": 0.7222666666666665, "mistral-large-instruct-2411": 0.6398666666666667, "gemma-2-27b-it": 1.0352000000000001, "gemma-2-9b-it": 1.2517999999999998, "deepseek-v3": 0.6811999999999999, "deepseek-r1": 0.6839333333333333, "qwq-32b": 0.6996, "Average": 0.81164 }, "ChessEnv": { "qwen2.5-3b-instruct": 0.9558666666666668, "qwen2.5-7b-instruct": 1.0245333333333335, "qwen2.5-14b-instruct": 0.8131333333333333, "qwen2.5-32b-instruct": 0.8892, "qwen2.5-72b-instruct": 0.8331999999999999, "llama-3.1-8b-instruct": 1.1225333333333334, "llama-3.1-70b-instruct": 0.7468666666666667, "llama-3.2-3b-instruct": 1.1218, "llama-3.3-70b-instruct": 0.8098666666666666, "mistral-large-instruct-2411": 0.7781333333333335, "gemma-2-27b-it": 1.01, "gemma-2-9b-it": 1.2222666666666666, "deepseek-v3": 0.7901333333333332, "deepseek-r1": 0.7748, "qwq-32b": 0.8231333333333334, "Average": 0.9143644444444444 }, "MythicalEnv": { "qwen2.5-3b-instruct": 0.9932000000000001, "qwen2.5-7b-instruct": 1.0899333333333334, "qwen2.5-14b-instruct": 0.7302, "qwen2.5-32b-instruct": 0.8645999999999999, "qwen2.5-72b-instruct": 0.8496666666666666, "llama-3.1-8b-instruct": 1.0838, "llama-3.1-70b-instruct": 0.8592000000000001, "llama-3.2-3b-instruct": 1.0404666666666667, "llama-3.3-70b-instruct": 0.8421333333333333, "mistral-large-instruct-2411": 0.8762666666666666, "gemma-2-27b-it": 0.8621333333333334, "gemma-2-9b-it": 1.0032, "deepseek-v3": 0.885, "deepseek-r1": 0.7668000000000001, "qwq-32b": 0.8260000000000002, "Average": 0.90484 }, "ChemicalCompoundsEnv": { "qwen2.5-3b-instruct": 0.8311047619047619, "qwen2.5-7b-instruct": 0.8545238095238095, "qwen2.5-14b-instruct": 0.6625238095238095, "qwen2.5-32b-instruct": 0.7971619047619047, "qwen2.5-72b-instruct": 0.7787238095238094, "llama-3.1-8b-instruct": 0.9210666666666665, "llama-3.1-70b-instruct": 0.8095619047619046, "llama-3.2-3b-instruct": 0.870647619047619, "llama-3.3-70b-instruct": 0.8861619047619047, "mistral-large-instruct-2411": 0.665295238095238, "gemma-2-27b-it": 0.8178285714285713, "gemma-2-9b-it": 0.9217333333333333, "deepseek-v3": 0.6765047619047617, "deepseek-r1": 0.4232571428571429, "qwq-32b": 0.41698095238095234, "Average": 0.7555384126984125 }, "ArchitecturalEnv": { "qwen2.5-3b-instruct": 0.8535333333333333, "qwen2.5-7b-instruct": 0.9366666666666668, "qwen2.5-14b-instruct": 0.6431333333333333, "qwen2.5-32b-instruct": 0.7234666666666666, "qwen2.5-72b-instruct": 0.6861333333333335, "llama-3.1-8b-instruct": 0.9704666666666666, "llama-3.1-70b-instruct": 0.769, "llama-3.2-3b-instruct": 1.0212666666666665, "llama-3.3-70b-instruct": 0.8717333333333332, "mistral-large-instruct-2411": 0.6912, "gemma-2-27b-it": 0.8425333333333332, "gemma-2-9b-it": 1.0264, "deepseek-v3": 0.6093333333333333, "deepseek-r1": 0.6285333333333333, "qwq-32b": 0.6964, "Average": 0.7979866666666668 }, "ComputationEnv": { "qwen2.5-3b-instruct": 0.9820666666666668, "qwen2.5-7b-instruct": 0.9801333333333334, "qwen2.5-14b-instruct": 0.7334666666666666, "qwen2.5-32b-instruct": 0.6850666666666666, "qwen2.5-72b-instruct": 0.6938000000000001, "llama-3.1-8b-instruct": 1.0237333333333332, "llama-3.1-70b-instruct": 0.6686, "llama-3.2-3b-instruct": 1.0106666666666666, "llama-3.3-70b-instruct": 0.6860666666666666, "mistral-large-instruct-2411": 0.7517333333333334, "gemma-2-27b-it": 0.8299999999999998, "gemma-2-9b-it": 1.0842666666666667, "deepseek-v3": 0.7249999999999999, "deepseek-r1": 0.7374666666666667, "qwq-32b": 0.7521999999999999, "Average": 0.8229511111111111 }, "MachinePartEnv": { "qwen2.5-3b-instruct": 0.9062666666666666, "qwen2.5-7b-instruct": 0.8395333333333334, "qwen2.5-14b-instruct": 0.6237999999999999, "qwen2.5-32b-instruct": 0.6204666666666667, "qwen2.5-72b-instruct": 0.6410666666666667, "llama-3.1-8b-instruct": 0.8998666666666665, "llama-3.1-70b-instruct": 0.5422666666666667, "llama-3.2-3b-instruct": 0.9272, "llama-3.3-70b-instruct": 0.5463333333333333, "mistral-large-instruct-2411": 0.5808, "gemma-2-27b-it": 0.6800666666666666, "gemma-2-9b-it": 0.9401999999999997, "deepseek-v3": 0.6576, "deepseek-r1": 0.6320666666666666, "qwq-32b": 0.5902, "Average": 0.7085155555555555 }, "LiteraryEnv": { "qwen2.5-3b-instruct": 0.7915619047619047, "qwen2.5-7b-instruct": 0.684247619047619, "qwen2.5-14b-instruct": 0.4320857142857143, "qwen2.5-32b-instruct": 0.47454285714285704, "qwen2.5-72b-instruct": 0.45714285714285713, "llama-3.1-8b-instruct": 0.7595047619047619, "llama-3.1-70b-instruct": 0.5143047619047618, "llama-3.2-3b-instruct": 0.8008476190476189, "llama-3.3-70b-instruct": 0.5506952380952381, "mistral-large-instruct-2411": 0.5536571428571427, "gemma-2-27b-it": 0.6854666666666664, "gemma-2-9b-it": 0.8457333333333332, "deepseek-v3": 0.5392285714285714, "deepseek-r1": 0.5025047619047619, "qwq-32b": 0.4939333333333332, "Average": 0.6056971428571427 }, "MarineEnv": { "qwen2.5-3b-instruct": 1.0838666666666668, "qwen2.5-7b-instruct": 1.0142666666666666, "qwen2.5-14b-instruct": 0.7625333333333334, "qwen2.5-32b-instruct": 0.7773333333333333, "qwen2.5-72b-instruct": 0.8016666666666667, "llama-3.1-8b-instruct": 1.1154666666666668, "llama-3.1-70b-instruct": 0.8399333333333333, "llama-3.2-3b-instruct": 1.1426000000000003, "llama-3.3-70b-instruct": 0.8375999999999999, "mistral-large-instruct-2411": 0.8630666666666666, "gemma-2-27b-it": 0.9411333333333334, "gemma-2-9b-it": 1.1442, "deepseek-v3": 0.8894666666666666, "deepseek-r1": 0.8458, "qwq-32b": 0.8745333333333333, "Average": 0.9288977777777778 }, "PhilosophyEnv": { "qwen2.5-3b-instruct": 1.05, "qwen2.5-7b-instruct": 1.3602666666666665, "qwen2.5-14b-instruct": 0.6244, "qwen2.5-32b-instruct": 0.6048, "qwen2.5-72b-instruct": 0.6090666666666666, "llama-3.1-8b-instruct": 1.0042666666666666, "llama-3.1-70b-instruct": 0.6868, "llama-3.2-3b-instruct": 1.2236666666666667, "llama-3.3-70b-instruct": 0.6848666666666666, "mistral-large-instruct-2411": 0.5620666666666667, "gemma-2-27b-it": 0.9582, "gemma-2-9b-it": 0.9566666666666667, "deepseek-v3": 0.5928666666666667, "deepseek-r1": 0.5505333333333333, "qwq-32b": 0.5388666666666666, "Average": 0.800488888888889 }, "ArchaeologicalEnv": { "qwen2.5-3b-instruct": 1.0586, "qwen2.5-7b-instruct": 0.8644000000000001, "qwen2.5-14b-instruct": 0.7687333333333333, "qwen2.5-32b-instruct": 0.724, "qwen2.5-72b-instruct": 0.7683333333333333, "llama-3.1-8b-instruct": 1.0757999999999999, "llama-3.1-70b-instruct": 0.7328666666666667, "llama-3.2-3b-instruct": 1.0688666666666666, "llama-3.3-70b-instruct": 0.7887333333333334, "mistral-large-instruct-2411": 0.7232, "gemma-2-27b-it": 0.8009999999999999, "gemma-2-9b-it": 1.0729333333333333, "deepseek-v3": 0.6970000000000001, "deepseek-r1": 0.5904666666666667, "qwq-32b": 0.6000666666666665, "Average": 0.8223333333333332 }, "GemstoneEnv": { "qwen2.5-3b-instruct": 0.7110285714285715, "qwen2.5-7b-instruct": 0.7523809523809524, "qwen2.5-14b-instruct": 0.4729333333333333, "qwen2.5-32b-instruct": 0.5357714285714286, "qwen2.5-72b-instruct": 0.6073238095238096, "llama-3.1-8b-instruct": 0.8096666666666665, "llama-3.1-70b-instruct": 0.6153904761904763, "llama-3.2-3b-instruct": 0.7933904761904762, "llama-3.3-70b-instruct": 0.5937238095238094, "mistral-large-instruct-2411": 0.4208952380952381, "gemma-2-27b-it": 0.5776761904761905, "gemma-2-9b-it": 0.7067619047619047, "deepseek-v3": 0.41441904761904763, "deepseek-r1": 0.38596190476190473, "qwq-32b": 0.34542857142857136, "Average": 0.5828501587301588 }, "MicrobiologyEnv": { "qwen2.5-3b-instruct": 0.9303809523809525, "qwen2.5-7b-instruct": 0.9467904761904762, "qwen2.5-14b-instruct": 0.5958380952380952, "qwen2.5-32b-instruct": 0.6932190476190476, "qwen2.5-72b-instruct": 0.5158190476190476, "llama-3.1-8b-instruct": 0.9718666666666668, "llama-3.1-70b-instruct": 0.7010476190476191, "llama-3.2-3b-instruct": 1.0090190476190477, "llama-3.3-70b-instruct": 0.7338666666666666, "mistral-large-instruct-2411": 0.6196380952380951, "gemma-2-27b-it": 0.7761333333333335, "gemma-2-9b-it": 1.0257809523809525, "deepseek-v3": 0.5738761904761904, "deepseek-r1": 0.5433809523809524, "qwq-32b": 0.5820380952380952, "Average": 0.7479130158730157 }, "SciFiEnv": { "qwen2.5-3b-instruct": 0.9241999999999999, "qwen2.5-7b-instruct": 1.222, "qwen2.5-14b-instruct": 0.6346, "qwen2.5-32b-instruct": 0.6923333333333332, "qwen2.5-72b-instruct": 0.7514666666666667, "llama-3.1-8b-instruct": 1.1545999999999998, "llama-3.1-70b-instruct": 0.6702, "llama-3.2-3b-instruct": 1.0696, "llama-3.3-70b-instruct": 0.7630666666666667, "mistral-large-instruct-2411": 0.6732666666666667, "gemma-2-27b-it": 0.8202, "gemma-2-9b-it": 1.0992666666666666, "deepseek-v3": 0.6295999999999999, "deepseek-r1": 0.5723333333333334, "qwq-32b": 0.6310666666666667, "Average": 0.82052 }, "HormoneEnv": { "qwen2.5-3b-instruct": 0.6477999999999999, "qwen2.5-7b-instruct": 0.5792666666666666, "qwen2.5-14b-instruct": 0.42300000000000004, "qwen2.5-32b-instruct": 0.4808, "qwen2.5-72b-instruct": 0.47140000000000004, "llama-3.1-8b-instruct": 0.6914, "llama-3.1-70b-instruct": 0.3943333333333333, "llama-3.2-3b-instruct": 0.6731999999999999, "llama-3.3-70b-instruct": 0.4046, "mistral-large-instruct-2411": 0.47793333333333327, "gemma-2-27b-it": 0.49526666666666663, "gemma-2-9b-it": 0.6825333333333333, "deepseek-v3": 0.4746666666666667, "deepseek-r1": 0.4145333333333333, "qwq-32b": 0.4527333333333333, "Average": 0.5175644444444445 }, "SculptorEnv": { "qwen2.5-3b-instruct": 1.1031333333333335, "qwen2.5-7b-instruct": 0.9707333333333334, "qwen2.5-14b-instruct": 0.8746666666666666, "qwen2.5-32b-instruct": 0.9588666666666666, "qwen2.5-72b-instruct": 0.9808, "llama-3.1-8b-instruct": 1.215, "llama-3.1-70b-instruct": 1.0109333333333332, "llama-3.2-3b-instruct": 1.2163333333333335, "llama-3.3-70b-instruct": 0.9847999999999999, "mistral-large-instruct-2411": 0.9626666666666667, "gemma-2-27b-it": 1.1294666666666668, "gemma-2-9b-it": 1.2386666666666666, "deepseek-v3": 0.9729333333333333, "deepseek-r1": 0.8991999999999999, "qwq-32b": 0.9352666666666666, "Average": 1.0302311111111113 }, "NeuroEnv": { "qwen2.5-3b-instruct": 1.0565999999999998, "qwen2.5-7b-instruct": 0.9228666666666665, "qwen2.5-14b-instruct": 0.6512666666666667, "qwen2.5-32b-instruct": 0.7456666666666667, "qwen2.5-72b-instruct": 0.628, "llama-3.1-8b-instruct": 1.0157333333333336, "llama-3.1-70b-instruct": 0.6142, "llama-3.2-3b-instruct": 1.0081333333333333, "llama-3.3-70b-instruct": 0.5914, "mistral-large-instruct-2411": 0.7068, "gemma-2-27b-it": 0.6496666666666667, "gemma-2-9b-it": 1.0555333333333334, "deepseek-v3": 0.7531333333333333, "deepseek-r1": 0.6508666666666667, "qwq-32b": 0.8050666666666666, "Average": 0.7903288888888889 }, "OceanEnv": { "qwen2.5-3b-instruct": 0.9513333333333334, "qwen2.5-7b-instruct": 0.766, "qwen2.5-14b-instruct": 0.6742, "qwen2.5-32b-instruct": 0.7434, "qwen2.5-72b-instruct": 0.6952666666666667, "llama-3.1-8b-instruct": 0.9298666666666667, "llama-3.1-70b-instruct": 0.6888, "llama-3.2-3b-instruct": 1.0092666666666668, "llama-3.3-70b-instruct": 0.7631333333333334, "mistral-large-instruct-2411": 0.6806000000000001, "gemma-2-27b-it": 0.8006666666666667, "gemma-2-9b-it": 0.9381333333333334, "deepseek-v3": 0.5634666666666666, "deepseek-r1": 0.5218666666666666, "qwq-32b": 0.5317333333333332, "Average": 0.7505155555555555 }, "MineralEnv": { "qwen2.5-3b-instruct": 0.4416333333333333, "qwen2.5-7b-instruct": 0.40716190476190484, "qwen2.5-14b-instruct": 0.13431428571428572, "qwen2.5-32b-instruct": 0.18465714285714285, "qwen2.5-72b-instruct": 0.17393809523809525, "llama-3.1-8b-instruct": 0.4482333333333333, "llama-3.1-70b-instruct": 0.2729857142857143, "llama-3.2-3b-instruct": 0.46588571428571424, "llama-3.3-70b-instruct": 0.2577333333333333, "mistral-large-instruct-2411": 0.2553095238095238, "gemma-2-27b-it": 0.3398333333333333, "gemma-2-9b-it": 0.4829333333333333, "deepseek-v3": 0.17311428571428572, "deepseek-r1": 0.19182857142857146, "qwq-32b": 0.2801666666666667, "Average": 0.30064857142857143 }, "FishEnv": { "qwen2.5-3b-instruct": 1.2468666666666668, "qwen2.5-7b-instruct": 1.3481999999999998, "qwen2.5-14b-instruct": 0.9705999999999999, "qwen2.5-32b-instruct": 1.0598666666666667, "qwen2.5-72b-instruct": 0.9867999999999999, "llama-3.1-8b-instruct": 1.3636666666666666, "llama-3.1-70b-instruct": 1.0207333333333335, "llama-3.2-3b-instruct": 1.4142666666666668, "llama-3.3-70b-instruct": 1.0358, "mistral-large-instruct-2411": 0.9927999999999999, "gemma-2-27b-it": 1.1742, "gemma-2-9b-it": 1.3645999999999998, "deepseek-v3": 1.0188, "deepseek-r1": 0.9213333333333333, "qwq-32b": 0.9852666666666667, "Average": 1.12692 }, "MartialArtsEnv": { "qwen2.5-3b-instruct": 1.0723333333333334, "qwen2.5-7b-instruct": 1.0198, "qwen2.5-14b-instruct": 0.7902666666666667, "qwen2.5-32b-instruct": 0.8842000000000001, "qwen2.5-72b-instruct": 0.9042666666666666, "llama-3.1-8b-instruct": 1.117, "llama-3.1-70b-instruct": 0.8526666666666667, "llama-3.2-3b-instruct": 1.1304, "llama-3.3-70b-instruct": 0.9208000000000001, "mistral-large-instruct-2411": 0.8798666666666666, "gemma-2-27b-it": 1.0068666666666666, "gemma-2-9b-it": 1.1265333333333334, "deepseek-v3": 0.7828666666666667, "deepseek-r1": 0.7744, "qwq-32b": 0.8414000000000001, "Average": 0.9402444444444444 }, "RocketFuelEnv": { "qwen2.5-3b-instruct": 0.8296666666666667, "qwen2.5-7b-instruct": 0.8119333333333334, "qwen2.5-14b-instruct": 0.3957333333333334, "qwen2.5-32b-instruct": 0.5435333333333333, "qwen2.5-72b-instruct": 0.4489333333333333, "llama-3.1-8b-instruct": 0.8727333333333332, "llama-3.1-70b-instruct": 0.5453999999999999, "llama-3.2-3b-instruct": 0.8820666666666666, "llama-3.3-70b-instruct": 0.5007333333333334, "mistral-large-instruct-2411": 0.4926666666666666, "gemma-2-27b-it": 0.5702666666666667, "gemma-2-9b-it": 0.9189333333333332, "deepseek-v3": 0.45919999999999994, "deepseek-r1": 0.44160000000000005, "qwq-32b": 0.4107333333333333, "Average": 0.6082755555555556 }, "MLEnv": { "qwen2.5-3b-instruct": 1.0853809523809523, "qwen2.5-7b-instruct": 0.9570571428571428, "qwen2.5-14b-instruct": 0.7381333333333332, "qwen2.5-32b-instruct": 0.7021238095238095, "qwen2.5-72b-instruct": 0.6462666666666667, "llama-3.1-8b-instruct": 1.0434, "llama-3.1-70b-instruct": 0.6853333333333332, "llama-3.2-3b-instruct": 1.0912, "llama-3.3-70b-instruct": 0.8062666666666667, "mistral-large-instruct-2411": 0.742590476190476, "gemma-2-27b-it": 0.9825333333333333, "gemma-2-9b-it": 1.1573333333333333, "deepseek-v3": 0.7192761904761905, "deepseek-r1": 0.6918, "qwq-32b": 0.6837333333333333, "Average": 0.8488285714285714 }, "PoliticalManifestoEnv": { "qwen2.5-3b-instruct": 1.094, "qwen2.5-7b-instruct": 1.0524666666666664, "qwen2.5-14b-instruct": 0.8964666666666666, "qwen2.5-32b-instruct": 0.9097333333333332, "qwen2.5-72b-instruct": 0.9074666666666668, "llama-3.1-8b-instruct": 1.1484666666666665, "llama-3.1-70b-instruct": 0.9022666666666666, "llama-3.2-3b-instruct": 1.2590666666666668, "llama-3.3-70b-instruct": 0.9182666666666666, "mistral-large-instruct-2411": 0.9239333333333335, "gemma-2-27b-it": 1.1248666666666667, "gemma-2-9b-it": 1.2280666666666664, "deepseek-v3": 0.9872, "deepseek-r1": 0.9032, "qwq-32b": 0.9002666666666667, "Average": 1.0103822222222223 }, "CoffeeEnv": { "qwen2.5-3b-instruct": 0.5574857142857143, "qwen2.5-7b-instruct": 0.5191999999999999, "qwen2.5-14b-instruct": 0.287847619047619, "qwen2.5-32b-instruct": 0.3643714285714286, "qwen2.5-72b-instruct": 0.32374285714285717, "llama-3.1-8b-instruct": 0.6735904761904761, "llama-3.1-70b-instruct": 0.4418666666666667, "llama-3.2-3b-instruct": 0.6586857142857143, "llama-3.3-70b-instruct": 0.3596190476190476, "mistral-large-instruct-2411": 0.32551428571428564, "gemma-2-27b-it": 0.4073619047619047, "gemma-2-9b-it": 0.5588, "deepseek-v3": 0.3131333333333334, "deepseek-r1": 0.2641047619047619, "qwq-32b": 0.2930095238095238, "Average": 0.4232222222222221 }, "MotifAnalysisEnv": { "qwen2.5-3b-instruct": 1.5359333333333334, "qwen2.5-7b-instruct": 1.3934000000000002, "qwen2.5-14b-instruct": 1.2638, "qwen2.5-32b-instruct": 1.3157999999999999, "qwen2.5-72b-instruct": 1.2424, "llama-3.1-8b-instruct": 1.5532666666666666, "llama-3.1-70b-instruct": 1.3790666666666664, "llama-3.2-3b-instruct": 1.6122, "llama-3.3-70b-instruct": 1.5049333333333332, "mistral-large-instruct-2411": 1.2954666666666665, "gemma-2-27b-it": 1.5349999999999997, "gemma-2-9b-it": 1.5813333333333335, "deepseek-v3": 1.1815333333333333, "deepseek-r1": 0.9527999999999999, "qwq-32b": 1.0904666666666667, "Average": 1.3624933333333333 }, "NutritionEnv": { "qwen2.5-3b-instruct": 1.1223333333333332, "qwen2.5-7b-instruct": 1.1436666666666666, "qwen2.5-14b-instruct": 0.8542666666666667, "qwen2.5-32b-instruct": 0.8586666666666666, "qwen2.5-72b-instruct": 0.8068666666666667, "llama-3.1-8b-instruct": 1.1504666666666665, "llama-3.1-70b-instruct": 0.7640666666666667, "llama-3.2-3b-instruct": 1.1206666666666667, "llama-3.3-70b-instruct": 0.7728, "mistral-large-instruct-2411": 0.8578666666666667, "gemma-2-27b-it": 0.9822, "gemma-2-9b-it": 1.1840000000000002, "deepseek-v3": 0.8118666666666666, "deepseek-r1": 0.8373333333333333, "qwq-32b": 0.8091999999999999, "Average": 0.9384177777777779 }, "MalwareEnv": { "qwen2.5-3b-instruct": 1.0660666666666665, "qwen2.5-7b-instruct": 0.9987333333333333, "qwen2.5-14b-instruct": 0.8055999999999999, "qwen2.5-32b-instruct": 0.9301333333333333, "qwen2.5-72b-instruct": 0.8351333333333333, "llama-3.1-8b-instruct": 1.0980666666666667, "llama-3.1-70b-instruct": 0.8638666666666666, "llama-3.2-3b-instruct": 1.1550666666666667, "llama-3.3-70b-instruct": 0.9002666666666667, "mistral-large-instruct-2411": 0.8474, "gemma-2-27b-it": 1.0784666666666667, "gemma-2-9b-it": 1.1739333333333335, "deepseek-v3": 0.8863333333333333, "deepseek-r1": 0.7370666666666666, "qwq-32b": 0.8452666666666666, "Average": 0.9480933333333336 }, "GeologicalEnv": { "qwen2.5-3b-instruct": 0.7544666666666666, "qwen2.5-7b-instruct": 0.6998666666666666, "qwen2.5-14b-instruct": 0.5382, "qwen2.5-32b-instruct": 0.6078666666666667, "qwen2.5-72b-instruct": 0.5856, "llama-3.1-8b-instruct": 0.8460666666666666, "llama-3.1-70b-instruct": 0.6026, "llama-3.2-3b-instruct": 0.7952666666666668, "llama-3.3-70b-instruct": 0.6526, "mistral-large-instruct-2411": 0.5856666666666667, "gemma-2-27b-it": 0.7190666666666667, "gemma-2-9b-it": 0.8308666666666668, "deepseek-v3": 0.5351333333333332, "deepseek-r1": 0.5818, "qwq-32b": 0.5489999999999999, "Average": 0.6589377777777776 }, "TheatricalEnv": { "qwen2.5-3b-instruct": 1.0014666666666667, "qwen2.5-7b-instruct": 0.9438000000000001, "qwen2.5-14b-instruct": 0.7684666666666666, "qwen2.5-32b-instruct": 0.7975333333333333, "qwen2.5-72b-instruct": 0.7806666666666666, "llama-3.1-8b-instruct": 0.9822666666666666, "llama-3.1-70b-instruct": 0.6897333333333333, "llama-3.2-3b-instruct": 1.2334666666666667, "llama-3.3-70b-instruct": 0.7385333333333334, "mistral-large-instruct-2411": 0.7150666666666667, "gemma-2-27b-it": 0.9279999999999999, "gemma-2-9b-it": 1.0476666666666667, "deepseek-v3": 0.7080666666666667, "deepseek-r1": 0.7016000000000001, "qwq-32b": 0.7614000000000001, "Average": 0.8531822222222224 }, "PrintingTechniqueEnv": { "qwen2.5-3b-instruct": 0.5242857142857142, "qwen2.5-7b-instruct": 0.4669809523809524, "qwen2.5-14b-instruct": 0.2997142857142857, "qwen2.5-32b-instruct": 0.3549714285714286, "qwen2.5-72b-instruct": 0.27769523809523805, "llama-3.1-8b-instruct": 0.5112857142857143, "llama-3.1-70b-instruct": 0.3614476190476191, "llama-3.2-3b-instruct": 0.5472571428571429, "llama-3.3-70b-instruct": 0.3488571428571428, "mistral-large-instruct-2411": 0.34679999999999994, "gemma-2-27b-it": 0.4303714285714285, "gemma-2-9b-it": 0.5662952380952382, "deepseek-v3": 0.29273333333333335, "deepseek-r1": 0.31156190476190476, "qwq-32b": 0.3049809523809524, "Average": 0.3963492063492063 }, "StellarEnv": { "qwen2.5-3b-instruct": 0.9369333333333332, "qwen2.5-7b-instruct": 0.7797999999999999, "qwen2.5-14b-instruct": 0.6935333333333333, "qwen2.5-32b-instruct": 0.7302666666666666, "qwen2.5-72b-instruct": 0.6992, "llama-3.1-8b-instruct": 0.9464666666666665, "llama-3.1-70b-instruct": 0.7085999999999999, "llama-3.2-3b-instruct": 0.9724666666666666, "llama-3.3-70b-instruct": 0.7429999999999999, "mistral-large-instruct-2411": 0.6746, "gemma-2-27b-it": 0.8274666666666667, "gemma-2-9b-it": 0.9978, "deepseek-v3": 0.6367333333333333, "deepseek-r1": 0.6487333333333332, "qwq-32b": 0.7190666666666667, "Average": 0.7809777777777777 }, "SoilEnv": { "qwen2.5-3b-instruct": 1.2182666666666666, "qwen2.5-7b-instruct": 1.0028666666666668, "qwen2.5-14b-instruct": 0.8012666666666665, "qwen2.5-32b-instruct": 0.8625999999999999, "qwen2.5-72b-instruct": 0.7968666666666666, "llama-3.1-8b-instruct": 1.1898, "llama-3.1-70b-instruct": 0.8916000000000001, "llama-3.2-3b-instruct": 1.1725333333333334, "llama-3.3-70b-instruct": 0.9216, "mistral-large-instruct-2411": 0.8744, "gemma-2-27b-it": 0.9574666666666667, "gemma-2-9b-it": 1.1284, "deepseek-v3": 0.9315333333333333, "deepseek-r1": 0.8695333333333334, "qwq-32b": 0.8491333333333333, "Average": 0.9645244444444445 }, "SoftwareEnv": { "qwen2.5-3b-instruct": 0.7055999999999999, "qwen2.5-7b-instruct": 0.6421333333333334, "qwen2.5-14b-instruct": 0.4560666666666666, "qwen2.5-32b-instruct": 0.484, "qwen2.5-72b-instruct": 0.4653999999999999, "llama-3.1-8b-instruct": 0.6588666666666667, "llama-3.1-70b-instruct": 0.4653333333333333, "llama-3.2-3b-instruct": 0.7011999999999998, "llama-3.3-70b-instruct": 0.49446666666666667, "mistral-large-instruct-2411": 0.46806666666666663, "gemma-2-27b-it": 0.6290000000000001, "gemma-2-9b-it": 0.7563333333333333, "deepseek-v3": 0.46806666666666674, "deepseek-r1": 0.4063333333333333, "qwq-32b": 0.4793333333333333, "Average": 0.5520133333333334 }, "CarIdentificationEnv": { "qwen2.5-3b-instruct": 0.6415809523809524, "qwen2.5-7b-instruct": 0.7830761904761905, "qwen2.5-14b-instruct": 0.11047619047619046, "qwen2.5-32b-instruct": 0.1649142857142857, "qwen2.5-72b-instruct": 0.11052380952380951, "llama-3.1-8b-instruct": 0.6149333333333332, "llama-3.1-70b-instruct": 0.30315238095238095, "llama-3.2-3b-instruct": 0.8439333333333332, "llama-3.3-70b-instruct": 0.23700952380952378, "mistral-large-instruct-2411": 0.2485809523809524, "gemma-2-27b-it": 0.3316761904761905, "gemma-2-9b-it": 0.6974666666666666, "deepseek-v3": 0.18107619047619045, "deepseek-r1": 0.21692380952380952, "qwq-32b": 0.25435238095238094, "Average": 0.38264507936507924 }, "PharmaceuticalEnv": { "qwen2.5-3b-instruct": 0.6446285714285713, "qwen2.5-7b-instruct": 0.6438761904761904, "qwen2.5-14b-instruct": 0.46221904761904764, "qwen2.5-32b-instruct": 0.5071333333333333, "qwen2.5-72b-instruct": 0.47396190476190475, "llama-3.1-8b-instruct": 0.7244190476190476, "llama-3.1-70b-instruct": 0.5232666666666667, "llama-3.2-3b-instruct": 0.7074666666666667, "llama-3.3-70b-instruct": 0.5709238095238094, "mistral-large-instruct-2411": 0.5165238095238095, "gemma-2-27b-it": 0.639904761904762, "gemma-2-9b-it": 0.7634666666666667, "deepseek-v3": 0.5126, "deepseek-r1": 0.5030857142857144, "qwq-32b": 0.5336571428571428, "Average": 0.5818088888888888 }, "NetworkEnv": { "qwen2.5-3b-instruct": 0.9304666666666666, "qwen2.5-7b-instruct": 0.9181333333333332, "qwen2.5-14b-instruct": 0.7156, "qwen2.5-32b-instruct": 0.7281333333333334, "qwen2.5-72b-instruct": 0.7013333333333333, "llama-3.1-8b-instruct": 0.9331333333333334, "llama-3.1-70b-instruct": 0.6774666666666667, "llama-3.2-3b-instruct": 1.0052666666666665, "llama-3.3-70b-instruct": 0.6723999999999999, "mistral-large-instruct-2411": 0.6792666666666667, "gemma-2-27b-it": 0.8334666666666667, "gemma-2-9b-it": 0.9756, "deepseek-v3": 0.6752666666666667, "deepseek-r1": 0.6507333333333334, "qwq-32b": 0.7018000000000001, "Average": 0.7865377777777778 }, "BirdNestEnv": { "qwen2.5-3b-instruct": 0.9391333333333332, "qwen2.5-7b-instruct": 0.9543333333333333, "qwen2.5-14b-instruct": 0.8100666666666665, "qwen2.5-32b-instruct": 0.9158, "qwen2.5-72b-instruct": 0.8606666666666666, "llama-3.1-8b-instruct": 0.9903999999999998, "llama-3.1-70b-instruct": 0.9222666666666666, "llama-3.2-3b-instruct": 1.026333333333333, "llama-3.3-70b-instruct": 0.9565999999999999, "mistral-large-instruct-2411": 0.8474666666666666, "gemma-2-27b-it": 0.9609333333333334, "gemma-2-9b-it": 1.0085333333333333, "deepseek-v3": 0.7617999999999998, "deepseek-r1": 0.6876, "qwq-32b": 0.7255999999999999, "Average": 0.8911688888888886 }, "EnergyEnv": { "qwen2.5-3b-instruct": 1.0884, "qwen2.5-7b-instruct": 1.0123904761904763, "qwen2.5-14b-instruct": 0.7312285714285716, "qwen2.5-32b-instruct": 0.8728190476190475, "qwen2.5-72b-instruct": 0.8609333333333332, "llama-3.1-8b-instruct": 1.1586666666666665, "llama-3.1-70b-instruct": 0.9046, "llama-3.2-3b-instruct": 1.1040666666666665, "llama-3.3-70b-instruct": 1.0045904761904763, "mistral-large-instruct-2411": 0.7872380952380952, "gemma-2-27b-it": 1.0375904761904762, "gemma-2-9b-it": 1.1858666666666666, "deepseek-v3": 0.8143523809523809, "deepseek-r1": 0.6982476190476191, "qwq-32b": 0.7441428571428571, "Average": 0.9336755555555555 }, "LanguageEnv": { "qwen2.5-3b-instruct": 1.1255333333333333, "qwen2.5-7b-instruct": 1.1768, "qwen2.5-14b-instruct": 1.0519333333333332, "qwen2.5-32b-instruct": 0.9997999999999999, "qwen2.5-72b-instruct": 0.9798000000000002, "llama-3.1-8b-instruct": 1.1883333333333335, "llama-3.1-70b-instruct": 1.0505333333333333, "llama-3.2-3b-instruct": 1.204333333333333, "llama-3.3-70b-instruct": 1.1250666666666667, "mistral-large-instruct-2411": 0.9846666666666666, "gemma-2-27b-it": 1.1916666666666669, "gemma-2-9b-it": 1.2723333333333335, "deepseek-v3": 0.9475333333333333, "deepseek-r1": 0.7798666666666666, "qwq-32b": 0.8547333333333332, "Average": 1.0621955555555558 }, "AlgorithmEnv": { "qwen2.5-3b-instruct": 0.9703333333333333, "qwen2.5-7b-instruct": 0.8614666666666666, "qwen2.5-14b-instruct": 0.6675333333333334, "qwen2.5-32b-instruct": 0.7172, "qwen2.5-72b-instruct": 0.7046666666666666, "llama-3.1-8b-instruct": 0.8993333333333332, "llama-3.1-70b-instruct": 0.6912666666666667, "llama-3.2-3b-instruct": 0.8341333333333333, "llama-3.3-70b-instruct": 0.7737333333333333, "mistral-large-instruct-2411": 0.6648000000000001, "gemma-2-27b-it": 0.9326000000000001, "gemma-2-9b-it": 1.0570666666666668, "deepseek-v3": 0.7781333333333332, "deepseek-r1": 0.6048, "qwq-32b": 0.656, "Average": 0.787537777777778 }, "MathematicalEnv": { "qwen2.5-3b-instruct": 0.7803333333333333, "qwen2.5-7b-instruct": 0.5459333333333333, "qwen2.5-14b-instruct": 0.4785333333333333, "qwen2.5-32b-instruct": 0.5025333333333333, "qwen2.5-72b-instruct": 0.47973333333333334, "llama-3.1-8b-instruct": 0.7568666666666667, "llama-3.1-70b-instruct": 0.4238666666666667, "llama-3.2-3b-instruct": 0.7148666666666668, "llama-3.3-70b-instruct": 0.4582, "mistral-large-instruct-2411": 0.4603999999999999, "gemma-2-27b-it": 0.6693333333333333, "gemma-2-9b-it": 0.8029999999999999, "deepseek-v3": 0.44066666666666665, "deepseek-r1": 0.3256, "qwq-32b": 0.41286666666666666, "Average": 0.5501822222222222 }, "MusicalEnv": { "qwen2.5-3b-instruct": 0.7868666666666665, "qwen2.5-7b-instruct": 0.6212, "qwen2.5-14b-instruct": 0.4023333333333333, "qwen2.5-32b-instruct": 0.44286666666666663, "qwen2.5-72b-instruct": 0.40346666666666664, "llama-3.1-8b-instruct": 0.6890666666666666, "llama-3.1-70b-instruct": 0.43373333333333336, "llama-3.2-3b-instruct": 0.7595333333333332, "llama-3.3-70b-instruct": 0.3923333333333333, "mistral-large-instruct-2411": 0.46593333333333337, "gemma-2-27b-it": 0.6487999999999999, "gemma-2-9b-it": 0.7524, "deepseek-v3": 0.47313333333333335, "deepseek-r1": 0.4392666666666667, "qwq-32b": 0.4437333333333334, "Average": 0.5436444444444444 }, "InventorEnv": { "qwen2.5-3b-instruct": 1.1748, "qwen2.5-7b-instruct": 1.0563999999999998, "qwen2.5-14b-instruct": 0.7145333333333334, "qwen2.5-32b-instruct": 0.7015999999999999, "qwen2.5-72b-instruct": 0.7992666666666667, "llama-3.1-8b-instruct": 1.1523999999999996, "llama-3.1-70b-instruct": 0.7999333333333334, "llama-3.2-3b-instruct": 1.2088, "llama-3.3-70b-instruct": 0.9067333333333334, "mistral-large-instruct-2411": 0.6736000000000001, "gemma-2-27b-it": 0.8846, "gemma-2-9b-it": 1.2016666666666667, "deepseek-v3": 0.5913333333333333, "deepseek-r1": 0.5467333333333333, "qwq-32b": 0.5757333333333332, "Average": 0.8658755555555557 }, "MedicalEnv": { "qwen2.5-3b-instruct": 0.6536, "qwen2.5-7b-instruct": 0.5706761904761904, "qwen2.5-14b-instruct": 0.49113333333333326, "qwen2.5-32b-instruct": 0.5525238095238094, "qwen2.5-72b-instruct": 0.4351047619047619, "llama-3.1-8b-instruct": 0.675742857142857, "llama-3.1-70b-instruct": 0.4085142857142857, "llama-3.2-3b-instruct": 0.6928952380952381, "llama-3.3-70b-instruct": 0.44421904761904757, "mistral-large-instruct-2411": 0.3882190476190476, "gemma-2-27b-it": 0.4850761904761905, "gemma-2-9b-it": 0.6444000000000001, "deepseek-v3": 0.42532380952380955, "deepseek-r1": 0.4207714285714285, "qwq-32b": 0.5122666666666668, "Average": 0.5200311111111111 }, "MusicEnv": { "qwen2.5-3b-instruct": 0.8416666666666666, "qwen2.5-7b-instruct": 1.0005333333333333, "qwen2.5-14b-instruct": 0.6241333333333333, "qwen2.5-32b-instruct": 0.6859999999999999, "qwen2.5-72b-instruct": 0.5986190476190476, "llama-3.1-8b-instruct": 0.8823619047619047, "llama-3.1-70b-instruct": 0.620095238095238, "llama-3.2-3b-instruct": 1.0788857142857142, "llama-3.3-70b-instruct": 0.6707809523809523, "mistral-large-instruct-2411": 0.6624857142857142, "gemma-2-27b-it": 0.7730666666666666, "gemma-2-9b-it": 0.9248000000000001, "deepseek-v3": 0.6254857142857142, "deepseek-r1": 0.6092095238095239, "qwq-32b": 0.6053809523809524, "Average": 0.7469003174603175 }, "FantasyEnv": { "qwen2.5-3b-instruct": 0.6738, "qwen2.5-7b-instruct": 0.6780571428571429, "qwen2.5-14b-instruct": 0.20936190476190478, "qwen2.5-32b-instruct": 0.23541904761904764, "qwen2.5-72b-instruct": 0.3943904761904762, "llama-3.1-8b-instruct": 0.6281142857142856, "llama-3.1-70b-instruct": 0.3229714285714286, "llama-3.2-3b-instruct": 0.7130571428571428, "llama-3.3-70b-instruct": 0.2710190476190476, "mistral-large-instruct-2411": 0.1259142857142857, "gemma-2-27b-it": 0.35649523809523803, "gemma-2-9b-it": 0.7076952380952382, "deepseek-v3": 0.056790476190476204, "deepseek-r1": -0.025180952380952377, "qwq-32b": 0.03801904761904761, "Average": 0.35906158730158727 }, "EducationEnv": { "qwen2.5-3b-instruct": 0.9363999999999999, "qwen2.5-7b-instruct": 0.9230666666666666, "qwen2.5-14b-instruct": 0.7015333333333333, "qwen2.5-32b-instruct": 0.6477333333333334, "qwen2.5-72b-instruct": 0.6232, "llama-3.1-8b-instruct": 0.9055333333333333, "llama-3.1-70b-instruct": 0.5771333333333334, "llama-3.2-3b-instruct": 0.8691333333333334, "llama-3.3-70b-instruct": 0.6331333333333333, "mistral-large-instruct-2411": 0.6769333333333332, "gemma-2-27b-it": 0.7234, "gemma-2-9b-it": 0.8838666666666667, "deepseek-v3": 0.7129333333333334, "deepseek-r1": 0.7282666666666666, "qwq-32b": 0.7233333333333334, "Average": 0.7510399999999999 }, "ChemicalEnv": { "qwen2.5-3b-instruct": 1.0222666666666664, "qwen2.5-7b-instruct": 1.1687333333333334, "qwen2.5-14b-instruct": 0.8354666666666667, "qwen2.5-32b-instruct": 0.8561333333333334, "qwen2.5-72b-instruct": 0.8254666666666667, "llama-3.1-8b-instruct": 1.1288, "llama-3.1-70b-instruct": 0.8285333333333333, "llama-3.2-3b-instruct": 1.1526666666666665, "llama-3.3-70b-instruct": 0.9390666666666666, "mistral-large-instruct-2411": 0.8290666666666666, "gemma-2-27b-it": 0.953533333333333, "gemma-2-9b-it": 1.1003333333333334, "deepseek-v3": 0.8336666666666668, "deepseek-r1": 0.8385333333333334, "qwq-32b": 0.7902666666666667, "Average": 0.9401688888888889 }, "Average": { "qwen2.5-3b-instruct": 0.9038483262611976, "qwen2.5-7b-instruct": 0.867841584158416, "qwen2.5-14b-instruct": 0.635130598774163, "qwen2.5-32b-instruct": 0.6698686468646864, "qwen2.5-72b-instruct": 0.6424673738802452, "llama-3.1-8b-instruct": 0.9346749174917492, "llama-3.1-70b-instruct": 0.660992975011787, "llama-3.2-3b-instruct": 0.9649007072135783, "llama-3.3-70b-instruct": 0.6869286185761432, "mistral-large-instruct-2411": 0.6406110796793965, "gemma-2-27b-it": 0.7896256954266856, "gemma-2-9b-it": 0.9722245167373881, "deepseek-v3": 0.6361851013672796, "deepseek-r1": 0.5821313531353135, "qwq-32b": 0.6111832626119755 } }