用eval_mteb.py算出来的mteb指标和Leaderboard展示的差距很大,不清楚为什么?
#16
by
YangGuang30
- opened
只算了中文的retrievel任务MMarcoRetrieval: 0.4945
DuRetrieval: 0.38997
可能是你没有加Instruction到query前面
我们最新更新了eval_mteb的脚本,可以用新的脚本测试一下
我们最新更新了eval_mteb的脚本,可以用新的脚本测试一下
发现了一个问题。就用eval_mteb脚本,默认--batch_size 是32,测出来是一个结果;假如我指定batch_size 是4,是8等等,每次的评估结果都不一样,这是怎么回事?
我使用eval_mteb.py脚本,比如直接python eval_mteb.py --model "Alibaba-NLP/gte-Qwen2-1.5B-instruct" --output_dir "./new_results" --task "STSB",或者其他C-MTEB的任务,没有完全一样的结果,总是或高或低,比如STSB我测的是"cos spearman": 0.7947278516102777,PAWSX的"cos spearman": 0.4335752352668753,都和公开的不一样