https://openai.com/zh-Hans-CN/index/why-we-no-longer-evaluate-swe-bench-verified/
概括就是训练集里面混进了测试集,俗称刷分,benchmaxxed。
文章里提到的“预填”,感觉很有意思:调用api时假装模型先写一部分回复,可以起到诱导模型,甚至绕过安全限制的作用。即openai格式的messages里末尾项目role为assistant而不是一般的user。
测试了对minimax完全无效。而deepseek官方本来就支持这种功能,但是限制很少纯提示词就能写色色小说。