https://arxiv.org/html/2603.03823v1
论文开发了个双Agent的评估程序,给定一份历史版本代码(从开源软件修改历史里嫖的),架构师Agent运行完整的单元测试(对应最新版本代码),根据结果总结出bug、缺失的新功能给程序员Agent(以自然语言)。程序员AI老老实实埋头编码,看不见单元测试代码没法面向测试作弊。不断迭代之后最终根据测试通过率和回退率评分。
测试结果是claude最强,qwen和glm目前最强闭源版居中,deepseek因为太久没更新掉队了差一点,另外居然还测了豆包。垫底的水平很符合那个唐氏综合症一般的图标。