评估AI Agent维护代码的论文

论文开发了个双Agent的评估程序，给定一份历史版本代码（从开源软件修改历史里嫖的），架构师Agent运行完整的单元测试（对应最新版本代码），根据结果总结出bug、缺失的新功能给程序员Agent（以自然语言）。程序员AI老老实实埋头编码，看不见单元测试代码没法面向测试作弊。不断迭代之后最终根据测试通过率和回退率评分。

测试结果是claude最强，qwen和glm目前最强闭源版居中，deepseek因为太久没更新掉队了差一点，另外居然还测了豆包。垫底的水平很符合那个唐氏综合症一般的图标。

发送评论 编辑评论

发送评论编辑评论