deepseek-v4-flash vs minimax-m2.7

由于不怎么喜欢ds,一直到opencode订阅限时免费用v4 flash才试着蹬了一会儿,没想到我(果然)是大怨种。

以下测试都是分别让deepseek v4 flash(思考等级high)和minimax m2.7,两个规模和年代相近的模型分别跑。然后我或者gemini3.1pro做裁判。

 

 

计划模式改需求

给定同一份代码库(python+fastapi后台,vue3前台)和同一份需求,plan模式生成计划。

计划例子1

背景:后来加了一个基于谷歌adk的ai agent功能,独立于原有的普通聊天机制和配置,没有从原数据库(带配置界面)中读取模型配置。

需求:将后台agent的大模型配置,包括模型,url,apikey,改成从现有数据库配置项读取

结果:ds胜出

我来当裁判的话,m2.7也是逊于v4flash的,minimax刷分嫌疑很重,有些跑分榜超过gemini3flash很多但是实际体验上差了一截。而ds v4 flash已经非常接近互有胜负了。ds的架构思维比较好,在阅读代码的时候也会体现出来,对没有文档的旧代码库理解更透彻(甚至略微强于gemini3flash)。

给gemini裁判的提示词:以上是两个ai针对一样的代码和一样的需求“xxx”提出的两份修改计划,你来裁判哪个比较好,提出详尽的细节代码不作为加分项,侧重考虑宏观层面。

 

直接改代码

直接构建模式,没用计划的情况。

非计划例子1

提示词:按照本工程里面一个SKILL.md更新下main_agent.md的内容,How You Work的步骤要严格按照skill的来,并且如果相应的工具缺失也要加到tools里面

背景:SKILL.md里面是调用一个cli程序的指令。main_agent.md是adk agent的系统提示词。让它参照前者的步骤重新编写后者,后者并不直接操作命令行而是内置了function call(并且已经有部分等价命令行的工具写进去了,但不全)。

结果:mm胜出。ds不仅把工具调用指示写了,还同时补了等价的cli命令行方式,画蛇添足了。而mm正确理解了我的意思。

 

3d绘图场景

使用three.js画一个voxel场景的例子,抄的某老外的想法。

mm胜出。ds写代码写的明明就挺好的,这个场景极其拉稀(但是老大v4 pro表现挺好的),其他模型都能画对的塔画不出就算了,连树都画成狗屎一样,让人大跌眼镜。

暂无评论

发送评论 编辑评论


				
上一篇