323 日 , 2026 22:54:48

认错也没用,你都不记得了。看来得试试那个末尾加上喵,不喵了代表上下文腐烂了的方法。不知道在哪看目前多少token了导致注意力涣散了,推测是10万左右

 

321 日 , 2026 20:18:08
319 日 , 2026 17:19:50
黄皮子NIM

NIM只有每分钟频率限制,还很高,没有token和每月次数之类的非常良心(以前有积分后来取消了)。但是实际用起来卡的我生活不能自理(之前一直用里面最火的deepseek3.2),慢的时候估计能有5token/s,波动也非常大。今天突发奇想试了下千问3.5开源最大参数量的那个,居然非常快,而且稳定性比ds强。看来人多真的没好事,一坨人拼命在最有名的模型赛博挤公交车,很可能不同机器固定分配了特定模型。

好了一天又开始卡爆了,以上内容作废。

 

今天试了下AstrBot这个开源聊天机器人agent,比openclaw精致一点,没有那种vibe code堆砌起来能跑就行的感觉。

318 日 , 2026 0:00:02
评估AI Agent维护代码的论文

https://arxiv.org/html/2603.03823v1

论文开发了个双Agent的评估程序,给定一份历史版本代码(从开源软件修改历史里嫖的),架构师Agent运行完整的单元测试(对应最新版本代码),根据结果总结出bug、缺失的新功能给程序员Agent(以自然语言)。程序员AI老老实实埋头编码,看不见单元测试代码没法面向测试作弊。不断迭代之后最终根据测试通过率和回退率评分。

 

测试结果是claude最强,qwen和glm目前最强闭源版居中,deepseek因为太久没更新掉队了差一点,另外居然还测了豆包。垫底的水平很符合那个唐氏综合症一般的图标。

313 日 , 2026 10:21:59
mcp和skills.md

mcp是时候改进一下了。模仿agent skills的渐进式加载。mcp工具都加入名称和描述,初始状态只加载这些进入上下文,当llm决定使用工具时再动态获取方法和定义。

这样不仅使用更方便不用手动勾选工具,而且能达到skill一样的省token效果。

  1. krrr 博主 : Claude Code已经有这功能了叫ToolSearch ,今天cherry studio刚加了我才知道。毕竟我不用cc
312 日 , 2026 19:48:59
vibe coded shit

gemini 3.1 pro写前端经常能写出一些巧克力外壳的狗屎。乍一看像模像样,点开为什么没效果,我去html里硬编码的,ts里根本没实现逻辑。前台angular+typescript很多代码反正就一股异味,丢了觉得可惜,手改觉得恶心。

python后端倒是还好

312 日 , 2026 9:41:33

很多流行音乐一定要在整首歌3/4位置的时候加入一段俗套到爆的电吉他独奏,已经是套路了。听到这种就讨厌。

没有这种套路的歌是少数,反而里面遇到精品的概率还更高

310 日 , 2026 16:15:25

一个xray(v2fly肯定也一样)一个hysteria,都不遵守gai.conf里设置的优先使用ipv4,老是访问ipv6。真的是非常讨厌。

都是go写的。ai教我使用GODEBUG=netdns=cgo让它遵守,然而并没有什么用。还是直接使用iptables6直接禁止了他俩连接任意v6地址才老实

309 日 , 2026 15:29:19
谷歌Jules

在云服务器内运行的编程智能体。和gemini cli不一样一点,更偏向vibe coding(我其实是比较讨厌这个词的,什么氛围啊许愿抽卡还差不多)。给他一段描述清晰的需求,它能在云端跑上一个小时不需要人干预。它内置的工具明显比cli更多,能使用playwright mcp自己操作和截图浏览器测试前端界面功能。

jules按会话来算使用量的。pro账户每天100个会话,能使用gemini3pro。免费只有15个,flash模型,砍的非常狠。

每个会话只有开头能上传图片等附件。不过后面还能输入文字。看来还是每次输入一大段需求,让它跑久一点比较划算。

 

 

309 日 , 2026 9:50:31

openclaw莫名其妙的火,还有一帮跟风的。甚至带火了卖macmini的。那玩意性价比最高的丐版,本地模型智力根本就撑不起龙虾的使用场景,不知道跟的什么风,都是调api整个树莓派5都行