LLM面向跑分作弊，和诱导

概括就是训练集里面混进了测试集，俗称刷分，benchmaxxed。

文章里提到的“预填”，感觉很有意思：调用api时假装模型先写一部分回复，可以起到诱导模型，甚至绕过安全限制的作用。即openai格式的messages里末尾项目role为assistant而不是一般的user。

测试了对minimax完全无效。而deepseek官方本来就支持这种功能，但是限制很少纯提示词就能写色色小说。

发送评论 编辑评论