这可不是小问题,Token便是AI的“翰墨”,耗得快不只费钱,还拖慢呼应速度。到底是模型翻车,仍是有其他隐情?
最早发现不对劲的是一群AI研究者,有位博主做了组比照测验,让模型剖析一份科技公司财报,提取中心营收数据。
最有意思的是某大厂AI实验室的测验,让模型解一道高中物理题。Speciale版写了近千词的推理进程,绕了好几个公式,最终答案仍是错的。
研究员戏弄:“这不是解题,是凑字数躲赏罚”。这些实测都指向一个问题:模型不只耗Token,还爱“说废话”。
这锅还真不是模型自身的问题,得甩给背面的GRPO算法,这套算法是DeepSeek带火的强化学习范式,之前一向被业界当“黄金规范”,谁能想到藏着丧命缺点。
咱用个实践事例解说更理解,有家电商用依据GRPO练习的客服AI,当客户问“退货流程”时,正确答复只需100字,AI却能扯到售后方针、质保期限,写500多字还没讲清楚。
GRPO算法里,正确答案越短,取得的奖赏梯度越高,可要是答案错了,写得越长,遭到的赏罚反而越轻。
就像学生考试蒙答案,写满答题卡总觉得能多拿分,AI也学会了这套“摸鱼技巧”,用废话堆长度躲赏罚。
另一个“难度偏置”问题,DeepSeek在V3.2里现已优化了,但长度偏置还藏着,有位参加过GRPO开源项目的开发者泄漏,这样的一个问题在前身PPO算法里就有,仅仅预练习时为了安稳数值加了长度归一化,到强化学习微调时没改,才无意中把偏置带了进来。
这缺点早有痕迹,DeepSeek-R1-Zero练习时,模型呼应长度就一路涨,其时没人介意,直到V3.2 Speciale把问题扩大。有研究者翻出2024年的测验记载,其时用R1-Zero写工作总结,均匀长度比同类模型多40%,仅仅那时Token耗费没这么夸大。
Token耗费太高,最早扛不住的是企业用户,深圳有家做AI客服的公司,之前计划全量切换到DeepSeek-V3.2,试运营三天就叫停了。负责人说:“相同接1000个咨询,Token本钱是之前的3.2倍,小公司底子扛不住”。
DeepSeek官方却是很坦白,技能陈述里直接供认Speciale版Token功率不如Gemini-3.0-Pro。现在官方版现已加了严厉的Token束缚,平衡功能和本钱。
11月的技能沙龙上,团队研究员泄漏,正在测验“动态长度操控”计划,能依据使命难度主动调整输出长度。
业界也在想方法,有第三方开发者做了个“去水东西”,能主动删减DeepSeek输出里的废线%的无效Token。还有实验室测验给GRPO算法加“长度赏罚项”,某高校团队实测后,模型废线%,正确率还没下降。
DeepSeek-V3.2的Token问题,是GRPO算法的“前史留传病”,它的推理才能的确能打,但“说废话”的毛病得治。