DeepSeek巨吃Token？耗量是Gemini3倍

发布时间：2026-01-02 23:04:25 作者: fun88.com

案例

这可不是小问题，Token便是AI的“翰墨”，耗得快不只费钱，还拖慢呼应速度。到底是模型翻车，仍是有其他隐情？

最早发现不对劲的是一群AI研究者，有位博主做了组比照测验，让模型剖析一份科技公司财报，提取中心营收数据。

最有意思的是某大厂AI实验室的测验，让模型解一道高中物理题。Speciale版写了近千词的推理进程，绕了好几个公式，最终答案仍是错的。

研究员戏弄：“这不是解题，是凑字数躲赏罚”。这些实测都指向一个问题：模型不只耗Token，还爱“说废话”。

这锅还真不是模型自身的问题，得甩给背面的GRPO算法，这套算法是DeepSeek带火的强化学习范式，之前一向被业界当“黄金规范”，谁能想到藏着丧命缺点。

咱用个实践事例解说更理解，有家电商用依据GRPO练习的客服AI，当客户问“退货流程”时，正确答复只需100字，AI却能扯到售后方针、质保期限，写500多字还没讲清楚。

GRPO算法里，正确答案越短，取得的奖赏梯度越高，可要是答案错了，写得越长，遭到的赏罚反而越轻。

就像学生考试蒙答案，写满答题卡总觉得能多拿分，AI也学会了这套“摸鱼技巧”，用废话堆长度躲赏罚。

另一个“难度偏置”问题，DeepSeek在V3.2里现已优化了，但长度偏置还藏着，有位参加过GRPO开源项目的开发者泄漏，这样的一个问题在前身PPO算法里就有，仅仅预练习时为了安稳数值加了长度归一化，到强化学习微调时没改，才无意中把偏置带了进来。

这缺点早有痕迹，DeepSeek-R1-Zero练习时，模型呼应长度就一路涨，其时没人介意，直到V3.2 Speciale把问题扩大。有研究者翻出2024年的测验记载，其时用R1-Zero写工作总结，均匀长度比同类模型多40%，仅仅那时Token耗费没这么夸大。

Token耗费太高，最早扛不住的是企业用户，深圳有家做AI客服的公司，之前计划全量切换到DeepSeek-V3.2，试运营三天就叫停了。负责人说：“相同接1000个咨询，Token本钱是之前的3.2倍，小公司底子扛不住”。

DeepSeek官方却是很坦白，技能陈述里直接供认Speciale版Token功率不如Gemini-3.0-Pro。现在官方版现已加了严厉的Token束缚，平衡功能和本钱。

11月的技能沙龙上，团队研究员泄漏，正在测验“动态长度操控”计划，能依据使命难度主动调整输出长度。

业界也在想方法，有第三方开发者做了个“去水东西”，能主动删减DeepSeek输出里的废线%的无效Token。还有实验室测验给GRPO算法加“长度赏罚项”，某高校团队实测后，模型废线%，正确率还没下降。

DeepSeek-V3.2的Token问题，是GRPO算法的“前史留传病”，它的推理才能的确能打，但“说废话”的毛病得治。