分享好友 健康资讯首页 健康资讯分类 切换频道

不是所有token都平等,谷歌提出真·深度思考:思维链长≠深度推理

2026-02-25 21:0510036kr

原来AI也在水字数。

大模型的思维链越长,推理能力就越强?谷歌Say No——

token数量和推理质量,真没啥正相关,因为token和token还不一样,有些纯凑数,深度思考token才真有用。

新研究抛弃字数论,甩出衡量模型推理质量的全新标准DTR,专门揪模型是在真思考还是水字数。

基于DTR,还提出了Think@n策略,让GPT-OSS、DeepSeek-R1等推理模型实现准确率不降、算力成本直接砍半的效果。

长逻辑不等于好推理

长期以来,一个比较常见的观点是思维链越长越牛。

这种思路的逻辑也比较直接,推理步骤多=思考更充分=答案更准。

于是不少研发者也为了追求长推理轨迹开始堆算力。

谷歌的研究团队在AIME2024/2025、HMMT 2025、GPQA-Diamond四个数据集上,测了GPT-OSS、DeepSeek-R1、Qwen3等8个模型变体;

结果发现,token长度和准确率的平均相关系数是-0.54……负相关。

也就是说,在某些情况下,思维链越长,推理越容易跑偏,甚至还会陷入逻辑死循环或者过度推理。

那么问题来了:如果长度靠不住,那该怎么判断模型是不是在真思考?

谷歌这次的视角比较有意思,不看表面输出,直接监听模型每一层的内心戏。

研究发现,模型生成的token其实可以分成两类:

团队用JSD衡量各层预测分布的差异,如果一个token的预测直到深层网络才稳定下来,那就被判定为深度思考词。

在这个基础上,他们提出了Deep Thinking Ratio,即深度思考词在完整生成序列中的占比。

这个比例越高,说明模型越聚焦核心推理,没有在无意义内容上消耗算力。

真·深度思考降本增效

在四个推理测试集上,DTR与推理准确率的相关系数达到0.82。

相比于token长度的-0.54,DTR更能反映推理质量。

谷歌还基于DTR顺势推出了Think@n策略,能在推理初期就识别低质量废话,将计算资源集中在真正有深度的样本上。

具体为为每个问题采样多个推理样本,仅通过50个token的短前缀快读估算DTR值,筛选出前50%的高质量样本,再进行多数投票得出答案;

这样,低DTR的低质量样本在推理初期就被终止生成,直接砍掉无意义的token消耗。

在多款主流模型的测试中,Think@n推理准确率与传统策略持平甚至略高。

比如GPT-OSS-120B-medium在AIME 2025数据集上准确率达94.7%,高于传统策略的92.7%;

还将算力成本直接削减近一半,推理token消耗从355.6k降至181.9k,做到了性能不降、成本减半。

这项研究的第一作者Wei-Lin Chen是弗吉尼亚大学计算机博士,专注于LLM推理衡量及评估者有效性等研究方向,曾在谷歌担任学生研究员。

共同一作Liqian Peng为中科大校友,现在谷歌担任研究工程师。

指导作者孟瑜是弗吉尼亚大学计算机助理教授,研究方向包括训练范式、数据与推理效率及表征基础等方面,此前还和NLP领域的顶尖学者陈丹琦有过合作。

看来大模型推理也不兴水字数了,真·深度思考才能降本增效。

本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
抛弃“不作恶”,谷歌和五角大楼签订协议、承接美军机密AI业务,超700名员工联名反对
谷歌,这个曾以“不作恶”为行为准则的科技巨头,如今正深陷一场前所未有的内部风暴。28日,美国消费者新闻与商业频道(CNBC)援引科技媒体“The Information”报道,谷歌已与美国国防部签署协议,承接机密人工智能业务。一位知情人士透露,美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称,本周,700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊,要

0评论2026-04-296

一季度净利环比暴增27倍,剑桥科技股价一年涨三倍,险资与社保基金加仓,股东高管减持
4月27日盘后,光模块概念大牛股剑桥科技(603083.SH、06166.HK)发布2026年一季报,公司一季度营收同比增长43.98%至12.87亿元;归母净利润同比增长276.44%至1.18亿元。从环比来看,剑桥科技今年第一季度营收环比下滑约12%;净利润环比增长2722.62%,而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股,剑桥科技H股曾在11个交易日完成了翻倍,4月2

0评论2026-04-295

32美元一辆车,Tesla为什么不认?(下)
本案真正值得关注的,不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是,如果法院最终认为这类平台许可条款不能进入FRAND审查,那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时,实施者还能不能有效挑战其许可条件?这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看,Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-296

“保本”又“看病”?监管部门约谈健康险公司,中介平台下架热销“医疗金”产品
早在前两年,市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长,这类产品的资产增值属性被放大,经过长期现金价值积累,配合可以累积的医疗保险金,使得产品有着不输理财型产品的收益率,这也是引起监管部门关注的原因之一。2026年4月初,当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时,他可能不会想到,体验活动中的重磅产品“岁月长安·特定疾病保险(互联网版)”即将面临下架。4月

0评论2026-04-294