分享好友 健康资讯首页 健康资讯分类 切换频道

算力成本大降,马尔可夫思考机来了,LLM推理成本直接降为线性

2025-10-10 16:0024036kr

用强化学习让 LLM 具备推理(reasoning)能力确实很有效,但耗费颇高。

这类模型在回答问题前会生成一长串的思维链(LongCoT);并且增加「思考 token」 的数量能够提升模型的能力。与任何强化学习问题一样,它存在一个决定轨迹如何生成的环境。

对于推理 LLM 而言,这个环境相当简单,以至于常常被忽略:状态(state)是由提示词(prompt)与截至目前已生成的推理 token 拼接而成,而动作(action)则是从策略(即推理 LLM)中采样的下一个 token。

这种设计看似轻巧,但却可能导致状态的大小没有边界 —— 会随着思考过程的加长而不断增长。对于基于注意力机制的策略来说,这意味着整个过程中的计算量会面临令人望而却步的二次级增长。

为了降低推理 LLM 长思考的计算量,人们已经提出了许多方法,包括使用带有长度正则化的目标函数、剪枝或早停方法等。

而近日,Mila 和微软研究院等多家机构的一个联合研究团队却另辟蹊径,提出了一个不同的问题:如果环境从一开始就不会造成计算量的二次级增长呢?

他们提出了一种新的范式,其中策略会在基于一个固定大小的状态上进行推理。他们将这样的策略命名为马尔可夫式思考机(Markovian Thinker)

论文标题:The Markovian Thinker

论文地址:https://arxiv.org/abs/2510.06557v1

模型地址:https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd

代码仓库:https://github.com/McGill-NLP/the-markovian-thinker

这项研究的三位共一作者之一的 Amirhossein Kazemnejad 在

举报
收藏 0
打赏 0
评论 0
全球CPU龙头股暴力突袭,AI逻辑新主线浮现
4月24日,全球半导体板块出现罕见的同步性巨幅波动。美股盘前,英特尔因最新财报与业绩沟通释放积极信号,盘前涨幅一度逼近30%;A股市场中,国产CPU龙头海光信息同步走强,收盘上涨8.20%。这并不是巧合。与过去两年围绕GPU展开的算力行情不同,这一轮市场关注点明显集中在CPU龙头公司上。市场开始重新讨论一个问题:AI算力的增长,是否仍然只是“更多GPU”的故事。01 AI算力逻辑的重要转向过去很长

0评论2026-04-252

AI打倒了英特尔,AI又救了英特尔
2024年8月2日,英特尔一夜暴跌26%,股价跌回十年前,创下多年来最惨烈的单日跌幅。 三个月后,一场更具标志性的转折来临。2024年11月8日,英伟达正式取代英特尔,成为道琼斯工业平均指数的成分股。一次指数调整,也是一次时代的宣判。GPU取代CPU,英伟达取代英特尔。这个英特尔坚守了25年的行业荣誉,最终易主,沦为它衰落最鲜明的标志。 2026年4月23日,英特尔财报发布后盘后大涨近20%,强势

0评论2026-04-252

9点1氪丨Kimi被曝泄露用户真实简历;马斯克花4000多亿买下00后公司;世界杯决赛门票转手价近230万美元
整理|孟孟 今日热点导览铁路部门将实行老年旅客购票优惠哈啰因未按规定备案、投放运营或者回收车辆再被罚款10万元网友称用豆包提前查到事业编成绩,官方回应 耐克将裁减1400个公司职位,主要集中在技术部门中国再发现两种月球新矿物,嫦娥五号样品研究获新突破TOP3大新闻Kimi被曝泄露用户真实简历,用户翻译时收到陌生人完整个人信息4月20日,用户张呈在使用Kimi翻译英文PPT时,系统竟返回一份陌生人的

0评论2026-04-252

浙江富豪,245亿“豪赌”算力!
近日,晶科科技发布的一则公告在业内引发震动。晶科科技宣布,公司与中卫市签署《投资协议》,就宁夏中卫1GW算力中心项目达成合作意向,项目计划总投资约245亿元。公告发布后,晶科科技股价大幅飙涨,强势斩获涨停板。随后,上交所火速下发监管工作函,要求公司就项目合理性、资金来源、风险控制等问题作出解释。对此,晶科科技董事长李仙德亲自签发一份长达19页的监管回复函,为其算力转型战略作出回应。这位出生于浙江台

0评论2026-04-252