分享好友 健康资讯首页 健康资讯分类 切换频道

「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习

2025-10-13 11:0018036kr

这几天,关于「微调已死」的言论吸引了学术圈的广泛关注。

一篇来自斯坦福大学、SambaNova、UC 伯克利的论文提出了一种名为 Agentic Context Engineering(智能体 / 主动式上下文工程)的技术,让语言模型无需微调也能实现自我提升!

其实,在更早的时候,谷歌一篇名为《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》的论文提出了一个与 Agentic Context Engineering 类似的概念 ——ReasoningBank,用于智能体系统的创新记忆框架,从智能体自身判断的成功和失败经验中提炼并组织记忆项,无需真实标签

如图 1 所示,利用 ReasoningBank 不仅可以捕捉成功中的有效策略,还能从失败中提取重要的预防教训,将这些内容抽象成一系列可操作的原则。这个过程在一个闭环中运行:当面对新任务时,智能体从 ReasoningBank 中检索相关记忆来指导其行动。随后,新的经验被分析、提炼并重新整合回 ReasoningBank,使得智能体能够不断进化并提升其战略能力。

通过将 ReasoningBank 作为强大的经验学习者,谷歌研究了经验扩展,以建立记忆与测试时扩展之间的强大协同效应。谷歌并不通过增加更多任务来扩展经验的广度,而是通过深入探索每个单一任务来扩展经验的深度。

此外,谷歌引入了记忆感知的测试时扩展(MaTTS),在并行和顺序设置下都进行了应用,通过生成多样的探索来提供对比信号,使 ReasoningBank 能够合成更具普遍性的记忆。

最终,在记忆与测试时扩展之间实现了协同效应:高质量的记忆将扩展引导到更有前景的路径,而丰富的经验则进一步锤炼出更强的记忆。这种正反馈循环使得基于记忆的经验扩展成为智能体的一个新扩展维度。

论文地址:https://arxiv.org/pdf/2509.25140

 

对于谷歌开发的这种能实时从自身错误中学习的 AI,网友纷纷看好。

方法概览

下图为 ReasoningBank 整体框架,其中经验被提炼成结构化的记忆项,包含标题、描述和内容。对于每个新任务,智能体从中检索相关项与环境进行互动,并从成功和失败的轨迹中构建新的记忆项。这些记忆项随后被整合到 ReasoningBank 中,形成一个闭环的记忆过程。

其中,ReasoningBank 包含了以下几个关键组件:

记忆结构。ReasoningBank 中的记忆项是从过去的经验中设计和提炼出的结构化知识单元,它们抽象了低级执行细节,同时保留了可转移的推理模式和策略。每个记忆项包含三个部分:(i) 标题,作为简洁的标识符,总结核心策略或推理模式;(ii) 描述,提供记忆项的简短一句话总结;(iii) 内容,记录从过去经验中提炼出的推理步骤、决策理由或操作见解。提取出的记忆项既具有人类可理解性,又具备机器可用性,有助于高效使用和与智能体的集成。

ReasoningBank 与智能体的集成。配备 ReasoningBank 的智能体可以从一个精心挑选的可转移策略池中汲取经验来指导决策。这使得智能体能够回忆有效的见解,避免以前观察到的陷阱,并更稳健地适应未见过的查询。集成过程分为三个步骤:(i) 记忆检索,(ii) 记忆构建,(iii) 记忆整合。

MaTTS:记忆感知的测试时扩展。ReasoningBank 与测试时扩展的直接结合如图 3 (a) 所示,其中更多的轨迹被独立地转换为更多的记忆项。不过,这种基础方法并不理想,因为它没有利用来自同一问题上冗余探索所产生的对比信号,这限制了测试时扩展所带来的性能优势。为此,谷歌提出了 MaTTS,它是测试时扩展与 ReasoningBank 的全新集成。与基础方法不同,MaTTS 刻意从扩展过程中生成的大量成功和失败轨迹中学习,以便更有效地策划记忆。谷歌为 MaTTS 设计了两种互补的实现方式:并行扩展和顺序扩展,如图 3 (b) 和 3 (c) 所示。

并行扩展。在并行设置中,谷歌在检索到的记忆项的指导下,为同一查询生成多个轨迹。通过对不同轨迹进行比较,智能体可以识别一致的推理模式,同时过滤掉虚假的解决方案。这个过程通过单一查询的多次试验促使多样化的探索,从而实现更可靠的记忆策划。

顺序扩展。在顺序扩展中,谷歌在初步完成后,迭代地在单一轨迹内完善推理,遵循自我精炼的原则。在这个过程中,自我精炼中生成的中间笔记也被用作宝贵的记忆信号,因为它们捕捉了推理尝试、修正和见解,这些内容可能不会出现在最终的解决方案中。

实验结果

谷歌在具有挑战性的基准测试上进行了广泛的实验,包括了网页浏览(WebArena、Mind2Web)和软件工程(SWE-Bench-Verified)任务。

表 1、2、3 分别展示了 ReasoningBank 在 WebArena、Mind2Web 和 SWE-Bench-Verified 上的评估结果,表明了在有效性(相对提高高达 34.2%)和效率(减少 16.0% 的交互步骤)上均优于基准方法。

特别地,ReasoningBank 与 MaTTS 的协同效果最好,使其成为基于记忆的经验扩展的关键组成部分。谷歌在 Webarena-Shopping 子集上实验了 MaTTS 与 Gemini-2.5-flash 的结合。默认下,MaTTS 集成了 ReasoningBank,但它也可以使用其他记忆机制。

为了研究整体的扩展效果,谷歌进行了以下基准测试:(i) 没有记忆机制的 MaTTS(MaTTS w/o memory),这代表了没有记忆机制的扩展设置;(ii) 没有聚合的 MaTTS(MaTTS w/o aggregation);(iii) MaTTS,用于展示与扩展因子 k 相关的效果。值得注意的是,k = 1 是没有扩展的设置。

结果如图 4 所示,表明并行扩展和顺序扩展都能提升性能。

更多实验结果请参阅原论文。

本文来自微信公众号“机器之心”,编辑:杜伟,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
美国百年太妃糖易手,Roca乐家被全资收购
作者 | 钟艺璇编辑 | 乔芊36氪获悉,BHM集团已完成对美国百年糖巧制造商Brown & Haley公司的全资收购,Brown & Haley是一家总部位于美国,成立于1912年的百年糖巧制造商,旗下拥有Almond ROCA、Mountain等糖巧品牌。交易于2026年4月17日正式完成交割。本次收购不会对Brown & Haley位于塔科马的总部生产基地造成影响,其原有生产运营将保持稳定。

0评论2026-04-234

风波中的基本面:东方通的现金底牌与产业惯性
去年,东方通因2019至2022年连续四年财务造假及欺诈发行被证监会立案调查,并在今年1月退市。这对一家以“国产中间件第一股”身份立足的信创企业而言,冲击是巨大的。但是,退市不等于经营停摆。公开信息显示,东方通账面拥有约17亿元货币资金与交易性金融资产,资产负债率仅11.09%。这种财务状况在退市企业中并不多见,因为多数往往伴随高额债务、资产查封和现金流枯竭。与此同时,东方通中间件主业有三十年的技

0评论2026-04-231

中东冲突,怎么把避孕套价格打上去了?
全球最大避孕套制造商,正在准备涨价。4月22日,马来西亚企业康乐(Karex Bhd)首席执行官Goh Miah Kiat表示,公司计划将产品价格上调20%至30%;如果中东局势持续扰动供应链,后续不排除进一步提价。 这条消息的反常之处在于,一个高度日常、几乎不被认为会被地缘政治直接击中的消费品,突然被卷入了中东冲突引发的能源与航运链条。它背后不是简单的消费品涨价,而是三重变化同时显现:中东局势的

0评论2026-04-230