分享好友 健康资讯首页 健康资讯分类 切换频道

突破万次连续编辑极限,中科院提出首个理论保稳的知识保留方法

2026-03-12 11:0823036kr

LyapLock首次让大模型在上万次知识更新中稳住旧记忆、精准学新知。它用「虚拟队列」实时监控遗忘风险,动态平衡新旧知识,理论保证长期不崩盘,编辑效果比主流方法提升11.89%,还能赋能现有模型,让AI真正学会「持续成长」。

大型语言模型通常包含事实上不正确或过时的知识,这催生了用于实现精确知识更新的模型编辑方法。然而,由于缺乏适当的长期知识保留机制,当前主流的「先定位后编辑」方法在连续编辑过程中表现出渐进式的性能下降。

为了解决这个问题,中科院信工所的研究人员提出了LyapLock,将连续编辑建模为一个受约束的随机规划问题。鉴于累积保留误差约束以及逐渐揭示的编辑任务所带来的挑战。

论文链接: https://arxiv.org/pdf/2505.15702

LyapLock整合了排队论和李雅普诺夫(Lyapunov)优化,将长期的约束规划分解为易于处理的逐步子问题,从而实现高效求解。

这是第一个具备严格理论保证的模型编辑框架,在满足长期知识保留约束的同时,实现了渐近最优的编辑性能。

实验结果表明,该框架将连续编辑的能力扩展到了10,000次以上,在稳定模型通用能力的同时,其平均编辑效果比当前最先进(SOTA)的基线方法提升了11.89%。此外,该框架还可以被用来增强现有基线方法的性能。

研究背景

目前主流的「先定位后编辑(Locate-then-edit)」范式(比如大名鼎鼎的ROME和MEMIT)在单次知识更新上极其精准。为了让它们适应连续编辑,近期的研究(如RECT、AlphaEdit)尝试在参数搜索时加入正则化或零空间投影等启发式约束。

痛点在于:这些方法本质上都是短视的。

它们大都只专注于眼前的单步增量优化,缺乏一个严谨的理论框架来管控连续编辑在长期带来的累积效应 。

每次编辑似乎只破坏了一点点原有知识,但一万次编辑之后,累积的保留损失(Preservation Loss)会呈现单调上涨的失控态势 。

实验残酷地证明了这一点:在连续编辑10,000个样本后,所有主流基线方法在下游任务上的性能几乎全部掉到了零点(图1)。

图1:基线方法Preservation Loss爆炸和下游任务F1归零的折线图

研究方法

既然头痛医头脚痛医脚不行,那就必须从全局视角重新定义问题。

LyapLock 没有继续在单步损失函数上缝缝补补,而是直接把连续编辑建模成了一个带长期约束的随机规划问题(图2)

图2:传统的单步双目标优化与 LyapLock 约束长期优化的核心区别公式对比图

用「剥洋葱」的方式来说,直觉(Intuition)是这样的:

通过这种方式,研究人员在理论上证明了:只要虚拟队列保持强稳定,模型在无限次连续编辑中的平均保留损失就一定会被死死锁在红线之内 。

详细结果

用真实的实验数据来说话,在LLaMA-3(8B)、GPT-J(6B) 等多个模型上进行了极限测试 。

破万次编辑,通用能力不崩盘

在连续编辑10,000次后,所有的基线方法(ROME, MEMIT, PRUNE, RECT, AlphaEdit)在 GLUE 六大下游任务上全军覆没,性能暴跌至0%。而LyapLock稳如泰山,甚至当把压力测试拉高到20,000次编辑时,模型依然保持着极佳的通用语言能力。同时,在其他基线方法的Preservation Loss类似指数上升的同时,LyapLock方法将其限制在了一定的阈值内(图3,图4)。

图3:GLUE下游任务抗跌对比

图4:Preservation Loss稳定在阈值内的对比图

知识更新性能霸榜

不仅老知识护得好,新知识也学得精。相比于第二强的基线AlphaEdit,LyapLock的平均编辑效力(Efficacy)硬生生拔高了11.89%。在LLaMA3-Counterfact场景下,泛化能力更是拉开了19.71%的巨大差距 。

图5:主实验结果

即插即用的外挂神器

LyapLock的理论框架不仅能单打独斗,还能向下兼容!把它和MEMIT、PRUNE等现有方法结合,能够直接让它们的编辑性能提升9.76%,下游任务表现更是暴涨41.11%

图6:结合 LyapLock 后基线方法性能提升的雷达图

总结与展望

LyapLock第一次利用Lyapunov优化为连续编辑套上了一层带理论保证的「锁」。它证明了,只要控制好长期损失的累积,LLM完全有潜力像人类一样,在漫长的生命周期中持续学习和修正认知,而不至于「学了新知识,忘了自己是谁」 。

当然,目前的工作也还有进步空间。

比如评测主要集中在自然语言理解(NLU)任务上,未来在代码生成、复杂数学推理等领域,这种连续编辑的锁还能不能锁得这么稳?更大的十万、百万级编辑量极限又在哪里?这些都非常值得社区继续深挖 。

参考资料:

https://arxiv.org/pdf/2505.15702

本文来自微信公众号“新智元”,作者:LRST ,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
抛弃“不作恶”,谷歌和五角大楼签订协议、承接美军机密AI业务,超700名员工联名反对
谷歌,这个曾以“不作恶”为行为准则的科技巨头,如今正深陷一场前所未有的内部风暴。28日,美国消费者新闻与商业频道(CNBC)援引科技媒体“The Information”报道,谷歌已与美国国防部签署协议,承接机密人工智能业务。一位知情人士透露,美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称,本周,700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊,要

0评论2026-04-2912

一季度净利环比暴增27倍,剑桥科技股价一年涨三倍,险资与社保基金加仓,股东高管减持
4月27日盘后,光模块概念大牛股剑桥科技(603083.SH、06166.HK)发布2026年一季报,公司一季度营收同比增长43.98%至12.87亿元;归母净利润同比增长276.44%至1.18亿元。从环比来看,剑桥科技今年第一季度营收环比下滑约12%;净利润环比增长2722.62%,而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股,剑桥科技H股曾在11个交易日完成了翻倍,4月2

0评论2026-04-2912

32美元一辆车,Tesla为什么不认?(下)
本案真正值得关注的,不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是,如果法院最终认为这类平台许可条款不能进入FRAND审查,那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时,实施者还能不能有效挑战其许可条件?这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看,Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-2914

“保本”又“看病”?监管部门约谈健康险公司,中介平台下架热销“医疗金”产品
早在前两年,市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长,这类产品的资产增值属性被放大,经过长期现金价值积累,配合可以累积的医疗保险金,使得产品有着不输理财型产品的收益率,这也是引起监管部门关注的原因之一。2026年4月初,当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时,他可能不会想到,体验活动中的重磅产品“岁月长安·特定疾病保险(互联网版)”即将面临下架。4月

0评论2026-04-298