分享好友 健康资讯首页 健康资讯分类 切换频道

「AI自进化」新进展:自主构建、优化Agent Skills

2026-03-18 17:323036kr

当前的通用 Agent 并不足以应对专业领域的复杂需求,现有解决方案多为手工编写领域特定 Skills,但这种方式不仅依赖人工,且难以扩展。

针对这一局限,来自 Sentient 与弗吉尼亚理工的研究团队提出了 EvoSkill 框架,一个能通过失败分析自动发现并优化 Agent Skills 的自我进化系统。

实验数据显示,EvoSkill 在 OfficeQA 金融文档问答任务上使准确率从 60.6% 提升至 67.9%,在 SealQA 对抗性搜索问答上实现了 12.1 个百分点的提升。该研究表明,Skills 层面的自动进化,有望成为提升 Coding Agent 专业能力的新方向。

论文链接:https://arxiv.org/abs/2603.02766v1

EvoSkill如何“自我进化”?

在当前的 AI 开发中,Agent Skills 多依赖人工编写,成本高昂且难以扩展。现有进化方法虽能自动优化,但仅针对 Prompt 或代码等底层产物,与特定任务强耦合,难以复用。

EvoSkill 将优化层次提升至 Skills 本身,自动生成可解释、可迁移的结构化 Skills。这种设计使得进化出的能力不再受限于单一任务,具备了类似人类技能的通用性。

EvoSkill 的核心是三个 Agent 相互协作的进化循环:

进化过程遵循如下流程:

前沿集合维护固定数量的高性能程序,确保进化方向持续向更优收敛。

图 | EvoSkill 循环概述。

这一机制的关键在于底层模型保持冻结,仅 Skills 库随迭代更新,从而将能力提升归因于 Skills 优化;反馈历史记录每次提案及其结果,帮助提议器避免重复无效方案,同时通过迭代使上下文信息逐步丰富;Skills 以文件夹形式存储,包含元数据和指令,便于跨任务和跨模型复用。

图 | EvoSkill——基于文本反馈的迭代 Skills 归纳。

实验验证

为验证 EvoSkill 的实际效能,研究团队在金融文档推理和搜索增强问答两个截然不同的领域进行了严格评估。

在 OfficeQA 基准测试中,EvoSkill 处理了包含复杂数据的美国财政部公报。实验结果显示,通过自动进化,Agent 的准确率从 60.6% 提升至 67.9%。在此过程中,EvoSkill 自动发现了数据提取验证 Skills 和量化分析方法 Skills,有效解决了 Agent 在复杂数据处理中的错误。

图 | EvoSkill 在 OfficeQA 基准测试中,不同训练分割和容差水平下的表现。

在包含噪声和冲突信息的 SealQA 任务上,EvoSkill 的表现尤为突出。基线模型准确率仅为 26.6%,进化后提升至 38.7%,增幅达 12.1%。其核心在于发现了搜索持久化协议 Skills,要求 Agent 在得出结论前进行多源验证和术语扩展,有效避免了因检索结果不足而过早停止搜索的问题。

实验进一步测试了 Skills 的迁移性。研究团队将在 SealQA 上进化出的搜索持久性协议直接应用于 BrowseComp 任务进行零样本迁移测试,未经任何修改,模型的准确率从 43.5% 提升至 48.8%,获得了 5.3 个百分点的增益。这一结果表明,EvoSkill 生成的 Skills 具备跨任务通用性,其效用不局限于原始训练场景。

启示与展望

EvoSkill 的研究为编码 Agent 的能力提升提供了新的思路。

理论层面看,将优化对象从提示词或代码片段提升至 Skills 层面,有助于解耦能力与具体任务及模型的绑定。Skills 以结构化形式存储,包含明确的触发条件和执行流程,使其在不同场景下具备可迁移性。这一方向或将为 Agent 能力构建提供新的技术路径。

实践层面看,自动化的 Skills 发现机制能够减轻手工编写 Skills 的人力负担。Skills 以独立文件夹形式存储,便于在不同 Agent 之间共享和复用,为构建开放 Skills 库奠定了基础,有助于推动 Agent 在协作场景下的能力互通。

未来,研究团队计划在更广泛的领域评估 EvoSkill,以更好地理解进化 Skills 的普适性,并区分哪些 Skills 具有领域通用性与领域特异性。并且,将其扩展到多模态任务,使 Skills 能够协调处理文本、图像、代码等多种输入形式。同时,探索 Skills 在不同模型和 Agent 框架之间的迁移能力,并考虑建立 Skills 共享社区,支持用户发现、组合和贡献 Skills。

本文来自微信公众号 “学术头条”(ID:SciTouTiao),作者:王跃然,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
抛弃“不作恶”,谷歌和五角大楼签订协议、承接美军机密AI业务,超700名员工联名反对
谷歌,这个曾以“不作恶”为行为准则的科技巨头,如今正深陷一场前所未有的内部风暴。28日,美国消费者新闻与商业频道(CNBC)援引科技媒体“The Information”报道,谷歌已与美国国防部签署协议,承接机密人工智能业务。一位知情人士透露,美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称,本周,700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊,要

0评论2026-04-2913

一季度净利环比暴增27倍,剑桥科技股价一年涨三倍,险资与社保基金加仓,股东高管减持
4月27日盘后,光模块概念大牛股剑桥科技(603083.SH、06166.HK)发布2026年一季报,公司一季度营收同比增长43.98%至12.87亿元;归母净利润同比增长276.44%至1.18亿元。从环比来看,剑桥科技今年第一季度营收环比下滑约12%;净利润环比增长2722.62%,而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股,剑桥科技H股曾在11个交易日完成了翻倍,4月2

0评论2026-04-2912

32美元一辆车,Tesla为什么不认?(下)
本案真正值得关注的,不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是,如果法院最终认为这类平台许可条款不能进入FRAND审查,那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时,实施者还能不能有效挑战其许可条件?这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看,Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-2914

“保本”又“看病”?监管部门约谈健康险公司,中介平台下架热销“医疗金”产品
早在前两年,市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长,这类产品的资产增值属性被放大,经过长期现金价值积累,配合可以累积的医疗保险金,使得产品有着不输理财型产品的收益率,这也是引起监管部门关注的原因之一。2026年4月初,当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时,他可能不会想到,体验活动中的重磅产品“岁月长安·特定疾病保险(互联网版)”即将面临下架。4月

0评论2026-04-2910