【导读】让AI像助手一样主动帮助,才是我们心中AGI的样子。主动智能体的概念已经被多次提出,但都很难做到可以真正在生活中落地。现有的工作都还停留在概念层面,无法解决复杂世界中所要求的实时性、深度、和记忆等问题。 南洋理工大学谢之非团队提出Pask,使用「底层小模型流式意图检测」+ 「上层Agents执行」架构,实现首个能够做到实时、有深度、基于个人全局记忆自进化的主动智能体。
开会时,当讨论到「Pask的上下文是不是可以考虑和Obsidian, 或者飞书联动一下?自成一派会很难」 时,Pask思考三秒后,给出了思路:
「你们如果把用户记忆全都收进自己系统,本质上是在做一个新的数据孤岛。这样虽然短期上更可控,但长期会有两个问题:一是不兼容用户已经在用的工具,二是用户迁移成本太高,生态天花板会很低。更好的定位不是自建一套记忆库,而是做: 个人上下文入口 + 生态上的主动AI编排层。也就是,用户的知识和行为仍然留在原系统里,你们负责理解、索引、触发、协同和执行。Pask更好的位置是:最懂这个人的统一入口,以及能在各生态之间主动行动的代理层。」
理想中的AI、人类真正期待的AGI,必须具备一种能力:主动性。
这种主动性,不是OpenClaw一类产品的「自主性」,也不是会后帮你写封邮件的AI,它必须深度理解你、能猜到你意图,并在恰当时机提供关键帮助的超级外挂大脑。
它不像工具一样被调用,而是需要包围你,能让你感受到「被主动关怀,又极有价值」。
听起来,这个问题似乎关注的是Agent机制,但真正开始做之后,就会发现,这件事远比想象中难:
准确性太低,一盘散沙式的消息看起来像是骚扰短信,给出有深度的实时辅助难度极大。
实时性太差,仅仅推理人类的需求都要3-4秒,而人类能够忍受的最大延迟极限是两秒。
海量记忆下对人的深度理解,主动式AI每天接受海量的新token,不可能每次都去查询,怎么保证系统能够自主切换正确的记忆背景,以及最核心的,真正了解自己的主人呢?
南洋理工大学的研究人员调研了大量相关论文和产品后发现,发现过去的大多数工作都在回避这些关键问题,尤其是实时性。
于是,研究人员决定自己探索一套方法,提出了「需求探测—记忆—主动智能体」的范式PASK,包括全新的问题解决范式、IntentFlow流式意图检测模型、自进化式记忆模块和主动智能体工程架构。
论文链接:https://arxiv.org/abs/2604.08000
需求检测、长期记忆、主动智能体范式
首先需要确定:主动AI需要哪些「组件」?
研究人员提出了一个通用范式,将被动模型转换为主动智能,包含三个相互作用的模块:需求检测(DD)、长期记忆(MM) 和主动系统(PAS)。
需求检测(Demand Detection,DD) 是第一步,也是最核心的一步。它与人类同听、同看,并实时检测出当下的需求——比如「他现在需要知道这个词的意思」,或「他可能在怀疑对方是否在说真话」。
长期记忆(MM) 负责系统中的个性化部分。它与用户一起成长、持续进化,作为贯穿始终的「长期上下文」。
主动系统(PAS) 是整个Agent的底层执行逻辑,保持循环运行,驱动前两个组件协同工作。
IntentFlow:流式意图检测模型
主动AI做过头就是信息骚扰。
一个好的主动AI,必须在实时性、精准度、触发频率上做到精准平衡。但不幸的是,准确率、记忆查询与实时响应,这三个特性天生相互矛盾。
更大的挑战在于:这件事完全无法用传统 Agent 的方式来做。如果整个流程需要在2秒内完成,留给意图检测的时间最多只有1秒,甚至不够完成一次API调用。
而意图推理,到记忆查询,至少需要10秒。
Proactive AI不是简单的Agents机制能做的事,研究人员从语音和视频的端到端流式模型获得灵感,选择了「模型+Agents」实现路径,即重新训一个在「文本流」上实时运行的意图检测模型,构建出了IntentFlow,接收文本化的多模态信息流和用户记忆,自主判断人类当下需要什么。
至于具体最终的结果是什么,IntentFlow并不关注,Intentflow只关心人类需要什么。
IntentFlow更像一座桥:一边是用户面对的信息流,一边是世界上最新,最强的AI,它只负责在正确的时机,成为AI介入的新入口。
MeMory:多层自进化记忆系统
记忆系统是主动AI与人类共同成长的核心,而主动AI的记忆有一层额外要求:实时。
在Pask中,研究人员借鉴了计算机存储的Cache—内存—外存架构,设计了三层记忆体系:
- 用户记忆(类似 Cache):AI随时需要知道用户是谁、有什么偏好。
- Workspace 记忆(类似内存):负责当前事件内部的所有上下文信息。
- 全局记忆(类似外存):现实中的事件往往是一个系列,全局记忆承担「超级上下文」的角色,跨事件持久保存。
PAS:主动AI底层的流式系统
主动AI如何在复杂的现实环境中稳定运行?
其底层系统相当复杂:每个Demand需要开启一个独立进程,所有环境变量需要持续维护,整个系统中存在一个DD-MM大循环,以及无数个内部小循环。
底层系统分为三层:
- 前端:负责信息流的输入与输出。
- 服务器后端:负责多进程执行、循环控制与数据存储调度。
- AI 后端:负责连接外部模型,提供可调用的搜索、工具和代码执行环境。
实验结果
Pask在学习、工作、日常三大领域的十类任务上进行了测试,效果与闭源模型加思考链的水平相当。
在延迟上,当其他开闭源模型普遍都需要3–10秒才能推理一次人类的潜在需要时,Intentflow只需要1.5s就可以结合着人类的个人,工作和全局记忆完成一次完整的意图检测。
在报告中,研究人员对于主动AI 进行了详细的实验,并总结为了12个findings。
主动AI的探索刚刚开始
AI变聪明,这条路已经走了很远;AI懂人,这件事才刚开始。
现实世界没有统一答案,只有复杂的场景、角色和任务。每个行业都有自己的工作流、判断方式和隐性规则,同一句话放在不同人身上,背后的需求可能完全不同。
主动AI的核心挑战,是数据。
真正的意图数据几乎不存在。不是因为缺少人工标注,而是从逻辑上说,标注本身就并不总是成立。
主动AI不再是 「I know what I don't know」 的逻辑,而是 「I don't know what I don't know」,因为所谓更深层、更有价值的信息,往往需要超出用户当下的认知。
很多时候,人并不真正知道自己想要什么,更说不清自己下一步需要什么。能证明 AI 猜对了的,不是一次问答是否对齐,而是它给出帮助之后,用户是不是立刻感到「就是这个」。
底层流式意图模型+上层Agents执行,才是主动AI的未来。
研究人员开发Pask的一年里,有几个月是在agents机制上下功夫的,最终得出的结论很简单:走不通。
原因也很直接:人类能接受的时延,连一次完整的模型调用都不够,更没有时间留给意图推理。
第一作者谢之非是做语音模型背景出身的。面对这个核心矛盾,当时就意识到,这是实时对话模型的历史重演。2024年之前,当语音助手有3秒延迟的时候,没有人能用得下去。
当GPT-4o这类实时模型出现,语音模型的应用瞬间爆发。开发团队当时就想到了用一个流式模型来做意图检测,才有了Intentflow。
所以,Pask从一开始就不打算去卷「更聪明」的执行agents,而是只做一件事:更快、更准地猜中人的心思。
不做更大的模型,也不做更复杂的调用逻辑,而是去回答一个问题:它能不能在连续上下文里看懂你,在你开口之前就知道你的深层意图,并在准确的时机,用极短的时间给出最有价值的帮助。
AI的未来,是主动理解意图的能力真正进入你身边的每一台移动设备,让AI不再只是回答问题,而是成为一个实时理解你、持续贴近你、真正懂你的AI soul knower。
作者介绍
论文第一作者谢之非是南洋理工大学的博士生。通讯作者为颜水成、苗春燕、叶德珩。
Pask研究团队的Project Lead为来自南洋理工大学的谢之非: 谢之非,南洋理工大学在读PhD。
研究方向为多模态流式模型。本科时曾做出全球首个「开源GPT4o」系列实时对话模型 Mini-Omni系列,三篇一作论文单引超过百次,开源项目累计获5k+ stars。
随后与颜水成老师一拍即合,选择离开清华大学加入NUS LV_Lab,成为其回归学术界后第一个博士生。 论文通讯作者为颜水成老师、苗春燕老师、叶德珩老师。
参考资料:https://arxiv.org/abs/2604.08000
本文来自微信公众号“新智元”,编辑:LRST ,36氪经授权发布。