"我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现,它竟然也能!"
小米大模型团队负责人罗福莉在接受「语言即世界」访谈时,抛出了这个让她自己都感到残酷的发现。
当被问及AGI(通用人工智能)何时到来时,她的回答干脆利落:“我感觉两年内应该能实现”。
这位被誉为“天才少女”、如今主导小米MiMo-V2系列模型的技术领袖,在三个半小时的访谈里,抛出了一系列大胆的观点:
她认为大模型完全可能“自己左脚踩右脚就提升了”,2年内实现AGI。
她断言“上一个时代的成功并不意味着下一个时代的领先,现在基本上大家在同一水平线”,而1T参数是争夺下一时代王座的入场券。
在她带领团队训练千亿参数模型背后,是一个没有职级、没有小组、甚至没有deadline的松散组织。
而访谈篇幅最长、干货最密集、也最为犀利的部分,是关于Agent。
她没有谈空洞的概念,更像是一个研究者被技术范式剧变击中后的复盘。
以下,是我们基于这次深度对话整理的核心内容,enjoy~
AI范式巨变的核心预判
1. 模型“自己左脚踩右脚就提升了”,研究工作正被AI替代
罗福莉最受冲击的一点是,她发现只要把近期研究Context告诉Agent,它甚至能复原研究员的科研成长路径,并像研究员一样讨论问题。
她由此提出一个更激进的判断:未来模型可能也能训练出人类能训练出的模型,甚至训练出更强模型,“自己左脚踩右脚就提升了”。
她认为,AI会先吸收所有人的智能,再靠自己产生更强智能,这是一两年内会发生的事。
2. 两年内实现AGI,工作模式将先被颠覆
罗福莉对AGI时间表的判断非常激进。
她认为,现在AGI历程大约走到20%,今年至少能到60%—70%,“两年内应该能实现”。
但她强调,最先被颠覆的是工作模式,而不是生活模式。因为工作直接产生生产力价值,生活场景的改造更依赖机器人和硬件进展。
她判断,未来大部分人会被迫抛弃原来的工作方式。
3. 2026年是生产力加速变革的一年
她给2026年的定义不是“Agent元年”,而是“生产力加速变革的时代”。
她认为,今年很多人会直接感受到,大量工作不再需要自己完成。
这种变化不只发生在程序员身上,任何接触Agent的人都会发现,自己的许多任务正在被替代。
她进一步把问题抛回给人:当很多工作可以交给AI,人究竟还剩下什么意义和价值?
OpenClaw与Agent框架
4. OpenClaw是“划时代的Agent框架”,而不是普通产品
罗福莉明确把OpenClaw定义为“划时代的Agent框架”。
她认为,产品是人直接交互能感受到的那一层,而Agent框架不只定义交互层,还定义系统怎样跟模型沟通。
它能理解模型的长板、短板,做成本优化和调度。
换句话说,UI只是最薄的一层,真正重要的是背后那套厚重的中间层。
5. 好的Agent框架,本质是弥补模型行动能力的缺陷
她认为,一个好的Agent框架不是简单包装模型,而是弥补模型行动上的缺陷。
比如持久记忆、消息通道、定时任务、心跳任务、自我更新,都是为了给模型补充行动Context。
她的底层判断是:大模型拿到越好的Context,执行效果越好。
所以框架的核心价值,就是把模型自己拿不到的环境信息、任务状态和行动上下文补进去。
6. OpenClaw的开源价值:用户可以直接改框架
她认为,Claude Code也是复杂Agent框架,但因为黑盒,外界不知道它如何设计,也无法修改。
OpenClaw的冲击在于开源:用户不仅可以用,还可以基于自己的场景改memory、改workflow、改Multi Agent逻辑。
罗福莉自己就让Claude Opus 4.6帮她重写过记忆系统和多智能体系统。她称这种“原生可操纵性”带来了很大冲击。
7. 群体智能会加速Agent框架进化
更让她震动的是群体智能。
一个人改框架,进步很慢;一群人在飞书群里一起用、一起改、互相激发想象力,框架几小时就能迭代一轮。
她认为,这是开源Agent框架最重要的价值。
8. Agent框架激发了“中层模型的上限”
罗福莉不否认,OpenClaw的上限很大程度来自Claude Opus 4.6。
但她真正看重的是,当Opus把框架改好后,再切到Sonnet、国内模型,甚至小米自己的 MiMo-V2-Pro,也会觉得很强。
她由此判断,复杂Agent框架能弥补大量模型短板,让中层模型在多数生活场景和轻代码提效场景里,接近顶尖模型体验。
9. 精巧编排不会因为模型变强而消失,因为成本永远重要
她不认同“模型变强后,Agent框架就不重要了”。
原因很现实:成本。
她说,不可能所有场景都用最顶尖模型,因为太贵。
更可能发生的是,Agent和模型同时进化,同一水平的模型变得越来越小。
她甚至判断,现在激活10B的模型,过一年可能做到Claude Opus 4.6的水平,而且成本极低。
模型竞争格局与Agent技术路线
10. 大模型战争第二幕:从Chat时代转向Agent时代
罗福莉判断,大模型竞争已经进入第二幕。
第一幕是Chat,主要靠预训练和短上下文对话释放智能;
第二幕是Agent,核心变成复杂Agent框架、多轮长程任务、后训练和强化学习scaling。
她强调,“上一个时代的成功并不意味着下一个时代的领先”,现在大家重新站到同一起跑线。
11. 中美模型代差只有2-3个月
罗福莉判断,国内具备1T基座的模型厂商(Kimi、MiMo等),距离Claude Opus 4.6只有两三个月的代差。如果反应速度足够快,可以追上当代的Claude。
关键变量是团队的研究水平、技术敏捷程度,以及能否拥抱新范式。
12. 接下来的赛点是Agent的后训练
她认为,至少过去三个月,Agent路径已经变得更清晰,Anthropic走在前面。
过去大家误以为Claude做很多Context工程,是因为模型结构不够先进、为成本妥协。
现在才发现,那是为了配合模型发挥更强的整体任务完成度。
罗福莉认为,真正的赛点是Agent的后训练,更具体地说,是在Agent上做好强化学习scaling。
13. 1T基座模型是Agent时代的入场券
罗福莉认为,1T参数不是泛泛意义上的大模型门槛,而是Agent要接近Claude Opus 4.6水平的入场券。
参数量和Context共同决定智能上限,要达到当前最强Agent水平,可能需要1T以上总参数。
除了足够强的基座模型,还需要足够快的后训练和范式迁移能力。目前中国还没有同时具备两者的公司。
同时,她也指出,要拿到下一阶段领先,就要继续思考更大规模scaling。
问题不是简单扩大参数量,而是到底scaling什么、在哪类芯片上scaling、怎样匹配未来Agent框架和推理需求。
14. 用卡比例正在变化:从3:5:1到3:1:1
她给出一个非常具体的资源配置判断:
Chat时代,研究、预训练、后训练的用卡比例可能是3:5:1,预训练占绝对主导。
Agent时代,更合理的比例可能变成 3:1:1,即研究用卡最多,预训练和后训练相当。
她说,顶尖团队的预训练和后训练用卡比例,应该已经接近1:1。
15.卡会变成更关键瓶颈,因为idea产生和验证速度太快
Agent进入研究流程后,罗福莉认为,算力卡反而变得更紧张。
过去一个 idea,从写代码到设计评估可能要一两周,现在一两个小时就能做完,十个idea可以交给不同agent并行验证。
研究效率大幅提升后,实验并行量上来,训练卡、研究卡、推理卡都会成为关键瓶颈。
16. 推理需求会爆发,推理芯片进入高需求阶段
她判断,随着Agent框架变强、模型能力提升、成本下降,推理需求会立刻爆发,几倍到10倍的空间可能马上出现。
因为Agent任务更长、更复杂,token消耗更高。
她特别提到,很多卡的瓶颈在存储,如何在现有产能下做更好、更低成本的推理,会成为非常关键的问题。
Agent时代的人机交互与数据形态
17. 以前很多所谓Agent,其实只是“复杂一点的Chat”
罗福莉对2025年很多Agent叙事并不认可。
她认为,许多模型只是换了更复杂的系统提示词,加一点环境反馈,离真正工业级可用还很远。
真正的Agent能力,要看模型接入Claude Code、OpenClaw这类复杂框架后,能否稳定理解框架并完成任务。
她甚至认为,一些Agent Benchmark高分,并不代表模型真的具备可泛化的Agent 能力。
18. 人与Agent的交互范式变了:人不再改细节,而是做高阶判断
她认为,在Agent范式下,人不会再主要提出“这行代码错了,帮我改一下”这种请求,而是提出更高阶的问题:增加限制、澄清需求、参与架构设计、补充业务逻辑。
尤其是业务逻辑,往往来自企业内部真实环境,不存在于互联网预训练数据中,必须在人和Agent多轮交互中沉淀下来。
19. Skills是预训练数据之外的关键补充
罗福莉认为,Skills的意义不只是提升执行准确率,而是让人以一种新方式主动贡献数据。
许多企业内部规范、业务流程、组织经验,不可能出现在预训练数据里,但可以由人教Agent,通过多轮任务把这些规范沉淀下来。
她把这些信息称作另一种“阿尔法”,是预训练数据之外的关键补充。
20. 长上下文是Agent时代的底层能力
在 MiMo-V2 的设计上,她说团队很早就意识到长上下文对Agent很重要。
长上下文不只是“能塞更多内容”,而是能让模型在复杂任务中保留更多状态、历史和依赖。
但她也强调,长上下文必须兼顾低成本和高速度,否则1M、10M上下文都很难真正使用。
21. 高价值任务和普适任务,是Agent发展的两条路
她把Agent发展分成两类:
一类是替代高价值任务,用更长Context、更多token、更复杂推理,去逼近顶尖人群的智能;
另一类是做对所有人都有帮助的普适模型,让更多人感受到智能水平。
前者更接近科研、工程、专业生产力;后者更重多模态、成本、速度和普惠性。
22. Multi Agent会发生,但现在很多还“有点伪”
罗福莉对Multi Agent很克制。
她认为,多智能体协作一定会发生,但现在很多Multi Agent工作“有点伪”。
它们可以提升速度、节省成本,也可能激发群体智慧,但她还没看到明确证据证明Multi Agent能提升任务完成率上限。
她认为,真正突破还需要更便宜模型、更好的自进化架构和协作机制。
关于多模态、开源与创业生态
23. 模型定价逻辑要从“按推理成本”转向“按产生价值”
她解释MiMo-V2-Pro为什么不延续MiMo-V2-Flash的极致低价逻辑:
预训练时代,根据模型结构和推理成本定价是合理的;
但后训练时代,模型对Context的理解、对Agent框架的适配,以及最终产生的任务价值,都应该进入定价逻辑。
换句话说,价格不应只看token成本,而要看模型在Agent任务中创造多少价值。
24. 多模态有没有促进智能,根本不关键
罗福莉原本相信多模态是通往AGI的重要路径,但在训练MiMo-V2-Omni后变得更谨慎。
她观察到,原生多模态训练让模型在世界感知、情商、知识储备上有体感提升,但Benchmark上没有证据证明它显著提升智能。
因此她认为,在Agent可以优雅编排多个模型能力的情况下,多模态是否直接促进智能,并不是最关键的问题。
25. 开源是加速AGI的必要路径
罗福莉从终局倒推开源:如果AGI会替代绝大部分生产力,就需要大量芯片、推理、能源和Agent框架协同,不可能由一家公司独占。
她认为,开源至少会促进Agent框架、芯片、能源等多个环节,是加速AGI进程的一种方式。
是否开源,则取决于公司有没有别人短期拿不下的战略生态位。
26. 模型公司和产品公司的边界会变模糊,“模型即产品”更突出
她认为,模型借助Agent架构后,本身就会变成一套新的产品,而且产品力更强。
过去模型公司可能只做底座,应用公司负责产品化。
但Agent框架把模型直接接入任务流、工作流和生产力场景后,模型公司会越来越没有边界。
27. 创业公司会越来越小,甚至一个人也可以成为公司
罗福莉认为,Agent会改变创业公司的组织规模。
未来几个人甚至一个人,都可能成为一家公司。
她提到,“一个人养很多个员工”的Multi Agent说法现在看还有些噱头,但今年内会很快变成现实。
前提是模型足够便宜,Agent架构足够好,能够真正比雇一个员工更划算。
除了技术观点,罗福莉在组织管理上的理念,同样带有鲜明的反传统色彩。
比如,她带领的MiMo团队约100人,内部不设小组、不设职级,甚至没有明确的deadline。她认为平权本身是有价值的,有利于所有人平等地贡献自己的创造力和智慧。
MiMo团队真正投入一代模型迭代的核心人员不过二三十到三四十人,她发现大团队在需要深入排查问题、算法与Infra联合debug时,反而可能是劣势。
在人才观上,她信奉“环境比经验更重要”。
她不看重大模型经验,认为能力在好环境中一两个月即可习得,更在乎一个人“初始化的checkpoint上限”。
团队成长就像“互相蒸馏”,各自吸取对方的长处。
她甚至更青睐大二大三的本科生,因为他们在Agent新范式面前“思想还没有被禁锢”。
驱动这一切的,不是KPI和管控,而是热爱。
总的来说,这是一场信息密度极高、充满真实触感和技术洞察的对话。
对于罗福莉的这些观点,你怎么看?
本文来自微信公众号“世界模型工场”,作者:世界模型工场,36氪经授权发布。