分享好友 健康资讯首页 健康资讯分类 切换频道

AI的递归自我进化:那个东西的轮廓正在越来越清晰

2026-04-15 07:202036kr

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:别再谈什么“人机协作”了,我们已进入“管理AI”时代。当软件工厂实现零人工代码,AI的递归自进化正让指数曲线变得更加陡峭。文章来自编译。

2023 年 10 月,我写了一篇关于“那个东西的影子轮廓”的文章,推测了 AI 在未来几年可能演变成的“形态”。我想我们现在已经可以更清晰地看清这个东西的真容,以及它所带来的一些后果。正如我在最近的博文中所讨论那样,我们已经进入了 AI 的新阶段。在 ChatGPT 问世后,人类与 AI 的协作呈现出我所谓的“协同智能”形式,即人类通过反复的提示词交互来获得任务上的帮助。而从 2025 年底开始,得益于 Claude Code、OpenAI 的 Codex 以及 OpenClaw 等 AI 智能体(agents)的出现,我们进入了一个新纪元。你只需将工作交给这些 AI 系统——哪怕是需要耗费人类数小时的工作量——它们也能在几分钟内返回合理且有用的结果。这是一个“管理 AI”而非仅仅“与 AI 协作”的时代。

这种应用 AI 的新方式是 AI 能力呈指数级飞速提升的结果。这意味着,如果不理解 AI 持续增强的能力,你就无法理解我们的现状,也无法预判我们的未来。

驾驭指数增长浪潮

指数级增长你很难直观想象,所以我不打算先用图表,而是想从“水獭”谈起。如果你一直关注我关于 AI 的文章,你一定知道我的“水獭测试”:我挑战过各种 AI 图像模型,让它们生成一张“水獭在飞机上使用 WiFi”的图片。如下所示,从 2022 年(ChatGPT 发布之年)到 2025 年,这个进程是极其迅速且惊人的。

那么,自 2025 年 4 月那张图片以来又发生了什么呢?随着图像生成趋于完美,视频成为了新的前沿阵地,并且同样见证了指数级的进步。为了展示这一点,我给字节跳动(TikTok 母公司)开发的最先进(且尚未在美国发布)的 AI 视频模型输入了这样一个提示词:一部关于水獭如何看待 Ethan Mollick 的“水獭测试”的纪录片,该测试通过 AI 生成水獭坐在飞机上的图像能力来评判 AI。

除了一个发音错误外,这段视频几乎完美无缺,甚至水獭都被赋予了拟人化的表情。当然,视频模型很酷,但它们并不一定能代表实用的“智能体 AI”所能达到的高度。那么,如果我们看看 AI 能力的基准测试,是否也能看到同样的指数曲线呢?

在当今 AI 界最著名的评估体系——METR 长任务图中,我们确实看到了这种趋势。该测试试图通过观察 AI 能在多大可靠程度上自主完成多少人类工作量,来衡量 AI 的进步。虽然它引发了一些批评,甚至 METR 官方也指出了潜在的问题,但就算你不喜欢 METR 图表,你会发现绝大多数衡量 AI 能力的图表都呈现出相同的曲线。

作为示例,我选择了四项难度各异且多元的 AI 测试,并在下图中绘制了测试结果的变化情况。左上角是“Google 难不住(Google-Proof)”问答基准测试的得分,这是一项知识性测试,即便研究生使用 Google,在非专业领域的得分也仅为 34%,在专业领域约为 70%,而目前最顶尖的 AI 得分已达 94%。再看 GDPval,行业专家在复杂任务中对比 AI 与资深人类的表现,最新的 AI 在 82% 的情况下已经达到或超过了顶尖人类的水平。同样模式也出现在“人类最后的考试(Humanity’s Last Exam)”中,这是一套由大学教授编写、需要极高专业知识才能回答的难题集。我们甚至可以用 AI 解决谜题的能力作为参考。每一项都显示出能力在飞速提升,几乎没有放缓的迹象,至少在它们触及测试的满分天花板之前是这样。

抛开指数图表不谈,重要的是要意识到,所有这些测试都有其局限性,而且 AI 的表现依然呈现出“锯齿状的前沿”(jagged frontier),即在某些任务上表现极佳,而在另一些任务上却会搞砸。此外,尽管在测试中表现惊人,但企业在采用 AI 方面仍处于极早期阶段,这意味着到目前为止,大多数组织的现状几乎没有发生显著变化。但“大多数组织”并不代表所有组织。我们已经开始看到,利用 AI 智能体新能力进行组织管理的新方法已初露端倪。

工作方式的激进变革

几周前,StrongDM(一家专注于访问控制的安全软件公司)的一个三人团队宣布,他们建立了一座“软件工厂”——一种与 AI 智能体协作的模式,完全依赖 AI 编写、测试并发布生产环境软件,无需人类干预。这个流程包含了两条相当激进的规则:“代码不得由人类编写”以及“代码不得由人类审核”。为了支撑这座工厂的运转,每位人类工程师在 AI token 上的开销预计将与其薪资相当,每天至少 1000 美元。

该“工厂”的核心理念是:将人类编写的未来产品路线图转化为实际产品。编码智能体根据路线图开发软件,而测试智能体则在模拟客户环境中测试软件(模拟环境由测试智能体按需构建)。各组智能体互相提供反馈,反复循环,直到结果令 AI 满意。随后由人类审核成品,并将结果交付给客户,而这期间没有任何人接触、甚至看过底层的代码。

Slack 孪生版,这是由软件工厂的测试智能体构建的 Slack 模拟版本,用一群模拟客户提交请求,来测试编码智能体正在制作的工具。

显然,这种模式之所以能奏效,背后有很多细节支撑,StrongDM 团队已经公开分享了其中的大部分。他们还邀请了一些敏锐的外部观察者来观看工厂运行并发表评论,因此你可以通过 Simon Willison 和 Dan Shapiro 的记述来更深入地了解这种方法的优劣。然而,从多方面来看,软件工厂的具体细节其实并不如这一事实重要:对工作方式进行如此激进的实验不仅已成为可能,而且很可能已成为必然。AI 已经强大到足以改变组织的运作方式,而随着模型的持续优化,这种实验才刚刚开始。

滚动式颠覆

实用的智能体、参差不齐的指数级增长,以及对工作本质进行激进实验的能力,共同构成了一种滚动且不可预测的 AI 演进环境。随着 AI 能力突破各个阈值,它会解锁全新的应用场景,有时甚至能一夜之间改变人们对 AI 边界的认知。与此同时,正在进行 AI 实验的组织将摸索出最适合自己的运作方式,从而引发关于新战略或人才估值偏好大调整的突然公告。此外,随着 AI 的持续进步,更多的决策者将对 AI 治理产生兴趣,从而与 AI 公司产生冲突。

这并非臆测,因为我们刚刚在短短一周内目睹了这一切。2 月 22 日,一家名不见经传的金融公司 Citrini Research 发布了一个虚构情景,描述 AI 的应用可能在 2028 年前摧毁一批老牌企业。文中虽有许多显然牵强的元素,但它触动了华尔街的神经,导致股市价格出现剧烈波动。2 月 26 日,金融服务公司 Block 宣布裁员 40%,并暗示这与 AI 有关。实际上,AI 在其中的作用很可能被大大夸大了,它只是被当作大规模裁员的挡箭牌。最后,为这一周收尾的是 2 月 27 日五角大楼与 AI 公司 Anthropic 之间爆发的一场公开冲突,争论焦点在于:谁有权制定政府使用 Claude 的规则。

从很多方面来看,这些案例的表象与事实并不完全一致。Citrini 的报告纯属虚构情景,Block 的裁员并非真正源于 AI,而关于战争中 AI 的冲突则涉及一系列尚未完全明确的复杂问题。但我认为,那短短的一周很好地预示了不久的将来会是什么样:AI 能力的突然曝光导致市场的连锁反应;AI 对就业产生日益真切的影响(即便短期内的利弊仍存争议);以及 AI 公司与全球政策制定之间愈发紧密的纠缠。随着赌注的增加,局势可能会变得更加动荡。

当然,局面也有可能平息下来。或许 AI 的进步会撞上天花板,组织会逐步消化这些变化,而随着人们了解 AI 的能与不能,滚动式的颠覆也会变得更易控。历史上不乏曾被认为会一夜之间改变一切,结果却花了数十年才彻底重塑经济的技术。

但我并不看好这种平稳的可能性。

理由之一是,AI 公司正在相当明确地告诉我们下一步是什么:递归自我提升(Recursive Self-Improvement,简称 RSI)。其核心理念是,AI 系统正越来越多地被用于构建更好的 AI 系统,从而形成一个反馈闭环,这可能会进一步加速我之前展示的那些曲线。在今年 1 月的达沃斯论坛上,Anthropic 的 Dario Amodei 解释说,如果你制造出的模型擅长编程和 AI 研究,你就可以用它们来构建下一代模型,从而加快迭代周期。他指出,Anthropic 内部的工程师现在几乎不再亲自动手写代码了。当 OpenAI 在 2 月发布最新的 Codex 模型时,该公司声明这是“我们第一个在自身创建过程中发挥了关键作用的模型”。而 Google DeepMind 的 Demis Hassabis 在同一个达沃斯小组讨论中也承认,闭合自我提升的环路是所有主要实验室都在积极攻克的目标,尽管他也警告称目前仍缺乏某些能力,且存在真实风险。

我们不知道这会走向何方。RSI 作为一个理论概念已经有数十年的历史,不管是算力、数据,还是 AI 研究本身的艰巨程度,各大实验室可能都会遇到瓶颈。我们同样不知道基于大语言模型的 AI 是否最终会触及无法逾越的顶峰,或者那种“参差感”是否永远无法被消除。我认为目前没有任何定论,但我也认为,递归自我提升已经不再是科幻小说,而是每个主流 AI 公司路线图上的明确项目。如果这个环路真的闭合了,我们所观察到的指数曲线将变得更加陡峭,其终点也更加难以预料。

这就是我们现状:2 月份那个星期的动荡,正是当 AI 不断增长的能力开始同时冲击市场、就业和政府时,那种真实感受的预演。这种不确定感很可能会进一步蔓延。但不确定并不等同于无能为力。当一种技术如此强大且尚未定型时,个人和组织当下的选择就显得尤为重要。我们现在已经能看清这个“东西”的轮廓,但我们依然可以影响这个“东西”本身,以及它对我们所有人的意义。显然,在工作、学校或政府中如何使用 AI,我们目前既没有现成的规则,也没有可供效仿的典范。这是一个问题,但也意味着每一个正在摸索 AI 最佳实践的组织,都在为其他人树立先例。塑造这个“东西”的窗口期可能不会太长,但至少现在这个窗口还没关闭。

译者:boxi。

举报
收藏 0
打赏 0
评论 0
网易互娱架构调整,市场负责人王怡调任海外
文 | 贝果树编辑 | 果脯4月14日,网易互娱回应了“网易互娱市场中心负责人网怡离职”的传闻。网易互娱表示上述信息不实,“裁撤营销中台”也属子虚乌有,王怡因个人原因提出调任,已获公司批准。网易互娱发布的内部邮件显示,市场负责人王怡工作地点将调整至海外。原市场中心更名为用户增长中心,原渠道发行中心更名为发行中心。相关组织架构和人员调整工作将在4月内完成。王怡曾任宝洁品牌经理,于2010年加入网易,

0评论2026-04-145