AI的递归自我进化：那个东西的轮廓正在越来越清晰_健康_健康资讯

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：别再谈什么“人机协作”了，我们已进入“管理AI”时代。当软件工厂实现零人工代码，AI的递归自进化正让指数曲线变得更加陡峭。文章来自编译。

2023 年 10 月，我写了一篇关于“那个东西的影子轮廓”的文章，推测了 AI 在未来几年可能演变成的“形态”。我想我们现在已经可以更清晰地看清这个东西的真容，以及它所带来的一些后果。正如我在最近的博文中所讨论那样，我们已经进入了 AI 的新阶段。在 ChatGPT 问世后，人类与 AI 的协作呈现出我所谓的“协同智能”形式，即人类通过反复的提示词交互来获得任务上的帮助。而从 2025 年底开始，得益于 Claude Code、OpenAI 的 Codex 以及 OpenClaw 等 AI 智能体（agents）的出现，我们进入了一个新纪元。你只需将工作交给这些 AI 系统——哪怕是需要耗费人类数小时的工作量——它们也能在几分钟内返回合理且有用的结果。这是一个“管理 AI”而非仅仅“与 AI 协作”的时代。

这种应用 AI 的新方式是 AI 能力呈指数级飞速提升的结果。这意味着，如果不理解 AI 持续增强的能力，你就无法理解我们的现状，也无法预判我们的未来。

驾驭指数增长浪潮

指数级增长你很难直观想象，所以我不打算先用图表，而是想从“水獭”谈起。如果你一直关注我关于 AI 的文章，你一定知道我的“水獭测试”：我挑战过各种 AI 图像模型，让它们生成一张“水獭在飞机上使用 WiFi”的图片。如下所示，从 2022 年（ChatGPT 发布之年）到 2025 年，这个进程是极其迅速且惊人的。

那么，自 2025 年 4 月那张图片以来又发生了什么呢？随着图像生成趋于完美，视频成为了新的前沿阵地，并且同样见证了指数级的进步。为了展示这一点，我给字节跳动（TikTok 母公司）开发的最先进（且尚未在美国发布）的 AI 视频模型输入了这样一个提示词：一部关于水獭如何看待 Ethan Mollick 的“水獭测试”的纪录片，该测试通过 AI 生成水獭坐在飞机上的图像能力来评判 AI。

除了一个发音错误外，这段视频几乎完美无缺，甚至水獭都被赋予了拟人化的表情。当然，视频模型很酷，但它们并不一定能代表实用的“智能体 AI”所能达到的高度。那么，如果我们看看 AI 能力的基准测试，是否也能看到同样的指数曲线呢？

在当今 AI 界最著名的评估体系——METR 长任务图中，我们确实看到了这种趋势。该测试试图通过观察 AI 能在多大可靠程度上自主完成多少人类工作量，来衡量 AI 的进步。虽然它引发了一些批评，甚至 METR 官方也指出了潜在的问题，但就算你不喜欢 METR 图表，你会发现绝大多数衡量 AI 能力的图表都呈现出相同的曲线。

作为示例，我选择了四项难度各异且多元的 AI 测试，并在下图中绘制了测试结果的变化情况。左上角是“Google 难不住（Google-Proof）”问答基准测试的得分，这是一项知识性测试，即便研究生使用 Google，在非专业领域的得分也仅为 34%，在专业领域约为 70%，而目前最顶尖的 AI 得分已达 94%。再看 GDPval，行业专家在复杂任务中对比 AI 与资深人类的表现，最新的 AI 在 82% 的情况下已经达到或超过了顶尖人类的水平。同样模式也出现在“人类最后的考试（Humanity’s Last Exam）”中，这是一套由大学教授编写、需要极高专业知识才能回答的难题集。我们甚至可以用 AI 解决谜题的能力作为参考。每一项都显示出能力在飞速提升，几乎没有放缓的迹象，至少在它们触及测试的满分天花板之前是这样。

抛开指数图表不谈，重要的是要意识到，所有这些测试都有其局限性，而且 AI 的表现依然呈现出“锯齿状的前沿”（jagged frontier），即在某些任务上表现极佳，而在另一些任务上却会搞砸。此外，尽管在测试中表现惊人，但企业在采用 AI 方面仍处于极早期阶段，这意味着到目前为止，大多数组织的现状几乎没有发生显著变化。但“大多数组织”并不代表所有组织。我们已经开始看到，利用 AI 智能体新能力进行组织管理的新方法已初露端倪。

工作方式的激进变革

几周前，StrongDM（一家专注于访问控制的安全软件公司）的一个三人团队宣布，他们建立了一座“软件工厂”——一种与 AI 智能体协作的模式，完全依赖 AI 编写、测试并发布生产环境软件，无需人类干预。这个流程包含了两条相当激进的规则：“代码不得由人类编写”以及“代码不得由人类审核”。为了支撑这座工厂的运转，每位人类工程师在 AI token 上的开销预计将与其薪资相当，每天至少 1000 美元。

该“工厂”的核心理念是：将人类编写的未来产品路线图转化为实际产品。编码智能体根据路线图开发软件，而测试智能体则在模拟客户环境中测试软件（模拟环境由测试智能体按需构建）。各组智能体互相提供反馈，反复循环，直到结果令 AI 满意。随后由人类审核成品，并将结果交付给客户，而这期间没有任何人接触、甚至看过底层的代码。

Slack 孪生版，这是由软件工厂的测试智能体构建的 Slack 模拟版本，用一群模拟客户提交请求，来测试编码智能体正在制作的工具。

显然，这种模式之所以能奏效，背后有很多细节支撑，StrongDM 团队已经公开分享了其中的大部分。他们还邀请了一些敏锐的外部观察者来观看工厂运行并发表评论，因此你可以通过 Simon Willison 和 Dan Shapiro 的记述来更深入地了解这种方法的优劣。然而，从多方面来看，软件工厂的具体细节其实并不如这一事实重要：对工作方式进行如此激进的实验不仅已成为可能，而且很可能已成为必然。AI 已经强大到足以改变组织的运作方式，而随着模型的持续优化，这种实验才刚刚开始。

滚动式颠覆

实用的智能体、参差不齐的指数级增长，以及对工作本质进行激进实验的能力，共同构成了一种滚动且不可预测的 AI 演进环境。随着 AI 能力突破各个阈值，它会解锁全新的应用场景，有时甚至能一夜之间改变人们对 AI 边界的认知。与此同时，正在进行 AI 实验的组织将摸索出最适合自己的运作方式，从而引发关于新战略或人才估值偏好大调整的突然公告。此外，随着 AI 的持续进步，更多的决策者将对 AI 治理产生兴趣，从而与 AI 公司产生冲突。

这并非臆测，因为我们刚刚在短短一周内目睹了这一切。2 月 22 日，一家名不见经传的金融公司 Citrini Research 发布了一个虚构情景，描述 AI 的应用可能在 2028 年前摧毁一批老牌企业。文中虽有许多显然牵强的元素，但它触动了华尔街的神经，导致股市价格出现剧烈波动。2 月 26 日，金融服务公司 Block 宣布裁员 40%，并暗示这与 AI 有关。实际上，AI 在其中的作用很可能被大大夸大了，它只是被当作大规模裁员的挡箭牌。最后，为这一周收尾的是 2 月 27 日五角大楼与 AI 公司 Anthropic 之间爆发的一场公开冲突，争论焦点在于：谁有权制定政府使用 Claude 的规则。

从很多方面来看，这些案例的表象与事实并不完全一致。Citrini 的报告纯属虚构情景，Block 的裁员并非真正源于 AI，而关于战争中 AI 的冲突则涉及一系列尚未完全明确的复杂问题。但我认为，那短短的一周很好地预示了不久的将来会是什么样：AI 能力的突然曝光导致市场的连锁反应；AI 对就业产生日益真切的影响（即便短期内的利弊仍存争议）；以及 AI 公司与全球政策制定之间愈发紧密的纠缠。随着赌注的增加，局势可能会变得更加动荡。

当然，局面也有可能平息下来。或许 AI 的进步会撞上天花板，组织会逐步消化这些变化，而随着人们了解 AI 的能与不能，滚动式的颠覆也会变得更易控。历史上不乏曾被认为会一夜之间改变一切，结果却花了数十年才彻底重塑经济的技术。

但我并不看好这种平稳的可能性。

理由之一是，AI 公司正在相当明确地告诉我们下一步是什么：递归自我提升（Recursive Self-Improvement，简称 RSI）。其核心理念是，AI 系统正越来越多地被用于构建更好的 AI 系统，从而形成一个反馈闭环，这可能会进一步加速我之前展示的那些曲线。在今年 1 月的达沃斯论坛上，Anthropic 的 Dario Amodei 解释说，如果你制造出的模型擅长编程和 AI 研究，你就可以用它们来构建下一代模型，从而加快迭代周期。他指出，Anthropic 内部的工程师现在几乎不再亲自动手写代码了。当 OpenAI 在 2 月发布最新的 Codex 模型时，该公司声明这是“我们第一个在自身创建过程中发挥了关键作用的模型”。而 Google DeepMind 的 Demis Hassabis 在同一个达沃斯小组讨论中也承认，闭合自我提升的环路是所有主要实验室都在积极攻克的目标，尽管他也警告称目前仍缺乏某些能力，且存在真实风险。

我们不知道这会走向何方。RSI 作为一个理论概念已经有数十年的历史，不管是算力、数据，还是 AI 研究本身的艰巨程度，各大实验室可能都会遇到瓶颈。我们同样不知道基于大语言模型的 AI 是否最终会触及无法逾越的顶峰，或者那种“参差感”是否永远无法被消除。我认为目前没有任何定论，但我也认为，递归自我提升已经不再是科幻小说，而是每个主流 AI 公司路线图上的明确项目。如果这个环路真的闭合了，我们所观察到的指数曲线将变得更加陡峭，其终点也更加难以预料。

这就是我们现状：2 月份那个星期的动荡，正是当 AI 不断增长的能力开始同时冲击市场、就业和政府时，那种真实感受的预演。这种不确定感很可能会进一步蔓延。但不确定并不等同于无能为力。当一种技术如此强大且尚未定型时，个人和组织当下的选择就显得尤为重要。我们现在已经能看清这个“东西”的轮廓，但我们依然可以影响这个“东西”本身，以及它对我们所有人的意义。显然，在工作、学校或政府中如何使用 AI，我们目前既没有现成的规则，也没有可供效仿的典范。这是一个问题，但也意味着每一个正在摸索 AI 最佳实践的组织，都在为其他人树立先例。塑造这个“东西”的窗口期可能不会太长，但至少现在这个窗口还没关闭。

译者：boxi。