神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:95%的AI项目都失败了?真实数据泼了盆冷水:近三成财富500强已悄悄入场,编程与法律正疯狂收割ROI。文章来自编译。
关于人工智能在大型企业中究竟渗透到了何种程度,外界的传闻不断。但现有的信息大多源自用户的自发反馈,或是侧重于买家主观感受的定性调查,缺乏硬性数据支撑。此外,仅有的几项研究甚至断言AI在企业当中的表现差强人意,其中最引人注目的当属麻省理工学院(MIT)的一项研究,该研究声称95%的生成式AI试点项目未能成功转化。
基于我们的内部数据以及与企业高管的深入交流,我们认为这一统计数据很难令人信服。我们一直密切跟踪AI普及率最高以及投资回报率(ROI)最显著的领域,并汇编了关于企业级AI实际落地情况的坚实数据。
AI初创企业在企业的渗透率
根据我们的分析,29%的财富500强企业和约19%的全球2000强企业已成为领先AI初创公司的付费活跃客户。
我们的统计标准要求,这些企业必须与AI初创公司签署了自上而下的合同,成功完成了试点转化,并已在组织内部正式上线运行相关产品。
在如此短的时间内达到这样的渗透水平,确实令人瞩目,因为财富500强企业向来不以“早期采用者”著称。从历史上看,许多初创公司最初只能向其他初创公司销售产品以获取早期动力,往往要经过数年才能签下第一份企业级合同,而要最终拿下财富500强级别的客户,则需要投入更多的资金和时间。
AI颠覆了这一常态。OpenAI于2022年11月推出的ChatGPT,瞬间让消费者和企业同时看到了AI的巨大潜力。此举掀起了一场前所未有的AI热潮,这种关注度是以往任何一代技术都无法企及的;而大型企业也表现出了前所未有的意愿,开始在更早阶段押注于新兴产品。结果就是:仅用了3年多时间,就有近三分之一的财富500强企业和五分之一的全球2000强企业在组织内部实现了真正的企业级AI部署。
企业级AI的成效如何
在哪些领域的采用情况最快?其与模型本身擅长的工作相对应情况又如何呢?
我们发现,评估这一问题最有效的办法是将各应用场景的营收增长势头与模型的理论能力进行对比。这里的“理论能力”参考了OpenAI知名的GDPval基准,该基准旨在评估模型在现实世界中具有经济价值的任务上的表现。在我们看来,这两个因素共同涵盖了模型的潜力上限以及目前已被证明能交付的价值。这不仅清晰地展示了AI普及的现状和未来趋势,还揭示了即便模型能力已趋于成熟,但在普及过程中依然存在的“AI滞后”现象。
如今企业级AI在什么地方创造的价值最多?
从营收势头来看,企业对AI的采纳主要集中在一系列明确的应用场景和行业中。编程、客户支持和搜索占据了应用场景的绝大部分份额(其中编程更是这些场景中数量级级别的佼佼者),而科技、法律和医疗领域则是对AI最感兴趣的行业。
编程:编程是AI应用中绝对的主导场景,领先优势接近一个数量级。这一点在Cursor等公司的爆发式增长,以及Claude Code和Codex等工具的超高速增长中得到了充分印证。这些增长率远远超出了几乎所有人最乐观的预测。目前,财富500强和全球2000强企业对AI工具的采纳,绝大部分都集中在代码领域。
无论是在技术能力层面,还是在企业市场的接受度层面,从多方面来看,编程都是AI的理想应用场景。编码属于数据密集型业务,这意味着网上有海量的高质量代码可供模型训练;代码基于文本,易于模型解析;代码精准且无歧义,具有严格的语法和可预测的结果。最关键的一点是,代码是可验证的:任何人都可以运行它并获知其是否有效,这为模型的学习和改进创造了紧密的反馈回路。
从商业角度看,这也是一个极佳的应用。我们经常从投资组合的公司那里听到,顶级工程师在使用AI编程工具后,其生产力提高了10到20倍。招聘工程师一向困难且昂贵,因此任何能提高其生产力的东西都有着明确的投资回报率(ROI)——而AI编程工具带来的巨大提升,创造了极强的采用动力。此外,工程师往往是早期采用者,他们追求最顶尖的工具;且相比大多数企业工作,编程更偏向于独立完成,这使得他们能更轻松地找到并使用最佳工具,而不会陷入拖累企业其他职能部门的协调工作和官僚流程中。
此外,编程工具并不需要百分之百独立完成任务就能产生增值。任何形式的加速(如发现Bug、生成模板代码)都能节省时间且很有意义。由于编程具有紧密的“人机协作”工作流,开发人员至今仍主导着开发过程,这些工具在加速产出的同时,也为人类进行审查、编辑和迭代留下了判断空间。这既增强了企业的信心,也让普及路径变得更加顺畅。
编程能力正呈指数级提升,各大实验室都明确将“攻克编码场景”视为重中之重。这具有巨大的影响。编码是所有其他应用的上游,因为它是任何软件的核心构建块。因此,AI对代码的加速作用将波及并加速所有其他领域。在这些领域进行开发的门槛正在降低,从而解锁了更多可由AI解决的新机会;但同样的,这种易得性也使得建立持久的竞争优势对初创公司而言比以往任何时候都更加关键。
客户支持:客户支持处于与编程截然不同的另一端。在企业内部,软件工程往往获得最多的投资和关注,而支持部门却经常被忽视。支持部门的工作属于后台入职级工作,通常被外包给海外公司或业务流程外包(BPO)机构,因为企业认为这类工作过于繁琐、复杂,不值得亲自管理。
事实证明,AI在管理这类工作方面表现卓越,原因有几点:首先,大多数支持互动的性质是限时的,且意图明确(比方说:处理退款),这为客服人员提供了一个定义清晰的问题。此外,客户支持是少数几个职责定义极其明确的职能之一。支持团队人员流动快、业务量大,因此需要以快速且标准化的方式培训新员工。为此,他们制定了清晰的标准作业程序(SOP)来指导每位员工的工作。这些SOP为AI智能体提供了可以模仿的明确规则和准则。这使它有别于大多数其他企业工作,后者往往持续时间更长、定义更模糊,且涉及除客户和客服之外的更多利益相关者。
客户支持也是证明投资回报率最直接的企业职能之一。它的运作基于可量化的指标:工单回复数、客户满意度评分(CSAT)以及解决率。任何将现状与AI智能体进行对比的 A/B 测试都会偏向AI智能体:它能处理更多工单、提高解决率并提升客户满意度——而且成本更低。此外,由于大多数支持业务已经外包给了BPO,采用AI解决方案涉及的变革管理成本极低,使得普及路径简单得多。
同时,客户支持并不需要100%的准确率就能发挥作用,因为它拥有天然的转人工机制(比方说:“我正为您转接经理”)。这加快了销售周期,并降低了试用AI支持代理的风险;在最坏的情况下,所有案例也只需转交给人工处理即可。
最后,客户支持在本质上是交易性的。客户并不在乎线路另一端的人到底是谁,这意味着支持工作不需要AI难以复制的人际关系。这些特性解释了为什么像 Decagon 和 Sierra 这样的公司增长如此迅速,以及像 Salient、HappyRobot 等更专注于垂直领域支持的厂商能脱颖而出。
搜索:企业市场最后一个具有明确拉动作用的通用类别是搜索。ChatGPT的主要应用场景本身就是搜索,因此搜索的影响很大程度上已包含在ChatGPT的营收和使用量中,在此处可能被大大低估了。
AI搜索这个市场范畴实在是太大了,至于它催生了许多大型独立初创公司。许多企业内部的一个主要痛点是,如何让员工能简单地在分散的系统中定位并提取相关信息。Glean 已成为该场景下的主要初创供应商。许多大型行业还依赖于非常具体的行业信息(包括内部和外部),像 Harvey(始于法律搜索)以及 OpenEvidence(始于医疗搜索)等公司,正是围绕这一核心功能实现了蓬勃发展。
行业分布
科技行业:到目前为止,采用AI最普遍的行业非科技业莫属。ChatGPT 自身报告称其 27% 的企业用户来自科技领域,而 Cursor、Decagon 和 Glean 的许多早期客户也都是科技公司。鉴于科技行业向来是早期采用者,且又是引发这一轮AI浪潮的源头,这完全在意料之中。
令人惊讶的是,一些历史上并不被视为早期采用者的市场,这次却表现得异常积极。
法律:法律行业出人意料地成为了AI领域的第一批先行者。从历史上看,法律行业一直被认为是软件推广的难点,因为其决策周期长,且买家对技术的接受度较低。
这是因为传统的企业软件对律师的价值有限:静态的工作流工具无法加速律师通常处理的那些非结构化、细致入微的工作。但AI让技术的价值主张在律师面前变得异常清晰。AI极度擅长解析晦涩的文本、对海量文本进行推理、以及总结和起草回复——而这些都是律师的日常工作。现在,AI不仅常作为“副驾驶”来提高律师个人的生产力,甚至已开始超越这一范畴:在某些情况下,它能帮助律师事务所处理更多案件,从而直接创造营收(比方说专门从事原告法律业务的 Eve)。
成果显而易见。Harvey 在成立3年内就报告了约2亿美元的年度经常性收入(ARR),而像 Eve 这样的公司已拥有超过450家客户,并在今年秋季达到了10亿美元的估值。
医疗:医疗是另一个对AI反响热烈、远超传统软件的市场。Abridge、Ambience Healthcare、OpenEvidence 和 Tennr 等公司,凭借医疗记录(scribing)、医疗搜索或针对复杂医疗交付与支付规则的后台自动化等具体场景,实现了营收的飞速增长。
历史上,医疗软件市场普及缓慢,原因在于:1)高技能且复杂的工作与传统流程软件能解决的问题匹配度不高;2)像 Epic 这样占据主导地位的底层记录系统(EHR)挤压了新软件厂商的生存空间。然而,有了AI,公司能够承担具体的体力劳动,通过替代行政工作(如医疗记录员)或辅助医生进行更高价值的工作,从而绕过底层记录系统。由于这些工作足够独立,无需对 EHR 进行推倒重建,从而让这些公司得以在不替换现有软件供应商的情况下快速规模化。
关于分析的几点说明
这些估算均为最优估算,很可能低估了每个类别的创收能力,同时高估了模型目前的能力。
我们可能低估了营收,因为:
1. 营收分析仅基于那些已经成功建立大型独立企业级AI业务的行业和场景,排除了其他初创公司正在处理的长尾场景。
2. 许多市场中也有规模庞大的非初创玩家在产生巨额营收(如编程领域的 Codex/Claude Code,法律领域的 Thomson Reuters 的 CoCounsel),但我们的分析侧重于独立初创公司。
3. 我们分析中列出的许多工作任务可能已经集成在模型公司的核心产品中(如 OpenAI ChatGPT 的搜索功能),但并未被单独拆分计入。
4. 本分析侧重于企业级业务,而非消费级或专业消费者(prosumer)业务。虽然有些成功的业务(如应用生成领域的 Replit 和设计领域的 Gamma)拥有大量企业用户,但其目前仍主要面向个人或专业消费者。鉴于本分析聚焦于企业级AI及其价值,我们排除了以消费级为主的业务。
在能力方面,尽管许多经济学家正在尝试,但衡量AI对不同经济板块的影响极其困难。工作岗位在本质上定义模糊且具有长尾效应,使其极难实现完全自动化。目前尚不清楚企业能从局部自动化中获得多少价值——如果AI只能完成人类50%的任务,那么无法自动化的任务其重要性可能会上升,因为它们成了瓶颈,从而相对价值更高。因此,我们可能高估了目前的能力现状,因为每一分能力的增长并不直接等同于一分经济价值,但观察相对能力的提升及其随模型发布而改进的过程仍具启发意义。
AI正在席卷所有市场
该分析通过 GDPval 基准,衡量了顶级评估模型在与人类专家的对比中的胜率。据此可以清楚地看到,自2025年秋季以来,模型在具有经济价值的工作方面的表现有了显著提升。
那么,为什么我们没有看到所有在这一评估中排名靠前的行业都展现出同等的营收势头呢?
到目前为止积极采用AI的行业都有一些共同点:它们基于文本,涉及单调重复的工作,拥有天然的“人机协作”环境以引入人类判断,受监管较少,且具有清晰可验证的最终产出(如可运行的代码、已解决的工单)。许多行业并不具备这些属性。它们要么涉及物理世界,要么严重依赖人际关系,涉及众多利益相关者之间的协调成本,存在监管或合规障碍,或者缺乏可验证的结果。虽然营收势头与模型能力显然相关,但在一些模型能力理论胜率低于50%的领域(如法律),像 Harvey 这样的公司依然能通过提供增强律师个人工作的“副驾”产品快速抢占市场份额,并随着模型的进化不断改进其核心产品。
这里最值得关注的发现是,模型能力正在飞速提升。在过去的4个月里,有几个领域展现出了戏剧性的进步——会计和审计在 GDPval 上的表现跳升了近20%,甚至连警察/侦探工作也展现出近30%的提升。我们预计这些跨越将在相关领域催生出引人注目的新产品和新公司。此外,模型公司已明确表示将致力于提升具有经济价值的核心工作能力,重点研究电子表格和财务工作流、利用计算机处理传统系统和行业中的棘手工作,并在长周期任务上取得实质性进展,从而催生一类无法被简单地切分成短小易懂部分的全新工作。
对开发者的启示
了解企业在何处获得价值、如何看待投资回报率,以及哪些行业正展现出强劲拉力、哪些紧随其后,能让我们更清晰地思考AI开发者的机会所在。
目前,服务科技、法律和医疗行业的买家显然是一片沃土,但我们并不认为每个类别只会产生一个“赢家”。以法律为例,律师的类型多种多样——法务总监、律师事务所、专利律师、原告律师等——他们都有不同的工作流和需求,这些都可以由不同的公司来解决。医疗行业亦是如此,因为医生类型、医疗设施等构成了一幅错综复杂的拼图。
除了这些行业,另一个富有成效的思考维度是:哪些领域的能力正在增强,但尚未出现营收上的爆发式增长公司。许多现有的企业是在模型能力真正解锁产品之前建立的,但由于他们构建了足够的技术基础设施,并培养了客户和市场意识,因此在模型能力实现突破时,他们占据了最有利的地位。
最后,密切关注实验室近期在具有经济价值的工作方面的研究重点至关重要。随着长周期智能体(Agent)的快速进步、对计算机操作的巨额投入,以及对文本之外(如电子表格、演示文稿)可靠界面的研究,一类全新的初创公司将很快拥有所需的基础设施,从而创造出重大的企业价值。
译者:boxi。