神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:别再迷恋UI了。当机器用户数反超人类百倍,CLI与“技能”文件正成为SaaS公司在智能体时代活命的新护城河。文章来自编译。
2025 年 1 月的时候,我们开始讨论软件之死的问题。
当时 Anthropic 刚刚开源了模型上下文协议(MCP),并迅速走红。萨提亚·纳德拉(Satya Nadella)曾预言,所有点选式软件(即“增删改查数据库”)都将被“掌握业务逻辑”的智能体所取代。我们当时还认为,价值将流向那些基于现有前沿模型基础构建优秀智能体框架的应用型 AI 公司。
现在是 2026 年 4 月,对这个预言的最终定论是——虽不中,亦不远矣。
智能体体验时代:人类用户正主动退出中间环节
到 2025 年 12 月,局势已明朗:所有软件都必须为智能体用户而重构。在普通企业中,机器身份的数量与人类用户的比例已达到 45:1,部分机构甚至高达 100:1。Neon 报告称其 80% 的数据库是由 AI 智能体而非人类创建的。GitHub 上超过 5% 的代码提交完全由 Claude Code 完成,而 AI 辅助提交的比例可能高达 40%。MCP 注册库已拥有超过 2000 个认证服务器,月均 SDK 下载量达 9700 万次。
这带来了一个全新的产品命题。而那些应对得当的公司,并不是在仪表盘上强行加个聊天机器人、继续为人类用户开发智能体的公司。
智能体通过 API、脚本和结构化命令以编程方式运行,已经完全绕过了界面。它们不会去浏览仪表盘,也不会点击按钮。配置良好的智能体读取结构化输入、调用工具并生成结构化输出。人类不再参与每一个环节;在许多环节中,人类甚至完全消失了。
欢迎来到“智能体体验”(Agent Experience)时代。
这个月,过去一年的趋势对我们而言已变得无比清晰。
Anthropic 刚刚发布了其托管智能体(Managed Agents)架构。
其核心技术点在于:将“大脑”(Claude 及其框架)与“手”(沙盒和工具)以及“会话”(持久化事件日志)解耦。这对 SaaS 的启示是:将智能体架构外包给前沿实验室。只需暴露能够适配我们模型的稳定接口。毋庸赘言,这意味着你原有的护城河已不复存在。
Intercom 和 Zapier 正在给智能体搞开发。
专注于开发者的公司已经这样做近一年了,但现在每个公司都在跟进。Zapier 的 SDK 让编程智能体无需 API 密钥或 OAuth 设置,即可访问 9000 多个应用连接器。这种集成底座曾是 Zapier 在过去十年赢得人类用户的关键,如今他们正试图在智能体身上寻找产品市场契合点(PMF)。
战略和护城河没变,变的是用户。
来自 Intercom 的 Brian Scanlan 在发布客服垂直 AI 模型(其大规模端到端解决率已达 65%)后,紧接着推出了 Fin CLI。智能体现无需人类操作 UI 即可安装、配置和运行 Fin。曾经的聊天小部件,现在可以从终端直接调用。
Linear 刚刚向我们展示了走偏是多么容易。
在最近发布的 Linear 智能体版本中,他们开发了一个内置智能体,可通过桌面应用、移动端、Slack 和 Teams 访问。它了解你的路线图、问题单和代码,能够整合上下文并采取行动。
然而,他们唯独没做 MCP 服务器、CLI 工具,或者公开 API。尽管他们宣称问题追踪已经过时(这种直觉是对的),但在产品优先级上却押错了注——他们的客户其实更需要 MCP 支持,这样外部智能体才能够接入 Linear 的数据。
如果你还在纠结“是否要为智能体开发”,你需要立即切换话题,思考“交付卓越的智能体体验(AX)到底需要什么”:
*超越特定模型行为的稳定接口。
人类与智能体之间的能力对等。
封装了从业者判断力的“技能”(Skills)。
供智能体部署和配置产品的命令行工具(CLI)。
随着开源大模型追赶而产生的高性能垂直模型。
构成新软件栈的三大模式
技能、命令行工具和封装了领域知识的垂直模型,应成为每家 SaaS 公司未来战略的核心组成部分。
1. 技能文件:让领域专业知识变得机器可读
技能文件是一个 Markdown 文档,可指导智能体如何正确使用工具:调用什么、顺序如何、有哪些限制以及原因。这是 SaaS 公司多年积累的领域专长,现在以智能体可读的形式表达出来,无需人类进行中转翻译。
Figma 在 2026 年 3 月发布 MCP 服务器的同时推出了“技能”。这些文件编码了设计系统的惯例、组件命名规范、令牌结构等资深设计师驾轻就熟、但通用智能体容易出错的内容。
组织知识现在存在于技能文件中,而非 UI、新手引导或帮助中心。它们存在于一个 Markdown 文件里,供智能体在开始工作前阅读。
PostHog 团队吃过苦头后才明白这一点。他们重构了两次智能体架构,现在编写技能就像在为高水平新员工做入职培训。比如:告诉智能体始终使用 `$pageview` 作为默认激活事件,而不是 `signed_in`,因为低频事件会扭曲留存曲线。如果智能体缺乏这一背景,就会生成误导性数据,而用户甚至永远不知道原因。
2. 命令行工具与 MCP 服务器:新型界面层
那些最早洞察到这一转变的公司,将交互模型重构为了 CLI,而不是去重新设计 GUI。
37signals 将 Basecamp 重构为完全对智能体友好的产品:翻新了 API,推出了全新的 CLI,提供结构化 JSON 输出和 Shell 补全。DHH 的表述堪称业内最直白:
“智能体已成为 AI 的杀手级应用。因此,在我们继续打磨实用的原生 AI 功能时,今天先上线一个完全面向智能体的版本。”
谷歌推出了 Gemini CLI 扩展,三个月内吸引了超过 100 万开发者,并发布了与 Figma、Stripe、Shopify 和 Snyk 的集成。每个扩展都内置了一本“手册”(Playbook),教 AI 如何使用这些新工具。
Vercel 的 AI SDK 月下载量突破 2,000 万,其设计初衷就是围绕智能体流水线展开。
命令行并不是回归 90 年代的开发工具,而是优秀的“智能体体验”。这是编程智能体最喜欢的界面。一个接收结构化输入并生成结构化输出的命令,其可组合性是 GUI 永远无法比拟的。智能体可以调用它,将其输出通过管道传给另一个工具,串联成工作流,并在失败时重试。这就是为什么主流 AI 编程工具(Claude Code, GitHub Copilot CLI, Cursor)都通过命令行运行的原因。
3. 垂直模型:将领域知识融入模型权重
第三种模式是迄今为止最被低估的。由于 AI 前沿技术的波动,它也仍处于争议之中。
垂直模型不是配上好提示词的通用大模型。它们是针对特定领域数据(如判例法、临床文档、客服记录、财经报告)进行微调的模型,在其专业领域的表现优于通用模型。这种领域专长并非存在于通用模型之上的技能文件之中,而是在权重里。它们应该更快、更便宜。
Intercom 是最具启发性的例子,他们拥有专门为客服推理设计的自定义检索模型(fin-cx-retrieval)。
上个月,Cursor 推出了 Composer 2,这是一个基于月之暗面(Moonshot AI)Kimi K2.5 并结合 Cursor 自有持续预训练和强化学习构建的专有编程模型。它在 Terminal-Bench 2.0 上得分 61.7%,超过了 Claude Opus 4.6(58.0%),且每百万输入 token 仅需 0.50 美元,价格仅为 Anthropic 旗舰产品的十分之一。他们将最难的推理交给前沿模型,其余任务则外包给更快、更便宜、更专业的自定义垂直模型。
还有 Harvey,它的故事比预想的要复杂。
当 Harvey 与 OpenAI 合作开发自定义案例法模型时,97% 的律师更喜欢它而非 GPT-4。垂直模型即产品,且业务增长神速:到 2026 年 1 月其年经常性收入(ARR)达到 1.9 亿美元,3 月估值达 110 亿美元,全美百强律所(AmLaw 100)中的大多数都是其客户。
随后,Harvey 弃用了该模型。
谷歌、xAI、OpenAI 和 Anthropic 的前沿推理模型在 Harvey 自有的 BigLaw Bench 评估中开始超越其自定义法律模型。随着基座水平的提升,Harvey 在权重中建立的护城河瞬间瓦解。Harvey 现在通过“模型选择器”在 Claude、Gemini 和 GPT 之间调度任务。
这就是目前关于垂直模型的论点。微调在查询模式极度专业化、在通用训练数据中占比极低、错误代价高昂且公司拥有足够分发渠道来产生有意义专有反馈的领域依然具有决定性优势。Intercom 的 fin-cx-retrieval 之所以有效,是因为客服推理在结构上与通用语言任务截然不同,而 4000 多万次已解决的对话进一步巩固了这一优势。
但对许多行业来说,更好的选择是构建卓越的工作流基础设施、技能文件以及基于前沿模型的智能体编排,而不是投入巨资去维持一个随时可能被不断进化的基座标准超越的微调模型。
然而,编排优势能持续多久尚不明朗。现在,只需一条 CLI 命令和五分钟,就能构建出一个拥有图结构记忆、流式对话、决策追踪和 SaaS 数据连接器的领域特定 AI 智能体。仅凭“我们为特定领域开发了 AI 智能体”这一说辞,已无法构成坚实的防御阵地。
最值得关注的公司是那些将三层架构结合在一起的公司:在高价值查询的权重中拥有垂直数据优势、拥有编码工作流经验的技能文件,以及让一切变得可组合的命令行/MCP 服务器。
欢迎来到软件新纪元。
如何在“智能体体验”中胜出
智能体不在乎你的按钮是什么颜色或形状。它们只在乎性能:身份验证是否简便?是否安全?是否更便宜、更快速?
经济账要从一个简单的观察算起:生产环境 AI 系统中的大多数任务并不需要前沿级别的推理能力。合同提取、数据验证、指标计算、格式转换、状态检查、检索——这些都是确定性或近乎确定性的操作。“技能”架构会将这些任务路由给代码或小模型,而单一的前沿模型方案则会把所有任务都塞进那个每百万词元(token)耗资 15 美元的推理引擎中。
斯坦福大学的 FrugalGPT 研究表明,级联路由(先将查询发送给廉价模型,只有在置信度低时才升级到昂贵模型)在保持 GPT-4 准确度的同时,最高可降低 98% 的成本。在生产环境中,多模型路由通常能节省 30-60% 的成本,激进的方案甚至能节省 80% 以上。
延迟问题导致成本劣势雪上加霜。小模型在几十毫秒内响应,确定性代码在个位数毫秒内响应,而前沿推理模型则需要数秒。在串联了 5 到 15 次工具调用的智能体工作流中,“次次调用大模型”与“多数调用命中代码或小模型”之间的差异,意味着是等待 30 秒还是 2 秒。
用户能感觉到,智能体用户也一样!
当所有业务逻辑都由前沿模型掌握时,每次执行都是一次概率分布。而较小的领域特定模型只需总计算量的 10-20% 即可完成任务。你应该只在真正关键的地方购买昂贵的“认知能力”。反对方认为前沿模型的成本在不断下降,差距正在缩小,但“便宜 90% 的前沿模型推理”依然敌不过“近乎零成本”。
为智能体化使用重构你的 SaaS 公司
SaaS 并没有像 2025 年 1 月预言的那样被彻底“去中介化”。只是人类正主动撤出,而在开发新产品时,图形界面(GUI)也不应再是你的首选。但对于已有根基的公司,数据层、工作流逻辑和领域知识依然稳固,且只要能以智能体和模型可理解的格式重新编码,它们将成为软件公司手中日益珍贵的资产。
如果你正在开发新产品或新功能,请停下来想一想:六个月后你的主要用户会是谁?你是否在为他们优先开发合适的功能?
译者:boxi。