神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:别被“廉价词元”骗了。API单价只是掩护,真正的成本杀手是低效对话和那些你看不见、却在偷偷计费的“推理开销”。衡量AI价值,不看它“说了多少话”,而看它“干成一件事”到底花了多少钱。文章来自编译。
目前关于“我在模型 A 上消耗了多少美元的词元(token)”与“我在模型 B 上消耗了多少词元”的讨论非常多。甚至有些公司要求员工每月支出或词元消耗要达到一定水平。但这种思维模式很有问题——这件事情正演变成一场炫耀游戏,而非关于生产力的真正讨论。
真正重要的指标不是单个词元的成本($ per token),而是完成单项任务的成本($ per task)。原因如下。
1/ 单个词元成本——人尽皆知的数字
大多数人通过订阅服务使用编程模型——入门级每月 20 美元,大多数供应商的专业版则为每月 200 美元。但订阅方案并不会告诉你实际消耗了多少词元。
因此,我们不妨以 API 定价(每个输入词元的美元,每个输出词元的美元)作为参考:
看到这些,你可能会得出结论:Claude Opus 4.6 的价格是 GPT-5.1 Codex Mini 的 12 到 80 倍。但这个结论是不对的。原因如下。
2/ 每个任务消耗的词元——隐藏变量
针对同一个提示词,不同的模型消的词元规模是不一样吗?是的,而且差异巨大。正是这一点让那些片面的百万词元成本($/MTok)对比产生了误导。
差异主要体现在三个层面:
分词器差异(微小,约 5-15% 的差异)。OpenAI、Anthropic 和 Google 使用的分词器各不相同。同一个代码文件在一个平台上可能是 1000 个词元,而在另一个平台上可能是 1100 个。具体到代码,由于其标准化程度更高,这种差距比自然语言要小。这不是主要的成本驱动因素。
输出冗长度(主要,2-5 倍的差异)。这是问题的核心。面对同样的“重构这个函数”的提示,能力更强的模型(如 Opus 或 GPT-5.2)可能会给出一个精简的 200 行解决方案,而较便宜的模型则可能会生成 400 行冗长且不够优雅的代码——或者更糟,给出一个错误的答案,需要通过后续对话来修正(每次都会因为重新发送上下文而消耗更多输入词元)。相反,更聪明的模型有时会不厌其烦地用注释和文档进行过度解释,导致输出词元膨胀。这没有统一的规律——取决于具体任务和提示词。
隐藏的思考词元(巨大,账单的 3-10 倍)。这是一个隐性成本。具有“扩展思考”或“推理”模式的模型——如 Claude 的扩展思考、OpenAI 的 o 系列、Gemini 的思考模式——会在内部思维链中消耗输出词元。你看不见这些词元,但仍需为此付费。一个产生 500 个可见输出词元的请求,如果算上思考预算,实际可能消耗的输出词元会是 5000 个。这些思考词元按标准费率计入输出词元(MetaCTO)。仅此一项,就能在不知不觉中让你实际的输出成本增加 3 到 10 倍。
上下文累积(智能体编程中的主要因素)。像 Claude Code 和 Codex 这样的工具以多轮智能体循环的方式工作——每一步都会重新发送不断增长的对话历史和文件内容作为输入。一个包含 10 个步骤的编程任务可能在开始时只有 5000 个输入词元,到最后一步则会超过 8 万个。这就是为什么 Anthropic 报告 Claude Code 的平均使用成本约为每位开发人员每天 6 美元(Apiyi.com 博客)——这不是一条提示词就完了,而是伴随着上下文急剧膨胀的数十轮智能体交互。在这种情况下,提示词缓存起到了显著作用:缓存读取的成本仅为标准输入价格的 10%,最高可节省 90% 的成本(MetaCTO)。
3/ 任务单位成本——真正重要的指标
$/MTok 是单位成本。但不同模型在每个任务上消耗的总词元量差异巨大,以至于一个单价翻倍的模型在完成单个任务时可能反而更便宜——前提是它能以更少的轮次给出正确答案。
真正的衡量指标是成功完成每个编程任务的成本。而这取决于模型的质量,这正是为什么没有任何公司能给出一个清爽、明确的统计数据的原因所在。
所有强制要求每月 AI 支出定额的公司都应该停止将词元消耗视为 KPI。相反,去问问你的开发人员,哪些模型在“单任务成本”方面效率最高。他们是那些日复一日实际使用这些工具的人。他们洞悉一切。
黄仁勋:“一名年薪 50 万美元的开发人员(在未来)应当消耗价值 25 万美元的词元”。
译者:boxi。