词元迷思：AI怎么计价才合适？_健康_健康资讯

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：别被“廉价词元”骗了。API单价只是掩护，真正的成本杀手是低效对话和那些你看不见、却在偷偷计费的“推理开销”。衡量AI价值，不看它“说了多少话”，而看它“干成一件事”到底花了多少钱。文章来自编译。

目前关于“我在模型 A 上消耗了多少美元的词元（token）”与“我在模型 B 上消耗了多少词元”的讨论非常多。甚至有些公司要求员工每月支出或词元消耗要达到一定水平。但这种思维模式很有问题——这件事情正演变成一场炫耀游戏，而非关于生产力的真正讨论。

真正重要的指标不是单个词元的成本（$ per token），而是完成单项任务的成本（$ per task）。原因如下。

1/ 单个词元成本——人尽皆知的数字

大多数人通过订阅服务使用编程模型——入门级每月 20 美元，大多数供应商的专业版则为每月 200 美元。但订阅方案并不会告诉你实际消耗了多少词元。

因此，我们不妨以 API 定价（每个输入词元的美元，每个输出词元的美元）作为参考：

看到这些，你可能会得出结论：Claude Opus 4.6 的价格是 GPT-5.1 Codex Mini 的 12 到 80 倍。但这个结论是不对的。原因如下。

2/ 每个任务消耗的词元——隐藏变量

针对同一个提示词，不同的模型消的词元规模是不一样吗？是的，而且差异巨大。正是这一点让那些片面的百万词元成本（$/MTok）对比产生了误导。

差异主要体现在三个层面：

分词器差异（微小，约 5-15% 的差异）。OpenAI、Anthropic 和 Google 使用的分词器各不相同。同一个代码文件在一个平台上可能是 1000 个词元，而在另一个平台上可能是 1100 个。具体到代码，由于其标准化程度更高，这种差距比自然语言要小。这不是主要的成本驱动因素。

输出冗长度（主要，2-5 倍的差异）。这是问题的核心。面对同样的“重构这个函数”的提示，能力更强的模型（如 Opus 或 GPT-5.2）可能会给出一个精简的 200 行解决方案，而较便宜的模型则可能会生成 400 行冗长且不够优雅的代码——或者更糟，给出一个错误的答案，需要通过后续对话来修正（每次都会因为重新发送上下文而消耗更多输入词元）。相反，更聪明的模型有时会不厌其烦地用注释和文档进行过度解释，导致输出词元膨胀。这没有统一的规律——取决于具体任务和提示词。

隐藏的思考词元（巨大，账单的 3-10 倍）。这是一个隐性成本。具有“扩展思考”或“推理”模式的模型——如 Claude 的扩展思考、OpenAI 的 o 系列、Gemini 的思考模式——会在内部思维链中消耗输出词元。你看不见这些词元，但仍需为此付费。一个产生 500 个可见输出词元的请求，如果算上思考预算，实际可能消耗的输出词元会是 5000 个。这些思考词元按标准费率计入输出词元（MetaCTO）。仅此一项，就能在不知不觉中让你实际的输出成本增加 3 到 10 倍。

上下文累积（智能体编程中的主要因素）。像 Claude Code 和 Codex 这样的工具以多轮智能体循环的方式工作——每一步都会重新发送不断增长的对话历史和文件内容作为输入。一个包含 10 个步骤的编程任务可能在开始时只有 5000 个输入词元，到最后一步则会超过 8 万个。这就是为什么 Anthropic 报告 Claude Code 的平均使用成本约为每位开发人员每天 6 美元（Apiyi.com 博客）——这不是一条提示词就完了，而是伴随着上下文急剧膨胀的数十轮智能体交互。在这种情况下，提示词缓存起到了显著作用：缓存读取的成本仅为标准输入价格的 10%，最高可节省 90% 的成本（MetaCTO）。

3/ 任务单位成本——真正重要的指标

$/MTok 是单位成本。但不同模型在每个任务上消耗的总词元量差异巨大，以至于一个单价翻倍的模型在完成单个任务时可能反而更便宜——前提是它能以更少的轮次给出正确答案。

真正的衡量指标是成功完成每个编程任务的成本。而这取决于模型的质量，这正是为什么没有任何公司能给出一个清爽、明确的统计数据的原因所在。

所有强制要求每月 AI 支出定额的公司都应该停止将词元消耗视为 KPI。相反，去问问你的开发人员，哪些模型在“单任务成本”方面效率最高。他们是那些日复一日实际使用这些工具的人。他们洞悉一切。

黄仁勋：“一名年薪 50 万美元的开发人员（在未来）应当消耗价值 25 万美元的词元”。

译者：boxi。