同一天，OpenAI 和 Google 各甩出一张牌——但你知道自己在用哪个模型吗？_健康_健康资讯

AI 圈又热闹了。

北京时间3月4日，OpenAI 正式推送 GPT-5.3 Instant，覆盖全量 ChatGPT 用户；同一天，Google 也发布了 Gemini 3.1 Flash-Lite，宣称这是 Gemini 3 系列"速度最快、最具成本效益"的模型。

两场发布，相差不到两小时。

技术媒体在刷屏，X 上的 AI 博主在解读基准测试，开发者群里在讨论 API 价格。与此同时，Reddit 上有人直接发帖：“GPT-5.3 is awful”，101 人点赞，好评率 98%。

这就是 2026 年 AI 圈的日常：发布密度比手机厂商还高，社区永远两极分化，普通用户被淹没在一堆从没听说过的模型名字里。

但在吐槽之前，我们还是得先把事情讲清楚——今天到底发了什么。

一、GPT-5.3 Instant：终于不说教了

OpenAI 这次发布，罕见地没有端出一堆跑分图表。官方博客的重点只有一个词：tone（语气）。

用 OpenAI 官方的说法，GPT-5.2 Instant 有时会"对本可以安全回答的问题拒绝作答"，在涉及敏感话题时"过于保守，带着说教色彩"。就是那种你问它"帮我写一段反派台词"，它先用三句话告诉你"暴力内容可能……"然后再写，或者干脆拒绝的感觉。

更多案例在这里查看：https://openai.com/zh-Hans-CN/index/gpt-5-3-instant/

GPT-5.3 Instant 的主要改动有三点：

① 去掉"AI腔"式开场白。不再以"这是个很好的问题！""首先，我想提醒你……"等免责宣言开头，能直接回答的就直接回答。减少了不必要的拒绝，削减了过度防御式的说教铺垫。

② 幻觉率显著下降。OpenAI 在医疗、法律、金融等高风险领域做了内部测试，联网模式下幻觉率降低26.8%，仅依靠自身知识库时降低19.7%。在基于用户真实反馈的评估中，联网下降 22.5%，非联网下降 9.6%。这次没有拿 benchmark 说话，而是用"真实对话中被用户标记为事实错误的样本"做的测试，更接地气。

③ 联网搜索整合更聪明。以前的版本有时会把搜索结果直接堆砌出来，像个链接收集器。现在它能用自己的知识图谱为实时信息提供背景，不再是"我帮你搜到了，原文如下"。

GPT-5.3 Instant 即日起面向所有 ChatGPT 用户开放，API 标识符为 gpt-5.3-chat-latest。旧版 GPT-5.2 Instant 将保留至2026 年 6 月 3 日后退役。

再来个彩蛋：GPT-5.4即将到来。（评论区有说是明天）

二、Google 最近其实发了两个模型

GPT-5.3 Instant 的声量盖住了 Google 这边的动静，但 Google 最近其实发了两张牌。

第一张：Gemini 3.1 Pro（2月19日）

这是这波升级的核心。Google 在发布时直接给出了一个震撼的数字：在 ARC-AGI-2 基准测试中，Gemini 3.1 Pro 得分77.1%，而上一代 Gemini 3 Pro 只有31.1%——推理能力翻超两倍。

ARC-AGI-2 不是知识型考题，考的是模型面对"从没见过的逻辑模式"时能否推理出正确答案，是目前公认最难刷分的测试之一。77.1% 是经过 ARC Prize 官方验证的数据。

其他核心指标：

SWE-Bench Verified（代码能力）：80.6%

Terminal-Bench 2.0：68.5%

在 16 项主流基准测试中，Gemini 3.1 Pro 赢了 13 项（对比 GPT-5.2 和 Claude Opus 4.6）

模型现已面向开发者、企业和消费者全面铺开，可通过 Gemini API、Vertex AI、AI Studio、Gemini Enterprise、NotebookLM 以及 Gemini CLI 访问，消费端则需要 Google AI Pro 或 Ultra 订阅。

第二张：Gemini 3.1 Flash-Lite（3月4日，今天）

定位完全不同：这是给开发者用的"量大管饱"版本。

核心参数：

输出速度363 tokens/s，比 Gemini 2.5 Flash 快 45%

首字符响应时间比 Gemini 2.5 Flash快 2.5 倍

支持最大 100 万 token 输入、6.4 万 token 输出

多模态：文本、图像、视频、音频全支持

定价：输入$0.25/百万 tokens，输出$1.50/百万 tokens，约为 Pro 版的八分之一

GPQA Diamond 测试达到 86.9%，MMMU Pro 达到 76.8%，在多项指标上超越了上一代 Gemini 2.5 Flash。

它还内置了可调节的"思考层级（thinking levels）"——开发者可以根据任务复杂度自由控制模型的推理深度，高频简单任务省算力，复杂任务加预算，相当实用。

三、但社区并不买账

说完优点，来说说用户怎么看。

GPT-5.3 Instant 推送当天，Reddit 上的 r/ChatGPTcomplaints 版块迅速出现了一篇热帖，标题直接：“GPT-5.3 is awful”。帖子获得 101 个点赞，好评率 98%，评论区清一色在骂。

原帖作者写道：

“Arrogant: Often sounds like an annoying teacher correcting a student（傲慢：听起来像个烦人的老师在纠正学生）。Condescending: Uses phrases like ‘take a breath, writer…’ in a patronizing tone（居高临下：用’停一下，深呼吸，写作者……'这种居高临下的语气）。”

评论区有人补刀：

“我真以为他们造不出比 5.2 更烂的模型了。结果 OpenAI 再次超越了我的预期。” “5.3 本质上就是 5.2，没用、有限制、情感操控，但是多加了一些 emoji。”

当然，也有理性的声音。一位用户写道：“回答确实更直接了，少了很多修饰语和限定词，我觉得是有进步的。”

Hacker News 上的讨论更有意思。一位自称 OpenAI 员工的用户亲自下场回复，澄清了一个很多人不知道的事实：ChatGPT 后台实际上运行的是两个系列——Instant 系列（更快但更弱）和 Thinking 系列（更准但更慢），系统会自动切换。

讨论链接：https://news.ycombinator.com/item?id=47236169

然后就有另一个企业用户回复说：

“我们公司用 ChatGPT Enterprise，每次有人抱怨效果差，回头一查，全都是在用 Instant 模型。”

还有人一针见血：

“我感觉 OpenAI 又要回到 GPT-5 之前那个状态了——一堆不同的选项，没人知道该用哪个。”

四、模型命名，正在成为行业公害

这句话值得展开聊。

先来做个测试。请问以下这串名字，你能全部对上号吗：

GPT-5 / GPT-5.1 / GPT-5.2 / GPT-5.2 Pro / GPT-5.2-Codex / GPT-5.3 Instant / GPT-5.3-Codex / GPT-5.3-Codex-Spark…… Gemini 3 / Gemini 3 Pro / Gemini 3 Deep Think / Gemini 3.1 Pro / Gemini 3.1 Flash-Lite / Gemini 3.1 Flash-Image……

顺便提一句，Gemini 3 Pro Preview 将于3月9日正式下线，取而代之的是 Gemini 3.1 Pro——就在用户刚刚搞清楚 3 和 3.1 的区别之前，Flash-Lite 又来了。

这还只是过去三个月内的变化。

科技媒体 The Verge 有一篇文章，标题用的是"Google’s AI product names are confusing as hell（Google 的 AI 产品名字乱得要命）"，文中直接用了"diabolical（魔鬼级混乱）"来形容 Google 的命名逻辑。文章里列出的一串名字读起来像是在背咒语：Deep Think、Deep Search、AI Pro、AI Ultra、Gemini Live、Project Astra、Project Mariner、Veo、Flow、Lyria、Imagen……

Anthropic CEO Dario Amodei 曾在公开场合自嘲说：“我们可能在学会命名模型之前，就先造出 AGI 了。”

这句话是个玩笑，但背后的现实不好笑：普通用户面对这张越来越密的模型矩阵，早已失去了辨别的动力。

五、这么频繁发布，究竟是为了什么？

公平起见，我们不该只是嘲笑。

这种高频迭代不是没有原因的。Google 和 OpenAI 都清楚地知道对方在做什么——Gemini 3.1 Flash-Lite 发布两小时内，GPT-5.3 Instant 就上线了；GPT-5.3 Instant 推送当天，GitHub 上已经出现了 GPT-5.4 相关代码的泄露痕迹。在这种实时博弈的节奏下，没人敢停下来。

同时，这两次发布也对应着不同的竞争逻辑。

Google 用 Flash-Lite 打的是 B 端成本战：$0.25 的输入价格摆在那里，对于每天要跑数百万次调用的开发者来说，这比性能分数更有说服力。

OpenAI 用 GPT-5.3 打的是 C 端留存战：就在发布前后，因为与美国军方合作的风波，网上正在蔓延一场 #QuitGPT 运动，Anthropic 甚至趁势推出了"一键迁移 ChatGPT 对话记录"的服务。在这个时间节点优化用户体验，有多少是技术驱动，有多少是公关救火，恐怕只有内部人士才清楚。

但无论背后动机如何，频繁发布本身开始变成一种信息噪音。

当每次发布都叫"最强"“突破性”“全面领先”，当版本号以小数点 0.1 的速度叠加，当用户连自己在用第几代模型都说不清楚的时候——这场军备竞赛的受益者，可能已经不是用户了。

结语

今天两家公司的发布，有真进步，也有真问题。

GPT-5.3 Instant 在体验层上做了有意义的改进，幻觉率下降的数据如果属实，对实际使用是有价值的；Gemini 3.1 Flash-Lite 的价格策略很有攻击性，对开发者生态的影响会慢慢显现。

但我们也应该正视：当"发布新模型"本身成为一种竞争信号，而不只是技术成熟的标志时，这个行业的叙事节奏已经跑偏了一点。

你现在打开 ChatGPT，用的是 Instant 还是 Thinking？你上次问 Gemini 问题，用的是 3 还是 3.1？

大概率，你也不确定。

整理：周华香

本文来自微信公众号“硅星GenAI”，作者：大模型机动组，36氪经授权发布。

抛弃“不作恶”，谷歌和五角大楼签订协议、承接美军机密AI业务，超700名员工联名反对

谷歌，这个曾以“不作恶”为行为准则的科技巨头，如今正深陷一场前所未有的内部风暴。28日，美国消费者新闻与商业频道（CNBC）援引科技媒体“The Information”报道，谷歌已与美国国防部签署协议，承接机密人工智能业务。一位知情人士透露，美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称，本周，700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊，要

0评论2026-04-299

AI对话框成“赛博魅魔”：它越懂你，为什么越危险？
0评论2026-04-29

一季度净利环比暴增27倍，剑桥科技股价一年涨三倍，险资与社保基金加仓，股东高管减持

4月27日盘后，光模块概念大牛股剑桥科技（603083.SH、06166.HK）发布2026年一季报，公司一季度营收同比增长43.98%至12.87亿元；归母净利润同比增长276.44%至1.18亿元。从环比来看，剑桥科技今年第一季度营收环比下滑约12%；净利润环比增长2722.62%，而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股，剑桥科技H股曾在11个交易日完成了翻倍，4月2

0评论2026-04-298

32美元一辆车，Tesla为什么不认？（下）

本案真正值得关注的，不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是，如果法院最终认为这类平台许可条款不能进入FRAND审查，那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时，实施者还能不能有效挑战其许可条件？这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看，Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-299

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍
0评论2026-04-29

靠补贴扭亏为盈？摩尔线程仍需打“硬仗”
0评论2026-04-29

AI时代，“10后”沉迷于捡“电子垃圾”
0评论2026-04-29

“保本”又“看病”？监管部门约谈健康险公司，中介平台下架热销“医疗金”产品

早在前两年，市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长，这类产品的资产增值属性被放大，经过长期现金价值积累，配合可以累积的医疗保险金，使得产品有着不输理财型产品的收益率，这也是引起监管部门关注的原因之一。2026年4月初，当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时，他可能不会想到，体验活动中的重磅产品“岁月长安·特定疾病保险（互联网版）”即将面临下架。4月

0评论2026-04-295

比亚迪、奇瑞汽车的供应商冲击IPO，上市前巨额分红，来自山东济宁
0评论2026-04-29

第一批押注AI的酒店、民宿，已经不看OTA脸色了？
0评论2026-04-29