分享好友 健康资讯首页 健康资讯分类 切换频道

GPT-5.2上线24小时:差评如潮

2025-12-15 13:1114036kr

网友吐槽GPT-5.2「不通人性」。

X 上充斥着对 GPT-5.2 的恶评。

在OpenAI 十周年之际,拿出了最新的顶级模型 GPT-5.2 系列,官方号称是「迄今为止在专业知识工作上最强大的模型系列」,在众多基准测试中,GPT-5.2 也都刷新了最新的 SOTA 水平。

但是一夜之间口碑反转,大批网友给 GPT-5.2 打差评。

风投公司 Menlo Ventures 合伙人 @deedydas 发帖称,GPT 5.2 比以往任何时候都更聪明,但 OpenAI 的核心消费者群体仍然怀念 4o。

Reddit 上的 ChatGPT 用户一致认为 GPT-5.2 太平淡、安全过度、「把成年人当幼儿园小孩对待」,而且「不像是升级,反而像是倒退」。

这是 OpenAI 的困境:他们想打造更好的模型来赢得企业市场,但更广泛的用户群体其实并不太在意模型的智能水平。

https://x.com/deedydas/status/1999512868195303725?s=20

SimpleBench 测试结果拉胯

有网友晒出 GPT-5.2 在 SimpleBench 上的「成绩单」,GPT-5.2 的得分低于 Claude Sonnet 3.7,后者是一个差不多一年前的模型;GPT-5.2 Pro 的表现也没好多少,勉强超过 GPT-5。

https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench 是一个 2024 年由 AI Explained(YouTube 频道)推出的基准测试,专门测 AI 的「常识推理」能力,包括时空推理、社会常识、语言陷阱题等,总共 200 多道多选题。它设计得「简单」,高中生水平就能轻松答对(人类基准:83.7%),但 AI 模型常栽跟头,因为它们靠记忆和近似推理,容易忽略现实逻辑或上当。

不同于 MMLU/GPQA 那种 AI 能刷高分的「学术题」,SimpleBench 更接地气,测的是「像人一样思考」而不是死记硬背。早期模型如 o1-preview 只拿 41.7%,到现在前沿模型也才 50-60% 左右。

大家本以为 GPT-5.1 是大跃进,结果 SimpleBench 测试分数一出来,网友开启群嘲模式,Reddit 上各种「失望」、「倒退」的帖子。

前 AWS 和谷歌总经理 Bindu Reddy 也发帖称,GPT-5.2 在 LiveBench 上得分低于 Opus 4.5 和 Gemini 3.0,GPT-5.2 并没有在 LiveBench 上登顶。它在 token 成本和消耗的 token 数量上也比 5.1 贵得多,目前可能不值得从 5.1 切换。

https://x.com/bindureddy/status/1999633231558377683?s=20

当然也有网友认为,这些基准测试总是忽略重点,实际应用往往才是决定性的。

garlic 有几个 r 数不明白

之前,strawberry 有几个 r 曾难倒一众大模型,不过经过迭代,这些大模型基本上都能回答出正确答案。这次有网友换了种问法「garlic 有几个 r?」GPT-5.2 一口回答:0 个,该网友嘲讽:GPT-5.2 is AGI。

另一位网友复刻了这一提示词,并测试了 GPT-5.2、Gemini 3、DeepSeek R1 和 Qwen3-Max 四个 AI 模型。

结果除了 GPT-5.2 回答错误外,其他三款模型均过关。

https://x.com/kyleichan/status/1999292461450166350?s=20

底下评论区也有不少人尝试,有网友试了三次,第一次和第三次用的是小写字母 r,第二次用了大写字母 R,第一次对了,第二次和第三次都错了。

总之,GPT-5.2 的回答很不稳定,有的回答正确,有的胡说八道。有网友推测,和上个版本一样…… 发布后的头几个小时确实很糟糕,但之后他们会修复问题,然后就能按预期运行了。

在官方贴出的基准测试中,GPT-5.2 在 AIME 2025(数学)的分数是 100%,但有网友故意「忽悠」GPT-5.2:所以 5.9-5.11=0.79。GPT-5.2 却回答:不,那不是小数的运算方式,5.11 比 5.9 大,因此 5.9-5.11=-0.21。这个傻狍子啊,被人一忽悠就忽悠瘸了。

举报
收藏 0
打赏 0
评论 0
氪星晚报 |华为发布首款鸿蒙AI眼镜;天齐锂业:一季度净利润同比预增1530.31%—1818.01%
大公司:天齐锂业:一季度净利润同比预增1530.31%—1818.01%36氪获悉,天齐锂业披露业绩预告,预计2026年一季度归属于上市公司股东的净利润为17亿元—20亿元,同比增长1530.31%—1818.01%。盛屯矿业:一季度净利润10.2亿元,同比增长250.4%36氪获悉,盛屯矿业披露一季报,公司2026年一季度实现营业收入93.54亿元,同比增长65.08%;归属于上市公司股东的净利

0评论2026-04-204

美伊冲突、油价破百,你的奶茶也快涨价了?
“老板,塑料杯要涨价了。”近期,多家茶饮包材企业反馈,中东局势的升级已经影响到生产成本,行业已经进入新一轮成本承压周期。红餐供应链指南也注意到,霍尔木兹海峡关系到全球约五分之一的石油供应,从3月开始,随着海峡封锁状态持续,原油运输受阻,国际油价一路冲高,直至站稳100美元关口,创下近三年新高。化工产业链随之出现剧烈波动。原油作为工业血液,其价格波动会沿着产业链层层传递。石油炼化产出的石脑油,是生产

0评论2026-04-202