分享好友 健康资讯首页 健康资讯分类 切换频道

比IMO还难的数学挑战赛,谷歌赢了OpenAI

2026-02-26 16:026036kr

IMO金牌已经“过时”了。

基于Gemini 3 Deep Think的谷歌数学智能体Aletheia在更难的挑战赛FirstProof中拿下的最佳成绩。

在公布的完整成绩单中,10道题Aletheia全程0人工参与解出6道,其中5题专家全票通过,还有一题拿到了5/7的通过率。

FirstProof是由来自哈佛、斯坦福等名校的11位顶尖数学家联手打造的一套专门验证AI独立科研能力的数学题集。

10道题全网无迹可循,没法儿背答案作弊,连陶哲轩都转发说这事儿非常有意思,推荐关注。

不止谷歌,OpenAI内部模型也考了这套题,基本正确的有5题。

但是!谷歌全程AI自主,OpenAI在考试过程中动用了人工来挑最佳答案(doge)。

谷歌略胜一筹

FirstProof由来自哈佛、斯坦福等名校的11位顶尖数学家出题。

和IMO这类竞赛题不同,最新挑战赛的10道题不是标准化的竞赛题,而是直接扒自数学家们真实遇到的难题,之前从没任何公开发布过。

而且,答案都是在AI考完之后才放出来的,这样就切断了AI通过背答案套模板的可能。

先看成绩单,OpenAI冲刺七天,在5个问题上基本正确,分别是:

4. 有限加性卷积与Φₙ的调和平均不等式;

5. O-适配切片滤过与切片连通性的几何不动点判据;

6. 大规模ε-轻顶点子集;

9. 缩放四线性行列式张量之间的代数关系;

10. 含缺失数据的核化CP–ALS子问题:基于Kronecker预条件的无矩阵PCG方法。

其实,初期OpenAI公布的成绩单有6题,结果第2题(非阿基米德局部域上GLₙ的Rankin–Selberg积分非零性判定)反复被社区指出有逻辑问题,于是团队保守改成5道。

不过,团队透露在在测试过程中人工协调了该模型与ChatGPT之间的交流,用于验证、格式整理与风格调整。

有个别问题最终呈现的是人工挑选的最佳结果。

谷歌Aletheia这边,6道题全都自主拿下,包括OpenAI被质疑的第2题。

在专家评审中,在2、5、7、9、10题获专家全票通过。

其中,第7题是公认的本套题集中难度最高的一题,是一个公开未解决的问题,直至本次FirstProof挑战赛发布标准答案时,才由Cappell–Weinberger–Yan团队完成首次解决。

第8题虽然没全票通过,但也拿到了5/7的高分。

对应的题目分别是:

2. 非阿基米德局部域上GLₙ的Rankin–Selberg积分非零性判定;

5. O-适配切片滤过与切片连通性的几何不动点判据;

7. 含2-挠率的实半单群一致格的紧流形基本群可实现性;

8. 多面体拉格朗日曲面的4-顶点Lagrangian光滑化存在性;

9. 缩放四线性行列式张量之间的代数关系;

10. 含缺失数据的核化CP–ALS子问题:基于Kronecker预条件的无矩阵PCG方法。

要从解题数量和模式来看的话,谷歌Aletheia不仅解题数多1个,相比之下还靠AI全程自主略胜一筹。

接下来,咱继续看看Aletheia到底是个什么打法。

AI自主最佳二选一

首先,底层模型就是之前拿了IMO金牌的Gemini 3 Deep Think。

Aletheia搭载了AB两个版本的Gemini 3 Deep Think模型,来了个最优二选一。(A是2026年2月的最新版,B是2026年1月的版本。)

然后是从读题到交卷的真·0人工干预解题流程。

Aletheia能直接读取不经过人类格式化的原始问题,自主推理后输出答案。

再通过内置的验证与提取提示自动校验答案的逻辑严谨性和规整格式,最终直接吐出LaTeX形式答案。

而且,剩下的没解出来的4道题倒也不是错了,而是直接“拒答”。

这是由于由于含智能筛选机制,当Aletheia无法生成可靠的证明时,模型不会胡编乱造生成无效答案,而是直接输出“无解决方案”的回复。

Aletheia还能动态调整推理资源的分配,比如遇到超难的第7题,它能自动投入远超常规题的推理算力,通过Generator子agent多轮生成+Verifier子agent严格校验,最终攻克。

而简单题则合理控制算力,避免资源浪费。

比如面对第10题这种张量分解的数值型题时,Aletheia给出了矩阵-向量成绩高效计算的方法。

不直接生成超大维度的Khatri-Rao乘积矩阵Z,而是通过动态生成所需行的方式,将每轮迭代的复杂度压缩到O(qr+n²r),比传统线性solver的O(n³r³)快几个量级。

这波谷歌略胜一筹,下一轮问题集3月中旬就要来了,难度只会更高,咱拭目以待~

参考链接:

[1]https://x.com/lmthang/status/2021644542852968952

[2]https://mathstodon.xyz/@tao/116022211452443707

[3]https://x.com/polynoamial/status/2022527227049742779

本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
抛弃“不作恶”,谷歌和五角大楼签订协议、承接美军机密AI业务,超700名员工联名反对
谷歌,这个曾以“不作恶”为行为准则的科技巨头,如今正深陷一场前所未有的内部风暴。28日,美国消费者新闻与商业频道(CNBC)援引科技媒体“The Information”报道,谷歌已与美国国防部签署协议,承接机密人工智能业务。一位知情人士透露,美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称,本周,700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊,要

0评论2026-04-296

一季度净利环比暴增27倍,剑桥科技股价一年涨三倍,险资与社保基金加仓,股东高管减持
4月27日盘后,光模块概念大牛股剑桥科技(603083.SH、06166.HK)发布2026年一季报,公司一季度营收同比增长43.98%至12.87亿元;归母净利润同比增长276.44%至1.18亿元。从环比来看,剑桥科技今年第一季度营收环比下滑约12%;净利润环比增长2722.62%,而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股,剑桥科技H股曾在11个交易日完成了翻倍,4月2

0评论2026-04-296

32美元一辆车,Tesla为什么不认?(下)
本案真正值得关注的,不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是,如果法院最终认为这类平台许可条款不能进入FRAND审查,那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时,实施者还能不能有效挑战其许可条件?这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看,Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-296

“保本”又“看病”?监管部门约谈健康险公司,中介平台下架热销“医疗金”产品
早在前两年,市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长,这类产品的资产增值属性被放大,经过长期现金价值积累,配合可以累积的医疗保险金,使得产品有着不输理财型产品的收益率,这也是引起监管部门关注的原因之一。2026年4月初,当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时,他可能不会想到,体验活动中的重磅产品“岁月长安·特定疾病保险(互联网版)”即将面临下架。4月

0评论2026-04-294