分享好友 健康资讯首页 健康资讯分类 切换频道

OpenAI发布权威AI科研基准,扯下AI遮羞布:奥赛金牌≠一流科学家

2025-12-17 17:0023036kr

OpenAI最新发布的FrontierScience基准,试图用真实的博士级难题,从物理、化学、生物三个维度上考验AI。真相是残酷的:在没有唯一标准答案的科研实战中,AI作为「顶级做题家」,距离真正的科学家,还差得远。 

OpenAI在2025年12月16日发布了一套新基准FrontierScience,用来衡量AI在物理、化学、生物三门学科里,能否做到接近专家水准的科学推理,而不只是背知识点。

OpenAI在文中把科学工作描述成一套更接近「持续试错」的流程。

提出假设,设计验证,推翻再重来,还要把不同领域的线索拼成同一张图。

模型越强,问题就越尖锐,AI能不能把这种深推理用到真正的科研推进上。

OpenAI提到,过去一年他们的系统在国际数学奥林匹克和国际信息学奥林匹克上达到了金牌级表现,同时更重要的变化发生在实验室和办公室里。

研究者开始拿这些模型做跨学科文献检索,跨语言读论文,也拿它们去推复杂证明。

有些原本要耗掉几天甚至几周的工作,被压到几小时就能跑完一轮。

为什么需要FrontierScience?OpenAI给了一个对比。

2023年11月,GPQA这个由博士专家撰写、强调「谷歌搜不到」的科学题库发布时,GPT-4只拿到39%,低于专家基线74%。

两年后,GPT-5.2在同一基准上拿到92%。

当旧题库逐渐被刷穿,新的尺子就必须更长,否则你看不出模型还能往哪里发展。

FrontierScience的设计更像是给模型丢进两种不同的「科学难关」。

一类偏竞赛风格,考你在约束条件下把推理做到干净利落。

物理竞赛题示例

另一类更贴近研究现场,要求你在开放问题里把思路走通,哪怕没有标准答案那么工整。

物理科研问题示例

这套评测总量超过700道文本型题目,其中160道属于「黄金组」(Gold Set)题目。

竞赛赛道有100道题,强调短答案形式,便于核验对错。

研究赛道有60个原创研究子任务,由博士阶段或更资深的研究者设计,用10分制评分,拿到至少7分才算通过。

题目质量是有充足保障的:

竞赛赛道和42位前国际奖牌得主或国家队教练合作,总计109枚奥赛奖牌;

研究赛道由45位合格科学家与领域专家参与,覆盖从量子电动力学到合成有机化学,再到进化生物学等细分方向。

OpenAI还承认了一个不那么「中立」的细节。

两套题在制作流程里会刻意淘汰OpenAI自家内部模型已经能答对的题,因此这套评测对OpenAI自家模型可能更苛刻一些。

与此同时,他们开源了两套赛道的「黄金组」题目,其余题目保留,用来追踪数据污染。

OpenAI说,短答案适合机器判定,但研究型任务需要更细颗粒度的量表,于是他们用GPT-5充当模型判卷员,对照短答案逐项打分。

理想状态是请专家逐题批改,现实是规模不允许,于是规则被设计成尽量客观且可被模型检查,并配了验证流程来校准难度与正确性。

成绩单上,OpenAI给出了一轮初测对比。

他们评测了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI表示,GPT-5.2在竞赛题上得分77%,在研究题上得分25%,目前领先;Gemini 3 Pro在竞赛题上拿到76%,紧跟其后。

更值得注意的是失败原因。

OpenAI从答题记录里总结,前沿模型仍会犯推理、逻辑和计算错误,会卡在冷门概念上,也会出现事实性偏差。

另一个很朴素的观察也被写进正文:模型想得更久,准确率往往更高。

OpenAI对FrontierScience的边界也直言不讳。

它把科研切成可控的题目,这让评测更标准化,但也意味着它更像一张高清截图,而不是科研的全景纪录片。

尤其是它不评估模型能否提出真正新颖的假设,也不覆盖它与多模态数据和现实实验系统打交道的能力。

接下来,OpenAI计划迭代题库、扩展领域,并配套更多真实世界评估,看这些系统究竟让科学家多做成了什么。

奥赛金牌≠一流科学家,AI距离成为真正能独当一面的一流科学家,还有很长的路要走完。

参考资料:

https://openai.com/index/frontierscience/ 

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
抛弃“不作恶”,谷歌和五角大楼签订协议、承接美军机密AI业务,超700名员工联名反对
谷歌,这个曾以“不作恶”为行为准则的科技巨头,如今正深陷一场前所未有的内部风暴。28日,美国消费者新闻与商业频道(CNBC)援引科技媒体“The Information”报道,谷歌已与美国国防部签署协议,承接机密人工智能业务。一位知情人士透露,美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称,本周,700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊,要

0评论2026-04-297

一季度净利环比暴增27倍,剑桥科技股价一年涨三倍,险资与社保基金加仓,股东高管减持
4月27日盘后,光模块概念大牛股剑桥科技(603083.SH、06166.HK)发布2026年一季报,公司一季度营收同比增长43.98%至12.87亿元;归母净利润同比增长276.44%至1.18亿元。从环比来看,剑桥科技今年第一季度营收环比下滑约12%;净利润环比增长2722.62%,而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股,剑桥科技H股曾在11个交易日完成了翻倍,4月2

0评论2026-04-297

32美元一辆车,Tesla为什么不认?(下)
本案真正值得关注的,不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是,如果法院最终认为这类平台许可条款不能进入FRAND审查,那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时,实施者还能不能有效挑战其许可条件?这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看,Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-297

“保本”又“看病”?监管部门约谈健康险公司,中介平台下架热销“医疗金”产品
早在前两年,市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长,这类产品的资产增值属性被放大,经过长期现金价值积累,配合可以累积的医疗保险金,使得产品有着不输理财型产品的收益率,这也是引起监管部门关注的原因之一。2026年4月初,当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时,他可能不会想到,体验活动中的重磅产品“岁月长安·特定疾病保险(互联网版)”即将面临下架。4月

0评论2026-04-295