GPT-5.5彻底击穿300个黑客评测任务，仅需5000万Token_健康_健康资讯

316 道进攻性网络安全任务，GPT-5.5 解出了 292 道，正确率高达 92.4%！

5 月 27 日，澳大利亚研究机构 Lyptus Research 发布报告——GPT-5.5 让他们的整套评估体系饱和了。

https://x.com/LyptusResearch/status/2059428814103642340

7 个基准，涵盖漏洞利用、CTF 夺旗、真实 CVE 复现，每道题都有人类安全专家的完成时间作为基线。

GPT-5.5 展现出了顶级黑客团队的能力。

剩下那 24 道没解的题，已经不够画出一条有统计意义的能力曲线。

研究团队的判断是，这套评估方法对这类任务「不再适用」。

他们 2025 年 12 月开始搭这套测试的时候，选的是全球能找到的最难的题。

到 2026 年 3 月第一版报告，数据就出现了饱和苗头。

到 5 月，饱和变成了事实。

六个月，从「最难」到「不够用」。

进步曲线在狂飙

这条能力曲线的斜率才是真正吓人的地方。

Lyptus 从 2024 年开始追踪，拟合出来的结论，AI 进攻性网络安全能力每 5 到 6 个月翻一倍。

2026 年初 Claude Opus 4.6 时间地平线 3.2 小时，GPT-5.3 Codex 3.1 小时，两个月后 GPT-5.5 直接拉到 5.1 小时。

给够算力，冲过 12 小时测量上限，图表甚至画不下。

更狠的是 Token 预算这个变量。

GPT-5.5 在最难的基准 CyberGym 上，200 万 Token 预算下正确率 54.4%，推到 5000 万 Token，86.4%。

同一个模型，涨了 32 个百分点。

英国人工智能安全研究所（AIUK AI Safety Institute）的研究也证实了这一点，给到 1 亿 token，能力还在涨，没有平台期。

所有公开的基准测试成绩，都是在有限预算下跑出来的。真实能力天花板，远比账面数字高。

强大模型在受控

头部实验室已经被迫站队了。

Anthropic 在 4 月发布 Claude Mythos Preview，直接决定不公开，理由是网络安全能力过强，配套推出 Project Glasswing，把 Mythos 部署给关键基础设施的防御方。

OpenAI 给 GPT-5.5 网络安全能力评级「High」，仅比最高级「Critical」低一档，攻击相关能力全部通过「Trusted Access for Cyber」门控。

METR 对 Mythos 的独立评估撞上了同样的墙，拟合出的时间地平线至少 16 小时，但他们对这个数字不敢给点估计，只说「应保持谨慎」。

控制谁能用，是目前唯一的策略。

但窗口在缩小。

Lyptus 测量了一个叫「适应缓冲期」的指标，闭源前沿能力传导到开源模型的时间差。

进攻性网络安全领域，这个差距大约 5.7 到 13.1 个月。

按这个速度，Mythos 和 GPT-5.5 级别的攻击能力，年内就可能以开源形式落到任何人手里。

尺子被干碎了

回到最核心的问题。

这件事里最让人不安的部分，在于没人能准确说出现在大模型的上限到底有多强。

时间地平线方法论的逻辑很简单，用比模型能力更难的任务来锚定曲线的拐点。

当模型把所有任务都做完了，拐点消失，曲线无法拟合。

评估体系不是被证伪了，是被能力增长甩在了后面。

要造更难的测试，需要更多时间和人力。

模型能力每半年翻一倍，测试开发周期远长于此。

更关键的是英国人工智能安全研究所的发现，只要攻击方愿意多烧算力，就算有更难的题，照样做穿。

评估追不上能力。

这个结构性困境放到更大的框架下看，信号已经相当明确。

一个高度专业化的领域里，人类为 AI 能力设定的标尺已经被干碎了。

网络安全恰好是最容易量化的领域之一，有明确的成功判据，漏洞找到或没找到，系统攻破或没攻破。

连这种硬指标领域的评估都跟不上了，那些更模糊、更难量化的能力维度呢？

每 6 个月翻一倍的增速如果维持，一年后的能力是今天的 4 倍，两年后 16 倍。

通往 AGI 乃至 ASI 的路上，被干碎的不会只有这一把尺子。

看不到边界，比边界本身更危险。

参考资料：

https://lyptusresearch.org/research/gpt-5-5-saturates-offensive-cyber-time-horizons

https://x.com/LyptusResearch/status/2059428814103642340

本文来自微信公众号“新智元”，作者：ASI启示录；编辑：马可，36氪经授权发布。

对手纷纷上市，Kimi坐不住了
0评论2026-05-28

19天暴涨22倍，苏州国资赚翻了

当A股还在讨论下一只“10倍牛股”花落谁家时，苏州已悄悄跑出一只“新股王”。上市仅19天，联讯仪器（688808.SH）刷新市场认知：公司股价从81.88元的发行价，一路飙升至最高的1898.88元。这意味着，在上市不到20个交易日里，联讯仪器就轻松斩获22倍惊人涨幅，成为AI算力产业链中又一现象级“超级牛股”。亮眼行情的背后，有着苏州国资的身影。在此之前，苏州国资已在中际旭创（300308）身上

0评论2026-05-280

国产大模型们，站在了Freemium的十字路口
0评论2026-05-28

9辆卡车两天造“军训场”，京沪年轻人疯抢600元门票
0评论2026-05-28

烘焙大降温，但这10个趋势正在闷声赚钱
0评论2026-05-28

智象未来CEO梅涛：多模态模型Token的毛利率，远高于语言模型

文｜王欣逸李嘉星编辑｜周鑫雨一家Day 1就在做多模态大模型的公司，无法拒绝参与到具身智能和世界模型热潮之中。2026年，随着Seedance 2.0、GPT Image 2.0等模型的爆火，多模态能力越来越成为行业内绕不开的关键词。5月19日，智象未来首届开放日上，智象未来给出了他们的判断和回答：“原生多模态是实现AGI的必经之路。”本场开放日活动主题为“Imaging the World”，

0评论2026-05-280

消费级机器人大爆发，我在今年看到的产业新变化

前沿产业的范式转移，往往在大众尚未完全察觉的时刻悄然完成。过去很长一段时间，人形机器人与具身智能，始终游离在消费市场的认知边界之外。它是CES展台光影交织的概念展品，是春晚舞台经过反复彩排的技术展演，是超级工厂里小范围试用的试验设备。公众对这一赛道的印象，长期停留在炫酷、昂贵、不成熟的标签里，距离日常消费生活有着遥远的距离。但在短短数个月的时间里，这种认知鸿沟正在被快速填平。智元可便携收纳的小型人

0评论2026-05-280

AI硬件普及门槛是什么？在澳门Beyond，讯飞、XREAL们给出了答案
0评论2026-05-28

富途、老虎被罚后资金搬家，有人浮亏40万进退两难

5月22日晚上，在老虎证券、富途证券等跨境券商合计被罚超22亿元的信息披露后，作为老虎证券用户的上海某智库从业者华康（化名）连夜清仓中概股，回流资金用于投资A股、偿还房贷。当天下午，多部门联合重磅落地非法跨境证券业务整治行动，证监会对富途、老虎、长桥等境内外相关主体在境内非法经营证券业务等行为立案调查。本次监管明确升级，2年过渡期内存量账户实行“只出不进”规则，期满则全面关停服务，无牌跨境券商在内

0评论2026-05-280

5篇AI生成的数学论文被接收，00后创始人洪乐潼融资14个亿
0评论2026-05-28