卡帕西点赞Transformer内置计算机，每秒3万Token吞吐，拿下世界最难数独_健康_健康资讯

LLM推理已经顶尖，精确计算却跟不上。

这局怎么破？

卡帕西点赞的解决方法来了，在大模型内部构建一台原生计算机。

新方法不搞外包那一套（不依赖任何外部工具），直接在Transformer权重里内嵌可执行程序。

并通过创新的2维注意力头设计，将大模型的推理效率提升至指数级。

能在普通CPU上实现每秒3万+Token的流式输出。

在Transformer内嵌原生计算机

咱都知道，当前最先进的大模型，拿下奥赛金牌已经不足为奇了。

甚至有些还能挑战人类还未解决的数学问题与科学问题。

但有一个始终无法回避的现实是，这些模型在需要多步骤、长上下文的精确计算任务中，仍然表现惨淡。

为了弥补这个短板，现在行业上有两种主流的解决方案。

一是工具调用，让模型生成脚本，由外部沙箱解释器执行后返回结果；

二是智能体调度，通过外部状态机拆分计算任务，循环调用模型处理上下文。

但这两种方式的本质，都是给模型开“外挂”，把计算能力挂靠在外部。

标准Transformer的自回归解码，更是让这一问题雪上加霜——

每生成一个Token，模型都要对全量历史序列进行注意力扫描，计算代价随序列长度线性增长，让长轨迹的精确计算不可行。

Percepta团队的新研究，就跳出了外挂思路，直接让Transformer当计算机。

首先，他们在Transformer权重中实现了一套现代化RAM计算机与WebAssembly解释器。

WebAssembly可以理解成一种特别快、特别稳定的底层机器指令，C、C++这些编程语言写完的代码，都能编译成它。

有了这个解释器意味着任意标准化的程序代码，都能被编译为模型可识别的Token指令序列。

比如，要计算3+5，模型会先这样写：

然后切换到快速解码模式，在Transformer内部一步步把这段程序跑完，同时把执行过程按行输出成一串标记：

计算结果直接在模型的Token输出流中生成，不需要再等外部工具返回结果，而且全程透明。

这种透明性，也让模型的计算过程从黑箱（外部依赖）变成白盒，实现了计算的可验证性。

内置计算机有了，怎么提高效率呢？

对这个问题，团队进行了2维注意力头的创新设计。

在2维注意力头的设计中，每个历史Token的Key向量都是二维的，当前步骤的Query向量则可视为二维平面上的一个方向。

此时，注意力查询的核心问题找到与Query最匹配的Key，就转化为了计算几何中的凸包极值查询，也就是在二维平面的凸包上，找到沿Query方向最远的点。

借助凸包数据结构，模型可以在生成Token的过程中，动态维护历史Key的凸包，每一步的注意力查询只需在凸包上进行。

这让计算复杂度从O (n) 降至O (log n)。

研究团队基于这一原理设计了HullKVCache。

该缓存在普通CPU上实现了31037 Token/秒的吞吐量，完成约9000行指令序列仅需1.3秒，效率较传统KV缓存提升了近200倍。

而且，该设计完全基于标准PyTorch Transformer，不需要定制内核或稀疏掩码，通过简单配置维度与注意力头数就能实现。

最难数独100%精确求解

团队选取了两个典型的长程精确计算任务来验证这套方法。

这两个实际任务是10×10最小代价完美匹配和公认的世界最难数独Arto Inkala。

在10×10最小代价完美匹配任务中，模型内部执行匈牙利算法，全程以自回归方式生成计算轨迹。

从行分配、Dijkstra算法求解，到对偶变量更新、增广路径查找，每一步的计算过程与代价累积都清晰记录，最终精准求解出最优匹配方案。

整个过程在CPU上完成，Token生成速度达到33583 Token/秒，7301行/秒的指令输出效率。

在数独求解过程中，针对仅有21个提示数的Arto Inkala数独，模型内部执行了一个完全正确的、编译后的数独求解器。

求解器先通过约束传播填充21个单元格，然后进入搜索阶段，逐个尝试可能的数字赋值，遇到矛盾立即回溯。

每一次尝试、验证、一致性检查、矛盾检测与回溯步骤都以可读的日志行和Token轨迹形式自回归生成并输出。

最终在3分钟内实现了100%精确求解。

这项工作由Christos Tzamos领衔，与Percepta其他研究者共同完成。

Christos Tzamos是麻省理工博士，目前任雅典大学计算机科学副教授，同时是Percepta的创始研究员。

Percepta是General Catalyst旗下的AI转型公司，团队成员包括来自Meta FAIR、MIT、Google等机构的人才。

参考链接：

[1]https://x.com/ChristosTzamos/status/2031845134577406426?s=20

[2]https://www.percepta.ai/blog/can-llms-be-computers

本文来自微信公众号“量子位”，作者：闻乐，36氪经授权发布。

抛弃“不作恶”，谷歌和五角大楼签订协议、承接美军机密AI业务，超700名员工联名反对

谷歌，这个曾以“不作恶”为行为准则的科技巨头，如今正深陷一场前所未有的内部风暴。28日，美国消费者新闻与商业频道（CNBC）援引科技媒体“The Information”报道，谷歌已与美国国防部签署协议，承接机密人工智能业务。一位知情人士透露，美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称，本周，700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊，要

0评论2026-04-2913

AI对话框成“赛博魅魔”：它越懂你，为什么越危险？
0评论2026-04-29

一季度净利环比暴增27倍，剑桥科技股价一年涨三倍，险资与社保基金加仓，股东高管减持

4月27日盘后，光模块概念大牛股剑桥科技（603083.SH、06166.HK）发布2026年一季报，公司一季度营收同比增长43.98%至12.87亿元；归母净利润同比增长276.44%至1.18亿元。从环比来看，剑桥科技今年第一季度营收环比下滑约12%；净利润环比增长2722.62%，而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股，剑桥科技H股曾在11个交易日完成了翻倍，4月2

0评论2026-04-2912

32美元一辆车，Tesla为什么不认？（下）

本案真正值得关注的，不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是，如果法院最终认为这类平台许可条款不能进入FRAND审查，那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时，实施者还能不能有效挑战其许可条件？这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看，Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-2914

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍
0评论2026-04-29

靠补贴扭亏为盈？摩尔线程仍需打“硬仗”
0评论2026-04-29

AI时代，“10后”沉迷于捡“电子垃圾”
0评论2026-04-29

“保本”又“看病”？监管部门约谈健康险公司，中介平台下架热销“医疗金”产品

早在前两年，市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长，这类产品的资产增值属性被放大，经过长期现金价值积累，配合可以累积的医疗保险金，使得产品有着不输理财型产品的收益率，这也是引起监管部门关注的原因之一。2026年4月初，当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时，他可能不会想到，体验活动中的重磅产品“岁月长安·特定疾病保险（互联网版）”即将面临下架。4月

0评论2026-04-299

比亚迪、奇瑞汽车的供应商冲击IPO，上市前巨额分红，来自山东济宁
0评论2026-04-29

第一批押注AI的酒店、民宿，已经不看OTA脸色了？
0评论2026-04-29