24人团队硬刚英伟达，AMD前高管梦之队出手，新芯片每秒17000个token_健康_健康资讯

造芯片的还有高手？

刚刚推出的一款最新芯片，直接冲上硅谷热榜。

峰值推理速度高达每秒17000个token。

什么概念呢？当前公认最强的Cerebras，速度约为2000 token/s。

速度直接快10倍，同时成本骤减20倍、功耗降低10倍。

这就意味着，LLM真正来到了亚毫秒级的即时响应速度。实机效果be like：

但这块一夜之间刷屏硅谷的芯片，并非出自英伟达、AMD之手，而是一家成立仅两年、团队仅有24人的初创公司——Taalas。

芯片代号HC1，也是公司的首款产品。

不同于所有竞争对手，Taalas选择了迄今为止最极端的技术方案——

模型不再加载到内存里，而是直接刻在硅片上。换言之，芯片即模型。

结果显而易见，Taalas撬动了芯片算力护城河：H100买不到，试试HC1又何妨？

速度快10倍，功耗降至10分之一

HC1目前搭载Llama 3.1 8B模型，用户每秒最高可生成17000 token/s，远高于主流GPU/ASIC。

其中，在同一模型下Cerebras接近每秒2000个token，SambaNova约为每秒900个token，Groq约为每秒600个，英伟达Blackwell架构的B200为每秒350个。

具体来说，HC1采用台积电N6工艺，面积为815mm²，体积小巧而且开源，单颗芯片即可满足8B模型需求。

每颗芯片典型功耗仅为250W，一个服务器如果同时装配10颗HC1，功耗也才2.5kW，可以直接使用常规空气冷却机架部署。

那么是如何做到这么大的性能飞跃的呢？

首先HC1借鉴了2000年代初期的结构化ASIC芯片理念。结构化ASIC芯片采用门阵列和固化IP，然后仅通过改变互连层就能使芯片适应特定的工作负载。

这样下来，结构化ASIC芯片不仅比全定制ASIC更便宜，也比FPGA性能更优。

HC1则采用类似思路，不改变底层电路，只通过调整两层掩模，就能低成本快速做出专用AI推理芯片。

它放弃了大多数可编程功能，将模型连同权重一起通过基于掩模ROM的调用架构存储在芯片上，并保留一个可编程SRAM，用于保存微调后的权重（如LoRA）和KV缓存。其余则全部通过掩模ROM固化执行。

这一策略能在设计成本相对可控的前提下，实现模型到芯片的快速转化，将芯片生产周期从原先的六个月缩短到两个月。

而如此激进的量化方式势必会影响性能，研究团队也意识到了这一点，所以可以通过LaRA适配器进行重新训练，以及可配置的上下文窗口，让芯片的最低限度灵活性得以保留。

换句话说，就是将一个完整大模型通过物理硬连线进芯片中，省去了传统存算分离的成本，用灵活性换取极致的速度和效率。

除了Llama 3.1，Taalas也尝试将其它模型集成到HC1上，例如对DeepSeekR1-671B的多芯片解决方案。

将SRAM部分拆分到单独的芯片上，然后可以将每片HC1的存储密度提高到约20位参数，总计需要30个定制HC1。

整体处理速度可达到每用户每秒12000个token，如果考虑到30颗芯片成本为每百万token是7.6美分，那么该方案成本也不到同等吞吐量的GPU方案的一半。

假设GPU更新周期为四年，而HC1每年都需要重新更换，总成本也仍然具备优势。

AMD前高管梦之队

其背后的公司Taalas成立于两年前，由AMD前集成电路设计总监Ljubiša Bajić、AMD/ATI/Altera前技术经理和工程师Leila Bajić、AMD前ASIC设计总监Drago Ignjatović共同创立，堪称AMD前高管梦之队。

其中，Ljubiša Bajić不仅曾在AMD和英伟达担任高级职位，负责高性能GPU研发设计，还是Tenstorrent的创始人兼首任CEO。

新公司致力于开发专为AI推理和训练设计的全新架构，强调分层设计和晶格网络，能够让芯片像大脑一样根据任务需求动态处理数据。

在2020年，芯片教父Jim Keller也强势加入Tenstorrent，并接任CEO一职，而Ljubiša Bajić转任首席技术官CTO，专注于产品研发。

随后，他又创立了Taalas，试图通过类似硅基编译器的方式，直接将AI模型转化为硅芯片。

于是首战告捷，一个仅有24名成员的团队，产品投入仅3000万美元，就创造出比通用AI芯片高出几个数量级的能效比。

目前Taalas已筹集2亿美元投资，预计将在春季基于HC1发布第二代变体，将集成一款中等规模的推理大模型。

随后预计将在冬季部署上线HC2，HC2密度更高、运行速度也会更快。

不过对于HC1，网友们的评价却是两极分化。

一方面，网友认为HC1的超低延迟将有益于推动具身智能等领域发展。

另一方面，也有网友实测过后发现，HC1高速推理的背后，却是糟糕的推理深度：

以及对于迭代周期相当迅速的大模型来说，HC1的硬编码可能会使芯片很容易过时。

这也是为什么当前芯片厂商都在普遍推出通用型芯片的原因之一。

参考链接：[1]https://x.com/wildmindai/status/2024810128487096357?s=20[2]https://taalas.com/the-path-to-ubiquitous-ai/[3]https://chatjimmy.ai/[4]https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed

本文来自微信公众号“量子位”，作者：关注前沿科技，36氪经授权发布。

顶流商圈抢滩、爆款频出，京匠黄金凭什么让中产上头？
0评论2026-05-07

最前线|将彩色打印与激光切割合二为一，xTool发布新品

文｜张子怡编辑｜袁斯来36氪获悉，个人创意工具品牌xTool于今日正式发布其新款消费级激光创作工具——xTool M2彩色智能激光雕刻机。在目前的消费级激光雕刻市场中，用户面临的一个核心痛点在于“机械加工与色彩表现”的脱节：传统的激光雕刻机擅长物理切割与灼烧成痕，但若要制作彩色作品，用户往往需要经历繁琐的手动涂色、转印或多台设备切换对位，过程既复杂又难以保证精度。xTool M2试图通过硬件层面的

0评论2026-05-076

百亿明星私募被曝光“打新内幕”

在A股市场的网下打新舞台上，百亿规模的主观多头私募一直是不可或缺的重要角色。但这套规则清晰、看似收益稳定的“打新”操作中，私募机构们的每一次报价与申购的背后，是如何完成内部协作、信息传递与投资觉得，外界掌握的并不清楚。近日，随着中国证券业协会一纸自律决定书的披露，一家知名百亿私募机构们的打新操作系统中的“真实齿轮”与“运作痕迹”，得以曝光。这份文件不仅指向一家明星机构的操作瑕疵，更如同为外界提供了

0评论2026-05-077

你买的那些永久App，从来都是半永久？
0评论2026-05-07

上海长溇村：文艺地标崛起背后的租金拉锯战
0评论2026-05-07

水果圈的造神游戏：为何总有人为几百一斤的水果买单？
0评论2026-05-07

拆解10家上市商超零售公司2026年Q1财报：9家盈利，1家亏损
0评论2026-05-07

餐饮业淘汰赛仍在持续，企业最该抓住这七大机会
0评论2026-05-07

追觅扩张狂飙：十个孵化器，内部赛马
0评论2026-05-07