芯东西5月20日消息,据《福布斯》昨日报道,美国AI模型开发商Zyphra正在进行5亿美元(约合人民币34亿元)的新一轮融资,美国芯片巨头AMD也参与了投资。消息人士称,Zyphra的估值将至少达到50亿美元(约合人民币341亿元)。
Zyphra成立于2020年,开发先进的开源AI模型,并提供云基础设施服务。大多数AI实验室默认采用英伟达芯片,而Zyphra却完全站在AMD派系,其模型的训练和推理均在AMD硬件上运行,这既节省了成本,又带来了供应链优势。
Zyphra Cloud是一个由AMD提供技术支持的全栈式新云平台,专为AI原生初创公司、企业和前沿AI超大规模数据中心而设计。
该平台最初基于AMD MI355X GPU,支持领先的开源模型的无服务器推理,现已扩展到裸机AMD基础设施,提供两种主要部署模式:按需部署的裸机GPU集群,适用于灵活的工作负载;以及定制化的超大规模AMD基础设施,适用于大规模训练和推理部署。
目前,MI355的15兆瓦容量已投入使用。
Zyphra Cloud中,Zyphra Inference推理云提供生产级模型服务,专为大型MoE模型和具有长上下文以及大型KV和prefix cache的长时间运行的代理工作负载而设计,由MI355X GPU和TensorWave合作提供支持,可处理包括Kimi-K2.6、DeepSeek-V3.2、GLM-5.1等先进开源模型。其模型服务价格如下:
昨日,Zyphra预告将发布其基于MI355X的推理的首个端到端基准测试结果,并称其推理优化显著优于AMD基线,并缩小了MI355X和B200在运行Kimi K2.6、GLM-5.1、DeepSeek-V3.2等模型时的性能差距。
其优化包括:
树状注意力:用于长上下文注意力的平衡树状简化
TSP:在节点内部链路上保持模型并行组
跨内核、HIP图、RCCL进行调优
EAGLE推测性解码针对ROCm进行了调整
更长的上下文时间能更好地发挥其优势。随着上下文时间的增加,TSP和树状注意力机制能够带来更大的性能提升,从而缩小与B200的差距。在单请求解码和TTFT方面,B200当前仍领先于Zyphra的技术栈和AMD基线,但Zyphra看到了缩小差距的途径。
Zyphra解释了为什么选择MI355X:每个GPU配备288GB HBM3E,而B200则配备180GB,这意味着更多的驻留KV和prefix cache、更大的模型、更长的上下文,实现更低的延迟和更高的吞吐量。
相比B200,MI355X的单节点HBM内存预算在GLM 5.1、DeepSeek-V3.2和DeepSeek-V4-Pro(即将推出)上大约翻了一番。
接下来,Zyphra计划支持DeepSeek-V4-Pro,扩展到1.6T参数和1M上下文、训练信息量化、基于扩散的推测器,以及服务引擎方面的工作。
该公司还计划将支持范围扩展至下一代AMD平台,包括MI450系列及后续产品。
本文来自微信公众号“芯东西”,作者:ZeR0,36氪经授权发布。