分享好友 健康资讯首页 健康资讯分类 切换频道

单卡训练1亿高斯点,重建25平方公里城市:3DGS内存墙被CPU「外挂」打破了

2025-12-23 16:2517036kr

想用3D高斯泼溅(3DGS)重建一座城市?

过去,这往往意味着一套昂贵的GPU集群。如今,研究人员给出了另一种答案:一张RTX 4090,加上足够大的CPU内存,也可以完成城市级3D重建

来自纽约大学的研究团队在ASPLOS 2026上提出了名为 CLM(CPU-offloaded Large-scale 3DGS training)的系统。该工作通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存中,使单张消费级显卡也能训练上亿规模的高斯点模型,为大场景神经渲染显著降低了硬件门槛。

3DGS的规模应用瓶颈

3D高斯泼溅(3DGS)因其高质量渲染效果和极高的渲染速度,已成为神经渲染领域的重要技术路线。然而,当研究人员尝试将其用于城市街区、大型室内空间等复杂场景时,问题很快显现出来——GPU显存成为最直接、也最难解决的瓶颈

一个高精度的3DGS模型通常包含数千万乃至上亿个高斯点。每个高斯点包含位置、形状、颜色和不透明度等数十个可学习参数,训练过程中还需同时保存梯度和优化器状态。研究人员指出,即便是RTX 4090这样的24GB显存显卡,也只能容纳约一两千万个高斯点的完整训练状态,远不足以覆盖城市级场景。

在此之前,扩展规模的办法并不理想:要么使用多张GPU并行训练,成本高昂;要么通过压缩、裁剪或分区训练等方式减少高斯数量,但往往以牺牲重建质量为代价。

显存中绝大多数高斯闲置

CLM的出发点来自一个对训练过程的系统级观察。

研究人员发现,在3DGS训练的每一次视角渲染中,真正参与计算的高斯点只占整个场景的极小一部分。在大规模场景下,单帧图像通常只会访问不到1%的高斯点,其余绝大多数参数在该步训练中并未被使用。

基于这一现象,他们提出了CLM的设计思路,即不再将所有高斯参数常驻显存,而是在需要时按视角动态加载

以系统协同解决显存瓶颈

CLM并不是简单地把数据从GPU搬到CPU,而是一套围绕CPU–GPU协同设计的系统方案。研究人员将其总结为三项关键机制。

一、属性分割:只把“关键属性”留在GPU

在CLM中,每个高斯点的59个可学习参数被分为两类。

其中,用于视锥剔除和可见性判断的“关键属性”——包括位置、旋转和缩放(共10个浮点数)——被永久保存在GPU显存中。这部分数据仅占单个高斯内存占用的不到20%,足以判断该高斯是否会在当前视角中被使用。

其余约80%的“非关键属性”,如球谐系数、不透明度及其优化器状态,则被卸载到容量更大的CPU内存中,仅在需要时才被加载到GPU。

二、预渲染视锥剔除与选择性加载

与传统3DGS将视锥剔除逻辑融合进渲染内核不同,CLM在渲染前显式计算当前视角中可见的高斯点索引。

系统首先利用GPU中常驻的关键属性完成快速视锥裁剪,然后只从CPU内存中加载这些可见高斯点的完整参数,再交由GPU执行渲染与反向传播。这一做法显著减少了GPU对不可见高斯的无效计算和内存占用。

这一转变,将问题从“买更大的GPU显存”变成了“充分利用已有的CPU内存”

值得注意的是,CLM实现中包含的“预渲染视锥剔除”技术本身也是一个独立的优化。传统3DGS将视锥剔除与渲染内核融合,导致GPU线程对大量不在视锥内的高斯点进行无效计算。CLM改为在渲染前显式计算出在视锥内的高斯点索引,仅将这些点输入渲染内核,从而减少了GPU计算量和内存占用。这一技术同样可以应用于无卸载的GPU-only训练,并带来性能提升。

三、如何让CPU帮忙又不拖后腿?

CPU参与训练最容易引发的问题,是频繁的数据传输拖慢整体速度。

CLM通过多层系统设计缓解这一风险:

1.微批次流水线:将一个训练批次拆分为多个微批次(通常每个微批次对应一张图像),通过双缓冲和异步执行,将微批次i+1的参数加载与微批次i的GPU反向传播重叠,将微批次i的梯度存储与微批次i+1的GPU前向传播重叠。这种设计使得激活内存占用与批次大小无关,并有效隐藏了通信延迟。

2. 缓存机制:利用连续视角之间的空间局部性,缓存重复使用的高斯点,避免反复从CPU加载相同数据。

3. 智能调度:研究团队甚至将渲染顺序建模为一个“旅行商问题”(TSP),通过算法寻找高斯点重用率最高的视角排列,从而最大化缓存命中、最小化数据搬运。

通过这一系列设计,使CPU不再只能作为辅助性的“慢速仓库”,而成为可以与GPU高效协同的计算资源。

实测结果:单卡RTX 4090,规模放大6.7倍,质量同步提升

效果如何?论文中的实验数据给出了有力证明:

规模突破:CLM技术在几乎任何场景中都能显著增大模型尺寸。

在“MatrixCity BigCity”这个面积达25.3平方公里的城市级航拍数据集上,传统GPU-only方法在RTX 4090上最多只能训练1530万个高斯点(否则显存溢出)。而CLM利用CPU内存,成功训练了1.022亿个高斯点,模型规模扩大了6.7倍,比RTX 4090显卡上仅使用卸载功能时大2.2倍

质量提升:更多的参数带来了更精确的重建。1.022亿高斯点模型的渲染PSNR(峰值信噪比)达到25.15dB,显著优于1530万点模型的23.93dB。

速度可控:尽管有通信开销,但凭借精心设计的重叠计算,CLM在RTX 4090上的训练吞吐量仍能达到增强型基线吞吐量的55%至90%。在计算较慢的RTX 2080 Ti上,由于GPU计算时间更能掩盖通信延迟,吞吐量甚至能达到基线的86%至97%。

通用性强:该方案与具体后端渲染引擎(gsplat,inria-3dgs等)无关,并可扩展至其他splatting算法微调方式(2DGS、mesh-splatting)。

为3D大规模重建“降本增效”

从研究定位来看,CLM是一项直接面向真实部署瓶颈的系统工程研究,其核心贡献在于首次系统性地将CPU内存和计算资源,纳入了3DGS训练的资源分配体系中,在不依赖多GPU集群的条件下,为学术界和工业界进行超大规模场景重建提供了一种高性价比的可行路径。

从产业角度,随着数字孪生、大规模地图重建等应用需求不断增长,对高效、低成本3D重建工具有着迫切需要,能在现实硬件条件下稳定扩展规模对相关工作的开展非常有利。CLM通过软硬件协同的方式,对既有计算资源进行重新组织,展示了在不增加专用硬件投入的情况下推进3DGS实用化的可能方向。

目前,该项目的代码已在GitHub上开源,并提供了从快速上手到极端压力测试的完整教程。作者简介:赵和旭,纽约大学科朗研究所博士生,致力于机器学习系统研究,2023毕业于清华大学姚班;闵熙雯,纽约大学科朗研究所硕士生,2023年毕业于上海交通大学(其余作者信息详见论文)。

项目导师:李金阳教授和Aurojit Panda教授

论文链接:https://arxiv.org/abs/2511.04951

项目主页:https://tarzanzhao.github.io/CLM-GS

代码仓库:https://github.com/nyu-systems/CLM-GS

本文来自微信公众号“量子位”,作者:非羊,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
抛弃“不作恶”,谷歌和五角大楼签订协议、承接美军机密AI业务,超700名员工联名反对
谷歌,这个曾以“不作恶”为行为准则的科技巨头,如今正深陷一场前所未有的内部风暴。28日,美国消费者新闻与商业频道(CNBC)援引科技媒体“The Information”报道,谷歌已与美国国防部签署协议,承接机密人工智能业务。一位知情人士透露,美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称,本周,700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊,要

0评论2026-04-2912

一季度净利环比暴增27倍,剑桥科技股价一年涨三倍,险资与社保基金加仓,股东高管减持
4月27日盘后,光模块概念大牛股剑桥科技(603083.SH、06166.HK)发布2026年一季报,公司一季度营收同比增长43.98%至12.87亿元;归母净利润同比增长276.44%至1.18亿元。从环比来看,剑桥科技今年第一季度营收环比下滑约12%;净利润环比增长2722.62%,而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股,剑桥科技H股曾在11个交易日完成了翻倍,4月2

0评论2026-04-2912

32美元一辆车,Tesla为什么不认?(下)
本案真正值得关注的,不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是,如果法院最终认为这类平台许可条款不能进入FRAND审查,那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时,实施者还能不能有效挑战其许可条件?这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看,Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-2912

“保本”又“看病”?监管部门约谈健康险公司,中介平台下架热销“医疗金”产品
早在前两年,市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长,这类产品的资产增值属性被放大,经过长期现金价值积累,配合可以累积的医疗保险金,使得产品有着不输理财型产品的收益率,这也是引起监管部门关注的原因之一。2026年4月初,当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时,他可能不会想到,体验活动中的重磅产品“岁月长安·特定疾病保险(互联网版)”即将面临下架。4月

0评论2026-04-298