分享好友 健康资讯首页 健康资讯分类 切换频道

特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线

2025-10-27 17:029036kr

特斯拉世界模拟器来了!

这些看似真实的驾驶场景,全都是用模拟器生成:

这个模拟器在今年的计算机视觉顶会ICCV上亮相,由特斯拉自动驾驶副总裁Ashok Elluswamy亲自讲解。

网友看了之后表示,这个模型实在是泰裤辣。

同时,Elluswamy也首次揭秘了特斯拉的自动驾驶技术路线图,表示端到端才是智能驾驶的未来。

世界模拟器生成自动驾驶场景

除了开头看到的多场景驾驶视频,特斯拉的世界模拟器还可以为自动驾驶任务生成新的挑战场景

比如右侧的车辆突然连并两条线,闯入预设的驾驶路径。

也可以让AI在已有的场景中执行自动驾驶任务,躲避行人和障碍物。

模型生成的场景视频,除了让自动驾驶模型在里面练手,也可以当成电子游戏,供人类玩耍体验。

当然除了驾驶相关,对其他具身智能场景——比如特斯拉的擎天柱机器人——也同样有用。

与这个模型一同被揭秘的,还有特斯拉在自动驾驶上的一整套方法论。

特斯拉VP:端到端才是自动驾驶的未来

ICCV演讲中,特斯拉自动驾驶副总裁Ashok Elluswamy揭秘了特斯拉FSD的技术细节,同时还在X上发表了文字版本。

Ashok首先明确,端到端AI才是自动驾驶的未来

特斯拉利用端到端神经网络实现自动驾驶,这个端到端神经网络会利用来自各个摄像头的图像、运动信号(例如车速)、音频、地图等数据,生成驱动汽车的控制指令。

与端到端相对的另一种方法是采用大量传感器的模块化驾驶,这类系统的优势是在初期更容易开发和调试,但相比之下,端到端的优势更加明显:

将人类价值观规则化极其困难,但从数据中学习则容易;

模块化方法中感知、预测和规划之间的接口定义不明确,但在端到端中梯度从控制一直流向传感器输入,从而整体优化整个网络;

端到端方法可轻松扩展以处理现实世界机器人的繁重和长尾问题;

端到端具有确定性延迟的同质计算。

Ashok举了一些例子,比如车辆行驶过程中发现前方路面存在积水,此时有两种策略,一是直接从积水上开过,二是借用对向车道绕过积水。

驶入对向车道是危险的,但在这个具体场景中视野开阔,在避开水坑所需的路程之内对向车道没有车辆,借用对向车道避开水坑是一种可行的选择。

这种权衡取舍就很难用传统的编程逻辑来表达,而对于人类来说,这在观察场景时却相当简单。

基于以上考虑及其他因素,特斯拉采用了端到端的自动驾驶架构,当然,端到端系统也仍有许多挑战需要克服。

特斯拉如何解决端到端自动驾驶困难

端到端自动驾驶面临的困难,其中之一就是评估。特斯拉推出的世界模拟器,也正是针对这一难题。

该模拟器使用特斯拉筛选出的同样的海量数据集进行训练,其功能并非预测给定状态下的行动,而是根据当前状态和下一步行动来合成未来状态。

这样的状态可以与智能体或策略AI模型连接起来,以闭环方式运行,从而评估性能。

同时,这些视频并不局限于评估,它还可以用于闭环大规模强化学习,从而实现超越人类的表现。

除了评估之外,端到端自动驾驶还面临“维数灾难”,以及可解释性和安全性保证的问题。

在现实世界中,想让自动驾驶系统安全运行,就需要处理高帧率、高分辨率、长上下文输入。

假设输入信息包括7个摄像头×36FPS×5 百万像素×30秒的场景画面、未来几英里的导航地图和路线、100Hz的运动数据,以及48KHz的音频数据,大约会有20亿输入Token。

神经网络需要学习正确的因果映射,将这20亿个Token精简为2个,即车辆的下一个转向和加速动作。在不学习虚假相关性的情况下学习正确的因果关系是一个极其棘手的问题。

为此,特斯拉通过庞大的车队,每天收集相当于500年驾驶总和的数据,并使用复杂的数据引擎筛选最高质量的数据样本。

使用这样的数据进行训练,就能让模型获得极高的泛化能力,从而应对极端情况。

对于可解释和安全性问题,如果车辆的行为不符合预期,端到端系统的调试可能就会变得很困难,但模型也可以生成可解释的中间Token,可以根据情况用作推理Token。

特斯拉的生成式高斯泼溅就是这样一项任务,它具有出色的泛化能力,无需初始化即可建模动态物体,并可与端到端模型联合训练。

其中所有的高斯函数都是基于量产车配置的摄像头生成的。

除了3D几何之外,推理还可以通过自然语言和视频背景进行。该推理模型的一个小版本已经在FSD v14.x版本中运行。

更多技术细节,可以到Ashok的文章和原始演讲视频当中一探究竟。

端到端自动驾驶两大路线:VLA还是世界模型?

虽然端到端被视为自动驾驶的未来,但在业界,具体的软件算法路线也一直存在VLA和世界模型之争。

以国内为例,华为和蔚来都是世界模型路线的代表,元戎启行和理想则选择VLA路线,另外也有一些玩家认为应该将两者结合。

VLA玩家认为,该范式一方面可以应用互联网已有的海量数据,积累丰富常识,进而理解世界。另一方面模型通过语言能力实际上是具备了思维链能力,能够理解长时序数据并进行推理。

更尖锐的观点认为,有些厂家不用VLA是因为算力不够,带不动VLA模型。

世界模型玩家们则坚持世界模型更接近问题本质,例如华为车BU CEO靳玉志认为“VLA这样的路径看似取巧,并不能真正走向自动驾驶”。

而现在,特斯拉的方案之所以备受关注,也正是因为在自动驾驶发展历程中,马斯克从未有过“选错”。

特斯拉选什么路线,VLA还是世界模型,关于端到端自动驾驶两大技术路线的历史性决战。

你看好VLA,还是世界模型?

参考链接:

[1]https://x.com/Tesla/status/1982255564974641628

[2]https://x.com/aelluswamy/status/1981644831790379245

本文来自微信公众号“量子位”,作者:克雷西,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
日更7.5万首,播放不足3%:AI音乐沦为“虚假繁荣”?
Suno V5、Lyria 3 Pro、Mureka V9……从30秒片段到3分钟完整曲目,从简单旋律到精细化编曲,AI音乐大模型正在以肉眼可见的速度重构音乐行业的生产逻辑。但热闹之下,市场已是硝烟弥漫。一边,是版权方的严防死守。2026年4月,Suno与环球、索尼的版权谈判彻底崩盘,双方陷入“完全无路可走”的僵局;美国唱片业协会(RIAA)多次发声谴责AI音乐平台侵权,索赔金额高达每首15万美元

0评论2026-04-251

DeepSeek V4背后,梁文锋的转身
2026年4月,DeepSeek几乎同时公布了两条大新闻:一是公司启动首次外部融资,目标估值从100亿美元迅速抬升至200亿到300亿美元,腾讯、阿里正洽谈入局;二是其新一代旗舰模型V4发布,全面适配华为昇腾950PR芯片,从英伟达的CUDA生态转向华为的CANN框架。一内一外两种变化,背后是DeepSeek的全面战略转向,也是AI公司竞争进入深水区的标志。那个纯靠自身的量化投资输血、以“技术理想

0评论2026-04-251

深圳千亿新贵:投资人赚了500倍
创投圈又一笔超级回报诞生。这要从4个月前说起——“Token第一股”迅策科技登陆港交所,但彼时股价起伏不定。没想到短短百余天后,公司市值竟一举突破1000亿港元,上市以来股价最新累计上涨高达500%。乍听起来有些陌生,迅策背后站着一对父子——刘呈喜在2016年出资创立公司,却由其子刘志坚一手带队,历经十年站上IPO敲钟舞台。一路走来,迅策科技身后的投资人队伍浩浩荡荡,如今市值已较A轮估值翻了500

0评论2026-04-251

全球CPU龙头股暴力突袭,AI逻辑新主线浮现
4月24日,全球半导体板块出现罕见的同步性巨幅波动。美股盘前,英特尔因最新财报与业绩沟通释放积极信号,盘前涨幅一度逼近30%;A股市场中,国产CPU龙头海光信息同步走强,收盘上涨8.20%。这并不是巧合。与过去两年围绕GPU展开的算力行情不同,这一轮市场关注点明显集中在CPU龙头公司上。市场开始重新讨论一个问题:AI算力的增长,是否仍然只是“更多GPU”的故事。01 AI算力逻辑的重要转向过去很长

0评论2026-04-254

AI打倒了英特尔,AI又救了英特尔
2024年8月2日,英特尔一夜暴跌26%,股价跌回十年前,创下多年来最惨烈的单日跌幅。 三个月后,一场更具标志性的转折来临。2024年11月8日,英伟达正式取代英特尔,成为道琼斯工业平均指数的成分股。一次指数调整,也是一次时代的宣判。GPU取代CPU,英伟达取代英特尔。这个英特尔坚守了25年的行业荣誉,最终易主,沦为它衰落最鲜明的标志。 2026年4月23日,英特尔财报发布后盘后大涨近20%,强势

0评论2026-04-254