VLA模型和世界模型知识总结

前言

本文主要对VLA模型和世界模型两种自动驾驶实现路径的相关知识进行总结，以便后续学习过程中查阅。

VLA模型

VLA（视觉-语言-行动模型）模型，是把视觉感知、语言理解和动作生成串联起来的一套方法。
其工作原理：
先通过视觉编码器，把摄像头识别到的画面转换成语义丰富的特征向量（如SigLIP、Dino V2/V3这类模型就是完成这项任务的）。接着，这些视觉特征会被“翻译”成一种类似语言的表征单元（token），并送入到一个大语言模型（LLM）中；
LLM经过多模态改造后，其任务不再只是生成文本，而是能够基于视觉信息进行如分析车道线状态、预判前方行人意图、评估不同驾驶策略合理性等更高层次的语义推理；
LLM的推理结果会被转化为如轨迹、速度等信息，从而驱动车辆执行具体的控制指令。
通俗理解就是：VLA让车辆先用语言描述清楚眼睛看到了什么，再用语言模型进行思考，最后把思考结果转化为行动。
这种方法的优势在于，语言层面天然适合进行抽象和长时序推理，也便于整合上下文信息和规则知识，使得从感知到决策的桥梁可以建立在更明确、更具可迁移性的语义表示之上。
因为语言模型擅长将零散信息组合成高层结论，VLA在遇到多种复杂场景时，理论上更容易进行”概念化”的判断，同时也更容易将人类规则、法规或场景说明以文本形式融入到训练与调优的流程中。
当然，想将视觉特征可靠地转换为LLM能够有效利用的token并不容易，有很多问题需要解决。视觉与语言之间的信息损失和对齐问题是一定要解决的；语言推理产生的结论也需要被严格约束在物理可行的动作范围内，否则就可能出现“想法很好”但“执行不安全”的情况。此外，LLM的推理开销、系统实时性以及决策的可解释性等都是需要解决的问题。虽然语言的抽象能力很强，但物理世界对控制精度和约束的要求极高，如何在语义抽象与精确控制之间建立可信赖的映射，更是VLA需要去攻克的。
VLA的优势在于其强大的语义理解能力，对复杂的社交互动和规则理解有天然优势，适合用较少的显式规则去捕捉场景中的行为意图。对于那些希望利用“数据和模型”将驾驶经验迁移到不同车型、不同城市的厂商而言，VLA的通用性和抽象能力是非常有吸引力的。其短板在于，对物理精度和安全约束的保障需要额外的工程手段，且其推理延迟、模型可解释性和系统验证的难度都相对更高。

世界模型

世界模型（World Model），其核心思想是把环境、物体和行为都建模成一个可计算、可推演的“物理世界”，决策不用借助自然语言作为中介，可以直接在状态空间中进行。世界模型强调“空间认知与物理推演”，它从多传感器数据出发，能构建一个连续、可预测的世界状态表示，并基于物理规则进行行为生成与验证。
以华为WEWA的“云端与本地协同”模式为例，团队可以在云端构建高保真的物理仿真环境，让模型在虚拟世界中不断“驾驶”并生成海量的仿真轨迹。仿真环境能提供极高的数据密度，模型可以在大量受控的、甚至是极端的场景中学习物理世界的因果关系。通过一套对模型生成行为进行打分的奖惩机制，模型可以逐渐学会在各种情境下如何规避风险，并做出合规且稳定的决策。
训练完成后，通过模型蒸馏或压缩技术，将复杂的云端模型转化为能在车端实时运行的轻量版本，使得车辆能够根据实时传感器数据直接生成轨迹与控制命令。
世界模型的优势在于其出色的可控性和物理一致性。因为决策是建立在明确的、可验证的状态与动力学模型之上，所以更容易进行形式化验证、安全边界检查以及物理约束的强制执行。这对于安全关键场景的可解释性和可证伪性也更为有利。由于采用的是仿真训练，可以人为创造现实中罕见但对安全至关重要的极端场景，能有效弥补真实道路采集数据的不足，从而提升系统在危险情况下的鲁棒性。
同样，世界模型技术路线也有很多问题需要解决。高保真仿真、复杂动力学建模以及对自车与环境的精确重建，都需要庞大的算力支撑与成本投入，这将是一笔非常大的开销。对于如何构建足够多样化的仿真环境以覆盖现实世界的复杂性，并有效弥合“仿真与现实之间的迁移鸿沟”，也是一个需要解决的问题。此外，该路线对感知传感器的类型与精度存在较高依赖性，若采用以激光雷达为核心的方案，将直接让系统成本与部署门槛直接提升，进而会影响其规模化落地的进程。
世界模型的优势在于其决策结果更接近真实的物理世界，易于注入约束并进行形式化的检验，仿真训练能够高效覆盖各类风险场景，适合对安全性要求极高的产品化路径。其短板在于仿真与现实的差距难以完全消除、系统建模复杂，以及对高精度传感器的依赖可能推高整体成本。此外，在某些需要“常识”或长时序社会推理的场景下，纯物理规则驱动的模型可能不如引入语言中介的模型那样灵活和直观。

差异分析

将上述两条模型实现路线进行比较，会发现它们在“世界如何表示”、“决策如何形成”、“训练数据来源”以及“部署策略”这几个维度上是完全不同的。
对于世界如何表示的问题上，VLA倾向于用语义化的token来表达世界，突出抽象概念和高层意图，这种表示方式便于将人类知识和规则以语言形式注入系统；而世界模型则将世界表示为连续的状态变量和实体间的空间关系，更强调几何属性、动力学与可预测性。
在推理机制上，VLA依赖大语言模型的语义推理能力，擅长处理长时序依赖和复杂上下文的综合判断，但需要将语言结论映射到具体动作，并确保其满足物理约束；世界模型则直接在状态空间进行物理推演和策略生成，其推理过程更贴近物理规律，结果通常更易于验证，但在处理语义模糊、规则解释或长时序社会行为推断时，灵活性可能不如前者。
两者训练数据的来源也有明显差异。VLA更依赖大量经过标注的多模态数据、真实道路场景数据，以及用于对齐的语言数据；世界模型则重度依赖高质量的仿真数据以及多传感器融合的真实驾驶日志，仿真数据在数据量和场景可控性上占据明显优势。
两者在部署策略上也各有侧重。VLA需要更复杂的模型栈来完成从视觉到语言再到控制的完整映射，LLM带来的推理开销和实时性要求会影响其在车端的直接应用，因此很多技术方案中会采用轻量化、模型蒸馏或分层决策的方式，将高层规划放在云端或开发阶段，而将受严格约束的执行模块部署在车端。世界模型的“云端仿真训练、车端模型蒸馏”流程则更为直接，将仿真中学到的策略压缩后运行在车端，车端系统可以根据实时感知直接进行物理层面的决策。