引言/导读
在人工智能领域,语言模型的惊人进展常常让人们误以为文本数据是通往通用人工智能(AGI)的唯一途径。然而,计算机视觉先驱、World Labs创始人李飞飞博士(Fei-Fei Li)的最新研究和深刻思考,正在将聚光灯重新投向被长期忽视但至关重要的领域:空间智能(Spatial Intelligence)。本次访谈深入探讨了如何超越大型语言模型(LLMs)的局限,让AI通过直接感知、视频和多模态交互来理解我们所处的物理世界。文章将基于李飞飞博士的论述,详细解析空间智能的重要性、世界模型的构建路径,以及我们距离真正具备物理理解能力的AI还有多远。
主体部分:构建超越文本的世界级智能
1. 空间智能:迈向具身与环境AI的关键一步
李飞飞博士强调,她近几年对空间智能的研究,是对其整个计算机视觉和视觉智能职业生涯焦点的延续。当下的技术复杂程度和深刻能力,已不再是仅仅停留在盯着一张图片或简单理解一段视频的水平。
知识的局限性:文本并非世界的全部
大型语言模型(LLMs)固然令人惊叹,但人类知识中,即便不是大部分,也有相当多的一部分并非以文本形式捕获。人类很大程度上是通过在世界中的交互而非语言进行学习。因此,要超越现有LLM的局限,模型需要获得更直接的世界体验,至少也要通过视频等方式来学习。
视觉智能的升级与连接
空间智能的研究深度结合了感知(Perception)能力,它同时连接了机器人技术(Robotics)、具身AI(Embodied AI)以及环境AI(Ambient AI)。她指出,无论是从科学探索的视角,还是从技术赋能的角度来看,我们都应该努力解锁空间智能技术,因为人类的许多智能工作,例如消防员在快速变化的环境中灭火,或者科学家对DNA双螺旋结构的推理和演绎,都超越了纯粹的语言范畴。
2. World Labs的实践:显式与高效的世界模型
李飞飞的初创公司World Labs及其首个产品Marble,致力于从模型的内部表征中生成令人难以置信的复杂3D空间。
Marble:生成一致且持久的3D空间
Marble的核心能力在于生成一致且持久的3D世界,允许观察者在其中移动。这种显式的3D输出是一种深思熟虑的方法,因为它对当今的各行各业都具有直接的实用价值。无论是创建视觉特效(VFX)、游戏、室内设计,还是为机器人或自动驾驶车辆进行数字孪生模拟,行业的整个工作流程都越来越依赖3D。
隐式与显式表征的互补
关于世界模型的表征方式,李飞飞认为,隐式表征(Implicit Representation)和在输出层的某种程度的显式表征(Explicit Representation)最终可能是通用万能世界模型所必需的,二者都发挥着作用。
Marble目前明确输出了3D表征,但在模型内部也存在隐式表征。这与像Yann LeCun团队那种主要关注从直接经验或视频中创建内部抽象表征的方法并非对立,而是处在同一思想连续统一体上,最终可能以互补的方式结合。
RTFM:实时帧模型与计算效率
World Labs同时发布了其“实时帧模型”(Real-Time Frame Model, RTFM)的技术博客。RTFM主要致力于实现帧生成的同时,最大程度地保持几何一致性和永久性。 一个引人注目的技术亮点是,RTFM在推理时实现了计算效率,能够在单个H100 GPU上运行。这一效率提升对于普及教育、沉浸式学习乃至构建大规模多重宇宙(multiverse)体验至关重要。RTFM在名称上也是一个巧妙的文字游戏(借鉴了“Read the Fucking Manual”的缩写,是研究员的创意)。
3. 世界模型的核心挑战:寻找“通用任务函数”
生成式AI最大的突破之一,在于找到了下一词预测(next token prediction)这一目标函数。它与语言生成任务完美对齐,使得优化过程精准高效。但在计算机视觉或世界模型中,情况复杂得多。
重新定义学习目标
寻找一个像“下一词预测”一样强大且通用的目标函数(Universal Task Function),是构建世界模型的深刻挑战。
3D 重建的争议: 有人认为世界的通用任务是3D重建,一旦实现,许多问题将迎刃而解。但李飞飞对此表示质疑,因为大多数动物的大脑(包括人类)似乎并非在进行精确的3D重建,但我们仍然是强大的视觉智能生命。下一帧预测的局限: 将下一帧预测作为目标函数具有训练数据充足的优势,且模型必须学习世界的结构才能准确预测。然而,这种方法将世界视为2D,可能会导致模型表示的崩溃,且丢失3D结构中本可保留的大量信息。
多模态与连续学习的必然性
世界模型的学习必须是多模态的。世界的感知是多感官的,学习不仅来自被动观察,还来自具身经验、运动、交互、触觉、声音、气味乃至物理作用力。
Marble的输入已经支持多模态,包括纯文本、多张图像、视频,以及粗略的3D布局(如盒子或体素)。连续学习(Continuous Learning)对于世界模型至关重要,特别是对于机器人或需要高度定制化的应用。虽然World Labs目前的模型仍处于批量学习(batch or offline learning)模式,但团队对未来的在线或连续学习模式持开放态度。
4. 洞察的边界:统计、因果与真正的理解
当AI模型生成逼真的水流和树叶动态时,这些动态效果,无论是语言AI还是像素AI,都不是基于牛顿定律推导出来的。
统计物理学与抽象能力缺失
当前生成式AI模型产生的动力学大多基于统计学。模型仅仅是观察到足够多的水和树叶的运动模式,并依此进行统计性的生成。 李飞飞认为,目前的AI,无论是语言AI还是像素AI,尚未具备在更高抽象层次上推导出物理学定律的能力,比如牛顿定律。物理学的概念(如力、质量、加速度、磁性)是深刻的因果和抽象概念,无法通过纯粹的统计模式生成。
对“AI理解”的重新审视
在谈到AI对世界的“理解”时,李飞飞提出了区分:AI的理解与人类的理解是根本不同的。
人类的理解涉及意识、自我觉知以及具身化的生理反应。AI的理解能力体现在其能够正确地分配和关联意义。例如,用户可以在Marble中告诉模型将粉色的沙发改为蓝色,模型能够执行,因为它理解了“沙发”、“蓝色”和“改变”的概念,但它没有像你我一样对沙发概念的完整记忆和联想。因此,当AI展示出理解力时,我们不应将其误解为拟人化(anthropomorphic)的人类级理解。
架构的未来:超越Transformer
对于AI是否能通过推理发现科学真理(如相对论或牛顿运动定律),李飞飞认为,模型需要达到更高水平的因果抽象。她对Transformer模型架构是否具备这种抽象能力表示怀疑。 她坚信我们将会出现架构上的突破。Transformer绝不是AI领域的最终发明,我们需要新的算法架构来解锁更深层次的能力。
深度分析与洞察:空间智能如何重塑数字世界与物理世界
李飞飞博士的“空间智能”宣言,是对当前AI发展路径的一次重要的纠偏和升级。这不仅仅是关于计算机视觉的进步,更是关于AI如何从“数字书呆子”成长为“物理探险家”的关键一步。
1. 效率的革命:将多重宇宙推向大众
RTFM模型能够在单个H100上实现高效推理,这是一个具有巨大战略意义的里程碑。过去,构建复杂、持久的3D世界(即所谓的“多重宇宙”Multiverse)往往被认为是计算资源的黑洞。通过大幅降低推理成本和硬件门槛,World Labs正在实现两个关键目标:
普及化应用: 使沉浸式学习、教育和高保真模拟成为更具经济可行性的应用。加速创新: 允许创作者和开发者以更高的速度和更低的成本进行迭代和实验。
2. 衔接“感知-推理-行动”的闭环
空间智能的终极目标,是构建一个能够连接感知(seeing)、推理(spatial reasoning)、行动(doing)、想象(imagining)和创造(creation)的模型。这是一个完整的智能闭环,是将LLM的语言能力与机器人的具身能力相结合的桥梁。
当前,LLM擅长推理和计划(Language),而机器人擅长行动(Embodied)。空间智能,特别是世界模型,提供了缺失的一环——一个共同的、结构化的、可预测的3D现实表征。有了这个内部模型,AI才能真正地进行高效的规划和远程操作(Telepresence),例如在太空采矿或远程医疗等场景中远程操作机器人。
3. 因果关系:AI研究的深层挑战
李飞飞提出的关于物理学和因果抽象的讨论,触及了现代AI最深层的限制。尽管AI在模式识别上表现出色,但它似乎尚未掌握超越统计相关性的、底层的因果规律。 若要实现真正的科学发现(如推导出牛顿或爱因斯坦的定律),AI必须具备:
抽象概念形成能力: 能够将大量数据归纳为少数几个抽象变量(如力、质量)。符号推理与因果链: 不仅要预测“接下来会发生什么”,还要理解“为什么会发生”。
这预示着,下一代AI的突破点,可能不会仅仅是扩大模型规模或增加数据量,而是需要在算法架构上实现根本性的飞跃,以纳入更强大的因果推理机制。
总结与展望
空间智能和世界模型代表了通用AI发展的关键方向,标志着AI正在从二维文本和像素的世界,大胆迈入三维的、可交互的物理现实。World Labs的Marble和RTFM,通过强调多模态输入、显式3D输出和计算效率,为行业提供了一个清晰的工程路径。
我们正处在一个激动人心的时代,数字世界(Digital World)和物理世界(Physical World)的界限正在模糊。未来,AI将不仅是信息处理工具,更是创造、模拟和沉浸式体验的核心引擎。正如李飞飞博士所展望的,多重宇宙将带来前所未有的维度和经验,无论是交互式的化学学习、高效的全球协作,还是电影娱乐方式的彻底改变。
那么,随着空间智能和世界模型的成熟,我们能否最终设计出一个模型,它不仅能创造世界,还能真正理解它,从而帮助人类解开宇宙最深层的奥秘?我们拭目以待,等待下一个架构性突破的到来。
要点摘要
核心方向: AI必须超越LLM,通过空间智能和世界模型来理解3D物理世界。产品实践: World Labs的Marble能生成一致、持久的3D空间,强调显式输出对行业应用的实用性。技术效率: RTFM(实时帧模型)通过单H100的推理效率,降低了构建和体验复杂数字世界的计算门槛。理论挑战: 亟需找到一个类比于“下一词预测”的通用任务函数,来定义世界模型的训练目标。理解边界: 现有AI在动力学和物理学上的认知仍基于统计模式,缺乏对牛顿定律等因果抽象的真正理解。未来展望: 空间智能将加速具身AI和远程操控发展,并推动多重宇宙在教育、设计和协作领域的大规模应用。架构期待: Transformer并非终点,AI需要新的架构突破来实现更高层次的抽象和因果推理能力。
原始视频:https://youtu.be/9VcXiyE40xw?si=OAQnROM-mlj8OYwq
中英文字幕:【李飞飞:AI的下一站——空间智能与世界模型的宏伟宣言】















暂无评论内容