ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning

图1：ConceptGraphs 构建开放词汇的3D场景图。(a) 我们设计了一个基于对象的映射系统，它仅依赖类别无关的实例掩码并将其融合到3D中；(b) 利用大型视觉语言模型对每个映射的实例进行语言标签的解析和提取；(c) 通过利用编码在大型语言模型中的先验知识，构建对象空间关系的图结构。ConceptGraphs 的对象中心特性使得地图维护更加便捷并促进了可扩展性，而图结构提供了场景中的关系信息。此外，我们的场景图表示可以轻松映射为自然语言格式，以便与大型语言模型（LLMs）交互，从而能够回答复杂的场景查询，并为机器人提供周围对象的有用信息，例如可通行性和实用性。我们在多个真实世界的机器人任务中实现并展示了 ConceptGraphs，涵盖了轮式和足式移动机器人平台。（网页）（解说视频）

摘要: 为了使机器人能够执行广泛的任务，它们需要对世界进行3D表示，这种表示需要同时具备丰富的语义信息以及紧凑而高效的特性，以支持任务驱动的感知和规划。近期的一些方法尝试利用大型视觉-语言模型的特征来为3D表示编码语义。然而，这些方法通常生成具有每点特征向量的地图，这种方式在较大的环境中缺乏可扩展性，同时也未能包含环境中实体之间的语义空间关系，而后者对下游规划任务非常有用。在本研究中，我们提出了ConceptGraphs，一种用于3D场景的开放词汇表图结构表示。ConceptGraphs通过利用2D基础模型并将其输出通过多视点关联融合到3D中构建而成。这种表示能够泛化到新的语义类别，而无需收集大型3D数据集或对模型进行微调。我们通过一系列需要通过语言抽象提示指定并对空间和语义概念进行复杂推理的下游规划任务，展示了这一表示的实用性。为了进一步探索我们实验和结果的完整范围，我们鼓励读者访问我们的项目网页。

I. 引言

场景表示是促进各种任务（包括移动性和操作性）下游规划的关键设计选择之一。机器人需要在导航环境时通过车载传感器在线构建这些表示。为了高效执行复杂任务，这些表示应该具备以下特性：可扩展并高效维护，随着场景体积和机器人操作时间的增加，表示应保持可扩展性和效率；开放词汇表，不局限于在训练时预定义的一组概念进行推断，而是能够在推断时处理新对象和新概念；且具备细节级别的灵活性，以便在范围广泛的任务中进行规划，从需要密集几何信息以支持移动和操作的任务，到需要抽象语义信息和对象级可供性信息以支持任务规划的任务。我们提出了ConceptGraphs，这是一种满足上述所有要求的机器人感知和规划的三维场景表示方法。

A. 相关工作

3D 的封闭词汇语义映射。早期的工作通过在线算法（如同步定位与建图（SLAM）[1]-[5]）或离线方法（如从运动中重建结构（SfM）[6], [7]）来重建 3D 地图。除了重建 3D 几何形状，近期的工作还利用基于深度学习的物体检测和分割模型，通过密集语义映射 [8]-[11] 或物体级分解 [12]-[15] 来重建 3D 场景表示。这些方法在将语义信息映射到 3D 中取得了令人印象深刻的成果，但它们是封闭词汇的，其适用性仅限于训练数据集中标注的物体类别。

利用基础模型的 3D 场景表示。近年来有大量研究 [16]-[30] 致力于利用基础模型（即大型、功能强大的模型，可捕捉多样化概念并完成广泛任务 [31]-[35]）来构建 3D 表示。这些模型在处理 2D 视觉中的开放词汇问题时表现出色。然而，这类模型需要“大规模互联网”级的数据集进行训练，而目前尚不存在同等规模的 3D 数据集。因此，近期的研究试图将通过图像和语言基础模型生成的 2D 表示与 3D 世界建立联系，并在开放词汇任务中展示了令人印象深刻的成果，包括语言引导的物体定位 [17], [18], [24], [26], [36]，3D 推理 [37], [38]，机器人操控 [39]-[41] 和导航 [42], [43] 等。这些方法通过将图像中每像素的密集特征投影到 3D 来构建显式表示（如点云 [17]-[21] 或隐式神经表示 [16], [22]-[30]）。然而，这些方法有两个主要局限性。首先，为每个点分配语义特征向量非常冗余，且消耗了不必要的内存，从而极大地限制了其在大场景中的可扩展性。其次，这些密集表示难以进行简单分解——这种缺乏结构的特性使它们不易于对地图进行动态更新（这一点对机器人技术至关重要）。

3D 场景图表。3D 场景图表（3DSGs）通过图结构紧凑且高效地描述场景，节点表示物体，边表示物体间的关系 [44]-[48]，从而解决了上述第二个局限性。这些方法支持动态构建分层 3D 场景表示的实时系统 [49]-[51]，并在近期展示了各类机器人规划任务如何受益于 3DSGs 的效率与紧凑性 [52], [53]。然而，现有关于构建 3D 场景图的研究仍局限于封闭词汇环境，从而限制了其在有限任务上的应用。

B. 本文贡献概述

在本文中，我们缓解了上述所有局限性，并提出了 ConceptGraphs，一种面向物体、开放词汇的 3D 表示方法，用于机器人感知与规划。在 ConceptGraphs 中，每个物体被表示为一个具有几何和语义特征的节点，物体之间的关系通过图的边来编码。ConceptGraphs 的核心是一种面向物体的 3D 映射技术，该技术整合了传统 3D 映射系统的几何线索，以及来自视觉与语言基础模型 [31], [33], [34], [54]-[56] 的语义线索。通过利用大语言模型（LLMs）[32] 和大视觉语言模型（LVLMs）[56]，物体被赋予语言标签，从而提供语义丰富的描述并支持自由形式的语言查询，同时使用现成的模型（无需训练/微调）。场景图结构使得我们能够高效地用较低的内存占用表示大场景，并实现高效的任务规划。在实验中，我们展示了 ConceptGraphs 能够在场景中发现、映射和描述大量物体。此外，我们在多种机器人平台上进行真实环境测试，覆盖了广泛的下游任务，包括操控、导航、定位和地图更新。

总结而言，我们的主要贡献为：
• 我们提出了一种新颖的面向物体的映射系统，该系统整合了传统 3D 映射系统的几何线索和 2D 基础模型的语义线索。
• 我们构建了开放词汇 3D 场景图；这是感知与规划的高效且结构化的语义抽象。
• 我们在真实环境中的轮式和步行机器人平台上实现了 ConceptGraphs，并展示了其在应对复杂或抽象语言查询时的多种感知与规划能力。

方法概述

ConceptGraphs 构建了一个紧凑且语义丰富的3D环境表示。给定一组带位姿的RGB-D帧，我们运行一个类别无关的分割模型以获得候选对象，通过几何和语义相似性度量将它们跨多个视角进行关联，并在3D场景图中实例化节点。随后，我们使用LVLM对每个节点进行描述，并通过LLM推断相邻节点之间的关系，从而生成场景图中的边。这种生成的场景图是开放词汇的，涵盖了对象属性，并可以用于多种下游任务，包括分割、对象定位、导航、操作、定位和重映射。该方法如图2所示。

A 基于对象的3D映射

基于对象的3D表示：给定一序列RGB-D观测 I = {I1, I2, …, It}，ConceptGraphs 构建一个3D场景图 Mt = ⟨Ot, Et⟩，其中 Ot = {oj}j=1…J 和 Et = {ek}k=1…K 分别表示对象集和边集。每个对象 oj 由一个3D点云 poj 和一个语义特征向量 foj 表示。该地图以增量方式构建，将每个输入帧 It = ⟨Irgb t, Idepth t, θt⟩（彩色图像、深度图像、姿态）合并到现有对象集 Ot−1 中，方法是加入现有对象或实例化新对象。

类别无关的2D分割：处理帧 It 时，使用类别无关的分割模型 Seg(·)。

用于获取一组与候选对象对应的掩码 {mt,i}i=1…M = Seg(I rgb t )。每个提取的掩码 mt,i 随后输入到一个视觉特征提取器（CLIP [31], DINO [54]）以获得视觉描述向量 ft,i = Embed(I rgb t , mt,i)。每个掩膜区域都被投影到三维空间中，通过DBSCAN聚类方法进行去噪，并变换到地图框架。这会生成点云 pt,i 及其对应的单位归一化语义特征向量 ft,i。

对象关联：对于每个新检测到的对象 ⟨pt,i, ft,i⟩，我们计算与共享部分几何重叠的所有地图中的对象 ot-1,j = ⟨poj, foj⟩ 的语义和几何相似性。几何相似性 φgeo(i, j) = nnratio(pt,i, poj) 是点云 pt,i 中点在距离poj点云的最近邻点的比例，该比例以 δnn 作为距离阈值。语义相似性 φsem(i, j) = f T t,ifoj/2 + 1/2 是相应视觉描述向量之间的归一化余弦距离。总体相似性度量 φ(i, j) 是两者的总和：φ(i, j) = φsem(i, j) + φgeo(i, j)。我们通过贪婪分配策略进行对象关联，其中每个新检测与现有的具有最高相似度得分的对象进行匹配。如果没有找到相似度高于 δsim 的匹配，我们初始化一个新对象。

对象融合：如果检测到的对象 ot-1,j 与地图中的对象 oj 关联，我们将检测与地图进行融合。这是通过更新对象语义特征 foj 来实现的，公式为 foj = (noj foj + ft,i)/(noj + 1)，其中 noj 表示到目前为止已与 oj 关联的检测次数；将点云更新为 pt,i ∪ poj，然后降采样以移除冗余点。

节点描述：在处理完整个图像序列后，使用一个视觉-语言模型（记为 LVLM(·)）生成对象的描述标签。对于每个对象，将来自最佳4个10个视角的相关图像裁剪传递给语言模型，并附带提示“描述图像中的中心对象”以生成每个检测到的对象 oj 的初始粗略描述集 ˆcj = {ˆcj,1, ˆcj,2, . . . , ˆcj,10}。随后，通过将 cˆj 传递给另一个语言模型 LLM(·)，并提供提示指令来将初始描述总结为一个连贯且准确的最终描述 cj，对每组描述进行精炼。

B 场景图生成

根据从前一步骤中获取的3D对象集 OT，我们估计它们之间的空间关系，即边集 ET，以完成3D场景图。我们首先通过估计对象节点之间基于空间重叠的潜在连接来实现这一点。我们计算每对对象节点之间的3D边界框的IoU，以获得一个相似性矩阵（即一个密图），然后通过估计一个最小生成树（MST）对其进行修剪，以生成对象之间的潜在边集。为了进一步确定语义关系，对于MST中的每一条边，我们将由对象对的相关信息（包括对象描述和3D位置）输入语言模型 LLM，并附带一个提示指令，要求模型描述对象之间可能的空间关系，例如“a 在 b 上”或“b 在 a 内”，以及背后的推理依据。模型输出一个关系标签，并提供一个解释来详述其推理过程。使用LLM使我们能够将上述定义的名义边类型扩展到语言模型输出的其他关系。

模型可以解释诸如“背包可以存放在壁橱中”和“纸张可以在垃圾桶中回收”之类的语句。这会生成一个开放词汇的3D场景图MT = (OT , ET)，这是一种紧凑且高效的表示方式，可用于下游任务。

C. 通过LLMs进行机器人任务规划

为了使用户能够执行使用自然语言查询描述的任务，我们将场景图MT与LLM进行接口连接。对于OT中的每个对象，我们构建JSON结构化文本描述，其中包括有关其3D位置（边界框）以及其节点标题的信息。给定一个文本查询，我们要求LLM识别场景中最相关的对象。随后，我们将该对象的3D姿态传递到适当的管道中以完成下游任务（例如，抓取、导航）。这种通过LLM与ConceptGraphs的集成实现起来非常简单，通过让机器人访问周围对象的语义属性，能够实现广泛的开放词汇任务（见第III节）。

D. 实现细节

ConceptGraphs的模块化特性使得可以使用任何合适的开放/封闭词汇分割模型、LLM或LVLM。在我们的实验中，使用SegmentAnything (SAM) [33]作为分割模型Seg(·)，并使用CLIP图像编码器[31]作为特征提取器Embed(·)。我们使用LLaVA [56]作为视觉语言模型LVLM，并使用GPT-4 [32] (gpt-4-0613)作为LLM。点云下采样的体素大小和最近邻阈值δnn均为2.5cm。我们使用1.1作为关联阈值δsim。我们还开发了该系统的一个变体ConceptGraphsDetector (CG-D)，其中采用图像标签模型(RAM [55])列出图像中存在的对象类别，并采用开放词汇的2D检测器(Grounding DINO [34])来获取对象边界框。在该变体中，对于检测到的背景对象（墙、天花板、地板），我们需要通过合并它们来单独处理，而不考虑其相似性分数。

图 2：ConceptGraphs 从一系列带位姿的 RGB-D 图像中构建一个开放词汇的三维场景图。我们使用通用实例分割模型对 RGB 图像中的区域进行分割，为每个区域提取语义特征向量，并将其投影到三维点云中。这些区域从多个视角逐步关联和融合，生成一组三维对象及其相关的视觉（和语言）描述符。然后，利用大型视觉和语言模型对每个映射的三维对象进行描述，并推导对象间的关系，从而生成连接对象集并形成图的边。由此生成的三维场景图提供了对场景的结构化和全面的理解，并且可以轻松转换为文本描述，这对于基于大型语言模型的任务规划非常有用。

整体可分为三大阶段，形成 “感知 – 建模 – 应用” 的闭环：
输入阶段（左侧）：RGB-D 图像序列（含彩色图、深度图及相机位姿）；
核心处理阶段（中间）：通过目标分割、特征提取、多视角关联、语义标注、关系推理，生成 3D 场景图； (多视角目标关联与融合: 由于单帧图像的视角有限，同一目标可能在多帧中被重复检测，流程通过 “关联 – 融合” 步骤实现目标的 3D 整合) 最后生成图结构，节点会有描述，边则为节点间得关系。
输出阶段（右侧）：基于 3D 场景图支撑机器人导航、操纵、目标检索等下游任务。
这一流程的核心是 “将 2D 图像信息转化为结构化 3D 语义表示”，并通过大语言模型（LLM）赋予场景图理解复杂语言指令的能力，最终服务于机器人任务规划。

III. 实验

A. 场景图构建

我们首先在表I中评估ConceptGraphs系统生成的3D场景图的准确性。对于Replica数据集[57]中的每个场景，我们报告了CG和检测器变体CG-D的场景图准确性指标。由于系统具有开放词汇的特性，自动评估场景图中节点和边的质量具有挑战性。因此，我们通过在Amazon Mechanical Turk（AMT）上参与人类评估者来评估场景图的质量。对于每个节点，我们计算精确度，即至少有3名人类评估者中的2名认为节点标题正确的节点占比。同时，我们还报告节点的数量。

每种变体通过询问评估者是否认为每个节点是有效对象来检索有效对象。CG 和 CG-D 在每个场景中均识别出一定数量的有效对象，并且仅产生少量（0-5 个）重复检测。节点标签的准确率约为 70%；大多数错误是由于所使用的 LVLM（LLaVA [56]）引发的错误。边（空间关系）的标注准确率较高（平均达 90%）。

B. 3D 语义分割

ConceptGraphs 专注于构建用于场景理解和规划的开放词汇 3D 场景图。为了完整性，在本节中，我们还使用开放词汇的 3D 语义分割任务来评估获得的 3D 图的质量。
为了生成语义分割，在给定一组类别名称的情况下，我们计算每个对象节点融合的语义特征与短语“{class}的图像”的 CLIP 文本嵌入之间的相似性。然后，将与每个对象相关联的点分配给具有最高相似性的类别，从而生成一个带有密集分类标签的点云。在表 II 中，我们报告了 Replica [57] 数据集上的语义分割结果，遵循 ConceptFusion [17] 中使用的评估协议。我们还提供了一个附加的基线模型 ConceptFusion+SAM，通过用性能更优异的 SAM [33] 模型替换 ConceptFusion 中使用的 Mask2Former。如表 II 所示，所提出的 ConceptGraphs 表现与 ConceptFusion 相当或更优，而后者的内存占用要大得多。

C. 基于文本查询的对象检索

我们评估了 ConceptGraphs 处理复杂语义查询的能力，重点关注以下三种关键类型：
• 描述性：例如，一个有盆的植物。
• 可供性：例如，用于临时固定坏拉链的东西。
• 否定性：例如，除苏打水以外的饮品。

我们在Replica数据集[57]和REAL Lab的实境扫描中进行评估，后者包含我们布置的若干物品，如衣服、工具和玩具。对于Replica，人类评估者在AMT平台上为SAM掩膜提案标注标题，这些标题既作为真实标签，也作为描述性查询。我们为Replica中的每种场景类型（办公室和房间）创建了5个功能性及否定性查询，为实验室扫描创建了每种类型的10个查询，确保每个查询至少对应一个相关物体。我们手动选择每个查询的相关物体作为其真实标签。我们使用两种物体检索策略：基于CLIP的检索和基于LLM的检索。CLIP选择与查询嵌入相似度最高的物体，而LLM通过遍历场景图节点寻找与查询最相关标题的物体。表III显示，CLIP在处理描述性查询方面表现出色，但在处理复杂的功能性和否定性查询时表现较差[62]。例如，对于“拉链损坏的背包”这一查询，CLIP错误地检索到了一个背包，而LLM正确地识别出了一卷胶带。LLM整体表现优秀，但受到节点标题准确性的限制，这一点在第III-A节中有讨论。由于实验室中有更多种类的物体可供选择，LLM在此处对复杂查询能更可靠地找到相符物体。

D. 复杂视觉语言查询

为了评估ConceptGraphs在实境环境中的性能，我们在REAL Lab场景中使用Clearpath Jackal UGV进行了导航实验。该机器人配备了VLP-16 LiDAR和一个面向前方的Realsense D435i相机。Jackal需要响应抽象的用户查询并导航到最相关的物体（图1）。通过使用LVLM [56]将当前相机图像的描述添加到文本提示中，机器人还可以回答视觉查询。例如，当展示一张迈克尔·乔丹的图片并提示“这个人会玩什么”时，机器人找到了一颗篮球。

E. 物体搜索和通行性估算

在本节中，我们展示了ConceptGraphs表征与LLM之间的交互如何使移动机器人能够访问庞大的日常物体知识库。具体来说，我们提示LLM从ConceptGraphs标题中推断出两个附加的物体属性：i）某物体通常被发现的地点，以及ii）是否物体可以被Jackal机器人安全地推动或穿越。我们围绕LLM预测设计了两个任务。

物体搜索：机器人接收抽象的用户查询，并须导航至ConceptGraphs地图中最相关的物体。使用LVLM [56]，机器人随后检查物体是否在预期位置。如果不是，它查询LLM以根据表示中其他物体的标题找到新的合理位置。在我们的提示中，我们提醒LLM考虑典型的容器或存储位置。我们在图3中展示了两个目标物体被移动的查询实例。

可穿越性估计：如图4所示，我们设计了一个现实场景，机器人发现自己被物体包围。这种情况下，机器人必须推动多个物体，创建通向目标状态的路径。尽管可穿越性可以通过经验学习 [63]，我们表明将LLM知识与3D地图进行结合可以为机器人代理赋予类似的能力。

F. 开放式语义识别的抓取与放置

为了展示ConceptGraphs如何作为开放式语义识别的移动操作感知基础，我们使用波士顿动力的Spot机械臂机器人进行了系列实验。利用机载RGBD摄像头和场景的ConceptGraphs表示，Spot机器人响应查询“毛绒小鸭”（cuddly quacker)，抓取一个鸭子玩具并将其放入附近的箱子中（图1）。在补充视频中，当收到查询“健康的食物”（something healthy to eat）时，Spot完成了类似的抓取动作，将一只芒果放置于指定位置。

G. 定位与地图更新

ConceptGraphs还可用于基于对象的定位和地图更新。我们在AI2Thor [64], [65]模拟环境中，通过一个三自由度（x, y 及偏航角）定位与重建任务展示了其功能。在这一任务中，移动机器人利用粒子滤波器在预构建的ConceptGraphs环境地图中进行定位。在粒子滤波的观测更新步骤中，根据假设的位置姿态，机器人检测到的对象与地图中的对象进行匹配，具体方式类似于第二节A部分所描述。匹配结果随后被聚合为单一观测评分用于对姿态假设进行加权。在此过程中，如果机器人没有观察到之前已观察的物体，这些物体将被移除，同时可以添加新的物体。我们在补充视频材料中展示了这种定位和地图更新方法。

H. 限制

尽管表现出色，ConceptGraphs仍存在需要在未来工作中解决的失效模式。首先，由于当前LVLMs（例如LLaVA [56]）的限制，节点描述会出现错误。其次，我们的3D场景图偶尔会遗漏小型或细长的物体，并进行重复检测。这会影响后续规划，尤其是在错误检测对规划成功至关重要时。此外，我们系统的计算和经济成本包括多个LVLM（LLaVA [56]）以及一个或多个专有LLM推断，用于构建和查询场景图，这可能是显著的。

表 I：构建的场景图的准确性：节点精度表示每个节点标签的准确性（由人工评估者测量）；有效对象是我们的系统发现的人类可识别对象的数量（使用了MTurker）；重复是指冗余检测的数量；边精度表示每个估计空间关系的准确性（同样由MTurker评估）。

表 II：在 Replica [57] 数据集上的开放词汇语义分割。特权方法专门对预训练模型进行微调以用于语义分割。零样本方法无需任何微调，可直接使用进行评估。

表III：根据文本查询从Replica和REAL实验室场景中检索对象。我们测量了top-1、top-2和top-3的召回率。CLIP指使用余弦相似度进行对象检索，而LLM指让LLM解析场景图并返回最相关的对象。

图3：Jackal机器人使用实验室环境的ConceptGraphs表示回答用户查询。我们首先查询一个LLM，以识别用户查询中最相关的对象，然后使用LVLM验证目标对象是否位于预期位置。如果不在预期位置，我们再次查询LLM以找出丢失对象可能的位置或容器。（蓝色）在被要求寻找适合参加太空派对穿戴的物品时，Jackal尝试寻找带有NASA标志的灰色衬衫。在未能在预期位置检测到衬衫后，LLM推测它可能在洗衣袋中。（红色）在收到用户关于罗纳德·麦当劳装束的鞋类查询后，Jackal搜索红白色运动鞋。LLM在未能检测到运动鞋出现在地图标示的初始位置后，将机器人引导到鞋架寻找。

图 4: Jackal机器人解决可通行性挑战。所有通往目标的路径都被物体阻碍。我们查询大型语言模型（LLM），以识别机器人可以安全推动或穿越的物体（绿色）以及那些过重或会阻碍机器人运动的物体（红色）。LLM依赖ConceptGraphs节点标题来进行可通行性预测，我们将不可通行的物体添加到Jackal的成本地图中用于路径规划。Jackal成功到达目标，其过程包括通过窗帘并推动篮球，同时避免接触砖块、铁哑铃和花盆。

IV. 并行工作

我们简要回顾了一些近期的和未发表的预印本，这些工作探讨了与开放词汇对象为基础的3D场景分解相关的主题。在与我们并行的研究中，[66]、[67] 探索了开放词汇对象为基础的3D场景分解。[66] 假设场景中已构建了点云地图，而 [67] 则在移动中构建地图。两种方法都将 CLIP 描述符与重建过程结合，其性能与我们系统的 CLIP 变体相当，但是如表 III 所示，CLIP 变体在涉及复杂功能性和否定性的查询时表现较为困难。OGSV [68] 更接近我们的设定，它通过 RGB-D 图像构建一个开放词汇的 3D 场景图。然而，[68] 使用了一个（封闭集）图神经网络来预测对象关系；而 ConceptGraphs 则依赖于现代大语言模型（LLMs）的能力，从而消除了训练对象关系模型的需求。

V. 结论

本文中，我们介绍了 ConceptGraphs，一种新颖的开放词汇对象为核心的3D场景表示方法，该方法解决了当前密集和隐式表示中关键的局限性。通过高效整合基础的2D模型，ConceptGraphs 显著缓解了内存限制，提供了对象之间的关系信息，并允许对场景进行动态更新——这三点是现有方法中普遍存在的挑战。实验结果证明了 ConceptGraphs 的鲁棒性和可扩展性，突显其在包括操控和导航等多种现实任务中的优越性。我们框架的多功能性亦支持了广泛的下游应用，从而为机器人感知与规划的创新开辟了新的途径。未来的工作可以深入研究将时间动态整合到模型中，以及评估其在不那么结构化、更具挑战性的环境中的表现。

致谢
本项目部分得到了陆军研究实验室（项目编号 W911NF1820218）和海军研究办公室（MURI）的资助（KM, AT, JBT）。FS 和 LP 感谢 NSERC 的资助支持。LP 感谢来自加拿大 CIFAR AI Chairs 项目的支持。本文所表达的所有发现、观点和结论仅反映作者个人的观点，不代表研究资助方的意见

文章版权归作者所有，未经允许请勿转载。如内容涉嫌侵权，请在本页底部进入<联系我们>进行举报投诉!

THE END

知识分享

ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning