ARGUS: Vision-Centric Reasoning with Grounded Chain-of-Thought

图1. 使用Argus进行视觉问答、定位和链式思维推理。“ctx-token”是context token的缩写。

摘要
近年来，多模态大型语言模型（MLLMs）在视觉-语言任务中展现了卓越的能力，但在需要精确视觉关注以进行准确推理的以视觉为中心的场景中却往往表现不佳。本文提出了Argus，旨在通过新的视觉注意力定位机制解决这些局限性。我们的方法采用以对象为中心的定位作为视觉思维链信号，从而在多模态推理任务中实现更有效的目标条件化视觉注意力。针对多样化基准的评估表明，Argus在多模态推理任务和参考对象定位任务中均表现出色。广泛的分析进一步验证了Argus的多项设计选择，揭示了语言引导下视觉兴趣区域明确参与在MLLMs中的有效性，强调了从视觉中心的角度推动多模态智能发展的重要性。

1. 引言

近期在多模态大型语言模型（MLLMs）[38, 40, 42, 47, 69, 72, 75, 79, 82, 94]训练方面的突破释放了在视觉语言融合领域的重大进展，使得这些模型能够从复杂图像中提取有意义的内容并执行复杂的推理任务。然而，受益于更强大的大型语言模型（LLMs）所带来的成功驱动，现有的MLLMs在许多以视觉为核心的场景中仍表现欠佳[69, 82, 83]，而在这些场景中，准确的视觉感知和理解是后续多模态推理任务（例如，物体之间的空间关系或特定兴趣区域（RoIs）的属性）成功的关键。为了解决这些挑战，我们从视觉为核心的角度重新审视MLLMs的设计空间，从认知视觉智能中汲取见解，并针对多模态推理任务提出一种新的视觉注意力定位机制，如图1所示。认知科学中的奠基性研究[14, 25]已经识别了两种不同类型的视觉注意力机制：刺激驱动视觉注意力和目标导向视觉注意力，分别被称为非自愿注意力和自愿注意力[25, 29, 57, 58]。刺激驱动视觉注意力是一种由视觉刺激中的显著物体或纹理自动触发的自下而上的注意力机制。而目标导向注意力则是一种由目标和意图驱动的自上而下的有意识选择的注意力机制。令人惊讶的是，一个兴趣在多模态大模型（MLLMs）的设计空间中，提出了视觉注意两种机制的类比：（1）使用预训练的视觉基础模型[34, 60, 63]进行图像标记化，代表了刺激驱动的注意力；（2）发生在LLM的transformer层内的语言调控图像特征参与，代表了目标驱动的注意力。图2中对视觉注意激活强度的说明清晰地展示了MLLM中两种注意力模块的不同关注区域。尽管已有数种方法[69, 82, 104]通过知识蒸馏和视觉专家混合（MoVEs）的方式研究并强调了非条件图像标记化对于现代MLLM推理能力的重要性，但研究界对显式的语言引导视觉交互的作用关注较少。这引出了两个自然问题：1）如何将语言引导的视觉注意力机制最佳地引入到MLLM的设计中？2）除了感知任务外，显式的视觉交互是否能为多模态推理任务提供益处？

为了解答这些问题，我们在多模态因果预测过程中探索并提出了一种基于锚定驱动的视觉注意重新交互模块。与大多数依赖隐式自注意机制来建模语言调控视觉标记关注的现有MLLM[47, 82]不同，我们转向显式的自上而下视觉搜索，定位最相关于文本提示的图像兴趣区域（RoI），并引导模型将注意力集中于搜索到的区域，以完成后续的推理和答案生成。近期的研究表明，以对象为中心的表示方式有利于视觉-语言对齐过程和随后的感知任务[5, 99]。因此，我们将文本到边框的对象中心锚定作为中间推理阶段，其中预测的边框作为简单但有效的视觉链式思维（CoT）信号，以帮助提高最终推理步骤的质量。

我们的提出方法Argus在一套多样化的评估数据集中进行了基准测试，不仅在多模态视觉推理任务[24, 53, 54, 71, 82, 83, 93, 94, 102]上表现出色，在以对象为中心的视觉锚定任务[30, 100]上亦表现优异。我们还系统地分析了视觉注意重新交互机制的不同设计及其与MLLM中自发注意的协作关系。我们希望本研究通过强调更加以视觉为中心和以感知为驱动的推理机制，为迈向更强大的多模态智能铺平道路。

图2. 两种视觉注意机制示意图。非自愿注意（左）：刺激驱动；无条件特征提取；显著对象。直接注意（右）：目标驱动；语言引导的兴趣区域（RoI）特征提取。

2. 相关工作

视觉推理与多模态大型语言模型（MLLMs）。多模态大型语言模型（MLLMs）的兴起革新了视觉推理能力，使得复杂的问答和视觉理解任务成为可能。视觉指令微调[46]开创了这一领域的先河。

通过确立一个基础来调整语言模型以有效处理多模态任务，从而实现了进展。随后出现了若干改进和架构创新，以增强多模态大语言模型（MLLMs）的零样本泛化能力，包括更好的视觉-语言对齐[1, 11, 21, 42]、高分辨率视觉输入[38, 47, 88]以及数据集策划流程[12, 82, 88]。这一进展也扩展到专有模型，例如GPT-4V[79]、Claude 3[72]和Gemini[75, 76]，这些模型展示了卓越的通用适用性。最近的若干研究转向从以视觉为中心的角度探索视觉推理。Cambrian-1[82]对各种视觉编码器架构进行了全面调查，并引入了一个专门的基准CV-Bench[82]，用于评估以视觉为中心的推理能力。Eagle[69]通过引入视觉专家混合机制进一步推动了这一方向的发展，展示了专用视觉处理通道在MLLM架构中的潜力。然而，尽管有这些进展，当前的方法仍然缺乏对视觉注意机制的自觉控制，并且没有结合明确的目标驱动战略来进行视觉令牌提取，这激发了我们方法的提出。

多模态大语言模型的视觉感知：视觉感知在计算机视觉领域中始终是一个关键且具有挑战性的任务，涵盖了分类、检测、分割和生成描述等基础任务。众多专门的模型[33, 39, 49, 63, 66]“视觉专家”已被开发用于处理这些任务。MLLMs 的出现 [46, 79] 为感知任务提供了新的机遇。一项工作旨在构建多模态智能体，这些智能体使用 MLLMs 作为控制器来激活特定的视觉专家 [48, 92]。尽管这一框架表现出令人鼓舞的性能，但其复杂性和笨重性限制了其实用性。另一项工作涉及构建统一的 MLLMs 来处理广泛的视觉任务 [89, 95, 99]。尽管这种方法在某些场景中是可行的，其总体性能仍然不及专门化的视觉模型。最近，更多研究关注于统一模型的方向，目标是通过庞大的数据集支持，实现对理解和生成任务的综合覆盖[73, 74]。尽管取得了这些进展，但大多数研究较少关注视觉感知与推理之间的协同作用。相比之下，我们的研究探索了一种以视觉为中心的推理 CoT 方法，将视觉感知作为基础组件。

链式推理方法。链式推理（CoT）方法最初由 Wei 等人提出 [91]，其展示了通过提示语言模型生成中间推理步骤，可以显著提高问题解决能力。这一概念引发了许多进一步提升推理性能的研究，包括零样本推理 [35]、自动 CoT 提示生成 [108]，以及例如自洽提示 [90] 等技术。最近的研究超越了传统的线性推理路径，引入了更复杂的框架，如用于复杂问题分解的“思维图”[3]、用于结构化数值推理的“思维程序”[9]和用于深思熟虑决策的“思维树”[98]。在多模态领域，研究人员开始将 CoT 原则应用于视觉-语言任务 [22, 41, 52, 67, 109, 111]，通过使用现成的目标检测器或多轮视觉指令改进对模糊指令的视觉推理 [59, 68, 93, 105]，或通过交替分割和问答来开发联合感知和推理模型 [64, 107, 110]。尽管这些研究展示了 CoT 在多模态上下文中的潜力，我们的工作 Argus 是首个系统性研究将显性视觉注意力信号作为视觉 CoT 信号融入 MLLM 设计空间的机制，弥合了基础与以视觉为中心的 VQA 任务之间的鸿沟，同时在这两个领域的多项基准测试中实现了最先进的性能。

图3. Argus架构示意图。除了标准的无条件视觉标记化过程外，我们的方法还加入了一个额外的目标导向视觉标记化过程。该模型能够根据多模态输入指令确定与之最相关的兴趣区域（RoI）。然后，从输入图像中采样视觉RoI，并将其输入到RoI重新参与模块，以提取另一组视觉标记作为推理的CoT上下文。

3. 模型

在本节中，我们展示了如何从以视觉为中心的视角设计Argus的体系结构。我们首先重新审视了近期多模态大模型（MLLMs）的通用设计空间[38, 40, 42, 46, 47, 69, 82]。大多数现有的开源视觉推理MLLMs遵循统一的自回归架构范式，其中输入的图像首先被转换为视觉标记，并与语言标记连接后再由语言大模型（LLM）联合处理，以进行答案标记预测和解码。该转化过程采用了一个视觉编码器，通常是基于视觉Transformer（ViT-based [16]）的架构，例如CLIP [63]，然后通过一个基于多层感知机（MLP-based）的投影器将视觉特征映射到文本标记空间。虽然这种统一架构展现了强大的多模态能力，但在要求精确视觉聚焦以实现准确推理的以视觉为中心的场景中，其性能并未优化。为了解决这一局限性，我们提出了Argus——一个以视觉为中心的推理框架，其通过明确的语言引导视觉感兴趣区域（RoI）搜索和上下文再接入，增强了MLLMs的能力。我们在第3.1节中展示了我们的架构设计，并在第3.2节中详细介绍了定向视觉上下文再接入模块。我们在第4.5节中验证了我们的设计选择，并重点阐述了关键的实验结果。完整的Argus架构展示在图3中。

3.1. 结构设计

视觉编码器。在多模态以视觉为中心的推理中，视觉编码器通过确保在图像到标记抽象过程中信息损失最小化，并促进高效的视觉-语言对齐，发挥着关键作用。我们在视觉编码器套件中实施了混合视觉专家（MoVEs）策略，基于最近的MLLM研究[69, 82]，这些研究证明了结合不同视觉基础模型所带来的互补优势。我们的编码系统整合了三个视觉专家：CLIP [63]、ConvNeXt [50]和EVA-02 [17, 18]。在提取后，二维嵌入被插值到统一空间维度，并在通道维度上进行连接[43, 69]。对于多模态连接器，我们采用MLP投影器，与领先的MLLM架构[38, 40, 47, 69, 82]的实践保持一致。组合的视觉和语言标记形成一个多模态输入序列，通过一个自回归大型变压器处理以预测后续标记。我们利用最先进的预训练LLM [13, 78]作为变压器解码器，因为它们具备强大的零样本推理能力。

兴趣区域采样。为了实现显式的视觉搜索，我们集成了兴趣区域（RoI）预测功能，使模型能够输出与问题提示中参考的区域相对应的边界框。这种方法与对象定位任务大致相等，只是在视觉推理任务中，我们的方法扩展到了超越明确定义的对象，以处理与视觉推理相关的任意区域。为了保持简单的设计，我们采用文本编码策略。边界框表示，其中边界框被归一化到 [0, 1] 范围，并以文本格式表示（[xmin, ymin, xmax, ymax]）[7, 99, 104]。这种方法消除了训练额外的框或蒙版解码头的复杂性 [49, 65, 103, 107, 110]。如图3所示，预测的边界框引导从输入图像中裁剪相关RoI的过程，以用于后续的视觉上下文重新参与。

3.2 定向视觉语境重参与

模型预测的边界框表示与当前推理目标最相关的视觉上下文。为了有效利用这些兴趣区域（RoIs），我们寻求引导模型的注意力集中在这些关键区域，从而增强对与语言定义目标相关的上下文的关注。图2展示了我们CLIP编码器的去噪注意力图[96]，说明了特定RoI的视觉关注如何突出与目标对齐的重要视觉线索。然而，引导这种注意力的最佳方法仍是一个未充分探索的挑战。我们识别并分类了四种指导多模态大语言模型（MLLMs）与采样边界框交互的策略，并将这些方法集成到Argus架构中以进行统一比较和分析。

**隐式自注意力**

无任何显式关联边界框的机制，完全依赖 MLLMs 自身的全局自注意力层，让模型 “自主判断” 如何将语言指令与视觉 token 对齐。这是传统 MLLMs（如 LLaVA、Eagle）的默认方式，模型仅接收 “完整图像的视觉 token + 语言 token” 的混合序列，通过自注意力权重的自然分配，隐含地关注与语言相关的视觉区域，不主动引入边界框的任何信号。
大多数现有的MLLMs并未采用显式视觉搜索或关注模块[46, 47, 69, 82]。而是依赖语言模型（LLMs）的内在能力，通过全局自注意力层来关注视觉上下文。这种隐式的RoI交互方法采用了简约的设计，尽管提供了简单性，但在对边界框的具体注意力控制方面仍然有限。

**隐式边界框引导**

将边界框以 “文本格式”（如[xmin, ymin, xmax, ymax]的归一化坐标）作为 “特殊 token” 插入语言序列，通过文本信号间接引导模型关注对应区域，但不额外处理边界框对应的视觉特征。
这种策略超越了基本自注意力，通过将边界框预测为特殊的标记或文本坐标，而未进行显式的视觉RoI重新交互。尽管主要用于感知任务[7, 43, 99, 104]，该设计可扩展到视觉推理场景，在其中边界框预测作为链式思维信号，隐式推动自注意力朝向RoIs用于推理目的。通过以文本格式保留链式思维，注意力的转移变得更加微妙，将视觉和文本线索融合，而非显式强调视觉标记。

**显式RoI重新编码**

将模型预测的边界框对应的区域（RoI）从原始图像中 “裁剪出来”，视为一张 “新的局部图像”，重新通过视觉编码器（如 MoVE 中的 CLIP、ConvNeXt）提取专属的区域视觉 token，再将这些新 token 追加到原序列中参与推理。
与隐式方法相比，显式RoI交互通过实际视觉标记来表达视觉链式思维信号。如图4（左）所示，重新编码方法通过视觉编码器处理采样的图像裁剪以实现标记化[68]。该处理等同于一个增强过程，包括裁剪区域的方形填充至最大宽度或高度区域、通过边框扩展上下文，并根据视觉专家进行特定维度的大小调整。这些标记被附加到输入序列中，引入了补充的视觉上下文，通过显式的上下文信号引导推理。这种方法确保了对RoIs的精确关注，尽管由于额外的编码过程而增加了计算需求。

**显式RoI重新采样**

不重新裁剪图像或运行视觉编码器，而是从 “初始完整图像的视觉 token 缓存” 中，筛选出与边界框重叠的视觉 patch token，作为 “上下文 token” 重新参与推理。
重新采样方法提供了一种减少计算负担的显式交互策略。如图4（右）所示，与将RoI框视为新图像不同，重新采样方法从内存库[4, 28, 41]中利用视觉嵌入。在视觉推理任务中，从初始MoVE编码器套件提取标记并根据需要重新使用。我们计算RoI边界框和视觉编码器后的补丁嵌入之间的重叠面积，并重新采样与框有交集的补丁标记作为上下文标记用于重新参与。这一策略利用了缓存的标记，从而简化了计算，同时聚焦于任务相关的区域。同时，冗余标记也保留了原始图像中的位置上下文，这在重新编码方法中的填充和调整大小过程可能会丢失。

图4. 两种视觉CoT机制的示意图。重新编码扩展RoI并将其视为新的图像进行标记化处理。重采样从预提取的标记缓存中检索知识。

4. 实验

本节介绍了我们的综合实验方法和结果。我们首先详细说明了训练协议（第4.1节），然后提供了实现细节（第4.2节）。接着描述了我们的评估基准和基线比较（第4.3节），并展示了我们的模型在视觉推理和参考表达定位任务中的有效性（第4.4节）。通过广泛的消融研究，我们在受控环境中验证了Argus的设计选择（第4.5节）。更多结果和细节见补充材料。

4.1. 训练流程

随着最近多模态大语言模型（MLLMs）的进展 [42, 46, 47, 69, 82]，我们将训练分为两个阶段：对齐和预训练。在初始预训练阶段，我们采用LLaVA-595K数据集 [46]，该数据集包含精心挑选的图像-文本对。我们冻结LLM，同时允许视觉编码器和MLP投影层进行训练。借鉴Eagle [69] 的研究，我们实施了视觉专家预对齐过程，以最大限度地减少专家之间的表示差异，并增强后续的语言对齐能力。

监督微调（SFT）。第二阶段采用多个数据集的多样化组合，以确保在多个领域中的强性能表现。为了确保具备强大的通用多模态理解能力，我们使用Eagle1.8M数据集 [69]，该数据集是一套综合性的对话数据集合，来自多个来源 [8, 20, 26, 31, 32, 45, 46, 53, 54, 77, 81, 86, 106, 112]。关于视觉链式思维推理，我们引入VCoT数据集 [68]，该数据集提供了区域兴趣（RoI）的边界框注释，专门用于基础和推理任务。该数据集从多个已建立的基准 [23, 24, 37, 44, 54, 55, 62, 70, 71, 84, 85, 112] 中采样。我们将每个样本结构化为用户与AI代理之间的多轮对话，其中：(1) 代理首先使用<roi-box>注释以规范化文本坐标（第3.1节）预测区域兴趣；(2) 用户随后通过<visual-context>标记提供中间视觉链式思维信号；(3) 代理基于这种结构化交互生成最终响应。

为了增强模型在非约束场景中定位概念的能力，我们遵循现有研究 [7, 68, 99]，混合使用GRIT [61]（756K）和Shikra [7, 36, 62, 100, 112]（326K）数据集。所有空间定位信息相对于图像尺寸被规范化到范围 [0, 1] 并以文本格式表示。在这一微调阶段，我们允许MoVE视觉编码器、MLP投影器以及LLM解码器的所有参数进行更新。

4.2 实施细节

我们使用 Llama3-8B [78] 作为我们的 LLM 解码器骨干网络。对于视觉编码器，我们选择 ViT-L/14 CLIP [63]、ConvNeXtXXL-1024 [50] 和 EVA-02-L/16 [18] 作为我们的 MoVE 编码系统。输入分辨率对于 ConvNeXt 和 EVA-02 设置为 1024×1024，而对于 CLIP 模型设置为 448×448。视觉标记数量为 1024（32×32）。遵循 Eagle [69] 的命名方式，我们将我们的模型命名为 Argus-X3，以体现三位视觉专家的使用。在 RoI 选择过程中，我们使用框坐标格式对 RoI 进行编码：[xmin, ymin, xmax, ymax]，模型经过指令微调直接输出文本格式的坐标，其中数字通过图像维度归一化到 [0, 1] 范围内，精确到小数点后三位。我们通过移除括号和逗号解析坐标，然后将数字转换回框坐标以进行定位和重采样。在两个阶段中，我们均以 256 的批量大小训练一个 epoch。预训练阶段学习率设置为 1e-3，SFT 阶段学习率设置为 2e-5。使用 AdamW 优化器 [51]，没有权重衰减，并采用余弦学习率调度器。实验使用 NVIDIA A100 GPU 进行。更多细节见补充材料。

4.3. 基线模型与基准

我们将 Argus 与具有大致相同参数规模的最新多模态大语言模型（MLLM）进行比较，包括 Mini-GeminiHD [40]、LLaVA-NeXT [47]、VisCoT [68]、QwenVL [1]。

InternVL [12] 和 Eagle [69]。我们使用开源的 EagleX3-8B [69]，其采用与我们的基线架构相同的 MoVE 编码器结构。作为参考，我们还包括来自专有模型 [79] 或使用数量级更多（甚至未公开）数据训练的模型 [2, 80] 的性能指标。如果基准中提供了官方评估指标，我们使用官方指标，否则我们遵循最近的 MLLMs [69] 的相同评估设置，以确保公平比较。对于指代任务，我们对比了专业模型和通用模型，包括 MAttNet [101]、TransVG [15]、UNITER [10]、VILLA [19]、UniTAB [97]、MDETR [27]、G-DINO [49]、OFA-L [87]、Shikra [7]、Ferret [99]、MiniGPT-v2 [6]、InternVL2 [80] 和 Qwen-VL [1]。我们使用 Acc@0.5 作为指代表达定位任务的指标。所有模型性能均来自官方公开报告。

基准测试。我们报告了这些方法在不同视觉语言基准测试 [24, 32, 53, 54, 56, 64, 71, 82, 83, 93, 94, 102] 上的性能表现。我们遵循先前研究 [68, 69, 82]，并结合其评估基准，涵盖了广泛的视觉为中心的多模态评估设置，其准确回答问题的关键在于精准的视觉理解。

4.4. 主要表现

我们的实验评估主要集中在两个核心能力：视觉推理与指代表达定位。这些互补任务考察了我们模型的多模态理解不同方面：视觉推理检验广泛的多模态理解能力，而指代表达定位通过定位任务评估精确的视觉-文本对齐能力。

视觉推理表现。我们在三个类别的MLLM基准上进行了评估：通用多模态推理、以文本为中心的理解以及以视觉为中心的感知。表现如表1所示。我们从结果中观察到以下发现：(1) 首先，Argus在拥有可比参数规模和训练规模的公开MLLM中实现了最先进的性能。值得注意的是，我们的方法甚至优于多个专有MLLM，展示了其卓越的多模态推理能力。(2) 此外，我们在以视觉为中心和文本理解任务上观察到显著的提升。这些任务通常需要对具体的视觉元素（如图像中的对象或文本组件）进行精确关注以生成准确的响应。这些领域的提升突出了我们基于目标的视觉搜索机制以及增强的视觉注意力参与策略的有效性。

指代定位表现。为了评估我们模型的对象定位能力，我们使用了RefCOCO、RefCOCO+和RefCOCOg基准[100]。结果如表2所示。我们的方法在可比规模的通用型MLLM中取得了领先表现，突出了其在结合通用推理与精确视觉定位方面的有效性。我们的表现与Grounding-DINOL[49]具有竞争力，后者是一个专注模型，基于更大的定位专用数据集训练并针对检测任务进行了优化。这些结果展示了Argus不仅在高阶推理任务中表现出色，还在基本视觉感知与定位任务中取得了卓越表现。

定性结果。在图5中，我们展示了Argus在视觉定位CoT任务和指代定位任务中的一些定性结果。我们的方法能够借助视觉定位CoT机制完成复杂的视觉推理任务。

表 1. 在具有可比参数量和训练规模的公开多模态大语言模型中，Argus 实现了最先进的性能。

表2. 我们的方法在同规模的通用型多模态大语言模型（MLLMs）中表现出色，突出了其在具备精确视觉依据的通用推理中的有效性。

4.5. 消融研究与分析

当前MLLM社区的现状由于数据规模、模型大小和架构选择的差异，对基准进行完全公平的量化评估和比较面临巨大挑战。因此，在本节中，我们专注于严格的受控实验来验证我们的架构设计并描述我们的关键发现。我们在所有消融实验中使用加速且统一的训练计划以实现公平比较。

4.5.1 视觉注意力再参与分析

我们对不同的视觉上下文再参与机制进行了系统评估，结果如表3所示。
(1) 首先，CoT推理的引入一致性提升了视觉和基于文本的推理任务的表现。隐性边界框CoT指导的引入相较于隐性注意力机制带来了显著改进，而显性CoT推理则进一步提升了性能表现。
(2) 在对比重编码和重采样策略时，我们发现重采样在大多数基准测试中通常表现出更好的性能。这种优势可以归因于上下文位置信息的保留以及避免区域重新缩放过程中通常发生的分布偏移。然而，这种模式在V-Star基准[93]中呈现出一个有趣的例外，该基准强调复杂场景中小物体的感知。在这一特定情况下，重编码更为有效，因为它处理较大补丁的区域，从而保留了更细致的细节并最大限度减少信息丢失。我们进一步讨论了重编码和重采样策略的选择。从高层次的角度看，重采样涉及从初始无条件提取中预先提取的令牌缓存中检索令牌。

阶段。相反，重新编码增强了裁剪的图像块并生成了新的嵌入，利用了更高的分辨率和增强的上下文聚焦。

视觉编码器容量的影响。我们首先研究在不同容量的视觉编码器下，重新编码和重新采样策略的性能表现，如表4（∆更少编码器）所示。我们特别评估了当将MoVE替换为单个CLIP编码器时性能的变化。我们有两个主要观察：(1) 更高容量的视觉编码器始终表现出更好的性能，这符合我们的预期，即强大的特征提取器可以增强后续的感知和推理任务。(2) 与重新采样相比，重新编码更少依赖高质量的初始特征提取。由于重新采样仅从缓存中检索标记，它没有机会更新视觉标记质量。如果在初始提取过程中细节丢失，重新采样将难以恢复，而重新编码则能够更有效地优化视觉表征。

填充和方形上下文的影响。模型预测的RoI边界框通常是矩形的，需要进行预处理以将其转换为方形，因为大多数基于ViT的视觉编码器推荐使用方形图像。表4（∆方形上下文）显示了重新编码和重新采样策略如何响应两种不同的预处理方法。默认方法通过填充图像使其成为方形，而替代方法则根据较大维度扩展RoI为方形，从而有效捕获原始焦点区域周围的更多上下文信息。我们的结果表明：(1) 重新编码始终从由方形边框引入的更大上下文中受益，而(2) 重新采样在视觉为主的推理中仅表现出微弱提升，而在文本为主（OCR）推理中则出现显著下降。这一结果可能反映了文本中心任务的本质通常涉及在文本块中定位特定单词或句子（如图5（左）所示）。在这些情况下，扩展区域可能通过引入与任务无关的上下文而使定位任务复杂化，从而降低边界框预测的效益。非共享MLP层。对于重新采样策略，我们还探索了使用非共享MLP层作为默认共享MLP配置的替代方案。这涉及专门为RoI重新参与模块训练一个独立的MLP层。表4中显示的结果（∆ 非共享MLPs）表明，分离MLP层可略微提高性能。我们将这种提升归因于非共享MLPs能够考虑不同图像分布的能力：一个MLP被优化以适应具有完整上下文的原始图像，而另一个则专注于局部化、以对象为中心的区域。这种方法有效地结合了重新采样和重新编码的元素，最终实现了最佳整体性能。

表3. 对比了第3.2节中介绍的四种视觉注意力重新参与机制。两种显式视觉兴趣区域重新参与机制表现更为优秀。

表4. 在两种显式视觉重新参与策略之间更改设计选择后的性能变化（∆）。我们用红色表示下降↓，绿色表示上升↑。

4.5.2 接地与推理。

我们假设基于视觉的CoT直接连接了基础过程和推理过程。在表5中，我们分析了CoT信号和基础对推理性能的影响，得出两个主要观察结果：(1) 通过在SFT训练中引入CoT数据集和重新参与机制，与仅依赖隐式自注意力机制关注视觉标记、并基于标准视觉-语言推理数据集训练的Eagle-X3相比，我们的方法在以视觉和文本为中心的推理任务中均表现出显著提升。这突出了多回合推理（CoT）对多模态大模型（MLLMs）的重要性。（2）我们的完整模型Argus进一步将基础数据集融入到SFT训练中，并表现出额外的性能提升。这种改进可以归因于其增强的以目标为中心的感知能力，这改善了边界框预测，从而最大化了CoT机制的效用。

4.5.3 计算效率

我们比较了重编码和重采样策略引入的计算开销。表6显示，由于重用patch嵌入，重采样在平均视觉编码操作（以GMACs衡量）和额外视觉标记数量方面具有显著的效率优势，从而带来了更快的推理时间，因为LLM预测不会被视觉编码阻塞。

5 结论

这项工作介绍了Argus，一种以视觉为中心的推理模型，具有基于链式思维的能力。通过整合基于对准驱动的视觉注意力重新参与机制，Argus展示了一种通过强调定向视觉关注来增强多模态推理的有效方法。通过广泛的评估，我们表明该框架在多模态推理和参考对象对准任务方面表现出卓越的性能。这些发现不仅推动了我们对视觉-语言融合的理解，还为未来强调以视觉为中心机制及视觉链式思维作为多模态智能关键组成部分的MLLM架构提供了一个有希望的方向。

文章版权归作者所有，未经允许请勿转载。如内容涉嫌侵权，请在本页底部进入<联系我们>进行举报投诉!

THE END