DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning

摘要
大型视觉-语言模型（VLMs）在多模态理解和推理方面表现出色，但它们主要受制于基于文本的推理过程。然而，实现视觉和文本推理的无缝集成以模拟人类认知过程仍是一项重大挑战。特别是，如何将高级视觉输入处理有效地整合到推理机制中仍是一个悬而未决的问题。因此，在本文中，我们探讨了交错多模态推理范式，并提出了一种名为DeepEyes的模型，该模型通过端到端强化学习，不需要冷启动的SFT，即可激发其“通过图像思考”的能力。值得注意的是，这种能力在模型本身内部自然涌现，利用其内在的基础能力作为工具，而不是依赖单独的专用模型。具体来说，我们提出了一种面向工具使用的数据选择机制和一种奖励策略，以鼓励成功的工具辅助推理路径。DeepEyes在细粒度感知和推理基准测试中实现了显著的性能提升，并在基础能力关联、幻觉和数学推理任务中也表现出改进。有趣的是，我们观察到从初始探索到高效准确利用的工具调用行为的显著演变，以及与人类视觉推理过程密切相似的多样化思维模式。代码可在https://github.com/Visual-Agent/DeepEyes 获得。

1 引言

近年来，视觉-语言模型（VLMs）的进展通过采用长链式思维（CoT）方法[1, 2, 3]，实现了对多模态输入的更深入推理，使这些模型能够处理更复杂的任务。然而，这些模型仍主要依赖于基于文本的推理，其思维过程在很大程度上局限于语言模态。相比之下，人类的推理自然结合了视觉和认知，通过序列化的视觉注视提取信息，以图像进行思考，这种能力支持了更准确的感知决策，这对早期人类进化中的生存至关重要[4]。虽然一些最新研究提出了预定义的基于工作流的策略将视觉信息纳入CoT推理[5, 6]，模块化设计存在次优性能问题[7]。在最近关键发展中，OpenAI的o3模型[8]成功地将视觉信息作为推理过程中的动态元素进行集成。o3突破了语言模态的限制，将推理能力扩展到类似人类“带着图像思考”的方式。此外，它通过在CoT过程中以自然交替的方式结合文本的CoT和图像操作工具，解决了协调限制。这种方法通过无缝融合视觉和文本推理，打开了一条新的测试阶段计算扩展轴，代表了通向真正多模态推理的重要进展。然而，其内部机制仍未向开源社区公开。

图1：交错的多模态思维链（iMCoT）。通过端到端强化学习，DeepEyes 被激励在推理过程中执行主动感知。

本文提出了一种具备“带着图像思考”能力的模型DeepEyes，该能力通过端到端的强化学习得到激励。本能力无需依赖单独的专用模型而能自然涌现。它直接以结果奖励信号为引导，从而摆脱了以往方法中需要冷启动的监督微调过程。具体来说，我们将模型的图像绑定能力封装在图像放大工具中，使其能够通过在代理框架中调用工具功能从原始图像主动获取信息。如图1所示，模型自适应地生成图像绑定坐标并裁剪相关区域，这些区域随后被连接到正在进行的推理轨迹中。这样实现了一种交替式多模态链式推理(iMCoT)，在其中视觉和文本推理无缝集成。

在早期尝试中，我们观察到模型最初不愿使用图像放大工具。此外，早期探索往往导致选择不佳的放大区域和低奖励，从而引发训练动态的不稳定性。为了解决这些问题，我们提出了一种数据选择机制，根据样本对工具调用行为的潜力，来选择训练样本。此外，我们设计一种奖励策略，为通过工具调用成功完成任务的轨迹分配有条件的工具使用奖励。我们的消融实验和分析表明，上述两种策略有助于确保工具使用的效率和准确性得到适当优化。虽然我们没有对中间步骤进行任何监督微调，但我们观察到在强化学习训练过程中，工具调用的动态性经历了三个显著阶段：（1）初期的探索，效果有限；接着是（2）激进但成功的使用；最终是（3）发展出选择性和高效的利用，表现出高性能。这种趋势表明，通过工具使用，视觉推理能力逐步熟练掌握。此外，还出现了多样化的iMCoT推理模式，例如对小物体或难以识别物体的视觉搜索、基于不同区域的视觉比较、通过视觉确认消除不确定性，以及通过专注于细节来缓解幻觉。这些多样化的推理行为与人类认知过程高度相似，从而增强了系统的整体多模态能力。

实验结果表明，DeepEyes能够显著提升多个视觉感知和推理任务的表现。在高分辨率基准测试中，结合7B模型的DeepEyes在V ∗上的准确率达到了90.1%（提高18.9%），并在HR-Bench-4K和HR-Bench-8K上分别提高了6.3%和7.3%。此外，DeepEyes还在一系列任务上提升了多模态能力，例如视觉定位、幻觉缓解和数学问题求解。

主要贡献总结如下：
– 我们通过端到端强化学习激励和增强了基于图像思考的能力，形成了iMCoT（图像-文本混合推理）。这一方法无需冷启动的SFT或使用外部工具的单独专业化模型。

– 为了更好地激励模型的推理行为，我们引入了工具使用导向的数据选择和奖励策略的组合，以强烈鼓励工具辅助的解决问题能力。实验表明，这两个组成部分对iMCoT的发展具有显著贡献。

– 我们揭示了iMCoT在强化学习训练中的有趣动态特性，其中工具调用行为经历了从初始工具探索到高效准确工具利用的不同阶段演变。同时观察到多样化的推理模式，例如视觉搜索、比较和确认。

2 相关工作

多模态大型语言模型。多模态大型语言模型（MLLMs）从早期将视觉编码器与语言模型松散结合的系统，逐步发展为通过联合训练实现更为一体化的架构。诸如BLIP-2 [9] 和LLaVA [10, 11] 等方法通过使用查询变换器或轻量级投影器将图像特征投影到冻结的LLMs的潜在空间中，从而对齐视觉和语言模态，支持视觉问答与指令跟随等任务。为了应对分辨率限制，像AnyRes [12, 13]这样的方法支持灵活的图像尺寸和增强的视觉清晰度。这些技术进步促成了强大的开源模型，包括LLaVA [14, 15, 16, 17, 18] 系列、Qwen-VL [19, 20, 21] 系列和InternVL [22, 23, 24] 系列。同时，Flamingo [25]、mPLUG-Owl [26, 27, 28] 和GPT-4V [29] 等大规模模型致力于统一视觉-语言理解，采用了例如专家混合（mixture-of-experts） [30, 31, 32] 或图像生成 [33, 34] 的机制。然而，这些模型缺乏链式思维（Chain-of-Thought）等推理能力和测试时的可扩展性 [35, 36, 37]，并且仍将感知与推理割裂开来。

视觉-语言模型推理。现有的多模态链式思维（MCoT）推理方法主要分为两类。早期方法依赖于预定义的工作流、分阶段的程序或辅助模型 [38, 39, 40]，通常聚焦于目标区域定位 [41, 42, 43, 44]、潜在特征重建 [45, 46] 以及外部知识整合 [6, 47]，以提高互操作性。受到LLMs中关于长链式思维（long CoT）广泛研究的启发 [48]，基于强化学习（RL）的推理方法在MLLMs 中得到了越来越多的探索 [49, 50, 51]。这些方法主要将仅限文本的推理能力扩展到一系列多模态任务，如空间推理 [52]、目标识别 [53] 和语义分割 [54]。与以往要么硬编码推理管道，要么直接扩展至仅文本的CoT方法不同，我们的方法使模型能够自主决定何时以及如何整合视觉输入。在成果奖励信号的指导下，模型在推理过程中自适应地调整视觉探索，从而实现更灵活的过程。

图2：DeepEyes概览。我们的模型通过生成定位坐标并裁剪相关区域，或者直接作答，自主决定是否通过放大执行第二次感知。

3 方法

在本节中，我们首先在第3.1节概述所提出的DeepEyes。第3.2节介绍了端到端强化学习过程及其相应的奖励设计。第3.3节介绍了我们的数据收集和数据选择机制。

3.1 深眼

DeepEyes 是一个统一的多模态智能体，通过一种称为 iMCoT 的推理过程实现“基于图像的思考”。这种能力得益于模型本身在视觉对齐和动作决策规划方面的原生功能，并通过使用结果奖励信号的端到端强化学习训练进一步激发和增强，从而避免了冷启动式的监督微调。如图2所示，给定用户的问题和一张输入图像 I0，DeepEyes 可以在每一步文字链式推理（CoT）后自主决定是直接给出答案还是调用图像放大功能以进一步检查图像。图像放大功能以一组边界框坐标列表作为输入，输出指定区域内的裁剪图像。返回的裁剪图像，如 It1 和 It2，会被附加到当前的推理轨迹中，允许模型在所有先前的上下文基础上继续推理。DeepEyes 可根据需要多次调用图像放大功能，直至得出最终答案。这种迭代交互使得模型能够进行更细粒度的感知，特别是在图像中的相关目标较小、模糊或难以识别时。在强化学习训练阶段，模型对整个推理轨迹应用奖励优化的策略梯度，从而使得所有的文字链式推理和动作决策规划可以通过端到端的方式进行联合优化。

与基于工作流或纯文本推理的先前方法相比，我们的 iMCoT 具有以下几个显著优势。(1) 训练的简便性：先前基于工作流的方法依赖大量的监督微调（SFT）数据，获取这些数据具有一定挑战性，而我们的 iMCoT 只需要问答对，大大降低了数据收集的难度。(2) 泛化能力的增强：基于工作流的模型受到任务特定的手工设计约束，从而限制其对其他任务的泛化能力。而我们的 iMCoT 展示了强大的泛化能力，因为它通过强化学习动态选择跨各种任务的最优推理过程。(3) 统一的优化：我们的方法实现了端到端训练的联合优化，确保了系统的全局最优性。相对而言，逐个组件独立优化通常会导致次优性能。(4) 多模态整合：与纯基于文本的推理相比，我们的 iMCoT 自然地将视觉和文本信息交替结合，将视觉元素与文本推理以实现更准确的感知决策。(5) 原生工具调用。原生的“以图思维”能力能够直接优化工具使用的效率和准确性，这是以往推理范式无法实现的。

3.2 主体性强化学习

经典RL中，仅依赖文本的CoT方法将马尔可夫决策过程（MDP）的状态定义为输入的提示标记与模型到当前步骤生成的所有标记组成。动作定义为序列中的下一个标记。相比之下，Agentic RL通过引入观测标记(observation tokens) 扩展了这一公式，这些标记来源于外部函数调用而非模型本身。这些观测标记被附加到正在进行的展开序列中，并作为后续步骤的输入反馈给模型。我们将iMCoT的MDP定义形式化如下。在每一步t，iMCoT的状态st定义为：

st = {(X0, I0), (X1, I1), …, (Xt, It)} = {X≤t; I≤t}, (1)

其中X≤t = {X1, …, Xt}表示步骤t之前累积的文本标记序列，而I≤t = {I1, …, It}表示步骤t之前的图像观测标记。为简化起见，我们省略了VLM未生成的其他相关特殊标记。给定状态st，动作at ∼ πθ(a | st)从VLM策略πθ中采样，作为下一个输入标记。iMCoT继续交替，直到生成答案或达到最大工具调用次数。需要注意的是，状态中的文本标记X≤t和图像标记I≤t是交替存在的。所有观测标记作为整体处理，不参与损失计算。

奖励设计。在多模态环境中，稀疏的结果驱动奖励信号对于引导视觉-语言模型进行有效的推理和决策至关重要。由于缺乏中间视觉动作的步骤级监督，我们采用了一种基于最终结果质量和战略性工具使用的奖励公式来评估推理轨迹。

总奖励由三部分组成：准确性奖励Racc、格式化奖励Rformat以及条件工具使用奖励Rtool。准确性奖励评估最终答案是否正确，而格式化奖励对输出结构不佳进行惩罚。工具使用奖励仅当模型在轨迹中生成正确答案并至少调用一次外部感知工具时才会被授予。形式上，给定推理轨迹τ，总奖励定义为：

R(τ) = Racc(τ) + Rformat(τ) + IRacc(τ)>0 · Rtool(τ), (2)

其中IRacc(τ)>0是指示函数，仅当Racc(τ) > 0时取值为1。我们发现直接奖励模型工具使用对于促进感知驱动的推理至关重要（见第4.3节）。工具奖励是有条件的：仅当最终答案正确且轨迹中至少使用了一个工具时才适用。这鼓励模型在工具对成功完成任务有贡献时有意义地调用工具，而不是作为任意或冗余动作。

优化。在RL算法方面，我们采用了Group Relative Policy Optimization（GRPO）[55]，该方法已被证明在多样化任务上有效且高效。对于多轮Agent轨迹，我们应用了逐标记损失掩码，以忽略模型未生成的观测标记上的损失。

3.3 训练数据

数据收集。我们的数据收集遵循三个基本原则：(1) 任务和图像分布的多样性。我们整合多样化的数据以增强iMCoT的泛化能力。(2) 工具有效性。我们选择工具使用能够显著提高准确性的场景。(3) 推理能力提升。我们精心挑选能够有效提高模型推理能力的数据。因此，我们的训练数据集由三个互补部分组成：细粒度数据、图表数据和推理数据。细粒度数据从V ∗训练集的一部分[41]中选择，侧重于高分辨率图像和详细感知问题，以最大化工具使用效果。来自ArxivQA [56]的图表数据包含合成图表和图形图像，以增强视觉元素的多样性。对于推理数据，我们引入了ThinkLite-VL [57]数据集，以拓宽任务多样性并加强模型的分析能力。有关我们的数据的更详细分析请参见附录B。

数据选择。我们以工具使用为导向的数据选择策略包含四个关键步骤：（1）难度管理：我们使用Qwen2.5-VL-7B [58]为每个问题生成8个回复，并基于准确性估计难度。准确性为0或1的样本被排除，因为它们过于困难或过于简单，不利于有效学习。（2）问题格式结构化：我们将原始问题重新制定为开放式格式，排除那些无法可靠转换的问题。（3）确保可验证性：我们剔除无法适当验证的数据，例如答案错误或难以阅读的问题。（4）促进工具集成：我们实施了一个额外的筛选步骤，优先选择通过调用工具可以提供更高信息增益的样本。我们选择那些模型在单轮交互中给出错误答案但在使用真实标注的裁剪区域时得出正确结果的案例，从而突出工具使用对视觉推理的主要帮助。具体而言，图表数据不包括在工具集成筛选流程中，而推理数据保留其原始形式，因为它已经经过严格的处理。通过这一全面的选择策略，我们精心整理了一个高质量的数据集，专门用于开发和强化工具感知的视觉推理能力。

4 实验

4.1 设置

基线和基准测试。为了全面评估DeepEyes的有效性，我们将其与三类基线进行比较：(1)先进的专有模型，包括GPT-4o [60]和o3 [8]；(2)最先进的开源模型，如LLaVA-OneVision [62]和Qwen2.5VL [58]；以及(3)明确为工作流程设计的方法，如SEAL [41]、DyFo [44]和ZoomEye [61]。由于需要细粒度视觉理解的任务自然能够突出iMCoT的优势，我们首先在高分辨率基准上评估DeepEyes。随后，我们在定位和幻觉基准上评估DeepEyes，以展示iMCoT在一般视觉能力方面带来的改进。同时，我们还采用通用推理基准来验证其有效性。
训练细节。我们使用GRPO在H100 GPU上将Qwen2.5-VL-7B训练了80次迭代。每个批次采样256个提示，每个提示进行16次回合，最多调用工具6次。我们将KL系数设置为0.0，并将最大响应长度定义为20480个标记。

4.2 主要结果

高分辨率基准。高分辨率基准，包括 V∗ [41] 和 HR-Bench [59]，包含分辨率从 2K 到 8K 的超高分辨率图像。此外，问题中提到的目标对象在这些图像中通常非常小，可能仅占据一两百个像素。极高的分辨率加上目标对象的小尺寸，使得视觉语言模型（VLM）很难准确定位目标对象，经常导致错误的回答。如表 1 所示，我们的模型在高分辨率基准测试中表现出色，并显著超越了现有的开源模型，甚至超过了由人工设计的复杂工作流程 [41, 44, 61]。与 Qwen2.5-VL 7B 相比，我们的模型在 V∗ Bench [41] 和 HR-Bench 8K [59] 上分别实现了 18.9% 和 7.3% 的显著性能提升，这表明“通过图像思考”的视觉推理能力对于高分辨率感知的重要性。值得注意的是，我们在没有复杂流水线设计或精细训练的情况下，仅通过简单的强化学习（RL）成功解锁了这一能力。

定位和幻觉基准。此外，多模态链式思维（Chain-of-Thought，CoT）还可以增强通用视觉能力。我们在定位（refCOCO [70]、refCOCO+ [70]、refCOCOg [71] 和 ReasonSeg [72]）及幻觉（POPE [73]）基准上评估了我们的模型。从表 2 可以看出，我们的模型在定位任务中表现出更高的准确性，并显著减少了幻觉现象。这种改进得益于模型能够在视觉推理过程中集中关注感兴趣的特定区域，并对这些裁剪区域进行详细分析，从而更自信地确认目标对象的存在或缺失。结果表明，iMCoT 不仅提升了高分辨率感知能力，还通过提供更全面的关注和验证机制，提高了模型对视觉内容的整体可靠性。

多模态推理基准。此外，我们的模型还展现出了强大的推理能力。我们在多个推理基准上评估了模型性能，并将结果与之前的模型进行了对比（见表 3）。由于引入了链式思维，我们的模型在多个多模态推理基准上实现了通用性能的全面提升。

4.3 主要发现：从随意工具用户到熟练工具大师

训练动态。为了更深入地了解模型在端到端强化学习过程中的行为，我们对细粒度数据进行了详细分析。鉴于细粒度数据包括与目标答案紧密对齐的真实边界框，我们利用交并比（IoU）来量化模型裁剪精度的质量。在图3中，我们观察到模型与工具交互方式的明显转变。这一演变分为三个不同的阶段，每个阶段都反映了工具使用逐渐更有效地融入模型推理的过程：
• 阶段1：工具初步探索（步骤0–20）
模型开始响应系统提示以调用工具，但缺乏连贯或有效的使用策略。工具调用次数和响应长度明显增加，这表明了探索行为。然而，定位IoU仍然较低，说明模型经常调用工具但未能成功将检索到的信息与视觉上下文关联起来。这个阶段以反应性的试探与试错行为为特征，模型主要在没有外部指导的情况下测试可用工具的实用性。有趣的是，在第8步至第20步之间，响应长度出现了显著下降，因为模型开始缩减冗长的图像描述和与工具相关的意图陈述，同时掌握基本的工具使用技能。

• 阶段2：高频工具使用（第20–45步）
模型进入了一个积极使用工具的阶段，反复调用工具以最大化回答的正确性和工具奖励。这一策略在所有关键性能指标上都取得了显著的进步，包括定位IoU和准确性。较长的响应和更高的工具调用频率表明了一种“大范围尝试”策略：模型不依赖内部推理，而是通过对环境进行过度查询来外化视觉推理。这反映出模型正处于一个过渡阶段，它开始认识到工具的功能重要性，但尚未学会高效地使用它们。

• 阶段3：高效工具运用（第45–80步）
模型转向了更具选择性和精确性的工具使用，减少了工具调用频率和响应长度，同时保持了高定位性和任务准确性。这种行为表明，模型内化了一种更紧凑的视觉-语言策略：它现在将工具作为一种互补资源仅在必要时调用，而非依赖的“拐杖”。高定位IoU与较少的工具调用反映了一个隐式规划机制的出现，即模型首先通过内部缩小可能的视觉范围，然后有选择地利用工具来确认或细化其假设。

训练从广泛的探索转向了有针对性的开发，展示了模型学习工具使用并优化其奖励的能力。工具使用成为模型推理的重要组成部分，通过端到端训练与其策略共同发展。这些策略强调了工具增强的视觉语言模型在可扩展的、可解释的多模态推理中的潜力。

工具奖励。方程 2 中的奖励设计包括一个条件性工具奖励，仅当模型使用参考工具正确回答问题时才授予奖励。这一机制对于鼓励有效且有目的的工具使用至关重要。为了比较，我们尝试了移除工具奖励（无工具奖励）和移除其对任务准确性的依赖（无条件奖励）。这些变体的训练动态和评估结果如图 4 和表 5 所示。从结果来看，当没有提供工具奖励时，模型会迅速减少对工具的依赖，并最终完全停止使用工具。相比之下，在不依赖于正确性的情况下引入工具奖励可以保持基本的工具使用水平，但行为保持静止，并且不会随着时间而改善。模型在适应或探索更复杂的推理策略方面表现出有限的动机。另一方面，当工具奖励基于正确答案时，模型逐步增加对工具的使用，并生成更长、更具信息量的响应，表明工具已更深入地整合到其推理过程中。这些训练行为的差异在评估结果中得到了明确的体现。条件性工具奖励达到了最高的准确性，表现优于无奖励或无条件奖励的设置。这表明仅仅奖励工具使用是不够的，而奖励与有意义结果的对齐才是推动深眼（DeepEyes）智能和有效行为的关键。

思维模式。我们分析了在端到端强化学习训练过程中出现的多样化思维模式，展示了模型如何以类似于人类视觉认知的方式将视觉工具整合到其推理中，并根据任务需求适应工具的使用。可以识别出四种主要模式：
• 视觉搜索 当面对单次观察无法解决的复杂问题时，模型使用放大工具扫描图像的不同区域，收集视觉线索并通过推理得出可靠的结论（图 7）。

• 视觉比较 当处理多个图像或物体的细粒度理解时，模型会逐一迭代式地放大，允许仔细检查和比较，然后得出最终结论（图8）。

• 视觉确认 在某些情况下，模型最初可能存在不确定性，但通过放大图像细节逐渐建立信心，收集证据并解决疑虑（图9）。

• 幻觉缓解 尽管视觉-语言模型有时可能会出现幻觉，通过使用放大工具可以帮助模型专注于视觉细节，从而缓解幻觉现象（图10）。

4.4 消融研究

交错多模态链式思维（Interleaved Multimodal Chain-of-Thought, iMCoT）。为了验证 iMCoT 的有效性，我们基于仅文本的 CoT，通过端到端强化学习（RL）使用相同的训练数据集训练 Qwen2.5-VL-7B。如表 4 所示，仅文本的 CoT 推理也提高了模型的感知能力。然而，我们观察到模型在处理超高分辨率图像（HR-Bench 8K）时表现较差。这种局限性可能源于训练数据集中缺乏该尺寸的图像，导致这些图像被视为分布外样本，从而降低了模型的有效性。相比之下，DeepEyes 在推理过程中无缝整合工具使用，成功克服了分辨率限制，并在分析超高分辨率图像方面表现出色。

训练数据。我们进一步研究不同训练数据的影响，并在表 5 中报告结果。首先，使用细粒度数据（#2）进行训练显著提高了模型处理高分辨率图像的能力，而使用非筛选数据（#1）进行实验仅带来了微小的提升（HRBench-4K 上仅增长0.1%），这凸显了工具使用导向数据选择的必要性及有效性。此外，仅依赖感知数据进行训练会导致推理能力的灾难性遗忘。加入推理数据（#3）部分缓解了这种遗忘问题，帮助模型在提升高分辨率感知任务性能的同时保留部分数学推理能力。进一步来看，图表数据（#4）的添加拓展了训练图像的多样性，引入了新的视觉元素和结构。图表数据中的许多问题涉及理解多个图像元素之间的关系，这扩展了任务的多样性。这种增加的多样性通过让模型接触更复杂的关系推理场景进一步增强其思考能力。表中（#2, #3, #4行）的结果清楚地说明了每种数据类型的互补优势。高分辨率数据提高了模型的感知能力，推理数据帮助保留了关键推理能力，图表数据则拓展了对视觉关系的理解。因此，我们结合这些互补的数据源（#5），以更有效、更全面地激活模型的视觉思维能力。

5 结论

在本文中，我们介绍了DeepEyes，这是一种通过端到端强化学习训练的视觉语言模型，能够将视觉输入与文本推理无缝结合，形成iMCoT。与先前的方法不同，DeepEyes无需合成推理轨迹或外部专门模型来实现该行为。为了引导其推理行为，我们提出了以工具使用为导向的数据选择策略和奖励策略，以促进有效的工具辅助问题解决。在训练过程中，模型的工具使用从初步探索逐渐发展到高效利用，准确性和视觉聚焦均有所提高。DeepEyes表现出多样的推理行为，例如视觉搜索和比较，并且仅通过一个7B模型在多个基准测试中实现了具有竞争力的结果。