摘要
近年来,视觉语言模型(VLMs)的发展在视觉推理任务中表现出了卓越的性能。然而,地理定位任务存在独特的挑战,需要从图像中提取多粒度的视觉线索,并将其与外部世界知识相结合进行系统性推理。目前的地理定位方法通常缺乏强大的推理机制和可解释性,限制了其有效性。为了解决这些不足,我们提出了地理推理增强套件(Geo Reason Enhancement, GRE Suite),这是一种新颖的框架,通过构建结构化推理链来增强VLMs,以进行准确且可解释的位置推断。GRE套件从数据集、模型和基准测试三个关键维度系统地开发。首先,我们引入了GRE30K,这是一种高质量的地理定位推理数据集,旨在促进精细化的视觉和上下文分析。接下来,我们提出了GRE模型,它采用多阶段推理策略,逐步推断场景属性、局部细节和语义特征,从而以更高的精度缩小潜在地理区域的范围。最后,我们构建了地理推理评估基准(Geo Reason Evaluation Benchmark, GREval-Bench),一个全面的评估框架,用以衡量VLMs在多样化的城市、自然和地标场景中的粗粒度(如国家、大洲)和细粒度(如城市、街道)定位性能。实验结果表明,GRE在所有粒度的地理定位任务中均显著优于现有方法,强调了推理增强型VLMs在复杂地理推断中的有效性。代码和数据将在 https://github.com/Thorin215/GRE 发布。
图1:我们的基于推理的GRE与传统的基于对齐的方法及MLLM基线在图像地理定位上的性能比较。
1 引言
全球范围内的图像地理定位 [31, 48] 旨在根据拍摄于地球任何地方的照片预测其拍摄位置的地理坐标。与特定区域内的地理定位 [20, 27, 43] 不同,全球地理定位不受限于任何特定区域,而是覆盖整个地球,极大地释放了地理定位的潜力,其在多个领域有着重要应用,例如自动驾驶系统定位、社交媒体图像地理标注以及文化遗产保护。然而,由于全球地理环境的巨大多样性、相似地点之间的视觉模糊性,以及拍摄条件(如天气模式、季节变化和光照情况)的多变性,精确的全球范围图像地理定位仍然面临着巨大的技术挑战。地理定位需要仅通过地面视角图像预测照片的地理坐标。提取普遍的地理视觉语义不足以完成这一任务,因为两个相距甚远的地点可能会在图像级别共享相似的特征。因此,模型需要从复杂的视觉信息中识别并推理与地理相关的视觉元素。如图1所示,在推断目标地点——圣地亚哥会展中心时,模型需要结合使用显性指示器(如“白帆”屋顶设计)和隐性指示器(如平坦地形)。然而,现有方法[16, 46]依赖于数据驱动的跨模态对齐策略,通过大规模标注的图像-GPS对建立对应关系,却忽略了图像中细粒度地理指示器之间的内在逻辑关系。此外,模型需要对捕获于世界任意地点的图像预测地理坐标。然而,基于封闭域假设的现有方法要么维护一个GPS坐标[16, 70]或图像[23, 45, 51, 53, 73]的候选数据库,要么将整个地理空间划分为固定网格用于分类[7, 14, 26, 31, 47],这损害了坐标预测的连续性。因此,图像地理定位模型必须具备不依赖候选信息预测开放式坐标的能力,而这一特性在现有方法中仍未得到充分解决。近期,DeepSeek-R1[9] 已成功应用强化学习(RL)以在大型语言模型(LLMs)中引导复杂认知推理能力的自我生成。图像地理定位本质上是一个需要逐步推理的多步骤认知过程——从识别图像中的视觉线索,到推测这些线索之间的地理相关性,最终确定具体位置。这一逐步推理过程与强化学习的序列决策特性自然契合。通过RL,模型可以根据识别出的视觉特征学习制定最优推理策略,逐步缩小潜在地理区域的范围,最终得出准确的地点预测,而不是简单依赖预先建立的图像-GPS对应。遗憾的是,这种直接的RL训练面临挑战,因为在缺乏大规模、高质量多模态数据和长时间训练的情况下,它难以有效指导多模态大型语言模型(MLLMs)生成复杂的链式推理(CoT)。此外,对中间推理过程的细粒度分析已经被证明对评估和进一步提升模型推理能力均有益[17, 54]。然而,现有的图像地理定位基准[7, 10]仅关注终端预测准确率,而忽视了对推理质量的评估。为了解决上述挑战,我们提出了地理推理增强(Geo Reason Enhancement,GRE),一种新颖的推理解决方案,它结合了冷启动监督微调和两阶段强化学习训练,用于全球图像地理定位。为促进训练过程,我们通过利用o3生成地理种子问题的链式推理示例,构建了一个地理推理数据集GRE30k。我们精心设计的GRE30K由两个子数据集组成:GRE30K-CoT,包含经过格式标准化和由注释员筛选优化的链式推理内容及答案;以及GRE30K-Judge,包含通过正则表达式匹配构建的推理链判断任务(用于判断哪个思维链更好)。GRE30k-CoT作为冷启动数据集,用于建立基本推理能力。基础模型的能力。然后,我们需要对GRE30K-Judge和种子问题应用两阶段的群体相对策略优化(GRPO)[9, 37],以增强模型的推理能力。此外,为了严格评估模型利用地理视觉线索进行地理定位的能力,并评估其推理链的质量,我们开发了一个名为地理推理评估基准(Geo Reason Evaluation Benchmark,GREval-Bench)的基准测试。具体而言,我们设计了一条自动化管道,用于筛选包含地理标识的图像,并为每张图像提供包含显性和隐性地理标识的语料库以及高质量的链式思维(CoT)注释。我们对工作的关键贡献总结如下:
• 我们提出了GRE,这是一个面向全球图像地理定位任务的新颖推理解决方案。我们提出的方法结合了冷启动初始化与两阶段强化学习训练范式,有效地利用图像中的地理标识,并实现开放式地理定位。
• 我们引入了GER30K,包含一个高质量的链式思维数据集和一个判断任务数据集。我们预计该数据集将为未来位置感知的视觉推理研究提供更多帮助。
• 此外,为了全面评估模型的图像地理定位能力,我们开发了GREval-Bench,其包含更高质量的图像、链式思维质量评估和地理标识语料库。
图2:当前图像地理定位模型架构总结。
2 相关工作
图像地理定位。图像地理定位是计算机视觉 [7476]、空间数据挖掘 [64] 和地理人工智能 (GeoAI) [65] 领域中的一项重要任务。如图 2 所示,以往在图像地理定位方面的研究主要可分为四种模式:分类模式、检索模式、外部信息模式和 RAG 模式。(1) 检索模式将图像地理定位任务视为检索问题,通常维护一个图像数据库 [23, 45, 51, 53, 72, 73] 或 GPS 坐标库 [46]。它们将与查询图像最相似的图像或 GPS 坐标视为预测值。然而,维护一个全球级别的图像数据库或 GPS 坐标库在实际中是难以实现的。(2) 分类模式 [7, 26, 31, 35, 48, 50] 将整个地球划分成多个网格单元,并将单元的中心坐标作为预测值。接着,通过训练模型将输入的图像归类到正确的单元中。然而,如果图像的实际位置距离预测单元的中心较远,即使预测的单元正确,也会产生显著误差。(3) 外部信息模式方法 [47] 融入了更高级别的地理信息,例如大陆级的先验知识,以提升性能。然而,这种方法本质上只是提供了部分解决方案,与任务的根本目标相矛盾。(4) RAG 模式 [16, 70] 通过检索相关图像-GPS 对作为参考,利用大语言模型优化预测。但这些方法依赖于建立大规模的对齐数据库。与现有的全球图像地理定位方法相比,我们提出了一种基于推理的方法,该方法利用图像中显式和隐式的地理指示器来预测开放式的坐标。
视觉语言模型 (VLMs)。类似 GPT-4o 的模型 [28] 通过整合视觉和文本数据,展现了出色的视觉理解能力。这种整合增强了模型理解复杂多模态输入的能力,并促进了更多先进人工智能系统的发展 [21, 22, 49, 61],使其能够处理和响应图像及文本。通常,LVLMs 的训练分为两个阶段:(a) 预训练和 (b) 后续训练,其中后续训练包括监督微调和强化学习。后续训练对于提高模型的响应质量、指令执行能力及推理能力至关重要。尽管在利用通过强化学习在后训练阶段增强LLMs [1, 4, 30, 33, 38, 39, 42, 55, 59, 67, 77] 的能力,LVLMs 的发展速度相对较慢。本文提出了 GRE-RL,它在后训练阶段使用基于GRPO的强化学习算法和可验证奖励,以增强模型的视觉感知和推理能力。
强化学习。最近,随着像 OpenAI 的 o1 [15] 和 Deepseek-R1 [8] 等推理模型的出现,关于大型语言模型(LLMs)的研究重点越来越倾向于通过强化学习(RL)技术来提升模型的推理能力。研究探索了提高LLMs在推理任务中的表现,例如解决数学问题 [3, 25, 36, 52, 56] 和编码任务 [13, 18, 60, 63]。该领域一个显著的突破是 Deepseek-R1-Zero [8],它提出了一种仅通过强化学习即可实现鲁棒推理能力的新方法,完全消除了监督微调(SFT)阶段。然而,当前关于基于强化学习的推理的研究在很大程度上仍局限于语言领域,对其在多模态场景中的应用探索甚少。对于LVLMs而言,强化学习主要被用于减轻幻觉现象以及使模型与人类偏好对齐的任务 [24, 40, 41, 57, 58, 66, 68, 69],但针对增强大型视觉语言模型的推理能力和视觉感知的研究仍然存在明显的空白。为了解决这一问题,我们的研究使用了一种新颖的强化微调策略,结合基于GRPO [36] 的RL和可验证奖励,应用于视觉地理定位任务。我们的方法旨在提高LVLMs在处理各种地理定位任务中的表现,尤其是在高质量微调数据有限的情况下。
图 3:我们 GRE 框架的概览。地理推理流程从数据准备开始,包括自动生成连锁思维(CoT)、正则表达式匹配和人工过滤。基于我们构建的 GRE30K 数据集,我们采用一个后训练过程,该过程包括监督微调以学习推理模式,随后进行两阶段基于规则的强化学习,以增强图像地理定位推理能力。
数据:
Step 1:地理种子数据与 CoT 生成
数据源:从 MP16-Pro 数据集(含街景图像 + GPS 坐标)中抽样作为 “地理种子”,但该数据集仅含基础图像和坐标,缺乏推理过程;利用 GPT-o3(具备强思维链生成能力),通过精心设计的 Prompt(如 “先识别建筑风格、再解码路牌文字、最后匹配地形”),为每个种子样本生成 “图像 – CoT – 坐标” triples(例如:图像中 “HSBC 分行 + 美式车牌”→推理链 “建筑风格像纽约 + 车辆符合美国特征”→坐标 “40.742, -73.985”.
Step 2:数据筛选与 GRE30K 拆分
自动化过滤:用正则表达式匹配,过滤 “推理链与坐标不匹配”“地理线索错误” 的样本(如将 “伦敦红色巴士” 误判为 “纽约” 的样本);
训练:
这是 GRE 模型能力提升的核心,分 “冷启动初始化(Cold Start Initialization)” 和 “两阶段强化学习(Two-stage RL)” 两步,基于 Qwen2.5-VL-7B 基础模型迭代:
(1)第一阶段:冷启动初始化, 建立基础推理能力。通过监督微调(SFT)学会 “遵循人类式思维链推理”,输出格式标准化的结果。训练数据:GRE30K-CoT 数据集(含 “图像 + 问题 + CoT + 坐标”);输出模型:完成冷启动的模型(命名为 GRE-CI),已具备 “从图像提取地理线索→按步骤推理→输出坐标” 的基础能力,但泛化性和推理精度仍需优化。
(2)第二阶段:两阶段强化学习(RL),优化推理精度与泛化性。基于 Group Relative Policy Optimization(GRPO) 算法(PPO 的改进版,更适合语言模型的策略更新),分两阶段用不同数据优化 GRE-CI。
RL 阶段 I:用 GRE30K-Judge 优化 “推理正确性判断”。数据:GRE30K-Judge 数据集(含 “模型推理链 + Ground Truth 坐标”,标注 “正确 / 错误” 标签);训练逻辑:让 GRE-CI 作为 “评判者”,判断输入的推理链是否正确(如 “推理链‘椰子树→巴西’是否符合 Ground Truth‘印度尼西亚’?”)。奖励设计:若判断结果与标注一致(如正确识别 “错误推理”)。
RL 阶段 II:用地理种子数据优化 “坐标预测精度”,训练逻辑:让 GRE-CI 直接基于图像预测坐标,用 “geodesic 距离”(地球表面两点间最短距离)计算预测与 Ground Truth 的偏差。
3 方法
图3展示了GRE的综合推理流程。该方法以一个高质量的地理定位链式思维数据集进行冷启动,最初通过人类般的推理模式逐步训练基础模型。随后,我们对冷启动初始化模型GRE-CI应用了两个阶段的强化学习训练,以引导其采用正确的地理推理过程,从而增强最终模型GRE的地理定位推理能力。 在以下章节中,我们首先在第3.1节中描述构建高质量地理定位推理数据集GRE30K的方法。接着,我们介绍我们提出的后训练策略,包括冷启动监督微调(第3.2.1节)和两个阶段的强化学习训练(第3.2.2节)。相应地,我们基于GRPO的训练策略及两阶段奖励函数设计将在第3.3节中详细阐述。
3.1 GRE30K 构建
在本节中,我们介绍了GRE30K,一个旨在提升多模态大语言模型(MLLMs)视觉推理能力的地理定位推理数据集。具体来说,GRE30K包括用于冷启动初始化的GRE30K-CoT和用于强化学习的GRE30K-Judge。生成的数据示例详见附录A.1。
推理过程生成。我们充分利用公开数据集MP16-Pro [16]及其GPS坐标。然而,原始数据集仅包含图像、坐标以及离散的地理信息,包括每张图像对应的县和州,这不足以用于训练MLLM。我们的目标是构建包含复杂认知过程的CoT数据集,以便于训练策略,使GRE能够以接近人类认知模式的方式进行推理。此外,GPT-o3已展示了生成符合自然认知过程的CoT推理能力,并证明其推理能力很强。在此基础上,我们利用GPT-o3通过精心设计的提示模板生成图像-CoT-坐标三元组。详细提示模板请参阅附录A.2。
GRE30K-CoT。为解决源数据中可能存在的错误和不匹配问题,我们结合自动过滤和人工验证,以确保测试数据的质量和可靠性。更多详情请参阅附录A.3。最终,我们收集了2万条高质量CoT样本。通过以这种方式获取的CoT数据,推理过程展示出自然且逻辑的思维方式。
GRE30K-Judge。在通过高质量CoT数据规范化模型的推理过程之外,我们开发了GRE30K-Judge,一个判断任务数据集。该数据集通过对提取的预测与真实值进行比较,使用阈值θ将图像标记为“真”或“假”。生成的数据集被整合至强化学习训练中,从正确和错误的推理模式中学习,从而提升其地理推理能力。(偏好学习) 总共获得了1万条判断样本。
3.2 后续训练策略
为了增强视觉推理能力,我们提出了一个由冷启动初始化及两阶段基于规则的强化学习(RL)组成的三阶段后续训练策略。SFT稳定了模型的推理过程并规范了其输出格式,而RL进一步提升了模型在各种地理定位任务中的泛化能力。
3.2.1 冷启动初始化
利用GRE30K-CoT数据集,我们对预训练的MLLM进行SFT,将其作为冷启动初始化的基础MLLM。冷启动初始化后的MLLM被命名为GRE-CI。在这一阶段,基础MLLM从o3 [29]中学习了复杂的推理模式。通过对GRE30K-CoT数据集进行SFT,模型规范了输出格式并建立了系统化的推理框架。这个关键阶段促进了模型获取高质量的结构化推理模式,从而为后续的RL步骤奠定了坚实的基础。
3.2.2 基于GRE-CI的强化学习
基于SFT训练的模型,我们采用基于规则的强化学习(RL)优化结构化推理并确保输出有效性。具体而言,我们定义了两类奖励规则(灵感来源于R1),并使用群组相对策略优化(GRPO)更新模型。RL阶段进一步鼓励模型生成可靠输出并提高其在地理推理任务中的泛化能力。关于两阶段RL训练流程的更多详情请参阅附录C.1。
基于规则的奖励。我们定义两类奖励规则,从两个角度评估生成的输出:
• 准确性奖励:准确性奖励规则通过使用正则表达式提取最终答案并与真实值进行验证,评估最终图像地理定位任务答案的正确性,最终答案必须以指定格式提供,以实现可靠的基于规则的验证。在强化学习第一阶段(RL阶段I),给定输入图像及其链式推理(CoT)和预测答案,模型评估推理过程和最终答案的正确性。只有当生成的最终结果与真实值一致时,模型才会获得奖励分数ri = 1,否则得分为ri = 0。在强化学习第二阶段(RL阶段II),模型基于输入图像直接预测坐标,奖励由阈值指标θ决定。
• 格式奖励:为了确保推理过程的存在,格式奖励规则要求响应必须遵循严格的格式,模型的推理部分需用<think>和</think>括起来。正则表达式用于确保这些推理标记的存在及正确顺序。此外,<answer>和</answer>则用来确保模型已给出答案。
3.3 群体相对策略优化
我们使用GRPO以一种可控的方式实现一致性策略更新与强健奖励信号的平衡整合。对于生成输出中的每个标记,GRPO首先计算新策略(πθ)和参考策略(πref)下的对数概率。然后,它计算概率比值并将其裁剪到[1 − ε, 1 + ε]范围内,以限制策略更新并避免发散。归一化奖励(作为优势估计处理)随后被用于类似PPO的损失函数中,将策略优化与KL散度(以β作为权重)正则化相结合:
这里,Advt表示优势函数,衡量某一特定动作相较于基准策略价值的优劣程度。与其他方法相比,GRPO裁剪机制防止了极端的策略偏移,而KL正则化则确保更新后的策略与基准策略保持一致。这种结合方式确保了我们的模型能够高效地整合基于规则的奖励,同时不影响训练的稳定性。接下来,我们将介绍用于第二阶段(公式(4))和第三阶段(公式(5))的奖励函数R。
这里,θ 表示阈值,用作控制该奖励函数方程 (5) 中奖励范围的一个因子。E 表示预测的布尔值,V 表示预测值和真实值是有效的。
4 GREval-Bench
为了全面评估模型的图像地理定位能力,我们开发了一个名为GREval-Bench的地理推理基准。现有的基准 [10, 44] 是直接通过地理标签的Flickr图像构建的,未经过适当的筛选。具体来说,这些基准包含了许多缺乏地理相关线索的图像,例如人像和以物体为中心的照片。这些地理信息缺乏样本的纳入削弱了评估结果的有效性。此外,这些基准主要关注最终预测结果,而忽略了对整个CoT过程的评估。CoT过程反映了地理推理能力的多个方面,并作为理解模型推理模式和局限性的重要媒介。为了解决这些挑战,我们在GREval-Bench中提出了一种半自动化管道,用于地理定位图像筛选和连锁思维(CoT)注释生成。图4和表1分别提供了数据统计信息。有关GREval-Bench构建和评估管道的更多细节,请参考附录B.1。GREval-Bench包含3000个三元组,每个三元组包括:(1)通过我们管道筛选的地理推理图像,(2)一个对应的地理指标语料库,分为显性和隐性两种类型,其详细子类别列于附录B.2,(3)参考GPS坐标和标注的关键连锁思维步骤,其中步骤类别及划分遵循文献[17]。通过我们的构建管道,我们改善了基准测试的图像质量和复杂性,剔除了缺乏地理指标的噪声图像,同时增加需要基于隐性指标进行推理的样本比例。这种改进有助于更准确地评估模型的地理定位能力。
正如图5所示,我们指示GPT-4o [28] 将每个推理步骤分类为三类:背景信息、图像描述和逻辑推理。我们计算背景信息与对应地理语料库之间的召回率。然后,我们使用RefCLIPScore [11] 来评估图像描述与视觉内容之间的语义对齐程度,并利用BertScore [62] 来评估预测的逻辑推理步骤与真实标注推理步骤之间的相似性。由于这些组件对于视觉推理至关重要,我们通过以下公式(公式(6))计算CoT质量。
5 实验
数据集和评估细节:我们随机抽取了 MP-16 [19](一个包含 472 万张来自 Flickr 2 的地理标记图像的数据集)中的 5% 用作地理种子数据集,用以构建我们的 GRE30K 数据集。该数据集被战略性地用于我们的三阶段训练过程:GRE30K-CoT 包括由地理学专家策划并标准化格式的 2 万条高质量链式推理(Chain-of-Thought)示例,用于冷启动初始化;GRE30K-Judge 包括 1 万条链式推理判定任务,用于阶段 I 的强化学习训练;剩余的 17 万条种子数据集用于阶段 II 的强化学习训练。我们在 Im2GPS3k [10] 和 Google World Streets 15k (GWS15k) [7] 数据集上测试我们训练的模型。为了在 Im2GPS3k 的评估中与现有方法确保公平对比,我们的模型和基于 transformer 的模型均只使用 MP-16 数据集的 5% 进行训练。按照已有研究 [16, 47] 中的协议,我们采用阈值指标报告结果。给定预测坐标和真实值,该指标量化预测值与真实值之间的距离在指定阈值(1km、25km、200km、750km 和 2500km)内的比例。
实现细节:我们采用 Qwen2.5-VL-7B 作为基础模型,微调(SFT)实验在批量大小为 128、学习率为 1e-5 的设置下,进行 1 个 epoch 的训练。然后,我们在数据集上执行强化学习(RL),并在每个包含 1 万数据子集上训练 1 个 epoch。所有实验均基于 Pytorch 框架,并在 16 张 NVIDIA H20(96G)GPU 上进行。
5.1 与最先进方法的比较
我们对GRE与全球地理定位基准数据集Im2GPS3k和GWS15k进行比较分析。表2展示了Im2GPS3k [10] 和GWS15k [7]的数据结果。在所有指标上,我们的方法均超越了Im2GPS3k上的先前最先进模型(SOTA),在1km、25km、200km、750km和2500km阈值下分别取得了+0.5%、+4.2%、+3.0%、+1.7%和+2.5%的提升。附录C.2中包含了其他地理基准数据集的结果,我们也观察到了类似的趋势。
此外,我们的方法在更具挑战性的GWS15k数据集上显示了显著的增益,在1km、25km、200km、750km和2500km阈值下分别超过了先前SOTA模型+0.2%、+1.0%、+2.0%、+9.1%和+4.2%。与先前方法需要完整的MP-16数据集相比,我们的模型仅使用了5%的数据便取得了卓越性能。GWS15k数据集包含均匀分布于全球各地的样本,没有偏向任何特定的地理位置。此外,该数据集中的图像与训练集相比存在较大的分布差异,这使得地理定位任务对暴力对齐方法尤为困难和具有挑战性。我们的显著改善可以归功于我们有效的推理方法,该方法充分利用了图像中的显性和隐性地理指示信息。
表 2:我们在 (a) Im2GPS3k [10] 和 (b) GWS15k [7] 数据集上将 GRE 与最新的先进方法进行比较。我们的方法在不同的数据集和距离阈值上均取得了持续的提升。†表示基于Transformer的模型。
5.2 在GREval-Bench上的表现
我们将我们的方法与以前的通用模型在GREval-Bench上的表现进行了比较,其中包括InternVL2.5系列[6]、InternVL3系列[71]、Qwen2.5-VL系列[2]。我们对模型进行了全面评估,分析了上述指标在不同距离阈值和场景中的表现,同时还评估了其推理链的质量。表3展示了比较结果。我们的方法在各种评估指标上都实现了领先的平均表现,同时展现了更连贯的推理过程,避免了局部认知陷阱。像Qwen2.5VL-3B和InternVL3-2B这样较小参数规模的模型在提取隐含线索方面显得困难得多。这些模型经常在CoT推理的早期阶段出现错误,从而影响后续的逻辑连贯性。图6展示了一个典型的视觉比较。
5.3 消融研究
为评估我们的训练数据和训练策略的有效性,我们比较了模型在四种不同训练策略下的表现:(1)在我们的数据集上应用冷启动初始化,(2)通过强化学习第一阶段(RL stage I)进一步优化GRE-CI,(3)通过强化学习第二阶段(RL stage II)进一步优化GRE-CI,以及(4)通过强化学习第一阶段和第二阶段进一步优化GRE-CI。如表4所示,在我们数据集上应用CI显著提升了模型在粗粒度(例如国家、大洲)和细粒度(例如城市、街道)定位性能的表现。在(2)和(3)中,(3)达到了相当的性能,而(2)在某些粒度层面出现下降,这归因于第一阶段训练任务与测试任务(奖励)类型之间的错配。总体而言,由于其更强的推理能力,(4)表现出相较于(3)更优的性能。
6 结论
在本文中,我们提出了一个全面的视觉地理定位推理框架,该框架基于一种形式化方法,统一了数据构建、模型训练和评估过程。我们的框架旨在解决当前方法的局限性,使模型能够在地理定位任务中进行推理。从图像中提取多层次视觉线索并整合外部世界知识的能力还将为我们在其他视觉语言模型领域提供启发。该框架促成了GRE数据集的创建,这是一项丰富的资源,包含详细的逐步推理标注,旨在提升模型在地理定位任务上的训练和评估表现。使用该框架训练的GRE模型展示了强大的地理定位推理能力,并在从隐性场景到显性场景的多样化场景中表现出强大的泛化能力。为了进一步支持地理定位的评估,我们引入了GREval-Bench,这是一个全面的基准,用于严格评估模型在各种地理空间场景中的表现。广泛的实验验证了我们方法的有效性,显示出相较于先进的开源模型显著的性能提升。
A.3 GRE30K-CoT 的审查与改进流程
GRE30K-CoT 的审查与改进流程。在数据生成过程完成后,我们使用正则表达式匹配筛选出预测坐标与真实值偏差超过阈值 θ 的样本。需要特别注意的是,这些被筛选的样本并未被丢弃,而是纳入 GRE30K-Judge 中。为了保证生成样本的高质量,我们在自动化筛选后进行了人工验证。该过程由三名具备地理相关专业背景的训练标注员完成。标注员检查并修正 CoT 中幻觉化的图像描述和不一致的地理推理,确保 o3 的输出遵循“<think> </think><answer> </answer>”格式。此外,他们还确保推理过程与指令结构保持一致。
人工筛选示例。正如图 10 所示,通过结合正则表达式匹配和人工筛选,我们提升了 o3 生成的链式推理输出的质量,从而最终构建了高质量的链式推理数据集 GRE30K-CoT。
B GREval-Bench 的更多细节
B.1 GREval-Bench 的构建及评估流程细节
在图像筛选过程中,我们基于 GRE30K-CoT 构建了一个地理推理语料库,利用命名实体识别(NER)来识别位置和建筑实体,并利用语义角色标注(SRL)提取地理推理模式(例如,“尖顶风格 → 欧洲教堂”)。语料库中的地理指示器随后被分类为显性和隐性两种类型。显性指示器包括人工地标、自然地理特征和文本符号,而隐性指示器包括建筑风格、城市规划模式、社会特征和环境特征。详细的子类别请参见附录 B.2。
我们采用 CLIP [32] 计算图像与地理相关文本提示(例如,“埃菲尔铁塔底部”、“阿拉伯文”、“红杉森林”)之间的相似度分数,保留具有高相关性分数的样本。随后,通过面部检测 [34] 删除单面部区域占比超过 50% 的图像。规则筛选后的图像再经过人工验证,标注员需要回答以下问题:“是否能仅通过这张图片推断出大致的地理位置(国家/城市级别)?”如果三名标注员中有两人或以上回答为否,则剔除该图像。
受前人 CoT 评估研究 [5, 17, 54] 的启发,我们为所有样本提供关键步骤注释和参考 GPS 坐标。我们首先利用 o3 生成答案推理步骤。在推理过程中,我们为 o3 提供指令和真实坐标作为参考。随后,三名地理领域标注员审阅并注释关键中间步骤,参考 o3 的回答内容。对于 o3 无法生成合理推理的情况,标注员将独立开发地理定位推理过程。
B.2 地理指示器的详细子类别
在图像地理定位任务中,地理指示器指图像中可以直接或间接推断地理位置的视觉元素。表 5 展示了地理线索的分类及具体示例。
C 更多实验
C.1 训练的更多细节
更多细节请参见图 11 和图 12。
C.2 补充主要结果
我们还在 Google StreetView 数据集(表 6)上进行了评估,观察到了类似的性能趋势。此外,我们展示了我们的基础模型 Qwen-2.5VL 系列在 Im2GPS3k 和 GWS15k 数据集(表 7)上的性能。这些结果与主要结果的结论一致,进一步验证了我们提出的训练策略的有效性。
C.3 定性结果
在补充材料中,我们提供了更多视觉示例,以展示图像地理定位任务中的推理性能。这些示例表明,GRE能够在具有挑战性的场景中生成出色的思维链条,以实现准确的坐标预测。
D 局限性与未来工作
D.1 局限性
GRE 的主要局限性包括:(1) 需要大量的计算资源,特别是在模型训练中使用了 8 块 NVIDIA H20 GPU,以及 (2) 数据集生成相关的 API 成本。
D.2 未来工作
通过利用地理定位推理能力,我们可以实现地理信息隐私的识别与保护机制。此外,该方法还可以通过基于代理的架构进一步扩展,将推理能力与工具调用功能相结合。
D.3 更广泛的影响
地理定位中推理能力的提升促进了从影像中提取多层次地理指标,为地理空间数据挖掘应用和位置隐私保护框架带来了双重收益。
E 更多定性结果
我们展示了额外的视觉示例,以突出地理推理性能。图13显示了涉及多种位置的更多视觉案例。GRE 能够在这些具有挑战性的场景中生成具备强大能力的可解释预测。此外,图14和图15提供了与之前基于对齐的方法以及现有具备推理能力的多模态大语言模型(MLLMs)的比较。我们的方法通过隐式地理指标展现了优越的图像地理定位结果。
暂无评论内容