开云kaiyun官方网站如 Object Tracking-kai云体育app官方下载app最新版本-kai云体育app官方登录入口

2026-04-12 16:04 点击次数：192

一个眼光锁定你！多模态视觉定位能力升级——

由单张图像拓展至多图像应用场景。

比如，在复杂的相册中自动识别出 Luigi 并在第二张图中找到他，或是笔据钢铁侠剧照自动在合影中找到对应的演员唐尼。

Q：Image-1 is the photo album of someone in Image-2, please find and locate this person.

回答： ( 371,146 ) , ( 695,812 )

又或者笔据第一张图，找到第二张图同型号玄色款的车。

Q：Where did I park my car? It is the same type shown in the first image, except it is black in color.

驱散它依旧回答出来了。

The car you parked is located at the entrance of the parking garage at ( 500,575 ) , ( 650,735 ) .

还能挖掘不同图像之间的联系，已矣精确定位。

来自清华 NLP 孙茂松团队、北京交通大学、华中科大相连提倡了多模态视觉定位新范式——

Migician，四肢第一个相沿恣意款式多图定位（Multi-image Grounding，MIG）的多模态模子，为此还狡计了一个大限制覆按数据集 MGrounding-630k。

多模态 Grounding 新范式

多模态大模子（typo Multimodal Large Language Model）的视觉定位（Visual Grounding）任务通过接受恣意款式的当然言语态状四肢查询，能够在图像中精确定位方针物体。

现时的 Grounding 任务主要眷注于单张图像，只可对单张图像进行方针物体的检测与定位，这极大的放弃了 Grounding 任务在现实生计场景中的任务。

以具身智能场景为例，机器东说念主需要交融多视角图像信息进行物体识别定位以完成握取动作；或者今天我思找我的车停哪了，这时我大致就需要一张我我方车辆的相片四肢输入查询，在泊车场的多张监控影像中进行查找与定位；

为此，THUNLP 团队相连北交大、华中科大提倡多图视觉定位新范式，通过构建包含数十种任务的系统性框架，将视觉定位能力拓展至多图像应用场景。

跟着输入图像数看法增多，相应的视觉信息激增，丰富的语义信息和图像履行自然地生长了各类化的 Grounding 款式和可能性。

按照是否需要明确指代方针物体，策划团队将多图定位任务分为 Spontaneous Grounding 和 Referential Grounding 两种：

前者依托不同图像中自然潜在的联系（如图像中变化了的物体或者图像中疏通的物体），让模子自动识别并准笃定位；

后者成绩于多张图像带来的款式上的膨胀和语义信息上的丰富，可以相沿不同款式的指代态状，如 Visual Reference，Textual Reference 或者交融两种模态信息进行定位。

值得谛视的是，策划团队提倡的多图视觉定位潜在地为很多任务提供了一种通用范式，如 Object Tracking, Vehicle Reidentification, Person Reidentification, Partial Graph Matching 等等任务，齐可以放在 MLLM 融合的框架中进行端到端的料理。此外，这种多图款式内在地相沿各类类型的图像，可以幸免此前一些故意用于处理图像查询（Image Query）的冗余视觉模块狡计，如 VisionLLM v2, Griffon v2 等，为 MLLM 提供一个更通用和更融合的架构。

CoT 推理框架

推敲到现时的主流多模态大模子尚未具备多图定位的能力，然则它们的通用感知与意会能力接续发展，展现出了关于长序列场景越来越强的意会能力，如多图和长视频，且自己常常依然具备可以的单图 Grounding 能力。

于是，策划团队领先接头了现时模子能否充分调用其已具备的单图定位能力和多图通宅心会能力，以 CoT（Chain-of-Thought）的多步推理相貌平静料理此问题。

具体的，正本的多图 Grounding 任务可被拆解为以下两步：

Step1 多图意会：输入为多张图像，模子详细分析所有图像，得出方针物体的文本指代态状，如上图 ( c ) 中，"上方有粉色花朵的木桶"。

Step2 单图定位：以轮询的相貌输入单张图像，模子诓骗上一步得出的论断以及自己的单图定位能力在这些单张图像上进行视觉定位。

实验驱散标明，这种分步推理的相貌如实具有一定的灵验性，然则局限性仍旧存在：

当视觉信息过于抽象或者复杂时，文本态状难以充分反馈该图像履行的全貌，如上图中 ( c ) ，原图中有多个稳妥要求的木桶，浮浅的指代："上方有粉色花朵的木桶"不及以充分地指定方针物体。

当推理经过过于复杂，在各个推理步上的出错概率也会相应增多，最终酿成通盘框架推崇的方差较高，且总推理时长大幅增多。

下图中更多例子进一步展现了这种 CoT 架构的局限性，充分体现出了一个端到端（end-to-end）料理决策的必要性。

模子覆按与数据构建

针关于 MLLM 多图定位能力的瑕玷和 CoT 框架的局限性，策划团队提倡了Migician，四肢第一个相沿恣意款式多图定位（Multi-image Grounding，MIG）的多模态模子。

为了打造一个纷乱的多图视觉定位模子，策划团队狡计了一个大限制覆按数据集MGrounding-630k，包含了从现存数据逼近整合校正的数据和诓骗模子与东说念主工构建的高质地领导微调数据。

诓骗这个数据集，旨在打造一个全面的，能相沿丰富任务款式的 MIG 任务的模子。

借助于该数据，策划团队基于 Qwen2-VL-7B，禁受了两阶段的覆按相貌：

第一阶段：主要禁受从现存数据逼近校正和狡计的数据，并混入了多图意会数据、单图意会数据和单图定位覆按数据。该阶段旨在从零构建模子的多图定位能力。

第二阶段：主要禁受高质地的 MIG 领导微调数据，并混入第一阶段四种类型的数据以注重模子渐忘。该阶段旨在进一步紧密化模子的 MIG 能力，增强其天真性与泛化性。

同期，为了客不雅评估模子的 MIG 能力，策划团队还推出了一个新的评估基准：MIG-Bench，包含 10 种不同任务，包含了来自东说念主工采集的，手动拍摄的和从现存数据中校正的不同图像，共包含 4000+ 的测试样例和近 6000 张图像。

该评估基准经过用心的东说念主工狡计，校验与筛选，充分保证了其问题正确性与举座的质地。

实验驱散

在最终的驱散上，该两阶段的覆按相貌和提倡的 MGrounding-630k 数据对模子 MIG 能力的普及相当灵验，在所有十个任务上大幅突出同限制模子以及 70B 限制的模子。

此外，不论是在多图意会的评估基准照旧单图的能力评测上，模子齐推崇出了出色的通用能力。

在多图基准 MuirBench, MIBench 和 MMIU 上获取 SOTA 成果，其单图能力比拟于此前的多图模子也有昭着的上风。

同期，为了深远探讨专用能力与通用能力间的影响，策划团队禁受了相应的数据子集，永别覆按了不同的模子，接头了不同部分数据永别的作用，最终发现搀杂多图定位数据与通用数据对最终性能的普及最大，多图细粒度定位关于多图通用能力如实存在一定匡助。

在传统的单图视觉定位上，Migician 的 Grounding 能力也有一定的接续增益。

不同推理相貌的接头

前文的 CoT 框架禁受的是单图轮询推理，这种设定能较好适配原始模子的单图视觉定位能力，然则该相貌会酿成很大的推理期间资本，关于 N 张图像输入，要额外进行 N+1 次推理。那么咱们能否在多图的语境下，奏凯通过 prompt 理论告诉模子："嘿！你只用看第二张图就好啦 ~ "，以这种相貌来调用模子单图定位能力和多图意会能力，从而已矣多步推理呢？

鄙人表中，策划团队考证了这种 mCoT 的灵验性，然则其性能普及较为瘦弱，多量低于单图轮询 CoT 的成果，体现出模子正本的 Grounding 能力不可很好适配多图场景。

单图高分辨率任务

临了，论文还有一个比较敬爱的发现。在视觉 token 的长度上，多图和高分辨率单图有很大的同样性，那么 Migician 关于多图的长 token 序列的处理能力能否移动到高分辨率单图上呢？为了考证这个思法，作家们中式了 V*Bench，它眷注于在高分辨率图片中对轻微物体的视觉搜索与属性判断。

在驱散上，当 Migician 以零样本泛化到该评估基准上时，便展现出了出色的性能；其次，当他们把单张高清图像裁为多张子图，颐养为多图任务时，Migician 能已矣进一步的性能普及，展现出了风雅的泛化性。

除了前边几个例子外，它关于多视角的磨真金不怕火，也能松驰应付，Migician 奏凯识别并定位出当今了每张图像里的东说念主，

Migician 精确识别并收效定位为穿灰衣着的东说念主，奏凯正确输出他在所有相片里的位置坐标。

Image-1: ( 314,204 ) , ( 404,552 ) . Image-2: ( 698,231 ) , ( 783,487 ) . Image-3: ( 918,157 ) , ( 999,618 ) . Image-4: ( 271,273 ) , ( 399,633 ) .

临了讲究，策划团队将视觉定位（Visual Grounding）任务全面地拓展到了多张图像的场景下，成绩于多张图像带来的丰富视觉语义信息，多图 Grounding 也降生了各类丰富各类的可能任务款式，如方针跟踪，找不同，多视角定位等。

为了赋予现时模子料理多图定位的能力，策划团队领先探究了 CoT 的推理相貌，并暴暴露了这种非端到端系统的局限性。

为此，他们进一步提倡了一个大限制的覆按数据集，全面的 MIG 评估基准以及纷乱的多图定位模子 Migician，为多图定位迈出了坚实的一步。

论文地址：

https://arxiv.org/abs/2501.05767

相貌代码：

https://github.com/thunlp/Migician

相貌页面：

https://migician-vg.github.io/

— 完 —

投稿请使命日发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉咱们：

你是谁，从哪来，投稿履行‍

附上论文 / 相貌主页贯穿，以及联系相貌哦

咱们会（尽量）实时回应你

一键眷注 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「小心心」

迎接在批驳区留住你的思法！开云kaiyun官方网站