天博体育(TianboSports)官网从图像到视频的任性分割: X2SAM让MLLM 确凿看懂像素级时空天下

发布日期：2026-05-17 16:48点击次数：

本考虑由中山大学、好意思协调合完成，第一作家王豪为中山大学博士考虑生，主要考虑标的为图像和视频分割、通达场景视觉感知、多模态大模子等。论文共同通信作家为梁小丹陶冶和蓝湘源副考虑员。

如今，多模态大模子照旧偶然看图、看视频，并回回应杂问题。但如若进一步条款模子「把画面中的某个见识精确分割出来」，问题就变得莫得那么简便。举例，用户提倡这么一个需求：

这不仅条款模子领悟当然言语态状，还需要它在视频的每一帧中抓续定位归并个东谈主，并输出准确的像素级详细。传统分割模子擅永生成高质地掩码，但经常依赖点、框等明确指示，难以领悟复杂当然言语。另一方面，现存多模态分割模子经常只面向图像或视频中的某一类任务，难以用一个调和模子同期处理图像、视频、文本指示和视觉指示。

为了不停这一问题，来自中山大学和好意思团的考虑团队提倡了 X2SAM，一个调和的图像与视频分割多模态大模子框架。它但愿让模子不仅能「看懂」图像和视频，还能进一步「指出」见识在每个像素上的准确位置。

论文标题：X2SAM: Any Segmentation in Images and Videos

一个模子，处理多种分割需求

图 1 X2SAM 模子架构图

X2SAM 的中枢见识，是将图像和视频中的多种分割任务纳入归并个框架。X2SAM 由多模态大模子、区域采样模块、Mask Encoder、Mask Decoder 和 Mask Memory 等部分构成。输入图像或视频后，视觉编码器最初索要视觉特征；多模态大模子细致领悟用户的文本指示、视觉指示以及高低文信息，并将这些语义信息改造为可用于分割的见识暗意。随后，Mask Encoder 索要用于分割的视觉特征，Mask Decoder 凭据见识暗意和视觉特征生成像素级掩码。关于视频输入，Mask Memory 会进一步保存历史帧中的见识信息，并在处理现时帧时提供时序参考，使模子偶然在见识通达、讳饰或形变的情况下保抓更巩固的分割效果。

用户既可以用翰墨态状见识，举例「正在滑下来的通达员」「可以倒进杯子里的物体」；也可以通过点、框或区域指示，径直告诉模子念念要分割哪个对象。模子随后凭据这些指示，输出对应的分割效果。

在调和框架下，X2SAM 支持多类任务，包括：通用分割，通达词汇分割，指代抒发分割，推理分割，对话生身分割，视觉定位分割，以及对象级分割（包含图像交互分割和视频见识分割）。

图 2 X2SAM 支持的任务展示

简便来说，X2SAM 既能领悟「把左边正在喝奶的小狗分割出来」这么的言语指示，也能凭据用户点选或框选区域的视觉指示，在图像或视频中找到对应见识。

让视频分割更巩固：模子需要记着畴前

图 3 Mask Memory 模块结构图

视频分割比图像分割更难，见识会迁徙、被讳饰、发生形变，以致片晌隐没。如若模子只逐帧处理，很容易出现前后不一致的问题：这一帧分对了，下一帧可能就跟丢了。为此，X2SAM 引入了 Mask Memory 模块。可以把它领悟为模子的「短期操心」：它会记载前边多少帧中与见识关系的信息，并在处理现时帧时参考这些历史信息。这么一来，天博体育(TianboSports)官网模子不仅能在单帧中找到见识，也能在视频中保抓对归并见识的连结追踪，从而输出更巩固的分割效果。

新任务 V-VGD：点一下，模子分割整段视频

开云kaiyun中国手机APP下载

图 4 视频视觉定位分割任务展示

论文还提倡了一个新的视频视觉定位分割任务：Video Visual Grounded Segmentation，简称 V-VGD。这个任务慈祥一个很本色的问题：如若用户只在视频起原点一下或框一下某个见识，模子能不行在整段视频中抓续分割出这类见识？

考虑团队基于 YT-VIS19 和 VIPSeg 构建了关通盘据集。每个见识在首个可见帧中会取得一个视觉指示，举例点、框或区域标注；模子需要凭据这个指示，在后续视频帧中抓续找到并分割相应类别的对象。这类才气关于视频剪辑、自动标注、智能检索等场景极端进军。举例，用户只需要框选一次东谈主物、车辆或商品，系统就可以自动完成后续视频中关系见识的追踪与分割。

实践效果：图像任务保抓巩固，视频任务清楚卓著

实践泄露，X2SAM 在图像任务上保抓了较强竞争力，同期在视频任务上展现出显明上风。

在图像通达词汇分割任务中，X2SAM 在 ADE20K 关系评测上取得了优于此前 SoTA 尺度的效果；同期，它在其他图像分割任务上也取得了可以的性能清楚。这讲明，将模子膨胀到视频场景后，并莫得显明松开其处理静态图像的才气。

在视频任务上，X2SAM 的提高愈加显明：在视频通达词汇分割任务中，X2SAM 取得了 60.3 AP；在视频推理分割任务中，X2SAM 达到 69.9 JF，比拟此前 SoTA 尺度提高 14.2 点；在视频对话生身分割任务中，X2SAM 取得了 75.8 mIoU，清楚显明优于此前尺度；在新提倡的 V-VGD 任务中，X2SAM 在多个缔造下王人显耀进步此前强基线尺度。

这些效果讲明，X2SAM 不仅能处理单张图片中的分割任务，也能更好地领悟视频中的见识变化、言语指示和视觉指示。

更高效的调和检修方法

为了同期学习图像和视频中的多种任务，X2SAM 秉承了调和检修战术。比拟径直将不同数据简便夹杂检修，X2SAM 的检修方法在保抓性能的同期显耀裁减了狡计老本。该战术将检修老本从约 5.2K GPU hours 降至约 3.3K GPU hours，减少约 36.5%。

这意味着，调和图像和视频分割并不一定需要线性加多检修老本。通过合理假想检修过程，模子可以更高效地学习跨模态、跨任务才气。

调和分割模子还有哪些挑战？

诚然，调和图像和视频分割仍然面对一些挑战。最初，联接检修图像和视频数据仍需要较高狡计老本，尤其是视频数据本人更占显存和检修资源。其次，现时的操心机制仍然是固定长度的。关于很长的视频，或者见识万古刻被讳饰、外不雅变化剧烈的情况，模子仍可能面对挑战。此外，X2SAM 是一个面向多任务的通用模子。在某些高度非凡化的任务上，它可能仍不如针对单一任务深度优化的群众模子。

翌日，考虑团队缱绻进一步探索更高效的检修尺度、更轻量的模子结构，以及更允洽长视频的操心机制，让模子在复杂视频场景中愈加巩固、可膨胀。

归来

X2SAM 的意旨在于天博体育(TianboSports)官网，它将图像分割、视频分割、言语领悟、视觉指示和时序操心放进了归并个多模态框架中。它让多模态大模子不仅仅「看懂画面」和「回答问题」，而是进一步具备了像素级定位与分割才气。关于视频剪辑、自动标注、具身智能、机器东谈主感知和多模态交互等场景，X2SAM 提供了一个调和而稠密的分割多模态大模子有谋略。

上一篇：天博体育app下载 1945年，日本731戎行粉碎进行真空实践，神气令东谈主骨寒毛竖下一篇：天博体育app下载一加15T掀翻小屏旗舰新价钱战, 续航性能双打破成最大亮点

- 2026世界杯

热点资讯

天博体育(TianboSports)官网 从图像到视频的任性分割: X2SAM让MLLM 确凿看懂像素级时空天下

天博体育(TianboSports)官网从图像到视频的任性分割: X2SAM让MLLM 确凿看懂像素级时空天下