Vision Mamba：状态空间模型助力视觉任务

邀
请
朋
友
一
起
学

主讲人：朱良辉 | 华中科技大学博士

开课时间

2024.06.27 19:55
课程时长

44分钟
学习人数

2051人次学习

立即学习

添加助教进群领课件&论文

立即学习

Vision Mamba：状态空间模型助力视觉任务

Transformer 凭借着其出色的全局建模能力逐渐风靡各大人工智能的细分领域。然而，二次方的建模复杂度限制了我们更进一步在长序列的文本、图像上对其进行应用。近年来，次二次方复杂度的建模网络如 Mamba、GLA、RWKV 等逐渐出现在了大众的视野中。这些方法能够以接近线性的复杂度来处理各种不同的序列建模问题，这也同样吸引着我们去探索将之应用在视觉任务上的可能性。然而，视觉任务不同于文本、语音等一维序列建模任务，其独特的空间关系也是不可忽视的一点。Vision Mamba正是为了解决此类问题而进行的一次探索，本次分享我们将一起探索 Mamba 应用到视觉任务的种种关键所在，并讨论其在视觉任务中的潜力以及更广大的应用方向。

课程介绍
精华文稿
课件领取
相关课程

具有高效硬件感知设计的状态空间模型（SSMs），即Mamba，已经展现出对于长序列建模的巨大潜力。仅基于SSMs构建高效且通用的视觉骨干是一种吸引人的方向。然而，由于视觉数据的位置敏感性和对于全局上下文的要求，对于SSMs来说，表示视觉数据是具有挑战性的。在本文中，我们展示了视觉表示学习依赖于自注意力的观点是不必要的，并提出了一种新的具有双向Mamba块（Vim）的通用视觉骨干，它使用位置嵌入标记图像序列，并使用双向状态空间模型压缩视觉表示。在ImageNet分类、COCO目标检测和ADE20k语义分割任务中，与DeiT等成熟的视觉转换器相比，Vim实现了更高的性能，同时还展示了显着的计算和内存效率改进。例如，在执行分辨率为1248×1248的图像的批量推理以提取特征时，Vim比DeiT快2.8倍，并节省86.8％的GPU内存。结果表明，Vim能够克服计算和内存约束，实现对于高分辨率图像的Transformer-style理解，并且具有成为视觉基础模型下一代骨干的巨大潜力。代码可在https://github.com/hustvl/Vim获得。

点击领取完整课件