Mamba 模型在视觉上的开发

状态空间模型(State Space Models)

用于预测连续序列在给定输入下的下一状态。
固定动态特性

Mamba

Mamba 是一种基于 选择性状态空间模型(Selective SSM) 的序列建模架构,它最大的特点是:

  • 时间复杂度和显存复杂度都是 线性 O(L)
  • 非常擅长 长序列建模
  • 可以作为 Transformer Block 的高效替代

目前已经在 NLP、Vision 以及多模态领域 都有广泛应用。

从本质上看,Mamba 用 SSM 来建模序列依赖,避免了自注意力的二次复杂度瓶颈。

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

这篇文章是英伟达更改Mamba结构然后在视觉任务上的一次尝试。

核心问题

  • transformer 计算瓶颈(n2)
  • 原生Mamba在视觉任务上局限性

创新点

  • 专为视觉设计的Mamba模块:MambaVision Mixer
  • Mamba与Transformer混合新架构
  • 分层设计

架构设计

架构

  1. 在高分辨率图像输入后先用卷积层进行下采样(前两个阶段)
  2. MambaVision blocks 进行深度特征的序列建模,Transformer blocks 恢复丢失的全局上下文并捕获长程空间依赖性。

先用 MambaVision Mixer 提升 token 的全局语义一致性
再用 Transformer 精修空间关系

RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing

这篇论文是讲Mamba模型应用到遥感图像领域,专注于高分辨率遥感图像中的多尺度视觉任务。

RoMA 主要有三点贡献:

  1. 它是首个面向遥感的 Mamba 自监督自回归预训练框架。
  2. 提出了 动态旋转感知机制,应对目标方向任意的问题。
  3. 设计了 多尺度预测目标,解决遥感中目标尺度变化极大的问题。

自回归预训练策略

pipeline
在预训练策略上,RoMA 和 MAE 有本质区别。

  • MAE 只编码部分可见 patch
  • RoMA 用 Mamba 编码 所有 patch
    同时:
  • MAE 是重建被 mask 的区域
  • RoMA 是预测 下一个 token
    这种自回归方式与 Mamba 的顺序建模特性是天然契合的。

自适应旋转编码

rotate
针对遥感目标 方向任意、分布稀疏 的问题,RoMA 提出了自适应旋转编码策略。
核心包括两点:

  • 使用 LBP 算法筛选高价值区域进行旋转增强
  • 显式引入角度嵌入,提供方向先验
    这显著提升了模型对旋转不变性的感知能力。

多尺度预测 & 可扩展性

loss
在多尺度方面,RoMA 不仅计算每个 patch 的 loss,还计算 patch 组合形成的 簇级别 loss。
这让模型同时关注:

  • 小目标
  • 大结构

table
同时实验表明:

  • 数据越多,效果越好
  • 模型越大,效果越好
    具备良好的基础模型扩展性。

下游任务 & 总结

在下游任务上,RoMA 在场景分类、变化检测和语义分割中都取得了优异表现。
特别是在线性探测设置下,小目标效果依然很好,说明预训练特征质量很高。

OOM
在 1248×1248 分辨率下,相对于ViT模型,

  • 显存降低近 79%
  • 推理速度提升 1.56 倍

引用

  1. Mamba 模型
  2. 【SCI论文高能解析】从NLP杀到CV的降维打击!MambaVision首次挑战Transformer霸主地位!

PS: 封面来自这里