当前位置：首页>南京>南京师范大学提出SAMYOLO:用超分辨率和 Vision Mamba 看清遥感小目标

南京师范大学提出SAMYOLO:用超分辨率和 Vision Mamba 看清遥感小目标

2026-07-01 08:49:14

论文标题：SAMYOLO: Integrating Super-Resolution and Vision Mamba for Enhanced Small Object Detection作者：Wanjun Wang、Mingyong Pang、Wenxuan Zhou、Chunyan Ma作者单位：南京师范大学、东南大学、河海大学发表信息：IEEE JSTARS，2026DOI：10.1109/JSTARS.2026.3653498

SAMYOLO：先把小目标看清，再把上下文连起来

遥感小目标检测，难点不只是“目标小”。

真正麻烦的是：一辆车、一艘船或一架远处的飞机，可能只剩十几个像素。特征图连续下采样后，边缘和纹理很快消失。

目标一旦密集排列，背景又很复杂，漏检、错检和类别混淆就会一起出现。

SAMYOLO把问题拆成两步：先利用超分辨率恢复局部细节；再用 Vision Mamba 建立更大范围的空间联系。一个负责“看清”，一个负责“看全”。

一图流：SAMYOLO 用超分辨率与 Vision Mamba 增强遥感小目标检测

完整路线：RGB 与 SR 双流协同

左侧有两路输入。上路是原始 RGB 图像，下路是经过 DEDD 生成的超分辨率图像，也就是 SR RGB。两路图像分别进入骨干网络，并在多个尺度通过 FM 模块交换信息。

图中的 P3、P4、P5-1 和 P5-2 对应不同分辨率的特征。P3 更适合保留小目标的空间细节，较深层的 P5 则包含更强的语义信息。SAMYOLO 不是在最后才把两路结果拼起来，而是在骨干网络内部进行多尺度融合。

实线表示训练和推理都会经过的路径。虚线主要服务于训练阶段的超分辨率与辅助约束。最终融合后的特征进入 Neck 和 Head，输出检测结果。

DEDD 怎样补回细节？

超分辨率容易带来一个问题：放大的图更清晰了，但新增纹理可能只是模型“猜”出来的。

论文使用 DEDD，也就是基于视差估计与域扩散的超分辨率模块。它希望恢复结构细节，同时减少不可靠纹理对检测的干扰。

图中包含三个过程：

1. 前向扩散逐步加入扰动，构造不同状态；

2. 域扩散建立可用于修正的中间空间；

3. 反向扩散再从噪声状态恢复更干净的特征。

LSTM Block 接收这些阶段的信息，让前向与反向过程发生交互。

模型在受约束的空间里重新估计细节，而不是进行机械插值。训练时，论文保留了域扩散部分，并把它嵌入 RGB 与 SR 分支的联合训练中。

DEDD 的价值不只是生成一张“看起来更锐”的图。它提供了另一套高分辨率特征，让微小车辆的边缘、飞机轮廓和密集目标间隔更容易保留下来。

第二步：FM 模块怎样融合两路信息？

有了 RGB 和 SR，并不等于融合自然有效。

RGB 更稳定，保留原始结构。SR 更强调细节，但也可能包含重建误差。直接相加或拼接，很难处理两种模态之间的差异。

FM 模块先把 HR 特征下采样，使它与 LR 特征的空间尺寸和通道数对齐。随后，两路特征被按通道拆分，并通过 Channel Swapping 交叉交换。

论文用下面一组公式表示浅层通道交换：

F_sLR_i 和 F_sHR_i 分别是第 i 个尺度的浅层低分辨率与高分辨率特征，CS 表示通道交换。输出的 F_sFLR_i 与 F_sFHR_i 都同时包含两路信息，但仍保留各自的主分支方向。

通道交换让两路特征在浅层先混合一部分信息，而不是用 SR 特征直接覆盖 RGB。交换后的特征分别进入 FE 和 EM：FE 偏向局部特征提取，EM 负责进一步增强与跨模态融合。

Vision Mamba 的作用

Mamba 的核心落在 SS2D，也就是二维选择性扫描。

上方主分支经过 LayerNorm、线性层、深度可分离卷积和 SiLU，再进入 SS2D。SS2D 会沿上下、下上、左右、右左四个方向展开图像特征，分别建模，再合并回原来的二维布局。这样做的意义是：一个局部小块不再只依赖附近卷积核。

比如机场跑道边的一小段亮色纹理，单看局部很难判断；结合周围停机坪、道路和其他飞机后，语义会更明确。

SS2D 用较适合长序列的状态空间建模，把这类远距离关系带回小目标特征中。

旁路经过线性层和 SiLU，与主分支做逐元素乘法，形成门控；最后再通过残差连接保留输入信息。它同时照顾局部纹理、全局依赖和训练稳定性。

SS2D 处理后的 HR 特征通过拼接形成输出：

第一项保留线性映射后的浅层融合信息，第二项加入 SS2D 建模得到的二维长距离关系，Concat 将两部分重新合并。LR 分支执行相同过程，因此两路输出都同时包含局部细节与全局上下文。

论文还设计了 EM 增强融合结构，让 LR 与 HR 的隐藏特征继续相互作用。Mamba 在这里用于调度两路视觉特征之间的信息，并不承担独立分类任务。

损失函数也在配合 SR

完整训练目标包含目标存在、定位、分类和额外的超分辨率约束。

L_obj、L_loc 和 L_cls 分别约束目标存在性、边界框定位和类别预测，L_s 约束超分辨率结果。四个权重 lambda_1 至 lambda_4 用于平衡检测任务与图像重建任务，避免某一分支主导联合训练。

超分辨率约束写为：

其中，S 是超分辨率输出，I 是对应输入图像。该项通过像素级二范数限制重建偏差，使 SR 分支提供更稳定的细节特征。

前三项负责检测，额外的 L_s 约束负责重建分支。作者还引入基于 Inner-IoU 的定位优化，通过辅助框改善边界框回归，尤其关注小目标对位置偏差更敏感的问题。

这意味着 SAMYOLO 的提升不是单一模块带来的。

输入、特征融合和训练目标，是一起设计的。

实验结果：

以 YOLOv8s 为基线，多模态 RGB+SR 输入将 mAP50 从 83.4% 提升到 84.8%。在 84.8% 的双流基线上，只加入 SR 模块达到 86.2%，只加入 FM 达到 87.5%，两者同时使用达到 89.2%。

FM 单独带来的增益高于 SR，两者组合时达到最高结果。实验结果表明，细节重建与全局特征融合具有互补作用。

气泡图的纵轴是 mAP50，横轴是 GFLOPs，圆圈大小表示参数量。红色 SAMYOLO 位于最高的 mAP50 区域，同时也处在最右侧；完整 YOLOv8s 版本达到 67.6M 参数和 101.4 GFLOPs，而原始 YOLOv8s 是 11.2M 参数和 19.9 GFLOPs。

SAMYOLO追求的是精度优先，而不是轻量化。

定性结果：

图中各行依次比较 Ground Truth、YOLOv5s、YOLOv8s、SuperYOLO、YOLO-SSP、MIANet 和 SAMYOLO，六列对应不同遥感场景。

在密集停车区、码头船只和车辆紧邻的区域，基础模型容易漏掉边缘目标，或把相邻小目标混在一起。SAMYOLO 在多组场景中给出了更完整的检测框，还识别出部分未被原始标签覆盖的小目标。

检测到“标签之外的目标”可能说明模型更敏感，也可能来自数据标注不完整。判断实际效果时，仍需结合 mAP、误检率和真实部署数据。

方法总结

论文把“恢复细节”和“理解上下文”放进同一个端到端框架。

DEDD 让小目标有更多可辨认信息。FM 通过通道交换连接 RGB 与 SR。SS2D 再用四向扫描补充全局关系。三者沿着一条完整的信息流协同，而不是孤立地堆叠模块。

因此，SAMYOLO 更适合遥感监测、航空影像分析等漏检成本较高、算力相对充足的场景。若要部署到边缘设备，下一步重点应是轻量化 SR、压缩 FM，以及减少双分支推理开销。

免责声明：本文仅用于学术交流与技术学习，内容基于公开论文及相关资料整理。如有理解偏差、内容错误，或涉及版权、侵权等问题，欢迎联系作者更正或删除。

搜一搜关注作者

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

南京师范大学提出SAMYOLO:用超分辨率和 Vision Mamba 看清遥感小目标

SAMYOLO：先把小目标看清，再把上下文连起来

完整路线：RGB 与 SR 双流协同

DEDD 怎样补回细节？

第二步：FM 模块怎样融合两路信息？

Vision Mamba 的作用

损失函数也在配合 SR

实验结果：

定性结果：

方法总结

最新文章

热门文章

随机文章

南京师范大学提出SAMYOLO:用超分辨率和 Vision Mamba 看清遥感小目标

SAMYOLO：先把小目标看清，再把上下文连起来

完整路线：RGB 与 SR 双流协同

DEDD 怎样补回细节？

第二步：FM 模块怎样融合两路信息？

Vision Mamba 的作用

损失函数也在配合 SR

实验结果：

定性结果：

方法总结

家人们!!凤凰传奇南京站二开时间确定!

江苏高校招聘,南京理工大学2026年公开招聘公告

最新文章

热门文章

随机文章