当前位置：首页>南京>南京大学新作:给扩散模型装上“纹理雷达”,遥感超分不再“乱涂鸦”

南京大学新作:给扩散模型装上“纹理雷达”,遥感超分不再“乱涂鸦”

2026-05-09 12:58:34

🐉 龙哥读论文知识星球来了！
还在为遥感图像超分细节和幻觉头疼？星球里不仅有TexADiff这样的纹理感知新思路，更有海量图像增强、遥感AI、模型架构的深度拆解，帮你快速抓住核心，避开弯路！👇扫码加入「龙哥读论文」知识星球，前沿干货、实用资源一站式拿捏～

龙哥推荐理由：
这篇论文敏锐地抓住了遥感图像超分辨率（RSISR）的一个核心痛点——纹理分布极度不平衡。它没有简单套用自然图像超分的扩散模型，而是创造性地引入了“纹理感知”的概念，通过预测一张纹理密度图来动态指导模型“该用力时用力，该收手时收手”。这种“看菜下碟”的思路非常巧妙，不仅在感知质量上表现出色，还实实在在地提升了语义分割等下游任务的性能，实用性和创新性兼备，值得一读。

原论文信息如下：

论文标题:
Remote Sensing Image Super-Resolution for Imbalanced Textures: A Texture-Aware Diffusion Framework 发表日期:
2026年04月发表单位:
南京大学原文链接:
https://arxiv.org/pdf/2604.13994v1.pdf 开源代码链接:
https://github.com/ZezFuture/TexAdiff

想象一下，你是一个AI画师，任务是给一张模糊的卫星照片“脑补”出高清细节。面对一片广阔的海洋（纹理稀疏）和一艘复杂的轮船（纹理丰富），你会怎么做？

如果“一视同仁”地用力，结果可能就是：平静的海面被你画出了不该存在的波浪纹（幻觉），而轮船的复杂结构却还是模模糊糊（细节丢失）。

这正是当前许多先进的超分辨率模型，尤其是那些基于扩散模型的强大方法，在处理遥感图像时面临的尴尬。它们擅长为自然图像“无中生有”逼真细节，却在遥感这个特殊领域显得有些“水土不服”。

今天龙哥带大家看的这篇来自南京大学的论文，就精准地戳中了这个痛点。它提出的 TexADiff 框架，核心思想非常直观：让模型学会“看菜下碟”——哪里该浓墨重彩，哪里该轻描淡写，先看明白再下笔。下面，我们就来一层层剥开它的设计巧思。

遥感超分的独特挑战：不平衡的纹理分布

我们日常拍的照片，纹理分布相对均匀，一棵树、一张脸，细节到处都是。但上帝视角的遥感图像完全是另一番景象。

你可以把它想象成一张由“极简派”和“细节控”画家共同完成的拼贴画：大块大块平滑的农田、水体、雪原（纹理稀疏区）旁边，紧挨着高度复杂的城市建筑群、交通网络、森林（纹理丰富区）。这种“纹理密度”的分布是极度不平衡且空间聚集的。

之前的扩散模型方法，比如 FaithDiff 或 PASD，直接把这套“均匀发力”的策略从自然图像照搬过来，问题就暴露了。它们没有机制去识别低分辨率图像中不同区域的纹理潜力，导致在简单区域“用力过猛”产生幻觉纹理，在复杂区域又“力道不足”丢失关键细节。

图1：TexADiff方法在纹理丰富的船舶区域生成忠实、精细的细节，同时避免在纹理稀疏的水域产生条纹伪影。

所以，TexADiff 要解决的核心问题就是：如何让扩散模型具备“纹理感知”能力，根据图像不同区域的纹理复杂程度，自适应地调整其“脑补”策略？

TexADiff核心：让扩散模型“看见”纹理

要让模型感知纹理，首先得定义和量化“纹理”。TexADiff 引入了一个核心概念：相对纹理密度图（Relative Texture Density Map， RTDM）。

这玩意儿是干嘛的呢？简单说，它就是一张和最终要生成的高清图一样大小的“热度图”，用来标注每个像素位置需要补充多少高频细节。值高的地方（比如白色）代表“这里纹理很复杂，请大力脑补！”；值低的地方（比如黑色）代表“这里很简单，保持平滑，别瞎画！”

那么，这张“指导图”怎么来呢？这里有个巧妙的“训练”和“推理”的差异设计。

训练时：从“参考答案”中提取真知

训练时我们有低清图（LR）和对应的高清真值图（HR）。一个很直接的思路是：对比LR和HR，哪里差别大（丢失的细节多），哪里就是纹理密集区。但LR图通常有噪声且分辨率不匹配，直接比不准。

论文的做法是：先用一个传统的、追求高PSNR（峰值信噪比）的超分模型对LR图进行初步上采样，得到一个“过平滑版”的预测图（PSR）。这种模型的特点是去噪好，但会在本该有细节的地方也抹平。然后，拿这个PSR图去和真正的HR图对比。

对比用了两个指标：一个是基于局部统计的对比度一致性（CCT），对纹理退化敏感；另一个是空间感知的LPIPS，能捕捉感知上的差异。将这两个指标结合起来，就得到了一个连续的纹理密度估计图 M(i, j)。最后通过一个阈值 τ 将其二值化，并经过一些形态学后处理和降采样，得到最终用于指导模型训练的RTDM。

（公式：计算对比度一致性图 M_cct 和空间LPIPS图 M_sl）

推理时：训练一个“纹理预言家”

到了实际用的时候，我们只有低清图，没有高清真值图来对比了。怎么办？论文训练了一个RTDM预测网络。这个网络以低清图LR和那个“过平滑版”预测图PSR作为输入，通过一个编解码结构（类似U-Net），直接预测出RTDM。

图2：训练时直接从LR-HR对提取的RTDM（左）与推理时模型预测的RTDM（右）对比。

这个预测网络在训练时，就用上面提取的连续值M图作为监督信号（伪标签）。从下表可以看出，这个“预言家”在不同数据集上的预测准确率（与训练时提取的“真值”RTDM相比）在71%到79%之间，提供了一个相当可靠的纹理先验。

表1：RTDM预测网络在不同数据集上的准确率。

三管齐下：RTDM如何引导模型专注细节

拿到了RTDM这张“作战地图”，TexADiff 并没有简单地把它扔给模型了事，而是从三个层面深度整合，让“纹理感知”贯穿生成过程的始终。这“三管齐下”的策略是本文最精彩的部分。

图3：TexADiff整体架构图。训练时，提取的RTDM与LR输入、噪声潜变量通过MiniControlNet结合形成条件信号，同时以纹理感知的方式调制训练目标。推理时，由于没有HR图像，RTDM由预测网络生成。

第一管：作为空间条件，明确告诉模型“重点在哪”

这是最直接的用法。将二值化的RTDM (^M_b)，连同低清图I_LR、以及扩散过程中当前的噪声潜变量^Z_t，一起作为条件输入。模型在去噪的每一步，都能“看到”这张地图，从而在特征层面实现空间上的差异化处理。

第二管：作为损失调制器，在训练中“偏袒”复杂区域

光告诉模型重点在哪还不够，得在“考试”（训练）时就让它对重点区域更上心。论文提出了纹理感知扩散损失（Texture-Aware Diffusion Loss， TADL）。

普通的扩散损失是让模型预测的噪声和真实噪声的误差在全图均匀计算。TADL则给这个误差乘上了一个权重 (1 + α·^M_b)。这意味着，在RTDM标注的纹理丰富区域（^M_b值高），预测错误的“惩罚”会更大。这就迫使模型在训练时，必须花更多精力去学好如何在这些区域生成正确的细节。

第三管：作为采样调度适配器，动态分配“打磨”时间

这招更绝，它利用了扩散模型采样的一个特性：早期去噪步骤主要确定图像的整体布局和结构，而后期步骤才逐渐注入高频细节。

既然纹理稀疏区域不需要那么多细节，何必让它们也“耗”到最后一刻呢？TexADiff 设计了一个纹理感知的动态采样计划。在预定义的一段后期采样步骤中（例如第100到500步），对噪声潜变量进行交替更新：在纹理稀疏区域（由^M_b标识），潜变量每隔一步才更新一次，中间步则保持原样，“跳过”了部分细节注入的过程。

这不仅在直觉上合理，实验也表明，这种有选择地分配采样计算，比简单地增加或减少所有区域的总步数效果更好。

轻量化设计：MiniControlNet高效融合多条件

现在我们有多个条件要输入模型：低清图、RTDM、噪声潜变量，可能还有文本提示。一个简单粗暴的方法是像ControlNet那样，为每个条件都接一个控制分支，但这会极大地增加参数量和计算成本。

TexADiff 借鉴了ControlNext的思路，提出了一个轻量级的MiniControlNet。它将所有条件在一个高效的分支中进行编码和融合。这个分支只有约2000万参数，相对于庞大的去噪U-Net主干（例如SDXL有26亿参数）来说几乎可以忽略不计。

由于MiniControlNet容量有限，为了不让它“带不动”从自然图像预训练来的扩散先验，论文还采用了一个策略：选择性解冻一部分U-Net主干的参数（主要是第一个下采样块和所有的上采样块）进行微调。这既让模型能适应遥感图像的特性，又控制了可训练参数量，提高了效率。

实验结果：感知质量与下游任务双提升

纸上谈兵终觉浅，是骡子是马拉出来遛遛。论文在多个合成与真实遥感数据集上，与GAN方法（Real-ESRGAN）、扩散方法（ResShiftL, PASD, FaithDiff）进行了全面对比。

量化指标：感知质量领先

扩散模型通常不以像素级精度（PSNR/SSIM）见长，它们追求的是感知真实。在下表的主要结果中，TexADiff 在多个数据集的感知度量（LPIPS， DISTS）上 consistently 位列前二。尤其是在更具挑战性的RSC11数据集上，其LPIPS和DISTS指标显著优于其他扩散基线，说明其生成的图像在人眼感知层面更接近真实。

表2：在AID、DOTA-Test、LoveDA-Val和RSC11数据集上的定量对比。最佳结果加粗，次佳结果加下划线。↑表示越高越好，↓表示越低越好。

可视化效果：细节与真实的平衡

定性结果更有说服力。如下图所示，在合成数据上，TexADiff 生成的图像语义准确，结构清晰，没有明显模糊。相比之下，GAN方法（Real-ESRGAN）的纹理有时显得“假”；FaithDiff 在农田等纹理稀疏区域产生了过饱和的、不真实的纹理；ResShiftL 则可能生成偏离真实几何的结构。

图4：合成场景下的图像超分结果（×4）对比。

在真实世界数据上（SIRI-WHU数据集，无Ground Truth），TexADiff 同样表现出色，产生了更清晰、纹理更真实的图像。

图5：真实世界场景下的图像超分结果（×4）对比。

由于现有无参考图像质量评估（NR-IQA）指标多基于自然图像设计，对遥感图像不一定适用，论文还组织了专家用户研究。18位遥感领域专家在20组真实图像结果中评选，TexADiff 获得了46.4%的选票，显著优于其他方法，这直接证明了其输出在专业人士眼中的优越性。

效率与下游任务：实用性的双重验证

尽管增加了RTDM预测和更复杂的条件控制，TexADiff 在效率上依然有竞争力。下表显示，其总参数量与主要竞争对手FaithDiff相当，但可训练参数量少了一半。单张1024x1024图像推理时间约9秒，比FaithDiff的7.8秒略长，但考虑到其带来的显著质量提升，这个开销是完全可以接受的。

表4：模型复杂度与推理效率对比。

更重要的是，高质量的图像重建直接惠及了下游任务。使用TexADiff 生成的超分图像进行语义分割（LoveDA数据集），其整体准确率、平均交并比（mIoU）和平均F1分数（mF1）均超过了其他对比方法。这证明了其生成的细节不仅是“好看”的，更是“有用”的、符合真实地物结构的。

表5：在LoveDA数据集上的语义分割指标对比。

消融实验：验证设计有效性

论文通过系统的消融实验证明了每个组件的贡献。下表6显示，逐步加入RTDM作为条件、TADL损失和纹理感知采样，模型在PSNR和LPIPS上均获得持续提升，实现了像素保真与感知细节的双赢。下表7则验证了使用预测的RTDM的有效性，如果错误地使用“反相”的RTDM（把纹理丰富和稀疏区域搞反），性能会显著下降。

表6：不同策略的消融实验。

表7：不同RTDM掩码效果的消融实验。

展望未来，“纹理感知”或更广义的“内容感知”思路可以延伸到更多场景：

更精细的纹理度量：目前的RTDM是二值的，或许可以探索连续值、多层次的纹理复杂度表示，实现更平滑的过渡控制。

与其他先验结合：纹理密度信息能否与语义分割图、深度图、地物类别标签等其他遥感先验结合，形成更强的多模态引导？

扩展至其他成像模态：医学图像（如CT、MRI）、显微图像、天文图像等同样存在显著的内容异质性，纹理感知的思路或许也能派上用场。

效率的进一步提升：动态采样计划展示了优化计算分配的可能性，未来或许可以设计更智能的自适应采样器，在保证质量的前提下进一步加速推理。

龙迷三问

下面是龙哥对于大家可能的一些问题的解答：

这篇论文解决的核心问题是什么？遥感图像超分辨率中普遍存在的“纹理分布极度不平衡”问题。具体表现为：模型对大片平滑区域（如水体）容易“用力过猛”产生幻觉纹理，同时对复杂细节区域（如城市）又“力道不足”导致细节模糊。论文旨在让超分模型具备“纹理感知”能力，实现自适应的、差异化的细节重建。

RTDM（相对纹理密度图）具体是什么？RTDM是Relative Texture Density Map的缩写，中文即“相对纹理密度图”。它是一张与目标高分辨率图像同尺寸的、通常是二值的掩码图，用于显式地标注图像中每个像素位置所需的高频细节多少。白色区域（值=1）代表“纹理丰富，需要大力重建细节”；黑色区域（值=0）代表“纹理稀疏，应保持平滑，避免过度合成”。它是整个TexADiff框架实现纹理感知的“导航图”。

“纹理感知采样”具体是怎么操作的？这是论文一个非常巧妙的创新点。它利用了扩散模型去噪过程中“早期定布局，后期加细节”的特性。在预定义的一段后期采样步骤中（比如第100到500步），对噪声潜变量进行交替更新：在RTDM标识为纹理稀疏的区域，潜变量每隔一步（如奇数步）才用模型预测结果更新，在中间的步骤（如偶数步）则保持原值不变。这就相当于让这些区域“跳过”了部分细节注入的过程，既节约了计算，又避免了因过度“打磨”而产生幻觉。

如果你还有哪些想要了解的，欢迎在评论区留言或者讨论~