当前位置：首页>南京>最新论文 | ScaleEarth: 南京大学/ETH等提出自适应不同分辨率尺度的遥感视觉语言模型

最新论文 | ScaleEarth: 南京大学/ETH等提出自适应不同分辨率尺度的遥感视觉语言模型

2026-05-29 16:55:39

●●●RS DL●●●

题目：Beyond GSD-as-Token: Continuous Scale Conditioning for Remote Sensing VLMs

论文： https://arxiv.org/abs/2605.07562

数据：GeoScale-VQA（自建，1.5M样本）；RSVQA-HR/LR/xBEN；GeoLLaVA-8K；PatternNet；MtSCCD

年份：2026

单位：南京大学、苏黎世联邦理工学院、亚琛工业大学、南京邮电大学

简单来说，这篇论文想解决一个遥感 AI 里非常关键的问题：遥感影像不是普通照片。它有真实的物理尺度。同一个地物，在不同分辨率下看到的东西完全不一样。比如一座桥：在 0.1 m 分辨率下，模型可能看到车道、车辆、桥面细节；在 10 m 分辨率下，它可能只是一条模糊的线状结构。所以遥感大模型不能只学“图像和文字的对应关系”，还要知道：在什么尺度下，什么视觉证据才是可靠的。

创新点

提出 CS-HLoRA，将地面采样距离（GSD）作为连续条件变量，通过可微分门控机制动态调制 LoRA 低秩子空间，实现随物理分辨率自适应的参数路由
提出 SSE-U 异方差尺度估计头，仅从视觉特征预测 GSD 及其不确定性，支持无传感器元数据的部署场景
构建 GeoScale-VQA，一个包含 150 万问答对的分尺度遥感视觉问答语料库，与 CS-HLoRA 的门控机制形成方法-数据闭环
通过 GSD 欺骗实验和 τ 解耦探针，从机制层面验证了连续物理尺度条件化相比离散桶路由的本质优势

背景

遥感视觉语言模型（RS-VLMs）面临一个根本性挑战：同一地理目标在跨越多个数量级的地面采样距离（GSD）下呈现出截然不同的视觉特征，从亚分米级航空影像到十米级卫星产品均有涉及。然而，现有 RS-VLMs 要么完全忽略 GSD，要么将其作为离散文本令牌注入提示，这两种方式都无法在参数层面对物理分辨率产生响应，且在元数据缺失时失效。

随着遥感基准测试逐渐向超高分辨率、多传感器异构场景演进（如 XLRS-Bench 包含最高 10000×10000 像素的影像），单一尺度偏置带来的性能退化愈发显著。现有方法缺乏将 GSD 作为连续物理变量来驱动模型内部计算路径的能力，这一盲区正是本文的出发点。

数据

GeoScale-VQA（自建语料库）

整体规模
包含 150 万问答对，GSD 跨度为 0.06–10 m，覆盖六大洲
分层结构
按 CS-HLoRA 锚点分为高分辨率层（GSD < 0.2 m，强调目标细节）、中分辨率层（0.2–1.0 m，侧重布局与结构）和低分辨率层（≥1.0 m，聚焦景观语义）
已有数据的 GSD 注入
对 RSVQA-HR/LR、RSVQA-xBEN、GeoLLaVA-8K 等现有语料库，通过元数据解析→传感器查询→GSD 赋值三步流程恢复每样本的物理尺度标注
新生成数据
基于 PatternNet（38类，GSD 0.062–4.7 m）和 MtSCCD（固定 GSD 1.01 m 的中国城市场景），使用 Qwen3-VL-32B 生成识别、尺度特异性和判别性三类问答对
质量过滤
使用 Claude Opus 4.6 作为零样本评判模型，从事实一致性、答案可验证性、尺度-GSD 对齐、非平凡性四个维度进行二阶段筛选

评测基准数据集

XLRS-Bench
面向超高分辨率遥感影像，平均尺寸约 8500×8500 像素，涵盖感知与推理共 16 个子任务
OmniEarth-Bench
覆盖大气、岩石、海洋、冰冻圈、生物圈、人类活动六大地球系统圈层及其交叉场景，数据来源于 33 个原生数据源，包含 109 个专家策划任务

方法

ScaleEarth 两阶段训练框架

第一阶段：遥感领域全参数监督微调

基础模型 Qwen3-VL-8B 主要在自然图像上预训练，在俯视角影像上存在系统性偏差
使用 RS-GPT4V 语料库（约 95.7 万样本，涵盖描述、VQA、场景理解、多轮推理）对视觉编码器、投影层和语言模型进行全参数更新
本阶段不引入任何 GSD 条件化机制，目标仅为获得遥感对齐的骨干网络

第二阶段：CS-HLoRA 与 SSE-U 联合训练

CS-HLoRA：连续尺度条件化低秩自适应

在标准 LoRA 的下投影矩阵与上投影矩阵之间插入一个以 GSD 为条件的对角门控矩阵
门控函数为 sigmoid 形式，以 log10(GSD) 为输入，每个秩维度拥有独立可学习的激活阈值
秩维度按物理意义初始化为三层：目标级（秩 0–10，高/中分辨率激活）、结构级（秩 11–31，延伸至低分辨率）、语义级（秩 32–63，全尺度保持激活）
阈值可训练，允许模型从数据中调整边界，同时保留可解释的物理初始化

SSE-U：异方差尺度估计头

以 ViT 均值池化特征为输入，通过共享主干加两个线性头分别预测 log-GSD 的条件均值和输入相关方差
采用高斯负对数似然损失训练，对尺度线索强的样本输出低不确定性，对尺度模糊样本输出高不确定性
仅在具有精确 GSD 标注的样本子集上参与损失计算

有效尺度与联合目标

针对精确、范围、未知三类 GSD 标注状态，统一通过"有效尺度"规则为 CS-HLoRA 门控提供输入
总损失为 VQA 自回归损失与 SSE-U 负对数似然的加权和，GSD 损失权重在训练前 10% 阶段较高以预热尺度估计头

推理阶段：尺度条件化解码

按优先级三路分支解析有效 GSD：优先使用调用方提供的元数据，其次在 SSE-U 置信度满足阈值时使用预测值，否则回退到结构-语义边界处的中性锚点（1.0 m）
ViT 特征仅编码一次，门控评估和尺度预测复用相同特征，额外推理开销低于 2%

结果与分析

ScaleEarth 在 XLRS-Bench 和 OmniEarth-Bench 两个基准上均取得当前最优性能，以 8B 参数量的骨干网络超越了参数规模远大于自身的开源与闭源模型。消融实验和 GSD 欺骗测试从定量层面证明，性能提升来源于连续物理尺度条件化本身，而非仅仅依赖于额外的适配器容量或文本级 GSD 注入。

END

以上内容来源于遥感与深度学习，为学术分享，仅供科研交流，如有错误/侵权等，请联系修改或删除。联系方式：Novel_2020

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

最新论文 | ScaleEarth: 南京大学/ETH等提出自适应不同分辨率尺度的遥感视觉语言模型

●●●RS DL●●●

创新点

背景