●●●RS DL●●●

题目:Beyond GSD-as-Token: Continuous Scale Conditioning for Remote Sensing VLMs
论文: https://arxiv.org/abs/2605.07562
数据:GeoScale-VQA(自建,1.5M样本);RSVQA-HR/LR/xBEN;GeoLLaVA-8K;PatternNet;MtSCCD
年份:2026
单位:南京大学、苏黎世联邦理工学院、亚琛工业大学、南京邮电大学
简单来说,这篇论文想解决一个遥感 AI 里非常关键的问题:遥感影像不是普通照片。它有真实的物理尺度。同一个地物,在不同分辨率下看到的东西完全不一样。比如一座桥:在 0.1 m 分辨率下,模型可能看到车道、车辆、桥面细节;在 10 m 分辨率下,它可能只是一条模糊的线状结构。所以遥感大模型不能只学“图像和文字的对应关系”,还要知道:在什么尺度下,什么视觉证据才是可靠的。

创新点
- 提出 CS-HLoRA,将地面采样距离(GSD)作为连续条件变量,通过可微分门控机制动态调制 LoRA 低秩子空间,实现随物理分辨率自适应的参数路由
- 提出 SSE-U 异方差尺度估计头,仅从视觉特征预测 GSD 及其不确定性,支持无传感器元数据的部署场景
- 构建 GeoScale-VQA,一个包含 150 万问答对的分尺度遥感视觉问答语料库,与 CS-HLoRA 的门控机制形成方法-数据闭环
- 通过 GSD 欺骗实验和 τ 解耦探针,从机制层面验证了连续物理尺度条件化相比离散桶路由的本质优势
背景
遥感视觉语言模型(RS-VLMs)面临一个根本性挑战:同一地理目标在跨越多个数量级的地面采样距离(GSD)下呈现出截然不同的视觉特征,从亚分米级航空影像到十米级卫星产品均有涉及。然而,现有 RS-VLMs 要么完全忽略 GSD,要么将其作为离散文本令牌注入提示,这两种方式都无法在参数层面对物理分辨率产生响应,且在元数据缺失时失效。
随着遥感基准测试逐渐向超高分辨率、多传感器异构场景演进(如 XLRS-Bench 包含最高 10000×10000 像素的影像),单一尺度偏置带来的性能退化愈发显著。现有方法缺乏将 GSD 作为连续物理变量来驱动模型内部计算路径的能力,这一盲区正是本文的出发点。
数据
GeoScale-VQA(自建语料库)
- 整体规模包含 150 万问答对,GSD 跨度为 0.06–10 m,覆盖六大洲
- 分层结构按 CS-HLoRA 锚点分为高分辨率层(GSD < 0.2 m,强调目标细节)、中分辨率层(0.2–1.0 m,侧重布局与结构)和低分辨率层(≥1.0 m,聚焦景观语义)
- 已有数据的 GSD 注入对 RSVQA-HR/LR、RSVQA-xBEN、GeoLLaVA-8K 等现有语料库,通过元数据解析→传感器查询→GSD 赋值三步流程恢复每样本的物理尺度标注
- 新生成数据基于 PatternNet(38类,GSD 0.062–4.7 m)和 MtSCCD(固定 GSD 1.01 m 的中国城市场景),使用 Qwen3-VL-32B 生成识别、尺度特异性和判别性三类问答对
- 质量过滤使用 Claude Opus 4.6 作为零样本评判模型,从事实一致性、答案可验证性、尺度-GSD 对齐、非平凡性四个维度进行二阶段筛选


评测基准数据集
- XLRS-Bench面向超高分辨率遥感影像,平均尺寸约 8500×8500 像素,涵盖感知与推理共 16 个子任务
- OmniEarth-Bench覆盖大气、岩石、海洋、冰冻圈、生物圈、人类活动六大地球系统圈层及其交叉场景,数据来源于 33 个原生数据源,包含 109 个专家策划任务
方法
ScaleEarth 两阶段训练框架

第一阶段:遥感领域全参数监督微调
- 基础模型 Qwen3-VL-8B 主要在自然图像上预训练,在俯视角影像上存在系统性偏差
- 使用 RS-GPT4V 语料库(约 95.7 万样本,涵盖描述、VQA、场景理解、多轮推理)对视觉编码器、投影层和语言模型进行全参数更新
- 本阶段不引入任何 GSD 条件化机制,目标仅为获得遥感对齐的骨干网络
第二阶段:CS-HLoRA 与 SSE-U 联合训练
CS-HLoRA:连续尺度条件化低秩自适应
- 在标准 LoRA 的下投影矩阵与上投影矩阵之间插入一个以 GSD 为条件的对角门控矩阵
- 门控函数为 sigmoid 形式,以 log10(GSD) 为输入,每个秩维度拥有独立可学习的激活阈值
- 秩维度按物理意义初始化为三层:目标级(秩 0–10,高/中分辨率激活)、结构级(秩 11–31,延伸至低分辨率)、语义级(秩 32–63,全尺度保持激活)
- 阈值可训练,允许模型从数据中调整边界,同时保留可解释的物理初始化

SSE-U:异方差尺度估计头
- 以 ViT 均值池化特征为输入,通过共享主干加两个线性头分别预测 log-GSD 的条件均值和输入相关方差
- 采用高斯负对数似然损失训练,对尺度线索强的样本输出低不确定性,对尺度模糊样本输出高不确定性
- 仅在具有精确 GSD 标注的样本子集上参与损失计算
有效尺度与联合目标
- 针对精确、范围、未知三类 GSD 标注状态,统一通过"有效尺度"规则为 CS-HLoRA 门控提供输入
- 总损失为 VQA 自回归损失与 SSE-U 负对数似然的加权和,GSD 损失权重在训练前 10% 阶段较高以预热尺度估计头
推理阶段:尺度条件化解码
- 按优先级三路分支解析有效 GSD:优先使用调用方提供的元数据,其次在 SSE-U 置信度满足阈值时使用预测值,否则回退到结构-语义边界处的中性锚点(1.0 m)
- ViT 特征仅编码一次,门控评估和尺度预测复用相同特征,额外推理开销低于 2%
结果与分析
ScaleEarth 在 XLRS-Bench 和 OmniEarth-Bench 两个基准上均取得当前最优性能,以 8B 参数量的骨干网络超越了参数规模远大于自身的开源与闭源模型。消融实验和 GSD 欺骗测试从定量层面证明,性能提升来源于连续物理尺度条件化本身,而非仅仅依赖于额外的适配器容量或文本级 GSD 注入。




