题目:A lake salinity dataset produced via microwave and optical imageries
(通过微波和光学成像生成的湖泊盐度数据集)
期刊:Earth System Science Data
作者:Mingming Deng, Ronghua Ma, Lixin Wang, Minqi Hu, Kun Xue, Junfeng Xiong
发表日期:2026年2月4日
DOI:10.5194/essd-18-903-2026
湖泊盐度是表征水体物理与生物地球化学过程的重要参数,也是评估湖泊水质的基本指标。然而,内陆水体盐度估算一直面临挑战,因为被动微波盐度卫星空间分辨率不足,而光学卫星无法直接测量盐度。为此,我们构建了一个结合合成孔径雷达与多光谱仪器数据的湖泊盐度估算框架。该框架主要包括三步:第一步,基于Elfouhaily谱、介电常数模型和小扰动方法,构建SAR数据的盐度机理模型;第二步,利用准同步实测盐度数据、MSI与SAR影像,开发四种机器学习盐度算法;第三步,通过广义可加模型耦合机理模型与机器学习模型,构建集成模型。该集成算法在内蒙古-新疆湖泊区的11个湖泊中表现优异(N=84,RMSE=0.60 ppt,MAPE=2.3%),优于单一卫星微波机理或机器学习模型。在此基础上,我们重建了2016–2024年湖泊盐度数据集,并进行独立验证(N=65,R²=0.97,RMSE=0.89 ppt),像元级直方图验证确认了数据集质量,在不同湖泊类型中未发现显著系统偏差。重建结果揭示了盐度从近岸向中心平滑过渡的空间格局,并发现岱海与达里诺尔盐度显著上升趋势。本数据集及其开发框架将有助于探究内陆湖泊盐度状况与变化趋势,为盐渍化防治与全球湖泊盐度收支研究提供科学依据与方法支持。
湖泊作为地表水资源的重要储存库,是全球水循环和区域气候的指示器与调节器。盐度(总溶解盐浓度)作为表征湖泊水体物理化学性质的关键参数,控制着湖泊生态系统内的生物、物理和化学过程,包括微生物群落结构、物种丰度、水体垂直混合以及氮转化等。近年来,气候变化导致湖泊水文系统发生改变,引发水体盐渍化,削弱了湖泊生态系统的稳定性,特别是在干旱和半干旱地区。因此,对水体盐度进行频繁且有效的监测对于盐渍化防治和可持续发展至关重要。
然而,现有的盐度监测手段存在局限性。传统的实地测量密度低,无法揭示盐度的空间格局和长期趋势。现有的内陆湖泊盐度数据集(如针对青藏高原的数据集)往往缺乏高空间细节(分辨率大于1km)且不针对干旱地区的多类型湖泊。卫星遥感虽然能解决数据稀疏性问题,但针对海洋设计的被动微波传感器空间分辨率过粗(40-150 km),不适用于小尺度的内陆湖泊。主动微波传感器(如Sentinel-1 SAR)具有高分辨率(10 m),其后向散射系数受表面粗糙度和介电常数(受盐度影响)共同控制,但在内陆湖泊中,复杂的离子组成和光学复杂水体(如悬浮矿物和浮游植物)给基于机理的反演带来了不确定性。光学数据虽有高时空分辨率,但通常依赖间接示踪(如CDOM或透明度),易受误差影响。虽然机器学习能处理非线性关系,但仅依赖光学数据在机理上存在不足。因此,结合微波的物理机制优势与光学的高分辨率优势,构建微波-光学协同反演框架,对于内陆湖泊盐度的区域性和长期监测具有重要意义。
本研究构建的堆叠(Stacking)集成模型在精度上显著优于单一的机器学习模型和微波机理模型。测试结果显示,集成模型表现最佳(RMSE=0.60,MAPE=2.3),且预测值沿1:1线分布一致,无显著的高估或低估。五折交叉验证表明模型具有良好的泛化能力和稳定性(RMSE=0.38)。相比之下,单一机器学习模型中XGB表现最好,而随机森林(RFR)表现最差;微波机理模型的表现优于所有单一机器学习模型的交叉验证结果,证明了引入物理机制对提升整体性能的重要性。SHAP值分析显示,湖泊面积、入射角(theta)和VV极化后向散射是模型中最重要的特征变量,反映了水体体积及表面散射机制对盐度反演的关键作用。
在单景影像分析中,堆叠模型生成的盐度图在空间上表现出从近岸到湖心的平滑过渡,有效修正了单一模型在近岸水域因“邻近效应”产生的异常值,并在河流入湖口等复杂水域通过结合机器学习的优势弥补了机理模型的不足。与以往单卫星算法的对比显示,堆叠模型在全区域范围内具有更高且更稳定的精度,特别是在盐度大于3 ppt的寡盐湖泊中,机理模型的引入显著提升了精度。基于独立数据集(Dataset 2)的验证进一步证实了算法的科学有效性(R2=0.97,RMSE=0.89),除个别湖泊因水草或复杂河口影响略有偏差外,整体吻合度极高。像素级直方图统计验证显示,生成的盐度数据集中异常值极少,分布模式与实测数据一致,确认了数据集的高质量。
长期时空分析揭示了蒙新湖区湖泊盐度的显著变化趋势。岱海(0.48 ppt yr-1)和达里诺尔湖(0.22ppt yr-1)表现出显著的盐度增加趋势,主要由湖泊面积萎缩(水体体积减少)主导,反映了气候变暖加剧了内陆湖泊的盐渍化进程。季节性分析表明,部分湖泊(如乌伦古湖、红碱淖等)夏季和秋季盐度高于春季,这与夏季强烈的蒸发作用有关。该数据集为当地政策制定者提供了高分辨率的科学依据,支持如岱海生态补水等水资源管理措施的实施。
本研究以蒙新湖区(IMXL)的11个典型干旱/半干旱内陆湖泊为研究对象,涵盖淡水、微咸水及寡盐水等多种类型。所使用的数据源主要包括:Sentinel-1 C波段SAR数据(提供VV/VH极化及入射角,用于提取物理散射特征)、Sentinel-2 MSI多光谱数据(用于提取光学反射率特征)、Landsat-8 TIRS数据(用于反演湖表温度LST)以及ERA5再分析气象数据(风速等辅助数据)。此外,研究收集了2017年至2024年间322个实地调查样本,分为用于模型训练/测试/交叉验证的数据集一(Dataset 1)和用于独立时空验证的数据集二(Dataset 2)。
图9. 数据集覆盖的采样湖泊空间分布、入湖河流及子流域
研究提出了一种全新的“微波-光学”融合盐度估算框架,包含三个核心模块。首先是构建盐度机理模型:针对内陆湖泊调整了Elfouhaily海浪谱参数(考虑有限风距),结合小微扰(SPM)模型模拟后向散射,并利用Klein & Swift (K&S) 介电常数模型通过迭代法反演盐度。其次是开发机器学习模型:筛选出包括光学波段反射率、光谱指数(如NDWI、Alpha角)、SAR特征(VV、Theta、粗糙度参数)及环境因子(LST、湖泊面积)在内的18个特征,训练XGB、RFR、DNN和CNN四种模型。最后是构建集成(Stacking)模型:利用广义加性模型(GAM)作为元学习器,将机理模型的输出与四种机器学习模型的输出进行非线性耦合。GAM模型能够有效整合机理模型的物理先验知识与机器学习的数据挖掘能力,并通过平滑函数处理非线性关系,从而实现高精度的盐度估算。
图10. 基于堆叠盐度模型的湖泊水体盐度估算新框架
尽管本研究成功构建了高精度的内陆湖泊盐度数据集,但仍存在进一步改进的空间。首先,针对河流入湖口等悬浮颗粒物浓度较高的区域,目前模型可能存在低估现象(约占5%像素),未来计划通过整合Sentinel-2的短波红外(SWIR)波段数据来修正悬浮物带来的干扰。其次,由于不同传感器(如TIRS与Sentinel系列)过境时间不完全同步(3天窗口),可能引入空间异质性误差,后续工作将考虑结合Sentinel-3 SLSTR数据进行更精准的温度校正。
此外,受限于训练数据集的盐度梯度(目前主要<35 ppt),该算法在多盐(35-50 g/L)及超盐(>50 g/L)湖泊中的适用性尚待验证,未来需通过补充高盐度样本来扩展模型的适用边界。同时,现有的介电常数模型(K&S)主要针对海水设计,对于离子组成复杂的内陆湖泊可能引入约5%的不确定性,未来研究将致力于开发针对特定湖泊类型的介电常数模型以降低这一误差。最后,为支持跨界水资源管理,计划将数据集覆盖范围扩展至中亚湖泊,并持续进行年度更新,以保持长时间序列数据的连续性。
https://doi.org/10.5281/zenodo.18371515
引用
Deng, M., Ma, R., Wang, L., Hu, M., Xue, K., and Xiong, J.: A lake salinity dataset produced via microwave and optical imageries, Earth Syst. Sci. Data, 18, 903–925, https://doi.org/10.5194/essd-18-903-2026, 2026.
注:本文为未经编辑的预印版本,最终内容以正式出版为准。
本文由【生态风险与韧性前沿】发布,欢迎转发分享,转载请注明出处。
关注我们,共同探索生态风险与韧性提升的发展之路。