点击上方蓝色字关注我们~
全球地下水资源压力日益增大,准确预测地下水位对水资源可持续管理至关重要。传统方法如统计模型受限于数据质量,物理模型(如MODFLOW)则依赖于难以获取的可靠水文地质参数。机器学习方法,特别是LSTM,虽在时间序列预测中表现出色,但其应用仍受限于:(1)水文监测数据的时空不连续性与稀缺性;(2)现有方法未能系统整合水循环的源汇及边界条件,难以将水文物理机制纳入特征构建;(3)模型固有的“黑箱”特性导致可解释性不足。本研究旨在克服地下水水位预测中因数据与水文过程约束导致的精度不足,以及数据驱动模型可解释性有限的双重障碍,为干旱缺水流域的地下水管理提供一个稳健、可解释的预测工具。
数据与方法
研究区:中国西北部典型的干旱内陆河流域——石羊河流域。该流域呈现典型的“山地-绿洲-荒漠”垂直分带结构,中游绿洲是主要农业区,超过85%的地下水开采用于农业灌溉,导致地下水位持续下降,形成“西南深、东北浅”的整体格局(对应原文图1:研究区域示意图)。
集成预测框架:本研究提出一个序贯式的高精度预测框架,核心流程包括:基于卡尔曼滤波的数据插值、基于互信息熵的特征选择、水文过程特征整合、基于TimeGAN的数据增强以及基于可解释机器学习的结果分析(对应原文中方法部分的整体流程图)。
数据处理与特征工程:
候选因子识别:基于流域水文气候特征,选取了降水(PRE)、潜在蒸散发(PET)、地表水资源(SWR)、地下水资源(GWR)、地下水开采量(GWE)以及代表侧向流影响的空间特征K_GTD(通过空间插值获得的目标点周边水位)作为初始影响因子。
数据对齐与插值:使用卡尔曼滤波对GTD和GWE等数据中的缺失值进行插值,实现了多源异构数据的时间对齐,插值结果与观测值高度一致(对应原文表2:卡尔曼滤波插值误差分析;图4:CQ站插值结果示例)。
核心特征选择:采用基于互信息的启发式特征选择方法,筛选出与GTD依赖性强且因子间多重共线性低的特征,构建核心数据集。分析显示所有因子对的归一化互信息值均低于0.5,表明因子间协同作用弱,有利于模型解释(对应原文图5:WW和CQ站的互信息热图)。
小样本数据增强:为应对训练数据量有限的问题,采用时间序列生成对抗网络(TimeGAN) 对2000-2015年的原始样本进行数据增强,生成了具有统计一致性和时间动态特征的合成数据,使训练样本量翻倍。通过统计分析、Bland-Altman分析和主成分分析验证了生成数据与观测数据的高度一致性(对应原文表3:生成与观测数据偏差分析;图6 & 7:WW站数据时间序列对比与PCA分布图)。
GTD空间分布影响的纳入:为表征侧向地下水流的物理影响,引入特征K_GTD。通过对比多种空间插值方法,确定普通克里金法(球状模型) 为最优方法,用于计算目标点的K_GTD值(对应原文表4:插值方法精度评估;图8:不同插值方法得到的GTD空间格局对比)。
模型构建与比较:系统比较了三类模型:(1)基线模型:SVM、BPNN、LSTM;(2)小样本数据增强模型:TG_S、TG_B、TG_L;(3)进一步整合了侧向流特征的TG_L plus模型。使用MAE、RMSE和R²进行性能评估。
模型解释:采用SHAP方法量化各预测特征(PRE, PET, SWR, GWR, GWE, K_GTD)对GTD预测结果的贡献,以增强模型的可解释性。
主要结果
基线模型预测结果:在26个监测站的测试集上,LSTM模型的平均预测性能(R²=0.78)优于BPNN(R²=0.77)和SVM(R²=0.70),证实了LSTM在时间序列水文预测中的优势(对应原文表5:基线模型预测结果)。
数据增强模型预测结果:采用TimeGAN进行数据增强后,所有模型的预测性能均有提升。其中,TG-L模型(TimeGAN-LSTM)表现最佳,平均R²提升至0.88,平均MAE从LSTM的0.83降至0.65(对应原文表6:数据增强模型预测结果)。
TG_L plus模型预测结果:在TG-L模型基础上进一步纳入侧向流特征K_GTD后,构建的TG_L plus模型达到了最优性能。与原始LSTM模型相比,其平均RMSE和MAE分别降低了20.9%和21.7%,平均R²稳定在0.88,且在多个站点取得了接近0.99的极高R²值(对应原文表7:TG_L plus模型预测结果;图9 & 10:多模型性能综合对比及代表性站点预测序列对比)。
预测性能提升的空间特征:TG_L plus模型的性能提升幅度与监测网络密度和地下水动态活动性密切相关。在监测网密集、地下水位波动剧烈的区域(如流域中部),模型性能提升尤为显著;而在监测稀疏或水位稳定的区域,提升相对有限(对应原文图11 & 12:模型性能提升空间分布及与监测密度、水位波动的关系)。
模型驱动机制解释:SHAP分析表明,GWR(地下水资源量)、K_GTD(侧向流影响)和GWE(地下水开采量) 是控制GTD预测的最主导参数。其中,K_GTD在26个站点中的24个站点位列前三位重要特征,并在7个站点位列第一,这从机理上证实了侧向地下水流动在流域地下水动态中的关键作用,也验证了引入该物理特征的必要性(对应原文图13:四个代表性站点的SHAP值分布图)。
讨 论
TG_L plus模型性能的显著提升主要归因于两方面:首先,TimeGAN数据增强有效缓解了数据稀缺条件下的过拟合问题,通过生成保留原始数据关键统计与时间动态的合成序列,增强了模型的泛化能力。其次,从物理机制角度,通过引入空间特征K_GTD,模型成功捕获了被传统数据驱动模型常常忽略的侧向地下水流动的影响。在石羊河流域,强烈的地下水开采形成了显著的水力梯度,使得局部水位变化与周边区域紧密关联。K_GTD的加入使模型能够表征这种空间依赖性,从而更贴合实际水文过程。SHAP分析结果进一步从数据角度证实了K_GTD的重要性。本研究通过耦合数据增强与物理机制约束,为实现数据驱动与过程理解的融合提供了一个有效范例。
结 论
本研究提出了一个新型数据驱动框架,以解决地下水水位预测中常见的数据异构、样本量小、物理原理缺失和模型可解释性差等挑战。主要结论如下:
该框架通过卡尔曼滤波对齐数据、互信息选择关键因子、TimeGAN增强小样本数据,并创新性地引入空间特征K_GTD来表征侧向水流,将水文物理原理无缝集成到数据驱动模型中。
验证表明,该框架能有效扩展训练数据集,并在数据稀缺条件下显著提升模型泛化能力。最终优化的TG_L plus模型在预测精度和鲁棒性上均大幅优于传统方法。
SHAP可解释性分析证实,空间特征K_GTD是控制研究区地下水动态的最关键驱动因子之一,凸显了在预测中考虑侧向水流物理机制的重要性。
该框架通过联合模拟垂向和侧向水文过程,在模拟复杂真实水文环境方面表现出优越性能,为流域尺度的水资源可持续管理与优化配置提供了科学依据。