📌 摘要
地下水模型是污染修复与风险评估的重要工具,但真实地下水系统往往被简化表示,结构误差因此普遍存在,并会导致模型预测出现系统性偏差。传统贝叶斯数据驱动校正方法虽然能够修正这类偏差,但其误差校正模型通常缺乏明确的物理机制,因而可能产生违背基本物理规律的预测结果,例如不满足质量守恒。针对这一问题,本文提出了一种耦合物理约束的通用数据驱动方法,将物理约束显式纳入误差校正模型的构建过程中。作者通过构建新的似然形式,使模型在拟合观测数据的同时满足物理约束。文章在两个案例中验证了该方法的有效性,分别是实验室砂柱中荧蒽运移模拟,以及三维地下水污染物运移合成模拟,两者均以质量守恒为物理约束。结果表明,不带物理约束的数据驱动方法会产生明显违背物理规律的预测,且预测表现仅为中等;相比之下,耦合物理约束的方法显著提高了预测精度,并大幅降低了质量平衡误差。通过在参数识别过程中施加约束,作者还发现该方法能够缓解参数过拟合,并有效缩小预测不确定性。总体而言,该方法对复杂结构误差具有较强适应性,可提升实际地下水污染定量预测的可靠性。
🧭 引言
文章开篇指出,近年来全球地下水环境问题持续加剧,地下水污染已经对生态系统和人体健康构成显著威胁,因此,提高地下水污染运移模型的预测能力,对污染控制和风险评估具有直接现实意义。可是,地下水系统本身高度复杂,而可获得的水文地质信息又通常十分有限,导致实际建模时不得不对真实系统进行简化。这种简化不仅会造成参数误差,还会造成结构误差,进而带来随机误差与系统性偏差并存的问题。如果在参数识别阶段不显式考虑结构误差,模型参数还可能被“过度校准”,即通过不合理调参来补偿结构缺陷,最终低估预测偏差和不确定性。
围绕结构误差,作者先回顾了多模型方法,认为这类方法能够从模型集合角度描述结构不确定性,但依赖合理的模型空间设定以及准确的先验、后验权重估计,实际应用难度较大。随后,作者转向数据驱动方法,指出这类方法通过统计模型直接校正结构偏差,近年来已广泛用于地下水问题中,尤其是基于高斯过程回归的方案,在提升预测表现方面已有成功应用。问题在于,这些机器学习误差校正模型往往缺乏物理机制,容易出现质量不守恒、浓度为负等不合理结果。
接着,文章系统梳理了物理信息机器学习的发展。作者肯定了这类方法在引入质量守恒、里查兹方程、对流弥散方程以及边界条件等方面的优势,但同时指出,现有方法往往架构复杂、超参数调节繁琐、对训练数据和领域知识依赖较强,且不少方案只能处理特定形式的约束,例如局限于线性约束。更关键的是,这些方法大多用于代理模型构建,默认原始物理模型本身是足够合理的,因此并未真正把“结构误差”当成一个独立对象来建模。即使加入物理约束,约束的也多是误差模型本身,而不是最终修正后的完整预测结果,因此仍难以保证整体预测的物理一致性。
在此基础上,作者提出本文的核心动机:开发一种通用的数据驱动结构误差校正框架,使其既能保留统计校正的灵活性,又能在预测层面满足关键物理规律。本文选择高斯过程回归作为误差模型,并通过新的联合似然构造,把“拟合观测数据”和“满足物理约束”两个目标统一到同一参数识别框架中,再通过两个地下水污染运移案例验证其有效性。
🧪 材料与方法
本文的方法框架由三部分组成:地下水物理模型、用于表征结构误差的高斯过程回归模型,以及显式引入的物理约束。作者将最终预测看作“物理模型结果 + 结构误差校正 + 观测误差”的叠加,然后在贝叶斯框架下联合识别物理模型参数与高斯过程模型的超参数。与传统做法不同,本文不是只用观测拟合来进行参数识别,而是在似然函数中增加了一个专门衡量“预测是否满足物理约束”的部分,从而使校正过程被物理规律显式约束。对不等式约束,作者也给出了可转化为等式约束的统一处理思路,因此方法具有较好的通用性。参数后验分布通过马尔可夫链蒙特卡罗采样获得,采样算法采用三条并行链的自适应差分进化方案。
第一个案例是实验室砂柱中荧蒽运移模拟。其研究背景是多环芳烃与胶体在地下环境中的共运移问题。实验使用聚四氟乙烯砂柱,内径为二点五厘米,高度为十二厘米,两端设置不锈钢筛网。填充砂柱的平均孔隙度为零点三六,体积密度为一点六九克每立方厘米。实验以恒定流量自下而上注入溶液,先以氯化钠背景液使介质达到水化学平衡,再注入同时含荧蒽和细菌的悬液,之后继续注入不含荧蒽的细菌悬液、无菌背景液以及去离子水,并按固定时间间隔采集出流样品,总共得到一百二十四个浓度观测值。由于实际地下水环境中胶体类型与分布难以准确识别,作者在物理模型中有意忽略荧蒽与胶体共运移机制,由此人为构造出结构误差,再由高斯过程回归进行校正。该案例的数值模拟采用一维饱和砂柱运移模型,吸附—解吸过程采用双位点吸附与弗罗因德里希关系描述;前三十五个观测点用于校准,后三十六到一百二十四个观测点用于验证。物理约束方面,该案例采用全过程质量守恒:荧蒽在进入砂柱、停留于液相与固相、以及流出系统的不同阶段,其总量关系必须保持守恒。作者还通过校准数据确定了约束强度。
第二个案例是三维地下水污染物运移合成模拟。真实模型代表一个长一千米、宽二百米、厚二十米的含水层系统,自上而下分为高渗层、弱透水层和中等渗透层,中间弱透水层厚度不均且分布不连续。左、右边界施加定水头型条件,其他边界不透水;污染源位于上部靠左侧位置,并持续泄漏;右侧下部布设两口抽水井,同时监测污染物浓度。为了模拟实际建模中的结构简化,作者将真实系统中不均匀、非连续的弱透水层简化为均一厚度分布,进而构建简化后的三维地下水污染运移模型,并使用相应的地下水流与溶质运移程序进行计算。观测数据来自真实模型在两口井中的模拟浓度序列,并额外加入随机白噪声,总计一百四十六个观测值,每口井前四十五个用于校准、后二十八个用于验证。这个案例的物理约束同样是质量守恒,即污染源释放总量必须等于含水层内残留量、边界流出量与井抽出量之和。
📊 结果与讨论
结果部分首先比较了耦合与不耦合物理约束两种方法下的参数后验分布。对于砂柱案例,耦合物理约束后,物理参数的后验分布整体更宽、峰值更低,而高斯过程相关参数的均值和分布范围变化更为明显,说明物理约束显著改变了误差校正模型的识别方式。对于三维污染运移案例,情况略有不同:耦合物理约束后,多数物理参数的后验分布反而明显变窄、峰值更高,表明约束增强了参数识别的稳定性;高斯过程相关参数的后验分布则呈现均值减小、范围收缩的特点。作者据此指出,物理约束确实会显著影响物理参数和误差模型参数的识别结果,而且对后者的影响通常更强。
在质量守恒表现上,两组案例都显示出非常明确的改进。砂柱荧蒽运移案例中,整个模拟过程共注入四十二点三九毫克荧蒽。不加物理约束时,峰值质量平衡误差率达到五十三点四零,平均误差率为二十八点七一,对应平均质量误差达十二点一七毫克;加入物理约束后,峰值误差率下降到三十一点四五,平均误差率降至十一点九一,平均质量误差降为五点零五毫克。三维地下水污染运移案例中,不加约束时,污染物峰值质量平衡误差率达到二十六点七九,平均误差率为十三点三七;加上约束后,峰值误差率降到一点九零,平均误差率接近零,仅为负零点四八,平均质量误差也从三点三四千克降至接近零的负零点一二千克。作者据此认为,物理约束显著减少了不合理和不可信的预测结果,使模型输出更符合基本物理原理。
在预测性能方面,砂柱案例中,不带物理约束的方法虽然能够大致抓住浓度变化趋势,但在校准阶段峰值附近已有明显偏差,在验证阶段则与观测值偏离更明显,同时其百分之九十五预测区间较宽,尤其在峰值附近表现出较大的不确定性。加入物理约束后,峰值预测和验证期预测均明显改善,预测区间也更加合理。定量指标上,验证阶段的纳什效率系数由零点七五一三提高到零点九一二三,平均绝对误差和均方根误差均下降约四成以上,说明该方法不仅提高了拟合优度,也提升了外推稳定性。
三维案例中,两口井的结果趋势一致。不加物理约束时,模型虽然能跟踪浓度变化的一般走势,但在验证期明显高估污染物浓度,预测均值与观测值偏差较大,而且预测区间很宽。加入物理约束后,两口井在验证阶段的预测均显著改善,预测区间明显收窄。定量上,第一口井验证阶段的纳什效率系数从负二十二点八八零三提升到零点八五六二,第二口井从负零点六一零三提升到零点八九九零;两口井的平均绝对误差分别下降九成以上和近八成,均方根误差分别下降九成左右和约四分之三。这个结果非常关键,因为它表明物理约束不仅改善了训练期表现,更大幅提升了验证期泛化能力。
讨论部分进一步解释了这一改进机制。作者认为,不带物理约束的数据驱动方法在参数识别阶段容易出现过拟合,因为误差校正模型本身缺乏物理机制,会倾向于通过过度调参来最大化对观测数据的拟合。相比之下,耦合物理约束的方法通过联合似然把“观测拟合”和“物理一致性”两个要求同时纳入参数识别过程,因此能够有效抑制这种过拟合。作者还指出,物理约束对高斯过程相关参数的影响通常比对物理模型参数更显著,这意味着预测性能的提升,很大程度上来自误差校正模型被“物理化”之后的行为改善,而不是单纯依赖物理模型本身参数的调整。与此同时,两组案例中结构误差特征不同,导致约束对高斯过程参数的作用方式并不完全相同,这也从侧面说明该方法对于不同形式的结构误差具有一定普适性。
作者还特别强调,不加物理约束时,模型在污染物浓度峰值阶段出现了显著的质量守恒违背,而这种违背与高斯过程所采用的平滑先验有关:由于真实结构误差可能具有复杂且强非线性的尖锐局部变化,平滑型误差模型往往难以准确捕捉,进而在峰值处产生过度估计和较大的预测不确定性。物理约束的引入,相当于在每个时间步持续纠偏,抑制误差积累,因此在早期浓度快速上升阶段也能保持较小的质量平衡偏差。综合而言,作者认为该方法既改进了预测精度,又提高了物理可信度,是对传统数据驱动结构误差校正框架的重要推进。
📌 结论
本文提出了一种耦合物理约束的数据驱动结构误差校正方法,其核心创新在于把物理约束显式纳入似然函数,使模型在进行结构偏差校正时,不仅追求对观测数据的拟合,也同步满足地下水系统的关键物理规律。两个案例均表明,不带物理约束的数据驱动方法容易出现明显的质量守恒违背、预测区间过宽以及验证期表现下降等问题,而加入物理约束后,这些问题得到显著缓解。该方法能够降低质量平衡误差,提升验证期预测精度,缩小预测不确定性,并缓解参数识别过程中的过拟合。最终,作者认为,这一框架对于复杂结构误差具有较强适应性,可为实际场地地下水污染模拟、污染修复和风险管理提供更可靠的定量预测支持。