当前位置：首页>南京>南京大学环境学院任洪强院士团队 ES&T 副封面 | 智能污水处理的智能体–反应器集成:基于强化学习控制的实验验证与可解释性!

南京大学环境学院任洪强院士团队 ES&T 副封面 | 智能污水处理的智能体–反应器集成:基于强化学习控制的实验验证与可解释性!

2026-05-28 09:37:28

研究背景：

污水生物脱氮除磷（BNR）工艺的控制正从规则自动化向智能体控制转型。传统自动化难以应对非线性动态与进水波动，基于强化学习（RL）的智能控制适应性更强，但现有研究多停留在仿真阶段，与实际反应器脱节、可信度不足；同时 RL 算法的 “黑箱” 特性缺乏可解释性，导致工程人员难以信任与应用，无法将决策逻辑与工艺动力学、控制原理结合，制约了实际落地。

研究目的：

（1）搭建智能体 - 反应器物理集成系统，实现 RL 智能体与真实生物反应器的直接闭环交互，完成实验验证；

（2）对比 RL 控制与静态、规则控制在进水扰动下的脱氮效果与运行成本；

（3）构建多维度可解释性分析框架，将 RL 黑箱策略转化为可理解、可审计、符合工艺原理的控制逻辑；

（4）验证 RL 智能控制在实际污水厂的可行性、鲁棒性与透明性，推动工程化应用。

研究方法：

（1）搭建实验室厌氧 - 缺氧 - 好氧 - 缺氧（AA'OA'） 脱氮反应器，接入真实市政污水，通过 PLC 实现 RL 智能体与传感器、执行器的实时闭环通信；

（2）采用深度 Q 网络（DQN）+ 贝叶斯优化（BO） 构建 RL 混合控制模型，控制变量包括 DO 设定值、内回流比（IMLR）、外加碳源投加量；

（3）设置两组试验：场景 1 为物理反应器实验，验证水力扰动下的控制效果；场景 2 为仿真实验，模拟流量 + 浓度双扰动与低碳氮比条件，用于可解释性分析；

（4）采用控制行为可视化、代理决策树、Sobol 灵敏度分析、决策轨迹分析四重方法解析 RL 决策逻辑；

（5）以出水氮超标时长、水质指数（EQI）、成本指数（CI）、能耗指数（PI）为评价指标，统计检验控制效果差异。

主要发现：

（1）物理集成可行：RL 智能体能与真实生物反应器稳定闭环运行，实时接收信号并输出控制动作；

（2）控制效果更优：短期扰动下，RL 控制较规则控制使氮超标时长降低约 30%，运行成本降低 36.5%，恢复速度更快、出水更稳定；

（3）可解释框架有效：四重方法可清晰揭示 RL 决策逻辑 —— 高流量时提升 DO 强化硝化，低碳氮比时增大内回流、节约碳源，完全符合生物脱氮原理；

（4）RL+BO 更稳定：相比纯 RL，RL+BO 决策树更简洁、灵敏度更合理、轨迹更平滑，多目标优化能力更强；

（5）关键变量明确：进水流量、C/N 比、出水水质是 RL 决策的核心影响因子，可指导监测与控制优化。

结论：

（1）RL 智能体 - 反应器物理集成切实可行，在进水扰动下的脱氮效果与经济性显著优于传统控制；

（2）所提出的可解释性框架成功将 RL 从 “黑箱” 转化为符合工艺机理、可理解、可核查的控制策略，解决工程信任问题；

（3）RL+BO 混合模型在自适应能力、决策稳定性与多目标平衡上表现最佳；

（4）该研究为强化学习在实际污水厂全流程智能控制的可靠部署奠定了实验与理论基础。

基于强化学习（RL）智能体的智能控制与优化已成为污水生物脱氮除磷（BNR）工艺的极具潜力的方案。然而，现有研究大多局限于仿真环境，可信度与工程实用性受限。此外，RL 智能体的黑箱特性阻碍了运维人员的信任。本研究建立了反应器–智能体集成系统，实现物理生物反应器与基于 RL 的智能体直接交互，证明基于智能体的控制在应对进水扰动时优于传统控制策略。实验结果表明，短期扰动条件下，基于 RL 的控制较基于经验规则的控制实现氮污染物超标时长降低约 30%，同时通过协调调整溶解氧（DO）设定值与混合液内回流，使运行成本降低 36.5%。为提升可解释性，本研究提出一套连接算法智能与工艺工程透明性的分析框架，结合控制器行为可视化、代理决策树、Sobol 灵敏度分析与决策轨迹分析，阐明 RL 智能体的决策逻辑，并将其与工艺动力学和控制原理关联。这些结论将 RL 策略从黑箱转化为可解释、符合工艺规律且可审计的控制策略。总体而言，结果证明了基于智能体的智能控制在真实场景下的可行性、鲁棒性与透明性，为其在实际污水厂可靠部署铺平道路。

污水生物处理的控制优化从基于规则的自动化向基于智能体的智能控制转变已成为必然趋势。自动化控制系统虽具备运行稳定、一致性好等优势，但在处理非线性工艺动态和快速变化的进水条件时仍存在局限。相比之下，基于智能体的智能控制具备更优的适应性与决策自主性，能够有效应对工艺波动、多目标权衡与进水特性不确定性等挑战。近年来，基于强化学习（RL）的智能体已被广泛探索用于优化污水厂生物脱氮除磷过程。

然而，基于 RL 的智能体在生物脱氮除磷中的应用大多局限于仿真环境，导致实际可信度与工程价值受限。模型与现实的不匹配往往使仿真策略无法捕捉真实工艺的复杂性。因此，实验验证对于证明 RL 智能体能够自适应调控关键变量（如溶解氧设定值和内回流）以从水力峰值、底物波动等进水扰动中恢复至关重要。同时，在生物脱氮除磷中，不同碳氮比（C/N）条件下的高效脱氮仍存在挑战。碳源不足常导致反硝化不完全、出水氮浓度升高，而过量投加碳源则会增加运行成本和二次污染风险。因此，开发能够使工艺从进水波动中快速恢复并动态调控碳源补充的控制策略，对实现污水处理经济高效脱氮至关重要。在物理反应器中验证 RL 控制，能够连接算法开发与工程实践，证实其在真实运行条件下的可行性与鲁棒性。

RL 智能体用于智能控制与优化的另一大障碍在于 RL 算法的黑箱特性。可解释性不足导致其在实际污水处理运行中的信任度和接受度较低。首先，黑箱模型难以开展与控制动作相关的机理分析，影响算法在实际污水运行中的可信度。其次，RL 智能体的控制决策通常包含复杂逻辑结构，而缺乏能够捕捉核心决策逻辑的简洁总结，难以帮助研究人员直观理解和评估算法行为，进而阻碍知识传递与现有污水控制系统的融合。第三，理解不同变量在形成控制策略中的相对重要性，对于解释策略结构至关重要，这类结论能帮助运维人员识别并优化影响控制优化效果的关键变量。第四，分析智能体如何与环境交互并演化策略，是理解多目标优化实现方式的基础。据我们所知，专门针对 RL 智能体可解释性分析及其与污水处理工艺工程优化结合的研究仍然较少。要真正支撑生物污水处理的控制与优化，RL 智能体必须具备可解释性，其决策逻辑需能被工程师和运维人员理解。

本研究针对这些挑战开展工作：（1）建立智能体–反应器集成系统，实验验证基于 RL 的控制优化效果；（2）开发系统化的可解释性框架，阐明 RL 算法的决策过程。为揭示智能体决策逻辑，采用互补的可解释性工具，包括控制行为–动力学可视化、代理决策树建模、Sobol 灵敏度分析和决策路径分析，揭示系统状态感知方式、输入变量优先级与控制动作选择逻辑。本研究从三个关键方面推进生物脱氮除磷智能控制：（1）建立智能体–反应器集成，使 RL 智能体通过 PLC 控制基础设施与实验室规模生物反应器直接交互，处理真实市政污水；（2）在真实采样与执行约束下，实现传感器、执行器与 RL 智能体之间的物理信号交互；（3）将实验验证与系统化可解释性框架结合，明确将 RL 决策与硝化–反硝化动力学及工艺工程原理关联。这些成果共同提升了 RL 控制的实验可信度与实际透明性，为其作为可持续决策支持工具可靠应用于现代污水处理运行铺平道路。

以上为文章的主要内容，如需了解详情，请阅读原文。

声明：本公众号为非盈利性新媒体，所刊载文章版权属于原作者及相关出版商所有；此推文目的在于分享前沿学术成果。如涉及侵权，请立刻联系公众号后台或发送邮件，我们将及时修改或删除！由于微信修改了推送规则，请大家将本公众号加为星标，或每次看完后点击页面下端的“在看”，这样可以第一时间收到我们每日的推文！

特别提示：投稿、转载和合作，请先关注公众号，私信联系后台或者发邮件到oceanystsj@163.com邮箱！！！