投稿邮箱:wedotech2025@163.com投稿电话:16622153402(微信同号)



持续学习是人类的核心认知能力,支持知识和经验的获取、积累和迁移。随着人工智能在动态环境中的应用日益广泛,具备处理连续信息流的能力变得尤为重要。强化学习(RL)被认为是实现计算系统持续学习的有效途径。近年来,固态和流体离子忆阻器的出现为RL在该领域的应用提供了新的发展契机,但在处理非平稳数据分布时,仍面临收敛不稳定、奖励积累非单调及冗余学习等挑战。在器件层面,离子重新分布的固有随机性和波动性导致不稳定的导电性,进而影响时间相关内部状态的保持。与此不同,二阶忆阻器通过多状态变量的梯度调制,展示了优于一阶忆阻器的时空可塑性。然而,这些器件的快速衰减特性限制了长期稳定记忆的保持,难以满足RL任务中对长期策略制定的要求。因此,为实现持续RL,必须在二阶忆阻器中构建长期稳定的状态变量变化,以保持导电调制的稳定性。通过仿生梯度调制,二阶忆阻器能够高效执行长期任务,并减少训练迭代次数,展现出在下一代持续学习系统中的巨大潜力。
西北工业大学黄维院士和南京邮电大学凌海峰教授、解令海教授制备了结构为ITO/锌卟啉(ZnTPP)/ALD-Al₂O₃/铝的二阶忆阻器,其中ZnTPP层的引入旨在建立稳定的内在氧浓度梯度,从而延长动态界面势垒调制时间(>10² s),并实现长期自发衰减特性。通过分子协调的传输过程,采用单极脉冲电压依赖的可塑性(U-SVDP)调节氧离子梯度,实现了氧离子迁移与扩散的重新配置,最终获得了40个不同的伪非易失性(PNV)导电状态。这一内在梯度驱动方法使得强化学习(RL)任务的动态学习率从0.14提高到0.77,并将训练迭代次数减少了68.75%。与传统方法相比,所需的收敛周期在动态环境中减少了约35.65%。该文章以“Intrinsic gradient oxygen-driven second-order memristors for continual reinforcement learning”为题发表在国际顶级期刊Nature Communications上。
图1-内在梯度驱动的二阶忆阻器设计:图1展示了基于ZnTPP(锌卟啉)/ALD-Al₂O₃/铝结构的二阶忆阻器设计。图中介绍了ZnTPP层的引入,旨在建立稳定的内在氧梯度,从而延长界面势垒调制时间并实现长期的自发衰减特性。结合分子协调的传输过程,通过单极脉冲电压调节氧离子梯度,利用不同的电压幅度引导氧离子迁移和扩散。图中的示意图解释了这种内在梯度驱动机制如何通过U-SVDP(单极脉冲电压依赖可塑性)过程调节氧离子的重新配置,最终在器件中形成40个不同的伪非易失性(PNV)导电状态,从而支持长期的强化学习任务并显著减少训练迭代。图2-电学特性与二阶突触特性:图2展示了基于ZnTPP/ALD-Al₂O₃/铝忆阻器的电学特性,尤其是在电压脉冲刺激下的二阶突触特性。图中的I-V曲线表明,器件在不同电压幅度下,表现出电流响应的显著变化,尤其是在较大电压幅度下,导电状态能够稳定地调节。通过调整电压,氧离子梯度的变化显著影响了导电性,使器件能够在多个伪非易失性导电状态之间切换。图中的数据表明,在多个脉冲序列下,器件的导电性稳定,能够在不断变化的环境中提供可靠的存储能力。
图3-氧离子动态与导电调节:图3展示了氧离子在ZnTPP/ALD-Al₂O₃界面上的动态行为和导电调节过程。图(a)到(d)通过实验和模拟结合的方式,展示了不同电压和脉冲频率下,氧离子的迁移和扩散过程。图(e)进一步说明了氧离子在电场作用下的传输机理,表明氧离子的动态变化有助于增强器件的时序调节特性。图(f)和(g)则展示了在不同电压脉冲刺激下,氧离子如何调整器件的导电状态,并实现导电性与时间相关的可塑性变化,验证了二阶忆阻器在存储中的潜力。
图4-基于氧梯度的存储特性与RL应用:图4展示了氧梯度驱动的忆阻器在强化学习(RL)中的应用,特别是在动态环境下的学习速率更新。图中的数据表明,通过调节氧离子梯度,器件能够动态地调节学习速率,从而实现更高效的RL任务处理。图(a)和(b)展示了在静态环境下,氧梯度如何促进学习过程的加速,图(c)则展示了学习速率更新的过程,表明内在梯度驱动的忆阻器能够有效减少训练迭代。与传统方法相比,所需的收敛周期在动态环境下减少了约35.65%。图(d)则展示了基于此技术的RL任务应用,成功减少了训练时间并提高了模型的准确度,验证了该方法在RL任务中的高效性。
图5-氧离子梯度驱动的长期记忆保持与RL任务:图5展示了通过氧梯度驱动的长期记忆保持能力与强化学习任务的结合。图(a)到(c)展示了在长期脉冲电压刺激下,氧梯度如何稳定保持记忆状态,并在多个RL任务中实现长期策略的形成。图(d)和(e)展示了不同梯度调节条件下,学习过程的稳定性和准确性。通过长时间的训练,器件能够保持稳定的记忆特性,并且减少了因训练过程中的误差修正带来的能量消耗,优化了RL任务的执行。图(f)和(g)进一步展示了在动态环境中,通过调节学习率和氧梯度,器件能够适应环境变化,提供高效的存储和学习功能。
图6-氧梯度驱动的二阶忆阻器在动态环境中的应用:图6展示了氧梯度驱动的二阶忆阻器在动态环境中的长期应用,特别是在处理复杂任务中的性能表现。图(a)展示了在不同时间范围内,器件在动态环境下的记忆保持能力,表明通过稳定的氧梯度调节,器件能够在长期使用过程中保持稳定的导电性。图(b)展示了基于该器件的强化学习任务中,学习速率如何随着时间的推移而不断调整,以适应环境的变化。图(c)展示了在多次任务训练后,器件的导电状态变化,表明其能够高效地响应任务的变化并快速适应。图(d)展示了在不同动态环境下,器件的收敛速度和性能变化,表明氧梯度驱动的忆阻器能够在长时间的训练过程中保持较高的性能,并减少了传统方法中的冗余计算。图(e)展示了器件在不同负载下的稳定性,表明即使在高负载的任务下,器件依然能够稳定运行并保持较低的功耗。图(f)展示了在多个任务环境下,器件如何优化训练过程,通过高效的梯度调节机制,减少了训练所需的时间和资源,验证了该技术在长期动态任务中的高效性和稳定性。【文献总结】
本研究展示了通过内在氧梯度实现的第二阶忆阻器,该器件具备延长的界面势垒演化过程。ZnTPP的协调效应促进了氧化物的生长,并诱导了空间氧浓度梯度的形成。通过单极脉冲电压依赖可塑性(U-SVDP),氧离子的漂移和扩散得到了平衡,从而将广泛的衰减过程(ΔG = −98.1%)重新配置为超过40个伪非易失性(PNV)导电状态。这些PNV状态使得第二阶忆阻器能够保持对持续学习至关重要的时间相关内部状态。通过将PNV状态映射到动态学习率(α),强化学习(RL)任务的训练迭代减少了68.75%,同时减缓了收敛震荡,降低了局部最优问题。即使在动态环境中,内在梯度驱动的学习率α相比传统方法仍能减少35.65%的训练周期。本研究为设计具有缓慢动态状态的第二阶忆阻器提供了生物启发框架,为神经形态计算中的持续学习开辟了新的路径。
文章信息:Ming, J., Wang, R., Fu, J. et al. Intrinsic gradient oxygen-driven second-order memristors for continual reinforcement learning. Nat Commun (2026).
https://doi.org/10.1038/s41467-026-70014-0


