当前位置：首页>南京>西北工业大学黄维院士,南京邮电大学解令海教授 Nat. Commun. :内在梯度氧驱动的二阶忆阻器用于持续强化学习

西北工业大学黄维院士,南京邮电大学解令海教授 Nat. Commun. :内在梯度氧驱动的二阶忆阻器用于持续强化学习

2026-04-17 12:38:42

本工作室建立了微信群促进同学们之间的交流学习并有效讨论问题，可通过添加编辑微信进群。

1.编辑微信：1）FEtunan（微信号）2）18600648928

2.工作室提供：二维材料生长及器件制作；科研绘图技巧；二维相关报告或会议推送；二维读博导师推荐、课题组招聘需求等

欢迎大家投递中文的工作宣传稿及广告，具体联系微信：FEtunan（微信号）

西北工业大学黄维院士，南京邮电大学解令海教授等人发表题为 “ Intrinsic gradient oxygen-driven second-ordermemristors for continual reinforcement learning ”于Nature Communications上

本研究设计了一种具有稳定本征氧梯度的二阶忆阻器，通过分子配位层实现，能够延长动态势垒演化时间（>10²秒）。这种慢动态响应促进了在单极尖峰刺激下氧离子迁移与扩散的平衡，实现了显著的电导调制（ΔG = -98.1%）。这些时间自适应的电导状态被定量映射到强化学习算法中的学习率，使学习任务的时间尺度与器件动力学协同演化。与传统策略相比，本征梯度驱动的调制在静态环境中减少了68.75%的训练迭代次数，在动态环境中减少了35.65%。这些发现突显了慢动态二阶忆阻器作为物理基础的时间自适应单元的潜力，为神经形态计算中器件动力学与算法学习的结合提供了新途径。

背景

持续学习是人类的基本认知能力，使个体能够在整个生命周期中获取、完善和转移知识与经验。这一复杂过程由体内跨膜电生理机制支撑，建立细胞内外的梯度，从而促进记忆巩固和检索过程。对于在动态环境中运行的人工智能系统而言，持续处理连续信息流的能力至关重要。强化学习算法被认为是计算系统中实现持续学习的最有前景的候选方案之一。固态和流体离子忆阻器的出现推动了强化学习在该领域的发展，这些器件模拟生物离子信号处理。然而，持续存在的挑战仍然存在，特别是在处理非平稳数据分布时，往往导致收敛不稳定、奖励积累非单调以及持续强化学习系统中的冗余学习。在器件层面，离子重分布梯度的固有随机性和波动往往导致突跳开关和不稳定的电导，阻碍了时间相关内部状态的保持。

相比之下，二阶忆阻器通过多个状态变量介导的生物真实梯度调制能力展现出独特优势。这些器件表现出比一阶忆阻器更强的时空可塑性，归因于其时间依赖的自发衰减过程。然而，这些状态变量的快速衰减（如超快温度下降或金属离子扩散在数百纳秒内发生）导致快速衰减。虽然有利于高速操作，但这种快速衰减阻碍了时间电导相关性的保持，与非易失性忆阻器不同。因此，二阶忆阻器难以在扩展时间尺度上处理连续信息，特别是在需要稳定记忆痕迹进行长期策略制定的强化学习任务中。

主要内容

本研究设计了一种具有稳定本征氧梯度的二阶忆阻器，通过分子配位层实现延长动态势垒演化时间（>10²秒），用于持续强化学习。器件采用ITO/ZnTPP/ALD-AlOx/Al结构，利用ZnTPP的配位效应建立空间氧浓度梯度，结合原子层沉积工艺确保梯度稳定性。

电学特性表征显示器件具有电压幅度依赖的抑制/兴奋转变行为，7 V为临界点。单极尖峰电压依赖可塑性（U-SVDP）通过相同极性不同幅度的脉冲对（VHigh和VLow）实现电导状态调制，利用VHigh建立的氧离子浓度梯度和亚稳迁移状态，使后续VLow促进定向迁移和积累，实现-98.1%的显著电导调制和40个伪非易失性（PNV）电导状态。双指数衰减拟合得到时间常数τ₁=3.93 s和τ₂=53.60 s，证实了二阶特性。

机制研究揭示了氧离子在AlOx层中的漂移-扩散动力学。有限元模拟显示本征梯度提供动力学缓冲效应，将快速扩散转化为可操作的慢动态。原位导电原子力显微镜直观验证了细丝的形成与部分溶解过程，去除偏压后恢复时间超过10²秒。

在持续强化学习应用中，将PNV电导状态定量映射到学习率α，使学习任务时间尺度与器件动力学协同演化。在自动驾驶车辆最优路径寻找任务中，α从0.14218增加到0.77311时，收敛迭代次数从3927降至1227，减少68.75%。在动态多阶段环境（地图尺寸50×50至200×200）中，与传统线性调制相比，U-SVDP驱动的方法将总训练回合减少35.65%，同时保持更稳定的收敛性能。

结论

本研究通过本征氧梯度展示了具有延长界面势垒演化的二阶忆阻器。ZnTPP的配位效应促进了增强的氧化物生长并诱导了空间氧浓度梯度。通过U-SVDP，氧漂移和扩散被平衡以将宽范围衰减过程（ΔG = -98.1%）重构为超过40个PNV电导状态。这些PNV状态使二阶忆阻器能够保留持续学习所需的时间相关内部状态。通过将PNV状态映射到动态α，强化学习任务显示训练迭代减少68.75%，收敛振荡减轻且局部最优更少。即使在动态环境中，与传统方法相比，本征梯度驱动的α仍将训练回合减少35.65%。这项工作建立了设计具有慢动态状态的二阶忆阻器的生物启发框架，为神经形态计算中的持续学习铺平了道路。

图文内容