西北工业大学黄维院士,南京邮电大学解令海教授 Nat. Commun. :内在梯度氧驱动的二阶忆阻器用于持续强化学习
本工作室建立了微信群促进同学们之间的交流学习并有效讨论问题,可通过添加编辑微信进群。1.编辑微信:1)FEtunan(微信号)2)186006489282.工作室提供:二维材料生长及器件制作;科研绘图技巧;二维相关报告或会议推送;二维读博导师推荐、课题组招聘需求等欢迎大家投递中文的工作宣传稿及广告,具体联系微信:FEtunan(微信号)西北工业大学黄维院士,南京邮电大学解令海教授等人发表题为 “ Intrinsic gradient oxygen-driven second-ordermemristors for continual reinforcement learning ”于Nature Communications上本研究设计了一种具有稳定本征氧梯度的二阶忆阻器,通过分子配位层实现,能够延长动态势垒演化时间(>10²秒)。这种慢动态响应促进了在单极尖峰刺激下氧离子迁移与扩散的平衡,实现了显著的电导调制(ΔG = -98.1%)。这些时间自适应的电导状态被定量映射到强化学习算法中的学习率,使学习任务的时间尺度与器件动力学协同演化。与传统策略相比,本征梯度驱动的调制在静态环境中减少了68.75%的训练迭代次数,在动态环境中减少了35.65%。这些发现突显了慢动态二阶忆阻器作为物理基础的时间自适应单元的潜力,为神经形态计算中器件动力学与算法学习的结合提供了新途径。持续学习是人类的基本认知能力,使个体能够在整个生命周期中获取、完善和转移知识与经验。这一复杂过程由体内跨膜电生理机制支撑,建立细胞内外的梯度,从而促进记忆巩固和检索过程。对于在动态环境中运行的人工智能系统而言,持续处理连续信息流的能力至关重要。强化学习算法被认为是计算系统中实现持续学习的最有前景的候选方案之一。固态和流体离子忆阻器的出现推动了强化学习在该领域的发展,这些器件模拟生物离子信号处理。然而,持续存在的挑战仍然存在,特别是在处理非平稳数据分布时,往往导致收敛不稳定、奖励积累非单调以及持续强化学习系统中的冗余学习。在器件层面,离子重分布梯度的固有随机性和波动往往导致突跳开关和不稳定的电导,阻碍了时间相关内部状态的保持。
相比之下,二阶忆阻器通过多个状态变量介导的生物真实梯度调制能力展现出独特优势。这些器件表现出比一阶忆阻器更强的时空可塑性,归因于其时间依赖的自发衰减过程。然而,这些状态变量的快速衰减(如超快温度下降或金属离子扩散在数百纳秒内发生)导致快速衰减。虽然有利于高速操作,但这种快速衰减阻碍了时间电导相关性的保持,与非易失性忆阻器不同。因此,二阶忆阻器难以在扩展时间尺度上处理连续信息,特别是在需要稳定记忆痕迹进行长期策略制定的强化学习任务中。
主要内容
本研究设计了一种具有稳定本征氧梯度的二阶忆阻器,通过分子配位层实现延长动态势垒演化时间(>10²秒),用于持续强化学习。器件采用ITO/ZnTPP/ALD-AlOx/Al结构,利用ZnTPP的配位效应建立空间氧浓度梯度,结合原子层沉积工艺确保梯度稳定性。
电学特性表征显示器件具有电压幅度依赖的抑制/兴奋转变行为,7 V为临界点。单极尖峰电压依赖可塑性(U-SVDP)通过相同极性不同幅度的脉冲对(VHigh和VLow)实现电导状态调制,利用VHigh建立的氧离子浓度梯度和亚稳迁移状态,使后续VLow促进定向迁移和积累,实现-98.1%的显著电导调制和40个伪非易失性(PNV)电导状态。双指数衰减拟合得到时间常数τ₁=3.93 s和τ₂=53.60 s,证实了二阶特性。
机制研究揭示了氧离子在AlOx层中的漂移-扩散动力学。有限元模拟显示本征梯度提供动力学缓冲效应,将快速扩散转化为可操作的慢动态。原位导电原子力显微镜直观验证了细丝的形成与部分溶解过程,去除偏压后恢复时间超过10²秒。
在持续强化学习应用中,将PNV电导状态定量映射到学习率α,使学习任务时间尺度与器件动力学协同演化。在自动驾驶车辆最优路径寻找任务中,α从0.14218增加到0.77311时,收敛迭代次数从3927降至1227,减少68.75%。在动态多阶段环境(地图尺寸50×50至200×200)中,与传统线性调制相比,U-SVDP驱动的方法将总训练回合减少35.65%,同时保持更稳定的收敛性能。
结论
本研究通过本征氧梯度展示了具有延长界面势垒演化的二阶忆阻器。ZnTPP的配位效应促进了增强的氧化物生长并诱导了空间氧浓度梯度。通过U-SVDP,氧漂移和扩散被平衡以将宽范围衰减过程(ΔG = -98.1%)重构为超过40个PNV电导状态。这些PNV状态使二阶忆阻器能够保留持续学习所需的时间相关内部状态。通过将PNV状态映射到动态α,强化学习任务显示训练迭代减少68.75%,收敛振荡减轻且局部最优更少。即使在动态环境中,与传统方法相比,本征梯度驱动的α仍将训练回合减少35.65%。这项工作建立了设计具有慢动态状态的二阶忆阻器的生物启发框架,为神经形态计算中的持续学习铺平了道路。
图文内容
图1体内本征梯度驱动装置设计图2 .ITO / ZnTPP / ALD-AlOx的记忆特性和二级突触特性图3 基于ZnTPP/ALD-AlOx的二阶忆阻器的忆阻机制示意图及氧动力学的原位观察。a ZnTPP层和ALD-AlOx层的初始内部状态。b 在9伏(VHigh)下的设置过程以及c VHigh操作后的状态。施加d VHigh然后由e 6伏(VLow)调控时的内部状态。f,g O2–的漂移过程和h,i扩散过程的模拟结果。j 使用导电原子力显微镜(c-AFM)尖端作为顶部电极进行器件结构原位测量的示意图。同一区域各状态的电流映射:k 初始状态,l 9伏开启状态,m 6伏开启状态。图4 受非电压门控通道(NVGCs)单极调节过程启发的电导调节。a 膜上离子的NVGCs示意图。b 细胞内外环境存在浓度梯度时NVGCs的状态。c 单极膜电位调节过程。d 在AlOx层中由9伏(VHigh)产生的多丝系统示意图。VHigh对固定tLow(10毫秒)且tHigh变化的6伏(VLow)的单极脉冲电压依赖可塑性(U-SVDP):e tHigh为1000毫秒,f tHigh为100毫秒。VLow对固定tHigh(10毫秒)且tLow变化的VHigh的U-SVDP:g tLow为1000毫秒,h tLow为100毫秒。i 在AlOx层中连续VLow作用下多丝系统逐渐断裂的示意图。j 基于U-SVDP调节(tHigh=100毫秒,tLow=100毫秒,ΔtLow=5秒,NLow=16)与自发衰减过程的电导比较。k 在不同VLow序列(NLow=1/10/50/100,tHigh=10毫秒,tLow=10毫秒,ΔtLow=10毫秒)下基于U-SVDP的电导调节。读取电压(Vread)保持在1伏。图5 静态环境中持续强化学习(RL)的内在梯度驱动学习率更新。a,b 具备信号覆盖的自动驾驶车辆的最优路径选择问题。c 强化学习中Q学习的示意图。d 在9伏(VHigh)历史操作(tHigh=100毫秒,tLow=100毫秒,ΔtLow=5秒)和自发衰减过程(tHigh=100毫秒)后,由40个连续的6伏(VLow)脉冲调节的电导比较。e 每个时期的初始电导状态和电导变化。f 分别用蓝绿色和金色曲线表示基于单极脉冲电压依赖可塑性(U-SVDP)和自发衰减过程在每个时间点(tn)的权重(ωn)。g 基于生物启发(U-SVDP)和自发衰减的不同时间t下的α值。h 基于Q学习的最优路径。基于U-SVDP的最优路径选择迭代,其中i α=0.14218,j α=0.77311。k 基于αU-SVDP和αDecay的迭代次数比较。基于αU-SVDP和αDecay迭代的最优路径平均长度和偏差比较。柱状图表示收敛稳态下的平均路径长度,误差条表示在稳定收敛阶段计算的标准差。图6 动态环境中持续强化学习的内在梯度驱动学习率调节。a 使用不同策略的学习率阶段特异性调节函数。b 为每个阶段分配的最优路径规划地图大小。c 在每个阶段获得的最优路径。d 各阶段的收敛性能。在e 50×50、f 75×75、g 100×100和h 200×200地图尺寸下的最优路径结果比较。https://doi.org/10.1038/s41467-026-70014-0