南京邮电大学·NC·近传感计算·智能语音传感·动态忆阻器·声纹识别·身份认证·语音安全·边缘计算·噪声环境语音处理·法庭与安防应用
面向自适应鲁棒声纹识别的梯度分布金属卤化物动态忆阻器综述:为了解决真实噪声环境下声纹特征易被频率、幅值波动和背景噪声掩蔽,且传统数字系统难以在边缘端兼顾低功耗、低延迟与高鲁棒性的科学问题,南京邮电大学先进材料研究院等团队提出了一种梯度分布金属卤化物动态忆阻器(MHDM)。该团队采用一步真空热共蒸发策略,以CsI/CuI混合源构筑Cs-Cu-I梯度功能层,并制备大面积ITO/Cs-Cu-I/Au交叉阵列器件,实现肖特基势垒、碘空位迁移和界面电荷分布的协同调控。该器件具有<10 μs信号衰减、kHz级动态处理、>20%信噪比提升和低功耗等优势,源于CsCu₂I₃/CuI相分布、垂直组分梯度和维度限域共同抑制无序离子积累并诱导自适应非线性映射。相关论文以“Gradient-distributed Metal-Halide Dynamic Memristors for Adaptive and Robust Voiceprint Recognition”为题,发表在Nat. Commun上。技术路线图(部分)如下:图1 中文图注:身份认证用声纹识别系统的架构。(a)在多种环境噪声条件下通过手机进行远程非接触式语音认证。背景噪声与语音信号混合并遮蔽关键声学特征。(b)基于梯度 Cs-Cu-I 的 MHDM 结构。(c)MHDM 在电刺激下的自适应电流响应特性。(d)处理后的信号被送入神经网络进行说话人分类与识别。图2 中文图注:MHDM 的电学特性。(a)MHDM 结构示意图。(b)包含 64 × 64 个器件的 10 cm × 10 cm 交叉阵列照片。(c)MHDM 在连续双极电压扫描下的典型 I-V 特性,显示出表征模拟忆阻行为的钳形滞回环。(d、e)在固定脉冲幅值 0.3 V(VR = 0.05 V)下,由脉冲宽度为 50 μs(d)和 100 ms(e)的单个电脉冲诱导的 STP 响应。插图显示脉冲移除后的相应电流衰减。(f)在 9.99 Hz、99 Hz 和 5000 Hz 频率下,50 个连续脉冲诱导的 STP 响应(PA = 0.3 V,VR = 0.05 V)。右侧面板比较了 9.99 Hz(增强)和 5000 Hz(抑制)刺激下读取电流的演化。(g)在室温(RT)和升高温度(373.15 K)下,以 99 Hz 频率施加 50 个连续 0.3 V 脉冲和 0.5 V 脉冲时的温度依赖性 STP 行为。图3 中文图注:器件的结构表征与阻变开关机制。(a)Cs-Cu-I 薄膜蒸发沉积过程示意图。(b)器件截面的元素面分布图;比例尺:20 nm。(c、d)忆阻器中 Cs-Cu-I 层的 ToF-SIMS 深度剖析曲线(c)及对应的三维重构图(d)。(e)忆阻器所提出阻变开关机制的示意图。(f)能带图示意,展示迁移的 V_I⁺ 在界面积累引起的势垒调控。图4 中文图注:基于 MHDM 的声纹识别过程。(a)所提出声纹预处理与识别系统的架构。(b)四名说话人(两名男性和两名女性)录制的原始语音波形。(c)声纹转换与输出过程。(d)相同语音输入下第 1 次和第 50 次运行循环的电流输出,显示稳定的特征提取。(e)原始信号、MHDM 处理信号以及单个器件连续 50 次循环处理信号的声纹识别准确率比较。(f)基于 MHDM 处理信号的说话人分类混淆矩阵,证实其能够对四名说话人进行精确身份区分。图5 中文图注:基于 MHDM 的自滤波降噪与声纹识别。(a)声纹识别系统处理受多种真实背景噪声污染的语音信号的示意图。(b)单名说话人在五种不同声学条件下录制的短语“你叫什么名字”的波形。(c)机器噪声条件下,MHDM 处理前后语音信号的 SNR。(d)四种不同噪声条件下,MHDM 处理前后语音信号的 SNR 比较。数据以平均值 ± SD 表示。(e)安静条件和 MHDM 滤波后噪声条件下的声纹识别准确率。(f)噪声条件下基于 MHDM 处理语音信号的说话人分类混淆矩阵。(g)在自采集数据集和公共 VoxCeleb 数据集上评估的,MHDM 处理前后噪声语音信号的声纹识别准确率。研究动机:声纹识别旨在模拟生物听觉系统从动态、受污染的声学流中提取稳定身份特征的能力,在身份认证、信息安全、法庭取证和边缘智能语音交互中具有重要价值。真实使用场景中,语音信号常受到雨声、机器噪声、繁忙街道、回声走廊等背景干扰,导致目标声纹被掩蔽、时域波形畸变和个体差异特征衰减。前人工作瓶颈:传统架构通常将声学信号采集与后端计算分离,传感前端缺少本征自适应预处理能力;数字降噪算法虽可提升识别性能,但串行计算和高能耗难以满足边缘端实时认证需求。常规阈值开关或丝状忆阻器又往往表现为突变式、二值化导电,难以连续编码随时间变化的声学细节;部分挥发性忆阻器还存在瞬态响应不精确、离子累积和动态范围漂移等问题。本工作的解决方案:作者设计了具有梯度分布Cs-Cu-I功能层的混合金属卤化物动态忆阻器,通过一步热蒸发自发形成Cs富集区与Cu富集区,利用碘空位VI⁺的场驱迁移调控Cs-Cu-I/Au界面的肖特基势垒和界面电荷分布,使器件在语音脉冲输入下兼具快速衰减、频率选择性、幅值依赖性和自滤波降噪能力。引出关键问题:该研究回应的核心问题是如何在硬件感知前端实现“采集-预处理-特征增强”一体化,使动态忆阻器既能保留说话人特异性声纹信息,又能在复杂噪声下抑制高幅值干扰并稳定输出可分类的时序特征。提出了梯度分布金属卤化物动态忆阻器的器件创新点:利用Cs-Cu-I薄膜在一步真空热共蒸发中的自发组分分层,构筑兼具CsCu₂I₃和CuI特征的梯度功能层,从材料结构层面建立可动态调制的界面势垒。创新性地将离子迁移、肖特基势垒调控和界面电荷重分布耦合到声学信号处理过程:在低幅值或低频刺激下实现电流增强,在高频或高幅值连续刺激下诱导电流抑制,使器件产生与语音频率和幅值相关的非线性自适应响应。提出了硬件级声纹预处理策略:将归一化语音波形映射为电压脉冲输入MHDM,再将动态电流输出送入1D-CNN,实现器件前端特征细化与神经网络后端分类的硬件-软件协同优化。实现了面向真实噪声场景的鲁棒声纹识别突破:器件在安静环境中实现99.3%的识别准确率,在真实背景噪声中仍保持93.2%的准确率,并在多种噪声条件下实现平均超过20%的SNR提升。展示了大面积集成可扩展性:器件被制备为10 cm × 10 cm基底上的64 × 64交叉阵列,并通过多器件统计验证较好的器件间一致性,为忆阻器阵列化语音处理硬件提供了可制造性依据。关键材料/元件:预图案化ITO玻璃底电极、CsI、CuI、Cs-Cu-I梯度金属卤化物功能层、Au顶电极等。构筑策略:采用真空热共蒸发方法沉积约80 nm厚的Cs-Cu-I活性层,蒸发源为CsI和CuI混合物,摩尔比为1:2,随后通过图案化阴影掩膜热蒸发Au顶电极,形成ITO/Cs-Cu-I/Au垂直堆叠器件。构筑机理关键词:一步热蒸发、自发组分梯度、Cs富集区、Cu富集区、CsCu₂I₃/CuI复合相、碘空位VI⁺迁移、肖特基势垒调制、界面电荷重分布、维度限域离子输运。器件性能优势:MHDM表现出模拟忆阻特性、短时程可塑性(STP)、μs级响应、kHz级动态信号处理能力、频率-幅值自适应调制能力、噪声抑制能力和较高阵列可集成性。应用领域简写:声纹识别(Voiceprint Recognition)、神经形态电子(NE)、边缘计算(Edge AI)、智能传感(IS)、安全身份认证(Authentication)。主要性能表现:器件在单个0.3 V电脉冲刺激下可快速响应并迅速回到基线,电流衰减时间约为7.16-7.28 μs;在连续脉冲条件下,器件对刺激频率和幅值表现出显著依赖性,可在9.99 Hz等低频条件下体现电流增强,在5000 Hz或较高幅值下出现电流抑制。性能支撑机制:快速响应主要来自金属卤化物界面附近载流子的快速去俘获与放电;较慢弛豫分量则与离子从Cs-Cu-I/Au界面的反扩散相关。连续刺激中,VI⁺向Au界面迁移并动态改变局部界面势垒,进而调节空穴注入与电荷传输。结构/原料设计赋能:Cs-Cu-I薄膜的垂直组分梯度形成Cs富集区和Cu富集区,CsCu₂I₃一维晶体结构为离子输运提供受限通道,CuI富集界面则提供可被离子积累/耗尽动态调节的势垒区域,由此避免传统三维钙钛矿中无序离子扩散造成的不可控电导漂移。次要性能表现:器件在64 × 64交叉阵列中具有较好均一性;在50次工作循环中仍能保持稳定特征提取能力,对高湿度环境也保持可比识别性能;在声纹任务中,MHDM处理后的信号准确率与原始声学数据接近,同时提升噪声条件下的识别鲁棒性。机理支撑:面积依赖电学测试表明导电切换主要由界面效应主导,而非金属导电细丝形成;温度依赖I-V特征和ln(I)-V¹/²关系支持肖特基发射机制;势垒高度随电压变化说明离子再分布参与了非经典界面势垒调制。结构/原料归因:80 nm活性层在保持稳定组分梯度和实现高效界面调制之间取得平衡;相比无Cu富集层的40 nm对照器件以及更厚的120/160 nm器件,该厚度既能保持足够动态范围,又能缩短离子迁移路径并维持实时声学处理所需的高速衰减。材料综合特性汇总:该MHDM将快速挥发性忆阻响应、频率选择性、幅值依赖性、非线性映射、自滤波降噪和大面积阵列可制造性结合起来,使器件从被动传感元件转变为具有前端信号增强能力的神经形态处理单元。典型应用方向:研究首先针对四名说话人发音“你好”的干净语音进行声纹识别验证,随后扩展到六名说话人、十类语句以及安静、雨声、机器、繁忙街道和回声等多类真实噪声环境,并进一步用VoxCeleb公开数据集评估泛化能力。具体表现指标:在干净声纹任务中,MHDM处理后识别准确率为99.3%,单器件50次循环后仍保持98.2%;机器噪声样本的SNR由10.5 dB提升至15.8 dB;多种噪声场景下平均SNR提升超过20%;噪声环境下MHDM滤波后的声纹识别准确率达到93.2%,与安静条件下95.9%的结果接近。公开数据集表现:在自采集噪声数据集中,识别准确率由原始噪声信号的90.6%提升至MHDM处理后的93.2%;在VoxCeleb数据集中,原始语音的软件分类准确率为95.3%,经器件非线性映射后提升至98.7%,说明该硬件前端具有跨数据集噪声抑制与特征增强能力。能耗与系统优势:基于实测参数,MHDM等效平均功耗约为0.075-11.4 μW,单脉冲能耗约为0.02-2.85 nJ,相比传统数字实现更适合低功耗边缘端实时语音认证。研究成果的核心贡献:该工作建立了梯度金属卤化物材料结构与动态忆阻声学处理功能之间的关联,证明通过组分梯度和界面势垒工程可以在单一器件中实现声纹信号的快速采集、硬件级自滤波和特征增强。科学或工程意义:从科学层面看,研究阐明了CsCu₂I₃/CuI复合梯度体系中VI⁺迁移、肖特基势垒调控和界面电荷重分布对模拟忆阻行为的协同影响;从工程层面看,该器件兼具真空制备可控性、大面积阵列化和低功耗运行,为近传感计算与神经形态语音处理硬件提供了可扩展方案。潜在拓展应用领域:该平台可面向移动终端身份认证、门禁与金融安全、法庭声纹鉴定、可穿戴语音交互、噪声鲁棒人机接口、低功耗边缘AI和实时声学监测系统拓展。未来发展方向:进一步优化阵列规模、片上读出电路、器件长期漂移补偿、多语言多说话人数据库适配和端到端模型协同训练,有望推动忆阻器语音处理从实验验证走向工程化部署。材料/器件种类:金属卤化物动态忆阻器·混合金属卤化物忆阻器·Cs-Cu-I薄膜·CsCu₂I₃/CuI复合层·ITO/Cs-Cu-I/Au器件·交叉阵列器件·神经形态电子器件机理:组分梯度·一步热共蒸发·离子迁移·碘空位VI⁺·肖特基势垒调控·界面电荷重分布·短时程可塑性·维度限域·非线性映射·自滤波性能:μs级快速衰减·kHz级动态处理·频率依赖响应·幅值依赖响应·信噪比提升·噪声鲁棒性·低功耗·循环稳定性·阵列均一性·高识别准确率应用:声纹识别·说话人分类·身份认证·语音安全·边缘计算·近传感计算·智能语音传感·噪声环境语音处理·法庭与安防应用通讯作者:Johnny C. Ho;Haifeng Ling;Wei Huang研究单位(中文):南京邮电大学柔性电子国家重点实验室、先进材料研究院和江苏省神经形态电子重点实验室;香港城市大学材料科学与工程系和太赫兹与毫米波国家重点实验室;湖南大学半导体学院;西北工业大学柔性电子前沿科学中心和柔性电子重点实验室DOI: 10.1038/s41467-026-74047-3本公众号发布的内容(包括但不限于文字、图片、视频、音频及设计素材等),如有侵权,请联系删除。我们始终尊重知识产权,遵守《中华人民共和国著作权法》等相关法律法规,致力于维护健康的内容创作环境。欢迎大家免费投稿,联系邮箱:gel_hub@qq.com