将WPDSI与ResNet50、MobileNetV3、EfficientNetV2、RepVGG、SCNet、STViT、PhenoNet等7种主流图像分类模型进行对比,所有模型均采用相同的数据划分与训练策略。
WPDSI与教师模型的精度差距仅为0.8%,但输入数据量仅为后者的1/30;
相比专门针对小麦生育期设计的PhenoNet模型,WPDSI精度提升2.5%;
相比基础ResNet50模型,WPDSI精度提升4.5%;
在所有对比模型中,WPDSI的MAE最低(0.075),表明预测误差最小。
从混淆矩阵(Fig. 3)可以看出,所有模型在拔节期(3)、孕穗期(4)、抽穗期(5)、开花期(6)四个连续阶段均存在一定程度的误判。这一现象可归因于:该时段小麦形态变化呈渐进性(茎秆逐渐伸长、叶片角度缓慢变化、麦穗尚未完全抽出),缺乏明显的视觉突变特征。
相比之下,WPDSI的混淆矩阵对角线分布最为显著,尤其在上述四个易混淆阶段的误判率明显低于其他对比模型。这表明知识蒸馏与注意力迁移的联合优化策略有效增强了模型对细微形态差异的捕捉能力。
为检验模型在实际应用场景中的泛化能力,研究使用第一年数据训练完成的模型,直接对第二年采集的25,002张单时相图像(不同品种、不同种植密度、不同施氮水平、不同气象条件)进行预测,未作任何微调。
泛化能力测试结果:
结果表明,模型在完全未见过的数据集上仍保持了91.7%的总体精度,各指标下降幅度均在可接受范围内,说明WPDSI具备良好的跨年份、跨品种、跨栽培管理的泛化能力。
研究对各网络层的注意力图进行了可视化分析,以揭示模型的特征提取机制(Fig. 6)。主要发现如下:
这一分层特征提取模式符合卷积神经网络的一般规律:浅层网络提取低级几何特征,深层网络提取高级语义特征。值得注意的是,第2层注意力主要集中于土壤背景,该层信息的迁移并未带来性能提升,提示在注意力迁移策略中应选择性选取有效网络层。
上述结果验证了知识蒸馏与注意力迁移在功能上的互补性:前者负责传递教师模型的输出分布知识,后者负责传递中间层的特征表示知识,二者协同作用实现了最佳的检测性能。