南京大学王利民教授及博士生涂浚、武港山教授,在《计算机学报》发表论文“基于结构引导的人体姿态估计框架”,该文摘要如下。
扫描二维码或点击“阅读原文”可查看全文。
予人玫瑰,手有余香。欢迎转载、转发,欢迎点“小红心”。
近年来,2D人体姿态估计作为计算机视觉中的基础任务,广泛应用于行为识别、人机交互等领域。尽管基于深度学习的姿态估计方法取得了显著进展,但在多人拥挤、遮挡复杂及低分辨率等实际场景下,现有方法往往面临结构信息利用不足、优化路径粗糙等问题,导致模型的姿态结构建模能力有限、泛化鲁棒性不强。
为此,本文提出了一种基于结构引导的多步优化框架,将姿态估计过程建模为从初始粗略预测逐步优化至结构合理目标的多阶段演化路径。该框架通过显式构造渐变图序列,引导网络在每一步预测中持续融合结构先验信息,并在训练与推理阶段保持结构引导路径的一致性,从而有效提升模型的结构建模能力与预测稳定性。系统性消融实验表明,所提出的渐变图序列和路径一致性设计对于提升关键点定位精度和结构约束能力具有显著效果;参数敏感性分析进一步验证了插值步数与调度策略等可调参数对模型性能的影响。
在COCO和CrowdPose等主流数据集上的实验结果表明,本文方法在HRNet-W48骨干网络下、CrowdPose验证集上取得77.6mAP,超过当前先进方法TransPose-H(76.3mAP);在COCO验证集256×192分辨率和检测框设定下同样实现了75.6mAP,与主流Transformer方法持平或更优,验证了本方法在多种复杂场景下的有效性与通用性。