
龙哥推荐理由:
以前的人体生成方法,遇到复杂遮挡或罕见姿态就容易“翻车”。南京理工这篇工作巧妙地把3D人体先验(法线图+颜色提示)灌进扩散模型里,不仅解决了遮挡问题,还能用自重建微调保细节。一张图,任意摆,效果确实顶!
原论文信息如下:
论文标题:
One-Shot Novel View and Pose Human Image Synthesis via 3D Prior Guided Diffusion Model
发表日期:
2026年06月
发表单位:
南京理工大学 (Nanjing University of Science and Technology)
原文链接:
https://arxiv.org/pdf/2606.19718v1.pdf
开源代码链接:
https://github.com/Yankeegsj/3DPGDM
在VR/AR、数字人、影视制作等领域,一个核心需求是:给定某个人的一张照片,能否让他/她在任意视角、任意姿态下“活”起来?这个需求的学术名称是“单样本新视角与新姿态人体图像合成”。简单说就是——给你一张我站着的照片,你能不能生成一张我坐着的、甚至是倒立的照片,而且每个角度看起来都像真的?引言:从单张图像到新视角与新姿态的人体合成挑战
这个挑战的难点在于,生成的人体外观、纹理和形状细节必须与参考图像高度匹配,同时新视角和新姿态也要符合输入要求。目前业界主要有两条路线:一是基于通用化人体NeRF的方法,二是基于姿态迁移的方法。NeRF路线(如SHERF、MPS-NeRF)擅长处理参考图中可见的部分,但对于被遮挡或不可见的区域,由于无法建立可靠的像素级对应关系,提取的特征不准确,生成结果会模糊甚至出错。姿态迁移路线(如PIDM)则能生成视觉质量更高的图像,但遇到复杂姿态(比如身体严重自遮挡)时,仅靠模糊的2D关键点根本无法准确表示人体形状,结果往往“车祸现场”。
图2:PIDM在复杂目标姿态(存在自遮挡)下的失败案例南京理工大学的研究团队深刻洞察到这两条路线各自的瓶颈,提出了一个“取其精华,去其糟粕”的方案——3DPGDM (3D Prior Guided Diffusion Model)。核心思路是:用扩散模型来保证图像的高视觉质量,同时引入3D人体先验(3D法线图和颜色提示图)作为更精准、信息量更丰富的条件,来提升生成的保真度。
图1:本文提出方法的总体框架概览。给定参考图像 x0 和目标姿态 p2d,模型通过一个去噪扩散模型预测目标图像 y0。引入3D先验引导和基于自重建的定制化微调,以增强图像保真度。方法概述:3D先验引导的扩散模型与自重建微调
研究团队将复杂的人体合成任务分解为一系列条件去噪步骤。模型的核心是一个U-Net架构,它接收噪声图像、2D姿态、3D法线图和颜色提示图作为输入,通过跨注意力机制与参考图像的多尺度特征进行交互,逐层推理去除噪声。其中,3D先验是点睛之笔。3D法线图:从SMPL模型生成人体网格,并渲染其法线图。相比传统的2D关键点,3D法线图蕴含了丰富的几何和深度信息,能精确建模人体姿态和体型,即使在严重自遮挡的情况下也能建立目标与参考人体之间更准确的映射关系。
图3:3D法线图与2D姿态的比较。3D法线图能更准确表示复杂姿态和人体体型。颜色提示图:这是本文的一个巧妙设计。它利用3D人体网格,将参考图像上的像素颜色显式地“投影”到目标姿态和目标视角下的可见顶点上,形成一个稀疏的颜色指引图。这相当于直接告诉扩散模型:“目标人物的衣服应该是这个颜色,这个纹理。” 它能有效保持外观的一致性,解决几何对了但颜色乱了的问题。
图4:颜色提示图的动机与效果。3D法线图确保了几何一致性,而颜色提示图则进一步保留了外观和纹理细节。即使有了3D先验,模型在处理未见过的新人物时,局部细节(如面部特征、衣物印花)仍可能丢失。为此,论文提出了一种测试时的微调策略。具体来说,将原始参考图像本身作为“目标图像”,用当前模型尝试“重建”它。在这个过程中,模型学习并记住了该人物的个性化细节(如脸上的痣、手表上的logo)。这个微调过程仅需约90秒,但能显著提升生成图像与输入的细节一致性。实验:在公开数据集上超越所有基线方法
研究团队在两大公开数据集 RenderPeople 和 THuman 上进行了严格的定量和定性评估,并与当前最先进的方法(包括NeRF派的SHERF、MPS-NeRF,以及姿态迁移派的PIDM、DisCo、Champ等)进行了对比。
表1:在RenderPeople数据集上与最优方法的比较。↑表示越高越好,↓表示越低越好。
图6:在RenderPeople数据集上的定性结果比较。第一到三行为新视角结果,第四到六行为新姿态结果。从结果看,本文提出的方法在所有指标上都实现了全面领先。在新视角合成任务中,PSNR达到了23.29,SSIM达到了0.91,LPIPS降到了0.07,显著优于现有方法。这意味着生成结果不仅在像素级别上更准,在视觉感知上也更真实。特别地,在更具挑战性的新姿态合成任务中,本文方法的LPIPS相比之前的最佳方法SHERF降低了近一半(从0.13降至0.07),充分证明了其在处理复杂姿态时的强大能力。
图9:跨数据集(RenderPeople → THuman)验证的定性结果。更好的视觉效果表明更强的跨数据集泛化能力。在THuman数据集上,本文方法同样取得了最优性能,尤其是在感知相似度(LPIPS)和FID指标上优势巨大。在更具挑战性的跨数据集测试(用RenderPeople训练的模型直接在THuman上测试)中,本文方法的泛化能力也最为突出。分析与讨论:方法优势与局限性
通过一步步的消融实验,论文清晰地展示了每个模块的贡献。
图8:本文方法的分步改进示意图,展示了3D先验引导和自重建微调的效果。更值得注意的是,实验证明本文提出的自重建微调策略具有良好的通用性,它作为一个即插即用的模块,甚至可以帮助PIDM等其他方法提升效果。然而,论文也坦诚地分析了其局限性:当使用HMR2.0这样的估计器来替代地面真值SMPL参数进行实验时,所有方法的性能都有明显下降。这表明,3DPGDM在真实世界场景中的应用效果,很大程度上受限于大SMPL姿态估计器的精度。 一旦输入的3D先验“错了”,输出的图像质量就会大打折扣。尽管如此,本文依然展示了一个非常有趣的应用——单图像3D人体重建。通过本文模型生成的多视角图像,能够成功恢复出细节丰富的3D人体网格。
图10:基于本文方法的单图像3D人体重建应用示例。方法:3D先验引导的扩散模型与自重建微调
这一章咱们来深入拆解一下本文的核心设计。论文将任务定义为:给定一张参考图像 x0(附带其相机参数和SMPL参数),以及目标姿态p和目标视角v,目标是生成一张精确匹配该姿态和视角的人体图像 y0。整个框架基于条件去噪扩散概率模型(DDPM),把复杂的单步映射拆成了一连串条件去噪步骤,每一步都更简单可控。
图5:PIDM在细节错误或缺失上的失败案例。放大查看细节。本方法参考了PIDM的网络结构,包含三个可学习部件:去噪网络(UNet)、参考图像编码器、以及跨注意力模块。去噪网络接收噪声图像 y_t,和一堆条件拼在一起作为输入;参考编码器从源图像提取多尺度特征 f_r;然后通过逐层的跨注意力,让去噪过程“看到”参考图像的样子。但与PIDM最大的不同在于条件的设计。PIDM只用2D姿态骨架图,而本文把3D人体先验当作了“超级辅助”。具体来说,模型在训练时学习预测添加的噪声,优化目标是最小化预测噪声与真实噪声的均方误差(L_D),再加上一个变分下界损失 L_vlb 来让扩散模型学得更好。最终整体损失是 L = L_D + L_vlb。这是本文真正的创新点。论文从SMPL人体模型出发,针对每一帧人体,都可以生成一个3D网格(6890个顶点)。从这个网格可以渲染出两样东西:法线图(Normal Map)和颜色提示图(Color Prompt)。3D法线图:相比2D关键点那种“平面小人”,法线图能刻画3D的曲面朝向,包含了深度和体型信息。即使目标姿态有严重的自遮挡(比如手臂和腿重叠),法线图依然能清晰地表示人体几何。在参考编码器输入时,将参考法线图与原始图像拼接,让模型在跨注意力中能隐式地建立像素级的人体对应关系。实验证明,法线图对复杂姿态的鲁棒性远超2D姿态。颜色提示图:几何对了不代表颜色也对。颜色提示图的设计非常巧妙——它从参考图像的像素颜色“投影”到目标姿态的可见顶点上,生成一张稀疏的颜色指引图。具体做法是:先根据参考SMPL参数生成参考网格Mr,将Mr的每个顶点投影到参考图像上取色,然后把这些颜色映射到目标网格M的对应顶点上,再渲染到目标视角。由于人体自遮挡,只有目标视角下可见的顶点才被激活为有效点(有效点很稀疏,所以将每个点的颜色扩充到周围1像素半径内)。这样,扩散模型在去噪时就能直接知道目标区域大概应该是什么颜色,大大减少了外观混乱的情况。图4已经清晰地展示了“只有法线图时颜色容易飘,加上颜色提示图后纹理就稳了”。自重建定制化微调(Customized Refinement)
即使有了3D先验,模型在未见过的角色上仍可能丢失高频细节(比如脸上的痣、衣服上的Logo)。为此,论文提出了测试时的微调阶段:将模型的输入参考图像x0同时当作“目标图像”,用当前生成器去重建它。这样做的本质是利用单样本进行自监督学习,让模型记住该人物的个性化细节。微调只需要100步(默认λ=100),约90秒,而且只针对每个身份优化一次,后续生成多张不同姿态的图像时可以复用。消融实验显示,这个微调能显著提升PSNR约1-2个点,LPIPS降低0.03-0.05。实验:在公开数据集上超越所有基线方法
论文在两类大规模人体数据集上进行了全面评估:RenderPeople(450训练/30测试,每个对象36个视角)和THuman(191训练/10测试,每个对象46个视角)。评估指标包括PSNR(像素精确度)、SSIM(结构相似度)、LPIPS(感知相似度,越低越好)和FID(真实感,越低越好)。所有方法都按照统一的实验设置训练和测试。从定量结果看(表1),本方法在所有指标上均达到最优。尤其在新视角合成任务中,PSNR达到23.29,SSIM 0.91,LPIPS低至0.07,相比之前最好的SHERF(LPIPS 0.12)提升了近一半。在新姿态合成(更难的任务)中,LPIPS从0.13降至0.07,降幅超过46%。FID也大幅降低,说明生成图像的整体真实感更强。图6的定性对比更直观:NeRF方法(MPS-NeRF, SHERF)在遮挡区域模糊且常出错(比如衣服标签乱放);其他姿态迁移方法(PIDM, DisCo, Champ)要么手腿断裂,要么面部不像;而本文的方法在复杂姿态下依然保持面部一致、四肢完整。
表2:在THuman数据集上与最新方法的定量比较。↑表示越高越好,↓表示越低越好。在更粗糙的THuman数据上(来自3D扫描,质量较低),本文方法在LPIPS和FID上依然大幅领先,表明感知质量优势明显。仅在PSNR和SSIM上略低于SHERF,因为SHERF在可见区域能建立更精细的像素级对应。但考虑到LPIPS和FID更符合人类视觉,整体还是本文更优。跨数据集测试(用RenderPeople训练,直接测试THuman)的结果表明,本文方法的泛化能力最强,视觉效果更稳定(图9)。分析与讨论:方法优势与局限性
表3:3D先验引导(3D法线图3DN和颜色提示CP)以及自重建定制化微调(SR)的影响。从表3可以看出,去掉法线图或颜色提示都会导致性能明显下降。单独用2D姿态时LPIPS为0.13,加上法线图后降至0.09,再加上颜色提示进一步降至0.07,最终加上自重建微调降至0.07(其实后面微调主要提升PSNR和SSIM)。这证实了每个模块的贡献。
表4:本文提出的自重建定制化微调(SR)在不同生成器上的泛化性。表4显示,自重建微调不仅对本方法有效,还能帮助PIDM等其他生成器提升效果,说明它是一个通用的测试时适应模块。但论文也坦诚地指出局限性:当使用HMR2.0(一种SMPL估计器)替代地面真值SMPL参数时,所有方法性能都下降明显(表7)。这意味着3DPGDM在实际应用中高度依赖3D姿态估计的精度。如果估计出的SMPL不准确,生成的图像质量会大打折扣。这是当前方法落地的主要瓶颈。
表7:条件引导准确性对RenderPeople数据集的影响。✓表示使用地面真值(GT)条件,×表示使用HMR2.0预测的条件。龙迷三问
SMPL模型是什么?为什么用它?SMPL(Skinned Multi-Person Linear)模型是一种参数化的人体网格模型,用姿态参数α和形状参数β可以生成6890个顶点的3D人体网格。它能够提供人体的几何信息和对应关系,是人体分析与生成领域的“瑞士军刀”。本文利用SMPL生成3D法线图和颜色提示图,为核心条件提供准确的3D先验。
本文的“单样本(one-shot)”具体指什么?指测试时每个身份只提供一张参考图像,而不需要像HumanNeRF那样对每个人进行多视角优化。虽然本文的自重建微调用了参考图像本身进行微调,但仍然是只需要一张图,符合“one-shot”定义。
本文与Champ的区别是什么?Champ同样使用了3D法线图,但还额外引入了深度图、语义图和2D骨架图,模块复杂且难以保证各条件的一致性。而本文仅用“法线图+颜色提示图”两个3D先验,更加简洁且高效。实验结果显示本文在PSNR、SSIM、LPIPS等指标上全面超越Champ。
如果你还有哪些想要了解的,欢迎在评论区留言或者讨论~龙哥点评
论文创新性分数:★★★☆☆
思路清晰,将3D先验(法线图+颜色提示)注入扩散模型是有效且直接的创新,但类似想法(如使用法线图)已有Champ等工作,本文核心增量在颜色提示图和自重建微调的组合。实验合理度:★★★★★
实验设计非常规范:在两大数据集上与所有主流方法对比,消融实验完整,还做了跨数据集泛化和自重建微调的通用性验证,比大多数工作都扎实。学术研究价值:★★★★☆
为如何更有效地利用3D先验指导扩散模型提供了很好的范式,自重建微调思路也可推广到其他生成任务中。稳定性:★★★☆☆
在实验室条件下效果稳定,但依赖SMPL估计器的精度,实际应用时估计误差会导致质量下降。自重建微调能稍微弥补,但无法完全消除。适应性以及泛化能力:★★★★☆
跨数据集泛化表现优秀,对不同姿态、视角的适应性强。但泛化能力仍然受训练数据集的限制(主要是渲染数据,真实场景数据未充分测试)。硬件需求及成本:★★★☆☆
训练需要8张RTX 3090Ti(24GB),推理生成单张256x256图像约3秒,自重建微调约90秒(每个身份一次)。成本尚可,但高分辨率生成可能会有更高需求。复现难度:★★★★☆
代码即将开源,方法描述清晰,SMPL渲染步骤有标准工具,复现难度中等偏低。但需要自行准备SMPL参数渲染的数据管线。产品化成熟度:★★☆☆☆
目前仍处于研究阶段,对3D姿态估计的依赖限制了直接产品化。但若能结合稳健的SMPL估计器(如4D人体捕捉),有可能用于数字人、虚拟试穿等场景。可能的问题:论文主要还是在渲染数据上评估,真实世界图像的测试不够充分;自重建微调增加了推理耗时,且微调步数λ(默认100)对性能敏感,需要人工调整;颜色提示图只考虑了可见顶点,对于完全被遮挡的区域,仍依赖扩散模型“脑补”,有时会生成模糊的纹理。[5] PIDM: Person Image Diffusion Model. CVPR 2023.[4] SHERF: Generalizable Human NeRF from a Single Image. ICCV 2023.[41] DisCo: Disentangled Control for Dance Synthesis. CVPR 2023.[45] Champ: 3D-guided Diffusion for Human Image Animation. CVPR 2024.[9] SMPL: A Skinned Multi-Person Linear Model. ACM Trans. Graph., 2015.*本文仅代表个人理解及观点,不构成任何论文审核或者项目落地推荐意见,具体以相关组织评审结果为准。欢迎就论文内容交流探讨,理性发言哦~ 想了解更多原文细节的小伙伴,可以点击左下角的"阅读原文",查看更多原论文细节哦!