
生成技术的飞跃式发展带来了一系列严峻的安全隐患与社会信任危机。近年来,诸如CLIP之类的大规模多模态预训练模型已成为检测人工智能生成图像的强大工具。但现有方法但对其进行微调往往会导致灾难性遗忘,从而削弱可迁移的先验知识和预训练嵌入空间的几何结构。因此,微调后的模型可能过度拟合特定数据集的模式,而不是学习能够跨不同生成机制泛化的伪影表征。
为此,我们提出DGS-Net方法。首先,我们引入了一种梯度空间分解策略,其中任务梯度的正半空间被定义为有害方向,负半空间被定义为有益方向。在此基础上,我们首先将训练网络的图像梯度投影到由文本梯度估计的有害方向的正交补空间上,从而有效地抑制与检测任务无关的分量;同时,我们利用从冻结的CLIP图像编码器中提取的有益下降方向来指导训练网络表征的轻量级对齐,从而保留预训练期间获得的迁移先验知识,如图1所示。
图1 DGS-Net网络框架图
为了验证本文所提方法的泛化性能,我们使用AIGIBench中的训练集进行训练,并且在两个公开数据集AIGCDetectBench和AIGIBench的包含50个不同生成方法上进行实验。如图2和图3所示,我们的方法比最先进的方法平均领先6.6%,实现了更优异的检测性能和泛化能力。
图2 在AIGCDetectBench上的泛化性实验
图3 在AIGIBench上的泛化性实验
论文信息
相关论文已被ICML 2026接收 (Spotlight,Top2.2%)。作者为南京信息工程大学网络空间安全学院、数字取证教育部工程研究中心的颜嘉震、李梓强、王博宇、何子文、付章杰和澳门大学王帆,通讯作者为付章杰教授,联合指导老师为李梓强副教授。
Jiazhen Yan, Ziqiang Li, Fan Wang, Boyu Wang, Ziwen He, Zhangjie Fu*. DGS-Net: Distillation-Guided Gradient Surgery for CLIP Fine-Tuning in AI-Generated Image Detection[C]//International Conference on Machine Learning, 2026.
论文地址:https://arxiv.org/pdf/2511.13108
代码地址:https://horizontel.github.io/DGS-Net/
供稿:颜嘉震
义务编辑与校对:薛禹良博士