当前位置：首页>南京>南京信息工程大学新研究:H.265视频隐写术的“隐身”秘诀,让秘密信息在压缩中“消失”

南京信息工程大学新研究:H.265视频隐写术的“隐身”秘诀,让秘密信息在压缩中“消失”

2026-06-23 06:16:14

🐉 龙哥读论文知识星球来了！
想了解如何像这篇论文一样，洞察编码标准的“隐藏”规律，设计出更安全的隐写术吗？星球每日更新视频编码、信息安全等领域的前沿论文、开源代码和行业动态，帮你快速抓住核心创新点，节省90%调研时间！👇扫码加入「龙哥读论文」知识星球，前沿干货、实用资源一站式拿捏～

龙哥推荐理由：
这篇论文从一个非常巧妙的视角切入——编码器自身的“修复”特性，解决了视频隐写术领域一个长期存在的痛点：抗隐写分析能力弱。它不仅提出了一个有效的解决方案，更重要的是，它揭示并量化了现有方法失效的根本原因（CBSSM度量），这种“发现问题-分析问题-解决问题”的完整逻辑链条，在工程和学术上都很有价值。对于从事多媒体安全、信息隐藏的同学来说，这是一篇兼具启发性和实用性的佳作。

原论文信息如下：

论文标题:
A Video Steganography for H.265/HEVC Based on Multiple CU Size and Block Structure Distortion 发表日期:
2026年03月发表单位:
南京信息工程大学数字取证教育部工程研究中心；广州大学人工智能学院原文链接:
https://arxiv.org/pdf/2603.22850v1.pdf

大家好，我是龙哥。今天咱们来聊点“隐秘”的话题——不是娱乐圈的八卦，而是正儿八经的视频隐写术。

想象一下，你有一份绝密情报，想通过公开的网络发送给同伴。直接发明文文件？太危险。加密？虽然别人看不懂内容，但“加密文件”本身就像个穿着防弹衣的特工，非常扎眼。

最高明的隐藏，是“大隐隐于市”。把信息藏在人人都看的视频里，像素和色彩没有丝毫变化，对手连“有隐藏信息”这件事本身都察觉不到。这就是隐写术的魅力。

其中，基于H.265/HEVC视频压缩标准的隐写术是主流。但最近，南京信息工程大学和广州大学的团队发表了一篇论文，指出了一个致命的漏洞，并给出了一个堪称“隐形衣升级版”的新方案。

隐写术的“阿喀琉斯之踵”：为何现有视频隐写容易被发现？

要理解这个漏洞，我们得先知道视频隐写术怎么“藏东西”。在H.265/HEVC这类现代视频编码标准中，视频被切分成一个个方块进行压缩，这个方块叫做编码单元。

CU可以根据图像内容的复杂程度，选择是否继续分割成更小的子块。最终，一帧图像会被分割成一个由大大小小方块组成的“块结构”树。

一种很聪明的隐写思路是：修改这个块结构来携带秘密信息。比如，规定“分割”代表比特1，“不分割”代表比特0。由于只是改变了方块的分割方式，没有动像素值，所以视觉上几乎看不出差别，码率（文件大小）增加也少。听起来很完美，对吧？

但论文的作者们发现，这类方法有个致命的“阿喀琉斯之踵”。虽然人眼看不出来，但专业的隐写分析工具却能轻易地把它们揪出来。这是为什么？秘密就藏在编码器自身的“修复”特性里。

洞察核心：H.265/HEVC编码中神秘的“块结构恢复现象”

本论文的第一个重大贡献，就是发现并命名了一个关键现象：CU块结构恢复现象。

简单说就是：无论你如何强行修改视频的CU分割结构，只要对这个修改后的视频进行“重新压缩”，它的块结构就会神奇地恢复成与原始视频非常接近的样子。

图1：块结构恢复现象。(a) 一个32x32 CU的原始块结构。(b) 模拟隐写过程修改后的块结构。(c) 重新压缩后的修改块结构。

看上面的图1，是不是很神奇？(b)图被改得面目全非，但一经过重新压缩（c图），就变得和原始(a图)几乎一样了。这就像你用笔在一张有折痕的纸上胡乱画线，然后用力抚平，纸张还是会大致按照原来的折痕折叠。

为什么会这样？根源在于H.265/HEVC编码器的率失真优化。编码器在选择如何分割一个CU时，本质是在计算一个“成本”：分割得细，能更好地保留细节（失真小），但需要更多比特来描述（码率高）；分割得粗，码率低但失真可能大。编码器会选择总成本最低的那个方案。

这个成本函数J_cs(x) = D_cs(x) + λ R_cs(x)，其中D是失真，R是码率，λ是权衡系数。

原始视频的块结构，是编码器为原始像素计算出的“最优解”。当你强行修改块结构（比如在平滑区域强行分割），你就引入了一个“次优解”。重新压缩时，编码器会再次为（因量化而略有改变的）像素计算成本，只要原始最优解的成本优势足够大，它大概率会再次胜出，从而导致块结构“恢复”到原始状态。

论文通过理论推导（基于RDO差异下界和Lipschitz假设）和大量实验证实了这一点。他们统计发现，超过85%的CU在重新压缩后，其块结构会保持不变。

图4：平均RDO差异分布图。红点（块结构未变）对应的RDO差异显著大于蓝点（块结构改变）。

那么，这和隐写术被发现有什么关系呢？关系大了！隐写分析者可以模拟“重新压缩”这个过程。如果一个视频的块结构在重新压缩前后变化巨大，那就强烈暗示它被“强行修改”过，从而暴露隐写行为。

量化破绽：CU块结构稳定性度量（CBSSM）的提出

光有定性观察还不够，得有定量的“尺子”来测量这种破绽。为此，论文提出了CU块结构稳定性度量，它的英文全称是 CU Block Structure Stability Metric (CBSSM)。

CBSSM由两个子指标构成：

块数量不变度量：衡量重新压缩前后，各种尺寸的CU块在数量上是否保持一致。如果隐写粗暴地改变了很多块的分割，这个值就会下降。

块结构不变度量：衡量重新压缩前后，每个具体位置的CU块结构是否保持一致。即便块数量没变，但内部结构被改乱了，这个值也会下降。

一个正常的、未被隐写的视频，重新压缩后其CBSSM值会很高（接近1）。而一旦用现有方法嵌入信息，CBSSM值就会显著降低，如下图实验所示：

图5：使用CBSSM特征检测两种现有隐写算法。绿条（隐写后）的BQUM和BSIM值相比红条（原始/重新压缩）大幅下降，说明它们极易被检测。

看，这就是现有方法的死穴！CBSSM就像一面“照妖镜”，让它们无所遁形。那么，如何打造一件能通过这面镜子检查的“隐形衣”呢？论文给出了一个精妙的三合一方案。

巧妙隐身：基于多CU尺寸和三级失真的新隐写方案

新方案的核心思想很清晰：既然“块结构恢复”是导致被检测的原因，那我们就反其道而行之——第一，尽量少改块结构；第二，要改就改那些“本来就会变”的地方。

整个方案的框架如下图所示：

图2：所提方案的框架

1. 映射规则：温柔地编码

为了让修改幅度最小，新方法首先设计了一个基于多CU尺寸的映射规则。它将I帧中所有（除了64x64，因为太大容易引起注意）的CU块，按照其尺寸映射成一个二进制序列：

- 32x32, 16x16, “8x8不分割” 的块 -> 映射为比特 ‘0’ - “8x8分割成4个4x4” 的块 -> 映射为比特 ‘1’

关键的限制来了：在后续修改这个二进制序列来嵌入秘密信息时，只允许每个CU的修改深度不超过1。这意味着，一个32x32的块最多只能被分割成4个16x16，而不会被暴力地一路分割到4x4。这样就最大限度地保留了原始块结构的“骨架”。

2. 三级失真函数：在“地震带”上施工

光“少改”还不够，还得“改对地方”。为此，论文提出了一个基于块结构的三级失真函数。

它的工作原理是这样的：在嵌入信息前，先对原始I帧做一次“模拟”的重新压缩，然后对比每个CU在重新压缩前后的块结构变化程度。

根据变化大小，将所有CU分为三类，并赋予不同的“失真代价”：

情况1：稳如泰山。重新压缩后块结构完全没变（MDD=0）。这种CU是“顽固派”，你强行修改它，它以后也会恢复原样，从而留下把柄。因此，给它分配很高的失真代价，让隐写算法尽量别碰它。

图6：情况1的示例CTU（黄色标记）。重新压缩后结构完全不变。

情况2：小有变动。重新压缩后块结构有轻微变化（MDD=1）。这种CU是“摇摆派”，可以修改，分配中等失真代价。

图7：情况2的示例CTU（红色标记）。重新压缩后结构有轻微变化。

情况3：剧烈变动。重新压缩后块结构发生显著改变（MDD>1）。这种CU本身就处在“地震带”上，其块结构非常不稳定。在这里进行隐写操作，就像是“顺水推舟”，即使不改，它自己下次压缩时也可能大变样。因此，给它分配很低的失真代价，鼓励隐写算法优先在这里“施工”。

图8：情况3的示例CTU（蓝色标记）。重新压缩后结构发生剧烈变化。

3. 合成隐写STC

最后，将映射得到的二进制序列、秘密信息、以及计算好的三级失真代价，一同输入STC算法。STC的全称是Syndrome-Trellis Codes，它是一种经典的失真最小化嵌入编码。简单理解，STC就像一个“智能调度员”，它会在满足信息嵌入量的前提下，优先选择失真代价低的CU进行修改，从而在整体上实现最隐蔽的嵌入。

整个过程可以通过下图示例来直观理解：

图9：所提隐写方案示例

全面胜出：新方法在视觉、码率、容量和安全性上的卓越表现

理论很美好，实战怎么样？论文在33个标准测试视频上，与4种最先进的基于块结构的隐写算法进行了全面对比。实验设置如下：

表I：YUV测试序列

结果可谓“全面胜出”。新方法不仅在核心目标——抗隐写分析上大幅领先，在传统的视觉质量、码率控制和嵌入容量指标上，也表现优异或相当。

视觉质量与码率控制

∆PSNR (值越小越好) 衡量由隐写引起的画质下降程度；BIR (值越小越好) 衡量由隐写引起的码率（文件大小）增加比例。

表II：五种算法的平均∆PSNR (dB·10⁻¹，↓值越小越好)

表III：五种算法的平均BIR (10⁻¹，↓值越小越好)

可以看到，新方法（Proposed）在绝大部分情况下，∆PSNR和BIR都是最低的，意味着它引起的画质下降和文件大小增加是最轻微的。

嵌入容量

表IV：五种算法的平均容量 (bits，↑值越大越好)

在嵌入容量上，新方法显著超越了Tew和Yang的方法，与表现最好的Wang方法处于同一水平。这意味着在获得极高安全性的同时，并没有牺牲携带信息的能力。

抗隐写分析能力（安全性）

这是本论文的核心战场。作者用三种隐写分析工具进行测试：两种通用的帧内/帧间分析器，以及他们自己提出的CBSSM分析器。检测准确率越接近50%（随机猜测水平），说明隐写术越安全。

表V：五种算法对帧内和帧间隐写分析的检测准确率 (→50% 越好)

表VI：五种算法对CBSSM隐写分析的检测准确率 (→50% 越好)

结果令人印象深刻：

1. 对抗通用分析器：新方法的检测准确率在所有对比算法中最接近50%，尤其在低嵌入率（0.1 bpc）时优势明显。

2. 对抗CBSSM分析器（照妖镜）：这才是真正的“杀手锏”测试。其他所有方法在CBSSM下的检测准确率都远高于50%（容易被抓），而新方法的准确率几乎完美地保持在50%左右！这直接证明了新方案有效克服了“块结构恢复”导致的漏洞，穿过了自己设计的“照妖镜”。

论文还通过消融实验，证明了三级失真函数的关键作用。没有它，方案的抗检测能力会明显下降。

表VII：带与不带失真函数的所提方案结果对比

未来展望：从“隐藏信息”到“对抗检测”的持续进化

这篇论文标志着视频隐写术研究范式的一次重要转变：从单纯追求“如何把信息藏进去”，升级到“如何藏得让最先进的检测器也找不出来”。它通过深入理解编码器自身的工作原理（块结构恢复），来指导设计更安全的隐写方案，这种思路非常有启发性。

当然，这场“猫鼠游戏”永远不会结束。未来的挑战可能包括：

1. 更智能的检测器：针对新方法的特点，设计新的分析特征。

2. 面向新一代编码标准：如H.266/VVC，其编码工具更复杂，块结构划分方式更多样（如几何划分），这既带来了新的隐藏机会，也提出了新的安全挑战。

3. 实际部署考量：本方法需要“重新压缩”来计算失真，增加了计算开销。如何平衡安全性与实时性，是实用化需要解决的问题。

龙迷三问

下面是龙哥对于大家可能的一些问题的解答：

什么是视频隐写术？和加密有什么区别？加密是把信息变成乱码，别人知道你在传秘密但看不懂内容。隐写术是直接把秘密信息藏在普通的多媒体文件（如图片、视频）里，让别人根本察觉不到有秘密信息的存在，从而实现“隐蔽通信”。一个改内容，一个藏存在。

论文里的CU具体指什么？CU是Coding Unit的缩写，中文叫编码单元。它是H.265/HEVC等现代视频编码标准中的基本处理单位。编码器会把一帧图像划分成许多个CU，然后对每个CU独立进行预测、变换、量化等压缩操作。CU的大小可以是64x64, 32x32, 16x16, 8x8等。

STC算法是干什么的？STC是一种编码技术，用于实现“失真最小化嵌入”。你可以把它想象成一个非常聪明的“替换工”。给出一串原始的载体比特（比如视频块结构映射的0/1序列）、要隐藏的秘密信息、以及每个载体比特修改的“代价”（即失真函数），STC能计算出一个修改方案，用最小的总代价（对原始载体改动最轻微）来携带秘密信息。它是现代自适应隐写术的核心组件之一。

如果你还有哪些想要了解的，欢迎在评论区留言或者讨论~