CN102724554A

CN102724554A - 一种基于场景分割的视频资源语义水印嵌入方法

Info

Publication number: CN102724554A
Application number: CN2012102247156A
Authority: CN
Inventors: 邢玲; 胡金军; 马强
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest Jiaotong University; Southwest University of Science and Technology
Priority date: 2012-07-02
Filing date: 2012-07-02
Publication date: 2012-10-10
Anticipated expiration: 2032-07-02
Also published as: CN102724554B

Abstract

本发明公开了一种基于场景分割的视频资源语义水印嵌入方法，首先生成含内容语义信息、控制语义信息以及可选物理属性信息的视频语义信息集，然后对视频资源的原始视频序列进行分割，选择纹理复杂度较高和帧间变化比较剧烈的场景视频序列作为目标场景视频序列，在对目标场景视频序列压缩编码时，将控制语义信息、物理属性信息嵌入每个图像组的I帧，内容语义信息嵌入非I帧，生成含语义水印的压缩码流，将语义信息用纯文本以及映射编码方式表示，然后分别嵌入到目标场景视频序列压缩编码的每个图像组的非I帧和I帧，使语义水印嵌入量增加，鲁棒性增强，同时不会造成视频资源质量显著下降。

Description

一种基于场景分割的视频资源语义水印嵌入方法

技术领域

本发明属于视频资源管理技术领域，更为具体地讲，涉及一种基于场景分割的视频资源语义水印嵌入方法。

背景技术

随着Web2.0技术的诞生，让视频资源弥漫在网络的每个角落，针对格式未统一或标签缺省的语义搜索，变得异常艰难。同时，随着因特网的日益普及和视频压缩技术的飞速发展，广播网、互连网、电信网等新兴的网络服务供应商和机顶盒、计算机、手机等多媒体终端极大地拓展了视频资源的传输及应用范围，从而加剧了视频资源的管理难度，尤其是近年来高清数字电视的急速发展，此时视频资源水印技术责无旁贷的承担起视频资源内容管理的重任。

部分学者利用视频资源语义水印技术实现语义信息和载体信号的一体传输和存储，但网络中大量视频资源以压缩数据的形式存在，采用基于压缩域的语义水印嵌入方案，水印嵌入量非常有限，无法嵌入完整视频语义；采用原始域的水印嵌入方案，水印嵌入后经过频繁的解压缩，极易造成水印信息的丢失，鲁棒性较差，而且频繁的解压缩势必大大降低水印的时效性。

近期，视频资源语义水印技术研究的进展出现一定的滞后，主要是由于现有的视频资源编码标准一定程度上约束了语义水印嵌入的设计，以及针对水印特有的攻击，如帧重组、帧***和帧删减等增加了语义水印嵌入的复杂度。

综上，视频资源内容管理主要存在的难题包括：一是无内容语义描述集导致内容重复冗余度高，二是无传输控制语义集导致视频传播管控难度加大。有学者提出了一种适用于广播安全监视的视频资源水印方案，由版权标识和生成的散列值形成水印信息，以确保视频资源的安全性和水印信息的鲁棒性，但输出端只检查水印的存在与否，完成视频片段认证，在无法获得水印原始信息的条件下，就难以达到对视频资源的内容智能管理。同时，由于视频资源在网上仍然使用统一资源定位符（Uniform Resource Locator，URL）标识其引用，导致同一内容因无强制语义计算而得以重复发布。

因此，针对以上诸多问题，本发明充分利用视频语义理解技术和视频数字水印技术，实现视频语义信息以水印的形式与视频数据流一体传输与存储。这样在任意时间和地点都可以快速恢复出完整的语义信息，以方便终端进行视频资源的智能管理。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于场景分割的视频资源语义水印嵌入方法，以解决语义水印嵌入量有限、鲁棒性较弱的问题，实现语义信息和视频资源的一体传输和存储，保障传播内容的可管、可控、可信。

为实现上述目的，本发明基于场景分割的视频资源语义水印嵌入方法，其特征在于，包括以下步骤：

（1）、视频资源的语义信息标引

在视频资源上载阶段，采用网络测量和数据挖掘技术对视频资源进行语义挖掘，并按照标准视频语义模型进行标引，生成视频语义信息集U{U_1x，U_2y，U_3z}，其中U_1x属于内容语义信息，为纯文本信息，U_2y是控制语义信息，为映射编码信息，U_3z为可选的物理属性信息，为映射编码信息，x、y、z分别代表各自语义信息的元素个数；

（2）、视频资源的原始视频序列的场景分割与选择

基于场景对视频资源的原始视频序列进行分割，得到场景视频序列集，其中场景视频序列集包括有一系列的场景视频序列，一个场景视频序列对应一个场景；

在场景视频序列集中，选择纹理复杂度较高和帧间变化比较剧烈的场景视频序列作为目标场景视频序列，用于嵌入语义水印，其余为非目标场景视频序列；

（3）、压缩编码与语义水印的嵌入

对于非目标场景视频序列，采用常规的编码器，对其进行压缩编码，生成不含语义水印的压缩码流CS^-1；

对于目标场景视频序列进行压缩编码时，在每个图像组（Group of Picture，简称GOP）的I帧图像嵌入控制语义信息U_2y和物理属性信息U_3z，在非I帧图像嵌入内容语义信息U_1x，形成含语义水印的压缩码流CS′；

将不含语义水印的压缩码流CS^-1与含语义水印的压缩码流CS′合并，形成含语义水印的视频资源，完成的视频资源语义水印嵌入。

本发明的发明目的是这样实现的：

本发明基于场景分割的视频资源语义水印嵌入方法，首先对视频资源的语义信息标引，生成含内容语义信息、控制语义信息以及可选物理属性信息的视频语义信息集，然后对视频资源的原始视频序列进行分割得到一系列的场景视频序列，选择纹理复杂度较高和帧间变化比较剧烈的场景视频序列作为目标场景视频序列，在对目标场景视频序列进行压缩编码时，将控制语义信息、物理属性信息嵌入每个图像组的I帧，内容语义信息嵌入非I帧，生成含语义水印的压缩码流，最后与非场景视频序列以及非目标场景视频序列压缩编码的不含语义水印的压缩码流合并，形成含语义水印的视频资源，完成的视频资源语义水印嵌入。

将语义信息用纯文本以及映射编码方式表示，然后分别嵌入到目标场景视频序列压缩编码的每个图像组的非I帧和I帧，使语义水印嵌入量增加，鲁棒性增强，同时不会造成视频资源质量显著下降。

附图说明

图1是本发明基于场景分割的视频资源语义水印嵌入方法一具体实施方式流程图；

图2是本发明中标准视频语义模型的一种具体实施方式结构图；

图3是视频资源原始视频序列在场景分割后的结构图；

图4是宏块的4x4子块的Zig-Zig分布及编码图

图5是4x4子块经过DCT变换后，其变换系数的排列和能量子带分布图；

图6是视频场景分割与选择效果图；

图7是News和Foreman两段视频序列经过本发明方法和JM方法压缩编码后的PSNR图；

图8是水印的嵌入和压缩编码对视频序列的影响，表现为PSNR图；

图9是未受攻击时News视频序列的水印鲁棒性，表现为NC图；

图10是压缩编码、水印的嵌入、噪声攻击分别对视频序列的影响程度，表现为PSNR图；

图11是本发明水印的鲁棒性在不同噪声攻击下效果，表现为NC图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

图1是本发明基于场景分割的视频资源语义水印嵌入方法一具体实施方式流程图。

在本实施例中，如图1所示，本发明基于场景分割的视频资源语义水印嵌入方法包括步骤：

101、对视频资源的原始视频序列进行语义信息标引，得到内容语义信息、控制语义信息以及可选的物理属性信息；

102、对视频资源的原始视频序列进行场景分割，得到一系列的场景视频序列；

103、在场景视频序列集中，选择纹理复杂度较高和帧间变化比较剧烈的场景视频序列作为目标场景视频序列，用于嵌入语义水印，其余为非目标场景视频序列；

104、对于非目标场景视频序列，采用常规的压缩编码，即I帧选择、帧间帧内编码，生成不含语义水印的压缩码流CS^-1；

105、对于目标场景视频序列，首先进行I帧选择；然后对I帧进行帧内预测编码、压缩域水印嵌入，将控制语义信息、物理属性信息作为语义水印嵌入到I帧图像中；对非I帧图像进行原始域水印嵌入、帧间预测编码，将内容语义信息作为语义水印嵌入到非I帧图像中；进行语义水印嵌入的I帧、非I帧图像合并形成含语义水印的压缩码流CS′；

106、将不含语义水印的压缩码流CS^-1与含语义水印的压缩码流CS′合并，判断是否是最后的场景视频序列，如果不是，则返回步骤103，重复直到处理完所有的场景视频序列，形成含语义水印压缩码流，即视频资源，完成的视频资源语义水印嵌入。

在本实施例中，各个步骤的具体实现如下：

1、对视频资源进行语义标引，生成视频语义信息集U{U_1x，U_2y，U_3z}

在视频语义信息集U{U_1x，U_2y，U_3z}中，U_1x属于内容语义信息，为纯文本信息，U_2y是控制语义信息，为映射编码信息，U_3z为可选的物理属性信息，为映射编码信息，x、y、z分别代表各自语义信息的元素个数。

传统的语义标引是基于关键字对标题进行标引，而非视频资源本身，因此这种忽略概念层面或语义层面的标引，很难全面的对视频资源进行准确描述。本发明，在语义理解的基础上，对视频资源进行特征提取，以方便视频资源语义的管理与计算；

在视频资源上载阶段，采用语义理解技术，按照标准语义模型对其进行标引。然而，网络上流通的视频资源的语义标签通常不是缺失就是不全，需要通过网络测量和数据挖掘技术对主流网站上的视频资源进行语义挖掘。

图2是本发明中标准视频语义模型的一种具体实施方式结构图。

视频语义信息集针对不同的应用有不同的语义要求，如针对视频检索，有根据节目提出的语义要求，有根据栏目提出的语义要求；针对网络可控，有针对发布者、接收者、节目分级等方面的语义要求。这些多样的语义需求，要求相对标准的视频语义模型，以实现内容识别、选择、以及业务监管的功能。

在本实施例中，如图1所示，结合视频语义的物理特征，如摘要等纯文本信息，不但信息量大，而且相对控制语义信息鲁棒性较差，构建基于语义理解的视频语义模型，包括：内容语义信息，控制语义信息和可选的物理属性信息。其中内容语义信息为纯文本信息，控制语义信息和物理属性信息为映射编码信息，大大减少了水印信息的嵌入量。

本发明中，可以结合《信息处理现代汉语分词规范》《中文新闻信息分类与编码》和《数字电视广播业务信息规范》等国家标准对控制语义信息、物理属性信息进行映射编码，其中，编码信息如表1所示，嵌入的水印信息为代码，而非纯文本信息。如嵌入信息“AC”，表示“国内要闻的人士任免”。

表1

结合标准视频语义模型和语义信息分类编码标准，可对视频资源进行规范化语义标引，生成视频语义信息集，如表2所示：

由表2可知，内容语义信息，控制语义信息，物理属性信息可对任何一段视频信号进行标引，且均可表示为公式1

U=(U₁₁,U₁₂,…,U_1F;U₂₁,U₂₂,…,U_2F;U₃₁,U₃₂,…,U_3F) （1）

该视频语义信息集U基本上全方位的详细反映了视频资源所要传达的信息，并且充分考虑网络监控者、视频频资源所有者以及普通用户的不同需求，能够在视频资源的规范化管理中发挥重要作用。

2、基于场景对视频资源的原始视频序列进行分割，得到场景视频序列集F

场景指一个镜头所包含的视频序列。同一个场景，帧之间具有很强的相关性，因此可以利用这种时域和空域的相关性对一个场景进行压缩编码。另外，针对传输过程中的主动攻击，如帧删除、帧重组、帧平均，很难出现对整个场景的完全删除或毁灭性的攻击。因此，本发明通过利用场景分割技术，在同一场景的图像组中嵌入相同的水印信息，以增强水印的鲁棒性，提高针对时间同步攻击的自适应抵抗力。

目前场景分割技术已经比较成熟，如像素比较、模板比较、直方图比较等，但他们有些共同的弊端，如方法复杂度较高，实时性不够强。考虑到视频资源水印实时性和视频解码的同步需求，因此，在本实施例中，提出与视频编解码相结合的场景分割技术。

同一场景中帧与帧之间的相关性表现在空间上的相似性和时间上的相似性。其中，空间上的相似性是指邻帧图像的像素值之间的相似性，时间上的相似性即为邻帧间活动目标的运动剧烈程度和背景变换的快慢速度。

针对空间相似性，常用的有帧间差分法，只需比较视频序列图像中相邻帧图像对应像素点灰度的差别，如公式2：

DF(i,j,t)=|I(i,j,t)-I(i,j,t-1)| (2）

M (i, j, t) = \{\begin{matrix} 1 & DF (i, j, t) > Th \\ 0 & DF (i, j, t) \leq Th \end{matrix} - - - (3)

其中(i，j)表示像素点的绝对坐标，t为帧图像的时间，即视频的序列号，Th为参考阈值，DF(i，j，t)表示相邻图像间的帧差图像，I(i，j，t)为当前帧图像，M(i，j，t)表示检测出的运动图像。使用差分图像法在环境变化较大的视频信号中可较好的检测到运动目标，但它很难检测出缓慢变化的目标。

由于图像的能量主要集中在变换域的直流系数DC上，相对离散的像素点具有更稳定的对应关系，并结合视频编解码的子块结构，在本实施例中，选择针对宏块（16x16）的变换域DC系数做比较，如公式4：

Var (k) = \frac{1}{N} Σ_{n_{a} = 1}^{N_{1}} Σ_{n_{b} = 1}^{N_{2}} {(D (k, n_{a}, n_{b}) - D (k - 1, n_{a}, n_{b}))}^{2} - - - (4)

其中D(k，n_a，n_b)表示第k帧图像坐标为(n_a，n_b)的宏块DC系数，Var(k)表示第k帧图像相对于前一帧图像的DC系数改变量，其中N＝N₁*N₂，N₁、N₂为图像宏块的行数、列数。由于宏块DC系数表示宏块图像像素点的均值，所以用宏块像素均值取代宏块的整数DCT变换，进一步降低方法的复杂度。

空间相似性Var(k)越小，表示相邻两帧属于同一场景的可能性就越大，但Var(k)值较大时，既可表示相邻两帧属于不同场景，也可表示同一场景中物体运动较为剧烈或背景变化较快，因此需要进一步计算它们的时间相似性。

Var(k)本身也表示当前帧变化的剧烈程度，所以通过计算这种剧烈程度的放大或缩小的倍数来反映时间相似性，如公式5：

α (k) = \frac{Var (k) - Var (k - 1)}{\min (Var (k), Var (k - 1))} - - - (5)

从上式可看出该式为双极性式，α(k)小于0表示剧烈程度缩小的倍数，相反为放大倍数，α(k)越接近0表示他们的时间相似性越高。一个场景视频序列的第二帧相对于第一帧DC系数的改变量要小得多，Var(2)<β₂，变换的剧烈程度显著下降，α(2)<-η，。同理，下一个场景的第一帧相对于上个场景的最后一帧DC系数变化值很大，Var(1)>β₁，变换的剧烈程度显著增加，α(1)>η。因此，综合考虑空间相似性和时间相似性，场景分割过程的首帧F_F和末帧F_L的判断标准如公式6、7，其中η表示时间相似性的阈值，β₂表示场景中第二帧图像的空间相似性阈值，β₁为下个场景中第一帧图像的空间相似性阈值。

F_F={k-1|α(k)<-η||Var(k)<β₂} （6）

F_L={k-1|α(k)>η||Var(k)>β₁} （7）

即如果第k帧满足α(k)<-η||Var(k)<β₂，则第k-1帧为一个场景的首帧图像，如果第k帧满足α(k)>η||Var(k)>β₁，则第k-1帧为一个场景的末帧图像；

图3是视频资源原始视频序列在场景分割后的结构图。

场景分割后，将视频序列分为多个相互独立的场景视频序列，如图3所示，场景切换之间可能存在一定的间隙，理想情况下，场景1的下一帧就是场景2的第一帧，但经常会出现由于场景转换间的帧图像变化比较剧烈，使场景转换部分存在一定的间隙图像。

3、选择适合语义水印嵌入的目标场景视频序列

根据人眼的视觉特性，为了提高语义水印的不可见性，选择纹理复杂度较高和帧间变化比较剧烈的场景进行水印嵌入。

在本实施例中，将场景视频序列第二帧DC系数的梯度能量T(2)与第一帧DC系数改变量Var(1)的乘积定义为场景复杂度P，如公式8，

P=T(2)×Var(1) （8）

T (2) = \frac{1}{N_{1} \times (N_{2} - 1)} Σ_{n_{a} = 1}^{N_{1}} Σ_{n_{b} = 1}^{N_{2}} {(D (2, n_{a}, n_{b} + 1) - D (2, n_{a}, n_{b}))}^{2}

+ \frac{1}{(N_{1} - 1) \times N_{2}} Σ_{n_{a} = 1}^{N_{1}} Σ_{n_{b} = 1}^{N_{2}} {(D (2, n_{a} + 1, n_{b}) - D (2, n_{a}, n_{b}))}^{2} - - - (9)

如果场景视频序列满足复杂度P大于设定的阈值P_th，则选择为语义水印嵌入的目标场景视频序列，用于嵌入语义水印，否则为非目标场景视频序列。

4、完成非目标场景视频序列的编码；

借助开源编码器，如H.264有JM、X264和T264三大开源编码器，生成不含语义水印的压缩码流CS^-1，其中图像组（Group of Picture，简称GOP）规范为I、B、P帧排列结构，很多编码器默认的结构为IBBPBBPBBPBBPBB。按照GOP规范将场景序列内的第j帧作为压缩编码的最佳参考帧（I帧），满足公式关系：j＝α*15，α∈0,1,2…。图像的压缩编码属于现有技术，在此不再赘述。

5、目标场景视频序列的压缩编码和语义水印的嵌入

对于目标场景视频序列进行压缩编码时，在GOP的I帧图像嵌入控制语义信息U_2y和物理属性信息U_3z，在非I帧图像嵌入内容语义信息U_1x，形成含语义水印的压缩码流CS′。

在本实施例中，I帧和非I帧的采用相同的嵌入方案，只是在不同的嵌入点进行语义水印的嵌入。

在本实施中，语义水印的嵌入采用基于DCT系数的语义水印嵌入方法，语义水印要么嵌在DC系数，要么AC系数。由于DC系数表示图像亮度信息，哪怕微小的改变都会引起人眼的察觉，从而大大减低语义水印的不可见性。

在本实施例中，结合人眼的视觉特性，在背景亮度较高、纹理较复杂的区域进行水印嵌入，考虑系数矩阵高阶大部分为0，本发明将AC中频系数作为水印嵌入点。另外，由于人眼对变化域的敏感性较低，所以语义水印信息不仅跟帧内纹理复杂度和背景亮度有关，帧间变化剧烈程度也同样影响着水印信息的不可见性。因此，为了使水印信号更接近于噪声信号，具有更好的不可见性，在本实施例中，综合考虑背景亮度、帧内空间复杂度、场景复杂度三要素来决定水印嵌入强度S，形成一个目标矩阵M。

针对目标场景视频序列，首先计算图像中每个宏块（16x16）的背景亮度、帧内纹理复杂度，得出宏块的图像复杂度H；然后，结合场景复杂度P得到坐标为(a,b)的宏块的水印嵌入强度S_a，b，当小于阈值S_th，语义水印的目标矩阵项M_ab=0，表示此宏块不适合水印信息的嵌入，相反，M_ab=1。在视频解码端根据密钥再次生成目标矩阵M′，进行语义水印的检测与提取。

在本实施例中，宏块的图像复杂度H的客观描述，来自于该宏块的灰度均值和纹理复杂度的加权组成的线性函数，如公式10：

H_{a, b} = α_{1} σ_{a, b}^{2} + α_{2} e_{a, b} - - - (10)

其中，1≤a≤N_L/16，1≤b≤N_H/16，N_LxN_H为图像的范围e_a，b为宏块的灰度均值，σ² _a，b为宏块Y分量的纹理复杂度，α₁,α₂∈[0,1]为加权因子，其中宏块的纹理复杂度如公式11所示：

σ_{a, b}^{2} = \frac{1}{8} \underset{(i, j) &Element; Y_{a, b}}{Σ} θ (e_{a ., b}) \frac{| Y_{a, b} (i, j) - e_{a, b} |}{e_{a, b}} - - - (11)

其中，Y_a,b(i,j)为坐标为(a,b)的宏块像素点(i,j)的Y分量值，宏块θ(e_a,b)为加权系数，它作为修正因子使宏块的纹理复杂度和灰度均值在同一个数量级成线性关系。在本实施例中，加权因子α₁，α₂取值范围为0.5~0.8。

为了降低过多修正因子增加发明计算复杂度，故将图像复杂度H_a,b与场景复杂度P进行“x”操作得出水印嵌入强度，如公式13：

S_a,b=P×H_a,b （13）

其中，S_a,b的值随α₁、α₂取值而各异，从而生成不同的目标矩阵M，因此可以将这两个参数作为密钥使用。

在H.264规范中，将N_L×N_H的图像分割成众多16x16的宏块B。由于目标矩阵属于纹理复杂度较高的区域，因此最终分成16个4x4的子块B₀、B₁、B₂、…、B₁₅，他们满足如下关系：

B=B₀∪B₁∪B₂∪…∪B₁₅ （14）

m=0,1,2,…,15n=0,1,2,…,15 m≠n （15）

图4是宏块的4x4子块的Zig-Zig分布及编码图

宏块经过子块划分后的4x4子块的Zig-Zag分布及编码图如图4所示，为了方便熵编码中的Zig-Zag扫描，宏块中16个4x4子块也按照Zig-Zag规则排列。与直接在宏块16x16的DCT系数中嵌入水印相比，本发明水印嵌在4x4子块的DCT系数，相对8x8子块可以大大降低视频的“块效应”，当再细分到2x2子块，基本上就接近空间域水印嵌入方法，该方法的鲁棒性较差，因此，本发明选择在4x4子块的DCT中频系数中嵌入水印。

图5是4x4子块经过DCT变换后，其变换系数的排列和能量子带分布图。

通常编码标准中，一个宏块包括一个16x16亮度分量Y和两个8x8的色差分量Cb、Cr。由于人眼对视频的色度较敏感，在本实施例中，仅考虑亮度分量Y信息。首先，将视频图像的亮度分量Y分割成16x16的块，则语义水印目标矩阵M的结构为N_L/16×N_H/16，其中M_a，b∈{0,1}，1≤a≤N_L/16，1≤b≤N_H/16，根据公式13确定M_ab值，当M_a，b=1表示Y_a，b为水印信息的载体。然后，将Y_a，b子块按照图4划分为16个4x4子块，对每个子块进行整数DCT变换，如图5所示，左上角的DCT₀为DC系数，表示灰度均值，剩余15个均为AC系数。

经过DCT变换后，4x4子块能量如图5的第1子带到第7子带逐渐递减。其中高频系数（6、7子带）多数为零不适合水印嵌入，故选择第2子带到第5子带的12中频系数进行语义水印的嵌入，嵌入规则如公式16、17、18：

{DCT}_{mean} = \frac{1}{12} Σ_{i = 1}^{12} {DCT}_{i} - - - (16)

{DCT}_{mean 1} = \frac{1}{6} Σ_{i = 0}^{2} ({DCT}_{i + 3} + {DCT}_{i + 10}) - - - (17)

{DCT}_{mean 2} = \frac{1}{6} (Σ_{i = 1}^{2} {DCT}_{i} + Σ_{i = 6}^{9} {DCT}_{i}) - - - (18)

其中，DCT_mean为12个中频系数的均值，DCT_mean1为第3子带和第5子带6个中频系数的均值，DCT_mean2为第2子带和第4子带6个中频系数均值，通过调整12个中频系数来改变DCT_mean、DCT_mean1和DCT_mean2三者之间的关系进行语义水印的嵌入，即为语义水印信息的编码w_x，y，如公式19、20：

DCT_mean1>DCT_mean>DCT_mean2,w_x,y=1 （19）

DCT_mean2>DCT_mean>DCT_mean1,w_x,y=-1 （20）

到这里，语义水印信息的单步嵌入过程已经完成。

实例

为了验证本发明的***性能，采用***实验平台：CPU：Core(TM)2Duo CPU2.93GHz，内存：2G DDR3，操作***：Windows XP，编程工具：Visual Studio——2008和MATLAB R2010b进行测试。测试中视频采用标准视频序列News、Foreman和Akiyo来自网站http://trace.eas.asu.edu/yuv/index.html，所有视频序列都是QCIF格式(176x144)，YUV（4:2:0），序列长度均为300帧。

1、视频编码效果

图6是采用本发明方法后的场景分割与选择的效果图。

针对根据公式6、7，取η=2，β₁=500，β₂=50，对图（a）新闻News和图（b）工头Foreman原始视频序列进行分割，其结果如图6所示。其中，工头Foreman原始视频序列被分割为三个不连续的场景，其中场景之间的间隙，属于一些图像变换很剧烈的转换帧。深色箭头表示的区域为根据公式（8）筛选出适合语义水印嵌入的目标场景视频序列。

图7是News和Foreman两段视频序列经过本发明方法和JM方法压缩编码后的PSNR图。

News、Foreman视频序列压缩码流的峰值信噪比（Peak Signal to Noise Ratio，PSNR）如图7。从图a)中可见，本发明方法和JM方法，针对News视频图像的PSNR值几乎一致，而图b)在第150帧之后，Foreman视频码流的PSNR值在本发明方法和JM方法中出现了一定的偏差，因为采用基于场景的最佳参考帧选择方法，将每个场景的头帧作为I帧，使帧间预测编码最优化。如图(b)第152帧、158、173、231帧（矩形标出）分别属于不同场景或场景间隙的头帧，即PSNR较高。本发明方法采用同一场景内的第y′（y′＝i′*15）帧为最优参考帧I帧，而JM方法将整个视频序列的第y（y＝i*15）帧为最优参考帧I帧，故在第165、180、195等帧JM方法的PSNR值较高，但从图7可见，本发明方法在整体编码效果上具有一定的优势。

2、不可见性

图8是水印的嵌入和压缩编码对视频序列的影响，表现为PSNR图。

当主观不可见性已经无法对语义水印的性能进行深入分析时，需要客观的图像质量衡量标准，即峰值信噪比(PSNR)，如图8所示Akiyo视频序列前90帧在水印嵌入前后的PSNR值，其均值分别为39.58和38.63。一般情况下，当PSNR值大于30dB，人眼就难以辨别两幅图像差别。从图8可见，Akiyo视频原始序列水印嵌入前后的第y(y=i*15)帧的PSNR值较高，由于第y帧作为最佳参考帧，编码准确率最高。总体上两曲线非常接近，且PSNR最小值为35.91，说明本发明中，语义水印具有很强的不可见性。

3、未受攻击时的鲁棒性

实验中若归一化互相关系数（Normalized Correlation）NC>0.9，则认为该图像内含有语义水印，同一场景内有一幅图像含有语义水印，认为该场景为语义水印信号的载体，其中NC是用来度量重构的语义水印和原始语义水印之间的相似程度。实验对象为Akiyo、News、Foreman、Sum四个视频序列，其中Sum为前三者视频拼接序列。对其分别统计视频序列的场景数(SC)，含有语义水印的场景数(SC_w)，检测到语义水印载体场景数(DSC_w)，错误检测到的场景数(ESC_w)，

如表3所示：

表3

从表3中可看出，在未受攻击的状态下，在本测试中，嵌入语义水印的场景都能准确的检查出来。由于发明在同一场景中嵌入相同语义水印信息，故测试中采用的语义水印场景检测标准（NC>0.9）足以重构出原语义水印信号。以News视频序列为例，统计其前90帧（发明实验中第90帧为第2个场景头帧）的NC值。

图9是未受攻击时News视频序列的水印鲁棒性，表现为NC仿真图。

从图9中可知，第y(帧图像的NC值要明显高于其他图像，这是由于y帧为编码参考帧（I帧），其量化后的非零DCT系数较多，且采用基于压缩域的水印方案，避免了由于视频信息的频繁解压缩，造成的水印信息丢失。非I帧域采用基于原始域的水印嵌入方案大大增加了水印信息的嵌入量，且该域的纯文本水印信息（摘要、关键词等）在NC>0.7的情况下不会对语义理解造成歧义，一般情况下，NC>0.6就可以重构出水印信息，而实验中最小NC值为0.85。

4、抗噪声攻击

视频资源在传输和处理的过程中，遭受最常见的攻击就是噪声攻击，因此水印方法抗噪能力是其性能评判的重要指标。实验同样对Foreman视频序列的前90帧图像分别加载了密度为0.005、0.01、0.03的椒盐噪声，计算重构视频图像PSNR值和重构水印信息NC值。

图10是压缩编码、语义水印嵌入、噪声攻击分别对视频序列的影响程度，表现为PSNR图。

从图10可看出，相比密度为0.005、0.01、0.03的椒盐噪声，语义水印的嵌入对视频图像质量的影响反而更小，说明本发明方法对视频原始图像的影响几乎忽略不计。在密度为0.03的椒盐噪声下PSNR最小值为31.21，故重构的视频图像相对于原始图像的变化在人眼察觉范围之外。

从图11可看出，语义水印受到不同程度的噪声攻击后，NC值出现很大程度的衰减，特别是非I帧（y≠i*15）中的水印信息。由于非I帧采用帧间预测编码，只保留部分残差信息，该域水印信息经过JM10.2的重压缩编码，使该域水印信息的NC值衰减的相对比较厉害。如在密度为0.03椒盐噪声下，最小NC值为第5帧（非I帧）的0.4943，但统计发现，在相同强度的噪声攻击下，该场景中非I帧的最大NC值为0.6357，由于同一场景内嵌入相同的语义水印，所以即使在较高密度的噪声攻击下，仍然可以重构出不影响人们观看的水印信息。

由此可见，对于噪声攻击，I帧水语义印的鲁棒性表现的比较满意，故本发明将I帧作为控制语义信息U_2y和物理属性语义信息U_3z的载体。

5.其他主动攻击

本测试同时对Akiyo、News、Foreman三个视频分别进行重量化、中值滤波和帧删除攻击，语义水印受到攻击后的NC值如表4所示，结果为三段含语义水印的视频序列前300帧中有效NC的均值。由于同一场景中嵌入相同的语义水印，当NC值<0.5时，视该帧语义水印信息无效，丢弃。

表4

从表4中看出，I帧中水印信息在遭受重量化、中值滤波和帧删除等攻击时，表现出较好的鲁棒性。其中帧删除攻击对水印信息没有任何影响，主要是帧删除攻击很难实现完全删除整个视频场景。

实验表明，发明中基于压缩域（I帧）的水印信息具有非常强的鲁棒性；基于原始域的水印信息经过JM编解码后，虽然鲁棒性出现显著下降，但同一场景中众多非I帧图像嵌入相同的语义水印信息，通过相应的滤波处理依然可以确保水印信息的鲁棒性；最后结合语义水印方法在原始域和压缩域的各自短板，很好地解决了语义水印容量和鲁棒性的同时需求。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于场景分割的视频资源语义水印嵌入方法，其特征在于，包括以下步骤：

（1）、视频资源的语义信息标引

（2）、视频资源的原始视频序列的场景分割与选择

（3）、压缩编码与语义水印的嵌入

2.根据权利要求1所述的视频资源语义水印嵌入方法，其特征在于，所述步骤（2）中的场景分割为：

场景分割过程的首帧F_F和末帧F_L的判断标准为：

F_F={k-1|α(k)<-η||Var(k)<β₂}

F_L={k-1|α(k)>η||Var(k)>β₁}

即如果第k帧满足α(k)<-η||Var(k)<β₂，则第k-1帧为一个场景的首帧图像，如果第k帧满足α(k)>η||Var(k)>β₁，则第k-1帧为一个场景的末帧图像，其中η表示时间相似性的阈值，β₂表示场景中第二帧图像的空间相似性阈值，β₁为下个场景中第一帧图像的空间相似性阈值；

判断标准中：

Var (k) = \frac{1}{N} Σ_{n_{a} = 1}^{N_{1}} Σ_{n_{b} = 1}^{N_{2}} {(D (k, n_{a}, n_{b}) - D (k - 1, n_{a}, n_{b}))}^{2}

α (k) = \frac{Var (k) - Var (k - 1)}{\min (Var (k), Var (k - 1))}

其中D(k，n_a，n_b)表示第k帧图像坐标为(n_a，n_b)的宏块DC系数，Var(k)表示第k帧图像相对于前一帧图像的DC系数改变量，其中N＝N₁*N₂，N₁、N₂为图像宏块的行数、列数。

3.根据权利要求2所述的视频资源语义水印嵌入方法，其特征在于，所述目标场景视频序列的选择为：

场景视频序列第二帧DC系数的梯度能量T(2)与第一帧DC系数改变量Var(1)的乘积定义为场景复杂度P，

P=T(2)×Var(1)

T (2) = \frac{1}{N_{1} \times (N_{2} - 1)} Σ_{n_{a} = 1}^{N_{1}} Σ_{n_{b} = 1}^{N_{2}} {(D (2, n_{a}, n_{b} + 1) - D (2, n_{a}, n_{b}))}^{2}

+ \frac{1}{(N_{1} - 1) \times N_{2}} Σ_{n_{a} = 1}^{N_{1}} Σ_{n_{b} = 1}^{N_{2}} {(D (2, n_{a} + 1, n_{b}) - D (2, n_{a}, n_{b}))}^{2}

通过如果场景视频序列满足复杂度P大于设定的阈值P_th，则选择为语义水印嵌入的目标场景视频序列，用于嵌入语义水印，否则为非目标场景视频序列。

4.根据权利要求1所述的视频资源语义水印嵌入方法，其特征在于，所述的语义水印的嵌入为：

将帧图像分割成众多16x16的宏块，每个宏块经过子块划分为4x4子块，并经过DCT变换后，选择第2子带到第5子带的12中频系数进行语义水印的嵌入，嵌入规则为：

DCT_mean1>DCT_mean>DCT_mean2,w_x,y=1

DCT_mean2>DCT_mean>DCT_mean1,w_x，y=-1

其中：

{DCT}_{mean} = \frac{1}{12} Σ_{i = 1}^{12} {DCT}_{i}

{DCT}_{mean 1} = \frac{1}{6} Σ_{i = 0}^{2} ({DCT}_{i + 3} + {DCT}_{i + 10})

{DCT}_{mean 2} = \frac{1}{6} (Σ_{i = 1}^{2} {DCT}_{i} + Σ_{i = 6}^{9} {DCT}_{i})

其中，DCT_mean为12个中频系数的均值，DCT_mean1为第3子带和第5子带6个中频系数的均值，DCT_mean2为第2子带和第4子带6个中频系数均值，通过调整12个中频系数来改变DCT_mean、DCT_mean1和DCT_mean2三者之间的关系进行语义水印信息w_x,y的嵌入。