CN102867513A

CN102867513A - 一种基于伪Zernike矩的语音内容认证方法

Info

Publication number: CN102867513A
Application number: CN2012102787243A
Authority: CN
Inventors: 王宏霞; 刘正辉
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2012-08-07
Filing date: 2012-08-07
Publication date: 2013-01-09
Anticipated expiration: 2032-08-07
Also published as: CN102867513B

Abstract

本发明公开了一种基于伪Zernike矩的语音内容认证方法，水印嵌入时将原始语音信号A分为P帧，每帧分为N段。然后，由每帧前N/2段DCT低频系数的n阶伪Zernike矩幅值的平均值生成水印W，并通过量化每帧的后N/2段DCT低频系数的伪Zernike矩来嵌入水印，得到含水印语音A′。本发明充分利用了语音信号DCT低频系数的伪Zernike矩幅值与语音内容紧密相关的特性，以及对常规语音信号处理的鲁棒性，既保证了对恶意篡改攻击的敏感性，又保证了良好的容忍一定常规语音信号处理能力。

Description

一种基于伪Zernike矩的语音内容认证方法

技术领域

本发明涉及一种语音识别，尤其是语音内容真实性和完整性认证问题的解决方法。

背景技术

近年来，数字化语音通信的迅猛发展和各种语音产品的广泛普及，以及各种功能强大的音频处理软件的出现，使得数字语音的传输与应用日益变得频繁与广泛。与此同时，篡改传输和存储的语音内容数据变得相对容易。例如，一段重要的法庭证词录音，在存储、传输过程中如果要害部分内容被恶意篡改，其后果可想而知！。因此，如何鉴别一段重要或敏感的语音内容是否被篡改过，哪里被篡改了，语音记录来源是否真实、可信，这些涉及数字语音真实性的认证问题，引起了国内外学者极大的研究兴趣。音频水印技术作为一种保护音频的技术手段，从上世纪90年代出现就受到了人们的重视，并成为信息安全研究领域的热点。

与音频信号相比，语音信号具有采样率低，对常规信号处理更加敏感等特点。因此，现有的很多音频内容认证算法无法用于语音内容认证，或者用于语音内容认证的效果不是很理想。现实生活中，针对音频更多的是解决版权保护问题，而针对语音则更多的是解决内容真实性和完整性认证问题。基于数字水印的语音内容认证技术，如果嵌入的水印与语音自身内容无关，一方面会增加信息的传输量，另一方面也存在一定的安全隐患，所以基于语音自身特征或内容来生成水印的语音认证算法就更具有研究意义和实用价值。

伪Zernike矩(Zernike矩)的幅值具有旋转不变性的特征，该特征已广泛地应用于图像表示、图像检索和图像水印等领域，而在音频上的应用还很少。文献“Robust audio watermarking based on low-order Zernike moments”(Xiang Shi-jun，Huang Ji-wu，Yang Rui，5^th International Workshop on Digital Watermarking，pp226-240，Oct.2006)首先对音频进行一维到二维的变换，然后对相应的二维信号进行Zernike变换。通过实验证明了Zernike矩的幅值对常规信号处理具有很强的鲁棒性；同时分析了Zernike矩的幅值和音频样本值的线性关系，由此提出了基于低阶Zernike矩的鲁棒音频水印算法。文献“A pseudo-Zernike moments based audio watermarking scheme robust against desynchronization attacks”(Wang Xiang-yang，Ma Tian-xiao，Niu Pan-pan，Computers and Electrical Engineering，vol.37，no.4，pp.425-443，July 2011)首先在时域基于统计均值嵌入同步码，然后量化伪Zernike矩的幅值嵌入水印，提出了基于伪Zernike矩的抗同步攻击的音频水印算法。对于上述的基于伪Zernike矩(Zernike矩)的水印算法，一方面，需要计算所有样本点的伪Zernike矩，计算量较大，耗费的时间较长。水印的嵌入是通过同比例地缩放各音频段的样本值来完成的。分析表明，直接缩放音频样本值对原始音频的改变量较大，对原始音频信号的质量造成较大的破坏；另一方面，水印的嵌入位置和方法是公开的，各音频帧的特征(伪Zernike矩)的计算也是已知的。于是，攻击者可以找到各音频帧的位置并计算每帧的特征，重新量化伪Zernike矩来去除嵌入的水印，使算法失去保护版权的作用。或者，攻击者可以使用其它的音频段来替换含水印的音频，然后量化替换后的音频内容，使其满足水印正确提取的条件，对其内容实施攻击。因此，研究基于内容的抗攻击能力强的语音内容认证算法具有重要的现实意义。

发明内容

鉴于现有技术的不足，本发明的目的在于提供一种基于伪Zernike矩的语音内容认证算法，该算法能够有效地区分对语音的常规信号处理操作和恶意攻击，并能有效定位语音内容恶意篡改的位置，从而实现语音内容的真实性和完整性认证。

为实现这样的目的，本发明以DCT低频系数的伪Zernike矩幅值对常规信号处理的鲁棒性为依据，设计了一种新的水印生成和嵌入方法。

一种基于伪Zernike矩的语音内容认证方法，能够有效区分常规信号处理操作和恶意攻击，同时对恶意攻击能够有效地篡改定位。从而实现语音内容的真实性和完整性认证，包括如下具体步骤：

(1)水印嵌入：首先从语音信号的第K个样本点开始将原始语音信号A分为P帧(K作为水印***的密钥)，并将每帧分为N段。然后计算每帧前N/2段DCT低频系数的n阶伪Zernike矩幅值之和，并求出伪Zernike矩幅值的均值，由均值生成水印W。将得到的水印通过量化DCT低频系数的伪Zernike矩嵌入在每帧的后N/2段中，得到的含水印的语音信号记为A′

(2)语音内容认证过程：与水印嵌入过程类似，首先从待检测语音信号的第k₁个样本点开始将A^*分为P帧，每帧分为N段。计算每帧前N/2段DCT低频系数的n阶伪Zernike矩幅值之和，并求其均值，由均值生成水印W′。计算每帧后N/2段DCT低频系数的n阶伪Zernike矩幅值，由Zernike矩的幅值提取出水印W^*。比较W^*和W′，判断那些对应位不同的地方为语音信号被篡改过的位置，从而实现了语音内容真实性和完整性认证。

与现有的用于内容认证的语音水印算法相比，本发明利用语音的内容来生成水印，接收端在收到语音信号的同时也收到了嵌入在语音信号中的水印。从而减少了传输带宽，节约了资源；同时也增强了水印传送的安全性。水印的嵌入只需要对DCT低频系数进行伪Zernike变换，提高了算法的效率和水印容忍常规信号处理的能力。于是本发明更易于实际应用。

附图说明

图1为本发明实施例的含水印语音信号图。

图2为对图1部分语音内容静音攻击后的语音信号图。

图3为对图1部分内容替换攻击后对应的语音信号图。

图4为图2的篡改定位结果。

图5为图3的篡改定位结果。

图6为不可听性测试结果列表。

图7为对常规信号处理的鲁棒性测试结果列表。

具体实施方式

以下结合附录和实施例对本发明的技术方案作进一步描述。

1、水印的生成和嵌入：

(1)语音数据的分帧以及每帧语音段的划分。将原始语音信号A＝{a(l)，1≤l≤LA+K}分为P帧(K作为水印***的密钥)，每帧长为I＝LA/P，第i帧记为A(i)(i＝1，2，...，P)。每帧等分为N段，每段的长为I/N，第i帧第j段记为A(i，j)，1≤i≤P，1≤j≤N。

(2)DCT变换。对A(i，j)做DCT变换，D(i，j)表示第i帧第j段的DCT系数，取i帧前N/2段的DCT系数记为D₁(i，j)。

(3)计算n阶m重伪Zernike矩。将D₁(i，j)的前m₁×m₁个低频系数变换为二维信号。按照如下方法计算其n阶m重伪Zernike矩：

记{V_nm}为伪Zernike多项式，它是一系列复值多项式构成的集合，{V_nm}构成单位圆内的完备正交基，其定义如下式

V_nm(x，y)＝V_nm(ρ，θ)＝R_nm(ρ)exp(imθ)

其中n为非负整数，m为满足｜m｜≤n的整数。记坐标原点到点(x，y)的向量为l，ρ＝｜l｜，θ为x轴正向到向量l逆时针方向的夹角。R_nm(ρ)为径向多项式，即

R_{nm} (ρ) = Σ_{s = 0}^{n - | m |} \frac{{(- 1)}^{s} (2 n + 1 - s)!}{s! (n + | m | + 1 - s)! (n - | m | - s)!} ρ^{n - s}

坐标平面内的二维信号f(x，y)(x²+y²≤1)可以表示为V_nm(x，y)的线性组合，如下式

f (x, y) = Σ_{n = 0}^{\infty} Σ_{m = - n}^{n} A_{nm} V_{nm}^{*} (x, y)

其中

和V_nm(x，y)互为共轭复数，A_nm为n阶m重伪Zernike矩，定义如下：

A_{nm} = \frac{n + 1}{π} \underset{x}{Σ} \underset{y}{Σ} f (x, y) V_{nm}^{*} (x, y), x^{2} + y^{2} \leq 1

(4)语音水印的生成。取各帧的前N/2段来生成水印。记 1≤i≤P，1≤j≤N/2为n阶伪Zernike矩的幅值之和，计算C₁(i，j)的均值

{\overset{&OverBar;}{C}}_{1} (i) = Σ_{j = 1}^{N / 2} C_{1} (i, j) / N / 2 .

记

的最高位为M₁(i)，M₁(i)对应的二进制设为W₁(i)＝{w₁(i，t)，1≤t≤N/2}，W₁(i)即为i帧生成的水印。

(5)水印的嵌入。取i帧后N/2段的DCT系数记为D₂(i，j)，N2+1≤j≤N，将D₂(i，j)的前m₂×m₂个低频系数变换为二维信号，并计算其n阶伪Zernike矩幅值之和，记为C₂(i，j)。记

的最高位为M₂(i，j)，水印按照下面的方法嵌入：

当w₁(i，t)＝1时

M_{2}^{'} (i, j) = \{\begin{matrix} M_{2} (i, j), & M_{2} (i, j) \mod 2 = 1 \\ M_{2} (i, j) + 1, & M_{2} (i, j) \mod 2 = 0 \end{matrix}

当w₁(i，j)＝0时

M_{2}^{'} (i, j) = \{\begin{matrix} M_{2} (i, j), & M_{2} (i, j) \mod 2 = 0 \\ M_{2} (i, j) + 1, & M_{2} (i, j) \mod 2 = 1 \end{matrix}

上式中，当M₂(i，j)＝9时，M₂′(i，j)＝M₂(i，j)-1；j＝t+N2，1≤t≤N2。用M₂′(i，j)替换C₂(i，j)整数部分最高位，并将次高位量化为5，对应的值记为C₂′(i，j)。

将D₂(i，j)的前m₂×m₂个低频系数扩大α₂(i，j)倍，对应的值记为D₂′(i，j)，α₂(i，j)可由下式得到：

α_{2} (i, j) = \frac{C_{2}^{'} (i, j)}{C_{2} (i, j)}, N / 2 + 1 \leq j \leq N

对D₂′(i，j)做逆DCT，得到的信号即为i帧的后半部分内容，i帧前半部分和后半部分结合在一起即为i帧含水印语音信号。

(6)对P个语音帧依次进行这样的嵌入，直至嵌完所有语音帧，便得到含水印语音A′。

2、语音内容认证：

(1)类似水印生成及嵌入过程的步骤(1)～(4)，对待检测的语音信号A^*从K个样本点开始等分为P帧，每帧等分为N段，第i帧记为A^*(i)(i＝1，2，...，P)，第i帧第j段记为A^*(i，j)，1≤j≤N；对A^*(i，j)做DCT，对应的DCT系数记为D^*(i，j)。取i帧前N/2段的DCT系数记为

将的前m₁×m₁个低频系数变换为二维信号，并计算其n阶伪Zernike矩幅值之和，记为

1≤j≤N/2。计算

1≤j≤N/2的均值

{\overset{&OverBar;}{C}}_{1}^{*} (i) = Σ_{j = 1}^{N / 2} C_{1}^{*} (i, j) / N / 2 .

记

的最高位为

二值化为

W_{1}^{*} (i) = {w_{1}^{*} (i, t), 1 \leq t \leq N / 2},

即为i帧生成重构的水印。

(2)取i帧后N/2段的DCT系数记为

将

的前m₂×m₂个低频系数变换为二维信号，并计算其n阶伪Zernike矩幅值之和，记为

N2+1≤j≤N。记

的最高位为

进行如下计算获得提取的水印

{\hat{W}}_{1}^{*} (i) = {{\hat{w}}_{1}^{*} (i, t), 1 \leq t \leq N / 2}

{\hat{w}}_{1}^{*} (i, t) = \{\begin{matrix} 1 & M_{2}^{*} (i, t + N / 2) \mod 2 = 1 \\ 0, & M_{2}^{*} (i, t + N / 2) \mod 2 = 0 \end{matrix}

(3)定义认证序列TA(i)为

TA (i) = Σ_{t = 1}^{N / 2} {\hat{w}}_{1}^{*} (i, t) &CirclePlus; w_{1}^{*} (i, t), T &Element; {0,1}

如果TA(i)=0，则表明第i帧语音内容是真实的，否则，TA(i)=1表明第i帧语音内容被篡改。

本发明方法的效果可以通过以下的性能分析验证：

1、不可听性

选取采样率为22.05kHz，样本长度为1024078，16位量化的单声道语音信号来做不可听性测试。图6给出了3种语音类型的SNR值，由测试结果可以看出本文算法具有很好的不可听性。

2、对常规信号处理的鲁棒性

用误码率BER(bit error rate)来测试本文算法对常规信号处理的鲁棒性，BER的定义如下式

BER = \frac{E}{T} \times 100 %

其中，E为提取水印错误比特数，T为语音信号所嵌水印总比特数。BER值越小说明算法对常规信号处理的鲁棒性越强。

图7列出了成年男声在经过一些常规信号处理后的BER值(其它类型语音信号的测试结果与此相似)，可以看出本发明方法对MP3压缩、低通滤波、重采样等常规语音信号处理具有较强的鲁棒性。

3、恶意篡改定位

对如图1所示的含水印语音信号分别进行了静音和替换攻击。攻击后的语音信号分别如图2和图3所示，对应的篡改定位结果分别如图4和图5所示。图4、图5中，TA(i)=1的帧表示被恶意攻击的部分，TA(i)=0的帧表示没有恶意攻击的部分。从篡改定位的结果来看，本发明方法对恶意攻击能够有效地篡改定位。

上述针对较佳实施例的描述过于具体，本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助阅读者理解本发明的原理，应被理解为发明的保护范围并不局限于这样的特别陈述和实施例。

Claims

1.一种基于伪Zernike矩的语音内容认证方法，用以区分常规信号处理操作和恶意攻击，同时对恶意攻击能够有效地篡改定位，具体步骤包括：

(1)水印嵌入：首先从语音信号的第K个样本点开始将原始语音信号A分为P帧，并将每帧分为N段；然后计算每帧前N/2段离散余弦变DCT低频系数的n阶伪Zernike矩幅值之和，并求出伪Zernike矩幅值的均值，由均值生成水印W；将得到的水印通过量化DCT低频系数的伪Zernike矩嵌入在每帧的后N/2段中，得到含水印语音A′；

(2)语音内容认证过程：与水印嵌入过程类似，首先从待检测语音信号A^*的第k₁个样本点开始将语音分为P帧，每帧分为N段。计算每帧前N/2段DCT低频系数的n阶伪Zernike矩幅值之和，并求其均值，由均值生成水印W′；计算每帧后N/2段DCT低频系数的n阶伪Zernike矩幅值，由Zernike矩的幅值提取出水印W^*；比较W^*和W′，判断对应位不同的地方为语音信号被篡改过的位置，从而实现了语音内容真实性和完整性认证。