CN109448759A

CN109448759A - 一种基于气爆音的抗语音认证欺骗攻击检测方法

Info

Publication number: CN109448759A
Application number: CN201811621085.XA
Authority: CN
Inventors: 王骞; 陈艳姣; 林秀; 周满
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-03-08

Abstract

本发明涉及了一种基于气爆音的抗语音认证欺骗攻击检测方法，通过结合用户语音的音素信息，提取用户说话时口腔气流到达麦克风时产生的气爆音的特征，有效抵御了重放攻击以及模仿攻击。在音素级别上精准定位气爆音，同时结合音素和气爆音的独特关系构建用户特征，以识别合法用户，检测语音认证的欺骗攻击。解决语音认证***容易受到利用预先录制或合成的语音样本进行欺骗的重放攻击，以及人模仿合法用户的说话方式来试图绕过认证***的模仿攻击的问题。

Description

一种基于气爆音的抗语音认证欺骗攻击检测方法

技术领域

本发明属于语音认证领域，具体地指一种基于气爆音的抗语音认证欺骗攻击检测方法。

背景技术

语音认证是一种利用人类语音独特的生物特征和行为特征来识别用户的技术。与基于口令的认证相比，语音认证更加方便，它无需手动输入，并且不需要用户记住口令。近年来，移动技术的迅速发展促进了语音认证在移动终端的应用，包括智能手机语音登录、移动银行语音认证和电子商务语音支付。例如，微信将语音作为新的用户接口，用户可以通过语音密码生成的“声纹”进行登录；谷歌允许用户通过语音认证解锁手机。随着移动技术的蓬勃发展，可以预见，未来将会出现更多基于语音认证的移动应用。然而，由于语音信道的开放性，现有的大多数语音认证***极其容易受到欺骗攻击，主要为重放攻击和模拟攻击。在重放攻击中，攻击者通过扬声器播放偷录到的包含用户口令的音频进行认证，在模仿攻击中，攻击者不借助外部设备，单纯通过模仿用户说话的音色，节奏和方式来进行欺骗。传统的防御重放攻击和模拟攻击的方法是活性检测和自动说话人识别。活性检测判断语音是由真实用户还是扬声器产生的，自动说话识别是利用个体语音的频谱及韵律等特征验证用户身份。然而，现有的大多数活性检测方式都有着特殊要求，需要用户进行特殊操作或者借助额外的硬件，用户体验度差，不易普及。比如通过捕获用户说话时，语音到达手机的两个麦克风的音素序列的时间差，来区分语音来自真人还是扬声器的方法，要求用户必须将手机保持在特殊位置。而自动说话人识别只依靠语音本身的频谱特征，无法抵抗重放攻击。

本发明致力于利用人类声学中的发声原理，研究和探索一种利用用户说话时的气息到达麦克风所产生的气爆音的特征，识别设备重放的攻击以及人模仿攻击的方法。

用户说话时，空气首先从肺部排出形成气流，通过喉咙、声带进入声道，最后从嘴唇发出形成声波。当用户的嘴唇离麦克风足够近时，麦克风捕获的声音信号不仅包含语音信息，还包含说话时气息通过嘴唇到达麦克风产生的脉冲爆发音，称为气爆音。相比之下，攻击者在偷录用户语音的时候，通常不能将录音设备放在离用户嘴很近的地方，因此偷录的音频不包含气爆音。通过检测气爆音，能够区分语音来源于真实的人还是扬声器。

音素，是语音中最小的单位。由于每个音素在人类声道***中都有其独特的物理来源，并且有自己的发音方式，所以对于不同的音素，产生气爆音的概率是不同的。有些音素在发音时会从唇部呼出更多的气流，而有些音素几乎不会产生气流。利用语音中的音素信息，可以更准确定位***音以及构建***音的特征。

发明内容

为了解决语音认证***在抵御重放攻击和模拟攻击时的脆弱性问题，本发明提供了一种基于气爆音的抗语音认证欺骗攻击检测方法，包含以下步骤：

步骤1：对麦克风接收到的音频进行自动语音识别，获得音频文本信息；

步骤2：将原始音频根据获得的语音文本信息，进行音素分割；

步骤3：根据音素分割后的信号，定位气爆音的位置，提取出包含气爆音的音频；

步骤4：提取气爆音音频的伽玛通频率倒谱系数(Gammatone Frequency CepstralCoefficients，GFCC)特征；

步骤5：将GFCC特征输入训练好的支持向量机(SVM)模型中进行二类分类，获得判决标签，如果标签为真人，则进入步骤6，否则判断为重放攻击，检测结束；

步骤6：根据步骤2获得的音素信息与步骤3获得的气爆音信息，构建二进制气爆音-音素序列S_j；

步骤7：计算认证所得的S_j与用户注册文件中的序列R_j的相似度，如果相似度大于阈值，则为真人，否则判断为模拟攻击。

作为优选，步骤1的具体实现包括：录制用户靠近麦克风进行认证时的音频，将其输入一个现有的自动语音识别工具，获得用户口令的文本信息。用户的口令包含多个单词。

作为优选，步骤2的具体实现包括：将用户原始语音音频与对应的文本信息输入到音素分割工具，得到音频的音素序列Pho_j，以及每个音素的开始时间ST_pho_j和结束的时间ET_pho_j,j＝1,2,…,m，j为音素的索引，m为音素的个数；

作为优选，步骤3的具体实现包括以下子步骤：

步骤3.1：根据步骤2得到的音素信息，去除不包含音素信息的前后静默部分；

步骤3.2：对步骤3.1得到的音频进行短时傅里叶变换，得到音频的频域信息；

步骤3.3：根据短时傅里叶变换后，音频在时间序列上的每个窗口的频域信息，计算每个窗口在气爆音出现的低频段的能量值，获得窗口能量序列E_i,i＝1,2,…n，i为窗口的索引，n为分割的窗口个数；

步骤3.4：根据窗口能量序列E_i挑选出第一轮的气爆音位置，计算窗口能量序列E_i的标准差E_std，挑选出满足条件E_i＞3·E_std的窗口集合，记为P_l，l＝1,2,…,L，l为选中窗口的索引，L为选中的窗口数量；

步骤3.5：计算窗口能量序列E_i的导数D_i；

步骤3.6：根据窗口能量值以及导数信息进行气爆音边界扩展，挑选出满足条件的窗口集合P_k，k＝1,2,…,K，k为选中窗口的索引，K为选中的窗口数量；

步骤3.7：计算选中的窗口集合P_k对应的音频位置，获得每个气爆音阶段POP_q出现的开始时间ST_pop_q和结束时间ET_pop_q，q＝1,2,…Q，q为气爆音的索引，Q为定位到的气爆音的个数；

步骤3.8：根据用户注册文件中，该执行认证操作的用户的气爆音在每个音素出现的概率信息P_pop_j，进行气爆音校正，认为在注册文件中低概率出现气爆音的音素位置检测到的气爆音为误检测，将其剔除。所述注册文件的概率信息，由通过对用户注册时的音频，进行步骤1至3.7的气爆音检测，对应到每个音素所得，用户注册时可录制多条音频信息；

步骤3.9：进行气爆音持续时间校正，挑选出满足条件的气爆音阶段POP_q，q＝1,2,…Q₂，q为气爆音的索引，Q₂为定位到的气爆音的个数；

作为优选，步骤4的具体实现过程是：根据步骤3得到的包含气爆音的音频，提取GFCC特征，其中，使用64维伽玛通滤波器组，选择中心频率为0～104Hz的滤波器，对应气爆音出现的频段；

作为优选，步骤5的具体实现过程是：将步骤4得到的GFCC特征输入训练好的二分类SVM模型，获得判决标签，如果标签为真人，则进入步骤6，否则判断为重放攻击，检测结束。所述SVM模型，由通过对用户注册时的音频以及事先采集的重放设备播放的音频，利用步骤1至4提取到的GFCC特征训练得到。

作为优选，步骤6的具体实现包括以下子步骤：

步骤6.1：获得步骤3得到的每个音素的开始时间ST_pho_j和结束的时间ET_pho_j，以及每个气爆音出现的开始时间ST_pop_q和结束时间ET_pop_q；

步骤6.2：初始化序列S_j为0，j＝1,2,…,m，j为音素的索引，m为音素的个数；

步骤6.3：根据ST_pho_j，ET_pho_j，ST_pop_q和ET_pop_q，计算每个音素位置是否出现了气爆音，如果出现则令S_j＝1，否则令S_j＝0，获得描述气爆音在每个音素出现情况的一维二进制向量；

作为优选，步骤7的具体实现过程是，计算用户认证音频所得序列S_j与用户注册音频所得序列R_j的Pearson相关系数P，当P高于阈值时接受用户，判决为真人，否则拒绝用户访问***，并判决为模拟攻击。

本发明的优点在于：利用人类声学的发声原理，通过提取气爆音的GFCC特征，以及描述气爆音在每个音素出现情况的序列，抵御语音认证***的欺骗攻击和模拟攻击。相对于现有技术，本发明的有益效果是：无需额外的硬件，能够抵御语音认证***的重放攻击和模拟攻击，攻击检测度高，***鲁邦性强，无需用户进行额外的操作，用户体验度好。

附图说明

图1是本发明实施例的***框图。

图2是本发明实施例的气爆音定位流程图。

图3是本发明实施例的气爆音-音素序列提取流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明主要基于声学领域的发声原理，考虑人说话时产生气息的特性不同，并和设备播放的音频作比较，提出一种基于气爆音的抗语音认证欺骗攻击的检测方法及***。本方法充分考虑了每个个体不同的气爆音特性，通过准确定位气爆音，并提取其GFCC特征以及气爆音-音素序列特征，检测针对语音认证***的重放攻击和模拟攻击。本发明可作为现有的语音认证***的补充，提高语音认证的安全性和可靠性。

本发明提供的方法能够用计算机软件技术实现流程。参见图1，本发明提供的一种基于气爆音的抗语音认证欺骗攻击检测方法，包括以下步骤：

步骤1，对麦克风接收到的音频进行自动语音识别，获得音频文本信息。

实施例的具体实施过程说明如下：

利用智能手机的麦克风录制用户进行认证时的口令，获得原始音频，采样率为48kHZ。将音频输入语音识别工具，获得其文本内容。语音识别工具使用科大讯飞提供的语音识别API，得到的音频文本信息，比如：set an alarm for six am。

步骤2，将原始音频根据获得的语音文本信息，进行音素分割。

实施例的具体实施过程说明如下：

根据步骤1得到的用户原始语音音频与对应的文本信息输入到音素分割工具，得到音频的音素序列Pho_j，以及每个音素的开始时间ST_pho_j和结束的时间ET_pho_j,j＝1,2,…,m，j为音素的索引，m为音素的个数。音素分割工具使用MAUS提供的API。实施例涉及的数据如下，这里m＝18，音素序列Pho_j对应口令set an alarm for six am。

步骤3，根据音素分割后的信号，定位***音的位置，提取出包含气爆音的音频，参见图2。

实施例的具体实施过程说明如下：

步骤3.1，根据步骤2得到的音素信息，去除不包含音素信息的前后静默部分，即ST_pho₁前的音频以及ET_pho₁₈后的音频，因为该阶段不对应任何音素信息。

步骤3.2：对步骤3.1得到的音频进行短时傅里叶变换，得到音频的频域信息，参数设置为，窗口大小4096个点(48kHZ采样率)，重叠大小2400个点，输出为每个窗口的频域分布值，以及每个窗口的中心时间点T_window_i，i＝1,2,…n，i为窗口的索引，n为分割的窗口个数。步骤3.3：根据短时傅里叶变换后，音频在时间序列上的每个窗口的频域信息，计算每个窗口在低频段的能量值，获得窗口能量序列E_i,i＝1,2,…n，i为窗口的索引，n为分割的窗口个数。能量计算的频段选取0～86HZ，根据气爆音出现的频率范围确定，与正常人的语音频率范围区分开来。

步骤3.4：根据低频段的能量值挑选出候选气爆音位置，计算窗口能量序列E_i的标准差E_std,挑选出满足条件E_i＞3·E_std的窗口，记为P_l，l＝1,2,…,L，L为选中的窗口数量。实施例涉及数据：E_std＝50.1070。

步骤3.5：计算窗口能量序列E_i的导数D_i。首先通过对窗口能量序列E_i进行分段拟合，得到E_i的函数表达式，再对其求导，得到每个窗口位置的导函数。拟合方法使用四阶最小二乘法拟合，分段点数设置为8个点。

步骤3.6：根据窗口能量值以及导数信息进行气爆音边界扩展，挑选出满足条件的窗口集合P_k，k＝1,2,…,K，k为选中窗口的索引，K为选中的窗口数量。边界扩展时进行搜索的点数选择为候选点的前后3个点。

步骤3.7：计算选中的窗口序列P_k对应的音频位置，获得每个气爆音阶段POP_q出现的开始时间ST_pop_q和结束时间ET_pop_q，q＝1,2,…Q，Q为定位到的气爆音的阶段个数。根据步骤3.2得到的每个窗口的中心时间点，以及窗口的索引，直接提取气爆音对应的音频。实施例涉及数据如下，这里Q＝10。

q	1	2	3	4	5	6	7	8	9	10
											ST_pop<sub>q</sub>(ms)	0.580	0.812	0.905	0.997	1.230	1.369	1.601	2.251	2.391	2.716
ET_pop<sub>q</sub>(ms)	0.765	0.858	0.951	1.044	1.323	1.555	1.880	2.344	2.437	2.809

步骤3.8：根据用户注册文件中，该执行认证操作的用户的气爆音在每个音素出现的概率信息P_pop_j，进行气爆音校正，认为在注册文件中低概率出现气爆音的音素位置检测到的气爆音为误检测，将其剔除，一般将出现气爆音概率低于0.5的音素的位置剔除。首先根据步骤2以及步骤3.7计算得到的每个音素的时间以及音素的位置，得到每个音素出现气爆音的情况。

所述注册文件为用户认证五次之后提取到的用户气爆音出现的音素序列，计算得到每个音素出现气爆音的概率值P_pop_j，当该值低于0.4，则认为该音素基本不出现气爆音，如果在该音素位置检测到，则去除这一部分误检气爆音。实施例涉及用户注册文件数据如下：

实施例涉及更正后的气爆音数据如下：

q	1	2	3	4	5	6	7	8	9
										ST_pop<sub>q</sub>(ms)	0.580	0.905	0.997	1.230	1.369	1.601	1.800	2.391	2.716
ET_pop<sub>q</sub>(ms)	0.765	0.951	1.044	1.323	1.555	1.700	1.830	2.437	2.809

步骤3.9：进行气爆音持续时间校正，挑选出满足条件的气爆音阶段POP_q，q＝1,2,…Q₂，q为气爆音的索引，Q₂为定位到的气爆音的个数，实施例涉及更正后的气爆音数据如下，这里Q₂＝5。

q	1	2	3	4	5
						ST_pop<sub>q</sub>(ms)	0.580	1.230	1.369	1.601	2.716
ET_pop<sub>q</sub>(ms)	0.765	1.323	1.555	1.700	2.809

步骤4，根据步骤3得到的包含气爆音的音频，提取GFCC特征，其中，使用64维伽玛通滤波器组，选择中心频率为0～104Hz的滤波器，对应气爆音出现的频段。

实施例的具体实施过程如下：

首先生成64个滤波器的伽玛通滤波器组，每个滤波器由带宽B和中心频率fc定义。利用滤波器组将定位到的每个气爆音音频的每帧的频谱划分为多个重叠的频带，选择中心频率为0～104HZ的滤波器，计算对应滤波器经过FFT变换的加权和，得到其对数能量。最后，将离散余弦变换(DCT)应用于每个对数能量，得到倒谱系数GFCC。特别地，我们只使用中心频率在0Hz到104Hz之间的滤波器，因为气爆音通常出现在这个频段。

步骤5，将步骤4得到的GFCC特征输入训练好的二分类SVM模型，获得判决标签，如果标签为真人，则进入步骤6，否则判断为重放攻击，检测结束。所述SVM模型，由通过对用户注册时的音频以及事先采集的重放设备播放的音频，利用步骤1至4提取到的GFCC特征训练得到。

实施例的具体实施过程如下：

对用户注册时收集的音频以及重放设备播放的音频，同样利用步骤1至3提取到气爆音，并得到GFCC特征，作为训练数据得到SVM模型。将用户进行认证时候提取到的GFCC特征输入SVM模型，通常一次认证录制的音频提取到的为多条GFCC特征，每条特征预测出一个标签，标签分为真实用户与重放设备。对于预测出的多个标签，计算判断为真实用户的比率，如果超过了判断为重放设备的比率，则判决为真实用户，否则为重放设备。

步骤6：根据步骤2获得的音素信息与步骤3获得的气爆音位置，构建二进制气爆音-音素出现序列S_j，参见图3；

实施例的具体实施过程如下：

步骤6.1：获得步骤3中得到的每个音素的开始时间ST_pho_j和结束的时间ET_pho_j，以及每个定位到的气爆音出现的开始时间ST_pop_q和结束时间ET_pop_q；

步骤6.3：根据ST_pho_j，ET_pho_j，ST_pop_q和ET_pop_q，计算每个音素位置是否出现了气爆音，如果出现则令S_j＝1，否则令S_j＝0。具体方法是，对于第一个气爆音，从第一个音素开始的时间扫描，找到气爆音出现时所在的第一个音素位置，并判断这个气爆音的时间持续到了第几个音素，之后再计算第二个气爆音，以此类推。实施例涉及数据S_j如下：

j	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18
																			S<sub>j</sub>	1	0	1	1	1	1	1	1	0	1	0	0	0	0	0	1	1	0

步骤7，计算认证所得的S_j与用户注册文件中的序列R_j的相似度，如果相似度大于阈值，则为真人，否则判断为模拟攻击。

实施例的具体实施过程如下：

计算用户认证音频所得序列S_j与用户注册音频所得序列R_j的Pearson相关系数P，当P高于阈值时接受用户，判决为真人，否则拒绝用户访问***，并判决为模拟攻击。所述用户注册音频所得序列R_j实际有多条，用户每输入一次口令作注册用，即可生成一条R_j，取S_j与多条R_j所得的相似度的平均值作为最终相似度值。

本文中所描述的具体实施例，仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于气爆音的抗语音认证欺骗攻击检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于气爆音的抗语音认证欺骗攻击检测方法，其特征在于，步骤1的具体实现过程是：录制用户靠近麦克风进行认证时的音频，将其输入一个现有的自动语音识别工具，获得用户口令的文本信息，用户的口令包含多个单词。

3.根据权利要求1所述的基于气爆音的抗语音认证欺骗攻击检测方法，其特征在于，步骤2的具体实现过程是：将用户原始语音音频与对应的文本信息输入到音素分割工具，得到音频的音素序列Pho_j，以及每个音素的开始时间ST_pho_j和结束的时间ET_pho_j,j＝1,2,…,m，j为音素的索引，m为音素的个数。

4.根据权利要求1所述的基于气爆音的抗语音认证欺骗攻击检测方法，其特征在于，步骤3的具体实现过程是：

步骤3.5：计算窗口能量序列E_i的导数D_i；

步骤3.8：根据用户注册文件中，该执行认证操作的用户的气爆音在每个音素出现的概率信息P_pop_j，进行气爆音校正，认为在注册文件中低概率出现气爆音的音素位置检测到的气爆音为误检测，将其剔除；所述注册文件的概率信息，由通过对用户注册时的音频，进行步骤1至3.7的气爆音检测，对应到每个音素所得，用户注册时可录制多条音频信息；

步骤3.9：进行气爆音持续时间校正，挑选出满足条件的气爆音阶段POP_q，q＝1,2,…Q₂，q为气爆音的索引，Q₂为定位到的气爆音的个数。

5.根据权利要求1所述的基于气爆音的抗语音认证欺骗攻击检测方法，其特征在于，步骤4的具体实现过程是：根据步骤3得到的包含气爆音的音频，提取GFCC特征，其中，使用64维伽玛通滤波器组，选择中心频率为0～104Hz的滤波器，对应气爆音出现的频段。

6.根据权利要求1所述的基于气爆音的抗语音认证欺骗攻击检测方法，其特征在于，步骤5的具体实现过程是：将步骤4得到的GFCC特征输入训练好的二分类SVM模型，获得判决标签，如果标签为真人，则进入步骤6，否则判断为重放攻击，检测结束；所述SVM模型，由通过对用户注册时的音频以及事先采集的重放设备播放的音频，利用步骤1至4提取到的GFCC特征训练得到。

7.根据权利要求1所述的基于气爆音的抗语音认证欺骗攻击检测方法，其特征在于，步骤6的具体实现过程是：

步骤6.3：根据ST_pho_j，ET_pho_j，ST_pop_q和ET_pop_q，计算每个音素位置是否出现了气爆音，如果出现则令S_j＝1，否则令S_j＝0，获得描述气爆音在每个音素出现情况的一维二进制向量。

8.根据权利要求1所述的基于气爆音的语音认证欺骗攻击检测方法，其特征在于，步骤7的具体实现过程是：计算用户认证音频所得序列S_j与用户注册音频所得序列R_j的Pearson相关系数P，当P高于阈值时接受用户，判决为真人，否则拒绝用户访问***，并判决为模拟攻击。