CN110211606B

CN110211606B - 一种语音认证***的重放攻击检测方法

Info

Publication number: CN110211606B
Application number: CN201910303649.3A
Authority: CN
Inventors: 冀晓宇; 龙颜; 徐文渊; 闫琛
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2021-04-06
Anticipated expiration: 2039-04-12
Also published as: CN110211606A

Abstract

本发明公开了一种基于语音信号时域极性的语音认证***的重放攻击检测方法。通过语音认证***采集记录语音信号，提取语音信号的正极性信号和负极性信号，比较正极性信号和负极性信号的比例关系判断获得语音信号属于重放攻击或者活体语音：若正负极性部分比例差距较大且正极性信号比例高于负极性信号比例，则认为是重放攻击；若正负极性部分比例差距较大且正极性信号比例不高于负极性信号比例，则认为是活体语音。本发明能准确有效地检测出语音认证***中的重放攻击。

Description

一种语音认证***的重放攻击检测方法

技术领域

本发明属于语音认证技术及安全技术领域，具体涉及一种可检测针对语音认证***的重放攻击的软件处理方法。

背景技术

语音认证***是一种利用语音认证技术提取说话人语音特异性特征，通过语音特征模式匹配从而鉴别说话人身份的安全认证***。由于其对硬件要求低、低成本、认证简单方便、可进行远距离非接触式认证的特点，已经逐渐成为一种主流用户认证和访问控制方式。然而，现有语音认证***，普遍易遭受重放攻击。

针对语音认证***的重放攻击是指攻击者预先录制收集真实合法用户语音样本片段，将其直接或经过拼接后，通过扬声器播出，以欺骗语音认证***。重放攻击不需要攻击发起者掌握语音信号处理知识，并且随着电子设备技术的发展，高质量而低成本的扬声器已经变得愈发常见，这些因素都使得重放攻击成为了针对语音认证***最简易、但是威胁最大的攻击；但同时，重放攻击又极难被发现、防御。

要检测和防御重放攻击，需要了解麦克风及扬声器的声-电及电-声转换机制。麦克风、扬声器等是用于声波—电磁信号转换的变换器。麦克风通过声波带来的薄膜振动，利用法拉第电磁感应效应，将振动机械能转换为电信号的电能；扬声器则是将此电信号电脑反向转化为薄膜的动能，使薄膜扰动空气形成声波，进而还原被转化为电信号之前的声音。

理想情况下，麦克风和扬声器的转换为完全互逆过程，即如下图1中，声信号1应与声信号2完全相同。但在现实情况下，这两种信号往往不同。导致两者之间区别的主要原因有两点：1)麦克风和扬声器的电信号通路中，有如功放、输入与输出滤波器、AD/DA转换器等电路，均会向电信号中引入噪声；2)在振动膜振动实现电—声及声—电转换时，多种机械阻力会造成其运动模式变化，造成转换前后信号不一致。

由于在重放攻击当中，语音信号(这里为声信号和电信号的抽象总和)从被人发出到被语音认证***麦克风接收前，较活体用户直接进行认证额外经过了一组麦风—扬声器攻击硬件，故重放攻击的语音信号较活体认证将包含更多噪声以及由振膜运动模式变化带来的失真。通过检测这些失真，理论上就可以检测、防御重放攻击。

目前已有许多相关研究通过检测攻击硬件引入噪声以检测重放攻击。这一类检测方法通常有检测准确率较低、且受重放攻击使用麦克风及扬声器质量影响较大的特点。然而，还未有研究关注攻击设备硬件通路上由振膜运动模式变化带来的语音信号失真。

发明内容

为解决上述背景技术中存在的技术问题，本发明提供了一种基于语音信号时域极性的语音认证***的重放攻击检测方法，通过检测语音认证***收集到语音信号的时域极性特点能准确有效地检测出重放攻击。

本发明采用如下技术方案：

本发明通过语音认证***采集记录语音信号，提取语音信号的正极性信号和负极性信号，比较正极性信号和负极性信号的比例关系判断获得语音信号属于重放攻击(录音设备发出的声音)或者活体语音(即活体用户发出的声音)：

若正负极性部分比例差距较大且正极性信号比例高于负极性信号比例，则认为是重放攻击；

若正负极性部分比例差距较大且正极性信号比例不高于负极性信号比例，则认为是活体语音。

所述方法具体如下：

1)对语音认证***按一定采样频率间隔采集收集到的语音信号进行语音活动检测，去除语音信号中的噪声，提取语音音频信号中的一部分作为纯人声部分；

本发明方法使用的语音活动检测主要通过信号幅值及持续时间以判断指定段语音信号为纯人声或是噪声。

2)对得到的时域纯人声信号进行极性指数计算：

纯人声语音信号序列S为包含N个采样点的序列，其中采样值为正的所有采样点个数为N_pos，采样值为正的所有采样点的采样值之和的绝对值为|Sum_pos|，采样值为负的所有采样点个数为N_neg，采样值为负的所有采样点的采样值之和的绝对值为|Sum_neg|，采用以下公式处理获得极性值I：

3)将所得到的极性值I与预设极性阈值I_thr比较：当极性值I大于极性阈值I_thr，，判断为活体语音；否则，判断为重放攻击。

所述步骤1)具体为：

1.2)提取语音信号Sa中所有采样值绝对值大于信号幅值阈值|Athr|的采样点组成第一序列(Sa_i1,Sa_i2,Sa_i3,...Sa_ix)，且有1<＝i₁<i₂<i₃<...<i_x<＝N，i为采样点在语音信号Sa序列中的索引序数值，N表示语音信号Sa序列中采样点的总数；

1.3)对第一序列(Sa_i1,Sa_i2,Sa_i3,...Sa_ix)中，初始以第i₁个采样点作为参考采样点，先从第i₁个采样点的索引序数值开始向后遍历寻找各个采样点的索引序数值：若第i_p个采样点的索引序数值与第i_(p-1)个采样点的索引序数值之差大于预设序数阈值D₁，则将第i_p-1个采样点与第i₁个采样点之间的第一序列(Sa_i1,Sa_i2,Sa_i3,...Sa_ix)中的所有采样点组成第1个子集序列Ssub1；

1.4)然后从第i_p个采样点作为开始向后不断重复上述步骤1.3)，将第i_q(q>＝p)个采样点与其之前最临近的参考采样点之间的第一序列(Sa_i1,Sa_i2,Sa_i3,...Sa_ix)中的所有采样点组成下一个子集序列，直至遍历到最后第Sa_ix个采样点，最后获得第y个子集序列Ssuby；

1.5)对于第1个子集序列Ssub1到第y个子集序列Ssuby(y>＝1)，判断各子集序列其中各个采样点是否满足采样点的最大索引序数值与最小索引序数值之差大于预设索引阈值D₂，将最后将所有满足采样点的最大索引序数值与最小索引序数值之差大于预设索引阈值D₂的子集序列合并成为纯人声语音信号序列S。

本发明发现在活体认证时，由于人体声带振动发声模式相对固定，认证***直接录得的活体语音基本呈现信号正负极性部分比例差距较大且正极性信号比例高于负极性信号比例的特点。

而在重放攻击时，由于攻击设备硬件通路带来的振膜振动模式变化，其语音信号基本呈现正负极性部分比例相当，甚至是负极性信号比例高于正极性信号的特点。

本发明即通过检测语音认证***硬件所收集到的语音信号的正负极性信号的比较(时域极性)，即可简单却非常有效地判断此语音信号来自活体说话人还是重放攻击扬声器。

本发明的有益效果是：

本发明在仅对语音认证时域信号进行处理的条件下，实现了对重放攻击的检测与防御。由于方法非常简单却有效，处理步骤少，且算法复杂度低，本发明有高校而延时低的优点；同时，由于所检测的对象与麦克风和扬声器电信号通路中混入的噪声无关，本方法检测成功率不受重放攻击所使用麦克风与扬声器音质影响，即对不同质量档次的扬声器与麦克风发起的攻击具有同样的防御效果。

本发明能准确有效地检测出语音认证***中的重放攻击。

附图说明

图1为理想情况下麦克风和扬声器的转换过程示意图。

图2为本发明的检测方法流程图。

图3为实施例的语音信号检测图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明具体实施过程如下：

1)对语音认证***间隔采集收集到的语音信号进行语音活动检测，去除语音信号中的噪声，提取语音音频信号中的一部分作为纯人声部分；

1.2)提取语音信号Sa中所有采样值绝对值大于信号幅值阈值|Athr|的采样点组成第一序列(Sa_i1,Sa_i2,Sa_i3,...Sa_ix)，Sa_i1,Sa_i2,Sa_i3,...Sa_ix分别表示第i₁个采样点到第i_x个采样点的采样值，且有1<＝i₁<i₂<i₃<...<i_x<＝N，i为采样点在语音信号Sa序列中的索引序数值，N表示语音信号Sa序列中采样点的总数；

2)对得到的时域纯人声信号进行极性指数计算：

3)将所得到的极性值I与预设极性阈值I_thr比较：当极性值I大于极性阈值I_thr，即I>I_thr时，认为语音信号符合活体用户语音信号极性特点，判断为活体语音；否则，判断为重放攻击。

实施例一：

图3中，上通道为语音认证***获得的活体认证语音信号，而下通道为用HiVi音响重放攻击得到的语音信号。可以明显看到，活体语音信号的正极性比例大大高于负极性比例，而重放攻击信号则恰好相反。经过本检测方法前两步(语音活动检测、极性指数计算)处理后，可计算得到活体认证语音信号极性指数为0.583，明显大于重放攻击语音信号的极性指数为0.494。

实施例二：

本实施例采集了共20人(14男6女)的活体认证语音，并用包括前述HiVi音响在内的8种质量分布较广的扬声器进行重放攻击。设定判决阈值为为0.52，即将极性指数大于0.52的语音判定为活体语音，反正判定为重放攻击时，得到对活体语音检测准确率93.2％，对重放攻击检测准确率96.5％。

Claims

1.一种语音认证***的重放攻击检测方法，其特征在于：通过语音认证***采集记录语音信号，提取语音信号的正极性信号和负极性信号，比较正极性信号和负极性信号的比例关系判断获得语音信号属于重放攻击或者活体语音：若正负极性部分比例差距较大且正极性信号比例高于负极性信号比例，则认为是重放攻击；若正负极性部分比例差距较大且正极性信号比例不高于负极性信号比例，则认为是活体语音；

方法具体如下：

2)对得到的时域纯人声信号进行极性指数计算：

3)将所得到的极性值I与预设极性阈值I_thr比较：当极性值I大于极性阈值I_thr，判断为活体语音；否则，判断为重放攻击；

所述步骤1)具体为：