CN111611566B

CN111611566B - 一种说话人验证***及其重放攻击检测方法

Info

Publication number: CN111611566B
Application number: CN202010395097.6A
Authority: CN
Inventors: 窦勇强; 杨茂林; 杨皓程
Original assignee: Zhuhai Zenji Intelligent Biotechnology Co ltd
Current assignee: Zhuhai Zenji Intelligent Biotechnology Co ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2023-09-05
Anticipated expiration: 2040-05-12
Also published as: CN111611566A

Abstract

本发明实施例提供一种说话人验证***及重放攻击检测方法，所述方法包括：分别提取待测语音信号的MGD‑gram特征、STFT‑gram特征和CQT‑gram特征；将所述待测语音信号的MGD‑gram特征、STFT‑gram特征、CQT‑gram特征分别输入到训练好的具有平衡焦点损失函数的第一端到端残差网络模型、第二端到端残差网络模型和第三端到端残差网络模型，分别获得第一得分、第二得分和第三得分；采用确定好的融合方式融合所述第一得分、所述第二得分和所述第三得分，并根据融合后的得分输出重放攻击检测结果。本发明能够提高辨别重放攻击的准确率，且在雨、雾等视觉恶劣自然环境下，相对于利用人脸识别技术验证身份，本发明采用动态特征的声纹+强辨别的反欺骗技术，具有更高的安全性和可靠性。

Description

一种说话人验证***及其重放攻击检测方法

技术领域

本发明涉及声纹识别技术领域，尤其涉及一种说话人验证***及其重放攻击检测方法。

背景技术

声纹识别(Voiceprint Recognize)是一项提取说话人声音特征和说话内容信息，自动核验说话人身份的技术。自动说话人验证(Automatic Speaker Verification，ASV)***是一种采用声纹识别技术验证人身份的生物验证***。

重放攻击(Replay Attacks)又称重播攻击、回放攻击，是指攻击者发送一个目的主机已接收过的包，来达到欺骗***的目的，主要用于身份认证过程，破坏认证的正确性。

目前，随着自动说话人验证技术的飞速发展，说话人验证***在智能助手和银行***等方面得到广泛应用，但是，其脆弱性也日益突出。特别面对重放攻击，当前的自动说话人验证***的辨别能力差。更具威胁性的是，重放不需要具备专业技能，只需要一台高质量的录音设备。

经过2017和2019两届ASVspoof挑战赛，目前最先进的反欺骗***主要遭受两个挑战：一方面，在构建一个包含越来越多特性的***时，需要选择信息特征表示。选择更少但足够的、互补的特征极其重要。另一方面，大多数研究者广泛使用平衡交叉熵损失函数来辨别重放攻击，但因为训练集、测试集、评估集和真实数据的分布存在差异，辨别效果可能不是最优的。

发明内容

本发明的目的在于提供一种说话人验证***、说话人验证***的重放攻击检测方法，能够提高辨别重放攻击的准确率，提高说话人验证***的安全性和可靠性。

第一方面，本发明实施例提供一种说话人验证***的重放攻击检测方法，包括：

分别提取待测语音信号的MGD-gram特征、STFT-gram特征和CQT-gram特征；

将所述待测语音信号的MGD-gram特征输入到训练好的具有平衡焦点损失函数的第一端到端残差网络模型，获得第一得分；

将所述待测语音信号的STFT-gram特征输入到训练好的具有平衡焦点损失函数的第二端到端残差网络模型，获得第二得分

将所述待测语音信号的CQT-gram特征输入到训练好的具有平衡焦点损失函数的第三端到端残差网络模型，获得第三得分；

采用确定好的融合方式融合所述第一得分、所述第二得分和所述第三得分，并根据融合后的得分输出重放攻击检测结果。

作为优选方案，通过以下方式训练具有平衡焦点损失函数的端到端残差网络模型：其中，所述具有平衡焦点损失函数的端到端残差网络模型模型的输出为得分；

通过补长/截断的方式对训练集语音信号进行预处理；

提取预处理后的所述训练集语音信号的特征；

将所述特征输入到具有残差连接的CNN模型或者采用具有特征通道建模能力的SENet网络，进行高层次特征的提取；

将所述高层次特征通过非线性全连接层+softmax层，计算所述高层次特征的概率分布；

根据所述高层次特征的概率分布，通过如下所示的平衡焦点损失函数进行损失的计算，通过反向传播训练模型；

BFL(p_t)＝-α_t(1-p_t)^γlog(p_t)；

其中，α_t,p_t分别代表权重系数和高层次特征的概率分布。

作为优选方案，所述MGD-gram特征通过以下步骤提取得到：

设输入语音信号为x(n)，对分帧后的x(n),nx(n)进行快速傅里叶变换，得到信号在频域上的表示分别记为X(ω,t),Y(ω,t)；

对X(ω,t)倒谱平滑操作，得到S(ω,t)；

计算其中λ为参数；

按下式计算修正群延迟函数，得到一帧特征；

其中ρ为参数；

对分出来的每一帧语音信号重复上述步骤的计算，并在时间维度上拼接每一帧特征，得到MGD-gram特征。

作为优选方案，在获得所述确定的融合方式之前，包括：

通过平均值融合方式或逻辑回归融合方式融合所述第一端到端残差网络模型、所述第二端到端残差网络模型和所述第三端到端残差网络模型的得分；

根据所述得分，通过EER标准和t-DCF标准确定融合方式。

作为优选方案，当所述融合方式为逻辑回归融合方式时，通过以下方式计算具有平衡焦点损失函数的端到端残差网络模型的权重和偏移量：

将训练集语音信号进行线性变换得到预测的输出结果BFL值；

计算所述模型的损失函数J(w,b)；其中，w为所述模型中涉及到的权重，b为偏移量；

根据所述预测的输出结果BFL值，计算损失函数的梯度；

根据下述公式更新权重w和偏移量b；

其中J为损失函数，α为学习率

在迭代次数内，再重复上述步骤，直到导数得到最小化的代价函数。

第二方面，本发明实施例提供一种说话人验证***的重放攻击检测***，包括：

提取模块，用于分别提取待测语音信号的MGD-gram特征、STFT-gram特征和CQT-gram特征；

第一输入模块，用于将所述待测语音信号的MGD-gram特征输入到训练好的具有平衡焦点损失函数的第一端到端残差网络模型，获得第一得分；

第二输入模块，用于将所述待测语音信号的STFT-gram特征输入到训练好的具有平衡焦点损失函数的第二端到端残差网络模型，获得第二得分；

第三输入模块，用于将所述待测语音信号的CQT-gram特征输入到训练好的具有平衡焦点损失函数的第三端到端残差网络模型，获得第三得分；

输出模块，采用确定好的融合方式融合所述第一得分、所述第二得分和所述第三得分，并根据融合后的得分输出重放攻击检测结果。

通过补长/截断的方式对训练集语音信号进行预处理；

提取预处理后的所述训练集语音信号的特征；

BFL(p_t)＝-α_t(1-p_t)^γlog(p_t)；

其中，α_t,p_t分别代表权重系数和高层次特征的概率分布。

作为优选方案，所述MGD-gram特征通过以下步骤提取得到：

对X(ω,t)倒谱平滑操作，得到S(ω,t)；

计算其中λ为参数；

按下式计算修正群延迟函数，得到一帧特征；

其中ρ为参数；

作为优选方案，在获得所述确定的融合方式之前，包括：

通过平均值融合方式或逻辑回归融合方式融合所述第一端到端残差网络模型、所述第二端到端残差网络模型和所述第三第端残差网络模型的得分；

根据所述得分，通过EER标准和t-DCF标准确定融合方式。

将训练集语音信号进行线性变换得到预测的输出结果BFL值；

根据所述预测的输出结果BFL值，计算损失函数的梯度；

根据下述公式更新权重w和偏移量b；

其中J为损失函数，α为学习率

本发明实施例具有如下有益效果：

本发明实施例通过分别提取待测语音音频的MGD-gram、STFT-gram和CQT-gram三种特征，并将这三种特征分别输入到三个训练好的具有平衡焦点损失函数的端到端残差网络模型进行训练，并根据确定好的融合方式融合得分，并根据得分输出重放攻击检测结果能够提高辨别重放攻击的准确率。本发明采用的焦点损失函数以一种软注意力机制的方法自动平衡难以样品的训练，而无需人工指出难以样本。通过显著性分析，证明了模型很好的可靠性，以及可解释性。相比在雨、雾等视觉恶劣自然环境下，对于利用静态特征的人脸识别技术，本发明实施例采用动态特征的声纹+强辨别的反欺骗技术，具有更高的安全性和可靠性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种说话人验证***的重放攻击检测方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在生物识别领域，***需要判定两个样本之间是否为同一个人，通常的做法是选定一个阈值，高于阈值的分数判定为同一个人，反之判定为非同样一个人。

描述说话人验证***的辨别能力通常包括四个指标，分别是错误拒绝率(FRR)、错误接受率(FAR)、等错误率(EER)和检测损失函数(DCF)。

错误拒绝率(FRR)；在分类问题中，若两个样本为同类，则被***认为是异类，则视为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的比例。

错误接受率(FAR)：在分类问题中，若两个样本为异类，却被***误认为同类，则视为错误接受案例。错误接受率为错误接受案例在所有异类匹配案例的比例。

等错误率(EER)：调整阈值，使得错误拒绝率等于错误接受率，此时FAR和FRR的值称为等错误率，等错误率平等对待FAR和FRR，而在实际应用中，FAR和FRR往往有不同的重要性，因此有了区别两种错误率的第四个评价指标，即检测损失函数(DCF)。目前，为了描述说话人验证***得整体辨别能力，一般采用t-DFC进行评价。

实施例1：

请参见图1，本发明实施例1提供一种说话人验证***的重放攻击检测方法，包括S1-S5；

S1：分别提取待测语音信号的MGD-gram特征(Modified group delay，修正群时延)、STFT-gram特征(STFT，short-time Fourier transform，短时傅里叶变换)和CQT-gram特征(Constant Q transform，常数Q变换)；

S2、将所述待测语音信号MGD-gram特征输入到训练好的具有平衡焦点损失函数的第一端到端残差网络模型；

S3、将所述待测语音信号STFT-gram特征输入到训练好的具有平衡焦点损失函数的第二端到端残差网络模型；

S4、将所述待测语音信号CQT-gram特征输入到训练好的具有平衡焦点损失函数的第三端到端残差网络模型；

S5、采用确定好的融合方式融合所述第一得分、所述第二得分和所述第三得分，并根据融合后的得分输出重放攻击检测结果。

在本发明实施例中，所述MGD-gram特征，所述STFT-gram特征，所述CQT-gram特征，这三种特征是互补的，所述MGD-gram利用原始语音相位信息，所述STFT-gram包含幅度信息，所述CQT-gram符合人类听觉感知，被证明在重放检测中具有很大作用。在模型结构方面使用具有残差连接的ResNet架构/对于特征通道建模的SENet结构，通过平衡局部损失函数进行模型训练。

作为本实施例的一种举例，通过以下方式训练具有平衡焦点损失函数的端到端残差网络模型：其中，所述具有平衡焦点损失函数的端到端残差网络模型模型的输出为得分；

通过补长/截断的方式对训练集语音信号进行预处理；

提取预处理后的所述训练集语音信号的特征；

根据所述高层次特征的概率分布，通过如下所示的平衡焦点损失函数(BalancedFocal Loss,BFL)进行损失的计算，通过反向传播训练模型；

BFL(p_t)＝-α_t(1-p_t)^γlog(p_t)；

其中，α_t,p_t分别代表权重系数和高层次特征的概率分布。

作为本实施例的一种举例，所述训练好的具有平衡焦点损失函数的第一端到端残差网络模型、第二端到端残差网络模型、第三端到端残差网络模型通过以下步骤训练得到：

分别提取训练集语音信号的MGD-gram特征、STFT-gram特征和CQT-gram特征。在本发明实施例中，所述训练集语音信号为用户的真实声音信号。

将预处理好的MGD-gram特征输入到第一端到端残差网络模型，训练出具有平衡焦点损失函数的第一端到端残差网络模型；

将预处理好的STFT-gram特征输入到第二端到端残差网络模型，训练出具有平衡焦点损失函数的第二端到端残差网络模型；

将预处理好的CQT-gram特征输入到第三端到端残差网络模型，训练出具有平衡焦点损失函数的第三端到端残差网络模型。

作为本实施例的一种举例，所述MGD-gram特征通过以下步骤提取得到：

对X(ω,t)倒谱平滑操作，得到S(ω,t)；

计算其中λ为参数；

按下式计算修正群延迟函数，得到一帧特征；

其中ρ为参数；

作为本实施例的一种举例，所述融合方式根据以下步骤确定：

分别对所述具有平衡焦点损失函数的第一端到端残差网络模型、第二端到端残差网络模型和第三端到端残差网络模型的输出结果进行打分，并通过平均值融合方式或逻辑回归融合方式融合所述第一端到端残差网络模型、所述第二端到端残差网络模型和所述第三端到端残差网络模型的得分；根据所述得分，通过EER标准和t-DCF标准确定融合方式。

其中，所述对所述具有平衡焦点损失函数的第一端到端残差网络模型、第二端到端残差网络模型和第三端到端残差网络模型的输出结果进行打分，具体的根据残差网络模型softmax层输出的结果以对数似然值进行打分。

作为本实施例的一种举例，当所述融合方式为逻辑回归融合方式时，通过以下方式计算具有平衡焦点损失函数的端到端残差网络模型的权重和偏移量：

将训练集语音信号进行线性变换得到预测的输出结果BFL值；

根据所述预测的输出结果BFL值，计算损失函数的梯度；

根据下述公式更新权重w和偏移量b；

其中J为损失函数，α为学习率

本发明实施例通过分别提取待测语音音频的MGD-gram、STFT-gram和CQT-gram三种特征，并将这三种特征分别输入到三个训练好的具有平衡焦点损失函数的第一端到端残差网络模型进行训练，并根据确定好的融合方式融合得分，并根据得分输出重放攻击检测结果能够提高辨别重放攻击的准确率。相在雨、雾等视觉恶劣自然环境下，对于利用静态特征的人脸识别技术，本发明实施例采用动态特征的声纹+强辨别的反欺骗技术，具有更高的安全性和可靠性。

实施例2

本实施例还提供一种说话人验证***，包括：

第二输入模块，用于将所述待测语音信号的STFT-gram特征输入到训练好的具有平衡焦点损失函数的第二端到端残差网络模型，获得第二得分

通过补长/截断的方式对训练集语音信号进行预处理，确保固定帧数量为500；

提取预处理后的所述训练集语音信号的特征；

BFL(p_t)＝-α_t(1-p_t)^γlog(p_t)；

其中，α_t,p_t分别代表权重系数和高层次特征的概率分布。

对X(ω,t)倒谱平滑操作，得到S(ω,t)；

计算其中λ为参数；

按下式计算修正群延迟函数，得到一帧特征；

其中ρ为参数；

作为本实施例的一种举例，在获得所述确定的融合方式之前，包括：

根据所述得分，通过EER标准和t-DCF标准确定融合方式。

将训练集语音信号进行线性变换得到预测的输出结果BFL值；

根据所述预测的输出结果BFL值，计算损失函数的梯度；

根据下述公式更新权重w和偏移量b；

其中J为损失函数，α为学习率

需要说明的是，本发明第一实施例提供说话人验证***的重放攻击检测方法的所有技术内容、技术效果以及对所述第一实施例提供的说话人验证***的重放攻击检测方法的所有解释、说明均适用于本发明第二实施例提供的说话人验证***的重放攻击检测***，因此本发明第二实施例在此不作过多赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可监听存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种说话人验证***的重放攻击检测方法，其特征在于，包括：分别提取待测语音信号的MGD-gram 特征、STFT-gram 特征和CQT-gram 特征；

将所述待测语音信号的MGD-gram 特征输入到训练好的具有平衡焦点损失函数的第一端到端残差网络模型，获得第一得分；

将所述待测语音信号的STFT-gram 特征输入到训练好的具有平衡焦点损失函数的第二端到端残差网络模型，获得第二得分；

将所述待测语音信号的CQT-gram 特征输入到训练好的具有平衡焦点损失函数的第三端到端残差网络模型，获得第三得分；

采用确定好的融合方式融合所述第一得分、所述第二得分和所述第三得分，并根据融合后的得分输出重放攻击检测结果；

其中，通过以下方式训练具有平衡焦点损失函数的第一端到端残差网络模型、第二端到端残差网络模型和第三端到端残差网络模型；

其中，所述具有平衡焦点损失函数的端到端残差网络模型的输出为得分；

通过补长/截断的方式对训练集语音信号进行预处理；

提取预处理后的所述训练集语音信号的特征；

将所述特征输入到具有残差连接的CNN 模型或者采用具有特征通道建模能力的SENet网络，进行高层次特征的提取；

；

其中，，/>分别代表权重系数和高层次特征的概率分布；

其中，所述确定好的融合方式具体是：

分别对所述具有平衡焦点损失函数的第一端到端残差网络模型、第二端到端残差网络模型和第三端到端残差网络模型的输出结果进行打分，并通过平均值融合方式或逻辑回归融合方式融合所述第一端到端残差网络模型、所述第二端到端残差网络模型和所述第三端到端残差网络模型的得分；根据所述得分，通过EER 标准和t-DCF 标准确定融合方式。

2.根据权利要求1所述的说话人验证***的重放攻击检测方法，其特征在于，所述MGD-gram 特征通过以下步骤提取得到：

设输入语音信号为x(n)，对分帧后的x(n),nx(n)进行快速傅里叶变换，得到信号在频域上的表示分别记为，/>；

对倒谱平滑操作，得到/>；

计算，其中λ为参数；

按下式计算修正群延迟函数，得到一帧特征；

，其中p为参数；

对分出来的每一帧语音信号重复上述步骤的计算，并在时间维度上拼接每一帧特征，得到MGD-gram 特征。

3.据权利要求1所述的说话人验证***的重放攻击检测方法，其特征在于，在获得所述确定的融合方式之前，包括：

根据所述得分，通过EER 标准和t-DCF 标准确定融合方式。

4.根据权利要求3所述的说话人验证***的重放攻击检测方法，其特征在于，当所述融合方式为逻辑回归融合方式时，通过以下方式计算具有平衡焦点失函数的端到端残差网络模型的权重和偏移量：

将训练集语音信号进行线性变换得到预测的输出结果BFL值；

计算所述模型的损失函数J（w,b）；其中，w 为所述模型中涉及到的权重，b 为偏移量；

根据所述预测的输出结果BFL值，计算损失函数的梯度；

根据下述公式更新权重w和偏移量b；

；

，其中J为损失函数，α为学习率；

5.一种说话人验证***的重放攻击检测***，其特征在于，包括：

提取模块，用于分别提取待测语音信号的MGD-gram 特征、STFT-gram 特征和CQT-gram特征；

第一输入模块，用于将所述待测语音信号的MGD-gram 特征输入到训练好的具有平衡焦点损失函数的第一端到端残差网络模型，获得第一得分；

第二输入模块，用于将所述待测语音信号的STFT-gram 特征输入到训练好的具有平衡焦点损失函数的第二端到端残差网络模型，获得第二得分；

第三输入模块，用于将所述待测语音信号的CQT-gram 特征输入到训练好的具有平衡焦点损失函数的第三端到端残差网络模型，获得第三得分；

输出模块，采用确定好的融合方式融合所述第一得分、所述第二得分和所述第三得分，并根据融合后的得分输出重放攻击检测结果；

通过补长/截断的方式对训练集语音信号进行预处理；

提取预处理后的所述训练集语音信号的特征；

；

其中，，/>分别代表权重系数和高层次特征的概率分布；

其中，所述确定好的融合方式具体是：

6.根据权利要求5所述的说话人验证***的重放攻击检测***，其特征在于，所述MGD-gram 特征通过以下步骤提取得到：

对倒谱平滑操作，得到/>；

计算，其中λ为参数；

按下式计算修正群延迟函数，得到一帧特征；

，其中p为参数；

7.据权利要求5所述的说话人验证***的重放攻击检测***，其特征在于，在获得所述确定的融合方式之前，包括：

根据所述得分，通过EER 标准和t-DCF 标准确定融合方式。

8.根据权利要求7所述的说话人验证***的重放攻击检测***，其特征在于，当所述融合方式为逻辑回归融合方式时，通过以下方式计算具有平衡焦点失函数的端到端残差网络模型的权重和偏移量：

将训练集语音信号进行线性变换得到预测的输出结果BFL值；

根据所述预测的输出结果BFL值，计算损失函数的梯度；

根据下述公式更新权重w和偏移量b；

；

，其中J为损失函数，α为学习率；