CN111611566B - 一种说话人验证***及其重放攻击检测方法 - Google Patents
一种说话人验证***及其重放攻击检测方法 Download PDFInfo
- Publication number
- CN111611566B CN111611566B CN202010395097.6A CN202010395097A CN111611566B CN 111611566 B CN111611566 B CN 111611566B CN 202010395097 A CN202010395097 A CN 202010395097A CN 111611566 B CN111611566 B CN 111611566B
- Authority
- CN
- China
- Prior art keywords
- network model
- score
- residual error
- loss function
- error network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012795 verification Methods 0.000 title claims abstract description 29
- 238000001514 detection method Methods 0.000 title claims abstract description 23
- 230000006870 function Effects 0.000 claims abstract description 89
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims description 51
- 238000012549 training Methods 0.000 claims description 36
- 238000007477 logistic regression Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000001502 supplementing effect Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 9
- 230000000007 visual effect Effects 0.000 abstract description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010047531 Visual acuity reduced Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供一种说话人验证***及重放攻击检测方法,所述方法包括:分别提取待测语音信号的MGD‑gram特征、STFT‑gram特征和CQT‑gram特征;将所述待测语音信号的MGD‑gram特征、STFT‑gram特征、CQT‑gram特征分别输入到训练好的具有平衡焦点损失函数的第一端到端残差网络模型、第二端到端残差网络模型和第三端到端残差网络模型,分别获得第一得分、第二得分和第三得分;采用确定好的融合方式融合所述第一得分、所述第二得分和所述第三得分,并根据融合后的得分输出重放攻击检测结果。本发明能够提高辨别重放攻击的准确率,且在雨、雾等视觉恶劣自然环境下,相对于利用人脸识别技术验证身份,本发明采用动态特征的声纹+强辨别的反欺骗技术,具有更高的安全性和可靠性。
Description
技术领域
本发明涉及声纹识别技术领域,尤其涉及一种说话人验证***及其重放攻击检测方法。
背景技术
声纹识别(Voiceprint Recognize)是一项提取说话人声音特征和说话内容信息,自动核验说话人身份的技术。自动说话人验证(Automatic Speaker Verification,ASV)***是一种采用声纹识别技术验证人身份的生物验证***。
重放攻击(Replay Attacks)又称重播攻击、回放攻击,是指攻击者发送一个目的主机已接收过的包,来达到欺骗***的目的,主要用于身份认证过程,破坏认证的正确性。
目前,随着自动说话人验证技术的飞速发展,说话人验证***在智能助手和银行***等方面得到广泛应用,但是,其脆弱性也日益突出。特别面对重放攻击,当前的自动说话人验证***的辨别能力差。更具威胁性的是,重放不需要具备专业技能,只需要一台高质量的录音设备。
经过2017和2019两届ASVspoof挑战赛,目前最先进的反欺骗***主要遭受两个挑战:一方面,在构建一个包含越来越多特性的***时,需要选择信息特征表示。选择更少但足够的、互补的特征极其重要。另一方面,大多数研究者广泛使用平衡交叉熵损失函数来辨别重放攻击,但因为训练集、测试集、评估集和真实数据的分布存在差异,辨别效果可能不是最优的。
发明内容
本发明的目的在于提供一种说话人验证***、说话人验证***的重放攻击检测方法,能够提高辨别重放攻击的准确率,提高说话人验证***的安全性和可靠性。
第一方面,本发明实施例提供一种说话人验证***的重放攻击检测方法,包括:
分别提取待测语音信号的MGD-gram特征、STFT-gram特征和CQT-gram特征;
将所述待测语音信号的MGD-gram特征输入到训练好的具有平衡焦点损失函数的第一端到端残差网络模型,获得第一得分;
将所述待测语音信号的STFT-gram特征输入到训练好的具有平衡焦点损失函数的第二端到端残差网络模型,获得第二得分
将所述待测语音信号的CQT-gram特征输入到训练好的具有平衡焦点损失函数的第三端到端残差网络模型,获得第三得分;
采用确定好的融合方式融合所述第一得分、所述第二得分和所述第三得分,并根据融合后的得分输出重放攻击检测结果。
作为优选方案,通过以下方式训练具有平衡焦点损失函数的端到端残差网络模型:其中,所述具有平衡焦点损失函数的端到端残差网络模型模型的输出为得分;
通过补长/截断的方式对训练集语音信号进行预处理;
提取预处理后的所述训练集语音信号的特征;
将所述特征输入到具有残差连接的CNN模型或者采用具有特征通道建模能力的SENet网络,进行高层次特征的提取;
将所述高层次特征通过非线性全连接层+softmax层,计算所述高层次特征的概率分布;
根据所述高层次特征的概率分布,通过如下所示的平衡焦点损失函数进行损失的计算,通过反向传播训练模型;
BFL(pt)=-αt(1-pt)γlog(pt);
其中,αt,pt分别代表权重系数和高层次特征的概率分布。
作为优选方案,所述MGD-gram特征通过以下步骤提取得到:
设输入语音信号为x(n),对分帧后的x(n),nx(n)进行快速傅里叶变换,得到信号在频域上的表示分别记为X(ω,t),Y(ω,t);
对X(ω,t)倒谱平滑操作,得到S(ω,t);
计算其中λ为参数;
按下式计算修正群延迟函数,得到一帧特征;
其中ρ为参数;
对分出来的每一帧语音信号重复上述步骤的计算,并在时间维度上拼接每一帧特征,得到MGD-gram特征。
作为优选方案,在获得所述确定的融合方式之前,包括:
通过平均值融合方式或逻辑回归融合方式融合所述第一端到端残差网络模型、所述第二端到端残差网络模型和所述第三端到端残差网络模型的得分;
根据所述得分,通过EER标准和t-DCF标准确定融合方式。
作为优选方案,当所述融合方式为逻辑回归融合方式时,通过以下方式计算具有平衡焦点损失函数的端到端残差网络模型的权重和偏移量:
将训练集语音信号进行线性变换得到预测的输出结果BFL值;
计算所述模型的损失函数J(w,b);其中,w为所述模型中涉及到的权重,b为偏移量;
根据所述预测的输出结果BFL值,计算损失函数的梯度;
根据下述公式更新权重w和偏移量b;
其中J为损失函数,α为学习率
在迭代次数内,再重复上述步骤,直到导数得到最小化的代价函数。
第二方面,本发明实施例提供一种说话人验证***的重放攻击检测***,包括:
提取模块,用于分别提取待测语音信号的MGD-gram特征、STFT-gram特征和CQT-gram特征;
第一输入模块,用于将所述待测语音信号的MGD-gram特征输入到训练好的具有平衡焦点损失函数的第一端到端残差网络模型,获得第一得分;
第二输入模块,用于将所述待测语音信号的STFT-gram特征输入到训练好的具有平衡焦点损失函数的第二端到端残差网络模型,获得第二得分;
第三输入模块,用于将所述待测语音信号的CQT-gram特征输入到训练好的具有平衡焦点损失函数的第三端到端残差网络模型,获得第三得分;
输出模块,采用确定好的融合方式融合所述第一得分、所述第二得分和所述第三得分,并根据融合后的得分输出重放攻击检测结果。
作为优选方案,通过以下方式训练具有平衡焦点损失函数的端到端残差网络模型:其中,所述具有平衡焦点损失函数的端到端残差网络模型模型的输出为得分;
通过补长/截断的方式对训练集语音信号进行预处理;
提取预处理后的所述训练集语音信号的特征;
将所述特征输入到具有残差连接的CNN模型或者采用具有特征通道建模能力的SENet网络,进行高层次特征的提取;
将所述高层次特征通过非线性全连接层+softmax层,计算所述高层次特征的概率分布;
根据所述高层次特征的概率分布,通过如下所示的平衡焦点损失函数进行损失的计算,通过反向传播训练模型;
BFL(pt)=-αt(1-pt)γlog(pt);
其中,αt,pt分别代表权重系数和高层次特征的概率分布。
作为优选方案,所述MGD-gram特征通过以下步骤提取得到:
设输入语音信号为x(n),对分帧后的x(n),nx(n)进行快速傅里叶变换,得到信号在频域上的表示分别记为X(ω,t),Y(ω,t);
对X(ω,t)倒谱平滑操作,得到S(ω,t);
计算其中λ为参数;
按下式计算修正群延迟函数,得到一帧特征;
其中ρ为参数;
对分出来的每一帧语音信号重复上述步骤的计算,并在时间维度上拼接每一帧特征,得到MGD-gram特征。
作为优选方案,在获得所述确定的融合方式之前,包括:
通过平均值融合方式或逻辑回归融合方式融合所述第一端到端残差网络模型、所述第二端到端残差网络模型和所述第三第端残差网络模型的得分;
根据所述得分,通过EER标准和t-DCF标准确定融合方式。
作为优选方案,当所述融合方式为逻辑回归融合方式时,通过以下方式计算具有平衡焦点损失函数的端到端残差网络模型的权重和偏移量:
将训练集语音信号进行线性变换得到预测的输出结果BFL值;
计算所述模型的损失函数J(w,b);其中,w为所述模型中涉及到的权重,b为偏移量;
根据所述预测的输出结果BFL值,计算损失函数的梯度;
根据下述公式更新权重w和偏移量b;
其中J为损失函数,α为学习率
在迭代次数内,再重复上述步骤,直到导数得到最小化的代价函数。
本发明实施例具有如下有益效果:
本发明实施例通过分别提取待测语音音频的MGD-gram、STFT-gram和CQT-gram三种特征,并将这三种特征分别输入到三个训练好的具有平衡焦点损失函数的端到端残差网络模型进行训练,并根据确定好的融合方式融合得分,并根据得分输出重放攻击检测结果能够提高辨别重放攻击的准确率。本发明采用的焦点损失函数以一种软注意力机制的方法自动平衡难以样品的训练,而无需人工指出难以样本。通过显著性分析,证明了模型很好的可靠性,以及可解释性。相比在雨、雾等视觉恶劣自然环境下,对于利用静态特征的人脸识别技术,本发明实施例采用动态特征的声纹+强辨别的反欺骗技术,具有更高的安全性和可靠性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种说话人验证***的重放攻击检测方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在生物识别领域,***需要判定两个样本之间是否为同一个人,通常的做法是选定一个阈值,高于阈值的分数判定为同一个人,反之判定为非同样一个人。
描述说话人验证***的辨别能力通常包括四个指标,分别是错误拒绝率(FRR)、错误接受率(FAR)、等错误率(EER)和检测损失函数(DCF)。
错误拒绝率(FRR);在分类问题中,若两个样本为同类,则被***认为是异类,则视为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的比例。
错误接受率(FAR):在分类问题中,若两个样本为异类,却被***误认为同类,则视为错误接受案例。错误接受率为错误接受案例在所有异类匹配案例的比例。
等错误率(EER):调整阈值,使得错误拒绝率等于错误接受率,此时FAR和FRR的值称为等错误率,等错误率平等对待FAR和FRR,而在实际应用中,FAR和FRR往往有不同的重要性,因此有了区别两种错误率的第四个评价指标,即检测损失函数(DCF)。目前,为了描述说话人验证***得整体辨别能力,一般采用t-DFC进行评价。
实施例1:
请参见图1,本发明实施例1提供一种说话人验证***的重放攻击检测方法,包括S1-S5;
S1:分别提取待测语音信号的MGD-gram特征(Modified group delay,修正群时延)、STFT-gram特征(STFT,short-time Fourier transform,短时傅里叶变换)和CQT-gram特征(Constant Q transform,常数Q变换);
S2、将所述待测语音信号MGD-gram特征输入到训练好的具有平衡焦点损失函数的第一端到端残差网络模型;
S3、将所述待测语音信号STFT-gram特征输入到训练好的具有平衡焦点损失函数的第二端到端残差网络模型;
S4、将所述待测语音信号CQT-gram特征输入到训练好的具有平衡焦点损失函数的第三端到端残差网络模型;
S5、采用确定好的融合方式融合所述第一得分、所述第二得分和所述第三得分,并根据融合后的得分输出重放攻击检测结果。
在本发明实施例中,所述MGD-gram特征,所述STFT-gram特征,所述CQT-gram特征,这三种特征是互补的,所述MGD-gram利用原始语音相位信息,所述STFT-gram包含幅度信息,所述CQT-gram符合人类听觉感知,被证明在重放检测中具有很大作用。在模型结构方面使用具有残差连接的ResNet架构/对于特征通道建模的SENet结构,通过平衡局部损失函数进行模型训练。
作为本实施例的一种举例,通过以下方式训练具有平衡焦点损失函数的端到端残差网络模型:其中,所述具有平衡焦点损失函数的端到端残差网络模型模型的输出为得分;
通过补长/截断的方式对训练集语音信号进行预处理;
提取预处理后的所述训练集语音信号的特征;
将所述特征输入到具有残差连接的CNN模型或者采用具有特征通道建模能力的SENet网络,进行高层次特征的提取;
将所述高层次特征通过非线性全连接层+softmax层,计算所述高层次特征的概率分布;
根据所述高层次特征的概率分布,通过如下所示的平衡焦点损失函数(BalancedFocal Loss,BFL)进行损失的计算,通过反向传播训练模型;
BFL(pt)=-αt(1-pt)γlog(pt);
其中,αt,pt分别代表权重系数和高层次特征的概率分布。
作为本实施例的一种举例,所述训练好的具有平衡焦点损失函数的第一端到端残差网络模型、第二端到端残差网络模型、第三端到端残差网络模型通过以下步骤训练得到:
分别提取训练集语音信号的MGD-gram特征、STFT-gram特征和CQT-gram特征。在本发明实施例中,所述训练集语音信号为用户的真实声音信号。
将预处理好的MGD-gram特征输入到第一端到端残差网络模型,训练出具有平衡焦点损失函数的第一端到端残差网络模型;
将预处理好的STFT-gram特征输入到第二端到端残差网络模型,训练出具有平衡焦点损失函数的第二端到端残差网络模型;
将预处理好的CQT-gram特征输入到第三端到端残差网络模型,训练出具有平衡焦点损失函数的第三端到端残差网络模型。
作为本实施例的一种举例,所述MGD-gram特征通过以下步骤提取得到:
设输入语音信号为x(n),对分帧后的x(n),nx(n)进行快速傅里叶变换,得到信号在频域上的表示分别记为X(ω,t),Y(ω,t);
对X(ω,t)倒谱平滑操作,得到S(ω,t);
计算其中λ为参数;
按下式计算修正群延迟函数,得到一帧特征;
其中ρ为参数;
对分出来的每一帧语音信号重复上述步骤的计算,并在时间维度上拼接每一帧特征,得到MGD-gram特征。
作为本实施例的一种举例,所述融合方式根据以下步骤确定:
分别对所述具有平衡焦点损失函数的第一端到端残差网络模型、第二端到端残差网络模型和第三端到端残差网络模型的输出结果进行打分,并通过平均值融合方式或逻辑回归融合方式融合所述第一端到端残差网络模型、所述第二端到端残差网络模型和所述第三端到端残差网络模型的得分;根据所述得分,通过EER标准和t-DCF标准确定融合方式。
其中,所述对所述具有平衡焦点损失函数的第一端到端残差网络模型、第二端到端残差网络模型和第三端到端残差网络模型的输出结果进行打分,具体的根据残差网络模型softmax层输出的结果以对数似然值进行打分。
作为本实施例的一种举例,当所述融合方式为逻辑回归融合方式时,通过以下方式计算具有平衡焦点损失函数的端到端残差网络模型的权重和偏移量:
将训练集语音信号进行线性变换得到预测的输出结果BFL值;
计算所述模型的损失函数J(w,b);其中,w为所述模型中涉及到的权重,b为偏移量;
根据所述预测的输出结果BFL值,计算损失函数的梯度;
根据下述公式更新权重w和偏移量b;
其中J为损失函数,α为学习率
在迭代次数内,再重复上述步骤,直到导数得到最小化的代价函数。
本发明实施例通过分别提取待测语音音频的MGD-gram、STFT-gram和CQT-gram三种特征,并将这三种特征分别输入到三个训练好的具有平衡焦点损失函数的第一端到端残差网络模型进行训练,并根据确定好的融合方式融合得分,并根据得分输出重放攻击检测结果能够提高辨别重放攻击的准确率。相在雨、雾等视觉恶劣自然环境下,对于利用静态特征的人脸识别技术,本发明实施例采用动态特征的声纹+强辨别的反欺骗技术,具有更高的安全性和可靠性。
实施例2
本实施例还提供一种说话人验证***,包括:
第二方面,本发明实施例提供一种说话人验证***的重放攻击检测***,包括:
提取模块,用于分别提取待测语音信号的MGD-gram特征、STFT-gram特征和CQT-gram特征;
第一输入模块,用于将所述待测语音信号的MGD-gram特征输入到训练好的具有平衡焦点损失函数的第一端到端残差网络模型,获得第一得分;
第二输入模块,用于将所述待测语音信号的STFT-gram特征输入到训练好的具有平衡焦点损失函数的第二端到端残差网络模型,获得第二得分
第三输入模块,用于将所述待测语音信号的CQT-gram特征输入到训练好的具有平衡焦点损失函数的第三端到端残差网络模型,获得第三得分;
输出模块,采用确定好的融合方式融合所述第一得分、所述第二得分和所述第三得分,并根据融合后的得分输出重放攻击检测结果。
作为本实施例的一种举例,通过以下方式训练具有平衡焦点损失函数的端到端残差网络模型:其中,所述具有平衡焦点损失函数的端到端残差网络模型模型的输出为得分;
通过补长/截断的方式对训练集语音信号进行预处理,确保固定帧数量为500;
提取预处理后的所述训练集语音信号的特征;
将所述特征输入到具有残差连接的CNN模型或者采用具有特征通道建模能力的SENet网络,进行高层次特征的提取;
将所述高层次特征通过非线性全连接层+softmax层,计算所述高层次特征的概率分布;
根据所述高层次特征的概率分布,通过如下所示的平衡焦点损失函数进行损失的计算,通过反向传播训练模型;
BFL(pt)=-αt(1-pt)γlog(pt);
其中,αt,pt分别代表权重系数和高层次特征的概率分布。
作为本实施例的一种举例,所述MGD-gram特征通过以下步骤提取得到:
设输入语音信号为x(n),对分帧后的x(n),nx(n)进行快速傅里叶变换,得到信号在频域上的表示分别记为X(ω,t),Y(ω,t);
对X(ω,t)倒谱平滑操作,得到S(ω,t);
计算其中λ为参数;
按下式计算修正群延迟函数,得到一帧特征;
其中ρ为参数;
对分出来的每一帧语音信号重复上述步骤的计算,并在时间维度上拼接每一帧特征,得到MGD-gram特征。
作为本实施例的一种举例,在获得所述确定的融合方式之前,包括:
通过平均值融合方式或逻辑回归融合方式融合所述第一端到端残差网络模型、所述第二端到端残差网络模型和所述第三端到端残差网络模型的得分;
根据所述得分,通过EER标准和t-DCF标准确定融合方式。
作为本实施例的一种举例,当所述融合方式为逻辑回归融合方式时,通过以下方式计算具有平衡焦点损失函数的端到端残差网络模型的权重和偏移量:
将训练集语音信号进行线性变换得到预测的输出结果BFL值;
计算所述模型的损失函数J(w,b);其中,w为所述模型中涉及到的权重,b为偏移量;
根据所述预测的输出结果BFL值,计算损失函数的梯度;
根据下述公式更新权重w和偏移量b;
其中J为损失函数,α为学习率
在迭代次数内,再重复上述步骤,直到导数得到最小化的代价函数。
需要说明的是,本发明第一实施例提供说话人验证***的重放攻击检测方法的所有技术内容、技术效果以及对所述第一实施例提供的说话人验证***的重放攻击检测方法的所有解释、说明均适用于本发明第二实施例提供的说话人验证***的重放攻击检测***,因此本发明第二实施例在此不作过多赘述。
本发明实施例通过分别提取待测语音音频的MGD-gram、STFT-gram和CQT-gram三种特征,并将这三种特征分别输入到三个训练好的具有平衡焦点损失函数的第一端到端残差网络模型进行训练,并根据确定好的融合方式融合得分,并根据得分输出重放攻击检测结果能够提高辨别重放攻击的准确率。相在雨、雾等视觉恶劣自然环境下,对于利用静态特征的人脸识别技术,本发明实施例采用动态特征的声纹+强辨别的反欺骗技术,具有更高的安全性和可靠性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可监听存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (8)
1.一种说话人验证***的重放攻击检测方法,其特征在于,包括:分别提取待测语音信号的MGD-gram 特征、STFT-gram 特征和CQT-gram 特征;
将所述待测语音信号的MGD-gram 特征输入到训练好的具有平衡焦点损失函数的第一端到端残差网络模型,获得第一得分;
将所述待测语音信号的STFT-gram 特征输入到训练好的具有平衡焦点损失函数的第二端到端残差网络模型,获得第二得分;
将所述待测语音信号的CQT-gram 特征输入到训练好的具有平衡焦点损失函数的第三端到端残差网络模型,获得第三得分;
采用确定好的融合方式融合所述第一得分、所述第二得分和所述第三得分,并根据融合后的得分输出重放攻击检测结果;
其中,通过以下方式训练具有平衡焦点损失函数的第一端到端残差网络模型、第二端到端残差网络模型和第三端到端残差网络模型;
其中,所述具有平衡焦点损失函数的端到端残差网络模型的输出为得分;
通过补长/截断的方式对训练集语音信号进行预处理;
提取预处理后的所述训练集语音信号的特征;
将所述特征输入到具有残差连接的CNN 模型或者采用具有特征通道建模能力的SENet网络,进行高层次特征的提取;
将所述高层次特征通过非线性全连接层+softmax层,计算所述高层次特征的概率分布;
根据所述高层次特征的概率分布,通过如下所示的平衡焦点损失函数进行损失的计算,通过反向传播训练模型;
;
其中, ,/>分别代表权重系数和高层次特征的概率分布;
其中,所述确定好的融合方式具体是:
分别对所述具有平衡焦点损失函数的第一端到端残差网络模型、第二端到端残差网络模型和第三端到端残差网络模型的输出结果进行打分,并通过平均值融合方式或逻辑回归融合方式融合所述第一端到端残差网络模型、所述第二端到端残差网络模型和所述第三端到端残差网络模型的得分;根据所述得分,通过EER 标准和t-DCF 标准确定融合方式。
2.根据权利要求1所述的说话人验证***的重放攻击检测方法,其特征在于,所述MGD-gram 特征通过以下步骤提取得到:
设输入语音信号为x(n),对分帧后的x(n),nx(n)进行快速傅里叶变换,得到信号在频域上的表示分别记为,/>;
对倒谱平滑操作,得到/>;
计算,其中λ为参数;
按下式计算修正群延迟函数,得到一帧特征;
,其中p为参数;
对分出来的每一帧语音信号重复上述步骤的计算,并在时间维度上拼接每一帧特征,得到MGD-gram 特征。
3.据权利要求1所述的说话人验证***的重放攻击检测方法,其特征在于,在获得所述确定的融合方式之前,包括:
通过平均值融合方式或逻辑回归融合方式融合所述第一端到端残差网络模型、所述第二端到端残差网络模型和所述第三端到端残差网络模型的得分;
根据所述得分,通过EER 标准和t-DCF 标准确定融合方式。
4.根据权利要求3所述的说话人验证***的重放攻击检测方法,其特征在于,当所述融合方式为逻辑回归融合方式时,通过以下方式计算具有平衡焦点失函数的端到端残差网络模型的权重和偏移量:
将训练集语音信号进行线性变换得到预测的输出结果BFL值;
计算所述模型的损失函数J(w,b);其中,w 为所述模型中涉及到的权重,b 为偏移量;
根据所述预测的输出结果BFL值,计算损失函数的梯度;
根据下述公式更新权重w和偏移量b;
;
,其中J为损失函数,α为学习率;
在迭代次数内,再重复上述步骤,直到导数得到最小化的代价函数。
5.一种说话人验证***的重放攻击检测***,其特征在于,包括:
提取模块,用于分别提取待测语音信号的MGD-gram 特征、STFT-gram 特征和CQT-gram特征;
第一输入模块,用于将所述待测语音信号的MGD-gram 特征输入到训练好的具有平衡焦点损失函数的第一端到端残差网络模型,获得第一得分;
第二输入模块,用于将所述待测语音信号的STFT-gram 特征输入到训练好的具有平衡焦点损失函数的第二端到端残差网络模型,获得第二得分;
第三输入模块,用于将所述待测语音信号的CQT-gram 特征输入到训练好的具有平衡焦点损失函数的第三端到端残差网络模型,获得第三得分;
输出模块,采用确定好的融合方式融合所述第一得分、所述第二得分和所述第三得分,并根据融合后的得分输出重放攻击检测结果;
其中,通过以下方式训练具有平衡焦点损失函数的第一端到端残差网络模型、第二端到端残差网络模型和第三端到端残差网络模型;
其中,所述具有平衡焦点损失函数的端到端残差网络模型的输出为得分;
通过补长/截断的方式对训练集语音信号进行预处理;
提取预处理后的所述训练集语音信号的特征;
将所述特征输入到具有残差连接的CNN 模型或者采用具有特征通道建模能力的SENet网络,进行高层次特征的提取;
将所述高层次特征通过非线性全连接层+softmax层,计算所述高层次特征的概率分布;
根据所述高层次特征的概率分布,通过如下所示的平衡焦点损失函数进行损失的计算,通过反向传播训练模型;
;
其中, ,/>分别代表权重系数和高层次特征的概率分布;
其中,所述确定好的融合方式具体是:
分别对所述具有平衡焦点损失函数的第一端到端残差网络模型、第二端到端残差网络模型和第三端到端残差网络模型的输出结果进行打分,并通过平均值融合方式或逻辑回归融合方式融合所述第一端到端残差网络模型、所述第二端到端残差网络模型和所述第三端到端残差网络模型的得分;根据所述得分,通过EER 标准和t-DCF 标准确定融合方式。
6.根据权利要求5所述的说话人验证***的重放攻击检测***,其特征在于,所述MGD-gram 特征通过以下步骤提取得到:
设输入语音信号为x(n),对分帧后的x(n),nx(n)进行快速傅里叶变换,得到信号在频域上的表示分别记为,/>;
对倒谱平滑操作,得到/>;
计算,其中λ为参数;
按下式计算修正群延迟函数,得到一帧特征;
,其中p为参数;
对分出来的每一帧语音信号重复上述步骤的计算,并在时间维度上拼接每一帧特征,得到MGD-gram 特征。
7.据权利要求5所述的说话人验证***的重放攻击检测***,其特征在于,在获得所述确定的融合方式之前,包括:
通过平均值融合方式或逻辑回归融合方式融合所述第一端到端残差网络模型、所述第二端到端残差网络模型和所述第三端到端残差网络模型的得分;
根据所述得分,通过EER 标准和t-DCF 标准确定融合方式。
8.根据权利要求7所述的说话人验证***的重放攻击检测***,其特征在于,当所述融合方式为逻辑回归融合方式时,通过以下方式计算具有平衡焦点失函数的端到端残差网络模型的权重和偏移量:
将训练集语音信号进行线性变换得到预测的输出结果BFL值;
计算所述模型的损失函数J(w,b);其中,w 为所述模型中涉及到的权重,b 为偏移量;
根据所述预测的输出结果BFL值,计算损失函数的梯度;
根据下述公式更新权重w和偏移量b;
;
,其中J为损失函数,α为学习率;
在迭代次数内,再重复上述步骤,直到导数得到最小化的代价函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010395097.6A CN111611566B (zh) | 2020-05-12 | 2020-05-12 | 一种说话人验证***及其重放攻击检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010395097.6A CN111611566B (zh) | 2020-05-12 | 2020-05-12 | 一种说话人验证***及其重放攻击检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111611566A CN111611566A (zh) | 2020-09-01 |
CN111611566B true CN111611566B (zh) | 2023-09-05 |
Family
ID=72201228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010395097.6A Active CN111611566B (zh) | 2020-05-12 | 2020-05-12 | 一种说话人验证***及其重放攻击检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611566B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509598B (zh) * | 2020-11-20 | 2024-06-18 | 北京小米松果电子有限公司 | 音频检测方法及装置、存储介质 |
CN114822587B (zh) * | 2021-01-19 | 2023-07-14 | 四川大学 | 一种基于常数q变换的音频特征压缩方法 |
CN113436646B (zh) * | 2021-06-10 | 2022-09-23 | 杭州电子科技大学 | 一种采用联合特征与随机森林的伪装语音检测方法 |
CN113823294B (zh) * | 2021-11-23 | 2022-03-11 | 清华大学 | 跨信道声纹识别方法、装置、设备和存储介质 |
CN114639387A (zh) * | 2022-03-07 | 2022-06-17 | 哈尔滨理工大学 | 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806695A (zh) * | 2018-04-17 | 2018-11-13 | 平安科技(深圳)有限公司 | 自更新的反欺诈方法、装置、计算机设备和存储介质 |
CN108847238A (zh) * | 2018-08-06 | 2018-11-20 | 东北大学 | 一种新型服务机器人语音识别方法 |
CN109448758A (zh) * | 2018-10-19 | 2019-03-08 | 昆山杜克大学 | 语音韵律异常评估方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI223791B (en) * | 2003-04-14 | 2004-11-11 | Ind Tech Res Inst | Method and system for utterance verification |
-
2020
- 2020-05-12 CN CN202010395097.6A patent/CN111611566B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806695A (zh) * | 2018-04-17 | 2018-11-13 | 平安科技(深圳)有限公司 | 自更新的反欺诈方法、装置、计算机设备和存储介质 |
CN108847238A (zh) * | 2018-08-06 | 2018-11-20 | 东北大学 | 一种新型服务机器人语音识别方法 |
CN109448758A (zh) * | 2018-10-19 | 2019-03-08 | 昆山杜克大学 | 语音韵律异常评估方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111611566A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611566B (zh) | 一种说话人验证***及其重放攻击检测方法 | |
Yu et al. | Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features | |
Li et al. | Adversarial attacks on GMM i-vector based speaker verification systems | |
US11508381B2 (en) | Voiceprint recognition method, model training method, and server | |
Alegre et al. | Spoofing countermeasures to protect automatic speaker verification from voice conversion | |
Dinkel et al. | End-to-end spoofing detection with raw waveform CLDNNS | |
CN105938716B (zh) | 一种基于多精度拟合的样本复制语音自动检测方法 | |
EP3016314B1 (en) | A system and a method for detecting recorded biometric information | |
CN105933272A (zh) | 能够防止录音攻击的声纹认证方法、服务器、终端及*** | |
CN111835784B (zh) | 用于重放攻击检测***的数据泛化方法及*** | |
Tan et al. | A survey on presentation attack detection for automatic speaker verification systems: State-of-the-art, taxonomy, issues and future direction | |
Hassan et al. | Voice spoofing countermeasure for synthetic speech detection | |
Zhang et al. | Joint information from nonlinear and linear features for spoofing detection: An i-vector/DNN based approach | |
CN110942776B (zh) | 一种基于gru的音频防拼接检测方法及*** | |
CN108831506A (zh) | 基于gmm-bic的数字音频篡改点检测方法及*** | |
CN106991312A (zh) | 基于声纹识别的互联网反欺诈认证方法 | |
Weng et al. | The sysu system for the interspeech 2015 automatic speaker verification spoofing and countermeasures challenge | |
CN109920447B (zh) | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 | |
Mandalapu et al. | Multilingual voice impersonation dataset and evaluation | |
Korshunov et al. | Joint operation of voice biometrics and presentation attack detection | |
Eveno et al. | A speaker independent" liveness" test for audio-visual biometrics. | |
KR101925252B1 (ko) | 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치 | |
CN116665649A (zh) | 基于韵律特征的合成语音检测方法 | |
CN113012684B (zh) | 一种基于语音分割的合成语音检测方法 | |
Nagakrishnan et al. | Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 346, 1st Floor, Zone C, Building 24, Gangwan 1, Jintang Road, Tangjiawan Town, High tech Zone, Zhuhai City, Guangdong Province, 519000 (centralized office area) Applicant after: Zhuhai Zenji Intelligent Biotechnology Co.,Ltd. Address before: Room 101-120, Building 1, Hengqin Creative Valley, No. 1889 Huandao East Road, Hengqin New District, Zhuhai City, Guangdong Province, 519000 Applicant before: Zhuhai Zuoji Sound Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |