CN109448759A - 一种基于气爆音的抗语音认证欺骗攻击检测方法 - Google Patents
一种基于气爆音的抗语音认证欺骗攻击检测方法 Download PDFInfo
- Publication number
- CN109448759A CN109448759A CN201811621085.XA CN201811621085A CN109448759A CN 109448759 A CN109448759 A CN 109448759A CN 201811621085 A CN201811621085 A CN 201811621085A CN 109448759 A CN109448759 A CN 109448759A
- Authority
- CN
- China
- Prior art keywords
- gas explosion
- explosion sound
- phoneme
- audio
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004880 explosion Methods 0.000 title claims abstract description 113
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims description 28
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000004088 simulation Methods 0.000 claims description 12
- 238000012706 support-vector machine Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 6
- 229910002056 binary alloy Inorganic materials 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241001637516 Polygonia c-album Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002513 implantation Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及了一种基于气爆音的抗语音认证欺骗攻击检测方法,通过结合用户语音的音素信息,提取用户说话时口腔气流到达麦克风时产生的气爆音的特征,有效抵御了重放攻击以及模仿攻击。在音素级别上精准定位气爆音,同时结合音素和气爆音的独特关系构建用户特征,以识别合法用户,检测语音认证的欺骗攻击。解决语音认证***容易受到利用预先录制或合成的语音样本进行欺骗的重放攻击,以及人模仿合法用户的说话方式来试图绕过认证***的模仿攻击的问题。
Description
技术领域
本发明属于语音认证领域,具体地指一种基于气爆音的抗语音认证欺骗攻击检测方法。
背景技术
语音认证是一种利用人类语音独特的生物特征和行为特征来识别用户的技术。与基于口令的认证相比,语音认证更加方便,它无需手动输入,并且不需要用户记住口令。近年来,移动技术的迅速发展促进了语音认证在移动终端的应用,包括智能手机语音登录、移动银行语音认证和电子商务语音支付。例如,微信将语音作为新的用户接口,用户可以通过语音密码生成的“声纹”进行登录;谷歌允许用户通过语音认证解锁手机。随着移动技术的蓬勃发展,可以预见,未来将会出现更多基于语音认证的移动应用。然而,由于语音信道的开放性,现有的大多数语音认证***极其容易受到欺骗攻击,主要为重放攻击和模拟攻击。在重放攻击中,攻击者通过扬声器播放偷录到的包含用户口令的音频进行认证,在模仿攻击中,攻击者不借助外部设备,单纯通过模仿用户说话的音色,节奏和方式来进行欺骗。传统的防御重放攻击和模拟攻击的方法是活性检测和自动说话人识别。活性检测判断语音是由真实用户还是扬声器产生的,自动说话识别是利用个体语音的频谱及韵律等特征验证用户身份。然而,现有的大多数活性检测方式都有着特殊要求,需要用户进行特殊操作或者借助额外的硬件,用户体验度差,不易普及。比如通过捕获用户说话时,语音到达手机的两个麦克风的音素序列的时间差,来区分语音来自真人还是扬声器的方法,要求用户必须将手机保持在特殊位置。而自动说话人识别只依靠语音本身的频谱特征,无法抵抗重放攻击。
本发明致力于利用人类声学中的发声原理,研究和探索一种利用用户说话时的气息到达麦克风所产生的气爆音的特征,识别设备重放的攻击以及人模仿攻击的方法。
用户说话时,空气首先从肺部排出形成气流,通过喉咙、声带进入声道,最后从嘴唇发出形成声波。当用户的嘴唇离麦克风足够近时,麦克风捕获的声音信号不仅包含语音信息,还包含说话时气息通过嘴唇到达麦克风产生的脉冲爆发音,称为气爆音。相比之下,攻击者在偷录用户语音的时候,通常不能将录音设备放在离用户嘴很近的地方,因此偷录的音频不包含气爆音。通过检测气爆音,能够区分语音来源于真实的人还是扬声器。
音素,是语音中最小的单位。由于每个音素在人类声道***中都有其独特的物理来源,并且有自己的发音方式,所以对于不同的音素,产生气爆音的概率是不同的。有些音素在发音时会从唇部呼出更多的气流,而有些音素几乎不会产生气流。利用语音中的音素信息,可以更准确定位***音以及构建***音的特征。
发明内容
为了解决语音认证***在抵御重放攻击和模拟攻击时的脆弱性问题,本发明提供了一种基于气爆音的抗语音认证欺骗攻击检测方法,包含以下步骤:
步骤1:对麦克风接收到的音频进行自动语音识别,获得音频文本信息;
步骤2:将原始音频根据获得的语音文本信息,进行音素分割;
步骤3:根据音素分割后的信号,定位气爆音的位置,提取出包含气爆音的音频;
步骤4:提取气爆音音频的伽玛通频率倒谱系数(Gammatone Frequency CepstralCoefficients,GFCC)特征;
步骤5:将GFCC特征输入训练好的支持向量机(SVM)模型中进行二类分类,获得判决标签,如果标签为真人,则进入步骤6,否则判断为重放攻击,检测结束;
步骤6:根据步骤2获得的音素信息与步骤3获得的气爆音信息,构建二进制气爆音-音素序列Sj;
步骤7:计算认证所得的Sj与用户注册文件中的序列Rj的相似度,如果相似度大于阈值,则为真人,否则判断为模拟攻击。
作为优选,步骤1的具体实现包括:录制用户靠近麦克风进行认证时的音频,将其输入一个现有的自动语音识别工具,获得用户口令的文本信息。用户的口令包含多个单词。
作为优选,步骤2的具体实现包括:将用户原始语音音频与对应的文本信息输入到音素分割工具,得到音频的音素序列Phoj,以及每个音素的开始时间ST_phoj和结束的时间ET_phoj,j=1,2,…,m,j为音素的索引,m为音素的个数;
作为优选,步骤3的具体实现包括以下子步骤:
步骤3.1:根据步骤2得到的音素信息,去除不包含音素信息的前后静默部分;
步骤3.2:对步骤3.1得到的音频进行短时傅里叶变换,得到音频的频域信息;
步骤3.3:根据短时傅里叶变换后,音频在时间序列上的每个窗口的频域信息,计算每个窗口在气爆音出现的低频段的能量值,获得窗口能量序列Ei,i=1,2,…n,i为窗口的索引,n为分割的窗口个数;
步骤3.4:根据窗口能量序列Ei挑选出第一轮的气爆音位置,计算窗口能量序列Ei的标准差Estd,挑选出满足条件Ei>3·Estd的窗口集合,记为Pl,l=1,2,…,L,l为选中窗口的索引,L为选中的窗口数量;
步骤3.5:计算窗口能量序列Ei的导数Di;
步骤3.6:根据窗口能量值以及导数信息进行气爆音边界扩展,挑选出满足条件的窗口集合Pk,k=1,2,…,K,k为选中窗口的索引,K为选中的窗口数量;
步骤3.7:计算选中的窗口集合Pk对应的音频位置,获得每个气爆音阶段POPq出现的开始时间ST_popq和结束时间ET_popq,q=1,2,…Q,q为气爆音的索引,Q为定位到的气爆音的个数;
步骤3.8:根据用户注册文件中,该执行认证操作的用户的气爆音在每个音素出现的概率信息P_popj,进行气爆音校正,认为在注册文件中低概率出现气爆音的音素位置检测到的气爆音为误检测,将其剔除。所述注册文件的概率信息,由通过对用户注册时的音频,进行步骤1至3.7的气爆音检测,对应到每个音素所得,用户注册时可录制多条音频信息;
步骤3.9:进行气爆音持续时间校正,挑选出满足条件的气爆音阶段POPq,q=1,2,…Q2,q为气爆音的索引,Q2为定位到的气爆音的个数;
作为优选,步骤4的具体实现过程是:根据步骤3得到的包含气爆音的音频,提取GFCC特征,其中,使用64维伽玛通滤波器组,选择中心频率为0~104Hz的滤波器,对应气爆音出现的频段;
作为优选,步骤5的具体实现过程是:将步骤4得到的GFCC特征输入训练好的二分类SVM模型,获得判决标签,如果标签为真人,则进入步骤6,否则判断为重放攻击,检测结束。所述SVM模型,由通过对用户注册时的音频以及事先采集的重放设备播放的音频,利用步骤1至4提取到的GFCC特征训练得到。
作为优选,步骤6的具体实现包括以下子步骤:
步骤6.1:获得步骤3得到的每个音素的开始时间ST_phoj和结束的时间ET_phoj,以及每个气爆音出现的开始时间ST_popq和结束时间ET_popq;
步骤6.2:初始化序列Sj为0,j=1,2,…,m,j为音素的索引,m为音素的个数;
步骤6.3:根据ST_phoj,ET_phoj,ST_popq和ET_popq,计算每个音素位置是否出现了气爆音,如果出现则令Sj=1,否则令Sj=0,获得描述气爆音在每个音素出现情况的一维二进制向量;
作为优选,步骤7的具体实现过程是,计算用户认证音频所得序列Sj与用户注册音频所得序列Rj的Pearson相关系数P,当P高于阈值时接受用户,判决为真人,否则拒绝用户访问***,并判决为模拟攻击。
本发明的优点在于:利用人类声学的发声原理,通过提取气爆音的GFCC特征,以及描述气爆音在每个音素出现情况的序列,抵御语音认证***的欺骗攻击和模拟攻击。相对于现有技术,本发明的有益效果是:无需额外的硬件,能够抵御语音认证***的重放攻击和模拟攻击,攻击检测度高,***鲁邦性强,无需用户进行额外的操作,用户体验度好。
附图说明
图1是本发明实施例的***框图。
图2是本发明实施例的气爆音定位流程图。
图3是本发明实施例的气爆音-音素序列提取流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明主要基于声学领域的发声原理,考虑人说话时产生气息的特性不同,并和设备播放的音频作比较,提出一种基于气爆音的抗语音认证欺骗攻击的检测方法及***。本方法充分考虑了每个个体不同的气爆音特性,通过准确定位气爆音,并提取其GFCC特征以及气爆音-音素序列特征,检测针对语音认证***的重放攻击和模拟攻击。本发明可作为现有的语音认证***的补充,提高语音认证的安全性和可靠性。
本发明提供的方法能够用计算机软件技术实现流程。参见图1,本发明提供的一种基于气爆音的抗语音认证欺骗攻击检测方法,包括以下步骤:
步骤1,对麦克风接收到的音频进行自动语音识别,获得音频文本信息。
实施例的具体实施过程说明如下:
利用智能手机的麦克风录制用户进行认证时的口令,获得原始音频,采样率为48kHZ。将音频输入语音识别工具,获得其文本内容。语音识别工具使用科大讯飞提供的语音识别API,得到的音频文本信息,比如:set an alarm for six am。
步骤2,将原始音频根据获得的语音文本信息,进行音素分割。
实施例的具体实施过程说明如下:
根据步骤1得到的用户原始语音音频与对应的文本信息输入到音素分割工具,得到音频的音素序列Phoj,以及每个音素的开始时间ST_phoj和结束的时间ET_phoj,j=1,2,…,m,j为音素的索引,m为音素的个数。音素分割工具使用MAUS提供的API。实施例涉及的数据如下,这里m=18,音素序列Phoj对应口令set an alarm for six am。
步骤3,根据音素分割后的信号,定位***音的位置,提取出包含气爆音的音频,参见图2。
实施例的具体实施过程说明如下:
步骤3.1,根据步骤2得到的音素信息,去除不包含音素信息的前后静默部分,即ST_pho1前的音频以及ET_pho18后的音频,因为该阶段不对应任何音素信息。
步骤3.2:对步骤3.1得到的音频进行短时傅里叶变换,得到音频的频域信息,参数设置为,窗口大小4096个点(48kHZ采样率),重叠大小2400个点,输出为每个窗口的频域分布值,以及每个窗口的中心时间点T_windowi,i=1,2,…n,i为窗口的索引,n为分割的窗口个数。步骤3.3:根据短时傅里叶变换后,音频在时间序列上的每个窗口的频域信息,计算每个窗口在低频段的能量值,获得窗口能量序列Ei,i=1,2,…n,i为窗口的索引,n为分割的窗口个数。能量计算的频段选取0~86HZ,根据气爆音出现的频率范围确定,与正常人的语音频率范围区分开来。
步骤3.4:根据低频段的能量值挑选出候选气爆音位置,计算窗口能量序列Ei的标准差Estd,挑选出满足条件Ei>3·Estd的窗口,记为Pl,l=1,2,…,L,L为选中的窗口数量。实施例涉及数据:Estd=50.1070。
步骤3.5:计算窗口能量序列Ei的导数Di。首先通过对窗口能量序列Ei进行分段拟合,得到Ei的函数表达式,再对其求导,得到每个窗口位置的导函数。拟合方法使用四阶最小二乘法拟合,分段点数设置为8个点。
步骤3.6:根据窗口能量值以及导数信息进行气爆音边界扩展,挑选出满足条件的窗口集合Pk,k=1,2,…,K,k为选中窗口的索引,K为选中的窗口数量。边界扩展时进行搜索的点数选择为候选点的前后3个点。
步骤3.7:计算选中的窗口序列Pk对应的音频位置,获得每个气爆音阶段POPq出现的开始时间ST_popq和结束时间ET_popq,q=1,2,…Q,Q为定位到的气爆音的阶段个数。根据步骤3.2得到的每个窗口的中心时间点,以及窗口的索引,直接提取气爆音对应的音频。实施例涉及数据如下,这里Q=10。
q | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
ST_pop<sub>q</sub>(ms) | 0.580 | 0.812 | 0.905 | 0.997 | 1.230 | 1.369 | 1.601 | 2.251 | 2.391 | 2.716 |
ET_pop<sub>q</sub>(ms) | 0.765 | 0.858 | 0.951 | 1.044 | 1.323 | 1.555 | 1.880 | 2.344 | 2.437 | 2.809 |
步骤3.8:根据用户注册文件中,该执行认证操作的用户的气爆音在每个音素出现的概率信息P_popj,进行气爆音校正,认为在注册文件中低概率出现气爆音的音素位置检测到的气爆音为误检测,将其剔除,一般将出现气爆音概率低于0.5的音素的位置剔除。首先根据步骤2以及步骤3.7计算得到的每个音素的时间以及音素的位置,得到每个音素出现气爆音的情况。
所述注册文件为用户认证五次之后提取到的用户气爆音出现的音素序列,计算得到每个音素出现气爆音的概率值P_popj,当该值低于0.4,则认为该音素基本不出现气爆音,如果在该音素位置检测到,则去除这一部分误检气爆音。实施例涉及用户注册文件数据如下:
实施例涉及更正后的气爆音数据如下:
q | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
ST_pop<sub>q</sub>(ms) | 0.580 | 0.905 | 0.997 | 1.230 | 1.369 | 1.601 | 1.800 | 2.391 | 2.716 |
ET_pop<sub>q</sub>(ms) | 0.765 | 0.951 | 1.044 | 1.323 | 1.555 | 1.700 | 1.830 | 2.437 | 2.809 |
步骤3.9:进行气爆音持续时间校正,挑选出满足条件的气爆音阶段POPq,q=1,2,…Q2,q为气爆音的索引,Q2为定位到的气爆音的个数,实施例涉及更正后的气爆音数据如下,这里Q2=5。
q | 1 | 2 | 3 | 4 | 5 |
ST_pop<sub>q</sub>(ms) | 0.580 | 1.230 | 1.369 | 1.601 | 2.716 |
ET_pop<sub>q</sub>(ms) | 0.765 | 1.323 | 1.555 | 1.700 | 2.809 |
步骤4,根据步骤3得到的包含气爆音的音频,提取GFCC特征,其中,使用64维伽玛通滤波器组,选择中心频率为0~104Hz的滤波器,对应气爆音出现的频段。
实施例的具体实施过程如下:
首先生成64个滤波器的伽玛通滤波器组,每个滤波器由带宽B和中心频率fc定义。利用滤波器组将定位到的每个气爆音音频的每帧的频谱划分为多个重叠的频带,选择中心频率为0~104HZ的滤波器,计算对应滤波器经过FFT变换的加权和,得到其对数能量。最后,将离散余弦变换(DCT)应用于每个对数能量,得到倒谱系数GFCC。特别地,我们只使用中心频率在0Hz到104Hz之间的滤波器,因为气爆音通常出现在这个频段。
步骤5,将步骤4得到的GFCC特征输入训练好的二分类SVM模型,获得判决标签,如果标签为真人,则进入步骤6,否则判断为重放攻击,检测结束。所述SVM模型,由通过对用户注册时的音频以及事先采集的重放设备播放的音频,利用步骤1至4提取到的GFCC特征训练得到。
实施例的具体实施过程如下:
对用户注册时收集的音频以及重放设备播放的音频,同样利用步骤1至3提取到气爆音,并得到GFCC特征,作为训练数据得到SVM模型。将用户进行认证时候提取到的GFCC特征输入SVM模型,通常一次认证录制的音频提取到的为多条GFCC特征,每条特征预测出一个标签,标签分为真实用户与重放设备。对于预测出的多个标签,计算判断为真实用户的比率,如果超过了判断为重放设备的比率,则判决为真实用户,否则为重放设备。
步骤6:根据步骤2获得的音素信息与步骤3获得的气爆音位置,构建二进制气爆音-音素出现序列Sj,参见图3;
实施例的具体实施过程如下:
步骤6.1:获得步骤3中得到的每个音素的开始时间ST_phoj和结束的时间ET_phoj,以及每个定位到的气爆音出现的开始时间ST_popq和结束时间ET_popq;
步骤6.2:初始化序列Sj为0,j=1,2,…,m,j为音素的索引,m为音素的个数;
步骤6.3:根据ST_phoj,ET_phoj,ST_popq和ET_popq,计算每个音素位置是否出现了气爆音,如果出现则令Sj=1,否则令Sj=0。具体方法是,对于第一个气爆音,从第一个音素开始的时间扫描,找到气爆音出现时所在的第一个音素位置,并判断这个气爆音的时间持续到了第几个音素,之后再计算第二个气爆音,以此类推。实施例涉及数据Sj如下:
j | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 |
S<sub>j</sub> | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 0 |
步骤7,计算认证所得的Sj与用户注册文件中的序列Rj的相似度,如果相似度大于阈值,则为真人,否则判断为模拟攻击。
实施例的具体实施过程如下:
计算用户认证音频所得序列Sj与用户注册音频所得序列Rj的Pearson相关系数P,当P高于阈值时接受用户,判决为真人,否则拒绝用户访问***,并判决为模拟攻击。所述用户注册音频所得序列Rj实际有多条,用户每输入一次口令作注册用,即可生成一条Rj,取Sj与多条Rj所得的相似度的平均值作为最终相似度值。
本文中所描述的具体实施例,仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (8)
1.一种基于气爆音的抗语音认证欺骗攻击检测方法,其特征在于,包括以下步骤:
步骤1:对麦克风接收到的音频进行自动语音识别,获得音频文本信息;
步骤2:将原始音频根据获得的语音文本信息,进行音素分割;
步骤3:根据音素分割后的信号,定位气爆音的位置,提取出包含气爆音的音频;
步骤4:提取气爆音音频的伽玛通频率倒谱系数(Gammatone Frequency CepstralCoefficients,GFCC)特征;
步骤5:将GFCC特征输入训练好的支持向量机(SVM)模型中进行二类分类,获得判决标签,如果标签为真人,则进入步骤6,否则判断为重放攻击,检测结束;
步骤6:根据步骤2获得的音素信息与步骤3获得的气爆音信息,构建二进制气爆音-音素序列Sj;
步骤7:计算认证所得的Sj与用户注册文件中的序列Rj的相似度,如果相似度大于阈值,则为真人,否则判断为模拟攻击。
2.根据权利要求1所述的基于气爆音的抗语音认证欺骗攻击检测方法,其特征在于,步骤1的具体实现过程是:录制用户靠近麦克风进行认证时的音频,将其输入一个现有的自动语音识别工具,获得用户口令的文本信息,用户的口令包含多个单词。
3.根据权利要求1所述的基于气爆音的抗语音认证欺骗攻击检测方法,其特征在于,步骤2的具体实现过程是:将用户原始语音音频与对应的文本信息输入到音素分割工具,得到音频的音素序列Phoj,以及每个音素的开始时间ST_phoj和结束的时间ET_phoj,j=1,2,…,m,j为音素的索引,m为音素的个数。
4.根据权利要求1所述的基于气爆音的抗语音认证欺骗攻击检测方法,其特征在于,步骤3的具体实现过程是:
步骤3.1:根据步骤2得到的音素信息,去除不包含音素信息的前后静默部分;
步骤3.2:对步骤3.1得到的音频进行短时傅里叶变换,得到音频的频域信息;
步骤3.3:根据短时傅里叶变换后,音频在时间序列上的每个窗口的频域信息,计算每个窗口在气爆音出现的低频段的能量值,获得窗口能量序列Ei,i=1,2,…n,i为窗口的索引,n为分割的窗口个数;
步骤3.4:根据窗口能量序列Ei挑选出第一轮的气爆音位置,计算窗口能量序列Ei的标准差Estd,挑选出满足条件Ei>3·Estd的窗口集合,记为Pl,l=1,2,…,L,l为选中窗口的索引,L为选中的窗口数量;
步骤3.5:计算窗口能量序列Ei的导数Di;
步骤3.6:根据窗口能量值以及导数信息进行气爆音边界扩展,挑选出满足条件的窗口集合Pk,k=1,2,…,K,k为选中窗口的索引,K为选中的窗口数量;
步骤3.7:计算选中的窗口集合Pk对应的音频位置,获得每个气爆音阶段POPq出现的开始时间ST_popq和结束时间ET_popq,q=1,2,…Q,q为气爆音的索引,Q为定位到的气爆音的个数;
步骤3.8:根据用户注册文件中,该执行认证操作的用户的气爆音在每个音素出现的概率信息P_popj,进行气爆音校正,认为在注册文件中低概率出现气爆音的音素位置检测到的气爆音为误检测,将其剔除;所述注册文件的概率信息,由通过对用户注册时的音频,进行步骤1至3.7的气爆音检测,对应到每个音素所得,用户注册时可录制多条音频信息;
步骤3.9:进行气爆音持续时间校正,挑选出满足条件的气爆音阶段POPq,q=1,2,…Q2,q为气爆音的索引,Q2为定位到的气爆音的个数。
5.根据权利要求1所述的基于气爆音的抗语音认证欺骗攻击检测方法,其特征在于,步骤4的具体实现过程是:根据步骤3得到的包含气爆音的音频,提取GFCC特征,其中,使用64维伽玛通滤波器组,选择中心频率为0~104Hz的滤波器,对应气爆音出现的频段。
6.根据权利要求1所述的基于气爆音的抗语音认证欺骗攻击检测方法,其特征在于,步骤5的具体实现过程是:将步骤4得到的GFCC特征输入训练好的二分类SVM模型,获得判决标签,如果标签为真人,则进入步骤6,否则判断为重放攻击,检测结束;所述SVM模型,由通过对用户注册时的音频以及事先采集的重放设备播放的音频,利用步骤1至4提取到的GFCC特征训练得到。
7.根据权利要求1所述的基于气爆音的抗语音认证欺骗攻击检测方法,其特征在于,步骤6的具体实现过程是:
步骤6.1:获得步骤3得到的每个音素的开始时间ST_phoj和结束的时间ET_phoj,以及每个气爆音出现的开始时间ST_popq和结束时间ET_popq;
步骤6.2:初始化序列Sj为0,j=1,2,…,m,j为音素的索引,m为音素的个数;
步骤6.3:根据ST_phoj,ET_phoj,ST_popq和ET_popq,计算每个音素位置是否出现了气爆音,如果出现则令Sj=1,否则令Sj=0,获得描述气爆音在每个音素出现情况的一维二进制向量。
8.根据权利要求1所述的基于气爆音的语音认证欺骗攻击检测方法,其特征在于,步骤7的具体实现过程是:计算用户认证音频所得序列Sj与用户注册音频所得序列Rj的Pearson相关系数P,当P高于阈值时接受用户,判决为真人,否则拒绝用户访问***,并判决为模拟攻击。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811621085.XA CN109448759A (zh) | 2018-12-28 | 2018-12-28 | 一种基于气爆音的抗语音认证欺骗攻击检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811621085.XA CN109448759A (zh) | 2018-12-28 | 2018-12-28 | 一种基于气爆音的抗语音认证欺骗攻击检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109448759A true CN109448759A (zh) | 2019-03-08 |
Family
ID=65538490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811621085.XA Pending CN109448759A (zh) | 2018-12-28 | 2018-12-28 | 一种基于气爆音的抗语音认证欺骗攻击检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109448759A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097875A (zh) * | 2019-06-03 | 2019-08-06 | 清华大学 | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 |
CN110211606A (zh) * | 2019-04-12 | 2019-09-06 | 浙江大学 | 一种语音认证***的重放攻击检测方法 |
CN110223711A (zh) * | 2019-06-03 | 2019-09-10 | 清华大学 | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 |
CN110428806A (zh) * | 2019-06-03 | 2019-11-08 | 清华大学 | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 |
CN111816203A (zh) * | 2020-06-22 | 2020-10-23 | 天津大学 | 基于音素级分析抑制音素影响的合成语音检测方法 |
CN112116742A (zh) * | 2020-08-07 | 2020-12-22 | 西安交通大学 | 融合用户多源发声特征的身份认证方法、存储介质及设备 |
CN113035230A (zh) * | 2021-03-12 | 2021-06-25 | 北京百度网讯科技有限公司 | 认证模型的训练方法、装置及电子设备 |
CN113284513A (zh) * | 2021-07-26 | 2021-08-20 | 中国科学院自动化研究所 | 基于音素时长特征的虚假语音检测方法及装置 |
CN113409771A (zh) * | 2021-05-25 | 2021-09-17 | 合肥讯飞数码科技有限公司 | 一种伪造音频的检测方法及其检测***和存储介质 |
CN113724693A (zh) * | 2021-11-01 | 2021-11-30 | 中国科学院自动化研究所 | 语音判别方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104143341A (zh) * | 2013-05-23 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 爆音检测方法和装置 |
CN105139857A (zh) * | 2015-09-02 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种自动说话人识别中针对语音欺骗的对抗方法 |
TW201603595A (zh) * | 2014-07-08 | 2016-01-16 | Univ Nat Taipei Technology | 用於改善輕聲細語下之語者確認的爆音處理系統及其方法 |
CN105869630A (zh) * | 2016-06-27 | 2016-08-17 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及*** |
CN105913855A (zh) * | 2016-04-11 | 2016-08-31 | 宁波大学 | 一种基于长窗比例因子的回放语音攻击检测算法 |
US20170140750A1 (en) * | 2015-11-17 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Method and device for speech recognition |
CN106782612A (zh) * | 2016-12-08 | 2017-05-31 | 腾讯音乐娱乐(深圳)有限公司 | 一种逆向爆音检测方法及其装置 |
CN108039176A (zh) * | 2018-01-11 | 2018-05-15 | 广州势必可赢网络科技有限公司 | 一种防录音攻击的声纹认证方法、装置及门禁*** |
-
2018
- 2018-12-28 CN CN201811621085.XA patent/CN109448759A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104143341A (zh) * | 2013-05-23 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 爆音检测方法和装置 |
TW201603595A (zh) * | 2014-07-08 | 2016-01-16 | Univ Nat Taipei Technology | 用於改善輕聲細語下之語者確認的爆音處理系統及其方法 |
CN105139857A (zh) * | 2015-09-02 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种自动说话人识别中针对语音欺骗的对抗方法 |
US20170140750A1 (en) * | 2015-11-17 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Method and device for speech recognition |
CN105913855A (zh) * | 2016-04-11 | 2016-08-31 | 宁波大学 | 一种基于长窗比例因子的回放语音攻击检测算法 |
CN105869630A (zh) * | 2016-06-27 | 2016-08-17 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及*** |
CN106782612A (zh) * | 2016-12-08 | 2017-05-31 | 腾讯音乐娱乐(深圳)有限公司 | 一种逆向爆音检测方法及其装置 |
CN108039176A (zh) * | 2018-01-11 | 2018-05-15 | 广州势必可赢网络科技有限公司 | 一种防录音攻击的声纹认证方法、装置及门禁*** |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211606A (zh) * | 2019-04-12 | 2019-09-06 | 浙江大学 | 一种语音认证***的重放攻击检测方法 |
CN110223711B (zh) * | 2019-06-03 | 2021-06-01 | 清华大学 | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 |
CN110223711A (zh) * | 2019-06-03 | 2019-09-10 | 清华大学 | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 |
CN110428806A (zh) * | 2019-06-03 | 2019-11-08 | 清华大学 | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 |
CN110097875A (zh) * | 2019-06-03 | 2019-08-06 | 清华大学 | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 |
CN111816203A (zh) * | 2020-06-22 | 2020-10-23 | 天津大学 | 基于音素级分析抑制音素影响的合成语音检测方法 |
CN112116742A (zh) * | 2020-08-07 | 2020-12-22 | 西安交通大学 | 融合用户多源发声特征的身份认证方法、存储介质及设备 |
CN113035230A (zh) * | 2021-03-12 | 2021-06-25 | 北京百度网讯科技有限公司 | 认证模型的训练方法、装置及电子设备 |
CN113409771A (zh) * | 2021-05-25 | 2021-09-17 | 合肥讯飞数码科技有限公司 | 一种伪造音频的检测方法及其检测***和存储介质 |
CN113284513A (zh) * | 2021-07-26 | 2021-08-20 | 中国科学院自动化研究所 | 基于音素时长特征的虚假语音检测方法及装置 |
CN113284513B (zh) * | 2021-07-26 | 2021-10-15 | 中国科学院自动化研究所 | 基于音素时长特征的虚假语音检测方法及装置 |
CN113724693A (zh) * | 2021-11-01 | 2021-11-30 | 中国科学院自动化研究所 | 语音判别方法、装置、电子设备及存储介质 |
CN113724693B (zh) * | 2021-11-01 | 2022-04-01 | 中国科学院自动化研究所 | 语音判别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109448759A (zh) | 一种基于气爆音的抗语音认证欺骗攻击检测方法 | |
CN110491391B (zh) | 一种基于深度神经网络的欺骗语音检测方法 | |
CN106251874B (zh) | 一种语音门禁和安静环境监控方法及*** | |
US11042616B2 (en) | Detection of replay attack | |
CN108039176B (zh) | 一种防录音攻击的声纹认证方法、装置及门禁*** | |
Zhang et al. | Voicelive: A phoneme localization based liveness detection for voice authentication on smartphones | |
CN108711436B (zh) | 基于高频和瓶颈特征的说话人验证***重放攻击检测方法 | |
WO2019210796A1 (zh) | 语音识别方法、装置、存储介质及电子设备 | |
US8589167B2 (en) | Speaker liveness detection | |
Wang et al. | Secure your voice: An oral airflow-based continuous liveness detection for voice assistants | |
US6205424B1 (en) | Two-staged cohort selection for speaker verification system | |
GB2541466A (en) | Replay attack detection | |
Saquib et al. | A survey on automatic speaker recognition systems | |
Shang et al. | Defending against voice spoofing: A robust software-based liveness detection system | |
Paul et al. | Countermeasure to handle replay attacks in practical speaker verification systems | |
CN110459226A (zh) | 一种通过声纹引擎检测人声或机器音进行身份核验的方法 | |
CN112382300A (zh) | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 | |
CN109841219A (zh) | 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法 | |
CN110111798A (zh) | 一种识别说话人的方法及终端 | |
Jiang et al. | Securing liveness detection for voice authentication via pop noises | |
Zhang et al. | Waveform level adversarial example generation for joint attacks against both automatic speaker verification and spoofing countermeasures | |
Zhao et al. | Anti-forensics of environmental-signature-based audio splicing detection and its countermeasure via rich-features classification | |
Chen et al. | Push the limit of adversarial example attack on speaker recognition in physical domain | |
CN109273012A (zh) | 一种基于说话人识别和数字语音识别的身份认证方法 | |
Shang et al. | Detection of speech playback attacks using robust harmonic trajectories |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190308 |
|
RJ01 | Rejection of invention patent application after publication |