CN106531172B - 基于环境噪声变化检测的说话人语音回放鉴别方法及*** - Google Patents
基于环境噪声变化检测的说话人语音回放鉴别方法及*** Download PDFInfo
- Publication number
- CN106531172B CN106531172B CN201611062202.4A CN201611062202A CN106531172B CN 106531172 B CN106531172 B CN 106531172B CN 201611062202 A CN201611062202 A CN 201611062202A CN 106531172 B CN106531172 B CN 106531172B
- Authority
- CN
- China
- Prior art keywords
- noise
- voice
- measured
- speaker
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 238000012850 discrimination method Methods 0.000 title claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 24
- 238000005457 optimization Methods 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 18
- 230000007613 environmental effect Effects 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 8
- 238000010835 comparative analysis Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 230000009545 invasion Effects 0.000 abstract description 8
- 230000015572 biosynthetic process Effects 0.000 abstract description 3
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 238000003786 synthesis reaction Methods 0.000 abstract description 3
- 230000009471 action Effects 0.000 abstract description 2
- YMHOBZXQZVXHBM-UHFFFAOYSA-N 2,5-dimethoxy-4-bromophenethylamine Chemical compound COC1=CC(CCN)=C(OC)C=C1Br YMHOBZXQZVXHBM-UHFFFAOYSA-N 0.000 description 6
- 241000545067 Venus Species 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种说话人语音回放鉴别方法及***,属于,具体涉及一种基于环境噪声变化检测的说话人语音回放鉴别方法及***。本发明通过对待检测语音前后环境噪声的变化,检测是否因为录音设备的播放而引入了新的噪声(包括由播放设备信道特征引入的噪声),从而判断是否为录音回放,使得可以再不依赖特定文本的语音检测中,实现ASV***的录音回放攻击检测,可以防止ASV***因录音回放攻击而引起的安全隐患,完善声纹认证的安全保障;同时由于是对播放设备的检测,因此对于语音合成入侵和语音转换入侵的检测,也具有辅助作用。
Description
技术领域
本发明涉及一种说话人语音回放鉴别方法及***,属于,具体涉及一种基于环境噪声变化检测的说话人语音回放鉴别方法及***。
背景技术
随着语音信号处理技术的不断发展,利用说话人语音信号的特征进行身份认证的***在诸多行业得到了广泛的应用。然而,尽管说话人认证(Automatic SpeakerVerification,ASV)***已可在诸如门禁***、金融证券、网络购物、电子银行、手机认证等领域得到应用,该***的可靠性仍然存在较大的安全隐患。主要的人造威胁来自于入侵者利用技术手段,冒充目标说话人语音来“欺骗”ASV***,通过认证。近些年来,如何有效检测、识别非认证语音信号,保证ASV***的健壮性与稳定性,已逐步引起人们的广泛重视。有文献研究表明,基于说话人的语音入侵方式可以归纳为四大类:语音模仿、语音回放、语音合成和语音转换。其中,语音回放入侵通过高保真录放设备,采集认证用户的语音信息,通过回放的方式“欺骗”ASV***,假冒认证用户,实现入侵。有研究表明,相比其它三大类入侵方式,语音回放入侵的实现方式更为简单,任何人无需语音信号处理相关的知识即可实现,是对ASV***最大的威胁之一。
据可查阅的文献资料显示,近几年来国内外已有较多的研究人员从事说话人录音回放检测相关的研究工作,具有代表性的检测方法包括:(1)相似性检测法;(2)远场录音检测法;(3)信道特征分析法;(4)多模态检测法。其中方法(1)需要ASV***已保存真实认证用户特定文本的语音;方法(2)需假定录音设备采集用户语音的位置较远,适用性受到制约;方法(3)对于录音设备信道特征的提取要求精度非常高,鲁棒性较差;方法(4)结合人脸识别、唇动识别等方式,实现及部署的成本较高,也并未从语音信号处理本身实现录音回放检测。
因此,如何设计并实现一种有着广泛适用性、与语音文本无关、鲁棒性强、部署简单的说话人录音回放鉴别方法和***,具有较强的现实意义与应用价值。
发明内容
本发明主要是解决现有技术所存在的上述技术问题,提供了一种基于环境噪声变化检测的说话人语音回放鉴别方法及***。该方法主***基于在录音播放前后环境噪声变化,进而检测是否为录音回放,能够用于鉴别是否为真实身份的认证用户的语音,从而解决现有ASV***中说话人录音回放入侵检测方法鲁棒性差、文本依赖性强等缺点,为ASV***更加广泛的应用于推广提供技术支撑。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于环境噪声变化检测的说话人录音回放鉴别方法,包括:
背景噪声特征提取步骤,用于提取待测语音信号前预设时段语音信号的功率谱特征作为背景噪声能量特征值;
静音段特征提取步骤,用于从待测语音信号中划分出静音段并计算静音段语音帧的平均功率谱特征值作为待测信号静音段特征值;
语音回放判断步骤,用于将背景噪声能量特征值与待测信号静音段特征值进行比较,若两者特征变化超过阈值,则判断为录音回放。
优化的,上述的一种基于环境噪声变化检测的说话人录音回放鉴别方法,所述背景噪声特征提取步骤中,基于以下步骤计算背景环境噪声段终止时间:
(1)对于说话人开始发声点Tv处,前移一小段时间至t时刻,计算t-△t到t+△t之间的平均强度Pt;
(2)然后选择一步幅s,计算t-s-△t到t-s+△t的平均强度Pt-s,比较Pt和Pt-s的差的绝对值是否小于预先给定的阈值;
(3)若Pt和Pt-s之间差的绝对值大于阈值,则表明临界点在t-s和t之间,即可以t-s为背景环境噪声临界点的终止时刻;
(4)若Pt和Pt-s之间差的绝对值小于阈值,则表明从t-s到t时间段内,噪声强度没有发生明显变化,即表征没有找到临界点或临界点不存在,则继续以步幅s从t-s开始向前移动,重复步骤(2);
(5)若进过ns步后,仍未找到临界点,则表明在t-ns到t时间段内,环境噪声无明显变化,则以Pt表示背景噪声强度,其中n为经验系数,预先设定。
优化的,上述的一种基于环境噪声变化检测的说话人录音回放鉴别方法,所述静音段特征提取步骤中,静音段划分采用临界平均能量阈值的方式,通过对整段待测语音信号平均能量的计算,同时加入调整系数,来判断某语音帧是否处于静音段。
优化的,上述的一种基于环境噪声变化检测的说话人录音回放鉴别方法,所述静音段特征提取步骤中,将原始语音段减去经维纳斯滤波后的语音得到的噪声部分作为无说话人语音的静音段。
优化的,上述的一种基于环境噪声变化检测的说话人录音回放鉴别方法,所述语音回放判断步骤中,若背景噪声强度和待测语音噪声强度的绝对值差小于设定的阈值,则判断两者具有相同的噪声源,即判定待测语音为真实说话人语音;若背景噪声强度和猜测语音噪声强度的绝对值大于阈值,则采用自适应滤波和谱减法结合的方式再次提取无说话人语音的静音段;然后比较分析背景噪声强度和待测语音噪声强度。
优化的,上述的一种基于环境噪声变化检测的说话人录音回放鉴别方法,还包括:
阈值调整步骤,用于采用时序阈值优化和/或监督学习阈值法对语音回放判断步骤中的阈值进行调整;其中,时序阈值优化基于检测时所处的时段调整阈值选取方案;监督学习阈值优化通过人工设定样本,经过多次重复测试及结果反馈,更新阈值大小。
一种基于环境噪声变化检测的说话人录音回放鉴别装置,包括:
背景噪声特征提取模块,用于提取待测语音信号前预设时段语音信号的功率谱特征作为背景噪声能量特征值;
静音段特征提取模块,用于从待测语音信号中划分出静音段并计算静音段语音帧的平均功率谱特征作为待测信号静音段特征值;
语音回放判断模块,用于将背景噪声能量特征值与待测信号静音段特征值进行比较,若两者特征变化超过阈值,则判断为录音回放。
优化的,上述的一种基于环境噪声变化检测的说话人录音回放鉴别模块,所述静音段特征提取模块中,静音段划分采用临界平均能量阈值的方式,通过对整段待测语音信号平均能量的计算,同时加入调整系数,来判断某语音帧是否处于静音段。
优化的,上述的一种基于环境噪声变化检测的说话人录音回放鉴别模块,所述静音段特征提取模块中,将原始语音段减去维纳斯滤波后的语音后得到的噪声部分作为无说话人语音的静音段。
优化的,上述的一种基于环境噪声变化检测的说话人录音回放鉴别模块,所述语音回放判断模块中,若背景噪声强度和待测语音噪声强度的绝对值差小于设定的阈值,则判断两者具有相同的噪声源,即判定待测语音为真实说话人语音;若背景噪声强度和猜测语音噪声强度的绝对值大于阈值,则采用自适应滤波和谱减法结合的方式提取无说话人语音的静音段;再次比较分析背景噪声强度和待测语音噪声强度。
因此,本发明通过对待检测语音前后环境噪声的变化,检测是否因为录音设备的播放而引入了新的噪声(包括由播放设备信道特征引入的噪声),从而判断是否为录音回放,使得可以再不依赖特定文本的语音检测中,实现ASV***的录音回放攻击检测,可以防止ASV***因录音回放攻击而引起的安全隐患,完善声纹认证的安全保障;同时由于是对播放设备的检测,因此对于语音合成入侵和语音转换入侵的检测,也具有辅助作用
附图说明
图1是本发明实施例提供的一种基于环境噪声变化检测的说话人录音回放鉴别方法的流程图;
图2是本发明实施例提供的一种基于环境噪声变化检测的说话人录音回放鉴别***的结构框图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
本发明实施例中,通过高保真的音频采集设备实现说话人语音设备的采集,语音信号的处理以软件的方式实现。
如图1所示:在本发明实施例的基于环境噪声变化检测的说话人录音回放鉴别方法,其包括如下步骤:
S1、背景环境语音信号预处理,此步骤实现对待检测语音信号输入前的语音信号测量及预处理。首先通过预设值,选取待测语音信号前一定时间前的一段语音信号(环境噪声),通过滤波消除信号中的突变信号;接着提取滤波后信号的功率谱特征;
S2、待测语音信号静音段划分,此步骤实现对待检测语音信号静音段的时序划分。静音段划分采用临界平均能量阈值的方式,通过对整段待测语音信号平均能量的计算;同时加入调整系数,来判断某语音帧是否处于静音段;
S3、待测语音信号静音段特征提取,此步骤实现对待测语音播放期间,噪声特征的提取。首先将S2步骤标识出的处于静音段所有语音帧用于计算,对每个语音帧提取功率谱特征值,对所有语音帧的功率谱特征值求平均,用于标识待测语音存续期间噪声的能量特征;
S4、背景环境噪声信号特征与待测信号静音段特征比较分析,此步骤将S3步骤提取的特征与S1步骤提取的功率谱特征比较,若两者特征值有明显变化,超过阈值,则判断为引入了新的噪声源,为录音回放;
S5、调整阈值完成说话人语音的录音回放检测,此步骤实现对S4步骤中所述阈值的动态调整,优化检测精度。通过定期输入先验样本,来实现对阈值的定期调整,增加对不同使用环境的适应性。
如图2所示:本发明实施例提供的一种基于环境噪声变化检测的说话人录音回放鉴别***,其包括:
背景噪声特征提取模块,用于提取待测语音信号前预设时段语音信号的功率谱特征作为背景噪声能量特征值;
静音段特征提取模块,用于从待测语音信号中划分出静音段并计算静音段语音帧的平均功率谱特征作为待测信号静音段特征值;
语音回放判断模块,用于将背景噪声能量特征值与待测信号静音段特征值进行比较,若两者特征变化超过阈值,则判断为录音回放。
背景噪声特征提取模块具体包括背景环境语音信号滤波模块10和背景环境语音信号特征提取模块20。
背景环境语音信号滤波模块10用于对环境背景噪声的预处理,消除突变信号,保证背景环境噪声在检测前后的一段时间内平稳。背景噪声信号预处理主要采用滤波的方式,消除突变语音信号对检测过程的影响,如打雷、敲门等声音信号。需要截取一段时间的语音信号,这段语音信号应稍长于模块20所需提取的背景环境语音范围,在实际操作中可由经验值确定。背景环境语音信号特征提取模块20提取能够表征噪声某方面性质的特征值,如将噪声强度作为特征标识。对于待测信号出现前多长时间判断为背景噪声的特征,即待测信号输入时的临界点判断(若为录音回放,则为播放设备开启的时刻),将采用逐步逼近的方式近似求得。
其中,对于表征噪声性质的特征值,本实施例选用噪声强度作为标识。
对于背景环境噪声的特征的提取,关键步骤之一在于对平稳噪声段的选取。由于涉及到后续待测语音信号,因此需要判断背景噪声和待测语音信号的介入引入的新的噪声,两者之间的临界点即为背景环境噪声段终止时间。待测语音信号可为真实说话人声音,也可能是录音回放。对于真实说话人声音,临界点为说话人发声开始的瞬间;对于录音回放,由于录音中前段可能为无声段,因此不能以说话人的声音出现作为临界点判断标准。本实施例采用逐步逼近的方式求得临界点,具体实施方法为:
(1)对于说话人开始发声点Tv处,前移一小段时间至t时刻,计算t-△t到t+△t之间的平均强度Pt,其中,△t为预先设定的时间变化量,可根据使用环境与需求人工设定;
(2)然后选择一步幅s,计算t-s-△t到t-s+△t的平均强度Pt-s,比较Pt和Pt-s的差的绝对值是否小于预先给定的阈值;
(3)若Pt和Pt-s之间差的绝对值大于阈值,则表明临界点在t-s和t之间,即可以t-s为背景环境噪声临界点的终止时刻;
(4)若Pt和Pt-s之间差的绝对值小于阈值,则表明从t-s到t时间段内,噪声强度没有发生明显变化,即表征没有找到临界点或临界点不存在,则继续以步幅s从t-s开始向前移动,重复步骤(2);
(5)若进过ns步后,仍未找到临界点,则表明在t-ns到t时间段内,环境噪声无明显变化,则以Pt表示背景噪声强度,其中n为经验系数,预先设定。
静音段特征提取模块具体为图2中的待测语音静音段信号处理模块30,用于对整段待测语音信号静音段的语音帧识别与提取功率谱特征,将静音段的信号看作噪声,则测得的噪声强度,若为录音回放,则包括背景噪声强度和回放设备中新引入的噪声强度,求得整个待测语音静音段的平均噪声强度,以标识待测语音检测时的噪声特征。
语音静音段信号提取首先采用经典的维纳斯滤波,将原始语音段去噪滤波后的予以保存,然后将原始语音段减去维纳斯滤波后的语音,即可得到维纳斯滤波滤掉的噪声部分,提取的噪声即可表征无说话人语音的静音段的语音信号。
由于通常情况下,带检测语音存续期间,语音信号的信噪比比较大,因此可对静音段语音信号做语音增强处理,确保提取的静音段噪声信号尽可能的精确。
对于有明显语音间隔的待测语音信号,可通过端点检测的方式,在时序上分割待检测语音的静音段部分,从而可以直接测得静音段的噪声信号。
对提取后的静音段噪声信号,同样通过求得每帧语音的强度,通过线性平均得到待测语音信号的平均噪声强度,以表征噪声的声学特征。
对于噪声信号强度,亦可选择提取其它语音特征,通过建立分析模型,联动多个特征参数,综合描述信号的特征。可选地特征包括Me l倒频系数、频谱包络等等。
语音回放判断模块具体为图2中的特征分析与比较功能模块40,用于分析20模块提取的噪声强度特征和30提取的噪声强度特征之间的差异性,通过阈值来分类两种噪声,鉴别是否为录音回放。
对于以噪声强度表征噪声特征的本实施例中,将直接比较两者的大小。若背景噪声强度和待测语音噪声强度的绝对值差小于设定的阈值,则判断两者具有相同的噪声源,即判定待测语音为真实说话人语音;若背景噪声强度和猜测语音噪声强度的绝对值大于阈值,则需进行二次判断。二次判断的方法为:重复30模块的主体功能,对待测语音段噪声信号强度重新提取,提取过程将采用自适应滤波和谱减法结合的方式,代替之前的维纳斯滤波,最终提取待测语音段噪声信号强度,进而再次与背景环境噪声强度比较判断。
根据不同的使用环境和使用需求,可和模块30一样,选择提取其它语音特征来比较分析。特别的,对于判断为录音回放时,同样需要换用其它滤波方式,再次提取待测语音段噪声信号强度,重新分析比较。
检测优化模块50,用于动态的优化40模块中的阈值,从统计上,背景环境噪声的变化在长时间内曾周期性变化,因此可根据不同时段内使用多组不同阈值;同时,通过周期性的输入先验样本,实现阈值定期的优化。
本实施例还包括阈值调整模块,其具体为附图2中的检测优化模块50,主要实现模块40中阈值的优化选取与动态更新,实施方式分为两部分:时序阈值优化和监督学习阈值优化。
时序阈值优化,主要考虑背景环境噪声在时序上的不同时间段具有不同的声学特征,因此需要更具所处时段,优化选择该时段使测试结果最为准确的阈值选取方案。例如若白天的背景环境噪声大于傍晚的噪声,则对噪声提取的精度要求更高,对于阈值的选取可适当增大。
阈值的选取还应和具体的需求相关。根据使用需求的优先级,微调阈值的大小,如FRR(False Rejection Rate)优先,或是FAR(False Acceptance Rate)优先。
监督学习阈值优化,用于长时的阈值更新。当背景环境噪声长时间发生稳定变化时,需要重新校准阈值,可通过监督学习的方式,人工设定样本,通过多次重复测试及结果反馈,更新阈值大小。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能性一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应超过本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机储存器、内存、只读存储器、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (9)
1.一种基于环境噪声变化检测的说话人录音回放鉴别方法,其特征在于,包括:
背景噪声特征提取步骤,用于提取待测语音信号前预设时段语音信号的功率谱特征作为背景噪声能量特征值;
静音段特征提取步骤,用于从待测语音信号中划分出静音段并计算静音段语音帧的平均功率谱特征值作为待测信号静音段特征值;
语音回放判断步骤,用于将背景噪声能量特征值与待测信号静音段特征值进行比较,若两者特征变化超过阈值,则判断为录音回放;
其中,所述背景噪声特征提取步骤中,基于以下步骤计算背景环境噪声段终止时间:
(1)对于说话人开始发声点Tv处,前移一小段时间至t时刻,计算t-△t到t+△t之间的平均强度Pt,其中,△t为为预先设定的时间变化量,可根据使用环境与需求人工设定;
(2)然后选择一步幅s,计算t-s-△t到t-s+△t的平均强度Pt-s,比较Pt和Pt-s的差的绝对值是否小于预先给定的阈值;
(3)若Pt和Pt-s之间差的绝对值大于阈值,则表明临界点在t-s和t之间,即可以t-s为背景环境噪声临界点的终止时刻;
(4)若Pt和Pt-s之间差的绝对值小于阈值,则表明从t-s到t时间段内,噪声强度没有发生明显变化,即表征没有找到临界点或临界点不存在,则继续以步幅s从t-s开始向前移动,重复步骤(2);
(5)若进过ns步后,仍未找到临界点,则表明在t-ns到t时间段内,环境噪声无明显变化,则以Pt表示背景噪声强度,其中n为经验系数,预先设定。
2.根据权利要求1所述的一种基于环境噪声变化检测的说话人录音回放鉴别方法,其特征在于,所述静音段特征提取步骤中,静音段划分采用临界平均能量阈值的方式,通过对整段待测语音信号平均能量的计算,同时加入调整系数,来判断某语音帧是否处于静音段。
3.根据权利要求1所述的一种基于环境噪声变化检测的说话人录音回放鉴别方法,其特征在于,所述静音段特征提取步骤中,将原始语音段减去经维纳斯滤波后的语音得到的噪声部分作为无说话人语音的静音段。
4.根据权利要求1所述的一种基于环境噪声变化检测的说话人录音回放鉴别方法,其特征在于,所述语音回放判断步骤中,若背景噪声强度和待测语音噪声强度的绝对值差小于设定的阈值,则判断两者具有相同的噪声源,即判定待测语音为真实说话人语音;若背景噪声强度和待测语音噪声强度的绝对值大于阈值,则采用自适应滤波和谱减法结合的方式再次提取无说话人语音的静音段;然后比较分析背景噪声强度和待测语音噪声强度。
5.根据权利要求1所述的一种基于环境噪声变化检测的说话人录音回放鉴别方法,其特征在于,还包括:
阈值调整步骤,用于采用时序阈值优化和/或监督学习阈值法对语音回放判断步骤中的阈值进行调整;其中,时序阈值优化基于检测时所处的时段调整阈值选取方案;监督学习阈值优化通过人工设定样本,经过多次重复测试及结果反馈,更新阈值大小。
6.一种基于环境噪声变化检测的说话人录音回放鉴别装置,其特征在于,包括:
背景噪声特征提取模块,用于提取待测语音信号前预设时段语音信号的功率谱特征作为背景噪声能量特征值;
静音段特征提取模块,用于从待测语音信号中划分出静音段并计算静音段语音帧的平均功率谱特征作为待测信号静音段特征值;
语音回放判断模块,用于将背景噪声能量特征值与待测信号静音段特征值进行比较,若两者特征变化超过阈值,则判断为录音回放;
其中,所述背景噪声特征提取模块基于以下步骤计算背景环境噪声段终止时间:
(1)对于说话人开始发声点Tv处,前移一小段时间至t时刻,计算t-△t到t+△t之间的平均强度Pt,其中,△t为为预先设定的时间变化量,可根据使用环境与需求人工设定;
(2)然后选择一步幅s,计算t-s-△t到t-s+△t的平均强度Pt-s,比较Pt和Pt-s的差的绝对值是否小于预先给定的阈值;
(3)若Pt和Pt-s之间差的绝对值大于阈值,则表明临界点在t-s和t之间,即可以t-s为背景环境噪声临界点的终止时刻;
(4)若Pt和Pt-s之间差的绝对值小于阈值,则表明从t-s到t时间段内,噪声强度没有发生明显变化,即表征没有找到临界点或临界点不存在,则继续以步幅s从t-s开始向前移动,重复步骤(2);
(5)若进过ns步后,仍未找到临界点,则表明在t-ns到t时间段内,环境噪声无明显变化,则以Pt表示背景噪声强度,其中n为经验系数,预先设定。
7.根据权利要求6所述的一种基于环境噪声变化检测的说话人录音回放鉴别装置,其特征在于,所述静音段特征提取模块中,静音段划分采用临界平均能量阈值的方式,通过对整段待测语音信号平均能量的计算,同时加入调整系数,来判断某语音帧是否处于静音段。
8.根据权利要求6所述的一种基于环境噪声变化检测的说话人录音回放鉴别装置,其特征在于,所述静音段特征提取模块中,将原始语音段减去维纳斯滤波后的语音后得到的噪声部分作为无说话人语音的静音段。
9.根据权利要求6所述的一种基于环境噪声变化检测的说话人录音回放鉴别装置,其特征在于,所述语音回放判断模块中,若背景噪声强度和待测语音噪声强度的绝对值差小于设定的阈值,则判断两者具有相同的噪声源,即判定待测语音为真实说话人语音;若背景噪声强度和待测语音噪声强度的绝对值大于阈值,则采用自适应滤波和谱减法结合的方式提取无说话人语音的静音段;再次比较分析背景噪声强度和待测语音噪声强度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611062202.4A CN106531172B (zh) | 2016-11-23 | 2016-11-23 | 基于环境噪声变化检测的说话人语音回放鉴别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611062202.4A CN106531172B (zh) | 2016-11-23 | 2016-11-23 | 基于环境噪声变化检测的说话人语音回放鉴别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106531172A CN106531172A (zh) | 2017-03-22 |
CN106531172B true CN106531172B (zh) | 2019-06-14 |
Family
ID=58357188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611062202.4A Active CN106531172B (zh) | 2016-11-23 | 2016-11-23 | 基于环境噪声变化检测的说话人语音回放鉴别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106531172B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021209146A1 (en) * | 2020-04-17 | 2021-10-21 | Huawei Technologies Co., Ltd. | Detection of replay attacks in voice operated systems |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2578386B (en) | 2017-06-27 | 2021-12-01 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801661D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
CN108281158A (zh) * | 2018-01-12 | 2018-07-13 | 平安科技(深圳)有限公司 | 基于深度学习的语音活体检测方法、服务器及存储介质 |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
KR102585231B1 (ko) * | 2018-02-02 | 2023-10-05 | 삼성전자주식회사 | 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치 |
CN110459204A (zh) * | 2018-05-02 | 2019-11-15 | Oppo广东移动通信有限公司 | 语音识别方法、装置、存储介质及电子设备 |
US10529356B2 (en) | 2018-05-15 | 2020-01-07 | Cirrus Logic, Inc. | Detecting unwanted audio signal components by comparing signals processed with differing linearity |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
CN109272991B (zh) * | 2018-09-29 | 2021-11-02 | 阿波罗智联(北京)科技有限公司 | 语音交互的方法、装置、设备和计算机可读存储介质 |
CN109935233A (zh) * | 2019-01-29 | 2019-06-25 | 天津大学 | 一种基于振幅和相位信息的录音攻击检测方法 |
CN110211606B (zh) * | 2019-04-12 | 2021-04-06 | 浙江大学 | 一种语音认证***的重放攻击检测方法 |
CN110300001B (zh) * | 2019-05-21 | 2022-03-15 | 深圳壹账通智能科技有限公司 | 会议音频控制方法、***、设备及计算机可读存储介质 |
CN111755014B (zh) * | 2020-07-02 | 2022-06-03 | 四川长虹电器股份有限公司 | 一种领域自适应的录音重放攻击检测方法及*** |
CN112509598B (zh) * | 2020-11-20 | 2024-06-18 | 北京小米松果电子有限公司 | 音频检测方法及装置、存储介质 |
CN113270099B (zh) * | 2021-06-29 | 2023-08-29 | 深圳市欧瑞博科技股份有限公司 | 智能语音提取方法、装置、电子设备及存储介质 |
CN114664310B (zh) * | 2022-03-01 | 2023-03-31 | 浙江大学 | 一种基于注意力增强滤波的无声攻击分类提升方法 |
CN114664311B (zh) * | 2022-03-01 | 2023-05-05 | 浙江大学 | 一种记忆网络增强的变分推断无声攻击检测方法 |
CN118053451A (zh) * | 2024-04-15 | 2024-05-17 | 中国科学院自动化研究所 | 基于多模态大模型的模仿音频鉴别方法、装置和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8036902B1 (en) * | 2006-06-21 | 2011-10-11 | Tellme Networks, Inc. | Audio human verification |
CN102436810A (zh) * | 2011-10-26 | 2012-05-02 | 华南理工大学 | 一种基于信道模式噪声的录音回放攻击检测方法和*** |
CN104464724A (zh) * | 2014-12-08 | 2015-03-25 | 南京邮电大学 | 一种针对刻意伪装语音的说话人识别方法 |
CN105513598A (zh) * | 2016-01-14 | 2016-04-20 | 宁波大学 | 一种基于频域信息量分布的回放语音检测方法 |
CN105702263A (zh) * | 2016-01-06 | 2016-06-22 | 清华大学 | 语音重放检测方法和装置 |
-
2016
- 2016-11-23 CN CN201611062202.4A patent/CN106531172B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8036902B1 (en) * | 2006-06-21 | 2011-10-11 | Tellme Networks, Inc. | Audio human verification |
CN102436810A (zh) * | 2011-10-26 | 2012-05-02 | 华南理工大学 | 一种基于信道模式噪声的录音回放攻击检测方法和*** |
CN104464724A (zh) * | 2014-12-08 | 2015-03-25 | 南京邮电大学 | 一种针对刻意伪装语音的说话人识别方法 |
CN105702263A (zh) * | 2016-01-06 | 2016-06-22 | 清华大学 | 语音重放检测方法和装置 |
CN105513598A (zh) * | 2016-01-14 | 2016-04-20 | 宁波大学 | 一种基于频域信息量分布的回放语音检测方法 |
Non-Patent Citations (1)
Title |
---|
说话人认证录音回放检测方法综述;贺前华等;《数据采集与处理》;20150430;第30卷(第2期);第266-274页 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021209146A1 (en) * | 2020-04-17 | 2021-10-21 | Huawei Technologies Co., Ltd. | Detection of replay attacks in voice operated systems |
Also Published As
Publication number | Publication date |
---|---|
CN106531172A (zh) | 2017-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106531172B (zh) | 基于环境噪声变化检测的说话人语音回放鉴别方法及*** | |
US20220093111A1 (en) | Analysing speech signals | |
US11042616B2 (en) | Detection of replay attack | |
US11631402B2 (en) | Detection of replay attack | |
US8428945B2 (en) | Acoustic signal classification system | |
Shiota et al. | Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
Jančovič et al. | Automatic detection and recognition of tonal bird sounds in noisy environments | |
CN103578470A (zh) | 一种电话录音数据的处理方法及*** | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
JPH0990974A (ja) | 信号処理方法 | |
US20230401338A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
JP6480124B2 (ja) | 生体検知装置、生体検知方法及びプログラム | |
KR101621780B1 (ko) | 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
Islam et al. | Neural-Response-Based Text-Dependent speaker identification under noisy conditions | |
CN107039046B (zh) | 一种基于特征融合的语音声效模式检测方法 | |
Zheng et al. | A robust keyword detection system for criminal scene analysis | |
KR102661005B1 (ko) | 다채널 다화자 환경에서 화자별 음원분리장치 및 방법 | |
US12026241B2 (en) | Detection of replay attack | |
Zhang et al. | An advanced entropy-based feature with a frame-level vocal effort likelihood space modeling for distant whisper-island detection | |
Wong et al. | Leveraging speech and ultrasonic signals toward articulation-based smartphone user authentication | |
CN111192600A (zh) | 声音数据的处理方法及装置、存储介质和电子装置 | |
Geravanchizadeh et al. | Improving the noise-robustness of Mel-Frequency Cepstral Coefficients for speaker verification | |
Abu-El-Quran | Feature extraction for audio classification | |
Ramli et al. | Performances of speech signal biometric systems based on signal to noise ratio degradation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |