CN110211606B - 一种语音认证***的重放攻击检测方法 - Google Patents

一种语音认证***的重放攻击检测方法 Download PDF

Info

Publication number
CN110211606B
CN110211606B CN201910303649.3A CN201910303649A CN110211606B CN 110211606 B CN110211606 B CN 110211606B CN 201910303649 A CN201910303649 A CN 201910303649A CN 110211606 B CN110211606 B CN 110211606B
Authority
CN
China
Prior art keywords
voice
value
sequence
polarity
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910303649.3A
Other languages
English (en)
Other versions
CN110211606A (zh
Inventor
冀晓宇
龙颜
徐文渊
闫琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910303649.3A priority Critical patent/CN110211606B/zh
Publication of CN110211606A publication Critical patent/CN110211606A/zh
Application granted granted Critical
Publication of CN110211606B publication Critical patent/CN110211606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Collating Specific Patterns (AREA)
  • Lock And Its Accessories (AREA)

Abstract

本发明公开了一种基于语音信号时域极性的语音认证***的重放攻击检测方法。通过语音认证***采集记录语音信号,提取语音信号的正极性信号和负极性信号,比较正极性信号和负极性信号的比例关系判断获得语音信号属于重放攻击或者活体语音:若正负极性部分比例差距较大且正极性信号比例高于负极性信号比例,则认为是重放攻击;若正负极性部分比例差距较大且正极性信号比例不高于负极性信号比例,则认为是活体语音。本发明能准确有效地检测出语音认证***中的重放攻击。

Description

一种语音认证***的重放攻击检测方法
技术领域
本发明属于语音认证技术及安全技术领域,具体涉及一种可检测针对语音认证***的重放攻击的软件处理方法。
背景技术
语音认证***是一种利用语音认证技术提取说话人语音特异性特征,通过语音特征模式匹配从而鉴别说话人身份的安全认证***。由于其对硬件要求低、低成本、认证简单方便、可进行远距离非接触式认证的特点,已经逐渐成为一种主流用户认证和访问控制方式。然而,现有语音认证***,普遍易遭受重放攻击。
针对语音认证***的重放攻击是指攻击者预先录制收集真实合法用户语音样本片段,将其直接或经过拼接后,通过扬声器播出,以欺骗语音认证***。重放攻击不需要攻击发起者掌握语音信号处理知识,并且随着电子设备技术的发展,高质量而低成本的扬声器已经变得愈发常见,这些因素都使得重放攻击成为了针对语音认证***最简易、但是威胁最大的攻击;但同时,重放攻击又极难被发现、防御。
要检测和防御重放攻击,需要了解麦克风及扬声器的声-电及电-声转换机制。麦克风、扬声器等是用于声波—电磁信号转换的变换器。麦克风通过声波带来的薄膜振动,利用法拉第电磁感应效应,将振动机械能转换为电信号的电能;扬声器则是将此电信号电脑反向转化为薄膜的动能,使薄膜扰动空气形成声波,进而还原被转化为电信号之前的声音。
理想情况下,麦克风和扬声器的转换为完全互逆过程,即如下图1中,声信号1应与声信号2完全相同。但在现实情况下,这两种信号往往不同。导致两者之间区别的主要原因有两点:1)麦克风和扬声器的电信号通路中,有如功放、输入与输出滤波器、AD/DA转换器等电路,均会向电信号中引入噪声;2)在振动膜振动实现电—声及声—电转换时,多种机械阻力会造成其运动模式变化,造成转换前后信号不一致。
由于在重放攻击当中,语音信号(这里为声信号和电信号的抽象总和)从被人发出到被语音认证***麦克风接收前,较活体用户直接进行认证额外经过了一组麦风—扬声器攻击硬件,故重放攻击的语音信号较活体认证将包含更多噪声以及由振膜运动模式变化带来的失真。通过检测这些失真,理论上就可以检测、防御重放攻击。
目前已有许多相关研究通过检测攻击硬件引入噪声以检测重放攻击。这一类检测方法通常有检测准确率较低、且受重放攻击使用麦克风及扬声器质量影响较大的特点。然而,还未有研究关注攻击设备硬件通路上由振膜运动模式变化带来的语音信号失真。
发明内容
为解决上述背景技术中存在的技术问题,本发明提供了一种基于语音信号时域极性的语音认证***的重放攻击检测方法,通过检测语音认证***收集到语音信号的时域极性特点能准确有效地检测出重放攻击。
本发明采用如下技术方案:
本发明通过语音认证***采集记录语音信号,提取语音信号的正极性信号和负极性信号,比较正极性信号和负极性信号的比例关系判断获得语音信号属于重放攻击(录音设备发出的声音)或者活体语音(即活体用户发出的声音):
若正负极性部分比例差距较大且正极性信号比例高于负极性信号比例,则认为是重放攻击;
若正负极性部分比例差距较大且正极性信号比例不高于负极性信号比例,则认为是活体语音。
所述方法具体如下:
1)对语音认证***按一定采样频率间隔采集收集到的语音信号进行语音活动检测,去除语音信号中的噪声,提取语音音频信号中的一部分作为纯人声部分;
本发明方法使用的语音活动检测主要通过信号幅值及持续时间以判断指定段语音信号为纯人声或是噪声。
2)对得到的时域纯人声信号进行极性指数计算:
纯人声语音信号序列S为包含N个采样点的序列,其中采样值为正的所有采样点个数为Npos,采样值为正的所有采样点的采样值之和的绝对值为|Sumpos|,采样值为负的所有采样点个数为Nneg,采样值为负的所有采样点的采样值之和的绝对值为|Sumneg|,采用以下公式处理获得极性值I:
I=(|Sumpos|/Npos)/(|Sumpos|/Npos+|Sumneg|/Nneg)
3)将所得到的极性值I与预设极性阈值Ithr比较:当极性值I大于极性阈值Ithr,,判断为活体语音;否则,判断为重放攻击。
所述步骤1)具体为:
1.1)语音信号Sa为包含Na个采样点的序列,所有采样点绝对值的最大值为|Amax|,设置信号幅值阈值|Athr|=0.1×|Amax|;
1.2)提取语音信号Sa中所有采样值绝对值大于信号幅值阈值|Athr|的采样点组成第一序列(Sai1,Sai2,Sai3,...Saix),且有1<=i1<i2<i3<...<ix<=N,i为采样点在语音信号Sa序列中的索引序数值,N表示语音信号Sa序列中采样点的总数;
1.3)对第一序列(Sai1,Sai2,Sai3,...Saix)中,初始以第i1个采样点作为参考采样点,先从第i1个采样点的索引序数值开始向后遍历寻找各个采样点的索引序数值:若第ip个采样点的索引序数值与第i(p-1)个采样点的索引序数值之差大于预设序数阈值D1,则将第ip-1个采样点与第i1个采样点之间的第一序列(Sai1,Sai2,Sai3,...Saix)中的所有采样点组成第1个子集序列Ssub1;
1.4)然后从第ip个采样点作为开始向后不断重复上述步骤1.3),将第iq(q>=p)个采样点与其之前最临近的参考采样点之间的第一序列(Sai1,Sai2,Sai3,...Saix)中的所有采样点组成下一个子集序列,直至遍历到最后第Saix个采样点,最后获得第y个子集序列Ssuby;
1.5)对于第1个子集序列Ssub1到第y个子集序列Ssuby(y>=1),判断各子集序列其中各个采样点是否满足采样点的最大索引序数值与最小索引序数值之差大于预设索引阈值D2,将最后将所有满足采样点的最大索引序数值与最小索引序数值之差大于预设索引阈值D2的子集序列合并成为纯人声语音信号序列S。
本发明发现在活体认证时,由于人体声带振动发声模式相对固定,认证***直接录得的活体语音基本呈现信号正负极性部分比例差距较大且正极性信号比例高于负极性信号比例的特点。
而在重放攻击时,由于攻击设备硬件通路带来的振膜振动模式变化,其语音信号基本呈现正负极性部分比例相当,甚至是负极性信号比例高于正极性信号的特点。
本发明即通过检测语音认证***硬件所收集到的语音信号的正负极性信号的比较(时域极性),即可简单却非常有效地判断此语音信号来自活体说话人还是重放攻击扬声器。
本发明的有益效果是:
本发明在仅对语音认证时域信号进行处理的条件下,实现了对重放攻击的检测与防御。由于方法非常简单却有效,处理步骤少,且算法复杂度低,本发明有高校而延时低的优点;同时,由于所检测的对象与麦克风和扬声器电信号通路中混入的噪声无关,本方法检测成功率不受重放攻击所使用麦克风与扬声器音质影响,即对不同质量档次的扬声器与麦克风发起的攻击具有同样的防御效果。
本发明能准确有效地检测出语音认证***中的重放攻击。
附图说明
图1为理想情况下麦克风和扬声器的转换过程示意图。
图2为本发明的检测方法流程图。
图3为实施例的语音信号检测图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明具体实施过程如下:
1)对语音认证***间隔采集收集到的语音信号进行语音活动检测,去除语音信号中的噪声,提取语音音频信号中的一部分作为纯人声部分;
1.1)语音信号Sa为包含Na个采样点的序列,所有采样点绝对值的最大值为|Amax|,设置信号幅值阈值|Athr|=0.1×|Amax|;
1.2)提取语音信号Sa中所有采样值绝对值大于信号幅值阈值|Athr|的采样点组成第一序列(Sai1,Sai2,Sai3,...Saix),Sai1,Sai2,Sai3,...Saix分别表示第i1个采样点到第ix个采样点的采样值,且有1<=i1<i2<i3<...<ix<=N,i为采样点在语音信号Sa序列中的索引序数值,N表示语音信号Sa序列中采样点的总数;
1.3)对第一序列(Sai1,Sai2,Sai3,...Saix)中,初始以第i1个采样点作为参考采样点,先从第i1个采样点的索引序数值开始向后遍历寻找各个采样点的索引序数值:若第ip个采样点的索引序数值与第i(p-1)个采样点的索引序数值之差大于预设序数阈值D1,则将第ip-1个采样点与第i1个采样点之间的第一序列(Sai1,Sai2,Sai3,...Saix)中的所有采样点组成第1个子集序列Ssub1;
1.4)然后从第ip个采样点作为开始向后不断重复上述步骤1.3),将第iq(q>=p)个采样点与其之前最临近的参考采样点之间的第一序列(Sai1,Sai2,Sai3,...Saix)中的所有采样点组成下一个子集序列,直至遍历到最后第Saix个采样点,最后获得第y个子集序列Ssuby;
1.5)对于第1个子集序列Ssub1到第y个子集序列Ssuby(y>=1),判断各子集序列其中各个采样点是否满足采样点的最大索引序数值与最小索引序数值之差大于预设索引阈值D2,将最后将所有满足采样点的最大索引序数值与最小索引序数值之差大于预设索引阈值D2的子集序列合并成为纯人声语音信号序列S。
2)对得到的时域纯人声信号进行极性指数计算:
纯人声语音信号序列S为包含N个采样点的序列,其中采样值为正的所有采样点个数为Npos,采样值为正的所有采样点的采样值之和的绝对值为|Sumpos|,采样值为负的所有采样点个数为Nneg,采样值为负的所有采样点的采样值之和的绝对值为|Sumneg|,采用以下公式处理获得极性值I:
I=(|Sumpos|/Npos)/(|Sumpos|/Npos+|Sumneg|/Nneg)
3)将所得到的极性值I与预设极性阈值Ithr比较:当极性值I大于极性阈值Ithr,即I>Ithr时,认为语音信号符合活体用户语音信号极性特点,判断为活体语音;否则,判断为重放攻击。
实施例一:
图3中,上通道为语音认证***获得的活体认证语音信号,而下通道为用HiVi音响重放攻击得到的语音信号。可以明显看到,活体语音信号的正极性比例大大高于负极性比例,而重放攻击信号则恰好相反。经过本检测方法前两步(语音活动检测、极性指数计算)处理后,可计算得到活体认证语音信号极性指数为0.583,明显大于重放攻击语音信号的极性指数为0.494。
实施例二:
本实施例采集了共20人(14男6女)的活体认证语音,并用包括前述HiVi音响在内的8种质量分布较广的扬声器进行重放攻击。设定判决阈值为为0.52,即将极性指数大于0.52的语音判定为活体语音,反正判定为重放攻击时,得到对活体语音检测准确率93.2%,对重放攻击检测准确率96.5%。

Claims (1)

1.一种语音认证***的重放攻击检测方法,其特征在于:通过语音认证***采集记录语音信号,提取语音信号的正极性信号和负极性信号,比较正极性信号和负极性信号的比例关系判断获得语音信号属于重放攻击或者活体语音:若正负极性部分比例差距较大且正极性信号比例高于负极性信号比例,则认为是重放攻击;若正负极性部分比例差距较大且正极性信号比例不高于负极性信号比例,则认为是活体语音;
方法具体如下:
1)对语音认证***间隔采集收集到的语音信号进行语音活动检测,去除语音信号中的噪声,提取语音音频信号中的一部分作为纯人声部分;
2)对得到的时域纯人声信号进行极性指数计算:
纯人声语音信号序列S为包含N个采样点的序列,其中采样值为正的所有采样点个数为Npos,采样值为正的所有采样点的采样值之和的绝对值为|Sumpos|,采样值为负的所有采样点个数为Nneg,采样值为负的所有采样点的采样值之和的绝对值为|Sumneg|,采用以下公式处理获得极性值I:
I=(|Sumpos|/Npos)/(|Sumpos|/Npos+|Sumneg|/Nneg)
3)将所得到的极性值I与预设极性阈值Ithr比较:当极性值I大于极性阈值Ithr,判断为活体语音;否则,判断为重放攻击;
所述步骤1)具体为:
1.1)语音信号Sa为包含Na个采样点的序列,所有采样点绝对值的最大值为|Amax|,设置信号幅值阈值|Athr|=0.1×|Amax|;
1.2)提取语音信号Sa中所有采样值绝对值大于信号幅值阈值|Athr|的采样点组成第一序列(Sai1,Sai2,Sai3,...Saix),且有1<=i1<i2<i3<...<ix<=N,i为采样点在语音信号Sa序列中的索引序数值,N表示语音信号Sa序列中采样点的总数;
1.3)对第一序列(Sai1,Sai2,Sai3,...Saix)中,初始以第i1个采样点作为参考采样点,先从第i1个采样点的索引序数值开始向后遍历寻找各个采样点的索引序数值:若第ip个采样点的索引序数值与第i(p-1)个采样点的索引序数值之差大于预设序数阈值D1,则将第ip-1个采样点与第i1个采样点之间的第一序列(Sai1,Sai2,Sai3,...Saix)中的所有采样点组成第1个子集序列Ssub1;
1.4)然后从第ip个采样点作为开始向后不断重复上述步骤1.3),将第iq(q>=p)个采样点与其之前最临近的参考采样点之间的第一序列(Sai1,Sai2,Sai3,...Saix)中的所有采样点组成下一个子集序列,直至遍历到最后第Saix个采样点,最后获得第y个子集序列Ssuby;
1.5)对于第1个子集序列Ssub1到第y个子集序列Ssuby(y>=1),判断各子集序列其中各个采样点是否满足采样点的最大索引序数值与最小索引序数值之差大于预设索引阈值D2,将最后将所有满足采样点的最大索引序数值与最小索引序数值之差大于预设索引阈值D2的子集序列合并成为纯人声语音信号序列S。
CN201910303649.3A 2019-04-12 2019-04-12 一种语音认证***的重放攻击检测方法 Active CN110211606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910303649.3A CN110211606B (zh) 2019-04-12 2019-04-12 一种语音认证***的重放攻击检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910303649.3A CN110211606B (zh) 2019-04-12 2019-04-12 一种语音认证***的重放攻击检测方法

Publications (2)

Publication Number Publication Date
CN110211606A CN110211606A (zh) 2019-09-06
CN110211606B true CN110211606B (zh) 2021-04-06

Family

ID=67785410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910303649.3A Active CN110211606B (zh) 2019-04-12 2019-04-12 一种语音认证***的重放攻击检测方法

Country Status (1)

Country Link
CN (1) CN110211606B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243600A (zh) * 2020-01-10 2020-06-05 浙江大学 一种基于声场和场纹的语音欺骗攻击检测方法
CN112151038B (zh) * 2020-09-10 2022-12-16 达闼机器人股份有限公司 语音重放攻击检测方法、装置、可读存储介质及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928991B (zh) * 2006-07-20 2012-07-11 中山大学 一种抗同步攻击的音频水印处理方法
CN101115124B (zh) * 2006-07-26 2012-04-18 日电(中国)有限公司 基于音频水印识别媒体节目的方法和装置
CN106297772B (zh) * 2016-08-24 2019-06-25 武汉大学 基于扬声器引入的语音信号失真特性的回放攻击检测方法
CN106531172B (zh) * 2016-11-23 2019-06-14 湖北大学 基于环境噪声变化检测的说话人语音回放鉴别方法及***
CN109448759A (zh) * 2018-12-28 2019-03-08 武汉大学 一种基于气爆音的抗语音认证欺骗攻击检测方法

Also Published As

Publication number Publication date
CN110211606A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
Nassi et al. Lamphone: Real-time passive sound recovery from light bulb vibrations
Malik Acoustic environment identification and its applications to audio forensics
US20210256971A1 (en) Detection of replay attack
CN106664486B (zh) 用于风噪声检测的方法和装置
US20120290297A1 (en) Speaker Liveness Detection
CN102246541A (zh) 原位堵耳效应测量的***、方法和助听器
CN110211606B (zh) 一种语音认证***的重放攻击检测方法
Shang et al. Voice liveness detection for voice assistants using ear canal pressure
Khaddour et al. A novel combined system of direction estimation and sound zooming of multiple speakers
Ganguly et al. Real-time Smartphone implementation of noise-robust Speech source localization algorithm for hearing aid users
JP2000148184A (ja) 音声認識装置
Shang et al. Srvoice: A robust sparse representation-based liveness detection system
CN110718229A (zh) 录音回放攻击的检测方法及对应检测模型的训练方法
Peer et al. Reverberation matching for speaker recognition
Anand et al. Coresident evil: Noisy vibrational pairing in the face of co-located acoustic eavesdropping
You et al. Device Feature Extractor for Replay Spoofing Detection.
JP2015125184A (ja) 音声信号処理装置及びプログラム
CN111161753B (zh) 基于智能终端的安全语音交互方法及***
Li et al. Enrollment-stage backdoor attacks on speaker recognition systems via adversarial ultrasound
CN115348049B (zh) 一种利用耳机内向麦克风的用户身份认证方法
CN106328159B (zh) 一种音频流的处理方法及装置
CN110996205A (zh) 耳机的控制方法、耳机及可读存储介质
WO2022047606A1 (en) Method and system for authentication and compensation
CN116453537B (zh) 一种提高音频信息传输效果方法及***
Wang et al. Shift to Your Device: Data Augmentation for Device-Independent Speaker Verification Anti-Spoofing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant