CN105933272A - 能够防止录音攻击的声纹认证方法、服务器、终端及*** - Google Patents

能够防止录音攻击的声纹认证方法、服务器、终端及*** Download PDF

Info

Publication number
CN105933272A
CN105933272A CN201511020257.4A CN201511020257A CN105933272A CN 105933272 A CN105933272 A CN 105933272A CN 201511020257 A CN201511020257 A CN 201511020257A CN 105933272 A CN105933272 A CN 105933272A
Authority
CN
China
Prior art keywords
character
user speech
voiceprint
voice
described user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511020257.4A
Other languages
English (en)
Inventor
徐燕军
何朔
尹亚伟
万四爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201511020257.4A priority Critical patent/CN105933272A/zh
Publication of CN105933272A publication Critical patent/CN105933272A/zh
Priority to PCT/CN2016/111714 priority patent/WO2017114307A1/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种能够防止录音攻击的声纹认证方法、服务器、终端及***,声纹认证方法包括:根据一用户的声纹认证请求生成字符组合及字符的发音规则;将所述字符组合及字符的发音规则发送给请求终端;接收所述请求终端根据所述字符组合及字符的发音规则输入的用户语音;根据所述用户语音、所述字符组合及字符的发音规则进行声纹认证;将所述声纹认证结果发送至所述请求终端。本发明能够有效的防止录音攻击。

Description

能够防止录音攻击的声纹认证方法、服务器、终端及***
技术领域
本发明属于声纹识别领域,特别涉及一种能够防止录音攻击的声纹认证方法、服务器、终端及***。
背景技术
声纹同指纹一样,是一种非常重要的能表征人身份的生物特征。相比传统的密码认证等手段,声纹高安全性和便捷性等特点。声纹认证中最常用的攻击手段主要有录音回放攻击、说话人仿冒攻击及伪造认证语音攻击。
其中录音回放攻击是指攻击者通过高保真的录音设备通过各种手段获取用户的语音样本,使用用户的原始录音或者通过裁剪、拼接等手段处理后合成“说话人真音”,然后在认证***采集用户语音时,通过高保真的功放进行回放,从而进行攻击。说话人仿冒攻击是指一些善于默认他人语音的攻击者通过模仿说话人的说话方式以及发音特点来进行攻击。伪造认证语音攻击是指通过合成、转换、拼接等技术手段伪造被攻击者的语音来进行攻击。
说话人仿冒攻击需要攻击者具有很好的模仿能力,伪造认证语音攻击也往往需要较高的专业技能,这两种攻击本身攻击难道就高,另外无论是模仿音还是伪造音,终究不是真实音,现有的声纹识别技术基本能够应对这两类攻击。
录音回放攻击是声纹识别中面临的非常重要的问题,攻击者获取声音后通过软件合成来进行攻击。录音攻击有两种情况,一种是用户在其他情况下说话声音被窃取来进行攻击;另一种是用户在进行声纹识别时,通过恶意软件录取用户的声音进行攻击。
针对录音攻击,现有技术中,主要有如下两种解决方法:
第一种方案是通过分析录音和原始语音之间在信道特征模式上差异来分辨出是否是录音内容;第二种方案是在验证说话人的声纹的同时,也验证说话人的说话内容,因为录音攻击者并不知道本次的说话内容。
但是,方案一对声音信号质量、信噪比、通道质量等要求很高,在实际应用中取得的效果并不是很好。
方案二中如果每次随机的让用户读写大段文字,用户体验较差,如果减少用户的语音输入,比如专利(申请号:201310123555.0;发明名称:基于动态密码语音的身份确认***及方法),从26个英文字母以及10个数字中挑选组合,每次随机组合生产动态密码后,让用户通过语音进行输入,由于事先并不知道每次生产的动态密码,所以可以抵抗简单的录音攻击,是一种较好的解决办法。但是由于该专利只在26个英文字母和10个数字中共36个字符随机组合,如果攻击者通过录音分隔的方式,分隔出这36个字符,那么无论得到何种随机字符串,攻击者只需要简单的通过36个字符中进行拼接进行攻击。
发明内容
本发明提供一种具有防止录音攻击功能的声纹认证方法、服务器及终端,用于解决现有技术中防止录音攻击方法存在漏洞,不能有效的防止录音攻击的缺陷。
为了解决上述技术问题,本发明提供一种能够防止录音攻击的声纹认证方法,
根据一用户的声纹认证请求生成字符组合及字符的发音规则;
将所述字符组合及字符的发音规则发送给请求终端;
接收所述请求终端根据所述字符组合及字符的发音规则输入的用户语音;
根据所述用户语音、所述字符组合及字符的发音规则进行声纹认证;;
将所述声纹认证结果发送至所述请求终端。
本发明另提供一种能够防止录音攻击的声纹认证方法,
发送一用户的声纹认证请求至服务器;
接收并显示所述服务器发送的字符组合及字符的发音规则;
接收用户根据所述字符组合及字符的发音规则输入的用户语音;
将所述用户语音发送至所述服务器;
接收所述服务器发送的声纹认证结果。
本发明另提供一种能够防止录音的声纹认证服务器,
生成单元,用于根据一用户的请求生成字符组合及字符的发音规则;
发送单元,用于将所述字符组合及字符的发音规则发送给请求终端,将声纹认证结果发送至所述请求终端;
接收单元,用于接收所述请求终端根据所述字符组合及字符的发音规则输入的用户语音;
声音检测单元,用于根据所述用户语音、所述字符组合及字符的发音规则进行声纹认证;
本发明又提供一种能够防止录音攻击的声纹认证终端,
请求单元,用于发送一用户的声纹认证请求至服务器;
接收单元,用于接收并显示所述服务器发送的字符组合及字符的发音规则,接收所述服务器发送的声纹认证结果;
录入单元,用于接收用户根据所述字符组合及字符的发音规则输入的用户语音;
发送单元,用于将所述用户语音发送至所述服务器。
本发明再提供一种能够防止录音攻击的声纹认证***,该***包括服务器及请求终端,其中,所述服务器用于根据一用户的声纹认证请求生成字符组合及字符的发音规则;将所述字符组合及字符的发音规则发送给请求终端;接收所述请求终端根据所述字符组合及字符的发音规则输入的用户语音;根据所述用户语音、所述字符组合及字符的发音规则进行声纹认证;将所述声纹认证结果发送至所述请求终端;
所述请求终端用于发送一用户的声纹认证请求至服务器;接收并显示所述服务器发送的字符组合及字符的发音规则;接收用户根据所述字符组合及字符的发音规则输入的用户语音;将所述用户语音发送至所述服务器;接收所述服务器发送的声纹认证结果。
本发明提出的能够防止录音攻击的声纹认证方法、服务器、终端及***,通过验证用户语音中的字符和发音方式与服务器生成的字符组合及字符的发音规则是否一致,能够有效的防止录音攻击,攻击者即使能通过其他渠道获取到的用户语音满足语音内容,也无法满足发音方式的要求。进一步的,为了防止用户重复输入的用户语音受到录音攻击,判断出用户语音中的字符和发音方式与服务器生成的字符组合及字符的发音规则一致后,还判断当前待验证的语音与历史语音库中该用户的语音是否一致,如果一致则说明存在录音攻击。本发明可以有效的防止声纹认证中的录音攻击。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例的能够防止录音攻击的声纹认证方法流程图;
图2为本发明一实施例的能够防止录音攻击的声纹认证过程流程图;
图3为本发明一实施例的能够防止录音攻击的声纹认证过程流程图;
图4为本发明一实施例的数字“0”的发音对应的波形图;
图5为本发明一实施例的能够防止录音攻击的声纹认证方法流程图;
图6为本发明一实施例的能够防止录音攻击的声纹认证服务器;
图7为本发明一实施例的能够防止录音攻击的声纹认证终端;
图8为本发明一实施例的能够防止录音攻击的声纹认证***;
图9为本发明一实施例的具有防止录音攻击功能的声纹认证方法流程图。
具体实施方式
为了使本发明的技术特点及效果更加明显,下面结合附图对本发明的技术方案做进一步说明,本发明也可有其他不同的具体实例来加以说明或实施,任何本领域技术人员在权利要求范围内做的等同变换均属于本发明的保护范畴。
如图1所示,图1为本发明一实施例的能够防止录音攻击的声纹认证方法流程图。
本实施例是从服务器侧描述的声纹认证方法,根据终端反馈的用户语音、服务器生成的字符组合及字符的发音规则进行声纹认证,本实施例能够一定程度上防止录音攻击。
具体的,能够防止录音攻击的声纹认证方法包括如下步骤:
步骤101:根据一用户的声纹认证请求生成字符组合及字符的发音规则;
字符组合包括但不限于字母、数字、汉字等,字符的发音规则包括但不限于发音的音调、发音的长度等,一实施例中,字符组合中的每个字符对应一个发音规则,另一实施例中,字符组合中的两个字符对应一个发音规则,本发明对字符组合及字符组合中的字符的发音规则的具体形式不做限制。
本申请一实施例中,所述字符组合及字符的发音规则是随机生成的。
步骤102:将字符组合及字符的发音规则发送给请求终端;
本发明所述的终端包括但不限于手机、PAD、电脑及笔记本。
步骤103:接收所述请求终端根据所述字符组合及字符的发音规则输入的用户语音;
步骤104:根据所述用户语音、所述字符组合及字符的发音规则进行声纹认证;
步骤105:将所述声纹认证结果发送至所述请求终端。
本实施例中,即使攻击者能够获取语音字符信息,也无法获取字符的发音规则,通过加入发音规则的认证,能够有效的防止录音攻击。
详细的说,步骤104进一步包括:
判断所述用户语音与所述用户历史输入的语音是否为同一人的声音;
判断所述用户语音中的字符与所述字符组合中的字符是否相同;
判断所述用户语音中的字符的发音方式与所述字符的发音规则是否匹配;
只有所述用户语音与所述用户历史输入的语音为同一人、所述用户语音中的字符与所述字符组合中的字符相同且所述用户语音中的字符的发音方式与所述字符的发音规则匹配同时满足时,声纹认证才通过,其他情况声纹认证不通过,即若所述用户语音与所述用户历史输入的语音不为同一人,和/或所述用户语音中的字符与所述字符组合中的字符不同,和/或所述用户语音中的字符的发音方式与所述字符的发音规则不匹配,则声纹认证不通过。
本发明并不限制上述判断过程的顺序,任何顺序的组合均能实现声纹认证的判断。
优选的,如图2所示,步骤104进一步包括:
步骤201:先判断所述用户语音与所述用户历史输入的语音是否为同一人的声音;如果不为同一人的声音,则声纹认证不通过,如果为同一人的声音,继续步骤202;
具体实施时,在进行步骤202之前,需先按照字符分隔客户端上送的用户语音,然后提取用户语音中的字符。
步骤202:判断所述用户语音中的字符与所述字符组合中的字符是否相同;
如果所述用户语音中的字符与所述字符组合中的字符不同,则声纹认证不通过即声纹认证失败;
如果所述用户语音中的字符与所述字符组合中的字符相同,则继续步骤203;
步骤203:判断所述用户语音中的字符的发音方式与所述字符的发音规则是否匹配;
如果所述用户语音中的字符的发音方式与所述字符的发音规则不匹配,则声纹认证不通过;
如果所述用户语音中的字符的发音方式与所述字符的发音规则匹配,则声纹认证通过。
按照本实施例所述的顺序进行声纹认证能够加快认证的速度,预防录音攻击的同时提高用户的体验效果。如下实施例中,如不做特殊说明,均按照本实施例所述的顺序进行声纹认证。
复请参阅图2,判断出所述用户语音与所述用户历史输入的语音为同一人、所述用户语音中的字符与所述字符组合中的字符相同且所述用户语音中的字符的发音方式与所述字符的发音规则匹配后还包括将用户语音存储至历史语音库中,便于后续调取用户输入的语音信息。
如图3所示,本申请一实施例中,判断出所述用户语音与所述用户历史输入的语音为同一人、所述用户语音中的字符与所述字符组合中的字符相同且所述用户语音中的字符的发音方式与所述字符的发音规则匹配后还包括:
步骤204:判断所述用户语音与所述用户在历史语音库中的语音是否一致;
如果所述用户语音与所述用户在历史语音库中的语音一致,则声纹认证不通过;
如果所述用户语音与所述用户在历史语音库中的语音不一致,则声纹认证通过,将所述用户语音存储至历史语音库中。
通过验证用户语音与历史语音库中的该用户的语音是否一致,能够防止同一用户的不同次语音认证中输入的相同用户语音出现录音攻击。
本发明一实施例中,上一实施例的步骤204进一步包括:
提取所述用户语音的特征参数;
计算所述用户语音的特征参数与所述用户在历史数据库中的语音的特征参数的欧几里德距离,所述欧几里德距离小于预定阈值时,所述用户语音与所述用户在历史语音库中的语音一致,所述欧几里德距离大于预定阈值时,所述用户语音与所述用户在历史语音库中的语音不一致。
本实施例所述的预定阈值可根据人发出同样声音的差异性确定。
具体实施时,判断用户语音与所述用户在历史语音库中的语音是否一致的详细过程为:
1)按字符将用户语音分为多段语音,对每段语音进行预处理,包括分帧、预加重、加窗等处理,得到可以进一步计算的一段声音。
2)找到每段语音中的有效语音部分的起点和终点。
如图4所示,图4为数字“0”的发音对应的波形图,由图4可以看出在声音的前后都有很多的无音段或者细微的噪声段。如果不去掉这些无效的声音信号,攻击者可以在录音的无效的声音端进行处理而影响录音检测的效果。
具体实施时,可通过短时能量和短时过零率判断语音有效部分的起点和终点。
其中短时能量是指一帧语音信号的强度之和,第n帧语音信号的短时能量En:
E n = Σ m = 0 N - 1 | x n ( m ) |
其中,m为第n帧第m个采样点,N为该帧的大小,xn(m)为第n帧第m个采样点归一化后的频率。
短时过零率是指在一帧语音信号波形穿过横轴的次数,记为Zn
Z n = 1 2 Σ m = 0 N - 1 | s g n [ x n ( m ) ] - s g n [ x n ( m - 1 ) ] |
其中,m为第n帧第m个采样点,N为该帧的大小,xn(m)为第n帧第m个采样点归一化后的频率。
当短时能量En超过阀值E或者短时过零率Zn超过阀值Z时,该语音为有效语音的开始,当短时能量En低于阀值E或者短时过零率Zn低于阀值Z时,该语音为有效语音的结束。
3)采用Mel尺度倒谱系数(MFCC)对有效语音提取特征参数。该方法是目前声音处理中比较通用的特征参数提取办法,本发明此处不再赘述。
记录用户本次经过前三步预处理、分割掉语音无效部分和提取特征参数后,用户的某个字符的语音表示为T:
T有N帧矢量{T(1),T(2),…T(n),…,T(N)},T(n)是第n帧的语音特征矢量。
对于历史库中该用户的字符发音进行同样预处理、分割掉语音无效部分和提取特征参数后记为R:
R有M帧矢量R={R(1),R(2),…R(m),…,R(M)},R(m)为第m帧的语音特征矢量。
4)计算用户声音与历史语音库中存储的声音的相似性,即为计算T与R的相似性,该相似性判断可通过计算T和R的欧几里得距离。
d(T(in),R(im))表示T中第in帧特征与R中im帧特征之间的欧几里德距离,如果两个波形在某个帧完全重合,则距离d为0。为了比较它们之间的相似度,可以计算它们之间的距离D[T,R],距离越小则相似度越高。
若N=M,即两段语音长度相同,直接简单计算用户语音与历史语音库中存储的语音的欧几里得距离D[T,R]=d(1,1)+d(2,2)+…+d(N,N),如果两端语音完全一样,则D[T,R]=0,通过这种方式只可以判断T和R是否完全相同,但是录音攻击者在实际攻击中往往会采取对原始录音在部分位置进行拉伸、缩短或者删除等操作,所以如果简单计算两者距离并不能很好的防御此类攻击。
对于N和M不相同时,要考虑将T(n)和R(m)对齐。对齐可以采用线性扩张的方法,如果N<M可以将T线性映射为一个M帧的序列,再计算它与{R(1),R(2),……,R(M)}之间的距离。但是攻击者不会对整段声音进行处理,而往往只对声音的部分位置进行处理,如果采取此方法会识别出二者声音相似度很低。
因此比较语音T和R的相似度需要将时间规则和距离测量结合起来,通过寻找函数im=Φ(in),将T的时间轴n非线性地映射到R的时间轴m上,并使该T与R的距离D[T,R]满足:
D &lsqb; T , R &rsqb; = m i n &Phi; ( i n ) &Sigma; i n = 1 N d ( T ( i n ) , R ( &Phi; ( i n ) ) )
其中:
&Phi; ( 1 ) = 1 &Phi; ( N ) = M
Φ(in+1)≥Φ(in)
Φ(in+1)-Φ(in)≤1
可以看出很明显满足动态规划的条件,可以使用动态规划算法进行求解,其中动态规划多项式为:
D(in,im)=d(T(in),R(im))+min{D(in-1,im),D(in-1,im-1),D(in-1,im-2)}
这样从(l,1)点出发(令D(1,1)=0)搜索,反复递推,直到(N,M)就可以得到最优路径,而且D(N,M)就是最佳匹配路径所对应的匹配距离。
由于每个人的发言由多种因素影响,任何人重复发相同字符的声音在声波上不可能完全相似,肯定存在差异性,定义这个差异性为判断的预定阀值。如果D(N,M)=0,则说明两端语音T和R完全一致,可以证明为语音T和R为一个声音,可能存在录音攻击;如果D(N,M)<阀值,则说明两端语音T和R相似程度很高,同样可能存在录音攻击;如果D(N,M)>=阀值,则说明T和R不是同一语音,不存在录音攻击。
本发明提出的能够防止录音攻击的声纹认证方法,通过验证用户语音中的字符和发音方式与服务器生成的字符组合及字符的发音规则是否一致,能够有效的防止录音攻击,攻击者即使能通过其他渠道获取到的用户语音满足语音内容,也无法满足发音方式的要求。进一步的,为了防止用户重复输入的用户语音受到录音攻击,判断出用户语音中的字符和发音方式与服务器生成的字符组合及字符的发音规则一致后,还判断当前待验证的语音与历史语音库中该用户的语音是否一致,如果一致则说明存在录音攻击。本发明可以有效的防止声纹认证中的录音攻击。
如图5所示,图5为本发明一实施例的能够防止录音攻击的声纹认证方法流程图。该方法是从请求终端侧进行的描述,具体的,声纹认证方法包括:
步骤501:发送一用户的声纹认证请求至服务器;
步骤502:接收并显示所述服务器发送的字符组合及字符的发音规则;
步骤503:接收用户根据所述字符组合及字符的发音规则输入的用户语音;
步骤504:将所述用户语音发送至所述服务器;
步骤505:接收所述服务器发送的声纹认证结果。
如图6所示,图6为本发明一实施例的一种能够防止录音攻击的声纹认证服务器,该服务器600包括,生成单元601,用于根据一用户的请求生成字符组合及字符的发音规则;
发送单元602,用于将所述字符组合及字符的发音规则发送给请求终端,将声纹认证结果发送至所述请求终端;
接收单元603,用于接收所述请求终端根据所述字符组合及字符的发音规则输入的用户语音;
声音检测单元604,用于根据所述用户语音、所述字符组合及字符的发音规则进行声纹认证。
如图7所示,图7为本发明一实施例的能够防止录音攻击的声纹认证终端。具体的,该认证终端700包括:请求单元701,用于发送一用户的声纹认证请求至服务器;
接收单元702,用于接收并显示所述服务器发送的字符组合及字符的发音规则,接收所述服务器发送的声纹认证结果;
录入单元703,用于接收用户根据所述字符组合及字符的发音规则输入的用户语音;
发送单元704,用于将所述用户语音发送至所述服务器。
如图8所示,图8为本发明一实施例的能够防止录音攻击的声纹认证***。
该声纹认证***包括服务器600及请求终端700,其中,所述服务器600用于根据一用户的声纹认证请求生成字符组合及字符的发音规则;将所述字符组合及字符的发音规则发送给请求终端;接收所述请求终端根据所述字符组合及字符的发音规则输入的用户语音;根据所述用户语音、所述字符组合及字符的发音规则进行声纹认证;将所述声纹认证结果发送至所述请求终端;
所述请求终端700用于发送一用户的声纹认证请求至服务器;接收并显示所述服务器发送的字符组合及字符的发音规则;接收用户根据所述字符组合及字符的发音规则输入的用户语音;将所述用户语音发送至所述服务器;接收所述服务器发送的声纹认证结果。
本发明提出的能够防止录音攻击的声纹认证方法、服务器、终端及***,通过验证用户语音中的字符和发音方式与服务器生成的字符组合及字符的发音规则是否一致,能够有效的防止录音攻击,攻击者即使能通过其他渠道获取到的用户语音满足语音内容,也无法满足发音方式的要求。进一步的,为了防止用户重复输入的用户语音受到录音攻击,判断出用户语音中的字符和发音方式与服务器生成的字符组合及字符的发音规则一致后,还判断当前待验证的语音与历史语音库中该用户的语音是否一致,如果一致则说明存在录音攻击。本发明可以有效的防止声纹认证中的录音攻击。
为了更清楚的说明本申请的技术方案,下面以一具体实施例进行说明,结合图9所示,防止录音攻击的***工作流程为:
步骤901:客户端发送身份认证请求至服务器;
步骤902:服务器接收身份认证请求;
步骤903:服务器根据身份认证请求随机生成验证字符组合以及字符的发音方式,并将其发送给客户端;
步骤904:客户端接收到服务器下发的待验证字符组合及字符的发音规则后,提示用户按要求读入字符;
步骤905:客户端接收用户读入的用户语音,并将用户读入的用户语音发送至服务器;
步骤906:服务器进行声纹验证,判断接收的用户语音与预先存储的该用户的语音是否为同一人,具体实施时可采用目前常规的声纹验证算法;
如果声纹验证不是同一个人,则直接返回用户认证失败给客户端;
如果声纹验证为同一人,则继续录音检测;
步骤907:验证用户声音中的字符与服务器生成的字符组合中的字符是否相同;如果用户声音中的字符与服务器生成的字符组合中的字符不相同,则用户声音中的字符验证不通过,返回用户认证失败给客户端;如果用户声音中的字符与服务器生成的字符组合中的字符相同,则用户声音中的字符验证通过,继续步骤908;
步骤908:验证用户声音中的字符的发音方式与服务器生成的字符发音方式是否相同,如果用户声音中的字符的发音方式与服务器生成的字符发音方式不相同,则用户声音中的字符发音方式验证不通过,返回用户认证失败给客户端;如果用户声音中的字符的发音方式与服务器生成的字符发音方式相同,则用户声音中的字符发音方式验证通过,继续步骤909;
步骤909:验证用户声音是否存在于历史语音库中,如果存在,则证明存在录音攻击,认证失败,将认证失败结果发送给客户端;如果不存在,则声纹认证通过,将用户声音存储于历史语音库中,将声纹认证通过结果发送给客户端。
验证用户声音是否存在于历史语音库中的过程已在上述实施例中进行了详细的说明,此处不再赘述。声纹认证通过后,客户端继续相应的操作,本发明对此不做限制。
本发明提出的能够防止录音攻击的声纹认证方法、服务器、终端及***,通过验证用户语音中的字符和发音方式与服务器生成的字符组合及字符的发音规则是否一致,能够有效的防止录音攻击,攻击者即使能通过其他渠道获取到的用户语音满足语音内容,也无法满足发音方式的要求。进一步的,为了防止用户重复输入的用户语音受到录音攻击,判断出用户语音中的字符和发音方式与服务器生成的字符组合及字符的发音规则一致后,还判断当前待验证的语音与历史语音库中该用户的语音是否一致,如果一致则说明存在录音攻击。本发明可以有效的防止声纹认证中的录音攻击。
以上所述仅用于说明本申请技术方案,任何本领域普通技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围应视权利要求范围为准。

Claims (11)

1.一种能够防止录音攻击的声纹认证方法,其特征在于,包括,
根据一用户的声纹认证请求生成字符组合及字符的发音规则;
将所述字符组合及字符的发音规则发送给请求终端;
接收所述请求终端根据所述字符组合及字符的发音规则输入的用户语音;
根据所述用户语音、所述字符组合及字符的发音规则进行声纹认证;将所述声纹认证结果发送至所述请求终端。
2.如权利要求1所述的能够防止录音攻击的声纹认证方法,其特征在于,根据所述用户语音、所述字符组合及字符的发音规则进行声纹认证进一步包括,
判断所述用户语音与所述用户历史输入的语音是否为同一人的声音;
判断所述用户语音中的字符与所述字符组合中的字符是否相同;
判断所述用户语音中的字符的发音方式与所述字符的发音规则是否匹配;
只有所述用户语音与所述用户历史输入的语音为同一人、所述用户语音中的字符与所述字符组合中的字符相同且所述用户语音中的字符的发音方式与所述字符的发音规则匹配时,声纹认证才通过,其他情况声纹认证不通过。
3.如权利要求2所述的能够防止录音攻击的声纹认证方法,其特征在于,判断出所述用户语音与所述用户历史输入的语音为同一人、所述用户语音中的字符与所述字符组合中的字符相同且所述用户语音中的字符的发音方式与所述字符的发音规则匹配后还包括,
将所述用户语音存储至历史语音库中。
4.如权利要求2所述的能够防止录音攻击的声纹认证方法,其特征在于,判断出所述用户语音与所述用户历史输入的语音为同一人、所述用户语音中的字符与所述字符组合中的字符相同且所述用户语音中的字符的发音方式与所述字符的发音规则匹配后还包括,
判断所述用户语音与所述用户在历史语音库中的语音是否一致;
如果所述用户语音与所述用户在历史语音库中的语音一致,则声纹认证不通过;
如果所述用户语音与所述用户在历史语音库中的语音不一致,则声纹认证通过,将所述用户语音存储至历史语音库中。
5.如权利要求4所述的能够防止录音攻击的声纹认证方法,其特征在于,判断所述用户语音与所述用户在历史语音库中的语音是否一致进一步包括,
提取所述用户语音的特征参数;
计算所述用户语音的特征参数与所述用户在历史数据库中的语音的特征参数的欧几里德距离,所述欧几里德距离小于预定阈值时,所述用户语音与所述用户在历史语音库中的语音一致,所述欧几里德距离大于预定阈值时,所述用户语音与所述用户在历史语音库中的语音不一致。
6.如权利要求5所述的能够防止录音攻击的声纹认证方法,其特征在于,提取所述用户语音的特征参数进一步包括,
对所述用户语音进行预处理,将所述用户语音按字符划分为多段语音;
找到每段语音中的有效语音部分的起点和终点;
提取有效语音部分的特征参数。
7.如权利要求1所述的能够防止录音攻击的声纹认证方法,其特征在于,所述字符组合及字符的发音规则是随机生成的。
8.一种能够防止录音攻击的声纹认证方法,其特征在于,包括,
发送一用户的声纹认证请求至服务器;
接收并显示所述服务器发送的字符组合及字符的发音规则;
接收用户根据所述字符组合及字符的发音规则输入的用户语音;
将所述用户语音发送至所述服务器;
接收所述服务器发送的声纹认证结果。
9.一种能够防止录音攻击的声纹认证服务器,其特征在于,包括,
生成单元,用于根据一用户的请求生成字符组合及字符的发音规则;
发送单元,用于将所述字符组合及字符的发音规则发送给请求终端,将声纹认证结果发送至所述请求终端;
接收单元,用于接收所述请求终端根据所述字符组合及字符的发音规则输入的用户语音;
声音检测单元,用于根据所述用户语音、所述字符组合及字符的发音规则进行声纹认证。
10.一种能够防止录音攻击的声纹认证终端,其特征在于,包括,
请求单元,用于发送一用户的声纹认证请求至服务器;
接收单元,用于接收并显示所述服务器发送的字符组合及字符的发音规则,接收所述服务器发送的声纹认证结果;
录入单元,用于接收用户根据所述字符组合及字符的发音规则输入的用户语音;
发送单元,用于将所述用户语音发送至所述服务器。
11.一种能够防止录音攻击的声纹认证***,其特征在于,包括服务器及请求终端,其中,所述服务器用于根据一用户的声纹认证请求生成字符组合及字符的发音规则;将所述字符组合及字符的发音规则发送给请求终端;接收所述请求终端根据所述字符组合及字符的发音规则输入的用户语音;根据所述用户语音、所述字符组合及字符的发音规则进行声纹认证;将所述声纹认证结果发送至所述请求终端;
所述请求终端用于发送一用户的声纹认证请求至服务器;接收并显示所述服务器发送的字符组合及字符的发音规则;接收用户根据所述字符组合及字符的发音规则输入的用户语音;将所述用户语音发送至所述服务器;接收所述服务器发送的声纹认证结果。
CN201511020257.4A 2015-12-30 2015-12-30 能够防止录音攻击的声纹认证方法、服务器、终端及*** Pending CN105933272A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201511020257.4A CN105933272A (zh) 2015-12-30 2015-12-30 能够防止录音攻击的声纹认证方法、服务器、终端及***
PCT/CN2016/111714 WO2017114307A1 (zh) 2015-12-30 2016-12-23 能够防止录音攻击的声纹认证方法、服务器、终端及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511020257.4A CN105933272A (zh) 2015-12-30 2015-12-30 能够防止录音攻击的声纹认证方法、服务器、终端及***

Publications (1)

Publication Number Publication Date
CN105933272A true CN105933272A (zh) 2016-09-07

Family

ID=56839979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511020257.4A Pending CN105933272A (zh) 2015-12-30 2015-12-30 能够防止录音攻击的声纹认证方法、服务器、终端及***

Country Status (2)

Country Link
CN (1) CN105933272A (zh)
WO (1) WO2017114307A1 (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017114307A1 (zh) * 2015-12-30 2017-07-06 ***股份有限公司 能够防止录音攻击的声纹认证方法、服务器、终端及***
CN109087647A (zh) * 2018-08-03 2018-12-25 平安科技(深圳)有限公司 声纹识别处理方法、装置、电子设备及存储介质
CN109218269A (zh) * 2017-07-05 2019-01-15 阿里巴巴集团控股有限公司 身份认证的方法、装置、设备及数据处理方法
CN109935233A (zh) * 2019-01-29 2019-06-25 天津大学 一种基于振幅和相位信息的录音攻击检测方法
CN110169014A (zh) * 2017-01-03 2019-08-23 诺基亚技术有限公司 用于认证的装置、方法和计算机程序产品
CN111316668A (zh) * 2017-11-14 2020-06-19 思睿逻辑国际半导体有限公司 扬声器回放的检测
CN111524528A (zh) * 2020-05-28 2020-08-11 Oppo广东移动通信有限公司 防录音检测的语音唤醒方法及装置
US10984083B2 (en) 2017-07-07 2021-04-20 Cirrus Logic, Inc. Authentication of user using ear biometric data
CN112735426A (zh) * 2020-12-24 2021-04-30 深圳市声扬科技有限公司 语音验证方法及***、计算机设备和存储介质
US11017252B2 (en) 2017-10-13 2021-05-25 Cirrus Logic, Inc. Detection of liveness
US11023755B2 (en) 2017-10-13 2021-06-01 Cirrus Logic, Inc. Detection of liveness
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
CN113012684A (zh) * 2021-03-04 2021-06-22 电子科技大学 一种基于语音分割的合成语音检测方法
US11042618B2 (en) 2017-07-07 2021-06-22 Cirrus Logic, Inc. Methods, apparatus and systems for biometric processes
US11042617B2 (en) 2017-07-07 2021-06-22 Cirrus Logic, Inc. Methods, apparatus and systems for biometric processes
US11042616B2 (en) 2017-06-27 2021-06-22 Cirrus Logic, Inc. Detection of replay attack
US11164588B2 (en) 2017-06-28 2021-11-02 Cirrus Logic, Inc. Magnetic detection of replay attack
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11270707B2 (en) 2017-10-13 2022-03-08 Cirrus Logic, Inc. Analysing speech signals
US11276409B2 (en) 2017-11-14 2022-03-15 Cirrus Logic, Inc. Detection of replay attack
CN114826709A (zh) * 2022-04-15 2022-07-29 马上消费金融股份有限公司 身份认证和声学环境检测方法、***、电子设备及介质
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11631402B2 (en) 2018-07-31 2023-04-18 Cirrus Logic, Inc. Detection of replay attack
US11704397B2 (en) 2017-06-28 2023-07-18 Cirrus Logic, Inc. Detection of replay attack
US11705135B2 (en) 2017-10-13 2023-07-18 Cirrus Logic, Inc. Detection of liveness
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11748462B2 (en) 2018-08-31 2023-09-05 Cirrus Logic Inc. Biometric authentication
US11755701B2 (en) 2017-07-07 2023-09-12 Cirrus Logic Inc. Methods, apparatus and systems for authentication
US11829461B2 (en) 2017-07-07 2023-11-28 Cirrus Logic Inc. Methods, apparatus and systems for audio playback

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754817A (zh) * 2017-11-02 2019-05-14 北京三星通信技术研究有限公司 信号处理方法及终端设备
CN112365895B (zh) * 2020-10-09 2024-04-19 深圳前海微众银行股份有限公司 音频处理方法、装置及计算设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808567A (zh) * 2006-01-26 2006-07-26 覃文华 验证真人在场状态的声纹认证设备和其认证方法
CN102457845A (zh) * 2010-10-14 2012-05-16 阿里巴巴集团控股有限公司 无线业务身份认证方法、设备及***
CN102543084A (zh) * 2010-12-29 2012-07-04 盛乐信息技术(上海)有限公司 在线声纹认证***及其实现方法
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN104717219A (zh) * 2015-03-20 2015-06-17 百度在线网络技术(北京)有限公司 基于人工智能的声纹登录方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9202460B2 (en) * 2008-05-14 2015-12-01 At&T Intellectual Property I, Lp Methods and apparatus to generate a speech recognition library
CN104901808A (zh) * 2015-04-14 2015-09-09 时代亿宝(北京)科技有限公司 基于时间型动态口令的声纹认证***及方法
CN105185379B (zh) * 2015-06-17 2017-08-18 百度在线网络技术(北京)有限公司 声纹认证方法和装置
CN105096121B (zh) * 2015-06-25 2017-07-25 百度在线网络技术(北京)有限公司 声纹认证方法和装置
CN105933272A (zh) * 2015-12-30 2016-09-07 ***股份有限公司 能够防止录音攻击的声纹认证方法、服务器、终端及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808567A (zh) * 2006-01-26 2006-07-26 覃文华 验证真人在场状态的声纹认证设备和其认证方法
CN102457845A (zh) * 2010-10-14 2012-05-16 阿里巴巴集团控股有限公司 无线业务身份认证方法、设备及***
CN102543084A (zh) * 2010-12-29 2012-07-04 盛乐信息技术(上海)有限公司 在线声纹认证***及其实现方法
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN104717219A (zh) * 2015-03-20 2015-06-17 百度在线网络技术(北京)有限公司 基于人工智能的声纹登录方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵力: "《语音信号处理》", 31 May 2009 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017114307A1 (zh) * 2015-12-30 2017-07-06 ***股份有限公司 能够防止录音攻击的声纹认证方法、服务器、终端及***
CN110169014A (zh) * 2017-01-03 2019-08-23 诺基亚技术有限公司 用于认证的装置、方法和计算机程序产品
US11283631B2 (en) 2017-01-03 2022-03-22 Nokia Technologies Oy Apparatus, method and computer program product for authentication
US12026241B2 (en) 2017-06-27 2024-07-02 Cirrus Logic Inc. Detection of replay attack
US11042616B2 (en) 2017-06-27 2021-06-22 Cirrus Logic, Inc. Detection of replay attack
US11164588B2 (en) 2017-06-28 2021-11-02 Cirrus Logic, Inc. Magnetic detection of replay attack
US11704397B2 (en) 2017-06-28 2023-07-18 Cirrus Logic, Inc. Detection of replay attack
CN109218269A (zh) * 2017-07-05 2019-01-15 阿里巴巴集团控股有限公司 身份认证的方法、装置、设备及数据处理方法
US11829461B2 (en) 2017-07-07 2023-11-28 Cirrus Logic Inc. Methods, apparatus and systems for audio playback
US11714888B2 (en) 2017-07-07 2023-08-01 Cirrus Logic Inc. Methods, apparatus and systems for biometric processes
US10984083B2 (en) 2017-07-07 2021-04-20 Cirrus Logic, Inc. Authentication of user using ear biometric data
US11755701B2 (en) 2017-07-07 2023-09-12 Cirrus Logic Inc. Methods, apparatus and systems for authentication
US11042617B2 (en) 2017-07-07 2021-06-22 Cirrus Logic, Inc. Methods, apparatus and systems for biometric processes
US11042618B2 (en) 2017-07-07 2021-06-22 Cirrus Logic, Inc. Methods, apparatus and systems for biometric processes
US11023755B2 (en) 2017-10-13 2021-06-01 Cirrus Logic, Inc. Detection of liveness
US11705135B2 (en) 2017-10-13 2023-07-18 Cirrus Logic, Inc. Detection of liveness
US11017252B2 (en) 2017-10-13 2021-05-25 Cirrus Logic, Inc. Detection of liveness
US11270707B2 (en) 2017-10-13 2022-03-08 Cirrus Logic, Inc. Analysing speech signals
US11051117B2 (en) 2017-11-14 2021-06-29 Cirrus Logic, Inc. Detection of loudspeaker playback
CN111316668B (zh) * 2017-11-14 2021-09-28 思睿逻辑国际半导体有限公司 扬声器回放的检测
CN111316668A (zh) * 2017-11-14 2020-06-19 思睿逻辑国际半导体有限公司 扬声器回放的检测
US11276409B2 (en) 2017-11-14 2022-03-15 Cirrus Logic, Inc. Detection of replay attack
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11694695B2 (en) 2018-01-23 2023-07-04 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11631402B2 (en) 2018-07-31 2023-04-18 Cirrus Logic, Inc. Detection of replay attack
CN109087647A (zh) * 2018-08-03 2018-12-25 平安科技(深圳)有限公司 声纹识别处理方法、装置、电子设备及存储介质
US11748462B2 (en) 2018-08-31 2023-09-05 Cirrus Logic Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
CN109935233A (zh) * 2019-01-29 2019-06-25 天津大学 一种基于振幅和相位信息的录音攻击检测方法
CN111524528A (zh) * 2020-05-28 2020-08-11 Oppo广东移动通信有限公司 防录音检测的语音唤醒方法及装置
CN112735426A (zh) * 2020-12-24 2021-04-30 深圳市声扬科技有限公司 语音验证方法及***、计算机设备和存储介质
CN113012684A (zh) * 2021-03-04 2021-06-22 电子科技大学 一种基于语音分割的合成语音检测方法
CN114826709A (zh) * 2022-04-15 2022-07-29 马上消费金融股份有限公司 身份认证和声学环境检测方法、***、电子设备及介质

Also Published As

Publication number Publication date
WO2017114307A1 (zh) 2017-07-06

Similar Documents

Publication Publication Date Title
CN105933272A (zh) 能够防止录音攻击的声纹认证方法、服务器、终端及***
Yu et al. Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features
CN107104803B (zh) 一种基于数字口令与声纹联合确认的用户身份验证方法
Reynolds An overview of automatic speaker recognition technology
Mukhopadhyay et al. All your voices are belong to us: Stealing voices to fool humans and machines
WO2017215558A1 (zh) 一种声纹识别方法和装置
US9792912B2 (en) Method for verifying the identity of a speaker, system therefore and computer readable medium
US11979398B2 (en) Privacy-preserving voiceprint authentication apparatus and method
Reynolds Automatic speaker recognition: Current approaches and future trends
CN105933323B (zh) 声纹注册、认证方法及装置
WO2017162053A1 (zh) 一种身份认证的方法和装置
CN1808567A (zh) 验证真人在场状态的声纹认证设备和其认证方法
JPWO2005013263A1 (ja) 音声認証システム
Chen et al. Towards understanding and mitigating audio adversarial examples for speaker recognition
CN110459226A (zh) 一种通过声纹引擎检测人声或机器音进行身份核验的方法
CN110379433A (zh) 身份验证的方法、装置、计算机设备及存储介质
Turner et al. Attacking speaker recognition systems with phoneme morphing
CN109273012A (zh) 一种基于说话人识别和数字语音识别的身份认证方法
Yuan et al. Overview of the development of speaker recognition
Al-Shayea et al. Speaker identification: A novel fusion samples approach
Reynolds et al. Automatic speaker recognition
Kuznetsov et al. Methods of countering speech synthesis attacks on voice biometric systems in banking
RU2351023C2 (ru) Способ верификации пользователя в системах санкционирования доступа
CN113012684B (zh) 一种基于语音分割的合成语音检测方法
Mishra et al. Speaker identification, differentiation and verification using deep learning for human machine interface

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160907