CN108630208B

CN108630208B - 服务器、基于声纹的身份验证方法及存储介质

Info

Publication number: CN108630208B
Application number: CN201810456645.4A
Authority: CN
Inventors: 郑斯奇; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2020-10-27
Anticipated expiration: 2038-05-14
Also published as: CN108630208A; WO2019218515A1

Abstract

本发明涉及一种服务器、基于声纹的身份验证方法及存储介质，该方法包括：在接收到身份验证请求后，接收客户端发送来的语音数据；在接收到语音数据后，若当前接收到第N次接收到的语音数据，则将第1次至第N次接收到的语音数据按照时间顺序拼接；若待定的声纹验证语音数据的时长大于第二预设时长，则按照预设的剔除规则对待定的声纹验证语音数据进行剔除，得到第二预设时长的当前的声纹验证语音数据；构建当前的声纹验证语音数据的当前声纹鉴别向量，并确定对应的标准声纹鉴别向量，计算当前声纹鉴别向量与标准声纹鉴别向量之间的距离，基于计算的距离生成身份验证结果。本发明能够提高基于声纹进行身份验证的准确性。

Description

服务器、基于声纹的身份验证方法及存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种服务器、基于声纹的身份验证方法及存储介质。

背景技术

目前，在进行远程声纹验证方案中，声纹采集方式通常是：通话建立后语音采集开始，不断采集整段语音，然后进行声纹特征的提取、验证。这种方式未考虑到前期采集的质量低所对声纹特征提取及验证的影响，并且通话接通后的几秒到十几秒内也是一个通讯建立的过程，这段时间的语音相较于通话中后期的语音质量更低，例如背景音嘈杂、音量低等环境的影响。随着通话时长的增加，若继续考虑这部分录音作为声纹验证的语音数据，将会影响采集的语音的整体质量，从而影响声纹验证的准确性。

发明内容

本发明的目的在于提供一种服务器、基于声纹的身份验证方法及存储介质，旨在提高基于声纹进行身份验证的准确性。

为实现上述目的，本发明提供一种服务器，所述服务器包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的处理***，所述处理***被所述处理器执行时实现如下步骤：

在接收到客户端发送的带有身份标识的身份验证请求后，接收客户端发送来的第一预设时长的语音数据；

在接收到客户端发送来的第一预设时长的语音数据后，若当前接收到第N次接收到的语音数据，则将第1次至第N次接收到的语音数据按照语音采集的时间顺序拼接并形成待定的声纹验证语音数据，其中，N为大于1的正整数；

若待定的声纹验证语音数据的时长大于第二预设时长，则按照预设的剔除规则对待定的声纹验证语音数据进行语音数据剔除，以在语音数据剔除后得到第二预设时长的当前的声纹验证语音数据；

构建当前的声纹验证语音数据的当前声纹鉴别向量，并根据预先确定的身份标识与标准声纹鉴别向量的映射关系，确定该身份标识对应的标准声纹鉴别向量，计算当前声纹鉴别向量与标准声纹鉴别向量之间的距离，基于计算的距离生成身份验证结果。

优选地，所述处理***被所述处理器执行时，还实现如下步骤：

在接收到客户端发送来的第一预设时长的语音数据后，若当前只接收到第1次接收到的语音数据，则将本次接收到的语音数据作为所述当前的声纹验证语音数据，以基于该当前的声纹验证语音数据进行身份验证。

优选地，所述预设的剔除规则包括：

将待定的声纹验证语音数据的时长减去所述第二预设时长，得到剔除时长；

在待定的声纹验证语音数据中，按照该剔除时长的大小将采集时间在前的语音数据进行剔除，以在语音数据剔除后得到第二预设时长的当前的声纹验证语音数据。

若待定的声纹验证语音数据的时长小于等于第二预设时长，则将待定的声纹验证语音数据作为所述当前的声纹验证语音数据，以基于该当前的声纹验证语音数据进行身份验证。

为实现上述目的，本发明还提供一种基于声纹的身份验证方法，所述基于声纹的身份验证方法包括：

S1，在接收到客户端发送的带有身份标识的身份验证请求后，接收客户端发送来的第一预设时长的语音数据；

S2，在接收到客户端发送来的第一预设时长的语音数据后，若当前接收到第N次接收到的语音数据，则将第1次至第N次接收到的语音数据按照语音采集的时间顺序拼接并形成待定的声纹验证语音数据，其中，N为大于1的正整数；

S3，若待定的声纹验证语音数据的时长大于第二预设时长，则按照预设的剔除规则对待定的声纹验证语音数据进行语音数据剔除，以在语音数据剔除后得到第二预设时长的当前的声纹验证语音数据；

S4，构建当前的声纹验证语音数据的当前声纹鉴别向量，并根据预先确定的身份标识与标准声纹鉴别向量的映射关系，确定该身份标识对应的标准声纹鉴别向量，计算当前声纹鉴别向量与标准声纹鉴别向量之间的距离，基于计算的距离生成身份验证结果。

优选地，所述步骤S1之后，还包括：

优选地，所述预设的剔除规则包括：

优选地，所述步骤S2之后，还包括：

优选地，所述构建当前的声纹验证语音数据的当前声纹鉴别向量的步骤包括：

对当前的声纹验证语音数据进行处理，以提取预设类型声纹特征，并基于该预设类型声纹特征构建对应的声纹特征向量；

将该声纹特征向量输入预先训练的背景信道模型中，以构建该当前声纹验证语音数据对应的当前声纹鉴别向量；

所述计算当前声纹鉴别向量与标准声纹鉴别向量之间的距离，基于计算的距离生成身份验证结果的步骤包括：

计算该当前声纹鉴别向量与标准声纹鉴别向量之间的余弦距离：

为所述标准声纹鉴别向量，

为当前声纹鉴别向量；

若所述余弦距离小于或者等于预设的距离阈值，则生成身份验证通过的信息；

若所述余弦距离大于预设的距离阈值，则生成身份验证不通过的信息。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有处理***，所述处理***被处理器执行时实现上述的基于声纹的身份验证方法的步骤。

本发明的有益效果是：本发明在接收到客户端发送来的语音数据的过程中，如果当前多次接收到客户端采集的语音数据，则可将这些语音数据按照采集时间的先后顺序拼接，如果拼接后的语音数据的时长大于第二预设时长，则可以将拼接后的语音数据中采集时间在前的部分语音数据进行剔除，以便将前面影响语音的整体质量的语音数据剔除掉，提高基于声纹进行身份验证的准确性。

附图说明

图1为本发明各个实施例一可选的应用环境示意图；

图2为本发明基于声纹的身份验证方法第一实施例的流程示意图；

图3为本发明基于声纹的身份验证方法第二实施例的流程示意图；

图4为本发明基于声纹的身份验证方法第三实施例的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参阅图1所示，是本发明基于声纹的身份验证方法的较佳实施例的应用环境示意图。该应用环境示意图包括服务器上1、终端设备2。服务器上1可以通过网络、近场通信技术等适合的技术与终端设备2进行数据交互。

所述终端设备2包括，但不限于，任何一种可与用户通过键盘、鼠标、遥控器、触摸板或者声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(InternetProtocol Television,IPTV)、智能式穿戴式设备、导航装置等等的可移动设备，或者诸如数字TV、台式计算机、笔记本、服务器等等的固定终端。

所述服务器上1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述服务器上1可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中，服务器上1可包括，但不仅限于，可通过***总线相互通信连接的存储器11、处理器12、网络接口13，存储器11存储有可在处理器12上运行的处理***。需要指出的是，图1仅示出了具有组件11-13的服务器上1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，存储器11包括内存及至少一种类型的可读存储介质。内存为服务器上1的运行提供缓存；可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中，可读存储介质可以是服务器上1的内部存储单元，例如该服务器上1的硬盘；在另一些实施例中，该非易失性存储介质也可以是服务器上1的外部存储设备，例如服务器上1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。本实施例中，存储器11的可读存储介质通常用于存储安装于服务器上1的操作***和各类应用软件，例如存储本发明一实施例中的处理***的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器上1的总体操作，例如执行与所述客户端计算机2、手持终端3进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行处理***等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述服务器上1与其他电子设备之间建立通信连接。本实施例中，网络接口13主要用于将服务器上1与终端设备2相连，在服务器上1与终端设备2之间建立数据传输通道和通信连接。

所述处理***存储在存储器11中，包括至少一个存储在存储器11中的计算机可读指令，该至少一个计算机可读指令可被处理器器12执行，以实现本申请各实施例的方法；以及，该至少一个计算机可读指令依据其各部分所实现的功能不同，可被划为不同的逻辑模块。

在一实施例中，上述处理***被所述处理器12执行时实现如下步骤：

本实施例中，客户端安装在手机、平板电脑、个人计算机等终端设备中，其基于声纹向服务器请求进行身份验证。客户端按照预定的时间间隔采集用户的语音数据，例如每隔2秒采集一次用户的语音数据。终端设备通过麦克风等语音采集设备实时采集得到用户的语音数据。在采集语音数据时，应尽量防止环境噪声和终端设备的干扰。终端设备与用户保持适当距离，且尽量不用失真大的终端设备，电源优选使用市电，并保持电流稳定；在进行录音时应使用传感器。

客户端每采集第一预设时长的语音数据后，即将该第一预设时长的语音数据发送给服务器。优选地，第一预设时长为6秒。

在一实施例中，在接收到客户端发送来的第一预设时长的语音数据后，如果当前多次接收到用户的语音数据，例如，接收到2次或2次以上的语音数据，说明用户说话较多，客户端能够采集到较多的语音数据，这时，将第1次至第N次接收到的语音数据按照语音采集的时间先后顺序进行拼接，得到待定的声纹验证语音数据。其中，客户端每次采集语音数据时，该语音数据中标识了采集的起始时间及结束时间。

在另一实施例中，在接收到客户端发送来的第一预设时长的语音数据后，如果当前只接收到第1次接收到的语音数据，说明用户说话较少，客户端仅能采集到较短时长的语音数据，后续无法再采集到用户的语音数据，这时，为了能够对用户进行身份验证，提高身份验证的灵活性，可以直接将本次接收到的语音数据作为后续的当前的声纹验证语音数据，以基于该当前的声纹验证语音数据进行身份验证。

其中，第二预设时长例如为12秒。提供第二预设时长的语音数据，能够较准确地分析语音数据，实现对用户的身份的准确验证。

在一实施例中，如果待定的声纹验证语音数据的时长大于第二预设时长，则可以对待定的声纹验证语音数据进行剔除，以将影响语音的整体质量的部分语音数据进行剔除掉。

优选地，预设的剔除规则包括：将待定的声纹验证语音数据的时长减去所述第二预设时长，得到剔除时长；在待定的声纹验证语音数据中，按照该剔除时长的大小将采集时间在前的语音数据进行剔除，以在语音数据剔除后得到第二预设时长的当前的声纹验证语音数据。

在另一实施例中，如果待定的声纹验证语音数据的时长大于第二预设时长，为了提高身份验证的灵活性，仍然使用该待定的声纹验证语音数据对用户进行身份验证，将该待定的声纹验证语音数据作为后续的当前的声纹验证语音数据，以基于该当前的声纹验证语音数据进行身份验证。

为了有效减少声纹识别的计算量，提高声纹识别的速度，在一实施例中，上述构建当前的声纹验证语音数据的当前声纹鉴别向量的步骤，具体包括：对当前的声纹验证语音数据进行处理，以提取预设类型声纹特征，并基于该预设类型声纹特征构建对应的声纹特征向量；将该声纹特征向量输入预先训练的背景信道模型中，以构建该当前的声纹验证语音数据对应的当前声纹鉴别向量。

其中，声纹特征包括多种类型，例如宽带声纹、窄带声纹、振幅声纹等，本实施例预设类型声纹特征优选为当前的声纹验证语音数据的梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient，MFCC)，预设滤波器为梅尔滤波器。在构建对应的声纹特征向量时，将当前的声纹验证语音数据的声纹特征组成特征数据矩阵，该特征数据矩阵即为对应的声纹特征向量。

具体地，对当前的声纹验证语音数据进行预加重及加窗处理，对每一个加窗进行傅立叶变换得到对应的频谱，将所述频谱输入梅尔滤波器以输出得到梅尔频谱；在梅尔频谱上进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成对应的声纹特征向量。

其中，预加重处理实际是高通滤波处理，滤除低频数据，使得当前的声纹验证语音数据中的高频特性更加突显，具体地，高通滤波的传递函数为：H(Z)＝1-αZ^-1，其中，Z为语音数据，α为常量系数，优选地，α的取值为0.97；由于语音数据在分帧之后在一定程度上背离原始语音，因此，需要对语音数据进行加窗处理。在梅尔频谱上进行倒谱分析例如为取对数、做逆变换，逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为梅尔频率倒谱系数MFCC。梅尔频率倒谱系数MFCC即为这帧语音数据的声纹特征，将每帧的梅尔频率倒谱系数MFCC组成特征数据矩阵，该特征数据矩阵即为声纹特征向量。

本实施例取语音数据的梅尔频率倒谱系数MFCC组成对应的声纹特征向量，由于其比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉***，因此能够提高身份验证的准确性。

然后，将上述声纹特征向量输入预先训练的背景信道模型，以构建出当前的声纹验证语音数据对应的当前声纹鉴别向量，例如，利用预先训练的背景信道模型来计算当前的声纹验证语音数据对应的特征矩阵，以确定出当前的声纹验证语音数据对应的当前声纹鉴别向量。

为了高效率、高质量地构建出当前的声纹验证语音数据对应的当前声纹鉴别向量，在一优选的实施例中，该背景信道模型为一组高斯混合模型，该背景信道模型的训练过程包括如下步骤：1.获取预设数量的语音数据样本，各个预设数量的语音数据样本对应有标准的声纹鉴别向量；2.分别对各个语音数据样本进行处理以提取出各个语音数据样本对应的预设类型声纹特征，并基于各个语音数据样本对应的预设类型声纹特征构建各个语音数据样本对应的声纹特征向量；3.将提取出的所有预设类型声纹特征向量分为第一百分比的训练集和第二百分比的验证集，所述第一百分比和第二百分比之和小于或者等于100％；4.利用训练集中的预设类型声纹特征向量对该组高斯混合模型进行训练，并在训练完成后利用验证集对训练后的该组高斯混合模型的准确率进行验证；若准确率大于预设阈值(例如，98.5％)，则训练结束，以训练后的该组高斯混合模型作为待使用的背景信道模型，或者，若准确率小于或者等于预设阈值，则增加语音数据样本的数量，并重新进行训练，直至该组高斯混合模型的准确率大于预设阈值。

本实施例预先训练的背景信道模型为通过对大量语音数据的挖掘与比对训练得到，这一模型可以在最大限度保留用户的声纹特征的同时，精确刻画用户说话时的背景声纹特征，并能够在识别时将这一特征去除，而提取用户声音的固有特征，能够较大地提高用户身份验证的准确率及效率。

在一实施例中，上述计算当前声纹鉴别向量与标准声纹鉴别向量之间的距离，基于计算的距离生成身份验证结果的步骤包括：

为所述标准声纹鉴别向量，

为当前声纹鉴别向量；若所述余弦距离小于或者等于预设的距离阈值，则生成验证通过的信息；若所述余弦距离大于预设的距离阈值，则生成验证不通过的信息。

其中，在存储用户的标准声纹鉴别向量时可以携带用户身份标识，在验证用户的身份时，根据当前声纹鉴别向量的标识信息匹配得到对应的标准声纹鉴别向量，并计算当前声纹鉴别向量与匹配得到的标准声纹鉴别向量之间的余弦距离，以余弦距离来验证目标用户的身份，提高身份验证的准确性。

与现有技术相比，本发明在接收到客户端发送来的语音数据的过程中，如果当前多次接收到客户端采集的语音数据，则可将这些语音数据按照采集时间的先后顺序拼接，如果拼接后的语音数据的时长大于第二预设时长，则可以将拼接后的语音数据中采集时间在前的部分语音数据进行剔除，以便将前面影响语音的整体质量的语音数据剔除掉，提高基于声纹进行身份验证的准确性。

如图2所示，图2为本发明基于声纹的身份验证方法一实施例的流程示意图，该基于声纹的身份验证方法包括以下步骤：

步骤S1，在接收到客户端发送的带有身份标识的身份验证请求后，接收客户端发送来的第一预设时长的语音数据；

步骤S2，在接收到客户端发送来的第一预设时长的语音数据后，若当前接收到第N次接收到的语音数据，则将第1次至第N次接收到的语音数据按照语音采集的时间顺序拼接并形成待定的声纹验证语音数据，其中，N为大于1的正整数；

在其他实施例中，如图3所示，在接收到客户端发送来的第一预设时长的语音数据后，如果当前只接收到第1次接收到的语音数据，说明用户说话较少，客户端仅能采集到较短时长的语音数据，后续无法再采集到用户的语音数据，这时，为了能够对用户进行身份验证，提高身份验证的灵活性，可以直接将本次接收到的语音数据作为后续的当前的声纹验证语音数据，以基于该当前的声纹验证语音数据进行身份验证。

步骤S3，若待定的声纹验证语音数据的时长大于第二预设时长，则按照预设的剔除规则对待定的声纹验证语音数据进行语音数据剔除，以在语音数据剔除后得到第二预设时长的当前的声纹验证语音数据；

在其他实施例中，如图4所示，如果待定的声纹验证语音数据的时长大于第二预设时长，为了提高身份验证的灵活性，仍然使用该待定的声纹验证语音数据对用户进行身份验证，将该待定的声纹验证语音数据作为后续的当前的声纹验证语音数据，以基于该当前的声纹验证语音数据进行身份验证。

步骤S4，构建当前的声纹验证语音数据的当前声纹鉴别向量，并根据预先确定的身份标识与标准声纹鉴别向量的映射关系，确定该身份标识对应的标准声纹鉴别向量，计算当前声纹鉴别向量与标准声纹鉴别向量之间的距离，基于计算的距离生成身份验证结果。

为所述标准声纹鉴别向量，

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种服务器，其特征在于，所述服务器包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的处理***，所述处理***被所述处理器执行时实现如下步骤：

在接收到客户端发送的带有身份标识的身份验证请求后，接收客户端发送来的第一预设时长的语音数据，所述语音数据由客户端按照预定的时间间隔进行采集；

构建当前的声纹验证语音数据的当前声纹鉴别向量，并根据预先确定的身份标识与标准声纹鉴别向量的映射关系，确定该身份标识对应的标准声纹鉴别向量，计算当前声纹鉴别向量与标准声纹鉴别向量之间的距离，基于计算的距离生成身份验证结果；

所述预设的剔除规则包括：

2.根据权利要求1所述的服务器，其特征在于，所述处理***被所述处理器执行时，还实现如下步骤：

3.根据权利要求1或2所述的服务器，其特征在于，所述处理***被所述处理器执行时，还实现如下步骤：

4.一种基于声纹的身份验证方法，其特征在于，所述基于声纹的身份验证方法包括：

S1，在接收到客户端发送的带有身份标识的身份验证请求后，接收客户端发送来的第一预设时长的语音数据，所述语音数据由客户端按照预定的时间间隔进行采集；

S4，构建当前的声纹验证语音数据的当前声纹鉴别向量，并根据预先确定的身份标识与标准声纹鉴别向量的映射关系，确定该身份标识对应的标准声纹鉴别向量，计算当前声纹鉴别向量与标准声纹鉴别向量之间的距离，基于计算的距离生成身份验证结果；

所述预设的剔除规则包括：

5.根据权利要求4所述的基于声纹的身份验证方法，其特征在于，所述步骤S1之后，还包括：

6.根据权利要求4或5所述的基于声纹的身份验证方法，其特征在于，所述步骤S2之后，还包括：

7.根据权利要求4或5所述的基于声纹的身份验证方法，其特征在于，所述构建当前的声纹验证语音数据的当前声纹鉴别向量的步骤包括：

为所述标准声纹鉴别向量，

为当前声纹鉴别向量；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有处理***，所述处理***被处理器执行时实现如权利要求4至7中任一项所述的基于声纹的身份验证方法的步骤。