WO2020181824A1

WO2020181824A1 - 声纹识别方法、装置、设备以及计算机可读存储介质

Info

Publication number: WO2020181824A1
Application number: PCT/CN2019/118656
Authority: WO
Inventors: 徐凌智; 王健宗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-03-12
Filing date: 2019-11-15
Publication date: 2020-09-17
Also published as: CN110047490A

Abstract

一种声纹识别方法、装置、设备以及计算机可读存储介质，该声纹识别方法包括：获取待识别的验证语音（S10）；采用GMM-UBM模型提取验证语音的第一声纹特征，采用神经网络模型提取验证语音的第二声纹特征（S20）；将验证语音的第一声纹特征与第二声纹特征进行特征融合，得到验证语音的融合声纹特征向量（S30）；计算验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度（S40）；基于相似度，判定验证语音的声纹识别结果（S50）。两个模型分别对验证语音提取特征并用来进行语音验证，相较于单一模型提取验证语音的特征并进行语音验证而言，两个模型提取的特征所包含的信息更加全面，从而使得声纹识别的准确率得到提高。

Description

声纹识别方法、装置、设备以及计算机可读存储介质

本申请要求于2019年3月12日提交中国专利局、申请号为201910182453.3、发明名称为“声纹识别方法、装置、设备以及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及声纹识别技术领域，尤其涉及声纹识别方法、设备、装置以及计算机可读存储介质。

背景技术

声纹识别***是根据人声的特质来自动识别说话人身份的***，身纹识别技术属于生物验证技术的一种，即通过语音对说话人的身份进行验证。这种技术具有较好的便捷性、稳定性、可测量性、安全性等特点，其通常用在银行、社保、公安、智能家居、移动支付等领域。

目前的声纹识别***一般是基于20世纪90年代提出的高斯混合模型-通用背景模型(GMM-UBM)，该模型简单灵活且具有较好的鲁棒性。然而，近年来随着技术的发展，神经网络的训练学习取得了突破进展，基于神经网络的声纹验证***得到应用与实践，并且基于神经网络的模型在一些集合上展现的性能要高于单一的高斯混合模型-通用背景模型(GMM-UBM)。

发明内容

本申请的主要目的在于提供一种声纹识别方法、设备、装置以及计算机可读存储介质，旨在解决现有技术中语音识别准确性不高的技术问题。

为实现上述目的，本申请提供的一种声纹识别方法，包括：

获取待识别的验证语音；

采用GMM-UBM模型提取所述验证语音的第一声纹特征，采用神经网络模型提取所述验证语音的第二声纹特征；

将所述验证语音的第一声纹特征与第二声纹特征进行特征融合，得到所述验证语音的融合声纹特征向量；

计算所述验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度；

基于所述相似度，判定所述验证语音的声纹识别结果。

此外，为实现上述目的，本申请还提供一种声纹识别装置，包括：

数据获取模块，设置为获取待识别的验证语音；

数据处理模块，设置为采用GMM-UBM模型提取所述验证语音的第一声纹特征，采用神经网络模型提取所述验证语音的第二声纹特征；

数据融合模块，设置为将所述验证语音的第一声纹特征与第二声纹特征进行特征融合，得到所述验证语音的融合声纹特征向量；

数据比较模块，设置为计算所述验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度；

数据判断模块，设置为基于所述相似度，判定所述验证语音的声纹识别结果。

此外，为实现上述目的，本申请还提供一种声纹识别设备，所述声纹识别设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的声纹识别程序，所述声纹识别程序被所述处理器执行时实现上述声纹识别方法的步骤。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有声纹识别程序，所述声纹识别程序被处理器执行时实现上述声纹识别方法的步骤。

本申请通过GMM-UBM模型从验证语音中提取验证语音的第一声纹特征，通过神经网络模型从验证语音中提取验证语音的第二声纹特征；将验证语音的第一声纹特征和第二声纹特征进行融合，得到验证语音的融合声纹特征向量；计算验证语音的融合特征声纹向量与预设声纹数据库中各注册用户的声纹特征向量之间的相似度；基于相似度，判定验证语音的声纹识别结果。通过上述方式，将GMM-UBM模型和神经网络模型相结合，两个模型分别对验证语音提取特征，同时两个模型所提取的特征均用来进行语音验证，相较于单一模型提取验证语音的特征并进行语音验证而言，两个模型提取的特征所包含的信息更加全面，这样就可以将验证语音与注册语音进行全面的验证，从而使得声纹识别的准确率得到提高。

附图说明

图1为本发明实施例方案中涉及的声纹识别设备的硬件结构示意图；

图2为本发明声纹识别方法一实施例的流程示意图；

图3为本发明声纹识别方法另一实施例的流程示意图；

图4为图2中步骤S20一实施例的细化流程示意图；

图5为图2中步骤S20另一实施例的细化流程示意图；

图6为图2中步骤S30一实施例的流程示意图；

图7为本发明声纹装置一实施例的功能模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

参照图1，图1为本发明实施例方案中涉及的声纹识别理设备的硬件结构示意图。本发明实施例中，声纹识别设备可以包括处理器1001(例如CPU)，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)；网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)；存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的硬件结构并不构成对声纹识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种计算机可读存储介质的存储器1005可以包括操作***、网络通信模块以及声纹识别程序。

在图1中，网络通信模块主要用于连接服务器，与服务器进行数据通信；而处理器1001可以调用存储器1005中存储的声纹识别程序，并执行本发明实施例提供的声纹识别方法。

基于上述声纹识别设备，提出本发明的声纹识别方法的各个实施例。

参照图2，图2为本申请声纹识别方法一实施例的流程示意图，本实施例中，声纹识别方法包括以下步骤：

步骤S10：获取待识别的验证语音；

在本实施例中，验证语音为已经进行语音注册后的用户所发出的声音，若该用户未进行语音注册，则该用户所发出的声音为无效语音。验证语音的获取方式有很多种，例如通过麦克风获取已经语音注册过的用户所发出的声音，麦克风将获取的声音发送至声纹识别的处理终端；再如通过智能终端(手机、平板等)获取已经语音注册过的用户所发出的声音，智能终端将获取的验证语音发送至声纹识别设备的处理终端；当然，验证语音还可以采用其他设备来获取，在此就不一一列举了。

值得注意的是，在获取待识别的验证语音时，还可以对待识别的验证语音进行筛选，以剔除质量较差的待识别的验证语音。具体的，在获取验证语音时，还可以同时对待识别的验证语音的时长和待识别的验证语音的音量进行检测，若待识别的验证语音的时长大于或等于预设语音时长，则提示获取待识别的验证语音成功，若待识别的验证语音的时长小于预设语音时长，则提示获取待识别的验证语音失败。如此设置，保证了获取的待识别的验证语音的质量，也就保证了从待识别的验证语音中提取的特征是比较明显的、清晰的，从而有利于提高声纹识别的准确率。

步骤S20：采用GMM-UBM模型提取所述验证语音的第一声纹特征，采用神经网络模型提取所述验证语音的第二声纹特征；

本实施例中，GMM-UBM模型(高斯混合模型-通用背景模型)和神经网络模型同时从验证语音中提取特征，由于GMM-UBM模型和神经网络模型是两个不同的模型，因此两个模型从验证语音中提取声纹特征时，可能会提取相同的声纹特征，也可能提取不同的声纹特征，也有可能提取部分相同的声纹特征，在此就不做的具体的限定。较佳地，GMM-UBM模型和神经网络模型从验证语音中提取不同的声纹特征，例如GMM-UBM模型从验证语音中提取的第一声纹特征中包括音色、频率、振幅、音量等多个子特征，神经网络模型从验证语音中提取的第二声纹特征中包括基频、梅尔频率倒谱系数、共振峰、基音、反射系数等等多个子特征。

需要说明的是，GMM-UBM模型和神经网络模型在验证语音的同一声音段内提取声纹特征，GMM-UBM模型和神经网络模型也可以在验证语音的不同声音段内提取声纹特征，GMM-UBM模型和神经网络模型也可以在验证语音的部分重叠的声音段内提取声纹特征，在此不做具体的限定。

步骤S30：将所述验证语音的第一声纹特征与第二声纹特征进行特征融合，得到验证语音的融合声纹特征向量；

在本实施例中，验证语音的融合声纹特征向量由验证语音的第一声纹特征和第二声纹特征融合得到的，第一声纹特征和第二声纹特征的融合方式有很多种，例如第一声纹特征和第二声纹特征通过相互叠加的方式融合形成验证语音的融合声纹特征向量，再如第一声纹特征和第二声纹特征通过部分子特征叠加的方式融合形成验证语音的融合声纹特征向量。当然，验证语音的第一声纹特征和第二声纹特征还可以采用其他的方式融合，在此就不一一列举了。

步骤S40：计算所述验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度；

在本实施例中，注册用户的声纹特征向量是声纹识别设备在用户语音注册时建立的，每一个用户对应有一个注册用户的声纹特征向量，每一个用户的注册用户的声纹特征向量均存储于声纹识别设备的数据储存模块中，多个注册用户的声纹特征向量组成了预设注册声纹数据库。

验证语音的融合声纹特征向量与注册用户的声纹特征向量之间的相似度的计算方法有很多种，例如验证语音的融合声纹特征向量与注册用户的声纹特征向量之间的相似度采用余弦相似度计算，即根据公式：

计算验证语音的融合声纹特征向量与注册用户的声纹特征向量之间的余弦相似度，计算得到的值越大，则说明融合声纹特征向量与注册用户的声纹特征向量的相似度越小，计算得到的值越小，则说明融合声纹特征向量与注册用户的声纹特征向量的相似度越大。

当然，验证语音的融合声纹特征向量与注册用户的声纹特征向量之间的相似度还可以采用皮尔逊相关系数、欧几里德距离、余弦相似度、曼哈顿距离等来计算，在此就不一一列举了。

值得注意的是，一般预设注册声纹数据库中存储有大量的注册用户的声纹特征向量，在进行声纹识别时，需要将验证语音的验证语音的融合声纹特征向量与注册声纹数据库中各注册用户的声纹特征向量进行比对，这就使得声纹识别设备需要进行大量的计算。鉴于此，可以将预设注册声纹数据库中的各注册用户的声纹特征向量关联起来，具体的，可以通过计算预设注册声纹数据库中任意两个注册用户的声纹特征向量之间的相似度，将预设注册声纹数据库中的各注册用户的声纹特征向量关联起来。这在计算验证语音的融合声纹特征向量与注册声纹数据库中的某一注册用户的声纹特征向量的相似度时，可以根据验证语音的融合声纹特征向量与某一注册用户的声纹特征向量之间的相似度进行筛选，以排除与某一注册用户的声纹特征向量相似度较低的其他注册用户的声纹特征向量，这样就可以减少声纹识别设备的计算量。

步骤S50：基于所述相似度，判定所述验证语音的声纹识别结果。

在本实施例中，验证语音的声纹识别结果是基于相似度与预设阈值之间的大小关系确定的，即验证语音的融合声纹特征向量与某一注册用户的声纹特征向量之间的相似度等于或者大于预设阈值时，则判定声纹识别成功；验证语音的融合声纹特征向量与各注册用户的声纹特征向量之间的相似度小于预设阈值时，则判断声纹识别失败。

需要注意的是，若预设注册声纹数据库中有多个注册用户的声纹特征向量与验证语音的融合声纹特征向量的相似度均超过预设阈值时，此时，判定多个注册用户的声纹特征向量中与验证语音的融合声纹特征向量的相似度最高与验证语音的融合声纹特征向量相匹配。

参照图3，在本实施例中，在步骤S10之前还包括以下步骤：

步骤S100：获取注册用户的注册语音；

在本实施例中，注册语音为需要注册的用户所发出的声音，注册语音的获取方式与步骤S10验证语音的获取方式相同。

值得注意的是，声纹识别***会将用户注册时的注册语音作为该用户的验证标准，注册语音质量的好坏，直接影响到声纹识别的准确率。为了提高声纹识别的准确率，还可以在获取注册语音时，对注册语音进行筛选，以剔除质量较差的注册语音。

步骤S110：采用GMM-UBM模型提取所述注册语音的第三声纹特征，采用神经网络模型提取所述注册语音的第四声纹特征；

需要说明的是，第三声纹特征所包含的子特征与第一声纹特征所包含的子特征相同，第四声纹特征所包含的子特征与第二声纹特征所包含的子特征相同。

步骤S120：将所述注册语音的第三声纹特征与第四声纹特征进行特征融合，得到所述注册语音的融合声纹特征向量；

步骤S130：将所述注册语音的融合声纹特征向量保存到所述注册声纹数据库中，以作为注册用户的声纹特征向量。

在本实施例中，声纹识别设备的数据储存模块中设有注册声纹数据库，注册语音的融合声纹特征向量保存于注册声纹数据库，该注册声纹数据库在储存注册语音的融合声纹特征向量时，可以将注册语音的融合声纹特征向量分类进行存储，例如按照相似度来进行分类存储，即将相似度较高的多个注册语音的融合声纹特征向量存储在一个子集内，多个子集组成注册声纹数据库。再如按照性别进行分类存储，即将男性注册用户的注册语音的融合声纹特征向量和女性注册用户的注册语音的融合声纹特征向量分开存储。当然，注册语音的融合特征向量还可以采用其他的方式进行存储，在此就不一一列举了。

参照图4，本实施例中，步骤S20包括：

步骤S210：对所述验证语音进行预加重、分帧以及加窗预处理；

预加重：由于语音信号的平均功率谱受声门激励和口鼻辐射的影响，高倍频大约在 800Hz以上按6dB/倍频跌落，所以求语音信号频谱，频率越高，对应的成分越小，高频部分的频谱也越难求，为此要进行预加重处理。其目的是要提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。预加重一般在语音信号数字化之后，且预加重滤波器是一阶的，其滤波器的实现形式：H(z)＝1-u*z-1，其中u一般在(0.9，1)之间。

分帧、加窗：由于语音信号具有短时平稳性，预处理完成后需对语音信号进行分帧、加窗处理，便于用短时分析技术对语音信号进行处理。通常情况下，每秒钟的帧数约为33～100帧，分帧既可采用连续分段的方法，也可采用交叠分段的方法，但后者可以使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移，帧移和帧长的比值一般取为(0～1/2)。一边将语音信号用可移动有限长度的窗口进行截取即分帧，通常采用的窗函数有矩形窗(Rectangular)、汉明窗(Hamming)和汉宁窗(Hanning)等。

语音信号经过预处理之后，将提取特征参数，特征参数的选择应当满足几个原则：第一，易于从语音信号中提取特征参数；第二，不容易被模仿；第三，不随时间和空间变化，具有相对的稳定性；第四，能够有效识别不同的说话人。目前说话人确认***主要依靠语音的低层次声学特征来进行识别，这些特征可分为时域特征和变换域特征。

步骤S220：从预处理后的所述验证语音中提取梅尔频率倒谱系数、线性预测倒谱系数的一阶差分、能量、能量的一阶差分以及Gamma tone(伽马音)滤波器倒谱系数的特征参数，以得到所述验证语音的第一声纹特征；

梅尔频率倒谱系数的提取的具体步骤如下：

(1)对于处理后的语音信号进行短时傅里叶变换，得到其频谱。这里采用快速傅里叶变换FFT来对每一帧语音信号进行离散余弦变换DCT。先将每一帧时域信号x(n)后补若干个0以形成长度为N的序列，然后对其进行快速傅里叶变换，最后得到线性频谱X(k)。X(k)与x(n)之间的转换公式为：

(2)对频谱X(k)去平方求得能量谱，然后通过Mel频率滤波器进行平滑并消除谐波，得到相应的Mel频谱。其中Mel频率滤波器组是根据声音的掩蔽效应，在语音的频谱范围内设置的若干个三角形带通过滤波器H _m(k)(0≤m≤M，M为滤波器的个数)，其中心频率为f(m)，各f(m)之间的间隔随着m值的增大而增宽。

三角形带通过滤波器组的传递函数可用以下公式表示：

对Mel滤波器组输出的Mel谱取按下式计算对数得到对数频谱S(m)，用来压缩语音谱的动态范围，并将频域中噪声的乘性成分转化成加性成分。

(4)对对数频谱S(m)进行离散余弦变换DCT，得到梅尔频率倒谱系数(MFCC)的参数c(n)。

其中L为MFCC参数的阶数。

短时归一化能量特征参数提取的具体步骤如下：

(1)给定语音段中的长度N的一帧{Si(n),n＝1,2,…，N}，计算该帧的短时对数能量的公式如下；

其中L是语音段的帧数。

(2)由于不同语音段不同语音帧的能量差别比较大，为了使其能够于前面的倒谱系数一起作为向量计算，需要进行归一化处理。

其中，E _max＝maxE ₁,即语音段中最大的对数能量。

LPCC特征参数提取的具体步骤如下：

(1)求解线性预测LPC：在线性预测(LPC)分析中，声道模型表示为下式的全极点模型：

式中p是LPC分析的阶数，a _k为线性预测系数(k＝1,2,…，p)，A(z)为逆滤波器。LPC的分析就是求解线性预测系数a _k，本申请采用基于自相关的递推求解公式法(即Durbin算法)。

(2)求LPC的倒谱系数LPCC：已预处理的语音信号x(n)复倒谱

定义为x(n)的Z变换的对数Z变换，即为

只考虑X(z)的模，忽略它的相位，就得到信号的倒谱c(n)为：

c(n)＝Z ^-1(log|X(z)|-j argX(z))

LPCC不是由输入信号x(n)，而是由LPC系数a _n得到的。LPCC参数C _n的递推公式：

动态特征参数：梅尔频率倒谱系数的一阶差分、线性预测倒谱系数的一阶差分、一阶差分能量参数提取的具体步骤如下：

前面介绍的梅尔频率倒谱系数、线性预测倒谱系数、能量特征参数只表征了语音谱的及时信息，属于静态参数。实验表明，语音谱的动态信息中也包含有与说话人有关的信息，可以用来提高说话人识别***的识别率。

(1)语音倒谱的动态信息是表征语音特征参数随时间变化的规律。语音倒谱随时间的变换可以用下式表达：

公式中，c _m表示m阶倒谱系数，n和k表示倒谱系数在时间轴上的序号。h(k)(k＝-k，-k+1,…，k-1，k)为长度为2k+1的窗函数，它通常是对称的。正交多项式的一阶系数△c _m(n)如上公式所示。

(2)实际应用中的窗函数多采用矩形窗，K通常取2，此时动态参数就称为当前帧的前两帧和后两帧参数的线性组合。所以按照上式可以得到梅尔频率倒谱系数、线性预测倒谱系数、能量的一阶动态参数。

Gamma tone滤波器倒谱系数的特征参数提取的具体步骤如下：

(1)对预处理后的语音信号进行短时傅里叶变换，得到其频谱。这里采用快速傅里叶变换FFT来对每一帧语音信号进行离散余弦变换DCT。先将每一帧时域信号x(n)后补若干个0以形成长度为N的序列，然后对其进行快速傅里叶变换，最后得到线性频谱X(k)。X(k)与x(n)之间的转换公式为：

(2)获得Gamma tone滤波器组，Gamma tone滤波器是一个标准的耳蜗听觉滤波器，该滤波器的时域脉冲响应为：

g(t)＝At ^n-1e ^-2πbtcos(2πf _i+φ _i)U(t)，t≥0，1≤i≤N

式中，A为滤波器增益，f _i是滤波器的中心频率，U(t)是阶跃函数，φ _i是相位，为了简化模型，令φ _i为0，n是滤波器的阶数，实验表明n＝4时能够很好的模拟人耳耳蜗的滤波特征。

b _t是滤波器的衰减因子，它决定了脉冲响应的衰减速度，并与滤波器的带宽有关，b _t＝1.019ERB(f _i)，在听觉心理学中，

式中，N为滤波器的个数，各滤波器组的中心频率在ERB域上等间距分布，整个滤波器组的频率覆盖范围为80Hz-8000Hz，每个中心频率的计算公式如下：

其中f _H为滤波器截止频率，v _i是滤波器重叠因子，用来指定相邻滤波器之间重叠百分比。每个滤波器中心频率确定后，相应的带宽可由上式获得。

(3)Gamma tone滤波器组滤波。对步骤(1)得到的功率谱X(k)取平方得到能力谱，然后用Gamma tone滤波组G _m(k)进行滤波处理。得到对数频谱S(m)，用来压缩语音谱的动态范围，并将频域中噪声的乘性成分转化成加性成分。

(4)对对数频谱S(m)进行离散余弦变换DCT，得到Gamma tone滤波器倒谱系数的特征参数G(n)，G(n)计算公式如下：

参照图5，上述步骤S20包括：

步骤S210＇：将所述验证语音排列成预定纬数的语谱图；

具体地，可以每隔预定的时间间隔从验证语音中提取预定纬度的特征向量，以将验证语音排列成预定纬数的语谱图。

其中，上述预定纬数、预定纬度和预定的时间间隔可以在具体实现时根据需求和/或***性能等自行设定，本实施例对上述预定纬数、预定纬度和预定的时间间隔的大小不作限定。

步骤S220＇：通过神经网络对所述预定纬数的语谱图进行识别，得到所述验证语音的第二声纹特征。

将验证语音排列成预定纬数的语谱图，然后通过神经网络模型对预定纬数的语谱图进行识别，获得验证语音的第二声纹特征，从而可以实现通过神经网络模型提取验证语音的第二声纹特征，可以更好地表征语音中的声学特征，提高语音识别的准确率。

值得注意的是，在对验证语音进行第一声纹特征和第二声纹特征提取时，两者是互不干扰的，也就是说，上述步骤S210、步骤S220相对于步骤S210＇、步骤S220＇是相互独立进行的，并且步骤S210、步骤S220与步骤S210＇、步骤S220＇之间是不分先后顺序的。

进一步地，在本申请声纹识别方法一实施例中，上述步骤S30具体包括：

利用马尔可夫链蒙特卡罗随机模型进行第一声纹特征维度和第二声纹特征维度的融合，得到所述验证语音的融合声纹特征向量。

本实施例中，马尔可夫链蒙特卡罗随机模型随机分别从第一声纹特征中获取多个特征，从第二声纹特征中获取多个特征，再将从第一声纹特征中获取的多个特征和从第二声纹特征中获取的多个特征融合，得到验证语音的融合声纹特征向量。

例如，马尔可夫链蒙特卡罗随机模型随机从第一声纹特征中的15个特征中抽取10个特征，从第二声纹特征的20个特征中抽取15个特征，融合后即可得到有25个声纹特征的沿着语音的融合声纹特征向量。

参照图6，图6为图1中步骤S30一实施例的细化流程示意图。在本实施例中，所述第一声纹特征包括多个第一声纹子特征，所述第二声纹特征包括多个第二声纹子特征；

基于上述实施例，本实施例中，上述步骤S30包括：

步骤S310：设定验证语音的融合特征声纹总特征数为K；

步骤S320：根据所述验证语音的融合声纹特征总特征为K，利用直接抽样法确定第一声纹子特征的和第二声纹子特征的融合比例；

步骤S330：根据第一声纹子特征和第二声纹子特征的融合比例，利用MCMC的Gibbs (吉布斯)采样模拟联合正态分布的采样过程，分别确定所述第一声纹特征选取的第一声纹子特征和所述第二声纹特征选取的第二声纹子特征，组成所述验证语音的融合声纹特征向量。

进一步地，步骤320具体包括：

步骤A：生成一个[0,1]之间的随机数作为参数p，参数p代表所述第一声纹子特征在所述验证语音的融合声纹特征中所占的比例；

步骤B：初始化用于记录迭代次数的计数器的初始值k＝0；

步骤C：生成一个[0,1]之间的随机数q，并与参数p进行比较，当q<p时，选取一个所述第二声纹子特征，所述第二声纹子特征的数量加1，当q>p时，选取一个所述第一声纹子特征，所述第一声纹子特征的数量加1；

步骤D：k值增加1，判断是否k≧K，如果是则统计待选入所述验证语音的融合特征声纹向量的第一声纹子特征和第二声纹子特征的个数，分别记录为A和B，结束采样过程；否则，返回上步骤C。

假设设定的验证语音的融合声纹特征向量的总纬度数K＝8，随机生成的参数p＝0.4，经过8次上述过程的迭代得到待入选的第一声纹子特征的个数A＝3，第二声纹子特征的个数B＝5，则在后续的具体特征选取过程中要选取3个第一声纹子特征和5个第二声纹子特征。

进一步地，步骤330具体包括：

步骤E：设定转移次数阈值为T，初始化转移次数t＝0；

步骤F：统计采集的验证语音的融合声纹特征向量中特征的个数，记录为M，生成M个[0,1]之间的随机数作为初始状态

步骤G：转移次数t每增加1，对每个变量x _i(t)，i∈{1,2...M}，按以下由联合概率分布得到的条件概率分布公式进行如下计算：

P(x _i(t+1))|x ₁(t+1),x ₂(t+1)...x _i-1(0),x _i+1(t)...x _m(t))，

其中，联合概率分布的均值为X；判断是否t<T，如果是则返回步骤G，否则得到

P(T)＝[P(x ₁(T)),P(x ₂(T)),...P(x _i(T)),...P(x _M(T))]；

步骤H：根据步骤D中计算的待选入所述验证语音的融合声纹特征向量中所述第一声纹子特征为个数A，选取前A个对应概率Px _i(T)最大的第一声纹子特征作为入选验证语音的融合声纹特征向量的第一声纹子特征；

步骤I：设定转移次数阈值为T，初始化转移次数t＝0；

步骤J：统计采集所述验证语音的融合声纹特征向量中特征的个数，记录为N，生成N个[0,1]之间的随机数作为初始状态；

y(0)＝[y ₁(0)，y ₂(0)...y _N(0)]

步骤K：转移次数t每增加1，对每个变量y _j(t)，j∈{1,2...M}，按以下由联合概率分布得到的条件概率分布公式进行如下计算：

P(y _i(t+1))|y ₁(t+1),y ₂(t+1)...y _j-1(0),y _j+1(t)...y _N(t))，

其中，联合概率分布的均值为Y；

判断是否t<T，如果是，则执行步骤K，否则得到

步骤L：根据步骤D中计算的待选入所述验证语音的融合声纹特征向量的第二声纹子特征为个数B，选取前B个对应概率Py _j(T)最大的第二声纹子特征作为入选验证语音的融合声纹特征向量的第二声纹子特征。

如果上步中采集的验证语音融合声纹特征向量中第二声纹子特征共5个，步骤D中计算出的本实施例中x ₀(0)＝[0.2，0.3，0.4，0.5，0.6]；t＝0时，根据Px _i(t+1)＝[x ₁(t+1)，x ₂(t+1)，…x _i-1(t+1)，x _i+1(t+1)…x _M(t+1)]依次得到Px ₁(1)、Px ₂(1)、Px ₃(1)、Px ₄(1)、Px ₅(1)，假设计算得到Px _i(1)＝[0.5，0.6，0.2，0.8，0.1]。依次循环，直到达到预定转移次数，本实施例中T＝50，计算得到Px _i(50)，假设计算得到Px _i(50)＝[0.6，0.2，0.5，0.8，0.9]，则选取对应最大概率的两个行为特征加入验证语音融合声纹特征向量。

此外，本申请还提供一种声纹识别装置。

参照图7，图7为本申请声纹识别装置一实施例的功能模块图。

本实施例中，所述声纹识别装置包括：

数据获取模块10，设置为获取待识别的验证语音；

数据处理模块20，设置为采用GMM-UBM模型提取验证语音的第一声纹特征，采用神经网络模型提取验证语音的第二声纹特征；

数据融合模块30，设置为将验证语音的第一声纹特征与第二声纹特征进行特征融合，得到验证语音的融合声纹特征向量；

数据比较模块40，设置为计算验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度；

数据判断模块50，设置为基于相似度，判定验证语音的声纹识别结果。

进一步地，还包括获取注册用户的声纹特征向量模块，所获取注册用户的声纹特征向量模块包括：

获取注册语音单元，设置为获取注册用户的注册语音；

提取声纹特征单元，设置为采用GMM-UBM模型提取所述注册语音的第三声纹特征，采用神经网络模型提取所述注册语音的第四声纹特征；

融合单元，设置为将所述注册语音的第三声纹特征与第四声纹特征进行特征融合，得到所述注册语音的融合声纹特征向量；

保存单元，设置为将所述注册语音的融合声纹特征向量保存到所述注册声纹数据库中，以作为注册用户的声纹特征向量。

进一步地，所述数据处理模块20还包括：

第一预处理单元201，设置为对所述验证语音进行预加重、分帧以及加窗预处理；

第一提取单元202，设置为从预处理后的所述验证语音中提取基音周期、线性预测倒谱系数、线性预测倒谱系数的一阶差分、能量、能量的一阶差分以及Gamma tone滤波器倒谱系数的特征参数，得到所述验证语音的第一声纹特征；

第二预处理单元203，设置为将所述验证语音排列成预定纬数的语谱图；

第二提取单元202，设置为通过神经网络对所述预定纬数的语谱图进行识别，得到所述验证语音的第二声纹特征。

进一步地，所述数据融合模块30包括：

数据融合单元301，设置为利用马尔可夫链蒙特卡罗随机模型进行第一声纹特征维度和第二声纹特征维度的融合，得到所述验证语音的融合声纹特征向量。

进一步地，数据融合单元301包括：

设定子单元3011，设置为设定验证语音的融合特征声纹总特征数为K；

确定子单元3012，设置为根据所述验证语音的融合声纹特征总特征为K，利用直接抽样法确定第一声纹子特征的和第二声纹子特征的融合比例；

融合子单元3013，设置为根据第一声纹子特征和第二声纹子特征的融合比例，利用MCMC的Gibbs采样模拟联合正态分布的采样过程，分别确定所述第一声纹特征选取的第一声纹子特征和所述第二声纹特征选取的第二声纹子特征，组成所述验证语音的融合声纹特征向量。

进一步地，所述确定子单元3012设置为：

步骤B：初始化用于记录迭代次数的计数器的初始值k＝0；

进一步地，所述融合子单元3013设置为：

步骤E：设定转移次数阈值为T，初始化转移次数t＝0；

P(x _i(t+1))|x ₁(t+1),x ₂(t+1)...x _i-1(0),x _i+1(t)...x _m(t))，

P(T)＝[P(x ₁(T)),P(x ₂(T)),...P(x _i(T)),...P(x _M(T))]；

步骤I：设定转移次数阈值为T，初始化转移次数t＝0；

步骤J：统计采集所述验证语音的融合声纹特征向量中特征的个数，记录为N，生成N个[0,1]之间的随机数作为初始状态

y(0)＝[y ₁(0)，y ₂(0)...y _N(0)]；

P(y _i(t+1))|y ₁(t+1),y ₂(t+1)...y _j-1(0),y _j+1(t)...y _N(t))，

其中，联合概率分布的均值为Y；

判断是否t<T，如果是，则执行步骤K，否则得到

此外，本申请实施例还提供一种声纹识别设备，包括处理器、存储器以及存储在存储器上并可被处理器执行的声纹识别程序，声纹识别程序被处理器执行时实现上述各实施例的声纹识别方法的步骤。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有声纹识别程序，其中声纹识别程序被处理器执行时，实现上述各实施例的声纹识别方法的步骤。其中，所述存储介质可以为易失性存储介质，所述存储介质也可以为非易失性存储介质。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本申请的保护之内。

Claims

一种声纹识别方法，包括：

获取待识别的验证语音；

采用GMM-UBM模型提取所述验证语音的第一声纹特征，采用神经网络模型提取所述验证语音的第二声纹特征；

将所述验证语音的第一声纹特征与第二声纹特征进行特征融合，得到验证语音的融合声纹特征向量；

计算所述验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度；

基于所述相似度，判定所述验证语音的声纹识别结果。
如权利要求1所述的声纹识别方法，其中，在所述获取待识别的验证语音之前，还包括：

获取注册用户的注册语音；

采用GMM-UBM模型提取所述注册语音的第三声纹特征，采用神经网络模型提取所述注册语音的第四声纹特征；

将所述注册语音的第三声纹特征与第四声纹特征进行特征融合，得到所述注册语音的融合声纹特征向量；

将所述注册语音的融合声纹特征向量保存到所述注册声纹数据库中，以作为注册用户的声纹特征向量。
如权利要求1所述的声纹识别方法，其中，所述采用GMM-UBM模型提取所述验证语音的第一声纹特征，包括：

对所述验证语音进行预加重、分帧以及加窗预处理；

从预处理后的所述验证语音中提取基音周期、线性预测倒谱系数、线性预测倒谱系数的一阶差分、能量、能量的一阶差分以及Gamma tone滤波器倒谱系数的特征参数，得到所述验证语音的第一声纹特征；

所述采用神经网络模型提取所述验证语音的第二声纹特征，包括：

将所述验证语音排列成预定纬数的语谱图；

通过神经网络对所述预定纬数的语谱图进行识别，得到所述验证语音的第二声纹特征。
如权利要求1所述的声纹识别方法，其中，所述将所述验证语音的第一声纹特征与第二声纹特征进行特征融合，得到所述验证语音的融合声纹特征向量，包括：

利用马尔可夫链蒙特卡罗随机模型进行第一声纹特征维度和第二声纹特征维度的融合，得到所述验证语音的融合声纹特征向量。
如权利要求4所述的声纹识别方法，其中，所述第一声纹特征包括多个第一声纹子特征，所述第二声纹特征包括多个第二声纹子特征；

所述利用马尔可夫链蒙特卡罗随机模型进行第一声纹特征维度和第二声纹特征维度的融合，得到所述验证语音的融合声纹特征向量，包括：

设定验证语音的融合特征声纹总特征数为K；

根据所述验证语音的融合声纹特征总特征为K，利用直接抽样法确定第一声纹子特征的和第二声纹子特征的融合比例；

根据第一声纹子特征和第二声纹子特征的融合比例，利用MCMC的Gibbs采样模拟联合正态分布的采样过程，分别确定所述第一声纹特征选取的第一声纹子特征和所述第二声纹特征选取的第二声纹子特征，组成所述验证语音的融合声纹特征向量。
如权利要求5所述的声纹识别方法，其中，所述根据所述验证语音的融合声纹特征总特征为K，利用直接抽样法确定第一声纹子特征的和第二声纹子特征的融合比例，包括：

步骤A：生成一个[0,1]之间的随机数作为参数p，参数p代表所述第一声纹子特征在所述验证语音的融合声纹特征中所占的比例；

步骤B：初始化用于记录迭代次数的计数器的初始值k＝0；

步骤C：生成一个[0,1]之间的随机数q，并与参数p进行比较，当q<p时，选取一个所述第二声纹子特征，所述第二声纹子特征的数量加1，当q>p时，选取一个所述第一声纹子特征，所述第一声纹子特征的数量加1；

步骤D：k值增加1，判断是否k≧K，如果是则统计待选入所述验证语音的融合特征声纹向量的第一声纹子特征和第二声纹子特征的个数，分别记录为A和B，结束采样过程；否则，返回步骤C。
如权利要求6所述的声纹识别方法，其中，所述根据第一声纹子特征和第二声纹子特征的融合比例，利用MCMC的Gibbs采样模拟联合正态分布的采样过程，分别确定所述第一声纹特征选取的第一声纹子特征和所述第二声纹特征选取的第二声纹子特征，组成所述验证语音的融合声纹特征向量，包括：

步骤E：设定转移次数阈值为T，初始化转移次数t＝0；

步骤F：统计采集的验证语音的融合声纹特征向量中特征的个数，记录为M，生成M个[0,1]之间的随机数作为初始状态

步骤G：转移次数t每增加1，对每个变量x _i(t)，i∈{1,2…M}，按以下由联合概率分布得到的条件概率分布公式进行如下计算：

P(x _i(t+1))|x ₁(t+1),x ₂(t+1)…x _i-1(0),x _i+1(t)…x _m(t))，

其中，联合概率分布的均值为X；判断是否t<T，如果是则返回步骤G，否则得到

P(T)＝[P(x ₁(T)),P(x ₂(T)),…P(x _i(T)),…P(x _M(T))]；

步骤H：根据步骤D中计算的待选入所述验证语音的融合声纹特征向量中所述第一声纹子特征为个数A，选取前A个对应概率Px _i(T)最大的第一声纹子特征作为入选验证语音的融合声纹特征向量的第一声纹子特征；

步骤I：设定转移次数阈值为T，初始化转移次数t＝0；

步骤J：统计采集所述验证语音的融合声纹特征向量中特征的个数，记录为N，生成N个[0,1]之间的随机数作为初始状态

y(0)＝[y ₁(0)，y ₂(0)…y _N(0)]；

步骤K：转移次数t每增加1，对每个变量y _j(t)，j∈{1,2…M}，按以下由联合概率分布得到的条件概率分布公式进行如下计算：

P(y _i(t+1))|y ₁(t+1),y ₂(t+1)…y _j-1(0),y _j+1(t)…y _N(t))，

其中，联合概率分布的均值为Y；

判断是否t<T，如果是，则执行步骤K，否则得到

步骤L：根据步骤D中计算的待选入所述验证语音的融合声纹特征向量的第二声纹子特征为个数B，选取前B个对应概率Py _j(T)最大的第二声纹子特征作为入选验证语音的融合声纹特征向量的第二声纹子特征。
一种声纹识别装置，包括：

数据获取模块，设置为获取待识别的验证语音；

数据处理模块，设置为采用GMM-UBM模型提取所述验证语音的第一声纹特征，采用神经网络模型提取所述验证语音的第二声纹特征；

数据融合模块，设置为将所述验证语音的第一声纹特征与第二声纹特征进行特征融合，得到所述验证语音的融合声纹特征向量；

数据比较模块，设置为计算所述验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度；

数据判断模块，设置为基于所述相似度，判定所述验证语音的声纹识别结果。
如权利要求8所述的声纹识别装置，其中，还包括获取注册用户的声纹特征向量模块，所述获取注册用户的声纹特征向量模块包括：

获取注册语音单元，设置为获取注册用户的注册语音；

提取声纹特征单元，设置为采用GMM-UBM模型提取所述注册语音的第三声纹特征，采用神经网络模型提取所述注册语音的第四声纹特征；

融合单元，设置为将所述注册语音的第三声纹特征与第四声纹特征进行特征融合，得到所述注册语音的融合声纹特征向量；

保存单元，设置为将所述注册语音的融合声纹特征向量保存到所述注册声纹数据库中，以作为注册用户的声纹特征向量。
如权利要求8所述的声纹识别装置，其中，所述数据处理模块，包括：

第一预处理单元，设置为对所述验证语音进行预加重、分帧以及加窗预处理；

第一提取单元，设置为从预处理后的所述验证语音中提取基音周期、线性预测倒谱系数、线性预测倒谱系数的一阶差分、能量、能量的一阶差分以及Gamma tone滤波器倒谱系数的特征参数，得到所述验证语音的第一声纹特征；

第二预处理单元，设置为将所述验证语音排列成预定纬数的语谱图；

第二提取单元，设置为通过神经网络对所述预定纬数的语谱图进行识别，得到所述验证语音的第二声纹特征。
如权利要求8所述的声纹识别装置，其中，所述数据融合模块，包括：

数据融合单元，设置为利用马尔可夫链蒙特卡罗随机模型进行第一声纹特征维度和第二声纹特征维度的融合，得到所述验证语音的融合声纹特征向量。
如权利要求11所述的声纹识别装置，其中，所述数据融合单元，包括：

设定子单元，设置为设定验证语音的融合特征声纹总特征数为K；

确定子单元，设置为根据所述验证语音的融合声纹特征总特征为K，利用直接抽样法确定第一声纹子特征的和第二声纹子特征的融合比例；

融合子单元，设置为根据第一声纹子特征和第二声纹子特征的融合比例，利用MCMC的Gibbs采样模拟联合正态分布的采样过程，分别确定所述第一声纹特征选取的第一声纹子特征和所述第二声纹特征选取的第二声纹子特征，组成所述验证语音的融合声纹特征向量。
如权利要求12所述的声纹识别装置，其中，所述确定子单元，设置为：

步骤A：生成一个[0,1]之间的随机数作为参数p，参数p代表所述第一声纹子特征在所述验证语音的融合声纹特征中所占的比例；

步骤B：初始化用于记录迭代次数的计数器的初始值k＝0；

步骤C：生成一个[0,1]之间的随机数q，并与参数p进行比较，当q<p时，选取一个所述第二声纹子特征，所述第二声纹子特征的数量加1，当q>p时，选取一个所述第一声纹子特征，所述第一声纹子特征的数量加1；

步骤D：k值增加1，判断是否k≧K，如果是则统计待选入所述验证语音的融合特征声纹向量的第一声纹子特征和第二声纹子特征的个数，分别记录为A和B，结束采样过程；否则，返回步骤C。
如权利要求13所述的声纹识别装置，其中，所述融合子单元，设置为：

步骤E：设定转移次数阈值为T，初始化转移次数t＝0；

步骤F：统计采集的验证语音的融合声纹特征向量中特征的个数，记录为M，生成M个[0,1]之间的随机数作为初始状态

步骤G：转移次数t每增加1，对每个变量x _i(t)，i∈{1,2…M}，按以下由联合概率分布得到的条件概率分布公式进行如下计算：

P(x _i(t+1))|x ₁(t+1),x ₂(t+1)…x _i-1(0),x _i+1(t)…x _m(t))，

其中，联合概率分布的均值为X；判断是否t<T，如果是则返回步骤G，否则得到

P(T)＝[P(x ₁(T)),P(x ₂(T)),…P(x _i(T)),…P(x _M(T))]；

步骤H：根据步骤D中计算的待选入所述验证语音的融合声纹特征向量中所述第一声纹子特征为个数A，选取前A个对应概率Px _i(T)最大的第一声纹子特征作为入选验证语音的融合声纹特征向量的第一声纹子特征；

步骤I：设定转移次数阈值为T，初始化转移次数t＝0；

步骤J：统计采集所述验证语音的融合声纹特征向量中特征的个数，记录为N，生成N个[0,1]之间的随机数作为初始状态

y(0)＝[y ₁(0)，y ₂(0)…y _N(0)]；

步骤K：转移次数t每增加1，对每个变量y _j(t)，j∈{1,2…M}，按以下由联合概率分布得到的条件概率分布公式进行如下计算：

P(y _i(t+1))|y ₁(t+1),y ₂(t+1)…y _j-1(0),y _j+1(t)…y _N(t))，

其中，联合概率分布的均值为Y；

判断是否t<T，如果是，则执行步骤K，否则得到

P(T)＝[P(y ₁(T)),P(y ₂(T)),…P(y _j(T)),…P(y _N(T))]；

步骤L：根据步骤D中计算的待选入所述验证语音的融合声纹特征向量的第二声纹子特征为个数B，选取前B个对应概率Py _j(T)最大的第二声纹子特征作为入选验证语音的融合声纹特征向量的第二声纹子特征。
一种声纹识别设备，所述声纹识别设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的声纹识别程序，所述声纹识别程序被所述处理器执行时实现以下步骤：

获取待识别的验证语音；

采用GMM-UBM模型提取所述验证语音的第一声纹特征，采用神经网络模型提取所述验证语音的第二声纹特征；

将所述验证语音的第一声纹特征与第二声纹特征进行特征融合，得到验证语音的融合声纹特征向量；

计算所述验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度；

基于所述相似度，判定所述验证语音的声纹识别结果。
根据权利要求15所述的声纹识别设备，其中，在所述获取待识别的验证语音之前，所述声纹识别程序被所述处理器执行时实现以下步骤：

获取注册用户的注册语音；

采用GMM-UBM模型提取所述注册语音的第三声纹特征，采用神经网络模型提取所述注册语音的第四声纹特征；

将所述注册语音的第三声纹特征与第四声纹特征进行特征融合，得到所述注册语音的融合声纹特征向量；

将所述注册语音的融合声纹特征向量保存到所述注册声纹数据库中，以作为注册用户的声纹特征向量。
根据权利要求15所述的声纹识别设备，其中，所述将所述验证语音的第一声纹特征与第二声纹特征进行特征融合，得到所述验证语音的融合声纹特征向量，所述声纹识别程序被所述处理器执行时实现以下步骤：

利用马尔可夫链蒙特卡罗随机模型进行第一声纹特征维度和第二声纹特征维度的融合，得到所述验证语音的融合声纹特征向量。
一种计算机可读存储介质，所述计算机可读存储介质上存储有声纹识别程序，所述声纹识别程序被处理器执行时实现以下步骤：

获取待识别的验证语音；

采用GMM-UBM模型提取所述验证语音的第一声纹特征，采用神经网络模型提取所述验证语音的第二声纹特征；

将所述验证语音的第一声纹特征与第二声纹特征进行特征融合，得到验证语音的融合声纹特征向量；

计算所述验证语音的融合声纹特征向量与预设注册声纹数据库中各注册用户的声纹特征向量之间的相似度；

基于所述相似度，判定所述验证语音的声纹识别结果。
根据权利要求18所述的计算机可读存储介质，其中，在所述获取待识别的验证语音之前，所述声纹识别程序被所述处理器执行时实现以下步骤：

获取注册用户的注册语音；

采用GMM-UBM模型提取所述注册语音的第三声纹特征，采用神经网络模型提取所述注册语音的第四声纹特征；

将所述注册语音的第三声纹特征与第四声纹特征进行特征融合，得到所述注册语音的融合声纹特征向量；

将所述注册语音的融合声纹特征向量保存到所述注册声纹数据库中，以作为注册用户的声纹特征向量。
根据权利要求18所述的计算机可读存储介质，其中，所述将所述验证语音的第一声纹特征与第二声纹特征进行特征融合，得到所述验证语音的融合声纹特征向量，所述声纹识别程序被所述处理器执行时实现以下步骤：

利用马尔可夫链蒙特卡罗随机模型进行第一声纹特征维度和第二声纹特征维度的融合，得到所述验证语音的融合声纹特征向量。