CN110364169A

CN110364169A - 声纹识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN110364169A
Application number: CN201910777107.XA
Authority: CN
Inventors: 陈昊亮; 罗伟航; 李炳霖
Original assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Current assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2019-10-22

Abstract

本发明公开了一种声纹识别方法、装置、设备及计算机可读存储介质，该方法包括步骤：获取用于声纹识别的语音信息，并对语音信息进行分解，得到第一模态信号和除第一模态之外的模态信号；对第一模态信号进行降噪处理，再将降噪后的第一模态信号与除第一模态之外的模态信号进行相加重构，得到待识别声纹信息；计算待识别声纹信息的识别度；根据识别度判断待识别声纹信息是否为目标声纹。本发明提供了声纹识别的方法，提高了现有技术对声纹识别不准确的问题。

Description

声纹识别方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及终端技术领域，尤其涉及一种声纹识别方法、装置、设备及计算机可读存储介质。

背景技术

声纹识别技术起初应用于军事领域，后来该项技术的发展使得该项技术逐渐应用于法医鉴定，身份鉴别等领域，但是现有的声纹识别技术在实际应用中由于受到周围嘈杂环境的影响，采集的语音信息含有噪音，导致识别效果不佳，加之，一个人的声音易受身体状况、年龄、情绪等的影响，进一步的造成了声纹识别不准确的问题。

发明内容

本发明的主要目的在于提出一种声纹识别方法、装置、设备及计算机可读存储介质，旨在解决目前的声纹识别技术对声纹识别不准确的问题。

为实现上述目的，本发明提供了一种声纹识别方法，所述声纹识别方法包括：

获取用于声纹识别的语音信息，并对所述语音信息进行分解，得到第一模态信号和除所述第一模态之外的模态信号；

对所述第一模态信号进行降噪处理，再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构，得到待识别声纹信息；

计算所述待识别声纹信息的识别度；

根据所述识别度判断所述待识别声纹信息是否为目标声纹。

可选地，所述获取用于声纹识别的语音信息，并对所述语音信息进行分解，得到第一模态信号和除所述第一模态之外的模态信号的步骤包括：

将所述语音信息转换为数字信号，对所述数字信号进行特征提取，得到语音功率谱图；

采用集合经验模态分解方法对所述语音功率谱图进行分解，得到第一模态信号和除所述第一模态之外的模态信号。

可选地，所述对所述第一模态信号进行降噪处理，再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构，得到待识别声纹信息的步骤包括：

采用小波降噪方法对所述第一模态信号进行降噪处理，再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构，得到待识别声纹信息。

可选地，所述计算所述待识别声纹信息的识别度的步骤之前，还包括：

提取所述待识别声纹信息中的第一声纹特征和声纹识别模型中的第二声纹特征；

根据所述第一声纹特征，构造出所述第二声纹特征中的第二声纹特征向量。

可选地，所述根据所述第一声纹特征，构造出所述第二声纹特征中的第二声纹特征向量的步骤包括：

根据所述第一声纹特征中的第一声纹特征向量调整预先建立的声纹通用模型中与所述第一声纹特征向量对应的声纹特征向量参数，以构造出与所述待识别声纹信息相适应的所述声纹识别模型中的所述第二声纹特征中的第二声纹特征向量。

可选地，所述计算所述待识别声纹信息的识别度的步骤包括：

计算所述第一声纹特征中的每个所述第一声纹特征向量与所述第二声纹特征中每个与所述第一声纹特征向量相对应的所述第二声纹特征向量的向量距离；

根据计算得到的多个所述向量距离计算所述第一声纹特征与所述第二声纹特征的目标距离；

利用所述目标距离计算所述待识别声纹信息的识别度。

可选地，所述根据所述识别度判断所述待识别声纹信息是否为目标声纹的步骤之后，还包括:

若判断出所述识别度大于预设阈值，则识别出所述待识别声纹信息为所述目标声纹。

此外，为实现上述目的，本发明还提供一种声纹识别装置，所述声纹识别装置包括：

获取模块，用于获取用于声纹识别的语音信息；

分解模块，用于对所述语音信息进行分解，得到第一模态信号和除所述第一模态之外的模态信号；

降噪模块，用于对所述第一模态信号进行降噪处理；

重构模块，用于将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构，得到待识别声纹信息；

计算模块，用于计算所述待识别声纹信息的识别度；

判断模块，用于根据所述识别度判断所述待识别声纹信息是否为目标声纹。

此外，为实现上述目的，本发明还提供一种声纹识别设备，所述声纹识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹识别程序，所述声纹识别程序被所述处理器执行时实现如上文所述的声纹识别方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有声纹识别程序，所述声纹识别程序被处理器执行时实现如上文所述的声纹识别方法的步骤。

本发明通过对用于声纹识别的语音信息进行降噪处理，防止语音信息中的噪声影响声纹识别的效果，得到待识别声纹信息，再计算待识别声纹信息的识别度，根据识别度判断待识别声纹信息是否为目标信息，提高了声纹识别的准确度。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明声纹识别方法第一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种声纹识别设备，参照图1，图1是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图1即可为声纹识别设备的硬件运行环境的结构示意图。本发明实施例声纹识别设备可以是PC，便携计算机等终端设备。

如图1所示，该声纹识别设备可以包括：处理器1001，例如CPU，存储器1005，用户接口1003，网络接口1004，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，声纹识别设备还可以包括RF(Radio Frequency，射频)电路，传感器、WiFi模块等等。

本领域技术人员可以理解，图1中示出的声纹识别设备结构并不构成声纹识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及声纹识别程序。其中，操作***是管理和控制声纹识别设备硬件和软件资源的程序，支持声纹识别程序以及其它软件或程序的运行。

图1所示的声纹识别设备，可用于声纹识别设备的声纹识别，用户接口1003主要用于侦测或者输出各种消息，如侦测语音信息和输出目标声纹等；网络接口1004主要用于与后台服务器交互，进行通信；处理器1001可以用于调用存储器1005中存储的声纹识别程序，并执行以下操作：

计算所述待识别声纹信息的识别度；

根据所述识别度判断所述待识别声纹信息是否为目标声纹。

进一步地，所述获取用于声纹识别的语音信息，并对所述语音信息进行分解，得到第一模态信号和除所述第一模态之外的模态信号的步骤包括：

进一步地，所述对所述第一模态信号进行降噪处理，再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构，得到待识别声纹信息的步骤包括：

进一步地，所述计算所述待识别声纹信息的识别度的步骤之前，处理器1001还可以用于调用存储器1005中存储的声纹识别程序，并执行以下步骤：

进一步地，所述根据所述第一声纹特征，构造出所述第二声纹特征中的第二声纹特征向量的步骤包括：

进一步地，所述计算所述待识别声纹信息的识别度的步骤包括：

利用所述目标距离计算所述待识别声纹信息的识别度。

进一步地，所述根据所述识别度判断所述待识别声纹信息是否为目标声纹的步骤之后，处理器1001还可以用于调用存储器1005中存储的声纹识别程序，并执行以下步骤：

本发明声纹识别设备具体实施方式与下述声纹识别方法各实施例基本相同，在此不再赘述。

基于上述的硬件结构，提出本发明声纹识别方法的各个实施例。

参照图2，图2为本发明声纹识别方法第一实施例的流程示意图。

在本实施例中，提供了声纹识别方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中，声纹识别方法可选应用于声纹识别设备中，声纹识别设备可为PC，便携式计算机，服务器等。

在本实施例中，声纹识别方法包括：

步骤S10，获取用于声纹识别的语音信息，并对所述语音信息进行分解，得到第一模态信号和除所述第一模态之外的模态信号。

对用于声纹识别的语音信息进行分解，最终可以获取含有最多噪声能量的第一模态信息，以及除第一模态信号之外的其他模态信号。而其他模态信号所包含的噪声能量都是极少的，不会对分离出的说话人的语音信号造成影响。因此，不需对其进行降噪处理，只需对包含噪声能量最多的第一模态信号进行降噪处理即可。

步骤S20，对所述第一模态信号进行降噪处理，再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构，得到待识别声纹信息。

去除第一模态信号中的噪声，对去除噪声后的第一模态信号与除第一模态信号之外的其他模态信号进行相加重构，得到重组后的模态信号，该重组后的模态信号即为待识别声纹信息。

进一步地，步骤S20包括：

步骤a，采用小波降噪方法对所述第一模态信号进行降噪处理，再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构，得到待识别声纹信息。

利用小波降噪方法可以有效降低第一模态信号中的加性噪声，降低加性噪声对声纹识别结果的干扰。

小波去噪方法本质上是一个函数逼近问题，即如何在由小波母函数伸缩和平移版本所展成的函数空间中，根据提出的衡量准则，寻找对第一模态信号的最佳逼近，以完成第一模态信号和噪声信号的区分，也就是寻找从实际信号空间到小波函数空间的最佳映射，以便得到第一模态信号的最佳恢复

步骤S30，计算所述待识别声纹信息的识别度。

步骤S40，根据所述识别度判断所述待识别声纹信息是否为目标声纹。

待识别信息的识别度表示的是该待识别声纹信息与目标声纹的相似程度，根据该相似程度判断该待识别声纹信息是否为目标声纹。可以理解的是相似度越高，该待识别声纹信息为目标声纹的可能性越大。

判断待识别声纹信息是否为目标声纹的步骤包括：

步骤b，若判断出所述识别度大于预设阈值，则识别出所述待识别声纹信息为所述目标声纹。

预设阈值是判断待识别声纹信息是否为目标声纹的标准，其设定可以由研究人员根据实践经验设定，也可以根据实验测定结果设定，包括但不限于这两种设定方式。当待识别声纹信息的识别度大于预设阈值后，确定待识别声纹信息为目标声纹。如果待识别声纹信息的识别度小于或者等于预设阈值，该待识别声纹信息不是目标声纹，此时可以进行下一个语音信息的识别。

本实施例通过对输入的语音信息的降噪处理，得到待识别声纹信息，有效阻止了语音信息中的噪音对声纹识别的干扰，提高了声纹识别的准确度，再计算待识别声纹信息的识别度，通过该识别度判断待识别声纹信息是否为目标声纹，又进一步地提高了声纹识别的准确度。

进一步地，提出本发明声纹识别方法的第二实施例。声纹识别方法的第二实施例与声纹识别方法的第一实施例的区别在于，所述获取用于声纹识别的语音信息，并对所述语音信息进行分解，得到第一模态信号和除所述第一模态之外的模态信号的步骤包括：

步骤c，将所述语音信息转换为数字信号，对所述数字信号进行特征提取，得到语音功率谱图。

将用于声纹识别的语音信息转换成数字信号，就是对该语音信号进行数字化处理，得到语音信号的数字化编码，然后对该数字化编码进行特征处理，获取每个数字信号对应的功率，进而获得语音功率谱图。具体的获取过程为现有技术，在这里不再赘述。

步骤d，采用集合经验模态分解方法对所述语音功率谱图进行分解，得到第一模态信号和除所述第一模态之外的模态信号。

集合经验模态分解方法是将语音功率谱图在二维图像上分解为多个模态，包括第一模态信号。集合经验模态分解方法是针对工业现场间歇非平稳时间序列中的特征提取与状态预测问题，提出了一种基于集合经验模态分解、主要成分分析和支持向量机的预测新方法。

本实施例通过将语音信息转换为数字信号，对数字信号进行特征提取，得到语音功率谱图，再对语音功率谱图进行分解，分离出第一模态信号，使得在对第一模态信号降噪处理的同时可以尽量避免语音信息中其他有效信号的损失，进一步地提高了声纹识别的准确度。

进一步地，提出本发明声纹识别方法的第三实施例。声纹识别方法的第三实施例与声纹识别方法的第一或第二实施例的区别在于，所述声纹识别方法还包括：

步骤e，提取所述待识别声纹信息中的第一声纹特征和声纹识别模型中的第二声纹特征；

第一声纹特征包括但不限于多个第一声纹特征向量，4个实小波特征、4个双树复小波特征、梅尔倒谱系数特征、差分梅尔倒谱系数特征。声纹识别模型可以但不限于是根据待识别声纹中第一声纹特征的多个第一声纹特征向量对声纹通用模型进行调整后，得到与待识别声纹相适应的用于识别待识别声纹的声纹识别模型。声纹识别模型中包括但不限于第二声纹特征。

步骤f，根据所述第一声纹特征，构造出所述第二声纹特征中的第二声纹特征向量。

步骤g，根据所述第一声纹特征中的第一声纹特征向量调整预先建立的声纹通用模型中与所述第一声纹特征向量对应的声纹特征向量参数，以构造出与所述待识别声纹信息相适应的所述声纹识别模型中的所述第二声纹特征中的第二声纹特征向量。

第一声纹特征包括但不限于多个第一声纹特征向量，第二声纹特征包括但不限于多个第二声纹特征向量。例如，每个声纹特征包括10个VQ码本，也就是说，每个第一声纹特征向量对应一个VQ码本，其中，每个VQ码本对应一组特征集。

根据第一声纹中的多个第一声纹特征向量调整声纹通用模型，以得到与待识别声纹相适应的声纹识别模型，从而便于利用声纹识别模型实现声纹识别。

在提取待识别声纹中的第一声纹特征之前，通过调整通用模型以得到与待识别声纹相适应的声纹识别模型，实现对待识别声纹的预先注册，从而使得在声纹识别时可以根据预先注册的声纹识别模型直接进行准确识别，减小了模型建立的复杂度和建立周期，进而提高了声纹识别的可靠性及效率。

第一声纹特征中包括多个第一声纹特征向量，第二声纹特征中包括多个第二声纹特征向量，根据第一声纹特征和声纹识别模型中的第二声纹特征计算待识别声纹的识别度的步骤包括：

步骤h，计算所述第一声纹特征中的每个所述第一声纹特征向量与所述第二声纹特征中每个与所述第一声纹特征向量相对应的所述第二声纹特征向量的向量距离；

步骤i，根据计算得到的多个所述向量距离计算所述第一声纹特征与所述第二声纹特征的目标距离；

步骤j，利用所述目标距离计算所述待识别声纹信息的识别度。

待识别声纹信息的第一声纹特征中的第一声纹特征向量与声纹识别模型的第二声纹特征中的第二声纹特征向量之间的向量距离，对多个向量距离进行归一化处理，并加权求和得到第一声纹特征与第二声纹特征的目标距离，根据目标距离计算第一声纹特征的识别度，第一声纹特征的识别度即为待识别声纹信息的识别度。

本实施例通过提取待识别声纹信息中的第一声纹特征和声纹识别模型中的第二声纹特征，计算第一声纹特征中第一声纹特征向量与第二声纹特征中第二声纹特征向量的多个向量距离，再根据多个向量距离准确计算第一声纹特征与第二声纹特征的目标距离，进一步地保证了声纹识别度的准确性。

此外，本发明实施例还提出一种声纹识别装置，所述声纹识别装置包括：

获取模块，用于获取用于声纹识别的语音信息；

降噪模块，用于对所述第一模态信号进行降噪处理；

计算模块，用于计算所述待识别声纹信息的识别度；

进一步地，所述分解模块包括：

转换单元，用于将所述语音信息转换为数字信号；

提取单元，用于对所述数字信号进行特征提取，得到语音功率谱图；

分解单元，用于采用集合经验模态分解方法对所述语音功率谱图进行分解，得到第一模态信号和除所述第一模态之外的模态信号。

进一步地，所述降噪模块还用于采用小波降噪方法对所述第一模态信号进行降噪处理。

进一步地，所述声纹识别装置还包括：

提取模块，用于提取所述待识别声纹信息中的第一声纹特征和声纹识别模型中的第二声纹特征；

构造模块，用于根据所述第一声纹特征，构造出所述第二声纹特征中的第二声纹特征向量。

进一步地，所述构造模块还用于根据所述第一声纹特征中的第一声纹特征向量调整预先建立的声纹通用模型中与所述第一声纹特征向量对应的声纹特征向量参数，以构造出与所述待识别声纹信息相适应的所述声纹识别模型中的所述第二声纹特征中的第二声纹特征向量。

进一步地，所述计算模块还用于计算所述第一声纹特征中的每个所述第一声纹特征向量与所述第二声纹特征中每个与所述第一声纹特征向量相对应的所述第二声纹特征向量的向量距离；根据计算得到的多个所述向量距离计算所述第一声纹特征与所述第二声纹特征的目标距离；利用所述目标距离计算所述待识别声纹信息的识别度。

进一步地，所述声纹识别装置还包括：

识别模块，用于若判断出所述识别度大于预设阈值，则识别出所述待识别声纹信息为所述目标声纹。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有声纹识别程序，所述声纹识别程序被处理器执行时实现如上所述的声纹识别方法的各个步骤。

需要说明的是，计算机可读存储介质可设置在声纹识别设备中。

本发明计算机可读存储介质具体实施方式与上述声纹识别方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种声纹识别的方法，其特征在于，所述声纹识别的方法包括：

计算所述待识别声纹信息的识别度；

根据所述识别度判断所述待识别声纹信息是否为目标声纹。

2.如权利要求1所述的声纹识别方法，其特征在于，所述获取用于声纹识别的语音信息，并对所述语音信息进行分解，得到第一模态信号和除所述第一模态之外的模态信号的步骤包括：

3.如权利要求1所述的声纹识别方法，其特征在于，所述对所述第一模态信号进行降噪处理，再将降噪后的所述第一模态信号与所述除所述第一模态之外的模态信号进行相加重构，得到待识别声纹信息的步骤包括：

4.如权利要求1所述的声纹识别方法，其特征在于，所述计算所述待识别声纹信息的识别度的步骤之前，还包括：

5.如权利要求4所述的声纹识别方法，其特征在于，所述根据所述第一声纹特征，构造出所述第二声纹特征中的第二声纹特征向量的步骤包括：

6.如权利要求1所述的声纹识别方法，其特征在于，所述计算所述待识别声纹信息的识别度的步骤包括：

利用所述目标距离计算所述待识别声纹信息的识别度。

7.如权利要求1至6所述的声纹识别方法，其特征在于，所述根据所述识别度判断所述待识别声纹信息是否为目标声纹的步骤之后，还包括:

8.一种声纹识别装置，其特征在于，所述声纹装置包括：

获取模块，用于获取用于声纹识别的语音信息；

降噪模块，用于对所述第一模态信号进行降噪处理；

计算模块，用于计算所述待识别声纹信息的识别度；

9.一种声纹识别设备，其特征在于，所述声纹识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹识别程序，所述声纹识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的声纹识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有声纹识别程序，所述声纹识别程序被处理器执行时实现如权利要求1至7中任一项所述的声纹识别方法的步骤。