CN112614493B

CN112614493B - 声纹识别方法、***、存储介质及电子设备

Info

Publication number: CN112614493B
Application number: CN202011409154.8A
Authority: CN
Inventors: 张鹏; 吴伟; 李明杰; 詹培旋; 王彬
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2022-11-11
Anticipated expiration: 2040-12-04
Also published as: CN112614493A

Abstract

本申请涉及声纹识别技术领域，具体涉及一种声纹识别方法、***、存储介质及电子设备，解决了相关技术中由于采用固定感受野的方形卷积导致最终声纹识别效果较差的问题。该方法包括：通过预先训练完成的卷积神经网络模型提取语音信息中的待验证声纹特征；卷积神经网络模型由包括可变形卷积层的卷积神经网络训练得到；比较待验证声纹特征与注册声纹特征的相似度，判断相似度结果是否大于预设阈值，若判定相似度结果大于预设阈值，则声纹识别成功。通过加入可变形卷积层的卷积神经网络提取声纹特征，实现对不同的声纹特征进行自适应的感受野改变，使最终得到的卷积神经网络模型具有更高的鲁棒性，提升声纹识别精度。

Description

声纹识别方法、***、存储介质及电子设备

技术领域

本申请涉及声纹识别技术领域，特别地涉及一种声纹识别方法、***、存储介质及电子设备。

背景技术

声纹识别，是一种基于语音进行身份认证的技术，属于生物特征识别的一种。声纹识别的应用领域非常广泛，并将随着智能语音技术的发展而不断推广普及。近年来，深度学习的应用开始成为声纹识别领域的热点，得益于大量有标签的音频数据，采用深度卷积神经网络建模的声纹识别***表现出很大的识别性能提升。

目前采用的深度卷积神经网络建模的声纹识别方法中，卷积神经网络的卷积核会对输入特征的局部区域进行卷积操作，采用的是传统的方形卷积，只能对固定的方形区域内的声纹特征进行采样，无法对不同的声纹特征进行自适应的感受野改变，导致最终的声纹识别效果较差。

发明内容

针对上述问题，本申请提供一种声纹识别方法、***、存储介质及电子设备，解决了相关技术中由于采用固定感受野的方形卷积导致最终声纹识别效果较差的技术问题。

第一方面，本申请提供了一种声纹识别方法，所述方法包括：

接收语音信息；

通过预先训练完成的卷积神经网络模型提取所述语音信息中的待验证声纹特征；所述预先训练完成的卷积神经网络模型由包括可变形卷积层的卷积神经网络训练得到；

比较所述待验证声纹特征与预先完成注册的注册声纹特征的相似度，得到相似度结果；

判断所述相似度结果是否大于预设阈值，若判定所述相似度结果大于预设阈值，则声纹识别成功。

可选的，所述比较所述待验证声纹特征与预先完成注册的注册声纹特征的相似度，得到相似度结果，包括：

通过余弦计算方法计算所述待验证声纹特征与预先完成注册的注册声纹特征的相似度，得到相似度结果。

可选的，所述注册声纹特征的注册过程包括：

接收注册语音信息；

通过预先训练完成的卷积神经网络模型提取所述注册语音信息中的注册声纹特征；所述预先训练完成的卷积神经网络模型由包括可变形卷积层的卷积神经网络训练得到。

可选的，所述卷积神经网络模型的训练过程包括：

建立卷积神经网络；所述卷积神经网络包括依次排列的第一卷积层、第一池化层、可变形卷积层、第二池化层、第二卷积层、全连接层；所述第一卷积层包括第一子卷积层和第二子卷积层，所述可变形卷积层包括第一子可变形卷积层和第二子可变形卷积层；

将预先完成标记的训练声纹特征作为输入对所述卷积神经网络进行训练，得到所述卷积神经网络模型。

可选的，所述训练声纹特征为梅尔频率倒谱系数特征。

可选的，所述可变形卷积层用于在卷积核的每一个元素上增加一个偏移量参数，得到自适应感受野。

可选的，所述第一池化层和第二池化层用于减少特征大小、扩大感受野和/或减少计算量。

第二方面，一种声纹识别***，所述***包括：

接收单元，用于接收语音信息；

提取单元，用于通过预先训练完成的卷积神经网络模型提取所述语音信息中的待验证声纹特征；所述预先训练完成的卷积神经网络模型由包括可变形卷积层的卷积神经网络训练得到；

比较单元，用于比较所述待验证声纹特征与预先完成注册的注册声纹特征的相似度，得到相似度结果；

验证单元，用于判断所述相似度结果是否大于预设阈值，若判定所述相似度结果大于预设阈值，则声纹识别成功。

第三方面，一种存储介质，该存储介质存储的计算机程序，可被一个或多个处理器执行，可用来实现如上述第一方面所述的声纹识别方法。

第四方面，一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述存储器和所述处理器之间互相通信连接，该计算机程序被所述处理器执行时，执行如上述第一方面所述的声纹识别方法。

本申请提供的一种声纹识别方法、***、存储介质及电子设备，包括：接收语音信息；通过预先训练完成的卷积神经网络模型提取所述语音信息中的待验证声纹特征；所述预先训练完成的卷积神经网络模型由包括可变形卷积层的卷积神经网络训练得到；比较所述待验证声纹特征与预先完成注册的注册声纹特征的相似度，得到相似度结果；判断所述相似度结果是否大于预设阈值，若判定所述相似度结果大于预设阈值，则声纹识别成功。本申请通过加入可变形卷积层的卷积神经网络提取声纹特征，实现对不同的声纹特征进行自适应的感受野改变，使最终得到的卷积神经网络模型具有更高的鲁棒性，提升声纹识别精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种声纹识别方法的流程示意图；

图2为本申请实施例提供的卷积神经网络的结构示意图；

图3为本申请实施例提供的一种声纹识别***的结构示意图；

图4为本申请实施例提供的一种电子设备的连接框图。

具体实施方式

以下将结合附图及实施例来详细说明本申请的实施方式，借此对本申请如何应用技术手段来解决技术问题，并达到相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本申请的保护范围之内。

由背景技术可知，目前采用的深度卷积神经网络建模的声纹识别方法中，卷积神经网络的卷积核会对输入特征的局部区域进行卷积操作，采用的是传统的方形卷积，只能对固定的方形区域内的声纹特征进行采样，无法对不同的声纹特征进行自适应的感受野改变，导致最终的声纹识别效果较差。

有鉴于此，本申请提供一种声纹识别方法、***、存储介质及电子设备，解决了相关技术中由于采用固定感受野的方形卷积导致最终声纹识别效果较差的技术问题。

实施例一

图1为本申请实施例提供的一种声纹识别方法的流程示意图，如图1所示，本方法包括：

S101、接收语音信息；

S102、通过预先训练完成的卷积神经网络模型提取所述语音信息中的待验证声纹特征；

在步骤S102中，所述预先训练完成的卷积神经网络模型由包括可变形卷积层的卷积神经网络训练得到。

S103、比较所述待验证声纹特征与预先完成注册的注册声纹特征的相似度，得到相似度结果；

S104、判断所述相似度结果是否大于预设阈值，若判定所述相似度结果大于预设阈值，则声纹识别成功。

需要说明的是，由于声纹识别***需要验证的人员集合并不固定，增加一个人员就重新训练一次卷积神经网络模型并不现实，因此，卷积神经网络模型在整个方法中起到的是特征提取的作用，并不作为分类器或者识别器。

需要说明的是，本发明包括但不限于采用余弦计算方法计算待验证声纹特征与预先完成注册的注册声纹特征的相似度，也可以根据需要采用其他计算方式，只要最终得到待验证声纹特征与预先完成注册的注册声纹特征的相似度即可。

可选的，所述注册声纹特征的注册过程包括：

接收注册语音信息；

需要说明的是，为了解决待识别人员增加的问题，可以采用预先完成注册的方式，对增加人员的声纹特征进行注册，以备后续声纹识别时进行相似度比较。

可选的，所述卷积神经网络模型的训练过程包括：

需要说明的是，第一卷积层是用于对输入的训练声纹特征进行初步提取，得到中间层特征，方便后续可变形卷积层等的继续处理。

具体的，如图2所示，为本申请实施例提供的卷积神经网络的结构示意图，在将训练声纹特征输入到第一卷积层后，进行特征提取，得到中间层特征，然后中间层特征依次经过各个层处理后，通过全连接层输出。

可选的，所述训练声纹特征为梅尔频率倒谱系数特征。

需要说明的是，梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性。由于这种特征不依赖于信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成果。因此，这种参数比基于声道模型的LPCC相比具有更好的鲁邦性，更符合人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能。

需要说明的是，在将训练声纹特征输入到第一卷积层后，进行特征提取，得到中间层特征，同时可以学习得到卷积核的每个元素的具体偏移量，在训练过程来到可变形卷积层时，对所述卷积核的每个元素的具体偏移量增加一个偏移量参数，所述偏移量参数可以使采样网络的感受野可以根据待测目标的形状进行自适应调整，得到最精准的特征。

综上所述，本申请实施例提供了一种声纹识别方法，包括：接收语音信息；通过预先训练完成的卷积神经网络模型提取所述语音信息中的待验证声纹特征；所述预先训练完成的卷积神经网络模型由包括可变形卷积层的卷积神经网络训练得到；比较所述待验证声纹特征与预先完成注册的注册声纹特征的相似度，得到相似度结果；判断所述相似度结果是否大于预设阈值，若判定所述相似度结果大于预设阈值，则声纹识别成功。通过加入可变形卷积层的卷积神经网络提取声纹特征，实现对不同的声纹特征进行自适应的感受野改变，使最终得到的卷积神经网络模型具有更高的鲁棒性，提升声纹识别精度。

实施例二

基于上述本发明实施例公开的声纹识别方法，图3具体公开了应用该声纹识别方法的声纹识别***。

如图3所示，本发明实施例公开了一种声纹识别***，该***包括：

接收单元301，用于接收语音信息；

提取单元302，用于通过预先训练完成的卷积神经网络模型提取所述语音信息中的待验证声纹特征；所述预先训练完成的卷积神经网络模型由包括可变形卷积层的卷积神经网络训练得到；

比较单元303，用于比较所述待验证声纹特征与预先完成注册的注册声纹特征的相似度，得到相似度结果；

验证单元304，用于判断所述相似度结果是否大于预设阈值，若判定所述相似度结果大于预设阈值，则声纹识别成功。

以上本发明实施例公开的声纹识别***中的接收单元301、提取单元302、比较单元303和验证单元304的具体工作过程，可参见本发明上述实施例公开的声纹识别方法中的对应内容，这里不再进行赘述。

综上所述，本申请实施例提供了一种声纹识别***，包括：接收语音信息；通过预先训练完成的卷积神经网络模型提取所述语音信息中的待验证声纹特征；所述预先训练完成的卷积神经网络模型由包括可变形卷积层的卷积神经网络训练得到；比较所述待验证声纹特征与预先完成注册的注册声纹特征的相似度，得到相似度结果；判断所述相似度结果是否大于预设阈值，若判定所述相似度结果大于预设阈值，则声纹识别成功。通过加入可变形卷积层的卷积神经网络提取声纹特征，实现对不同的声纹特征进行自适应的感受野改变，使最终得到的卷积神经网络模型具有更高的鲁棒性，提升声纹识别精度。

实施例三

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，该计算机程序被处理器执行时可以实现如实施例一的方法步骤，本实施例在此不再重复赘述。

实施例四

图4为本申请实施例提供的一种电子设备500的连接框图，如图4所示，该电子设备500可以包括：处理器501，存储器502，多媒体组件503，输入/输出(I/O)接口504，以及通信组件505。

其中，处理器501用于执行如实施例一中的声纹识别方法中的全部或部分步骤。存储器502用于存储各种类型的数据，这些数据例如可以包括电子设备中的任何应用程序或方法的指令，以及应用程序相关的数据。

处理器501可以是专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable LogicDevice，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述实施例一中的声纹识别方法。

存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

多媒体组件503可以包括屏幕和音频组件，该屏幕可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或通过通信组件发送。音频组件还包括至少一个扬声器，用于输出音频信号。

I/O接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。

通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件505可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

综上，本申请提供的一种声纹识别方法、***、存储介质及电子设备，该方法包括：接收语音信息；通过预先训练完成的卷积神经网络模型提取所述语音信息中的待验证声纹特征；所述预先训练完成的卷积神经网络模型由包括可变形卷积层的卷积神经网络训练得到；比较所述待验证声纹特征与预先完成注册的注册声纹特征的相似度，得到相似度结果；判断所述相似度结果是否大于预设阈值，若判定所述相似度结果大于预设阈值，则声纹识别成功。通过加入可变形卷积层的卷积神经网络提取声纹特征，实现对不同的声纹特征进行自适应的感受野改变，使最终得到的卷积神经网络模型具有更高的鲁棒性，提升声纹识别精度。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的方法，也可以通过其它的方式实现。以上所描述的方法实施例仅仅是示意性的。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然本申请所揭露的实施方式如上，但上述的内容只是为了便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属技术领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种声纹识别方法，其特征在于，所述方法包括：

接收语音信息；

判断所述相似度结果是否大于预设阈值，若判定所述相似度结果大于预设阈值，则声纹识别成功；

所述卷积神经网络模型的训练过程包括：

2.根据权利要求1所述的方法，其特征在于，所述比较所述待验证声纹特征与预先完成注册的注册声纹特征的相似度，得到相似度结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述注册声纹特征的注册过程包括：

接收注册语音信息；

4.根据权利要求1所述的方法，其特征在于，所述训练声纹特征为梅尔频率倒谱系数特征。

5.根据权利要求1所述的方法，其特征在于，所述可变形卷积层用于在卷积核的每一个元素上增加一个偏移量参数，得到自适应感受野。

6.根据权利要求1所述的方法，其特征在于，所述第一池化层和第二池化层用于减少特征大小、扩大感受野和/或减少计算量。

7.一种声纹识别***，其特征在于，所述***包括：

接收单元，用于接收语音信息；

验证单元，用于判断所述相似度结果是否大于预设阈值，若判定所述相似度结果大于预设阈值，则声纹识别成功；

所述卷积神经网络模型的训练过程包括：

8.一种存储介质，其特征在于，该存储介质存储的计算机程序，可被一个或多个处理器执行，可用来实现如权利要求1～6任意一项所述的声纹识别方法。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有计算机程序，所述存储器和所述处理器之间互相通信连接，该计算机程序被所述处理器执行时，执行如权利要求1～6任意一项所述的声纹识别方法。