CN112466310A

CN112466310A - 深度学习声纹识别方法、装置、电子设备及存储介质

Info

Publication number: CN112466310A
Application number: CN202011105315.4A
Authority: CN
Inventors: 张震; 石瑾; 李鹏; 李沁; 计哲; 万辛
Original assignee: National Computer Network and Information Security Management Center; Iflytek Information Technology Co Ltd
Current assignee: National Computer Network and Information Security Management Center; Iflytek Information Technology Co Ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-03-09

Abstract

本发明公开了深度学习声纹识别方法、装置、电子设备及存储介质，该方法包括：获取包含用户个人信息的音频数据，输入特征提取模型，输出用户个人信息+声纹音频数据；将所述声纹音频数据输入已训练的声纹识别模型，输出声纹识别信息；根据预先存储的验证音频信息对所述声纹识别信息和用户个人信息进行识别，以识别用户身份；响应于所述用户身份识别成功，输出音频数据的声纹识别指令。本发明解决了传统声纹识别算法或者单纯数字密码验证的局限性，实现了较理想的密码验证准确率。

Description

深度学习声纹识别方法、装置、电子设备及存储介质

技术领域

本发明涉及一种深度学习声纹识别方法、装置、电子设备及存储介质，属于音频识别技术领域。

背景技术

现有的智能终端的密码验证方式仅仅依靠原有的数字密码验证不能满足多重验证的需要，因此声纹数据关联数字密码的验证方式被引入智能终端的登录验证场景中。

基于传统声纹识别算法或者单纯数字密码验证的局限性，要取得较理想的密码验证准确率，必须对有效长语音进行识别，而在声纹识别的实际应用中，用户讲话习惯决定用户的录音往往达不到有效长语音的要求，因而实际场景下的声纹识别准确率相对较低，在某些特定场景下甚至无法达到可应用的最低要求。

发明内容

本发明的目的在于，克服现有技术存在的技术缺陷，解决上述技术问题，提出一种深度学习声纹识别方法、装置、电子设备及存储介质。

本发明具体采用如下技术方案：深度学习声纹识别方法，所述方法包括：

获取包含用户个人信息的音频数据，输入特征提取模型，输出用户个人信息+声纹音频数据；

将所述声纹音频数据输入已训练的声纹识别模型，输出声纹识别信息；

根据预先存储的验证音频信息对所述声纹识别信息和用户个人信息进行识别，以识别用户身份；响应于所述用户身份识别成功，输出音频数据的声纹识别指令。

作为一种较佳的实施例，所述特征提取模型用于将包含用户个人信息的音频数据区分为相关联的用户个人信息+声纹音频数据。

作为一种较佳的实施例，所述声纹识别模型通过如下方式训练：获取历史用户的历史验证音频数据；将预处理后的历史验证音频数据输入至声纹识别模型，并基于识别分类误差信息对所述声纹识别模型进行训练。

作为一种较佳的实施例，基于识别分类误差信息对所述声纹识别模型进行训练包括：基于所述识别分类误差信息与预定误差阈值对所述神经网络的参数进行调整，以为输入所述池化层的不同语音帧设置不同的权重；响应于所述识别分类误差信息小于等于预定误差阈值，所述声纹识别模型训练完成。

本发明还提出深度学习声纹识别装置，包括：

特征提取模块，用于执行：获取包含用户个人信息的音频数据，输入特征提取模型，输出用户个人信息+声纹音频数据；

声纹识别模块，用于执行：将所述声纹音频数据输入已训练的声纹识别模型，输出声纹识别信息；

身份指令融合模块，用于执行：根据预先存储的验证音频信息对所述声纹识别信息和用户个人信息进行识别，以识别用户身份；响应于所述用户身份识别成功，输出音频数据的声纹识别指令。

作为一种较佳的实施例，所述基于识别分类误差信息对所述声纹识别模型进行训练包括：基于所述识别分类误差信息与预定误差阈值对所述神经网络的参数进行调整，以为输入所述池化层的不同语音帧设置不同的权重；响应于所述识别分类误差信息小于等于预定误差阈值，所述声纹识别模型训练完成。

本发明还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述深度学习声纹识别方法的步骤。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述深度学习声纹识别方法的步骤。

本发明所达到的有益效果：本发明针对如何解决现有的智能终端的密码验证方式仅仅依靠原有的数字密码验证不能满足多重验证的需要，因此声纹数据关联数字密码的验证方式被引入智能终端的登录验证场景中；基于传统声纹识别算法或者单纯数字密码验证的局限性，要取得较理想的密码验证准确率，必须对有效长语音进行识别，而在声纹识别的实际应用中，用户讲话习惯决定用户的录音往往达不到有效长语音的要求，因而实际场景下的密码验证的准确率相对较低，在某些特定场景下甚至无法达到可应用的最低要求的技术需求，通过设计深度学习声纹识别方法，获取包含用户个人信息的音频数据，输入特征提取模型，输出用户个人信息+声纹音频数据；将所述声纹音频数据输入已训练的声纹识别模型，输出声纹识别信息；根据预先存储的验证音频信息对所述声纹识别信息和用户个人信息进行识别，以识别用户身份；响应于所述用户身份识别成功，输出音频数据的声纹识别指令，解决了传统声纹识别算法或者单纯数字密码验证的局限性，实现了较理想的密码验证准确率。

附图说明

图1是本发明的深度学习声纹识别装置的拓扑原理示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1：深度学习声纹识别方法，所述方法包括：获取包含用户个人信息的音频数据，输入特征提取模型，输出用户个人信息+声纹音频数据；

可选的，所述特征提取模型用于将包含用户个人信息的音频数据区分为相关联的用户个人信息+声纹音频数据。

可选的，所述声纹识别模型通过如下方式训练：获取历史用户的历史验证音频数据；将预处理后的历史验证音频数据输入至声纹识别模型，并基于识别分类误差信息对所述声纹识别模型进行训练。

可选的，基于识别分类误差信息对所述声纹识别模型进行训练包括：基于所述识别分类误差信息与预定误差阈值对所述神经网络的参数进行调整，以为输入所述池化层的不同语音帧设置不同的权重；响应于所述识别分类误差信息小于等于预定误差阈值，所述声纹识别模型训练完成。

实施例2：如图1所示，本发明还提出深度学习声纹识别装置，包括：

可选的，所述基于识别分类误差信息对所述声纹识别模型进行训练包括：基于所述识别分类误差信息与预定误差阈值对所述神经网络的参数进行调整，以为输入所述池化层的不同语音帧设置不同的权重；响应于所述识别分类误差信息小于等于预定误差阈值，所述声纹识别模型训练完成。

实施例3：本发明还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述深度学习声纹识别方法的步骤。

实施例4：本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述深度学习声纹识别方法的步骤。

本发明针对如何解决现有的智能终端的密码验证方式仅仅依靠原有的数字密码验证不能满足多重验证的需要，因此声纹数据关联数字密码的验证方式被引入智能终端的登录验证场景中；基于传统声纹识别算法或者单纯数字密码验证的局限性，要取得较理想的密码验证准确率，必须对有效长语音进行识别，而在声纹识别的实际应用中，用户讲话习惯决定用户的录音往往达不到有效长语音的要求，因而实际场景下的密码验证的准确率相对较低，在某些特定场景下甚至无法达到可应用的最低要求的技术需求，通过设计深度学习声纹识别方法，获取包含用户个人信息的音频数据，输入特征提取模型，输出用户个人信息+声纹音频数据；将所述声纹音频数据输入已训练的声纹识别模型，输出声纹识别信息；根据预先存储的验证音频信息对所述声纹识别信息和用户个人信息进行识别，以识别用户身份；响应于所述用户身份识别成功，输出音频数据的声纹识别指令，解决了传统声纹识别算法或者单纯数字密码验证的局限性，实现了较理想的密码验证准确率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.深度学习声纹识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的深度学习声纹识别方法，其特征在于，所述特征提取模型用于将包含用户个人信息的音频数据区分为相关联的用户个人信息+声纹音频数据。

3.根据权利要求1所述的深度学习声纹识别方法，其特征在于，所述声纹识别模型通过如下方式训练：获取历史用户的历史验证音频数据；将预处理后的历史验证音频数据输入至声纹识别模型，并基于识别分类误差信息对所述声纹识别模型进行训练。

4.根据权利要求3所述的深度学习声纹识别方法，其特征在于，基于识别分类误差信息对所述声纹识别模型进行训练包括：基于所述识别分类误差信息与预定误差阈值对所述神经网络的参数进行调整，以为输入所述池化层的不同语音帧设置不同的权重；响应于所述识别分类误差信息小于等于预定误差阈值，所述声纹识别模型训练完成。

5.深度学习声纹识别装置，其特征在于，包括：

6.根据权利要求5所述的深度学习声纹识别装置，其特征在于，所述特征提取模型用于将包含用户个人信息的音频数据区分为相关联的用户个人信息+声纹音频数据。

7.根据权利要求5所述的深度学习声纹识别装置，其特征在于，所述声纹识别模型通过如下方式训练：获取历史用户的历史验证音频数据；将预处理后的历史验证音频数据输入至声纹识别模型，并基于识别分类误差信息对所述声纹识别模型进行训练。

8.根据权利要求7所述的深度学习声纹识别装置，其特征在于，所述基于识别分类误差信息对所述声纹识别模型进行训练包括：基于所述识别分类误差信息与预定误差阈值对所述神经网络的参数进行调整，以为输入所述池化层的不同语音帧设置不同的权重；响应于所述识别分类误差信息小于等于预定误差阈值，所述声纹识别模型训练完成。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至4中任一项所述方法的步骤。