CN106782567B

CN106782567B - 建立声纹模型的方法和装置

Info

Publication number: CN106782567B
Application number: CN201611005290.4A
Authority: CN
Inventors: 卢道和; 陈朝亮; 杨军; 黄叶飞; 杨粟; 李晓俊; 钟伟
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2016-11-11
Filing date: 2016-11-11
Publication date: 2020-04-03
Anticipated expiration: 2036-11-11
Also published as: CN106782567A

Abstract

本发明公开了一种建立声纹模型的方法和装置，所述方法包括：当获取到人脸视频，且成功识别所述人脸视频的人脸图像时，提取所述人脸视频中的音频文件，记为第一音频文件；输出提示信息，以提示审核人员审核所述人脸视频；当接收到所述人脸视频审核通过的通知消息时，根据所述第一音频文件建立声纹模型。本发明实现了在人脸识别的基础上，进一步获取用户的音频文件，根据所获取的音频文件建立声纹模型，当下次接收到用户的人脸视频时，只有当人脸视频中的人脸图像识别成功，且人脸视频中的音频文件与所建立的声纹模型吻合时，确认用户为真实的用户，以提高用户识别的准确性。

Description

建立声纹模型的方法和装置

技术领域

本发明涉及身份识别技术领域，尤其涉及一种建立声纹模型的方法和装置。

背景技术

随着科学技术的发展，现在很多银行业务都可以不去银行柜台办理，比如银行卡查询业务，冻结业务，开户业务等，用户可直接通过电话或者在互联网上办理各项业务。但是，现有的通过电话或者在互联网上办理各项业务，都需要输入银行卡账号和密码，如果银行卡账号输入错误或者密码输入错误，则需要重新输入。而且，当用户输入3次密码都错误时，银行卡将会被锁定，用户则不可以再办理相应的业务，直至用户去银行柜台解锁银行卡。因此，现有的解决方案只能通过人脸识别来确认用户的身份。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种建立声纹模型的方法和装置，旨在解决如何在人脸识别的基础上提高识别用户准确率的技术问题。

为实现上述目的，本发明提供的一种建立声纹模型的方法，所述建立声纹模型的方法包括：

当获取到人脸视频，且成功识别所述人脸视频的人脸图像时，提取所述人脸视频中的音频文件，记为第一音频文件；

输出提示信息，以提示审核人员审核所述人脸视频；

当接收到所述人脸视频审核通过的通知消息时，根据所述第一音频文件建立声纹模型。

优选地，所述当接收到所述人脸视频审核通过的通知消息时，根据所述第一音频文件建立声纹模型的步骤包括：

当接收到所述人脸视频审核通过的通知消息时，判断是否已存在声纹模型；

若未存在声纹模型，则根据所述第一音频文件建立声纹模型；

若已存在声纹模型，则删除已存在的声纹模型，提取所存储的第二音频文件，其中，所述第二音频文件为注册成功的音频文件；

根据所述第一音频文件和所述第二音频文件建立声纹模型。

优选地，所述提取所存储的第二音频文件的步骤包括：

判断是否存储有预设数目的所述第二音频文件；

若存储有所述预设数目的所述第二音频文件，则所述根据所述第一音频文件和所述第二音频文件建立声纹模型的步骤包括：

根据最近所存储预设数目的所述第二音频文件和所述第一音频文件建立声纹模型。

优选地，所述判断是否存储有预设数目的所述第二音频文件的步骤之后，还包括：

若未存储有所述预设数目的所述第二音频文件，则获取所存储的所有所述第二音频文件；

所述根据所述第一音频文件和所述第二音频文件建立声纹模型的步骤包括：

根据所获取的所有所述第二音频文件和所述第一音频文件建立声纹模型。

优选地，所述当获取到人脸视频，且成功识别所述人脸视频的人脸图像时，提取所述人脸视频中的音频文件，记为第一音频文件的步骤之后，还包括：

判断是否已存在声纹模型；

若未存在声纹模型，则执行输出提示信息，以提示审核人员审核所述人脸视频的步骤；

若已存在声纹模型，则提取与所述声纹模型对应的音频文件，记为第三音频文件；

将所述第一音频文件与所述第三音频文件进行对比，得到所述第一音频文件与所述第三音频文件之间的相似度；

将所述第一音频文件与所述第三音频文件之间的相似度发送给异步审核***，并执行输出提示信息，以提示审核人员审核所述人脸视频的步骤。

此外，为实现上述目的，本发明还提供一种建立声纹模型的装置，所述建立声纹模型的装置包括：

提取模块，用于当获取到人脸视频，且成功识别所述人脸视频的人脸图像时，提取所述人脸视频中的音频文件，记为第一音频文件；

输出模块，用于输出提示信息，以提示审核人员审核所述人脸视频；

建立模块，用于当接收到所述人脸视频审核通过的通知消息时，根据所述第一音频文件建立声纹模型。

优选地，所述建立模块包括：

判断单元，用于当接收到所述人脸视频审核通过的通知消息时，判断是否已存在声纹模型；

建立单元，用于若未存在声纹模型，则根据所述第一音频文件建立声纹模型；

提取单元，用于若已存在声纹模型，则删除已存在的声纹模型，提取所存储的第二音频文件，其中，所述第二音频文件为注册成功的音频文件；

所述建立单元还用于根据所述第一音频文件和所述第二音频文件建立声纹模型。

优选地，所述判断单元还用于判断是否存储有预设数目的所述第二音频文件；

所述建立单元还用于若存储有所述预设数目的所述第二音频文件，则根据最近所存储预设数目的所述第二音频文件和所述第一音频文件建立声纹模型。

优选地，所述建立模块还包括：

获取单元，用于若未存储有所述预设数目的所述第二音频文件，则获取所存储的所有所述第二音频文件；

所述建立单元还用于根据所获取的所有所述第二音频文件和所述第一音频文件建立声纹模型。

优选地，所述建立声纹模型的装置还包括：

判断模块，用于判断是否已存在声纹模型；

所述输出模块还用于若未存在声纹模型，则输出提示信息，以提示审核人员审核所述人脸视频；

所述提取模块还用于若已存在声纹模型，则提取与所述声纹模型对应的音频文件，记为第三音频文件；

所述建立声纹模型的装置还包括：

对比模块，用于将所述第一音频文件与所述第三音频文件进行对比，得到所述第一音频文件与所述第三音频文件之间的相似度；

发送模块，用于将所述第一音频文件与所述第三音频文件之间的相似度发送给异步审核***。

本发明通过当获取到人脸视频，且成功识别所述人脸视频的人脸图像时，提取所述人脸视频中的音频文件，记为第一音频文件；输出提示信息，以提示审核人员审核所述人脸视频；当接收到所述人脸视频审核通过的通知消息时，根据所述第一音频文件建立声纹模型。实现了在人脸识别的基础上，进一步获取用户的音频文件，根据所获取的音频文件建立声纹模型，当下次接收到用户的人脸视频时，只有当人脸视频中的人脸图像识别成功，且人脸视频中的音频文件与所建立的声纹模型吻合时，确认用户为真实的用户，以提高用户识别的准确性。

附图说明

图1为本发明建立声纹模型的方法的第一实施例的流程示意图；

图2为本发明建立声纹模型的方法的第二实施例的流程示意图；

图3为本发明建立声纹模型的装置的第一实施例的功能模块示意图；

图4为本发明建立声纹模型的装置的第二实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明建立声纹模型的方法的第一实施例的流程示意图。

在本实施例中，所述建立声纹模型的方法包括：

步骤S10，当获取到人脸视频，且成功识别所述人脸视频的人脸图像时，提取所述人脸视频中的音频文件，记为第一音频文件；

当用户需要通过电话或者互联网办理银行业务时，银行所在的服务器提示用户所持的移动终端调用摄像头获取用户的人脸视频，其中，所述人脸视频中包括用户的人脸图像和音频文件。需要说明的是，所述服务器获取所述人脸视频的方法可为：在提取用户人脸图像过程中，使所述移动终端的屏幕中显示相应的数字或者文字，让用户在一定的时间内读出所显示的数字或者文字；或者在提取用户人脸图像过程中，使所述移动终端的屏幕中输出提示信息，提示用户在一定的时间内读出预定数目的话语。所述移动终端包括但不限于智能手机和平板电脑。

当获取到所述人脸视频时，所述服务器提取所述人脸视频中的人脸图像，将所提取的人脸图像与预先存储该用户的人脸图像进行对比，其中，将预先存储的用户的人脸图像记为预存人脸图像。当所述人脸图像与预存人脸图像之间的相似度大于或者等于预设相似度时，所述服务器确认所述人脸图像识别成功；当所述人脸图像与预存人脸图像之间的相似度小于所述预设相似度时，所述服务器确认所述人脸图像识别失败。所述预设相似度可根据具体需要而设置，如可设置为60％，70％，或者80％等。

当成功识别所述人脸图像时，所述服务器提取所述人脸视频中的音频文件，并将从所述人脸视频中所提取的音频文件记为第一音频文件。

步骤S20，输出提示信息，以提示审核人员审核所述人脸视频；

当得到所述第一音频文件时，所述服务器输出提示信息至异步审核***，以提示异步审核工作人员审核所述人脸视频的真实性。需要说明的是，当所述审核工作人员在审核所述人脸视频的真实性的过程中，所述审核工作人员可将所述人脸视频中的人脸图像与预先存储的人脸图像进行对比。其中，预先存储的所述人脸图像可为一幅，也可为多幅。当所述审核工作人员确认所述人脸视频中的人脸图像是真实的，是用户本人时，所述审核工作人员通过所述异步审核***返回审核通过的通知消息给所述服务器；当所述审核工作人员确认所述人脸视频中的人脸图像不是用户本人时，所述审核工作人员通过所述异步审核***返回审核失败的通知消息给所述服务器。

当所述服务器接收到所述异步审核***所发送的通知消息，根据所述通知消息确定所述人脸视频审核失败时，所述服务器结束声纹模型的建立流程。

在本实施例中，所述服务器先在所述人脸视频中提取音频文件，然后才输出提示信息。在其它实施例中，所述服务器也可以先输出提示信息，当所述人脸视频审核通过后，所述服务器再从所述人脸视频中提取人脸图像。

步骤S30，当接收到所述人脸视频审核通过的通知消息时，根据所述第一音频文件建立声纹模型。

当所述服务器接收到所述异步审核***所发送的人脸视频审核通过的通知消息时，所述服务器根据从所述人脸视频中提取的第一音频文件建立声纹模型。

进一步地，所述步骤S30包括：

步骤a，当接收到所述人脸视频审核通过的通知消息时，判断是否已存在声纹模型；

步骤b，若未存在声纹模型，则根据所述第一音频文件建立声纹模型；

步骤c，若已存在声纹模型，则删除已存在的声纹模型，提取所存储的第二音频文件，其中，所述第二音频文件为注册成功的音频文件；

步骤d，根据所述第一音频文件和所述第二音频文件建立声纹模型。

进一步地，当所述服务器接收到所述人脸视频审核通过的通知消息时，所述服务器判断数据库中是否已存在声纹模型。当所述数据库中未存在声纹模型时，所述服务器根据所述第一音频文件建立声纹模型。当所述数据库中已存在声纹模型时，所述服务器删除所述数据库中的声纹模型。当所述服务器删除所述数据库中的声纹模型后，所述服务器在所述数据库中提取所存储的第二音频文件，其中，所述第二音频文件为所述数据库中注册成功的音频文件。需要说明的是，注册成功的音频文件是已建立过声纹模型的音频文件，即注册成功的音频文件是所删除的历史声纹模型所对应的音频文件。当所述服务器得到所述第二音频文件时，所述服务器将所述第一音频文件和所述第二音频文件进行叠加，得到声纹模型。通过所述第一音频文件和所述第二音频进行叠加得到声纹模型，优化所述服务器中的声纹模型，使所建立的声纹模型更符合用户的声音特征。

进一步地，所述提取所存储的第二音频文件的步骤包括：

步骤e，判断是否存储有预设数目的所述第二音频文件；

若存储有所述预设数目的所述第二音频文件，则所述步骤d包括：

步骤f，根据最近所存储预设数目的所述第二音频文件和所述第一音频文件建立声纹模型。

进一步地，所述服务器在提取所存储的第二音频文件的过程中，所述服务器判断所述数据库中是否存储有预设数目的所述第二音频文件。所述预设数目可根据具体需要而设置，如可设置为3，5或者6等。当所述数据库中存储有所述预设数目的所述第二音频文件时，所述服务器将最近所存储的预设数目的所述第二音频文件和所述第一音频文件进行叠加，建立声纹模型。如当所述预设数目设置为5时，且数据中存储有至少5个所述第二音频文件时，所述服务器将从当前时间起算，提取最近5次所存储的所述第二音频文件和所述第一音频文件进行叠加，建立所述声纹模型。

进一步地，所述建立声纹模型的方法还包括

步骤g，若未存储有所述预设数目的所述第二音频文件，则获取所存储的所有所述第二音频文件；

所述步骤d包括：

步骤h，根据所获取的所有所述第二音频文件和所述第一音频文件建立声纹模型。

当所述数据库中未存储有所述预设数目的所述第二音频文件时，所述服务器获取所述数据库中存储的所有的第二音频文件，将所获取的所有的所述第二音频文件和所述第一音频文件进行叠加，建立声纹模型。如当所述数据库中只存储有三个所述第二音频文件时，所述服务器则将三个第二音频文件和所述第一音频文件进行叠加，建议声纹模型。

本实施例通过当获取到人脸视频，且成功识别所述人脸视频的人脸图像时，提取所述人脸视频中的音频文件，记为第一音频文件；输出提示信息，以提示审核人员审核所述人脸视频；当接收到所述人脸视频审核通过的通知消息时，根据所述第一音频文件建立声纹模型。实现了在人脸识别的基础上，进一步获取用户的音频文件，根据所获取的音频文件建立声纹模型，当下次接收到用户的人脸视频时，只有当人脸视频中的人脸图像识别成功，且人脸视频中的音频文件与所建立的声纹模型吻合时，确认用户为真实的用户，以提高用户识别的准确性。

进一步地，参照图2，图2为本发明建立声纹模型的方法的第二实施例的流程示意图，基于第一实施例提出本发明建立声纹模型的方法的第二实施例。

在本实施例中，所述建立声纹模型的方法还包括：

步骤S40，判断是否已存在声纹模型；

若未存在声纹模型，则执行步骤S20；

步骤S50，若已存在声纹模型，则提取与所述声纹模型对应的音频文件，记为第三音频文件；

步骤S60，将所述第一音频文件与所述第三音频文件进行对比，得到所述第一音频文件与所述第三音频文件之间的相似度；

步骤S70，将所述第一音频文件与所述第三音频文件之间的相似度发送给异步审核***。

在本实施例中，当执行完步骤S70，执行步骤S20。

当所述服务器从所述人脸视频中提取到所述人脸图像时，所述服务器判断所述数据库中是否已存在声纹模型。当所述数据库中未存在声纹模型时，所述服务器输出提示信息至异步审核***，以供所述异步审核***提示审核人员审核所述人脸视频。可以理解的是，当所述数据库中未存在声纹模型时，表示所述服务器第一次获取到用户的人脸视频。需要说明的是，所述服务器和所述异步审核***可同处于一台计算机中，也可以处于两台计算机中。

当所述数据库中已存在声纹模型时，所述服务器提取与所述声纹模型对应的音频文件，即提取建立所述声纹模型的音频文件，记为第三音频文件。当得到所述第三音频文件时，所述服务器将所述第一音频文件与所述第三音频文件进行对比，得到所述第一音频文件与所述第三音频文件之间的相似度。将所述第一音频文件与所述第三音频文件之间的相似度发送给异步审核***，所述服务器输出提示信息至所述异步审核***，以供所述异步审核***提示审核人员审核所述人脸视频；当所述异步审核结果通过时，所述服务器则建立声纹模型，当所述异步审核结果不通过时，所述服务器则结束建立声纹模型的流程。所述预设阈值可根据具体需要而设置，如可设置为60％，70％，或者85％等。

本实施例通过在提取到所述人脸视频中的第一音频文件，且服务器的数据库中已存在声纹模型时，提取与所述声纹模型对应的第三音频文件，将所述第三音频文件与所述第一音频文件进行对比，根据对比结果进行后续操作。提高了所建立的声纹模型的准确率，使所建立的声纹模型更符合用户真实的声音特征。

本发明进一步提供一种建立声纹模型的装置。

参照图3，图3为本发明建立声纹模型的装置的第一实施例的功能模块示意图。

在本实施例中，所述建立声纹模型的装置包括：

提取模块10，用于当获取到人脸视频，且成功识别所述人脸视频的人脸图像时，提取所述人脸视频中的音频文件，记为第一音频文件；

输出模块20，用于输出提示信息，以提示审核人员审核所述人脸视频；

建立模块30，用于当接收到所述人脸视频审核通过的通知消息时，根据所述第一音频文件建立声纹模型。

进一步地，所述建立模块30包括：

进一步地，所述判断单元还用于判断是否存储有预设数目的所述第二音频文件；

进一步地，所述建立模块30还包括：

参照图4，图4为本发明建立声纹模型的装置的第二实施例的功能模块示意图，基于第一实施例提出本发明建立声纹模型的装置的第二实施例。

在本实施例中，所述建立声纹模型的装置还包括：

判断模块40，用于判断是否已存在声纹模型；

所述输出模块20还用于若未存在声纹模型，则输出提示信息，以提示审核人员审核所述人脸视频；

所述提取模块10还用于若已存在声纹模型，则提取与所述声纹模型对应的音频文件，记为第三音频文件；

所述建立声纹模型的装置还包括：

对比模块50，用于将所述第一音频文件与所述第三音频文件进行对比，得到所述第一音频文件与所述第三音频文件之间的相似度；

发送模块60，用于将所述第一音频文件与所述第三音频文件之间的相似度发送给异步审核***。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种建立声纹模型的方法，其特征在于，所述建立声纹模型的方法包括：

输出提示信息，以提示审核人员审核所述人脸视频；

若已存在声纹模型，则删除已存在的声纹模型，提取所存储的第二音频文件，其中，所述第二音频文件为注册成功的音频文件，注册成功的音频文件是已建立过声纹模型的音频文件；

将所述第一音频文件和所述第二音频文件进行叠加，得到声纹模型。

2.如权利要求1所述的建立声纹模型的方法，其特征在于，所述提取所存储的第二音频文件的步骤包括：

判断是否存储有预设数目的所述第二音频文件；

3.如权利要求2所述的建立声纹模型的方法，其特征在于，所述判断是否存储有预设数目的所述第二音频文件的步骤之后，还包括：

4.如权利要求1至3任一项所述的建立声纹模型的方法，其特征在于，所述当获取到人脸视频，且成功识别所述人脸视频的人脸图像时，提取所述人脸视频中的音频文件，记为第一音频文件的步骤之后，还包括：

判断是否已存在声纹模型；

5.一种建立声纹模型的装置，其特征在于，所述建立声纹模型的装置包括：

建立模块，用于当接收到所述人脸视频审核通过的通知消息时，根据所述第一音频文件建立声纹模型；

所述建立模块包括：

提取单元，用于若已存在声纹模型，则删除已存在的声纹模型，提取所存储的第二音频文件，其中，所述第二音频文件为注册成功的音频文件，注册成功的音频文件是已建立过声纹模型的音频文件；

所述建立单元还用于将所述第一音频文件和所述第二音频文件进行叠加，得到声纹模型。

6.如权利要求5所述的建立声纹模型的装置，其特征在于，所述判断单元还用于判断是否存储有预设数目的所述第二音频文件；

7.如权利要求6所述的建立声纹模型的装置，其特征在于，所述建立模块还包括：

8.如权利要求5至7任一项所述的建立声纹模型的装置，其特征在于，所述建立声纹模型的装置还包括：

判断模块，用于判断是否已存在声纹模型；

所述建立声纹模型的装置还包括：