CN106782567B - 建立声纹模型的方法和装置 - Google Patents

建立声纹模型的方法和装置 Download PDF

Info

Publication number
CN106782567B
CN106782567B CN201611005290.4A CN201611005290A CN106782567B CN 106782567 B CN106782567 B CN 106782567B CN 201611005290 A CN201611005290 A CN 201611005290A CN 106782567 B CN106782567 B CN 106782567B
Authority
CN
China
Prior art keywords
audio file
voiceprint model
audio
face video
establishing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611005290.4A
Other languages
English (en)
Other versions
CN106782567A (zh
Inventor
卢道和
陈朝亮
杨军
黄叶飞
杨粟
李晓俊
钟伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201611005290.4A priority Critical patent/CN106782567B/zh
Publication of CN106782567A publication Critical patent/CN106782567A/zh
Application granted granted Critical
Publication of CN106782567B publication Critical patent/CN106782567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种建立声纹模型的方法和装置,所述方法包括:当获取到人脸视频,且成功识别所述人脸视频的人脸图像时,提取所述人脸视频中的音频文件,记为第一音频文件;输出提示信息,以提示审核人员审核所述人脸视频;当接收到所述人脸视频审核通过的通知消息时,根据所述第一音频文件建立声纹模型。本发明实现了在人脸识别的基础上,进一步获取用户的音频文件,根据所获取的音频文件建立声纹模型,当下次接收到用户的人脸视频时,只有当人脸视频中的人脸图像识别成功,且人脸视频中的音频文件与所建立的声纹模型吻合时,确认用户为真实的用户,以提高用户识别的准确性。

Description

建立声纹模型的方法和装置
技术领域
本发明涉及身份识别技术领域,尤其涉及一种建立声纹模型的方法和装置。
背景技术
随着科学技术的发展,现在很多银行业务都可以不去银行柜台办理,比如银行卡查询业务,冻结业务,开户业务等,用户可直接通过电话或者在互联网上办理各项业务。但是,现有的通过电话或者在互联网上办理各项业务,都需要输入银行卡账号和密码,如果银行卡账号输入错误或者密码输入错误,则需要重新输入。而且,当用户输入3次密码都错误时,银行卡将会被锁定,用户则不可以再办理相应的业务,直至用户去银行柜台解锁银行卡。因此,现有的解决方案只能通过人脸识别来确认用户的身份。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种建立声纹模型的方法和装置,旨在解决如何在人脸识别的基础上提高识别用户准确率的技术问题。
为实现上述目的,本发明提供的一种建立声纹模型的方法,所述建立声纹模型的方法包括:
当获取到人脸视频,且成功识别所述人脸视频的人脸图像时,提取所述人脸视频中的音频文件,记为第一音频文件;
输出提示信息,以提示审核人员审核所述人脸视频;
当接收到所述人脸视频审核通过的通知消息时,根据所述第一音频文件建立声纹模型。
优选地,所述当接收到所述人脸视频审核通过的通知消息时,根据所述第一音频文件建立声纹模型的步骤包括:
当接收到所述人脸视频审核通过的通知消息时,判断是否已存在声纹模型;
若未存在声纹模型,则根据所述第一音频文件建立声纹模型;
若已存在声纹模型,则删除已存在的声纹模型,提取所存储的第二音频文件,其中,所述第二音频文件为注册成功的音频文件;
根据所述第一音频文件和所述第二音频文件建立声纹模型。
优选地,所述提取所存储的第二音频文件的步骤包括:
判断是否存储有预设数目的所述第二音频文件;
若存储有所述预设数目的所述第二音频文件,则所述根据所述第一音频文件和所述第二音频文件建立声纹模型的步骤包括:
根据最近所存储预设数目的所述第二音频文件和所述第一音频文件建立声纹模型。
优选地,所述判断是否存储有预设数目的所述第二音频文件的步骤之后,还包括:
若未存储有所述预设数目的所述第二音频文件,则获取所存储的所有所述第二音频文件;
所述根据所述第一音频文件和所述第二音频文件建立声纹模型的步骤包括:
根据所获取的所有所述第二音频文件和所述第一音频文件建立声纹模型。
优选地,所述当获取到人脸视频,且成功识别所述人脸视频的人脸图像时,提取所述人脸视频中的音频文件,记为第一音频文件的步骤之后,还包括:
判断是否已存在声纹模型;
若未存在声纹模型,则执行输出提示信息,以提示审核人员审核所述人脸视频的步骤;
若已存在声纹模型,则提取与所述声纹模型对应的音频文件,记为第三音频文件;
将所述第一音频文件与所述第三音频文件进行对比,得到所述第一音频文件与所述第三音频文件之间的相似度;
将所述第一音频文件与所述第三音频文件之间的相似度发送给异步审核***,并执行输出提示信息,以提示审核人员审核所述人脸视频的步骤。
此外,为实现上述目的,本发明还提供一种建立声纹模型的装置,所述建立声纹模型的装置包括:
提取模块,用于当获取到人脸视频,且成功识别所述人脸视频的人脸图像时,提取所述人脸视频中的音频文件,记为第一音频文件;
输出模块,用于输出提示信息,以提示审核人员审核所述人脸视频;
建立模块,用于当接收到所述人脸视频审核通过的通知消息时,根据所述第一音频文件建立声纹模型。
优选地,所述建立模块包括:
判断单元,用于当接收到所述人脸视频审核通过的通知消息时,判断是否已存在声纹模型;
建立单元,用于若未存在声纹模型,则根据所述第一音频文件建立声纹模型;
提取单元,用于若已存在声纹模型,则删除已存在的声纹模型,提取所存储的第二音频文件,其中,所述第二音频文件为注册成功的音频文件;
所述建立单元还用于根据所述第一音频文件和所述第二音频文件建立声纹模型。
优选地,所述判断单元还用于判断是否存储有预设数目的所述第二音频文件;
所述建立单元还用于若存储有所述预设数目的所述第二音频文件,则根据最近所存储预设数目的所述第二音频文件和所述第一音频文件建立声纹模型。
优选地,所述建立模块还包括:
获取单元,用于若未存储有所述预设数目的所述第二音频文件,则获取所存储的所有所述第二音频文件;
所述建立单元还用于根据所获取的所有所述第二音频文件和所述第一音频文件建立声纹模型。
优选地,所述建立声纹模型的装置还包括:
判断模块,用于判断是否已存在声纹模型;
所述输出模块还用于若未存在声纹模型,则输出提示信息,以提示审核人员审核所述人脸视频;
所述提取模块还用于若已存在声纹模型,则提取与所述声纹模型对应的音频文件,记为第三音频文件;
所述建立声纹模型的装置还包括:
对比模块,用于将所述第一音频文件与所述第三音频文件进行对比,得到所述第一音频文件与所述第三音频文件之间的相似度;
发送模块,用于将所述第一音频文件与所述第三音频文件之间的相似度发送给异步审核***。
本发明通过当获取到人脸视频,且成功识别所述人脸视频的人脸图像时,提取所述人脸视频中的音频文件,记为第一音频文件;输出提示信息,以提示审核人员审核所述人脸视频;当接收到所述人脸视频审核通过的通知消息时,根据所述第一音频文件建立声纹模型。实现了在人脸识别的基础上,进一步获取用户的音频文件,根据所获取的音频文件建立声纹模型,当下次接收到用户的人脸视频时,只有当人脸视频中的人脸图像识别成功,且人脸视频中的音频文件与所建立的声纹模型吻合时,确认用户为真实的用户,以提高用户识别的准确性。
附图说明
图1为本发明建立声纹模型的方法的第一实施例的流程示意图;
图2为本发明建立声纹模型的方法的第二实施例的流程示意图;
图3为本发明建立声纹模型的装置的第一实施例的功能模块示意图;
图4为本发明建立声纹模型的装置的第二实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明建立声纹模型的方法的第一实施例的流程示意图。
在本实施例中,所述建立声纹模型的方法包括:
步骤S10,当获取到人脸视频,且成功识别所述人脸视频的人脸图像时,提取所述人脸视频中的音频文件,记为第一音频文件;
当用户需要通过电话或者互联网办理银行业务时,银行所在的服务器提示用户所持的移动终端调用摄像头获取用户的人脸视频,其中,所述人脸视频中包括用户的人脸图像和音频文件。需要说明的是,所述服务器获取所述人脸视频的方法可为:在提取用户人脸图像过程中,使所述移动终端的屏幕中显示相应的数字或者文字,让用户在一定的时间内读出所显示的数字或者文字;或者在提取用户人脸图像过程中,使所述移动终端的屏幕中输出提示信息,提示用户在一定的时间内读出预定数目的话语。所述移动终端包括但不限于智能手机和平板电脑。
当获取到所述人脸视频时,所述服务器提取所述人脸视频中的人脸图像,将所提取的人脸图像与预先存储该用户的人脸图像进行对比,其中,将预先存储的用户的人脸图像记为预存人脸图像。当所述人脸图像与预存人脸图像之间的相似度大于或者等于预设相似度时,所述服务器确认所述人脸图像识别成功;当所述人脸图像与预存人脸图像之间的相似度小于所述预设相似度时,所述服务器确认所述人脸图像识别失败。所述预设相似度可根据具体需要而设置,如可设置为60%,70%,或者80%等。
当成功识别所述人脸图像时,所述服务器提取所述人脸视频中的音频文件,并将从所述人脸视频中所提取的音频文件记为第一音频文件。
步骤S20,输出提示信息,以提示审核人员审核所述人脸视频;
当得到所述第一音频文件时,所述服务器输出提示信息至异步审核***,以提示异步审核工作人员审核所述人脸视频的真实性。需要说明的是,当所述审核工作人员在审核所述人脸视频的真实性的过程中,所述审核工作人员可将所述人脸视频中的人脸图像与预先存储的人脸图像进行对比。其中,预先存储的所述人脸图像可为一幅,也可为多幅。当所述审核工作人员确认所述人脸视频中的人脸图像是真实的,是用户本人时,所述审核工作人员通过所述异步审核***返回审核通过的通知消息给所述服务器;当所述审核工作人员确认所述人脸视频中的人脸图像不是用户本人时,所述审核工作人员通过所述异步审核***返回审核失败的通知消息给所述服务器。
当所述服务器接收到所述异步审核***所发送的通知消息,根据所述通知消息确定所述人脸视频审核失败时,所述服务器结束声纹模型的建立流程。
在本实施例中,所述服务器先在所述人脸视频中提取音频文件,然后才输出提示信息。在其它实施例中,所述服务器也可以先输出提示信息,当所述人脸视频审核通过后,所述服务器再从所述人脸视频中提取人脸图像。
步骤S30,当接收到所述人脸视频审核通过的通知消息时,根据所述第一音频文件建立声纹模型。
当所述服务器接收到所述异步审核***所发送的人脸视频审核通过的通知消息时,所述服务器根据从所述人脸视频中提取的第一音频文件建立声纹模型。
进一步地,所述步骤S30包括:
步骤a,当接收到所述人脸视频审核通过的通知消息时,判断是否已存在声纹模型;
步骤b,若未存在声纹模型,则根据所述第一音频文件建立声纹模型;
步骤c,若已存在声纹模型,则删除已存在的声纹模型,提取所存储的第二音频文件,其中,所述第二音频文件为注册成功的音频文件;
步骤d,根据所述第一音频文件和所述第二音频文件建立声纹模型。
进一步地,当所述服务器接收到所述人脸视频审核通过的通知消息时,所述服务器判断数据库中是否已存在声纹模型。当所述数据库中未存在声纹模型时,所述服务器根据所述第一音频文件建立声纹模型。当所述数据库中已存在声纹模型时,所述服务器删除所述数据库中的声纹模型。当所述服务器删除所述数据库中的声纹模型后,所述服务器在所述数据库中提取所存储的第二音频文件,其中,所述第二音频文件为所述数据库中注册成功的音频文件。需要说明的是,注册成功的音频文件是已建立过声纹模型的音频文件,即注册成功的音频文件是所删除的历史声纹模型所对应的音频文件。当所述服务器得到所述第二音频文件时,所述服务器将所述第一音频文件和所述第二音频文件进行叠加,得到声纹模型。通过所述第一音频文件和所述第二音频进行叠加得到声纹模型,优化所述服务器中的声纹模型,使所建立的声纹模型更符合用户的声音特征。
进一步地,所述提取所存储的第二音频文件的步骤包括:
步骤e,判断是否存储有预设数目的所述第二音频文件;
若存储有所述预设数目的所述第二音频文件,则所述步骤d包括:
步骤f,根据最近所存储预设数目的所述第二音频文件和所述第一音频文件建立声纹模型。
进一步地,所述服务器在提取所存储的第二音频文件的过程中,所述服务器判断所述数据库中是否存储有预设数目的所述第二音频文件。所述预设数目可根据具体需要而设置,如可设置为3,5或者6等。当所述数据库中存储有所述预设数目的所述第二音频文件时,所述服务器将最近所存储的预设数目的所述第二音频文件和所述第一音频文件进行叠加,建立声纹模型。如当所述预设数目设置为5时,且数据中存储有至少5个所述第二音频文件时,所述服务器将从当前时间起算,提取最近5次所存储的所述第二音频文件和所述第一音频文件进行叠加,建立所述声纹模型。
进一步地,所述建立声纹模型的方法还包括
步骤g,若未存储有所述预设数目的所述第二音频文件,则获取所存储的所有所述第二音频文件;
所述步骤d包括:
步骤h,根据所获取的所有所述第二音频文件和所述第一音频文件建立声纹模型。
当所述数据库中未存储有所述预设数目的所述第二音频文件时,所述服务器获取所述数据库中存储的所有的第二音频文件,将所获取的所有的所述第二音频文件和所述第一音频文件进行叠加,建立声纹模型。如当所述数据库中只存储有三个所述第二音频文件时,所述服务器则将三个第二音频文件和所述第一音频文件进行叠加,建议声纹模型。
本实施例通过当获取到人脸视频,且成功识别所述人脸视频的人脸图像时,提取所述人脸视频中的音频文件,记为第一音频文件;输出提示信息,以提示审核人员审核所述人脸视频;当接收到所述人脸视频审核通过的通知消息时,根据所述第一音频文件建立声纹模型。实现了在人脸识别的基础上,进一步获取用户的音频文件,根据所获取的音频文件建立声纹模型,当下次接收到用户的人脸视频时,只有当人脸视频中的人脸图像识别成功,且人脸视频中的音频文件与所建立的声纹模型吻合时,确认用户为真实的用户,以提高用户识别的准确性。
进一步地,参照图2,图2为本发明建立声纹模型的方法的第二实施例的流程示意图,基于第一实施例提出本发明建立声纹模型的方法的第二实施例。
在本实施例中,所述建立声纹模型的方法还包括:
步骤S40,判断是否已存在声纹模型;
若未存在声纹模型,则执行步骤S20;
步骤S50,若已存在声纹模型,则提取与所述声纹模型对应的音频文件,记为第三音频文件;
步骤S60,将所述第一音频文件与所述第三音频文件进行对比,得到所述第一音频文件与所述第三音频文件之间的相似度;
步骤S70,将所述第一音频文件与所述第三音频文件之间的相似度发送给异步审核***。
在本实施例中,当执行完步骤S70,执行步骤S20。
当所述服务器从所述人脸视频中提取到所述人脸图像时,所述服务器判断所述数据库中是否已存在声纹模型。当所述数据库中未存在声纹模型时,所述服务器输出提示信息至异步审核***,以供所述异步审核***提示审核人员审核所述人脸视频。可以理解的是,当所述数据库中未存在声纹模型时,表示所述服务器第一次获取到用户的人脸视频。需要说明的是,所述服务器和所述异步审核***可同处于一台计算机中,也可以处于两台计算机中。
当所述数据库中已存在声纹模型时,所述服务器提取与所述声纹模型对应的音频文件,即提取建立所述声纹模型的音频文件,记为第三音频文件。当得到所述第三音频文件时,所述服务器将所述第一音频文件与所述第三音频文件进行对比,得到所述第一音频文件与所述第三音频文件之间的相似度。将所述第一音频文件与所述第三音频文件之间的相似度发送给异步审核***,所述服务器输出提示信息至所述异步审核***,以供所述异步审核***提示审核人员审核所述人脸视频;当所述异步审核结果通过时,所述服务器则建立声纹模型,当所述异步审核结果不通过时,所述服务器则结束建立声纹模型的流程。所述预设阈值可根据具体需要而设置,如可设置为60%,70%,或者85%等。
本实施例通过在提取到所述人脸视频中的第一音频文件,且服务器的数据库中已存在声纹模型时,提取与所述声纹模型对应的第三音频文件,将所述第三音频文件与所述第一音频文件进行对比,根据对比结果进行后续操作。提高了所建立的声纹模型的准确率,使所建立的声纹模型更符合用户真实的声音特征。
本发明进一步提供一种建立声纹模型的装置。
参照图3,图3为本发明建立声纹模型的装置的第一实施例的功能模块示意图。
在本实施例中,所述建立声纹模型的装置包括:
提取模块10,用于当获取到人脸视频,且成功识别所述人脸视频的人脸图像时,提取所述人脸视频中的音频文件,记为第一音频文件;
当用户需要通过电话或者互联网办理银行业务时,银行所在的服务器提示用户所持的移动终端调用摄像头获取用户的人脸视频,其中,所述人脸视频中包括用户的人脸图像和音频文件。需要说明的是,所述服务器获取所述人脸视频的方法可为:在提取用户人脸图像过程中,使所述移动终端的屏幕中显示相应的数字或者文字,让用户在一定的时间内读出所显示的数字或者文字;或者在提取用户人脸图像过程中,使所述移动终端的屏幕中输出提示信息,提示用户在一定的时间内读出预定数目的话语。所述移动终端包括但不限于智能手机和平板电脑。
当获取到所述人脸视频时,所述服务器提取所述人脸视频中的人脸图像,将所提取的人脸图像与预先存储该用户的人脸图像进行对比,其中,将预先存储的用户的人脸图像记为预存人脸图像。当所述人脸图像与预存人脸图像之间的相似度大于或者等于预设相似度时,所述服务器确认所述人脸图像识别成功;当所述人脸图像与预存人脸图像之间的相似度小于所述预设相似度时,所述服务器确认所述人脸图像识别失败。所述预设相似度可根据具体需要而设置,如可设置为60%,70%,或者80%等。
当成功识别所述人脸图像时,所述服务器提取所述人脸视频中的音频文件,并将从所述人脸视频中所提取的音频文件记为第一音频文件。
输出模块20,用于输出提示信息,以提示审核人员审核所述人脸视频;
当得到所述第一音频文件时,所述服务器输出提示信息至异步审核***,以提示异步审核工作人员审核所述人脸视频的真实性。需要说明的是,当所述审核工作人员在审核所述人脸视频的真实性的过程中,所述审核工作人员可将所述人脸视频中的人脸图像与预先存储的人脸图像进行对比。其中,预先存储的所述人脸图像可为一幅,也可为多幅。当所述审核工作人员确认所述人脸视频中的人脸图像是真实的,是用户本人时,所述审核工作人员通过所述异步审核***返回审核通过的通知消息给所述服务器;当所述审核工作人员确认所述人脸视频中的人脸图像不是用户本人时,所述审核工作人员通过所述异步审核***返回审核失败的通知消息给所述服务器。
当所述服务器接收到所述异步审核***所发送的通知消息,根据所述通知消息确定所述人脸视频审核失败时,所述服务器结束声纹模型的建立流程。
在本实施例中,所述服务器先在所述人脸视频中提取音频文件,然后才输出提示信息。在其它实施例中,所述服务器也可以先输出提示信息,当所述人脸视频审核通过后,所述服务器再从所述人脸视频中提取人脸图像。
建立模块30,用于当接收到所述人脸视频审核通过的通知消息时,根据所述第一音频文件建立声纹模型。
当所述服务器接收到所述异步审核***所发送的人脸视频审核通过的通知消息时,所述服务器根据从所述人脸视频中提取的第一音频文件建立声纹模型。
进一步地,所述建立模块30包括:
判断单元,用于当接收到所述人脸视频审核通过的通知消息时,判断是否已存在声纹模型;
建立单元,用于若未存在声纹模型,则根据所述第一音频文件建立声纹模型;
提取单元,用于若已存在声纹模型,则删除已存在的声纹模型,提取所存储的第二音频文件,其中,所述第二音频文件为注册成功的音频文件;
所述建立单元还用于根据所述第一音频文件和所述第二音频文件建立声纹模型。
进一步地,当所述服务器接收到所述人脸视频审核通过的通知消息时,所述服务器判断数据库中是否已存在声纹模型。当所述数据库中未存在声纹模型时,所述服务器根据所述第一音频文件建立声纹模型。当所述数据库中已存在声纹模型时,所述服务器删除所述数据库中的声纹模型。当所述服务器删除所述数据库中的声纹模型后,所述服务器在所述数据库中提取所存储的第二音频文件,其中,所述第二音频文件为所述数据库中注册成功的音频文件。需要说明的是,注册成功的音频文件是已建立过声纹模型的音频文件,即注册成功的音频文件是所删除的历史声纹模型所对应的音频文件。当所述服务器得到所述第二音频文件时,所述服务器将所述第一音频文件和所述第二音频文件进行叠加,得到声纹模型。通过所述第一音频文件和所述第二音频进行叠加得到声纹模型,优化所述服务器中的声纹模型,使所建立的声纹模型更符合用户的声音特征。
进一步地,所述判断单元还用于判断是否存储有预设数目的所述第二音频文件;
所述建立单元还用于若存储有所述预设数目的所述第二音频文件,则根据最近所存储预设数目的所述第二音频文件和所述第一音频文件建立声纹模型。
进一步地,所述服务器在提取所存储的第二音频文件的过程中,所述服务器判断所述数据库中是否存储有预设数目的所述第二音频文件。所述预设数目可根据具体需要而设置,如可设置为3,5或者6等。当所述数据库中存储有所述预设数目的所述第二音频文件时,所述服务器将最近所存储的预设数目的所述第二音频文件和所述第一音频文件进行叠加,建立声纹模型。如当所述预设数目设置为5时,且数据中存储有至少5个所述第二音频文件时,所述服务器将从当前时间起算,提取最近5次所存储的所述第二音频文件和所述第一音频文件进行叠加,建立所述声纹模型。
进一步地,所述建立模块30还包括:
获取单元,用于若未存储有所述预设数目的所述第二音频文件,则获取所存储的所有所述第二音频文件;
所述建立单元还用于根据所获取的所有所述第二音频文件和所述第一音频文件建立声纹模型。
当所述数据库中未存储有所述预设数目的所述第二音频文件时,所述服务器获取所述数据库中存储的所有的第二音频文件,将所获取的所有的所述第二音频文件和所述第一音频文件进行叠加,建立声纹模型。如当所述数据库中只存储有三个所述第二音频文件时,所述服务器则将三个第二音频文件和所述第一音频文件进行叠加,建议声纹模型。
本实施例通过当获取到人脸视频,且成功识别所述人脸视频的人脸图像时,提取所述人脸视频中的音频文件,记为第一音频文件;输出提示信息,以提示审核人员审核所述人脸视频;当接收到所述人脸视频审核通过的通知消息时,根据所述第一音频文件建立声纹模型。实现了在人脸识别的基础上,进一步获取用户的音频文件,根据所获取的音频文件建立声纹模型,当下次接收到用户的人脸视频时,只有当人脸视频中的人脸图像识别成功,且人脸视频中的音频文件与所建立的声纹模型吻合时,确认用户为真实的用户,以提高用户识别的准确性。
参照图4,图4为本发明建立声纹模型的装置的第二实施例的功能模块示意图,基于第一实施例提出本发明建立声纹模型的装置的第二实施例。
在本实施例中,所述建立声纹模型的装置还包括:
判断模块40,用于判断是否已存在声纹模型;
所述输出模块20还用于若未存在声纹模型,则输出提示信息,以提示审核人员审核所述人脸视频;
所述提取模块10还用于若已存在声纹模型,则提取与所述声纹模型对应的音频文件,记为第三音频文件;
所述建立声纹模型的装置还包括:
对比模块50,用于将所述第一音频文件与所述第三音频文件进行对比,得到所述第一音频文件与所述第三音频文件之间的相似度;
发送模块60,用于将所述第一音频文件与所述第三音频文件之间的相似度发送给异步审核***。
当所述服务器从所述人脸视频中提取到所述人脸图像时,所述服务器判断所述数据库中是否已存在声纹模型。当所述数据库中未存在声纹模型时,所述服务器输出提示信息至异步审核***,以供所述异步审核***提示审核人员审核所述人脸视频。可以理解的是,当所述数据库中未存在声纹模型时,表示所述服务器第一次获取到用户的人脸视频。需要说明的是,所述服务器和所述异步审核***可同处于一台计算机中,也可以处于两台计算机中。
当所述数据库中已存在声纹模型时,所述服务器提取与所述声纹模型对应的音频文件,即提取建立所述声纹模型的音频文件,记为第三音频文件。当得到所述第三音频文件时,所述服务器将所述第一音频文件与所述第三音频文件进行对比,得到所述第一音频文件与所述第三音频文件之间的相似度。将所述第一音频文件与所述第三音频文件之间的相似度发送给异步审核***,所述服务器输出提示信息至所述异步审核***,以供所述异步审核***提示审核人员审核所述人脸视频;当所述异步审核结果通过时,所述服务器则建立声纹模型,当所述异步审核结果不通过时,所述服务器则结束建立声纹模型的流程。所述预设阈值可根据具体需要而设置,如可设置为60%,70%,或者85%等。
本实施例通过在提取到所述人脸视频中的第一音频文件,且服务器的数据库中已存在声纹模型时,提取与所述声纹模型对应的第三音频文件,将所述第三音频文件与所述第一音频文件进行对比,根据对比结果进行后续操作。提高了所建立的声纹模型的准确率,使所建立的声纹模型更符合用户真实的声音特征。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种建立声纹模型的方法,其特征在于,所述建立声纹模型的方法包括:
当获取到人脸视频,且成功识别所述人脸视频的人脸图像时,提取所述人脸视频中的音频文件,记为第一音频文件;
输出提示信息,以提示审核人员审核所述人脸视频;
当接收到所述人脸视频审核通过的通知消息时,判断是否已存在声纹模型;
若未存在声纹模型,则根据所述第一音频文件建立声纹模型;
若已存在声纹模型,则删除已存在的声纹模型,提取所存储的第二音频文件,其中,所述第二音频文件为注册成功的音频文件,注册成功的音频文件是已建立过声纹模型的音频文件;
将所述第一音频文件和所述第二音频文件进行叠加,得到声纹模型。
2.如权利要求1所述的建立声纹模型的方法,其特征在于,所述提取所存储的第二音频文件的步骤包括:
判断是否存储有预设数目的所述第二音频文件;
若存储有所述预设数目的所述第二音频文件,则所述根据所述第一音频文件和所述第二音频文件建立声纹模型的步骤包括:
根据最近所存储预设数目的所述第二音频文件和所述第一音频文件建立声纹模型。
3.如权利要求2所述的建立声纹模型的方法,其特征在于,所述判断是否存储有预设数目的所述第二音频文件的步骤之后,还包括:
若未存储有所述预设数目的所述第二音频文件,则获取所存储的所有所述第二音频文件;
所述根据所述第一音频文件和所述第二音频文件建立声纹模型的步骤包括:
根据所获取的所有所述第二音频文件和所述第一音频文件建立声纹模型。
4.如权利要求1至3任一项所述的建立声纹模型的方法,其特征在于,所述当获取到人脸视频,且成功识别所述人脸视频的人脸图像时,提取所述人脸视频中的音频文件,记为第一音频文件的步骤之后,还包括:
判断是否已存在声纹模型;
若未存在声纹模型,则执行输出提示信息,以提示审核人员审核所述人脸视频的步骤;
若已存在声纹模型,则提取与所述声纹模型对应的音频文件,记为第三音频文件;
将所述第一音频文件与所述第三音频文件进行对比,得到所述第一音频文件与所述第三音频文件之间的相似度;
将所述第一音频文件与所述第三音频文件之间的相似度发送给异步审核***,并执行输出提示信息,以提示审核人员审核所述人脸视频的步骤。
5.一种建立声纹模型的装置,其特征在于,所述建立声纹模型的装置包括:
提取模块,用于当获取到人脸视频,且成功识别所述人脸视频的人脸图像时,提取所述人脸视频中的音频文件,记为第一音频文件;
输出模块,用于输出提示信息,以提示审核人员审核所述人脸视频;
建立模块,用于当接收到所述人脸视频审核通过的通知消息时,根据所述第一音频文件建立声纹模型;
所述建立模块包括:
判断单元,用于当接收到所述人脸视频审核通过的通知消息时,判断是否已存在声纹模型;
建立单元,用于若未存在声纹模型,则根据所述第一音频文件建立声纹模型;
提取单元,用于若已存在声纹模型,则删除已存在的声纹模型,提取所存储的第二音频文件,其中,所述第二音频文件为注册成功的音频文件,注册成功的音频文件是已建立过声纹模型的音频文件;
所述建立单元还用于将所述第一音频文件和所述第二音频文件进行叠加,得到声纹模型。
6.如权利要求5所述的建立声纹模型的装置,其特征在于,所述判断单元还用于判断是否存储有预设数目的所述第二音频文件;
所述建立单元还用于若存储有所述预设数目的所述第二音频文件,则根据最近所存储预设数目的所述第二音频文件和所述第一音频文件建立声纹模型。
7.如权利要求6所述的建立声纹模型的装置,其特征在于,所述建立模块还包括:
获取单元,用于若未存储有所述预设数目的所述第二音频文件,则获取所存储的所有所述第二音频文件;
所述建立单元还用于根据所获取的所有所述第二音频文件和所述第一音频文件建立声纹模型。
8.如权利要求5至7任一项所述的建立声纹模型的装置,其特征在于,所述建立声纹模型的装置还包括:
判断模块,用于判断是否已存在声纹模型;
所述输出模块还用于若未存在声纹模型,则输出提示信息,以提示审核人员审核所述人脸视频;
所述提取模块还用于若已存在声纹模型,则提取与所述声纹模型对应的音频文件,记为第三音频文件;
所述建立声纹模型的装置还包括:
对比模块,用于将所述第一音频文件与所述第三音频文件进行对比,得到所述第一音频文件与所述第三音频文件之间的相似度;
发送模块,用于将所述第一音频文件与所述第三音频文件之间的相似度发送给异步审核***。
CN201611005290.4A 2016-11-11 2016-11-11 建立声纹模型的方法和装置 Active CN106782567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611005290.4A CN106782567B (zh) 2016-11-11 2016-11-11 建立声纹模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611005290.4A CN106782567B (zh) 2016-11-11 2016-11-11 建立声纹模型的方法和装置

Publications (2)

Publication Number Publication Date
CN106782567A CN106782567A (zh) 2017-05-31
CN106782567B true CN106782567B (zh) 2020-04-03

Family

ID=58969608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611005290.4A Active CN106782567B (zh) 2016-11-11 2016-11-11 建立声纹模型的方法和装置

Country Status (1)

Country Link
CN (1) CN106782567B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274906A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 语音信息处理方法、装置、终端及存储介质
CN109325742A (zh) * 2018-09-26 2019-02-12 平安普惠企业管理有限公司 业务审批方法、装置、计算机设备及存储介质
CN111611437A (zh) * 2020-05-20 2020-09-01 浩云科技股份有限公司 一种防止人脸声纹验证替换攻击的方法及装置
CN114245204B (zh) * 2021-12-15 2023-04-07 平安银行股份有限公司 基于人工智能的视频面签方法、装置、电子设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1646018A1 (en) * 2004-10-08 2006-04-12 Fujitsu Limited Biometric authentication device, biometric information authentication method, and program
CN201820245U (zh) * 2010-12-01 2011-05-04 福州海景科技开发有限公司 基于人像生物识别技术的金融交易人像生物身份确认装置
CN104834849A (zh) * 2015-04-14 2015-08-12 时代亿宝(北京)科技有限公司 基于声纹识别和人脸识别的双因素身份认证方法及***
CN204576520U (zh) * 2015-04-14 2015-08-19 时代亿宝(北京)科技有限公司 基于声纹识别和人脸识别的双因素身份认证装置
CN105119872A (zh) * 2015-02-13 2015-12-02 腾讯科技(深圳)有限公司 身份验证方法、客户端和服务平台
CN105550928A (zh) * 2015-12-03 2016-05-04 城市商业银行资金清算中心 一种商业银行网络远程开户的***及其方法
CN105577664A (zh) * 2015-12-22 2016-05-11 深圳前海微众银行股份有限公司 密码重置方法及***、客户端及服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1646018A1 (en) * 2004-10-08 2006-04-12 Fujitsu Limited Biometric authentication device, biometric information authentication method, and program
CN201820245U (zh) * 2010-12-01 2011-05-04 福州海景科技开发有限公司 基于人像生物识别技术的金融交易人像生物身份确认装置
CN105119872A (zh) * 2015-02-13 2015-12-02 腾讯科技(深圳)有限公司 身份验证方法、客户端和服务平台
CN104834849A (zh) * 2015-04-14 2015-08-12 时代亿宝(北京)科技有限公司 基于声纹识别和人脸识别的双因素身份认证方法及***
CN204576520U (zh) * 2015-04-14 2015-08-19 时代亿宝(北京)科技有限公司 基于声纹识别和人脸识别的双因素身份认证装置
CN105550928A (zh) * 2015-12-03 2016-05-04 城市商业银行资金清算中心 一种商业银行网络远程开户的***及其方法
CN105577664A (zh) * 2015-12-22 2016-05-11 深圳前海微众银行股份有限公司 密码重置方法及***、客户端及服务器

Also Published As

Publication number Publication date
CN106782567A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
US10135818B2 (en) User biological feature authentication method and system
US20240143842A1 (en) System and method for validating authorship of an electronic signature session
AU2018354129B2 (en) System and method for automated online notarization meeting recovery
CN106782567B (zh) 建立声纹模型的方法和装置
CN106373575B (zh) 一种用户声纹模型构建方法、装置及***
US9728191B2 (en) Speaker verification methods and apparatus
WO2019153982A1 (zh) 支付处理方法、装置、计算机设备和存储介质
US20070255564A1 (en) Voice authentication system and method
WO2020077885A1 (zh) 身份验证方法、装置、计算机设备和存储介质
WO2021175019A1 (zh) 音视频录制引导方法、装置、计算机设备及存储介质
CN104780043A (zh) 基于二维码的门禁控制方法和***
WO2018072588A1 (zh) 一种审批签名验证方法、移动设备、终端设备及***
CN108171137A (zh) 一种人脸识别方法及***
CN110771092A (zh) 用于同步多个软件客户端之间的会议交互的***和方法
CN112788269B (zh) 视频处理方法、装置、服务器及存储介质
CN111160928A (zh) 一种验证身份的方法及装置
CN114553838A (zh) 远程业务办理的实现方法、***及服务器
US20120330663A1 (en) Identity authentication system and method
KR101333006B1 (ko) 로그인 인증 시스템 및 방법
WO2018098686A1 (zh) 安全验证方法、装置、终端设备及服务器
WO2016058540A1 (zh) 身份验证方法、装置和存储介质
KR101055890B1 (ko) 사후 지문 등록을 이용한 근태 관리 방법 및 시스템
CN116881887A (zh) 应用程序登录方法、装置、设备、存储介质和程序产品
KR20170001456A (ko) 스마트폰을 이용한 신용카드 결제 인증 방법
CN117808299A (zh) 业务办理方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant