WO2017197953A1

WO2017197953A1 - 基于声纹的身份识别方法及装置

Info

Publication number: WO2017197953A1
Application number: PCT/CN2017/075346
Authority: WO
Inventors: 彭丹丹
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-05-16
Filing date: 2017-03-01
Publication date: 2017-11-23
Also published as: CN107395352A; CN107395352B

Abstract

本发明实施例公开了一种基于声纹的身份识别方法，包括：采集即时通信应用中作为发送方的用户账号传输的语音数据；根据采集的语音数据进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库；接收发起的身份验证请求，获取输入的目标用户账号和目标语音数据；查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，判定所述目标用户账号的身份校验通过。另外，本发明实施例还相应地公开了一种基于声纹的身份识别装置。采用本发明，可提高用户录入样本声纹的操作便利性。

Description

基于声纹的身份识别方法及装置

相关申请的交叉参考

本申请要求于2016年5月16日在中国专利局提交的申请号为201610321746.1、标题为“基于声纹的身份识别方法及装置”的发明专利申请的优先权，其全部内容结合于此作为参考。

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于声纹的身份识别方法及装置。

背景技术

声纹识别技术即说话人语音的识别技术，是一种通过语音信号提取代表说话人身份的相关特征，例如反映声门开合频率的基频特征、反映口腔大小形状及声道长度的频谱特征等，进而识别出说话人身份等方面的技术。它可以广泛应用于信息安全、电话银行、智能门禁、以及娱乐增值等领域。声纹识别所提供的安全性可与其他生物识别技术(指纹、掌形、和虹膜)相媲美，且只需电话或麦克风即可，无需特殊的设备，数据采集极为方便，造价低廉，是最为经济、可靠、简便和安全的身份识别方式。在任何时候，只需输入说话者的语音，依靠独特的声纹便可安全地识别说话者。声纹识别技术在电话信道中的表现更突出，是唯一可用于远程控制的非接触式生物识别技术。

然而，为了提高作为样本的声纹特征的置信度，即，使声纹识别的准确度得到提高，通常需要用户在录入样本声纹时，阅读大量的文字，从而提取较完整的声纹特征。这就使得用户录入样本声纹的过程耗时较长，从而导致操作的便利性不足。

发明内容

基于此，为了解决传统技术中存在的为了提取较完整的声纹特征，需要用户在录入样本声纹时阅读大量的文字，从而导致的操作便利性较差的技术问题，本发明实施例提出了一种基于声纹的身份识别方法。

一种基于声纹的身份识别方法，包括：

采集即时通信应用中作为发送方的用户账号传输的语音数据；

根据采集的语音数据进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库；

接收发起的身份验证请求，获取输入的目标用户账号和目标语音数据；

查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，判定所述目标用户账号的身份校验通过。

此外，为了解决传统技术中存在的为了提取较完整的声纹特征，需要用户在录入样本声纹时阅读大量的文字，从而导致的操作便利性较差的技术问题，本发明实施例还提出了一种基于声纹的身份识别装置。

一种基于声纹的身份识别装置，包括：

语音数据采集模块，用于采集即时通信应用中作为发送方的用户账号传输的语音数据；

声纹特征库创建模块，用于根据采集的语音数据进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库；

目标信息获取模块，用于接收发起的身份验证请求，获取输入的目标用户账号和目标语音数据；

声纹比对模块，用于查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，判定所述目标用户账号的身份校验通过。

采用了上述基于声纹的身份识别方法和装置之后，用户前期不需要专门地阅读大量的训练文本来录入声纹特征从而建立声纹特征库，而可由终端或服务器采集用户日常发送的即时通信消息中的语音数据作为用户的声纹特征的训练样本，从而节省了用户录入声纹特征的时间，提高了操作的便利性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中一种基于声纹的身份识别方法的流程示意图；

图2为一个实施例中发送语音片段的即时通信应用界面示意图；

图3为一个实施例中提供随机码阅读校验的界面示意图；

图4为一个实施例中一种基于声纹的身份识别装置的结构示意图；

图5为一个实施例中运行前述基于声纹的身份识别方法的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决传统技术中存在的为了提取较完整的声纹特征，需要用户在录入样本声纹时阅读大量的文字，从而导致的操作便利性较差的技术问题，本发明实施例提出了一种基于声纹的身份识别方法。该方法的实现可依赖于计算机程序，该计算机程序可运行于基于冯诺依曼体系的计算机***之上，该计算机程序可以是即时通信应用或者具有即时通信功能的社交网络应用的客户端程序或者服务器程序，执行上述服务器程序的计算机***可以是运行即时通信应用或具有即时通信功能的社交网络应用的客户端程序的终端设备，也可以是运行即时通信应用或具有即时通信功能的社交网络应用的服务器程序的服务器设备。

具体的，如图1所示，该基于声纹的身份识别方法包括：

步骤S102：采集即时通信应用中作为发送方的用户账号传输的语音数据。

用户在使用即时通信应用，例如微信、QQ时，这些即时通信应用均提供了语音片段通话的功能。如图2所示，用户通过长按虚拟按键，即可通过手机上的麦克风输入语音数据的片段，释放虚拟按键之后，该语音数据即可被发送至接收方的用户。

用户在使用即时通信应用时，需要先登录用户账号。在本实施例中，终端只采集该登录的用户账号发送的语音数据，而不采集该登录的用户账号接收的语音数据。即时通信应用采集用户通过手机麦克风输入的语音数据时，通常将其缓存在预设的存储地址中，待采集完毕得到一次完整的语音数据输入时(即用户释放虚拟按键时，一次采集语音数据完成，生成相应的语音数据文件)，才将其发送给服务器或其他终端。终端在执行该基于声纹的身份识别方法时，即可在此缓存的存储地址中得到该语音数据。

步骤S104：根据采集的语音数据进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库(即，包括一个或多个声纹特征的数据库)。可以用于声纹识别建模的算法有很多，比如，动态时间归整(Dynamic Time Warping，DTW)、人工神经网络(Artificial Neural Network，ANN)、隐马尔可夫模型(Hidden Markov Model，HMM)、高斯混合模型(Gaussian Mixture Model，GMM)等。由于GMM对语音声学特征分布有较好的拟合特性，GMM方法已经成为声音识别***的主流方法。为了提高识别正确率和识别效率，在本文中，以GMM作为建模方法为例进行说明。

例如，作为声纹识别模型训练的一种具体实现方式，可以对输入的语音数据序列(PCM(Pulse Code Modulation)码流)进行预处理，以去除非语音信号和静默语音信号，并对语音信号分帧，以供后续处理；提取每一帧语音信号的Mel频率倒谱参数(Mel-Frequency Cepstral Coefficients，MFCC)参数并保存；用提取的MFCC参数训练用户(即，说话者)的GMM，得到专属于该用户的GMM声纹模型。

由于用户日常使用微信、QQ等即时通信应用的次数较多，发送语音片段的次数也较多，因此可在多次执行步骤S102时，采集到多条与同一登录的用户账号对应的语音片段(数据)。该采集到的多条语音数据可作为样本，输入到声纹识别模型中进行机器学习。

例如，可提取采集到的每条语音数据在频谱、倒频谱、共振峰、基音、反射系数、韵律、节奏、速度、语调、音量等特征向量上的特征值，然后通过现有的声纹识别模型进行训练，从而得到与该登录的用户账号对应的声纹特征库。

步骤S106：接收发起的身份验证请求，获取输入的目标用户账号和目标语音数据。

步骤S108：查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，判定所述目标用户账号的身份校验通过。

在声纹特征库创建之后，则可通过声纹特征库进行用户身份验证(在采集的语音特征数据较少，或声纹特征库未创建时，则可提示用户更换其他的身份验证方式)。用户在终端上登录时，即可选择声纹验证的方式，输入相应的目标用户账号，并通过麦克风输入一段语音(目标语音数据)。终端可先查找与输入的目标用户账号对应的声纹特征库，然后将目标语音数据与声纹特征库进行匹配，若匹配成功，则可判定目标用户账号的身份校验通过。仍以GMM为例，在该步骤中，可以提供输入话音与GMM声纹模型的匹配运算函数(根据需要设定)，以判断输入的目标语音数据是否与声纹(即，模型)匹配，具体实现中，匹配过程可以利用最大后验概率(Maximum a Posterior probability，MAP)准则加以实现。

需要说明的是，上述方法也可由即时通信应用或具有即时通信应用功能的社交应用执行：

在一个由服务器执行上述方法的应用场景中，终端之间发送语音片段需要通过服务器进行转发，终端之间无法直接传输音频数据。服务器可在转发终端之间传输的语音数据时，采集作为发送方的用户账号所登录的终端发送的语音数据，并建立采集到的语音数据与发送方的用户账号的映射关系。

例如，用户账号A在终端上登录后向其他好友发送的语音数据均需要通过服务器进行转发，因此服务器可采集用户账号A发送的语音数据，并生成与用户账号A对应的声纹特征库。用户可使用用户账号A在其他终端上登录服务器，并通过终端输入目标语音数据之后上传至服务器，服务器查找用户账号A对应的声纹特征库，然后判断该上传的目标语音数据是否与查找到的声纹特征库匹配，若是，则用户账号A完成在服务器上的登录。

另外，上述基于声纹的身份识别方法不限于用户账号登录的场景，也可用于用户账号的密码找回/申诉等场景。例如，在一个应用场景中，即时通信应用QQ和微信的用户账号为相互关联的用户账号。用户使用QQ的密码找回功能时，可选择关联账号验证的方式选择微信账号。此时，服务器可查找与需要密码找回的QQ号对应的微信账号，然后查找与该微信账号对应的声纹特征库，并接收用户通过麦克风输入的用于身份验证的目标语音数据，通过匹配，在成功时，则判定身份验证通过，提示用户重置QQ密码或通过预绑定的邮箱发送密码。

进一步的，在一个应用场景中，服务器接收发起的身份验证请求之后，还可生成目标文本内容并在终端上展示给用户。提示用户阅读上述目标文本内容。然后接收与所述展示的目标文本内容对应的目标语音数据输入，即用户阅读终端上展示的目标文本内容时输入的目标语音数据。

在本实施例中，在判定所述目标用户账号的身份校验是否通过时，还可通过语音识别将所述目标语音数据转换成文本数据；在所述文本数据与所述目标文本内容匹配时，判定所述目标用户账号的身份校验通过。

如图3所示，用户在进行身份验证时，终端还会展示一串终端或服务器生成的文本内容“85274196”，并提示用户阅读这些数字。用户阅读这些数字所生成的目标语音数据则被上传至服务器。服务器不仅提取目标语音数据的频谱、倒频谱、共振峰、基音、反射系数、韵律、节奏、速度、语调或音量等特征向量，还会对语音数据进行语音识别，识别此目标语音数据的语义内容。在其声纹匹配的前提下，且其语义也为“85274196”，或者识别出的拼音为“85274196”的拼音字符串，才判定该用户身份验证通过。

采用此种声纹验证和语义验证结合的方式对用户进行身份验证，可防止不法分子通过使用其他用户的录音来进行身份验证。例如，若仅使用声纹进行身份验证，当用户B持有用户A的录音时，其可使用用户A的账号登录，并通过播放录音来输入目标语音数据，从而可顺利身份验证通过，以用户A的身份登录***，窃取用户隐私。而采用了上述结合声纹验证和语义验证的方式来进行身份验证，即使用户B持有用户A的录音，但由于展示给用户B提示用户阅读的文本内容可以是随机生成的，因此用户B只能通过播放录音通过声纹验证，但无法顺利通过语义验证，因此，提高了身份验证的安全性。

在本实施例中，为了节约计算性能，在创建与所述用户账号对应的声纹特征库之后，还可判断所述创建的与所述用户账号对应的声纹特征库的置信度是否大于或等于阈值，若是，则停止采集即时通信应用中作为发送方的用户账号传输的语音数据。

例如，若服务器已经采集到了100条样本的语音数据，并生成了声纹特征库。当采集到101条样本的语音数据时，可将其与已创建的声纹特征库进行匹配，匹配成功的概率即为声纹特征库的置信度。若声纹特征库的置信度较高，则意味着声纹特征库已能够较准确地识别声纹，因此，可停止采集样本的语音数据，从而节约计算机资源。

在本实施例中，获取输入的目标用户账号和目标语音数据包括：至少接收一次输入的目标语音数据。判定所述目标用户账号的身份校验通过之前还包括：判断所述至少一次接收到的目标语音数据与所述查找到的声纹特征库的匹配次数/比例，在所述匹配次数/比例大于或等于阈值时，判定所述目标语音数据与所述查找到的声纹特征库匹配。

由于在样本较少时，声纹特征匹配可能存在不准确的情况，因此，可通过多次匹配来进行身份验证。当用户在身份验证的过程中，多次输入的目标语音数据大部分或较大比例地验证通过时，才判定身份验证通过，从而可提高身份验证的准确性。

在一个实施例中，查找与所述目标用户账号匹配的声纹特征库之后还可在所述目标语音数据与所述查找到的声纹特征库连续不匹配的次数大于或等于阈值时，锁定所述目标用户账号。

也就是说，如果用户语音进行连续多次身份验证不通过，则可将该用户登录的账号锁定，不允许其再次登录，需要用户通过其他身份验证方式解锁。或者可将该目标用户账号锁定一定的时长，待锁定时间抵达时，再对目标用户账号解锁，允许其登录***，从而防止不法分子通过模仿声音多次尝试来进行身份验证，提高了安全性。

此外，为解决传统技术中为了提取较完整的声纹特征，需要用户在录入样本声纹时阅读大量的文字，从而导致的操作便利性较差的技术问题，在一个实施例中，还提出了一种基于声纹的身份识别装置，如图4所示，上述基于声纹的身份识别装置包括语音数据采集模块102、声纹特征库创建模块104、目标信息获取模块106、以及声纹比对模块108，其中：

语音数据采集模块102，用于采集即时通信应用中作为发送方的用户账号传输的语音数据；

声纹特征库创建模块104，用于根据采集的语音数据进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库；

目标信息获取模块106，用于接收发起的身份验证请求，获取输入的目标用户账号和目标语音数据；

声纹比对模块108，用于查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，判定所述目标用户账号的身份校验通过。

可选的，在其中一个实施例中，如图4所示，所述目标信息获取模块106还用于生成目标文本内容并展示；获取输入的目标用户账号，接收与所述展示的目标文本内容对应的目标语音数据输入。

可选的，在其中一个实施例中，所述声纹比对模块108还用于通过语音识别将所述目标语音数据转换成文本数据；在所述文本数据与所述目标文本内容匹配时，判定所述目标用户账号的身份校验通过。

可选的，在其中一个实施例中，如图4所示，上述装置还包括语音数据采集停止模块110，用于判断所述创建的与所述用户账号对应的声纹特征库的置信度是否大于或等于阈值，若是，则停止采集即时通信应用中作为发送方的用户账号传输的语音数据。

可选的，在其中一个实施例中，所述目标信息获取模块106还用于至少接收一次输入的目标语音数据；所述声纹比对模块108还用于判断所述至少一次接收到的目标语音数据与所述查找到的声纹特征库的匹配次数/比例，在所述匹配次数/比例大于或等于阈值时，判定所述目标语音数据与所述查找到的声纹特征库匹配。

可选的，在其中一个实施例中，如图4所示，上述装置还包括目标用户账号锁定模块112，用于在所述目标语音数据与所述查找到的声纹特征库不匹配时，锁定所述目标用户账号。

在一个实施例中，如图5所示，图5展示了一种运行上述基于声纹的身份识别方法的基于冯诺依曼体系的计算机***的终端10。该计算机***可以是智能手机、平板电脑、掌上电脑，笔记本电脑或个人电脑等终端设备。具体的，终端10可包括通过***总线连接的外部输入接口1001、处理器1002、存储器1003、和输出接口1004。其中，外部输入接口1001可选的可至少包括网络接口10012。存储器1003可包括外存储器10032(例如硬盘、光盘或软盘等)和内存储器10034。输出接口1004可至少包括显示屏10042等设备。

其中，处理器1002(或称CPU(Central Processing Unit，中央处理器))是终端10的计算核心以及控制核心，其可以解析终端10内的各类指令以及处理智能设备的各类数据。存储器1003(Memory)是终端10中的记忆设备，用于存放程序和数据，其可以包括但不限于ROM、RAM、CD-ROM、以及其他可移除存储器等等。存储器1003提供了存储空间，该存储空间可以用于存储终端10的操作***，还可以存储程序代码、功能模块等等，该操作***可以包括但不限于：windows***、Android***等等。

根据本发明实施例的方法的运行可以基于计算机程序，该计算机程序的程序文件存储于前述基于冯诺依曼体系的计算机***10的外存储器10032中，在运行时被加载到内存储器10034中，然后被编译为机器码之后传递至处理器1002中执行，从而使得基于冯诺依曼体系的计算机***10中形成逻辑上的语音数据采集模块102、声纹特征库创建模块104、目标信息获取模块106、声纹比对模块108、语音数据采集停止模块110、以及目标用户账号锁定模块112。且在上述基于声纹的身份识别执行过程中，输入的参数均通过外部输入接口1001接收，并传递至存储器1003中缓存，然后输入到处理器1002中进行处理，处理的结果数据或缓存于存储器1003中以便进行后续处理，或被传递至输出接口1004进行输出。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该程序可存储于一计算机可读取存储介质中，在被数据处理设备运行时，该程序可使得数据处理设备执行包括如上述各方法的实施例的流程或步骤，具体请参照上文结合附图对实施例的描述，此处不再赘述。

其中，本文中提到的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

另外，上述计算机可读存储介质还可以是计算机装置可以通过网络或通信链接访问的各种类型的记录媒体，例如，可以通过路由器、互联网、局域网等提取其中的数据的记录媒体。此外，上述计算机可读存储介质还可以是位于同一计算机***中的多个计算机可读存储介质，也可以指分布于多个计算机***或计算装置的计算机可读存储介质。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

一种基于声纹的身份识别方法，其特征在于，包括：

采集即时通信应用中作为发送方的用户账号传输的语音数据；

根据采集的语音数据进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库；

接收发起的身份验证请求，获取输入的目标用户账号和目标语音数据；

查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，判定所述目标用户账号的身份校验通过。
根据权利要求1所述的基于声纹的身份识别方法，其特征在于，

所述接收发起的身份验证请求之后还包括：

生成目标文本内容并展示；

所述获取输入的目标用户账号和目标语音数据包括：

获取输入的目标用户账号，接收与所述展示的目标文本内容对应的目标语音数据输入。
根据权利要求2所述的基于声纹的身份识别方法，其特征在于，所述判定所述目标用户账号的身份校验通过还包括：

通过语音识别将所述目标语音数据转换成文本数据；

在所述文本数据与所述目标文本内容匹配时，判定所述目标用户账号的身份校验通过。
根据权利要求1所述的基于声纹的身份识别方法，其特征在于，所述创建与所述用户账号对应的声纹特征库之后还包括：

判断所述创建的与所述用户账号对应的声纹特征库的置信度是否大于或等于阈值，若是，则停止采集即时通信应用中作为发送方的用户账号传输的语音数据。
根据权利要求1所述的基于声纹的身份识别方法，其特征在于，

所述获取输入的目标用户账号和目标语音数据包括：

至少接收一次输入的目标语音数据；

所述判定所述目标用户账号的身份校验通过之前还包括：

判断所述至少一次接收到的目标语音数据与所述查找到的声纹特征库的匹配次数/比例，在所述匹配次数/比例大于或等于阈值时，判定所述目标语音数据与所述查找到的声纹特征库匹配。
根据权利要求1所述的基于声纹的身份识别方法，其特征在于，所述查找与所述目标用户账号匹配的声纹特征库之后还包括：

在所述目标语音数据与所述查找到的声纹特征库不匹配时，锁定所述目标用户账号。
根据权利要求1所述的基于声纹的身份识别方法，其特征在于，还包括：

当后续对所述目标用户账号进行账号验证时，将验证方式设置为通过第一用户账号进行验证，其中，所述目标用户账号和所述第一用户账号为同一用户的关联账号；

查找所述第一用户账号，并查找与所述第一用户账号对应的第一声纹特征库；

接收所述用户输入的用于身份验证的第一语音数据；以及

将所述第一语音数据与所述第一声纹特征库进行匹配，并在匹配成功时，通过所述目标用户账号的账号验证。
一种基于声纹的身份识别装置，其特征在于，包括：

语音数据采集模块，用于采集即时通信应用中作为发送方的用户账号传输的语音数据；

声纹特征库创建模块，用于根据采集的语音数据进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库；

目标信息获取模块，用于接收发起的身份验证请求，获取输入的目标用户账号和目标语音数据；

声纹比对模块，用于查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，判定所述目标用户账号的身份校验通过。
根据权利要求8所述的基于声纹的身份识别装置，其特征在于，所述目标信息获取模块还用于生成目标文本内容并展示；获取输入的目标用户账号，接收与所述展示的目标文本内容对应的目标语音数据输入。
根据权利要求9所述的基于声纹的身份识别装置，其特征在于，所述声纹比对模块还用于通过语音识别将所述目标语音数据转换成文本数据；在所述文本数据与所述目标文本内容匹配时，判定所述目标用户账号的身份校验通过。
根据权利要求8所述的基于声纹的身份识别装置，其特征在于，所述装置还包括语音数据采集停止模块，用于判断所述创建的与所述用户账号对应的声纹特征库的置信度是否大于或等于阈值，若是，则停止采集即时通信应用中作为发送方的用户账号传输的语音数据。
根据权利要求8所述的基于声纹的身份识别装置，其特征在于，所述目标信息获取模块还用于至少接收一次输入的目标语音数据；

所述声纹比对模块还用于判断所述至少一次接收到的目标语音数据与所述查找到的声纹特征库的匹配次数/比例，在所述匹配次数/比例大于或等于阈值时，判定所述目标语音数据与所述查找到的声纹特征库匹配。
根据权利要求8所述的基于声纹的身份识别装置，其特征在于，所述装置还包括目标用户账号锁定模块，用于在所述目标语音数据与所述查找到的声纹特征库不匹配时，锁定所述目标用户账号。
根据权利要求8所述的基于声纹的身份识别装置，其特征在于，

所述目标信息获取模块还用于，当后续对所述目标用户账号进行账号验证时，将验证方式设置为通过第一用户账号进行验证，其中，所述目标用户账号和所述第一用户账号为同一用户的关联账号；

所述声纹比对模块还用于查找所述第一用户账号，并查找与所述第一用户账号对应的第一声纹特征库；

所述目标信息获取模块还用于接收所述用户输入的用于身份验证的第一语音数据；以及

所述声纹比对模块还用于将所述第一语音数据与所述第一声纹特征库进行匹配，并在匹配成功时，通过所述目标用户账号的账号验证。
一种计算机可读存储介质，配置为存储计算机可读指令，当在数据处理设备上执行所述计算机可读指令时，使得所述数据处理设备执行预定操作，所述预定操作包括：

采集即时通信应用中作为发送方的用户账号传输的语音数据；

根据采集的语音数据进行声纹识别模型训练，创建与所述用户账号对应的声纹特征库；

接收发起的身份验证请求，获取输入的目标用户账号和目标语音数据；

查找与所述目标用户账号匹配的声纹特征库，在所述目标语音数据与所述查找到的声纹特征库匹配时，判定所述目标用户账号的身份校验通过。
根据权利要求15所述的计算机可读存储介质，其特征在于，

在接收发起的身份验证请求之后，所述预定操作还包括：

生成目标文本内容并展示；

所述获取输入的目标用户账号和目标语音数据包括：

获取输入的目标用户账号，接收与所述展示的目标文本内容对应的目标语音数据输入。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述判定所述目标用户账号的身份校验通过还包括：

通过语音识别将所述目标语音数据转换成文本数据；

在所述文本数据与所述目标文本内容匹配时，判定所述目标用户账号的身份校验通过。
根据权利要求15所述的计算机可读存储介质，其特征在于，在创建与所述用户账号对应的声纹特征库之后，所述预定操作还包括：

判断所述创建的与所述用户账号对应的声纹特征库的置信度是否大于或等于阈值，若是，则停止采集即时通信应用中作为发送方的用户账号传输的语音数据。
根据权利要求15所述的计算机可读存储介质，其特征在于，

所述获取输入的目标用户账号和目标语音数据包括：

至少接收一次输入的目标语音数据；

在判定所述目标用户账号的身份校验通过之前，所述预定操作还包括：

判断所述至少一次接收到的目标语音数据与所述查找到的声纹特征库的匹配次数/比例，在所述匹配次数/比例大于或等于阈值时，判定所述目标语音数据与所述查找到的声纹特征库匹配。
根据权利要求15所述的计算机可读存储介质，其特征在于，在查找与所述目标用户账号匹配的声纹特征库之后，所述预定操作还包括：

在所述目标语音数据与所述查找到的声纹特征库不匹配时，锁定所述目标用户账号。