CN116386647B

CN116386647B - 音频验证方法、相关装置、存储介质及程序产品

Info

Publication number: CN116386647B
Application number: CN202310606668.XA
Authority: CN
Inventors: 郭军军; 程晓娟; 萧子豪
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-08-22
Anticipated expiration: 2043-05-26
Also published as: CN116386647A

Abstract

本申请实施例公开了一种音频验证方法、相关装置、存储介质及程序产品。所述方法包括：基于待验证音频数据获取多个类型的声纹特征，所述声纹特征包括频域特征和向量特征中的至少一种类型的特征；对多个所述声纹特征进行特征融合处理，以确定所述待验证音频数据的目标测试声纹向量特征；确定所述目标测试声纹向量特征与注册音频数据的注册声纹向量特征的目标相似度分数，所述目标相似度分数用于确定所述待验证音频数据的验证结果。本方案融合了待验证音频数据多个类型的声纹特征确定目标测试声纹向量特征，使得目标测试声纹向量特征的特征维度更高，通过更高维度的特征进行音频验证处理，可以提高音频验证结果的准确率。

Description

音频验证方法、相关装置、存储介质及程序产品

技术领域

本申请实施例涉及语音识别技术领域，尤其涉及一种音频验证方法、相关装置、存储介质及程序产品。

背景技术

随着科技的发展，生物识别技术替代传统密码识别在今天已经成为身份验证的重要手段。其中音频验证（声纹验证）常常被用来作为“守门员”的角色以防止入侵安全***。

为了解决验证测试音频是否属于注册音频，现有技术提出了利用梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients，MFCC）提取x-vector用于音频验证的方法。具体地，提取音频数据的MFCC特征，然后基于该单一的MFCC特征获取测试音频的x-vector，并计算测试音频与注册音频x-vector的余弦相似度；当余弦相似度值大于等于设定的阈值时，判定测试音频与注册音频来自同一个用户；否则判定测试音频与注册音频来自不同用户。

然而，MFCC特征在提取过程中使用了对数和离散余弦变换等非线性变换，这些非线性变换可能会引入非线性失真，导致基于该MFCC特征表征的精度下降，进而导致基于MFCC特征得到的x-vector特征精度下降；并且，x-vector受语音质量、数据类型（例如，歌唱、朗读等）、环境变化等影响，其性能表现可能会有所差异。所以，现有技术中利用基于单一MFCC的x-vector进行音频验证，会导致音频验证结果的准确率较低。

发明内容

本申请实施例提供了一种音频验证方法、相关装置、存储介质及程序产品，可以提高音频验证结果的准确率。

第一方面，本申请实施例提供了一种音频验证方法，包括：

基于待验证音频数据获取多个类型的声纹特征，所述声纹特征包括频域特征和向量特征中的至少一种类型的特征；

对多个所述声纹特征进行特征融合处理，以确定所述待验证音频数据的目标测试声纹向量特征；

确定所述目标测试声纹向量特征与注册音频数据的注册声纹向量特征的目标相似度分数，所述目标相似度分数用于确定所述待验证音频数据的验证结果。

第二方面，本申请实施例还提供了一种音频验证装置，包括：

收发模块，用于基于待验证音频数据获取多个类型的声纹特征，所述声纹特征包括频域特征和向量特征中的至少一种类型的特征；

处理模块，用于对多个所述声纹特征进行特征融合处理，以确定所述待验证音频数据的目标测试声纹向量特征；确定所述目标测试声纹向量特征与注册音频数据的注册声纹向量特征的目标相似度分数，所述目标相似度分数用于确定所述待验证音频数据的验证结果。

在一些实施例中，所述声纹特征包括第一频域特征以及第二频域特征；所述处理模块在执行所述对多个所述声纹特征进行特征融合处理，以确定所述待验证音频数据的目标测试声纹向量特征步骤时，具体用于：

对所述第一频域特征与所述第二频域特征进行特征融合处理，得到目标频域特征；将所述目标频域特征输入预设的第一声学模型，得到所述目标测试声纹向量特征。

在一些实施例中，所述处理模块在执行所述对所述第一频域特征与所述第二频域特征进行特征融合处理，得到目标频域特征步骤时，具体用于：

将所述第一频域特征输入预设的第二声学模型，得到第一声纹向量特征；对所述第一声纹向量特征与所述第二频域特征进行特征融合处理，得到所述目标频域特征。

在一些实施例中，所述声纹特征包括第三频域特征以及第二声纹向量特征；所述处理模块在执行所述对多个所述声纹特征进行特征融合处理，以确定所述待验证音频数据的目标测试声纹向量特征步骤时：

对所述第三频域特征以及所述第二声纹向量特征进行特征融合处理，得到所述目标测试声纹向量特征。

在一些实施例中，所述第二声纹向量特征基于以下步骤得到：

将第四频域特征输入预设的第二声学模型，得到所述第二声纹向量特征，所述第四频域特征从所述待验证音频数据中提取。

在一些实施例中，所述处理模块在执行所述确定所述目标测试声纹向量特征与注册音频数据的注册声纹向量特征的目标相似度分数步骤时，具体用于：

确定所述目标测试声纹向量特征与所述注册声纹向量特征的初始相似度分数；根据第一权重序列以及预设的冒认数据集中各冒认用户的冒认声纹向量特征组，分别确定各所述冒认用户的目标冒认声纹向量特征，所述冒认数据集包括多个冒认用户的冒认声纹向量特征组，所述冒认声纹向量特征组包括对应所述冒认用户在多种特定状态下各所述特定状态分别对应的冒认声纹向量特征，所述第一权重序列为预设的与目标业务场景对应的权重序列，且所述第一权重序列包括各所述特定状态分别对应的权重值；分别确定所述目标测试声纹向量特征与各所述目标冒认声纹向量特征的相似度分数，得到第一相似度分数集合；以及分别确定所述注册声纹向量特征与各所述目标冒认声纹向量特征的相似度分数，得到第二相似度分数集合；根据所述第一相似度分数集合、所述第二相似度分数集合以及所述初始相似度分数确定所述目标相似度分数。

在一些实施例中，所述第一相似度分数集合以及所述第二相似度分数集合为有序序列，所述第一相似度分数集合包括第一目标分数，所述第一相似度分数集合包括第二目标分数；所述处理模块在执行所述根据所述第一相似度分数集合、所述第二相似度分数集合以及所述初始相似度分数确定所述目标相似度分数步骤时，具体用于：

从所述第一相似度分数集合中确定预设个数的第一相似度分数，所述第一相似度分数的排序位置在所述第一目标分数之前或之后；以及从所述第二相似度分数集合中确定所述预设个数的第二相似度分数，所述第二相似度分数的排序位置在所述第二目标分数之前或之后；计算所述预设个数的所述第一相似度分数的第一均值以及第一方差；以及计算所述预设个数的所述第二相似度分数的第二均值以及第二方差；根据所述第一均值、所述第一方差、所述第二均值、所述第二方差以及所述初始相似度分数得到所述目标相似度分数。

在一些实施例中，所述处理模块在执行所述根据第一权重序列以及预设的冒认数据集中各冒认用户的冒认声纹向量特征组，分别确定各所述冒认用户的目标冒认声纹向量特征步骤之前，还用于：

从预设的权重序列集合中确定与所述目标业务场景对应的所述第一权重序列，所述权重序列集合中包括多个业务场景中各所述业务场景分别对应的权重序列。

利用所述收发模块获取目标业务场景的训练集，所述训练集包括两种标签的多个测试对，各所述测试对包括一个测试声纹向量样本特征以及一个注册声纹向量样本特征，所述标签用于指示所述测试对中的测试声纹向量样本特征以及注册声纹向量样本特征是否属于同一用户；获取第二权重序列；基于所述第二权重序列以及所述冒认数据集，分别确定各所述测试对中所述测试声纹向量样本特征以及所述注册声纹向量样本特征的第三相似度分数；根据各所述测试对分别对应的所述第三相似度分数以及各所述测试对分别对应的标签，确定各所述测试对分别对应的损失值；若根据各所述损失值确定所述第二权重序列不符合预设条件，则更新所述第二权重序列，得到候选权重序列，将所述候选权重序列作为所述第二权重序列，直至所述第二权重序列符合所述预设条件，则将所述第二权重序列作为所述第一权重序列。

第三方面，本申请实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现上述方法。

第五方面，本申请实施例提供了一种芯片，该芯片中包括与终端设备的收发器耦合，用于执行本申请实施例第一方面提供的技术方案。

第六方面，本申请实施例提供了一种芯片***，该芯片***包括处理器，用于支持终端设备实现上述第一方面中所涉及的功能，例如，生成或者处理上述第一方面提供的音频验证方法中所涉及的信息。在一种可能的设计中，上述芯片***还包括存储器，该存储器用于保存终端必需的程序指令和数据。该芯片***可以由芯片构成，也可以包含芯片和其他分立器件。

第七方面，本申请实施例提供了一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面提供的音频验证方法，也能实现第一方面提供的音频验证方法所具备的有益效果。

相较于现有技术，本申请实施例提供的方案中，一方面，本实施例用于进行音频验证的目标测试声纹向量特征融合了多个类型的声纹特征，因此得到的目标声纹向量特征具有更高的维度，通过更高维度的特征进行音频验证处理，可以提高音频验证结果的准确率；另一方面，由于本实施例中的目标测试声纹向量特征融合了频域特征和向量特征，目标测试声纹向量特征既可以保留原始说话人的频域特征，还可以利用向量特例表征深层信息，故使用本实施例提供的目标声纹向量特征进行音频验证处理，可以有效提升音频验证***的鲁棒性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的音频验证方法的应用场景示意图；

图2为本申请实施例提供的音频验证方法的流程示意图；

图3a为本申请实施例提供的音频验证方法的一个子流程示意图；

图3b为本申请实施例提供的音频验证方法的另一个子流程示意图；

图4a为本申请实施例提供的音频验证方法的另一个子流程示意图；

图4b为本申请实施例提供的音频验证方法的另一个子流程示意图；

图5为本申请另一实施例提供的音频验证方法的流程示意图；

图6为本申请实施例提供的音频验证方法中确定权重序列的一个流程示意图；

图7为本申请实施例提供的音频验证方法中测试对的示意图；

图8为本申请实施例提供的音频验证装置的示意性框图；

图9为本申请实施例中硬件的一个结构示意图；

图10为本申请实施例中终端设备的一种结构示意图；

图11为本申请实施例中服务器的一种结构示意图。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个***中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

本申请实施例供了一种音频验证方法、相关装置、存储介质及程序产品，该音频验证方法的执行主体可以是本申请实施例提供的音频验证装置，或者集成了音频验证装置的计算机设备，其中，该音频验证装置可以采用硬件或者软件的方式实现，该计算机设备可以为终端或服务器。

当该计算机设备为服务器时，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

当该计算机设备为终端时，该终端可以包括：智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、智能音箱、个人数字助理（英文全称：Personal Digital Assistant，英文简称：PDA）、台式计算机、智能手表、门禁一体机等携带多媒体数据处理功能（例如，视频数据播放功能、音乐数据播放功能）的智能终端，但并不局限于此。

本申请实施例的方案可基于人工智能技术实现，具体来说涉及人工智能技术中的计算机视觉技术技术领域和云技术中的云计算、云存储和数据库等领域，下面将分别进行介绍。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、模型鲁棒性检测、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的模型鲁棒性检测、指纹识别等生物特征识别技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例的方案可基于云技术实现，具体来说涉及云技术中的云计算、云存储和数据库等技术领域，下面将分别进行介绍。

云技术（Cloud technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术（Cloudtechnology）基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源，如视频网站、图像类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台***进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的***后盾支撑，只能通过云计算来实现。本申请实施例可通过云技术对识别结果进行保存。

云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储*** (以下简称存储***）是指通过集群应用、网格技术以及分布存储文件***等功能，将网络中大量各种不同类型的存储设备（存储设备也称之为存储节点）通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储***。在本申请实施例中，可将网络配置等信息均保存在该存储***中，便于服务器调取。

目前，存储***的存储方法为：创建逻辑卷，在创建逻辑卷时，就为每个逻辑卷分配物理存储空间，该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据，也就是将数据存储在文件***上，文件***将数据分成许多部分，每一部分是一个对象，对象不仅包含数据而且还包含数据标识（ID，ID entity)等额外的信息，文件***将每个对象分别写入该逻辑卷的物理存储空间，且文件***会记录每个对象的存储位置信息，从而当客户端请求访问数据时，文件***能够根据每个对象的存储位置信息让客户端对数据进行访问。

存储***为逻辑卷分配物理存储空间的过程，具体为：按照对存储于逻辑卷的对象的容量估量（该估量往往相对于实际要存储的对象的容量有很大余量）和独立冗余磁盘阵列（RAID，Redundant Array of Independent Disk)的组别，预先将物理存储空间划分成分条，一个逻辑卷可以理解为一个分条，从而为逻辑卷分配了物理存储空间。

数据库(Database)，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据库管理***（英语：Database Management System，简称DBMS）是为管理数据库而设计的电脑软件***，一般具有存储、截取、安全保障、备份等基础功能。数据库管理***可以依据它所支持的数据库模型来作分类，例如关系式、XML（Extensible MarkupLanguage,即可扩展标记语言）；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如SQL（结构化查询语言，Structured QueryLanguage)、XQuery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些DBMS能够跨类别，例如，同时支持多种查询语言。在本申请实施例中，可将识别结果存储在该数据库管理***中，便于服务器调取。

其中，需要特别说明的是，本申请实施例涉及的服务终端，可以是指向服务终端提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话（或称为“蜂窝”电话）和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。例如，个人通信业务（英文全称：Personal Communication Service，英文简称：PCS）电话、无绳电话、会话发起协议（SIP）话机、无线本地环路（Wireless LocalLoop，英文简称：WLL）站、个人数字助理（英文全称：Personal Digital Assistant，英文简称：PDA）等设备。

请参阅图1，图1为本申请实施例提供的音频验证方法的应用场景示意图。该音频验证方法应用于图1中的音频验证***中，在一些实施例中，该音频验证***包括用户终端10以及服务器20，该用户终端10用于获取待验证音频数据并将该待验证音频数据发送给服务器20，该服务器20用于对接收到的待验证音频数据进行音频验证处理，并将验证结果返回给用户终端10。

具体地，该服务器20接收用户终端10发送的待验证音频数据，然后获取该待验证音频数据的多个类型的声纹特征，其中，该声纹特征包括频域特征和向量特征中的至少一种类型的特征；然后融合多个类型的声纹特征，得到待验证音频数据的目标测试声纹向量特征；再计算目标测试声纹向量特征与注册声纹向量特征之间的目标相似度分数，并根据该目标相似度分数确定验证结果，最后向用户终端10返回该验证结果。

在另一些实施例中，本实施例中的音频验证***可以仅包括用户终端10或服务器20，此时，本实施例提供的音频验证方法也仅由用户终端10或服务器20完成。

本实施例以服务器作为执行主体为例，该服务器集成有该音频验证装置，当执行主体为终端时，可参考服务器的实施例，不作赘述。以下基于图2对本实施例提供的音频验证方法进行详细说明，如图2所示，该方法包括以下步骤101-105。

图2是本申请实施例提供的音频验证方法的流程示意图。如图2所示，该方法包括以下步骤101-105。

101、服务器获取待验证音频数据。

本实施例中，该待验证音频数据可来自服务器外部，也可为服务器的本地数据，本申请实施例对此不作限定。

当该待验证音频数据来自服务器外部时，该待验证音频数据可为用户终端发送的待验证音频数据，或者，该服务器可设置麦克风，此时，服务器可通过麦克风获取待验证音频数据。

102、服务器基于待验证音频数据获取多个类型的声纹特征。

其中，所述声纹特征包括频域特征和向量特征中的至少一种类型的特征。

该频域特征包括MFCC、常数Q变换频率倒谱系数（Constant Qtransform CepstrumCoefficients，CQCC）特征、线性预测倒谱系数（linear predictive cepstralcoefficient，LPCC）特征、巴克频率倒谱系数（Bark-Frequency Cepstral Coefficients，BFCC ）特征以及Gammatone倒谱系数（Gammatone Frequency Cepstrum Coefficient，GFCC）特征中的至少一种特征，该向量特征包括待验证音频数据的MFCC、LFCC、CQCC、BFCC以及GFCC等频域特征中的任意一种频域特征提取到的向量特征。

需要说明的是，在一些实施例中，为了提高获取到的音频的纯度，在步骤101之前，方法还包括：获取初始音频数据，对该初始音频数据进行预处理，得到待验证音频数据，其中，该预处理包括数据清洗、去除静音片段等处理。

在一些实施例中，本实施例中的待验证音频数据符合预设条件中的至少一个，存在较多噪声、在特定业务场景中获取、语音质量较差、语音类型为特定语音类型，其中，该特定业务场景可为金融支付场景、安全门禁场景、包裹签收场景等、特定语音类型为歌唱、朗读等。

103、服务器对多个所述声纹特征进行特征融合处理，以确定所述待验证音频数据的目标测试声纹向量特征。

在一些实施例中，为了提高频域特征的精度以及提高向量特征的性能表现，所述声纹特征包括第一频域特征以及第二频域特征，该第一频域特征以及所述第二频域特征为不同类型的频域特征，本实施例对不同的频域特征进行融合处理，此时，步骤103包括：

（1）对所述第一频域特征与所述第二频域特征进行特征融合处理，得到目标频域特征。

在一具体的实施例中，以第一频域特征为MFCC特征，第二频域特征为LFCC特征为例进行说明，定义MFCC特征为矩阵M，，表示T时间帧D维度的MFCC特征；定义LFCC特征为矩阵L，/>，表示T时间帧D维度的LFCC特征。

具体地：

；

此时，融合 MFCC 特征以及 LFCC 特征得到：

；

（2）将所述目标频域特征输入预设的第一声学模型，得到所述目标测试声纹向量特征。

在一些实施例中，将上述C_L,M输入第一声学模型，输出目标测试声纹向量特征。

其中，该第一声学模型具体可以为TDNN声学模型，还可以为其他类型的声学模型，例如DNN声学模型，具体模型类型此处不作限定，此外，该第一声学模型基于目标频域特征样本训练得到，该目标频域特征样本基于第一频域特征样本以及第二频域特征样本融合得到。

具体地，如图3a所示，服务器获取到待验证音频数据之后，分别提取该待验证音频数据的第一频域特征以及第二频域特征，然后融合该第一频域特征以及该第二频域特征，得到目标频域特征，然后将该目标频域特征输入第一声学模型，输出目标测试声纹向量特征。

进一步地，在一些实施例中，为了提取更深层次的特征，还可以基于以下步骤对第一频域特征与第二频域特征进行特征融合处理：

具体地，如图3b所示，服务器获取到待验证音频数据之后，分别提取该待验证音频数据的第一频域特征以及第二频域特征，然后将该第一频域特征输入第二声学模型，得到第一声纹向量特征，然后对该第一声纹向量特征与第二频域特征进行特征融合处理，得到目标频域特征，再将该目标频域特征输入第一声学模型，得到目标测试声纹向量特征。

其中，该第二声学模型具体可以为时延神经网络（Time Delay Neural Network，TDNN）声学模型，还可以为其他类型的声学模型，例如深度神经网络（Deep NeuralNetworks，DNN）声学模型，具体模型类型此处不作限定，此外，该第二声学模型基于第一频域特征样本训练得到，本实施例对各个频域特征的具体类型不作限定。

在另一些实施例，为了保留原始说话人的频域特征以及获取更深层次的向量特征，所述声纹特征包括第三频域特征以及第二声纹向量特征；此时，步骤103包括：对所述第三频域特征以及所述第二声纹向量特征进行特征融合处理，得到所述目标测试声纹向量特征。

具体地，如图4a所示，提取待验证音频数据的第三频域特征以及第二声纹向量特征，然后融合该第三频域特征以及第二声纹向量特征，得到目标测试声纹向量特征。

其中，所述第二声纹向量特征基于以下步骤得到：将第四频域特征输入预设的第二声学模型，得到所述第二声纹向量特征，所述第四频域特征从所述待验证音频数据中提取。

即，首先提取待验证音频数据的第四频域特征以及第三频域特征，然后将第四频域特征输入第二声学模型，得到第二声纹向量特征，然后融合第二声纹向量特征以及第三频域特征，得到目标测试声纹向量特征。

具体地，请参阅图4b，服务器获取到待验证音频数据之后，分别提取该待检验音频数据的第三频域特征以及第四频域特征，然后将该第四频域特征输入第二声学模型中，输出该第四频域特征对应的第二声纹向量特征，再将输出的第二声纹向量特征与第三频域特征进行特征融合处理，得到目标测试声纹向量特征。

在一具体的实施例中，以第三频域特征为LFCC特征，第四频域特征为MFCC特征为例进行说明，此时，第三评语特征为矩阵L，第四频域特征为矩阵M，第二声学模型为，将该第四频域特征输入第二声学模型，即将矩阵M输入声学模型，此时输出的第二声纹向量特征为，表示N个片段D维度的vector，具体地：

；

其中，当按照LFCC特征的参数帧长计算vector时，T=N；当T≠N时，可通过维度转换矩阵W使得T×W=N。第二声纹向量特征与第三频域特征帧级别融合后的目标测试声纹向量特征为：

；

104、服务器确定所述目标测试声纹向量特征与注册音频数据的注册声纹向量特征的目标相似度分数。

本实施例中，服务器中预设有注册音频数据，或预设有注册音频数据的注册声纹向量特征，若预设的是注册音频数据，则需要参考获取目标测试声纹向量特征的方式，获取注册音频数据的注册声纹向量特征。

具体地，该目标相似度分数可以为目标测试声纹向量特征与注册声纹向量特征之间的余弦相似度或欧氏距离等，或基于目标测试声纹向量特征与注册声纹向量特征之间的余弦相似度或欧氏距离确定得到。

105、服务器根据目标相似度分数确定所述待验证音频数据的验证结果。

其中，所述目标相似度分数用于确定所述待验证音频数据的验证结果，具体地，若该目标相似度分数大于或等于预设阈值，则确定该待验证音频数据的验证结果为验证通过，若该目标相似度分数小于预设阈值，则确定该待验证音频数据的验证结果为验证不通过。

其中，在一些实施例中，当服务确定了验证结果之后，将会向对应的用户终端返回该验证结果。

综上所述，本申请实施例提供的方案中，一方面，本实施例用于进行音频验证的目标测试声纹向量特征融合了多个类型的声纹特征，因此得到的目标声纹向量特征具有更高的维度，通过更高维度的特征进行音频验证处理，可以提高音频验证结果的准确率；另一方面，由于本实施例中的目标测试声纹向量特征融合了频域特征和向量特征，目标测试声纹向量特征既可以保留原始说话人的频域特征，还可以利用向量特例表征深层信息，故使用本实施例提供的目标声纹向量特征进行音频验证处理，可以有效提升音频验证***的鲁棒性。

为了进一步提高音频验证结果的准确率以及音频验证***的鲁棒性，本实施例还结合冒认数据集来均衡注册语音与测试语音的相似度，得到AS-norm分数，降低其它干扰因素（噪声、语音时间长短、语音环境、语音质量以及语音类型中的至少一种因素）的影响。

需要说明的是，本实施例中的冒认数据集包括多个冒认用户中各所述冒认用户在多种特定状态下各所述特定状态分别对应的冒认声纹向量特征，并且本实施例会根据不同的业务场景，为不同特定状态的冒认声纹向量特征赋予不同的权重，即为不同的业务场景设置不同的权重序列，每个权重序列包括各所述特定状态分别对应的权重值。

其中，多种特定状态包括安静环境、噪声环境、不同时期以及不同身体状态等，例如，对于冒认数据集中的各个冒认用户，分别采集各冒认用户安静环境下音频的声纹向量特征QA、不同噪声环境下音频的声纹向量特征NA、不同时期（例如不同年龄段）下音频的声纹向量特征DA、不同身体状态（例如生病状态、正常状态、运动后状态等）下音频的声纹向量特征HA。

不同的业务场景包括金融支付、安全门禁、包裹签收以及智能家居等。

由于不同业务场景对音频验证***的要求有所差异，本实施例需要结合业务场景需求对冒认数据集中冒认音频数据的冒认声纹向量特征赋予不同的权重，达到拟合业务场景的目的。具体请参阅图5，图5是本申请另一实施例提供的一种音频验证方法的流程示意图。

本实施例以服务器作为执行主体为例，该服务器集成有该音频验证装置，当执行主体为终端时，可参考服务器的实施例，不作赘述。如图5所示，本实施例的音频验证方法包括步骤201-207。

201、服务器获取待验证音频数据。

202、服务器基于待验证音频数据获取多个类型的声纹特征。

203、服务器对多个所述声纹特征进行特征融合处理，以确定所述待验证音频数据的目标测试声纹向量特征。

其中，步骤201-203与上述实施例中的步骤101-103类似，具体此处不作赘述。

204、服务器确定所述目标测试声纹向量特征与注册声纹向量特征的初始相似度分数。

具体地，当获取到待验证音频数据的目标测试声纹向量特征之后，计算该目标测试声纹向量特征与注册声纹向量特征的余弦相似度或欧氏距离，并将该余弦相似度或欧氏距离确定为该初始相似度分数。

205、服务器根据第一权重序列以及预设的冒认数据集中各冒认用户的冒认声纹向量特征组，分别确定各所述冒认用户的目标冒认声纹向量特征。

在一些实施例中，所述冒认数据集包括多个冒认用户的冒认声纹向量特征组，所述冒认声纹向量特征组包括对应所述冒认用户在多种特定状态下各所述特定状态分别对应的冒认声纹向量特征，所述第一权重序列为预设的与目标业务场景对应的权重序列，且所述第一权重序列包括各所述特定状态分别对应的权重值。

本实施例中的冒认用户为与测试用户及注册用户不一样的用户，该测试用户为待验证音频数据对应的用户，该注册用户为注册音频数据对应的用户。

具体地，例如，冒认数据集包括冒认用户1以及冒认用户2的冒认声纹向量特征组，冒认用户1对应的冒认声纹向量特征组包括安静环境下音频的声纹向量特征QA1、不同噪声环境下音频的声纹向量特征NA1、不同时期下音频的声纹向量特征DA1、不同身体状态下音频的声纹向量特征HA1；冒认用户2对应的冒认声纹向量特征组包括安静环境下音频的声纹向量特征QA2、不同噪声环境下音频的声纹向量特征NA2、不同时期下音频的声纹向量特征DA2、不同身体状态下音频的声纹向量特征HA2第一权重序列为α1，α2，α3，α4。

此时，冒认用户1的目标冒认声纹向量特征为：EM_o₁= α1×QA1 + α2×NA1 + α3×DA1 + α4×HA1，冒认用户2的目标冒认声纹向量特征为：EM_o₂= α1×QA2 + α2×NA2 +α3×DA2 + α4×HA2。

在另一些实施例中，冒认数据集包括多个冒认用户中各冒认用户多个特定状态的冒认音频数据，此时，还需要进一步获取冒认数据集中的各冒认音频数据的冒认声纹向量特征，获取冒认音频数据的冒认声纹向量特征的步骤与上一实施例中获取待验证音频数据的目标测试声纹向量特征的步骤类似，具体此处不作赘述。

在一些实施例中，为提高权重序列的获取效率，***预设有权重序列集合，该权重序列集合包括多个业务场景中各所述业务场景分别对应的权重序列，在执行步骤205之前，本实施例可以直接在权重序列集合中确定与目标业务场景对应的所述第一权重序列，其中，目标业务场景为待验证音频数据对应的业务场景，根据待验证音频数据的来源确定。

206、服务器分别确定所述目标测试声纹向量特征与各所述目标冒认声纹向量特征的相似度分数，得到第一相似度分数集合；以及分别确定所述注册声纹向量特征与各所述目标冒认声纹向量特征的相似度分数，得到第二相似度分数集合。

本实施例中，需要分别计算目标测试声纹向量特征与冒认数据集中目标冒认声纹向量特征的相似度分数，得到包含目标测试声纹向量特征与各目标冒认声纹向量特征的相似度分数的第一相似度分数集合；以及计算注册声纹向量特征与冒认数据集中各目标冒认声纹向量特征的相似度分数，得到包含注册声纹向量特征与各目标冒认声纹向量特征的相似度分数的第二相似度分数集合。

207、服务器根据所述第一相似度分数集合、所述第二相似度分数集合以及所述初始相似度分数确定所述目标相似度分数。

在一些实施例中，为了提高计算效率，只需要根据第一相似度分数集合中top k个相似度分数以及第二相似度分数集合中的top k个相似度分数参与目标相似度分数的计算，其中，k为预设个数，且该预设个数的取值小于冒认数据集中冒认用户的总数。

此时，具体地，在一些实施例中，所述第一相似度分数集合以及所述第二相似度分数集合为有序序列，所述第一相似度分数集合包括第一目标分数，所述第一相似度分数集合包括第二目标分数；此时，通过以下步骤确定目标相似度分数：

其中，当该第一相似度集合按降序排序时，第一目标分数位于该第一相似度集合的第k+1个位置，k为预设个数，此时，第一相似度分数为第一相似度集合中排序位置在第一目标分数之前的相似度分数；当第一相似度集合按升序排序时，第一目标分数位于该第一相似度集合的第 M-K个位置，此时，第一相似度分数为第一相似度分数集合中排序位置在第一目标分数之后的相似度分数，其中，M为第一相似度集合中相似度分数的总个数。

此外，第一相似度集合以及第二相似度集合中的相似度分数还可以根据获取时间进行排序，只需要根据预设的分数比对规则从第一相似度集合以及第二相似度集合中分别提取top k个相似度分数即可。

在一具体实施例中，将目标测试声纹向量特征（测试音频数据t）与注册声纹向量特征（注册音频数据e）的初始相似度分数定义为，将冒认数据集定义为，其中，N为冒认数据集中冒认用户的总数，i表示第i个冒认用户，/>包括冒认用户i的多个特定状态的冒认声纹向量特征，将第一权重序列定义为，则第一相似度分数表示为：

；

第二相似度分数表示为：；

进一步地，在一些实施例中，具体通过以下公式确定目标相似度分数（即最终的as-norm 分数）：；

其中，为所述目标相似度分数，为所述初始相似度分数，为所述第一均值，/>为所述第一方差，/>为所述第二均值，/>为所述第二方差。

208、服务器根据所述目标相似度分数确定所述待验证音频数据的验证结果。

具体地，若该目标相似度分数大于或等于预设阈值，则确定该验证结果为验证通过，若该目标相似度分数小于预设阈值，则确定该验证结果为验证不通过。

在一些实施例中，得到验证结果之后，将该验证结果返回给对应的用户终端，当验证结果为验证通过时，则用户终端允许执行下一步操作，否则发出验证不通过提醒；例如，若目标业务场景为金融支付场景时，下一步操作为支付操作，若目标业务场景为安全门禁场景时，下一步操作为开门操作。

相对现有技术中仅利用冒认用户单一的冒认声纹向量特征进行相似度分数优化，由于单一的冒认声纹向量特征的信息度有限，对相似度分数进行优化的效果欠佳；本实施例的冒认数据集中为每个冒认用户均设有多种特定状态的冒认声纹向量特征，并结合多种特定状态的冒认声纹向量特征以及对应的权重序列确定各冒认用户的目标冒认声纹向量特征，可见，本实施例中的冒认用户的目标冒认声纹向量特征结合了多种特定状态的冒认声纹向量特征得到，目标冒认声纹向量特征包含了更多信息维度，使用更多信息维度的目标冒认声纹向量特征对相似度分数进行调整，可以增强音频验证***的鲁棒性。

由于不同业务场景对音频验证***的要求有所差异，因此需要结合具体业务场景需求对冒认数据集中的音频数据（冒认声纹向量特征）赋予不同的权重，达到拟合业务场景的目的。本申请实施例还可使用自适应加权AS-norm方案确定各业务场景分别对应的权重序列，循环步骤303至步骤306-1以确定目标业务场景的权重序列为例进行对本实施例中的自适应加权AS-norm方案进行详细说明。

具体请参阅图6，图6是本申请实施例提供的音频验证方法中确定权重序列的一个流程示意图：

301、获取目标业务场景的训练集。

其中，所述训练集包括两种标签的多个测试对，各所述测试对包括一个测试声纹向量样本特征以及一个注册声纹向量样本特征，所述标签用于指示所述测试对中的测试声纹向量样本特征以及注册声纹向量样本特征是否属于同一用户，例如，将同一用户的测试对的标签设为1，将不同用户的测试对的标签设为0。

具体地，从目标业务场景中获取训练音频样本集合（训练音频样本集合包括多个训练音频的声纹向量样本特征），如图7所示，该训练音频样本集合包括测试样本集合（包括多个测试声纹向量样本特征）以及注册样本集合（包括多个注册声纹向量样本特征），然后分别从测试样本以及注册样本中随机抽取一条音频数据作为测试对，得到n个测试对，n为大于1的整数。

302、获取第二权重序列。

首次进行第二权重序列的计算时，需要初始化所述目标业务场景对应的第二权重序列，对于后续迭代轮次中通过更新获取参与计算的第二权重序列，第二权重序列可以不用初始化。

本实施例中，第二权重序列中包括多种特定状态中各特定状态的音频数据分别对应的权重值。

例如，包括安静环境、噪声环境、不同时期以及不同身体状态一共4种特定状态分别对应的权重值。

303、基于所述第二权重序列以及冒认数据集，分别确定各所述测试对中所述测试声纹向量样本特征以及所述注册声纹向量样本特征的第三相似度分数。

本实施例中，需要结合第二权重序列以及预先设置的冒认数据集，分别确定各测试对中测试声纹向量样本特征以及注册声纹向量样本特征的相似度分数。

其中，在对于各测试对，基于所述第二权重序列以及冒认数据集确定测试声纹向量样本特征以及注册声纹向量样本特征的第三相似度分数的具体过程，与图5对应实施例中根据第一权重序列以及冒认数据集，确定目标测试声纹向量特征与注册声纹向量特征的目标相似度分数的过程类似，具体此处不作赘述。

304、根据各所述测试对分别对应的所述第三相似度分数以及各所述测试对分别对应的标签，确定各所述测试对分别对应的损失值。

本实施例中，当确定了各测试对的第三相似度分数之后，将结合对应测试对的标签确定各测试对分别对应的损失值。

其中，若标签指示对应测试对中的数据为同一用户的数据，则第三相似度分数越大，损失值越小，反之，损失值越大；若标签指示测试对中的数据为不同用户的数据，则第三相似度分数越大，损失值越大，反之，损失值越小。

305、根据各所述损失值确定所述第二权重序列是否符合预设条件，若否，则执行步骤306，若是，则执行步骤307。

其中，该预设条件为表示错误接受的比例（False Accept Rate，FAR）小于第一预设比例，或为表示正确接受的比例（True Accept Rate，TAR）大于第二预设比例。

若该预设条件为FAR小于第一预设比例，步骤305具体包括：根据各所述损失值确定FAR，然后判断该FAR是否小于第一预设比例，若小于第一预设比例，则说明当前的第二权重序列符合预设条件，否则，则说明当前的第二权重序列不符合预设条件。

若该预设条件为TAR大于第二预设比例，步骤305具体包括：根据各所述损失值确定TAR，然后判断该TAR是否大于第二预设比例，若大于第二预设比例，则说明当前的第二权重序列符合预设条件，否则，则说明当前的第二权重序列不符合预设条件。

在另一些实施例中，该预设条件也可以为当前迭代次数大于预设迭代次数，此时，当前迭代次数达到预设迭代次数时，将第二权重序列输出为第一权重序列。

306-1、更新所述第二权重序列，得到候选权重序列，将所述候选权重序列作为所述第二权重序列，返回执行步骤303。

本实施例中，若确定第二权重序列不符合预设条件，则更新第二权重序列，得到候选权重序列，具体地，可对第二权重序列中的权重值进行随机调整，或根据当前损失值的大小对第二权重序列中的权重值进行自适应调整。

306-2、将所述第二权重序列作为所述第一权重序列。

本实施例中，当第二权重序列符合预设条件时，则将所述第二权重序列作为所述第一权重序列。

可见，本实施例针对不同的业务场景都分别构建其对应的权重序列，根据与业务场景对应的权重序列以及冒认数据集确定各冒认用户的目标冒认声纹向量特征，可以使得目标冒认声纹向量特征更加贴合当前业务场景，使用该目标冒认声纹向量特征对相似度分数进行调整，可以进一步提高音频验证***的鲁棒性。

图1至图7中任一项所对应的实施例中所提及的任一技术特征也同样适用于本申请实施例中的图8至图11所对应的实施例，后续类似之处不再赘述。

以上对本申请实施例中一种音频验证方法进行说明，以下对执行上述音频验证方法的音频验证装置（例如服务器、用户终端）进行介绍。

参阅图8，如图8所示的一种音频验证装置800的结构示意图，其可应用于音频验证场景。本申请实施例中的音频验证装置800能够实现对应于上述图1-图7中任一所对应的实施例中所执行的音频验证方法的步骤。音频验证装置800实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述音频验证装置800可包括收发模块801和处理模块802，其中：

收发模块801，用于基于待验证音频数据获取多个类型的声纹特征，所述声纹特征包括频域特征和向量特征中的至少一种类型的特征；

处理模块802，用于对多个所述声纹特征进行特征融合处理，以确定所述待验证音频数据的目标测试声纹向量特征；确定所述目标测试声纹向量特征与注册音频数据的注册声纹向量特征的目标相似度分数，所述目标相似度分数用于确定所述待验证音频数据的验证结果。

在一些实施例中，所述声纹特征包括第一频域特征以及第二频域特征；所述处理模块802在执行所述对多个所述声纹特征进行特征融合处理，以确定所述待验证音频数据的目标测试声纹向量特征步骤时，具体用于：

在一些实施例中，所述处理模块802在执行所述对所述第一频域特征与所述第二频域特征进行特征融合处理，得到目标频域特征步骤时，具体用于：

在一些实施例中，所述声纹特征包括第三频域特征以及第二声纹向量特征；所述处理模块802在执行所述对多个所述声纹特征进行特征融合处理，以确定所述待验证音频数据的目标测试声纹向量特征步骤时：

在一些实施例中，所述处理模块802在执行所述确定所述目标测试声纹向量特征与注册音频数据的注册声纹向量特征的目标相似度分数步骤时，具体用于：

在一些实施例中，所述第一相似度分数集合以及所述第二相似度分数集合为有序序列，所述第一相似度分数集合包括第一目标分数，所述第一相似度分数集合包括第二目标分数；所述处理模块802在执行所述根据所述第一相似度分数集合、所述第二相似度分数集合以及所述初始相似度分数确定所述目标相似度分数步骤时，具体用于：

在一些实施例中，所述处理模块802在执行所述根据第一权重序列以及预设的冒认数据集中各冒认用户的冒认声纹向量特征组，分别确定各所述冒认用户的目标冒认声纹向量特征步骤之前，还用于：

利用所述收发模块801获取目标业务场景的训练集，所述训练集包括两种标签的多个测试对，各所述测试对包括一个测试声纹向量样本特征以及一个注册声纹向量样本特征，所述标签用于指示所述测试对中的测试声纹向量样本特征以及注册声纹向量样本特征是否属于同一用户；获取第二权重序列；基于所述第二权重序列以及所述冒认数据集，分别确定各所述测试对中所述测试声纹向量样本特征以及所述注册声纹向量样本特征的第三相似度分数；根据各所述测试对分别对应的所述第三相似度分数以及各所述测试对分别对应的标签，确定各所述测试对分别对应的损失值；若根据各所述损失值确定所述第二权重序列不符合预设条件，则更新所述第二权重序列，得到候选权重序列，将所述候选权重序列作为所述第二权重序列，直至所述第二权重序列符合所述预设条件，则将所述第二权重序列作为所述第一权重序列。

本申请实施例中，一方面，本方案处理模块802用于进行音频验证的目标测试声纹向量特征融合了多个类型的声纹特征，解决了x-vector特征带来的特征精度下降问题，提高了用于音频验证的特征的精度；另一方面，本方案中的处理模块802对多个类型的声纹特征进行了特征融合处理，使用融合后的特征进行音频验证处理，解决现有技术中仅使用x-vector特征进行音频验证，由于x-vector受语音质量、数据类型、环境变化等影响，性能表现可能会有所差异，导致的音频验证结果准确率较低的问题，提高音频验证结果的准确率；此外，本实施例中的音频验证方法可应用在音频验证***中，故通过本方案提高了音频验证***的鲁棒性。

上面从模块化功能实体的角度对本申请实施例中的图像信息识别***进行了描述，下面从硬件处理的角度分别对本申请实施例中的图像信息识别装置进行描述。

需要说明的是，在本申请实施例各实施例（包括图8所示的各实施例）中所有的收发模块对应的实体设备可以为收发器，所有的处理模块对应的实体设备可以为处理器。当其中一种装置具有如图8所示的结构时，处理器、收发器和存储器实现前述对应该装置的装置实施例提供的所述收发模块和所述处理模块相同或相似的功能，图9中的存储器存储处理器执行上述音频验证方法时需要调用的计算机程序。

图8所示的装置可以具有如图9所示的结构，当图8所示的装置具有如图9所示的结构时，图9中的处理器能够实现前述对应该装置的装置实施例提供的所述处理模块相同或相似的功能，图9中的收发器能够实现前述对应该装置的装置实施例提供的所述收发模块相同或相似的功能，图9中的存储器存储处理器执行上述音频验证方法时需要调用的计算机程序。在本申请实施例图8所示的实施例中的所述收发模块所对应的实体设备可以为输入输出接口，所述处理模块对应的实体设备可以为处理器。

本申请实施例还提供了一种终端设备，如图10所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理（英文全称：Personal Digital Assistant，英文简称：PDA）、销售终端（英文全称：Point of Sales，英文简称：POS）、车载电脑等任意终端设备，以终端为手机为例：

图10示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图10，手机包括：射频（英文全称：Radio Frequency，英文简称：RF）电路55、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真（英文全称：wirelessfidelity，英文简称：Wi-Fi）模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路55可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路55包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（英文全称：Low NoiseAmplifier，英文简称：LNA）、双工器等。此外，RF电路55还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***（英文全称：Global System of Mobile communication，英文简称：GSM）、通用分组无线服务（英文全称：General Packet Radio Service，英文简称：GPRS）、码分多址（英文全称：Code Division Multiple Access，英文简称：CDMA）、宽带码分多址（英文全称：WidebandCode Division Multiple Access, 英文简称：WCDMA）、长期演进（英文全称：Long TermEvolution，英文简称：LTE）、电子邮件、短消息服务（英文全称：Short Messaging Service，英文简称：SMS）等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器（英文全称：LiquidCrystal Display，英文简称：LCD）、有机发光二极管（英文全称：Organic Light-EmittingDiode, 英文简称：OLED）等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图10中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路55以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

Wi-Fi属于短距离无线传输技术，手机通过Wi-Fi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了Wi-Fi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理模块；优选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590（比如电池），电源可以通过电源管理***与处理器580逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的处理器580还具有控制执行以上由图2所示的音频验证方法的流程图。

图11是本申请实施例提供的一种服务器结构示意图，该服务器620可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器（英文全称：centralprocessing units，英文简称：CPU）622（例如，一个或一个以上处理器）和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630（例如一个或一个以上海量存储设备）。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器620上执行存储介质630中的一系列指令操作。

服务器620还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作***641，例如Windows Server，Mac OS X，Unix, Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器620的结构。例如上述实施例中由图2所示的实施例的步骤可以基于该图11所示的服务器实现。例如，所述处理器622通过调用存储器632中的指令，执行以下操作：

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质（例如固态硬盘Solid State Disk(SSD)）等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种音频验证方法，其特征在于，包括：

确定所述目标测试声纹向量特征与注册音频数据的注册声纹向量特征的目标相似度分数，所述目标相似度分数用于确定所述待验证音频数据的验证结果；

其中，所述确定所述目标测试声纹向量特征与注册音频数据的注册声纹向量特征的目标相似度分数，包括：

确定所述目标测试声纹向量特征与所述注册声纹向量特征的初始相似度分数；

根据第一权重序列以及预设的冒认数据集中各冒认用户的冒认声纹向量特征组，分别确定各所述冒认用户的目标冒认声纹向量特征，所述冒认数据集包括多个冒认用户的冒认声纹向量特征组，所述冒认声纹向量特征组包括对应所述冒认用户在多种特定状态下各所述特定状态分别对应的冒认声纹向量特征，所述第一权重序列为预设的与目标业务场景对应的权重序列，且所述第一权重序列包括各所述特定状态分别对应的权重值；

分别确定所述目标测试声纹向量特征与各所述目标冒认声纹向量特征的相似度分数，得到第一相似度分数集合；以及分别确定所述注册声纹向量特征与各所述目标冒认声纹向量特征的相似度分数，得到第二相似度分数集合；

根据所述第一相似度分数集合、所述第二相似度分数集合以及所述初始相似度分数确定所述目标相似度分数。

2.根据权利要求1所述的方法，其特征在于，所述声纹特征包括第一频域特征以及第二频域特征；所述对多个所述声纹特征进行特征融合处理，以确定所述待验证音频数据的目标测试声纹向量特征，包括：

对所述第一频域特征与所述第二频域特征进行特征融合处理，得到目标频域特征；

将所述目标频域特征输入预设的第一声学模型，得到所述目标测试声纹向量特征。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一频域特征与所述第二频域特征进行特征融合处理，得到目标频域特征，包括：

将所述第一频域特征输入预设的第二声学模型，得到第一声纹向量特征；

对所述第一声纹向量特征与所述第二频域特征进行特征融合处理，得到所述目标频域特征。

4.根据权利要求1所述的方法，其特征在于，所述声纹特征包括第三频域特征以及第二声纹向量特征；所述对多个所述声纹特征进行特征融合处理，以确定所述待验证音频数据的目标测试声纹向量特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述第二声纹向量特征基于以下步骤得到：

6.根据权利要求1所述的方法，其特征在于，所述第一相似度分数集合以及所述第二相似度分数集合为有序序列，所述第一相似度分数集合包括第一目标分数，所述第一相似度分数集合包括第二目标分数；所述根据所述第一相似度分数集合、所述第二相似度分数集合以及所述初始相似度分数确定所述目标相似度分数，包括：

从所述第一相似度分数集合中确定预设个数的第一相似度分数，所述第一相似度分数的排序位置在所述第一目标分数之前或之后；以及从所述第二相似度分数集合中确定所述预设个数的第二相似度分数，所述第二相似度分数的排序位置在所述第二目标分数之前或之后；

计算所述预设个数的所述第一相似度分数的第一均值以及第一方差；以及计算所述预设个数的所述第二相似度分数的第二均值以及第二方差；

根据所述第一均值、所述第一方差、所述第二均值、所述第二方差以及所述初始相似度分数得到所述目标相似度分数。

7.根据权利要求1所述的方法，其特征在于，所述根据第一权重序列以及预设的冒认数据集中各冒认用户的冒认声纹向量特征组，分别确定各所述冒认用户的目标冒认声纹向量特征之前，所述方法还包括：

8.根据权利要求6至7中任一项所述的方法，其特征在于，所述第一权重序列基于以下步骤得到：

获取目标业务场景的训练集，所述训练集包括两种标签的多个测试对，各所述测试对包括一个测试声纹向量样本特征以及一个注册声纹向量样本特征，所述标签用于指示所述测试对中的测试声纹向量样本特征以及注册声纹向量样本特征是否属于同一用户；

获取第二权重序列；

基于所述第二权重序列以及所述冒认数据集，分别确定各所述测试对中所述测试声纹向量样本特征以及所述注册声纹向量样本特征的第三相似度分数；

根据各所述测试对分别对应的所述第三相似度分数以及各所述测试对分别对应的标签，确定各所述测试对分别对应的损失值；

若根据各所述损失值确定所述第二权重序列不符合预设条件，则更新所述第二权重序列，得到候选权重序列，将所述候选权重序列作为所述第二权重序列，直至所述第二权重序列符合所述预设条件，则将所述第二权重序列作为所述第一权重序列。

9.一种音频验证装置，其特征在于，包括：

处理模块，用于对多个所述声纹特征进行特征融合处理，以确定所述待验证音频数据的目标测试声纹向量特征；确定所述目标测试声纹向量特征与注册音频数据的注册声纹向量特征的目标相似度分数，所述目标相似度分数用于确定所述待验证音频数据的验证结果；

其中，所述处理模块在执行所述确定所述目标测试声纹向量特征与注册音频数据的注册声纹向量特征的目标相似度分数步骤时，具体用于：

10.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现如权利要求1-8中任一项所述的方法。

12.一种芯片***，其特征在于，包括：

通信接口，用于输入和/或输出信息；

处理器，用于执行计算机可执行程序，使得安装有所述芯片***的设备执行如权利要求1至8任一项所述的方法。