CN114023331A

CN114023331A - 声纹识别***的性能检测方法、装置、设备和存储介质

Info

Publication number: CN114023331A
Application number: CN202111222370.6A
Authority: CN
Inventors: 汤旭东; 吕博良
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-02-08

Abstract

本申请生物识别以及信息安全技术领域，具体涉及一种声纹识别***的性能检测方法、装置、设备和存储介质。所述方法包括：从音频数据库中获取多个字符音频，并对该多个字符音频进行拼接处理，得到第一攻击声纹，该字符音频为单个字符对应的音频片段；获取目标用户的声纹特征，基于该声纹特征生成用于模拟该目标用户声音的第二攻击声纹；将该第一攻击声纹和该第二攻击声纹发送至声纹识别***，得到该声纹识别***的识别响应；根据该识别响应获取该声纹识别***的性能检测结果。采用本方法能够检测声纹识别***防伪性能。

Description

声纹识别***的性能检测方法、装置、设备和存储介质

技术领域

本申请涉及生物识别以及信息安全技术领域，特别是涉及一种声纹识别***的性能检测方法、装置、设备和存储介质。

背景技术

目前，声纹识别***已经普遍应用在互联网金融的登录、支付等多个业务场景中，声纹识别***是利用基于声纹识别的身份验证技术对用户身份进行验证，确保交易安全性，但与此同时，针对声纹识别***的恶意声纹攻击也在逐渐增加，攻击者通过模仿、采集、生成被攻击者的声纹冒充被攻击者的身份，严重影响了声纹识别***的安全性。因此，需要对声纹识别***的防伪性能进行检测，为声纹识别***的安全性提供参考。

然而，目前，并无关于检测声纹识别***的防伪性能的检测方法，因此，对声纹识别***的防伪性能进行检测成为亟需解决的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够检测声纹识别***防伪性能的声纹识别***的性能检测方法、装置、设备和存储介质。

第一方面，提供了一种声纹识别***的性能检测方法，该方法包括：

从音频数据库中获取多个字符音频，并对该多个字符音频进行拼接处理，得到第一攻击声纹，该字符音频为单个字符对应的音频片段；获取目标用户的声纹特征，基于该声纹特征生成用于模拟该目标用户声音的第二攻击声纹；将该第一攻击声纹和该第二攻击声纹发送至声纹识别***，得到该声纹识别***的识别响应；根据该识别响应获取该声纹识别***的性能检测结果。

在其中一个实施例中，该第一攻击声纹包括重放声纹，该从音频数据库中获取多个字符音频，并对该多个字符音频进行拼接处理，得到第一攻击声纹，包括：从该音频数据库中随机获取该多个字符音频，并对随机获取的该多个字符音频进行拼接处理，得到该重放声纹。

在其中一个实施例中，该第一攻击声纹包括构造声纹，该从音频数据库中获取多个字符音频，并对该多个字符音频进行拼接处理，得到第一攻击声纹，包括：获取攻击文字内容，该攻击文字内容包括多个文字字符；从该音频数据库中获取与各文字字符分别对应的该多个字符音频；按照该攻击文字内容中该多个文字字符的排列顺序对获取到的该多个字符音频进行拼接处理，得到该构造声纹。

在其中一个实施例中，该方法还包括：采集原始声纹；对该原始声纹进行清洗处理，以去除该原始声纹中的噪声，得到候选声纹；对该候选声纹进行切分处理，得到多个该字符音频；基于该多个字符音频构建该音频数据库。

在其中一个实施例中，该获取目标用户的声纹特征，基于该声纹特征生成用于模拟该目标用户声音的第二攻击声纹，包括：将该目标用户的声纹输入至特征提取神经网络中，得到该目标用户的声纹特征向量；将该声纹特征向量与声纹文字进行融合处理，得到梅尔谱；对该梅尔谱进行转化处理，得到该第二攻击声纹。

在其中一个实施例中，将该目标用户的声纹输入至特征提取神经网络中，得到该目标用户的声纹特征向量，包括：将该目标用户的声纹进行切分处理，得到多个声纹片段，将该多个声纹片段分别输入至特征提取神经网络，得到各声纹片段对应的声纹特征向量，对各声纹片段对应的声纹特征向量取平均值，得到该目标用户的声纹特征向量。

在其中一个实施例中，将该目标用户的声纹输入至特征提取神经网络中之前，该方法还包括：获取训练样本集，该训练样本集包括样本声纹以及样本声纹对应的声纹标签，该声纹标签用于指示该样本声纹为正常声纹或者恶意声纹；基于该训练样本集训练分类神经网络，该分类神经网络包括特征提取层；将该分类神经网络包括的特征提取层作为该特征提取神经网络。

在其中一个实施例中，该根据该识别响应获取该声纹识别***的性能检测结果，包括：若该重放声纹对应的该识别响应成功，则确定该声纹识别***的性能为第一等级；若该重放声纹对应的该识别响应失败，且，该构造声纹对应的该识别响应成功，则确定该声纹识别***的性能为第二等级；若该重放声纹对应的该识别响应和该构造声纹对应的该识别响应均成功，且，该第二攻击声纹对应的该识别响应失败，则确定该声纹识别***的性能为第三等级；若该重放声纹对应的该识别响应、该构造声纹对应的该识别响应以及该第二攻击声纹对应的该识别响应均失败，则确定该声纹识别***的性能为第四等级；该第一等级、第二等级、第三等级和第四等级表征的声纹识别***的性能依次递增。

第二方面，提供了一种声纹识别***的性能检测装置，该装置包括：

第一获取模块，用于从音频数据库中获取多个字符音频，并对该多个字符音频进行拼接处理，得到第一攻击声纹，该字符音频为单个字符对应的音频片段；第二获取模块，用于获取目标用户的声纹特征，基于该声纹特征生成用于模拟该目标用户声音的第二攻击声纹；发送模块，用于将该第一攻击声纹和该第二攻击声纹发送至声纹识别***，得到该声纹识别***的识别响应；第三获取模块，用于根据该识别响应获取该声纹识别***的性能检测结果。

在其中一个实施例中，该第一攻击声纹包括重放声纹，该第一获取模块，具体用于：从该音频数据库中随机获取该多个字符音频，并对随机获取的该多个字符音频进行拼接处理，得到该重放声纹。

在其中一个实施例中，该第一攻击声纹包括构造声纹，该第一获取模块，具体用于：获取攻击文字内容，该攻击文字内容包括多个文字字符；从该音频数据库中获取与将该文字字符分别对应的该多个字符音频；按照该攻击文字内容中该多个文字字符的排列顺序对获取到的该多个字符音频进行拼接处理，得到该构造声纹。

在其中一个实施例中，该装置还包括：

采集模块，用于采集原始声纹；清洗模块，用于对该原始声纹进行清洗处理，以去除该原始声纹中的噪声，得到候选声纹；切分模块，用于对该候选声纹进行切分处理，得到多个该字符音频；构建模块，用于基于该多个字符音频构建该音频数据库。

在其中一个实施例中，该第二获取模块，具体用于：将该目标用户的声纹输入至特征提取神经网络中，得到该目标用户的声纹特征向量；将该声纹特征向量与声纹文字进行融合处理，得到梅尔谱；对该梅尔谱进行转化处理，得到该第二攻击声纹。

在其中一个实施例中，该第二获取模块，具体用于：将该目标用户的声纹进行切分处理，得到多个声纹片段，将该多个声纹片段分别输入至特征提取神经网络，得到将该声纹片段对应的声纹特征向量，对将该声纹片段对应的声纹特征向量取平均值，得到该目标用户的声纹特征向量。

在其中一个实施例中，该装置还包括：

第四获取模块，用于获取训练样本集，该训练样本集包括样本声纹以及样本声纹对应的声纹标签，该声纹标签用于指示该样本声纹为正常声纹或者恶意声纹；训练模块，用于基于该训练样本集训练分类神经网络，该分类神经网络包括特征提取层；将该分类神经网络包括的特征提取层作为该特征提取神经网络。

在其中一个实施例中，该第三获取模块，具体用于：若该重放声纹对应的该识别响应成功，则确定该声纹识别***的性能为第一等级；若该重放声纹对应的该识别响应失败，且，该构造声纹对应的该识别响应成功，则确定该声纹识别***的性能为第二等级；若该重放声纹对应的该识别响应和该构造声纹对应的该识别响应均成功，且，该第二攻击声纹对应的该识别响应失败，则确定该声纹识别***的性能为第三等级；若该重放声纹对应的该识别响应、该构造声纹对应的该识别响应以及该第二攻击声纹对应的该识别响应均失败，则确定该声纹识别***的性能为第四等级；该第一等级、第二等级、第三等级和第四等级表征的声纹识别***的性能依次递增。

第三方面，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述第一方面任一项所述的方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

上述声纹识别***的性能检测方法、装置、设备和存储介质，通过从音频数据库中获取多个字符音频，并对该多个字符音频进行拼接处理，得到第一攻击声纹，即构建了伪造的声纹；通过获取目标用户的声纹特征，基于该声纹特征生成用于模拟该目标用户声音的第二攻击声纹，即构建了另一伪造的声纹；由于构建第一攻击声纹的字符音频为单个字符对应的音频片段，而构建第二攻击声纹基于目标用户的声纹特征，因此，构建的第一攻击声纹和第二攻击声纹的伪造复杂程度不同；通过将伪造复杂程度不同的第一攻击声纹和该第二攻击声纹发送至声纹识别***，得到该声纹识别***的识别响应，从而可以根据该识别响应获取该声纹识别***的性能检测结果，检测声纹识别***的防伪性能以及防伪等级。

附图说明

图1为本申请实施例提供的一种声纹识别***的性能检测方法的应用环境图；

图2为本申请实施例提供的一种声纹识别***的性能检测方法的流程图；

图3为本申请实施例提供的一种构建音频数据库的流程图；

图4为本申请实施例提供的一种构建重放声纹的流程图；

图5为本申请实施例提供的一种构建构造声纹的流程图；

图6为本申请实施例提供的一种获取特征提取神经网络的示意图；

图7为本申请实施例提供的一种构建第二攻击声纹的示意图；

图8为本申请实施例提供的一种获取声纹特征向量的示意图；

图9为本申请实施例提供的一种声纹识别***防伪性能检测方法的示意图；

图10为本申请实施例提供的一种声纹识别***的性能检测装置的框图；

图11为本申请实施例提供的第二种声纹识别***的性能检测装置的框图；

图12为本申请实施例提供的第三种声纹识别***的性能检测装置的框图；

图13为本申请实施例提供的一种计算机设备框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

随着互联网和智能设备的飞速发展，以机器学习、深度学习为基础的声纹识别***已广泛应用于如互联网金融业务的登录、支付等多个业务场景中，声纹识别***是利用基于声纹识别的身份验证技术对用户身份进行验证，大大提高了业务的易用性与安全性。

与此同时，针对这些应用场景的恶意声纹攻击也逐渐增加，攻击者通过模仿、采集、编排、生成被攻击者的声音、声纹特点，用于绕过关键业务交易的声纹识别***，严重影响了声纹识别***的安全性，对声纹识别安全与生态健康造成了较大影响。因此，需要对声纹识别***的防伪性能进行检测，为声纹识别***的安全性提供参考。

然而，各网站及平台逐步将声纹识别***的安全检测纳入安全管理工作，但各方采取的防护方法各不相同，评估及防护等级也参差不齐，目前暂无关于检测声纹识别***的防伪性能的检测方法，因此，对声纹识别***的防伪性能进行检测成为亟需解决的问题。

本申请实施例提供的声纹识别***的性能检测方法，可以应用于如图1所示的应用环境中。攻击声纹构建***101与声纹识别***102通信连接，攻击声纹构建***将构建的第一攻击声纹和第二攻击声纹发送至声纹识别***，声纹识别***接收到第一攻击声纹和第二攻击声纹并对其进行识别，得到相应的识别响应，以在后续步骤中，根据声纹识别***对第一攻击声纹和第二攻击声纹的识别响应，得到声纹识别***的性能检测结果。其中，攻击声纹构建*** 101可以但不限于是服务器、个人计算机、笔记本电脑等，声纹识别***102可以但不限于是服务器或服务器集群、各种计算机设备、笔记本电脑、智能手机、平板电脑等。

本申请实施例中，如图2所示，其示出了本申请实施例提供的一种声纹识别***的性能检测方法的流程图，以该方法应用于图1中的攻击声纹构建*** 101为例进行说明，包括以下步骤：

步骤201，从音频数据库中获取多个字符音频，并对该多个字符音频进行拼接处理，得到第一攻击声纹，该字符音频为单个字符对应的音频片段。

其中，可被听到的各种连续音频由各个字符音频构成，各个字符音频的内容例如文字或数字等，每个字符由音频形式被输出，从而被听到或被设备识别，即每一个有效的字符对应了一个音频片段，即为字符音频，由多个字符音频构成音频数据库；声纹即是由多个字符音频构成的可以播放的连续音频。声纹识别***用于识别各个用户的声纹，并在识别通过后，用户可以进行下一步的其他操作；声纹识别***对某一用户进行声纹识别的场景中，将该用户作为目标用户，该用户自然产生的声纹为目标用户的声纹，为检测声纹识别***是否可以准确识别出目标用户的声纹，即检测声纹识别***的防伪能力，可以采用构建伪造的声纹，输入声纹识别***进行识别，并通过声纹识别***对该伪造的声纹的识别结果，判断该声纹识别***的防伪能力；其中，该第一攻击声纹即为伪造的声纹，可以通过从音频数据库中获取多个独立的字符音频，将该多个独立的字符音频进行拼接处理，形成可以播放的连续音频，作为第一攻击声纹，该第一攻击声纹并非目标用户自然产生的声纹，而是拼接处理构建的声纹。

步骤202，获取目标用户的声纹特征，基于该声纹特征生成用于模拟该目标用户声音的第二攻击声纹。

其中，目标用户的声纹为连续音频，该连续音频由多个字符音频构成，目标用户的声纹特征可以为从目标用户的声纹中提取出来的特征信息，例如，该特征信息可以为特征向量；基于目标用户的声纹特征，对目标用户的声纹进行模拟，得到模拟目标用户声音的模拟声纹，将该模拟声纹作为第二攻击声纹，该第二攻击声纹由与目标用户的声纹所包含的各个字符音频相似的各个字符音频构成。

步骤203，将该第一攻击声纹和该第二攻击声纹发送至声纹识别***，得到该声纹识别***的识别响应。

其中，显然，上述得到的第一攻击声纹拼接而成，第二攻击声纹由模拟而成，第二攻击声纹的伪造程度高于第一攻击声纹；通过将第一攻击声纹和第二攻击声纹分别发送至声纹识别***，声纹识别***对第一攻击声纹和第二攻击声纹进行识别，分别得到第一攻击声纹和第二攻击声纹对应的识别结果，该识别结果即为声纹识别***的识别响应。

步骤204，根据该识别响应获取该声纹识别***的性能检测结果。

其中，该识别响应表征了声纹识别***对该第一攻击声纹和第二攻击声纹识别是否成功，若成功，表示声纹识别***并未识别出各攻击声纹是伪造构建的声纹，说明该声纹识别***的防伪性能有待提升；其中，根据声纹识别***对伪造程度不同的第一攻击声纹和第二攻击声纹的识别响应，可以判断声纹识别***的防伪性能等级。

上述声纹识别***的性能检测方法，通过从音频数据库中获取多个字符音频，并对该多个字符音频进行拼接处理，得到第一攻击声纹，即构建了伪造的声纹；通过获取目标用户的声纹特征，基于该声纹特征生成用于模拟该目标用户声音的第二攻击声纹，即构建了另一伪造的声纹；由于构建第一攻击声纹的字符音频为单个字符对应的音频片段，而构建第二攻击声纹基于目标用户的声纹特征，因此，构建的第一攻击声纹和第二攻击声纹的伪造复杂程度不同；通过将伪造复杂程度不同的第一攻击声纹和该第二攻击声纹发送至声纹识别***，得到该声纹识别***的识别响应，从而可以根据该识别响应获取该声纹识别***的性能检测结果，检测声纹识别***的防伪性能以及防伪等级。

本申请实施例中，如图3所示，其示出了本申请实施例提供的一种构建音频数据库的流程图，该方法还包括如下步骤：

步骤301，采集原始声纹。

其中，构建音频数据库需要先进行来自不同场景的声纹数据的采集，该采集得到的多种声纹数据即为原始声纹；原始声纹可以通过社会工程学、现场谈话录音、电话录音、线下线上会议录音、现场演讲录音、自媒体平台下载、钓鱼页面诱导等方法获取；其中，原始声纹采集设备可以为手机麦克风，专业录音设备及声卡套装等音频采集设备。

步骤302，对该原始声纹进行清洗处理，以去除该原始声纹中的噪声，得到候选声纹。

其中，原始声纹的获取场景大部分都比较嘈杂，获取到的各原始声纹里都有许多无效噪声，例如背景音等；因此，为获得干净的原始声纹，需要对获取到的各原始声纹进行清洗处理，该清洗处理即去掉各原始声纹中的无效噪声，该清洗处理可以为通过采用反向滤波除噪等方法，去除各原始声纹中的无效噪声，从而获得各原始声纹对应的纯净的有效音频，将各纯净的有效音频作为候选声纹。

步骤303，对该候选声纹进行切分处理，得到多个该字符音频。

其中，得到各候选声纹后，通过自动化工具对各候选声纹进行切分处理，将各候选声纹切分成单个字符音频，以得到多个字符音频；其中，可以通过采用自动化工具，实现对各候选声纹的切分处理，该自动化工具的切分过程可以为：例如，对包含0～9数字的候选声纹进行切分，将该候选声纹对应的波形函数记为f(t)，获取该候选声纹对应的原始声纹在清洗处理时所滤除的无效噪声，将该无效噪声对应的波形函数记为S(t)，将函数S(t)的峰值记为S1，选定包含目标数字的时间窗口T，该目标数字可以为0～9；当f(t)首次大于峰值S1，并保持一定时间时，认为该位置t_0S为数字0的音频的起点；当f(t)首次小于峰值S1，并保持一定时间时，认为该位置t_0e为数字0的终点，将t_0S～t_0e的音频切分出来，从而可以得到数字0的音频片段；依此类推，即可切分得到0～9数字的音频片段。

步骤304，基于该多个字符音频构建该音频数据库。

将各候选声纹切分处理，得到多个字符音频，将所有字符音频在攻击声纹构建***中进行存储，作为音频数据库，可以在构建声纹时直接调用该音频数据库中的某些字符音频。

通过从各种不同场景中采集原始声纹，保证了原始声纹的随机性，并且保证了原始声纹的数据量足够；通过对原始声纹进行清洗、切分处理，不仅可以得到的多个字符音频，并且使得得到的各个字符音频为干净的音频，使得在后续使用时不会受到无效噪声的干扰。

本申请实施例中，如图4所示，其示出了本申请实施例提供的一种构建重放声纹的流程图，该第一攻击声纹包括重放声纹，该从音频数据库中获取多个字符音频，并对该多个字符音频进行拼接处理，得到第一攻击声纹，包括：

步骤401，从音频数据库中随机获取该多个字符音频。

步骤402，对随机获取的多个字符音频进行拼接处理，得到该重放声纹。

其中，第一攻击声纹可以包括重放声纹，在构建重放声纹的过程中，首先随机从音频数据库中选取预设数量的多个字符音频，将选取的多个字符音频直接进行拼接，形成连续音频，将该连续音频作为重放声纹；其中，该预设数量可以根据实际情况设定不同值。

由于该重放声纹是根据随机获取的多个字符音频构成，因此，在目标用户在声纹识别***中进行声纹识别的场景中，该重放声纹所包含的字符音频是无意义的，从而该重放声纹与目标用户的声纹相似度较低，将该重放声纹发送至声纹识别***，若声纹识别***识别该重放声纹未成功，说明声纹识别***识别出该重放声纹与目标声纹不同，是伪造的声纹，从而可以说明声纹识别***的防伪性能满足较低等级；因此，可以采用该重放声纹检测声纹识别***是否具有较低等级的防伪能力。

本申请实施例中，如图5所示，其示出了本申请实施例提供的一种构建构造声纹的流程图，该第一攻击声纹包括构造声纹，该从音频数据库中获取多个字符音频，并对该多个字符音频进行拼接处理，得到第一攻击声纹，包括：

步骤501，获取攻击文字内容，该攻击文字内容包括多个文字字符。

其中，在目标用户在声纹识别***中进行声纹识别的场景中，目标用户输出包含声纹识别***给出的文字内容的声纹，该文字内容包括多个文字字符，该字符可以为文字、数字等；将该文字内容作为攻击文字内容，相应的，攻击文字内容包含多个文字字符。

步骤502，从该音频数据库中获取与各文字字符分别对应的该多个字符音频。

其中，根据获取到的攻击文字内容中的各文字字符，从音频数据库中选取与各文字字符分别对应的字符音频，得到多个字符音频。

步骤503，按照攻击文字内容中该多个文字字符的排列顺序对获取到的该多个字符音频进行拼接处理，得到该构造声纹。

其中，目标用户的声纹包括的各字符音频顺序是根据声纹识别***给出的文字内容确定的，即攻击文字内容包括的各文字字符与目标用户的声纹包括的各字符音频顺序相同，通过目标用户的声纹包括的各字符音频顺序，确定攻击文字内容包括的各文字字符的排列顺序，将各文字字符对应的多个字符音频按照该排列顺序进行拼接处理形成连续音频，将该连续音频作为构造声纹。

由于该构造声纹包括的各字符音频顺序是根据声纹识别***给出的文字内容确定的，因此，在目标用户在声纹识别***中进行声纹识别的场景中，与重放声纹相比，该构造声纹是有意义的，从而该构造声纹与目标用户的声纹有一定的相似度；在目标用户在声纹识别***中进行声纹识别的场景中，将该构造声纹发送至声纹识别***，若声纹识别***识别该构造声纹未成功，说明声纹识别***识别出该构造声纹与目标声纹不同，是伪造的声纹，从而可以说明声纹识别***的防伪性能满足一般等级；因此，可以采用该构造声纹检测声纹识别***是否具有一般等级的防伪能力。

本申请实施例中，如上文所述，在得到第二攻击声纹的过程中，首先需要获取目标用户的声纹特征，可选的，可以利用特征提取神经网络获取目标用户的声纹特征；请参考图6，其示出了本申请实施例提供的一种获取特征提取神经网络的流程图，将目标用户的声纹输入至特征提取神经网络中之前，该方法还包括：

步骤601，获取训练样本集，该训练样本集包括样本声纹以及样本声纹对应的声纹标签，该声纹标签用于指示该样本声纹为正常声纹或者恶意声纹。

其中，将获取到的各原始声纹作为样本声纹，采用简单分类器对各样本声纹进行分类，将各样本声纹分类为正常声纹或恶意声纹，该正常声纹是指，在获取各原始声纹的场景中，用户直接输出的声纹，该恶意声纹是指在获取各原始声纹的场景中，已经被伪造出来的用在这些场景中的声纹；在各样本声纹被分类为正常声纹或恶意声纹后，将各正常声纹与正常声纹标签绑定，该正常声纹标签用于指示所绑定的样本声纹为正常声纹；将各恶意声纹与恶意声纹标签绑定，该恶意声纹标签用于指示所绑定的样本声纹为恶意声纹；将各正常声纹以及对应的正常声纹标签和恶意声纹以及对应的恶意声纹标签作为训练样本集。

步骤602，基于该训练样本集训练分类神经网络，该分类神经网络包括特征提取层。

其中，采用上述得到的样本训练集，进行分类神经网络的训练，训练好的分类神经网络可以对输入的一个目标声纹进行识别，从而判断该目标声纹为正常声纹还是恶意声纹；其中，在该分类神经网络中，有一特征提取层，用于在识别的过程中，对输入的目标声纹进行特征向量的提取。

步骤603，将该分类神经网络包括的特征提取层作为该特征提取神经网络。

将上述分类神经网络包括的特征提取层作为特征提取神经网络，该特征提取神经网络用于输出所输入的目标声纹对应的特征向量。

本申请实施例中，如图7所示，其示出了本申请实施例提供的一种构建第二攻击声纹的流程图，获取目标用户的声纹特征，基于该声纹特征生成用于模拟该目标用户声音的第二攻击声纹，包括：

步骤701，将目标用户的声纹输入至特征提取神经网络中，得到该目标用户的声纹特征向量。

步骤702，将该声纹特征向量与声纹文字进行融合处理，得到梅尔谱。

其中，获取到目标用户在声纹识别***中进行识别的目标用户的声纹，将该目标用户的声纹输入至特征提取神经网络中，从而可以得到该目标用户的声纹对应的声纹特征向量；获取到目标用户的声纹所包含的各字符音频所对应的字符，即为目标用户的声纹文字，将目标用户的声纹对应的声纹特征向量与目标用户的声纹文字进行特征融合，从而会得到相应的梅尔谱。

步骤703，对该梅尔谱进行转化处理，得到该第二攻击声纹。

其中，上述特征融合后得到的梅尔谱为频域的声纹信息，因此，需要对该梅尔谱进行转化处理，从而将其转化为时域的声纹信息，该时域的声纹信息包括多个音频字符，可以正常播放，将该时域的声纹信息作为第二攻击声纹。

由于该第二攻击声纹由目标用户的声纹对应的声纹特征向量与目标用户的声纹文字进行特征融合得到的，因此，在目标用户在声纹识别***中进行声纹识别的场景中，该第二攻击声纹与目标用户的声纹的有较高的相似度；在目标用户在声纹识别***中进行声纹识别的场景中，将该第二攻击声纹发送至声纹识别***，若声纹识别***识别该第二攻击声纹未成功，说明声纹识别***识别出该第二攻击声纹与目标声纹不同，是伪造的声纹，从而可以说明声纹识别***的防伪性能较高；因此，可以采用该第二攻击声纹检测声纹识别***是否具有较高等级的防伪能力。

本申请实施例中，如图8所示，其示出了本申请实施例提供的一种获取声纹特征向量的流程图，将该目标用户的声纹输入至特征提取神经网络中，得到该目标用户的声纹特征向量，包括：

步骤801，将该目标用户的声纹进行切分处理，得到多个声纹片段。

步骤802，将该多个声纹片段分别输入至特征提取神经网络，得到各声纹片段对应的声纹特征向量。

其中，可以按秒对目标用户的声纹进行切分处理，得到多个声纹片段，每一声纹片段包含一段音频；按照切分顺序，将各声纹片段分别输入至特征提取神经网络，每一声纹片段得到对应的声纹特征向量，从而得到各声纹片段对应的各声纹特征向量。

步骤803，对各声纹片段对应的声纹特征向量取平均值，得到该目标用户的声纹特征向量。

其中，对得到各声纹片段对应的各声纹特征向量做求平均值处理，从而可以得到一个特征向量，将该特征向量作为该目标用户的声纹特征向量，用于后续处理。

本申请实施例中，根据该识别响应获取该声纹识别***的性能检测结果，包括：若该重放声纹对应的该识别响应成功，则确定该声纹识别***的性能为第一等级；若该重放声纹对应的该识别响应失败，且，该构造声纹对应的该识别响应成功，则确定该声纹识别***的性能为第二等级；若该重放声纹对应的该识别响应和该构造声纹对应的该识别响应均成功，且，该第二攻击声纹对应的该识别响应失败，则确定该声纹识别***的性能为第三等级；若该重放声纹对应的该识别响应、该构造声纹对应的该识别响应以及该第二攻击声纹对应的该识别响应均失败，则确定该声纹识别***的性能为第四等级；该第一等级、第二等级、第三等级和第四等级表征的声纹识别***的性能依次递增。

其中，在目标用户在声纹识别***中进行声纹识别的场景中，攻击声纹构建***分别将构建的重放声纹、构造声纹以及第二攻击声纹批量发送至声纹识别***；首先将重放声纹发送至声纹识别***中的识别服务器，识别服务器识别该重放声纹，并输出对应的识别响应至攻击声纹构建***；攻击声纹构建***在接收到识别服务器发送的重放声纹对应的识别响应为成功时，将构造声纹发送至识别服务器，识别服务器识别该构造声纹，并输出对应的识别响应至攻击声纹构建***；攻击声纹构建***在接收到识别服务器发送的构造声纹对应的识别响应为成功时，将第二攻击声纹发送至识别服务器，识别服务器识别该第二攻击声纹，并输出对应的识别响应至攻击声纹构建***；其中，识别服务器输出的识别响应为成功时，表征该声纹未被识别服务器认定为伪造的声纹。

根据攻击声纹构建***得到的各响应识别结果，若该重放声纹对应的该识别响应成功，则确定该声纹识别***的性能为第一等级；若该重放声纹对应的该识别响应失败，且，该构造声纹对应的该识别响应成功，则确定该声纹识别***的性能为第二等级；若该重放声纹对应的该识别响应和该构造声纹对应的该识别响应均成功，且，该第二攻击声纹对应的该识别响应失败，则确定该声纹识别***的性能为第三等级；若该重放声纹对应的该识别响应、该构造声纹对应的该识别响应以及该第二攻击声纹对应的该识别响应均失败，则确定该声纹识别***的性能为第四等级；该第一等级、第二等级、第三等级和第四等级表征的声纹识别***的性能依次递增。

通过对识别服务器发送与目标用户声纹相似度不同的构建的伪造声纹，得到的各识别响应结果，也反映了识别服务器识别不同相似度的伪造声纹的能力，从而可以根据各响应结果，判定识别服务器的识别能力，即声纹识别***的防伪性能。

本申请实施例中，如图9所示，其示出了本申请实施例提供的一种声纹识别***防伪性能检测方法的流程图，包括：

步骤901，采集原始声纹。

在攻击声纹构建***中，通过社会工程学、现场谈话录音、电话录音、线下线上会议录音、现场演讲录音、自媒体平台下载、钓鱼页面诱导等方法得到各种音频数据，将各音频数据作为原始声纹；其中，原始声纹采集设备可以为手机麦克风，专业录音设备及声卡套装等音频采集设备。

步骤902，对该原始声纹进行清洗处理，以去除该原始声纹中的噪声，得到候选声纹。

为获得干净的原始声纹，需要对获取到的各原始声纹进行清洗处理，该清洗处理即去掉各原始声纹中的无效噪声，该无效噪声例如背景噪声等；该清洗处理可以为通过采用反向滤波除噪等常用的滤波方法，去除各原始声纹中的无效噪声，从而获得各原始声纹对应的纯净的有效音频，将各纯净的有效音频作为候选声纹。

步骤903，对候选声纹进行切分处理，得到多个字符音频，基于该多个字符音频构建音频数据库。

得到各候选声纹后，通过自动化工具对各候选声纹进行切分处理，将各候选声纹切分成单个字符音频，以得到多个字符音频；将该多个字符音频构成的字符音频集合作为音频数据库。

步骤904，获取训练样本集，该训练样本集包括样本声纹以及样本声纹对应的声纹标签，该声纹标签用于指示该样本声纹为正常声纹或者恶意声纹。

将获取到的各原始声纹作为样本声纹，采用简单分类器对各样本声纹进行分类，将各样本声纹分类为正常声纹或恶意声纹，该正常声纹是指，在获取各原始声纹的场景中，用户直接输出的声纹，该恶意声纹是指在获取各原始声纹的场景中，已经被伪造出来的用在这些场景中的声纹；在各样本声纹被分类为正常声纹或恶意声纹后，将各正常声纹与正常声纹标签绑定，该正常声纹标签用于指示所绑定的样本声纹为正常声纹；将各恶意声纹与恶意声纹标签绑定，该恶意声纹标签用于指示所绑定的样本声纹为恶意声纹；将各正常声纹以及对应的正常声纹标签和恶意声纹以及对应的恶意声纹标签作为训练样本集。

步骤905，基于该训练样本集训练分类神经网络，该分类神经网络包括特征提取层，将该分类神经网络包括的特征提取层作为特征提取神经网络。

采用上述得到的样本训练集，进行分类神经网络的训练，训练好的分类神经网络可以对输入的一个目标声纹进行识别，从而判断该目标声纹为正常声纹还是恶意声纹；其中，在该分类神经网络中，有一特征提取层，用于在识别的过程中，对输入的目标声纹进行特征向量的提取，将该分类神经网络包括的特征提取层作为特征提取神经网络。

步骤906，从音频数据库中随机获取多个字符音频，对随机获取的多个字符音频进行拼接处理，得到重放声纹。

随机从音频数据库中选取预设数量的多个字符音频，将选取的多个字符音频直接进行拼接，形成连续音频，将该连续音频作为重放声纹；其中，该预设数量可以根据实际情况设定不同值。

步骤907，获取攻击文字内容，该攻击文字内容包括多个文字字符，从音频数据库中获取与各文字字符分别对应的多个字符音频，按照攻击文字内容中多个文字字符的排列顺序对获取到的多个字符音频进行拼接处理，得到构造声纹。

在目标用户在声纹识别***中进行声纹识别的场景中，目标用户输出包含声纹识别***给出的文字内容的声纹，该文字内容包括多个文字字符以及相应的排列顺序，该字符可以为文字、数字等；将该文字内容作为攻击文字内容；根据获取到的攻击文字内容中的各文字字符，从音频数据库中选取与各文字字符分别对应的字符音频，得到多个字符音频；根据声纹识别***给出的文字内容的相应的排列顺序，将从音频字符库中选取的各文字字符对应的多个字符音频按照该排列顺序进行拼接处理形成连续音频，将该连续音频作为构造声纹。

步骤908，将目标用户的声纹进行切分处理，得到多个声纹片段，将多个声纹片段分别输入至特征提取神经网络，得到各声纹片段对应的声纹特征向量，对各声纹片段对应的声纹特征向量取平均值，得到该目标用户的声纹特征向量。

其中，可以按秒对目标用户的声纹进行切分处理，得到多个声纹片段，每一声纹片段包含一段音频；按照切分顺序，将各声纹片段分别输入至特征提取神经网络，每一声纹片段得到对应的声纹特征向量，从而得到各声纹片段对应的各声纹特征向量；对各声纹片段对应的声纹特征向量取平均值，得到该目标用户的声纹特征向量。

步骤909，将该声纹特征向量与声纹文字进行融合处理，得到梅尔谱，对该梅尔谱进行转化处理，得到该第二攻击声纹。

获取到目标用户的声纹所包含的各字符音频所对应的字符，即为目标用户的声纹文字，将目标用户的声纹对应的声纹特征向量与目标用户的声纹文字进行特征融合，从而得到相应的梅尔谱；其中，特征融合后得到的梅尔谱为频域的声纹信息，因此，对该梅尔谱进行转化处理，从而将其转化为时域的声纹信息，将该时域的声纹信息作为第二攻击声纹。

步骤910，将重放声纹、构造声纹和第二攻击声纹发送至声纹识别***，得到该声纹识别***的识别响应。

在目标用户在声纹识别***中进行声纹识别的场景中，将攻击声纹构建***中构建的重放声纹、构造声纹和第二攻击声纹分别发送至声纹识别***进行识别。

首先将重放声纹发送至声纹识别***中的识别服务器，识别服务器识别该重放声纹，并输出对应的识别响应至攻击声纹构建***；攻击声纹构建***在接收到识别服务器发送的重放声纹对应的识别响应为成功时，将构造声纹发送至识别服务器，识别服务器识别该构造声纹，并输出对应的识别响应至攻击声纹构建***；攻击声纹构建***在接收到识别服务器发送的构造声纹对应的识别响应为成功时，将第二攻击声纹发送至识别服务器，识别服务器识别该第二攻击声纹，并输出对应的识别响应至攻击声纹构建***；其中，识别服务器输出的识别响应为成功时，表征该声纹未被识别服务器认定为伪造的声纹。

步骤911，根据识别响应获取声纹识别***的防伪性能检测结果。

根据攻击声纹构建***得到的各响应识别结果，若该重放声纹对应的该识别响应成功，则确定该声纹识别***的性能为第一等级；若该重放声纹对应的该识别响应失败，且，该构造声纹对应的该识别响应成功，则确定该声纹识别***的性能为第二等级；若该重放声纹对应的该识别响应和该构造声纹对应的该识别响应均成功，且，该第二攻击声纹对应的该识别响应失败，则确定该声纹识别***的性能为第三等级；若该重放声纹对应的该识别响应、该构造声纹对应的该识别响应以及该第二攻击声纹对应的该识别响应均失败，则确定该声纹识别***的性能为第四等级；该第一等级、第二等级、第三等级和第四等级表征的声纹识别***的性能依次递增；从而可以根据该等级确定声纹识别***的防伪性能等级。

应该理解的是，虽然图2-9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-9中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

本申请实施例中，如图10所示，其示出了本申请实施例提供的一种声纹识别***的性能检测装置的框图，该声纹识别***的性能检测装置1000，包括：第一获取模块1001、第二获取模块1002、发送模块1003和第三获取模块1004，其中：

第一获取模块1001，用于从音频数据库中获取多个字符音频，并对该多个字符音频进行拼接处理，得到第一攻击声纹，该字符音频为单个字符对应的音频片段；

第二获取模块1002，用于获取目标用户的声纹特征，基于该声纹特征生成用于模拟该目标用户声音的第二攻击声纹；

发送模块1003，用于将该第一攻击声纹和该第二攻击声纹发送至声纹识别***，得到该声纹识别***的识别响应；

第三获取模块1004，用于根据该识别响应获取该声纹识别***的性能检测结果。

本申请实施例中，该第一攻击声纹包括重放声纹，该第一获取模块，具体用于：从该音频数据库中随机获取该多个字符音频，并对随机获取的该多个字符音频进行拼接处理，得到该重放声纹。

本申请实施例中，该第一攻击声纹包括构造声纹，该第一获取模块，具体用于：获取攻击文字内容，该攻击文字内容包括多个文字字符；从该音频数据库中获取与将该文字字符分别对应的该多个字符音频；按照该攻击文字内容中该多个文字字符的排列顺序对获取到的该多个字符音频进行拼接处理，得到该构造声纹。

本申请实施例中，该第二获取模块，具体用于：将该目标用户的声纹输入至特征提取神经网络中，得到该目标用户的声纹特征向量；将该声纹特征向量与声纹文字进行融合处理，得到梅尔谱；对该梅尔谱进行转化处理，得到该第二攻击声纹。

本申请实施例中，该第二获取模块，具体用于：将该目标用户的声纹进行切分处理，得到多个声纹片段，将该多个声纹片段分别输入至特征提取神经网络，得到将该声纹片段对应的声纹特征向量，对将该声纹片段对应的声纹特征向量取平均值，得到该目标用户的声纹特征向量。

本申请实施例中，如图11所示，其示出了本申请实施例提供的第二种声纹识别***的性能检测装置的框图，该声纹识别***的性能检测装置1100，还包括：采集模块1005、清洗模块1006、切分模块1007和构建模块1008，其中：

采集模块1005，用于采集原始声纹；

清洗模块1006，用于对该原始声纹进行清洗处理，以去除该原始声纹中的噪声，得到候选声纹；

切分模块1007，用于对该候选声纹进行切分处理，得到多个该字符音频；

构建模块1008，用于基于该多个字符音频构建该音频数据库。

本申请实施例中，如图12所示，其示出了本申请实施例提供的第三种声纹识别***的性能检测装置的框图，该声纹识别***的性能检测装置1200还包括：第四获取模块1009和训练模块1010，其中：

第四获取模块1009，用于获取训练样本集，该训练样本集包括样本声纹以及样本声纹对应的声纹标签，该声纹标签用于指示该样本声纹为正常声纹或者恶意声纹；

训练模块1010，用于基于该训练样本集训练分类神经网络，该分类神经网络包括特征提取层；将该分类神经网络包括的特征提取层作为该特征提取神经网络。

本申请实施例中，该第三获取模块，具体用于：若该重放声纹对应的该识别响应成功，则确定该声纹识别***的性能为第一等级；若该重放声纹对应的该识别响应失败，且，该构造声纹对应的该识别响应成功，则确定该声纹识别***的性能为第二等级；若该重放声纹对应的该识别响应和该构造声纹对应的该识别响应均成功，且，该第二攻击声纹对应的该识别响应失败，则确定该声纹识别***的性能为第三等级；若该重放声纹对应的该识别响应、该构造声纹对应的该识别响应以及该第二攻击声纹对应的该识别响应均失败，则确定该声纹识别***的性能为第四等级；该第一等级、第二等级、第三等级和第四等级表征的声纹识别***的性能依次递增。

关于声纹识别***的性能检测装置的具体限定可以参见上文中对于声纹识别***的性能检测方法的限定，在此不再赘述。上述声纹识别***的性能检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储声纹识别***的性能检测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种声纹识别***的性能检测方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请的一个实施例中，提供了一种计算机设备，该计算机设备可以为服务器，该计算机设备包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：

从该音频数据库中随机获取该多个字符音频，并对随机获取的该多个字符音频进行拼接处理，得到该重放声纹。

获取攻击文字内容，该攻击文字内容包括多个文字字符；从该音频数据库中获取与各文字字符分别对应的该多个字符音频；按照该攻击文字内容中该多个文字字符的排列顺序对获取到的该多个字符音频进行拼接处理，得到该构造声纹。

采集原始声纹；对该原始声纹进行清洗处理，以去除该原始声纹中的噪声，得到候选声纹；对该候选声纹进行切分处理，得到多个该字符音频；基于该多个字符音频构建该音频数据库。

将该目标用户的声纹输入至特征提取神经网络中，得到该目标用户的声纹特征向量；将该声纹特征向量与声纹文字进行融合处理，得到梅尔谱；对该梅尔谱进行转化处理，得到该第二攻击声纹。

将该目标用户的声纹进行切分处理，得到多个声纹片段，将该多个声纹片段分别输入至特征提取神经网络，得到各声纹片段对应的声纹特征向量，对各声纹片段对应的声纹特征向量取平均值，得到该目标用户的声纹特征向量。

获取训练样本集，该训练样本集包括样本声纹以及样本声纹对应的声纹标签，该声纹标签用于指示该样本声纹为正常声纹或者恶意声纹；基于该训练样本集训练分类神经网络，该分类神经网络包括特征提取层；将该分类神经网络包括的特征提取层作为该特征提取神经网络。

若该重放声纹对应的该识别响应成功，则确定该声纹识别***的性能为第一等级；若该重放声纹对应的该识别响应失败，且，该构造声纹对应的该识别响应成功，则确定该声纹识别***的性能为第二等级；若该重放声纹对应的该识别响应和该构造声纹对应的该识别响应均成功，且，该第二攻击声纹对应的该识别响应失败，则确定该声纹识别***的性能为第三等级；若该重放声纹对应的该识别响应、该构造声纹对应的该识别响应以及该第二攻击声纹对应的该识别响应均失败，则确定该声纹识别***的性能为第四等级；该第一等级、第二等级、第三等级和第四等级表征的声纹识别***的性能依次递增。

本申请实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在本申请的一个实施例中，计算机程序被处理器执行时实现以下步骤：

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程 ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限， RAM以M种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步 DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(SyMchliMk)DRAM(SLDRAM)、存储器总线 (RaMbus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种声纹识别***的性能检测方法，其特征在于，所述方法包括：

从音频数据库中获取多个字符音频，并对所述多个字符音频进行拼接处理，得到第一攻击声纹，所述字符音频为单个字符对应的音频片段；

获取目标用户的声纹特征，基于所述声纹特征生成用于模拟所述目标用户声音的第二攻击声纹；

将所述第一攻击声纹和所述第二攻击声纹发送至声纹识别***，得到所述声纹识别***的识别响应；

根据所述识别响应获取所述声纹识别***的性能检测结果。

2.根据权利要求1所述的方法，其特征在于，所述第一攻击声纹包括重放声纹，所述从音频数据库中获取多个字符音频，并对所述多个字符音频进行拼接处理，得到第一攻击声纹，包括：

从所述音频数据库中随机获取所述多个字符音频，并对随机获取的所述多个字符音频进行拼接处理，得到所述重放声纹。

3.根据权利要求2所述的方法，其特征在于，所述第一攻击声纹包括构造声纹，所述从音频数据库中获取多个字符音频，并对所述多个字符音频进行拼接处理，得到第一攻击声纹，包括：

获取攻击文字内容，所述攻击文字内容包括多个文字字符；

从所述音频数据库中获取与各所述文字字符分别对应的所述多个字符音频；

按照所述攻击文字内容中所述多个文字字符的排列顺序对获取到的所述多个字符音频进行拼接处理，得到所述构造声纹。

4.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

采集原始声纹；

对所述原始声纹进行清洗处理，以去除所述原始声纹中的噪声，得到候选声纹；

对所述候选声纹进行切分处理，得到多个所述字符音频；

基于所述多个字符音频构建所述音频数据库。

5.根据权利要求1所述的方法，其特征在于，所述获取目标用户的声纹特征，基于所述声纹特征生成用于模拟所述目标用户声音的第二攻击声纹，包括：

将所述目标用户的声纹输入至特征提取神经网络中，得到所述目标用户的声纹特征向量；

将所述目标用户的声纹特征向量与声纹文字进行融合处理，得到梅尔谱；

对所述梅尔谱进行转化处理，得到所述第二攻击声纹。

6.根据权利要求5所述的方法，其特征在于，所述将所述目标用户的声纹输入至特征提取神经网络中，得到所述目标用户的声纹特征向量，包括：

将所述目标用户的声纹进行切分处理，得到多个声纹片段；

将所述多个声纹片段分别输入至所述特征提取神经网络，得到各所述声纹片段对应的声纹特征向量；

对各所述声纹片段对应的声纹特征向量取平均值，得到所述目标用户的声纹特征向量。

7.根据权利要求5或6所述的方法，其特征在于，所述将所述目标用户的声纹输入至特征提取神经网络中之前，所述方法还包括：

获取训练样本集，所述训练样本集包括样本声纹以及样本声纹对应的声纹标签，所述声纹标签用于指示所述样本声纹为正常声纹或者恶意声纹；

基于所述训练样本集训练分类神经网络，所述分类神经网络包括特征提取层；

将所述分类神经网络包括的特征提取层作为所述特征提取神经网络。

8.根据权利要求3所述的方法，其特征在于，所述根据所述识别响应获取所述声纹识别***的性能检测结果，包括：

若所述重放声纹对应的所述识别响应成功，则确定所述声纹识别***的性能为第一等级；

若所述重放声纹对应的所述识别响应失败，且，所述构造声纹对应的所述识别响应成功，则确定所述声纹识别***的性能为第二等级；

若所述重放声纹对应的所述识别响应和所述构造声纹对应的所述识别响应均成功，且，所述第二攻击声纹对应的所述识别响应失败，则确定所述声纹识别***的性能为第三等级；

若所述重放声纹对应的所述识别响应、所述构造声纹对应的所述识别响应以及所述第二攻击声纹对应的所述识别响应均失败，则确定所述声纹识别***的性能为第四等级；

所述第一等级、所述第二等级、所述第三等级和所述第四等级表征的声纹识别***的性能依次递增。

9.一种声纹识别***的性能检测装置，其特征在于，所述装置包括：

第一获取模块，用于从音频数据库中获取多个字符音频，并对所述多个字符音频进行拼接处理，得到第一攻击声纹，所述字符音频为单个字符对应的音频片段；

第二获取模块，用于获取目标用户的声纹特征，基于所述声纹特征生成用于模拟所述目标用户声音的第二攻击声纹；

发送模块，用于将所述第一攻击声纹和所述第二攻击声纹发送至声纹识别***，得到所述声纹识别***的识别响应；

第三获取模块，用于根据所述识别响应获取所述声纹识别***的性能检测结果。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。