CN114360553A

CN114360553A - 一种提升声纹安全性的方法

Info

Publication number: CN114360553A
Application number: CN202111483683.7A
Authority: CN
Inventors: 徐文渊; 冀晓宇; 何睿文; 程雨诗
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-04-15
Anticipated expiration: 2041-12-07
Also published as: CN114360553B

Abstract

本发明公开了一种提升声纹安全性的方法，属于智能语音***中的说话人识别安全技术领域。包括构造声纹安全模型；说话内容原子化；设置测试变量；构造测试样本；声纹安全模型训练与声纹注册；计算丰富度、长度、细节三种特征变量单步变化下的误识别率变化，得到特征变量的权重关系；针对待认证的原始认证词，提取原始认证词的音素特征，并得到原始认证词的误识别率；将误识别率与阈值作比较，若误识别率≤阈值，说明声纹安全，若误识别率＞阈值，则根据特征变量的权重关系对原始认证词进行优化。区别于现有方法中着力于改进声纹模型、音频特征的研究趋势，本发明着力于通过优化说话内容的方式提升声纹安全性，可复配任何现有或改进的声纹模型。

Description

一种提升声纹安全性的方法

技术领域

本发明属于智能语音***中的说话人识别安全技术领域，具体涉及一种提升声纹安全性的方法。

背景技术

随着智能设备的普及和人工智能技术的发展，智能语音***的应用越来越广泛。智能语音***包含的功能有两个重要的分支，分别是语音识别和说话人识别，语音识别主要用于将声音转换成具有语义的文本，说话人识别主要用于通过语音识别的身份。说话人识别技术目前已在金融交易、资产管理、刑侦、电话服务、语音助手等行业中大量应用，并承担身份认证和识别等重要功能。智能语音*** 的使用给各行业带来了便捷的同时也引入了新的安全问题。

下面以几个典型应用场景为例说明说话人认证的工作流程与效果意义。

在现实生活的各种场景中，说话人识别常常被用来认证用户的身份，用法类似于密码，用户需要事先录制一段声音，利用说话人识别***提取声纹进行注册，用户在后续登录账号时都必须通过声音来验证自己的身份。

在语音助手场景中，说话人识别一般在唤醒语音助手时使用，现在大部分商用智能设备语音***需要先进行唤醒再进行各类指令的交互，用户通过说固定指令来发起唤醒，语音***接收到用户语音后会判断音频对应的文本内容和声纹是否符合用户注册时的预设，若文本和说话人均通过认证，则允许后续的交互操作。上述说话人认证在不同语音***中的应用存在差异，但符合基本一致的工作流。

在说话人识别中最常见的攻击是模仿他人的声音欺骗说话人识别***以获取其他用户的权限。若想成功实施攻击，需要提高攻击者声纹和被攻击者声纹之间的相似度。因此可区分性越差的声纹越容易被成功攻击，声纹的安全性取决于其可区分性，若某种声纹提取方法获得的声纹在用户间区分性大，则这种方法更为安全。声纹工作流中的每个部分都可能影响声纹安全性，目前已有部分工作研究提高声纹的安全性。

目前已有部分工作从模型方面提高声纹的安全性，这些工作通过改进说话人识别***中使用的声纹模型架构(如使用不同的统计模型、从统计模型转换为深度学习模型、调整深度神经网络的架构等)、声学特征、损失函数模型、相似度算法等来提高声纹之间的可区分性。此类工作仅从模型角度改进说话人识别*** 的性能，未考虑说话人认证流程中的其他因素。

Achintya Kumar Sarkar等人在2012年的《INTERSPEECH》上发表《Study of theEffect of I-vector Modeling on Short and Mismatch Utterance Duration forSpeaker Verification》，研究声纹模型训练和测试语音的持续时间长度不同时，如何通过估计统计参数改进模型，训练出性能更好的模型，此项研究中使用的语音长度分布在2.5分钟到5秒之间。

Ruirui Li等人在2020年的《ACM International WSDM Conference》上发表《Automatic Speaker Recognition with Limited Data》，研究用户用少量音频注册声纹时如何提高声纹识别率，提出了一个对抗式的少样本说话人识别框架，使用度量学习来提取声纹特征，并使用少量测试音频样本来提高识别性能。

目前已有部分工作研究除模型外影响声纹安全的其他因素，包括用户健康状态、环境噪声、语音数据库大小。此类工作从用户固有生理特性、音频特性、环境因素等分析与声纹安全相关的因素，现存工作中缺少对声纹安全性的结构化分析，没有从说话内容的本质——音素出发，细粒度的分析声纹安全性与说话内容的相关性。

发明内容

本发明针对现有说话人识别***安全分析不全面的问题，提出了一种提升声纹安全性的方法。本发明对声纹安全性进行了结构化分析，并从说话内容的本质 ——音素出发，细粒度地分析声纹安全性与说话内容的相关性。

本发明首先确定说话人识别***的工作流，根据影响声纹安全性的因素构造声纹安全模型。接着对说话内容进行原子化，以音素为单位分解说话内容，将说话内容表示为音素序列，再设计长度、丰富度、细节3个音素特征定量化的表征音素序列，以音素特征为标准设置7组说话内容变量。最后通过改变说话内容变量，测试得到说话人的误识别率，根据测试结果计算长度、丰富度、细节三个音素特征的影响权重，根据权重对音素特征在声纹安全性方面的影响力大小进行排序，根据影响力大小选择不同的方式提升说话内容的安全性。

本发明是通过以下技术方案得以实现的：

一种提升声纹安全性的方法，包括以下步骤：

步骤S01，根据说话人识别***的工作流，确定影响声纹安全性的因素，构造声纹安全模型；

步骤S02，说话内容原子化：对说话内容进行分解，提取说话内容的长度、丰富度、细节作为音素特征，构成特征序列；

步骤S03，设置测试变量：将三种音素特征作为三组单变量，将长度-丰富度、长度-细节、丰富度-细节作为三组双变量，构造六组变量作为测试变量；

步骤S04，构造测试样本：获取音频数据，提取音频中的说话内容并转化成音素序列，按照说话内容将音频分割成音素音频，重组音素音频形成测试样本；

步骤S05，声纹安全模型训练与声纹注册；

步骤S06，首先设置声纹安全性评价指标为说话人认证的误接受率和误拒绝率，再根据每组变量的测试样本分别进行测试，得到说话内容变量与误识别率之间的对应关系数据对；所述的误识别率包括误接受率和误拒绝率；最后计算丰富度、长度、细节三种特征变量单步变化下的误识别率变化，得到三种特征变量的权重关系；

步骤S07，针对待提升安全性的原始认证词，根据三种特征变量的权重关系对原始认证词进行优化。

本发明具有以下有益效果：

(1)本发明提出了一种分析说话内容对声纹安全性影响的方法，弥补了目前分析声纹安全性相关因素研究的不足，填补了声纹中说话内容安全性影响的缺失。区别于现有方法中以在确定环境下提高声纹识别准确率指标为目标，着力于改进声纹模型、音频特征的研究趋势，本发明着力于通过优化说话内容的方式提升声纹安全性，可复配任何现有或改进的声纹模型。

(2)本发明中对说话内容进行原子化，有利于直观细粒度的分析说话内容的安全性影响。从本质上解构说话内容，从语言学角度对说话内容进行分解，将说话内容表示为音素序列，设计长度、丰富度、细节作为较为完备的音素特征，用于表示音素的特征序列，实现数字化的变量表示说话内容，便于定量控制说话内容。本发明的音素特征可表征任何说话内容，因此区分于其他研究以时间为单位对比长语音和短语音、特定于一种语言等不足，分析结果更加全面且具有高适用性，可用于任何指定语言、指定声纹模型下的说话内容安全性评估。

(3)本发明***性的探究了音素特征的各类影响，包括单个变量的影响、变量的协同影响力、比较不同变量的影响力大小，区别于已有研究仅在一个角度分析长时语音和短时语音、数字序列和句子的区别。为了实现每个变量的设置需求，本发明在设计测试样本方面首先判断音频的说话内容，接着转化成音素序列，然后按照说话内容将音频分割成音素音频，最后重组音素音频形成测试样本。此方法通过分割音素音频构造了较为无偏的测试样本，克服了现有样本受语言规律限制的问题，保证了测试样本的合理均匀分布，通过此方法分析得到的说话内容安全影响力结果具有较高的完备性和可信度。

附图说明

图1为本发明示出的一种提升声纹安全性的方法流程框图；

图2为本发明示出的说话人识别***工作流程图和安全影响因素。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

如图1所示，本发明提出的一种提升声纹安全性的方法，主要包括以下步骤：

步骤S01，根据说话人识别***的工作流，确定影响声纹安全性的因素，构造声纹安全模型。在后续分析中将所有的影响因素作为控制变量，以保证说话内容安全影响力分析的公平性。

步骤S01具体包括：

步骤S11，总结说话人识别***工作流程。

如图2所示，说话人认证在不同语音***中的应用场景下存在差异，但符合基本一致的工作流，即：

(1)注册声纹：1)用户A的说话音频被录音设备录制，输入智能语音系统；2)提取音频的声学特征，输入说话人认证***；3)说话人识别***的声纹模型提取声纹，得到声纹A；

(2)测试声纹：1)用户X的说话音频被录音设备录制，输入智能语音语音***；2)提取音频的声学特征，输入说话人认证***；3)声纹模型提取此音频的声纹，得到声纹X；4)计算声纹X和声纹A的相似度，判断用户X是否是A，或计算相似度判断用户X是谁。

步骤S12，确定声纹安全性因素。

声纹工作流中的每个部分都可能影响声纹安全性，由上述工作流可知，声纹安全与(1)用户固有的生理特性，如声道形状、性别、年龄、身体状态；(2) 说话内容，即用户在声纹识别时提供的音频内容；(3)声纹模型，包括声纹提取模型、相似度算法、音频特征等；(4)环境因素，包括录音设备、环境噪声、音频通道数、采样频率等有关。

因此，在安全模型中确认声纹安全与用户、说话内容、声纹模型、环境相关，在后续工作中尽可能避免受其他影响因素偏差影响，减少说话内容测试结果的误差。

此处对声纹模型的原理和架构进行介绍。声纹模型的功能是提取语音信号的说话人特征，一般输入语音片段，输出低维的向量用于表征声纹，通过计算声纹向量之间的相似度进行说话人认证或识别。

语音片段通过模型生成声纹向量一般分为三步：

第一步对语音片段进行音频特征提取，一般可能提取梅尔频谱倒谱系数 (Mel-Frequency Cepstrum Coefficient，MFCC)、梅尔滤波结果(Filter Bank， Fbank)、频谱图(Power Spectrum)等特征，将音频的时域表示转换为频域或梅尔标度下的频域。

第二步将音频特征输入编码器，编码器按架构可以分为两个主要类别，基于深度神经网络的架构和基于统计模型的架构。基于统计模型的架构来源于高斯混合-通用背景模型(Gaussian Mixture Model-Universal Background Mode, GMM-UBM)，其中高速混合模型GMM用多个高斯概率密度函数加权和来表示声纹超向量每一维的概率分布函数，但由于每个说话人的语句数量有限，用一个预先训练好的说话人无关的通用背景模型UBM作为初始模型减小GMM训练的难度，与之类似的模型还有提高了信道鲁棒性的i-vector等；基于深度神经网络的架构包括DNN、ResCNN、GRU等，这些架构的层级形式和连接方式有所不同，但均是通过输入层、隐含层、输出层将音频特征变换为向量。

第三步是判断编码结果的相似性，调整模型参数。GMM-UBM及同类模型可以把声纹信息表示为均值超矢量，在不同方法中使用不同的超矢量相似度比较算例，例如在线性判别分析(Linear Discriminant Analysis，LDA)方法中通过计算余弦相似度判断超矢量的相似度，在概率线性判别分析(Probabilistic Linear Discriminant Analysis，PLDA)中计算说话人空间中特征的对数似然比来衡量语音的相似度。神经网络模型在输出层之后使用损失函数计算声纹向量输出与其相应类的距离，用此距离的值反向传播调整神经网络的超参数，常用的损失函数包括交叉熵损失函数、三角损失函数、均方误差等，而在输入音频进行认证时还可能采用余弦相似度作为相似度评价的指标。

步骤S13，根据安全性因素变量确定测试样本的要求。依据步骤S12可知，在说话内容的安全影响因素中，需要设置用户、声纹模型、环境三个因素变量。

在环境方面，需要使用来源于不同语音集的语音样本，这些音频的录制设备、录制环境不同，保证测试样本在环境因素方面无偏。本实施例中，选择VCTK 和LibriSpeech两个英文语音库，这两个库中包含来源于不同设备的纯净语音音频和有噪声音频。

在用户方面，需要使用大量不同说话人的语音，这些说话人具有不同的年龄、性别、身体状况，保证测试样本在用户固有生理特征方面无偏。本实施例中，在 VCTK和LibriSpeech两个语音库中包含超过2500个说话人的语音，满足大量用户语音样本的需求。

在声纹模型方面，需要使用不同种类的声纹模型，以保证分析得到的说话内容影响结论不是基于特定模型的，并可进一步分析结论是否在模型间具有一致性。声纹模型从架构和原理上可以分为基于统计和基于神经网络两类，从注册和测试方法上可以分为文本相关和文本无关两类，其中文本相关声纹要求注册和测试说话内容相同，文本无关则无要求，文本相关和无关模型具有相同的架构原理发展趋势，且文本无关模型的应用领域更广，是未来声纹应用的主要方向。因此选择 i-vector、x-vectors、U-LEVEL三个具有代表性的文本无关声纹模型用于安全性分析，其中i-vector和x-vectors分别是最为流行的统计声纹模型和神经网络声纹模型之一，U-LEVEL是最先进的神经网络声纹模型之一，是声纹模型的未来发展方向。本实施例中，可以针对不同类型的声纹模型进行测试，生成针对不同类型声纹模型的说话内容优化方案。

步骤S02，说话内容原子化。对说话内容进行分解，用数字化的变量表示说话内容，便于定量控制说话内容，有利于直观细粒度的得到说话内容的安全性影响。

步骤S02具体包括：

步骤S21，分解说话内容。在语言学的角度，任何词语或句子都是由音素或音位组成的，音素或音位是语言学中的最小单位，其中音素与语言无关，它由国际音标设定，在所有语言中通用，音位与语言相关，不同语言的音位不同，音位可以由音素组成或变形得到。因此为了不失一般性，选择音素作为最小单位，将说话内容表示为音素序列。

步骤S22，音素序列原子化。设计4个音素特征用于表示音素的特征序列，包括长度、丰富度、细节、顺序，其中长度通过统计音素序列中的音素个数得到，丰富度通过统计音素序列中的音素种类数得到，细节指的是具体的音素种类，顺序为音素在音频中出现时间先后。

步骤S23，设置测试变量。根据说话内容原子化后得到4个音素特征设计说话内容安全影响力的测试方法。为了探究单个变量的影响，分析变量的协同影响力和比较不同变量的影响力大小，使用7组变量进行测试，变量编号和内容如下：

步骤S04，构造测试样本。测试样本需满足步骤S13确定的测试样本要求以及步骤S23设置的测试变量要求，由于VCTK和LibriSpeech语音库中音频的说话内容由用户录制得到，因此符合语言的基本规律，不能满足步骤S23中单个变量单独变化、多个变量协同变化等要求，因此测试样本需要分割音频后重组形成。本实施例中，首先判断音频的说话内容，接着转化成音素序列，然后按照说话内容将音频分割成音素音频，最后重组音素音频形成测试样本。

步骤S04具体包括：

步骤S41，音频转换为音素序列。VCTK和LibriSpeech两个英文语音库中包含音频对应的文本信息，因此可以直接得到说话内容。若选择其他语音库，需要通过语音识别***得到说话内容。然后利用Phonemizer工具可以将句子或单词文本转换成音素序列，英文中包含46种音位(其中有部分双元音、三元音、破擦音，由多个元音或辅音组成)，根据国际音标表(International Phonetic Alphabet，IPA)包含40种音素，因此说话内容可以用40种音素组成的音素序列表示。

步骤S42，分割音素音频。利用G2P工具将句子或单词文本转换成语音转录代码(Arpabet)序列，将语音转录代码序列和音频输入Montreal-Forced-Aligner (MFA)工具，可以输出每个音素的持续时间和时间戳，根据持续时间和时间戳分割得到音素音频。

步骤S43，重组音素音频。根据不同变量的要求，重新组合音素音频，形成测试样本。

针对变量1丰富度、变量2长度，测试样本需要让目标变量等步长变化，其他变量均匀分布。

针对变量3细节，单个测试样本的丰富度为1，不同测试样本长度应相同。

针对变量4顺序，测试样本间其他变量应该相同。

针对变量5丰富度和长度协同变化，测试样本在丰富度不变时，长度应等步长变化，测试样本的丰富度取值应覆盖全域，且需遵循基本逻辑，即丰富度应小于等于长度。

针对变量6长度和细节协同变化，测试样本在每个细节取值处，长度都应等步长变化。

针对变量7丰富度和细节协同变化，测试样本应保证长度相同。

另外，对于所有变量的同一取值都应构造多个样本，避免单个样本造成的误差干扰测试结果。

步骤S05，声纹模型训练与声纹注册。

根据说话人识别工作流可知，在测试声纹安全性之前，需要先进行声纹模型训练和用户声纹注册。根据步骤S13，使用VoxCeleb语音集分别训练i-vector、 x-vectors、U-LEVEL声纹模型，此处也可选用其他模型进行训练，但需要和测试样本的原始数据集不相同，否则识别准确率结果会大幅提高，不能反应真实的安全性结果。对VCTK和LibriSpeech两个英文语音库中的每位说话人，使用5 条随机语音样本进行声纹注册，注册语音总长应超过10s，与大部分商用语音系统的要求相似，注意注册语音总长不可过短，过短将降低识别准确率，干扰分析结果。

步骤S06，测试由音素特征组成的说话内容变量与声纹安全性之间的关系。测试时需要先设置声纹安全性评价指标，再根据每个变量的测试样本分别进行测试，最终得到声纹安全性与说话内容的相关性结果。

步骤S06具体包括：

步骤S61，设置声纹安全性评价指标。说话人识别在应用方法上可分为认证和识别两类，其中认证属于二分类问题，识别属于多选一问题，但此两类问题所用说话人识别方法基本相同，只在相似度评分部分存在少量差异，为增加测试案例，选择认证作为测试目标。

根据背景部分分析可知，声纹安全性与声纹间的可区分性直接相关，因此选择误识别率作为声纹可区分性的评价指标，误识别率包括认证的误接受率(False AcceptanceRate，FAR)和误拒绝率(False Rejection Rate，FRR)，评价指标FAR 和FRR的计算公式如下：

其中，n为注册和测试的说话人数量(默认注册和测试的人数相同)，i和j为说话人，p1_i为说话人i被认证为不是i的概率，p2_ij为说话人i被认证为是j的概率，p1_i和 p2_ij的每个值均平均了多次测试结果。

步骤S62，测试变量1丰富度的安全影响力。测试样本的丰富度R在[1,40]内均匀分布，长度L在[R,40]内均匀分布，细节和顺序随机分布，利用测试样本分别对每个声纹模型进行声纹认证测试，计算FAR和FRR，得到丰富度与误识别率的对应关系的数据对。

步骤S63，测试变量2长度的安全影响力。测试样本的长度L在[1,40]内均匀分布，丰富度R在[1,L]内均匀分布，细节和顺序随机分布，利用测试样本分别对每个声纹模型进行声纹认证测试，计算FAR和FRR，得到长度与误识别率的对应关系的数据对。

步骤S64，测试变量3细节的安全影响力。测试样本由46种英文音位各自重复构成，重复形成的音素序列长度L均为90，丰富度R为1，利用测试样本分别对每个声纹模型进行声纹认证测试，计算FAR和FRR，得到细节与误识别率的对应关系的数据对。

步骤S65，测试变量4顺序的安全影响力。根据步骤S64把音素分为可区分性高的类A和可区分性低的类B。测试样本包括来源于类A和类B的音素序列 AABB、BBAA、ABAB、BABA，长度L均为4，丰富度R均为2，利用测试样本分别对每个声纹模型进行声纹认证测试，计算FAR和FRR，得到顺序与误识别率的对应关系的数据对。

步骤S66，测试变量5丰富度和长度协同变化。测试样本的丰富度R在[1,40] 内均匀分布，长度L在[R,40]内均匀分布，细节和顺序随机分布，利用测试样本分别对每个声纹模型进行声纹认证测试，计算FAR和FRR，得到丰富度和长度协同变化与误识别率的对应关系的数据对，结合步骤S62和S63结果可比较丰富度和长度的安全影响力大小。

步骤S67，测试变量6长度和细节协同变化。测试样本的由46种英文音位各自重复构成，长度L在[1,90]内均匀分布，丰富度R为1，利用测试样本分别对每个声纹模型进行声纹认证测试，计算FAR和FRR，得到长度和细节协同变化与误识别率的对应关系的数据对，可比较长度和细节的安全影响力大小。

步骤S68，测试变量7丰富度和细节协同变化的安全影响力。测试样本包括来源于类A和类B的音素序列AABB、BBAA、AAAA、BBBB，长度L均为4，利用测试样本分别对每个声纹模型进行声纹认证测试，计算FAR和FRR，得到丰富度和细节协同变化与误识别率的对应关系的数据对，可比较丰富度和细节的安全影响力大小。

步骤S07，进行特定模型下的音素特征筛选，确定有利于声纹安全性提升的特征。针对任一特定声纹模型，按照前续步骤进行测试，得到步骤S06中单音素特征变化、多音素特征联合变化的测试结果。在此模型中音素特征的安全性影响可以表示为音素特征单步变化下的误识别率变化，其公式如下：

其中，FRR和FAR是误识别率的两个评价指标，即误拒绝率和误接受率，x为音素特征，包括丰富度R、长度L、细节E(根据上述测试可知顺序对声纹误识别率基本无影响，因此此处只比较上述三个特征)，M为模型。需注意，此处FRR^M(x)、 FAR^M(x)无法仅通过单音素特征测试的结果得到，因为单音素特征测试仅获取其他特征数值固定或平均分布情况下的结果，无法描述实际语句下的所有情况。例如，细节单特征测试可以得到同一长度下各种音素的影响力，但在真实单词中每类音素的数量不一致，假设t优于o，无法比较5个o和2个t的安全，此时就需要利用协同变量测量结果。

通过计算相同模型M下

在x∈{R,L,E}时值的大小，量化三个音素特征的影响权重，根据权重可对音素特征在声纹安全性方面的影响力大小进行排序，根据影响力大小选择不同的方式提升说话内容的安全性，可在认证词说话内容存在限制的情况下，在不同音素特征上进行不同的调整达到类似的声纹安全性提升效果；也可合理选择调整特征，以最少量的说话内容变化值，达到安全性提升的要求。下面分别描述仅调整R,L,E中单个变量时的安全性提升方法。注意，由于

的限制，某些误识别率变化要求在单个变量变化时无法实现。

步骤S71，仅变化R，要求误识别率下降y。求解d(FRR^M+FAR^M)＝y时dR的值，此值为丰富度需要提高的量。由于认证词使用时需要用户读出，所以变化之后的词必须符合语言规律，因此在词典中搜索与原始认证词长度L相同、丰富度相差dR的所有词组作为备选，并在语言学约束下生成满足上述要求的词加入备选词组，计算备选词组中所有词的细节E，选取E与原始认证词相差最小的词组，作为安全性提升后的说话内容。

步骤S72，仅变化L，要求误识别率下降y。求解d(FRR^M+FAR^M)＝y时dL的值，此值为长度需要提高的量。设定原始认证词的重复次数为n，使(n-1)L< L+dL≤nL。当L+dL≠nL时，在词典中搜索与长度为L+dL-(n-1)L、细节E包含在原始认证词细节范围内的所有词组作为备选，并在语言学约束下生成满足上述要求的词加入备选词组，原始认证词重复n-1次加上备选词组中的任意词，作为安全性提升后的说话内容；当L+dL＝nL时，可直接将原始认证词重复n次，作为安全性提升后的说话内容。

步骤S73，仅变化E，要求误识别率下降y。求解d(FRR^M+FAR^M)＝y时dE的值，此值为需要变化的具体音素及变化结果。在词典中搜索与原始认证词长度L相同、细节相差dE的所有词组作为备选，并在语言学约束下生成满足上述要求的词加入备选词组，备选词组中的任意词都可作为安全性提升后的说话内容。

本发明提出了一种提升声纹安全性的方法，本方法首先对说话人识别的安全影响因素进行建模，选择说话内容作为主要分析对象，并尽可能避免分析受其他影响因素偏差影响，减少分析结果的误差；本发明中对说话内容进行原子化，形成较为完备的音素特征，从本质上解构说话内容，音素特征可表征任何说话内容，分析结果更加全面且具有高适用性，可用于任何指定语言、指定声纹模型下的说话内容安全性评估；通过分割音素音频构造较为无偏的测试样本，克服了现有样本受语言规律限制的问题，保证了测试样本的合理均匀分布，通过此方法分析得到的说话内容安全影响力结果具有较高的可信度。本发明适用于对多种类型的声纹模型进行测试评估，并给出认证词的优化方案，适用范围广，可操作性强。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种提升声纹安全性的方法，其特征在于，包括以下步骤：

步骤S05，声纹安全模型训练与声纹注册；

2.根据权利要求1所述的一种提升声纹安全性的方法，其特征在于，所述的步骤S02包括：

步骤S21，分解说话内容，将说话内容表示为音素序列；

步骤S22，提取4个音素特征用于表示音素序列，所述的音素特征包括长度、丰富度、细节；所述的长度通过统计音素序列中的音素个数得到，所述的丰富度通过统计音素序列中的音素种类数得到，所述的细节为具体的音素种类。

3.根据权利要求1所述的一种提升声纹安全性的方法，其特征在于，所述的步骤S04包括：

步骤S41，音频转换为音素序列：通过语音识别***从音频中得到说话内容，将说话内容中的句子或单词文本转换成音素序列；

步骤S42，分割音素音频：将句子或单词文本转换成语音转录代码序列，利用语音转录代码序列和音频，得到每个音素的持续时间和时间戳，根据持续时间和时间戳分割得到音素音频；

步骤S43，重组音素音频：根据不同的测试变量，重新组合音素音频，形成测试样本，不同的测试变量对应的测试样本需满足以下要求：

针对变量1丰富度、变量2长度，测试样本需要让目标变量等步长变化，其他变量均匀分布；

针对变量3细节，单个测试样本的丰富度为1，不同测试样本长度应相同；

针对变量4丰富度和长度协同变化，测试样本在丰富度不变时，长度应等步长变化，测试样本的丰富度取值应覆盖全域，且丰富度应小于等于长度；

针对变量5长度和细节协同变化，测试样本在每个细节取值处，长度都应等步长变化；

针对变量6丰富度和细节协同变化，测试样本应长度相同。

4.根据权利要求1所述的一种提升声纹安全性的方法，其特征在于，用于训练声纹安全模型的训练样本与步骤S04构造的测试样本不重复。

5.根据权利要求1所述的一种提升声纹安全性的方法，其特征在于，所述的步骤S06包括：

步骤S61，设置声纹安全性评价指标，包括误接受率和误拒绝率，计算公式如下：

其中，n为测试样本中的说话人数量，p1_i为说话人i被认证为不是i的概率，p2_ij为说话人i被认证为是j的概率，FAR是误接受率，FRR是误拒绝率；

步骤S62，根据每组变量的测试样本分别进行测试，得到丰富度与误识别率的对应关系数据对、长度与误识别率的对应关系数据对、细节与误识别率的对应关系数据对、丰富度和长度协同变化与误识别率的对应关系数据对、长度和细节协同变化与误识别率的对应关系数据对、丰富度和细节协同变化与误识别率的对应关系数据对；

步骤S63：计算丰富度、长度、细节三种变量单步变化下的误识别率变化，计算公式为：

其中，FRR^M表示声纹安全模型的误拒绝率，FAR^M表示声纹安全模型的误接受率，x为音素特征，包括丰富度R、长度L、细节E，

是每一种变量单步变化下的误识别率变化，即该变量的权重。

6.根据权利要求1所述的一种提升声纹安全性的方法，其特征在于，步骤S07中，根据三种特征变量的权重关系对原始认证词进行优化，具体为：

按照三种变量的权重大小，选择权重最大的变量进行优化，当优化变量为丰富度R时，要求误识别率下降y，则需求解d(FRR^M+FAR^M)＝y时dR的值，此值为丰富度需要提高的量；由于认证词使用时需要用户读出，所以变化之后的词需符合语言规律，通过在预设词典中搜索与原始认证词长度L相同、丰富度相差dR的所有词组作为备选词组，计算备选词组中所有词的细节E，选取E与原始认证词相差最小的词组，作为安全性提升后的说话内容；

当优化变量为长度L时，要求误识别率下降y，则需求解d(FRR^M+FAR^M)＝y时dL的值，此值为长度需要提高的量；设定将原始认证词重复n次后，满足(n-1)L＜L+dL≤nL；当L+dL≠nL时，在预设词典中搜索与长度为L+dL-(n-1)L、且细节E包含在原始认证词的细节范围内的所有词组作为备选词组，将原始认证重复n-1次后再加上备选词组中的任意词，作为安全性提升后的说话内容；当L+dL＝nL时，可直接将原始认证词重复n次，作为安全性提升后的说话内容；

当优化变量为细节E时，要求误识别率下降y，则需求解d(FRR^M+FAR^M)＝y时dE的值，此值为细节需要提高的量；在预设词典中搜索与原始认证词长度L相同、细节相差dE的所有词组作为备选词组，将备选词组中的任意词作为安全性提升后的说话内容。

7.根据权利要求6所述的一种提升声纹安全性的方法，其特征在于，所述的备选词组应满足语言学约束。