CN108091326A

CN108091326A - 一种基于线性回归的声纹识别方法及***

Info

Publication number: CN108091326A
Application number: CN201810141059.0A
Authority: CN
Inventors: 张晓雷
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-02-11
Filing date: 2018-02-11
Publication date: 2018-05-29
Anticipated expiration: 2038-02-11
Also published as: CN108091326B

Abstract

本申请提供了一种基于线性回归的声纹识别方法及***，从语音数据中获取第一声纹特征矢量，使用预先训练的线性回归模型，将所述第一声纹特征矢量映射为第二声纹特征矢量，并对所述第二声纹特征矢量进行分类识别。创新地将线性回归模型引入声纹识别领域，实验证明，能够有效提高声纹识别的准确性。

Description

一种基于线性回归的声纹识别方法及***

技术领域

本申请涉及电子信息领域，尤其涉及一种基于线性回归的声纹识别方法及***。

背景技术

声纹识别***通常包括声纹特征提取前端和声纹识别后端两个部分。

声纹特征提取前端用于从说话人语句中抽取该说话人的声纹特征：即通过模型将一句任意长度的语音映射为一个固定长度的向量。常见的声纹特征提取前端使用的算法包括：基于高斯混合模型的通用背景模型(Gaussian mixture model based universalbackground model，GMM-UBM)/身份向量(identity vector，i-vector)算法(简称GMM/i-vector算法)、基于深度学习的语音识别声学模型的通用背景模型/i-vector算法(简称DNN/i-vector算法)、以及使用深度学习模型对说话人做分类，并将最顶层的隐层输出作为说话人的声纹向量的d-vector算法。

声纹识别后端通过有监督机器学习算法对该说话人的声纹矢量做分类。它可以分为两部分，第一个部分是通过有监督机器学习方法将声纹特征矢量映射为另一种新的声纹特征矢量，第二个部分是通过有监督机器学习方法对降维后的新声纹特征矢量做分类。对于第一个部分，常见的映射方法包括线性鉴别性分析(Linear discriminant analysis，LDA)、类内方差归一化(Within-class covariance normalization，WCCN)以及扰动属性投影(Nuisance attribute projection，NAP)等。对于第二个部分，常见的分类器包括cosine距离分类器、支持向量机(Support vector machine，SVM)分类器、概率线性鉴别性分析(Probabilistic linear discriminant analysis，PLDA)分类器等。上述后端算法中LDA+PLDA的方法在许多标准化测试中取得了最优性能，目前已被实际***广泛采用。

上述声纹特征提取前端和声纹识别后端可以任意组合形成声纹识别***。但是，目前的声纹识别的准确性还有待提高。

发明内容

本申请提供了一种基于线性回归的声纹识别方法及***，目的在于解决如何提高声纹识别的准确性的问题。

为了实现上述目的，本申请提供了以下技术方案：

一种基于线性回归的声纹识别方法，包括：

从语音数据中获取第一声纹特征矢量；

使用预先训练的线性回归模型，将所述第一声纹特征矢量映射为第二声纹特征矢量；

对所述第二声纹特征矢量进行分类识别。

可选的，所述将所述第一声纹特征矢量映射为第二声纹特征矢量包括：

使用映射关系z＝A^Tx，将所述第一声纹特征矢量映射为第二声纹特征矢量，其中，A为所述预先训练的线性回归模型，x为所述第一声纹特征矢量，z为所述第二声纹特征矢量。

可选的，所述线性回归模型的训练过程包括：

从声纹数据库中获取训练数据其中，x_i,j为从所述声纹数据库中的每句话抽取的一个d维的声纹特征矢量，i＝1,…,n，j＝1,…,M_i，n为所述声纹数据库中的说话人的数量，任意一个说话人对应M_n句话；y_i,j为第i个说话人的n维示性矢量y_i,j＝[0,...,1,...,0]^T；d为预设数值；

使用A＝(XX^T)^-1XY^T，得到所述线性回归模型，其中，为训练数据的声纹矢量组成的的矩阵，为训练数据的示性矢量组成的的矩阵。

可选的，所述对所述第二声纹特征矢量进行分类识别包括：

使用余弦分类器，对所述第二声纹特征矢量进行分类识别。

可选的，所述从语音数据中获取第一声纹特征矢量包括：

使用GMM/i-vector算法、DNN/i-vector算法或者d-vector算法，从语音数据中获取第一声纹特征矢量。

一种基于线性回归的声纹识别***，包括：

声纹特征提取前端，用于从语音数据中获取第一声纹特征矢量；

声纹识别后端，所述声纹识别后端包括声纹特征映射模块和声纹分类器，所述声纹特征映射模块用于使用预先训练的线性回归模型，将所述第一声纹特征矢量映射为第二声纹特征矢量；所述声纹分类器用于对所述第二声纹特征矢量进行分类识别。

可选的，所述声纹特征映射模块用于使用预先训练的线性回归模型，将所述第一声纹特征矢量映射为第二声纹特征矢量包括：

所述声纹特征映射模块具体用于，使用映射关系z＝A^Tx，将所述第一声纹特征矢量映射为第二声纹特征矢量，其中，A为所述预先训练的线性回归模型，x为所述第一声纹特征矢量，z为所述第二声纹特征矢量。

可选的，所述声纹特征映射模块还用于：

从声纹数据库中获取训练数据其中，x_i,j为从所述声纹数据库中的每句话抽取的一个d维的声纹特征矢量，i＝1,...,n，j＝1,...,M_i，n为所述声纹数据库中的说话人的数量，任意一个说话人对应M_n句话；y_i,j为第i个说话人的n维示性矢量y_i,j＝[0,…,1,…,0]^T；d为预设数值；

可选的，所述声纹分类器包括：余弦分类器。

可选的，所述声纹特征提取前端包括：

GMM/i-vector前端、DNN/i-vector前端或者d-vector前端。

本申请所述的基于线性回归的声纹识别方法及***，从语音数据中获取第一声纹特征矢量，使用预先训练的线性回归模型，将所述第一声纹特征矢量映射为第二声纹特征矢量，并对所述第二声纹特征矢量进行分类识别。创新地将线性回归模型引入声纹识别领域，实验证明，能够有效提高声纹识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为声纹识别***的结构示意图；

图2为本申请实施例公开的基于线性回归的声纹识别方法的流程图。

具体实施方式

图1为声纹识别***的示意图，其中包括声纹特征提取前端和声纹识别后端两个部分。声纹识别后端又包括声纹特征映射模块和声纹分类器。

为了提高声纹识别的准确性，本申请的实施例中，对声纹识别后端中的第一部分，即声纹特征映射模块进行改进。本申请的核心点在于，训练并使用训练后的线性回归(Linear Regression，LR)模型将声纹特征提取前端提取的声纹特征矢量映射为新的声纹特征矢量，新的声纹特征矢量作为声纹分类的基础，以提高后续声纹分类的准确性。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1所示的声纹识别***的后端的工作流程可以分成三个阶段：训练阶段、注册阶段和测试阶段。LR模型的训练在训练阶段进行，注册阶段和测试阶段均需要使用训练好的LR模型。

下面对上述三个阶段进行详细说明。图2为本申请实施例公开的基于线性回归的声纹识别方法，包括以下步骤：

一、训练阶段

S201：准备训练数据。

假设声纹数据库包含n个说话人的语音数据，每个说话人对应M_n句话，则声纹特征提取前端从每句话抽取一个d维的声纹特征矢量x_i,j，其中i＝1,…,n，j＝1,...,M_i。d为预设数值。根据任务不同而不同，可以取值为200至800，本实施例中，设为400。

将n个说话人中的每个说话人分配编号，第一个说话人的编号为1，……第i个说话人的编号为i，第n个说话人的编号为n。因此，所有说话人的编号为序列1,...,i,...,n。将每个编号扩展成0和1编码的示性矢量，即第i个说话人的示性矢量为n维矢量y_i,j＝[0,...,1,...,0]^T，其中1出现在第i个bit位上(例如，编号为2的说话人的示性矢量为y_2,j＝[0,1,...,0]^T)。

本实施例中，有监督的训练数据为其中train表示训练阶段。

S202：使用上述得到的有监督的训练数据训练LR模型。

具体的，使用公式(1)得到LR模型：

A＝(XX^T)^-1XY^T (1)

其中为训练数据的声纹矢量组成的的矩阵，为训练数据的示性矢量组成的的矩阵。

二、注册阶段

S203：获取注册人员的语音数据，并从注册人员的语音数据中提取注册数据其中，enroll表示注册阶段。

注册数据的提取过程可以参数S201中训练数据的提取过程，这里不再赘述。

S204：使用训练得到的LR模型，将注册数据映射为新的声纹特征矢量，其中，新的声纹特征矢量可以看作注册人的声纹特征模型。

具体的，使用公式(2)进行映射：

z＝A^Tx (2)

三、测试阶段

S205：获取测试语音数据，并从测试语音数据中提取测试数据其中，test表示测试阶段。

S206：使用训练得到的LR模型，将测试数据映射为新的声纹特征矢量。

S207：比较S206得到的新的声纹特征矢量与各个注册人的声纹特征模型，识别出测试语音数据对应的注册人。测试语音数据对应的注册人，即发出测试语音数据的注册人。

从图2的步骤可以看出，声纹识别***的后端(即声纹识别后端)，采用先注册后识别的机制，用户可以在***中先进行注册，***使用训练好的LR模型得到注册人的声纹特征模型。在测试阶段，***可以识别出采集到的语音由哪个注册人发出，从而实现语音数据的识别。

申请人在研究的过程中，通过使用大量的机器学习模型进行试验，发现LR模型映射出的声纹特征矢量，使得后续的分类识别具有更高的准确性。

需要说明的是，采用图2所示流程的声纹识别后端可以与现有的声纹特征提取前端组合使用，构成图1所示的声纹识别***。下面将举例说明图2所示流程的声纹识别后端与不同的声纹特征提取前端组合成的三个声纹识别***的工作流程。

(一)GMM/i-vector+LR+cosine声纹识别***：

该***采用GMM/i-vector作为声纹识别前端，采用图2所示的LR作为声纹识别后端的声纹特征映射模块，采用余弦相似度作为声纹分类器。它的三个阶段具体如下：

1)训练阶段：

步骤1：声纹识别前端使用语音端点检测滤除每段音频的静音段和噪声段，保留只含有训练说话人语音的音频片段。

步骤2：声纹识别前端将训练数据库中的所有音频切分成长度为3秒至30秒的固定长度片段，本实施例将音频切分成15秒的片段。

步骤3：声纹识别前端将每个音频片段按照帧长为15毫秒至30毫秒、帧移为5毫秒至15毫秒的设置切分成若干帧，并从每一帧中抽取声学特征。本实施例的帧长设置为25毫秒，帧移设置为10毫秒。本实施例的声学特征采用的是20维MFCC特征(包含1维能量特征)+13维RASTA-PLP特征+一阶差分特征+二阶差分特征，共99维。

步骤4：声纹识别前端采用现有的GMM-UBM方法，训练U个高斯分量的高斯混合模型，得到Σ模型。本实施例训练包含2048个高斯分量的高斯混合模型。

步骤5：声纹识别前端采用GMM-UBM方法，应用该高斯混合模型Σ计算每个音频片段的零阶统计量和一阶统计量，该零阶统计量和一阶统计量组成一个高维特征矢量。本实施例抽取出的高维特征矢量为204800维。

步骤6：声纹识别前端采用现有的i-vector方法，训练i-vector模型，得到T矩阵。

步骤7：声纹识别前端采用i-vector方法，应用该T矩阵将GMM-UBM输出的高维特征矢量降维到低维空间。本实施例的特征输出空间为400，即将每个音频片段的204800维特征映射为400维特征。

步骤8：声纹特征映射模块采用本发明所提出的线性回归方法中的公式(1)，训练线性回归模型，得到A矩阵。本实施例的A矩阵是400×n的矩阵。

2)注册阶段

步骤1：声纹识别前端使用语音端点检测滤除每段注册音频的静音段和噪声段，保留只含有注册说话人语音的音频片段。

步骤2：声纹识别前端将注册说话人中的所有音频切分成长度为3秒至30秒的固定长度片段，本实施例将音频切分成15秒的片段。

步骤4：声纹识别前端采用GMM-UBM方法，应用训练阶段得到的高斯混合模型Σ计算每个音频片段的零阶统计量和一阶统计量，该零阶统计量和一阶统计量组成一个高维特征矢量。本实施例抽取出的高维特征矢量为204800维。

步骤5：声纹识别前端采用i-vector方法，应用训练阶段得到的T矩阵将GMM-UBM输出的高维特征矢量降维到低维空间。本实施例的特征输出空间为400，即将每个音频片段的204800维特征映射为400维特征。

步骤6：声纹特征映射模块采用本发明所提出的线性回归方法中的公式(2)，应用训练阶段得到的A矩阵将i-vector特征进一步映射为n维声纹特征(n为训练集中说话人的数量)

步骤7：声纹特征映射模块将注册说话人所有的音频片段得到的声纹特征矢量求平均得到该注册说话人的声纹特征模型。

3)测试阶段

步骤1：声纹识别前端使用语音端点检测滤除每段测试音频的静音段和噪声段，保留只含有测试说话人语音的音频片段。

步骤2：声纹识别前端将测试说话人中的所有音频切分成长度为3秒至30秒的固定长度片段，本实施例将音频切分成15秒的片段。

步骤6：声纹特征映射模块采用公式(2)，应用训练阶段得到的A矩阵将i-vector特征进一步映射为n维声纹特征(n为训练集中说话人的数量)

步骤7：声纹特征映射模块将任意一个测试说话人所有的音频片段得到的声纹特征矢量求平均得到该测试说话人的声纹特征模型。

步骤8：声纹分类器采用余弦相似度分类器计算和的相似性：

并与判决门限δ比较，以判断是否与为同一说话人。

(二)DNN/i-vector+LR+cosine声纹识别***：

该***采用DNN/i-vector作为声纹识别前端，采用图2所示的LR作为声纹识别后端的声纹特征映射模块，采用余弦相似度作为声纹分类器。它的三个阶段具体如下：

1)训练阶段：

步骤4：声纹识别前端采用DNN-UBM方法，用包含有语音内容标注信息的独立语音识别数据库训练包含U^DNN个输出状态的深度神经网络声学模型Λ。本实施例所使用的声学模型输出8073个状态。

步骤5：声纹识别前端采用DNN-UBM方法，使用声学模型Λ对训练数据库中的音频片段做识别，抽取出每帧数据的U^DNN维后验概率矢量。本实施例所得到的每帧数据的后验概率矢量为8073维。

步骤6：声纹识别前端采用DNN-UBM方法，丢弃后验概率较小的输出状态，只保留个后验概率较大的输出状态。相应地，每帧数据的后验概率矢量也调整为维。本实施例的设为3096。

步骤7：声纹识别前端采用DNN-UBM方法，训练包含个高斯分量的高斯混合模型，得到Σ^DNN模型。本实施例训练包含3096个高斯分量的高斯混合模型。

步骤8：声纹识别前端采用GMM-UBM方法，应用该高斯混合模型Σ^DNN计算每个音频片段的零阶统计量和一阶统计量，该零阶统计量和一阶统计量组成一个高维特征矢量。本实施例抽取出的高维特征矢量为309600维。

步骤9：声纹识别前端采用i-vector方法，训练i-vector模型，得到T^DNN矩阵。

步骤10：声纹识别前端采用i-vector方法，应用该T^DNN矩阵将DNN-UBM输出的高维特征矢量降维到低维空间。本实施例的特征输出空间为400，即将每个音频片段的309600维特征映射为400维特征。

步骤11：声纹特征映射模块采用公式(1)，训练线性回归模型，得到A^DNN矩阵。本实施例的A^DNN矩阵是400×n的矩阵。

2)注册阶段

步骤4：声纹识别前端采用DNN-UBM方法，使用声学模型Λ对注册说话人中的音频片段做识别，抽取出每帧数据的U^DNN维后验概率矢量。本实施例所得到的每帧数据的后验概率矢量为8073维。

步骤5：声纹识别前端采用DNN-UBM方法，丢弃后验概率较小的输出状态，只保留个后验概率较大的输出状态(由训练阶段决定具体保留哪些状态)。相应地，每帧数据的后验概率矢量也调整为维。本实施例的设为3096。

步骤6：声纹识别前端采用GMM-UBM方法，应用高斯混合模型Σ^DNN计算每个音频片段的零阶统计量和一阶统计量，该零阶统计量和一阶统计量组成一个高维特征矢量。本实施例抽取出的高维特征矢量为309600维。

步骤7：声纹识别前端采用i-vector方法，应用T^DNN矩阵将DNN-UBM输出的高维特征矢量降维到低维空间。本实施例的特征输出空间为400，即将每个音频片段的309600维特征映射为400维特征。

步骤8：声纹特征映射模块采用公式(2)，应用训练阶段得到的A^DNN矩阵将i-vector特征进一步映射为n维声纹特征(n为训练集中说话人的数量)

步骤9：声纹特征映射模块将任意一个注册说话人所有的音频片段得到的声纹特征矢量求平均得到该注册说话人的声纹特征模型。

3)测试阶段

步骤4：声纹识别前端采用DNN-UBM方法，使用声学模型Λ对测试说话人中的音频片段做识别，抽取出每帧数据的U^DNN维后验概率矢量。本实施例所得到的每帧数据的后验概率矢量为8073维。

步骤9：将任意一个测试说话人所有的音频片段得到的声纹特征矢量求平均得到该测试说话人的声纹特征模型。

步骤10：采用余弦相似度分类器计算和的相似性：

并与判决门限δ比较，以判断是否与为同一说话人。

(三)d-vector+LR+cosine声纹识别***：

该***采用d-vector作为声纹识别前端，采用本发明LR作为声纹识别后端的声纹特征映射模块，采用余弦相似度作为声纹分类器。它的三个阶段具体如下：

1)训练阶段：

步骤4：声纹识别前端采用现有的d-vector方法，训练含有n个输出神经元的深度神经网络，得到Σ^d-vector模型，其中n为训练数据集中的说话人的数量。假设该Σ^d-vector模型的最高隐藏层含有U^d-vector个隐藏神经元。本实施例的U^d-vector设为400。

步骤5：声纹识别前端采用d-vector方法，使用Σ^d-vector模型对每帧语音做预测，并将Σ^d-vector模型的最高隐藏层的输出作为每帧语音的特征，并对每个音频片段的所有帧的特征求平均，得到每个音频片段的U^d-vector维特征矢量。本实施例的U^d-vector设为400。

步骤6：声纹特征映射模块采用本发明所提出的线性回归方法中的公式(1)，训练线性回归模型，得到A矩阵。本实施例的A矩阵是400×n的矩阵。

2)注册阶段

步骤4：声纹识别前端采用d-vector方法，使用Σ^d-vector模型对每帧语音做预测，并将Σ^d-vector模型的最高隐藏层的输出作为每帧语音的特征，并对每个音频片段的所有帧的特征求平均，得到每个音频片段的U^d-vector维特征矢量。本实施例的U^d-vector设为400。

步骤7：声纹特征映射模块将任意一个注册说话人所有的音频片段得到的声纹特征矢量求平均得到该注册说话人的声纹特征模型。

3)测试阶段

步骤5：声纹特征映射模块采用公式(2)，应用训练阶段得到的A矩阵将i-vector特征进一步映射为n维声纹特征(n为训练集中说话人的数量)

步骤6：声纹特征映射模块将任意一个测试说话人所有的音频片段得到的声纹特征矢量求平均得到该测试说话人的声纹特征模型。

步骤7：声纹分类器采用余弦相似度分类器计算和的相似性：

并与判决门限δ比较，以判断是否与为同一说话人。

对上述三个示例在NIST SRE 2006和NIST SRE 2008数据集上进行了实验验证。采用NIST SRE 2006数据集中的8conversation的female数据做为训练集，总共402个说话人，有效语音约100个小时。采用NIST SRE 2008数据集中8conversation的female数据做为注册集和测试集，总共395个说话人。测试(Test)说话人的语音长度固定为30秒(切分成2个片段，每个片段15秒)，注册(Enrollment)说话人的语音长度为150秒(切分成10个片段，每个片段15秒)。对任意的注册说话人和测试说话人构造了约15万个测试样例。第二个示例中的DNN声学模型使用Switchboard-1数据库进行训练，精确标注的语音约300小时。

使用以上试验样本，对以上三个示例中使用的LR+cosine的声纹识别后端与其它声纹识别后端的识别错误率进行对比，对比结果如表1所示：

表1

从表1可以看出，在前端相同的情况下，LR+cosine比现有的cosine、WCCN+cosine、LDA+cosine和LDA+PLDA分类器相比，具有更低的识别错误率。

在以上三个示例中，GMM/i-vector+LR+cosine在参与比较的所有方法中取得了最优性能，比参与比较的最优声纹识别***GMM/i-vector+LDA+PLDA相对提升27.19％。DNN/i-vector+LR+cosine比采用了相同声纹识别前端DNN/i-vector的最优声纹识别***DNN/i-vector+LDA+cosine相对提升23.39％。d-vector+LR+cosine比采用了相同声纹识别前端d-vector的最优声纹识别***相对提升7.31％。

需要说明的是，上述实施例仅是本专利公布方案的特例，凡是在声纹识别***中将线性回归算法用于得到声纹特征矢量的算法，均在本专利保护范围内。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于线性回归的声纹识别方法，其特征在于，包括：

从语音数据中获取第一声纹特征矢量；

对所述第二声纹特征矢量进行分类识别。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一声纹特征矢量映射为第二声纹特征矢量包括：

3.根据权利要求1或2所述的方法，其特征在于，所述线性回归模型的训练过程包括：

从声纹数据库中获取训练数据其中，x_i,j为从所述声纹数据库中的每句话抽取的一个d维的声纹特征矢量，i＝1,…,n，j＝1,…,M_i，n为所述声纹数据库中的说话人的数量，任意一个说话人对应M_n句话；y_i,j为第i个说话人的n维示性矢量y_i,j＝[0,…,1,…,0]^T；d为预设数值；

4.根据权利要求1所述的方法，其特征在于，所述对所述第二声纹特征矢量进行分类识别包括：

使用余弦分类器，对所述第二声纹特征矢量进行分类识别。

5.根据权利要求1所述的方法，其特征在于，所述从语音数据中获取第一声纹特征矢量包括：

6.一种基于线性回归的声纹识别***，其特征在于，包括：

7.根据权利要求6所述的***，其特征在于，所述声纹特征映射模块用于使用预先训练的线性回归模型，将所述第一声纹特征矢量映射为第二声纹特征矢量包括：

8.根据权利要求6或7所述的***，其特征在于，所述声纹特征映射模块还用于：

9.根据权利要求6所述的***，其特征在于，所述声纹分类器包括：余弦分类器。

10.根据权利要求6所述的***，其特征在于，所述声纹特征提取前端包括：

GMM/i-vector前端、DNN/i-vector前端或者d-vector前端。