CN109165726A

CN109165726A - 一种用于无需说话人确认文本的神经网络嵌入***

Info

Publication number: CN109165726A
Application number: CN201810937990.XA
Authority: CN
Inventors: 刘晓鹏; 吴晋
Original assignee: Lianzhi Technology (tianjin) Co Ltd
Current assignee: Lianzhi Technology (tianjin) Co Ltd
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2019-01-08

Abstract

本发明属于神经网络技术领域，具体涉及一种用于无需说话人确认文本的神经网络嵌入***，包括前馈DNN和神经网络结构；所述前馈DNN采用端到端***，所述神经网络结构包含对语音帧进行操作的层、聚集在框架层表示上的统计数据池层、在分段层进行操作的附加层，以及最后的softmax输出层组成；非线性是修正的线性单位(ReLUs)；其具有能够提高更小的公共数据集性能，使得DNN不再训练***以分离相同说话人和不同说话人的组成对，而是学习对训练说话人进行分类。

Description

一种用于无需说话人确认文本的神经网络嵌入***

技术领域

本发明属于神经网络技术领域，尤其涉及一种用于无需说话人确认文本的神经网络嵌入***。

背景技术

目前，说话人确认(SV)是基于一些语音信号和登记说话人记录来验证所声称的说话人身份的任务。通常，针对登记和测试语音提取富含说话者信息的低维表示，并且进行比较以实现相同或不同的说话者决策。在现代***中，表示通常是i-向量。如果话语的词汇内容固定为某个短语，则该任务被视为文本相关，否则它与文本无关。在某些实际应用中，必须仅使用有限数量的测试语音来执行确认，以避免在线应用程序中的延迟或由于有限的可用性。大多数文本无关的SV***都基于i-向量。标准***包含一系列生成模型管线，基于独立子任务训练：用于收集足够统计数据的通用背景模型(UBM)，用于提取i-向量的大型投影矩阵，以及用于计算i-向量之间的相似性得分的概率线性判别分析(PLDA)后端。现有技术中，UBM是基于声学特征上训练的高斯混合模型(GMM)。最近的研究表明，结合ASR(自动语音识别)DNN(Deep Neural Networks，深度神经网络)声学模型可以提高UBM模拟语音内容的能力。然而，与传统***对比，这是以大大增加计算复杂性为代价的。此外，将ASR(自动语音识别)DNS((Domain Name System，域名***)合并到I-向量管线线中的优点已经在很大程度上与英语语言语音隔离；在多语言设置，发现没有任何优势。由于这些原因，一般限制使用高斯传统矢量***研究范围。

通过训练能够直接区分说话者，可以产生更强大的SV***。一些研究已经调查了i-向量***的判别训练组成。考虑到在语音技术的其他领域的成功，在说话人辨别任务一个自然的选择是使用DNNS训练。在早期的***中，神经网络被训练来对训练说话人或暹罗架构进行分类，以分离相同的说话人和不同的说话人对。在训练结后，框架级的特征从网络中提取出来，并作为高斯说话人模型的输入。然而，人们没有意识到有什么工作表明这些方法对于文本无关SV与现代的i-向量***是竞争的。在大型专有数据集上进展主要集中在基于文本相关的SV上。在中，一个前馈DNN被训练来在框架级别上对说话人进行分类，使用短语”OK Google”。经过训练后，将softmax输出层摒弃，通过平均隐藏层激活来创建说话人表示(称为d-vector)；为相同的应用构建了这种方法，通过训练端到端***来区分相同说话人和不同说话人对。现有技术中，公开有端到端***，该***加入学习嵌入和相似度量，优于传统的i-向量基线的文本无关SV。然而，这种方法需要大量的本领域内训练说话人才能有效。

发明内容

针对现有技术存在的问题，本发明提供了一种具有能够提高更小的公共数据集性能，使得DNN不再训练***以分离相同说话人和不同说话人的组成对，而是学习对训练说话人进行分类的用于无需说话人确认文本的神经网络嵌入***。

本发明是这样实现的，本发明一种用于无需说话人确认文本的神经网络嵌入***，所述用于无需说话人确认文本的神经网络嵌入***包括前馈DNN和神经网络结构；所述前馈DNN采用端到端***，且采用多类交叉熵目标代替端到端损失，及采用单独训练的PLDA后端用于比较嵌入对；所述神经网络结构包含对语音帧进行操作的层、聚集在框架层表示上的统计数据池层、在分段层进行操作的附加层，以及最后的softmax输出层组成；非线性是修正的线性单位(ReLUs)；

所述神经网络结构的前五层在框架层工作，采用时间延迟架构；统计数据池层接收最终框架级层的输出作为输入，在输入段上进行汇总，并计算其平均值和标准差；上述分段级统计信息被连接到一起，并传递到另外两个具有512和300维度的隐藏层，其中任何一个都可以用于计算嵌入，最后是softmax输出层；

对i向量和嵌入使用相同的后端；所述嵌入是居中的，通过LDA(低密度近似)降低维度，在降维后，对嵌入进行长度归一化，并使用PLDA比较嵌入对，PLDA分数使用自适应s-范数进行归一化，DNN体系结构提供了使用嵌入a或嵌入b或合并使用的选项，为每个嵌入计算单独的PLDA(线性判别分析)后端并平均分数。

本发明的用于无需说话人确认文本的神经网络嵌入***，其基于端对端***，但是为了提高更小的公共数据集的性能而进行了修改，其将端到端方法分为两部分：用于生成嵌入的DNN和用于比较嵌入对的独立后端。最后，DNN不再训练***分离相同说话人和不同说话人对，而是学习对训练说话人进行分类。

本发明的有益效果：

本发明的用于无需说话人确认文本的神经网络嵌入***，公开了用于无需说话人确认文本的深度神经网络嵌入***，总的来说，嵌入似乎与传统的i-向量基线是竞争的，并且在融合时是互补的，但是经过研究发现，虽然i-向量在全长的SRE10上更有效，但在短时间条件下，嵌入效果更好，这突显了的发现DNNs能够从短的语音段产生更有力的说话人表示，SRE16提出了在英语训练数据和粤语和塔加拉族语之间的语言不匹配的挑战。可以看出，在这两种语言中，嵌入的表现都优于i-向量，这表明它们可能对这个领域的不匹配更加增强；其具有能够提高更小的公共数据集性能，使得DNN不再训练***以分离相同说话人和不同说话人的组成对，而是学习对训练说话人进行分类。

附图说明

图1为本发明的用于无需说话人确认文本的神经网络嵌入***的DNN图。

图2为本发明的用于无需说话人确认文本的神经网络嵌入***在SRE10的集合的5-60部分的DET曲线图。

图3为本发明的用于无需说话人确认文本的神经网络嵌入***在SRE10的EER(％)表。

图4为本发明的用于无需说话人确认文本的神经网络嵌入***在NIST SRE10的DCF10表。

图5为本发明的用于无需说话人确认文本的神经网络嵌入***汇集在粤语和塔加拉族语的RE16的DET曲线图。

图6为本发明的用于无需说话人确认文本的神经网络嵌入***在NIST SRE10的EER(％)表。

图7为本发明的用于无需说话人确认文本的神经网络嵌入***在NIST SRE10的DCF16表。

具体实施方式

下面结合附图及实施例描述本发明具体实施方式：

实施例：

一种用于无需说话人确认文本的神经网络嵌入***，如图1所示，包括一个前馈DNN，计算来自变长度音段的说话人嵌入。该结构基于端到端***。然而，端到端方法需要大量的本领域域内数据才能有效。采用多类交叉熵目标代替了端到端损失。此外，一个单独训练的PLDA后端用于比较嵌入对。这使得DNN和相似度度量可以在潜在的不同的数据集上进行训练。该网络可以使用Kaldi语音识别工具包中的nnet3神经网络库实现。所述DNN可以具有如下特点：是20维的MFCCs，帧长为25毫秒，在长达3秒的滑动窗口上平均归一化；来自片段2的相同的基于能量的VAD可以过滤掉非语音帧；与在输入处堆叠帧不同，短期时间上下文是由时滞DNN体系结构处理的。

所述用于无需说话人确认文本的神经网络嵌入***，如图1所示，还包括神经网络结构，所述神经网络结构的网络包含对语音帧进行操作的层、聚集在框架层表示上的统计数据池层、在分段层进行操作的附加层，以及最后的softmax输出层组成。非线性是修正的线性单位(ReLUs)。图1中，分段级嵌入(例如，a或b)可以在统计数据池层之后从网络的任何层中提取。图1中，embedding为嵌入，segmentlevel为段级，framelevel为帧级。

网络的前五层在框架层工作，采用时间延迟架构。假设t是当前时间步长。在输入端，在{t-2，t-1，t，t+1，t+2}处将帧拼接在一起。接下来的两层将前一层的输出在{t-2，t+2}和{t-3，t+3}上拼接在一起。接下来的两个层也在框架层运行，但是没有任何额外的时间上下文。总的来说，网络的框架层部分有t-8到t+8帧的时间上下文。层大小不同，从512到1536，取决于所使用的拼接上下文。

统计数据池层接收最终框架级层的输出作为输入，在输入段上进行汇总，并计算其平均值和标准差。这些分段级统计信息被连接到一起，并传递到另外两个具有512和300维度的隐藏层，其中任何一个都可以用于计算嵌入，最后是softmax输出层。不包括softmax输出层，因为训练后它是不需要的，总共有440万个参数。

参见式(1)，训练网络使用多类交叉熵目标函数对训练说话人进行分类。***训练用于从变长段而不是帧来预测说话人。假设在N个训练段中有K个说话人。那么P(spkrk|x(n)1:T)是给定T输入帧x(n)1；x(n)2；:::x T(n)时，说话人k的概率。如果分段n的说话人标签是k，数量d_nk为1，否则为0，则整体误差E如式(1)所示：

DNN可以是在SWBD和SRE数据进行组合上被训练。通过删除长度小于10秒的录音和长度小于4个录音的说话人来细化数据集。这样总共剩下4,733个说话人，相当于softmax输出层的大小。

为了降低对话语长度的敏感性，希望将DNN训练成能够捕捉到预期在测试时间(如几秒到几分钟)所预期的持续时间范围的语音块。然而，GPU内存限制迫使在小批量大小和最大训练样本长度之间进行权衡。作为组成部分，选择的例子范围从2到10秒(200到1000帧)，以及小批量大小为32到64。示例语音块从录音中密集取样，每个发言者大约有3400个示例。利用自然梯度、随机梯度下降对网络进行了多次训练。

最终，训练网络的目标是产生嵌入，使之能够很好地推广到没有在训练数据中看到的说话人。希望嵌入在整个话语中捕捉说话人的特征，而不是框架层。因此，在统计数据池层之后的任何层都是提取嵌入的合适位置。不考虑presoftmax(预置最大值)仿射层，因为它的大尺寸和依赖于说话人的数量。在这个工作中使用的网络中，只剩下两个仿射层来提取嵌入。这些在图1中描述为嵌入a和b。嵌入a是直接在统计数据之上的仿射层的输出。嵌入b是从ReLU后的下一个仿射层中提取出来的，是统计量的非线性函数。因为它们是同一神经网络的一部分，如果嵌入b是计算出来的，那么就可以免费嵌入a。

对i向量和嵌入使用相同的后端。嵌入是居中的，使用LDA可以降低维度。就像在i-向量***中一样，发现原来的LDA维度的25％工作得很好。在降维后，对嵌入进行长度归一化，并使用PLDA比较嵌入对。PLDA分数使用自适应s-范数[24]进行归一化。DNN体系结构提供了使用嵌入a或嵌入b或合并使用的选项。所以不是将嵌入连接在一起，而是为每个嵌入计算单独的PLDA后端并平均分数。

基线是一个基于GMM-UBM Kaldi方法的传统i-向量***。前端功能由20个MFCCs组成，帧长为25毫秒，在长达3秒的滑动窗口上平均归一化。加上增量和加速度，生成60维特征向量。基于能量的VAD选择特征与语音帧相对应。UBM是一个2048分量的全协方差GMM。该***使用一个600维i-向量提取器。在PLDA评分之前，i-向量是居中的，使用LDA将维度降为150，长度标准化。PLDA分数使用自适应S范数进行归一化。

本发明的用于无需说话人确认文本的神经网络嵌入***，其实验情况如下：

(1)训练数据

所述训练数据，即培训数据包括电话语音，其中大部分是英语。SWBD部分由交换机2个阶段1、2和3和交换机蜂窝组成。SRE部分包含NIST SREs，从2004年到2008年。总共有来自6500个说话人的65000份录音。在此数据基础上训练了i-向量UBM、提取器以及说话人辨别DNN。这两个***都使用仅在SRE数据基于plda的后端进行训练。最后，2016NIST SRE以粤语和塔加拉族语的一组2472种没有标签的话语。利用这两个***来集中相应的评价话语和分数标准化。

(2)评估

评估NIST 2010和2016说话人识别评估的表现。在剩下的部分中，它们将分别缩写为SRE10和SRE16。SRE10由英语电话语音组成。评估是基于扩展的核心条件5和10s-10s条件。为了补充核心的SRE10条件，产生了附加的条件，在这些条件中，登记的话语是全长的，但是测试的话语已经被截断到第一个T2∈{5；10；20；60}秒的语音时间，由基于能量VAD决定。10s-10s条件是官方SRE10的一部分，包括大约10秒的语音的测试和登记话语。SRE16由塔加拉族语和粤语电话语音组成。登记的话语包含大约60秒语音，而测试语音从10秒到60秒不等。

除了相等的错误率(EER)之外，对于每个SRE都适用了的官方性能指标作为报告结果。对于SRE10，这个度量是标准化检测成本函数(DCF)的最小值，PTarget＝10-3。主要的SRE16度量标准是在两个操作点上的平均平衡(均衡)DCF。主要的度量标准分别缩写为DCF10和DCF16。

(3)结果

在以下结果中，i-向量指的是第2部分中描述的传统的i-向量基线。嵌入a和嵌入b的标签表示由同一DNN的嵌入层(参见第3部分)中提取的嵌入的***，并作为它们自己的PLDA后端的特性。标签嵌入是个体嵌入的PLDA后端的平均值。在接下来的结果中，将重点放在比较i-向量基线和这些组合的嵌入。最后，融合指的是PLDA的i-向量和嵌入值的加权和融合。

图3和图4中的表显示了在斯雷SRE10的时间长度和性能之间的相互作用。可以看到，i-向量仍然占据着最长的记录，并且在所有的操作点上都优于嵌入。然而，随着测试的话语长度的减少，嵌入的性能相对于基线的性能有所提高。在20秒的测试语音中，合并后的嵌入在EER中比i-向量好3％，但DCF10的情况糟8％。只有10到5秒的测试语音，嵌入的效果在EER中好了17％和16％，在DCF10中也稍微好点。当登记和测试的话语都很短的时候，嵌入的相对优势似乎是最大的：在标签为10s-10s的列中，测试和登记的话语只包含大约10秒钟的语音，可以看到，在DCF10中，合并后的嵌入在EER中好了28％，在DCF10中更好了11％。图2展示了在被截断的测试条件下合用的***的检测错误权衡(DET)曲线。尽管在操作点上的嵌入在EER中效果更好，但其更倾向于低的误差率，当与非常低的假警报率相比，其情况有点差别。

图2中，误报警概率的单位为％，Miss Probability为失误概率，False Alarmprobability为虚警概率，ivector为向量，embeddings为嵌入，fusion为融合。

图3中，EER为相等的错误概率，NIST SRE为美国国家标准与技术研究院的SRE(网站可靠性)数据库，full为满，s为秒。

图4中，DCF为数据通信格式化程序。

由于i-向量和DNN***是如此的不同，所以希望它们的融合能带来良好的性能。可以观察到在所有操作点和条件下单独使用i-向量的改进。最大的进步是在EER中在10s的情况下，比基线好28％。即使在富尔伦特条件下，在i-向量最强的情况下，在DCF10和其在EER情况下，仅使用i-向量就有5％的改进。

然后，在SRE16中评估相同的***。对于SRE10和SRE16使用相同的嵌入和i-向量***，避免了为不同的评估而优化的每个***的变种的复杂性。然而，由于用于优化两种***，确实导致了主要的英语训练数据，和塔加罗语和粤语评估语音之间的不匹配。因此，这里报告的性能可能会落后于针对SRE16的优化。

图6和图7所示的表分别报告了在EER和DCF16上的性能。在不同的语言中，可以看到合并的嵌入优于i-向量基线在EER13％的比率和在DCF16中7％时。在与i-向量相结合后，在EER改进增加到17％和在DCF16增加到13％。图5中的点图显示了这些改进在操作点之间是一致的。图5中的RE16的DET曲线，汇集在粤语和塔加拉族语。

尽管在塔加拉族语中，嵌入也表现得更好，但对粤语部分的改进是最大的。与i-向量基线相比，在DCF16中，在EER阶段嵌入是22％，在DCF16中是7％。融合后的***更好，在i-向量基线在EER提高了24％，DCF16中有19％的改进。

本发明的用于无需说话人确认文本的神经网络嵌入***，通过在输入语音上聚合的时间池层在网络中捕获长期说话者特征。使得网络能够被训练以区分来自可变长度语音段的说话人。在训练之后，话语被直接映射到固定维度说话人嵌入，并且使用基于PLDA的后端对嵌入对进行评分。将性能与NIST SRE 2010和2016上的传统i-向量基线进行比较，可以发现嵌入对于短语音段优于i-向量，并且在长时间测试条件下具有竞争力；此外，这两种表示是互补的，并且它们的融合在所有操作点处在基线上得到改善。当大型专有数据集被训练时，类似的***最近表现出可喜的成果，但据研究所知，这些都是在公开语音库上训练和测试时报道的说话人判别神经网络的最好结果。

本发明的用于无需说话人确认文本的神经网络嵌入***，总的来说，嵌入似乎与传统的i-向量基线是竞争的，并且在融合时是互补的。可发现，虽然i-向量在全长的SRE10上更有效，但在短时间条件下，嵌入效果更好。这说明发现DNNs能够从短的语音段产生更有力的说话人表示。SRE16提出了在英语训练数据和粤语和塔加拉族语之间的语言不匹配的挑战。可以看到，在这两种语言中，嵌入的表现都优于i-向量，这表明可能对这个领域的不匹配更加增强。

上面结合附图对本发明优选实施方式作了详细说明，但是本发明不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

不脱离本发明的构思和范围可以做出许多其他改变和改型。应当理解，本发明不限于特定的实施方式，本发明的范围由所附权利要求限定。

Claims

1.一种用于无需说话人确认文本的神经网络嵌入***，所述用于无需说话人确认文本的神经网络嵌入***包括前馈DNN和神经网络结构；其特征在于，所述前馈DNN采用端到端***，且采用多类交叉熵目标代替端到端损失，及采用单独训练的PLDA后端用于比较嵌入对；所述神经网络结构包含对语音帧进行操作的层、聚集在框架层表示上的统计数据池层、在分段层进行操作的附加层，以及最后的softmax输出层组成；非线性是修正的线性单位；

对i向量和嵌入使用相同的后端；所述嵌入是居中的，通过LDA降低维度，在降维后，对嵌入进行长度归一化，并使用PLDA比较嵌入对，PLDA分数使用自适应 s-范数进行归一化，DNN体系结构提供了使用嵌入a或嵌入b或合并使用的选项，为每个嵌入计算单独的PLDA后端并平均分数。

2.如权利要求1所述的用于无需说话人确认文本的神经网络嵌入***，其特征在于，所述网络使用Kaldi语音识别工具包中的nnet3神经网络库实现。

3.如权利要求2所述的用于无需说话人确认文本的神经网络嵌入***，其特征在于，DNN为20维的MFCCs，帧长为25毫秒，在3秒的滑动窗口上平均归一化。

4.如权利要求3所述的用于无需说话人确认文本的神经网络嵌入***，其特征在于，网络的框架层部分有t-8到t+8帧的时间上下文。

5.如权利要求4所述的用于无需说话人确认文本的神经网络嵌入***，其特征在于，t为当前时间步长，在输入端，在{t-2，t-1，t，t+1，t+2}处将帧拼接在一起，接下来的两层将前一层的输出在{t-2，t+2}和{t-3，t+3}上拼接在一起。

6.如权利要求5所述的用于无需说话人确认文本的神经网络嵌入***，其特征在于，训练网络使用多类交叉熵目标函数对训练说话人进行分类，***训练用于从变长段而不是帧来预测说话人。

7.如权利要求6所述的用于无需说话人确认文本的神经网络嵌入***，其特征在于，在N个训练段中有K个说话人，则P(spkrk | x(n) 1:T)是给定T输入帧x(n) 1;x(n)2;:::x T(n)时，说话人k的概率，分段n的说话人标签是k，数量d_nk为1，否则为0，则整体误差E如式（1）所示：

。

8.如权利要求7所述的用于无需说话人确认文本的神经网络嵌入***，其特征在于，DNN是在SWBD和SRE数据进行组合上被训练。

9.如权利要求8所述的用于无需说话人确认文本的神经网络嵌入***，其特征在于，通过删除长度小于10秒的录音和长度小于4个录音的说话人来细化数据集。

10.如权利要求9所述的用于无需说话人确认文本的神经网络嵌入***，其特征在于，i向量和嵌入使用相同的后端。