CN110136749B

CN110136749B - 说话人相关的端到端语音端点检测方法和装置

Info

Publication number: CN110136749B
Application number: CN201910517374.3A
Authority: CN
Inventors: 俞凯; 钱彦旻; 陈烨斐; 王帅
Original assignee: Sipic Technology Co Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2022-08-16
Anticipated expiration: 2039-06-14
Also published as: CN110136749A

Abstract

本发明公开说话人相关的端到端语音端点检测方法和装置，其中，一种说话人相关的端到端语音端点检测方法，包括：提取待检测语音的声学特征；将所述声学特征与i‑vector特征进行拼接以作为新的输入特征；将新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的检测结果。本申请的方法和装置通过在传统的语音端点检测***的训练过程中加入了说话人相关的信息(i‑vector)，并将深度神经网络(DNN)和长短时记忆神经网络(LSTM)应用到语音端点检测中，实现了端到端的说话人相关的端点检测***，通过单个网络就可以直接输出目标说话人的语音部分，去除音频中其他的静音段和非目标说话人的语音。

Description

说话人相关的端到端语音端点检测方法和装置

技术领域

本发明属于语音识别的技术领域，尤其涉及端到端语音端点方法和装置。

背景技术

相关技术中，语音端点检测(Voice Activity Detection,VAD)，是语音识别，说话人识别等任务非常重要的预处理步骤。一个基础的语音端点检测***的目标是要去除音频中的静音部分，而更加通用的检测***可以去掉音频中所有不相关的部分，包括噪声和非目标说话人的语音。

现有的方案主要是针对有背景人声干扰的场景(例如餐厅等)，提出了一种鲁棒的语音端点***，可以提取目标说话人的语音部分。相关技术所提出的***是基于高斯混合模型(GMM)的，并且在语音和噪声分别建模的基础上，使用了一个额外的GMM模型对目标说话人进行建模，即用三个GMM来达到提取目标说话人语音部分的目标。

发明人在实现本申请的过程中发现，现有的方案至少存在以下缺陷：

其余非目标说话人的声音是被看作背景噪声的(目标说话人的能量明显高于其余说话人)，并不适用于多人对话的场景。其次在面对复杂环境时，这种技术的检测准确率会有明显降低。

发明内容

本发明实施例提供一种说话人相关的端到端语音端点方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种说话人相关的端到端语音端点检测方法，包括：提取待检测语音的声学特征；将所述声学特征与目标说话人的i-vector特征进行拼接以作为新的输入特征；将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果。

第二方面，本发明实施例提供一种说话人相关的端到端语音端点检测装置，包括：提取模块，配置为提取待检测语音的声学特征；拼接模块，配置为将所述声学特征与目标说话人的i-vector特征进行拼接以作为新的输入特征；以及输出模块，配置为将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的说话人相关的端到端语音端点检测方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的说话人相关的端到端语音端点检测方法的步骤。

本申请的方法和装置提供的方案对不同说话人提取相应的区分性特征，然后将该特征加入到语音端点检测***中，利用深度学习的方法提高了噪声环境下语音端点检测的鲁棒性。进一步地，本申请的方案不仅针对对话场景下的语音端点检测提出了新的方案，更展现了使用说话人相关的特征来提升性能的各种可能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种说话人相关的端到端语音端点检测方法的流程图；

图2为本发明一实施例提供的基于LSTM的与说话人相关的VAD；

图3为本发明一实施例提供的一种特征合并的方法；

图4分别为本发明一实施例提供的不同的***测试用例的预测结果；

图5为本发明一实施例提供的一种说话人相关的端到端语音端点检测装置的框图；

图6是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的说话人相关的端到端语音端点检测方法一实施例的流程图，本实施例的说话人相关的端到端语音端点检测方法可以适用于具备语言模型的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的具备说话人检测功能的智能终端等。

如图1所示，在步骤101中，提取待检测语音的声学特征；

在步骤102中，将声学特征与目标说话人的i-vector特征进行拼接以作为新的输入特征；

在步骤103中，将新的输入特征输入至神经网络中进行训练并输出待检测语音是否为目标说话人语音的预测结果。

在本实施例中，对于步骤101，说话人相关的端到端语音端点检测装置首先提取待检测语音的声学特征，然后在步骤102中，将提取的声学特征和同样是从待检测语音中提取的能够表征其身份的i-vector特征进行拼接，将拼接后的特征作为新的输入特征，由于i-vector特征携带有说话人信息，因此拼接之后能够更好地对说话人进行检测。之后，对于步骤103，将该新的输入特征输入至神经网络中对该神经网络进行训练并输出待检测语音是否为预测说话人语音的预测结果。

本实施例的方案由于在建模过程中加入了说话人相关的信息i-vector特征，同时这是一个在线的检测***，***延迟很低。

在一些可选的实施例中，神经网络为深度神经网络，将新的输入特征输入至神经网络中进行训练并输出待检测语音是否为目标说话人语音的预测结果包括：将新的输入特征中的每一帧数据分别输入至深度神经网络；分别输出每一帧数据是否是目标说话人语音的检测结果。从而可以对每一帧数据是否为目标说话人语音进行检测。

在一些可选的实施例中，神经网络为长短时记忆循环神经网络，将新的输入特征输入至神经网络中进行训练并输出待检测语音是否为目标说话人语音的预测结果包括：将新的输入特征对应的整个句子数据输入至深度神经网络；输出每一帧数据是否是目标说话人语音的预测结果。从而可以对整个句子数据是否为目标说话人语音进行检测。

在一些可选的实施例中，在将新的输入特征输入至神经网络中进行训练并输出待检测语音是否为目标说话人语音的预测结果之前，方法还包括：将新的输入特征中相邻的n个语音帧合并然后取平均值作为输入，同时把每一个预测输出对应的预测结果重复n次以形成最终输出。从而，通过在特征输入部分会把相邻的n个语音帧以取平均值的方式进行合并，得到的新的特征在长度上是原来的n分之一，这样做的目的是加强语音之间的连续性。然后在模型输出预测值之后，再把每一个预测值重复n次，这样长度就和最初输入的特征长度一致，保证每一帧都有对应的预测输出。上述方法用在说话人相关的语音端点检测中，可以解决语音和非语音之间的错误转换问题和“碎片化问题”。

在一些可选的实施例中，将声学特征与目标说话人的i-vector特征进行拼接以作为新的输入特征包括：利用预训练的i-vector提取器从待检测语音中提取目标说话人的i-vector特征；将帧级别的声学特征和i-vector特征连接起来作为新的输入。从而实现对i-vector特征的提取和拼接，使其更好地帮助识别目标说话人的语音。

下面通过对发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现：现有技术把无关说话人的声音看作是背景噪声而非正常对话，所以无法在能量相似的情况下提取目标说话人的语音，其次它主要使用的还是传统的GMM方法，没有用到深度学习的方法，所以***检测能力有限。

本领域技术人员为了解决现有技术中存在的缺陷，可能会采用以下方案：传统的语音端点检测只能检测语音和非语音部分，无法进行说话人的区分，如果是要提取特定说话人的语音部分，一般会先用普通的语音端点检测***找出音频中所有的语音段，然后再用说话人确认技术(Speaker Verification,SV)对所有的语音段进行筛选，找出目标说话人的语音部分。这样两个阶段的解决方案是比较容易想到的。

而本申请的方案是一个端到端的神经网络的***，之前并没有同样的工作。我们是在传统的语音端点检测***的训练过程中加入了说话人相关的信息(i-vector)，并将深度神经网络(DNN)和长短时记忆神经网络(LSTM)应用到语音端点检测中，实现了端到端的说话人相关的端点检测***，通过单个网络就可以直接输出目标说话人的语音部分，去除音频中其他的静音段和非目标说话人的语音。

如图2所示，其示出了本申请一实施例提供的基于LSTM的与说话人相关的VAD，将一段音频中每一帧的声学特征与目标说话人的i-vector特征拼接。

其中，最下面特征输入的部分，传统方法都是将声学特征直接输入，而我们则是加入了说话人相关的信息(i-vector)，将每一帧的声学特征与目标说话人的表征i-vector拼接起来作为新的输入特征。在经过中间神经网络的训练之后，可以直接输出每一帧是否是目标说话人语音的预测结果。中间的神经网络部分可以替换成其他的网络，区别在于DNN输入的是拼接之后每一帧数据，而LSTM输入的是拼接之后整个句子的数据。

如图3所示，这里介绍的是一种特征合并的方法，用在说话人相关的语音端点检测中，可以解决语音和非语音之间的错误转换问题和“碎片化问题”。首先在特征输入部分会把相邻的n个语音帧以取平均值的方式进行合并，得到的新的特征在长度上是原来的n分之一，这样做的目的是加强语音之间的连续性。然后在模型输出预测值之后，再把每一个预测值重复n次，这样长度就和最初输入的特征长度一致，保证每一帧都有对应的预测输出。

本申请的实施例提出了一个新的任务：说话人相关的语音端点检测(Speaker-Dependent Voice Activity Detection,SDVAD)，就是可以从音频中单独提取出目标说话人的语音部分。这个任务在真实的生活场景中很常见，通常的解决方法是在语音端点检测***识别出所有语音段落之后，再用说话人确认(Speaker Verification,SD)来筛选出目标说话人的语音部分。在本申请的实施例中，我们提出了一种端到端的，基于神经网络的方法来解决这个问题，在建模过程中加入了说话人相关的信息，同时这是一个在线的检测***，***延迟很低。基于Switchboard数据集，我们生成了一个电话对话场景的语音数据集，并在这个数据集上做了一些实验。实验结果表明，相比于语音端点检测+说话人确认的方法，我们提出的在线检测***在帧级别准确率和F-score这两个指标上都取得了更好的效果。我们也使用了之前我们自己提出的段落级别的评价指标对不同***进行了更加全面的分析。

以下通过介绍发明人实现本申请的过程和所进行的实验及相关的实验数据，以使本领域技术人员更好地理解本申请的方案。

简介

语音端点检测(VAD，voice activity detection)是语音信号处理中最关键的技术之一，用于将语音与音频内的非语音段分离。VAD通常用作各种语音处理任务的预处理步骤，例如自动语音识别(ASR)，语音合成，说话人识别和网际协议语音(VoIP)。VAD的质量直接影响后续任务的性能。

在传统的VAD***中，非语音部分通常由静音和噪声组成，而在这项工作中，非语音部分还包括非目标说话人的语音部分。这在实际应用中非常普遍，例如，语音助理可能只需要回复特定说话人的命令，或者在会话环境中，来自非目标说话人的语音应被视为非语音。所解决的问题被称为说话人相关的语音端点检测(SDVAD)，它是传统VAD任务的扩展。在此任务中，我们只想检测来自目标说话人的语音，因此来自非目标说话人的语音和环境噪音都将被忽略。该任务的简单方法有两个步骤：(1)使用普通VAD***检测出所有的语音段(2)对获得的语音段执行说话人验证来识别出目标说话人的语音。然而，该方法以离线方式执行并且有较大的延迟。

传统的VAD算法可以分为两类，基于特征的方法和基于模型的方法。关于基于特征的方法，首先提取不同的声学特征，例如时域能量，过零率等等，然后应用诸如阈值比较的方法来进行检测。关于基于模型的方法，训练单独的统计模型以通过不同的概率分布来表示语音和非语音段，通过后验概率来进行判断，主要包括了高斯混合模型(GMM)和隐马尔可夫模型(HMM)等。同时也可以直接训练区分性模型来区分语音和非语音，诸如支持向量机(SVM)和深度神经网络模型。

最近，深度学习方法已成功应用于包括VAD在内的许多任务。对于复杂环境中的VAD，DNN具有比传统方法更好的建模能力，递归神经网络(RNN)和长短时记忆网络(LSTM)可以更好地模拟输入之间的连续性，卷积神经(CNN)可以为神经网络训练生成更好的特征。

为了解决说话人相关的语音端点检测，我们提出了一种基于神经网络的***，该***将说话人相关的信息加入到传统的VAD***中。具体的做法是在声学特征中加入目标说话人的特征(i-vector)。与两阶段VAD/SV方法相比，我们提出的方法可以实现为端到端的在线***，相对延迟。实验是在基于Switchboard数据集生成的多人对话的数据上进行的，，结果表明，与离线VAD/SV方法相比，我们提出的在线方法可以得到更好的性能，而且降低了延迟。

基于神经网络的语音端点检测中首先应用的就是深度神经网络模型(DNN)。基于DNN的VAD***不仅可以得到更好的效果，而且检测复杂度低。典型的基于DNN的VAD***训练基于帧的二进制分类器以将每个帧分类为两类：语音和非语音。通常，DNN的输入是每一帧的声学特征加上前后帧的扩展，

Ot＝[xt-r，...，xt-1，xt，xt+1，...，xt+r] (1)

其中r是上下文扩展的长度。DNN通过交叉熵的损失函数来进行优化。对于每个帧，通过两个类的后验概率之间的比较来执行分类。

基于LSTM的VAD***

LSTM能够对序列进行建模并捕获一系列特征中的长期的相关性。它的核心是由称为块的特殊单元组成。每个块包含一个输入门，一个输出门和一个遗忘门，使模型能够记忆短时间或长时间的信息相关性。LSTM结构可以有效地使用上下文来顺序地对输入声学特征进行建模。

LSTM网络计算从输入序列x＝[x1，x2，...，xT]到输出序列y＝[y1，y2，...，yT]的映射。这种架构的更多细节可以参考相关的论文。

如果应用于VAD，则基于LSTM的***逐帧输出预测，但是当前帧的每个预测部分地取决于其历史。训练标准与DNN相同。

与说话人相关的语音端点检测相关工作

对于与说话人相关的VAD，一些先前的研究使用麦克风阵列来跟踪目标说话人。某些研究也考虑了VAD的说话人身份，他们使用的VAD***基于高斯混合模型，使用一个额外的GMM来对目标说话人进行建模。但是，应该注意的是，我们与之前的工作有不同的实验环境，同时是解决不同的问题。在之前的研究中，来自其他说话人的语音表现为背景噪音，而在我们的任务中，针对的是会话场景，其中来自不同说话人的语音不重叠。另一种情况是在家中使用智能音响的时候，其中的语音识别***将受到其他家庭成员对话的干扰。通常，对于仅想接受来自特定说话人的语音信号的***，需要这种与说话人相关的语音端点检测器。

基于说话人的特征i-vector

说话人建模在语音处理任务中起着至关重要的作用，例如说话人识别，说话人分割聚类，语音识别的说话人自适应。近年来，基于因子分析的i-vector***在说话人识别任务中取得了显著的性能提升，这种说话人的表征方式也适用于其他相关任务，如语音转换和语音识别的说话人自适应训练。

基本上，i-vector是语音的低维固定长度表示，其保留说话人特定信息。对于i-vector框架，说话人和会话相关的超矢量M(从UBM导出)被建模为

M＝m+Tw (2)

其中m是说话人和会话无关的超向量，T是低秩矩阵，其表示说话人和会话可变性，i-vector是w的后验均值。

基线***

正如引言中所提到的，对于与说话人相关的VAD的任务，直观的方法将是一个两阶段的方法。首先，普通VAD用于检测所有语音段而不区分说话人，然后我们使用说话人验证***来挑选属于目标说话人的语音段。因此，基线***是VAD和与文本无关的说话人验证***的组合，在本文的其余部分将其称为VAD/SV方法。

在这项工作中，基于DNN和LSTM的***是针对VAD阶段进行训练的，而对于说话人验证部分，我们使用目前最先进的基于i-vector的概率线性判别分析(i-vector/PLDA框架)。

端到端说话人相关的VAD***(SDVAD)

根据基线***，说话人验证阶段是在获得整个音频的VAD预测结果之后，这增加了***的延迟。而且，它并没有直接优化这项任务的最终目标。因此，我们建议在原始VAD网络中引入说话人建模，以使模型能够提供帧级说话人的相关预测。由于该模型现在以端到端的方式进行训练，因此可以充分利用数据信息来获得更好的效果。

所提出的***在前述的图2中描绘，利用预训练的i-vector提取器，将从用户注册的语音中提取目标说话人的i-vector。然后我们将帧级别的声学特征和目标说话人的i-vector拼接起来作为神经网络的新输入。这对于训练和推理阶段都是可行的。对于训练阶段，音频数据都有相应的标注，因此可以使用说话人特定数据以便提取相应的i-vector。在推理阶段，要求用户在首次使用***时首先注册他们的声音也是合理的。

在训练过程中，仅目标说话人的语音部分被视为正样本，而非目标说话人的语音部分和非语音部分都被视为负样本。因此，该模型能够直接输出每帧的最终说话人相关预测，而无需额外的说话人验证阶段。我们所提出的与说话人相关的VAD***是具有较低延迟的在线***。

后处理和特征分类

VAD与常见的二进制分类问题不同，因为音频信号的特征是具有连续性的，这意味着相邻帧是高度相关的。模型的原始输出通常包含许多错误转换，由于脉冲噪声和其他干扰而导致“碎片问题”。对于像DNN这样的基于帧的分类器，这种问题更为明显。因此，应用后处理方法来平滑模型的原始输出并减少语音和非语音之间频繁的错误转换非常重要。常用的是基于规则的后处理方法，使用滑动窗口来对模型的输出进行平滑，消除一些错误的语音非语音转换。

大多数后期处理方法都会为在线VAD***增加额外的延迟。在本文中，另一种称为特征合并的方法用于帮助解决与说话人相关的VAD中的“碎片问题”。不同之处在于我们尝试平滑输入特征而不是模型输出。关于VAD，通过将值分组为固定数量的块来完成特征合并。如前述图3所示，我们使用均值缩减合并相邻n帧的输入特征，合并过程中帧不重叠。此过程将原始帧数减小到1/n。然后，模型的每个输出预测会被重复n次，以对应于每帧的原始特征。此方法引起的延迟可以忽略不计。

对于DNN模型，正常的帧扩展用于添加上下文信息并减少预测结果中的错误转换。对于LSTM模型，我们使用特征合并来保持语音的连续性并降低计算时间。

实验

数据集

我们对从Switchboard语料库生成的对话数据集进行了实验。在去除重复的对话以及数据不足的说话人之后，我们还剩下500个说话人的250h音频数据，其中每个音频仅包含一个说话人。然后我们将这些过滤后的数据分为train，dev和test set。训练集中有450个说话人，开发集中有10个说话人，测试集中有剩下的40个说话人。

训练数据的生成过程如下：

(1)为训练集中的说话人提取i-vector。

(2)从第s个发言者的数据中随机选择第i个音频，称为utt_s_i，同时选择第t个说话人的第j个音频，其中s不等于j，并把这两段音频拼接起来，作为新的句子utt_new。

(3)将目标说话人的i-vector连接到utt_new音频的每一帧上，以形成神经网络的最终输入。开发数据和测试数据的生成是类似的，而我们假设目标发言者的i-vector是通过额外的注册阶段获得的。

特征

对于i-vector提取器，提取帧长为25ms的20维MFCC作为前端特征。UBM由2048个GMM组成，提取的i-vector的维数为200。PLDA用作评分并补偿信道失真。所有神经网络的基本特征是36维对数滤波器组，帧长25ms，帧移为10ms。对于DNN模型，输入层由11帧的上下文窗口形成。DNN和LSTM模型都包含了两个隐层。

帧级评估

帧级别评估的结果以准确度(ACC)和F分数(F1，精度和召回的调和平均值)报告，列于表1中。

如果没有任何预处理或后处理，可以发现LSTM在VAD/SV基线和SDVAD***中具有比DNN更好的性能，这归因于其序列建模能力。对于LSTM SDVAD***，SDVAD***的ACC和F-score略高于VAD/SV基线***，这意味着我们提出的与说话人相关的VAD方法是有效的。。

为了解决“碎片问题”并进一步提高***性能，前面提到的基于规则的后处理和特征合并被应用于这些***。从结果可以看出，后处理可以略微改善DNN和LSTM SDVAD的性能

表1：不同***的ACC(％)和F得分(％)。VAD/SV表示VAD，然后是说话人验证，含有两部分的基线***，而SDVAD表示我们提出的端到端说话人相关的VAD***。“+post”和“+binning”分别表示应用后处理和特征合并。对于后处理，滑动窗口的大小为10帧。特征合并的大小为4。

另一方面，我们所使用的特征合并方法可以极大地有益于基于LSTM的SDVAD***，将ACC从88.31％提高到94.42％，并且可以通过后处理进一步提高到94.62％。F-score与ACC具有相同的改进。

在这里我们需要注意，作为基线***的第一阶段，普通VAD可以在没有太多碎片的情况下获得语音/非语音分类(没有说话人区分)的良好准确性。特征合并对第一阶段没有太大影响，因此无法改善整个VAD/SV***。出于同样的原因，后处理方法不能改进VAD/SV***，因此后处理的VAD/SV结果没有添加到表1中。两种处理方法之间性能差异的原因是后处理操作不会影响SDVAD的训练过程，而作为预处理步骤的特征分级可以被视为神经网络的一部分，这有助于网络充分利用信息。

段落级别评估

ACC和F分数仅是帧级别分类能力的指示。我们希望在段落级别进一步研究VAD/SV基线和SDVAD***的性能。这里使用我们之前提出的评估度量J_VAD。

J_VAD包含四个不同的子标准，即起始边界精度(SBA)，结束边界精度(EBA)，边界精度(BP)和帧精度(ACC)。ACC是正确识别帧的准确率。SBA和EBA是边界级精度的指示。BP是衡量VAD输出段完整性的指标。将上述四个子标准的调和平均值定义为段级J_VAD。分析是从这四个方面进行的。段落级别的J_VAD结果如表2所示

为了更直观的比较，此处仅使用LSTM模型。与VAD/SV基线***相比，我们可以发现原始的SDVAD***受到“碎片问题”的限制。在不加任何预处理和后处理的方法时SDVAD***的预测可能包含一些错误状态转换和片段。这些碎片导致不同***检测到的段落数量增加。

表2：不同***的J_VAD(％)和3个子标准(％)被列出，除了ACC，如表1所示

因此，BP评估很差。特征合并可以有效地减少这些错误转换。所有段落评估指标均已得到改进，并且接近于基线***的效果。

为了更好地比较不同的***，测试用例的预测结果如图4所示。图4示出了不同***的预测，可以观察到SDVAD***的预测结果中存在一些片段，并且特征合并可以有效地解决“碎片问题”。

VAD/SV***为非目标说话人提供了一些误报，这是合理的，因为VAD和SV是两个分离的阶段，无法针对任务的最终目标进行优化。

结论

在本文中，基于端到端神经网络的***被设计用于解决与说话人相关的VAD问题，该问题旨在仅检测来自目标说话人的语音。与延迟较高的两阶段VAD/SV方法相比，我们提出的端到端方法(SDVAD)直接将说话人信息带入建模过程并可直接执行在线预测。根据帧级别的指标和我们先前提出的段落级别的指标得到了一系列实验的结果。对于帧级别的评估，我们提出的LSTM SDVAD***比传统的VAD/SV***有了显著的性能提升，在帧精度方面从86.62％到94.42％。为了解决“碎片问题”，我们在LSTM SDVAD***中引入了特征合并，这显著改善了段落级别的评估效果。

请参考图5，其示出了本发明一实施例提供的说话人相关的端到端语音端点检测装置的框图。

如图5所示，端到端语音端点检测装置500，包括提取模块510、拼接模块520和输出模块530。

其中，提取模块510，配置为提取待检测语音的声学特征；拼接模块520，配置为将所述声学特征与目标说话人的i-vector特征进行拼接以作为新的输入特征；以及输出模块530，配置为将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果。

在一些可选的实施例中，拼接模块520还进一步配置为：利用预训练的i-vector提取器从所述待检测语音中提取目标说话人的i-vector特征；将帧级的声学特征和目标说话人的i-vector特征连接起来作为新的输入。

应当理解，图5中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如提取模块可以描述为提取待检测语音的声学特征的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如提取模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的说话人相关的端到端语音端点检测方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

提取待检测语音的声学特征；

将所述声学特征与目标说话人的i-vector特征进行拼接以作为新的输入特征；

将所述新的输入特征输入至神经网络中进行训练并输出所述待检测语音是否为目标说话人语音的预测结果。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据说话人相关的端到端语音端点检测装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至说话人相关的端到端语音端点检测装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项说话人相关的端到端语音端点检测方法。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该设备包括：一个或多个处理器610以及存储器620，图6中以一个处理器610为例。端到端语音端点方法的设备还可以包括：输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例说话人相关的端到端语音端点检测方法。输入装置630可接收输入的数字或字符信息，以及产生与说话人相关的端到端语音端点检测装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于说话人相关的端到端语音端点检测装置中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

提取待检测语音的声学特征；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、***总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种说话人相关的端到端语音端点检测方法，包括：

提取待检测语音的声学特征；

将所述新的输入特征输入至神经网络中并获取所述神经网络输出的所述待检测语音是否为目标说话人语音的预测结果，其中，在所述神经网络的训练过程中，仅目标说话人的语音部分被视为正样本，而非目标说话人的语音部分和非语音部分都被视为负样本；

基于所述预测结果输出所述目标说话人的语音部分，以去除所述待检测语音中的静音段和非目标说话人的语音。

2.根据权利要求1所述的方法，其中，所述神经网络为深度神经网络，所述将所述新的输入特征输入至神经网络中并获取所述神经网络输出的所述待检测语音是否为目标说话人语音的预测结果包括：

将所述新的输入特征中的每一帧数据分别输入至深度神经网络；

分别输出所述每一帧数据是否是目标说话人语音的检测结果。

3.根据权利要求1所述的方法，其中，所述神经网络为长短时记忆循环神经网络，所述将所述新的输入特征输入至神经网络中并获取所述神经网络输出的所述待检测语音是否为目标说话人语音的预测结果包括：

将所述新的输入特征对应的整个句子数据输入至长短时记忆循环神经网络；

输出每一帧数据是否是目标说话人语音的检测结果。

4.根据权利要求1所述的方法，其中，在所述将所述新的输入特征输入至神经网络中并获取所述神经网络输出的所述待检测语音是否为目标说话人语音的预测结果之前，所述方法还包括：

将所述新的输入特征中相邻的n个语音帧合并然后取平均值。

5.根据权利要求4所述的方法，其中，在所述输出所述待检测语音是否为目标说话人语音的预测结果之后，所述方法还包括：

把每一个语音帧对应的预测结果重复n次以形成最终输出。

6.根据权利要求1-5中任一项所述的方法，其中，所述将所述声学特征与i-vector特征进行拼接以作为新的输入特征包括：

利用预训练的i-vector提取器从所述待检测语音中提取目标说话人的i-vector特征；

将帧级别的声学特征和目标说话人的i-vector特征连接起来作为新的输入。

7.一种说话人相关的端到端语音端点检测装置，包括：

提取模块，配置为提取待检测语音的声学特征；

拼接模块，配置为将所述声学特征与目标说话人的i-vector特征进行拼接以作为新的输入特征；

输出模块，配置为将所述新的输入特征输入至神经网络中并获取所述神经网络输出的所述待检测语音是否为目标说话人语音的预测结果，其中，在所述神经网络的训练过程中，仅目标说话人的语音部分被视为正样本，而非目标说话人的语音部分和非语音部分都被视为负样本；以及基于所述预测结果输出所述目标说话人的语音部分，以去除所述待检测语音中的静音段和非目标说话人的语音。

8.根据权利要求7所述的装置，其中，所述拼接模块进一步配置为：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。