CN106104674A

CN106104674A - 混合语音识别

Info

Publication number: CN106104674A
Application number: CN201580016161.2A
Authority: CN
Inventors: 俞栋; 翁超; M·L·塞尔特泽尔; J·德罗波
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-03-24
Filing date: 2015-03-19
Publication date: 2016-11-09
Anticipated expiration: 2035-03-19
Also published as: WO2015148237A1; JP2017515140A; CN106104674B; US20150269933A1; RU2016137972A; EP3123466B1; JP6486381B2; US9558742B2; US20160284348A1; US9779727B2; EP3123466A1; US20170110120A1; RU2686589C2; US9390712B2; RU2016137972A3

Abstract

所要求的主题包括一种用于识别来自源的混合语音的***和方法。该方法包括训练第一神经网络以识别来自混合语音样本的讲话者所讲出的具有较高水平的语音特征的语音信号。该方法还包括训练第二神经网络以识别来自混合语音样本的讲话者所讲出的具有较低水平的语音特征的语音信号。此外，该方法包括通过在考虑特定帧是语音特征的切换点的概率的情况下对观察到两个语音信号的联合可能性进行优化而利用该第一神经网络和第二神经网络对该混合语音样本进行解码。

Description

混合语音识别

背景技术

虽然在改进语音识别***的噪声鲁棒性方面已经取得了进展，但是在存在竞争讲话者的情况下(混合语音)识别语音仍然是一项挑战。针对存在竞争讲话者的情况下的单麦克风语音识别的情形而言，研究人员对混合语音样本应用各种技术并且在它们之间进行比较。这些技术包括基于模型的方法，其使用阶乘高斯混合模型-隐马尔科夫模型(GMM-HMM)进行目标和竞争语音信号之间的交互作用以及它们的时间动态。利用该技术，联合干扰或解码识别出两个最可能的语音信号或所讲出的语句。

在计算听觉场景分析(CASA)和“缺失特征”方法中，分段规则作用于低水平特征从而估计将属于每个讲话者的信号分量进行分离的时间-频率屏蔽。该屏蔽可以被用来重构信号或通知解码进程。其他方法使用非负矩阵因子分解(NMF)进行分离和基于基音的增强。

在一种方法中，分离***使用具有256高斯的阶乘GMM-HMM生成模型针对每个讲话者对听觉空间进行建模。虽然这对于小的词汇是有用的，但是这是用于大型词汇任务的原始模型。利用更大数量的高斯，在阶乘GMM-HMM上执行干扰在计算上变为不切实际的。另外，这样的***假设依赖于讲话者的训练数据的可用性以及训练和测试之间的讲话者的闭合集合，而这对于大量讲话者而言是不切实际的。

发明内容

以下给出创新的简要概括以便提供对这里所描述的一些方面的基本理解。该概括并非是所请求保护主题的扩展性概述。其并非意在标示出所请求保护主题的关键要素也并非对所请求保护主题的范围加以界定。其目的仅在于以简化形式给出所请求保护主题的一些构思而作为随后所给出的更为详细的描述的前序。

一种***和方法识别来自源的混合语音。该方法包括训练第一神经网络以识别来自混合语音样本的讲话者的具有较高水平的语音特征的语音信号。该方法还包括训练第二神经网络以识别来自混合语音样本的讲话者的具有较低水平的语音特征的语音信号。此外，该方法包括通过在考虑特定帧是讲话者的功率的切换点的概率的情况下对观察到两个语音信号的联合可能性进行优化而利用该第一神经网络和第二神经网络对该混合语音样本进行解码。

实施例包括用于存储计算机可读指令的一个或多个计算机可读存储存储器设备。该计算机可读指令被一个或多个处理设备所执行。该计算机可读指令包括代码，其被配置为对第一神经网络进行训练以识别来自混合语音样本的第一语音信号中的较高水平的语音特征。对第二神经网络进行训练以识别来自该混合语音样本的第二语音信号中的较低水平的语音特征。对第三神经网络进行训练以估计每个帧的切换概率。通过优化观察到两个语音信号的联合可能性而利用第一神经网络、第二神经网络和第三神经网络对该混合语音样本进行解码，该联合可能性表示特定帧是语音特征的切换点的概率。

以下描述和附图详细给出了所请求保护主题的某些说明性方面。然而，这些方面指示了可以对该创新的原理加以采用的各种方式中的几种并且所请求保护主题意在包括所有这样的方面及其等同形式。所请求保护主题的其他优势和新颖特征将在结合附图考虑时由于以下对该创新的详细描述而变为显而易见的。

附图说明

图1是根据这里所描述实施例的用于单通道混合语音识别的示例***的数据流程图；

图2是根据这里所描述实施例的用于单通道混合语音识别的方法的处理流程图；

图3是根据这里所描述实施例的用于单通道混合语音识别的方法的处理流程图；

图4是根据这里所描述实施例的用于单通道混合语音识别的示例性***的框图；

图5是用于实施所请求保护主题的各个方面的示例性网络环境的框图；以及

图6是用于实施所请求保护主题的各个方面的示例性操作环境的框图。

具体实施方式

作为开始内容，一些附图在一个或多个结构组件的情境中对构思进行了描述，上述组件以各种方式被称作功能、模块、特征、部件等。附图中所示的各个组件能够以任意方式来实施，诸如软件、硬件、固件或者它们的组合。在一些实施例中，各种组件反映相对应组件在实际实施方式中的使用。在其他实施例中，附图中所示的任意单个组件可以由多个实际组件来实施。附图中的任意两个或更多个单独组件的描绘可以反映单个实际组件所执行的不同功能。以下所讨论的图1提供了有关可以被用来实施附图中所示功能的一种***的细节。

其他附图以流程图的形式对构思进行描述。以这种形式，某些操作被描述为构成以某种顺序执行的不同的框。这样的实施方式是示例性而非限制性的。这里所描述的某些框能够被分组在一起并且在单个操作中执行，某些框能够被划分为多个分量框，并且某些框能够以不同于这里所图示的顺序来执行，包括执行该框的并行方式。流程图中所示出的框能够由软件、硬件、固件、人工处理等来实施。如这里所使用的，硬件可以包括计算机***、离散逻辑组件，诸如应用特定集成电路(ASIC)等。

就术语而言，短语“被配置为”包含了任意类型的功能能够被构建从而执行所识别操作的任意方式。该功能能够被配置为例如使用软件、硬件、固件等来执行操作。术语“逻辑”包含了用于执行任务的任意功能。例如，流程图中所图示的每个操作对应于用于执行该操作的逻辑。操作能够使用软件、硬件、固件等来实施。术语“组件”、“***”等可以是指计算机相关实体、硬件和执行中的软件、固件或者它们的组合。组件可以是在处理器上运行的进程、对象、可执行程序、程序、功能、子例程、计算机，或者软件和硬件的组合。术语“处理器”可以是指硬件组件，诸如计算机***的处理单元。

此外，所请求保护主题可以使用标准编程和工程技术来产生软件、固件、硬件或者它们的任意组合以控制计算设备来实施所公开的主题从而被实施为方法、装置或制造品。如这里所使用的术语“制造品”意在包含从任意计算机可读存储设备或介质可访问的计算机程序。计算机可读存储介质可以包括但并不局限于磁性存储设备，除其他之外，例如硬盘、软盘、磁条、光学盘、光盘(CD)、数字多功能盘(DVD)、智能卡、闪存设备。作为比较，计算机可读介质，即并非存储介质，可以包括通信介质，诸如用于无线信号的传输介质等。

神经网络是尝试模拟动物大脑中的活动的计算模型。在神经网络中，互连的***通过经该网络馈送信息而从输入计算值。这些***是互连的，类似于大脑神经元之间的互连。深度神经网络(DNN)通常是具有多于一个的隐藏层的网络，其中该层被完全连接。换句话说，层中的所有神经元被互连至后续层中的所有神经元。

在语音识别中，输入神经元的集合可以被混合语音的输入帧的语音信号所激活。该输入帧可以被第一层中的神经元处理，并且被送至其他层中的神经元，其他层中的神经元也对它们的输入进行处理并送出它们的输出。神经网络的输出由输出神经元所生成，其指定了观察到特定音素(phone)或子音素(subphone)单元的概率。

高分辨率特征通常被语音分离***所使用，但是常规的GMM-HMM自动语音识别(ASR)***无法有效地对高分辨率特征进行建模。因此，研究人员在使用常规的基于GMM-HMM的ASR***时通常将语音分离和语音识别的处理分开。

然而，与处理倒谱域特征相比，基于神经网络的***已经表现出处理频域特征的优势。另外，神经网络已经针对讲话者变化和环境失真表现出鲁棒性。在所请求保护主题的实施例中，统一的基于神经网络的***能够针对两个讲话者的语音执行分离和识别处理。有利的是，神经网络能够以比常规ASR***更可能放大的方式来这样做。

图1是根据这里所描述实施例的用于单通道混合语音识别的示例***100的数据流程图。在***100中，训练集合102被输入到多个神经网络104。神经网络104使用训练集合102进行训练，产生经训练的网络106。混合语音帧108被输入到经训练的网络106，产生音素概率110。音素概率110表示在信号中观察到特定音素或子音素单元的可能性集合。在一个实施例中，音素概率110被输入到加权有限状态(WFST)转换器112，该转换器112执行联合解码以选择所讲出的单词。***100包括若干种用于协同通道语音识别的方法，其将多种形式的训练与针对多讲话者任务所定义的不同目标函数相结合。

示例实施方式已经表明了针对竞争讲话者的干扰的噪声鲁棒性。一种实施方式实现了19.7％的整体单词错误率(WER)，这与现有技术的***相比具有1.9％的绝对改进。有利的是，所请求保护主题的实施例利用较低的复杂度和较少的假设实现该目的。

1.介绍

所请求保护主题的实施例使用深度神经网络(神经网络104)来执行单通道混合语音识别。通过对人工混合的语音数据(例如，混合语音帧108)使用多种形式的训练策略，若干种不同的训练设置使得DDN***能够推广到相对应的相似模式。此外，WFST解码器112是利用经训练的神经网络104进行工作的联合解码器。

2.利用混合语音的DNN多形式训练

图2是根据这里所描述实施例的用于单通道混合语音识别的方法200的处理流程图。所要理解的是，该处理流程图仅表示所请求保护主题的技术，而并非必然表示顺序。方法200可以由***100执行，并且在框202开始，其中从干净的训练集合创建训练集合102。虽然基于神经网络的声学模型已经被证明比常规***针对环境失真更为鲁棒，但是该鲁棒性在训练集合102和混合语音帧108之间存在更大失真时并未被良好保持。因此，在训练期间向神经网络104给出代表性变化的示例有助于经训练的网络106推广到损坏更为严重的语音。

对单一讲话者语音进行训练的基于神经网络的模型推广不佳。然而，所请求保护主题的实施例通过使用多形式训练策略而避免了该问题。在该策略中，干净的训练数据被修改为表示预期语音。在示例训练集合102中，干净的、单一讲话者的语音数据库被来自其他讲话者的各种音量、能量等的竞争语音的样本所“损坏”。在框204，神经网络104利用该经修改的训练数据进行训练，该经修改的训练数据包括多条件波形。有利的是，多条件数据能够被用来创建经训练的网络104，网络104能够将多讲话者语音中的声音信号进行分离。在实施例中，神经网络104可以针对每个讲话者进行训练。

在框206，可以执行联合解码。在一个实施例中，WFST解码器被修改以针对多个讲话者来解码语音。

2.1高能量和低能量信号模型

在具有多个语音信号的每个混合语音讲话中，假设一个信号是目标语音，而一个则是干扰。该标记在一定程度上是任意的，因为***对两个信号都进行解码。一个实施例使用有关语音信号的能量的假设。在该实施例中，假设一个信号具有比其他信号更高的平均能量。在该假设之下，可能将目标语音识别为较高能量的信号[正的信噪比(SNR)]或者较低能量的信号(负的SNR)。因此，使用两个神经网络104：给定混合语音输入，一个网络被训练以识别较高能量语音信号而另一个则被训练以识别较低能量语音信号。

图3是根据这里所描述实施例的用于单通道混合语音识别的方法的处理流程图。所要理解的是，该处理流程图仅表示所请求保护主题的技术，而并非必然表示顺序。方法300可以由***100执行，并且在框302开始，其中***100对训练集合102的能量进行规格化。给定干净的训练数据集x，执行能量规格化而使得数据集中的每个语音讲话具有相同的功率水平。在框304，随机样本被混合为训练集合102。为了仿真其中目标语音信号具有较高或较低的平均能量的声学环境，另一个信号从训练集合102中随机选择，其振幅被适当调整并且被添加至训练集合102。以这种方式，训练集合102被修改以针对高能量和低能量数据创建被表示为x_H、x_L的两个多条件数据集。

在框306，针对x_H、x_L中的每一个对神经网络104进行训练，生成两个经训练的网络106。针对高能量的目标讲话者，神经网络可以利用损失函数进行训练，

其中是在第t帧的基准捆绑状态(senone)标记。所要注意的是，术语捆绑状态标记来自于对干净数据进行的对准。这在示例实施方式中获得良好性能时是有用的。类似地，用于低能量目标讲话者的神经网络104能够在数据集x_L上进行训练。此外，利用两个数据集x_L和x_H，可能使用最小平方误差(MSE)损失函数将神经网络104作为降噪器进行训练，

其中y_t∈x是相对应的干净语音特征，而是使用深度降噪器对未受损输入的估计。类似地，用于低能量目标讲话者的降噪器能够在数据集X_L上进行训练。在310，可以执行联合解码。

2.2高基音和低基音信号模型

以上基于平均高能量和低能量语音信号的训练策略所存在的一个潜在问题在于，经训练的模型可能在混合信号具有类似的平均能量水平(即，接近0dB的SNR)时表现不佳。在训练方面，该问题变为定义不良，因为对于相同的混合语音输入而言，训练标记具有矛盾的值(能够是来自较高能量的讲话者和较低能量的讲话者两者的标记)。然而，两个讲话者不太可能以相同的基音讲话。因此，在另一个实施例中，神经网络104被训练以识别具有较高或较低基音的语音。在该实施例中，通过随机选择干扰语音信号并且将其与目标语音信号进行混合而从原始的干净数据集x创建单个训练集合102，x_P。该训练还包括针对目标和干扰语音信号的基音估计，这被用来选择用于训练的标记。用于对用于高基音语音信号的神经网络104进行训练的损失函数因此为

其中是从语音信号与较高平均基音的对准所获得的基准捆绑状态标记。类似地，用于较低基音语音信号的神经网络104能够利用语音信号与较低平均基音的捆绑状态对准进行训练。

2.3瞬时高能量和低能量信号模型

神经网络104还能够基于每个帧108中的瞬时能量进行训练。甚至具有0dB的平均能量的讲话也会在每个帧中具有非零的瞬时SNR值，这意味着在标记中并没有歧义。可以通过混合语音信号并且计算目标和干扰信号中的瞬时帧能量来创建训练集合x_I。瞬时高能量信号的损失函数由以下给出

其中对应于来自在帧t处包含较高能量的信号源的捆绑状态标记。在这种情形中，使用基于帧的能量而不是基于讲话的能量作为分离的标准。因此，关于哪个输出对应于逐个帧108的目标或干扰方存在这不确定性。例如，目标讲话者在一个帧中可能具有较高能量而在下一个帧中却具有较低能量。

3.利用DNN模型进行联合解码

对于基于瞬时能量的神经网络104而言，两个经训练的网络106中的每个在每个帧108处确定哪个输出属于哪个讲话者。为此，联合解码器取得经训练的网络106的后验概率估计，例如音素概率110，从而联合地找出最佳的两个状态序列，对于每个讲话者一个状态序列。用于在WFST框架中创建解码图的标准方式能够被写为

HCLG＝min(det(HοCοLοG))， (5)

其中H、C、L和G分别表示HMM结构、音素情境依赖性、词素和语法，而○则是WFST结合算符。HCLG的输入标记是依赖于情境的HMM状态(捆绑状态标记)的标识符，并且输出标记表示单词。θ^H和θ^L所表示的是瞬时高能量和低能量信号所训练的网络。联合解码器的任务是在2-D联合状态空间中找出最佳的两个状态序列，而使得每个状态序列对数似然函数之和得以被最大化，

(s^{1 *}, s^{2 *}) = {argmax}_{(s^{1}, s^{2}) &Element; {s^{1} \times s^{2}}} p (x_{1 : T} | s^{1}; θ^{H}, θ^{L}) \cdot p (x_{1 : T} | s^{2}; θ^{H}, θ^{L}) . - - - (6)

该解码算法对两个HCLG解码图执行联合令牌传递。联合解码和常规解码之间的令牌传递的区别在于，在联合解码中，每个令牌与解码图中的两个状态而非一个状态相关联。

图4是根据这里所描述实施例的用于单通道混合语音识别的示例性***的框图。图4示出了对联合令牌传递进行说明的不重要的示例。在两个WFST图上，s¹、s²表示对应于两个讲话者之一的状态空间；(s¹，s²)则表示联合状态空间。假设第一讲话者S₁的令牌处于状态1，而与第二讲话者S₂相关联的令牌则处于状态2。对于具有非∈输入标记的出弧(消耗声学帧的那些弧)而言，扩展弧表示两个出弧集合之间的笛卡尔积。每个扩展弧的图成本是两个出弧集合的半环(semiring)相乘。每个扩展弧的声学成本使用来自用于瞬时高能量和低能量的两个神经网络104的捆绑状态假定进行计算。其中两个源中的任一个具有较高能量的两种情形都被加以考虑。声音成本由与较高可能性的组合所给出

利用等式7，还可以确定讲出哪个讲话者在沿该搜索路径的某个帧t处的相对应信号中具有较高的能量。针对具有∈输入标记的弧而言，∈弧并不消耗声学帧。因此，为了保证两个解码图上的令牌的同步，针对当前帧创建新的联合状态。例如，参见图4中的状态(3,2)。

联合解码器112的一个潜在问题在于，其在对整个讲话进行解码时允许逐个帧的自由能量切换。但是实际上，能量切换通常并不会经常发生。所请求保护主题的实施例通过在其中声音较大的信号与最后的帧相比有所变化的搜索路径中引入恒定惩罚而解决了该问题。可替换地，某个帧是能量切换点的概率能够被估计，并且该惩罚的值能够随其自适应地变化。由于训练集合102是通过将语音信号进行混合所创建的，所以每个原始语音帧的能量都是可用的。该训练集合能够被用来对神经网络104进行训练从而预测在某个帧处是否出现能量切换点。令θ^S表示被训练以检测能量切换点的模型，对能量切换的自适应惩罚由以下所给出，

4.实验

4.1.示例实施方式

在示例实施方式中，语音数据从GRID库集中取得。训练集合102包含来自于34个不同讲话者的17000个干净语音讲话(每个讲话者500个讲话)。评估集合包括干净、6dB、3dB、0dB、-3dB、-6dB、-9dB目标屏蔽比率(TMR)的7种条件下的4200个混合语音讲话，并且演变集合包含6种条件(没有干净条件)下的1800个混合语音讲话。混合语法包含六个部分：命令、颜色、介词、字母(其中排除了W)、数字和副词，例如“place white at L 3now”。在测试阶段期间，讲出颜色“white”的讲话者被作为目标讲话者。评估量度对于目标讲话者所讲出的字母和数字为WER。注意到，所有单词上的WER较低，并且除非另外有所指定，否则以下实验中所有报告的WER都仅是对字母和数字进行评估所得到。

4.2.基线***

基线***使用在由17000个干净语音讲话所组成的原始训练集合上进行训练的DNN所构建。GMM-HMM***使用具有271个不同捆绑状态的39维MFCC特征进行训练。此外，64维的对数mel滤波器组被用作特征，并且9个帧的情境窗口用于训练该DNN。DNN具有7个隐藏层，每个层具有1024个隐藏单元，以及DNN具有271维的softmax输出层，其对应于该GMM-HMM***的捆绑状态。该训练方案贯穿所有DNN实验被使用。参数初始化使用后跟有区别性预训练的生成预训练逐层进行。该网络使用向后传播而区别地进行训练。小型批次的大小被设置为256并且初始学习率被设置为0.008。在每次训练时期之后，在演变集合上验证帧准确性。如果改进小于0.5％，则学习率以因子0.5被减小。该训练处理在帧准确性改进小于0.1％之后停止。基线GMM-HMM和DNN-HMM***的WER在表2中示出。如所示出的，在干净数据上进行训练的DNN-HMM***除了干净条件之外在所有SNR条件下都表现不佳，这表明了DNN多形式训练的优势。

表2

4.3.经多形式训练的DNN***

为了研究针对高能量和低能量信号模型的多形式训练的使用，生成两个混合语音训练数据集。被称作集合I的高能量训练集合如下进行创建：针对每个干净讲话，随机选择三个其他讲话，并且在干净、6dB、3dB、0dB这4种条件下与目标干净讲话进行混合(17000×12)。作为低能量训练集合的集合II类似地创建，但是混合是在干净以及0dB、-3dB、-6dB、-9dB的TMR这5个条件下进行(17000×12)。这两个训练集合102被用来对分别用于高能量和低能量信号的两个DNN模型(DNN I和II)进行训练。结果在表3中列出。

表3

根据该表，结果在两个混合信号具有大的能量水平差(即，6dB、-6dB、-9dB)的情况下是良好的。另外，通过使用目标讲话者始终讲出颜色white的规则将来自DDN I和II的结果进行组合，与利用仅在干净数据上训练的DNN所获得的67.4％相比，组合的DNN I+II***实现了25.4％的WER。

利用相同的训练集合I，DNN被训练为前端降噪器。利用经训练的深度降噪器，尝试了两种不同的设置：第一设置将经降噪的特征直接馈送至在干净数据上训练的DNN。在第二设置中，在降噪数据上对另一个DNN进行重新训练。两种设置的结果在表4中示出。

表4

根据以上实验，看起来具有被训练以预测捆绑状态标记的DNN的***比具有后跟由另一个重新训练的DNN的经训练的深度降噪器的***更好。这意味着DNN能够自动学***(即，0dB、-3dB)的情况下表现非常不佳。具体地，针对高能量和低能量信号的多形式训练策略具有在训练期间指派冲突标签的潜在问题。表4示出了用于高能量和低能量信号的深度降噪器的WER(％)。

对于高基音和低基音信号模型而言，从干净训练集合而针对每个讲话者估计基音。随后，对训练集合I和训练集合II进行组合以形成训练集合III(17000×24)从而分别针对高基音和低基音信号而对两个神经网络104进行训练。在针对高基音信号训练神经网络104时，从对应于高基音讲话者的干净语音讲话上的对准而指派标记。在针对低基音信号训练神经网络104时，从对应于低基音讲话者的对准而指派标记。利用两个经训练的网络106，如之前那样单独执行解码。具体地，解码结果使用目标讲话者始终讲出颜色white的规则而被组合。WER在表5中示出。

表5

如所示出的，具有高基音和低基音模型的***在0dB的情况下比具有高能量和低能量模型的***执行得更好，但是在其他情况下则更差。

4.4.具有联合解码器的DNN***

训练集合III还被用来针对如部分3中所描述的瞬时高能量和低能量信号而对两个DNN模型进行训练。利用这两个经训练的模型，如部分3中所描述的执行联合解码。该联合解码器方法的结果在表6中示出。最后两个***对应于其中引入了能量切换惩罚的情形。联合解码器I是具有恒定能量切换惩罚的***，而联合解码器II是具有自适应切换惩罚的***。为了得到如(8)中所定义的能量切换惩罚的值，DNN被训练以针对每个帧估计能量切换概率。表6示出了具有联合解码器的DNN***的WER(％)。

表6

4.5.***组合

表6示出了DNN I+II***在其中两个混合语音信号具有大的能量水平差(即，6dB、-6dB、-9dB)的情况下执行良好，而联合解码器II***在两个混合信号具有相似的能量水平的情况下执行良好。这启示可以使用根据两个信号之间的能量差的***组合。混合信号被输入到两个深度降噪器，并且两个得到的输出信号被用来估计高能量和低能量信号。使用这些被分离的信号，能量比能够被计算从而近似两个原始信号的能量差。针对演变集合上的能量比而调整并获得阈值，并且该阈值被用于***组合，即如果来自降噪器的两个分离信号的能量比高于该阈值，则使用***DNN I+II来对测试讲话进行解码，否则使用***联合解码器II。其结果在表6中列出。

5.结论

在该工作中，我们通过使用多形式训练策略而研究了用于单通道混合语音识别的基于DNN的***。我们还引入了基于WFST的联合解码器以与经训练的神经网络104一起工作。对2006个语音分离和识别挑战数据所进行的实验表明所提出的基于DNN的***针对竞争讲话者的干扰具有显著的噪声鲁棒性。我们所提出的***的最佳设置实现了19.7％的总体WER，其在IBM的superhuman***所获得的结果上改进了1.9％的绝对值，这实现了更好的假定以及更低的计算复杂度。

图5是用于实施所请求保护主题的各个方面的示例性网络环境500的框图。此外，示例性网络环境500可以被用来实施利用DBMS引擎对外部数据集进行处理的***和方法。

网络***500包括一个或多个客户端502。(多个)客户端502可以是硬件和/或软件(例如，线程、进程、计算设备)。作为示例，(多个)客户端502可以是客户端设备，其通过诸如互联网的通信框架508而提供针对服务器504的访问。

环境500还包括一个或多个服务器504。(多个)服务器504可以是硬件和/或软件(例如，线程、进程、计算设备)。(多个)服务器504可以包括服务器设备。(多个)服务器504可以被(多个)客户端502所访问。

客户端502和服务器504之间的一种可能通信可以为适于在两个或更多计算机进程之间传送的数据分组的形式。环境500包括能够被用来促成(多个)客户端502和(多个)服务器504之间的通信的通信框架508。

(多个)客户端502可操作地连接至一个或多个客户端数据存储510，客户端数据存储510能够被用来存储(多个)客户端502本地的信息。(多个)客户端数据存储510可以位于(多个)客户端502中，或者远程地位于诸如云服务器中。类似地，(多个)服务器504可操作地连接至一个或多个服务器数据存储506，服务器数据存储506能够被用来存储服务器504本地的信息。

为了提供用于实施所请求保护主题的各个方面的情境，图6意在提供其中可以实施所请求保护主题的各个方面的计算环境的简要、一般的描述。例如，用于制造全彩色3D对象的方法和***能够在这样的计算环境中实施。虽然所请求保护主题已经在上文中在本地计算机或远程计算机上运行的计算机程序的计算机可执行指令的一般情境中进行了描述，但是所请求保护主题也可以结合其他程序模块来实施。通常，程序模块包括执行特定任务或实施特定抽象数据类型的例程、程序、组件、数据结构等。

图6是用于实施所请求保护主题的各个方面的示例性操作环境600的框图。示例性操作环境600包括计算机602。计算机602包括处理单元604、***存储器606和***总线608。

***总线608将包括但并不局限于***存储器606的***组件耦合至处理单元604。处理单元604可以是任意的各种可用处理器。双重微处理器和其他多处理器架构也可以被用作处理单元604。

***总线608可以是任意的若干类型的总线结构，包括存储器总线或存储器控制器、***总线或外部总线，以及使用本领域普通技术人员所知的任意各种可用总线架构的本地总线。***存储器606包括计算机可读存储介质，计算机可读存储介质包括易失性存储器610和非易失性存储器612。

包含诸如在启动期间在计算机602内的部件之间传输信息的基本例程的基本输入/输出***(BIOS)被存储在非易失性存储器612中。作为说明而非限制，非易失性存储器612可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或者闪存。

易失性存储器610包括随机访问存储器(RAM)，其用作外部高速缓存存储器。作为说明而非限制，RAM能够以多种形式获得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink^TM DRAM(SLDRAM)、直接RAM(DRRAM)、直接动态RAM(DRDRAM)和动态RAM(RDRAM)。

计算机602还包括其他计算机可读介质，诸如可移除/非可移除、易失性/非易失性的计算机存储介质。例如，图6示出了盘存储614。盘存储614包括但并不局限于如磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-200驱动器、闪存卡或记忆棒。

此外，盘存储614可以包括独立或结合其他存储介质的存储介质，上述其他存储介质包括但并不局限于光学盘驱动器，诸如光盘ROM设备(CD-ROM)、CD可记录驱动器(CD-R驱动器)、CD可重写驱动器(CD-RW驱动器)或数字多功能盘ROM驱动器(DVD-ROM)。为了促成盘存储设备614到***总线608的连接，通常使用可移除或非可移除的接口，诸如接口616。

所要理解的是，图6描绘了用作用户和适当操作环境600中所描述的基本计算机资源之间的中介的软件。这样的软件包括操作***618。能够存储在盘存储614上的操作***618用来控制并分配计算***602的资源。

***应用620通过存储在***存储器606中或盘存储614上的程序模块622和程序数据624而对操作***618所进行的资源管理加以利用。所要理解的是，所请求保护主题能够利用各种操作***或操作***的组合来实施。

用户通过输入设备626向计算机602中输入命令或信息。输入设备626包括但并不局限于诸如鼠标、轨迹球、触笔等的指示设备，键盘、麦克风、操纵杆、卫星碟形天线、扫描仪、电视调频卡、数码相机、数码摄像机、web相机等。输入设备626经由接口端口628而通过***总线608连接至处理单元604。接口端口628例如包括串行端口、并行端口、游戏端口和通用串行总线(USB)。

输出设备630使用一些与输入设备626相同类型的端口。因此，例如，USB端口可以被用来向计算机602提供输入，并且从计算机602向输出设备630输出信息。

提供输出适配器632以说明除其他输出设备630之外的如监视器、扬声器和打印机之类的经由适配器可访问的一些输出设备630。作为说明而非限制，输出适配器632包括视频卡和音频卡，视频卡和音频卡在输出设备630和***总线608之间提供了连接手段。应当注意的是，诸如远程计算机634之类的其他设备和/或设备的***同时提供输入和输出能力。

计算机602能够是使用到诸如远程计算机634的一个或多个远程计算机的逻辑连接而在联网环境中托管各种软件应用的服务器。远程计算机634可以是被配置以web浏览器、PC应用、移动电话应用等的客户端***。

远程计算机634可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的电器、移动电话、对等设备或其他常见网络节点等，并且通常包括关于计算机602所描述的许多或全部部件。

出于简明的目的，与远程计算机634一起图示了存储器存储设备636。远程计算机634通过网络接口638逻辑连接至计算机602并且随后经由无线通信连接640进行连接。

网络接口638包含无线通信网络，诸如局域网(LAN)和广域网(WAN)。LAN技术包括光纤分布式数据接口(FDDI)、铜线分布式数据接口(CDDI)、以太网、令牌环等。WAN技术包括但并不局限于点对点链路、如综合服务数字网(ISDN)的电路交换网络及其变化形式、分组交换网络和数字订户线路(DSL)。

通信连接640是指用来将网络接口638连接至总线608的硬件/软件。虽然通信连接640为了说明的清楚而被示为处于计算机602之内，但是其也可以处于计算机602之外。仅出于示例性的目的，用于到网络接口638的连接的硬件/软件可以包括内部和外部技术，诸如移动电话交换机、包括常规电话级调制解调器、有线调制解调器和DSL调制解调器的调制解调器、ISDN适配器以及以太网卡。

用于服务器的示例性处理单元604可以是包括Xeon CPU的计算集群。盘存储614可以包括例如保存数千种印象的企业数据存储***。

以上已经描述的内容包括所请求保护主题的示例。当然，出于描述所请求保护主题的目的不可能对组件或方法的每种可想到的组合进行描述，但是本领域普通技术人员可以认识到，所请求保护主题的许多另外的组合和置换都是可能的。因此，所请求保护主题意在涵盖落入所附权利要求的精神和范围之内的所有这样的改变、修改和变化。

特别地且关于以上所描述的组件、设备、电路、***等所执行的各种功能，除非另外指出，否则即使在结构上并非等同于所公开的结构，用来描述这样的组件的术语(包括对“器件”的指代)也意在对应于执行所描述组件的指定功能的任意组件，例如功能等同体，其执行这里所说明的请求保护主题的示例性方面中的功能。就此而言，还将要认识到的是，创新包括***以及具有计算机可执行指令的计算机可读存储介质，该计算机可执行指令用于执行所请求保护主题的各种方法的动作和事件。

具有多种方式来实施所请求保护主题，例如适当API、工具套件、驱动器代码、操作***、控制、独立或可下载软件对象等，它们使得应用和服务能够对这里所描述的技术加以利用。因此，所请求保护主题从API(或其他软件对象)以及从根据这里所描述的技术操作的软件或硬件对象的观点而得以预期。因此，这里所描述的所请求保护主题的各个实施例可以具有完全为硬件、部分为硬件且部分为软件以及软件的方面。

以上所提到的***已经关于若干组件之间的交互进行了描述。能够理解的是，这样的***和组件能够包括那些组件或所指定的子组件、一些指定组件或子组件和/或子组件、和附加组件、以及根据之前的各种排列和组合。子组件也可以被实施为通信耦合至其他组件而并非包括在双亲组件(层级)内的组件。

此外，所能够注意到的是，一个或多个组件可以被组合为提供整合功能的单个组件或者被划分为若干个单独的子组件，并且可以提供诸如管理层之类的任意一个或多个中间层以通信耦合至这样的子组件以便提供整体功能。这里所描述的任意组件还可以与这里并未具体描述但是被本领域技术人员所公知的一个或多个其他组件进行交互。

此外，虽然所请求保护主题的特定特征已经关于若干实施方式之一进行了公开，但是可能对于任意给定或特定应用而言所期望并且有利的是，这样的特征可以与其他实施方式的一个或多个其他特征相结合。此外，至于在详细描述或权利要求中所使用的术语“包括”、“包括了”、“具有”、“包含”、其变化形式或者其他类似词语的范围，这些术语意在以类似于作为开放式过渡词语的术语“含有”的方式而是包含性的，而并不排除任何附加或其他的要素。

Claims

1.一种用于识别来自源的混合语音的方法，包括：

训练第一神经网络以识别来自混合语音样本的、由讲话者讲出的、具有较高水平的语音特征的语音信号；

训练第二神经网络以识别来自所述混合语音样本的、由讲话者讲出的、具有较低水平的所述语音特征的语音信号；以及

通过对观察到两个所述语音信号的联合可能性进行优化而利用所述第一神经网络和所述第二神经网络对所述混合语音样本进行解码。

2.根据权利要求1所述的方法，包括通过考虑特定帧是所述讲话者的切换点的概率而进行解码。

3.根据权利要求2所述的方法，包括基于从另一个神经网络估计的切换概率而对在解码处理中出现的切换点进行补偿。

4.根据权利要求1所述的方法，所述混合语音样本包括单个音频通道，所述单个音频通道由麦克风生成。

5.根据权利要求1所述的方法，所述语音特征包括以下之一：

所述混合语音样本的帧中的瞬时能量；

能量；以及

基音。

6.根据权利要求1所述的方法，包括：

训练第三神经网络以预测语音特征切换；

预测能量是否从一个帧切换至下一个帧；以及

基于所述预测对所述混合语音样本进行解码。

7.根据权利要求6所述的方法，包括对其中预测出能量切换的帧后续的帧中的能量切换的可能性进行加权。

8.一种用于识别来自源的混合语音的***，所述***包括：

第一神经网络，其包括第一多个互连***；以及

第二神经网络，其包括第二多个互连***，

每个互连***，包括：

处理单元；以及

***存储器，其中所述***存储器包括代码，其被配置为指示所述处理单元以：

训练所述第一神经网络以识别来自混合语音样本的第一语音信号中的较高水平的语音特征；

训练所述第二神经网络以识别来自所述混合语音样本的第二语音信号中的较低水平的所述语音特征；以及

9.根据权利要求8所述的***，包括被配置为通过考虑特定帧是所述语音特征的切换点的概率而对所述混合语音样本进行解码的代码。

10.根据权利要求8所述的***，包括被配置为指示所述处理单元以基于从神经网络估计的所述概率而对在解码处理中出现的所述切换点进行补偿的代码。

11.根据权利要求8所述的***，所述第一神经网络和所述第二神经网络包括深度神经网络。

12.根据权利要求8所述的***，所述语音特征包括所述混合语音样本的帧中的基音、能量和瞬时能量中选择的一个。

13.根据权利要求8所述的***，包括代码，其被配置为指示所述处理单元以：

训练第三神经网络以预测能量切换；

预测能量是否从一个帧切换至下一个帧；以及

基于所述预测对所述混合语音样本进行解码。

14.根据权利要求13所述的***，包括对其中预测出能量切换的帧后续的帧中的能量切换的可能性进行加权。

15.一个或多个用于存储计算机可读指令的计算机可读存储存储器设备，所述计算机可读指令被一个或多个处理设备执行，所述计算机可读指令包括代码，其被配置为：

训练第一神经网络以识别来自包括单个音频通道的混合语音样本的第一语音信号中较高水平的语音特征；

训练第二神经网络以识别来自所述混合语音样本的第二语音信号中较低水平的所述语音特征；

训练第三神经网络以估计每个帧的切换概率；以及

通过优化观察到两个所述语音信号的联合可能性而利用所述第一神经网络、所述第二神经网络和所述第三神经网络对所述混合语音样本进行解码，所述联合可能性表示特定帧是所述语音特征的切换点的概率。