CN106531155A

CN106531155A - 生成声学模型的设备和方法和用于语音识别的设备和方法

Info

Publication number: CN106531155A
Application number: CN201610803609.1A
Authority: CN
Inventors: 李镐式; 崔喜烈
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-09-10
Filing date: 2016-09-05
Publication date: 2017-03-22
Anticipated expiration: 2036-09-05
Also published as: EP3142106B1; KR20170030923A; KR102209689B1; JP2017054122A; EP3142106A1; US10127905B2; CN106531155B; JP6751322B2; US20170076719A1

Abstract

描述的是生成声学模型的设备和方法和用于语音识别的设备和方法。所述设备和方法包括：处理器，被配置为通过使用噪音模型计算代表噪音数据的噪音表现，并通过使用包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练，生成声学模型。

Description

生成声学模型的设备和方法和用于语音识别的设备和方法

本申请要求于2015年9月10日提交到韩国知识产权局的第10-2015-0128456号韩国专利申请的权益，该申请的全部公开出于所有目的通过引用包含于此。

技术领域

下面的描述涉及语音识别技术，更具体地讲，涉及一种用于生成声学模型的设备和方法，和用于语音识别的设备和方法。

背景技术

对语音识别技术存在很大的兴趣，因为语音识别使得用户能够以更方便和容易的方式从互联网、电子商务和各种普遍存在的环境中访问信息。例如，在用户的双手忙于驾驶车辆或进行其他活动的情况下，语音识别使得用户能够访问互联网、搜索、拨号、进行电话呼叫或者进行其他活动或工作，因此，满足用户的各种需要。

语音识别的一个重点在于有效地移除环境条件产生的噪音。训练环境和真实的语音识别环境之间的由这样的噪音引起的差异是***的语音识别性能下降的主要因素之一。

因此，存在对这样的技术的需要：可生成声学模型以在电子设备(诸如，手机)中将语音识别***训练为具有鲁棒性并且不受或不显著受噪音影响，并且可被用于存在各种噪音的真实的语音识别环境。

发明内容

提供发明内容从而以简化的形式介绍构思的选择，其将在下面的具体实施方式中将被进一步描述。发明内容不意在确定所要求保护主题的关键特征或必要特征，也不意在用于辅助确定所要求保护的主题的范围。

提供了一种用于生成对噪音具有鲁棒性的声学模型的设备和方法，和一种用于通过使用对噪音具有鲁棒性的声学模型进行语音识别的设备和方法。

根据一个实施例，提供一种用于生成声学模型的设备，所述设备包括：处理器，被配置为：通过使用噪音模型计算代表噪音数据的噪音表现，以及通过使用也可包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练，生成声学模型。

该设备还可包括：被配置为存储指令的存储器，其中，处理器还可被配置为执行指令以配置处理器，来通过使用噪音模型计算代表噪音数据的噪音表现，并通过使用也可包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练，生成声学模型。

处理器还可包括：噪音表现计算器，被配置为通过使用噪音模型计算代表噪音数据的噪音表现；声学模型生成器，被配置为通过使用也可包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练，生成声学模型。

噪音表现计算器也可包括：特征提取器，被配置为提取噪音数据的特征；噪音建模器，被配置为通过使用噪音模型基于提取的特征计算代表噪音数据的噪音表现。

可使用训练噪音数据通过自动编码器预先生成噪音模型。

生成的声学模型可以是基于神经网络的声学模型。

处理器可被配置为通过使用多任务学习方法来生成声学模型。

处理器通过使用从第一目标函数和第二目标函数的加权和得到的第三目标函数，生成声学模型，其中，第一目标函数可用于估计音素概率，第二目标函数可用于估计噪音表现。

声学模型生成器也可包括：组合器，被配置为组合语音数据和噪音数据以生成训练带噪语音数据；特征提取器，被配置为提取生成的训练带噪语音数据的特征；声学模型训练器，被配置为用提取的特征、与语音数据对应的音素串和噪音表现，训练声学模型。

根据另一实施例，提供一种生成声学模型的方法，该方法包括：通过使用噪音模型计算噪音数据的噪音表现；通过使用也可包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练，生成声学模型。

计算噪音表现的步骤也可包括：提取噪音数据的特征；通过使用噪音模型基于提取的噪音数据的特征计算噪音表现。

可使用训练噪音数据通过自动编码器预先生成噪音模型。

生成的声学模型可以是基于神经网络的声学模型。

生成声学模型的步骤也可包括：通过使用多任务学习方法生成声学模型。

生成声学模型的步骤也可包括：通过使用从第一目标函数和第二目标函数的加权和得到的第三目标函数，生成声学模型，其中，第一目标函数可用于估计音素概率，第二目标函数可用于估计噪音表现。

生成声学模型的步骤也可包括：组合语音数据和噪音数据以生成训练带噪语音数据；提取生成的训练带噪语音模型的特征；用提取的特征、与语音数据对应的音素串和噪音表现，训练声学模型。

根据一个实施例，提供一种语音识别设备，包括：存储器，被配置为存储声学模型；计算器，被配置通过使用存储的声学模型计算输入的带噪语音数据的音素概率，其中，可通过使用包括语音数据和噪音数据的组合的训练带噪语音数据、与语音数据对应的音素串和代表噪音数据的噪音表现进行训练，生成声学模型。

计算器也可包括：特征提取器，被配置为提取输入的带噪语音数据的特征；音素概率计算器，被配置为使用声学模型计算与提取的特征对应的音素概率。

可通过使用噪音模型计算噪音表现。

可使用训练噪音数据通过自动编码器预先生成噪音模型。

声学模型可以是基于神经网络的声学模型。

可通过使用多任务学习方法生成声学模型。

可通过使用从第一目标函数和第二目标函数的加权和得到的第三目标函数，生成声学模型，其中，第一目标函数可用于估计音素概率，以及第二目标函数可用于估计噪音表现。

可用定义为输入数据的训练带噪语音数据和定义为目标数据的与语音数据对应的音素串和噪音表现，生成声学模型。

根据进一步的实施例，提供一种语音识别方法，包括：提取输入的带噪语音数据的特征；通过使用声学模型计算与提取的特征相应的音素概率，其中，可通过使用包括语音数据和噪音数据的组合的训练带噪语音数据、与语音数据对应的音素串以及代表噪音数据的噪音表现进行训练，生成声学模型。

可通过使用噪音模型计算噪音表现。

可使用训练噪音数据通过自动编码器预先生成噪音模型。

声学模型可以是基于神经网络的声学模型。

可通过使用多任务学习方法生成声学模型。

根据另一实施例，提供一种用于生成声学模型的设备，包括：组合器，被配置为组合语音数据和噪音数据以生成训练带噪语音数据；特征提取器，被配置为通过将用于声学模型训练的带噪语音数据与其他噪音数据区别开来，从带噪语音数据提取特征；声学模型训练器，被配置为用来自带噪语音数据、与语音数据对应的音素串和噪音表现的特征，训练声学模型，其中，同时执行音素的分类和噪音表现的提取。

该设备还可包括：自动编码器，被配置为接收特征的输入以基于接收的训练语音数据的输入计算输入表现，并基于输入表现重构最相似于输入的输出。

自动编码器使用训练噪音数据预先生成噪音模型。

生成的声学模型可以是基于神经网络的声学模型。

其他特征和方面从下面的具体实施方式、附图和权利要求将是清楚的。

附图说明

图1是示出根据实施例的用于生成声学模型的设备的框图。

图2是解释根据实施例的生成噪音模型的示例的示图。

图3是解释根据实施例的生成声学模型的示例的示图。

图4是示出根据实施例的语音识别设备的框图。

图5是示出根据另一实施例的生成声学模型的方法的流程图。

图6是示出在图5中示出的噪音表现的计算的示例的流程图。

图7是示出在图5中示出的声学模型的生成的示例的流程图。

图8是示出根据实施例的语音识别方法的流程图。

图9是示出根据实施例的用于生成噪音模型的设备的框图。

图10是示出根据实施例的用于生成噪音模型的方法的流程图。

贯穿附图和具体实施方式，除非另外被描述，相同的附图标记将被理解为表示相同的元件、特征和结构。为了清楚、说明和便利，这些元件的相对大小和描写可被夸大。

具体实施方式

下面的详细描述被提供以协助读者获得对在此描述的方法、设备和/或***的全面理解。然而，在对本申请的公开的理解后，在此描述的方法、设备和/或***的各种变化、修改和等同物将是明显的。例如，在此描述的操作的顺序仅是示例，操作的顺序不被局限于在此阐述的那些顺序，而是除了必需按特定顺序发生的操作之外可被改变，这在对本申请的公开理解之后将是明显的。同样，为了更加清楚和简洁，对本领域中已知的特征的描述可以被省略。

在此描述的特征可以不同的形式被实现，并且不应被解释为被局限于在此描述的示例。相反，在此描述的示例仅被提供于示出实施在此描述的执行方法、设备和/或***的许多可能方式中的一些方式，这在对本申请的公开理解之后将是明显的。

贯穿说明书，当一个元件(诸如层、区域或基底)被描述为“在……之上”、“连接”或“结合”到另一元件时，其可直接“在……之上”、“连接”或“结合”到该另一元件，或者可存在一个或多个介于它们之间的元件。相反，当元件被描述为“直接在……之上”、“直接连接”或“直接结合”到另一元件时，不存在介于它们之间的其他元件。

尽管术语(诸如“第一”、“第二”和“第三”)在此可用于描述各种部件、组件、区域、层或部分，这些部件、组件、区域、层或部分不被这些术语限制。相反，这些术语仅用于区分一个部件、组件、区域、层或部分与另一个部件、组件、区域、层或部分。因此，在不脱离示例的教导的情况下，在这里描述的示例中被称为的第一部件、组件、区域、层或部分，也可被称为第二部件、组件、区域、层或部分。

此处使用的术语仅用于描述各种示例，并不用于限制该公开。除非上下文另有清楚的指示，否则单数形式也意在包括复数形式。术语“包含”、“包括”以及“具有”表示存在叙述的特征、数字、操作、部件、元件和/或它们的组合，但并不排除存在或添加一个或多个其他特征、数字、操作、部件、元件和/或它们的组合。

在此描述的示例的特征可以各种方式被组合，这在对本申请的公开理解之后将是明显的。此外，尽管在此描述的示例具有各种配置，其他配置是可能的，这在对本申请的公开理解之后将是明显的。

图1是示出根据实施例的用于生成声学模型的设备的框图。

参照图1，用于生成声学模型的设备100包括：输入110、噪音表现计算器120和声学模型生成器130。

输入110是对用于生成声学模型的训练语音数据(以下称为用于声学模型训练的语音数据)的输入和也用于生成声学模型的训练噪音数据(以下称为用于声学模型训练的噪音数据)的输入进行接收的门、终端或麦克风。

噪音表现计算器120是被配置为使用预先生成的噪音模型计算噪音表现的处理器、控制器、电路或计算器。噪音表现代表用于声学模型训练的噪音数据。为此，噪音表现计算器120包括：特征提取器121、噪音模型存储部分122和噪音建模器123。

特征提取器121是被配置为通过执行提取算法提取用于声学模型训练的噪音数据的特征的处理器、控制器或电路。提取算法可以是任何类型或功能的算法，只要该算法可用于提取将用于声学模型训练的噪音数据与其他噪音数据区别开来的特征。

噪音模型存储部分122是被配置为存储噪音模型的存储器或电路。在一个实施例中，通过使用各种训练噪音数据(以下称为用于噪音模型训练的噪音数据)，通过自动编码器预先进行训练来生成噪音模型。用于噪音模型训练的噪音数据可包括所有类型的包括用来生成声学模型的用于声学模型训练的噪音数据的噪音数据。

噪音模型存储部分122是包括闪存类型、硬盘类型、微型多媒体卡类型、卡类型存储器(诸如SD或XD存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、可编程序只读存储器(PROM)、磁存储器、磁盘、光盘和其他相似装置中的至少一个存储介质的存储器或电路。

尽管在图1中噪音模型存储部分122包括在噪音表现计算器120中，但噪音模型存储部分122不限于此。换句话说，噪音模型存储部分122可被放置成为噪音表现计算器120的一部分，或者成为噪音表现计算器120之外的外部构件。

通过使用存储在噪音模型存储部分122中的噪音模型，基于特征提取器121提取的用于声学模型训练的噪音数据的特征，噪音建模器123计算代表用于声学模型训练的噪音数据的噪音表现。

将参照图2描述噪音模型的生成和使用。

声学模型生成器130是被配置为通过基于用于声学模型训练的语音数据、用于声学模型训练的噪音数据、与用于声学模型训练的语音数据相应的音素串和用于声学模型训练的噪音数据的噪音表现进行训练来生成声学模型的处理器、控制器或者结构生成器。在一个实施例中，声学模型生成器130通过使用多任务学习方法生成声学模型。为此，声学模型生成器130包括：组合器131、特征提取器132、和声学模型训练器133。

组合器131是被配置为组合用于声学模型训练的语音数据和噪音数据以生成训练带噪语音数据(以下称为用于声学模型训练的带噪语音数据)的处理器、控制器或电路。

特征提取器132是被配置为通过使用，例如，可将用于声学模型训练的带噪语音数据与其他噪音数据区别开来的算法，从用于声学模型训练的带噪语音数据提取特征的处理器、控制器或电路。如上面描述的，该算法可以是任何类型或功能的算法，只要该算法可用来提取将用于声学模型训练的带噪语音数据与其他噪音数据区别开来的特征。

声学模型训练器133是被配置为用来自特征提取器132的用于声学模型训练的带噪语音数据的特征、以及被定义为目标数据的与用于声学模型训练的语音数据相应的音素串和用于声学模型训练的噪音数据的来自噪音建模器123的噪音表现，训练声学模型的处理器或控制器。换句话说，声学模型训练器133训练声学模型，以便声学模型通过使用多任务学习方法同时执行音素的分类和噪音表现的提取。

声学模型可以是基于神经网络的声学模型，但不限于此。

该基于神经网络的声学模型可包括多个隐藏层，并可通过典型的误差反向传播方法进行训练。

在一个实施例中，声学模型训练器133通过使用由下面的等式1表示的目标函数来训练声学模型。

[等式1]

L＝(1-λ)L_A+λL_N

其中，L_A是用于估计音素概率的用于训练声学模型的目标函数(以下称为第一目标函数)，L_N是用于估计噪音表现的用于训练声学模型的目标函数(以下称为第二目标函数)，λ是权重。

如通过等式1所表示的，用于训练声学模型的目标函数从第一目标函数和第二目标函数的加权和得到。

在一个实施例中，第一目标函数L_A使用一般用于多类分类的交叉熵(cross-entropy)，由下面的等式2表示。

[等式2]

t_k＝0或1，

其中，K指示输出类的数量(例如，音素的数量)，t_k指示第k输出类是否为目标类，t_k在目标类的情况下取值为1，t_k在不是目标类的情况下取值为0，y_k表示模型的输出层的激活函数。

在一个实施例中，第二目标函数L_N使用一般用于回归的欧几里德距离，由下面的等式3表示。

[等式3]

其中，P指示输入(输出)特征的维度，f_p指示第p个输入节点的激活值，g_p表明第p个输出节点的激活值。

尽管在图1中用于生成声学模型的设备100包括输入110和噪音模型存储部分122，但是输入110和噪音模型存储部分122是可基于***的性能和使用被包括的可选的结构元件。

图2是解释根据实施例的用于生成噪音模型的示例的示图。图2中示出的噪音模型是基于自动编码器的噪音模型。

在一个实施例中，可通过自动编码器训练噪音模型。自动编码器包括多个隐藏层，并且被训练为接收特征的输入(诸如，滤波器组(filterbank))、基于接收的输入计算输入表现210、并基于所述表现210重构最相似于所述输入的输出。

例如，通过使用由下面的等式4表示的目标函数，训练基于自动编码器的噪音模型。

[等式4]

其中，x_k指示输入，z_k指示输出，k指示用于声学模型训练的噪音数据的样本索引。

在一个实施例中，自动编码器的位于中间的隐藏层的节点的数量被期望小于输入/输出的维度，或者期望稀疏的约束(诸如，L1范数)。例如，在输入123个滤波器组(41维静态滤波器组+δ+δ-δ(其中，δ是滤波器组的导数，δ-δ是滤波器组的二阶导数))的情况下，自动编码器的位于中间的隐藏层的节点的数量被设为40，其比123要小。通过使用自动编码器进行训练，可获得与维度缩减相同的效果，并且噪音模型被训练以计算代表输入的输入表现。

自动编码器包括：将输入转化为表现的编码器220和将表现转化为输出的解码器230。编码器220和解码器230均为结构装置，所述结构装置包括但不限于：处理器、控制器或电路。通过从训练的自动编码器移除解码器230，可生成噪音模型。即，噪音模型可被配置为仅包括编码器220。

图3是解释根据实施例的生成声学模型的示例的示图。

参照图3，特征提取器121接收用于声学模型训练的噪音数据310，并从用于声学模型训练的噪音数据310提取特征(fbank_noise(滤波器组_噪音))。

噪音建模器123，通过使用预先生成的噪音模型340，基于提取的特征(fbank_noise)，计算与用于声学模型训练的噪音数据310相应的噪音表现350。

组合器131将用于声学模型训练的噪音数据310与用于声学模型训练的语音数据320进行组合，以生成用于声学模型训练的带噪语音数据330。

特征提取器132接收用于声学模型训练的带噪语音数据330，并且从用于声学模型训练的带噪语音数据330提取特征(fbank_noisy_speech(滤波器组_带噪语音))。

声学模型训练器133用定义为输入数据的特征(fbank_noisy_speech)、定义为目标数据的与用于声学模型训练的语音数据相应的音素串和定义为目标数据的用于声学模型训练的噪音数据的噪音表现350，训练声学模型370。换句话说，声学模型训练器133训练声学模型370以便声学模型370可同时执行音素分类360和噪音表现350的计算。

图4是示出根据实施例的语音识别设备的框图。

参照图4，语音识别设备400包括：输入410、声学模型存储部分420和计算器430。

输入410接收在其中将被识别的语音数据和噪音数据被组合的带噪语音数据的输入。

声学模型存储部分420存储通过预先训练已被生成的声学模型。声学模型可以是被在图1示出的用于生成声学模型的设备100生成的声学模型。

例如，声学模型是通过使用用于声学模型训练的语音数据、用于声学模型训练的噪音数据、与用于声学模型训练的语音数据相应的音素串和用于声学模型训练的噪音数据的噪音表现，进行训练而生成的声学模型。可通过使用噪音模型计算噪音表现，并可基于各种类型的用于噪音模型训练的噪音数据，通过自动编码器生成噪音模型。

声学模型可以是基于神经网络的和通过使用多任务学习方法生成的声学模型。换句话说，声学模型可以是使用用于声学模型训练的带噪语音数据(在带噪语音数据中，用于声学模型训练的语音数据和用于声学模型训练的噪音数据被组合)的特征(被定义为输入数据)、以及定义为目标数据的与用于声学模型训练的语音数据相应的音素串和用于声学模型训练的噪音数据的噪音表现，进行训练而生成的声学模型。可通过使用由等式1至3表示的目标函数来训练声学模型。

声学模型存储部分420可包括闪存类型、硬盘类型、微型多媒体卡类型、卡类型存储器(例如，SD或XD存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、可编程序只读存储器(PROM)、磁存储器、磁盘、光盘和其他相似存储结构设备中的至少一个存储介质。

计算器430通过使用存储的声学模型计算输入的带噪语音数据的音素概率。为此，计算器430包括：特征提取器431和音素概率计算器432。

根据一个实施例，特征提取器431通过使用算法来提取输入的带噪语音数据的特征。如上面描述的，该算法可以是任何类型或功能的算法，只要该算法可用于提取将带噪语音数据与其他噪音数据区别开来的特征。

音素概率计算器432通过使用存储的声学模型，计算与特征提取器431提取的带噪语音数据的特征相应的音素概率。

尽管在图4中语音识别设备400包括：输入410和声学模型存储部分420，但是输入410和声学模型存储部分420是取决于***的性能和使用而可被省略的结构元件。

图5是示出根据另一实施例的生成声学模型的方法的流程图。

参照图1和图5，在操作510中，用于生成声学模型的设备100使用噪音表现计算器120，通过使用预先生成的噪音模型计算代表用于声学模型训练的噪音数据的噪音表现。

通过自动编码器使用用于噪音模型训练的各种噪音数据进行预先训练，生成噪音模型。用于噪音模型训练的噪音数据包括所有类型的具有用于生成声学模型的用于声学模型训练的噪音数据的噪音数据。

参照图2描述了噪音模型的生成，从而将省略其具体描述。

在操作520中，用于生成声学模型的设备100使用声学模型生成器130，基于用于声学模型训练的语音数据、用于声学模型训练的噪音数据、与用于声学模型训练的语音数据相应的音素串和用于声学模型训练的噪音数据的噪音表现，生成声学模型。

图6是示出在图5中示出的噪音表现的中计算510的流程图。

参照图1和图6，在操作610中，用于生成声学模型的设备100使用特征提取器121，通过使用算法提取用于声学模型训练的噪音数据的特征。所述算法可以是任何类型或功能的算法，只要该算法可用于提取将用于声学模型训练的噪音数据与其他噪音数据区别开来的特征。

在操作620中，用于生成声学模型的设备100使用噪音建模器123，基于提取的用于声学模型训练的噪音数据的特征，计算代表用于声学模型训练的噪音数据的噪音表现。

图7是示出在图5中示出的声学模型的中的生成过程520的流程图。

参照图1和图7，用于生成声学模型的设备100使用组合器131，组合用于声学模型训练的语音数据和用于声学模型训练的噪音数据，以生成用于声学模型训练的带噪语音数据。

在操作720中，用于生成声学模型的设备100使用特征提取器132，通过使用算法来提取用于声学模型训练的带噪语音数据的特征。如上面描述的，算法可以是任何类型或功能的算法，只要该算法可用于提取将用于声学模型训练的带噪语音数据与其他噪音数据区别开来的特征。

在操作730中，用于生成声学模型的设备100使用声学模型训练器133，用定义为输入数据的用于声学模型训练的带噪语音数据的特征、以及定义为目标数据的与用于声学模型训练的语音数据相应的音素串和用于声学模型训练的噪音数据的噪音表现，训练声学模型。换句话说，用于生成声学模型的设备100使用声学模型训练器133训练声学模型，以便声学模型通过使用多任务学习方法同时执行音素分类和噪音表现。

声学模型可以是基于神经网络的声学模型，但不限于此。

基于神经网络的声学模型可包括多个隐藏层，并可通过典型的误差反向传播方法训练。

在一个实施例中，用于生成声学模型的设备100可通过使用由等式1至3表示的目标函数训练声学模型。

图8是示出根据实施例的语音识别方法的流程图。

参照图4和图8，在操作810中，语音识别设备400使用特征提取器431，通过使用算法来从带噪语音数据提取特征。如上面描述的，所述算法可以是任何类型或功能的算法，只要该算法可用于提取将用于声学模型训练的带噪语音数据与其他带噪语音数据区别开来的特征。

在操作820中，语音识别设备400使用音素概率计算器432，通过使用声学模型来计算与提取的带噪语音数据相应的音素概率。

声学模型可以是通过基于用于声学模型训练的语音数据、用于声学模型训练的噪音数据、与用于声学模型训练的语音数据相应的音素串和用于声学模型训练的噪音数据的噪声表现进行训练而生成的声学模型。可通过使用噪音模型计算噪音表现，且可基于各种类型的用于噪音模型训练的噪音数据通过自动编码器生成噪音模型。

声学模型可以是基于神经网络的并通过使用多任务学习方法而生成的声学模型。换句话说，声学模型可以是使用用于声学模型训练的带噪语音数据(在带噪语音数据中，用于声学模型训练的语音数据和用于声学模型训练的噪音数据被组合)的特征(被定义为输入数据)、以及定义为目标数据的与用于声学模型训练的语音数据相应的音素串和用于声学模型训练的噪音数据的噪音表现，进行训练而生成的声学模型。可通过使用由等式1至3表示的目标函数来训练声学模型。图9是示出根据实施例的生成噪音模型的设备的框图。

参照图9，用于生成噪音模型的设备900包括：训练器910和生成器920。

训练器910是被配置为通过使用各种训练噪音数据训练自动编码器的处理器、电路或控制器。自动编码器包括：将输入转化为表现的编码器和将表现转化为输出的解码器。

在一个实施例中，训练器910通过使用等式4的目标函数训练自动编码器。

生成器920是被配置为通过从自动编码器中移除解码器生成噪音模型的处理器、电路或控制器。

图10是示出根据实施例的生成噪音模型的方法的流程图。

参照图9和图10，在操作1010，用于生成噪音模型的设备900使用训练器910，通过使用各种训练噪音数据来训练编码器。自动编码器包括：将输入转化为表现的编码器和将表现转化为输出的解码器。

在一个实施例中，用于生成噪音模型的设备900通过使用等式4的目标函数来训练自动编码器。

在操作1020，用于生成噪音模型的设备900使用生成器920，通过从自动编码器中移除解码器生成噪音模型。

通过被配置为执行由硬件组件所执行的在本申请中描述的操作的硬件组件，实施执行在本申请中描述的操作的在图1、图4和图9中的输入110、噪音表现120、特征提取器121、噪音建模器123、噪音模型存储部分122、声学模型生成器130、组合器131、特征提取器132、声学模型训练器133、输入410、特征提取器431、声学模型存储部分420、音素概率计算器432、训练器910、生成器920。可用于执行在本申请中的适当位置描述的操作的硬件组件的示例包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和任何其他被配置为执行在本申请中描述的操作的电子组件。在其他示例中，一个或多个执行在本申请中描述的操作的硬件组件通过计算机硬件(例如，通过一个或多个处理器或计算机)实施。处理器或计算机可通过一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元)、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编辑门阵列、可编程逻辑阵列、微处理器或任何其他被配置为以定义的方式响应并执行指令去实现期望的结果的装置或装置的组合被实施。在一个示例中，处理器或计算机包括或被连接到，一个或多个存储有被处理器或计算机执行的指令或软件的存储器。被处理器和计算器实施的硬件组件可执行指令或软件(诸如操作***(OS)和运行在OS中的一个或多个软件应用)来执行在本申请中描述的操作。响应于指令或软件的执行，硬件组件还可访问、操纵、处理、生成和存储数据。为了简明，单数术语“处理器”或“计算机”可用于在本申请中描述的示例的描述中，但在其他示例中，多处理器或多计算机可被使用，或者一个处理器或计算机可包括多处理器元件或多种类型的处理器元件或者两者均有。例如，单个硬件组件或两个或更多个硬件组件可通过单个处理器或者两个或更多个处理器或者一个处理器和控制器实施。一个或多个硬件组件可通过一个或多个处理器，或者一个处理器和一个控制器实施，并且一个或多个其他硬件组件可通过一个或多个其他处理器，或者另一处理器和另一控制器实施。一个或多个处理器，或者一个处理器和一个控制器可实施单个硬件组件，或者两个或更多个硬件组件。硬件组件可具有任何一个或多个不同的处理配置，其示例包括：单处理器、独立的处理器、并行处理器、单指令单数据(SISD)多重处理、多指令单数据(MISD)多重处理、单指令多数据(SIMD)多重处理以及多指令多数据(MIMD)多重处理。

图5至图8和图10中示出的执行在本申请中描述的操作的方法由如上描述的那样被实施为执行指令或软件以执行所述方法所执行的在本申请中描述的操作的计算机硬件(例如，一个或多个处理器或计算机)执行。例如，单个操作或者两个或更多个操作可通过单处理器或者两个或更多个处理器，或者处理器和控制器来执行。一个或多个操作可通过一个或多个处理器，或者处理器和控制器来执行，且一个或多个其他操作可通过一个或多个其他处理器，或者另一处理器和另一控制器来执行。一个或多个处理器，或者处理器和控制器，可执行单个操作，或者两个或更多个操作。

为了单独地或共同地指示或配置一个或多个处理器或计算机来作为机器或专用计算机执行被如上面所描述的硬件组件和方法所执行的操作，用于控制计算机硬件(例如，一个或多个处理器或计算机)以实施硬件组件并执行如上面所描述的方法的指令或软件可被写为计算机程序、代码段、指令或它们的任意组合。在一个示例中，指令或软件包括直接被一个或多个处理器或计算机执行的机器代码(诸如，被编译器产生的机器代码)。在另一示例中，指令或软件包括被一个或多个处理器或计算机使用解释器执行的高级代码。指令或软件可基于公开了用于执行被如上所述的硬件组件和方法执行的操作的算法的在附图中示出的框图和流程图和说明书的相应描述使用任意编程语言被编写。

用于控制计算机硬件(例如，一个或多个处理器或计算机)以实施硬件组件并执行如上所述的方法的指令或软件、以及任何相关的数据、数据文件以及数据结构可被记录、存储或安装在一个或多个非暂时计算机可读存储介质中或上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-Re、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、和被配置为以非暂时方式存储指令或软件、以及任何相关的数据、数据文件以及数据结构，并向一个或多个处理器或计算机提供指令或软件、以及任何相关的数据、数据文件以及数据结构以便所述一个或多个处理器和计算机能够执行指令的任何其他设备。在一个示例中，指令或软件、以及任何相关数据、数据文件以及数据结构分布在联网的计算机***上，以便指令和软件、以及任何相关的数据、数据文件以及数据结构被一个或多个处理器或计算机以分布式方式存储、访问和执行。

尽管本公开包括特定的示例，但是在不脱离权利要求和它们的等同物的精神和范围的情况下可在这些示例中做出形式和细节上各种改变，在对本申请的公开的理解后将是清楚的。在此描述的示例被认为仅是描述性的，而非为了限制的目的。在每一示例中的特征和方面的描述将被认为适用于其他示例中的相似特征和方面。如果描述的技术以不同的顺序被执行，和/或如果在描述的***、架构、装置、或电路中的组件以不同的方式组合，和/或被其他组件或者它们的等同物代替或增补，可实现合适的结果。因此，公开的范围不是通过具体实施方式所限定，而是由权利要求和它们的等同物限定，并且在权利要求和它们的等同物的范围内的所有变化将被解释为被包括在该公开之内。

Claims

1.一种用于生成声学模型的设备，所述设备包括：

处理器，被配置为：

通过使用噪音模型计算代表噪音数据的噪音表现；

通过使用包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练，生成声学模型。

2.如权利要求1所述设备，还包括：存储器，被配置为存储指令，

其中，处理器还被配置为执行所述指令以配置处理器，来通过使用噪音模型计算代表噪音数据的噪音表现，并通过使用包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练来生成声学模型。

3.如权利要求1所述设备，其中，处理器包括：

噪音表现计算器，被配置为通过使用噪音模型，计算代表噪音数据的噪音表现；

声学模型生成器，被配置为通过使用包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练，生成声学模型。

4.如权利要求3所述设备，其中，噪音表现计算器包括：

特征提取器，被配置为提取噪音数据的特征；

噪音建模器，被配置为通过使用噪音模型基于提取的特征，计算代表噪音数据的噪音表现。

5.如权利要求1所述设备，其中，使用训练噪音数据通过自动编码器预先生成噪音模型。

6.如权利要求3所述设备，其中，生成的声学模型是基于神经网络的声学模型。

7.如权利要求1所述设备，其中，处理器被配置为：通过使用多任务学习方法生成声学模型。

8.如权利要求1所述设备，其中，处理器通过使用从第一目标函数和第二目标函数的加权和得到的第三目标函数，生成声学模型，其中，第一目标函数用于估计音素概率，第二目标函数用于估计噪音表现。

9.如权利要求3所述设备，其中，声学模型生成器包括：

组合器，被配置为组合语音数据和噪音数据以生成训练带噪语音数据；

特征提取器，被配置为提取生成的训练带噪语音数据的特征；

声学模型训练器，被配置为用提取的特征、与语音数据对应的音素串以及噪音表现，训练声学模型。

10.一种生成声学模型的方法，所述方法包括：

通过使用噪音模型计算噪音数据的噪音表现；

使用包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现，生成声学模型。

11.如权利要求10所述方法，其中，计算噪音表现的步骤包括：

提取噪音数据的特征；

通过使用噪音模型基于提取的噪音数据的特征计算噪音表现。

12.如权利要求10所述方法，其中，通过自动编码器使用训练噪音数据预先生成噪音模型。

13.如权利要求10所述方法，其中，生成的声学模型是基于神经网络的声学模型。

14.如权利要求10所述方法，其中，生成声学模型的步骤包括：通过使用多任务学习方法生成声学模型。

15.如权利要求14所述方法，其中，生成声学模型的步骤包括：通过使用从第一目标函数和第二目标函数的加权和得到的第三目标函数，生成声学模型，其中，第一目标函数用于估计音素概率，第二目标函数用于估计噪音表现。

16.如权利要求10所述方法，其中，生成声学模型的步骤包括：

组合语音数据和噪音数据以生成训练带噪语音数据；

提取生成的训练带噪语音模型的特征；

用提取的特征、与语音数据对应的音素串以及噪音表现训练声学模型。

17.一种语音识别设备，包括：

存储器，被配置为存储声学模型；

计算器，被配置为通过使用存储的声学模型计算输入的带噪语音数据的音素概率，

其中，通过使用包括语音数据和噪音数据的组合的训练带噪语音数据、与语音数据对应的音素串和代表噪音数据的噪音表现进行训练，生成声学模型。

18.如权利要求17所述设备，其中，计算器包括：

特征提取器，被配置为提取输入的带噪语音数据的特征；

音素概率计算器，被配置为使用声学模型计算与提取的特征对应的音素概率。

19.如权利要求17所述设备，其中，通过使用噪音模型计算噪音表现。

20.如权利要求19所述设备，其中，通过自动编码器使用训练噪音数据预先生成噪音模型。

21.如权利要求17所述设备，其中，声学模型是基于神经网络的声学模型。

22.如权利要求17所述设备，其中，通过使用多任务学习方法生成声学模型。

23.如权利要求22所述设备，其中，通过使用从第一目标函数和第二目标函数的加权和得到的第三目标函数，生成声学模型，其中，第一目标函数用于估计音素概率，第二目标函数用于估计噪音表现。

24.如权利要求17所述设备，其中，用定义为输入数据的训练带噪语音数据和定义为目标数据的与语音数据对应的音素串和噪音表现，生成声学模型。

25.一种语音识别方法，包括：

提取输入的带噪语音数据的特征；

通过使用声学模型，计算与提取的特征相应的音素概率，

26.如权利要求25所述方法，其中，通过使用噪音模型计算噪音表现。

27.如权利要求26所述方法，其中，通过自动编码器使用训练噪音数据预先生成噪音模型。

28.如权利要求25所述方法，其中，声学模型是基于神经网络的声学模型。

29.如权利要求25所述方法，其中，通过使用多任务学习方法生成声学模型。

30.如权利要求29所述方法，其中，通过使用从第一目标函数和第二目标函数的加权和得到的第三目标函数，生成声学模型，其中，第一目标函数用于估计音素概率，第二目标函数用于估计噪音表现。

31.如权利要求25所述方法，其中，用定义为输入数据的训练带噪语音数据和定义为目标数据的与语音数据对应的音素串和噪音表现，生成声学模型。

32.一种用于生成声学模型的设备，包括：

特征提取器，被配置为通过将用于声学模型训练的带噪语音数据与其他噪音数据区别开来，从带噪语音数据提取特征；

声学模型训练器，被配置为用来自带噪语音数据的特征、与语音数据对应的音素串和噪音表现，训练声学模型，其中，同时执行音素的分类和噪音表现的提取。

33.如权利要求32所述设备，还包括：

自动编码器，被配置为接收噪音数据的特征的输入以基于接收的输入计算输入表现，并基于输入表现重构最相似于所述输入的输出。

34.如权利要求33所述设备，其中，自动编码器使用训练噪音数据预先生成噪音模型。

35.如权利要求32所述设备，其中，生成的声学模型是基于神经网络的声学模型。