CN108735199B

CN108735199B - 一种声学模型的自适应训练方法及***

Info

Publication number: CN108735199B
Application number: CN201810346103.1A
Authority: CN
Inventors: 谭应伟; 陈孝良; 冯大航; 苏少炜; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2021-05-28
Anticipated expiration: 2038-04-17
Also published as: CN108735199A

Abstract

本公开提供了一种声学模型的自适应训练方法，包括：步骤S1，进行语音特征提取，并将其作为输入训练并生成种子模型，得到目标函数；步骤S2，对种子模型的网络结构进行调整，加入线性层；步骤S3，在目标函数的基础上，添加KL散度正则项；步骤S4，训练线性层，重新利用反向传播算法估计隐线性层的权重和偏移；步骤S5，训练完成，输出自适应模型。由于LHT能够映射场景数据，同时KL散度能够减轻过拟合现象，因此能够保证在自适应数据较少的情况下，减轻在训练神经网络的过程中产生过拟合的现象，提升针对场景数据的识别率。

Description

一种声学模型的自适应训练方法及***

技术领域

本公开涉及语音识别领域，尤其涉及一种声学模型的自适应训练方法及***。

背景技术

自动语音识别是人工智能应用的一个重要方向，并发展成为一个具有广阔前景的新兴高技术产业。最近几年来，随着智能家居及车载导航等产业的兴起，远场语音识别技术受到了热切的关注。远场语音识别***通常包含前端信号处理与后端语音识别模块，前端部分旨在通过语音增强的手段，包括解混响、波束成形等方法来将含有噪声和混响的语音尽可能的处理为“干净”的语音。而后端部分与一般的语音识别***相同，目的在于将处理后“干净”的语音识别为文字。为了得到更好的识别效果，后端的语音识别需要与前端降噪算法进行匹配。目前，大部分技术供应商的语音识别引擎主要是利用手机上收集的语音进行训练的，因此只适用于近讲的情况。为了解决远场语音与近场模型不匹配的问题，就需要用远场的语音数据来训练声学模型。针对特定的应用场景而言，获取远场语音数据的成本通常很高，这就需要利用少量数据的声学模型自适应技术来提升识别准确率。目前针对DNN/HMM声学模型的自适应技术包括LIT(Linear Input Transformations线性输入变换)等方法。这类方法的都是在种子模型的基础上，加入线性变换层，再重新调整神经网络的权重来达到自适应的目的。

现有的声学模型自适应技术直接利用自适应数据调整神经网络的权重，但算法存在模型发生过拟合现象的问题，使得神经网络的输出分布偏向于自适应的数据，从而损坏种子模型中已经学习到的信息。

发明内容

(一)要解决的技术问题

本公开提供了一种声学模型的自适应训练方法及***，以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面，提供了一种声学模型的自适应训练方法，包括：步骤S1，进行语音特征提取，并将其作为输入训练并生成种子模型，得到目标函数；步骤S2，对种子模型的网络结构进行调整，加入线性层；步骤S3，在目标函数的基础上，添加KL散度正则项；步骤S4，训练线性层，重新利用反向传播算法估计隐线性层的权重和偏移；步骤S5，训练完成，输出自适应模型。

在本公开一些实施例中，所述步骤S2包括：在得到种子模型以后，在第一个隐层的后面加入隐线性层，对该种子模型的网络结构进行调整。

在本公开一些实施例中，在加入隐线性层时，将该隐线性层的权重初始化为单位矩阵以及偏移初始化为零。

在本公开一些实施例中，在加入线性层后，自适应层的权重W_a和偏移公式B_a如下：

W_a＝W_LHN×W_SI

B_a＝B_SI+B_LHN×W_SI

其中，W_LHN和B_LHN是隐线性层的权重和偏移，W_SI和B_SI是跟随在线性层后面的层的权重和偏移。

在本公开一些实施例中，所述步骤S1包括：从原始语音及自适应语音数据中，提取梅尔标度滤波器组特征，并提取梅尔频谱特征，将梅尔频谱作为原始语音的特征。

在本公开一些实施例中，所述步骤S1还包括：利用原始语音的特征作为输入，以负交叉熵为目标函数，训练得到种子模型的参数，其中，负交叉熵的公式如下：

其中，N是训练集中的样本个数，S是神经网络的输出个数，p(y|x_t)是后验概率，

是对齐目标概率。

在本公开一些实施例中，所述步骤S3包括：以负交叉熵作为目标函数，加入KL散度正则项，并删除与模型参数无关项，新的目标函数变为：

其中，ρ为插值因子，p^SI(y|x_t)为种子模型估计的后验概率。

在本公开一些实施例中，所述步骤S4包括：在网络结构及目标函数确定后，通过反向传播算法进行神经网络学习，包括正向传播过程与反向传播过程，其中，在正向传播阶段，将语音信号的特征作为训练输入神经网络，获得激励响应；在反向传播阶段，将激励响应与训练输入对应的目标输出求误差，从而获得响应误差，将输入激励与响应误差相乘，从而获得权重的梯度，并完成对权重的更新，再根据线性层训练结果估计隐线性层的权重和偏移，其中，权重更新及偏移采用以下公式进行：

其中，α为学习率。

在本公开一些实施例中，所述步骤S2中，在得到种子模型以后，线性层在输入层后加入，或者是在输出层前加入，对该种子模型的网络结构进行调整。

根据本公开的另一个方面。提供了一种声学模型的自适应训练***，包括：

特征提取输入单元，进行语音特征提取，并将其作为输入训练；

种子模型训练与产生单元，连接到特征提取输入单元，通过特征提取输入单元提取的语音特征作为训练输入，训练并生成种子模型；

线性层加入单元，连接到种子模型训练与产生单元，用于对种子模型的网络结构进行调整，加入线性层；

KL散度加入单元，同样连接到种子模型训练与产生单元，在交互熵目标函数的基础上，添加KL散度正则项；

线性层训练单元，连接到种子模型训练与产生单元，用于在调整网络结构及加入KL散度正则项后，训练线性层，重新利用反向传播算法估计隐线性层的权重和偏移；

自适应模型产生单元，连接到线性层训练单元，用于输出自适应模型。

(三)有益效果

从上述技术方案可以看出，本公开声学模型的自适应训练方法至少具有以下有益效果其中之一：

(1)由于LHT能够映射场景数据，同时KL散度能够减轻过拟合现象，因此能够保证在自适应数据较少的情况下，减轻在训练神经网络的过程中产生过拟合的现象，提升针对场景数据的识别率；

(2)由于模型自适应都是基于远场信号基础上进行的，采用在第一个隐层后加入隐线性层来进行线性变换，模型达到了很好的效果，能够提高DNN网络模型的精度。

附图说明

图1为本公开实施例声学模型的自适应训练方法的流程图。

图2为本公开实施例加入隐线性层的神经网络的结构示意图。

图3为本公开实施例声学模型的自适应训练***的结构示意图。

具体实施方式

本公开提供了一种声学模型的自适应训练方法及***，结合LHT和KL散度的优势，利用自适应数据重新训练神经网络模型，达到减缓训练数据与场景数据不匹配的目的，保证在自适应的过程中提升模型的精度。

在描述问题的解决方案之前，先定义一些特定词汇的定义是有帮助的。

KLD Kullback-Leibler divergence KL散度

LHT Linear Hidden Transformations线性隐变换

HMM Hidden Markov Model隐马尔科夫模型

DNN Deep Neural Networks深度神经网络

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

本公开某些实施例于后方将参照所附附图做更全面性地描述，其中一些但并非全部的实施例将被示出。实际上，本公开的各种实施例可以许多不同形式实现，而不应被解释为限于此数所阐述的实施例；相对地，提供这些实施例使得本公开满足适用的法律要求。

在本公开的第一个示例性实施例中，提供了一种声学模型的自适应训练方法。本实施例应用场景与背景技术中的应用场景相同，算法采用了DNN作为基础模型，图1为本公开第一实施例声学模型的自适应训练方法的流程图。如图1所示，本公开声学模型的自适应训练方法大致包括：特征提取输入，种子模型训练，加入线性层，加入KL散度，训练线性层和最后的自适应模型输出等几个步骤。

本公开声学模型的自适应训练方法在DNN声学模型自适应训练的阶段同时引入了线性隐变换和KL散度。一方面，线性隐变换不仅能够映射不匹配的输入向量，而且还能够利用隐层输出的区分性；另一方面，在交互熵目标函数的基础上，添加了KL散度正则项，因此可以有效防止过拟合现象的发生。

在线性隐变换中，首先需要对种子模型的结构进行调整，在隐层的后面加入线性层；并且将该层的权重初始化为单位矩阵以及偏移初始化为零；最后，在利用自适应数据重训练的过程中得到权重和偏移的估计。

在自适应训练完成后，为了保证自适应模型的输出分布不能偏离种子模型的输出分布太远，算法在目标函数中加入了KL散度正则项，相当于将神经网络模型的输出分布改变为了种子模型的输出分布与自适应场景数据的对齐标签真值的插值。

以下分别对本实施例声学模型的自适应训练方法的各个步骤进行详细描述。

步骤S1，进行语音特征提取，并将其作为输入训练并生成种子模型，得到目标函数。

在步骤S1中，首先从原始语音及自适应语音数据中，提取梅尔标度滤波器组特征，并提取梅尔频谱特征，将梅尔频谱作为原始语音的特征；其中，自适应数据是在远场场景中录音得到的。

然后利用原始语音的特征作为输入，以负交叉熵为目标函数，训练得到种子模型的参数。其中，负交叉熵的公式如下：

是对齐目标概率。

步骤S2，对种子模型的网络结构进行调整，加入线性层。

所述步骤S2中，在得到种子模型以后，对该种子模型的网络结构进行了调整，直接在第一个隐层的后面加入了线性层。图2为本公开实施例加入隐线性层的神经网络的结构示意图，新的神经网络结构如图2所示。线性隐变换不仅能够映射不匹配的输入向量，而且还能够利用隐层输出的区分性。

在加入线性层后，自适应层的权重W_a和偏移公式B_a如下：

W_a＝W_LHN×W_SI

B_a＝B_SI+B_LHN×W_SI

其中，W_LHN和B_LHN是隐线性层的权重和偏移，W_SI和B_SI是跟随在线性层后面的层的权重和偏移。在加入隐线性层时，将该隐线性层的权重初始化为单位矩阵以及偏移初始化为零。

在本实施例中，对种子模型的网络结构进行调整时直接在第一个隐层的后面加入了线性层；在其他一些实施例中，也可以调整为在输入层后加入，或者可以是在输出层前加入，这需要根据具体的场景任务来确定。

步骤S3，在目标函数的基础上，添加KL散度正则项。

所述步骤S3中，以负交叉熵作为目标函数，加入KL散度正则项，并删除与模型参数无关项。新的目标函数变为：

其中，ρ为插值因子，p^SI(y|x_t)为种子模型估计的后验概率。

算法在目标函数中加入了KL散度正则项，可以改变将神经网络模型的输出分布，保证在自适应模型的输出分布不能偏离种子模型的输出分布太远。

步骤S4，训练线性层，重新利用反向传播算法估计隐线性层的权重和偏移。

在网络结构及目标函数确定后，通过反向传播算法进行神经网络学习。所述反向传播算法建立在梯度下降法的基础上，其学习过程包括正向传播过程与反向传播过程。其中，在正向传播阶段，将语音信号的梅尔频谱特征作为训练输入神经网络，获得激励响应；在反向传播阶段，将激励响应与训练输入对应的目标输出求误差，从而获得响应误差。之后，将输入激励与响应误差相乘，从而获得权重的梯度，将该梯度乘以训练因子并取反后加到权重上，完成对权重的更新，再根据线性层训练结果估计隐线性层的权重和偏移。其中，权重及偏移更新采用以下公式进行：

其中，α为学习率。

步骤S5，训练完成，输出自适应模型。

本实施例声学模型的自适应训练的方法采用DNN声学模型自适应技术，目的是缓解由真实场景数据与训练数据不匹配而引起的识别性能下降的问题。由于基于LIT或LHT的算法极容易出现过拟合的现象，尤其是在自适应数据稀疏的情况下，因此，在利用自适应数据训练线性层权重的基础上，采用了控制神经网络输出的分布的方法，使得过拟合的现象能够得到改善。

在本公开的第二个示例性实施例中，提供了一种声学模型的自适应训练的***，图3为本公开实施例声学模型的自适应训练***的结构示意图。如图3所示，所述声学模型的自适应训练***包括：特征提取输入单元、种子模型训练与产生单元、线性层加入单元、KL散度加入单元、线性层训练单元及自适应模型产生单元。

以下分别对本实施例声学模型的自适应训练的各个组成部分进行详细描述。

特征提取输入单元进行语音特征提取，并将其作为输入训练。所述特征提取输入单元从原始语音及自适应语音数据中，提取梅尔标度滤波器组特征，并提取梅尔频谱特征，将梅尔频谱作为原始语音的特征；

种子模型训练与产生单元连接到特征提取输入单元，通过特征提取输入单元提取的语音特征作为训练输入，训练并生成种子模型。

在本实施例中，种子模型训练与产生单元利用原始语音的特征作为输入，以负交叉熵为目标函数，训练得到种子模型的参数。其中，负交叉熵的公式如下：

是对齐目标概率。

线性层加入单元连接到种子模型训练与产生单元，用于对种子模型的网络结构进行调整，加入线性层。在得到种子模型以后，对该种子模型的网络结构进行了调整，直接在第一个隐层的后面加入了线性层。线性隐变换不仅能够映射不匹配的输入向量，而且还能够利用隐层输出的区分性。

在加入线性层后，自适应层的权重W_a和偏移公式B_a如下：

W_a＝W_LHN×W_SI

B_a＝B_SI+B_LHN×W_SI

KL散度加入单元同样连接到种子模型训练与产生单元，在交互熵目标函数的基础上，添加KL散度正则项。

在负交叉熵目标函数中，加入KL散度正则项，并删除与模型参数无关项。新的目标函数变为：

其中，ρ为插值因子，p^SI(y|x_t)为种子模型估计的后验概率。

线性层训练单元连接到种子模型训练与产生单元，用于在调整网络结构及加入KL散度正则项后，训练线性层，重新利用反向传播算法估计隐线性层的权重和偏移。

其中，α为学习率。

自适应模型产生单元连接到线性层训练单元，用于输出自适应模型。

当然，上述硬件结构还应当包含其他必要的模块(图未示)，这些是本领域内的一般技术人员可以理解的，本领域内一般技术人员也可以根据功能的需要，添加相应的功能模块，在此不作赘述。

为了达到简要说明的目的，上述实施例1中任何可作相同应用的技术特征叙述皆并于此，无需再重复相同叙述。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

还需要说明的是，实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本公开的保护范围。贯穿附图，相同的元素由相同或相近的附图标记来表示。在可能导致对本公开的理解造成混淆时，将省略常规结构或构造。

再者，单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本公开也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的内容，并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。

本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且，在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

类似地，应当理解，为了精简本公开并帮助理解各个公开方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，公开方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种声学模型的自适应训练方法，包括：

步骤S1，进行语音特征提取，并将其作为输入训练并生成种子模型，得到目标函数；

步骤S2，对种子模型的网络结构进行调整，加入线性层，包括：在得到种子模型以后，在第一个隐层的后面加入隐线性层，对该种子模型的网络结构进行调整；

其中，在加入线性层后，自适应层的权重W_a和偏移公式B_a如下：

W_a＝W_LHN×W_SI

B_a＝B_SI+B_LHN×W_SI

其中，W_LHN和B_LHN是隐线性层的权重和偏移，W_SI和B_SI是跟随在线性层后面的层的权重和偏移；

步骤S3，在目标函数的基础上，添加KL散度正则项；

步骤S4，训练线性层，重新利用反向传播算法估计隐线性层的权重和偏移，包括在网络结构及目标函数确定后，通过反向传播算法进行神经网络学习，包括正向传播过程与反向传播过程，其中，在正向传播阶段，将语音信号的特征作为神经网络训练输入，获得激励响应；在反向传播阶段，将激励响应与训练输入对应的目标输出求误差，从而获得响应误差，将输入激励与响应误差相乘，从而获得权重的梯度，并完成对权重的更新，再根据线性层训练结果估计隐线性层的权重和偏移，其中，权重及偏移更新采用以下公式进行：

其中，α为学习率；

步骤S5，训练完成，输出自适应模型。

2.根据权利要求1所述的自适应训练方法，其中，在加入隐线性层时，将该隐线性层的权重初始化为单位矩阵以及偏移初始化为零。

3.根据权利要求1所述的自适应训练方法，其中，所述步骤S1包括：

从原始语音及自适应语音数据中，提取梅尔标度滤波器组特征，并提取梅尔频谱特征，将梅尔频谱作为原始语音的特征。

4.根据权利要求1所述的自适应训练方法，其中，所述步骤S1还包括：

利用原始语音的特征作为输入，以负交叉熵为目标函数，训练得到种子模型的参数，其中，负交叉熵的公式如下：

是对齐目标概率。

5.根据权利要求4所述的自适应训练方法，其中，所述步骤S3包括：

以负交叉熵作为目标函数，加入KL散度正则项，并删除与模型参数无关项，新的目标函数变为：

其中，ρ为插值因子，p^SI(y|x_t)为种子模型估计的后验概率。

6.根据权利要求1所述的自适应训练方法，其中，所述步骤S2中，在得到种子模型以后，线性层在输入层后加入，或者是在输出层前加入，对该种子模型的网络结构进行调整。

7.一种采用如权利要求1至6任一项所述的声学模型的自适应训练方法的自适应训练***，包括：

线性层加入单元，连接到种子模型训练与产生单元，用于对种子模型的网络结构进行调整，加入线性层，包括：在得到种子模型以后，在第一个隐层的后面加入隐线性层，对该种子模型的网络结构进行调整；

W_a＝W_LHN×W_SI

B_a＝B_SI+B_LHN×W_SI

线性层训练单元，连接到种子模型训练与产生单元，用于在调整网络结构及加入KL散度正则项后，训练线性层，重新利用反向传播算法估计隐线性层的权重和偏移，包括：在网络结构及目标函数确定后，通过反向传播算法进行神经网络学习，包括正向传播过程与反向传播过程，其中，在正向传播阶段，将语音信号的特征作为神经网络训练输入，获得激励响应；在反向传播阶段，将激励响应与训练输入对应的目标输出求误差，从而获得响应误差，将输入激励与响应误差相乘，从而获得权重的梯度，并完成对权重的更新，再根据线性层训练结果估计隐线性层的权重和偏移，其中，权重及偏移更新采用以下公式进行：

其中，α为学习率；