CN106557809A

CN106557809A - 神经网络及对该神经网络进行训练的方法

Info

Publication number: CN106557809A
Application number: CN201510641501.2A
Authority: CN
Inventors: 石自强; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2017-04-05

Abstract

公开了一种神经网络***及对该神经网络***进行训练的方法。该神经网络***包括：两列或更多列的串联连接的神经网络模块，其中，所述两列或更多列中的至少一列中的至少一个神经网络模块不但连接到其所属的列的上层神经网络模块而且连接到至少一个其他列的上层神经网络模块。根据本公开的实施例，该神经网络***不仅通过列集成方法串联连接不同神经网络模块，而且可以进一步连接不同列的神经网络模块，使得不同神经网络模块优势互补，从而实现更高的性能。

Description

神经网络***及对该神经网络***进行训练的方法

技术领域

本公开涉及人工神经网络领域，具体地，涉及一种能够融合不同的神经网络模块的神经网络***及对该神经网络***进行训练的方法。

背景技术

人工神经网络是近些年来比较热门的研究方向之一。最近几年，神经网络技术如卷积神经网络(CNN)、长短时记忆网络(LSTM)和深层神经网络(DNN)纷纷涌现。不同的神经网络模块具有各自的优势以及各自的局限性，如何融合这些不同的神经网络模块，使得不同神经网络模块的优势互补，实现更高的性能，成为亟待解决的问题。

具体地，以语音识别技术为例，语音识别技术已在许多领域广泛应用，包括语音用户接口诸如语音拨号、呼叫路由、远程家电控制、搜索、简单的数据输入、结构化的文档制作、语音到文本处理、以及民航应用等。从基于CNN、LSTM、或DNN的深度学习和大数据的先进技术得益，语音识别的精确度得到了大幅的提升。如何融合不同的深度学习结构，使得不同深度学习结构的优势互补从而实现更高的识别准确度，成为目前关注的热点问题之一。

发明内容

在下文中给出了关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。但是，应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分，也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念，以此作为稍后给出的更详细描述的前序。

鉴于以上问题，本公开的目的是提供一种能够融合不同的神经网络模块的神经网络***及对该神经网络***进行训练的方法。

根据本公开的一方面，提供了一种神经网络***，包括：两列或更多列的串联连接的神经网络模块，其中，所述两列或更多列中的至少一列中的至少一个神经网络模块不但连接到其所属的列的上层神经网络模块而且连接到至少一个其他列的上层神经网络模块。

根据本公开的另一方面，还提供了一种对上述神经网络***进行训练的方法，包括：针对所述两列或更多列中的每列，利用训练数据对每列中的所有神经网络模块进行训练；以及基于对每列中的所有神经网络模块进行训练所获得的结果，利用所述训练数据对所述两列或更多列中的所有列联合进行训练。

根据本公开的其它方面，还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。

在下面的说明书部分中给出本公开实施例的其它方面，其中，详细说明用于充分地公开本公开实施例的优选实施例，而不对其施加限定。

附图说明

本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示出根据本公开的实施例的神经网络***的结构示意图；

图2是示出根据本公开的实施例的列集成深度学习模型的图；

图3是示出根据本公开的实施例的网格深度学习模型的图；

图4是示出用于语音识别的DNN-HMM结构的图；

图5是示出根据本公开的实施例的用于对神经网络***进行训练的方法的流程图；以及

图6是示出作为本公开的实施例中可采用的信息处理设备的个人计算机的示例结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与***及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的***结构和/或处理步骤，而省略了与本公开关系不大的其它细节。

下面结合附图详细说明根据本公开的实施例。

首先，将参照图1描述根据本公开的实施例的神经网络***。图1是示出根据本公开的实施例的神经网络***100的结构示意图。

根据本公开的实施例的神经网络***100包括两列或更多列的串联连接的神经网络模块，其中，所述两列或更多列中的至少一列中的至少一个神经网络模块不但连接到其所属的列的上层神经网络模块而且连接到至少一个其他列的上层神经网络模块。

如图1所示，神经网络***100包括三列串联连接的神经网络模块，其中每列包括三层神经网络模块；在每列中，用C模块作为第一层神经网络模块、用L模块作为第二层神经网络模块、以及用D模块作为第三层神经网络模块。以第一列中的第一层神经网络模块C为例，其不但连接到第一列中的第二层神经网络模块L，而且连接到第二列中的第二层神经网络模块L。另外，以第二列中的第一层神经网络模块C为例，其不但连接到第二列中的第二层神经网络模块L，而且连接到第一列中的第二层神经网络模块L和第三列中的第二层神经网络模块L。

但上述仅是示例而非限制，神经网络***100可以包括两列串联连接的神经网络模块、或者四列串联连接的神经网络模块、或者多于四列的串联连接的神经网络模块；每列可以包括两层神经网络模块、四层神经网络模块、或者多于四层的神经网络模块；各列中的同一层神经网络模块可以部分不同或相互不同，例如，第一列中的第一层神经网络模块可以是C模块、第二列中的第一层神经网络模块可以是C模块、以及第三列中的第一层神经网络模块可以是L模块，另外，第一列中的第一层神经网络模块可以是C模块、第二列中的第一层神经网络模块可以是L模块、以及第三列中的第一层神经网络模块可以是D模块，这对各列中的其他层同样成立。优选地，可以根据经验确定每列中各层神经网络模块的布置。

另外，尽管图1示出了在神经网络***100中，存在不但连接到其所属的列的上层神经网络模块而且连接到至少一个其他列的上层神经网络模块的不止一个神经网络模块，但是只要存在一个这样的神经网络模块即可。优选地，可以通过测试来确定不同列中的神经网络模块的连接关系。

优选地，每个神经网络模块是可插拔的。神经网络模块的可插拔性使得神经网络***的构成更灵活。例如，尽管图1中示出每层神经网络模块都连接到其上一层的神经网络模块，但是，可以利用神经网络模块的可插拔特性，将神经网络模块连接到其上两层的神经网络模块。例如，可以去掉图1中的第二列中的第二层神经网络模块L，而使得第一列中的第一层神经网络模块C和第二列中的第一层神经网络模块C都直接连接到第二列中的第三层神经网络模块D。此外，例如，可以通过测试找到列与列之间的最优连接，从而利用神经网络模块的可插拔性实现神经网络***中的各列的神经网络模块的最优组合。

最近几年，各种神经网络技术如DNN、CNN和LSTM纷纷涌现。这些不同的神经网络模块具有各自的优势。例如，CNN模块可以通过降低频谱方差提供较好的特征，LSTM模块可以通过被提供更好的特征而提升性能，而DNN模块可以提供更深的网络。优选地，在根据本公开的实施例的神经网络***100中，每个神经网络模块可以是CNN模块、LSTM模块以及DNN模块中的一个。

在神经网络***100的每列中，不同神经网络模块的组合是随机的。但是，我们也可以基于一些实际应用经验来进行组合，例如可通过向LSTM模块提供更好的特征来提升性能(而CNN模块可以通过降低频谱方差提供较好的特征)，同时可以通过加深隐含层模块和输出层模块之间的映射来改善输出的预测(而DNN模块可以提供更深的网络)。优选地，在根据本公开的实施例的神经网络***100中，在所述两列或更多列中的至少一列中，从输入到输出的方向上依次包括CNN模块、LSTM模块以及DNN模块。以图1中的神经网络***100的第一列为例，从输入到输出的方向上，第一层神经网络模块可以为CNN模块、第二层神经网络模块可以为LSTM模块、以及第三层神经网络模块可以为DNN模块。

优选地，神经网络***100还可以包括组合层，在该组合层中，对所述两列或更多列中的每列的输出进行组合。如图1所示，对每列的输出(即每列中的第三层神经网络模块的输出)进行组合。例示而非限制，可以对每列的输出进行线性组合。该组合处理可以进一步提高***性能。

优选地，如图1所示，可以将上述组合结果输入到HMM(隐含马尔科夫)***来进行解码。

根据以上描述可知，根据本公开的实施例的神经网络***100不仅通过列集成方法串联连接不同神经网络模块，而且可以进一步连接不同列的神经网络模块，以及可以通过测试找到列与列之间的最优连接，使得同一列中的神经网络模块以及不同列之间的神经网络模块优势互补，从而实现更高的性能。

下面结合语音识别技术来介绍根据本公开的实施例的神经网络***100的具体示例。

最近几年，在语音识别技术领域，基于DNN、CNN和LSTM的各种深度体系结构和学习方法得到广泛应用。这些不同的深度学习模块具有各自的优势以及各自的局限性。实验数据显示，基于不同的深度学习模块的语音识别***识别错误的句子集合也不相同，这种差异性保证了不同深度学习模块的融合可以提高性能。

在根据本公开的实施例中，将不同的深度学习模块串联连接形成列集成深度学习模型，该列集成深度学习模型是图1所示的神经网络***100中的一个列的示例。图2是示出根据本公开的实施例的列集成深度学习模型200的图。如图2所示，不同的深度学习模块被串联连接在一起，该列集成深度学习模型200的输入为一帧或多帧语音信号的底层声学特征、输出为语音类后验概率。

优选地，在根据本公开的实施例的列集成深度学习模型200中，每个深度学习模块可以是CNN模块、LSTM模块以及DNN模块中的一个。

在列集成深度学习模型200中，不同的深度学习模块的组合是随机的。但是，我们也可以基于一些实际应用经验来进行组合。优选地，在列集成深度学习模型200中，从输入到输出的方向上可以依次包括CNN模块、LSTM模块以及DNN模块。例如，如图2所示，从输入到输出的方向上，第一层深度学习模块可以为CNN模块、第二层深度学习可以为LSTM模块、以及第三层深度学习可以为DNN模块。

列集成深度学习模型200中的不同深度学习模块的所有参数是同时训练得到的。列深度学习模型200可以用交叉熵准则进行训练，使用随机梯度下降(SGD)方法进行优化。

优选地，列集成深度学习模型200的输出可以送到单独的HMM解码器来进行解码，从而得到最终的文字序列。

进一步地，在根据本公开的实施例中，将两个或更多个列集成深度学习模型200中的至少一个列集成深度学习模型中的至少一个深度学习模块不但连接到其所属的列集成深度学习模型的上层深度学习模块而且连接到至少一个其他列集成深度学习模型的上层深度学习模块，形成网格深度学习模型，该网格深度学习模型是图1所示的神经网络***100的一个示例。

图3是示出根据本公开的实施例的网格深度学习模型300的图。如图3所示，三个列集成深度学习模型通过深度学习模块之间的连接构成网格深度学习模型300。在网格深度学习模型300中，每个列集成深度学习模型包括三层深度学习模块；在每个列集成深度学习模型中，用C模块作为第一层深度学习模块、用L模块作为第二层深度学习模块、以及用D模块作为第三层深度学习模块。以第一个列集成深度学习模型中的第一层深度学习模块C为例，其不但连接到第一个列集成深度学习模型中的第二层深度学习模块L，而且连接到第二个列集成深度学习模型中的第二层深度学习模块L。另外，以第二个列集成深度学习模型中的第一层深度学习模块C为例，其不但连接到第二个列集成深度学习模型中的第二层深度学习模块L，而且连接到第一个列集成深度学习模型中的第二层深度学习模块L和第三个列集成深度学习模型中的第二层深度学习模块L。

图3所示的网格深度学习模型300仅是示例，类似于在描述神经网络***100时所提及的，网格深度学习模型300的结构可以有多种变型。

优选地，网格深度学习模型300中的每个深度学习模块是可插拔的。关于深度学习模块的可插拔特性可参照神经网络***100中相应位置的描述，在此不再重复描述。

优选地，在语音识别的具体问题中，每一个列集成深度学习模型的输入是通过滤波器组后得到的声学特征序列，而输出则是帧一级别的预测结果。

优选地，如图3所示，可以在语音信号的帧级对不同列集成学习模型的输出进行组合。即，可以通过一个组合层将不同的列集成学习模型的输出结果进行组合。

优选地，为了简化对列集成深度学习模型的组合过程，我们可以对所有列集成深度学习模型输出的帧级原始语音帧的后验概率进行线性组合。该线性组合形成了一个矩阵。而该矩阵是通过将帧级的不同列集成深度学习模型的输出和相应帧级目标值的后验概率学习相关联、从而进行训练得到的。在测试阶段中，使用该矩阵来对不同列集成深度学习模型的帧级别的后验概率进行线性组合。

优选地，如图3所示，在所有的列集成学习模型的最后一层，将组合的输出送到单独的HMM解码器。即，我们可以将组合结果输入到一个训练好的HMM***、使用动态规划来进行解码。

为了简化描述，下面基于DNN-HMM结构来描述语音识别的过程。图4是示出用于语音识别的DNN-HMM结构的图。

如图4所示的结构主要包括前端特征部分、DNN部分以及HMM部分。前端特征部分是图4中的观察部分。一般在语音识别中，使用梅尔倒谱系数特征(MFCC)，也即是将每20毫秒的语音信号变换为一个特征向量。为了利用上下文的信息，一般我们在当前帧附近选择前后若干帧特征同时送入后端的DNN。DNN部分主要是利用DNN的高精度的分类能力对前端特征部分输入的特征向量进行分类，而分类的标签主要是三音素HMM模型中状态标识。HMM部分主要是利用前面得到的状态标识，进行维特比解码，从而得到最终的文字序列。

在根据本公开的实施例的网格深度学习模型300中，利用连接的列集成深度学习模型替代图4中的DNN部分，由于网格深度学习模型300使得同一列集成深度学习模型中的深度学习模块以及不同列集成深度学习模型之间的深度学习模块优势互补，因而相比于上述DNN-HMM结构，可以实现更高的识别准确度。

此外，还应指出，这里的网格深度学习模型300是图1所示的神经网络***100的一个示例，因此在网格深度学习模型300中未详细描述的内容可参见神经网络***100中相应位置的描述，在此不再重复描述。

根据以上描述可知，根据本公开的实施例的网格深度学习模型300不仅通过列集成方法串联连接不同深度学习模型，同时可以进一步连接使用不同计算机制的列集成深度学习模型，以及可以通过测试找到不同列集成深度学习模型之间的最优连接，使得同一列集成深度学习模型中的深度学习模块以及不同列集成深度学习模型之间的深度学习模块优势互补，从而可以从原始语音信号中提取高层的层次化特征，从而实现更高的识别准确度。

此外，除了上面结合语音识别技术介绍的根据本公开的实施例的神经网络***100的应用示例之外，本领域技术人员还容易想到神经网络***100的其他应用示例，在此不再累述。

另外，本公开还提供了一种用于对上述神经网络***100进行训练的方法。

将参照图5描述根据本公开的实施例的用于对神经网络***100进行训练的方法的流程示例。图5是示出根据本公开的实施例的用于对神经网络***100进行训练的方法500的流程图。

如图5所示，根据本公开的实施例的用于对神经网络***100进行训练的方法500包括单列训练步骤S502和列联合训练步骤S504。

首先，在单列训练步骤S502中，针对神经网络***100的两列或更多列中的每列，利用训练数据对每列中的所有神经网络模块进行训练。具体地，神经网络***100中的每列的每个神经网络模块的参数都是通过前向后向算法、对该列中的所有神经网络模块同时训练而得到的。

然后，在列联合训练步骤S504中，基于对每列中的所有神经网络模块进行训练所获得的结果，利用所述训练数据对所述两列或更多列中的所有列联合进行训练。具体地，利用所述训练数据通过另一个前向后向算法对所有列联合进行训练，即对上述经单独训练得到的每列的参数的结果进行微调得到神经网络***100的各个列中的每个神经网络模块的参数以及其之间的连接参数。

下面结合网格深度学习模型400来描述根据本公开的实施例的用于对神经网络***进行训练的方法500的具体示例。

首先，对网格深度学习模型400的每个列集成深度学习模型，利用训练数据对每个列集成深度学习模型中的所有深度学习模块进行训练。具体地，每个列集成深度学习模型的每个深度学习模块的参数都是通过前向后向算法、对该列集成深度学习模型中的所有深度学习模块同时训练而得到的。

然后，对于这些不同的经过单独训练得到的列集成深度学习模型，利用所述训练数据对所有列集成深度学习模型联合进行训练。具体地，利用所述训练数据通过另一个前向后向算法对所有列集成深度学习模型联合进行训练，即对上述经单独训练得到的每个列集成深度学习模型的参数的结果进行微调得到网格深度学习模型400的各个列集成深度学习模型中的每个深度学习模块的参数以及其之间的连接参数。

应理解，根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述用于对神经网络***进行训练的方法，因此在此未详细描述的内容可参考先前相应位置的描述，在此不再重复进行描述。

相应地，用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

另外，还应该指出的是，上述系列处理和***也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图6所示的通用个人计算机600安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图6中，中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中，也根据需要存储当CPU 601执行各种处理等时所需的数据。

CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。

下述部件连接到输入/输出接口605：输入部分606，包括键盘、鼠标等；输出部分607，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等；存储部分608，包括硬盘等；和通信部分609，包括网络接口卡比如LAN卡、调制解调器等。通信部分609经由网络比如因特网执行通信处理。

根据需要，驱动器610也连接到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上，使得从中读出的计算机程序根据需要被安装到存储部分608中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 602、存储部分608中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

以上参照附图描述了本公开的优选实施例，但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改，并且应理解这些变更和修改自然将落入本公开的技术范围内。

例如，在以上实施例中包括在一个模块中的多个功能可以由分开的装置来实现。替选地，在以上实施例中由多个模块实现的多个功能可分别由分开的装置来实现。另外，以上功能之一可由多个模块来实现。无需说，这样的配置包括在本公开的技术范围内。

在该说明书中，流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理，而且包括并行地或单独地而不是必须按时间序列执行的处理。此外，甚至在按时间序列处理的步骤中，无需说，也可以适当地改变该顺序。

另外，根据本公开的实施例公开了以下技术方案，包括但不限于：

附记1.一种神经网络***，包括：

两列或更多列的串联连接的神经网络模块，

其中，所述两列或更多列中的至少一列中的至少一个神经网络模块不但连接到其所属的列的上层神经网络模块而且连接到至少一个其他列的上层神经网络模块。

附记2.根据附记1所述的神经网络***，其中，每个神经网络模块是可插拔的。

附记3.根据附记1所述的神经网络***，其中，每个神经网络模块是卷积神经网络CNN模块、长短时记忆LSTM模块以及深层神经网络DNN模块中的一个。

附记4.根据附记3所述的神经网络***，其中，在所述两列或更多列中的至少一列中，从输入到输出的方向上依次包括所述CNN模块、所述LSTM模块以及所述DNN模块。

附记5.根据附记1所述的神经网络***，还包括组合层，在所述组合层中，对所述两列或更多列中的每列的输出进行组合。

附记6.根据附记1所述的神经网络***，其中，所述两列或更多列中的每列的输入为一帧或多帧语音信号的底层声学特征、输出为语音类后验概率。

附记7.根据附记6所述的神经网络***，其中，在语音信号的帧级对所述两列或更多列中的每列的输出进行组合。

附记8.一种对根据附记1至7中任一项所述的神经网络***进行训练的方法，包括：

针对所述两列或更多列中的每列，利用训练数据对每列中的所有神经网络模块进行训练；以及

基于对每列中的所有神经网络模块进行训练所获得的结果，利用所述训练数据对所述两列或更多列中的所有列联合进行训练。

Claims

1.一种神经网络***，包括：

两列或更多列的串联连接的神经网络模块，

2.根据权利要求1所述的神经网络***，其中，每个神经网络模块是可插拔的。

3.根据权利要求1所述的神经网络***，其中，每个神经网络模块是卷积神经网络CNN模块、长短时记忆LSTM模块以及深层神经网络DNN模块中的一个。

4.根据权利要求3所述的神经网络***，其中，在所述两列或更多列中的至少一列中，从输入到输出的方向上依次包括所述CNN模块、所述LSTM模块以及所述DNN模块。

5.根据权利要求1所述的神经网络***，还包括组合层，在所述组合层中，对所述两列或更多列中的每列的输出进行组合。

6.根据权利要求1所述的神经网络***，其中，所述两列或更多列中的每列的输入为一帧或多帧语音信号的底层声学特征、输出为语音类后验概率。

7.根据权利要求6所述的神经网络***，其中，在语音信号的帧级对所述两列或更多列中的每列的输出进行组合。

8.一种对根据权利要求1至7中任一项所述的神经网络***进行训练的方法，包括：