CN110442721A

CN110442721A - 神经网络语言模型、训练方法、装置及存储介质

Info

Publication number: CN110442721A
Application number: CN201910745810.2A
Authority: CN
Inventors: 陈强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2019-11-12
Anticipated expiration: 2038-11-28
Also published as: CN110442721B; CN110147444A; CN110147444B

Abstract

本发明实施例公开了一种神经网络语言模型的训练方法、神经网络语言模型、装置及存储介质，应用于人工智能中的自然语言处理；神经网络模型的输出层包括多个全连接网络模型、以及多个归一化指数函数模型，方法包括：通过多个对应不同隐主题的全连接网络模型，将训练数据的特征向量所对应的第一隐层表达进行分解，得到第一隐层表达分别在不同隐主题下对应的第二隐层表达；分别确定每个第二隐层表达所对应的聚类类别；以第二隐层表达作为输入，以训练数据对应的目标数据作为输出，训练聚类类别对应的归一化指数函数模型根据输入数据的第二隐层表达预测相应的目标数据的性能。

Description

神经网络语言模型、训练方法、装置及存储介质

分案说明

本申请基于申请号为201811435778.X、申请日为2018年11月28日、发明名称为神经网络语言模型、文本预测方法、装置及存储介质的中国专利申请提出，在该中国专利申请记载的范围内提出分案，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本发明涉及人工智能领域的自然语言处理技术，尤其涉及一种神经网络语言模型的训练方法、神经网络语言模型、装置及存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着自然语言处理技术的发展，基于循环神经网络(RNN，Recurrent NeuralNetwork)架构的语言模型被越来越多的应用于处理多分类问题，然而当所要处理的类别巨大(如100K甚至1B)时，相关技术中的语言模型的训练效率低下，甚至由于计算资源受限导致无法进行训练。

发明内容

本发明实施例提供一种神经网络语言模型的训练方法、神经网络语言模型、装置及存储介质，能够提升语言模型的表征能力，提高语言模型的训练效率。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种神经网络语言模型的训练方法，所述神经网络模型的输出层包括多个全连接网络模型、以及多个归一化指数函数模型，所述方法包括：

通过多个对应不同隐主题的全连接网络模型，将训练数据的特征向量所对应的第一隐层表达进行分解，得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达；

分别确定每个所述第二隐层表达所对应的聚类类别；其中，所述聚类类别包括头聚类及尾聚类，所述头聚类中数据分类的输出概率不同于所述尾聚类中数据分类的输出概率；

以所述第二隐层表达作为输入，以所述训练数据对应的目标数据作为输出，训练所述聚类类别对应的归一化指数函数模型根据输入数据的第二隐层表达预测相应的目标数据的性能。

上述方案中，所述神经网络语言模型还包括输入层及隐藏层，所述方法还包括：

通过所述神经网络语言模型的输入层将所述训练数据映射为相应的特征向量；

通过所述神经网络语言模型的隐藏层，调用激活函数得到所述训练数据的特征向量所对应的第一隐层表达。

上述方案中，所述方法还包括：

输入文本至所述神经网络语言模型的输入层，以将所述文本映射为相应的特征向量；

通过所述神经网络语言模型的隐藏层，调用激活函数得到对应所述特征向量的第一隐层表达；

通过所述神经网络语言模型的输出层，将所述第一隐层表达进行分解，得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达；

分别确定每个所述第二隐层表达所对应的聚类类别，并调用所述聚类类别对应的归一化指数函数得到所述第二隐层表达对应的概率分布；其中，所述聚类类别包括头聚类及尾聚类，所述头聚类中文本分类的输出概率不同于所述尾聚类中文本分类的输出概率；

融合各所述第二隐层表达对应的概率分布，并基于融合后得到的概率分布输出所述文本所对应的目标文本。

本发明实施例还提供一种基于神经网络语言模型，所述神经网络语言模型的输出层包括多个对应不同隐主题的全连接网络模型、以及多个归一化指数函数模型；

所述全连接网络模型，用于将训练数据的特征向量所对应的第一隐层表达进行分解，得到所述第一隐层表达在相应隐主题下的第二隐层表达；

所述归一化指数函数模型，用于确定所述第二隐层表达所对应的聚类类别；其中，所述聚类类别包括头聚类及尾聚类，所述头聚类中数据分类的输出概率不同于所述尾聚类中数据分类的输出概率；

以及，用于根据输入数据的第二隐层表达预测所述聚类类别对应的目标数据。

上述方案中，所述神经网络语言模型还包括输入层及隐藏层；

输入层，用于将输入的所述训练数据映射为相应的特征向量，并输入所述特征向量至隐藏层；

所述隐藏层，用于基于输入的所述特征向量，调用激活函数，输出对应所述特征向量的第一隐层表达至所述输出层。

上述方案中，所述输入层，还用于将输入的文本映射为相应的特征向量，并输入所述特征向量至隐藏层；

所述隐藏层，还用于基于输入的所述特征向量，调用激活函数，输出对应所述特征向量的第一隐层表达至输出层；

所述输出层，还用于将所述第一隐层表达进行分解，得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达；

以及，分别确定每个所述第二隐层表达所对应的聚类类别，并调用所述聚类类别对应的归一化指数函数得到所述第二隐层表达对应的概率分布；

以及，融合各所述第二隐层表达对应的概率分布，并基于融合后得到的概率分布输出所述文本所对应的目标文本。

本发明实施例还提供一种神经网络语言模型的训练装置，所述装置包括：

存储器，用于存储可执行程序；

处理器，用于执行所述存储器中存储的可执行程序时，实现上述的神经网络语言模型的训练方法。

本发明实施例提供一种存储介质，存储有可执行程序，所述可执行程序被处理器执行时，实现上述的神经网络语言模型的训练方法。

应用本发明上述实施例具有以下有益效果：

1)、神经网络语言模型的输出层将训练数据的第一隐层表达进行分解，得到第一隐层表达分别在不同隐主题下对应的第二隐层表达；扩充了模型的实际表达维度，提升了模型整体的表征能力；

2)、聚类类别与归一化指数函数相对应，不同的聚类类别对应不同的归一化指数函数；由于头聚类中数据分类的输出概率不同于尾聚类中数据分类的输出概率，使得神经网络语言模型在训练过程中，对应不同聚类类别的归一化指数函数的训练机会不对等，数据分类的输出概率高的聚类类别所对应的归一化指数函数的参数，在训练过程中显然被更新的频率高，当数据分类的数目巨大时，避免了模型训练过程中频繁的更新输出概率低的聚类类别所对应的归一化指数函数的参数，提高了模型训练效率的同时也节约了硬件资源。

附图说明

图1为本发明实施例提供的神经网络语言模型的架构示意图；

图2为本发明实施例提供的神经网络语言模型的架构示意图；

图3为本发明实施例提供的softmax层的功能示意图；

图4为本发明实施例提供的神经网络语言模型的架构示意图；

图5为本发明实施例提供的神经网络语言模型的架构示意图；

图6为本发明实施例提供的基于神经网络语言模型的文本预测方法流程示意图；

图7为本发明实施例提供的基于神经网络语言模型的文本预测装置结构示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本发明，并不用于限定本发明。另外，以下所提供的实施例是用于实施本发明的部分实施例，而非提供实施本发明的全部实施例，在不冲突的情况下，本发明实施例记载的技术方案可以任意组合的方式实施。

需要说明的是，在本发明实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素，而且还包括没有明确列出的其他要素，或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元，例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。

本发明实施例提供的神经网络语言模型用于通过输入的n-1个单词，来预测第n个单词的概率分布，也即在得知前面的若干个单词的时候，通过神经网络语言模型预测下一个位置上出现的某个单词的概率。

作为神经网络语言模型的一个实施例，图1为本发明实施例提供的神经网络语言模型的架构示意图，参见图1，神经网络语言模型包括输入层、隐藏层及输出层；

输入层：通过一个映射矩阵C(矩阵的规模为|V|*m，其中|V|是词表大小，V＝{w₁，w₂，…w_|V|}，m是词向量的维度)，将前n-1个离散的单词映射成n-1个m维向量，也就是通过查表的方式将单词变成词向量，然后将这n-1个m维向量首尾相接形成一个m(n-1)的向量，该向量就是神经网络的输入向量x。

隐藏层：隐藏层的节点个数为h，为了将输入层输出的m(n-1)向量x转化为隐藏层(维度为h)的输入，在输入层和隐藏层之间需要一个参数矩阵H(H的规模为h*m(n-1))，同时需要一个偏置d，该变化可以表示为f(x)＝Hx+d，这是一个线性变换，隐藏层的输出需要将经过线性变换的向量再做一次非线性变换，在一实施例中选择的激活函数1为tanh/th(双曲正切)，相应的隐藏层的输出就是tanh(Hx+d)。

输出层：从隐藏层到输出层的传递同样需要一个线性变换和一个非线性变换，首先通过线性变换将隐藏层的输出向量的维数转化为和输出层的节点数一致，为了将输出表示成概率分布的形式(每个维度上的值之和为1)，需要对输出层的输入(也就是隐藏层的输出)进行一个非线性变换，在一实施例中，采用的激活函数2为softmax(归一化指数函数)输出概率分布p。

在一实施例中，神经网络语言模型的隐藏层的数量为两层，分别作为特征层存在，图2为本发明实施例提供的神经网络语言模型的架构示意图，参见图2，softmax层作为输出层存在，数据经输入层及两个特征层的处理，最后通过softmax层得到类别分别为y＝0、y＝1、y＝2的概率值。

继续参见图3，图3为本发明实施例提供的softmax层的功能示意图，其中，1、2、3代表三个输入，三个输入通过softmax后得到一个数组[0.88，0.12，0]，分别表征对应类别的输出概率。

作为神经网络语言模型的一个实施例，图4为本发明实施例提供的神经网络语言模型的架构示意图，参见图4，神经网络语言模型包括输入层、隐藏层及输出层；其中，隐藏层采用循环神经网络(RNN，Recurrent Neural Network)实现，在图4中具体为长短期记忆网络(LSTM，Long Short-Term Memory)；输出层对应的激活函数模型为混合Softmax模型(MoS，Mixture of Softmax)。

采用基于混合Softmax模型的神经网络语言模型，在神经网络语言模型的输出到Softmax层之前，对隐藏层输出的隐层表达(hidden,向量或者矩阵)，也即隐藏层输出的隐状态，进行分解成N个隐层表达(hiddens，与源hidden具有相同的维度和数据类型)，然后根据新的N个隐层表达分别进行权重分配(权重和为1)，并且对分解得到的每个新隐层表达进行独立的Softmax计算后输出分类概率分布，最后对所有输出分类概率分布按照计算获得的权重分配进行加权求和，得到最终的分类概率分布，之后进行目标损失计算。参见图4，其中，w_t表示单词序列w中的第t个单词，表示对LSTM层的输出隐层表达h(t)进行表达分解成多个隐层表达，然后对每个隐层表达通过S_i进行Softmax操作后得到对应的多分类概率分布表达γ_i(i＝1…N)，z_i(i＝1…N)表示各隐层表达对应的权重值，然后按照z_i(i＝1…N)对所有隐层的概率分布进行加权求和后作为最终的概率分布，从而预测下一个词

应用上述基于混合Softmax模型的神经网络语言模型，通过分解隐层表达后计算多个Softmax的方式来扩充Softmax的实际表达维度，最终达到提升模型整体的表征能力的目的；通过隐表达分解再做信息融合的方式，保证了信息在模型处理过程中基本保持完整性。然而，Softmax需要在每次计算时对所有的分类都进行一次指数运算，因此，当词表规模巨大时，会大量消耗计算资源，这样要求具有性能强大的计算器(如神经网络中大部分操作均为矩阵运算，因此可能需要配置价格昂贵的图形处理器(GPU，Graphics ProcessingUnit))，同时在计算过程中需要保存大量的中间数值，占用存储环境，这样要求大存储的闪存(如较大存储的内存)或者硬盘交换区域，使得模型训练的成本较大，训练所需的硬件环境受限。由于Softmax需要在每次计算时对所有的分类都进行一次指数运算，而在一些训练样例或者训练样例batch中绝大部分的分类(在一实施例中，每个单词可看做一个分类)很少被涉及，因此，这样的计算实际上不仅浪费了计算资源，也大大增加了训练时间，使得训练速度大大降低，从而严重影响了语言模型的训练效率。

为了解决多分类(类别数巨大的分类)任务中由于类别数目巨大而致使传统Softmax方法占用内存较大引起内存泄漏(OOM，Out Of Memory)，从而最终导致在当前硬件存储受限情况下训练无法进行的问题，可以采用自适应Softmax模型(Adaptive Softmax)，首先按照类别(在一实施例中，每个单词可看做一个类别，不同的单词为不同的类别)在训练数据中出现的频次将类别逆序排列(即按照频次由高到低排列)，然后依次遍历类别并累计频次，按照预设统计策略对类别进行聚类，并保证聚类总频次的巨大差异性，分配给每个聚类类别一个类标识(ID，IDdentifier)，在模型训练中为每个聚类设计一个独立的Softmax模型；当训练数据的目标输出属于某聚类时，则训练更新对应聚类所属softmax模型的参数，在训练数据集上进行训练多轮，直到训练收敛。

在Adaptive Softmax模型中，由于第一聚类的总词频出现的概率最大，意味着在训练中被更新的频率最高，因此被称为Head类(即头聚类)，而后续的聚类中类别在数据中出现频率较低，被称为Tail类(即尾聚类)。在实际应用中，头聚类的规模在10K以下，这样可以保证在高频率被访问的情况下占用较少硬件资源，且较高的计算速度，避免了在训练中频繁更新大量的非高频类别所在Softmax模型参数，因此，在节约了硬件资源的同时保证了训练效率。为确保所有类别所在的聚类的Softmax模型均被更新，Adaptive Softmax在第一个聚类中末尾加入所有Tail类的IDs，当训练样例中的类别未出现在Head聚类中，则可以依据Tail类的ID找到其所属的Tail类，再训练Tail类对应的Softmax模型。

应用Adaptive Softmax模型通过将分类目标按照某种策略进行聚类后，保证计算过程中部分分类被调用，从而避免了计算资源空计算导致的资源耗尽，其自适应性体现在不同的训练样本根据自身情况仅调用部分分类进行计算。

在一实施例中，将自适应Softmax方法替代混合Softmax模型中的传统Softmax方法，也即，将自适应Softmax引入MoS，形成混合自适应Softmax模型(MoAS，Mixture ofAdaptive Softmax)，结合MoS和自适应Softmax各自的优势，在保证任何多分类模型可以正常训练同时提升模型性能。

作为神经网络语言模型的一个实施例，图5为本发明实施例提供的神经网络语言模型的架构示意图，参见图5，本发明实施例提供的神经网络语言模型包括：输入层、隐藏层及输出层；其中，

输入层，用于将输入的文本映射为相应的特征向量，并输入隐藏层；

所述隐藏层，用于基于输入的所述特征向量，调用激活函数，输出对应所述特征向量的第一隐层表达至输出层；

所述输出层，用于将所述第一隐层表达进行分解，得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达；

以及，分别确定每个所述第二隐层表达所对应的聚类类别，并调用所述聚类类别对应的归一化指数函数得到所述第二隐层表达对应的概率分布；其中，所述聚类类别包括头聚类及尾聚类，所述头聚类中文本分类的输出概率不同于所述尾聚类中文本分类的输出概率；

在一实施例中，输入的文本为词语，词语输入至语言模型的输入层后被映射为相应的输入向量，然后经隐藏层处理得到隐层表达h(t)，即第一隐层表达。

参见图5，本发明实施例的神经网络语言模型中的输出层采用的是MoAS，也即将混合Softmax模型中的传统Softmax方法替换成自适应Softmax方法，具体如图4中的S_i(i＝1…N)替换成图5中的AdapS_i(i＝1…N)。

在一实施例中，输出层采用多组参数构建N个独立的全连接网络将隐层表达h(t)应用于不同隐主题对应的全连接网络模型，得到h(t)对应到多个隐主题下的隐层表达h(t)_i(i＝1…N)，即第二隐层表达；具体地，

在一实施例中，所述输出层，还用于确定每个所述第二隐层表达在相应的所述隐主题下的权重z_i，具体地，

其中，z_i表示分解得到的第i个第二隐层表达在相应的隐主题下的权重。这里对隐主题进行说明，在实际应用中，某个句式或者文档往往都会归属于某个主题下，如果在某个技术主题的文档中突然发现了某个关于体育的句子，肯定会觉得很奇怪，这也就是所谓的破坏了主题一致性。

在一实施例中，所述输出层，还用于依据文本分类出现在训练数据中的频次，对多个文本分类进行聚类，得到一个所述头聚类及至少一个所述尾聚类。

具体地，所述输出层按照频次由高到低的顺序对多个文本分类进行排序，得到文本分类序列；遍历文本分类序列，并对文本分类的频次进行累加；当文本分类的累计频次满足预设条件时，停止所述遍历，并将文本分类序列中遍历过的所有文本分类所形成的集合作为头聚类；在实际应用中，文本分类的累计频次满足预设条件可以为：文本分类的累计频次所占总频次的百分比达到预设百分比阈值，如80％；

输出层继续遍历所述文本分类序列中剩余未遍历的文本分类序列，并对文本分类的频次进行累加；当文本分类的累计频次满足预设条件时，停止所述遍历，并将文本分类序列中本次遍历过的所有文本分类所形成的集合作为尾聚类；采用前述获得尾聚类的方式进行一个或多个尾聚类的获取，若当前尾聚类的数量未达到预设数量(具体可以依据实际需要进行设定)，输出层重复执行以下操作直至尾聚类的数量为预设数量：

继续遍历所述文本分类序列中剩余未遍历的文本分类序列，并对文本分类的频次进行累加；当文本分类的累计频次满足预设条件时，停止所述遍历，并将文本分类序列中本次遍历过的所有文本分类所形成的集合作为尾聚类。

在实际应用中，通常情况下的聚类类别包括头聚类及尾聚类，特殊情况亦可仅包括头聚类。

在一实施例中，所述输出层，还用于为每个尾聚类分配类ID；相应的，头聚类中还包括上述预设数量的尾聚类的类ID。

在实际实施时，设定聚类类别数为M(Head分类1个，Tail分类M-1个)，对训练数据中的所有分类进行频次统计，并且按照降序进行排列得到顺序分类序列V；然后由频次从高到低的数序遍历分类并且对频次进行累加统计，当遍历到当前分类w_p(在实际实施时可以为词表V中的第p个词)时，分类累计频次达到总频次的80％，停止遍历，将从顺序分类序列开始位置w₀到当前位置w_p的所有分类作为头聚类(Head类)，同时，将所有尾聚类(Tail类)的IDs(即)加入头聚类，得到：

重置顺序分类V＝{w_p+1,…,w_|V|}，按照头聚类的获取方式依次获得Tail₁,…,Tail_M-1。

基于上述对聚类的说明，接下来对输出层MoAS模型的训练进行说明。

在一实施例中，输出层还用于确定训练数据的第二隐层表达所对应的聚类类别，然后以所述训练数据的第二隐层表达作为输入，以所述训练数据对应的目标数据作为输出，训练所述聚类类别对应的归一化指数函数根据训练数据的第二隐层表达预测相应的目标数据的性能。在实际实施时，对词表进行目标聚类后，每个聚类分别对应各自的Softmax模型，当确定输入的训练数据所属的聚类后，仅更新对应聚类的Softmax模型参数即可。

这里，在实际实施时，输出层对第二隐层表达应用头聚类对应的归一化指数函数(Softmax)，得到所述第二隐层表达对应的概率分布；确定所述第二隐层表达对应的概率分布的最大值所对应的文本(词语)；依据所确定的所述文本确定所述第二隐层表达所对应的聚类。

具体地，继续参见图5，在实际实施时，对于训练数据，首先将其映射到其对应的聚类，例如，对训练数据batch B＝{x(t)₁,…,x(t)_s}，根据其目标分类其中，s为batch size，将数据分别映射到其对应的聚类，假设B通过LSTM计算后得到的隐层表达为H＝{h(t)₁,…,h(t)_s}，那么映射结果为：

然后，计算经隐层表达分解后得到的各个隐层表达所对应的Softmax在对应数据项的loss；对于(B_k,H_k,Y_k),其中，k对应分解得到的第k层的隐层表达，假设B_k对应的loss计算如公式(3)所示：

Loss(B_k,H_k,Y_k)＝CE(Softmax(H_k,θ_k),Y_k) (3)

其中，CE(·)表示交叉熵计算，θ_k为对应第k层隐层表达的Softmax模型参数。

整个训练数据batch的loss计算,如公式(4)所示：

仍以训练数据为batch B＝{x(t)₁,…,x(t)_s}为例对本发明实施例语言模型的输出层MoAS模型的训练进行说明。

batch B＝{x(t)₁,…,x(t)_s}经过语言模型的输入层被映射为相应的特征向量，经隐藏层输出隐层表达H＝{h(t)₁,…,h(t)_s}，然后经过输出层的隐层表达分解，将H＝{h(t)₁,…,h(t)_s}分解为其中，为训练样本x(t)_i的第j个分解隐层表达向量，N为分解隐层的数目；同时通过公式(2)计算对应到各隐主题的权重Z＝{Z(t)₁,…,Z(t)_s}，其中为标量。

映射训练数据batch在各聚类下对应的数据项，并按照主题数对各mask获得的数据batch数据项进行重置，具体地：

将数据分别映射到其对应的聚类，得到映射结果为：

然后，对每个子数据batch块(B_k,H_k,Y_k,Z_k)，按公式(5)进行操作获得新batch数据块(block)：

其中，[…]表示级联操作，和分别表示聚类k下的第i个训练样例的第j个分解隐层表达以及其对应的权重，表示聚类k下的第i个训练样例的目标分类。

然后，依据公式(6)计算各Softmax在对应的重置batch数据项上的类别概率分布：

p_k(H_k，θ_k)＝softmax(H_k,θ_k) (6)

然后，依据公式(7)，基于权重Z_k，进行加权求和，得到各batch数据项的类别概率分布后的loss：

Loss(B_k,H_k,Y_k,Z_k)＝GE(Z_k·p_k(H_k，θ_k)，Y_k) (7)

最后，依据公式(8)计算整个batch的loss：

模型训练采用前馈神经网络(BP，Back Propagation)方式，在实际应用中，对本发明实施例提供的神经网络语言模型的训练，可采用一机多卡或多机多卡进行训练；这里，多卡是指具有多个用于模型参数计算的GPU/现场可编程门阵列(FPGA，Field ProgrammableGate Array)/专用集成电路(ASIC，Application Specific Integrated Circuit)的设备，而多机则指的是具有多卡的设备的集群。

在一实施例中，还可将Class-based Softmax引入MoS，由于Class-based Softmax与自适应Softmax的设计也是为了解决由于分类数量巨大导致的训练问题，因此，可将其与本发明实施例中的自适应Softmax做替换。

在一实施例中，还可将噪音对比估计(NCE，Noise Contrastive Estimation)引入MoS，NCE采用负采样方法，通过正负样例Loss对比的方法来训练模型，有助于提升模型训练的速度。

接下来对本发明实施例提供的神经网络语言模型的应用场景进行说明。

在自然语言处理以及语音领域中的很多场景下，语言模型都扮演着重要的角色，如在机器翻译中通过语言模型来优化翻译结果，在语音识别中通过语言模型与声学模型结果一起进行解码从而提高识别效果。举个音字转换的例子来说，输入拼音串为nixianzaiganshenme，对应的输出可以有多种形式，如你现在干什么、你西安再赶什么、等等，那么到底哪个才是正确的转换结果呢，利用神经网络语言模型，我们知道前者的概率大于后者，因此转换成前者在多数情况下比较合理。再举一个机器翻译的例子，给定一个汉语句子为李明正在家里看电视，可以翻译为Li Ming is watching TV at home、Li Ming athome is watching TV、等等，同样根据语言模型，我们知道前者的概率大于后者，所以翻译成前者比较合理。

而基于RNN框架的语言建模实际上是典型的具有巨大类别的多分类问题，词表的数量即类别个数，而自然语言中词表的规模往往达到100K甚至1B的量级，这就意味着极有可能出现由于计算资源受限导致的模型无法训练的问题，而应用本发明实施例提供的神经网络语言模型可以完美适用于具有大词表的语言建模问题。

图6为本发明实施例提供的基于神经网络语言模型的文本预测方法流程示意图，参见图6，本发明实施例还提供的基于神经网络语言模型的文本预测方法，包括：

步骤101：输入文本至所述神经网络语言模型的输入层，以将所述文本映射为相应的特征向量。

这里，在实际应用中，输入文本可以为词语序列，该词语序列通过输入层的映射矩阵C，将离散的单词映射成相应的m维向量，作为隐藏层的输入。

步骤102：通过所述神经网络语言模型的隐藏层，调用激活函数得到对应所述特征向量的第一隐层表达。

在一实施例中，隐藏层所调用的激活函数为tanh函数，输入向量经隐藏层后输出对应输入向量的第一隐层表达(hidden,向量或者矩阵)。

步骤103：通过所述神经网络语言模型的输出层，将所述第一隐层表达进行分解，得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达。

这里，在实际实施时，输出层采用多组参数构建N个独立的全连接网络将隐层表达h(t)应用于不同隐主题对应的全连接网络模型，得到h(t)对应到多个隐主题下的隐层表达h(t)_i(i＝1…N)，即第二隐层表达，第二隐层表达的维度和数据类型与第一隐层表达的相同。

在一实施例中，当输出层进行隐层表达分解后，还要进一步确定每个第二隐层表达在相应的所述隐主题下的权重，具体可依据公式(2)来实现。

步骤104：分别确定每个所述第二隐层表达所对应的聚类类别，并调用所述聚类类别对应的归一化指数函数得到所述第二隐层表达对应的概率分布；其中，所述聚类类别包括头聚类及尾聚类，所述头聚类中文本分类的输出概率不同于所述尾聚类中文本分类的输出概率。

这里，在实际实施时，输出层依据文本分类出现在训练数据中的频次，对多个文本分类进行聚类，得到至少一个所述头聚类及至少一个所述尾聚类。每个聚类对应各自的归一化指数函数(Softmax)，具体地：

按照所述频次由高到低的顺序对所述多个文本分类进行排序，得到文本分类序列；遍历所述文本分类序列，并对文本分类的频次进行累加；当文本分类的累计频次满足预设条件时，停止所述遍历，并将所述文本分类序列中遍历过的所有文本分类所形成的集合作为所述头聚类；

遍历所述文本分类序列中剩余未遍历的文本分类序列，并对文本分类的频次进行累加；当文本分类的累计频次满足预设条件时，停止所述遍历，并将所述文本分类序列中本次遍历过的所有文本分类所形成的集合作为尾聚类；重复执行前述遍历、频次累加及预设条件判断的操作，直至所获取的所述尾聚类的数量为Q个，所述Q为预设的正整数。

在一实施例中，所述方法还包括：为所述尾聚类分配类ID；相应的，所述头聚类中还可包括所述Q个尾聚类的类ID。

在一实施例中，可通过如下方式分别确定每个所述第二隐层表达所对应的聚类类别：

对所述第二隐层表达应用所述头聚类对应的归一化指数函数，得到所述第二隐层表达对应的概率分布；确定所述第二隐层表达对应的概率分布的最大值所对应的文本；依据所确定的所述文本确定所述第二隐层表达所对应的聚类类别。

步骤105：融合各所述第二隐层表达对应的概率分布，并基于融合后得到的概率分布输出所述文本所对应的目标文本。

在一实施例中，可通过如下方式融合各所述第二隐层表达对应的概率分布：

确定每个所述第二隐层表达在相应的所述隐主题下的权重；以及，基于每个所述第二隐层表达在相应的所述隐主题下的权重，对各所述第二隐层表达对应的概率分布进行加权求和，得到融合后的概率分布。

图7为本发明实施例提供的基于神经网络语言模型的文本预测装置结构示意图，参见图7，本发明实施例提供的基于神经网络语言模型的文本预测装置包括：至少一个处理器210、存储器240、至少一个网络接口220和用户接口230。装置中的各个组件通过总线***250耦合在一起。可理解，总线***250用于实现这些组件之间的连接通信。总线***250除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线***250。

用户接口230可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

存储器240可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、闪存(Flash Memory)等。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器240能够存储可执行指令2401以支持消息处理装置的操作，这些可执行指令的示例包括：用于在消息处理装置上操作的程序、插件和脚本等各种形式的软件模块，程序例如可以包括操作***和应用程序，其中，操作***包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

在一实施例中，存储器，用于存储可执行程序；

处理器，用于执行所述存储器中存储的可执行程序时，实现：

在一实施例中，所述处理器，还用于依据文本分类出现在训练数据中的频次，对多个文本分类进行聚类，得到至少一个所述头聚类及至少一个所述尾聚类。

在一实施例中，所述处理器，还用于按照所述频次由高到低的顺序对所述多个文本分类进行排序，得到文本分类序列；

遍历所述文本分类序列，并对文本分类的频次进行累加；

当文本分类的累计频次满足预设条件时，停止所述遍历，并将所述文本分类序列中遍历过的所有文本分类所形成的集合作为所述头聚类。

在一实施例中，所述处理器，还用于重复执行下述操作直至获得预定数量的尾聚类：

遍历所述文本分类序列中剩余未遍历的文本分类序列，并对文本分类的频次进行累加；

当文本分类的累计频次满足预设条件时，停止所述遍历，并将所述文本分类序列中本次遍历过的所有文本分类所形成的集合作为尾聚类。

在一实施例中，所述处理器，还用于为每个所述尾聚类分配类ID；

相应的，所述头聚类中还包括所述预定数量的尾聚类的类ID。

在一实施例中，所述处理器，还用于对所述第二隐层表达应用所述头聚类对应的归一化指数函数，得到所述第二隐层表达对应的概率分布；

确定所述第二隐层表达对应的概率分布的最大值所对应的文本；

依据所确定的所述文本确定所述第二隐层表达所对应的聚类类别。

在一实施例中，所述处理器，还用于确定训练数据的第二隐层表达所对应的聚类类别；

以所述训练数据的第二隐层表达作为输入，以所述训练数据对应的目标数据作为输出，训练所述聚类类别对应的归一化指数函数根据训练数据的第二隐层表达预测相应的目标数据的性能。

在一实施例中，所述处理器，还用于确定每个所述第二隐层表达在相应的所述隐主题下的权重；

以及，基于每个所述第二隐层表达在相应的所述隐主题下的权重，对各所述第二隐层表达对应的概率分布进行加权求和，得到融合后的概率分布。

在一实施例中，所述处理器，还用于将所述第一隐层表达应用于不同隐主题对应的全连接网络模型，并调用激活函数输出所述第一隐层表达分别在不同隐主题下对应的第二隐层表达。

本发明实施例还提供了一种存储介质，存储有可执行程序，所述可执行程序被处理器执行时，实现本发明实施例所述的基于神经网络语言模型的文本预测方法。

这里需要指出的是：以上涉及神经网络语言模型的文本预测装置的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述。对于本发明所述神经网络语言模型的文本预测装置实施例中未披露的技术细节，请参照本发明方法实施例的描述。

实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种神经网络语言模型的训练方法，其特征在于，所述神经网络模型的输出层包括多个全连接网络模型、以及多个归一化指数函数模型，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述神经网络语言模型还包括输入层及隐藏层，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

分别确定每个所述第二隐层表达所对应的聚类类别，并调用所述聚类类别对应的归一化指数函数得到所述第二隐层表达对应的概率分布；

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

依据文本分类出现在训练数据中的频次，对多个文本分类进行聚类，得到至少一个所述头聚类及至少一个所述尾聚类。

5.如权利要求4所述的方法，其特征在于，所述依据文本分类出现在训练数据中的频次，对多个文本分类进行聚类，包括：

按照所述频次由高到低的顺序对所述多个文本分类进行排序，得到文本分类序列；

遍历所述文本分类序列，并对文本分类的频次进行累加；

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

重复执行下述操作直至获得预定数量的尾聚类：

7.如权利要求6所述的方法，其特征在于，所述方法还包括：

分别为每个所述尾聚类分配类标识ID；

8.如权利要求1所述的方法，其特征在于，所述分别确定每个所述第二隐层表达所对应的聚类类别，包括：

对所述第二隐层表达应用所述头聚类对应的归一化指数函数，得到所述第二隐层表达对应的概率分布；

9.如权利要求3所述的方法，其特征在于，所述融合各所述第二隐层表达对应的概率分布，包括：

确定每个所述第二隐层表达在相应的所述隐主题下的权重；

基于每个所述第二隐层表达在相应的所述隐主题下的权重，对各所述第二隐层表达对应的概率分布进行加权求和，得到融合后的概率分布。

10.如权利要求1所述的方法，其特征在于，所述将训练数据的特征向量所对应的第一隐层表达进行分解，得到所述第一隐层表达分别在不同隐主题下对应的第二隐层表达，包括：

将所述第一隐层表达应用于不同隐主题对应的全连接网络模型，并调用激活函数输出所述第一隐层表达分别在不同隐主题下对应的第二隐层表达。

11.一种神经网络语言模型，其特征在于，所述神经网络语言模型的输出层包括多个对应不同隐主题的全连接网络模型、以及多个归一化指数函数模型；

12.如权利要求11所述的神经网络语言模型，其特征在于，所述神经网络语言模型还包括输入层及隐藏层；

13.如权利要求12所述的神经网络语言模型，其特征在于，

所述输入层，还用于将输入的文本映射为相应的特征向量，并输入所述特征向量至隐藏层；

14.一种神经网络语言模型的训练装置，其特征在于，包括：

存储器，用于存储可执行程序；

处理器，用于执行所述存储器中存储的可执行程序时，实现如权利要求1至10任一项所述的神经网络语言模型的训练方法。

15.一种存储介质，存储有可执行程序，所述可执行程序被处理器执行时，实现如权利要求1至10任一项所述的神经网络语言模型的训练方法。