CN107358948A

CN107358948A - 基于注意力模型的语言输入关联性检测方法

Info

Publication number: CN107358948A
Application number: CN201710501293.5A
Authority: CN
Inventors: 俞凯; 曹迪
Original assignee: Shanghai Jiaotong University; Suzhou Speech Information Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2017-06-27
Filing date: 2017-06-27
Publication date: 2017-11-17
Anticipated expiration: 2037-06-27
Also published as: CN107358948B

Abstract

一种基于注意力模型的语言输入关联性检测方法，通过采集训练语言模型所需的训练语料并进行预处理，并对语料中的每个词序列数据进行标注；然后使用标注后的训练序列对语言模型中的循环神经网络进行训练，再采用训练语料中所有数据集合对更新后的语言模型进行训练，当所得到的预测词的概率分布在验证集上是收敛时语言模型训练完成；最后使用训练后的语言模型对输入句子进行评分，从而得到词之间的关系。本发明采用基于注意力(attention)的方式去自动提取预测词与它们的相关关系。同时，在训练词向量时尝试引入语法和语义的信息，让词向量能够隐含更丰富的信息。通过这些技术期望可以提升语言模型的性能。

Description

基于注意力模型的语言输入关联性检测方法

技术领域

本发明涉及的是一种语音输入领域的技术，具体是一种基于注意力模型的语言输入关联性检测方法。

背景技术

近几年，对于基于循环神经网络的研究越发火热。基于门记忆单元的长短时间记忆神经网络(LSTM)，门控循环单元神经网络(GRU)在自然语言处理的领域被广泛应用。LSTM神经网络中增加了记忆单元、输入门、输出门以及遗忘门，GRU神经网络增加了重置门以及更新门，这些门和记忆单元极大地提升了词与词之间长距离依赖关系建模的效果。

然而，这样的模型仍然有一些局限性。基于门的神经网络对于历史信息的建模，是编码在隐层内的，当需要隐层包含更多信息时，需要增加隐层节点数量，而这会导致整个模型的训练参数线性增长。同时，由于循环神经网络对历史信息的建模是隐含的，对于预测下一个词，模型无法显式给出该词与历史词的相关关系。

发明内容

本发明针对现有技术无法显式给出词之间的相关关系、增加隐藏节点会线性增加整个模型的参数量以及无法完全利用所有的历史信息等等缺陷，提出一种基于注意力模型的语言输入关联性检测方法，在模型中引入额外的控制单元，显式地输入历史序列以及额外信息，使用一种基于注意力(attention)的方式去自动提取预测词与它们的相关关系。同时，在训练词向量时尝试引入语法和语义的信息，让词向量能够隐含更丰富的信息。通过这些技术期望可以提升语言模型的性能。

本发明是通过以下技术方案实现的：

本发明涉及一种基于注意力模型的语言输入关联性检测方法，包括：

步骤S1：采集训练语言模型所需的训练语料并进行预处理。

所述的训练语料，采用但不限于领域相关的多个文字字符组成的句子集合。

所述的预处理，具体包括以下步骤：

①使用预先设置好的词表，即相关领域所有已知词汇的集合，将语料中的词汇转换成其在词表中对应的数字序号；将语料中未出现在词表中的词汇替换成<unk>，并返回相应序号，即词序列数据。

优选地，如语料中包含中文字符，收集的语料本身一般是不包含空格的，在未知词替换后，以词汇为单位，需要对语料进行分词，将一个句子以空格为分隔符，切成多个词汇片段。

②在语料集合的每个句子中，句首添加开始符号<s>，并在句尾添加结束符号</s>；

③选取出语料集合5～15％的部分数据作为验证集，防止模型过拟合。

可选的，处理数据时，可以只在句末添加<s>作为分割符号。

步骤S2：对语料中的每个词序列数据进行标注，具体为：

对于语言模型，标注即是需要预测的下一个词语，句子中的词序列是w₁，w₂，…，w_n-1，w_n，则训练序列为w₁，w₂，…，w_n-1，对应的标注序列为w2，…，w_n-1，w_n。

所述的训练序列和标注序列是一一对应且长度均为n-1，其中n为预处理后每个句子的词序列总数。

步骤S3：使用标注后的训练序列对语言模型中的循环神经网络进行训练，即以梯度回传的方式对语言模型中的循环神经网络的参数进行更新。

所述的语言模型包括：词向量层、循环神经网络、注意力模块以及解码模块，其中：词向量层接受当前时刻的词序号输入，输出对应的词向量，循环神经网络和注意力模块分别接收当前时刻的词向量，注意力模块接收来自循环神经网络的前一时刻的隐层状态，存储所有历史词向量，根据隐层状态与历史词向量的关系得到辅助词向量并输出至循环神经网络，循环神经网络根据输入序列和辅助词向量得到当前时刻的隐层状态并输出至解码模块进行解码，最终得到所预测词的概率分布。

所述的辅助词向量，通过以下方式得到：

1)计算关系权重计算，其中：v^T为神经网络中待训练的参数向量，w_i为i时刻的词向量，h_t-1为t-1时刻的隐层向量，Tanh为激活函数，W_w为词向量对应的待训练矩阵参数，Wh为隐层对应的待训练矩阵参数，b_v为偏置参数；

所述的关系权重也可以是其中w′_t-1为上一时刻计算得到的辅助词向量，W_w′为上一时刻词向量对应的待训练矩阵参数。

所述的激活函数Tanh，可以使用sigmoid、relu等替代。

所述的偏置参数b_v可以为零。

2)计算辅助词权重然后根据加权平均和求出辅助词向量，其中：为i时刻的词向量对t时刻历史隐层的关系权重，exp为以e为底的指数函数，w_i为i时刻的词向量。

所述的循环神经网络采用但不限于LSTM层。

所述的LSTM根据输入序列和辅助词向量得到当前时刻的隐层状态，即根据f_t＝σ(W_f[h_t-1，w_t，w′_t]+b_f)，i_t＝σ(W_i[h_t-1，w_t，w′_t]+b_i)，o_t＝σ(Wo[h_t-1，w_t，w′_t]+bo)，以及h_t＝o_t*tanh(c_t)计算获得，其中：w_t为t时刻对应的词向量，w′_t为上述步骤计算得到的t时刻对应的辅助词向量，f_t是t时刻对应的遗忘门，i_t是t时刻对应的输入门，o_t是t时刻对应的输出门，c_t是t时刻对应的记忆单元，h_t是t时刻对应的隐层，σ是sigmoid激活函数，tanh是tanh激活函数，W_*是神经网络中待训练矩阵参数，b_*是待训练的偏置参数。

所述的LSTM可以替换为其他循环神经网络，如使用tanh、sigmoid、relu等作为激活函数的循环网络神经网络隐层、门控循环单元神经网络(GRU)等。

所述的对神经网络的参数进行更新，优选使用批量随机梯度下降等算法。

步骤S4：采用训练语料中所有数据集合对步骤S3中更新后的语言模型进行训练，当所得到的预测词的概率分布在验证集上是收敛时语言模型训练完成。

所述的收敛，优选使用混淆度(PPL)作为衡量语言模型性能的方式，具体为：计算混淆度其中：P(w_i|h_i)是i-1时刻神经网络输出的预测词w_i对应的概率。

步骤S5：使用训练后的语言模型对输入句子进行评分，从而得到词之间的关系。

所述的评分具体为：采用训练后的模型对输入词序列进行计算，输出预测词的概率分布，得到对应标注单词关于其历史的条件概率；对于一个句子中每个词序列进行这样的操作，将这些概率相乘，即可获得整个句子的概率；最后通过对不同句子概率的排序，即为相应的评分。

技术效果

与现有技术相比，本发明改进了主流的基于长短时间记忆神经网络(LSTM)的语言模型，在神经网络中保存全局历史信息，并引入注意力机制(Attention)，能够显式地提取词之间的关系，并提升语言模型的性能。其技术效果进一步包括：

1、使用基于注意力模型的方式，可以在少量增加模型参数的条件下，明显地提升语言模型的性能。

2、使用基于注意力模型的方式，可以显式地获得词与词之间的关系。

3、能够利用完整的历史信息进行下个词的预测。

附图说明

图1为本发明语言模型示意图；

图2为实施例中词与词之间关系示意图。

具体实施方式

本实施例包括以下步骤：

步骤101、采集训练语言模型所需的训练语料，并做预处理：首先需要考虑到应用的需求，针对对应的领域去采集语料数据，比如，最终需要对电话口语的相关语句进行评分，则需要采集电话口语的语料。将语料中的词汇转换成其在词表中对应的数字序号，将语料中未出现在词表中的词汇替换成<unk>，并返回相应序号。同时，选取出10％的部分数据作为验证集，防止模型过拟合。

步骤102、处理相应数据，生成相应标注。例如，词序列是w₁，w₂，…，w_n-1，w_n，则训练序列为w₁，w₂，…，w_n-1，对应的标注序列为w₂，…，w_n-1，w_n，其中：训练和标注序列是一一对应的，长度均为n-1，其中n为预处理后每个句子的词序列总数。

步骤103、使用搭建好的神经网络进行训练：使用如图1所示的搭建好的网络结构进行训练，在实验中，本发明采用的神经网络为LSTM，其中，词向量维度设为300，隐层维度设为300，注意力模块维度设为300，LSTM层数为1，训练中批量大小设为128，dropout率设为0.5。在训练模型的过程中，可以选择批量随机梯度下降的方法进行训练，在训练过程中观察在验证集上的性能，当验证集上性能出现了下降，则可以降低模型的学习率，继续训练。当学习率小于固定值后，停止训练过程。在实验中，本发明分别在三个数据集上，比较了4-Gram语言模型、LSTM语言模型、注意力模型以及插值的模型的PPL性能，本发明所述模型均取得了最佳的效果，如下表。

同时可以获得词与词之间的关系，见图2。

步骤104：可以使用训练好的语言模型对句子打分，并给出词之间的关系，即通过计算每个时刻的输出概率，求出句子中每个单词关于其历史的条件概率，将这些概率相乘，即可获得整个句子的概率。最后通过对不同句子概率的排序，可以做出相应的评分。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于注意力模型的语言输入关联性检测方法，其特征在于，包括：

步骤S1：采集训练语言模型所需的训练语料并进行预处理；

步骤S2：对语料中的每个词序列数据进行标注；

步骤S3：使用标注后的训练序列对语言模型中的循环神经网络进行训练，即以梯度回传的方式或批量随机梯度下降方式对语言模型中的循环神经网络的参数进行更新；

步骤S4：采用训练语料中所有数据集合对更新后的语言模型进行训练，当所得到的预测词的概率分布在验证集上是收敛时语言模型训练完成；

2.根据权利要求1所述的方法，其特征是，所述的预处理，具体包括以下步骤：

①使用预先设置好的词表，即相关领域所有已知词汇的集合，将语料中的词汇转换成其在词表中对应的数字序号；将语料中未出现在词表中的词汇替换成<unk>，并返回相应序号，即词序列数据；

3.根据权利要求2所述的方法，其特征是，当语料中包含中文字符，收集的语料本身一般是不包含空格的，在未知词替换后，以词汇为单位，需要对语料进行分词，将一个句子以空格为分隔符，切成多个词汇片段。

4.根据权利要求2所述的方法，其特征是，处理数据时，仅在句末添加<s>作为分割符号。

5.根据权利要求1所述的方法，其特征是，对于语言模型，标注即是需要预测的下一个词语，句子中的词序列是w₁，w₂，…，w_n-1，w_n，则训练序列为w₁，w₂，…，w_n-1，对应的标注序列为w₂，…，w_n-1，w_n。

6.根据权利要求1所述的方法，其特征是，所述的语言模型包括：词向量层、循环神经网络、注意力模块以及解码模块，其中：词向量层接受当前时刻的词序号输入，输出对应的词向量，循环神经网络和注意力模块分别接收当前时刻的词向量，注意力模块接收来自循环神经网络的前一时刻的隐层状态，存储所有历史词向量，根据隐层状态与历史词向量的关系得到辅助词向量并输出至循环神经网络，循环神经网络根据输入序列和辅助词向量得到当前时刻的隐层状态并输出至解码模块进行解码，最终得到所预测词的概率分布。

7.根据权利要求1所述的方法，其特征是，所述的辅助词向量，通过以下方式得到：

1)计算关系权重，该关系权重的激活函数为Tanh、sigmoid或relu函数；

8.根据权利要求7所述的方法，其特征是，所述的关系权重为计算，其中：v^T为神经网络中待训练的参数向量，w_i为i时刻的词向量，h_t-1为t-1时刻的隐层向量，Tanh为激活函数，W_w为词向量对应的待训练矩阵参数，W_h为隐层对应的待训练矩阵参数，b_v为偏置参数。

9.根据权利要求7所述的方法，其特征是，所述的关系权重其中w′_t-1为上一时刻计算得到的辅助词向量，W_w′为上一时刻词向量对应的待训练矩阵参数，v^T为神经网络中待训练的参数向量，w_i为i时刻的词向量，h_t-1为t-1时刻的隐层向量，Tanh为激活函数，W_w为词向量对应的待训练矩阵参数，W_h为隐层对应的待训练矩阵参数，b_v为偏置参数。

10.根据权利要求1或6所述的方法，其特征是，所述的循环神经网络采用LSTM层，该LSTM根据输入序列和辅助词向量得到当前时刻的隐层状态，即根据f_t＝σ(W_f[h_t-1，w_t，w′_t]+b_f)，i_t＝σ(W_i[h_t-1，w_t，w′_t]+b_i)，o_t＝σ(W_o[h_t-1，w_t，w′_t]+b_o)，以及h_t＝o_t*tanh(c_t)计算获得，其中：w_t为t时刻对应的词向量，w′_t为上述步骤计算得到的t时刻对应的辅助词向量，f_t是t时刻对应的遗忘门，i_t是t时刻对应的输入门，o_t是t时刻对应的输出门，c_t是t时刻对应的记忆单元，h_t是t时刻对应的隐层，σ是sigmoid激活函数，tanh是tanh激活函数，W_*是神经网络中待训练矩阵参数，b_*是待训练的偏置参数。

11.根据权利要求1或6所述的方法，其特征是，所述的循环神经网络采用tanh、sigmoid或relu作为激活函数的循环网络神经网络隐层或门控循环单元神经网络。

12.根据权利要求1所述的方法，其特征是，所述的收敛，使用混淆度作为衡量语言模型性能的方式，具体为：计算混淆度其中：P(w_i|h_i)是i-1时刻神经网络输出的预测词w_i对应的概率。

13.根据权利要求1所述的方法，其特征是，所述的评分具体为：采用训练后的模型对输入词序列进行计算，输出预测词的概率分布，得到对应标注单词关于其历史的条件概率；对于一个句子中每个词序列进行这样的操作，将这些概率相乘，即可获得整个句子的概率；最后通过对不同句子概率的排序，即为相应的评分。