CN109992773B

CN109992773B - 基于多任务学习的词向量训练方法、***、设备及介质

Info

Publication number: CN109992773B
Application number: CN201910213032.2A
Authority: CN
Inventors: 庄浩杰; 王聪; 孙庆华
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2020-10-27
Anticipated expiration: 2039-03-20
Also published as: CN109992773A

Abstract

本发明公开了一种基于多任务学习的词向量训练方法、***、设备及介质，所述方法包括：获取训练集，所述训练集包括文本词语序列‑命名实体标签序列的配对数据；搭建语言模型模块和命名实体识别模块，将语言模型模块和命名实体识别模块作为外部模块；交替训练词向量字典和外部模块，所述词向量字典采用文本词语序列和外部模块的输出进行训练，所述语言模型模块采用词向量字典训练输出的词向量序列进行训练，所述命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练。本发明可以提高词向量在多个外部实际任务中的测试效果以及增强词向量表示的鲁棒性。

Description

基于多任务学习的词向量训练方法、***、设备及介质

技术领域

本发明涉及一种基于多任务学习的词向量训练方法、***、设备及介质，属于词向量训练领域。

背景技术

词向量的表示是自然语言处理中最基本的任务之一，它是每个词语在计算机进行处理的表示。从概念上讲，它是每个单词在向量空间的数学嵌入。词向量的表示包含了语言建模和特征学习等技术，目的在于解决如何表征来自词汇表的单词或短语到向量空间的映射过程。

词向量的表示主要可分为三种方法：

1)one-hot向量表示：假设词库总共有n个词，那每一个词向量表示为一个1*n的高维向量，而每个词都会在某个索引值为1，其余位置全部都取值为0。

2)基于SVD(Singular Value Decomposition，奇异值分解)分解的方法：首先遍历文本数据集所有的词语，统计词出现的次数，然后用一个矩阵X来表示所有的次数情况，并对X进行奇异值分解。最后用每一行的向量作为所有词表中词的词向量。

3)基于上下文的分布式表示方法：通过上下文的词语进行预测某个位置的词语(CBOW方法)，或者通过某个位置的词语来预测上下文的词语(Skip-Gram方法)等方法进行训练，得到每个词语的分布式表示，且每个词向量的维度都可以相对较低。

one-hot向量表示的缺点如下：

1)每个词向量维度很高，而且非常稀疏，这导致在后续任务的计算中，计算复杂度太大，效率不高。

2)无法表示词语之间的相似性，不同词语之间的相似度无法通过词向量的计算获基于SVD分解的方发有以下缺点：

1)矩阵的维度可能会变化(当有新的词语出现时)。

2)矩阵是非常稀疏的，这是因为大多数词并不同时出现。

3)训练过程复杂度太高。

随着当今信息时代海量数据的出现，硬件计算能力的提升以及深度学习的发展，基于上下文的分布式表示方法也越来越多地采用了神经网络来进行训练词向量。在自然语言处理中，常用的神经网络结构有：

1)卷积神经网络(Convolutional Neural Network，简称CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元。卷积神经网络中每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些基本特征，更多层的网络能从基本特征中迭代提取更复杂的特征。

2)递归神经网络(Recurrent Neural Network，简称RNN)也是神经网络的一种。递归神经网络可以描述动态时间行为，因为和前馈神经网络接受较特定结构的输入不同，RNN将状态在自身网络中循环传递，因此可以接受更广泛的时间序列结构输入。单纯的RNN因为无法处理随着递归，可能出现权重指数级***或梯度消失的问题，导致RNN难以捕捉长期时间关联。LSTM(Long Short-Term Memory，长短期记忆网络)，GRU(Gated Recurrent Units，门控循环单元)是两个用于缓解该问题的RNN变体。

3)Transformer(变换)网络是谷歌提出的一种基于注意力机制的网络结构，它采用的是encoder-decoder(编码器-解码器)结构，并加上注意力机制以及前馈神经网络。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建。在很多seq2seq(输入为序列，输出也为序列)任务中取得了非常理想的成绩。

词向量的作用在于为其他的NLP任务(建立语言模型、命名实体识别、对话***，文本自动摘要等任务)提供合适的词语向量表示。通常情况下，词向量的表示越好，将其应用在实际任务时，可以取得更好的效果。而使用实际任务的效果作为指标，也是词向量表示的评价方法之一。

现有大部分基于神经网络的分布式词向量训练方法都是以语料库中的所有文本集合作为训练数据，而没有与外部实际任务进行相结合，或者在训练一个外部实际任务时，得到词向量的表示。这些方法的缺点有：

1)忽略了多个外部实际任务对词向量训练的影响，词向量可能无法在多个外部任务中取得较好的测试效果。

2)词向量的鲁棒性较低，对词语替换等人为干扰较为敏感。

发明内容

有鉴于此，本发明提供了一种基于多任务学习的词向量训练方法、***、计算机设备设备及存储介质，其可以提高词向量在多个外部实际任务中的测试效果以及增强词向量表示的鲁棒性。

本发明的第一个目的在于提供一种基于多任务学习的词向量训练方法。

本发明的第二个目的在于提供一种基于多任务学习的词向量训练***。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种基于多任务学习的词向量训练方法，所述方法包括：

获取训练集；其中，所述训练集包括文本词语序列-命名实体标签序列的配对数据；

搭建语言模型模块和命名实体识别模块，将语言模型模块和命名实体识别模块作为外部模块；

交替训练词向量字典和外部模块；其中，所述词向量字典采用文本词语序列和外部模块的输出进行训练，所述语言模型模块采用词向量字典训练输出的词向量序列进行训练，所述命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练。

进一步的，所述语言模型模块包括一个单层长短期记忆网络结构和一个全连接层。

进一步的，所述命名实体识别模块采用变换网络结构中的编码器，包括六个堆叠的编码器；

每个编码器包括一个自注意力层和一个全连接层，最顶层编码器的输出向量再输入一个全连接层和一个softmax层，计算每个标签的概率，并取概率最大的标签作为预测标签。

进一步的，所述语言模型模块的损失函数如下式：

其中，N与T分别为mini-batch的样本数量以及每个句子的长度，对于第i个句子xⁱ，根据前j个词语正确预测出下一个词语的概率为

进一步的，所述命名实体识别模块的损失函数如下式：

其中，N与T分别为mini-batch的样本数量以及每个句子的长度，对于第i个句子xⁱ的第j个词语，正确的标签为

模型正确预测出该标签的概率为

进一步的，所述词向量字典的参数更新公式如下：

其中，θ为词向量字典矩阵参数，L_LM为语言模型模块的损失函数，L_NER为命名实体识别模块的损失函数；词向量字典利用梯度下降，求出语言模型模块的损失函数和命名实体识别模块的损失函数对θ的偏微分，乘上一个学习系数lr，对θ进行更新。

进一步的，所述外部模块的参数更新公式如下：

其中，

为语言模型模块参数，τ为命名实体识别模型参数，L_LM为语言模型模块的损失函数，L_NER为命名实体识别模块的损失函数；语言模型模块利用梯度下降，求出语言模型模块的损失函数对

的偏微分，乘上一个学习系数lr，对

进行更新；命名实体识别模型利用梯度下降，求出命名实体识别模型的损失函数对τ的偏微分，乘上一个学习系数lr，对τ进行更新。

本发明的第二个目的可以通过采取如下技术方案达到：

一种基于多任务学习的词向量训练***，所述***包括：

获取单元，用于获取训练集；其中，所述训练集包括文本词语序列-命名实体标签序列的配对数据；

搭建单元，用于搭建语言模型模块和命名实体识别模块，将语言模型模块和命名实体识别模块作为外部模块；

训练单元，用于交替训练词向量字典和外部模块；其中，所述词向量字典采用文本词语序列和外部模块的输出进行训练，所述语言模型模块采用词向量字典训练输出的词向量序列进行训练，所述命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练。

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的词向量训练方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的词向量训练方法。

本发明相对于现有技术具有如下的有益效果：

本发明通过搭建语言模型模块和命名实体识别模块，基于多任务学习，将词向量字典、语言模型模块和命名实体识别模块分为两个阶段进行交替训练，最后可以完成基于多任务的词向量训练，此时词向量字典中存储了训练完毕的词向量，可以提高词向量在多个外部实际任务中的测试效果以及增强词向量表示的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的词向量字典的原理图。

图2为本发明实施例1的语言模型模块的原理图。

图3为本发明实施例1的命名实体识别模块的原理图。

图4为本发明实施例1的词向量字典、语言模型模块和命名实体识别模块在训练时的连接图。

图5为本发明实施例1的基于多任务学习的词向量训练方法的流程图。

图6为本发明实施例1的语言模型模块的结构图。

图7为本发明实施例1的命名实体识别模块的结构图。

图8为本发明实施例1的命名实体识别模块中每个编码器的结构图。

图9为本发明实施例2的基于多任务学习的词向量训练***的结构框图。

图10为本发明实施例3的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本实施例提供了一种基于多任务学习的词向量训练方法，该方法利用词向量字典、语言模型模块和命名实体识别模块实现，词向量字典、语言模型模块和命名实体识别模块的具体说明如下：

1)词向量字典的输入为待查询的词语的one-hot向量，输出为该词语的词向量表示，词向量字典实际为一个字典矩阵，对于输入one-hot向量，以索引值为1的位置进行查询，得到该词语的词向量表示即可，词向量字典的原理如图1所示。

2)语言模型模块是第一个外部实际任务，即建立语言模型，语言模型是指某个词语序列出现的概率，比如“今天天气不错”的出现概率会高于“天气今天不错”；对于语言模型模块，其输入一个词向量序列，输出下一个最可能出现的词语，语言模型模块的原理如下图2所示。

3)命名实体识别模块是第二个外部实际任务，命名实体识别是指自然语言处理任务中的一项基本任务，它是识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等，例如，对于“特朗普是美国总统”的“特朗普”和“美国”都代表一个具体事物，因此都是命名实体。在特定领域中，可以对命名实体进行特殊的规定划分；命名实体识别模块的输入是一个词向量序列，输出另外一个标签序列，分别表示对应位置的词语属于哪个标签，命名实体识别模块的原理如图3所示。

词向量字典、语言模型模块和命名实体识别模块在训练时，其连接图(即整个模型的结构图)如图4所示：

如图5所示，本实施例的词向量训练方法包括以下步骤：

S101、获取训练集。

本实施例的训练集包括文本词语序列-命名实体标签序列的配对数据，文本词语序列记为X集合，命名实体标签序列记为Y集合。

S102、搭建语言模型模块和命名实体识别模块，将语言模型模块和命名实体识别模块作为外部模块。

A、搭建语言模型模块

本实施例的语言模型模块的结构如图6所示，其包括一个单层长短期记忆网络(LSTM)结构和一个全连接层，单层长短期记忆网络包括多个长短期记忆网络单元，其中每个长短期记忆网络单元为512维，其对应一个词向量。

B、搭建命名实体识别模块

本实施例的命名实体识别模块的结构如图7所示，其采用变换(Transformer)网络结构中的编码器，包括六个堆叠的编码器(encoder)，每个编码器的结构如图8所示，包括一个自注意力层和一个全连接层；命名实体识别模块中最顶层编码器的输出向量再输入一个全连接层和一个softmax层，计算每个标签的概率，并取概率最大的标签作为预测标签。

搭建语言模型模块和命名实体识别模块搭建完成后，将语言模型模块和命名实体识别模块作为外部模块。

S103、交替训练词向量字典和外部模块。

本实施例的训练分为两个阶段，分别为词向量字典训练阶段和外部模块(语言模型模块和命名实体识别模块)训练阶段。

语言模型模块的损失函数如下式：

其中，N与T分别为mini-batch的样本数量以及每个句子的长度，对于第i个句子xⁱ，根据前j个词语(第0个为句子开始的特殊标记)正确预测出下一个词语的概率为

命名实体识别模块的损失函数如下式：

模型正确预测出该标签的概率为

对于词向量字典训练阶段，词向量字典采用文本词语序列和外部模块的输出进行训练，词向量字典的参数更新公式如下：

其中，θ为词向量字典矩阵参数；词向量字典利用梯度下降，求出语言模型模块的损失函数和命名实体识别模块的损失函数对θ的偏微分，乘上一个学习系数lr，对θ进行更新。

对于外部模块训练阶段，语言模型模块采用词向量字典训练输出的词向量序列进行训练，命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练；外部模块的参数更新公式如下：

其中，

为语言模型模块参数，τ为命名实体识别模型参数；语言模型模块利用梯度下降，求出语言模型模块的损失函数对

的偏微分，乘上一个学习系数lr，对

上述参数更新采用Adam优化算法，其中学习系数设为1e^-3。

这样两个阶段进行交替训练，在某一个阶段进行训练时，另一个阶段的模块参数固定不变，这样通过多个迭代的参数轮流更新，三个不同网络不断进行优化，直到训练结束，最后词向量字典中存储了训练完毕的词向量。

本领域技术人员可以理解，实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读存储介质中。

应当注意，尽管在附图中以特定顺序描述了上述实施例的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2：

如图9所示，本实施例提供了一种基于多任务学习的词向量训练***，该***包括获取单元901、搭建单元902和训练单元903，各个单元的具体功能如下：

所述获取单元901，用于获取训练集；其中，所述训练集包括文本词语序列-命名实体标签序列的配对数据。

所述搭建单元902，用于搭建语言模型模块和命名实体识别模块，将语言模型模块和命名实体识别模块作为外部模块。

所述训练单元903，用于交替训练词向量字典和外部模块；其中，所述词向量字典采用文本词语序列和外部模块的输出进行训练，所述语言模型模块采用词向量字典训练输出的词向量序列进行训练，所述命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练。

本实施例中各个单元的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的装置仅以上述各功能单元的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。

实施例3：

本实施例提供了一种计算机设备，该计算机设备可以是服务器、计算机等，如图10所示，其包括通过***总线1001连接的处理器1002、存储器、输入装置1003、显示器1004和网络接口1005，该处理器用于提供计算和控制能力，该存储器包括非易失性存储介质1006和内存储器1007，该非易失性存储介质1006存储有操作***、计算机程序和数据库，该内存储器1007为非易失性存储介质中的操作***和计算机程序的运行提供环境，处理器1002执行存储器存储的计算机程序时，实现上述实施例1的词向量训练方法，如下：

实施例4：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述程序被处理器执行时，处理器执行存储器存储的计算机程序时，实现上述实施例1的词向量训练方法，如下：

本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

综上所述，本发明通过搭建语言模型模块和命名实体识别模块，基于多任务学习，将词向量字典、语言模型模块和命名实体识别模块分为两个阶段进行交替训练，最后可以完成基于多任务的词向量训练，此时词向量字典中存储了训练完毕的词向量，可以提高词向量在多个外部实际任务中的测试效果以及增强词向量表示的鲁棒性。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于多任务学习的词向量训练方法，其特征在于，所述方法包括：

交替训练词向量字典和外部模块；其中，所述词向量字典采用文本词语序列和外部模块的输出进行训练，所述语言模型模块采用词向量字典训练输出的词向量序列进行训练，所述命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练；

所述词向量字典的参数更新公式如下：

2.根据权利要求1所述的词向量训练方法，其特征在于，所述语言模型模块包括一个单层长短期记忆网络结构和一个全连接层。

3.根据权利要求1所述的词向量训练方法，其特征在于，所述命名实体识别模块采用变换网络结构中的编码器，包括六个堆叠的编码器；

4.根据权利要求1-3任一项所述的词向量训练方法，其特征在于，所述语言模型模块的损失函数如下式：

5.根据权利要求1-3任一项所述的词向量训练方法，其特征在于，所述命名实体识别模块的损失函数如下式：

模型正确预测出该标签的概率为

6.根据权利要求1-3任一项所述的词向量训练方法，其特征在于，所述外部模块的参数更新公式如下：

其中，

的偏微分，乘上一个学习系数lr，对

7.一种基于多任务学习的词向量训练***，其特征在于，所述***包括：

训练单元，用于交替训练词向量字典和外部模块；其中，所述词向量字典采用文本词语序列和外部模块的输出进行训练，所述语言模型模块采用词向量字典训练输出的词向量序列进行训练，所述命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练；

所述词向量字典的参数更新公式如下：

8.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-6任一项所述的词向量训练方法。

9.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-6任一项所述的词向量训练方法。