CN109670171B

CN109670171B - 一种基于词对非对称共现的词向量表示学习方法

Info

Publication number: CN109670171B
Application number: CN201811413427.9A
Authority: CN
Inventors: 石隽锋; 李济洪; 王瑞波
Original assignee: Shanxi University
Current assignee: Shanxi Zhonghuida Technology Co.,Ltd.
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2021-05-14
Anticipated expiration: 2038-11-23
Also published as: CN109670171A

Abstract

本发明属于自然处理领域，具体是一种基于词对非对称共现的词向量表示学习方法。包括以下步骤。S100～从语料库统计出词表；从给定语料库统计每个词出现的次数，按照频次从高到低排序，S200～依次遍历语料库中的词语，统计出左侧共现矩阵和右侧共现矩阵，表示为X^L和X^R，S300～设置模型超参数，采用Glove模型的目标函数，分别用X^L和X^R训练出词语的左侧低维向量表示V^L和右侧低维向量表示V^R，将它们拼接在一起得到词语的低维向量表示V=[V^L，V^R]。本发明采用并行计算的方法同时以两种共现矩阵训练词向量，大幅减少了程序的运行时间。

Description

一种基于词对非对称共现的词向量表示学习方法

技术领域

本发明属于自然处理领域，具体是一种基于词对非对称共现的词向量表示学习方法。

背景技术

在自然处理领域，词在计算机内部的表示方法有很多，典型的有以下几种：

1)one-hot representation，这种方法应用于传统的基于规则的、统计的自然语言处理方法中。它把每个词都表示成一个向量，向量的长度为词表的大小，向量中只有一个维度的值为1，代表当前词，其余维度为0。这种表示不利于词的语义计算。

2)distributional representation，该方法表示的向量长度也是词表的大小，是通过从语料库中统计共现矩阵得到的，共现矩阵的每一行对应一个词，每一列也对应一个词，矩阵中的每个元素表示这两个词语在语料中共现的频次，矩阵中的每一行就是该词对应的词向量，这种表示改进了one-hot表示的词的语义信息，但是，由于词向量的维度非常高且稀疏，在进行词的语义计算的时候效果有限。

3)distributed representation，该表示是由distributional representation通过各种方法降维得到的低维的稠密向量，该表示克服了distributionalrepresentation的缺点，能较好地进行语义计算。

基于Glove模型的低维词表示方法是目前主要的表示学习方法之一，Glove模型其学习算法相对简单，效率高且易于实施。训练出的词向量在语义相似度任务和词语推断任务中有较好的表现。

Glove模型的详细描述参照以下文献：

Pennington J,Socher R,Manning C.Glove:Global Vectors for WordRepresentation[C]//Conference on Empirical Methods in Natural LanguageProcessing.2014:1532-1543.

Glove模型的主要步骤为：设定固定窗口的大小，对每个词(目标词)取它两边的固定窗口内的词语作为上下文，统计共现频次，生成共现矩阵，然后采用随机梯度下降法，训练得到每个词的向量表示。该模型虽然性能较好，但是，没有考虑词语的先后顺序，在统计目标词的共现矩阵时，对目标词左侧和右侧的词语没有区别对待，将目标词左侧和右侧的词语混在一起作为目标词的上下文，因此，由该共现矩阵训练出的词向量，精度有待进一步提高。

发明内容

本发明为了解决上述问题，提供一种基于词对非对称共现的词向量表示学习方法。

本发明采取以下技术方案：一种基于词对非对称共现的词向量表示学习方法，包括以下步骤。

S100～从语料库统计出词表；从给定语料库统计每个词出现的次数，按照频次从高到低排序，c_i表示第i个词，f_i表示第i个词的频次，1≤i≤n，n为语料库中不同的词语个数。

S200～设定固定窗口大小为w，依次遍历语料库中的词语，统计出左侧共现矩阵和右侧共现矩阵，表示为X^L和X^R，两个矩阵的大小都为n×n。

矩阵的行为词表中的每个词的序号，列也为词表中的每个词的序号。用

表示c_i、c_j第k次共现时在语料中的位置。

统计左侧共现矩阵和右侧共现矩阵的过程如下:

S201～将矩阵X^L和X^R的每个值初始化为0；

S202～遍历语料库中的每个词，找到该词在词表中的序号i；

S203～遍历固定窗口内该词左侧共现的每一个词，找到该词在词表中的序号j，根据词i和词j的相对位置计算权值，累加到

中，同时，将该权值累加到

中；遍历结束生成左侧共现矩阵X^L和右侧共现矩阵X^R。

S300～设置模型超参数，采用Glove模型的目标函数，分别用X^L和X^R训练出词语的左侧低维向量表示V^L和右侧低维向量表示V^R，将它们拼接在一起得到词语的低维向量表示V＝[V^L，V^R]。

训练V^L的目标函数为：

其中

和

分别表示词c_i和c_j的左侧低维词向量表示，

和

为

和

对应的偏置项，

为加权函数，根据词对的共现频次对目标函数中的每一项进行加权。

训练V^R的目标函数为：

其中

和

分别表示词c_i和c_j的右侧低维词向量表示，

和

为

和

对应的偏置项，

和

的加权方法和Glove模型的相同,该函数如下。

与现有技术相比，本发明提出了新的开窗口的方式，即分别取目标词之前、之后的固定窗口内的词作上下文的方式，并将两种开窗口的方式训练出的词向量有效地融合在一起构成词的表示向量，提高了词向量的精度，在词语推断任务中，在公开的测试集上精度有明显提升，并且有利于并行计算。

本发明改进了Glove模型统计共现矩阵的方式。主要以下三个优点：

1.给出了词对共现的非对称方式统计方法，统计左侧共现矩阵和右侧共现矩阵。

2.给出了以两种共现矩阵训练出的向量的有效融合方式，可以得到比相同维度下的对称窗口下精度更高的词表示向量。

3.采用并行计算的方法同时以两种共现矩阵训练词向量，大幅减少了程序的运行时间。

附图说明

图1为本发明流程图。

图2为生成左侧共现矩阵和右侧共现矩阵的流程图。

具体实施方式

如图1欧式，一种基于词对非对称共现的词向量表示学习方法，包括以下步骤，

S200～设定固定窗口大小为w，依次遍历语料库中的词语，统计出左侧共现矩阵和右侧共现矩阵，表示为X^L和X^R，两个矩阵的大小都为n×n；

矩阵的行为词表中的每个词的序号，列也为词表中的每个词的序号，用

表示c_i、c_j第k次共现时在语料中的位置。

统计左侧共现矩阵和右侧共现矩阵的过程如下:

S201～将矩阵X^L和X^R的每个值初始化为0；

S202～遍历语料库中的每个词，找到该词在词表中的序号i；

中，同时，将该权值累加到

中；遍历结束生成左侧共现矩阵X^L和右侧共现矩阵X^R。

训练V^L的目标函数为：

其中

和

分别表示词c_i和c_j的左侧低维词向量表示，

和

为

和

对应的偏置项，

为加权函数，根据词对的共现频次对目标函数中的每一项进行加权；

训练V^R的目标函数为：

其中

和

分别表示词c_i和c_j的右侧低维词向量表示，

和

为

和

对应的偏置项，

和

的加权方法和Glove模型的相同,该函数如下。

实施例：

1.选用English Wikipedia语料，将出现频次较多的100000个词语生成词表。

2.将固定窗口大小设置为10，分别将语料库中的每个词之前的十个词，之后的十个词进行统计，得到左侧共现矩阵、右侧共现矩阵，X^L和X^R。

3.设置初始学习率为0.05，迭代次数为50，分别以X^L和X^R训练出300维左侧低维词向量表示V^L和300维右侧低维词向量表示V^R，将它们拼接在一起得到600维的低维词向量表示。

表1为本方法训练得到的词向量表示和Glove模型训练得到的词向量表示在基于语法的词语推断任务上的对比，Glove模型采用对称窗口，固定窗口大小设置为10，初始学习率设置为0.05，迭代次数为50，词向量维数为600维。从English Wikipedia语料分割出四个不同大小的语料，分别包含2亿、5亿、10亿、16亿个单词，文件大小分别为1.09GB、2.71GB、5.42GB、8.64GB。表格中的数据为本发明和Glove模型训练得到的600维词向量完成语法的词语推断任务的准确率对比。

表1本发明和Glove模型在基于语法的词语推断任务上的对比

实验结果表明，在不同大小的语料库上，本发明在该任务上的准确率均高于Glove模型，同时，在训练生成相同维数的词表示时，本发明采用并行处理技术，同时训练出V^L和V^R,再将它们拼接得到的词向量V＝[V^L，V^R]，V^L和V^R的维数是Glove模型训练得到词向量的一半，因此，训练时间可以大幅减少。