CN106919557A

CN106919557A - 一种结合主题模型的文档向量生成方法

Info

Publication number: CN106919557A
Application number: CN201710096926.9A
Authority: CN
Inventors: 阳可欣; 王美华; 印鉴
Original assignee: Guangdong Heng Electrical Information Polytron Technologies Inc; Sun Yat Sen University
Current assignee: Guangdong Heng Electrical Information Polytron Technologies Inc; Sun Yat Sen University
Priority date: 2017-02-22
Filing date: 2017-02-22
Publication date: 2017-07-04

Abstract

本发明提供一种结合主题模型的文档向量生成方法，该方法获取文档集合并对其进行预处理，然后用LDA对文档集合进行训练，得到每篇文档中每个词的主题，并将词和主题组成<词，主题>对，将<词，主题>对组成的文档集合输入到Doc2vec文档向量模型中，训练生成主题文档向量，该过程将文档中词的主题信息融入到文档向量的训练过程中，能够训练出包含主题信息的主题文档向量，从而提升文本分类、文本相似度计算等自然语言处理任务的准确度。

Description

一种结合主题模型的文档向量生成方法

技术领域

本发明涉及文档处理方法领域，更具体地，涉及一种结合主题模型的文档向量生成方法。

背景技术

文档向量是一种把文档表示成向量的方法。在一些文本分类，文本相似度计算的自然语言处理任务中，文档向量的好坏直接影响着任务的结果。因此，把一篇文档有效地表示为一个向量十分重要。最早的文档向量表示法是词袋法(Bag-of-Word,BOW)，词袋法将一篇文档表示成与词汇表相同维度的向量，向量中每个位置的值即是该位置所代表的词在文档中出现的次数。这种表示方法维度高，稀疏性大，并且词与词间相互独立，词的顺序、语法、语义信息都被忽略。随着深度学习的发展，出现了基于神经网络来训练文档向量的方法。14年提出的Doc2vec文档向量模型，就是基于word2vec词向量模型，在神经网络的训练过程中添加了一个文档特征向量，在训练词向量的同时，直接训练出了文档向量。这种文档向量模型，捕捉了词间的语义和顺序信息，但是忽略了词的一词多义问题。即同一个词在不同的上下文中是表达不同的语义的，而模型中同一个词对应的是同一个向量，不能很好的表达出词的不同语义，这必将影响到文档向量的效果。

发明内容

本发明提供一种结合主题模型的文档向量生成方法，该方法能够训练出效果更好文档向量，从而提升文本分类、文本相似度计算等自然语言处理任务的准确度。

为了达到上述技术效果，本发明的技术方案如下：

一种结合主题模型的文档向量生成方法，包括以下步骤：

S1：获取文档集合并对其进行预处理；

S2：用LDA对文档集合进行训练，得到每篇文档中每个词的主题；

S3：将词和主题组成<词，主题>对；

S4：将<词，主题>对组成的文档集合输入到Doc2vec文档向量模型中，训练生成主题文档向量。

进一步地，所述步骤S1中的预处理的过程如下：

取出文档中包含的正文文本，用以代表这个文档的内容，去除文档中的所有标点符号；去除文档中所有的低频词，阈值设为5，低频词是在整个文档集合出现次数小小于5次的词；去除所有的停用词，停用词是一些没有实际含义的功能词，包括’the’、’is’、’at’、’which’、’on’。

进一步地，所述步骤S2的具体过程如下：

S21：确定LDA模型中的主题数目k；

S22：对文档集中每篇文档的每个词，随机的赋一个主题；

S23：采用Gibbs Sampling扫描整个文档集，对每篇文档中的每个词，采样更新它的主题；

S24：重复Gibbs Sampling过程直至模型收敛；

S25：得到每篇文档中每个词的主题。

进一步地，步骤S3中每篇文档中的每个词和它的主题组成<词，主题>对，同一个词在不同上下文中表达不同词义时，会有不同的主题，因此会组成不同的<词，主题>对，用来区分词的一词多义。

进一步地，步骤s4中的Doc2vec文档向量模型是在Word2vec词向量模型的基础上添加一个文档特征向量，来表示当前文档的其余部分信息，然后用当前文档的其余部分信息和上下文窗口的词来预测当前词，最终训练出词向量和文档向量，将<词，主题>对组成的文档集合输入到Doc2vec中，是将主题信息融入到文档向量的训练过程中，用当前文档的其余部分信息和上下文窗口的<词，主题>对来预测当前的<词，主题>对，最终训练出主题词向量和主题文档向量。

与现有技术相比，本发明技术方案的有益效果是：

本发明方法获取文档集合并对其进行预处理，然后用LDA对文档集合进行训练，得到每篇文档中每个词的主题，并将词和主题组成<词，主题>对，将<词，主题>对组成的文档集合输入到Doc2vec文档向量模型中，训练生成主题文档向量，该过程将文档中词的主题信息融入到文档向量的训练过程中，能够训练出包含主题信息的主题文档向量，从而提升文本分类、文本相似度计算等自然语言处理任务的准确度。

附图说明

图1为本发明方法的流程图；

图2为主题文本向量模型图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种结合主题模型的文档向量生成方法，包括以下步骤：

步骤1：获取文档集合并对其进行预处理。文档集合的来源，是多样化的，没有限制的，可以是网站新闻，也可以是电影评论、推特等等。每个文档取出其中包含的正文文本，用以代表这个文档的内容。对文档集合进行预处理，去除文档中的所有标点符号；去除文档中所有的低频词，阈值设为5，低频词就是在整个文档集合出现次数小小于5次的词；去除所有的停用词，停用词是指一些没有实际含义的功能词，如’the’、’is’、’at’、’which’、’on’等词；

步骤2：用LDA对文档集合进行训练，得到每篇文档中每个词的主题：

(1)确定LDA模型中的主题数目K；

(2)对文档集中每篇文档的每个词，随机的赋一个主题；

(3)计算文档主题分布θ和主题词分布公式如下：

其中，θ_mk为文档m生成词k的概率，为文档m生成主题k的次数，α为参数向量；为主题k生成词t的概率，为主题k生成词t的次数，β为参数向量；

(4)扫描整个文档集，对每篇文档中的每个词，用采用Gibbs Sampling公式采样更新它的主题。其中Gibbs Sampling公式如下，它正比于文档主题概率乘以主题词概率的值：

(5)重复Gibbs Sampling过程直至模型收敛；

(6)最终得到每篇文档中每个词的主题。

步骤3：将每篇文档中的每个词和它的主题组成<词，主题>对。同一个词在不同上下文中表达不同词义时，会有不同的主题，因此会组成不同的<词，主题>对。如在句子”Thebank of a river”中，bank表达河提的含义，通过LDA学到bank为topic1，组成<bank,topic1>对，而在句子”The bank agreed further credits”中，bank表达银行的含义，通过LDA得到bank为topic2,则组成<bank,topic2>对。因此在融入主题信息后，相同的词在不同主题下将会表示成不同的<词，主题>对，可以用来区分词的一词多义。

步骤4：将<词，主题>对组成的文档集合输入到Doc2vec文档向量模型中，训练生成主题文档向量。

如图2所示，首先需要初始化每篇文档doc_m的主题文档向量D_m，和每个词、主题对<w_t,z_t>的主题词向量w_t，然后通过最大化如下的目标函数，来迭代更新主题文档向量和主题文档向量：

其中，C表示所有文档集中的<词，主题>对，p(＜w,z＞|D,context(＜w,z＞))表示用当前文档的其余部分信息和上下文窗口的<词，主题>对来预测当前的<词，主题>对的概率，目标函数希望最大化这个对数概率和，其中这个概率的计算公式如下：

其中，X_w是对当前的文档向量和上下文窗口中的主题词向量做加权平均，c表示窗口大小。为了保证概率和为1，这里做了softmax归一化，U则是softmax的参数。

通过不断优化上述的目标函数，来更新主题文档向量和主题文档向量以及神经网络中的其他参数，最终保存训练得到的主题文档向量。

本发明结合LDA主题生成模型，将文档中词的主题信息融入到文档向量的训练过程中，能够训练出包含主题信息的主题文档向量，从而提升文本分类、文本相似度计算等自然语言处理任务的准确度。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种结合主题模型的文档向量生成方法，其特征在于，包括以下步骤：

S1：获取文档集合并对其进行预处理；

S3：将词和主题组成<词，主题>对；

2.根据权利要求1所述的结合主题模型的文档向量生成方法，其特征在于，所述步骤S1中的预处理的过程如下：

3.根据权利要求2所述的结合主题模型的文档向量生成方法，其特征在于，所述步骤S2的具体过程如下：

S21：确定LDA模型中的主题数目k；

S22：对文档集中每篇文档的每个词，随机的赋一个主题；

S24：重复Gibbs Sampling过程直至模型收敛；

S25：得到每篇文档中每个词的主题。

4.根据权利要求3所述的结合主题模型的文档向量生成方法，其特征在于，步骤S3中每篇文档中的每个词和它的主题组成<词，主题>对，同一个词在不同上下文中表达不同词义时，会有不同的主题，因此会组成不同的<词，主题>对，用来区分词的一词多义。

5.根据权利要求4所述的结合主题模型的文档向量生成方法，其特征在于，步骤s4中的Doc2vec文档向量模型是在Word2vec词向量模型的基础上添加一个文档特征向量，来表示当前文档的其余部分信息，然后用当前文档的其余部分信息和上下文窗口的词来预测当前词，最终训练出词向量和文档向量，将<词，主题>对组成的文档集合输入到Doc2vec中，是将主题信息融入到文档向量的训练过程中，用当前文档的其余部分信息和上下文窗口的<词，主题>对来预测当前的<词，主题>对，最终训练出主题词向量和主题文档向量。