CN109241377A

CN109241377A - 一种基于深度学习话题信息增强的文本文档表示方法和装置

Info

Publication number: CN109241377A
Application number: CN201810999545.6A
Authority: CN
Inventors: 张文跃; 王素格; 李德玉
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2019-01-18
Anticipated expiration: 2038-08-30
Also published as: CN109241377B

Abstract

本发明公开了一种基于深度学习话题信息增强的文本文档表示方法和装置。方法包括：S1、对文本形式的语料文档进行数据预处理操作。S2、设计文本序列层，将文档中每个词的表示向量中嵌入它在词序中的上下文信息。S3、通过注意力层将序列元素过渡到更高层次的话题信息中。S4、在话题层中，生成当前文档D在所有话题方向上的表示。S5、对所有话题信息之间的相似程度进行限制。S6、在表示层将话题表示向量融合为文档D的语义表示向量Rep。S7、通过分类器和目标函数对将Rep的参数进行更新，该方法能够高效地将文本序列上下文语义信息和潜在话题信息嵌入到文档表示向量中，并且这些经过话题信息增强的表示向量能显著提高使用它们的文本挖掘模型的性能。

Description

一种基于深度学习话题信息增强的文本文档表示方法和装置

技术领域

本发明涉及计算机文本表示学习领域，特别涉及一种基于深度学习增强话题信息增强的文本文档表示方法和一种基于深度学习增强话题信息增强的文本文档表示装置。

背景技术

对文本进行文档级别的、整体性地把握是很多文本处理任务的重要需求。当前，这一问题一般通过文本表示学习来解决。文本文档级别表示学习任务主要致力于构建一种将文本文档依据其内在语义信息转化为可以直接为计算机运算的表示向量的方法。具体来说，就是将文本形式的文档表示为蕴含其语义的固定长度的实数型向量。如今，文档表示学习在自然语言处理、文本挖掘和信息抽取等领域已经成为基础性、广泛性的应用。

当前最广为应用的文档表示学习方法大致有三大类，它们各有各的不足之处：(1)基于“词袋”(BoW)模型的，也被称为“向量空间模型”。这类模型生成的表示向量是稀疏的、非实数的，这类向量在之后的应用中往往效果不佳；(2)基于语义分析的方法，例如“概率潜在语义分析”模型、“LDA文档主题生成模型”，这类模型忽略了文本中词序的上下文信息，这制约了表示向量的语义携带能力；(3)基于循环神经网络的长短期记忆模型(LSTM)被广泛应用于文本文档的分布式表示向量生成。然而，普通的LSTM可能并不足以获取语料的全局性的主题信息。

上述方法的缺点显示了文档表示学习任务目前面对的困难：当模型基于语料全局性的话题信息的时候往往丢失了文档内的上下文信息(例如没有上下文信息就无法确定“苹果”一词是指水果还是科技公司)，而当专注于这些局部信息的时候全局性的话题信息又被忽视(文档间的相关性)，此外话题信息之间没有限制机制也容易导致它们趋于相似从而降低模型性能(例如分出“经济”、“娱乐”、“战车”、“军舰”这样存在冗余情况的话题组)。所有这些缺陷均会使文档的表示向量欠缺某些语义信息，会限制之后这些表示向量的在其他应用中的效果。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度学习增强话题信息增强的文本文档表示方法，可以使得文本文档生成既包含词序上下文信息又包含话题信息的稠密的、实数型的表示向量。

本发明的另一个目的在于提出一种基于深度学习增强话题信息增强的文本文档表示装置。

为实现上述目的，本发明一方面实施例提出了一种基于深度学习增强话题信息增强的文本文档表示方法，包括以下步骤：

S1，对含有K个话题的某篇语料中由n个词构成的文档D＝{w₁,w₂,...,w_n}进行清理、抽取、转化和整理的数据预处理操作，获取文档的词向量矩阵D＝{x₁,x₂,...,x_n}；

S2，利用词语间的序列关系构建文本序列层，设计序列形式长短期记忆模型，获取文档的潜在语义矩阵Hs＝{h₁,h₂,...,h_n}，其中，h_i＝f₁(x_i,h_i-1)，h₀＝f₁(x₀)，f₁为神经网络节点操作；

S3，由所述潜在语义矩阵Hs＝{h₁,h₂,...,h_n}生成对应的注意力强度矩阵A＝{a₁,a₂,...,a_n}，并将A矩阵转置后按行归一化得到注意力权重矩阵A*，其中a_i＝f₂(h_i)，f₂是转化函数；

S4，将所述潜在语义矩阵Hs和所述注意力权重矩阵A*实现融合，获取文档所有话题的映射矩阵表示VTs，VTs＝f₃(Hs,A*)，其中f₃是转化函数；

S5，使用跨文档的标签信息对所述话题的映射矩阵表示VTs的相似程度进行约束，获取话题信息增强后的映射矩阵表示VTk；

S6，对所述VTk进行融合，获取文档D的语义表示向量Rep，其中Rep＝f₄(VTk)，其中，f₄为融合函数；

S7，对所述Rep经过话题分类器进行分类，并根据分类精确度和话题相似度指标得到误差指数，并利用目标函数梯度下降方法更新步骤S1～S6中的模型参数。

根据本发明实施例提出的基于深度学习增强话题信息增强的文本文档表示方法，首先使用词嵌入技术将文本形式的词转化为词向量，使得文档的形式变为了实数矩阵，接着根据文本上下文语义信息序列性的特点组建文本序列层。文档的实数矩阵经过序列层之后，变为带有上下文语义信息的潜在语义矩阵。接着利用潜在语义矩阵计算出与其相对应的注意力权重矩阵，并通过两者的融合实现对更高粒度的话题信息的增强。接着通过话题相似度约束机制使得话题之间应当尽可能彼此区别，从而得到文档的所有话题表示。最后将所有话题表示进行融合，作为该文档的话题信息增强后的表示向量，由此，该文本文档为既包含词序上下文信息又包含话题信息的稠密的、实数型的表示向量，减少话题冗余。

为实现上述目的，本发明另一方面实施例提出了一种基于深度学习增强话题信息增强的文本文档表示装置，包括文本序列层，注意力层，话题层和表示层，其中，所述文本序列层用于对含有K个话题的某篇语料中由n个词构成的文档D＝{w₁,w₂,...,w_n}进行清理、抽取、转化和整理的数据预处理操作，获取文档的词向量矩阵D＝{x₁,x₂,...,x_n}，并将文档的词向量矩阵D＝{x₁,x₂,...,x_n}通过序列形式长短期记忆模型，获取文档的潜在语义矩阵Hs＝{h₁,h₂,...,h_n}，其中，h_i＝f₁(x_i,h_i-1)，h₀＝f₁(x₀)，f₁为神经网络节点操作；所述注意力层用于提取、分离文本中话题信息，实现词级别到话题级别两种粒度信息的连接并且实现从已知信息抽取未知信息的功能；由所述潜在语义矩阵Hs＝{h₁,h₂,...,h_n}生成对应的注意力强度矩阵A＝{a₁,a₂,...,a_n}，并将A矩阵转置后按行归一化得到注意力权重矩阵A*，其中a_i＝f₂(h_i)，f₂是转化函数，将所述潜在语义矩阵Hs和所述注意力权重矩阵A*实现融合，所述话题层用于获取文档所有话题的映射矩阵表示VTs，VTs＝f₃(Hs,A*)，其中f₃是转化函数；并使用跨文档的标签信息对所述话题的映射矩阵表示VTs的相似程度进行约束，获取话题信息增强后的映射矩阵表示VTk；所述表示层用于对所述VTk进行融合，获取文档D的语义表示向量Rep，其中Rep＝f₄(VTk)，其中，f₄为融合函数，并对所述Rep经过话题分类器进行分类，并根据分类精确度和话题相似度指标得到误差指数，并利用目标函数梯度下降方法更新模型参数。

根据根据本发明实施例提出的基于深度学习增强话题信息增强的文本文档表示装置，首先使用词嵌入技术将文本形式的词转化为词向量，使得文档的形式变为了实数矩阵，接着根据文本上下文语义信息序列性的特点组建文本序列层。文档的实数矩阵经过序列层之后，变为带有上下文语义信息的潜在语义矩阵。接着在注意力层利用潜在语义矩阵计算出与其相对应的注意力权重矩阵，并通过两者的融合实现对更高粒度的话题信息的增强。接着在话题层通过话题相似度约束机制使得话题之间应当尽可能彼此区别，从而得到文档的所有话题表示。最后将所有话题表示进行融合，作为该文档的话题信息增强后的表示向量，由此，该文本文档为既包含词序上下文信息又包含话题信息的稠密的、实数型的表示向量，减少话题冗余。

与现有技术相比，本发明具有以下有益效果：

1.采用序列LSTM模型为文本的词序列建模使该模型得以更好地融合文本的上下文信息；

2.全新结构的提取型注意力机制支持“序列到树”结构的处理，它用于从文本序列信息中抽取话题信息。此外它不仅可以将文本的“词-话题”关联信息嵌入表示向量，还可以显性地返回文档中词对不同话题的支持度可作为可视化结果进行展示和测验；

3.话题层的相似度约束机制的引入改善了原有话题模型的“长尾效应”，即某些话题过于相似令模型退化。同时，一般注意力机制面临趋同性问题也得到解决。趋同性是由计算注意力过程中变量过少导致的，它使得所有话题注意力权重分布趋向相同，而相似性约束机制为其计算过程增加了变量；

4.新发明由多个专项子模型组合而成，整体来看，模型不仅仅能将局部性的文档内上下文语义信息进行编码，还能在语料级别将全局性的潜在话题语义信息进行增强从而嵌入最终的文档表示向量中；

5.本发明的创新点在于针对不同语义信息设计多种创新子模型并复合为深度学习模型用于文档表示学习。其中最主要的创新在于“序列到树”结构的注意力机制以及话题信息相似度约束机制的设计。通过在不同数据集上的实验表明，本发明产生的文档表示向量在文本分类、话题识别和文本聚类三大主要文本挖掘任务中表现均优于其他经典对照模型，说明本发明可以切实提高文本表示向量的质量。

附图说明

图1是本发明的整体层次结构框架图。

图2是步骤S3-S4中描述的注意力层结构图。

图3是步骤S5中话题相似度约束机制示意图。

图4A是多种算法生成的文档表示向量在分类实验中的结果对比。

图4B是话题差异度与文档分类准确度的相关性可视化展示。

图5是本发明在话题识别任务上的效果可视化展示。

图6是本发明在文本聚类任务中与经典算法的结果对比。

图7是本发明的基于深度学习话题信息增强的文本文档表示方法方法流程图。

具体实施方式

本实施例中，本发明的基于深度学习话题信息增强的文本文档表示方法的实验在山西大学计算机与信息技术学院集群计算机上完成，该集群由5台高性能计算机组成计算和管理节点，网络连接采用千兆以太网和infiniband 2.5G网。每个节点配置八核CPU和128GB内存，CPU为intel xeon E3-1230V53.4GMhz主频，并配有两块NVIDIA GTX1080高性能图形卡，可以进行大规模矩阵运算和深度学习模型训练。

由图1-7可知，本发明为了处理不同语义信息分为了几个子模型，它们逐层相接并最终将其进行融合。学习过程主要包括以下步骤：

S1、对含有K个话题的某篇语料中由n个词构成的文档D＝{w₁,w₂,...,w_n}进行清理、抽取、转化和整理的数据预处理操作，获取文档的词向量矩阵D＝{x₁,x₂,...,x_n}，具体步骤包括：

S11、对所有文本数据进行抽取与清理，其中如果是英文数据需要进行标记化、词干化等，如果是中文数据需要进行中文分词处理。去除数据中的停用词，删除词数过少(小于6个词)的文档。

S12、利用经大语料预训练后的Word2Vec词向量模型将语料中的所有词转化为词向量。其中过于生僻的词(词向量模型中不存在)将被舍弃。

S13、获取训练语料的标签，共有K个分别对应K个话题，每个话题再对应一个独特的one-hot形式向量用于监督学习过程。将这些标签向量同其预处理后的文档数据相互对应起来作为实验数据。

S2、对于上下文潜在语义抽取，本发明利用词语间的序列关系构建了文本序列层，设计了序列形式长短期记忆模型(seq-LSTM)，将文档中每个词的表示向量中嵌入了它在词序中的上下文信息。具体步骤包括：

S21、计算LSTM各个门元件状态，LSTM门元件在计算中起控制作用，是依据输入信息灵活调节的，主要分为输入门、输出门和遗忘门三种，分别控制深度学习节点信息的输入、输出和历史信息的调节，具体计算方式如下：

其中I、F、O和G分别是输入门、输出门、遗忘门以及节点信息状态，σ表示sigmoid激活函数，tanh是双曲正切函数，Wseq和Bseq分别是深度学习神经网络的权重矩阵和偏置向量，seq表示参数属于文本序列层。由式子可见所有门状态均是由历史信息和当前词向量输入计算而来；

S22、计算LSTM隐藏状态。隐藏状态是长短期记忆模型中用于存储历史或者其他信息的模块，算式如下：

C_t＝I_t·G_t+F_t·C_t-1

其中C代表某个词对应的节点隐藏状态，可见这个隐藏状态受到节点信息和历史隐藏状态的影响，而它们又分别受到输入门和遗忘门的调节，这种调节是通过向量间按元素相乘实现的。总之当前词的隐藏状态依据语义信息在当前输入和历史状态间做权衡调节；

S23、计算LSTM节点状态。得到文档当前词对应的隐藏状态后，需要对隐藏状态进行激活从而得到该词对应的潜在上下文语义状态：

h_t＝O_t·tanh(C_t)

如公式所示，激活函数选择双曲正切函数，并且该激活值收到输出门调节之后才会作为节点状态被用于后续计算。

S24、记录文本序列层结果。文档D＝{x₁,x₂,...,x_n}经过文本序列层生成了对应语义状态矩阵Hs＝{h₁,h₂,...,h_n}和隐藏状态矩阵Cs＝{C₁,C₂,...,C_n}，这两个矩阵蕴含了文档D内的上下文语义信息，比如“高兴到哭”和“悲伤到哭”中的“哭”词向量是一样的，但经过序列层后由于两个“哭”的上文不同它们的表示向量(节点状态h)也不同了。

S3、为了增强文档的上下文语义信息中的话题信息，必要将序列元素过渡到更高层次的话题信息中，对此本发明提出了新的提取型注意力机制并构建在文本序列层之上，如图2所示。在以往的注意力机制往往连接的是两个序列结构，而本发明需要连接的是序列和树节点，其中每个序列元素代表文档词序列中的一个位置，而每个树节点代表一个话题。并且一般注意力机制中两个结构均是已知信息，而本发明的提取型机制是从已知信息中提取出潜在信息(即话题)。具体步骤如下：

S31、获取注意力强度。注意力强度根据文档上下文语义信息依下面公式计算而来：

其中W_att与b_att分别为注意力层的权值矩阵和偏置向量参数，a_t是K维向量，其每个维度的值代表文档第t个词对对应话题的注意力强度。

S32、计算注意力权重矩阵。经过步骤S31后得到的注意力强度矩阵A＝{a1,a2,...,an}是个n×K矩阵，先将其进行转置为K×n，这样该矩阵的含义变为其每行指示当前文档文本序列在某话题方面的注意力(表达)强度，例如：某文档中某位置的“苹果”一词多大程度表达了话题1、多大程度表达话题2……等(与以往注意力机制不同的是，这里的话题具体内容并不要求指定，尚且未知)。

然后通过下面的softmax算法将这种强度分布归一化为概率分布形式：

最后记录归一化后的注意力权重矩阵A*：

S4、在话题层中，由注意力层而来的注意力权重矩阵A*和文本序列层生成的文档上下文语义信息Hs实现融合。语义信息Hs依据各自对应的不同注意力权重而合并，由于权重反应表示向量对话题的表达强弱，因此原本语义信息中的潜在话题信息便得到了增强或强调。最后生成当前文档D在所有话题方向上的表示，也可视为其语义信息在所有话题空间上的映射(可以理解为譬如一篇关于苹果公司的文章在“科技”、“经济”、“政治”等不同话题视角下看起来是什么样的)。如图1、2所示，模型共有K个话题表示节点VTs对应语料中所有的话题，而VTCs是由于采用LSTM型的深度学习节点而产生的VTs的隐藏状态，它们的计算方式如下：

其中VTs和VTCs均有K行，每个行向量对应一个话题的相关信息表示向量同时也对应一个LSTM类型的节点。由式子可见文档D的话题表示都是它的所有上下文语义信息依据其对话题的表达强度加权求和而来。

其中，依据文本全局话题信息和局部上下文语义信息的各自特点，设计出多项子结构，并将它们层叠复合，然后整体用于学习文档语义表示。这样的设计使得不同类型的语义信息都能有对应的模块进行针对性地处理，又由于不同信息之间存在很大差异因此不同模块的整合不会是简单地堆叠，由此，此处设计有提取型注意力机制负责语义模块和话题模块间的桥接。

S5、对所有VT之间的相似程度进行约束。正如之前所述，以往模型生成话题表示之间可能存在趋同倾向，例如语料中本应有的是“军事”话题，但模型分解为“武器”和“军队”等话题，而其他应出现的话题被迫合并，这种情况多出现在各话题文档数目差别巨大的语料中。这个问题体现在本发明的模型中即是VT表示向量之间数学上过于相近，这样K个话题信息会存在显著缺失，造成模型性能的退化。因此在话题层，本发明设计了独特的话题信息相似度约束机制如图3所示。其中，L是长度为K形式为“one-hot”(某位置值接近1，其余位置接近0)的话题标签向量，约束机制的基本原理是通过训练过程令经由话题表示向量生成的对比向量v和标签L的逐渐相似，又由于L之间高度正交，所以话题信息表示向量之间也会逐渐扩大差异程度。本发明相似度约束机制的具体实现步骤如下：

S51、话题表示向量转化。话题表示向量VT和VTC的维度不一定等于K，数学计算上就无法与话题标签L进行对比，因此首先要通过下面算法转变它们的长度：

其中Ws和Bs是话题信息相似度约束机制中的权值矩阵参数和偏置矩阵参数，σ同样为sigmoid激活函数，对比向量vk的长度为K，且每个文档共有K个对比向量每个向量对应一个话题。

S52、相似度衡量。本发明采用交叉熵作为对比向量和话题标签向量之间的相似度度量，计算方式如下：

当s_k数值越小表示对比向量v_k和话题标签向量L_k越相似，这时证明产生v_k的话题信息向量VT_k和VTC_k同其他话题向量对比差异越大。

S53、话题相似度得分计算。得到所有话题的相似度评分后，将它们求平均得到话题信息，相似度综合评分S：

S数值越小，话题信息表示向量之间的相似度就越小，话题信息冗余也就越小，本发明生成的文档表示向量中的话题信息就可能越全面。本发明在训练阶段通过目标函数误差回传和参数更新来使S值最小化。

S6、在表示层将话题表示向量融合为文档D的语义表示向量Rep。在步骤S5中得到K个话题信息表示向量，本发明在表示层通过树型LSTM模型将这些话题表示向量作为树的叶子节点而最终的文档表示向量Rep作为父节点，语义信息从子节点通过LSTM类型的运算汇聚到父节点中，具体步骤如下：

S61、树型LSTM门元件状态计算。先计算树型LSTM父节点的输入门、输出门和节点状态，算法略不同与之前序列部分：

其中W_tr、B_tr表示该权值矩阵和偏置矩阵位于树型的表示层。由式子可见，K个表示向量中的数据综合后生成单独的门元件，不再有不同话题的区分，因为所有增强后的话题信息已经都包含到了最终的状态向量I、O和G中。

S62、特殊的遗忘门状态计算。不同于其余门元件，本发明的树型结构中遗忘门扮演着控制子节点向父节点信息流动情况的角色，因此每个子节点拥有一个遗忘门，且节点间遗忘门的计算也是彼此独立的(出于主题信息间的独立性)。举例说明，第k个主题子节点遗忘门状态的具体算法如下：

上式说明每个话题对应子节点的遗忘门状态是通过该话题表示向量所蕴含的语义信息单独计算而来。

S63、隐藏状态计算。在序列结构中LSTM节点的隐藏状态储存历史信息，而在树型结构中父节点的隐藏状态储存的是来自子节点的信息，如同步骤F2所提到的，这些子节点信息会受到它们各自遗忘门的控制而到达父节点。父节点在计算其隐藏状态时，将这些经过调节的子节点信息组合起来，具体如下所示：

S64、文档表示向量生成。在这一步中，首先将父节点的隐藏状态透过激活函数和输出门得到节点状态向量，最后通过一层维度调节最终得到当前文档的表示向量Rep。具体计算方法如下所示：

h＝O·tanh(C)

Rep＝σ(W_rh+b_r)

其中，W_r和B_r是深度学习神经网络的参数。由于文档表示向量的要求长度可能和深度学习隐层维度不一致，因此本发明额外增加了一个向量长度调节操作。

S7，分类器层和目标函数。为了训练本发明的模型，在得到文档的语义表示向量之后，将这些向量经过话题分类器进行分类，记录分类精确度，并且加上话题相似度指标得到当前模型的该文档D的***误差指数，然后通过深度学习模型的误差回传算法，利用目标函数梯度下降方法更新本发明的模型参数。本发明的目标函数如下所示：

其中，λ参数调节平衡分类精度和话题差异程度，g是文档D的话题类别标记，p是分类器根据文档Rep做出的分类结果。

一种好的表示学习方法所产生的文本表示向量会因为含有更多更准确的语义信息而使得应用该向量的自然语言处理任务表现得更好，因此本发明使用最为广泛应用的文本分类、话题检测和文本聚类三大任务来测验生成的文档表示向量。

图4A和图4B是本发明生成的文档表示向量在话题分类中的实验表现，它们分别为分类精度实验和话题信息相似度有效性实验。为了验证表示向量的分类性能该实验采用三类文本语料，将语料中90％文档用于训练，其余部分用于测验。选择词向量维度、深度学习隐层维度和表示向量维度分别为50、100和50。目标函数参数λ＝0.2，模型学习率初始值为0.1，学习方法为Adagrad。参考图4A，几乎在全部语料库上，本发明(TE-LSTM)的准确率都比其他经典对比算法更好，并且带有话题信息相似度约束机制(with SC)比没有该机制(without SC)的结果更好，这说明本发明提出的表示学习方法能提高表示向量中的语义信息量，并且其话题信息相似度约束机制明显发挥了正面作用。在图4B中，横坐标表示话题信息之间的差异程度，数值越大说明话题信息相似度越低，图表纵坐标表示该差异程度区间内文档的分类准确度。由图4B的曲线可见，随着话题信息间的差异越大，表示向量的分类准确率也呈现逐步上升的趋势，这也说明了本发明的话题信息相似度约束机制的有效性，它减少了模型的话题信息冗余提高了向量的信息表示能力。

图5显示的是本发明生成的文档表示向量在话题识别任务中的表现。表格中最左侧是模型名称，分别是lda2vec、本发明(无话题信息约束机制)和本发明(含约束机制)模型。第二列是语料中的话题标签，列出20项话题中的4项。第三列是从语料中检测出的话题的关键词，这些关键词是依据模型计算得到的各个话题中关键度排名前5的词汇，在本发明中词的关键度即是该词对主题的注意力权重值。最后一列中的数值是在线平台Palmetto接收5个关键词之后计算得到的话题相关性，越高的分数说明这些关键词的语义约接近它们也就越可能源自同一个话题。分析图表不难看出，本发明无论从定性角度还是定量角度都取得了明显较好的实验结果，并且类似分类实验使用话题信息相似度约束机制的模型性能更加优秀也证明了本发明的所有设计都提高了表示向量的质量。

图6显示的是本发明生成的文档语义信息表示向量在文本聚类任务中的表现。表示学***均值作为该模型的文本聚类评分。参考图6得知，本发明的表示向量聚类效果最好，并且采用了话题信息相似度约束机制的模型得到了最高评分，证明了本发明能生成质量更好的文档语义表示向量。

综上所述，对于含有K个话题的语料中某篇由n个词构成的文档D＝{w₁,w₂,...,w_n}，本发明采用下述技术方案：

通过预训练获取文档的词向量矩阵D＝{x₁,x₂,...,x_n}，在上下文序列中，每个词对应的潜在语义h_i＝f₁(x_i,h_i-1)，h₀＝f₁(x₀)，其中f是转化函数。这样，即使同一个词在不同上下文语境它们的潜在语义也不相同(即同样的词在文中不同位置其表示向量也不同)，这种差异正是蕴含上下文语义信息的证明。此外，式子中的f₁可以是神经网络节点操作。

在话题信息获取方面。由文档的潜在语义矩阵H＝{h₁,h₂,...,h_n}生成对应的注意力强度矩阵A＝{a₁,a₂,...,a_n}，其中a_i＝f₂(h_i)是K维向量每一维代表着序列中第i个词对某一话题的注意力强度(或称为“表达强度”)，f₂是转化函数。最后将A矩阵转置后按行归一化得到注意力权重矩阵A*。

在话题信息增强方面，将文档上下文语义信息和注意力权重结合产生文档所有话题的映射矩阵(VT)，VT＝f₃(H,A*)其中f₃是转化函数，VT的每一行对应一个话题，代表文档D中蕴含的该话题的信息。经过这一部分后，文档的话题信息已经被各自增强了。

在话题信息控制方面，使用跨文档全语料的标签信息对上一阶段获得的文档话题信息进行限制。每一种话题都有其固定的对应的标签向量L，例如L_i这个向量被用于对VT_i进行限制，具体做法类似监督信息对神经网络分类器进行控制，L即为监督信息，且每种话题对应的标签向量彼此之间是高度正交的，经这样的标签限制之后的话题信息彼此间也自然会是高度差异的。

将话题增强后的语义信息融合为文档表示向量。话题之间彼此没有联系又都要归于一个表示向量，构成典型的树型结构。又不同于普通的按权组合的方式，权值的欠缺要求所有话题向量要以更加综合的方式进行融合，设这种融合方式为f₄，文档D的表示向量为Rep，则Rep＝f₄(VT)。在训练时，Rep之上设置一个分类器，使用文档的类别向量训练分类器，利用误差回传和梯度下降方式更新模型。

由此，该文本文档为既包含词序上下文信息又包含话题信息的稠密的、实数型的表示向量，减少话题冗余。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

为此，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个、上等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

本文结合说明书附图和具体实施例进行阐述只是用于帮助理解本发明的方法和核心思想。本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员依据本发明的方法和思想得出的其它实施方式，同样属于本发明的技术创新范围。本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度学习话题信息增强的文本文档表示方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习话题信息增强的文本文档表示方法，其特征在于，S1包括以下步骤：

S11，对所有文本数据进行抽取与清理，其中，如果是英文数据，则进行标记化和词干化；如果是中文数据，则进行中文分词处理；并去除文本数据中的停用词，删除词数小于六个词的文档；

S12，利用经大语料预训练后的Word2Vec词向量模型将语料中的所有词转化为词向量。

3.根据权利要求1所述的基于深度学习话题信息增强的文本文档表示方法，其特征在于，S2包括以下步骤：

S21，设计序列形式长短期记忆模型，即LSTM模型，计算方式如下，

其中，I、F、O和G分别是输入门、输出门、遗忘门以及节点信息状态，σ表示sigmoid激活函数，tanh是双曲正切函数，Wseq是深度学习神经网络的权重矩阵，Bseq是深度学习神经网络的偏置向量，seq表示参数属于文本序列层；

S22，根据LSTM模型计算文档当前词对应的隐藏状态Ct，计算方式如下，

C′_t＝I_t·G_t+F_t·C_t-1

S23，根据LSTM模型和所述文档当前词对应的隐藏状态Ct，对隐藏状态Ct进行激活，获取该词对应的潜在上下文语义状态，计算方式如下，

h_t＝O_t·tanh(C_t)

S24，记录文本序列层结果，文档D＝{x₁,x₂,...,x_n}经过文本序列层生成了对应语义状态矩阵Hs＝{h₁,h₂,...,h_n}和隐藏状态矩阵Cs＝{C₁,C₂,...,C_n}，这两个矩阵蕴含了文档D内的上下文语义信息。

4.根据权利要求1所述的基于深度学习话题信息增强的文本文档表示方法，其特征在于，S3包括以下步骤：

S31，根据文档D上下文语义信息获取注意力强度a_t，计算方式如下，

其中，a_t是K维向量，代表文档第t个词对对应话题的注意力强度，W_att与b_att分别为注意力层的权值矩阵和偏置向量参数；

S32，计算注意力权重矩阵；经过步骤S31后得到的注意力强度矩阵A＝{a₁,a₂,...,a_n}是个n×K矩阵，先将其进行转置为K×n，即，

通过下面的softmax算法将这种强度分布归一化为概率分布形式，

最后记录归一化后的注意力权重矩阵A*如下，

5.根据权利要求1所述的基于深度学习话题信息增强的文本文档表示方法，其特征在于，S4包括以下步骤：

通过潜在语义矩阵Hs和所述注意力权重矩阵A*实现融合，获取当前文档D在所有话题的映射矩阵表示；其中，VTs对应语料中所有的K个话题，而VTCs是VTs对应的隐藏状态，它们的计算方式如下：

其中VTs和VTCs均有K行，每个行向量对应一个话题的相关信息表示向量。

6.根据权利要求1所述的基于深度学习话题信息增强的文本文档表示方法，其特征在于，S5包括以下步骤：

S51，话题表示向量转化，话题表示向量VT和VTC的维度不一定等于K，因此首先要通过下面算法转变它们的长度：

其中，W_s和B_s是话题信息相似度约束机制中的权值矩阵参数和偏置矩阵参数，σ同样为sigmoid激活函数，对比向量v_k的长度为K，且每个文档共有K个对比向量每个向量对应一个话题；

S52，相似度衡量，采用交叉熵作为对比向量和话题标签向量之间的相似度度量，计算方式如下：

当s_k数值越小表示对比向量v_k和话题标签向量L_k越相似，这时证明产生v_k的话题信息向量VT_k和VTC_k同其他话题向量对比差异越大，其中，L是长度为K形式为“one-hot”的话题标签向量；训练语料话题标签共有K个，分别对应K个话题，且每个话题再对应一个独特的one-hot形式向量用于监督学习过程；将这些标签向量同其预处理后的文档数据相互对应起来作为实验数据；

S53，话题相似度得分计算，得到所有话题的相似度评分后，将它们求平均得到话题信息相似度综合评分S：

S数值越小，话题信息冗余也就越小，本发明生成的文档表示向量中的话题信息就可能越全面；本发明在训练阶段通过目标函数误差回传和参数更新来使S值最小化。

7.根据权利要求1所述的基于深度学习话题信息增强的文本文档表示方法，其特征在于，S6包括以下步骤：

S61，树型LSTM门元件状态计算，先计算树型LSTM父节点的输入门、输出门和节点状态，计算方式如下，

其中W_tr、B_tr表示该权值矩阵和偏置矩阵位于树型的表示层，由式子可见，K个表示向量中的数据综合后生成单独的门元件，不再有不同话题的区分，因为所有增强后的话题信息已经都包含到了最终的状态向量I、O和G中；

S62，特殊的遗忘门状态计算，不同于其余门元件，树型LSTM模型结构中每个子节点拥有一个遗忘门，且节点间遗忘门的计算也是彼此独立的，其中，遗忘门扮演着控制子节点向父节点信息流动情况的角色，第k个话题子节点遗忘门状态的计算方式如下，

S63，隐藏状态计算，在树型LSTM模型结构中父节点的隐藏状态储存的是来自子节点的信息，父节点在计算其隐藏状态时，将这些经过调节的子节点信息组合起来，计算方式如下，

S64，文档表示向量生成，首先将父节点的隐藏状态透过激活函数和输出门得到节点状态向量，最后通过一层维度调节最终得到当前文档的表示向量Rep，具体计算方法如下所示：

h＝O·tanh(C)

Rep＝σ(W_rh+b_r)

其中，W_r和B_r是深度学习神经网络的参数。

8.根据权利要求1所述的基于深度学习话题信息增强的文本文档表示方法，其特征在于，S7包括以下步骤：

设置分类器和目标函数，将文档的语义表示向量Rep经过话题分类器记录分类结果，并加上话题相似度指标得到当前文档D的***误差指数，然后通过深度学习误差回传算法，利用目标函数梯度下降方法更新模型参数，其中，目标函数如下所示，

其中，λ参数调节平衡分类精度和话题差异程度，g是文档D的话题类别标记，p是分类结果。

9.一种基于深度学习话题信息增强的文本文档表示装置，其特征在于，包括：

文本序列层，所述文本序列层用于对含有K个话题的某篇语料中由n个词构成的文档D＝{w₁,w₂,...,w_n}进行清理、抽取、转化和整理的数据预处理操作，获取文档的词向量矩阵D＝{x₁,x₂,...,x_n}，并将文档的词向量矩阵D＝{x₁,x₂,...,x_n}通过序列形式长短期记忆模型，获取文档的潜在语义矩阵Hs＝{h₁,h₂,...,h_n}，其中，h_i＝f₁(x_i,h_i-1)，h₀＝f₁(x₀)，f₁为神经网络节点操作；

注意力层，所述注意力层用于提取、分离文本中话题信息，实现词级别到话题级别两种粒度信息的连接并且实现从已知信息抽取未知信息的功能；由所述潜在语义矩阵Hs＝{h₁,h₂,...,h_n}生成对应的注意力强度矩阵A＝{a₁,a₂,...,a_n}，并将A矩阵转置后按行归一化得到注意力权重矩阵A*，其中a_i＝f₂(h_i)，f₂是转化函数，将所述潜在语义矩阵Hs和所述注意力权重矩阵A*实现融合，

话题层，所述话题层用于获取文档所有话题的映射矩阵表示VTs，VTs＝f₃(Hs,A*)，其中f₃是转化函数；并使用跨文档的标签信息对所述话题的映射矩阵表示VTs的相似程度进行约束，获取话题信息增强后的映射矩阵表示VTk；

表示层，所述表示层用于对所述VTk进行融合，获取文档D的语义表示向量Rep，其中Rep＝f₄(VTk)，其中，f₄为融合函数，并对所述Rep经过话题分类器进行分类，并根据分类精确度和话题相似度指标得到误差指数，并利用目标函数梯度下降方法更新模型参数。