CN108363685A

CN108363685A - 基于递归变分自编码模型的自媒体数据文本表示方法

Info

Publication number: CN108363685A
Application number: CN201711417351.2A
Authority: CN
Inventors: 王家彬; 黄江平
Original assignee: DIGITAL TELEVISION TECHNOLOGY CENTER BEIJING PEONY ELECTRONIC GROUP Co Ltd
Current assignee: DIGITAL TELEVISION TECHNOLOGY CENTER BEIJING PEONY ELECTRONIC GROUP Co Ltd
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-08-03
Anticipated expiration: 2037-12-25
Also published as: CN108363685B

Abstract

本发明提供一种基于递归变分自编码模型的自媒体数据文本表示方法，该方法包括：对输入的语料文本进行预处理，采用递归神经网络编码模型进行编码，生成固定维度的文本向量；由固定维度的文本向量生成均值向量和方差向量，从标准正态分布中采集样本，利用均值向量、方差向量和样本采用变分推理的方法生成潜在编码表示z；然后采用递归神经网络解码模型对其进行解码得到解码序列，计算编码序列和解码序列之间的编码损失，以及潜在编码表示z和标准正态分布之间的散度，利用编码损失和散度更新递归变分自编码模型的参数。本发明的方法编码性能高，能够更好地适应自媒体数据的编码表示，在对数据的内容进行拟合的同时还能够对数据的分布进行描述。

Description

基于递归变分自编码模型的自媒体数据文本表示方法

技术领域

本发明涉及深度学习和自媒体数据文本内容分析技术领域，尤其涉及一种基于递归变分自编码模型的自媒体数据文本表示方法。

背景技术

随着近年来社会媒体的发展，用户生成了大量的自媒体短文本内容，这些文本内容由于缺乏有效的上下文信息，因此采用传统的词袋模型很难表示这类文本。

深度学习源于人工神经网络的研究，含多隐层的多层网络就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习的概念由Hinton等人于2006 年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法，为解决深层结构相关的优化难题，随后提出多层自动编码器深层结构。而由Lecun Yann等人提出的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能。深度学习就是从一个输入中产生一个输出所涉及的计算可以通过一个流向图来表示，在这种图中每一个节点表示一个基本的计算以及一个计算的值，计算的结果被应用到这个节点的子节点的值。深度学习模拟了人类认知过程逐层进行，逐步抽象的过程，即首先学习简单的概念，然后用这种方法去表示更抽象的思想和概念。这种方法已经成功应用于计算机视觉、语音识别等领域，尽管近年来深度学习方法应用于自然语言处理的应用受到了很大的关注，但大多基于模型的设计，缺乏对知识的引入。

就文本内容的表示技术而言，传统的自媒体文本内容表示学习大多基于词袋模型并采用独热等词表示方法，这将不可避免地造成词与词之间严重的“词汇鸿沟”现象，即语义相近的词在向量表示中也是相互正交的。虽然这些方法在表示传统的文本时比较有效，但应用于自媒体文本表示则会出现严重的数据稀疏问题。传统的方法通常采用手工特征进行自媒体文本内容表示学习的特征提取，但这种方法依赖于人工经验，对于一些专业领域的自媒体数据则需要相应的专家构建知识库才能较好地实现这些数据文本的表示。

现有技术中有各种数据文本分析方法，但这些数据文本分析方法大多是针对常见或者部分特殊领域的自媒体数据文本内容进行分析，而且这些分析方法通常只采用简单的文本编码对数据进行简单的拟合，缺乏对数据分布的描述，因此造成文本表示不准确等问题。

发明内容

本发明之目的是提供一种基于递归变分自编码模型的自媒体数据文本表示方法，其编码性能高，能够更好地适应自媒体数据的编码表示，并且在对数据的内容进行拟合的同时还能够对数据的分布进行描述。

本发明提供一种基于递归变分自编码模型的自媒体数据文本表示方法，其中，该方法包括以下步骤：

步骤S100、对输入的语料文本进行预处理，得到编码序列；

步骤S200、对所述编码序列采用递归神经网络编码模型进行编码，生成固定维度的文本向量；

步骤S300、由所述固定维度的文本向量生成均值向量和方差向量，然后从标准正态分布中采集样本，利用所述均值向量、所述方差向量和所述样本采用变分推理的方法生成潜在编码表示z；

步骤S400、将所述潜在编码表示z采用递归神经网络解码模型进行解码得到解码序列，计算所述编码序列和所述解码序列之间的编码损失，以及所述潜在编码表示z和标准正态分布之间的散度，利用所述编码损失和所述散度更新递归变分自编码模型的参数。

作为优选方式，其中，步骤S100中对输入的语料文本进行预处理包括以下步骤：

步骤S110、过滤每条输入的所述语料文本，并去掉所述语料文本的标签、标签符以及链接，并对所述语料文本的内容进行分词处理生成文本T；

步骤S120、对所述语料文本中的词进行统计，并生成所述语料文本中词的词典，对每个所述语料文本中的词进行向量初始化，其中，每个所述语料文本中的词的初始化向量维度根据实验表现设置；

步骤S130、对所述文本T进行依存结构分析，并对分析后的结构进行序列化处理得到编码序列。

作为优选方式，其中，在步骤S130中还包括：

采用斯坦福的依存分析器对所述文本T进行文本内容分析生成依存树结构；

对所述依存树结构进行二叉树的序列化处理得到所述编码序列。

作为优选方式，其中，步骤S200中对所述编码序列采用递归神经网络编码模型进行编码，编码时采用的词向量包括所述初始化向量和/或预先训练的词向量。

作为优选方式，其中，步骤S200中对所述编码序列采用递归神经网络编码模型进行编码，生成固定维度的文本向量包括以下步骤：

S210、选择两个子节点c₁和c₂，由所述c₁和所述c₂生成第一个父节点p₁；

S220、由生成的所述父节点p₁与所述编码序列中的词构成新的子节点生成第二个父节点p₂；

S230、以步骤S220递归编码，每次由一个父节点和一个所述编码序列中的词生成新的父节点，直到所述编码序列中所有的词被编码位置；其中，

在编码的过程中，编码权重W_e在每次编码时均被共享，以便使编码生成的文本编码表示为所述固定维度的向量。

作为优选方式，其中，步骤S300中通过恒等映射生成所述均值向量和所述方差向量。

作为优选方式，其中，步骤S300中包括：

在标准正太分布中采集用于生成所述潜在编码表示z的变量，所述变量的分布表示用于模型训练时的散度计算；

所述变量与所述方差向量求积，然后将得到的乘积与所述均值向量求和，进而得到所述潜在编码表示z。

作为优选方式，其中，步骤S400中所述潜在编码表示z的解码过程包括以下步骤：

S410、在所述编码表示z的基础上生成一个维度为所述编码表示z两倍的输入向量x，其中，所述输入向量x的一部分为子节点c，另一部分为用于解码父节点p；

S420、继续对所述父节点p解码，得到新的子节点c₁＇和p₁＇，其中，所述p₁＇为用于解码的新的父节点；

S430、以步骤S420递归解码，每次由一个新的子节点作为下一步解码的父节点进行解码，直到生成与所述编码序列长度相同的所述解码序列为止。

作为优选方式，其中，步骤S400中通过欧氏距离计算得到所述解码序列与所述编码序列之间的编码损失。

作为优选方式，其中，步骤S400中通过反向传播算法更新所述递归变分自编码模型的参数。

本发明具有以下优点和有益效果：

1、本发明的基于递归变分自编码模型的自媒体数据文本表示方法，在文本内容的表示方面，克服了传统在自媒体数据文本内容表示时缺乏上下文导致的表示问题，且该方法通过现有的文本处理工具为文本内容的表示引入经验知识，提高了文本表示的性能。

2、本发明的基于递归变分自编码模型的自媒体数据文本表示方法，采用递归神经网络的编码模型，不但能够用于对文本内容进行顺序编码，还可以对具有树结构的文本内容进行编码，从而有效避免了传统方法只能对文本内容进行顺序编码的不足，更好地结合文本的真实结构对其进行表示，进而使编码表示的结构更加符合实际需求。

3、本发明的基于递归变分自编码模型的自媒体数据文本表示方法，利用变分推理的方法更好的体现了深度学习方法模拟数据的真实分布的过程。

4、本发明的基于递归变分自编码模型的自媒体数据文本表示方法，采用展开的递归神经网络解码模型，能够重构文本的输入内容，并通过欧氏距离计算等方式来度量模型的编码性能，并通过跟新模型参数来优化模型对自媒体数据文本内容的表示。

5、本发明的基于递归变分自编码模型的自媒体数据文本表示方法，通过引入标准正态分布并计算输入文本的均值向量和方差向量的到潜在编码表示z，而潜在编码表示z蕴含了词向量知识、文本结构等知识，且满足一定的分布，并可以根据需要设定向量的维度，比传统的递归编码向量含有更多的特征信息，有利于文本的表示和计算。

6、本发明的基于递归变分自编码模型的自媒体数据文本表示方法，能够利用编码损失和散度更新递归变分自编码模型的参数，进而优化模型并更好的拟合训练数据，提高编码性能。

附图说明

下面将简要说明本申请所使用的附图，显而易见地，这些附图仅用于解释本发明的构思。

图1是本发明的基于递归变分自编码模型的自媒体数据文本表示方法的流程图；

图2是本发明的基于递归变分自编码模型的自媒体数据文本表示方法的采用依存分析器得到的文本依存结构的流程图；

图3是本发明的基于递归变分自编码模型的自媒体数据文本表示方法采用递归神经网络编码模型进行编码的结构示意图；

图4是本发明的基于递归变分自编码模型的自媒体数据文本表示方法生成均值向量和方差向量的流程图；

图5是本发明的基于递归变分自编码模型的自媒体数据文本表示方法的从正太分布中采样变量并生成潜在编码表示的流程图；

图6是本发明的基于递归变分自编码模型的自媒体数据文本表示方法的递归变分自编码模型的结构示意图。

具体实施方式

在下文中，将参照附图描述本发明的基于递归变分自编码模型的自媒体数据文本表示方法的实施例。

在此记载的实施例为本发明的特定的具体实施方式，用于说明本发明的构思，均是解释性和示例性的，不应解释为对本发明实施方式及本发明范围的限制。除在此记载的实施例外，本领域技术人员还能够基于本申请权利要求书和说明书所公开的内容采用显而易见的其它技术方案，这些技术方案包括对在此记载的实施例做出任何显而易见的替换和修改的技术方案。

本说明书的附图为示意图，辅助说明本发明的构思，示意性地表示各部分的形状及其相互关系。请注意，为了便于清楚地表现出本发明实施例的各部分的结构，各附图之间不一定按照相同的比例绘制。相同或相似的参考标记用于表示相同或相似的部分。

参见图1，本发明提供一种基于递归变分自编码模型的自媒体数据文本表示方法，其中，该方法包括以下步骤：

步骤S100、对输入的语料文本进行预处理，得到编码序列；

步骤S200、对编码序列采用递归神经网络编码模型进行编码，生成固定维度的文本向量；

步骤S300、由固定维度的文本向量生成均值向量和方差向量，然后从标准正态分布中采集样本，利用均值向量、方差向量和样本采用变分推理的方法生成潜在编码表示z；

步骤S400、将潜在编码表示z采用递归神经网络解码模型进行解码得到解码序列，计算编码序列和解码序列之间的编码损失，以及潜在编码表示z 和标准正态分布之间的散度，利用编码损失和散度更新递归变分自编码模型的参数。

本发明的方法中通过计算得到的潜在编码表示z蕴含了词向量知识、文本结构等知识，且满足一定的分布，并可以根据实际需要设定向量的维度，现对于传统的递归编码向量含有更多的特征信息，有利于文本的表示和计算，并且降低编码维度，提高了计算效率。另外，本发明的方法通过利用潜在编码计算编码序列和解码序列之间的编码损失，以及潜在编码表示z和标准正态分布之间的散度，利用编码损失和散度自动更新递归变分自编码模型的参数，从而有效的提高了模型的编码性能，并且输入不同文本，该递归变分自编码模型可以根据文本的内容自动更新参数，进而使不同的文本均能得到准确的表示。

进一步地，在本发明的步骤S100中对输入的语料文本进行预处理中还包括以下步骤：

步骤S110、过滤每条输入的语料文本，并去掉语料文本的标签、标签符以及链接，并对语料文本的内容进行分词处理生成文本T；

步骤S120、对语料文本中的词进行统计，并生成语料文本中词的词典，对每个语料文本中的词进行向量初始化，其中，每个语料文本中的词的初始化向量维度根据实验表现设置；

步骤S130、对文本T进行依存结构分析，并对分析后的结构进行序列化处理得到编码序列。

进一步地，步骤S130中采用斯坦福的依存分析器对文本T进行文本内容分析生成依存树结构；对依存树结构进行二叉树的序列化处理得到编码序列。通过将文本进行结构分析能够克服传统方法只能对文本内容进行顺序编码的不足，更好地结合文本的真实结构进行表示，更加符合实际需求。

图2是本发明的基于递归变分自编码模型的自媒体数据文本表示方法的采用依存分析器得到的文本依存结构的流程图。下面结合图2和具体的实施例来进一步说明本发明的方法。

图2表示对自媒体数据文本内容“My cat also likes eating fish andhamburger”的输入通过依存分析器进行文本结构分析的过程。在输入的自媒体文本数据经过依存分析器后生文本的依存树结构，文本中的词“likes”连接了“My cat”和“eatingfish and hamburger”两个部分的内容，其中副词“also”修饰动词“likes”，而“My cat”又由词“My”和“cat”构成，“eating fish and hamburger”又可以进一步被分成“eating”和“fish and hamburger”两部分，“fish”和“hamburger”则由连词“and”构成并列的结构。通过上述依存分析工具，可以利用外部资源的知识把自媒体数据文本的结构进行显式表示，并通过这种显式的结构表示编码。这样的结构直观的描述出了各个词语之间的依存关系，指出了词语之间在句法上的搭配关系，并且这种搭配关系与语义相关联，进而使编码表示的上下文之间更加连贯。

进一步地，步骤S200中对编码序列采用递归神经网络编码模型进行编码，编码时采用的词向量包括初始化向量和/或预先训练的词向量，这样就可以引入经验知识，从而减少编码计算量，提高编码效率。

具体地，步骤S200中对编码序列采用递归神经网络编码模型进行编码，生成固定维度的文本向量包括以下步骤：

S210、选择两个子节点c₁和c₂，由c₁和c₂生成第一个父节点p₁；

S220、由生成的父节点p₁与编码序列中的词构成新的子节点生成第二个父节点p₂；

S230、以步骤S220递归编码，每次由一个父节点和一个编码序列中的词生成新的父节点，直到编码序列中所有的词被编码位置；其中，

在编码的过程中，编码权重W_e在每次编码时均被共享，以便使编码生成的文本编码表示为固定维度的向量。

图3表示对自媒体数据文本内容编码表示的过程，这里以采用了递归神经网络来对输入序列x＝w₁,w₂,…,w₄进行编码表示为例描述编码过程。该编码结构首先把输入的词向量w₁和w₂进行串联，表示成一个维度为2n的子节点向量[c₁；c₂]，需要注意的是(w₁,w₂)＝(c₁,c₂)，然后利用公式p＝f(W_e[c₁；c₂]+b_e)经过p₁＝f(W_e[w₁；w₂]+b_e)的计算得到父节点p₁，再把w₃和计算得到的p₁组合表示成新的[c₁；c₂]，即(c₁,c₂)＝(p₁,w₃)，再利用公式p＝f(W_e[c₁；c₂]+b_e)经过 p₂＝f(W_e[p₁；w₃]+b_e)的计算得到父节点p₂，再经过p₃＝f(W_e[p₂；w₄]+b_e)计算得到父节点p₃，然后依次递归直到编码序列中的词都被编码位置。由于递归编码模型利用这种二元组合进行文本表示，因此需要把文本按照一定的方式表示成二元结构，而步骤S130中对文本进行依存结构分析就是将文本的顺序结构表示为层级结构的过程，进而扩大了本发明方法模型的适用性。

进一步地，在步骤S300中通过恒等映射生成均值向量和方差向量。

如图4和图5是通过得到的编码表示进行变分推理的过程，由于生成的潜在向量表示z需要满足服从分布N(μ,σ)的条件，其中μ表示生成的均值向量，而σ表示生成的方差向量，其中，生成均值向量和方差向量的过程如图4所示。如图5所示，由z＝μ+εσ生成潜在编码表示，其中ε～N(0,I)。在标准正太分布中采集用于生成潜在编码表示z的变量，变量的分布表示用于模型训练时的散度计算；变量与方差向量求积，然后将得到的乘积与均值向量求和，进而得到潜在编码表示z。即图4和图5描述了采用变分推理的编码表示进行重新参数化的处理，由于生成的编码表示z服从分布N(μ,σ)，因此其得到的编码的分布为一个区域而不是单个点，即更好的描述了数据的分布。

具体地，步骤S400中潜在编码表示z的解码过程包括以下步骤：S410、在编码表示z的基础上生成一个维度为编码表示z两倍的输入向量x，其中，输入向量x的一部分为子节点c，另一部分为用于解码父节点p；S420、继续对父节点p解码，得到新的子节点c₁＇和p₁＇，其中，p₁＇为用于解码的新的父节点；S430、以步骤S420递归解码，每次由一个新的子节点作为下一步解码的父节点进行解码，直到生成与编码序列长度相同的解码序列为止。

图6是本发明的基于递归变分自编码模型的自媒体数据文本表示方法的递归变分自编码模型的结构示意图。由图可知，本发明的方法在得到潜在编码表示z后，由生成的潜在编码表示z转换成用于解码的输入表示，例如若自媒体数据文本内容的词向量的维度为100维，而生成的编码表示z的向量维度为50维，则需要通过神经网络的处理使其转换成100维的向量表示。在转换编码后得到用于生成子节点的编码表示p₃＇，下面同样以生成编码的四个词的输入为例进行解码说明，首先由p₃＇通过解码矩阵W_d生成一个200维的向量，该向量分成两个部分，前100维为解码得到的w₄＇，后100维为后续解码的父节点p₂＇，通过父节点p₂＇再生成w₃＇和父节点p₁＇，再由该父节点生成w₂＇和w₁＇，实现模型的解码过程，通过欧氏距离计算得到解码序列与编码序列之间的编码损失，通过反向传播算法更新递归变分自编码模型的参数并优化模型。通过模型的编码和解码可以完成编码文本的输入以及重构文本输入，实现无监督的自媒体数据文本内容的表示，由于其无监督的特性，从而能够更好地适应自媒体数据的编码表示。

本发明的方法通过递归神经网络编码模型和递归神经网络解码模型对输入的自媒体数据文本进行编码，然后计算出潜在编码表示z，然后通过对潜在编码表示z进行解码，在通过计算编码损失和潜在编码表示z与标准正态分布之间的散度，利用该编码损失和散度更新递归变分自编码模型的参数，提高模型的编码性能。并且，该模型能够根据不同的输入文本生成不同的潜在编码表示z，进而实现对不同输入文本进行准确的编码表示。

以上对本发明的基于递归变分自编码模型的自媒体数据文本表示方法的实施方式进行了说明。对于本发明的基于递归变分自编码模型的自媒体数据文本表示方法的具体特征可以根据上述披露的特征的作用进行具体设计，这些设计均是本领域技术人员能够实现的。而且，上述披露的各技术特征并不限于已披露的与其它特征的组合，本领域技术人员还可根据本发明之目的进行各技术特征之间的其它组合，以实现本发明之目的为准。

Claims

1.一种基于递归变分自编码模型的自媒体数据文本表示方法，其中，该方法包括以下步骤：

步骤S100、对输入的语料文本进行预处理，得到编码序列；

2.如权利要求1所述的基于递归变分自编码模型的自媒体数据文本表示方法，其中，步骤S100中对输入的语料文本进行预处理包括以下步骤：

3.如权利要求2所述的基于递归变分自编码模型的自媒体数据文本表示方法，其中，在步骤S130中还包括：

4.如权利要求1所述的基于递归变分自编码模型的自媒体数据文本表示方法，其中，步骤S200中对所述编码序列采用递归神经网络编码模型进行编码，编码时采用的词向量包括所述初始化向量和/或预先训练的词向量。

5.如权利要求1所述的基于递归变分自编码模型的自媒体数据文本表示方法，其中，步骤S200中对所述编码序列采用递归神经网络编码模型进行编码，生成固定维度的文本向量包括以下步骤：

6.如权利要求1所述的基于递归变分自编码模型的自媒体数据文本表示方法，其中，步骤S300中通过恒等映射生成所述均值向量和所述方差向量。

7.如权利要求1所述的基于递归变分自编码模型的自媒体数据文本表示方法，其中，步骤S300中包括：

8.如权利要求1所述的基于递归变分自编码模型的自媒体数据文本表示方法，其中，步骤S400中所述潜在编码表示z的解码过程包括以下步骤：

9.如权利要求1所述的基于递归变分自编码模型的自媒体数据文本表示方法，其中，步骤S400中通过欧氏距离计算得到所述解码序列与所述编码序列之间的编码损失。

10.如权利要求1所述的基于递归变分自编码模型的自媒体数据文本表示方法，其中，步骤S400中通过反向传播算法更新所述递归变分自编码模型的参数。