CN112597769B

CN112597769B - 一种基于狄利克雷变分自编码器的短文本主题识别方法

Info

Publication number: CN112597769B
Application number: CN202011482778.2A
Authority: CN
Inventors: 饶洋辉; 丁诚
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2022-06-03
Anticipated expiration: 2040-12-15
Also published as: CN112597769A

Abstract

本发明提供一种基于狄利克雷变分自编码器的短文本主题识别方法，包括以下步骤：S1.将短文本数据集进行预处理，分词、去停用词、标点符号和数字，得到数据集的文本特征向量；S2.训练进行聚类，确定短文本集合中各短文本所属类别，该类别作为短文本的补充特征信息；S3.构建条件变分神经主题模型，得到语料集中的文档‑主题分布以及主题‑词分布；S4.短文本主题识别，得到短文本的补充特征信息作为短文本的特征表示，用于文本的分类和聚类。本发明提供了一种基于狄利克雷变分自编码器的短文本主题识别方法，加速了模型训练，解决了短文本主题模型特征稀疏的问题，在进行短文本主题识别的同时，增强了短文本的分类和聚类效果。

Description

一种基于狄利克雷变分自编码器的短文本主题识别方法

技术领域

本发明涉及短文本技术领域，更具体地，涉及一种基于狄利克雷变分自编码器的短文本主题识别方法。

背景技术

随着互联网的蓬勃发展，网络成为人们获取信息的重要来源。文本作为主要的信息载体，在网络信息传播中发挥着重要作用。许多数据分析应用如微博、短信、评论都涉及到从短文本中提取主题信息，并且，提取出潜在主题有利于下一步的分析，如情感分析、文本分类、推荐***等。然而，由于短文本数据文本字数少、书写随意的特性，我们很难直接从短文本数据中提取信息。

中国专利公开号CN107798043A，公开日期2017年6月28日，该专利申请公开了一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法，提出了主题相关长文本辅助短文本的思想，辅助的基础是长文本与短文本共享相同的主题词语分配。为了更好地提升聚类效果，该发明能够自动判断长文本中的有用词和噪音词，利用长文本中高质量的有用词与短文本集合进行文本聚类。现有的短文本主题模型主要是基于变分推断和吉布斯采样方法的，它们通过引入额外的长文本语料信息来解决短文本特征稀疏的问题，这种方式虽然可行，但存在以下两个问题：一方面，变分推断和吉布斯采样一类方法收敛速度较慢，再引入长文本语料信息将会带来相当高的时间消耗。另一方面，这类方法基于概率图框架推导原理复杂，如果在原有模型基础上引入新的信息又需重新推导，因此存在可拓展性差的问题。

发明内容

本发明的目的在于克服现有技术训练速度慢、时间复杂度高，可拓展性差、短文本特征稀疏的缺点，本发明提供了一种基于狄利克雷变分自编码器的短文本主题识别方法，加速了模型训练，解决了短文本主题模型特征稀疏的问题，在进行短文本主题识别的同时，增强了短文本的分类和聚类效果。

为解决上述技术问题，本发明采用的技术方案是：一种基于狄利克雷变分自编码器的短文本主题识别方法，其中包括以下具体步骤：

S1.将短文本数据集进行预处理，分词、去停用词、标点符号和数字，得到数据集的文本特征向量；

S2.基于步骤S1预处理得到的文本特征向量训练进行聚类，确定短文本集合中各短文本所属类别，该类别作为短文本的补充特征信息；

S3.基于步骤S1得到的文本特征向量和步骤S2得到的短文本的补充特征信息构建条件变分神经主题模型，得到语料集中的文档-主题分布以及主题-词分布；

S4.基于步骤S3得到的主题-词分布用于短文本主题识别，步骤S3得到的文档-主题分布结合步骤S2得到短文本的补充特征信息作为短文本的特征表示，用于文本的分类和聚类。

进一步的，所述步骤S2中采用的是K-Means聚类方法。

进一步的，所述步骤S3具体包括以下步骤：

S31.初始化模型参数，需要初始化的模型参数包括超参数{α⁰，β，λ，N，K}，其中α⁰是狄利克雷先验分布，β是学习率，λ是KL散度影响因子，N是隐藏层神经元数，K是主题数；

S32.基于步骤S1得到的文本特征向量和步骤S2得到的短文本的补充特征信息构建推断网络；

S33.基于步骤S32构建的推断网络得到的隐向量和步骤S2得到的短文本的补充特征信息构建生成网络；

S34.使用主题空间的冗余抑制解决主题冗余的问题。

进一步的，所述步骤S32中构建推断网络包括以下步骤：

S321.将步骤S1得到的文本特征向量和步骤S2的补充特征信息作为推断网络的输入；

S322.将步骤S321通过线性连接层、Relu激活函数和dropout层得到隐藏层向量，隐藏层向量维度由超参数N决定；

S323将步骤S322得到的隐藏层向量通过Batchnorm层，线性连接层，再经过softplus激活函数得到后验分布的参数α；

S324.基于步骤S323得到的后验分布参数α，使用重参数技巧得到文档-主题分布；

S325.计算步骤S313得到的后验分布与狄利克雷先验分布的KL散度。

优选的，所述步骤S324中使用拒绝采样重参数技巧或者逆累积分布重参数技巧得到文档-主题分布。

进一步的，所述步骤S325中KL散度采的计算公式如下文所示：

其中Γ是gamma函数，Ψ是digamma函数，K是主题数，α_k是后验分布参数，

是先验分布参数。

进一步的，所述步骤S33中构建生成网络包括以下具体步骤：

S331.将步骤S324得到的文档-主题分布通过线性连接层、Batchnorm层得到隐藏层向量，该步骤中的可训练矩阵W为主题-词分布；

S333.将步骤S332得到的是隐藏层向量，经过softmax激活函数得到生成短文本的概率；

S334.基于步骤S333生成短文本的概率，使用对数似然作为误差函数，

其中V是词表大小，log(p(x_v|z_v))是生成每个单词的概率。

进一步的，所述步骤S34中主体空间的冗余抑制具体包括以下步骤：

S341.使用隐含主题单元(β_i,β_j)之间的距离作为反余弦指标；

S342.计算主体单集合Z中K个主体的平均距离μ(Z)和平方差σ(Z)；

S343.计算主体单元离散程度的指标，该指标作为目标函数的正则项R(Z)。

进一步的，所述步骤S343中，目标函数为L＝λ*L1+L2+ρ*R(Z)，λ是超参数KL散度影响因子，ρ为正则项系数。

进一步的，所述正则项R(Z)的计算公式如下：R(Z)＝μ(Z)-σ(Z)。

与现有技术相比，本发明的有益效果是：

本发明通过构建狄利克雷变分自编码器以及引入聚类得到的文本补充信息，有效缓解了短文本特征稀疏问题，并且通过将文本补充信息与变分自编码器模型相结合，使用主题空间的冗余抑制正则项，有效缓解主题冗余问题，改进了主题识别的主题一致性、文本分类与聚类的结果，特别是与现有技术相比，本发明方法基于变分自编码器结构，训练简单，可解释性和可拓展性强，以及能够使用GPU进行加速，因此能够快速进行大语料短文本的识别，充分提升主题识别效率；本发明可以得到文档-主题分布和主题-词分布，能够广泛应用于情感分析、短文本主题识别、文本分类聚类、机器翻译等领域。

附图说明

图1为本发明的流程示意图。

图2为本发明中网络结构示意图

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

实施例1

如图1至图2所示为本发明一种基于狄利克雷变分自编码器的短文本主题识别方法的第一实施例。一种基于狄利克雷变分自编码器的短文本主题识别方法，其中，包括以下具体步骤：

本实施例采用的短文本数据集为20news新闻文本数据集，步骤S1中的对获取的短文本数据集进行预处理，分词、词根还原、去停用词、去掉高频词和低频词、标点符号和数字等工作，得到文本特征向量。本实施例采用词袋特征向量和tfidf特征向量，定义文本集的词袋特征向量为

tfidf特征向量为

其中V为词表大小。

步骤S2，基于步骤S1得到的tfidf特征向量

采用K均值(K-Means)聚类方法对短文本的补充特征信息进行聚类。K-Means是一种常见的、应用广泛的聚类方法，将各类别下的短文本特征向量的均值作为聚类中心，收敛速度快，效果较优，能拓展并用于更大规模的短文本数据集。对于短文本特征向量进行一个初步的K-Means聚类之后，每个短文本就可以被划分到一个特定的类别，该类别可以作为短文本的补充特征信息。本实施例中取类别数K′＝20，初步聚类后将短文本的补充特征信息表示为独热编码编码向量

步骤S3，针对短文本集的每一篇文本，本发明实施例使用步骤S1的词袋特征向量

和

以及步骤S2得到的短文本的补充特征信息构建条件变分神经主题模型，具体包括步骤以下步骤；

S31初始化模型参数，需要初始化的模型参数为{α⁰，β，λ，N，K}，其中α⁰是狄利克雷先验分布，β是学习率，λ是KL散度影响因子，N是隐藏层神经元数，K是主题数。本实施例中使用α⁰＝0.1，β＝0.001，N＝100,K＝50，λ初始值为0，随着训练次数慢慢增大。

S32.基于词袋特征向量

和短文本的补充特征信息得到向量

构建推断网络，具体又包括以下步骤：

S321.将词袋特征向量

和短文本的补充特征信息向量

共同作为推断网络的输入

S322.将步骤S3.2.1的输入向量

通过线性连接层、Relu激活函数和dropout层得到隐藏层向量

隐藏层向量维度由N决定；

其中W₁为可训练的权重矩阵，

为可训练的偏置向量；

S323.将步骤S312得到的隐藏层向量

通过Batchnorm层，线性连接层，再经过softplus激活函数得到后验分布的参数

其中W₂为可训练的权重矩阵，

为可训练的偏置向量，

为中间层向量；

S324.基于步骤S323得到的后验分布参数

使用重参数技巧得到文档-主题分布

本发明实施例使用逆累积分布重参数技巧，并且

其中μ是从均匀分布中采样的样本。

S325.根据步骤S323得到的后验分布参数

与狄利克雷先验分布的KL散度，

是先验分布参数；

S33.基于步骤S32得到的文档-主题分布

和步骤S2得到的短文本的补充特征信息向量

构建生成网络，本发明实例具体包括以下步骤：

S331.将文档-主题分布

与短文本的补充特征信息向量

共同作为输入，通过线性连接层、BatchNorm层得到隐藏层向量

其中可训练的权重矩阵W₃为主题-词分布，

为可训练的偏置向量。

S332.将步骤S331得到的是隐藏层向量

经过softmax激活函数得到生成短文本的概率：

S333.基于步骤S332生成短文本的概率

使用对数似然作为误差函数；

其中V是词表大小；

S34.使用主题空间的冗余抑制以解决主题冗余的问题，具体步骤如下：

S341.使用隐含主题单元(β_i,β_j)之间的距离作为反余弦指标：

S342.计算主题单元集合Z中K个主题的平均距离和方差：

S343.计算主题单元离散程度的指标,该指标作为目标函数的正则项：

R(Z)＝μ(Z)-σ(Z)

根据步骤S32得到的KL散度L₁步骤、S33得到的对数似然误差函数L₂和步骤S34得到的正则项R(Z)，得到模型最终的目标误差函数为L＝λ*L₁+L₂+ρ*R(Z)，其中λ是超参数KL散度影响因子，ρ为正则项系数

本实施例中，步骤S4使用步骤S3得到的主题-词分布矩阵W₃进行短文本主题识别，使用步骤S3得到的文档-主题分布

结合步骤S2得到短文本的补充特征信息向量

作为短文本的特征表示，进行文本的分类和聚类。

本实施例中能够得到文档-主题分布和主题-词分布，提升主题识别效率，识别更大规模的短文本数据集，并与其他下游任务如情感分析、短文本主题识别、文本分类聚类、机器翻译等领域相结合。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于狄利克雷变分自编码器的短文本主题识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于狄利克雷变分自编码器的短文本主题识别方法，其特征在于：所述步骤S2中采用的是K-Means聚类方法。

3.根据权利要求1所述的一种基于狄利克雷变分自编码器的短文本主题识别方法，其特征在于：所述步骤S3具体包括以下步骤：

S34.使用主题空间的冗余抑制解决主题冗余的问题。

4.根据权利要求3所述的一种基于狄利克雷变分自编码器的短文本主题识别方法，其特征在于：所述步骤S32中构建推断网络包括以下步骤：

5.根据权利要求4所述的一种基于狄利克雷变分自编码器的短文本主题识别方法，其特征在于：所述步骤S324中使用拒绝采样重参数技巧或者逆累积分布重参数技巧得到文档-主题分布。

6.根据权利要求4所述的一种基于狄利克雷变分自编码器的短文本主题识别方法，其特征在于：所述步骤S325中KL散度采的计算公式如下文所示：

是先验分布参数。

7.根据权利要求6所述的一种基于狄利克雷变分自编码器的短文本主题识别方法，其特征在于：所述步骤S33中构建生成网络包括以下具体步骤：

其中V是词表大小，log(p(x_v|z_v))是生成每个单词的概率。

8.根据权利要求7所述的一种基于狄利克雷变分自编码器的短文本主题识别方法，其特征在于：所述步骤S34中主体空间的冗余抑制具体包括以下步骤：

S341.使用隐含主题单元(β_i,β_j)之间的距离作为反余弦指标；

9.根据权利要求8所述的一种基于狄利克雷变分自编码器的短文本主题识别方法，其特征在于：所述步骤S343中，目标函数为L＝λ*L1+L2+ρ*R(Z)，λ是超参数KL散度影响因子，ρ为正则项系数。

10.根据权利要求9所述的一种基于狄利克雷变分自编码器的短文本主题识别方法，其特征在于：所述正则项R(Z)的计算公式如下：R(Z)＝μ(Z)-σ(Z)。