CN114625879A

CN114625879A - 基于自适应变分编码器的短文本聚类方法

Info

Publication number: CN114625879A
Application number: CN202210299111.1A
Authority: CN
Inventors: 范青武; 王子栋
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-03-13
Filing date: 2022-03-13
Publication date: 2022-06-14

Abstract

基于自适应变分编码器的短文本聚类方法涉及文本聚类技术领域。首先，对短文本使用sentence‑Bert的方法进行文本表示；其次，使用自编码器将向量转化为低维特征向量，使用K‑means方法提取聚类中心；然后，使用聚类中心作为变分自编码器的期望均值对于输入向量进行预训练，转化为满足以聚类中心为期望均值的分布的特征向量；将特征向量根据K‑means算法构建分类器，通过分类后的分布对分类器与编码器的权重进行微调。最后根据微调后的编码器与分类器得到聚类结果。本发明能够很好的处理短文本聚类中的文本向量高维稀疏的问题，为短文本聚类提供了新的特征深度嵌入算法。

Description

基于自适应变分编码器的短文本聚类方法

技术领域

本发明涉及文本聚类技术，特别是涉及短文本的聚类以及相应的深度算法的构建。

背景技术

随着信息技术的迅速发展，各媒体平台上产生了海量的短文本数据，新闻推荐、用户调查、事件检测等多个领域都要求在短文本的数据中挖掘出有价值的信息。相对于长文本来说，短文本具有字数少、歧义以及信息不规范的特点，导致文本特征难以提取和表达。

短文本中大多数单词只出现一次，因此传统的基于词频的向量化方法不能很好的表达文本特征，稀疏的特征表示带来了词共现不足和上下文信息缺乏的问题。为了解决这些问题，许多词嵌入模型被提出，Word2vec、GloVe、ELMo、BERT。这些词嵌入模型基于大型的语料库进行训练，使用高维向量表示文本，这一定程度上丰富了短文本的特征，解决了文本向量稀疏的问题，但是也给聚类算法提出了更高的要求。

长期建立的聚类方法如K-means和高斯混合模型(Gaussian Mixture Model，GMM)在低维数据空间中表现较好，但对于高维数据空间效果较差。另一方面，深度神经网络作为一种有效特征嵌入的方法，可以将向量化的文本数据映射到低维的可分离的表示空间，降低了文本聚类算法的难度。

深度嵌入式聚类DEC便将聚类与深度嵌入学习相结合。它是Xie在2016年提出一种用深度神经网络同时学习特征表示和聚类分配的方法。DEC将数据从原始空间映射到低维特征空间，进行聚类软分配后，迭代优化聚类目标，这也成为深度嵌入聚类的beseline算法。但是DEC在进行深度嵌入时一般使用的是自编码器(Autoencoder，AE)，自编码器采用最小化输出与输入的均方差(Mean Squared Error，MSE)损失来优化网络参数。可以得到包含原始数据信息的低维特征向量，但因为没有对表征空间做规范，容易打乱数据的分布，造成不同的类在表示空间中交叉、重叠的现象。

发明内容

为解决上述提到的问题，本发明提出了一种基于自适应变分编码器的短文本聚类方法，目的是将能将文本向量化的高维特征转化成低维可分离特征，从而将语义相似的短文本准确的聚类。

基于自适应变分编码器的短文本聚类算法，该方法的步骤如下：

S1数据收集；

S2将文本输入到sentence-Bert中，转化成词向量；

S3使用自编码器对词向量进行预训练，得到降维编码器；

S4使用K-means对降维后的数据进行聚类，得到每一文本的聚类标签和聚类中心；

S5将文本词向量使用变分自编码器进行预训练，使用聚类中心作为期望均值训练编码器网络参数；

S6使用K-means对预训练编码器产生的特征向量做聚类，得到初始的聚类中心；

S7使用聚类中心对向量进行软分配；

S8使用辅助目标分布，从当前的高置信度分配中，学习更新预训练编码器并重新定义聚类质心；

S9重复S7、S8，满足收敛标准或迭代次数时，输出聚类结果。

附图说明

图1为基于自适应变分自编码器的短文本聚类算法具体细节示意图。

图2为基于自适应变分自编码器的短文本聚类算法的流程图。

具体实施方式

本发明提出一种基于自适应变分自编码器的短文本聚类算法，方法的主要流程如附图1所示：

结合附图1详细说明本发明的具体实施方式：

步骤S1，抽取文本数据集。从微博平台上抽取微博源文本，构建短文本的语料库D＝{(s_i，l_i)|1≤i≤n}，其中n为语料库D的文本数目。S＝{s₁，s₂，...，s_n}表示所有文本的文字表示。L＝{l₁，l₂，...，l_n}表明真实标签与s_n相对应。这里由于采用无监督聚类的方式，标签只用于最后结果的评价，不参与模型训练过程。

步骤S2，无需对文本数据进行预处理操作，使用Sentence-BERT对文本进行向量空间表示，以第i个短文本D_i为例，文本表示为D_i＝{x_i：x_i∈R^m}，其中m为转化的句向量维度，生成的句向量维度由采用的模型决定，这里采用模型维度为384。

步骤S3，使用自动编码器训练文本向量，对于转化为的句向量x_i∈R^m。构建编码器对原始数据进行编码：

Z_i＝f_φ(x)＝σ_e(W_ex_i+b_e)∈R^l#(1)

在使用解码器对原始数据进行解码：

损失函数为最小化重建误差：

其中x_i、

和z_i分别是输入数据、输出数据和潜在变量，f_φ和g_ψ分别表示编码器和解码器的转化函数。σ是激活函数这里选用ReLU(x)，W_e和b_e是权重和偏差，其中e和d分别表示编码器和解码器。

自动编码器往往通过最小化重建误差，更新网络权重W_e与偏差b_e，在完成设定的迭代次数t后，得到一个编码器f_φ(x)：X∈R^m→Z∈R^l。t取决于网络的复杂程度，本发明设置t为10，其中Z是潜在的特征空间，这里的m为上文中提到的输入句向量的维度384维，l为隐层的维度与聚类文本的聚类目标类别k相同，由于聚类类别k小于输入维度d因此得到降维编码器f_φ(x)。

步骤S4，使用K-means作为聚类算法对降维后的文本z_i进行聚类。这里采用了欧式距离作为K-means算法的距离度量，K-means的目标是旨在选择集群中的质心μ_k，能够最小化簇内平方和：

这一步聚类的目的是找到质心

和每一条文本对应的文本类别k。本文通过类别k和质心

得到每一文本的期望均值记为

步骤S5，采用深度自编码器的网络的配置加深变分自编码器的网络层数。使用期望均值μ^*训练变分自编码器VAE。VAE旨在学习生成模型p(X，Z′)来最大化数据集的边缘似然log p(X)，Z′用于表示VAE中的表征空间，与AE中的空间做区分。由于对潜在变量进行难以处理的积分，因此不能直接计算边缘似然。为了解决这一问题，VAE引入了一个变分分布q_φ(Z′|X)，该变分分布由一个复杂的神经网络参数来逼近真实后验分布，优化证据下界(Evidence Lower Bound，ELBO)的logp(X)：

其中φ为推理损失，θ为解码器，上述的第一项是重建损失，第二项是近似后验和先验之间的KL散度。p(Z′)大多数的VAE中高斯分布

是先验的常用选择，近似后验分布q_φ(Z′|X)和先验p(Z′)可以计算为：

其中μ_i和σ_i分别为第i维表征空间向量的近似后验分布的均值和方差。

本发明使用步骤4中的聚类中心μ^*作为VAE的特征分布的期望均值，使p(Z′)变为

因此KL散度可以计算为：

VAE损失函数的第二项是和普通自编码器的差别，这里的根据数据集进行改进也是主要针对KL散度部分，如果没有这一项，那么基本上退化为常规的AE，本发明的提升也就失去了作用，这就是出现了KL散度消失的现象。

本发明通过推理网络μ_i的输出应用一个固定的批处理化(Batch Normalization，BN)，这是深度学习中广泛使用的一个正则化技术，不仅能使神经元输出正常变化，还是一种有效的防止梯度***的方法，不同于其他的将BN应用于隐藏层并寻求快速稳定训练的任务，这里利用BN作为工具将μ_i转换为固定均值和方差的分布。数学上，正则化的μ_i为

其中

和

表示BN前后的近似后验。μ_Bi和σ_Bi表示μ_i的均值和标准差，为样本的每个维度的有偏估计，γ和β是尺度的位移参数，这里使用一个固定的γ。

其中τ∈(0，1)是一个常数，本发明取τ＝0.5，而θ是可训练参数。这样μ_i的分布的均值为β和方差为γ²。β是一个可学习的参数，使得分布更加灵活，在本发明中设定为0。

改进的变分自编码器本发明称之为自适应变分自编码器SVAE，经过SVAE的预训练后，本发明取从输入到采样的过程作为SVAE的编码器。通过这一编码器，本发明对数据进行了非线性映射f(X)：X∈R^d→Z′∈R^c，这里的数据维度c与自编码器隐层中的数据维度相同，这里的设定参考聚类类别数目k。

步骤S6：使用K-means对表征空间的特征Z′进行聚类，得到聚类中心，该步的目的是作为DEC聚类层的初始权重。

步骤S7：使用K-means的聚类中心，计算在特征空间中的Z′每个数据点的软簇分配。使用单自由度t分布q_ij，以测量嵌入点z_i′和质心k_j之间的相似性：

其中z_i′＝f(x_i)∈Z′对应于嵌入后的x_i∈X，其中α是student的t分布的自由度，α取1。而q_ij可解释为将样本i分配给聚类j的概率(即软分配)。

步骤S8：使用辅助分布p_ij，提高聚类的纯度，并更加强调具有高可信度的数据点。辅助分布P中的概率p_ij计算如下：

通过软分配和目标分布匹配来微调，为此，本文将目标定义为软分配和辅助分类之间的KL散度所示，如下所示：

步骤S9：使用随机梯度下降(SGD)来联合优化簇中心k_j与SVAE中的编码器的参数θ，每个样本和每个簇中心的梯度计算如下：

使用K-means将作为初始化聚类层的权重，然后使用高置信度预测来确定编码器并分配类簇，重复步骤S7与S8，当达到迭代次数t1达到2000时，或类别标签变化率θ小于0.001后，通过取每一样本在质心上软分配q_ij的最大值即可完成对样本的分配与聚类。获得聚类结果。类别标签变化率θ计算如下

L_i与

分别为第i个文本的标签与上一次的标签，n为样本总量。

实验设置：本发明验证所采用的硬件环境为但不限于此：CPU为Inter Xeon4210R，主频为2.4GHz，内存使用64GB内存，显卡使用两张NVIDIA Gefore RTX 3060，操作***为windows 10。本发明使用了Sentence-BERT中的通用句子转换库，来实现了通用数据集的文本向量表示(paraphrase-multilingual-MiniLM-L12-v2)，该模型最大序列程度为128，可以将文本装换成384维的向量，模型大小为384MB，其使基于paraphrase-MiniLM-L12-v2模型的多语言版，针对50多种语言的并行数据进行训练，主要在AllNLI，sentence-compression，SimpleWiki，等多个数据集上训练。本发明在预训练过程中使用了Adam优化(Kingma and Ba，2015)，batch_size设置为64，预训练代数epoch设置为15，在预训练时采用的SAE上的编码器使用了[500，500，2000，20]的网络结构，解码器于其正好相反，在正式训练时的VAE中也有相同的部分。并在DEC中的训练过程中采用SGD优化器，并使用了0.1的学习率，设置了0.9的衰减率，最大的迭代次数为1500，batch size与预训练时采用了相同的配置。

实验使用数据集包含四个短文本聚类的英文数据集，与一个中文数据集：

(1)SearchSnippets：一个网页搜索片段的文本集合，包含了8个不同主题的分类。(2)Stackoverflow：一个问答网站帖子的集合，曾作为kaggle挑战的数据集。该数据集包含了20个不同类别中选择的问题标题。(3)Biomedical：PubMed数据集中的一个子集，其中从20组中随机选取了20000篇论文标题。(4)Tweet：由2472条Tweet数据，有89个类别。(5)本文使用了ChineseNEWS中文舆情数据集，是实际项目中使用的数据集，找寻了2017～2019年的6个典型的事件，通过事件关键词对相应的微博进行爬取，本文从每个事件中随机抽取2000条数据，获得总量为12000条数据集。为保证数据集的可靠性，通过人工对数据进行筛选，打标抽取出第7个事件“微博之夜”与一些和事件无关的文本为第8个类别，因此本文总共获得8个类别的数据集。

本发明与下面聚类算法做对比：

(1)Bow&TF-IDF：通过词语的频率对句子进行向量化计算，将句子转换维度为1500维的向量，并应用K-means算法进行聚类评估；(2)Sentence-BERT(SBERT)：通过Sentence-BERT，将文本转化为384维的向量，这也是本文使用的文本向量化方法，并应用K-means算法做聚类评估；(3)VaDE：将高斯混合模型与变分自编码器结合起来的产物。与本发明有相似的理念，都先通过自编码器进行与训练，不同之处在于其通过GMM来得到数据的初始先验，最后通过编码、解码、反向更新参数，最后完成对数据的特征嵌入与聚类；(4)STC2：有三个独立的阶段组成，对于每个数据集，它首先使用word2Vec方法预训练在大型语料库嵌入的单词。然后优化卷积神经网络以进一步丰富表示，将语句放入K-means中进行最后阶段的聚类；(5)Self-Train：利用SIF增强了Xu等人的与训练词嵌入，跟随Xie等人使用了深度嵌入的聚类算法，是一种通过分层与训练获得的自动编码器，然后进一步对其进行调优；(6)SCCL：模型由三个组件组成，对于每个数据集，数据包括原始数据和扩充数据，在经过一个神经网络将输入数据映射到表示空间，分别应用对比损失和聚类损失来优化编码器的参数，完成对文本的分类工作。

实验结果如表1所示。

表格1 文本聚类结果

本发明在表1中展示了算法在5个数据集中的结果。对于本发明使用的中文舆情数据集来说，SVAE在此基础上取得了最优的结果比优秀的聚类算法Self-Train中ACC上领先了3.1％个百分比，这是因为比AE来讲，VAE可以更好的改善隐空间中的特征的分布。

对于本发明使用的其他4个通用数据集上，可以看到SVAE在三种标准数据集中均有数据较好的结果。其中在StackOverflow上带来的巨大的提升，这一方面是由于文本向量化模型带来的提升，可以看到SBERT在该数据集上准确率同样很高，另一方面是SVAE提高了特征嵌入质量，在此基础上带来了更高的提升。在这之前，StackOverflow因为其类别与数量较多，很难有较好的聚类效果。本文提到的方法由于其很好的利用聚类算法的聚类中心，因此带来了较大的准确度的提升。

其中SVAE主要参考了Self-Train算法，比Self-Train在SearchSnippets和StackOverflow上ACC分别提升了4.5％和22.4％，其Biomedical指标降低主要是因为本文使用的通用词训练模型中包含该领域的内容较少，这个在SCCL中有相同的结论。SCCL的方法在SearchSnippets上ACC领先了3.6％，这是由于SCCL除了原始的数据集外，还通过增强数据集训练模型，除了聚类优化外还是用对比损失来优化编码器，使用了比SVAE更复杂的架构，但SVAE比SCCL在StackOverflow与Biomedical中ACC分别提升了6.7％与2％。结果验证了本文提出的框架的有效性和重要性，在通用语言库的背景下，充分利用先验的聚类信息，提高了算法对于不同数据集的适应能力。

Claims

1.基于自适应变分编码器的短文本聚类算法，其特征在于，步骤如下：

S1数据收集；

S2将文本输入到sentence-Bert中，转化成词向量；

S3使用自编码器对词向量进行预训练，得到降维编码器；

S7使用聚类中心对向量进行软分配；

S9重复S7、S8，满足收敛标准或迭代次数时，输出聚类结果。

2.根据权利要求1所述基于自适应变分编码器的短文本聚类算法，其特征在于：

在步骤S2中，无需对数据进行预处理操作，使用Sentence-BERT对文本进行向量空间表示；

在步骤S3中，使用自动编码器训练文本向量，对于转化为的句向量x_i∈R^m；构建编码器对原始数据进行编码：

z_i＝f_φ(x)＝σ_e(W_ex_i+b_e)∈R^l#(1)

在使用解码器对原始数据进行解码：

损失函数为最小化重建误差：

其中x_i、

和z_i分别是输入数据、输出数据和潜在变量，f_φ和g_ψ分别表示编码器和解码器的转化函数；σ是激活函数这里选用ReLU(x)，W_e和b_e是权重和偏差，其中e和d分别表示编码器和解码器；

自动编码器往往通过最小化重建误差，更新网络权重W_e与偏差b_e，在完成设定的迭代次数t后，得到一个编码器f_φ(x)：X∈R^m→Z∈R^l；t设置t为10，其中Z是潜在的特征空间，这里的m为上文中提到的输入句向量的维度384维，l为隐层的维度与聚类文本的聚类目标类别k相同，由于聚类类别k小于输入维度d因此得到降维编码器f_φ(x)；

在步骤S4中，使用K-means作为聚类算法对降维后的文本z_i进行聚类；这里采用了欧式距离作为K-means算法的距离度量，K-means的目标是旨在选择集群中的质心μ_k，能够最小化簇内平方和：