CN114625879A - 基于自适应变分编码器的短文本聚类方法 - Google Patents

基于自适应变分编码器的短文本聚类方法 Download PDF

Info

Publication number
CN114625879A
CN114625879A CN202210299111.1A CN202210299111A CN114625879A CN 114625879 A CN114625879 A CN 114625879A CN 202210299111 A CN202210299111 A CN 202210299111A CN 114625879 A CN114625879 A CN 114625879A
Authority
CN
China
Prior art keywords
clustering
encoder
text
distribution
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210299111.1A
Other languages
English (en)
Inventor
范青武
王子栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202210299111.1A priority Critical patent/CN114625879A/zh
Publication of CN114625879A publication Critical patent/CN114625879A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

基于自适应变分编码器的短文本聚类方法涉及文本聚类技术领域。首先,对短文本使用sentence‑Bert的方法进行文本表示;其次,使用自编码器将向量转化为低维特征向量,使用K‑means方法提取聚类中心;然后,使用聚类中心作为变分自编码器的期望均值对于输入向量进行预训练,转化为满足以聚类中心为期望均值的分布的特征向量;将特征向量根据K‑means算法构建分类器,通过分类后的分布对分类器与编码器的权重进行微调。最后根据微调后的编码器与分类器得到聚类结果。本发明能够很好的处理短文本聚类中的文本向量高维稀疏的问题,为短文本聚类提供了新的特征深度嵌入算法。

Description

基于自适应变分编码器的短文本聚类方法
技术领域
本发明涉及文本聚类技术,特别是涉及短文本的聚类以及相应的深度算法的构建。
背景技术
随着信息技术的迅速发展,各媒体平台上产生了海量的短文本数据,新闻推荐、用户调查、事件检测等多个领域都要求在短文本的数据中挖掘出有价值的信息。相对于长文本来说,短文本具有字数少、歧义以及信息不规范的特点,导致文本特征难以提取和表达。
短文本中大多数单词只出现一次,因此传统的基于词频的向量化方法不能很好的表达文本特征,稀疏的特征表示带来了词共现不足和上下文信息缺乏的问题。为了解决这些问题,许多词嵌入模型被提出,Word2vec、GloVe、ELMo、BERT。这些词嵌入模型基于大型的语料库进行训练,使用高维向量表示文本,这一定程度上丰富了短文本的特征,解决了文本向量稀疏的问题,但是也给聚类算法提出了更高的要求。
长期建立的聚类方法如K-means和高斯混合模型(Gaussian Mixture Model,GMM)在低维数据空间中表现较好,但对于高维数据空间效果较差。另一方面,深度神经网络作为一种有效特征嵌入的方法,可以将向量化的文本数据映射到低维的可分离的表示空间,降低了文本聚类算法的难度。
深度嵌入式聚类DEC便将聚类与深度嵌入学习相结合。它是Xie在2016年提出一种用深度神经网络同时学习特征表示和聚类分配的方法。DEC将数据从原始空间映射到低维特征空间,进行聚类软分配后,迭代优化聚类目标,这也成为深度嵌入聚类的beseline算法。但是DEC在进行深度嵌入时一般使用的是自编码器(Autoencoder,AE),自编码器采用最小化输出与输入的均方差(Mean Squared Error,MSE)损失来优化网络参数。可以得到包含原始数据信息的低维特征向量,但因为没有对表征空间做规范,容易打乱数据的分布,造成不同的类在表示空间中交叉、重叠的现象。
发明内容
为解决上述提到的问题,本发明提出了一种基于自适应变分编码器的短文本聚类方法,目的是将能将文本向量化的高维特征转化成低维可分离特征,从而将语义相似的短文本准确的聚类。
基于自适应变分编码器的短文本聚类算法,该方法的步骤如下:
S1数据收集;
S2将文本输入到sentence-Bert中,转化成词向量;
S3使用自编码器对词向量进行预训练,得到降维编码器;
S4使用K-means对降维后的数据进行聚类,得到每一文本的聚类标签和聚类中心;
S5将文本词向量使用变分自编码器进行预训练,使用聚类中心作为期望均值训练编码器网络参数;
S6使用K-means对预训练编码器产生的特征向量做聚类,得到初始的聚类中心;
S7使用聚类中心对向量进行软分配;
S8使用辅助目标分布,从当前的高置信度分配中,学习更新预训练编码器并重新定义聚类质心;
S9重复S7、S8,满足收敛标准或迭代次数时,输出聚类结果。
附图说明
图1为基于自适应变分自编码器的短文本聚类算法具体细节示意图。
图2为基于自适应变分自编码器的短文本聚类算法的流程图。
具体实施方式
本发明提出一种基于自适应变分自编码器的短文本聚类算法,方法的主要流程如附图1所示:
结合附图1详细说明本发明的具体实施方式:
步骤S1,抽取文本数据集。从微博平台上抽取微博源文本,构建短文本的语料库D={(si,li)|1≤i≤n},其中n为语料库D的文本数目。S={s1,s2,...,sn}表示所有文本的文字表示。L={l1,l2,...,ln}表明真实标签与sn相对应。这里由于采用无监督聚类的方式,标签只用于最后结果的评价,不参与模型训练过程。
步骤S2,无需对文本数据进行预处理操作,使用Sentence-BERT对文本进行向量空间表示,以第i个短文本Di为例,文本表示为Di={xi:xi∈Rm},其中m为转化的句向量维度,生成的句向量维度由采用的模型决定,这里采用模型维度为384。
步骤S3,使用自动编码器训练文本向量,对于转化为的句向量xi∈Rm。构建编码器对原始数据进行编码:
Zi=fφ(x)=σe(Wexi+be)∈Rl#(1)
在使用解码器对原始数据进行解码:
Figure BDA0003544229260000031
损失函数为最小化重建误差:
Figure BDA0003544229260000032
其中xi
Figure BDA0003544229260000033
和zi分别是输入数据、输出数据和潜在变量,fφ和gψ分别表示编码器和解码器的转化函数。σ是激活函数这里选用ReLU(x),We和be是权重和偏差,其中e和d分别表示编码器和解码器。
自动编码器往往通过最小化重建误差,更新网络权重We与偏差be,在完成设定的迭代次数t后,得到一个编码器fφ(x):X∈Rm→Z∈Rl。t取决于网络的复杂程度,本发明设置t为10,其中Z是潜在的特征空间,这里的m为上文中提到的输入句向量的维度384维,l为隐层的维度与聚类文本的聚类目标类别k相同,由于聚类类别k小于输入维度d因此得到降维编码器fφ(x)。
步骤S4,使用K-means作为聚类算法对降维后的文本zi进行聚类。这里采用了欧式距离作为K-means算法的距离度量,K-means的目标是旨在选择集群中的质心μk,能够最小化簇内平方和:
Figure BDA0003544229260000041
这一步聚类的目的是找到质心
Figure BDA0003544229260000042
和每一条文本对应的文本类别k。本文通过类别k和质心
Figure BDA0003544229260000043
得到每一文本的期望均值记为
Figure BDA0003544229260000044
步骤S5,采用深度自编码器的网络的配置加深变分自编码器的网络层数。使用期望均值μ*训练变分自编码器VAE。VAE旨在学习生成模型p(X,Z′)来最大化数据集的边缘似然log p(X),Z′用于表示VAE中的表征空间,与AE中的空间做区分。由于对潜在变量进行难以处理的积分,因此不能直接计算边缘似然。为了解决这一问题,VAE引入了一个变分分布qφ(Z′|X),该变分分布由一个复杂的神经网络参数来逼近真实后验分布,优化证据下界(Evidence Lower Bound,ELBO)的logp(X):
Figure BDA0003544229260000045
其中φ为推理损失,θ为解码器,上述的第一项是重建损失,第二项是近似后验和先验之间的KL散度。p(Z′)大多数的VAE中高斯分布
Figure BDA0003544229260000046
是先验的常用选择,近似后验分布qφ(Z′|X)和先验p(Z′)可以计算为:
Figure BDA0003544229260000047
其中μi和σi分别为第i维表征空间向量的近似后验分布的均值和方差。
本发明使用步骤4中的聚类中心μ*作为VAE的特征分布的期望均值,使p(Z′)变为
Figure BDA0003544229260000048
因此KL散度可以计算为:
Figure BDA0003544229260000049
VAE损失函数的第二项是和普通自编码器的差别,这里的根据数据集进行改进也是主要针对KL散度部分,如果没有这一项,那么基本上退化为常规的AE,本发明的提升也就失去了作用,这就是出现了KL散度消失的现象。
本发明通过推理网络μi的输出应用一个固定的批处理化(Batch Normalization,BN),这是深度学习中广泛使用的一个正则化技术,不仅能使神经元输出正常变化,还是一种有效的防止梯度***的方法,不同于其他的将BN应用于隐藏层并寻求快速稳定训练的任务,这里利用BN作为工具将μi转换为固定均值和方差的分布。数学上,正则化的μi
Figure BDA0003544229260000051
其中
Figure BDA0003544229260000052
Figure BDA0003544229260000053
表示BN前后的近似后验。μBi和σBi表示μi的均值和标准差,为样本的每个维度的有偏估计,γ和β是尺度的位移参数,这里使用一个固定的γ。
Figure BDA0003544229260000054
其中τ∈(0,1)是一个常数,本发明取τ=0.5,而θ是可训练参数。这样μi的分布的均值为β和方差为γ2。β是一个可学习的参数,使得分布更加灵活,在本发明中设定为0。
改进的变分自编码器本发明称之为自适应变分自编码器SVAE,经过SVAE的预训练后,本发明取从输入到采样的过程作为SVAE的编码器。通过这一编码器,本发明对数据进行了非线性映射f(X):X∈Rd→Z′∈Rc,这里的数据维度c与自编码器隐层中的数据维度相同,这里的设定参考聚类类别数目k。
步骤S6:使用K-means对表征空间的特征Z′进行聚类,得到聚类中心,该步的目的是作为DEC聚类层的初始权重。
步骤S7:使用K-means的聚类中心,计算在特征空间中的Z′每个数据点的软簇分配。使用单自由度t分布qij,以测量嵌入点zi′和质心kj之间的相似性:
Figure BDA0003544229260000055
其中zi′=f(xi)∈Z′对应于嵌入后的xi∈X,其中α是student的t分布的自由度,α取1。而qij可解释为将样本i分配给聚类j的概率(即软分配)。
步骤S8:使用辅助分布pij,提高聚类的纯度,并更加强调具有高可信度的数据点。辅助分布P中的概率pij计算如下:
Figure BDA0003544229260000061
通过软分配和目标分布匹配来微调,为此,本文将目标定义为软分配和辅助分类之间的KL散度所示,如下所示:
Figure BDA0003544229260000062
步骤S9:使用随机梯度下降(SGD)来联合优化簇中心kj与SVAE中的编码器的参数θ,每个样本和每个簇中心的梯度计算如下:
Figure BDA0003544229260000063
Figure BDA0003544229260000064
使用K-means将作为初始化聚类层的权重,然后使用高置信度预测来确定编码器并分配类簇,重复步骤S7与S8,当达到迭代次数t1达到2000时,或类别标签变化率θ小于0.001后,通过取每一样本在质心上软分配qij的最大值即可完成对样本的分配与聚类。获得聚类结果。类别标签变化率θ计算如下
Figure BDA0003544229260000065
Li
Figure BDA0003544229260000066
分别为第i个文本的标签与上一次的标签,n为样本总量。
实验设置:本发明验证所采用的硬件环境为但不限于此:CPU为Inter Xeon4210R,主频为2.4GHz,内存使用64GB内存,显卡使用两张NVIDIA Gefore RTX 3060,操作***为windows 10。本发明使用了Sentence-BERT中的通用句子转换库,来实现了通用数据集的文本向量表示(paraphrase-multilingual-MiniLM-L12-v2),该模型最大序列程度为128,可以将文本装换成384维的向量,模型大小为384MB,其使基于paraphrase-MiniLM-L12-v2模型的多语言版,针对50多种语言的并行数据进行训练,主要在AllNLI,sentence-compression,SimpleWiki,等多个数据集上训练。本发明在预训练过程中使用了Adam优化(Kingma and Ba,2015),batch_size设置为64,预训练代数epoch设置为15,在预训练时采用的SAE上的编码器使用了[500,500,2000,20]的网络结构,解码器于其正好相反,在正式训练时的VAE中也有相同的部分。并在DEC中的训练过程中采用SGD优化器,并使用了0.1的学习率,设置了0.9的衰减率,最大的迭代次数为1500,batch size与预训练时采用了相同的配置。
实验使用数据集包含四个短文本聚类的英文数据集,与一个中文数据集:
(1)SearchSnippets:一个网页搜索片段的文本集合,包含了8个不同主题的分类。(2)Stackoverflow:一个问答网站帖子的集合,曾作为kaggle挑战的数据集。该数据集包含了20个不同类别中选择的问题标题。(3)Biomedical:PubMed数据集中的一个子集,其中从20组中随机选取了20000篇论文标题。(4)Tweet:由2472条Tweet数据,有89个类别。(5)本文使用了ChineseNEWS中文舆情数据集,是实际项目中使用的数据集,找寻了2017~2019年的6个典型的事件,通过事件关键词对相应的微博进行爬取,本文从每个事件中随机抽取2000条数据,获得总量为12000条数据集。为保证数据集的可靠性,通过人工对数据进行筛选,打标抽取出第7个事件“微博之夜”与一些和事件无关的文本为第8个类别,因此本文总共获得8个类别的数据集。
本发明与下面聚类算法做对比:
(1)Bow&TF-IDF:通过词语的频率对句子进行向量化计算,将句子转换维度为1500维的向量,并应用K-means算法进行聚类评估;(2)Sentence-BERT(SBERT):通过Sentence-BERT,将文本转化为384维的向量,这也是本文使用的文本向量化方法,并应用K-means算法做聚类评估;(3)VaDE:将高斯混合模型与变分自编码器结合起来的产物。与本发明有相似的理念,都先通过自编码器进行与训练,不同之处在于其通过GMM来得到数据的初始先验,最后通过编码、解码、反向更新参数,最后完成对数据的特征嵌入与聚类;(4)STC2:有三个独立的阶段组成,对于每个数据集,它首先使用word2Vec方法预训练在大型语料库嵌入的单词。然后优化卷积神经网络以进一步丰富表示,将语句放入K-means中进行最后阶段的聚类;(5)Self-Train:利用SIF增强了Xu等人的与训练词嵌入,跟随Xie等人使用了深度嵌入的聚类算法,是一种通过分层与训练获得的自动编码器,然后进一步对其进行调优;(6)SCCL:模型由三个组件组成,对于每个数据集,数据包括原始数据和扩充数据,在经过一个神经网络将输入数据映射到表示空间,分别应用对比损失和聚类损失来优化编码器的参数,完成对文本的分类工作。
实验结果如表1所示。
表格1 文本聚类结果
Figure BDA0003544229260000081
本发明在表1中展示了算法在5个数据集中的结果。对于本发明使用的中文舆情数据集来说,SVAE在此基础上取得了最优的结果比优秀的聚类算法Self-Train中ACC上领先了3.1%个百分比,这是因为比AE来讲,VAE可以更好的改善隐空间中的特征的分布。
对于本发明使用的其他4个通用数据集上,可以看到SVAE在三种标准数据集中均有数据较好的结果。其中在StackOverflow上带来的巨大的提升,这一方面是由于文本向量化模型带来的提升,可以看到SBERT在该数据集上准确率同样很高,另一方面是SVAE提高了特征嵌入质量,在此基础上带来了更高的提升。在这之前,StackOverflow因为其类别与数量较多,很难有较好的聚类效果。本文提到的方法由于其很好的利用聚类算法的聚类中心,因此带来了较大的准确度的提升。
其中SVAE主要参考了Self-Train算法,比Self-Train在SearchSnippets和StackOverflow上ACC分别提升了4.5%和22.4%,其Biomedical指标降低主要是因为本文使用的通用词训练模型中包含该领域的内容较少,这个在SCCL中有相同的结论。SCCL的方法在SearchSnippets上ACC领先了3.6%,这是由于SCCL除了原始的数据集外,还通过增强数据集训练模型,除了聚类优化外还是用对比损失来优化编码器,使用了比SVAE更复杂的架构,但SVAE比SCCL在StackOverflow与Biomedical中ACC分别提升了6.7%与2%。结果验证了本文提出的框架的有效性和重要性,在通用语言库的背景下,充分利用先验的聚类信息,提高了算法对于不同数据集的适应能力。

Claims (4)

1.基于自适应变分编码器的短文本聚类算法,其特征在于,步骤如下:
S1数据收集;
S2将文本输入到sentence-Bert中,转化成词向量;
S3使用自编码器对词向量进行预训练,得到降维编码器;
S4使用K-means对降维后的数据进行聚类,得到每一文本的聚类标签和聚类中心;
S5将文本词向量使用变分自编码器进行预训练,使用聚类中心作为期望均值训练编码器网络参数;
S6使用K-means对预训练编码器产生的特征向量做聚类,得到初始的聚类中心;
S7使用聚类中心对向量进行软分配;
S8使用辅助目标分布,从当前的高置信度分配中,学习更新预训练编码器并重新定义聚类质心;
S9重复S7、S8,满足收敛标准或迭代次数时,输出聚类结果。
2.根据权利要求1所述基于自适应变分编码器的短文本聚类算法,其特征在于:
在步骤S2中,无需对数据进行预处理操作,使用Sentence-BERT对文本进行向量空间表示;
在步骤S3中,使用自动编码器训练文本向量,对于转化为的句向量xi∈Rm;构建编码器对原始数据进行编码:
zi=fφ(x)=σe(Wexi+be)∈Rl#(1)
在使用解码器对原始数据进行解码:
Figure FDA0003544229250000011
损失函数为最小化重建误差:
Figure FDA0003544229250000012
其中xi
Figure FDA0003544229250000013
和zi分别是输入数据、输出数据和潜在变量,fφ和gψ分别表示编码器和解码器的转化函数;σ是激活函数这里选用ReLU(x),We和be是权重和偏差,其中e和d分别表示编码器和解码器;
自动编码器往往通过最小化重建误差,更新网络权重We与偏差be,在完成设定的迭代次数t后,得到一个编码器fφ(x):X∈Rm→Z∈Rl;t设置t为10,其中Z是潜在的特征空间,这里的m为上文中提到的输入句向量的维度384维,l为隐层的维度与聚类文本的聚类目标类别k相同,由于聚类类别k小于输入维度d因此得到降维编码器fφ(x);
在步骤S4中,使用K-means作为聚类算法对降维后的文本zi进行聚类;这里采用了欧式距离作为K-means算法的距离度量,K-means的目标是旨在选择集群中的质心μk,能够最小化簇内平方和:
Figure FDA0003544229250000021
这一步聚类的目的是找到质心
Figure FDA0003544229250000022
和每一条文本对应的文本类别k;通过类别k和质心
Figure FDA0003544229250000023
得到每一文本的期望均值记为
Figure FDA0003544229250000024
经过预处理,得到文本的向量化X,与降维文本的聚类中心μ*
3.根据权利要求2所述基于自适应变分编码器的短文本聚类算法,其特征在于:
步骤S5,使用期望均值μ*训练变分自编码器VAE,并在变分自编码器VAE中加入BN层来防止VAE损失函数中的KL散度消失,共同构成SVAE的框架;
使用步骤S4中的聚类中心μ*作为VAE的特征分布的期望均值,使p(Z′)变为
Figure FDA0003544229250000025
因此KL散度计算为:
Figure FDA0003544229250000026
利用BN作为工具将μi转换为固定均值和方差的分布;数学上,正则化的μi
Figure FDA0003544229250000027
其中
Figure FDA0003544229250000028
Figure FDA0003544229250000029
表示BN前后的近似后验;μBi和σBi表示μi的均值和标准差,为样本的每个维度的有偏估计,γ和β是尺度的位移参数,
Figure FDA00035442292500000210
其中τ∈(0,1)是一个常数,而θ是可训练参数;这样μi的分布的均值为β和方差为γ2;β是一个可学习的参数。
4.根据权利要求1所述基于自适应变分编码器的短文本聚类算法,其特征在于:
在步骤S6中使用K-means对SVAE表征空间的特征Z′进行聚类,得到聚类中心,该步的目的是作为DEC聚类层的初始权重;
在步骤S7种根据聚类中心,计算在特征空间中的Z′每个数据点的软簇分配;使用单自由度t分布qij,以测量嵌入点zi′和质心kj之间的相似性:
Figure FDA0003544229250000031
其中zi′=f(xi)∈Z′对应于SVAE嵌入后的xi∈X,其中α是student的t分布的自由度,而qij为将样本i分配给聚类j的概率即软分配,α取1;
步骤S8:使用辅助分布pij,提高聚类的纯度,并更加强调具有高可信度的数据点;辅助分布P中的概率pij计算如下:
Figure FDA0003544229250000032
通过软分配和目标分布匹配来微调,为此,将目标定义为软分配和辅助分类之间的KL散度所示,如下所示:
Figure FDA0003544229250000033
步骤S9:使用随机梯度下降来联合优化簇中心kcntj与SVAE中的编码器的参数θ,每个样本和每个簇中心的梯度计算如下:
Figure FDA0003544229250000041
Figure FDA0003544229250000042
使用K-means将作为初始化聚类层的权重,然后使用高置信度预测来确定编码器并分配类簇,重复步骤S7与S8,当达到迭代次数t1达到2000时,或类别标签变化率θ小于0.001后,通过取每一样本在质心上软分配qij的最大值即可完成对样本的分配与聚类;获得聚类结果;类别标签变化率θ计算如下
Figure FDA0003544229250000043
Li
Figure FDA0003544229250000044
分别为第i个文本的标签与上一次的标签,n为样本总量。
CN202210299111.1A 2022-03-13 2022-03-13 基于自适应变分编码器的短文本聚类方法 Pending CN114625879A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210299111.1A CN114625879A (zh) 2022-03-13 2022-03-13 基于自适应变分编码器的短文本聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210299111.1A CN114625879A (zh) 2022-03-13 2022-03-13 基于自适应变分编码器的短文本聚类方法

Publications (1)

Publication Number Publication Date
CN114625879A true CN114625879A (zh) 2022-06-14

Family

ID=81903320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210299111.1A Pending CN114625879A (zh) 2022-03-13 2022-03-13 基于自适应变分编码器的短文本聚类方法

Country Status (1)

Country Link
CN (1) CN114625879A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344678A (zh) * 2022-07-11 2022-11-15 北京容联易通信息技术有限公司 一种基于多种算法融合的聚类方法
CN115908984A (zh) * 2022-12-16 2023-04-04 广州广电运通金融电子股份有限公司 图像聚类模型的训练方法及装置
CN116010603A (zh) * 2023-01-31 2023-04-25 浙江中电远为科技有限公司 一种用于商业文本分类的特征聚类降维方法
CN118039080A (zh) * 2024-04-10 2024-05-14 数据空间研究院 基于文本聚类的心理健康咨询辅助方法、***和可读介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344678A (zh) * 2022-07-11 2022-11-15 北京容联易通信息技术有限公司 一种基于多种算法融合的聚类方法
CN115908984A (zh) * 2022-12-16 2023-04-04 广州广电运通金融电子股份有限公司 图像聚类模型的训练方法及装置
CN116010603A (zh) * 2023-01-31 2023-04-25 浙江中电远为科技有限公司 一种用于商业文本分类的特征聚类降维方法
CN118039080A (zh) * 2024-04-10 2024-05-14 数据空间研究院 基于文本聚类的心理健康咨询辅助方法、***和可读介质
CN118039080B (zh) * 2024-04-10 2024-06-25 数据空间研究院 基于文本聚类的心理健康咨询辅助方法、***和可读介质

Similar Documents

Publication Publication Date Title
Zhang et al. Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition
CN108733792B (zh) 一种实体关系抽取方法
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN108319686B (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN109241255B (zh) 一种基于深度学习的意图识别方法
CN109829299B (zh) 一种基于深度自编码器的未知攻击识别方法
CN106407333B (zh) 基于人工智能的口语查询识别方法及装置
CN111160467B (zh) 一种基于条件随机场和内部语义注意力的图像描述方法
CN114625879A (zh) 基于自适应变分编码器的短文本聚类方法
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类***
CN111026869B (zh) 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN111859935B (zh) 基于文献的癌症相关生物医学事件数据库构建方法
CN109858015B (zh) 一种基于ctw和km算法的语义相似度计算方法及装置
CN114743020A (zh) 一种结合标签语义嵌入和注意力融合的食物识别方法
CN113822125B (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN113051399A (zh) 一种基于关系型图卷积网络的小样本细粒度实体分类方法
CN106021402A (zh) 用于跨模态检索的多模态多类Boosting框架构建方法及装置
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
Vu et al. Investigating the learning effect of multilingual bottle-neck features for ASR
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN113076744A (zh) 一种基于卷积神经网络的文物知识关系抽取方法
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
CN116757195A (zh) 一种基于提示学习的隐性情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination