CN112597769B - 一种基于狄利克雷变分自编码器的短文本主题识别方法 - Google Patents

一种基于狄利克雷变分自编码器的短文本主题识别方法 Download PDF

Info

Publication number
CN112597769B
CN112597769B CN202011482778.2A CN202011482778A CN112597769B CN 112597769 B CN112597769 B CN 112597769B CN 202011482778 A CN202011482778 A CN 202011482778A CN 112597769 B CN112597769 B CN 112597769B
Authority
CN
China
Prior art keywords
short text
topic
text
dirichlet
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011482778.2A
Other languages
English (en)
Other versions
CN112597769A (zh
Inventor
饶洋辉
丁诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011482778.2A priority Critical patent/CN112597769B/zh
Publication of CN112597769A publication Critical patent/CN112597769A/zh
Application granted granted Critical
Publication of CN112597769B publication Critical patent/CN112597769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于狄利克雷变分自编码器的短文本主题识别方法,包括以下步骤:S1.将短文本数据集进行预处理,分词、去停用词、标点符号和数字,得到数据集的文本特征向量;S2.训练进行聚类,确定短文本集合中各短文本所属类别,该类别作为短文本的补充特征信息;S3.构建条件变分神经主题模型,得到语料集中的文档‑主题分布以及主题‑词分布;S4.短文本主题识别,得到短文本的补充特征信息作为短文本的特征表示,用于文本的分类和聚类。本发明提供了一种基于狄利克雷变分自编码器的短文本主题识别方法,加速了模型训练,解决了短文本主题模型特征稀疏的问题,在进行短文本主题识别的同时,增强了短文本的分类和聚类效果。

Description

一种基于狄利克雷变分自编码器的短文本主题识别方法
技术领域
本发明涉及短文本技术领域,更具体地,涉及一种基于狄利克雷变分自编码器的短文本主题识别方法。
背景技术
随着互联网的蓬勃发展,网络成为人们获取信息的重要来源。文本作为主要的信息载体,在网络信息传播中发挥着重要作用。许多数据分析应用如微博、短信、评论都涉及到从短文本中提取主题信息,并且,提取出潜在主题有利于下一步的分析,如情感分析、文本分类、推荐***等。然而,由于短文本数据文本字数少、书写随意的特性,我们很难直接从短文本数据中提取信息。
中国专利公开号CN107798043A,公开日期2017年6月28日,该专利申请公开了一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法,提出了主题相关长文本辅助短文本的思想,辅助的基础是长文本与短文本共享相同的主题词语分配。为了更好地提升聚类效果,该发明能够自动判断长文本中的有用词和噪音词,利用长文本中高质量的有用词与短文本集合进行文本聚类。现有的短文本主题模型主要是基于变分推断和吉布斯采样方法的,它们通过引入额外的长文本语料信息来解决短文本特征稀疏的问题,这种方式虽然可行,但存在以下两个问题:一方面,变分推断和吉布斯采样一类方法收敛速度较慢,再引入长文本语料信息将会带来相当高的时间消耗。另一方面,这类方法基于概率图框架推导原理复杂,如果在原有模型基础上引入新的信息又需重新推导,因此存在可拓展性差的问题。
发明内容
本发明的目的在于克服现有技术训练速度慢、时间复杂度高,可拓展性差、短文本特征稀疏的缺点,本发明提供了一种基于狄利克雷变分自编码器的短文本主题识别方法,加速了模型训练,解决了短文本主题模型特征稀疏的问题,在进行短文本主题识别的同时,增强了短文本的分类和聚类效果。
为解决上述技术问题,本发明采用的技术方案是:一种基于狄利克雷变分自编码器的短文本主题识别方法,其中包括以下具体步骤:
S1.将短文本数据集进行预处理,分词、去停用词、标点符号和数字,得到数据集的文本特征向量;
S2.基于步骤S1预处理得到的文本特征向量训练进行聚类,确定短文本集合中各短文本所属类别,该类别作为短文本的补充特征信息;
S3.基于步骤S1得到的文本特征向量和步骤S2得到的短文本的补充特征信息构建条件变分神经主题模型,得到语料集中的文档-主题分布以及主题-词分布;
S4.基于步骤S3得到的主题-词分布用于短文本主题识别,步骤S3得到的文档-主题分布结合步骤S2得到短文本的补充特征信息作为短文本的特征表示,用于文本的分类和聚类。
进一步的,所述步骤S2中采用的是K-Means聚类方法。
进一步的,所述步骤S3具体包括以下步骤:
S31.初始化模型参数,需要初始化的模型参数包括超参数{α0,β,λ,N,K},其中α0是狄利克雷先验分布,β是学习率,λ是KL散度影响因子,N是隐藏层神经元数,K是主题数;
S32.基于步骤S1得到的文本特征向量和步骤S2得到的短文本的补充特征信息构建推断网络;
S33.基于步骤S32构建的推断网络得到的隐向量和步骤S2得到的短文本的补充特征信息构建生成网络;
S34.使用主题空间的冗余抑制解决主题冗余的问题。
进一步的,所述步骤S32中构建推断网络包括以下步骤:
S321.将步骤S1得到的文本特征向量和步骤S2的补充特征信息作为推断网络的输入;
S322.将步骤S321通过线性连接层、Relu激活函数和dropout层得到隐藏层向量,隐藏层向量维度由超参数N决定;
S323将步骤S322得到的隐藏层向量通过Batchnorm层,线性连接层,再经过softplus激活函数得到后验分布的参数α;
S324.基于步骤S323得到的后验分布参数α,使用重参数技巧得到文档-主题分布;
S325.计算步骤S313得到的后验分布与狄利克雷先验分布的KL散度。
优选的,所述步骤S324中使用拒绝采样重参数技巧或者逆累积分布重参数技巧得到文档-主题分布。
进一步的,所述步骤S325中KL散度采的计算公式如下文所示:
Figure GDA0002918259900000031
其中Γ是gamma函数,Ψ是digamma函数,K是主题数,αk是后验分布参数,
Figure GDA0002918259900000032
是先验分布参数。
进一步的,所述步骤S33中构建生成网络包括以下具体步骤:
S331.将步骤S324得到的文档-主题分布通过线性连接层、Batchnorm层得到隐藏层向量,该步骤中的可训练矩阵W为主题-词分布;
S333.将步骤S332得到的是隐藏层向量,经过softmax激活函数得到生成短文本的概率;
S334.基于步骤S333生成短文本的概率,使用对数似然作为误差函数,
Figure GDA0002918259900000033
其中V是词表大小,log(p(xv|zv))是生成每个单词的概率。
进一步的,所述步骤S34中主体空间的冗余抑制具体包括以下步骤:
S341.使用隐含主题单元(βij)之间的距离作为反余弦指标;
S342.计算主体单集合Z中K个主体的平均距离μ(Z)和平方差σ(Z);
S343.计算主体单元离散程度的指标,该指标作为目标函数的正则项R(Z)。
进一步的,所述步骤S343中,目标函数为L=λ*L1+L2+ρ*R(Z),λ是超参数KL散度影响因子,ρ为正则项系数。
进一步的,所述正则项R(Z)的计算公式如下:R(Z)=μ(Z)-σ(Z)。
与现有技术相比,本发明的有益效果是:
本发明通过构建狄利克雷变分自编码器以及引入聚类得到的文本补充信息,有效缓解了短文本特征稀疏问题,并且通过将文本补充信息与变分自编码器模型相结合,使用主题空间的冗余抑制正则项,有效缓解主题冗余问题,改进了主题识别的主题一致性、文本分类与聚类的结果,特别是与现有技术相比,本发明方法基于变分自编码器结构,训练简单,可解释性和可拓展性强,以及能够使用GPU进行加速,因此能够快速进行大语料短文本的识别,充分提升主题识别效率;本发明可以得到文档-主题分布和主题-词分布,能够广泛应用于情感分析、短文本主题识别、文本分类聚类、机器翻译等领域。
附图说明
图1为本发明的流程示意图。
图2为本发明中网络结构示意图
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例1
如图1至图2所示为本发明一种基于狄利克雷变分自编码器的短文本主题识别方法的第一实施例。一种基于狄利克雷变分自编码器的短文本主题识别方法,其中,包括以下具体步骤:
S1.将短文本数据集进行预处理,分词、去停用词、标点符号和数字,得到数据集的文本特征向量;
S2.基于步骤S1预处理得到的文本特征向量训练进行聚类,确定短文本集合中各短文本所属类别,该类别作为短文本的补充特征信息;
S3.基于步骤S1得到的文本特征向量和步骤S2得到的短文本的补充特征信息构建条件变分神经主题模型,得到语料集中的文档-主题分布以及主题-词分布;
S4.基于步骤S3得到的主题-词分布用于短文本主题识别,步骤S3得到的文档-主题分布结合步骤S2得到短文本的补充特征信息作为短文本的特征表示,用于文本的分类和聚类。
本实施例采用的短文本数据集为20news新闻文本数据集,步骤S1中的对获取的短文本数据集进行预处理,分词、词根还原、去停用词、去掉高频词和低频词、标点符号和数字等工作,得到文本特征向量。本实施例采用词袋特征向量和tfidf特征向量,定义文本集的词袋特征向量为
Figure GDA0002918259900000051
tfidf特征向量为
Figure GDA0002918259900000052
其中V为词表大小。
步骤S2,基于步骤S1得到的tfidf特征向量
Figure GDA0002918259900000053
采用K均值(K-Means)聚类方法对短文本的补充特征信息进行聚类。K-Means是一种常见的、应用广泛的聚类方法,将各类别下的短文本特征向量的均值作为聚类中心,收敛速度快,效果较优,能拓展并用于更大规模的短文本数据集。对于短文本特征向量进行一个初步的K-Means聚类之后,每个短文本就可以被划分到一个特定的类别,该类别可以作为短文本的补充特征信息。本实施例中取类别数K′=20,初步聚类后将短文本的补充特征信息表示为独热编码编码向量
Figure GDA0002918259900000054
步骤S3,针对短文本集的每一篇文本,本发明实施例使用步骤S1的词袋特征向量
Figure GDA0002918259900000055
Figure GDA0002918259900000056
以及步骤S2得到的短文本的补充特征信息构建条件变分神经主题模型,具体包括步骤以下步骤;
S31初始化模型参数,需要初始化的模型参数为{α0,β,λ,N,K},其中α0是狄利克雷先验分布,β是学习率,λ是KL散度影响因子,N是隐藏层神经元数,K是主题数。本实施例中使用α0=0.1,β=0.001,N=100,K=50,λ初始值为0,随着训练次数慢慢增大。
S32.基于词袋特征向量
Figure GDA0002918259900000057
和短文本的补充特征信息得到向量
Figure GDA0002918259900000058
构建推断网络,具体又包括以下步骤:
S321.将词袋特征向量
Figure GDA0002918259900000059
和短文本的补充特征信息向量
Figure GDA00029182599000000510
共同作为推断网络的输入
Figure GDA00029182599000000511
S322.将步骤S3.2.1的输入向量
Figure GDA00029182599000000512
通过线性连接层、Relu激活函数和dropout层得到隐藏层向量
Figure GDA00029182599000000513
隐藏层向量维度由N决定;
Figure GDA00029182599000000514
其中W1为可训练的权重矩阵,
Figure GDA0002918259900000061
为可训练的偏置向量;
S323.将步骤S312得到的隐藏层向量
Figure GDA0002918259900000062
通过Batchnorm层,线性连接层,再经过softplus激活函数得到后验分布的参数
Figure GDA0002918259900000063
Figure GDA0002918259900000064
Figure GDA0002918259900000065
其中W2为可训练的权重矩阵,
Figure GDA0002918259900000066
为可训练的偏置向量,
Figure GDA0002918259900000067
为中间层向量;
S324.基于步骤S323得到的后验分布参数
Figure GDA0002918259900000068
使用重参数技巧得到文档-主题分布
Figure GDA0002918259900000069
本发明实施例使用逆累积分布重参数技巧,并且
Figure GDA00029182599000000610
其中μ是从均匀分布中采样的样本。
S325.根据步骤S323得到的后验分布参数
Figure GDA00029182599000000611
与狄利克雷先验分布的KL散度,
Figure GDA00029182599000000612
其中Γ是gamma函数,ψ是digamma函数,K是主题数,αk是后验分布参数,
Figure GDA00029182599000000613
是先验分布参数;
S33.基于步骤S32得到的文档-主题分布
Figure GDA00029182599000000614
和步骤S2得到的短文本的补充特征信息向量
Figure GDA00029182599000000615
构建生成网络,本发明实例具体包括以下步骤:
S331.将文档-主题分布
Figure GDA00029182599000000616
与短文本的补充特征信息向量
Figure GDA00029182599000000617
共同作为输入,通过线性连接层、BatchNorm层得到隐藏层向量
Figure GDA00029182599000000618
Figure GDA00029182599000000619
其中可训练的权重矩阵W3为主题-词分布,
Figure GDA00029182599000000620
为可训练的偏置向量。
S332.将步骤S331得到的是隐藏层向量
Figure GDA00029182599000000621
经过softmax激活函数得到生成短文本的概率:
Figure GDA00029182599000000622
S333.基于步骤S332生成短文本的概率
Figure GDA0002918259900000071
使用对数似然作为误差函数;
Figure GDA0002918259900000072
其中V是词表大小;
S34.使用主题空间的冗余抑制以解决主题冗余的问题,具体步骤如下:
S341.使用隐含主题单元(βij)之间的距离作为反余弦指标:
Figure GDA0002918259900000073
S342.计算主题单元集合Z中K个主题的平均距离和方差:
Figure GDA0002918259900000074
Figure GDA0002918259900000075
S343.计算主题单元离散程度的指标,该指标作为目标函数的正则项:
R(Z)=μ(Z)-σ(Z)
根据步骤S32得到的KL散度L1步骤、S33得到的对数似然误差函数L2和步骤S34得到的正则项R(Z),得到模型最终的目标误差函数为L=λ*L1+L2+ρ*R(Z),其中λ是超参数KL散度影响因子,ρ为正则项系数
本实施例中,步骤S4使用步骤S3得到的主题-词分布矩阵W3进行短文本主题识别,使用步骤S3得到的文档-主题分布
Figure GDA0002918259900000076
结合步骤S2得到短文本的补充特征信息向量
Figure GDA0002918259900000077
作为短文本的特征表示,进行文本的分类和聚类。
本实施例中能够得到文档-主题分布和主题-词分布,提升主题识别效率,识别更大规模的短文本数据集,并与其他下游任务如情感分析、短文本主题识别、文本分类聚类、机器翻译等领域相结合。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于狄利克雷变分自编码器的短文本主题识别方法,其特征在于:包括以下步骤:
S1.将短文本数据集进行预处理,分词、去停用词、标点符号和数字,得到数据集的文本特征向量;
S2.基于步骤S1预处理得到的文本特征向量训练进行聚类,确定短文本集合中各短文本所属类别,该类别作为短文本的补充特征信息;
S3.基于步骤S1得到的文本特征向量和步骤S2得到的短文本的补充特征信息构建条件变分神经主题模型,得到语料集中的文档-主题分布以及主题-词分布;
S4.基于步骤S3得到的主题-词分布用于短文本主题识别,步骤S3得到的文档-主题分布结合步骤S2得到短文本的补充特征信息作为短文本的特征表示,用于文本的分类和聚类。
2.根据权利要求1所述的一种基于狄利克雷变分自编码器的短文本主题识别方法,其特征在于:所述步骤S2中采用的是K-Means聚类方法。
3.根据权利要求1所述的一种基于狄利克雷变分自编码器的短文本主题识别方法,其特征在于:所述步骤S3具体包括以下步骤:
S31.初始化模型参数,需要初始化的模型参数包括超参数{α0,β,λ,N,K},其中α0是狄利克雷先验分布,β是学习率,λ是KL散度影响因子,N是隐藏层神经元数,K是主题数;
S32.基于步骤S1得到的文本特征向量和步骤S2得到的短文本的补充特征信息构建推断网络;
S33.基于步骤S32构建的推断网络得到的隐向量和步骤S2得到的短文本的补充特征信息构建生成网络;
S34.使用主题空间的冗余抑制解决主题冗余的问题。
4.根据权利要求3所述的一种基于狄利克雷变分自编码器的短文本主题识别方法,其特征在于:所述步骤S32中构建推断网络包括以下步骤:
S321.将步骤S1得到的文本特征向量和步骤S2的补充特征信息作为推断网络的输入;
S322.将步骤S321通过线性连接层、Relu激活函数和dropout层得到隐藏层向量,隐藏层向量维度由超参数N决定;
S323将步骤S322得到的隐藏层向量通过Batchnorm层,线性连接层,再经过softplus激活函数得到后验分布的参数α;
S324.基于步骤S323得到的后验分布参数α,使用重参数技巧得到文档-主题分布;
S325.计算步骤S313得到的后验分布与狄利克雷先验分布的KL散度。
5.根据权利要求4所述的一种基于狄利克雷变分自编码器的短文本主题识别方法,其特征在于:所述步骤S324中使用拒绝采样重参数技巧或者逆累积分布重参数技巧得到文档-主题分布。
6.根据权利要求4所述的一种基于狄利克雷变分自编码器的短文本主题识别方法,其特征在于:所述步骤S325中KL散度采的计算公式如下文所示:
Figure FDA0002838577140000021
其中Γ是gamma函数,Ψ是digamma函数,K是主题数,αk是后验分布参数,
Figure FDA0002838577140000022
是先验分布参数。
7.根据权利要求6所述的一种基于狄利克雷变分自编码器的短文本主题识别方法,其特征在于:所述步骤S33中构建生成网络包括以下具体步骤:
S331.将步骤S324得到的文档-主题分布通过线性连接层、Batchnorm层得到隐藏层向量,该步骤中的可训练矩阵W为主题-词分布;
S333.将步骤S332得到的是隐藏层向量,经过softmax激活函数得到生成短文本的概率;
S334.基于步骤S333生成短文本的概率,使用对数似然作为误差函数,
Figure FDA0002838577140000023
其中V是词表大小,log(p(xv|zv))是生成每个单词的概率。
8.根据权利要求7所述的一种基于狄利克雷变分自编码器的短文本主题识别方法,其特征在于:所述步骤S34中主体空间的冗余抑制具体包括以下步骤:
S341.使用隐含主题单元(βij)之间的距离作为反余弦指标;
S342.计算主体单集合Z中K个主体的平均距离μ(Z)和平方差σ(Z);
S343.计算主体单元离散程度的指标,该指标作为目标函数的正则项R(Z)。
9.根据权利要求8所述的一种基于狄利克雷变分自编码器的短文本主题识别方法,其特征在于:所述步骤S343中,目标函数为L=λ*L1+L2+ρ*R(Z),λ是超参数KL散度影响因子,ρ为正则项系数。
10.根据权利要求9所述的一种基于狄利克雷变分自编码器的短文本主题识别方法,其特征在于:所述正则项R(Z)的计算公式如下:R(Z)=μ(Z)-σ(Z)。
CN202011482778.2A 2020-12-15 2020-12-15 一种基于狄利克雷变分自编码器的短文本主题识别方法 Active CN112597769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011482778.2A CN112597769B (zh) 2020-12-15 2020-12-15 一种基于狄利克雷变分自编码器的短文本主题识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011482778.2A CN112597769B (zh) 2020-12-15 2020-12-15 一种基于狄利克雷变分自编码器的短文本主题识别方法

Publications (2)

Publication Number Publication Date
CN112597769A CN112597769A (zh) 2021-04-02
CN112597769B true CN112597769B (zh) 2022-06-03

Family

ID=75196047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011482778.2A Active CN112597769B (zh) 2020-12-15 2020-12-15 一种基于狄利克雷变分自编码器的短文本主题识别方法

Country Status (1)

Country Link
CN (1) CN112597769B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113918716B (zh) * 2021-10-14 2023-06-02 中山大学 基于谱范数归一化的生成对抗主题模型构建方法及装置
CN114492429B (zh) * 2022-01-12 2023-07-18 平安科技(深圳)有限公司 文本主题的生成方法、装置、设备及存储介质
CN117236330B (zh) * 2023-11-16 2024-01-26 南京邮电大学 一种基于互信息和对抗神经网络的增强主题多样性方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法
CN102662960A (zh) * 2012-03-08 2012-09-12 浙江大学 在线监督式主题建模及其演变分析的方法
CN107798043A (zh) * 2017-06-28 2018-03-13 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和***
CN110941721A (zh) * 2019-09-28 2020-03-31 国家计算机网络与信息安全管理中心 基于变分自编码主题模型的短文本主题挖掘方法及***
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111724767A (zh) * 2019-12-09 2020-09-29 江汉大学 基于狄利克雷变分自编码器的口语理解方法及相关设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11568266B2 (en) * 2019-03-15 2023-01-31 Baidu Usa Llc Systems and methods for mutual learning for topic discovery and word embedding

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法
CN102662960A (zh) * 2012-03-08 2012-09-12 浙江大学 在线监督式主题建模及其演变分析的方法
CN107798043A (zh) * 2017-06-28 2018-03-13 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和***
CN110941721A (zh) * 2019-09-28 2020-03-31 国家计算机网络与信息安全管理中心 基于变分自编码主题模型的短文本主题挖掘方法及***
CN111724767A (zh) * 2019-12-09 2020-09-29 江汉大学 基于狄利克雷变分自编码器的口语理解方法及相关设备
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hybrid Neural Networks for Social Emotion Detection over Short Text;Xiangsheng Li et al.;《IEEE》;20161103;第537-544页 *
WordNet 在文本聚类中的应用研究;饶洋辉 等;《现代图书情报技术》;20091231(第10期);第67-70页 *
主题模型中的参数估计方法综述;杜慧 等;《计算机科学》;20170630;第44卷(第6A期);第29-32、47页 *

Also Published As

Publication number Publication date
CN112597769A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN112597769B (zh) 一种基于狄利克雷变分自编码器的短文本主题识别方法
CN109145112B (zh) 一种基于全局信息注意力机制的商品评论分类方法
CN109614487B (zh) 一种基于张量融合方式的情感分类的方法
CN110427461B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
Ruangkanokmas et al. Deep belief networks with feature selection for sentiment classification
CN107515855B (zh) 一种结合表情符的微博情感分析方法和***
CN107247702A (zh) 一种文本情感分析处理方法和***
CN113158665A (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN106250855A (zh) 一种基于多核学习的多模态情感识别方法
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN110991190B (zh) 一种文档主题增强***、文本情绪预测***和方法
Audhkhasi et al. A globally-variant locally-constant model for fusion of labels from multiple diverse experts without using reference labels
CN112364161B (zh) 基于异构社会媒体用户动态行为的微博主题挖掘方法
Wei et al. A novel speech emotion recognition algorithm based on wavelet kernel sparse classifier in stacked deep auto-encoder model
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及***
CN112287106A (zh) 一种基于双通道混合神经网络的在线评论情感分类方法
CN109299464B (zh) 基于网络链接和文档内容的主题嵌入、文档表示方法
Leeman-Munk et al. Ncsu_sas_sam: Deep encoding and reconstruction for normalization of noisy text
Bikku et al. Deep learning approaches for classifying data: a review
CN111581379B (zh) 一种基于作文扣题度的自动作文评分计算方法
CN114417852A (zh) 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法
CN116467443A (zh) 基于主题识别的网络舆情文本分类方法
Arora et al. Comparative question answering system based on natural language processing and machine learning
Agarla et al. Semi-supervised cross-lingual speech emotion recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant