CN117236330A - 一种基于互信息和对抗神经网络的增强主题多样性方法 - Google Patents

一种基于互信息和对抗神经网络的增强主题多样性方法 Download PDF

Info

Publication number
CN117236330A
CN117236330A CN202311524544.3A CN202311524544A CN117236330A CN 117236330 A CN117236330 A CN 117236330A CN 202311524544 A CN202311524544 A CN 202311524544A CN 117236330 A CN117236330 A CN 117236330A
Authority
CN
China
Prior art keywords
distribution
text
topic
layer
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311524544.3A
Other languages
English (en)
Other versions
CN117236330B (zh
Inventor
王睿
郝仁
刘星
黄海平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202311524544.3A priority Critical patent/CN117236330B/zh
Publication of CN117236330A publication Critical patent/CN117236330A/zh
Application granted granted Critical
Publication of CN117236330B publication Critical patent/CN117236330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理技术领域,公开了一种基于互信息和对抗神经网络的增强主题多样性方法,包括:语料库中词语预处理作为真实文本词分布;将随机采样的语料作为编码器的输入,生成真实文本主题分布向量;将真实文本词分布与主题分布构成分布对且批内随机打乱作为负样本分布对;将狄利克雷分布随机采样的假文本主题分布为生成器输入,并转换为假文本词分布向量;以真实分布对和假分布对在对抗训练过程中生成主题词;以判别器损失函数和最大化互信息的正则化损失为目标进行训练。本发明对文本主题进行建模,挖掘高质量主题,将互信息最大化技术融入到对抗神经主题建模过程,增强主题多样性,具有更高的主题同一性和多样性指标。

Description

一种基于互信息和对抗神经网络的增强主题多样性方法
技术领域
本发明属于自然语言处理技术领域,具体的说是一种基于互信息和对抗神经网络的增强主题多样性方法。
背景技术
主题模型是文本挖掘的重要工具,挖掘语料里隐藏信息,并且在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。其中隐式狄利克雷分配是其最具代表性的模型,来推测文本的主题分布。可是由于模型求解复杂,过于有微小的调整,科研人员就需要为此设计对应的理论方法,不利于对后续在应用层面的主题建模。
为了解决传统主题模型的不足,基于近些年生成式神经网络的迅速发展,神经主题模型在文本挖掘、自然语言处理领域受到诸多学者的关注并进行了深入的研究,例如:基于对抗训练提出对抗-神经主题模型和双向对抗神经主题模型。模型采用狄利克雷分布作为主题空间的先验分布进行建模,编码器和生成器生成更逼真的数据分布和更准确的主题表示,却忽略生成数据分布和真实数据分布之间有价值的信息,导致多样性不足。
发明内容
为了解决上述技术问题,本发明提供了一种基于互信息和对抗神经网络的增强主题多样性方法,能够让文本中隐含主题信息服从狄利克雷分布,并在对抗神经主题建模框架下融入互信息最大化机制来提升模型挖掘出的主题的多样性。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种基于互信息和对抗神经网络的增强主题多样性方法,包括以下步骤:
S1:对社交平台在线文本进行数据预处理获得真实文本,将真实文本使用词袋模型表示成真实文本-词分布向量;
S2:将多个真实文本-词分布向量放在一个批次中作为编码器的输入,得到真实文本-主题分布向量,将真实文本-词分布向量与对应的主题分布构成真实分布对,再将真实文本-词分布向量批内打乱与真实文本-主题分布构成负样本分布对;
S3:从狄利克雷分布随机采样出主题向量作为假文本-主题分布并输入生成器中,得到假文本-词分布向量与假文本-主题分布构成假分布对;
S4:真实分布对与假分布对作为对抗生成网络输入,真实分布对与负样本对作为统计网络输入,在对抗训练的过程中,通过对抗产生的信号训练编码器与生成器,以互信息的正则化损失最大为目标,对模型进行训练。
S5:训练时为了近似估计两个高纬度分布之间的推土机距离和詹森-香农距离,对抗训练过程中反复优化和迭代训练目标,直至损失函数收敛。
本发明的进一步改进在于:步骤2中的编码器训练真实文本-词分布向量到真实文本-主题分布向量的映射关系,包括/>维文本-词分布层、/>维语义-隐含表示层和/>维文本-主题分布层,具体包括步骤:
S2.1以步骤1中真实文本使用词袋模型表示,进行随机采样得到维文本-词分布表示/>作为输入,编码器/>将其映射到/>维隐含语义空间,再将得到的/>维隐含语义空间映射到/>维文本-主题分布层:
其中,和/>为文本-词分布层到语义-隐含表示层的权重矩阵,/>为文本-词分布层到语义-隐含表示层的权重矩阵的偏置项,/>为LeakyReLU激活函数的参数,为批归一化,/>为语义-隐含表示层到文本-主题分布层的权重矩阵,/>为语义-隐含表示层到文本-主题分布层的偏置项目,/>是真实文本对应的文本-主题分布且第维/>表示第/>个主题在真实文本中所占的比重;
S2.2随后将真实维词分布向量与真实/>维主题分布向量拼接成为真实分布对,将真实文本-词分布向量批内打乱表示为/>,将批内不匹配的主题分布与词分布构成负样本分布对/>
步骤3中生成器生成一个文本-主题分布到文本-词分布的映射关系,包括/>维文本-主题分布层、/>维语义-隐含表示层和/>维文本-词分布层,使用参数为/>的狄利克雷分布作为假文本-主题分布/>的先验,采用如下公式得到:
其中,参数为狄利克雷分布的概率密度,主题/>为该模型的主题参数,/>表示文本中每个词属于每个主题的概率。
S3.1生成器利用如下变换先将假文本-主题分布/>转换到/>维语义-隐含表示层,再将得到的/>维隐含语义空间映射到/>维文本-词分布层:
其中,为文本-主题分布层到语义-隐含表示层的权重矩阵,/>为文本-主题分布层到语义-隐含表示层的偏置项,/>为LeakyReLU激活函数的参数,/>为批归一化,/>是语义-隐含表示层到文本-词分布层的权重矩阵,/>是语义-隐含表示层到文本-词分布层的偏置项目,/>是真实文本对应的文本-主题分布且第/>维/>表示第/>个主题在真实文本中所占的比重;
S3-2随即将假文本-主题分布与假文本-词分布/>拼接成假分布对
S4.1步骤4中真实分布对和假分布对/>视为由两个/>+/>维联合分布对/>和/>中采样出来的随机样本,其中/>和/>均为由一个/>维狄利克雷分布对和一个/>维狄利克雷分布对构成的联合分布,对抗生成网络/>训练目标是让假联合分布逼近真实联合分布/>,统计网络利用真实样本对/>和负样本对/>估计文本-词分布空间与文本-主题分布空间之间的互信息并将其最大化提升主题多样性,当训练完成时编码器/>和生成器/>便可完成文本-主题分布与文本-词分布之间的双向映射关系和内在互信息最大化关系,具体包括如下步骤:
S4.2判别器由三层全连接网络构成,三层全连接网络包括一个/>+/>维的联合分布层,一个/>维的语义-隐含表示层,一个输出层。以真实分布对/>与假分布对/>为输入并输出/>来判断输入分布对的真假,该方法采用如下公式:
其中,为推土机距离,/>为判别器的输出信号,接近1的值表示判别器更倾向于将其判别为真,反之为假;
S4.3统计网络包含全局判别器/>和最大化互信息损失函数,全局判别器/>包括一个/>+/>维的联合分布层,一个/>维的语义-隐含表示层,一个输出层。统计网络/>用来计算真实样本对/>与负样本对/>之间的互信息并输出/>,该方法采用如下公式:
其中,表示/>激活函数,/>表示激活函数的输入,/>和/>分别表示文本-词分布层的真实数据分布和文本-主题分布层的真实分布,/>和/>表示批配的分布对,/>是同一批(batch)中与/>不匹配的真实文本-词分布。
S4.4、模型最终训练目标如下:
步骤5中具体包括如下步骤:
步骤5-1、加载数据集包括文本数据、词汇表和词向量
步骤5-2、构建生成器、编码器/>、判别器/>、(互信息)统计网络/>模型,并构建优化器对模型进行优化;
步骤5-3、将真实分布对和假分布对/>作为判别器/>输入,在对抗训练过程中,其输出信号/>可以指导编码器/>与生成器/>的学习进而挖掘出文本中的主题。
步骤5-4、将统计网络利用真实样本对/>和负样本分布对/>为输入来估计文本-词分布与文本主题分布空间之间的互信息并将其最大化以提升主题多样性。
步骤5-5、根据判别器的损失函数和正则化互信息损失函数进行随机梯度下降优化,更新编码器和解码器的参数,即:
步骤5-6、重复步骤5-3、步骤5-4、步骤5-5,直至收敛。
本发明的有益效果是:本发明通过互信息最大化机制可以帮助主题模型学习到更加丰富和多样的主题表示,最大化文本中不同词之间的互信息,促使模型将相关的词组织成更具有一致性和区分性的主题。通过优化互信息最大化的目标函数,模型可以更好地适应任务需求,提高模型在生成、分类、聚类等任务上的性能。在20Newsgroups数据集上进行了相关实验,结果表明,相比于其他方法,本发明具有更高的CP、CV、CA、NPMI和UT指标,说明挖掘出的主题的质量有明显提高。
附图说明
图1是本发明的模型图。
图2是本发明的具体训练流程图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
如图1-2所示,本发明是一种基于互信息和对抗神经网络的增强主题多样性方法,具体包括如下步骤:
步骤1、对社交平台在线文本进行预处理获得真实文本,将真实文本采样使用词袋模型方法表示成真实文本-词分布向量。
步骤2、将步骤1中的所述真实文本-词分布向量作为编码器的输入,得到真实文本-主题分布向量的映射,将真实文本-词分布向量与主题分布构成真实分布对,将真实文本-词分布向量批内打乱,与真实文本-主题分布向量构成负样本分布对。
步骤2中的编码器训练真实文本-词分布向量到真实文本-主题分布向量的映射关系,包括/>维文本-词分布层、/>维语义-隐含表示层和/>维文本-主题分布层,具体包括步骤:
步骤2-1、以步骤1中真实文本使用词袋模型表示,进行随机采样得到维文本-词分布表示/>作为输入,编码器/>将其映射到/>维隐含语义空间,再将得到的/>维隐含语义空间映射到/>维文本-主题分布层:
其中,和/>为文本-词分布层到语义-隐含表示层的权重矩阵,/>为文本-词分布层到语义-隐含表示层的权重矩阵的偏置项,/>为LeakyReLU激活函数的参数,为批归一化,/>为语义-隐含表示层到文本-主题分布层的权重矩阵,/>为语义-隐含表示层到文本-主题分布层的偏置项目,/>是真实文本对应的文本-主题分布且第维/>表示第/>个主题在真实文本中所占的比重。
本发明实例中,编码器网络维度为-/>-/>,其中/>为词向量维度,/>为语义隐含层维度,/>为主题向量维度。
步骤2-2、随后将真实维词分布向量与真实/>维主题分布向量拼接为真实分布对/>,将真实文本-词分布向量批内打乱表示为/>,将批内不匹配的主题分布与词分布构成负样本分布对/>
步骤3、步骤3中生成器生成一个文本-主题分布到文本-词分布的映射关系,包括/>维文本-主题分布层、/>维语义-隐含表示层和/>维文本-词分布层,使用参数为/>的狄利克雷分布作为假文本-主题分布/>的先验,采用如下公式得到:
其中,参数为狄利克雷分布的概率密度,主题/>为该模型的主题参数,/>表示文本中每个词属于每个主题的概率。
步骤3-1、生成器利用如下变换先将假文本-主题分布/>转换到/>维语义-隐含表示层,再将得到的/>维隐含语义空间映射到/>维文本-词分布层:
其中,为文本-主题分布层到语义-隐含表示层的权重矩阵,/>为文本-主题分布层到语义-隐含表示层的偏置项,/>为LeakyReLU激活函数的参数,/>为批归一化,/>是语义-隐含表示层到文本-词分布层的权重矩阵,/>是语义-隐含表示层到文本-词分布层的偏置项目,/>是真实文本对应的文本-主题分布且第/>维/>表示第/>个主题在真实文本中所占的比重。
本发明实例中,生成器网络维度为/>-/>-/>,其中/>为主题向量维度,/>为语义隐含层维度,/>为词向量维度。
步骤3-2、随即将假文本-主题分布与假文本-词分布/>拼接成假分布对
步骤4中真实分布对和假分布对/>视为由两个/>+/>维联合分布对/>和/>中采样出来的随机样本,其中/>和/>均为由一个/>维狄利克雷分布对和一个/>维狄利克雷分布对构成的联合分布,对抗生成网络/>训练目标是让假分布对/>逼近真实分布对/>,统计网络利用真实分布对/>和负样本对/>估计文本-词分布空间与文本-主题分布空间之间的互信息并将其最大化提升主题多样性,当训练完成时编码器/>和生成器/>便可完成文本-主题分布与文本-词分布之间的双向映射关系和内在互信息最大化关系,具体包括如下步骤:
步骤4-1、判别器由三层全连接网络构成,三层全连接网络包括一个/>+/>维的联合分布层,一个/>维的语义-隐含表示层,一个输出层。以真实分布对/>与假分布对/>为输入并输出/>来判断输入分布对的真假,该方法采用如下公式:
其中,为推土机距离,/>为判别器的输出信号,接近1的值表示判别器更倾向于将其判别为真,反之为假;
步骤4-2、统计网络包含全局判别器/>和最大化互信息损失函数,全局判别器包括一个/>+/>维的联合分布层,一个/>维的语义-隐含表示层,一个输出层,统计网络用来计算真实样本对/>与负样本对/>之间的互信息并输出/>,该方法采用如下公式:
其中,表示/>激活函数,/>表示激活函数的输入,/>和/>分别表示文本-词分布层的真实数据分布和文本-主题分布层的真实分布,/>和/>表示批配的分布对,/>是同一批(batch)中与/>不匹配的真实文本-词分布。
综上所述,模型最终训练目标如下:
步骤5、训练时为了近似估计两个高纬度分布之间的推土机距离和詹森-香农距离,对抗训练过程中反复优化和迭代训练目标,直至损失函数收敛。
步骤5-1、加载数据集包括文本数据、词汇表和词向量;
步骤5-2、构建生成器、编码器/>、判别器/>、统计网络/>模型,并构建优化器对模型进行优化;
步骤5-3、将真实分布对和假分布对/>作为判别器/>输入,在对抗训练过程中,其输出信号/>可以指导编码器/>与生成器/>的学习进而挖掘出文本中的主题。
步骤5-4、统计网络利用真实样本对/>和负样本分布对/>为输入来估计文本-词分布与文本主题分布空间之间的互信息并将其最大化以提升主题多样性。
步骤5-5、根据判别器的损失函数和正则化互信息损失函数进行随机梯度下降优化,更新编码器和解码器的参数,即:
步骤5-6、重复步骤5-3、步骤5-4、步骤5-5,直至收敛。
本发明提供的基于互信息和对抗神经网络的增强主题多样性方法,通过最大化主题分布与词分布之间的互信息来提升主题分布与词分布之间的相关性并增强主题多样性。
本发明提出的增强主题模型多样性的对抗神经网络方法,在20Newsgroups数据集上测试的主题一致性分别有5个设置[20,30,50,75,100],该方法测得平均主题一致性数值如下:C_P为0.273、CA为0.206、UCI为0.139、NPMI为0.052、UT为0.761,指标均高于对比实验,其中对比实验中最高为CP为0.260、CA为0.158、UCI为0.09、NPMI为0.47、UT为0.732。
本发明通过互信息最大化机制可以帮助主题模型学习到更加丰富和多样的主题表示,最大化文本中不同词之间的互信息,促使模型将相关的词组织成更具有一致性和区分性的主题。通过优化互信息最大化的目标函数,模型可以更好地适应任务需求,提高模型在生成、分类、聚类等任务上的性能。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

Claims (5)

1.一种基于互信息和对抗神经网络的增强主题多样性方法,其特征在于:所述增强主题多样性方法包括如下步骤:
步骤1、对社交平台在线文本进行数据预处理获得真实文本,将真实文本使用词袋模型表示成真实文本-词分布向量;
步骤2、将步骤1中的多个所述真实文本-词分布向量放在同一个批次中作为编码器的输入,得到真实文本-主题分布向量,将真实文本-词分布向量与对应的主题分布构成真实分布对,再将真实文本-词分布向量批内打乱与真实文本-主题分布向量拼接构成负样本分布对;
步骤3、从狄利克雷分布随机采样出主题向量作为假文本-主题分布并输入生成器中,得到假文本-词分布向量,假文本-词分布向量与假文本-主题分布构成假分布对;
步骤4、判别器接收步骤2得到的真实分布对和步骤3生成的假分布对作为判别器输入,计算两者的损失,来区分真实数据分布对和生成数据分布对,引入统计网络,所述统计网络接收真实分布对和负样本分布对作为输入,计算它们之间的互信息,互信息的正则化损失被添加到判别器的损失中,以增判别器的感知能力,提高生成样本的质量和多样性;
步骤5、训练中使用对抗训练来近似估计真实分布对和假分布对之间的推土机距离与真实分布对和负样本分布对之间的詹森香农距离,通过对抗训练的优化目标和迭代模型,直至损失函数收敛。
2.根据权利要求1所述的一种基于互信息和对抗神经网络的增强主题多样性方法,其特征在于:步骤2中的编码器训练真实文本-词分布向量到真实文本-主题分布向量的映射关系,包括/>维文本-词分布层、/>维语义-隐含表示层和/>维文本-主题分布层,具体包括步骤:
步骤2-1、以步骤1中真实文本使用词袋模型表示,进行随机采样得到维文本-词分布表示/>作为输入,编码器/>将其映射到/>维隐含语义空间,再将得到的/>维隐含语义空间映射到/>维文本-主题分布层,采用如下公式得到:
其中,和/>为文本-词分布层到语义-隐含表示层的权重矩阵,/>为文本-词分布层到语义-隐含表示层的权重矩阵的偏置项,/>为LeakyReLU激活函数的参数,/>为批归一化,/>为语义-隐含表示层到文本-主题分布层的权重矩阵,/>为语义-隐含表示层到文本-主题分布层的偏置项目,/>是真实文本对应的文本-主题分布且第维/>表示第/>个主题在真实文本中所占的比重;
步骤2-2、随后将真实维词分布向量与真实/>维主题分布向量拼接为真实分布对,将批内打乱的真实文本-词分布向量表示为/>,将批内不匹配的主题分布与词分布构成负样本分布对/>
3.根据权利要求2所述的一种基于互信息和对抗神经网络的增强主题多样性方法,其特征在于:步骤3中生成器生成一个文本-主题分布到文本-词分布的映射关系,包括/>维文本-主题分布层、/>维语义-隐含表示层和/>维文本-词分布层,使用参数为/>的狄利克雷分布作为假文本-主题分布/>的先验,采用如下公式得到:
其中,参数为狄利克雷分布的概率密度,主题/>为该模型的主题参数,/>表示文本中每个词属于每个主题的概率;
步骤3-1、生成器利用如下变换先将假文本-主题分布/>转换到/>维语义-隐含表示层,再将得到的/>维隐含语义空间映射到/>维文本-词分布层:
其中,为文本-主题分布层到语义-隐含表示层的权重矩阵,/>为文本-主题分布层到语义-隐含表示层的偏置项,/>为LeakyReLU激活函数的参数,/>为批归一化,是语义-隐含表示层到文本-词分布层的权重矩阵,/>是语义-隐含表示层到文本-词分布层的偏置项目,/>是真实文本对应的文本-主题分布且第/>维/>表示第/>个主题在真实文本中所占的比重;
步骤3-2、随即将假文本-主题分布与假文本-词分布/>拼接成假分布对/>
4.根据权利要求3所述的一种基于互信息和对抗神经网络的增强主题多样性方法,其特征在于:步骤4中真实分布对和假分布对/>视为由两个/>+/>维联合分布对/>和/>中采样出来的随机样本,其中/>和/>均为由一个/>维狄利克雷分布对和一个/>维狄利克雷分布对构成的联合分布,判别器/>训练目标是让假分布/>逼近真实分布对/>,统计网络/>利用真实分布对/>和负样本分布对/>估计文本-词分布空间与文本-主题分布空间之间的互信息并将其最大化提升主题多样性,当训练完成时编码器/>和生成器/>便得到文本-主题分布与文本-词分布之间的双向映射关系和内在互信息最大化关系,具体包括如下步骤
步骤4-1、判别器由三层全连接网络构成,三层全连接网络具体为一个/>+/>维的联合分布层,一个/>维的语义-隐含表示层,一个输出层,以真实分布对/>与假分布对/>为输入并输出/>来判断输入分布对的真假,该方法采用如下公式:
其中,为推土机距离,/>为判别器的输出信号,接近1的值表示判别器更倾向于将其判别为真,反之为假;
步骤4-2、统计网络包含全局判别器/>和最大化互信息损失函数,全局判别器/>包括一个/>+/>维的联合分布层、一个/>维的语义-隐含表示层和一个输出层,所述统计网络用来计算真实样本对/>与负样本对/>之间的互信息并输出/>,该方法采用如下公式:
其中,表示/>激活函数,/>表示激活函数的输入,/>和/>分别表示文本-词分布层的真实数据分布和文本-主题分布层的真实分布,/>是同一批中与/>不匹配的真实文本-词分布;
步骤4-3、模型最终训练目标如下:
5.根据权利要求4所述的一种基于互信息和对抗神经网络的增强主题多样性方法,其特征在于:步骤5中具体包括如下步骤:
步骤5-1、加载数据集包括文本数据、词汇表和词向量;
步骤5-2、构建编码器、生成器/>、判别器/>、统计网络/>模型,并构建优化器对模型进行优化;
步骤5-3、将真实分布对和假分布对/>作为判别器/>输入,在对抗训练过程中,其输出信号/>指导编码器/>与生成器/>的学习进而挖掘出文本中的主题;
步骤5-4、统计网络利用真实样本对/>和负样本分布对/>为输入来估计文本-词分布与文本主题分布空间之间的互信息并将其最大化以提升主题多样性;
步骤5-5、根据判别器的损失函数和正则化互信息损失函数进行随机梯度下降优化,更新编码器和解码器的参数,即:
步骤5-6、重复步骤5-3至步骤5-5,直至收敛。
CN202311524544.3A 2023-11-16 2023-11-16 一种基于互信息和对抗神经网络的增强主题多样性方法 Active CN117236330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311524544.3A CN117236330B (zh) 2023-11-16 2023-11-16 一种基于互信息和对抗神经网络的增强主题多样性方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311524544.3A CN117236330B (zh) 2023-11-16 2023-11-16 一种基于互信息和对抗神经网络的增强主题多样性方法

Publications (2)

Publication Number Publication Date
CN117236330A true CN117236330A (zh) 2023-12-15
CN117236330B CN117236330B (zh) 2024-01-26

Family

ID=89095326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311524544.3A Active CN117236330B (zh) 2023-11-16 2023-11-16 一种基于互信息和对抗神经网络的增强主题多样性方法

Country Status (1)

Country Link
CN (1) CN117236330B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808104A (zh) * 2024-02-29 2024-04-02 南京邮电大学 一种面向热点话题的基于自监督表示学习的观点挖掘方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009187A (zh) * 2017-02-20 2018-05-08 南京航空航天大学 一种增强文本特征表示的短文本主题挖掘方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110442781A (zh) * 2019-06-28 2019-11-12 武汉大学 一种基于生成对抗网络的对级排序项目推荐方法
CN110532378A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于主题模型的短文本方面提取方法
CN110941721A (zh) * 2019-09-28 2020-03-31 国家计算机网络与信息安全管理中心 基于变分自编码主题模型的短文本主题挖掘方法及***
US20200372225A1 (en) * 2019-05-22 2020-11-26 Royal Bank Of Canada System and method for controllable machine text generation architecture
CN112100317A (zh) * 2020-09-24 2020-12-18 南京邮电大学 一种基于主题语义感知的特征关键词提取方法
CN112597769A (zh) * 2020-12-15 2021-04-02 中山大学 一种基于狄利克雷变分自编码器的短文本主题识别方法
US20210209416A1 (en) * 2020-03-20 2021-07-08 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating event theme
CN115099188A (zh) * 2022-06-22 2022-09-23 南京邮电大学 一种基于词嵌入和生成式神经网络的主题挖掘方法
CN115828931A (zh) * 2023-02-09 2023-03-21 中南大学 面向段落级文本的中英文语义相似度计算方法
CN115878882A (zh) * 2021-09-26 2023-03-31 微软技术许可有限责任公司 用户兴趣的分层表示学习
US11640493B1 (en) * 2022-06-03 2023-05-02 Actionpower Corp. Method for dialogue summarization with word graphs
CN116467443A (zh) * 2023-04-17 2023-07-21 西安理工大学 基于主题识别的网络舆情文本分类方法
CN116583880A (zh) * 2020-09-29 2023-08-11 通用电气精准医疗有限责任公司 用于训练图像数据生成的多模态图像处理技术及其用于开发单模态图像推断模型的用途

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009187A (zh) * 2017-02-20 2018-05-08 南京航空航天大学 一种增强文本特征表示的短文本主题挖掘方法
CN110532378A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于主题模型的短文本方面提取方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
US20200372225A1 (en) * 2019-05-22 2020-11-26 Royal Bank Of Canada System and method for controllable machine text generation architecture
CN110442781A (zh) * 2019-06-28 2019-11-12 武汉大学 一种基于生成对抗网络的对级排序项目推荐方法
CN110941721A (zh) * 2019-09-28 2020-03-31 国家计算机网络与信息安全管理中心 基于变分自编码主题模型的短文本主题挖掘方法及***
US20210209416A1 (en) * 2020-03-20 2021-07-08 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating event theme
CN112100317A (zh) * 2020-09-24 2020-12-18 南京邮电大学 一种基于主题语义感知的特征关键词提取方法
CN116583880A (zh) * 2020-09-29 2023-08-11 通用电气精准医疗有限责任公司 用于训练图像数据生成的多模态图像处理技术及其用于开发单模态图像推断模型的用途
CN112597769A (zh) * 2020-12-15 2021-04-02 中山大学 一种基于狄利克雷变分自编码器的短文本主题识别方法
CN115878882A (zh) * 2021-09-26 2023-03-31 微软技术许可有限责任公司 用户兴趣的分层表示学习
US11640493B1 (en) * 2022-06-03 2023-05-02 Actionpower Corp. Method for dialogue summarization with word graphs
CN115099188A (zh) * 2022-06-22 2022-09-23 南京邮电大学 一种基于词嵌入和生成式神经网络的主题挖掘方法
CN115828931A (zh) * 2023-02-09 2023-03-21 中南大学 面向段落级文本的中英文语义相似度计算方法
CN116467443A (zh) * 2023-04-17 2023-07-21 西安理工大学 基于主题识别的网络舆情文本分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHING-SHENG LIN等: "Generative Adversarial Network for Joint Headline and Summary Generation", IEEE, vol. 10, pages 90745 *
吴少康等: "基于深度学习的嵌入式主题模型研究", 电脑知识与技术, vol. 18, no. 28, pages 7 *
夏家莉;曹中华;彭文忠;张守胜;: "Skip-Gram结构和词嵌入特性的文本主题建模", 小型微型计算机***, vol. 41, no. 07, pages 1400 *
孟祥福等: "个性化新闻推荐方法研究综述", 计算机科学与探索, vol. 17, no. 12, pages 2840 *
张俊三等: "基于多样化标签矩阵的医学影像报告生成", 计算机科学, pages 1 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808104A (zh) * 2024-02-29 2024-04-02 南京邮电大学 一种面向热点话题的基于自监督表示学习的观点挖掘方法
CN117808104B (zh) * 2024-02-29 2024-04-30 南京邮电大学 一种面向热点话题的基于自监督表示学习的观点挖掘方法

Also Published As

Publication number Publication date
CN117236330B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
CN105975573B (zh) 一种基于knn的文本分类方法
CN104866810B (zh) 一种深度卷积神经网络的人脸识别方法
CN109992779B (zh) 一种基于cnn的情感分析方法、装置、设备及存储介质
CN106649275A (zh) 基于词性信息和卷积神经网络的关系抽取方法
CN109255340A (zh) 一种融合多种改进vgg网络的人脸识别方法
CN108920445A (zh) 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN117236330B (zh) 一种基于互信息和对抗神经网络的增强主题多样性方法
CN109344759A (zh) 一种基于角度损失神经网络的亲属识别方法
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN101968853A (zh) 基于改进的免疫算法优化支持向量机参数的表情识别方法
CN102662931A (zh) 一种基于协同神经网络的语义角色标注方法
CN114169442A (zh) 基于双原型网络的遥感图像小样本场景分类方法
CN109767789A (zh) 一种用于语音情感识别的新特征提取方法
CN116467443A (zh) 基于主题识别的网络舆情文本分类方法
Lu Image classification algorithm based on improved AlexNet in cloud computing environment
Zhang et al. Performance comparisons of Bi-LSTM and Bi-GRU networks in Chinese word segmentation
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN108509840B (zh) 基于量子记忆优化机制的高光谱遥感图像波段选择方法
CN109409231A (zh) 基于自适应隐马尔可夫的多特征融合手语识别方法
CN113222002A (zh) 一种基于生成式鉴别性对比优化的零样本分类方法
Liu [Retracted] Art Painting Image Classification Based on Neural Network
CN109783586A (zh) 基于聚类重采样的水军评论检测***及方法
Zhang et al. Improved deep learning model text classification
Li et al. Research on dual channel news headline classification based on ERNIE pre-training model
Yi (Retracted) Estimation of human age by features of face and eyes based on multilevel feature convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant