CN115099188A - 一种基于词嵌入和生成式神经网络的主题挖掘方法 - Google Patents

一种基于词嵌入和生成式神经网络的主题挖掘方法 Download PDF

Info

Publication number
CN115099188A
CN115099188A CN202210708418.2A CN202210708418A CN115099188A CN 115099188 A CN115099188 A CN 115099188A CN 202210708418 A CN202210708418 A CN 202210708418A CN 115099188 A CN115099188 A CN 115099188A
Authority
CN
China
Prior art keywords
distribution
document
word
topic
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210708418.2A
Other languages
English (en)
Inventor
王睿
陈佳怡
黄海平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210708418.2A priority Critical patent/CN115099188A/zh
Publication of CN115099188A publication Critical patent/CN115099188A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于词嵌入和生成式神经网络的主题挖掘方法,属于自然语言处理领域。本方法包括:对语料库中的文本进行预处理;将文档词袋表示作为编码器网络的输入,将编码器网络的输出作为表示该文档主题分布的主题向量;文档主题向量经过加噪后作为高斯解码器的输入,将高斯解码器的输出作为表示该文档词分布的生成式词袋表示;以自编码器网络的重构损失和狄利克雷先验分布对齐的正则化损失最小为目标,对模型进行训练。本发明利用多维高斯分布在词向量空间对主题进行建模,融入了词向量中的外部语义知识,有效提高了主题的一致性;同时采用优化最大平均差的方法进行狄利克雷先验分布对齐,提高了主题的准确性。

Description

一种基于词嵌入和生成式神经网络的主题挖掘方法
技术领域
本发明涉及一种基于词嵌入和生成式神经网络的主题挖掘方法,属于自然语言处理领域。
背景技术
随着网络技术的快速发展,越来越多的信息以文本的形式发布在互联网上,如新闻报道、百科词条、公众号推文等,这些文本中往往包含着大量的主题信息,但若人工地阅读它们需要消耗大量的人力和时间,无法适应文本信息的增长速度。因此人们迫切需要一种能够从大量非结构化的无标注文本中自动挖掘隐含主题的方法,同时希望抽取的主题具有较好的语义连贯性和多样性。
主题建模主要研究从大量文本中发现一组潜在的主题,每个主题描述一个可解释的语义概念,它被广泛的应用于机器学习、自然语言处理和文本挖掘等领域。其中最著名的是Blei等人在2003年提出的隐狄利克雷分配(LDA),它可以挖掘文档中隐含的主题。但由于精确求解的困难,大多数LDA变量都要采用近似推理的方法(如变分推理、吉布斯采样等),这导致该模型需要复杂的数学推导、求解困难、不易扩展。
使用神经网络进行主题建模可以解决该问题。近年来,许多学者基于变分自编码器(VAE)设计了神经主题模型,如Miao等提出的神经变分文档模型(NVDM)和Srivastava等提出的主题模型的自动编码变分推理(NVLDA)等,但这些模型中使用的先验分布(如高斯分布和逻辑正态分布等)都无法捕捉多模态,不利于主题的抽取。针对这一问题,Wang等基于对抗训练提出对抗-神经主题模型(ATM),然而ATM无法推断文档主题分布,因此出现了双向对抗神经主题模型(BAT)。但对抗训练需要达到纳什均衡,梯度下降法无法保证训练的稳定性。于是,Feng等基于Wasserstein自编码器提出了W-LDA,该模型采用最小化最大平均差(MMD)进行狄利克雷先验分布对齐。但该模型基于词袋模型,没有考虑词之间的语义相关性。
综上所述,当前的神经主题模型仍存在有以下不足:
1)已有神经主题模型难以将适合于文本主题建模的狄利克雷先验在主题分布空间建模,限制了模型挖掘出主题的质量。
2)目前的神经主题模型无法将已有的外部语义知识(如词向量等)融入到神经主题建模的过程中,限制了模型挖掘出主题的质量。
3)目前的神经主题模型挖掘出的主题之间相互独立,难以准确地挖掘出主题与主题之间的语义关系。
发明内容
针对上述存在的问题,本发明提供了一种基于词嵌入和生成式神经网络的主题挖掘方法,通过使用最小化最大平均差来实现主题分布空间的隐含文档-主题分布与狄利克雷先验分布对齐,同时利用多维高斯分布在词向量空间对主题进行建模,融入了词向量中的外部语义知识,有效提高了主题的准确性、一致性以及语意连贯性,
本发明为解决上述技术问题采用的技术方案如下:
一种基于词嵌入和生成式神经网络的主题挖掘方法,具体包括如下步骤:
S1、对语料库中的文本进行预处理,将文档用词袋表示;
S2、将步骤S1得到的文档词袋表示作为编码器网络的输入,将编码器网络的输出作为表示该文档主题分布的主题向量;
S3、将步骤S2得到的文档主题向量经过加噪后作为高斯解码器的输入,将高斯解码器的输出作为表示该文档词分布的生成式词袋表示;
S4、以自编码器网络的重构损失和狄利克雷先验分布对齐的正则化损失最小为目标,对模型进行训练。
步骤S1中所述将文档用词袋表示采用TF-IDF表示法,所述TF-IDF表示法的具体计算方法如下:
Figure BDA0003706781560000031
Figure BDA0003706781560000032
tf-idfv,d=tfv,d×idfv
Figure BDA0003706781560000033
其中,nv,d表示词表第v个词出现在文档d中的次数,|D|表示语料中文档的个数,|Dv|表示语料库中包含词表中第v个词的文档的个数;因此,每个文档可以被表示为一个V维的多项式分布且第v维表示词表中第v个词与该文档的语义相关度。
步骤S2中所述编码器网络由2个全连接层组成,它以真实语料中随机采样的真实文档的V维向量表示
Figure BDA0003706781560000034
为输入,并将其变换为K维服从多项式分布的文档-主题分布
Figure BDA0003706781560000035
所述步骤S2的具体实现步骤如下:
S201、使用真实语料中随机采样的真实文档的V维向量表示
Figure BDA0003706781560000041
输入编码器网络,所述编码器网络首先通过如下变换将其映射到S维语义空间:
Figure BDA0003706781560000042
Figure BDA0003706781560000043
Figure BDA0003706781560000044
Figure BDA0003706781560000045
其中,
Figure BDA0003706781560000046
Figure BDA0003706781560000047
Figure BDA0003706781560000048
Figure BDA0003706781560000049
分别为两个表示层的权重矩阵和偏置项,
Figure BDA00037067815600000410
是经过批归一化BN(·)的状态向量,leak是LeakyReLU激活函数的超参数,
Figure BDA00037067815600000411
为表示层的输出向量;
S202、编码器网络利用如下变换将
Figure BDA00037067815600000412
映射为K维的文档主题分布:
Figure BDA00037067815600000413
其中,
Figure BDA00037067815600000414
为与文档
Figure BDA00037067815600000415
对应的文档主题分布且第k∈{1,2,...,K}维θe(k)表示第k个主题在文档
Figure BDA00037067815600000416
中所占的比重。
所述步骤S3中使用的高斯解码器以从编码器网络得到的文档主题分布
Figure BDA00037067815600000417
加噪后的
Figure BDA00037067815600000418
为输入,通过非线性变换将其转换为与之对应的V维文档词分布
Figure BDA00037067815600000419
其具体实现步骤如下:
S301、对编码器的输出
Figure BDA00037067815600000420
进行加噪,即
Figure BDA00037067815600000421
其中,
Figure BDA00037067815600000422
采样自先验狄利克雷分布;β为比例系数,当β=0时,说明高斯解码器的输入就是编码器的输出,当β=1时,说明高斯解码器的输入完全采样自先验分布,而不考虑编码器的输出结果;
S302、利用多维高斯分布对每个主题进行建模
解码器网络D用一个词向量维度的高斯分布
Figure BDA0003706781560000051
来建模第k个主题,其中,
Figure BDA0003706781560000052
和Σk是可训练参数,分别代表该高斯分布的均值和协方差矩阵;对于词表中的第v∈{1,2,...,V}个词,根据高斯分布的概率密度计算公式,其在第k个主题中的概率φk,v可由下式得出:
Figure BDA0003706781560000053
Figure BDA0003706781560000054
其中,
Figure BDA0003706781560000055
为词表中第v个词的词向量,V是词表大小,|Σk|=detΣk是协方差矩阵Σk的行列式,De是词向量的维度,
Figure BDA0003706781560000056
为通过概率密度计算出的概率值,
Figure BDA0003706781560000057
为第k个主题归一化后的词分布
S303、计算主题词分布
根据加噪后的主题分布
Figure BDA0003706781560000058
和计算得到的主题词分布,文档词分布
Figure BDA0003706781560000059
可由下式计算:
Figure BDA00037067815600000510
其中,θ(k)为第k个主题所占的比重。
步骤S4中所述自编码器网络的重构损失和狄利克雷先验分布对齐的正则化损失具体如下:
重构损失:
Figure BDA00037067815600000511
正则化损失计算主要分为两步:一是从狄利克雷分布中采样文档主题分布;二是计算编码器编码后得到的的文档主题分布和狄利克雷采样得到的文档主题分布的最大平均差;所述正则化损失计算的具体步骤如下:
a)从狄利克雷分布中采样文档主题分布
使用参数为
Figure BDA0003706781560000061
的狄利克雷分布作为文档主题分布
Figure BDA0003706781560000062
的先验,则
Figure BDA0003706781560000063
可使用如下公式采样得到:
Figure BDA0003706781560000064
其中,θ(k)为文档-主题分布中第k-维的值,
Figure BDA0003706781560000065
为从先验狄利克雷分布中采样出来的样本,
Figure BDA0003706781560000066
b)计算编码器编码后得到的文档主题分布和狄利克雷采样得到的文档主题分布的最大平均差
采用最小化最大平均差(MMD)进行先验分布对齐,需要定义如下正则项:
Figure BDA0003706781560000067
Figure BDA0003706781560000068
其中,QΘ表示编码器编码后得到的文档主题分布,PΘ表示狄利克雷先验分布,
Figure BDA0003706781560000069
是从编码器编码后得到的文档主题分布中得到的,
Figure BDA00037067815600000610
是先验分布PΘ中采样得到的文档主题分布;其中,
Figure BDA00037067815600000611
为核函数,m为样本数;
综上所述,整体模型的训练目标定义如下:
Figure BDA00037067815600000612
其中,重构损失函数为
Figure BDA00037067815600000613
分布对齐的正则化损失函数为MMD(QΘ,PΘ);λ是比例系数,一般取
Figure BDA0003706781560000071
其中s为文档长度,V为语料库的词数。
步骤S4中所述的训练过程具体包括:
S401、设置正则化系数λ(λ>0),初始化编码器网络E和解码器网络D的参数;
S402、从训练集中采样{x1,x2,...,xm},从狄利克雷分布中采样{θ12,...,θm},再从编码器E的输出中采样
Figure BDA0003706781560000072
S403、根据所述重构损失函数和正则化损失函数进行随机梯度下降优化,更新编码器网络E和解码器网络D的参数,即
Figure BDA0003706781560000073
S404、重复步骤S402-S403,直至收敛。
本发明的技术方案能产生以下的技术效果:
1.本发明提供的基于词嵌入和生成式神经网络的主题挖掘方法,使用最小化最大平均差(MMD)的方法进行狄利克雷先验分布对齐,更贴近主题的真实分布,提高了主题的准确性;
2.与现有技术相比较,本发明通过利用多维高斯分布在词向量空间对主题进行建模,融入了词向量中的外部语义知识,提高了主题的一致性和语义连贯性,能有效提高挖掘出的主题质量;
3.本发明可以通过计算每个主题的多维高斯分布之间的距离挖掘出主题与主题之间的语义关系,定量地体现不同主题之间的联系,避免了主观性。
附图说明
图1为本发明实施例所述的方法流程图;
图2为本发明的神经网络模型架构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及对应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
本实施例中,如图2所示为本发明所述的基于词嵌入和生成式神经网络模型的整体架构,该网络模型的整体架构主要分为两个部分:一是基于Wasserstein自编码器结构的模型框架,其中编码器网络E实现文档-词分布到文档-主题分布的映射;解码器网络D融入词嵌入实现文档-主题分布到文档-词分布的映射;二是通过最小化最大平均差(MMD)来实现主题分布空间的隐含文档-主题分布与先验狄利克雷分布的对齐。通过优化重构损失函数和正则化损失函数训练模型,从而实现主题挖掘和文档聚类。
如图1所示,本实施例的具体实施过程包括如下步骤:
S1、对语料库中的文本进行预处理,将文档用词袋表示;
从语料库中加载数据,然后通过计算TF-IDF将文档用词袋表示。所述计算TF-IDF的具体方法如下:
Figure BDA0003706781560000091
Figure BDA0003706781560000092
tf-idfv,d=tfv,d×idfv
Figure BDA0003706781560000093
其中,nv,d表示词表第v个词出现在文档d中的次数,|D|表示语料中文档的个数,|Dv|表示语料库中包含词表中第v个词的文档的个数。因此,每个文档可以被表示为一个V维的多项式分布且第v维表示词表中第v个词与该文档的语义相关度。
与词袋模型不同,TF-IDF不仅关注词频,还关注逆向文件频率,这使得某个单词不仅要在某篇文章中出现频率很高,同时还要在其他文章中很少出现,才能较好地反映主题。
S2、将步骤S1得到的文档词袋表示作为编码器网络的输入,将编码器网络的输出作为表示该文档主题分布的主题向量;
所述编码器网络E包含2个全连接层,将文档词袋表示输入编码器网络E,得到表示文档主题分布的主题向量,上述过程的具体实现步骤如下:
S201、设
Figure BDA0003706781560000094
为文档词袋表示,编码器网络E首先通过如下变换将
Figure BDA0003706781560000095
映射到S维语义空间:
Figure BDA0003706781560000096
Figure BDA0003706781560000097
Figure BDA0003706781560000098
Figure BDA0003706781560000099
其中,
Figure BDA00037067815600000910
Figure BDA00037067815600000911
Figure BDA00037067815600000912
Figure BDA00037067815600000913
分别为两个表示层的权重矩阵和偏置项,
Figure BDA0003706781560000101
是经过批归一化BN(·)的状态向量,leak是LeakyReLU激活函数的超参数,
Figure BDA0003706781560000102
为表示层的输出向量;
S202、然后编码器网络E利用如下变换将
Figure BDA0003706781560000103
映射为K维的文档主题分布:
Figure BDA0003706781560000104
其中,
Figure BDA0003706781560000105
为与文档
Figure BDA0003706781560000106
对应的文档主题分布且第k∈{1,2,...,K}维θe(k)表示第k个主题在文档
Figure BDA0003706781560000107
中所占的比重。
在本发明实施例中,编码器的设置维度为n-100-100-K,其中n为词向量的维度,K为主题向量的维度。
S3、将步骤S2得到的文档主题向量
Figure BDA0003706781560000108
经过加噪后作为高斯解码器的输入,将高斯解码器的输出作为表示该文档词分布的生成式词袋表示;
所述步骤S3的具体实现步骤如下:
S301、对编码器网络E的输出
Figure BDA0003706781560000109
进行加噪,从参数为α的狄利克雷分布中随机采样K维向量
Figure BDA00037067815600001010
通过下式对文档主题向量进行加噪:
Figure BDA00037067815600001011
其中,
Figure BDA00037067815600001012
采样自先验狄利克雷分布;β为比例系数,当β=0时,说明高斯解码器的输入就是编码器的输出,当β=1时,说明高斯解码器的输入完全采样自先验分布,而不考虑编码器的输出结果;在本实施例中,
Figure BDA00037067815600001013
采样自参数α=0.1的狄利克雷分布,加噪的比例系数β=0.5
S302、利用多维高斯分布对每个主题进行建模
通过解码器网络D用一个词向量维度的高斯分布
Figure BDA0003706781560000111
来建模第k个主题,其中,
Figure BDA0003706781560000112
和Σk是可训练参数,分别代表该高斯分布的均值和协方差矩阵。对于词表中的第v∈{1,2,...,V}个词,根据高斯分布的概率密度计算公式,其在第k个主题中的概率φk,v可由下式得出:
Figure BDA0003706781560000113
Figure BDA0003706781560000114
其中,
Figure BDA0003706781560000115
为词表中第v个词的词向量,V是词表大小,|Σk|=detΣk是协方差矩阵Σk的行列式,De是词向量的维度,
Figure BDA0003706781560000116
为通过概率密度计算出的概率值,
Figure BDA0003706781560000117
为第k个主题归一化后的词分布;
S303、计算主题词分布
根据步骤S301加噪后的主题分布
Figure BDA0003706781560000118
和计算得到的主题词分布,解码器网络D输出的文档词分布
Figure BDA0003706781560000119
可由下式计算:
Figure BDA00037067815600001110
其中,θ(k)为第k个主题所占的比重。
S4、以自编码器网络的重构损失和狄利克雷先验分布对齐的正则化损失最小为目标,对模型进行训练,直至收敛。
所述以自编码器网络的重构损失是真实文档词向量
Figure BDA00037067815600001111
和解码器生成的词向量
Figure BDA00037067815600001112
的负交叉熵损失,即
Figure BDA00037067815600001113
由于这两个词向量都来自于同一篇文档,所以它们应该越相近越好,因此该重构损失应越小越好。
所述正则化损失的计算主要分为两步:一是从狄利克雷分布中采样文档主题分布;二是计算编码器编码后得到的的文档主题分布和狄利克雷采样得到的文档主题分布的最大平均差。其具体步骤如下:
a)从狄利克雷分布中采样文档主题分布
使用参数为
Figure BDA0003706781560000121
的狄利克雷分布作为文档主题分布
Figure BDA0003706781560000122
的先验,则
Figure BDA0003706781560000123
可使用如下公式采样得到:
Figure BDA0003706781560000124
其中,θ(k)为文档-主题分布中第k-维的值,
Figure BDA0003706781560000125
为从先验狄利克雷分布中采样出来的样本,
Figure BDA0003706781560000126
b)计算编码器编码后得到的文档主题分布和狄利克雷采样得到的文档主题分布的最大平均差
采用最小化最大平均差(MMD)进行先验分布对齐,需要定义如下正则项:
Figure BDA0003706781560000127
Figure BDA0003706781560000128
其中,QΘ表示编码器编码后得到的文档主题分布,PΘ表示狄利克雷先验分布,
Figure BDA0003706781560000129
是从编码器编码后得到的文档主题分布中得到的,
Figure BDA00037067815600001210
是先验分布PΘ中采样得到的文档主题分布。其中,
Figure BDA00037067815600001211
为核函数,m为样本数。
综上所述,整体模型的训练目标定义如下:
Figure BDA00037067815600001212
其中,重构损失函数为
Figure BDA00037067815600001213
分布对齐的正则化损失函数为MMD(QΘ,PΘ)。λ是比例系数,一般取
Figure BDA0003706781560000131
其中s为文档长度,V为语料库的词数。
通过优化这个目标,编码器网络E就能实现文档-词分布
Figure BDA0003706781560000132
到文档主题分布
Figure BDA0003706781560000133
的映射,解码器D就能实现文档主题分布
Figure BDA0003706781560000134
到文档词分布
Figure BDA0003706781560000135
的映射,从而实现主题挖掘与文档聚类,具体步骤包括:
S401、设置正则化系数λ(λ>0),初始化编码器E和解码器D的参数;
S402、从训练集中采样{x1,x2,...,xm},从狄利克雷分布中采样{θ12,...,θm},再从编码器E的输出中采样
Figure BDA0003706781560000136
S403、根据重构损失函数和正则化损失函数进行随机梯度下降优化,更新编码器E和解码器D的参数,即
Figure BDA0003706781560000137
S404、重复步骤S402-S403,直至收敛,完成训练后打印每个主题的前10个主题词进行测试。
本实施例所述的一种基于词嵌入和生成式神经网络的主题挖掘方法的训练算法如下:
Figure BDA0003706781560000138
Figure BDA0003706781560000141
为了验证本发明的有效性,在相同的文本中使用不同的主流模型进行测试,并与本发明的实施例进行对比。
对比例1:按照(Yishu,Miao et al.”Neural variational inference for textprocessing.”In International Conference on Machine Learning,2016,pages 1727-1736)里的NVDM方法;
对比例2:按照(Yishu,Miao et al.”Discovering discrete latent topicswith neural variational inference.”In International Conference on MachineLearning,2017,pages 2410-2419)里的NVDM方法;
对比例3:按照(Rui,Wang et al.”Neural Topic Modeling with BidirectionalAdversarial Training.”In Proceedings of the 58th Annual Meeting of theAssociation for Computational Linguistics,2020,pages 340-350)里的BAT方法。
测试结果表明,本发明提出的基于词嵌入和生成式神经网络的主题挖掘方法,在Groli r数据集上的C_P为0.2571、C_A为0.2556、NPMI为0.0749、UCI为0.2423,所有指标均高于对比实验,其中对比实验中最高为C_P为0.2312、C_A为0.2108、NPMI为0.0608、UCI为0.1709,说明本实施例的方法提高了主题一致性和语义连贯性,能有效提高挖掘出的主题质量。
上述仅为本发明的优选实施例,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。

Claims (6)

1.一种基于词嵌入和生成式神经网络的主题挖掘方法,其特征在于,具体包括如下步骤:
S1、对语料库中的文本进行预处理,将文档用词袋表示;
S2、将步骤S1得到的文档词袋表示作为编码器网络的输入,将编码器网络的输出作为表示该文档主题分布的主题向量;
S3、将步骤S2得到的文档主题向量经过加噪后作为高斯解码器的输入,将高斯解码器的输出作为表示该文档词分布的生成式词袋表示;
S4、以自编码器网络的重构损失和狄利克雷先验分布对齐的正则化损失最小为目标,对模型进行训练。
2.根据权利要求1所述的一种基于词嵌入和生成式神经网络的主题挖掘方法,其特征在于,步骤S1中所述将文档用词袋表示采用TF-IDF表示法,所述TF-IDF表示法的具体计算方法如下:
Figure FDA0003706781550000011
Figure FDA0003706781550000012
tf-idfv,d=tfv,d×idfv
Figure FDA0003706781550000013
其中,nv,d表示词表第v个词出现在文档d中的次数,|D|表示语料中文档的个数,|Dv|表示语料库中包含词表中第v个词的文档的个数;因此,每个文档可以被表示为一个V维的多项式分布且第v维表示词表中第v个词与该文档的语义相关度。
3.根据权利要求2所述的一种基于词嵌入和生成式神经网络的主题挖掘方法,其特征在于,步骤S2中所述编码器网络由2个全连接层组成,所述编码器网络以真实语料中随机采样的真实文档的V维向量表示
Figure FDA00037067815500000217
为输入,并将其变换为K维服从多项式分布的文档-主题分布
Figure FDA00037067815500000218
所述步骤S2的具体实现步骤如下:
S201、将真实语料中随机采样的真实文档的V维向量表示
Figure FDA00037067815500000219
输入编码器网络,所述编码器网络首先通过如下变换将其映射到S维语义空间:
Figure FDA0003706781550000021
Figure FDA0003706781550000022
Figure FDA0003706781550000023
Figure FDA0003706781550000024
其中,
Figure FDA0003706781550000025
Figure FDA0003706781550000026
分别为两个表示层的权重矩阵和偏置项,
Figure FDA0003706781550000027
是经过批归一化BN(·)的状态向量,leak是LeakyReLU激活函数的超参数,
Figure FDA0003706781550000028
为表示层的输出向量;
S202、编码器网络利用如下变换将
Figure FDA0003706781550000029
映射为K维的文档主题分布:
Figure FDA00037067815500000210
其中,
Figure FDA00037067815500000211
为与文档
Figure FDA00037067815500000212
对应的文档主题分布且第k∈{1,2,...,K}维θe(k)表示第k个主题在文档
Figure FDA00037067815500000213
中所占的比重。
4.根据权利要求3所述的一种基于词嵌入和生成式神经网络的主题挖掘方法,其特征在于,所述步骤S3中使用的高斯解码器以从编码器网络得到的文档主题分布
Figure FDA00037067815500000214
加噪后的
Figure FDA00037067815500000215
为输入,通过非线性变换将其转换为与之对应的V维文档词分布
Figure FDA00037067815500000216
其具体实现步骤如下:
S301、对编码器的输出
Figure FDA0003706781550000031
进行加噪,即
Figure FDA0003706781550000032
其中,
Figure FDA0003706781550000033
采样自先验狄利克雷分布;β为比例系数,当β=0时,说明高斯解码器的输入就是编码器的输出,当β=1时,说明高斯解码器的输入完全采样自先验分布,而不考虑编码器的输出结果;
S302、利用多维高斯分布对每个主题进行建模
解码器网络D用一个词向量维度的高斯分布
Figure FDA0003706781550000034
来建模第k个主题,其中,
Figure FDA0003706781550000035
和Σk是可训练参数,分别代表该高斯分布的均值和协方差矩阵;对于词表中的第v∈{1,2,...,V}个词,根据高斯分布的概率密度计算公式,其在第k个主题中的概率φk,v可由下式得出:
Figure FDA0003706781550000036
Figure FDA0003706781550000037
其中,
Figure FDA0003706781550000038
为词表中第v个词的词向量,V是词表大小,|Σk|=detΣk是协方差矩阵Σk的行列式,De是词向量的维度,
Figure FDA0003706781550000039
为通过概率密度计算出的概率值,
Figure FDA00037067815500000310
为第k个主题归一化后的词分布
S303、计算主题词分布
根据加噪后的主题分布
Figure FDA00037067815500000311
和计算得到的主题词分布,文档词分布
Figure FDA00037067815500000312
可由下式计算:
Figure FDA00037067815500000313
其中,θ(k)为第k个主题所占的比重。
5.根据权利要求4所述的一种基于词嵌入和生成式神经网络的主题挖掘方法,其特征在于,步骤S4中所述自编码器网络的重构损失和狄利克雷先验分布对齐的正则化损失具体如下:
重构损失:
Figure FDA0003706781550000041
正则化损失计算主要分为两步:一是从狄利克雷分布中采样文档主题分布;二是计算编码器编码后得到的的文档主题分布和狄利克雷采样得到的文档主题分布的最大平均差;所述正则化损失计算的具体步骤如下:
a)从狄利克雷分布中采样文档主题分布
使用参数为
Figure FDA0003706781550000042
的狄利克雷分布作为文档主题分布
Figure FDA0003706781550000043
的先验,则
Figure FDA0003706781550000044
可使用如下公式采样得到:
Figure FDA0003706781550000045
其中,θ(k)为文档-主题分布中第k-维的值,
Figure FDA0003706781550000046
为从先验狄利克雷分布中采样出来的样本,
Figure FDA0003706781550000047
b)计算编码器编码后得到的文档主题分布和狄利克雷采样得到的文档主题分布的最大平均差
采用最小化最大平均差(MMD)进行先验分布对齐,需要定义如下正则项:
Figure FDA0003706781550000048
Figure FDA0003706781550000049
其中,QΘ表示编码器编码后得到的文档主题分布,PΘ表示狄利克雷先验分布,
Figure FDA00037067815500000410
是从编码器编码后得到的文档主题分布中得到的,
Figure FDA00037067815500000411
是先验分布PΘ中采样得到的文档主题分布;其中,
Figure FDA0003706781550000051
为核函数,m为样本数;
综上所述,整体模型的训练目标定义如下:
Figure FDA0003706781550000052
其中,重构损失函数为
Figure FDA0003706781550000053
分布对齐的正则化损失函数为MMD(QΘ,PΘ);λ是比例系数,一般取
Figure FDA0003706781550000054
其中s为文档长度,V为语料库的词数。
6.根据权利要求5所述的一种基于词嵌入和生成式神经网络的主题挖掘方法,其特征在于,步骤S4中所述的训练过程具体包括:
S401、设置正则化系数λ(λ>0),初始化编码器网络和解码器网络的参数;
S402、从训练集中采样{x1,x2,...,xm},从狄利克雷分布中采样{θ12,...,θm},再从编码器E的输出中采样
Figure FDA0003706781550000055
S403、根据所述重构损失函数和正则化损失函数进行随机梯度下降优化,更新编码器网络E和解码器网络D的参数,即
Figure FDA0003706781550000056
S404、重复步骤S402-S403,直至收敛。
CN202210708418.2A 2022-06-22 2022-06-22 一种基于词嵌入和生成式神经网络的主题挖掘方法 Pending CN115099188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210708418.2A CN115099188A (zh) 2022-06-22 2022-06-22 一种基于词嵌入和生成式神经网络的主题挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210708418.2A CN115099188A (zh) 2022-06-22 2022-06-22 一种基于词嵌入和生成式神经网络的主题挖掘方法

Publications (1)

Publication Number Publication Date
CN115099188A true CN115099188A (zh) 2022-09-23

Family

ID=83292124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210708418.2A Pending CN115099188A (zh) 2022-06-22 2022-06-22 一种基于词嵌入和生成式神经网络的主题挖掘方法

Country Status (1)

Country Link
CN (1) CN115099188A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116415593A (zh) * 2023-02-28 2023-07-11 北京市农林科学院 一种研究前沿识别方法、***、电子设备及存储介质
CN117236330A (zh) * 2023-11-16 2023-12-15 南京邮电大学 一种基于互信息和对抗神经网络的增强主题多样性方法
CN117573811A (zh) * 2024-01-16 2024-02-20 卓世科技(海南)有限公司 基于深度迁移学习的大语言模型数据挖掘方法
CN117808104A (zh) * 2024-02-29 2024-04-02 南京邮电大学 一种面向热点话题的基于自监督表示学习的观点挖掘方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012106885A1 (zh) * 2011-07-13 2012-08-16 华为技术有限公司 基于潜在狄利克雷模型的参数推断方法、计算装置及***
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
US20200293902A1 (en) * 2019-03-15 2020-09-17 Baidu Usa Llc Systems and methods for mutual learning for topic discovery and word embedding
CN114417852A (zh) * 2021-12-06 2022-04-29 重庆邮电大学 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012106885A1 (zh) * 2011-07-13 2012-08-16 华为技术有限公司 基于潜在狄利克雷模型的参数推断方法、计算装置及***
US20200293902A1 (en) * 2019-03-15 2020-09-17 Baidu Usa Llc Systems and methods for mutual learning for topic discovery and word embedding
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN114417852A (zh) * 2021-12-06 2022-04-29 重庆邮电大学 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FENG NAN 等: "Topic Modeling with Wasserstein Autoencoders", ARXIV, 6 December 2019 (2019-12-06), pages 1 - 37 *
张青 等: "基于词向量和变分自动编码器的短文本主题模型", 河北工业科技, no. 06, 3 December 2018 (2018-12-03) *
王睿: "基于词嵌入与生成式神经网络的主题模型研究", 中国博士学位论文全文数据库信息科技辑, 15 February 2022 (2022-02-15), pages 5 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116415593A (zh) * 2023-02-28 2023-07-11 北京市农林科学院 一种研究前沿识别方法、***、电子设备及存储介质
CN116415593B (zh) * 2023-02-28 2023-10-31 北京市农林科学院 一种研究前沿识别方法、***、电子设备及存储介质
CN117236330A (zh) * 2023-11-16 2023-12-15 南京邮电大学 一种基于互信息和对抗神经网络的增强主题多样性方法
CN117236330B (zh) * 2023-11-16 2024-01-26 南京邮电大学 一种基于互信息和对抗神经网络的增强主题多样性方法
CN117573811A (zh) * 2024-01-16 2024-02-20 卓世科技(海南)有限公司 基于深度迁移学习的大语言模型数据挖掘方法
CN117573811B (zh) * 2024-01-16 2024-03-19 卓世科技(海南)有限公司 基于深度迁移学习的大语言模型数据挖掘方法
CN117808104A (zh) * 2024-02-29 2024-04-02 南京邮电大学 一种面向热点话题的基于自监督表示学习的观点挖掘方法
CN117808104B (zh) * 2024-02-29 2024-04-30 南京邮电大学 一种面向热点话题的基于自监督表示学习的观点挖掘方法

Similar Documents

Publication Publication Date Title
CN115099188A (zh) 一种基于词嵌入和生成式神经网络的主题挖掘方法
Gallant et al. Representing objects, relations, and sequences
Roshanfekr et al. Sentiment analysis using deep learning on Persian texts
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111444700A (zh) 一种基于语义文档表达的文本相似度量方法
CN111797241B (zh) 基于强化学习的事件论元抽取方法及装置
Jin et al. Back to common sense: Oxford dictionary descriptive knowledge augmentation for aspect-based sentiment analysis
CN112926322A (zh) 融合自注意力机制和深度学习的文本分类方法及***
Zhou A review of text classification based on deep learning
Zhao et al. AP-BERT: enhanced pre-trained model through average pooling
Xu et al. Learning transferable features in meta-learning for few-shot text classification
Law et al. Ltsg: Latent topical skip-gram for mutually learning topic model and vector representations
CN112347245A (zh) 面向投融资领域机构的观点挖掘方法、装置和电子设备
CN115222048A (zh) 文献摘要生成模型的训练方法、装置、设备及介质
CN111723572A (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN116629361A (zh) 基于本体学习和注意力机制的知识推理方法
Yu et al. Multi-module Fusion Relevance Attention Network for Multi-label Text Classification.
Li et al. TransExplain: Using neural networks to find suitable explanations for Chinese phrases
Sun et al. A BERT-based deontic logic learner
Qin et al. Enhancing named entity recognition from military news with bert
He et al. Distant supervised relation extraction via long short term memory networks with sentence embedding
Xu et al. Multi text classification model based on bret-cnn-bilstm
Yuan et al. An encoder-decoder architecture with graph convolutional networks for abstractive summarization
Kibria et al. Context-driven bengali text generation using conditional language model
Gultepe et al. Document classification using convolutional neural networks with small window sizes and latent semantic analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination