CN115099188A

CN115099188A - 一种基于词嵌入和生成式神经网络的主题挖掘方法

Info

Publication number: CN115099188A
Application number: CN202210708418.2A
Authority: CN
Inventors: 王睿; 陈佳怡; 黄海平
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-09-23

Abstract

本发明公开了一种基于词嵌入和生成式神经网络的主题挖掘方法，属于自然语言处理领域。本方法包括：对语料库中的文本进行预处理；将文档词袋表示作为编码器网络的输入，将编码器网络的输出作为表示该文档主题分布的主题向量；文档主题向量经过加噪后作为高斯解码器的输入，将高斯解码器的输出作为表示该文档词分布的生成式词袋表示；以自编码器网络的重构损失和狄利克雷先验分布对齐的正则化损失最小为目标，对模型进行训练。本发明利用多维高斯分布在词向量空间对主题进行建模，融入了词向量中的外部语义知识，有效提高了主题的一致性；同时采用优化最大平均差的方法进行狄利克雷先验分布对齐，提高了主题的准确性。

Description

一种基于词嵌入和生成式神经网络的主题挖掘方法

技术领域

本发明涉及一种基于词嵌入和生成式神经网络的主题挖掘方法，属于自然语言处理领域。

背景技术

随着网络技术的快速发展，越来越多的信息以文本的形式发布在互联网上，如新闻报道、百科词条、公众号推文等，这些文本中往往包含着大量的主题信息，但若人工地阅读它们需要消耗大量的人力和时间，无法适应文本信息的增长速度。因此人们迫切需要一种能够从大量非结构化的无标注文本中自动挖掘隐含主题的方法，同时希望抽取的主题具有较好的语义连贯性和多样性。

主题建模主要研究从大量文本中发现一组潜在的主题，每个主题描述一个可解释的语义概念，它被广泛的应用于机器学习、自然语言处理和文本挖掘等领域。其中最著名的是Blei等人在2003年提出的隐狄利克雷分配(LDA)，它可以挖掘文档中隐含的主题。但由于精确求解的困难，大多数LDA变量都要采用近似推理的方法(如变分推理、吉布斯采样等)，这导致该模型需要复杂的数学推导、求解困难、不易扩展。

使用神经网络进行主题建模可以解决该问题。近年来，许多学者基于变分自编码器(VAE)设计了神经主题模型，如Miao等提出的神经变分文档模型(NVDM)和Srivastava等提出的主题模型的自动编码变分推理(NVLDA)等，但这些模型中使用的先验分布(如高斯分布和逻辑正态分布等)都无法捕捉多模态，不利于主题的抽取。针对这一问题，Wang等基于对抗训练提出对抗-神经主题模型(ATM)，然而ATM无法推断文档主题分布，因此出现了双向对抗神经主题模型(BAT)。但对抗训练需要达到纳什均衡，梯度下降法无法保证训练的稳定性。于是，Feng等基于Wasserstein自编码器提出了W-LDA，该模型采用最小化最大平均差(MMD)进行狄利克雷先验分布对齐。但该模型基于词袋模型，没有考虑词之间的语义相关性。

综上所述，当前的神经主题模型仍存在有以下不足：

1)已有神经主题模型难以将适合于文本主题建模的狄利克雷先验在主题分布空间建模，限制了模型挖掘出主题的质量。

2)目前的神经主题模型无法将已有的外部语义知识(如词向量等)融入到神经主题建模的过程中，限制了模型挖掘出主题的质量。

3)目前的神经主题模型挖掘出的主题之间相互独立，难以准确地挖掘出主题与主题之间的语义关系。

发明内容

针对上述存在的问题，本发明提供了一种基于词嵌入和生成式神经网络的主题挖掘方法，通过使用最小化最大平均差来实现主题分布空间的隐含文档-主题分布与狄利克雷先验分布对齐，同时利用多维高斯分布在词向量空间对主题进行建模，融入了词向量中的外部语义知识，有效提高了主题的准确性、一致性以及语意连贯性，

本发明为解决上述技术问题采用的技术方案如下：

一种基于词嵌入和生成式神经网络的主题挖掘方法，具体包括如下步骤：

S1、对语料库中的文本进行预处理，将文档用词袋表示；

S2、将步骤S1得到的文档词袋表示作为编码器网络的输入，将编码器网络的输出作为表示该文档主题分布的主题向量；

S3、将步骤S2得到的文档主题向量经过加噪后作为高斯解码器的输入，将高斯解码器的输出作为表示该文档词分布的生成式词袋表示；

S4、以自编码器网络的重构损失和狄利克雷先验分布对齐的正则化损失最小为目标，对模型进行训练。

步骤S1中所述将文档用词袋表示采用TF-IDF表示法，所述TF-IDF表示法的具体计算方法如下：

tf-idf_v,d＝tf_v,d×idf_v

其中，n_v,d表示词表第v个词出现在文档d中的次数，|D|表示语料中文档的个数，|D_v|表示语料库中包含词表中第v个词的文档的个数；因此，每个文档可以被表示为一个V维的多项式分布且第v维表示词表中第v个词与该文档的语义相关度。

步骤S2中所述编码器网络由2个全连接层组成，它以真实语料中随机采样的真实文档的V维向量表示

为输入，并将其变换为K维服从多项式分布的文档-主题分布

所述步骤S2的具体实现步骤如下：

S201、使用真实语料中随机采样的真实文档的V维向量表示

输入编码器网络，所述编码器网络首先通过如下变换将其映射到S维语义空间：

其中，

和

分别为两个表示层的权重矩阵和偏置项，

是经过批归一化BN(·)的状态向量，leak是LeakyReLU激活函数的超参数，

为表示层的输出向量；

S202、编码器网络利用如下变换将

映射为K维的文档主题分布：

其中，

为与文档

对应的文档主题分布且第k∈{1,2,...,K}维θ_e(k)表示第k个主题在文档

中所占的比重。

所述步骤S3中使用的高斯解码器以从编码器网络得到的文档主题分布

加噪后的

为输入，通过非线性变换将其转换为与之对应的V维文档词分布

其具体实现步骤如下：

S301、对编码器的输出

进行加噪，即

其中，

采样自先验狄利克雷分布；β为比例系数，当β＝0时，说明高斯解码器的输入就是编码器的输出，当β＝1时，说明高斯解码器的输入完全采样自先验分布，而不考虑编码器的输出结果；

S302、利用多维高斯分布对每个主题进行建模

解码器网络D用一个词向量维度的高斯分布

来建模第k个主题，其中，

和Σ_k是可训练参数，分别代表该高斯分布的均值和协方差矩阵；对于词表中的第v∈{1,2,...,V}个词，根据高斯分布的概率密度计算公式，其在第k个主题中的概率φ_k,v可由下式得出：

其中，

为词表中第v个词的词向量，V是词表大小，|Σ_k|＝detΣ_k是协方差矩阵Σ_k的行列式，D_e是词向量的维度，

为通过概率密度计算出的概率值，

为第k个主题归一化后的词分布

S303、计算主题词分布

根据加噪后的主题分布

和计算得到的主题词分布，文档词分布

可由下式计算：

其中，θ(k)为第k个主题所占的比重。

步骤S4中所述自编码器网络的重构损失和狄利克雷先验分布对齐的正则化损失具体如下：

重构损失：

正则化损失计算主要分为两步：一是从狄利克雷分布中采样文档主题分布；二是计算编码器编码后得到的的文档主题分布和狄利克雷采样得到的文档主题分布的最大平均差；所述正则化损失计算的具体步骤如下：

a)从狄利克雷分布中采样文档主题分布

使用参数为

的狄利克雷分布作为文档主题分布

的先验，则

可使用如下公式采样得到：

其中，θ(k)为文档-主题分布中第k-维的值，

为从先验狄利克雷分布中采样出来的样本，

b)计算编码器编码后得到的文档主题分布和狄利克雷采样得到的文档主题分布的最大平均差

采用最小化最大平均差(MMD)进行先验分布对齐，需要定义如下正则项：

其中，Q_Θ表示编码器编码后得到的文档主题分布，P_Θ表示狄利克雷先验分布，

是从编码器编码后得到的文档主题分布中得到的，

是先验分布P_Θ中采样得到的文档主题分布；其中，

为核函数，m为样本数；

综上所述，整体模型的训练目标定义如下：

其中，重构损失函数为

分布对齐的正则化损失函数为MMD(Q_Θ,P_Θ)；λ是比例系数，一般取

其中s为文档长度，V为语料库的词数。

步骤S4中所述的训练过程具体包括：

S401、设置正则化系数λ(λ＞0)，初始化编码器网络E和解码器网络D的参数；

S402、从训练集中采样{x₁,x₂,...,x_m}，从狄利克雷分布中采样{θ¹,θ²,...,θ^m}，再从编码器E的输出中采样

S403、根据所述重构损失函数和正则化损失函数进行随机梯度下降优化，更新编码器网络E和解码器网络D的参数，即

S404、重复步骤S402-S403，直至收敛。

本发明的技术方案能产生以下的技术效果：

1.本发明提供的基于词嵌入和生成式神经网络的主题挖掘方法，使用最小化最大平均差(MMD)的方法进行狄利克雷先验分布对齐，更贴近主题的真实分布，提高了主题的准确性；

2.与现有技术相比较，本发明通过利用多维高斯分布在词向量空间对主题进行建模，融入了词向量中的外部语义知识，提高了主题的一致性和语义连贯性，能有效提高挖掘出的主题质量；

3.本发明可以通过计算每个主题的多维高斯分布之间的距离挖掘出主题与主题之间的语义关系，定量地体现不同主题之间的联系，避免了主观性。

附图说明

图1为本发明实施例所述的方法流程图；

图2为本发明的神经网络模型架构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及对应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

本实施例中，如图2所示为本发明所述的基于词嵌入和生成式神经网络模型的整体架构，该网络模型的整体架构主要分为两个部分：一是基于Wasserstein自编码器结构的模型框架，其中编码器网络E实现文档-词分布到文档-主题分布的映射；解码器网络D融入词嵌入实现文档-主题分布到文档-词分布的映射；二是通过最小化最大平均差(MMD)来实现主题分布空间的隐含文档-主题分布与先验狄利克雷分布的对齐。通过优化重构损失函数和正则化损失函数训练模型，从而实现主题挖掘和文档聚类。

如图1所示，本实施例的具体实施过程包括如下步骤：

S1、对语料库中的文本进行预处理，将文档用词袋表示；

从语料库中加载数据，然后通过计算TF-IDF将文档用词袋表示。所述计算TF-IDF的具体方法如下：

tf-idf_v,d＝tf_v,d×idf_v

其中，n_v,d表示词表第v个词出现在文档d中的次数，|D|表示语料中文档的个数，|D_v|表示语料库中包含词表中第v个词的文档的个数。因此，每个文档可以被表示为一个V维的多项式分布且第v维表示词表中第v个词与该文档的语义相关度。

与词袋模型不同，TF-IDF不仅关注词频，还关注逆向文件频率，这使得某个单词不仅要在某篇文章中出现频率很高，同时还要在其他文章中很少出现，才能较好地反映主题。

所述编码器网络E包含2个全连接层，将文档词袋表示输入编码器网络E，得到表示文档主题分布的主题向量，上述过程的具体实现步骤如下：

S201、设

为文档词袋表示，编码器网络E首先通过如下变换将

映射到S维语义空间：

其中，

和

分别为两个表示层的权重矩阵和偏置项，

为表示层的输出向量；

S202、然后编码器网络E利用如下变换将

映射为K维的文档主题分布：

其中，

为与文档

中所占的比重。

在本发明实施例中，编码器的设置维度为n-100-100-K，其中n为词向量的维度，K为主题向量的维度。

S3、将步骤S2得到的文档主题向量

经过加噪后作为高斯解码器的输入，将高斯解码器的输出作为表示该文档词分布的生成式词袋表示；

所述步骤S3的具体实现步骤如下：

S301、对编码器网络E的输出

进行加噪，从参数为α的狄利克雷分布中随机采样K维向量

通过下式对文档主题向量进行加噪：

其中，

采样自先验狄利克雷分布；β为比例系数，当β＝0时，说明高斯解码器的输入就是编码器的输出，当β＝1时，说明高斯解码器的输入完全采样自先验分布，而不考虑编码器的输出结果；在本实施例中，

采样自参数α＝0.1的狄利克雷分布，加噪的比例系数β＝0.5

S302、利用多维高斯分布对每个主题进行建模

通过解码器网络D用一个词向量维度的高斯分布

来建模第k个主题，其中，

和Σ_k是可训练参数，分别代表该高斯分布的均值和协方差矩阵。对于词表中的第v∈{1,2,...,V}个词，根据高斯分布的概率密度计算公式，其在第k个主题中的概率φ_k,v可由下式得出：

其中，

为通过概率密度计算出的概率值，

为第k个主题归一化后的词分布；

S303、计算主题词分布

根据步骤S301加噪后的主题分布

和计算得到的主题词分布，解码器网络D输出的文档词分布

可由下式计算：

其中，θ(k)为第k个主题所占的比重。

S4、以自编码器网络的重构损失和狄利克雷先验分布对齐的正则化损失最小为目标，对模型进行训练，直至收敛。

所述以自编码器网络的重构损失是真实文档词向量

和解码器生成的词向量

的负交叉熵损失，即

由于这两个词向量都来自于同一篇文档，所以它们应该越相近越好，因此该重构损失应越小越好。

所述正则化损失的计算主要分为两步：一是从狄利克雷分布中采样文档主题分布；二是计算编码器编码后得到的的文档主题分布和狄利克雷采样得到的文档主题分布的最大平均差。其具体步骤如下：

a)从狄利克雷分布中采样文档主题分布

使用参数为

的狄利克雷分布作为文档主题分布

的先验，则

可使用如下公式采样得到：

其中，θ(k)为文档-主题分布中第k-维的值，

为从先验狄利克雷分布中采样出来的样本，

是从编码器编码后得到的文档主题分布中得到的，

是先验分布P_Θ中采样得到的文档主题分布。其中，

为核函数，m为样本数。

综上所述，整体模型的训练目标定义如下：

其中，重构损失函数为

分布对齐的正则化损失函数为MMD(Q_Θ,P_Θ)。λ是比例系数，一般取

其中s为文档长度，V为语料库的词数。

通过优化这个目标，编码器网络E就能实现文档-词分布

到文档主题分布

的映射，解码器D就能实现文档主题分布

到文档词分布

的映射，从而实现主题挖掘与文档聚类，具体步骤包括：

S401、设置正则化系数λ(λ＞0)，初始化编码器E和解码器D的参数；

S403、根据重构损失函数和正则化损失函数进行随机梯度下降优化，更新编码器E和解码器D的参数，即

S404、重复步骤S402-S403，直至收敛，完成训练后打印每个主题的前10个主题词进行测试。

本实施例所述的一种基于词嵌入和生成式神经网络的主题挖掘方法的训练算法如下：

为了验证本发明的有效性，在相同的文本中使用不同的主流模型进行测试，并与本发明的实施例进行对比。

对比例1：按照(Yishu,Miao et al.”Neural variational inference for textprocessing.”In International Conference on Machine Learning,2016,pages 1727-1736)里的NVDM方法；

对比例2：按照(Yishu,Miao et al.”Discovering discrete latent topicswith neural variational inference.”In International Conference on MachineLearning,2017,pages 2410-2419)里的NVDM方法；

对比例3:按照(Rui,Wang et al.”Neural Topic Modeling with BidirectionalAdversarial Training.”In Proceedings of the 58^th Annual Meeting of theAssociation for Computational Linguistics,2020,pages 340-350)里的BAT方法。

测试结果表明，本发明提出的基于词嵌入和生成式神经网络的主题挖掘方法，在Groli r数据集上的C_P为0.2571、C_A为0.2556、NPMI为0.0749、UCI为0.2423，所有指标均高于对比实验，其中对比实验中最高为C_P为0.2312、C_A为0.2108、NPMI为0.0608、UCI为0.1709，说明本实施例的方法提高了主题一致性和语义连贯性，能有效提高挖掘出的主题质量。

上述仅为本发明的优选实施例，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。