CN117236330A

CN117236330A - 一种基于互信息和对抗神经网络的增强主题多样性方法

Info

Publication number: CN117236330A
Application number: CN202311524544.3A
Authority: CN
Inventors: 王睿; 郝仁; 刘星; 黄海平
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2023-12-15
Anticipated expiration: 2043-11-16
Also published as: CN117236330B

Abstract

本发明属于自然语言处理技术领域，公开了一种基于互信息和对抗神经网络的增强主题多样性方法，包括：语料库中词语预处理作为真实文本词分布；将随机采样的语料作为编码器的输入，生成真实文本主题分布向量；将真实文本词分布与主题分布构成分布对且批内随机打乱作为负样本分布对；将狄利克雷分布随机采样的假文本主题分布为生成器输入，并转换为假文本词分布向量；以真实分布对和假分布对在对抗训练过程中生成主题词；以判别器损失函数和最大化互信息的正则化损失为目标进行训练。本发明对文本主题进行建模，挖掘高质量主题，将互信息最大化技术融入到对抗神经主题建模过程，增强主题多样性，具有更高的主题同一性和多样性指标。

Description

一种基于互信息和对抗神经网络的增强主题多样性方法

技术领域

本发明属于自然语言处理技术领域，具体的说是一种基于互信息和对抗神经网络的增强主题多样性方法。

背景技术

主题模型是文本挖掘的重要工具，挖掘语料里隐藏信息，并且在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。其中隐式狄利克雷分配是其最具代表性的模型，来推测文本的主题分布。可是由于模型求解复杂，过于有微小的调整，科研人员就需要为此设计对应的理论方法，不利于对后续在应用层面的主题建模。

为了解决传统主题模型的不足，基于近些年生成式神经网络的迅速发展，神经主题模型在文本挖掘、自然语言处理领域受到诸多学者的关注并进行了深入的研究，例如：基于对抗训练提出对抗-神经主题模型和双向对抗神经主题模型。模型采用狄利克雷分布作为主题空间的先验分布进行建模，编码器和生成器生成更逼真的数据分布和更准确的主题表示，却忽略生成数据分布和真实数据分布之间有价值的信息，导致多样性不足。

发明内容

为了解决上述技术问题，本发明提供了一种基于互信息和对抗神经网络的增强主题多样性方法，能够让文本中隐含主题信息服从狄利克雷分布，并在对抗神经主题建模框架下融入互信息最大化机制来提升模型挖掘出的主题的多样性。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种基于互信息和对抗神经网络的增强主题多样性方法，包括以下步骤：

S1：对社交平台在线文本进行数据预处理获得真实文本，将真实文本使用词袋模型表示成真实文本-词分布向量；

S2：将多个真实文本-词分布向量放在一个批次中作为编码器的输入，得到真实文本-主题分布向量，将真实文本-词分布向量与对应的主题分布构成真实分布对，再将真实文本-词分布向量批内打乱与真实文本-主题分布构成负样本分布对；

S3：从狄利克雷分布随机采样出主题向量作为假文本-主题分布并输入生成器中，得到假文本-词分布向量与假文本-主题分布构成假分布对；

S4：真实分布对与假分布对作为对抗生成网络输入，真实分布对与负样本对作为统计网络输入，在对抗训练的过程中，通过对抗产生的信号训练编码器与生成器，以互信息的正则化损失最大为目标，对模型进行训练。

S5：训练时为了近似估计两个高纬度分布之间的推土机距离和詹森-香农距离，对抗训练过程中反复优化和迭代训练目标，直至损失函数收敛。

本发明的进一步改进在于：步骤2中的编码器训练真实文本-词分布向量到真实文本-主题分布向量的映射关系，包括/>维文本-词分布层、/>维语义-隐含表示层和/>维文本-主题分布层，具体包括步骤：

S2.1以步骤1中真实文本使用词袋模型表示，进行随机采样得到维文本-词分布表示/>作为输入，编码器/>将其映射到/>维隐含语义空间，再将得到的/>维隐含语义空间映射到/>维文本-主题分布层：

其中，和/>为文本-词分布层到语义-隐含表示层的权重矩阵，/>为文本-词分布层到语义-隐含表示层的权重矩阵的偏置项，/>为LeakyReLU激活函数的参数，为批归一化，/>为语义-隐含表示层到文本-主题分布层的权重矩阵，/>为语义-隐含表示层到文本-主题分布层的偏置项目，/>是真实文本对应的文本-主题分布且第维/>表示第/>个主题在真实文本中所占的比重；

S2.2随后将真实维词分布向量与真实/>维主题分布向量拼接成为真实分布对，将真实文本-词分布向量批内打乱表示为/>，将批内不匹配的主题分布与词分布构成负样本分布对/>。

步骤3中生成器生成一个文本-主题分布到文本-词分布的映射关系，包括/>维文本-主题分布层、/>维语义-隐含表示层和/>维文本-词分布层，使用参数为/>的狄利克雷分布作为假文本-主题分布/>的先验，采用如下公式得到：

其中，参数为狄利克雷分布的概率密度，主题/>为该模型的主题参数，/>表示文本中每个词属于每个主题的概率。

S3.1生成器利用如下变换先将假文本-主题分布/>转换到/>维语义-隐含表示层，再将得到的/>维隐含语义空间映射到/>维文本-词分布层：

其中，为文本-主题分布层到语义-隐含表示层的权重矩阵，/>为文本-主题分布层到语义-隐含表示层的偏置项，/>为LeakyReLU激活函数的参数，/>为批归一化，/>是语义-隐含表示层到文本-词分布层的权重矩阵，/>是语义-隐含表示层到文本-词分布层的偏置项目，/>是真实文本对应的文本-主题分布且第/>维/>表示第/>个主题在真实文本中所占的比重；

S3-2随即将假文本-主题分布与假文本-词分布/>拼接成假分布对。

S4.1步骤4中真实分布对和假分布对/>视为由两个/>+/>维联合分布对/>和/>中采样出来的随机样本，其中/>和/>均为由一个/>维狄利克雷分布对和一个/>维狄利克雷分布对构成的联合分布，对抗生成网络/>训练目标是让假联合分布逼近真实联合分布/>，统计网络利用真实样本对/>和负样本对/>估计文本-词分布空间与文本-主题分布空间之间的互信息并将其最大化提升主题多样性，当训练完成时编码器/>和生成器/>便可完成文本-主题分布与文本-词分布之间的双向映射关系和内在互信息最大化关系，具体包括如下步骤：

S4.2判别器由三层全连接网络构成，三层全连接网络包括一个/>+/>维的联合分布层，一个/>维的语义-隐含表示层，一个输出层。以真实分布对/>与假分布对/>为输入并输出/>来判断输入分布对的真假，该方法采用如下公式：

其中，为推土机距离，/>为判别器的输出信号，接近1的值表示判别器更倾向于将其判别为真，反之为假；

S4.3统计网络包含全局判别器/>和最大化互信息损失函数，全局判别器/>包括一个/>+/>维的联合分布层，一个/>维的语义-隐含表示层，一个输出层。统计网络/>用来计算真实样本对/>与负样本对/>之间的互信息并输出/>，该方法采用如下公式：

其中，表示/>激活函数，/>表示激活函数的输入，/>和/>分别表示文本-词分布层的真实数据分布和文本-主题分布层的真实分布，/>和/>表示批配的分布对，/>是同一批(batch)中与/>不匹配的真实文本-词分布。

S4.4、模型最终训练目标如下：

步骤5中具体包括如下步骤：

步骤5-1、加载数据集包括文本数据、词汇表和词向量

步骤5-2、构建生成器、编码器/>、判别器/>、(互信息)统计网络/>模型，并构建优化器对模型进行优化；

步骤5-3、将真实分布对和假分布对/>作为判别器/>输入，在对抗训练过程中，其输出信号/>可以指导编码器/>与生成器/>的学习进而挖掘出文本中的主题。

步骤5-4、将统计网络利用真实样本对/>和负样本分布对/>为输入来估计文本-词分布与文本主题分布空间之间的互信息并将其最大化以提升主题多样性。

步骤5-5、根据判别器的损失函数和正则化互信息损失函数进行随机梯度下降优化，更新编码器和解码器的参数，即：

步骤5-6、重复步骤5-3、步骤5-4、步骤5-5，直至收敛。

本发明的有益效果是：本发明通过互信息最大化机制可以帮助主题模型学习到更加丰富和多样的主题表示，最大化文本中不同词之间的互信息，促使模型将相关的词组织成更具有一致性和区分性的主题。通过优化互信息最大化的目标函数，模型可以更好地适应任务需求，提高模型在生成、分类、聚类等任务上的性能。在20Newsgroups数据集上进行了相关实验，结果表明，相比于其他方法，本发明具有更高的CP、CV、CA、NPMI和UT指标，说明挖掘出的主题的质量有明显提高。

附图说明

图1是本发明的模型图。

图2是本发明的具体训练流程图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

如图1-2所示，本发明是一种基于互信息和对抗神经网络的增强主题多样性方法，具体包括如下步骤：

步骤1、对社交平台在线文本进行预处理获得真实文本，将真实文本采样使用词袋模型方法表示成真实文本-词分布向量。

步骤2、将步骤1中的所述真实文本-词分布向量作为编码器的输入，得到真实文本-主题分布向量的映射，将真实文本-词分布向量与主题分布构成真实分布对，将真实文本-词分布向量批内打乱，与真实文本-主题分布向量构成负样本分布对。

步骤2中的编码器训练真实文本-词分布向量到真实文本-主题分布向量的映射关系，包括/>维文本-词分布层、/>维语义-隐含表示层和/>维文本-主题分布层，具体包括步骤：

步骤2-1、以步骤1中真实文本使用词袋模型表示，进行随机采样得到维文本-词分布表示/>作为输入，编码器/>将其映射到/>维隐含语义空间，再将得到的/>维隐含语义空间映射到/>维文本-主题分布层：

其中，和/>为文本-词分布层到语义-隐含表示层的权重矩阵，/>为文本-词分布层到语义-隐含表示层的权重矩阵的偏置项，/>为LeakyReLU激活函数的参数，为批归一化，/>为语义-隐含表示层到文本-主题分布层的权重矩阵，/>为语义-隐含表示层到文本-主题分布层的偏置项目，/>是真实文本对应的文本-主题分布且第维/>表示第/>个主题在真实文本中所占的比重。

本发明实例中，编码器网络维度为-/>-/>，其中/>为词向量维度，/>为语义隐含层维度，/>为主题向量维度。

步骤2-2、随后将真实维词分布向量与真实/>维主题分布向量拼接为真实分布对/>，将真实文本-词分布向量批内打乱表示为/>，将批内不匹配的主题分布与词分布构成负样本分布对/>。

步骤3、步骤3中生成器生成一个文本-主题分布到文本-词分布的映射关系，包括/>维文本-主题分布层、/>维语义-隐含表示层和/>维文本-词分布层，使用参数为/>的狄利克雷分布作为假文本-主题分布/>的先验，采用如下公式得到：

步骤3-1、生成器利用如下变换先将假文本-主题分布/>转换到/>维语义-隐含表示层，再将得到的/>维隐含语义空间映射到/>维文本-词分布层：

其中，为文本-主题分布层到语义-隐含表示层的权重矩阵，/>为文本-主题分布层到语义-隐含表示层的偏置项，/>为LeakyReLU激活函数的参数，/>为批归一化，/>是语义-隐含表示层到文本-词分布层的权重矩阵，/>是语义-隐含表示层到文本-词分布层的偏置项目，/>是真实文本对应的文本-主题分布且第/>维/>表示第/>个主题在真实文本中所占的比重。

本发明实例中，生成器网络维度为/>-/>-/>，其中/>为主题向量维度，/>为语义隐含层维度，/>为词向量维度。

步骤3-2、随即将假文本-主题分布与假文本-词分布/>拼接成假分布对。

步骤4中真实分布对和假分布对/>视为由两个/>+/>维联合分布对/>和/>中采样出来的随机样本，其中/>和/>均为由一个/>维狄利克雷分布对和一个/>维狄利克雷分布对构成的联合分布，对抗生成网络/>训练目标是让假分布对/>逼近真实分布对/>，统计网络利用真实分布对/>和负样本对/>估计文本-词分布空间与文本-主题分布空间之间的互信息并将其最大化提升主题多样性，当训练完成时编码器/>和生成器/>便可完成文本-主题分布与文本-词分布之间的双向映射关系和内在互信息最大化关系，具体包括如下步骤：

步骤4-1、判别器由三层全连接网络构成，三层全连接网络包括一个/>+/>维的联合分布层，一个/>维的语义-隐含表示层，一个输出层。以真实分布对/>与假分布对/>为输入并输出/>来判断输入分布对的真假，该方法采用如下公式：

步骤4-2、统计网络包含全局判别器/>和最大化互信息损失函数，全局判别器包括一个/>+/>维的联合分布层，一个/>维的语义-隐含表示层，一个输出层，统计网络用来计算真实样本对/>与负样本对/>之间的互信息并输出/>，该方法采用如下公式：

综上所述，模型最终训练目标如下：

步骤5、训练时为了近似估计两个高纬度分布之间的推土机距离和詹森-香农距离，对抗训练过程中反复优化和迭代训练目标，直至损失函数收敛。

步骤5-1、加载数据集包括文本数据、词汇表和词向量；

步骤5-2、构建生成器、编码器/>、判别器/>、统计网络/>模型，并构建优化器对模型进行优化；

步骤5-4、统计网络利用真实样本对/>和负样本分布对/>为输入来估计文本-词分布与文本主题分布空间之间的互信息并将其最大化以提升主题多样性。

步骤5-6、重复步骤5-3、步骤5-4、步骤5-5，直至收敛。

本发明提供的基于互信息和对抗神经网络的增强主题多样性方法，通过最大化主题分布与词分布之间的互信息来提升主题分布与词分布之间的相关性并增强主题多样性。

本发明提出的增强主题模型多样性的对抗神经网络方法，在20Newsgroups数据集上测试的主题一致性分别有5个设置[20，30，50，75，100]，该方法测得平均主题一致性数值如下：C_P为0.273、CA为0.206、UCI为0.139、NPMI为0.052、UT为0.761，指标均高于对比实验，其中对比实验中最高为CP为0.260、CA为0.158、UCI为0.09、NPMI为0.47、UT为0.732。

本发明通过互信息最大化机制可以帮助主题模型学习到更加丰富和多样的主题表示，最大化文本中不同词之间的互信息，促使模型将相关的词组织成更具有一致性和区分性的主题。通过优化互信息最大化的目标函数，模型可以更好地适应任务需求，提高模型在生成、分类、聚类等任务上的性能。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于互信息和对抗神经网络的增强主题多样性方法，其特征在于：所述增强主题多样性方法包括如下步骤：

步骤1、对社交平台在线文本进行数据预处理获得真实文本，将真实文本使用词袋模型表示成真实文本-词分布向量；

步骤2、将步骤1中的多个所述真实文本-词分布向量放在同一个批次中作为编码器的输入，得到真实文本-主题分布向量，将真实文本-词分布向量与对应的主题分布构成真实分布对，再将真实文本-词分布向量批内打乱与真实文本-主题分布向量拼接构成负样本分布对；

步骤3、从狄利克雷分布随机采样出主题向量作为假文本-主题分布并输入生成器中，得到假文本-词分布向量，假文本-词分布向量与假文本-主题分布构成假分布对；

步骤4、判别器接收步骤2得到的真实分布对和步骤3生成的假分布对作为判别器输入，计算两者的损失，来区分真实数据分布对和生成数据分布对，引入统计网络，所述统计网络接收真实分布对和负样本分布对作为输入，计算它们之间的互信息，互信息的正则化损失被添加到判别器的损失中，以增判别器的感知能力，提高生成样本的质量和多样性；

步骤5、训练中使用对抗训练来近似估计真实分布对和假分布对之间的推土机距离与真实分布对和负样本分布对之间的詹森香农距离，通过对抗训练的优化目标和迭代模型，直至损失函数收敛。

2.根据权利要求1所述的一种基于互信息和对抗神经网络的增强主题多样性方法，其特征在于：步骤2中的编码器训练真实文本-词分布向量到真实文本-主题分布向量的映射关系，包括/>维文本-词分布层、/>维语义-隐含表示层和/>维文本-主题分布层，具体包括步骤：

步骤2-1、以步骤1中真实文本使用词袋模型表示，进行随机采样得到维文本-词分布表示/>作为输入，编码器/>将其映射到/>维隐含语义空间，再将得到的/>维隐含语义空间映射到/>维文本-主题分布层，采用如下公式得到：

，

其中，和/>为文本-词分布层到语义-隐含表示层的权重矩阵，/>为文本-词分布层到语义-隐含表示层的权重矩阵的偏置项，/>为LeakyReLU激活函数的参数，/>为批归一化，/>为语义-隐含表示层到文本-主题分布层的权重矩阵，/>为语义-隐含表示层到文本-主题分布层的偏置项目，/>是真实文本对应的文本-主题分布且第维/>表示第/>个主题在真实文本中所占的比重；

步骤2-2、随后将真实维词分布向量与真实/>维主题分布向量拼接为真实分布对，将批内打乱的真实文本-词分布向量表示为/>，将批内不匹配的主题分布与词分布构成负样本分布对/>。

3.根据权利要求2所述的一种基于互信息和对抗神经网络的增强主题多样性方法，其特征在于：步骤3中生成器生成一个文本-主题分布到文本-词分布的映射关系，包括/>维文本-主题分布层、/>维语义-隐含表示层和/>维文本-词分布层，使用参数为/>的狄利克雷分布作为假文本-主题分布/>的先验，采用如下公式得到：

，

其中，参数为狄利克雷分布的概率密度，主题/>为该模型的主题参数，/>表示文本中每个词属于每个主题的概率；

，

其中，为文本-主题分布层到语义-隐含表示层的权重矩阵，/>为文本-主题分布层到语义-隐含表示层的偏置项，/>为LeakyReLU激活函数的参数，/>为批归一化，是语义-隐含表示层到文本-词分布层的权重矩阵，/>是语义-隐含表示层到文本-词分布层的偏置项目，/>是真实文本对应的文本-主题分布且第/>维/>表示第/>个主题在真实文本中所占的比重；

步骤3-2、随即将假文本-主题分布与假文本-词分布/>拼接成假分布对/>。

4.根据权利要求3所述的一种基于互信息和对抗神经网络的增强主题多样性方法，其特征在于：步骤4中真实分布对和假分布对/>视为由两个/>+/>维联合分布对/>和/>中采样出来的随机样本，其中/>和/>均为由一个/>维狄利克雷分布对和一个/>维狄利克雷分布对构成的联合分布，判别器/>训练目标是让假分布/>逼近真实分布对/>，统计网络/>利用真实分布对/>和负样本分布对/>估计文本-词分布空间与文本-主题分布空间之间的互信息并将其最大化提升主题多样性，当训练完成时编码器/>和生成器/>便得到文本-主题分布与文本-词分布之间的双向映射关系和内在互信息最大化关系，具体包括如下步骤

步骤4-1、判别器由三层全连接网络构成，三层全连接网络具体为一个/>+/>维的联合分布层，一个/>维的语义-隐含表示层，一个输出层，以真实分布对/>与假分布对/>为输入并输出/>来判断输入分布对的真假，该方法采用如下公式：

，

步骤4-2、统计网络包含全局判别器/>和最大化互信息损失函数，全局判别器/>包括一个/>+/>维的联合分布层、一个/>维的语义-隐含表示层和一个输出层，所述统计网络用来计算真实样本对/>与负样本对/>之间的互信息并输出/>，该方法采用如下公式：

，

其中，表示/>激活函数，/>表示激活函数的输入，/>和/>分别表示文本-词分布层的真实数据分布和文本-主题分布层的真实分布，/>是同一批中与/>不匹配的真实文本-词分布；

步骤4-3、模型最终训练目标如下：

。

5.根据权利要求4所述的一种基于互信息和对抗神经网络的增强主题多样性方法，其特征在于：步骤5中具体包括如下步骤：

步骤5-1、加载数据集包括文本数据、词汇表和词向量；

步骤5-2、构建编码器、生成器/>、判别器/>、统计网络/>模型，并构建优化器对模型进行优化；

步骤5-3、将真实分布对和假分布对/>作为判别器/>输入，在对抗训练过程中，其输出信号/>指导编码器/>与生成器/>的学习进而挖掘出文本中的主题；

步骤5-4、统计网络利用真实样本对/>和负样本分布对/>为输入来估计文本-词分布与文本主题分布空间之间的互信息并将其最大化以提升主题多样性；

；

步骤5-6、重复步骤5-3至步骤5-5，直至收敛。