CN110032642A

CN110032642A - 基于词嵌入的流形主题模型的建模方法

Info

Publication number: CN110032642A
Application number: CN201910234830.3A
Authority: CN
Inventors: 谭北海; 许振豪
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-07-19
Anticipated expiration: 2039-03-26
Also published as: CN110032642B

Abstract

本发明涉及自然语言数据处理领域，提出一种基于词嵌入的流形主题模型的建模方法，包括以下步骤：输入文档集D，将文档集D中的词训练成词嵌入x_dn，将所有词嵌入x_dn进行归一化处理，并初始化先验参数m,σ²,μ₀,C₀,α及主题z_dn；根据当前的先验参数计算主题‑词分布密集度κ，主题‑词分布的均值向量μ，以及文档‑主题分布π_d，然后求出文本中每个词嵌入x_dn的主题z_dn；执行EM算法的E步，更新变分近似分布q的变分参数λ_d,ψ,γ,ρ；执行EM算法的M步，通过变分参数更新先验参数，并更新文本中每个词嵌入x_dn的主题z_dn；计算变分下界vLB，判断vLB是否达到最大值，若是，则输出所有词嵌入x_dn的主题z_dn；若否，则跳转至步骤二。本发明能够在流形空间中更好地捕捉词嵌入的结构信息，有效避免数据结构信息丢失的问题。

Description

基于词嵌入的流形主题模型的建模方法

技术领域

本发明涉及自然语言数据处理领域，更具体地，涉及一种基于词嵌入的流形主题模型的建模方法。

背景技术

主题模型是文本聚类技术中的一种，一般用于自动提取文本的特征以及发掘文本中潜在的语义。主题模型将文本语料的词分配到有限多个主题-词分布，并且求得每个文本的文档-主题概率分布，使文本具有更好的解释性。如LDA模型能够很好的处理传统方法无法解决的多义词和同义词等问题，有很好的解释性。但是由于LDA模型分布使用的是多项式分布，因此无法处理未录入词，且LDA模型还存在主题连贯性表现不能够满足文本聚类的要求等问题。

现有技术中，一般引入对词嵌入的分析，通过神经网络训练，将每个是离散变量的词训练成连续变量，即每个词都由一个向量表示，由于词嵌入的每个维度都刻画了词本身的特征属性，于是词嵌入能够很好地表达词语的语义。如Gaussian主题模型通过将原本在离散空间的主题-词的多项式分布，变为连续空间的多元高斯分布，能够处理未录入词，并在主题连贯性上表现良好。然而，Gaussian主题模型将词嵌入表示为欧几里得空间中的向量，在实际应用中会很大程度地丢失了数据的结构信息，如取三个区别较大的词，通过后两个词分别与第一个词计算余弦距离，有可能出现余弦距离完全相等的情况，因此在实际应用中不适合将词嵌入视为欧几里得向量。

发明内容

本发明为克服上述现有技术所述的无法处理未录入词、主题连贯性表现差、数据结构信息丢失的缺陷，提供一种基于词嵌入的流形主题模型的建模方法，能够在流形空间中更好地发现词嵌入的结构信息。

为解决上述技术问题，本发明的技术方案如下：

基于词嵌入的流形主题模型建模方法，包括以下步骤：

S1：输入文档集D，将文档集D中的词训练成词嵌入x_dn，将所有词嵌入x_dn进行归一化处理，并初始化先验参数m,σ²,μ₀,C₀,α；其中x_dn表示第d∈{1,...,D}个文档中的第n∈{1,...,N_d}个词嵌入，N_d为第d个文档的词嵌入数量；m,σ²为对数正态分布的参数，m为均值，σ²为方差；μ₀,C₀为vMF分布的参数，μ₀为有方向单位均值向量，C₀为常数密集度；α为狄利克雷分布的超参数；

S2：根据当前的先验参数计算文本中每个词嵌入x_dn通过对数正态分布生成主题-词分布的密集度κ，通过vMF分布生成主题-词分布的均值向量μ，以及通过狄利克雷分布生成文档-主题分布π_d，然后求出文本中每个词嵌入x_dn的主题z_dn；

S3：执行EM算法的E步，更新变分近似分布q的变分参数λ_d,ψ,γ,ρ；其中λ_d为近似文档-主题分布的参数；ψ,γ为vMF分布的参数，ψ为有方向单位均值向量，γ为密集度；ρ为近似狄利克雷分布超参数；

S4：执行EM算法的M步，通过变分参数更新先验参数，并根据完成更新的先验参数更新文本中每个词嵌入x_dn的主题z_dn；

S5：计算变分下界vLB，判断vLB是否达到最大值，若是，则输出所有词嵌入x_dn的主题z_dn；若否，则跳转至步骤S2。

本技术方案中，通过采用vMF分布来描述作为有向向量的词嵌入在流形空间中的分布情况，使模型在流形空间中更好地捕捉词嵌入的结构信息。在模型建立的核心过程中，通过引入近似分布使其与原始分布最相似，再通过EM算法来保证两种分布能够越来越相似，其中首先在E步的计算过程中使用近似于原始参数的先验参数去寻找变分参数的最优解，然后在M步的计算过程中将已获得的变分参数去极大估计先验参数，从而进一步最大化模型的vLB下界，最后通过判断vLB是否达到最大值来衡量变分分布是否最接近于原始分布，从而大幅度地减少模型对参数求解的计算复杂度，最终使模型能够在流形空间的大量数据中，提高文本聚类的效率，以及提高自然语言的处理效率。

优选地，步骤S1的具体步骤如下：

S1.1：输入文档集D，对文档集D进行分词并训练成词嵌入x_dn，然后对每个词嵌入x_dn分配主题编号k，其中k为正整数；

S1.2：将所有词嵌入x_dn进行归一化处理；

S1.3：初始化先验参数m,σ²,μ₀,C₀,α。

优选地，步骤S1.1中，通过word2vec将文档集D中的词训练成词嵌入x_dn。

优选地，步骤S2中的主题z_dn的计算公式如下：

其中，z_dn表示第d个文档中的第n个词嵌入的主题，μ_k表示第k个主题编号的词嵌入通过vMF分布生成主题-词分布的均值向量，κ_k表示第k个主题编号的词嵌入通过对数正态分布生成主题-词分布的密集度，p_vMF(·)为vMF分布的分布密度函数，p(z_dn|π_d)表示文档-主题的多项式分布概率函数。

优选地，vMF分布的分布密度的计算公式如下：

其中，x为一个d维的随机单位向量，且有x∈S^d-1，S表示流形空间，||x||＝1，d≥2，||μ||＝1，κ≥0；c_d(κ)为归一化常数，I_r(.)表示Bessel函数。

优选地，步骤S3的具体步骤包括：

S3.1：执行EM算法的E步，将已知先验参数代入由变分推断的变分参数更新公式，更新变分近似分布q的变分参数λ_dk,ψ_k,γ_k：

其中，λ_dk表示第d个文档中主题编号为k的概率分量，E_q(.)表示变分近似分布q；R_k为未归一化的后验均值向量，用于更新主题编号为k的变分参数ψ_k和γ_k；

S3.2：计算变分近似分布q的主题编号为k的变分参数其中I(z_dn＝k)用于判断词嵌入x_dn对应的主题z_dn是否为主题k，若是则为1，若否则为0，α_dk为第d个文档中维度为k的狄利克雷分布Dir(α)的超参数。

优选地，步骤S4中，执行EM算法的M步，求得最大似然函数，并将变分参数λ_d,ψ_k,γ_k,ρ对应赋值给先验参数π_d,μ₀,C₀,α，即完成先验参数的更新。

优选地，步骤S5中计算变分下界vLB的公式如下：

vLB＝E_q(logP(X,Z,π,u,κ|m,σ²,π_d,μ₀,C₀,α))-E_q(logq(Z,π,μ|λ_d,ψ_k,γ_k,ρ))

其中，X表示词嵌入x_dn的集合，Z表示主题z_dn的集合。

与现有技术相比，本发明技术方案的有益效果是：能够在流形空间中更好地捕捉词嵌入的结构信息，很大程度上降低了参数求解的计算复杂度，使模型在海量数据度提高文本聚类的效率，且可应用于未录入词的处理，有效提高主题连贯性变现，有效避免数据结构信息丢失的问题。

附图说明

图1为本实施例的基于词嵌入的流形主题模型建模方法的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，为本实施例的基于词嵌入的流形主题模型建模方法的流程图。

S1：输入文档集D，将文档集D中的词训练成词嵌入x_dn，将所有词嵌入x_dn进行归一化处理，并初始化先验参数m,σ²,μ₀,C₀,α。本步骤的具体步骤如下：

S1.1：输入文档集D，对文档集D进行分词并通过word2vec将文档集D中的词训练成词嵌入x_dn，然后对每个词嵌入x_dn分配主题编号k，其中k为正整数；

S1.2：将所有词嵌入x_dn进行归一化处理；

S1.3：初始化先验参数m,σ²,μ₀,C₀,α。

其中x_dn表示第d∈{1,...,D}个文档中的第n∈{1,...,N_d}个词嵌入，N_d为第d个文档的词嵌入数量；m,σ²为对数正态分布的参数，m为均值，σ²为方差；μ₀,C₀为vMF分布的参数，μ₀为有方向单位均值向量，C₀为常数密集度；α为狄利克雷分布的超参数。

S2：根据当前的先验参数计算文本中每个词嵌入x_dn通过对数正态分布生成主题-词分布的密集度κ，通过vMF分布生成主题-词分布的均值向量μ，以及通过狄利克雷分布生成文档-主题分布π_d，然后求出文本中每个词嵌入x_dn的主题z_dn。

步骤S2中，主题z_dn的计算公式如下：

vMF分布的分布密度的计算公式如下：

S3：执行EM算法的E步，更新变分近似分布q的变分参数λ_d,ψ,γ,ρ。其中λ_d为近似文档-主题分布的参数；ψ,γ为vMF分布的参数，ψ为有方向单位均值向量，γ为密集度；ρ为近似狄利克雷分布超参数。

其具体步骤如下：

S4：执行EM算法的M步，通过变分参数更新先验参数，并根据完成更新的先验参数更新文本中每个词嵌入x_dn的主题z_dn。

步骤S4中，执行EM算法的M步，求得最大似然函数，并将变分参数λ_d,ψ_k,γ_k,ρ对应赋值给先验参数π_d,μ₀,C₀,α，即完成先验参数的更新，然后，根据完成更新的先验参数更新文本中每个词嵌入x_dn的主题z_dn。

步骤S5中计算变分下界vLB的公式如下：

其中，X表示词嵌入x_dn的集合，Z表示主题z_dn的集合。

步骤S5中，通过最大化变分下界vLB得到模型最优参数，其推导过程如下：

根据Jesen不等式f(E(x))≥E(f(x))可得上式的下界：

在具体实施过程中，本实施例采用实验语料集Newsgroups(第三版)，数据集收集了18828个不重复的文档，均匀分为20个不同主题的新闻组集合，分别通过Gaussian主题模型和本实施例的基于词嵌入的流形主题模型对语料集进行文本分析，并采用逐点互信息法PMI进行度量。

如表1所示，为Gaussian主题模型和本实施例的基于词嵌入的流形主题模型在不同主题的PMI比较数据。

表1

由对比数据可知，本实施例的基于词嵌入的流形主题模型和Gaussian主题模型在有相同主题数量的情况下，本实施例的基于词嵌入的流形主题模型的PMI得分更高，证明本实施例的基于词嵌入的流形主题模型比Gaussian主题模型更能捕捉文本数据的信息，效果更好。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于词嵌入的流形主题模型建模方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于词嵌入的流形主题模型建模方法，其特征在于：所述步骤S1的具体步骤如下：

S1.2：将所有词嵌入x_dn进行归一化处理；

S1.3：初始化先验参数m,σ²,μ₀,C₀,α。

3.根据权利要求2所述的基于词嵌入的流形主题模型建模方法，其特征在于：所述步骤S1.1中，通过word2vec将文档集D中的词训练成词嵌入x_dn。

4.根据权利要求2所述的基于词嵌入的流形主题模型建模方法，其特征在于：所述步骤S2中的主题z_dn的计算公式如下：

5.根据权利要求4所述的基于词嵌入的流形主题模型建模方法，其特征在于：所述vMF分布的分布密度的计算公式如下：

6.根据权利要求4所述的基于词嵌入的流形主题模型建模方法，其特征在于：所述步骤S3的具体步骤包括：

7.根据权利要求6所述的基于词嵌入的流形主题模型建模方法，其特征在于：所述步骤S4中，执行EM算法的M步，求得最大似然函数，并将变分参数λ_d,ψ_k,γ_k,ρ对应赋值给先验参数π_d,μ₀,C₀,α，即完成先验参数的更新，然后，根据完成更新的先验参数更新文本中每个词嵌入x_dn的主题z_dn。

8.根据权利要求1-7任一项所述的基于词嵌入的流形主题模型建模方法，其特征在于：所述步骤S5中计算变分下界vLB的公式如下：

vLB＝E_q(logP(X,Z,π,u,κ|m,σ²,π_d,μ₀,C₀,α))-E_q(log q(Z,π,μ|λ_d,ψ_k,γ_k,ρ))

其中，X表示词嵌入x_dn的集合，Z表示主题z_dn的集合。