CN112926311A

CN112926311A - 一种结合序列和主题信息的无监督方面词提取方法

Info

Publication number: CN112926311A
Application number: CN202110151682.6A
Authority: CN
Inventors: 相艳; 殷润达
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-06-08
Anticipated expiration: 2041-02-03
Also published as: CN112926311B

Abstract

本发明涉及结合序列和主题信息的无监督方面词提取方法。本发明包括：获得具有上下文表征的词向量、评论中每一个单词所对应序列信息；使用序列注意力对序列信息进行滤除获得新的序列信息；使用ETM对评论进行编码获得整体评论的主题信息；使用主题注意力将获得的新的序列信息和获得的整体评论的主题信息进行结合获得含有序列信息的主题信息：获得的含有序列信息的主题信息通过softmax分类器得到主题分布；使用神经网络获得有关评论的类别向量；使用得到的词向量和类别向量，通过softmax分类器获得方面词分布，再通过方面词分布得到评论中的方面词；本发明具有较好的性能；本发明能够获得含有潜在语义信息的方面词。

Description

一种结合序列和主题信息的无监督方面词提取方法

技术领域

本发明涉及一种结合序列和主题信息的无监督方面词提取方法，属于自然语言处理技术领域。

背景技术

传统方面词提取任务的目的是检测评论文本中提到的观点目标，并且已经对其进行了广泛的研究。现有的无监督方面词提取模型主要对评论的词袋表示进行主题建模，而忽略了评论本身的序列信息。正如在其他一些任务中观察到的那样，如果将两个信息集合起来，则会使模型通常在提取方面词任务上更有效。

在最新的研究中，Dieng等人研究了ETM的能力，将评论转换为含有主题信息并服从高斯分布的低维向量，利用词向量矩阵来获取有关方面词的分布，即使评论中含有停用词或低频词也不会影响模型的整体性能，证明了此模型有较好的鲁棒性。但是在进行方面词提取时，ETM仅使用了评论的主题信息而忽略评论的序列信息，这将导致模型并不能较好的提取有意义且含有潜在主题信息的方面词。针对以上问题，本发明提出了一种结合序列和主题信息的无监督方面词提取方法，以获得序列信息与主题信息之间的相关关系。

发明内容

本发明提供了一种结合序列和主题信息的无监督方面词提取方法，获得序列信息与主题信息之间的相关关系，提高提取方面词的效果。

本发明的技术方案是：一种结合序列和主题信息的无监督方面词提取方法，所述方法的具体步骤如下：

步骤1、通过Word2Vec预训练模型获得具有上下文表征的词向量；

步骤2、使用LSTM对评论进行编码获得评论中每一个单词所对应序列信息；

步骤3、使用序列注意力对序列信息进行滤除获得新的序列信息；

步骤4、使用ETM对评论进行编码获得整体评论的主题信息；

步骤5、使用主题注意力将步骤3获得的新的序列信息和步骤4获得的整体评论的主题信息进行结合获得含有序列信息的主题信息：

步骤6、在步骤5获得的含有序列信息的主题信息通过softmax分类器得到主题分布；

步骤7、使用神经网络获得有关评论的类别向量；

步骤8、使用步骤1与步骤7分别得到的词向量和类别向量，通过softmax分类器获得方面词分布，再通过方面词分布得到评论中的方面词；

步骤9、对步骤6与步骤8分别得到的主题分布和方面词分布进行解码；

步骤10、通过损失函数反向优化步骤4-步骤9。

作为本发明的进一步方案，所述步骤1中Word2Vec预训练模型将整个文档作为输入，利用来自整个文档的信息来计算上下文表征的词向量；

作为本发明的进一步方案，所述步骤2中LSTM层将评论作为输入，利用LSTM获得评论中每一个单词所对应的序列信息，序列信息通过公式h_n＝f_LSTM(e_n，h_n-1)计算；其中，e_n表示第n个单词对应的词嵌入，f_LSTM(·)表示LSTM神经元，h_n表示第n个单词对应的序列信息，h_n-1表示第n-1个单词对应的序列信息。

作为本发明的进一步方案，所述步骤3中，使用序列注意力对序列信息进行滤除获得新的序列信息具体处理公式如下：

M＝tanh(h_n)

其中，M是非线性激活向量，h_n表示第n个单词对应的序列信息，

为通过模型训练得到的参数，

是注意力权重分布，

表示使用序列注意力对第n个单词对应的序列信息进行滤除后获得的新的序列信息。

作为本发明的进一步方案，所述步骤4中，ETM层将评论作为输入，利用ETM获得整体评论中所含的主题信息，主题信息如下公式计算：

μ＝f_u(f_e(x_bow))，σ＝f_σ(f_e(x_bow))

z＝w_zσ+μ

其中，x_bow是词表中所有单词的集合，f_e(·)、f_u(·)、f_σ(·)分别代表不同的神经网络，μ是均值，σ是标准差，z是主题信息，w_z表示随机初始化参数向量。

作为本发明的进一步方案，所述步骤5使用主题注意力将步骤3获得的新的序列信息和步骤4获得的整体评论的主题信息进行结合获得含有序列信息的主题信息的具体公式如下所示：

z^*＝z+c

其中，

是主题注意力权重分布，z是主题信息，

表示使用序列注意力对第n个单词对应的序列信息进行滤除后获得的新的序列信息，c是含有潜在主题信息的序列信息，z^*是含有序列信息的主题信息。

作为本发明的进一步方案，所述步骤6中，使用softmax分类器通过公式θ＝softmax(tanh(z^*))计算主题分布，其中，z^*表示含有序列信息的主题信息，θ表示主题分布。

作为本发明的进一步方案，所述步骤7中，使用神经网络通过公式δ＝f_u(x_bow)拟合出评论所对应的类别向量，x_bow是词表中所有单词的集合，f_u(·)代表神经网络，δ表示类别向量。

作为本发明的进一步方案，所述步骤8中，使用预训练模型获得的具有上下文表征的词向量和步骤7获得的类别向量通过softmax分类器获得方面词分布，其计算公式为β＝softmax(δρ^T)，其中，β表示方面词分布，δ表示类别向量，ρ是词向量；从方面词分布β中选取概率值较大的前N个索引值，并由索引值转换成词表中相应的单词，即可得到某个主题的前N个方面词。

作为本发明的进一步方案，所述步骤10中，损失函数

其中，

β表示方面词分布，θ表示主题分布，δ表示类别向量，ρ是词向量，x_bow是词表中所有单词的集合，z^*是含有序列信息的主题信息，z是主题信息，E_q表示似然估计用于计算解码过程中的损失，q(z|x_bow)表示近似分布，p(z)表示主题信息的真实分布。

本发明的有益效果是：

1、本发明使用了序列注意力，在进行编码时，本发明为了使LSTM可自动聚焦于整条评论中含有重要序列信息的单词，对每条评论使用序列注意力；

2、本发明使用了主题注意力，结合评论中每个单词的信息来推断评论所表达的潜在主题信息，使用注意力将主题信息与序列信息进行结合。

3、在进行解码时，本发明使用词向量与类别向量通过softmax分类器得到方面词分布。

4、本发明结合序列和主题信息的无监督方面词提取方法具有较好的性能；本发明能够获得含有潜在语义信息的方面词，解决了传统模型未充分利用序列信息的不足。

附图说明

图1为本发明中的流程图；

图2为本发明整体框架模型图。

具体实施方式

实施例1：如图1-2所示，一种结合序列和主题信息的无监督方面词提取方法，所述方法的具体步骤如下：

步骤1、通过Word2Vec预训练模型获得具有上下文表征的词向量：Word2Vec预训练模型将整个文档作为输入，利用来自整个文档的信息来计算上下文表征的词向量；

作为本发明的进一步方案，所述步骤2中LSTM层将评论作为输入，利用长短期记忆网络(LongShort-Term Memory，LSTM)对输入评论进行序列编码获得评论中每一个单词所对应的序列信息，序列信息通过公式h_n＝f_LSTM(e_n，h_n-1)计算；其中，e_n表示第n个单词对应的词嵌入，f_LSTM(·)表示LSTM神经元，h_n表示第n个单词对应的序列信息，h_n-1表示第n-1个单词对应的序列信息。

作为本发明的进一步方案，在进行编码时，本发明为了使LSTM可自动聚焦于整条评论中含有重要序列信息的单词，所述步骤3中，使用序列注意力对序列信息进行滤除获得新的序列信息具体处理公式如下：

M＝tanh(h_n)

为通过模型训练得到的参数，

是注意力权重分布，

步骤4、使用ETM对评论进行编码获得整体评论的主题信息；

作为本发明的进一步方案，使用变分对输入评论的词袋表示进行编码。此模块进行编码时，首先使用神经网络对词袋进行采样，提取词袋中有用的信息，之后将所提取的信息分别编码成均值和标准差；所述步骤4中，ETM层将评论作为输入，利用ETM获得整体评论中所含的主题信息，主题信息如下公式计算：

μ＝f_u(f_e(x_bow))，σ＝f_σ(f_e(x_bow))

z＝w_zσ+μ

作为本发明的进一步方案，所述步骤5使用主题注意力将步骤3获得的新的序列信息和步骤4获得的整体评论的主题信息进行结合获得含有序列信息的主题信息的具体公式如下所示；

z^*＝z+c

其中，

是主题注意力权重分布，z是主题信息，

步骤7、使用神经网络获得有关评论的类别向量；

步骤10、通过损失函数反向优化步骤4-步骤9。

作为本发明的进一步方案，所述步骤10中，损失函数

其中，

采用精确率P、召回率R和F1分数来评价本发明的性能。

首先，在现存的深度学习框架中，选择与任务相关且具有代表性的模型作为baseline对比，对比结果如表1、2所示：

表1 Restaurant数据集的比较结果

表2 Laptop数据集的比较结果

显然本发明提出的方法在所有数据集下，相对于所有的基线模型P，R，F1值均取得较好的结果。在Restaurant数据集上，与ABAE、ETM相比，F1值分别取得了0.7％和5.47％的提升。在Laptop数据集上，本发明方法相较于ABAE、ETM，F1值分别取得5.7％、7.7％的提升。

其次，本发明进行了消融分析，以验证提出方法中序列信息、序列注意力以及主题注意力的有效性，在Laptop数据集上进了实验与分析，结果如表3、4所示：

表3消融模型实验结果

表4

借用NLTK工具将数据集中所有单词进行写法的规范化，并构建相应的词表。将所有单词转换成对应的小写形式并移除所有标点、停用词以及低频词汇。使用word2vec预训练好的词向量矩阵作为序列信息模块中嵌入层的初始权重，并将嵌入层输出维度设置为300。此外，在主题信息模块中，将词向量矩阵作为学***均结果。

本发明结合序列和主题信息的无监督方面词提取方法具有较好的性能，主要有以下几方面的原因：1、本发明使用了序列注意力，在进行编码时，本发明为了使LSTM可自动聚焦于整条评论中含有重要序列信息的单词，对每条评论使用序列注意力；2、本发明使用了主题注意力，结合评论中每个单词的信息来推断评论所表达的潜在主题信息，使用注意力将主题信息与序列信息进行结合。3、在进行解码时，本发明使用词向量与类别向量通过softmax分类器得到方面词分布。

综上所述，本发明在方面词提取任务上有较好性能；本发明能够获得含有潜在语义信息的方面词，解决了传统模型未充分利用序列信息的不足。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种结合序列和主题信息的无监督方面词提取方法，其特征在于：所述方法的具体步骤如下：

步骤4、使用ETM对评论进行编码获得整体评论的主题信息；

步骤7、使用神经网络获得有关评论的类别向量；

步骤10、通过损失函数反向优化步骤4-步骤9。

2.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法，其特征在于：所述步骤1中Word2Vec预训练模型将整个文档作为输入，利用来自整个文档的信息来计算上下文表征的词向量。

3.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法，其特征在于：所述步骤2中LSTM层将评论作为输入，利用LSTM获得评论中每一个单词所对应的序列信息，序列信息通过公式h_n＝f_LSTM(e_n，h_n-1)计算；其中，e_n表示第n个单词对应的词嵌入，f_LSTM(·)表示LSTM神经元，h_n表示第n个单词对应的序列信息，h_n-1表示第n-1个单词对应的序列信息。

4.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法，其特征在于：所述步骤3中，使用序列注意力对序列信息进行滤除获得新的序列信息具体处理公式如下：

M＝tanh(h_n)

为通过模型训练得到的参数，

是注意力权重分布，

5.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法，其特征在于：所述步骤4中，ETM层将评论作为输入，利用ETM获得整体评论中所含的主题信息，主题信息如下公式计算：

μ＝f_u(f_e(x_bow))，σ＝f_σ(f_e(x_bow))

z＝w_zσ+μ

6.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法，其特征在于：所述步骤5使用主题注意力将步骤3获得的新的序列信息和步骤4获得的整体评论的主题信息进行结合获得含有序列信息的主题信息的具体公式如下所示：

z^*＝z+c

其中，

是主题注意力权重分布，z是主题信息，

7.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法，其特征在于：所述步骤6中，使用softmax分类器通过公式θ＝softmax(tanh(z^*))计算主题分布，其中，z^*表示含有序列信息的主题信息，θ表示主题分布。

8.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法，其特征在于：所述步骤7中，使用神经网络通过公式δ＝f_u(x_bow)拟合出评论所对应的类别向量，x_bow是词表中所有单词的集合，f_u(·)代表神经网络，δ表示类别向量。

9.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法，其特征在于：所述步骤8中，使用预训练模型获得的具有上下文表征的词向量和步骤7 获得的类别向量通过softmax分类器获得方面词分布，其计算公式为β＝softmax(δρ^T)，其中，β表示方面词分布，δ表示类别向量，ρ是词向量；从方面词分布β中选取概率值较大的前N个索引值，并由索引值转换成词表中相应的单词，即可得到某个主题的前N个方面词。

10.根据权利要求1所述的结合序列和主题信息的无监督方面词提取方法，其特征在于：所述步骤10中，损失函数

其中，