CN111897954A

CN111897954A - 一种用户评论方面挖掘***、方法、及存储介质

Info

Publication number: CN111897954A
Application number: CN202010666552.1A
Authority: CN
Inventors: 孙霞; 王欣; 冯筠
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-11-06
Anticipated expiration: 2040-07-10
Also published as: CN111897954B

Abstract

本发明公开了用户评论方面挖掘***、方法、及存储介质，借助Word2vec以及全局的Attention机制和双向长短期记忆网络来依次处理文本：首先使用Word2vec得到每个单词的向量表示，通过词嵌入层将上下文中经常同时出现的词映射到嵌入空间中相近的位置；然后利用Attention机制过滤句子中的词嵌入得到方面向量，利用Bi‑LSTM提取文本的上下文语义信息得到语义向量，通过对得到的方面向量和语义向量进行拼接；利用方面嵌入的线性组合对结果进行重构。最终得到每个方面的代表词，相比传统提取方面LDA方法和忽略文本语义特征的神经网络方法，本发明有效的解决了传统的深度方面挖掘模型未考虑到文本的上下文语义信息的问题，模型结构简单、易于扩展、鲁棒性强，在实践中易于推广使用。

Description

一种用户评论方面挖掘***、方法、及存储介质

技术领域

本发明涉及文本数据信息挖掘技术领域，具体涉及一种用户评论方面挖掘方法、***、设备及存储介质。

背景技术

随着移动互联网的迅猛发展和智能手机的普及，人们可以随时随地针对某个对象发表评论和意见，也可以对不同领域的不同商品进行评价。有效地分析这些评价，能够辅助厂家进行销售、未来发展的决策，亦能帮助消费者筛选合乎自己期待的产品。但单纯对评论语句进行情感极性判断，不能提供有效的信息，还需要进一步确定情感词描述的对象。

例如，随着网络教育、网络学***台进行自主学***台一门课程的学***台的看法。一些潜在的用户希望从这些大量的评论文本中获得该课程的评价从而助于他们做出相应的决策。尤其是对于学习者生成的课程评论文本，如果没有及时对一些评论进行反馈或者处理，可能会造成一些问题。然而评论文本数据量庞大，对于***来说不容易进行阅读以及总结归纳。

方面指的是用户发表评论的对象，也就是观点特征。方面挖掘是情绪分析的关键任务之一，它的目标是从所表达的评论中提取方面实体词。对文本中的方面进行挖掘并总结可以极大的帮助***进行决策。

现有涉及用户评论方面挖掘的研究技术主要包括：基于潜狄利克雷分配(LDA)的无监督方面挖掘方法或者基于神经网络的方面挖掘方法。该方法存在的主要问题在于，基于LDA的无监督方面挖掘方法未考虑单词的共现特性，从而导致在单个方面的推测上效果很差；而现阶段的基于神经网络的方面挖掘方法，其网络模型的词表示是直接使用该词的词嵌入表示，该方法主要问题在于：在处理的过程中忽略了文本的深层语义特征，从而影响了方面提取的性能。

发明内容

本发明的目的在于针对用户评论文本方面挖掘方面现有技术存在缺陷或者不足，规避挖掘未考虑文本自身语义特征而导致方面提取精度较低的技术问题，本发明公开一种用户评论方面挖掘方法、***、设备及存储介质。

为了实现上述任务，本发明采用如下技术方案予以实现：

一种用户评论方面挖掘***，该***基于计算机可读指令，至少包括:

预处理单元：用于原始评论文本数据集进行处理，得到预处理后的语料集；

词训练单元：用于对预处理后的语料集进行处理，得到评论文本词向量集；

挖掘模型构建单元：用于对评论文本词向量集进行编码，并对编码后得到的方面向量信息和语义向量信息进行解码，得到嵌入模型；

训练单元：分别对评论文本词向量集编码的结果与其编码对应的解码结果，和编码对应的解码结果与负样本进行相似度衡量；

映射单元：用于对挖掘模型构建单元得到的嵌入模型进行词空间映射，得到方面代表词；

所述的预处理单元、词训练单元、挖掘模型构建单元、训练单元、映射单元依次连接。

根据本发明的整体技术构思，本发明还公开了一种用户评论方面挖掘方法，包括如下步骤：

步骤S1，原始评论文本数据集进行处理，得到预处理后的语料集；

步骤S2，预处理后的语料集进行处理，得到评论文本词向量集；

步骤S3，评论文本词向量集进行编码，并对编码后得到的方面向量信息和语义向

量信息进行解码，得到嵌入模型；

步骤S4，分别对评论文本词向量集编码的结果与其编码对应的解码结果，和编码

对应的解码结果与负样本进行相似度衡量；

步骤S5，对得到的嵌入模型进行词空间映射，得到方面代表词。

本发明的技术方案还可以应用于计算机设备之中，包括收发器、存储器和处理器，所述的存储器中存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得处理器执行用户评论方面挖掘相关系列方法。

本发明还可以应用制成任意一种计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本发明总体的用户评论方面挖掘识别方法。

本发明与现有技术相比有益的技术效果：

1.与常规的基于LDA的无监督方面挖掘方法相比，本算法采用一个两阶段的网络结构用于方面挖掘，使方面与词共享相同的嵌入空间，同时模型中采用Bi-LSTM捕获到语义信息，然后与方面信息进行拼接融合，有效的解决了传统的深度方面挖掘模型未考虑到文本的上下文语义信息的问题。

2.本发明的模型具有较好的方面挖掘性能，使得用户评论文本挖掘得到的方面更具有可靠性，为潜在客户的决策提供了帮助，为平台的改进提供了参考。

3.本发明的模型结构简单、易于扩展、鲁棒性强，在实践中易于推广使用。

附图说明

图1是本发明的用户评论方面挖掘***结构框架图。

图2是本发明的用户评论方面挖掘方法主流程图。

图3是本发明的无监督神经网络的用户评论观方面挖掘原理逻辑示意图。

图4是本发明在测试实施例中所涉及的***框架示意图。

图5是本发明实施例中计算机设备的结构示意图。

图6是在本发明在restaurant数据集上的方面识别结果对比图。

以下结合附图及具体实施方式，对本发明涉及的具体内容作进一步详细说明。

具体实施方式

参见图1一种用户评论方面挖掘***，该***基于计算机可读指令，至少包括:

进一步地，所述的词训练单元，使用Word2vec算法将预处理后的语料集，得到评论文本词向量集。

进一步地，所述的挖掘模型构建单元对评论文本词向量集进行编码包括：

1)构建方面编码器和语义编码器；

2)分别通过方面编码器和语义编码器获得获取评论文本词的方面向量信息和语义向量信息；

3)对获取的方面向量信息和语义向量信息进行拼接融合，得到融合后的向量信息；

所述的挖掘模型构建单元对编码后得到的方面向量信息和语义向量信息进行解码是对融合后的向量信息进行维度规约和重构，得到嵌入模型。

具体地，所述的训练单元中相似度衡量是评论文本词向量集编码得到的融合后的向量与重构后文本向量内积最大，且评论文本词向量集编码得到的融合后的向量与负样本内积最小，即为训练目标。

参见图2所示：本发明还公开了一种用户评论方面挖掘方法，包括如下步骤：

量信息进行解码，得到嵌入模型；

对应的解码结果与负样本进行相似度衡量；

参见图3，本发明所遵循的无监督神经网络的用户评论观方面挖掘原理，在本发明中，选择Word2vec以及全局的Attention机制和双向长短期记忆网络来依次处理文本：首先使用Word2vec得到每个单词的向量表示，通过词嵌入层将上下文中经常同时出现的词映射到嵌入空间中相近的位置；然后利用Attention机制过滤句子中的词嵌入得到方面向量，利用Bi-LSTM提取文本的上下文语义信息得到语义向量，通过对得到的方面向量和语义向量进行拼接；再利用方面嵌入的线性组合对结果进行重构。最终即可学习到一组方面嵌入。因此，本发明的提出基于无监督神经网络的文本方面挖掘方法用于挖掘用户评论中的方面代表词。

以下结合本发明的用户评论方面挖掘方法的各个分步骤，进一步解释说明本发明的整体技术构思。

步骤2采用Word2vec算法得出文本词向量字典，从文本词向量字典中获取每个评论文本词对应的向量，得出评论文本词向量集。具体表示如下：

首先将句子s中的每个单词w与一个特征向量e_w联系起来，其中e_w∈R^d，词嵌入可以将上下文中经常同时出现的词映射到嵌入空间中邻近的点，因此，将词嵌入作为特征向量，与单词相关的特征向量对应单词嵌入矩阵E∈R^n×d中的行，其中n为单词个数，则句子s的词嵌入表示如E所示：

进一步地，所述的步骤3具体包括如下步骤：

步骤S3.1构建方面编码器和语义编码器；

步骤S3.2通过方面编码器获取评论文本词的方面向量信息；通过语义编码器获取

评论文本词的语义向量信息；

步骤S3.3对获取的方面向量信息和语义向量信息进行拼接融合，得到融合后的向量信息；

步骤S3.4对融合后的向量信息进行维度规约和重构，得到嵌入矩阵T；

本发明的步骤S3.2，进一步包括如下步骤：

步骤S3.2.1根据式(1)计算每一条评论中涉及的所有评论文本词嵌入的平均值y_s

其中，n是句子s中的单词个数，i＝1,2,……n对应句子中的单词索引，

是句子s中的第i个单词w_i对应的词向量表示；

步骤S3.2.2根据式(2)得到评论文本词的方面向量信息z_s；

其中，

为评论文本词嵌入向量，w_i为句子s中的第i个单词，M，Ys...，y_s定义为句子s中所有词嵌入的平均值，M∈R^d×d是全局上下文嵌入y_s与单词嵌入

之间的矩阵映射；

步骤S3.2.3使用Bi-LSTM捕获评论文本的深度语义信息，通过式(3)对于每个单词的语义词表示向量的计算得到评论文本的语义向量信息c_{Bi_LSTM}

其中，

是句子s中的第i个单词w_i对应的词向量表示，Bi_LSTM表示Bi-LSTM的计算单元；

本发明的步骤3.3进一步包括如下步骤：

步骤S3.3.1方面向量信息和语义向量信息通过向量拼接法完成信息拼接，采用式(4)得到拼接后的向量信息：

其中，z_s表示评论文本词的方面向量信息，c_{Bi_LSTM}表示评论文本词的语义向量

信息，W₁为第一加权矩阵参数，b₁为第一偏置向量；

步骤S3.3.2对拼接后的向量信息使用非线性函数softmax进行归一化处理，采用

式(5)得到融合后的向量信息Z_c；

其中，b₁为偏置向量，W₁为加权矩阵参数；

本发明的S3.4进一步包括如下步骤：

步骤S3.4.1通过权重矩阵的映射维度对融合后的向量信息进行降维，然后用非线性函数softmax通过式(6)得到归一化结果：

P_t＝softmax(W₂·Z_c+b₂) (6)

其中，Z_c是步骤S3.3.2中融合得到的文本向量表示；b₂为第二偏置向量，W₂为加权矩阵参数；

步骤S3.4.2对融合后的向量信息通过式(7)进行重构，重构后得到文本的向量表示r_s；T矩阵的维度设置为待挖掘方面种类的数量。

r_s＝T^T·P_t (7)

其中，P_t是步骤S3.4.1中进行维度规约的结果，T^T是方面嵌入矩阵T(T∈R^K×d)的转置形式。

本发明整体技术步骤涉及的步骤S4，具体包括如下步骤：

评论文本词向量集编码得到的融合后的向量与重构后文本向量内积最大，且评论文本词向量集编码得到的融合后的向量与负样本内积最小，通过式(8)进行迭代计算：

L＝J+δU (8)

其中

D表示训练数据集，U表示正则化项，I是单位矩阵，T_n是方面嵌入矩阵T中每一行标准化的结果，矩阵

中的任一非对角元素t_ij(i≠j)对应于两个不同的方面嵌入的点积，δ为控制正则项所占权重的超参数。

本发明的步骤S4整体是一个对训练数据集训练优化的过程，该步骤的目标是最小化重构误差。对于每个输入的句子，先从训练数据中随机抽取个句子作为负样本，将第i个负样本表示为n_i，n_i通过计算其词嵌入的平均值得到。本方案的训练目标是使重构的文本向量r_s与目标句嵌入Z_c尽可能相似，而与负样本尽可能不同。因此，本发明的训练目标可以用一个Hinge loss(铰链损失)函数J进行表示，使r_s与Z_c之间的内积最大，同时使r_s与负样本之间的内积最小。为了避免训练时方面嵌入矩阵T遇到的冗余问题，在目标函数J中添加一个正则化项U，来增强方面嵌入的多样性。当任意两个不同的方面嵌入向量之间的点积为0时，U达到最小。因此，正则化项U促使方面嵌入矩阵T的行之间的正交性，并减少不同方面向量之间的冗余。最终的目标函数L表示为J和U之和：

L＝J+δU

其中，δ为控制正则项所占权重的超参数。

本发明的整体步骤S5，进一步地，是对方面嵌入矩阵T进行词空间映射，利用余弦作为相似度度量，得到方面代表词。

实施例1

在本实施例中及对比例中，均选用的数据集为Restaurant真实文本数据集，Restaurant真实文本数据集是得到广泛使用的餐厅评论语料库，其中包含来自纽约Citysearch的5万多家餐厅的评论，语料库中提供了一个带有方面标签的共有3400条评论文本的子集，这些带标签的句子用于最终方面识别的评估，手动标记的方面标签共有6个，分别是：Food,Staff,Ambience,Price,Anecdotes和Miscellaneous。

因为Restaurant真实文本数据集预先规定了14个方面，所以最后输出结果应为这14个方面对应的方面代表词集合，参见图2、图4所示：

首先对Restaurant真实文本数据集进行预处理，剔除数据集中的字符、表情等非英文文本数据，借助Python工具将数据中的英文字母大写变小写；使用英文停用词词典去除文本中的停用词，再对结果提取单词主干，得到预处理后的语料。因为Restaurant数据集自身已经划分好了训练集和测试集，所以这里不再对数据集进行划分。

以训练集数据构建方面挖掘模型：

将训练集中的评论文本中的每个评论文本词w与特征向量e_w联系起来，其中e_w∈R^d，因为词嵌入可以将上下文中经常同时出现的词映射到嵌入空间中邻近的点，因此，将词嵌入作为特征向量，将与特征向量对应的单词嵌入矩阵E∈R^n×d中的行，其中n为单词个数，则句子s的词嵌入表示如E所示：

使用由word2vec训练的单词向量初始化词嵌入矩阵E，在训练单词向量时，采用Word2vec的skip-gram算法进行计算，计算时，设置输出的词嵌入大小d为200，窗口大小为10。

按照本发明方法所述步骤对训练集数据逐步进行处理，得到归一化结果P_t。

本实施例中，即以Restaurant数据构建模型的过程中，使用Adam修正嵌入矩阵E并优化其他参数，Bi-LSTM计算单元数量设置为200，模型的迭代次数epoch设置为15，一次训练所选取的样本数batch size设置为50，学习率设置为0.001；设置每个输入样本的负样本m数量为20，正交性惩罚权重δ设置为1，将Restaurant语料库的方面数设置为14。

经过15次迭代，完成模型训练，成功获得到一组方面嵌入矩阵T。

这里对于T的设置包括：模型训练前，将T矩阵的维度设置为14，通过在词嵌入上运行k-means算法得到簇的中心点来初始化方面嵌入矩阵T。

然后对得到的方面嵌入矩阵T进行词空间映射，利用余弦相似度度量，在嵌入空间中查找距离最近的方面代表词，然后按照对得到的值按照大小进行排序，最终取排序前面距离最近的一组词，即为方面代表词。

再基于Bi-AE模型从Restaurant数据集中挖掘得到的方面代表词与金标准映射关系表(表1)将14个方面各自的代表词映射到表3中对应的金标签上，并将映射结果填入测试代码中的聚类映射集中。

表1 Restaurant数据集上模型挖掘得到的方面代表词与金标准映射关系表

注：使用Bi-AE模型挖掘后手动推断方面列表(左)，模型训练得到的每个方面的代表词(中)，黄金标准方面标签(右)。

以Restaurant测试集对已经训练好的Bi-AE模型进行测试：

Restaurant测试集是带有方面标注的评论文本，首先对测试集数据按照和训练集一样的预处理步骤进行处理。然后将经过预处理的测试数据的每条评论文本依次送入训练好的模型，模型的输出为该条评论文本中挖掘出的方面实体词，然后将该方面实体词与该评论的真实方面标签进行对比。

模型测试结果如图6所示。

对比例1

在本对比例中，选用的数据集为Restaurant真实文本数据集，本对比例与实施例1的区别在于，采用传统的非神经网络的无监督方面挖掘方法对Restaurant真实文本数据进行方面挖掘，这些对比方法大都是基于LDA主题模型或者是在LDA主题模型基础上的演变发展。

用测试集评估预测标签和真实标签的匹配度，评价指标采用精准率(Precision，P)，召回率(Recall，R)和F1值，计算每个方面对应的P、R、F1值；测试完成后，分别计算每个方面对应的P、R、F1值。以此判断模型的精确程度。

表2给出了Bi-AE模型和传统非神经网络方法在数据集Restaurant上的实验结果对比。

表2 Restaurant数据集上模型与传统模型方面识别结果对比

如表2所示，通过实施例1和对比例1可以看出，对于restaurant数据集，本方法的在数据集定义的“food”、“staff”、“ambience”三个方面得到的准确率P比基于LDA无监督方面挖掘方法所取得的最优结果分别提升了2.6％、0.5％、0％；得到的召回率R比基于LDA无监督方面挖掘方法所取得的最优结果分别提升了-0.8％、11％、13.7％。得到的F1值比比基于LDA无监督方面挖掘方法所取得的最有结果分别提升了3.4％、13.7％、11.3％。

通过以上对比数据可以看出，相比传统的基于LDA无监督方面挖掘方法，本发明方法很好地考虑了文本中词语的共现特性。

对比例2

在本对比例中采用传统的基于神经网络的无监督方面挖掘方法对Restaurant真实文本数据进行方面挖掘。评价指标采用精准率(Precision，P)，召回率(Recall，R)和F1值，计算每个方面对应的P、R、F1值；测试完成后，分别计算每个方面对应的P、R、F1值。以此判断模型的精确程度。

表3给出了Bi-AE模型和神经网络方法在数据集Restaurant上的实验结果对比。

表3 Restaurant数据集上模型与神经网络模型方面识别结果对比

如表3所示，通过实施例1和对比例2可以看出，对于同一公开的Restaurant真实文本数据集，与基于神经网络的无监督方面挖掘方法相比，在“food”方面上本发明方法的准确率达到了最高；在“staff”方面上本方案在P、R、F1三个评价指标上均取得了最高的结果；在“ambience”方面，本发明方法在F1值上取得了最高值，在准确率和召回率方面也与其余模型相差不大。综上所述，相比当前基于神经网络的无监督方面挖掘方法，本发明方法能有效解决词语一词多义现象。

实施例2

从实施例1的评估分析中可以看出Bi-AE模型在方面挖掘任务上具有不错的表现，从而有效的保障了Bi-AE模型应用于MOOC课程评论的方面挖掘的可实践性和准确性。在本实施例中，选用不带有方面标签的MOOC数据，经过对MOOC课程评论数据的总结，本实施例实验设置的MOOC课程评论的方面种类为五类，分别为{Course，Video，Assignment，Platform，Other}，其中“Course”方面表示与课程内容相关；“Video”方面表示与视频相关；“Assignment”方面则表示与课程作业布置相关；“Platform”方面表示与MOOC平台提供的服务以及技术支持等相关的内容；“Other”方面则指的是其余少数不可区分方面的代表词。

首先对MOOC数据进行预处理，剔除数据集中的字符、表情等非英文文本数据，借助Python工具将数据中的英文字母大写变小写；使用英文停用词词典去除文本中的停用词，再对结果提取单词主干，得到预处理后的语料。本实施例的目的是为了使用Bi-AE模型从MOOC数据中挖掘出每个方面的代表词，从而直接获知用户在使用MOOC平台时所关注的对象特征。故将所有数据均用于模型训练。

以MOOC数据构建方面挖掘模型：

使用由word2vec训练的单词向量初始化词嵌入矩阵，在训练单词向量时，采用Word2vec的skip-gram算法进行计算，计算时，设置输出的词嵌入大小d为200，窗口大小为10。

本实施例中，即以MOOC数据构建模型的过程中，使用Adam修正嵌入矩阵E并优化其他参数，Bi-LSTM计算单元数量设置为200，模型的迭代次数epoch设置为15，一次训练所选取的样本数batch size设置为50，学习率设置为0.001；设置每个输入样本的负样本m数量为10，正交性惩罚权重δ设置为1，将MOOC语料库的方面数设置为5。

按照训练目标开始对模型进行训练，不断更新loss函数值，经过15次迭代，完成模型训练，成功获得到一组方面嵌入矩阵T。

这里对于T的设置包括：模型训练前，将T矩阵的维度设置为5，通过在词嵌入上运行k-means算法得到簇的中心点来初始化方面嵌入矩阵T。

表4展示了Bi-AE模型从MOOC的Education子数据集中挖掘得到每个方面对应的部分方面代表词。***、教师甚至是平台可以从表4中看出在MOOC课程评论中，大家所谈论的“对象”，即用户所关注的重点。方便潜在MOOC用户、教师甚至是MOOC平台后续做出对应决策。

表4 MOOC课程评论数据集上模型挖掘到的方面和代表词对应表

注：使用Bi-AE模型挖掘后手动推断方面列表(左)，模型训练得到的每个方面的代表词(中)。

基于相同的技术构思，本申请还提供了一种计算机设备，如图5所示，该计算机设备包括收发器、处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述各实施方式中的所述用户评论方面挖掘方法。

基于相同的技术构思，本申请还提供了一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施方式中的所述的用户评论方面挖掘方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质如(ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本申请的保护之内。