CN112434516B

CN112434516B - 一种融合正文文本信息的自适应评论情感分析***及方法

Info

Publication number: CN112434516B
Application number: CN202011506610.0A
Authority: CN
Inventors: 许建兵; 李军; 戴磊; 陶飞; 王磊; ***
Original assignee: Anhui Suncn Pap Information Technology Co ltd
Current assignee: Anhui Suncn Pap Information Technology Co ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2024-04-26
Anticipated expiration: 2040-12-18
Also published as: CN112434516A

Abstract

本发明提出一种融合正文文本信息的自适应评论情感分析***及方法，方法包括以下步骤：步骤a、确定数据来源及规模；步骤b、对数据进行预处理；步骤c、根据预处理后的数据进行特征向量提取；步骤d、对提取的特征向量进行关联度分析并得到加权文本向量；步骤e、对加权文本向量和评论特征压缩向量进行卷积操作，完成最终评论分类。本发明在引入主体信息的同时，避免了使用LDA时所需要的人工监督的工作，且对于未登录的文本类别具有一定的发现及特征提取能力；并且使得模型具有一定程度的发现新主题的能力，同时能够对于同一文本下的不同评论，自行匹配与该评论相关度较高的正文信息，解决LDA无法细粒度化的问题。

Description

一种融合正文文本信息的自适应评论情感分析***及方法

技术领域

本发明属于数据统计分析领域，特别涉及一种融合正文文本信息的自适应评论情感分析***及方法。

背景技术

随着微博、微信等社交平台的飞速发展，人们可以通过网络随时随地的了解世界各地的事件与新闻，并留言评论。通过该部分的评论数据的分析和统计，可以从大体的角度上了解广大群众对于某些事件的观念看法，如支持、反对、无所谓等态度。

如何处理这些评论数据是能否准确获取真实信息的关键所在，而由于网络评论的数据量较为庞大，使用人工审查不符合实际，而使用情感分析算法就成为了唯一的可行性方案。

现有的情感分析算法已经较为成熟，包括但不限于BiLSTM、FastText、CLSTM等。大体流程如下：

1.数据预处理，包括分词、去除停用词和无关字符过滤

2.对分词后的结果使用CNN或其他算法模型进行特征抽取

3.将抽取后的特征输入分类器中(全连接层或其他任意分类器)完成评论的情感分类

除去以上常规步骤外，以下部分内容也是较为常用的提升判别能力的方式：

1.使用情感词库、语义库等词库方式协助判定预料中的情感正负向

2.在基础模型中加入句法分析使得模型可以更好的学习到评论的语义、语法信息

3.使用LDA获取被评论的正文文本主题词信息并引入模型中协助判定

经过大量的实践证明该基础方案在面对常规评论数据时有较好的判别能力，且在使用了情感词库或LDA(是一种监督学习的降维技术)的信息后能够进一步提升对于易混淆数据的判别能力，但是这些方法依然存在较大的局限性，主要表现如下：

1.常规方案虽然有较为优异的表现，但是忽略了正文的主题信息。而在此基础上，即便是引入了语义库或情感词库等方式也依然没有解决这一问题。

2.使用LDA引入主题信息后虽然能够解决上述问题，但是使用LDA获取文本主题需要使用对应的主体文本单独完成LDA模型的训练，且需要人工设定该批文本的主题数量。

3.训练完成后的LDA模型只能够提取出训练工程中已确定的主题信息，对于新进主题缺乏有效的信息提取能力。

4.由于LDA训练过程中主题的产生不依赖于某一篇文档，因此，对于部分文章，由LDA所提取出的主题信息存在一定的偏差，既LDA无法针对某一篇文章提取出更精确的主题信息。

5.若同一文本下有多个小的主题，且存在针对不同小主题的评论，在这种情况下，由于问题4中的情况，LDA提取出的主题信息仅有一部分同该评论而其余部分均为干扰信息，因此也在一定程度上影响到了后续的结果。

针对以上缺陷，本发明的目的既为在引入主体信息的同时，解决LDA模型训练过程复杂，且需要大量人工监督的难点。并且使得模型具有一定程度的发现新主题的能力，同时能够对于同一文本下的不同评论，自行匹配与该评论相关度较高的正文信息，解决LDA无法细粒度化的问题。LDA表示隐含狄利克雷分布(Latent DirichletAllocation)，一种广泛使用的主题模型，用于挖掘并发现大量文本中的不同主题分布情况。

发明内容

针对上述问题，本发明提出一种融合正文文本信息的自适应评论情感分析方法，所述方法包括以下步骤：

步骤a、确定数据来源及规模；

步骤b、对数据进行预处理；

步骤c、根据预处理后的数据进行特征向量提取；

步骤d、对提取的特征向量进行关联度分析并得到加权文本向量；

步骤e、对所述加权文本向量和评论特征压缩向量进行卷积操作，完成最终评论分类。

进一步的，所述数据包括正文文本和评论文本。

进一步的，步骤b中对数据进行预处理具体包括正文文本和评论文本停用词过滤、正文文本长度压缩的步骤。

进一步的，步骤c中根据预处理后的数据进行特征向量提取包括分别对正文文本和评论文本进行特征向量提取的步骤。

进一步的，对所述评论文本和所述正文文本进行特征向量提取具体包括以下步骤：

步骤c1、对预处理后的评论文本进行数据向量化，获取评论文本对应的句子向量表征；

步骤c2、对评论文本对应的句子向量表征进一步编码及特征提取，得到评论文本的特征向量；

步骤c3、对压缩后的正文文本进行数据向量化，获取正文文本对应的句子向量表征；

步骤c4、对正文文本对应的句子向量表征进一步编码及特征提取，得到正文文本的特征向量。

进一步的，步骤d中所述关联度分析获得加权文本向量具体包括以下步骤：

步骤d1、计算压缩后的正文文本各个句子特征向量和评论特征向量的相关性r_ij：r_ij＝c_i·s_j，其中，c_i表示第i个评论特征向量，s_j表示第j个正文句子的特征向量；

步骤d2、计算第i个评论特征向量对于正文中每个句子j的相关度R_ij：

步骤d3、计算加权文本向量V_i：V_i＝∑_jR_ij×S_j。

进一步的，步骤e中，所述评论特征压缩向量通过所述评论文本特征向量依次使用max_pooling及average_pooling的方式获取，其中，max_pooling和average_pooling均表示卷积核。

本发明还提供一种融合正文文本信息的自适应评论情感分析***，所述***包括：

数据来源及规模确定单元，用于确定数据来源及规模；

数据预处理单元，用于对数据进行预处理；

特征向量提取单元，用于根据预处理后的数据进行特征向量提取；

关联度分析单元，用于对提取的特征向量进行关联度分析并得到加权文本向量；

决策单元，用于对所述加权文本向量和评论特征压缩向量进行卷积操作，完成最终评论分类。

进一步的，特征向量提取单元用于根据预处理后的数据进行特征向量提取包括：

对预处理后的评论文本进行数据向量化，获取评论文本对应的句子向量表征；对评论文本对应的句子向量表征进一步编码及特征提取，得到评论文本的特征向量；

对压缩后的正文文本进行数据向量化，获取正文文本对应的句子向量表征；对正文文本对应的句子向量表征进一步编码及特征提取，得到正文文本的特征向量。

进一步的，关联度分析单元用于对提取的特征向量进行关联度分析并得到加权文本向量包括：

计算压缩后的正文文本各个句子特征向量和评论特征向量的相关性r_ij：r_ij＝c_i·s_j，其中，c_i表示第i个评论特征向量，s_j表示第j个正文句子的特征向量；

计算第i个评论特征向量对于正文中每个句子j的相关度R_ij：

计算加权文本向量V_i：V_i＝∑_jR_ij×S_j。

本发明的有益效果：

1、本发明在引入主体信息的同时，解决LDA模型训练过程复杂，且需要大量人工监督的难点，在评论情感分析的过程中，使用深度学习的方式引入了正文的文本信息，并且避免了使用LDA时所需要的人工监督的工作，且对于未登录的文本类别具有一定的发现及特征提取能力；并且使得模型具有一定程度的发现新主题的能力，同时能够对于同一文本下的不同评论，自行匹配与该评论相关度较高的正文信息，解决LDA无法细粒度化的问题；

2、本发明在引入正文信息的同时，通过计算正文各个句子同评论的相关度，获得正文的关联度特征向量，使得模型能够自适应的对于不同的评论提取出与该评论具有较高关联度的正文文本特征。该方法对于具有多个细粒度主题的正文文本具有更好的特征提取能力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例中的融合正文文本信息的自适应评论情感分析方法流程示意图；

图2示出了本发明实施例中的融合正文文本信息的自适应评论情感分析方法具体流程示意图；

图3示出了本发明实施例中关联度分析具体流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明实施例中的融合正文文本信息的自适应评论情感分析方法流程示意图，图1中，方法包括以下步骤：

步骤a、确定数据来源及规模；

步骤b、对数据进行预处理；

步骤c、根据预处理后的数据进行特征向量提取；

步骤e、对加权文本向量和评论特征压缩向量进行卷积操作，完成最终评论分类。

具体的，本发明的数据均为微博评论及对应的正文信息，通过爬虫的方式获取了约100万评论数据和其对应的正文数据。使用人工标注的方式标注了其中的部分数据(约30万条)，并且使用这部分数据完成后续的模型训练。最终标注后的数据格式为如下的三元组关系：(正文文本，评论文本，评论分类)，其中，评论分类通过对正文文本数据和评论文本数据分析得到。

图2示出了本发明实施例中的融合正文文本信息的自适应评论情感分析方法具体流程示意图，图2中，具体的，步骤b中对数据进行预处理具体包括正文文本和评论文本停用词过滤、正文文本长度压缩的步骤：对正文文本和评论文本使用结巴分词器进行分词，并使用哈工大停用词表对分词后的结果进行停用词过滤；调用TextRank4ZH中的TextRank算法模块，筛选出正文的关键句(取top30)，以此完成对于正文文本的长度压缩。该步骤主要为了防止某些微博正文过长时导致的训练速度过慢问题，其中，TextRank表示一种常用的关键词、关键句提取算法。

步骤c中根据预处理后的数据进行特征向量提取包括分别对正文文本和评论文本进行特征向量提取的步骤。

具体的，对评论文本进行特征向量时：使用百度的开源Erine模型将预处理后的评论文本数据向量化(embedding)，获取对应的句子向量表征；使用BiLSTM对句子的向量表征进行进一步的编码及特征提取，将编码后的输出向量记为句子的向量表征V_i(此时V_i的维度为seq_length*embedding_size)；对于各个句子的向量表征V_i，取最后一个时间步作为评论文本的特征向量，并将该部分向量进行后续的关联度分析(此时维度为1*embedding_size)。

BiLSTM和时间步：双向长短时记忆网络(Long Short-Term Memory)，一种常用的循环神经网络，用于处理存在时间前后倚赖的数据，如文本数据。其中，文本中的每一个字即为一个时间步。通常情况下，BiLSTM的输出中，最后一个时间步下的输出包含了整个序列的信息。

对正文文本进行特征向量时：对压缩后的正文文本进行数据向量化，获取正文文本对应的句子向量表征；对正文文本对应的句子向量表征进一步编码及特征提取，得到正文文本的特征向量。同评论文本进行特征向量相比，由于正文的文本长度通常大大多于评论(经过TextRank预处理后被限制在了30句以内)，因此在进行句向量特征抽取时会一一抽取出这30句的句向量表征作为正文文本的特征向量，并将该部分向量进行后续的关联度分析。

步骤d中对提取的特征向量进行关联度分析并得到加权文本向量时，找到评论和正文之间的相关信息，并且依据正文各个句子同评论间的关联度提取出同该评论相关的正文信息特征以协助最终分类。图3示出了本发明实施例中关联度分析具体流程示意图。

图3中，定义c_i为一篇文章下的第i个评论的句向量，s_j为文章正文的第j个句子的句向量，其中c_i及s_j分别来自于模块二中提取出的评论和文本的向量表示。

第i个评论和第j个正文句子之间相关性的计算方式为：r_ij＝c_i·s_j；

对于第i个评论，其对于正文中每个句子j的相关度R_ij定义如下：

计算各个句子和评论的相关性，对相关性进行softmax概率归一，并计算其权重向量；

最终依据相关度R_ij对文本中的句子向量加权求和，得到对于评论i的文本向量表征如下：V_i＝∑_jR_ij×S_j。

步骤e中，评论特征压缩向量通过评论文本特征向量依次使用max_pooling及average_pooling的方式获取，其中，max_pooling和average_pooling均表示卷积核，可以起到特征压缩的效果，能够提取出最为显著的特征(max_pooling)或是较为普遍的特征(average_pooling)。

具体的，步骤e中，对加权文本向量和评论特征压缩向量进行卷积操作，完成最终评论分类包括以下步骤：结合评论特征压缩向量(3*embedding_size)和加权文本向量(1*embedding_size)，并将评论特征压缩向量和加权文本向量拼接形成维度为4*embedding_size的向量；使用不同的卷积核对于拼接后的特征向量进行卷积操作，并将卷积后的结果拼接作为全连接层的输入；接收全连接层输入结果，并使用全连接层完成最终的分类。

CNN和卷积：卷积神经网络，一种常用的特征提取器，主要通过不同的卷积核完成特定的特征提取目的。

本发明还提供一种融合正文文本信息的自适应评论情感分析***，***包括：

数据来源及规模确定单元，用于确定数据来源及规模；

数据预处理单元，用于对数据进行预处理；

决策单元，用于对加权文本向量和评论特征压缩向量进行卷积操作，完成最终评论分类。

具体的，特征向量提取单元用于根据预处理后的数据进行特征向量提取包括：

具体的，关联度分析单元用于对提取的特征向量进行关联度分析并得到加权文本向量包括：

计算第i个评论特征向量对于正文中每个句子j的相关度R_ij：

计算加权文本向量V_i：V_i＝∑_jR_ij×S_j。

具体的，决策单元接收关联度分析单元加权后的文本向量(1*embedding_size)及模块二中的评论向量(3*embedding_size)，并将评论特征压缩向量和加权文本向量拼接形成维度为4*embedding_size的向量。

本发明在评论情感分析的过程中，使用深度学习的方式引入了正文的文本信息，并且避免了使用LDA时所需要的人工监督的工作，且对于未登录的文本类别具有一定的发现及特征提取能力。

本发明在引入正文信息的同时，通过计算正文各个句子同评论的相关度，获得正文的关联度特征向量，使得模型能够自适应的对于不同的评论提取出与该评论具有较高关联度的正文文本特征。该方法对于具有多个细粒度主题的正文文本具有更好的特征提取能力。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种融合正文文本信息的自适应评论情感分析方法，其特征在于，所述方法包括以下步骤：

步骤a、确定数据来源及规模，所述数据包括正文文本和评论文本；

步骤b、对数据进行预处理；

步骤c、根据预处理后的数据进行特征向量提取；

步骤d中所述关联度分析获得加权文本向量具体包括以下步骤：

步骤d1、计算压缩后的正文文本各个句子特征向量和评论特征向量的相关性r _ij：，其中，c _i表示第i个评论特征向量，s _j表示第j个正文句子的特征向量；

步骤d2、计算第i个评论特征向量对于正文中每个句子j的相关度R _ij：；

步骤d3、计算加权文本向量V _i：；

2.根据权利要求1所述的融合正文文本信息的自适应评论情感分析方法，其特征在于，步骤b中对数据进行预处理具体包括正文文本和评论文本停用词过滤、正文文本长度压缩的步骤。

3.根据权利要求1所述的融合正文文本信息的自适应评论情感分析方法，其特征在于，步骤c中根据预处理后的数据进行特征向量提取包括分别对正文文本和评论文本进行特征向量提取的步骤。

4.根据权利要求3所述的融合正文文本信息的自适应评论情感分析方法，其特征在于，对所述评论文本和所述正文文本进行特征向量提取具体包括以下步骤：

5.根据权利要求1所述的融合正文文本信息的自适应评论情感分析方法，其特征在于，步骤e中，所述评论特征压缩向量通过评论文本特征向量依次使用max_pooling及average_pooling的方式获取，其中，max_pooling和average_pooling均表示卷积核。

6.一种融合正文文本信息的自适应评论情感分析***，其特征在于，所述***包括：

数据来源及规模确定单元，用于确定数据来源及规模，所述数据包括正文文本和评论文本；

数据预处理单元，用于对数据进行预处理；

关联度分析单元用于对提取的特征向量进行关联度分析并得到加权文本向量包括：

计算压缩后的正文文本各个句子特征向量和评论特征向量的相关性r _ij：，其中，c _i表示第i个评论特征向量，s _j表示第j个正文句子的特征向量；

计算第i个评论特征向量对于正文中每个句子j的相关度R _ij：；

计算加权文本向量V _i：；

7.根据权利要求6所述的融合正文文本信息的自适应评论情感分析***，其特征在于，特征向量提取单元用于根据预处理后的数据进行特征向量提取包括：