CN107368613B

CN107368613B - 短文本情感分析方法及装置

Info

Publication number: CN107368613B
Application number: CN201710792394.2A
Authority: CN
Inventors: 李长亮; 王海亮; 程健
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2020-02-28
Anticipated expiration: 2037-09-05
Also published as: CN107368613A

Abstract

本发明涉及文本挖掘技术领域，具体提供了一种短文本情感分析方法及装置，旨在解决如何在考虑背景信息的情况下对短文本进行情感挖掘，以提高情感挖掘准确性的技术问题。为此目的，本发明中的方法包括：获取将短文本信息输入至LSTM网络所得的向量序列，及其背景信息；依据向量序列、背景信息和预设的Attention模型，获取单词的注意力权重；依据向量序列和注意力权重，构建短文本信息对应的新的文本向量；对新的文本向量进行情感评估。同时，本发明中的装置可以执行上述方法。本发明的技术方案，通过获取与背景信息相关的注意力权重，并基于该注意力权重构建新的文本向量，结合了短文本实际内容与背景信息，从而可以更加准确地分析短文本的情感极性。

Description

短文本情感分析方法及装置

技术领域

本发明涉及文本挖掘技术领域，具体涉及一种短文本情感分析方法及装置。

背景技术

文本情感分析是一种挖掘文本所表达情感或观点的文本挖掘技术。具体地，针对网络短评等短文本的情感分析方法主要包括基于情感词典的文本挖掘方法、基于传统机器学习的文本挖掘方法和基于深度学习的文本挖掘方法。

其中，基于情感词典的文本挖掘方法主要包括下述步骤：寻找短文本中的情感词，通过情感词典确定该情感词的极性，然后对该情感词的周围词语进行关联分析，以此确定该短文本的情感。上述方法受制于情感词典的限制，仅适于语法单一的短文本，而不能处理语法复杂或特定领域的短文本。

基于传统机器学习的文本挖掘方法主要包括下述步骤：首先选择并提取特征，然后构建特征向量，最后构建分类器。上述方法虽然具备扩展性强的优点，但是对特征选择的依赖性较高，且忽略了语义的信息，因此也不适用于处理语法复杂的短文本。

基于深度学习的文本挖掘方法主要包括下述步骤：通过构建LSTM或CNN等深度学习模型，对短文本进行建模。上述方法虽然对特征选取的依赖性较低，且在一定程度上考虑了浅层语义信息，但是仍然忽略了大量的背景信息，降低了短文本情感挖掘的准确性。

发明内容

为了解决现有技术中的上述问题，即为了解决如何在考虑背景信息的情况下对短文本进行情感挖掘，以提高情感挖掘准确性的技术问题，本发明提供了一种短文本情感分析方法及装置。

在第一方面，本发明中的短文本情感分析方法包括：

获取将短文本信息输入至预设的LSTM网络所得的向量序列，以及所述短文本信息的背景信息；

依据所述向量序列、背景信息和预设的Attention模型，获取所述短文本信息中各单词与各背景信息对应的注意力值，进而得到每个单词的注意力权重；

依据所述向量序列和注意力权重，构建所述短文本信息对应的新的文本向量；

将所述新的文本向量映射到情感评估空间，并采用softmax函数对映射到所述情感评估空间的文本向量进行情感评估，得到各预设的情感极性的预测概率。

进一步地，本发明提供的一个优选技术方案为：

“获取所述短文本信息中各单词与各背景信息对应的注意力值”的步骤具体包括按照下式所示的方法计算所述短文本信息中第i个单词与第k个背景信息bkg^k对应的注意力值

具体为：

进一步地，本发明提供的一个优选技术方案为：

其中，所述h_i为所述向量序列中第i个单词对应的向量；所述N为短文本信息所包含的单词总数；所述e(h_i,bkg^k)为得分函数，且

所述V、

和

均为预设的权值矩阵，所述b为偏置向量。

进一步地，本发明提供的一个优选技术方案为：

所述单词的注意力权重如下式所示：

其中，所述α_i为第i个单词的注意力权重，所述M为背景信息的总数。

进一步地，本发明提供的一个优选技术方案为：

“依据所述预测结果和注意力权重，构建所述短文本信息对应的新的文本向量”的步骤具体包括按照下式所示的方法构建所述新的文本向量s，具体为：

其中，所述α_i为第i个单词的注意力权重，所述h_i为所述向量序列中第i个单词对应的向量，所述N为短文本信息所包含的单词总数。

进一步地，本发明提供的一个优选技术方案为：

所述映射到情感评估空间的文本向量如下式所示：

其中，所述

为文本向量s映射到第c类情感评估空间的文本向量，所述W_c为权值矩阵，所述b_c为偏置向量。

进一步地，本发明提供的一个优选技术方案为：

所述预设的情感极性的预测概率如下式所示：

其中，所述p_c为第c类情感极性的预测概率，所述A为情感极性的类型总数。

在第二方面，本发明中的短文本情感分析装置包括：

第一数据获取模块，配置为获取将短文本信息输入至预设的LSTM网络所得的向量序列，以及所述短文本信息的背景信息；

第二数据获取模块，配置为依据所述第一数据获取模块所获取的向量序列、背景信息和预设的Attention模型，获取所述短文本信息中各单词与各背景信息对应的注意力值，进而得到每个单词的注意力权重；

文本向量构建模块，配置为依据所述第一数据获取模块所获取的向量序列和所述第二数据获取模块所获取的注意力权重，构建所述短文本信息对应的新的文本向量；

文本向量评估模块，配置为将所述文本向量构建模块所构建的新的文本向量映射到情感评估空间，并采用softmax函数对映射到所述情感评估空间的文本向量进行情感评估，得到各预设的情感极性的预测概率。

进一步地，本发明提供的一个优选技术方案为：

所述第二数据获取模块包括注意力值计算单元；所述注意力计算单元，配置为按照下式所示的方法计算所述短文本信息中第i个单词与第k个背景信息bkg^k对应的注意力值

具体为：

所述V、

和

均为预设的权值矩阵，所述b为偏置向量。

进一步地，本发明提供的一个优选技术方案为：

所述第二数据获取模块还包括注意力权重计算单元；所述注意力权重计算单元配置为按照下式所示的方法计算单词的注意力权重，具体为：

进一步地，本发明提供的一个优选技术方案为：

所述文本向量构建模块包括文本向量构建单元，该文本向量构建单元配置为按照下式所示的方法计算新的文本向量s，具体为：

进一步地，本发明提供的一个优选技术方案为：

所述文本向量评估模块包括映射单元，该映射单元配置为按照下式所述的方法将文本向量映射到情感评估空间，具体为：

其中，所述

进一步地，本发明提供的一个优选技术方案为：

所述文本向量评估模块还包括预测单元，该预测单元配置为按照下式所示的方法获取预设的情感极性的预测概率，具体为：

在第三方面，本发明中的存储装置，其存储有多条程序，所述程序适于由处理器加载并执行以实现上述技术方案所述的短文本情感分析方法。

在第四方面，本发明中的处理装置包括处理器和存储设备。其中，处理器，适于执行各条程序；存储设备，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述技术方案所述的短文本情感分析方法。

与最接近的现有技术相比，上述技术方案至少具有以下有益效果：

1、本发明中的短文本情感分析方法，可以依据向量序列、背景信息和预设的Attention模型，获取短文本信息中各单词与各背景信息对应的注意力值，进而得到每个单词的注意力权重。基于上述步骤，可以将短文本的实际内容与其背景信息相结合，并以注意力权重的形式体现该实际内容与背景信息的相关性。

2、本发明中的短文本情感分析方法，可以依据向量序列和注意力权重，构建短文本信息对应的新的文本向量，并将新的文本向量映射到情感评估空间，采用softmax函数对映射到情感评估空间的文本向量进行情感评估。基于上述步骤，可以更加准确地分析短文本的情感极性。

附图说明

图1是本发明实施例中短文本情感分析方法的主要步骤流程图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

短文本信息，如影评，具有口语化、语法多变和文本简短等特点，降低了现有文本挖掘方法的评估准确性。基于此，本发明提供了一种短文本情感分析方法，该方法可以将短文本的背景信息加入Attention模型，即针对不同的背景信息构建不同的语义环境，在不同的语义环境中对文本的关注点不同，从而能够更加深入的理解文本含义。

参阅附图1，图1示例性示出了本实施例中短文本情感分析方法的主要步骤。如图1所示，本实施例中可以按照下述步骤对短文本进行情感分析，具体为：

步骤S101：获取将短文本信息输入至预设的LSTM网络所得的向量序列，以及短文本信息的背景信息。

具体地，本实施例中LSTM网络指的是长短期记忆网络(Long Short-Term Memory，LSTM)。背景信息指的是任何与文本相关且可用的信息，例如影评的背景信息可以包括导演、演员、编剧和电影类型等信息。

在本实施例的一个优选实施方案中，短文本信息包括N个单词且N≥2。图1所示的短文本情感分析方法中步骤S101可以包括下述步骤：

步骤1、将短文本信息中的每个单词映射到低维空间。

具体地，短文本信息S＝(W₁,W₂...W_i...W_N)中单词W_i映射到低维空间为词向量w_i，且w_i∈R^d。其中，d为词向量的维度。按照上述方法将短文本信息的所有单词均映射到低维空间，得到短文本信息的词向量序列(w₁,w₂...w_i...w_N)。

步骤2、将词向量序列中的各词向量依次输入至预设的LSTM网络，得到LSTM网络输出的向量序列(h₁,h₂...h_i...h_N)。

步骤S102：依据向量序列、背景信息和预设的Attention模型，获取短文本信息中各单词与各背景信息对应的注意力值，进而得到每个单词的注意力权重。

具体地，本实施例中Attention模型指的是机器学习领域中的Attention Model，即AM模型。注意力值可以表示短文本信息中单词与背景信息的关系，即该注意力值为单词与背景信息的关系量化值。

本实施例中可以按照下式(1)所示的方法计算短文本信息中第i个单词与第k个背景信息bkg^k对应的注意力值具体为：

公式(1)中各参数含义为：

h_i为向量序列中第i个单词对应的向量，即将词向量w_i输入至LSTM网络后输出的向量。N为短文本信息所包含的单词总数。e(h_i,bkg^k)为得分函数，且

其中，V、

和

均为预设的权值矩阵，b为偏置向量。

按照公式(1)所示的方法计算每个单词与不同背景信息对应的注意力值，然后依据得到的所有注意力值计算每个单词的注意力权重。具体地，可以按照下式(2)所示的方法计算注意力权重：

公式(2)中各参数含义为：

α_i为第i个单词的注意力权重，M为背景信息的总数。

步骤S103：依据向量序列和注意力权重，构建短文本信息对应的新的文本向量。

具体地，本实施例中可以按照下式(3)所示的方法构建短文本信息对应的新的文本向量：

步骤S104：将新的文本向量映射到情感评估空间，并采用softmax函数对映射到情感评估空间的文本向量进行情感评估，得到各预设的情感极性的预测概率。

具体地，本实施例中预设的情感极性指的是预设类型的情感极性，例如情感极性可以包括负、微负、中性、微正和正共五种类型的情感极性，也可以仅包括正和负这两种类型的情感极性。

本实施例中将新的文本向量映射到情感评估空间后的文本向量如下式(4)所示：

公式(4)中各参数含义为：

为文本向量s映射到第c类情感评估空间的文本向量，W_c为权值矩阵，b_c为偏置向量。

进一步地，本实施例中可以按照下式(5)所示的方法计算各预设的情感极性的预测概率，具体为：

公式(5)中各参数含义为：

p_c为第c类情感极性的预测概率，A为情感极性的类型总数

进一步地，本实施例采用上述短文本情感分析方法，以及多种常规的文本挖掘方法对短文本样本进行分析，计算各方法分析结果的正确率，依据各方法的正确率评估本发明中短文本情感分析方法的准确性。

具体地，本实施例中短文本样本为中文影评情感语料库(Chinese sentimentcorpus of movie，CSCM)中的影片信息。

本实施例中情感极性为包含负、微负、中性、微正和正五种类型的情感极性时，上述各方法分析结果的正确率如下表1所示：

表1

文本挖掘方法	正确率
		SVM	45.16％
Fast-text	47.51％
		CNN	47.70％
LSTM	47.40％
		LSTM+ATT	47.47％
短文本情感分析方法	51.60％

本实施例中情感极性为包含正和负两种类型的情感极性时，上述各方法分析结果的正确率如下表2所示：

表2

通过上述表1和表2可以得到，本发明中短文本情感分析方法的分析结果正确率高于其他所有方法的正确率，表明该短文本情感分析方法具有较高的准确性。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

基于与方法实施例相同的技术构思，本发明实施例还提供了一种短文本情感分析装置。下面对该短文本情感分析装置进行具体说明。

本实施例中短文本情感分析装置可以包括第一数据获取模块、第二数据获取模块、文本向量构建模块和文本向量评估模块。其中，第一数据获取模块可以配置为获取将短文本信息输入至预设的LSTM网络所得的向量序列，以及短文本信息的背景信息。第二数据获取模块可以配置为依据第一数据获取模块所获取的向量序列、背景信息和预设的Attention模型，获取短文本信息中各单词与各背景信息对应的注意力值，进而得到每个单词的注意力权重。文本向量构建模块可以配置为依据第一数据获取模块所获取的向量序列和第二数据获取模块所获取的注意力权重，构建短文本信息对应的新的文本向量。文本向量评估模块可以配置为将文本向量构建模块所构建的新的文本向量映射到情感评估空间，并采用softmax函数对映射到情感评估空间的文本向量进行情感评估，得到各预设的情感极性的预测概率。

进一步地，本实施例中第二数据获取模块可以包括注意力值计算单元和注意力权重计算单元。其中，注意力计算单元可以配置为按照公式(1)所示的方法计算短文本信息中第i个单词与第k个背景信息bkg^k对应的注意力值

注意力权重计算单元可以配置为按照公式(2)所示的方法计算单词的注意力权重。

进一步地，本实施例中文本向量构建模块可以包括文本向量构建单元，该文本向量构建单元可以配置为按照公式(3)所示的方法计算新的文本向量s。

进一步地，本实施例中文本向量评估模块可以包括映射单元和预测单元。其中，映射单元可以配置为按照公式(4)所示的方法将文本向量映射到情感评估空间。预测单元可以配置为按照公式(5)所示的方法获取预设的情感极性的预测概率。

上述短文本情感分析装置实施例可以用于执行上述短文本情感分析方法实施例，其技术原理、所解决的技术问题及产生的技术效果相似，所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的短文本情感分析的具体工作过程及有关说明，可以参考前述短文本情感分析方法实施例中的对应过程，在此不再赘述。

本领域技术人员可以理解，上述短文本情感分析装置还包括一些其他公知结构，例如处理器、控制器、存储器等，其中，存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等，处理器包括但不限于CPLD/FPGA、DSP、ARM处理器、MIPS处理器等，为了不必要地模糊本公开的实施例，这些公知的结构未示出。

本领域技术人员可以理解，可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

基于上述短文本情感分析方法实施例，本发明还提供了一种存储装置，该装置中存储有多条程序，且这些程序适于由处理器加载并执行上述短文本情感分析方法。

进一步地，基于上述短文本情感分析方法实施例，本发明还提供了一种处理装置，该处理装置可以包括处理器和存储设备。其中，处理器适于执行各条程序，存储设备适于存储多条程序，且这些程序适于由处理器加载并执行以实现上述短文本情感分析方法。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在本发明的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的PC来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。