CN105912720A

CN105912720A - 一种计算机中涉及情感的文本数据分析方法

Info

Publication number: CN105912720A
Application number: CN201610289197.4A
Authority: CN
Inventors: 戴新宇; 黄家君; 陈家骏; 黄书剑; 张建兵
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2016-05-04
Filing date: 2016-05-04
Publication date: 2016-08-31
Anticipated expiration: 2036-05-04
Also published as: CN105912720B

Abstract

本发明提出了一种计算机中涉及情感的文本数据分析方法，包括：构造一种人工语言，训练对齐模型，抽取翻译短语，并利用对齐概率特征和翻译短语特征作为方面识别模型的信息特征，再对所识别到的方面类别结合句子信息进行情感倾向判别。对比现有的多方面情感分析方法，本方法突出在考虑了句子不同文本片段和输出信息中不同的部分的对应关系，并且能利用富含信息量的关键性短语。在具体的多方面情感分析实验中，可以得到更高的方面识别精度。

Description

一种计算机中涉及情感的文本数据分析方法

技术领域

本发明属于计算机文本挖掘领域，特别是一种计算机中涉及情感的文本数据分析方法。

背景技术

随着电子商业作为一种新的购物方式和市场的兴起，对这些在线服务和产品的用户评论的分析变得非常有价值和重要。在线评价的情感文本数据处理可以不仅可以帮助用户更高效更好地选购商品，还可以帮助商家理解用户需求，改进自身的产品。

目前，传统的情感文本数据处理技术主要是针对一段给定文本，比如一整段评价文本，或者一个句子，来预测文本的整体情感倾向。然而，一段用户评论中常常包含对某个产品多方面的评价，对于不同的方面用户也许表达了不同的情感。针对这种情况，传统的处理技术不能提供更详细的信息，不能识别针对产品各个方面的细粒度情感。在这种形势下，多方面的情感文本数据处理技术开始受到了研究者的关注。

当前的多方面情感文本数据处理技术主要包括四类：1.语料级评价目标和情感词挖掘；2.句子级的评价目标和情感词挖掘；3.基于话题模型的多方面情感文本数据处理；4.基于有监督机器学习的多方面情感文本数据处理。

第一类方法，即语料级别评价目标和情感词挖掘，主要目标是从一个足够大的特定领域语料库中抽取出一个表示评价目标的名词或者名词短语列表，和带有情感倾向的情感词列表。一个名词或者名词短语在不同的上下文中有时是评价目标有时不是，一个情感词在不同的上下文环境中可能带有不同的情感倾向。这类方法并不能区分这些情况，这是这类方法的第一个问题。另外，不同的评价目标词可能属于同一个方面，比如，在电子产品领域，“待机时间”和“电池性能”是不同的两个评价目标词，但是都是与电池这个方面相关的。这类方法不能把它们归类到同一个方面，这是这类方法的第二个问题。

第二类方法，即句子级评价目标词和情感词识别。这类方法与第一类相似，不同的是它的输入是不再是整个语料，而是一个具体的句子。这样，这类方法能识别出具体上下文中的评价目标词和情感词。这类方法一般使用序列标注方法来实现，比如条件随机场，隐马尔可夫模型等。但是这类方法仍然没有解决上述所提的第二个问题。

第三类方法，即基于话题模型的多方面情感文本数据处理技术。这类方法主要把方面定义成一个话题，通常话题表示成一个词的多项式分布。缺点是话题数量难以确定，话题之间常常有重合，导致输出结果不精确。

第四类方法，即基于有监督机器学习方法的多方面情感文本数据处理技术，主要特征是有预先定义好的方面类别，形式上输入为一个句子或者一个评价文档，输出为若干个包括了方面类别和情感极性的二元组。目前，这类方法主要采用传统机器学习方法，比如支持向量机，朴素贝叶斯等，再结合手工定制的信息特征，比如词特征，二元语法特征，预先抽取的评价目标短语等。本发明亦属于此类方法，与已有的方法相比，本发明识别精度更高。

发明内容

发明目的：本发明所要解决的技术问题是针对以上所提到各类方法的不足，提供一种计算机中涉及情感的文本数据分析方法。

为了解决上述技术问题，本发明公开了一种构造人工语言，利用统计统计机器翻译技术训练对齐模型，抽取翻译短语，并以此作为信息特征训练方面识别模型的多方面情感文本数据处理方法。

本发明特征包括如下步骤：

步骤1，计算机读入一个包含待处理句子的文本数据，识别待处理句子中所提到的方面类别，方面类别形式上定义为<entity#attribute>，其中entity为实体，attribute为属性；

步骤2，对于步骤1所识别到的方面类别，判别其在待处理句子中所对应的情感倾向。

其中，步骤1中，采用如下式所示的方面识别模型识别待处理句子中所提到的方面类别：

\overset{&OverBar;}{y} = σ (W \cdot x + b),

其中，x表示待处理句子中包含的N维信息特征向量，为输出的K维判别值向量，N和K取值为都自然数。W和为模型参数，W为一个K×N的矩阵，b为K维偏置向量，σ为softmax函数，其运算方式如下：

σ {(z)}_{j} = \frac{e^{z_{j}}}{Σ_{k = 1}^{K} e^{z_{k}}}, f o r j = 1, ..., K

其中e为自然底数，上标表示指数函数。这里z＝W·x+b，表示归一化前的得分向量。z_j和z_k分别表示z的第j维和第k维。

方面识别模型的训练目标为最小化代价函数J(W,b)：

J (W, b) = \frac{1}{m} Σ_{i = 1}^{m} Σ_{j = 1}^{K} y_{i, j} l n ({\overset{&OverBar;}{y}}_{i, j}) + λ Σ_{i = 1}^{K} Σ_{j = 1}^{n} W_{i, j},

其中，ln()为自然底数对数，λ为设定的超参，通常取值为0.0001～0.0003，m为训练样本数量，y为与输出的K维判别值向量所对应的标注的标准二值向量，y_i,j表示第i个训练样本中第j维的值。当且仅当第i个样本有第j个方面类别时(在求和符号中，j表示遍历从1到K中的每一个数)，y_i,j为1，否则为0。

本发明的主要核心除了以上所述的模型，还主要包括输入向量x的构建。所述方面识别模型使用的n维信息特征向量x包括以下三项：

二值词袋模型特征；

对齐模型概率特征；

翻译短语特征。

即输入向量x包括以下三个部分：

x＝<words,AlignmentProbabilities,Phrases>

其中，words表示二值词袋向量，AlignmentProbabilities表示对齐模型概率特征向量，Phrases表示翻译短语向量。

words：

首先选取训练语料中的出现频率最高的不包括停用词的n1个词作为词汇表，n1一般取1500～2000为宜。则Words向量表示为一个n1维的向量，当且仅当当前句子中出现第j个词，words_j＝1，否则words_j＝0.

AlignmentProbabilities：

此为对齐模型概率特征向量。对齐模型概率特征包括至少以下之一：

正向对齐概率特征；

逆向对齐概率特征。

在本发明中，方面类别形式上定义为<entity#attribute>，其中entity为实体，attribute为属性。以笔记本电脑这类产品为例，Keyboard(键盘)是一个实体，Usability(易用性)是一种属性，那么Keyboard#Usability(表示键盘的易用性)则是笔记本电脑这个产品的一个方面。

对齐概率特征抽取的步骤如下：

首先，根据训练数据中已经标注好的每个句子，所述的对齐模型概率特征和翻译短语特征的获取通过以下文法构造目标语言：

表1 目标语言的构造文法

用S表示一个句子，S’表示一个分句，一个句子由任意个分句组成，一个分句S’的形式是E A is P，其中E表示entity实体，A表示attribute属性，P表示情感极性，情感极性有三种，分别为positive、negative和neutral(分别表示积极、消极和中性)。

其次，使用对齐模型训练工具GIZA++训练得到正逆向对齐模型，通过以下公式计算正向对齐概率特征p(a|s)：

p (a | s) = 1 - Π_{c}^{c &Element; s} (1 - t (a | c)),

其中，s表示待处理句子，c表示句子中的一个词，a表示一个实体entity或者属性attribute，t(a|c)表示从c到a的对齐概率。

通过以下公式计算逆向对齐概率特征p(s|a)：

p (s | a) = Σ_{c}^{c &Element; s} t (c | a),

其中，t(c|a)表示从a到c的对齐概率。

所述的对齐模型概率特征为正向对齐概率特征和逆向对齐概率特征的算术平均值。按照以下公式计算给定一个待处理句子s，对于每个entity或者attribute a的对齐概率特征值f_s,a：

f_{s, a} = \frac{1}{2} (p (a | s) + p (s | a)) .

Phrases:

按照专利CN103488629B《一种机器翻译中翻译单元表的抽取方法》，抽取翻译短语，需要注意的是，需要对源语言和目标语言短语的长度进行限定，一般限定在3个词以内为宜。然后，对于抽取出来的源语言短语，过滤掉包含标点符号、特殊字符和停用词的短语，作为一组二值信息特征加入到输入向量中。

使用训练好的方面识别模型对待处理的句子s进行识别。根据如上所述的模型输出的判别向量当且仅当认为句子中含有方面i，threshold是手工设定的阈值，通常用交叉验证选取合适的取值，一般取值在1.3～2.0之间为宜，方面数量越大阈值应设定得越小。

本发明步骤2包括以下步骤：

步骤2-1，对步骤1所识别的待处理句子的每个方面类别，判别其情感倾向。判别使用支持向量机(SVM，support vector machine)进行二元分类，分类器的输入为句子的信息和方面类别，即

x＝<words,entity,attribute>

其中，x为SVM分类器输入的待处理句子中包含的N维信息特征向量，words向量的定义同步骤1，entity和attribute分别是一个1-hot(独热码，词向量的一种方式)向量，它们共同指示了一个唯一的方面。

步骤2-2，结合步骤1和步骤2-1的结果，输出最终的二元组信息：<entity#attribute,polarity(文本的极性)>。

有益效果：本发明考虑了句子中不同文本片段和输出结果中不同部分的对应关系，能更加精确地识别方面类别和情感倾向。以下的实验结果将说明本发明的有益效果。

信息特征	F1-score(％)
		词/Words	50.86
+对齐概率特征/+Alignment	52.41
		+翻译短语/+Phrases	53.16

表2 使用不同信息特征的方面识别性能比较

表2为识别方面类别的性能比较实验结果，可以看出在加入对齐概率特征和翻译短语特征后，识别的性能都有有效的提升。

***	F1-score(％)
		本发明	53.16
NLANGP	49.06

表3 不同***的方面识别性能比较

NLANGP是2015年SemEval评测比赛中多方面情感分析任务的获胜***，与之相比，本发明在方面识别上有更高的精度。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的流程图。

具体实施方式

本发明提出了一种计算机中涉及情感的文本数据分析方法。构建一个人工目标语言，在此基础上训练对齐模型和抽取翻译短语，再从中抽取信息特征帮助提高方面识别的精度。现有的多方面情感分析技术中，或者方法框架不同，或者没有考虑句子中不同文本片段和输出结果中不同部分的对应关系，没有利用机器翻译相关技术来抽取信息特征。

如图1所示，本发明包括如下步骤：

步骤1，***读入一个待处理句子，识别句子中所提到的方面类别。

步骤2，对于步骤1所识别到的方面类别，判别其在句子中所对应的情感倾向。

其中，步骤1包括如下步骤：

步骤1-1，训练方面类别识别模型。所采用的模型可以用以下公式表示

\overset{&OverBar;}{y} = σ (W \cdot x + b),

其中，x表示输入的N维信息特征向量，为输出的K维判别值向量，N和K取值为都为自然数。W,b为模型参数，W为一个K×N的矩阵，b为K维偏置向量，σ为softmax函数，其运算方式如下：

σ {(z)}_{j} = \frac{e^{z_{j}}}{Σ_{k = 1}^{K} e^{z_{k}}}, f o r j = 1, ..., K,

其中，e为自然对数底数，上标表示指数函数。z＝W·x+b，表示归一化前的得分向量。z_j和z_k分别表示z的第j维和第k维。

训练过程采用梯度下降法最小化以下代价函数：

J (W, b) = \frac{1}{m} Σ_{i = 1}^{m} Σ_{j = 1}^{K} y_{i, j} l n ({\overset{&OverBar;}{y}}_{i, j}) + λ Σ_{i = 1}^{K} Σ_{j = 1}^{n} W_{i, j},

其中，ln()为自然底数对数，λ为人工指定的超参，通常取值为0.0001～0.0003为宜，m为训练样本数量，y为与所对应的标注的标准二值向量，y_i,j表示第i个训练样本中第j维的值。当且仅当第i个样本有第j个方面类别时，y_i,j为1，否则为0。

以上模型的输入向量x包括以下三个部分：

x＝<words,AlignmentProbabilities,Phrases>，

其中，words表示二值词袋向量，AlignmentProbabilities表示对齐模型概率特征向量，Phrases表示短语向量。

words：

AlignmentProbabilities：

此为对齐概率特征向量。在本发明中，方面类别形式上定义为entity#attribute，其中entity为实体，attribute为属性。以笔记本电脑这类产品为例，Keyboard(键盘)是一个实体，Usability(易用性)是一种属性，那么Keyboard#Usability(表示键盘的易用性)则是笔记本电脑这个产品的一个方面。

对齐概率特征抽取的步骤如下：

首先，根据训练数据中已经标注好的每个句子，按照如下文法构造目标语言：

表1 目标语言的构造文法

其次，使用对齐模型训练工具GIZA++训练得到正逆向对齐模型，然后按照如下公式计算正向对齐概率特征：

p (a | s) = 1 - Π_{c}^{c &Element; s} (1 - t (a | c)),

其中，s表示一个句子，c表示句子中的一个词，a表示一个entity或者attribute，t(a|c)表示从c到a的对齐概率。

同时，按照以下公式计算逆向对齐概率特征：

p (s | a) = Σ_{c}^{c &Element; s} t (c | a)

类似地，t(c|a)为从a到c的对齐概率。

然后，按照以下公式计算给定一个句子s，对于每个entity或者attribute a的对齐概率特征值：

f_{s, a} = \frac{1}{2} (p (a | s) + p (s | a))

Phrases:

步骤1-2，使用训练好的方面识别模型对待处理的句子进行识别。根据如上所述的模型输出的判别向量当且仅当认为句子中含有方面i，threshold是手工设定的阈值，通常用交叉验证选取合适的取值，一般取值在1.3～2.0之间为宜，方面数量越大阈值应设定得越小。

本发明步骤2包括以下步骤：

步骤2-1，对步骤1所输出的每个方面类别，判别其情感倾向。判别使用支持向量机(SVM)进行二元分类，分类器的输入为句子的信息和方面类别，即

x＝<words,entity,attribute>

其中，x为SVM分类器的输入向量，words向量的定义同步骤1，entity和attribute分别是一个1-hot向量，它们共同指示了一个唯一的方面。

步骤2-2，结合步骤1和步骤2-1的结果，输出最终的二元组信息：<entity#attribute,polarity>。

实施例1

本实施例中，针对笔记本电脑的在线评论语料，构造对应的人工目标语言，形成平行语料，用于训练对齐模型。

对于一个评论句子：“Fantastic for the price，it’s a pity keys were not illuminated。”(大意：价格合适，很遗憾键盘不是背光的。)标注的结果包括两个Opinion：<LAPTOP#PRICE，positive>，<KEYBOARD#DESIGN_FEATURES,negative>。按照上文中说明的文法构造人工语言句子：“LAPTOP PRICE is positive；KEYBOARDDESIGN_FEATURES is negative；”。

实施例2

本实施例中，***接受一个自然语言句子，输出二元组信息。其过程如下：

1、***接收自然语言句子：The Dell is quick enough but not good with finger prints。

2、***抽取词信息向量Words；

3、***根据对齐概率表计算对齐概率特征向量AlignmentProbabilities；

4、***根据已经抽取出的短语表抽取短语特征向量Phrases；

5、将第2、3、4步的特征一起输入方面识别模型，发现模型输出得分高于阈值0.14的两个方面类别：LAPTOP#OPERATION_PERFORMANCE，LAPTOP#QUALITY；

6、***判断LAPTOP#OPERATION_PERFORMANCE在句中的情感倾向是positive；

7、***判断LAPTOP#QUALITY在句子中的情感倾向是negative；

8、***输出Opinion1<LAPTOP#OPERATION_PERFORMANCE，positive>，Opinions<LAPTOP#QUALITY，negative>。

9、结束。

本发明提供了一种计算机中涉及情感的文本数据分析方法，具体实现该技术方案的方法和途径很多，以上所述是本发明的优选实施方式。本发明基于统计机器翻译技术，在方面识别模型中加入对齐概率信息特征和翻译短语信息特征，考虑了句子不同的文本片段和输出中不同部分的对齐关系和关键短语的信息。在具体实验中，本发明提出的方法与现有的多方面情感分析方法相比，输出结构更加清晰，识别精度更高。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种计算机中涉及情感的文本数据分析方法，其特征在于，包括如下步骤：

步骤2，对于步骤1所识别到的方面类别，判别其在待处理句子中所对应的情感倾向并输出最终结果。

2.根据权利要求1所述的方法，其特征在于，步骤1中，采用如下式所示的方面识别模型识别待处理句子中的方面类别：

其中，x表示待处理句子中包含的N维信息特征向量，为输出的K维判别值向量，N和K取值为自然数，W和b为模型参数，W为一个K×N的矩阵，b为K维偏置向量，σ为softmax函数，其运算方式如下：

其中e为自然底数，上标表示指数函数，z＝W·x+b，表示归一化前的得分向量，z_j和z_k分别表示z的第j维和第k维。

3.根据权利要求2所述的方法，其特征在于，方面识别模型的训练目标为最小化代价函数J(W,b)：

其中，ln()为自然底数对数，λ为设定的超参，m为训练样本数量，y为与输出的K维判别值向量所对应的标注的标准二值向量，y_i,j表示第i个训练样本中第j维的值，当且仅当第i个样本有第j个方面类别时，y_i,j为1，否则为0。

4.根据权利要求2所述的方法，其特征在于，所述方面识别模型使用的n维信息特征向量x包括以下三项：

二值词袋模型特征；

对齐模型概率特征；

翻译短语特征。

5.根据权利要求4所述的方法，其特征在于，所述对齐模型概率特征包括至少以下之一：

正向对齐概率特征；

逆向对齐概率特征。

6.根据权利要求5所述的方法，其特征在于，通过以下公式计算正向对齐概率特征p(a|s)：

7.根据权利要求5所述的方法，其特征在于，通过以下公式计算逆向对齐概率特征p(s|a)：

其中，t(c|a)表示从a到c的对齐概率；

所述的对齐模型概率特征为正向对齐概率特征和逆向对齐概率特征的算术平均值。

8.根据权利要求4所述的方法，其特征在于，所述的对齐模型概率特征和翻译短语特征的获取通过以下文法构造目标语言：

用S表示一个句子，S’表示一个分句，一个句子由任意个分句组成，一个分句S’的形式是E A is P，其中E表示entity实体，A表示attribute属性，P表示情感极性，情感极性有三种，分别为positive、negative和neutral。

9.根据权利要求8所述的方法，其特征在于，步骤2包括以下步骤：

步骤2-1，对步骤1所识别的待处理句子的每个方面类别，判别其情感倾向；

步骤2-2，结合步骤1和步骤2-1的结果，输出最终的二元组信息：<entity#attribute，polarity>。

10.根据权利要求9所述的方法，其特征在于，步骤2-1中，判别情感倾向的方式为采用支持向量机SVM进行二元分类，分类器的输入为句子的信息和方面类别，即

x＝＜words,entity,attribute>，

其中，x为支持向量机SVM分类器输入的待处理句子中包含的n维信息特征向量， words表示二值词袋向量，entity和attribute分别是一个1-hot向量，entity和attribute共同指示了一个唯一的方面类别。