CN103020249A

CN103020249A - 分类器的构建方法及装置、中文文本情感分类方法及***

Info

Publication number: CN103020249A
Application number: CN2012105564463A
Authority: CN
Inventors: 李寿山; 张小倩; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2012-12-19
Filing date: 2012-12-19
Publication date: 2013-04-03

Abstract

本申请提供了一种分类器的构建方法及装置、中文文本情感分类方法及***，分类方法包括：从待标注样本集中获取一个待标注样本，查找待标注样本中的情感词并获取每个情感词的情感极性，转变待标注样本中符合情感极性转变规则的情感词的情感极性；统计待标注样本中情感极性为正面和负面的情感词的数量；根据情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定待标注样本的情感极性，得到标注样本；利用标注样本对待标注样本集中其它待标注样本进行标注，得到标注样本集；利用标注样本集中构建最大熵分类器，利用最大熵分类器对待分类的中文文本进行分类。本申请提供的方法、装置及***缩短了中文文本的分类时间，提高了分类准确率。

Description

分类器的构建方法及装置、中文文本情感分类方法及***

技术领域

本发明涉及自然语言处理及模式识别技术领域，尤其涉及一种分类器的构建方法及装置、中文文本情感分类方法及***。

背景技术

随着Web2.0的蓬勃发展，互联网上产生了大量大众对于人物、事件、产品的等带有感情色彩的评论信息，用户通过浏览这些评论信息可以了解大众舆论对于某一事件或产品的看法，由于评论信息的信息量较大，用户如果单纯地依靠人工去收集和整理，会浪费大量的时间和精力，因此，迫切需要利用计算机帮助用户快速获取和整理这些评论信息，文本情感分析技术应运而生。

所谓文本情感分析，就是利用计算机帮助用户快速获取、整理和分析评论信息，对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其中，文本情感分类是文本情感分析的一项基本内容，其按不同的粒度可分为句子级、篇章级等，对于句子级和篇章级，文本情感分类是指将文本分为正面文本和负面文本，例如，“我很喜欢这个产品”，通过文本情感分类，这句话将被分类为正面文本，而“这本书是在太差了”将被分类为负面文本。

目前，常用的文本情感分类方法是基于监督方法的，该方法用领域被标记的数据训练特定领域的分类，这种方法虽然取得了较好的分类效果，但由于其需要大量人工标注语料库，因此，构建分类器的时间较长，而且，如果换一个领域就必须重新标注语料，即领域依赖性较大。

发明内容

有鉴于此，本发明提供了一种分类器的构建方法及装置、中文文本情感分类方法及***，用以解决现有的分类方法构建分类器的时间较长且应用领域依赖性较大的问题。其技术方案如下：

一种分类器的构建方法，包括：

获取待标注样本集并从所述待标注样本集中获取一个待标注样本，其中，所述待标注样本集包括至少两个待标注样本；

查找所述待标注样本中的情感词，并获取每个情感词的情感极性，其中，所述情感极性包括正面和负面；

转变所述待标注样本中符合情感极性转变规则的情感词的情感极性；

统计所述待标注样本中情感极性为正面的情感词的数量和情感极性为负面的情感词的数量；

根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性，得到标注样本；

依据所述标注样本利用自学习的方法对所述待标注样本集中其它待标注样本进行标注，得到标注样本集；

利用所述标注样本集中的标注样本构建最大熵分类器。

优选地，转变所述待标注样本中符合情感极性转变规则的情感词的情感极性包括：

如果待标注样本中的情感词所在的句子中出现了否定关键词，则转变该情感词的情感极性；

如果待标注样本中的情感词所在的句子的下一句或下一段落出现了转折关键词，则转变该情感词的情感极性；

和/或，如果待标注样本中的情感词所在的句子出现了能愿关键词，则转变该情感词的情感极性。

优选地，所述根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性包括：

如果情感极性为正面的情感词的数量与情感极性为负面的情感词的数量的差值大于设定阈值，则确定所述待标注样本的情感极性为正面；

如果情感极性为负面的情感词的数量与情感极性为正面的情感词的数量的差值大于所述设定阈值，则确定所述待标注样本的情感极性为负面。

优选地，根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性，得到标注样本包括：

利用所述标注样本构建最大熵分类器；

利用所述最大熵分类器对所述待标注样本集中其它待标注样本进行标分类，得到分类结果；

根据所述分类结果确定每个待标注样本的情感极性，得到标注样本集。

一种中文文本情感分类方法，包括：上述的分类器的构建方法，还包括：

利用构建的最大熵分类器对待分类的中文文本进行分类。

一种分类器的构建装置，包括：获取单元、查找单元、极性转变单元、统计单元、确定单元、自学习单元和分类器构建单元；

所述获取单元，用于获取待标注样本集并从所述待标注样本集中获取一个待标注样本，其中，所述待标注样本集包括至少两个待标注样本；

所述查找单元，用于查找所述待标注样本中的情感词，并获取每个情感词的情感极性，其中，所述情感极性包括正面和负面；

所述极性转变单元，用于转变所述待标注样本中符合情感极性转变规则的情感词的情感极性；

所述统计单元，用于统计所述待标注样本中情感极性为正面的情感词的数量和情感极性为负面的情感词的数量；

所述确定单元，用于根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性，得到标注样本；

所述自学习单元，用于依据所述标注样本利用自学习的方法对所述待标注样本集中其它待标注样本进行标注，得到标注样本集；

所述分类器构建单元，用于利用所述标注样本集中的标注样本构建最大熵分类器。

优选地，所述极性转变单元包括：第一极性转变子单元、第二极性转变子单元和/或第三极性转变子单元；

所述第一极性转变子单元，用于当待标注样本中的情感词所在的句子中出现了否定关键词时，转变该情感词的情感极性；

所述第二极性转变子单元，用于当待标注样本中的情感词所在的句子的下一句或下一段落出现了转折关键词时，转变该情感词的情感极性；

所述第三极性转变子单元，用于当待标注样本中的情感词所在的句子出现了能愿关键词时，转变该情感词的情感极性。

优选地，所述确定单元包括：第一确定子单元和第二确定子单元；

所述第一确定子单元，用于当情感极性为正面的情感词的数量与情感极性为负面的情感词的数量的差值大于设定阈值时，确定所述待标注样本的情感极性为正面；

所述第二确定子单元，用于当情感极性为负面的情感词的数量与情感极性为正面的情感词的数量的差值大于所述设定阈值时，确定所述待标注样本的情感极性为负面。

优选地，所述自学习单元包括：分类器构建子单元、分类子单元和第三确定子单元；

所述分类器构建子单元，用于利用所述标注样本构建最大熵分类器；

所述分类子单元，用于利用所述最大熵分类器对所述待标注样本集中其它待标注样本进行标分类，得到分类结果；

第三确定子单元，用于根据所述分类结果确定每个待标注样本的情感极性。

一种中文文本情感分类***，包括上述的分类器的构建装置，还包括：分类单元；

所述分类单元，用于利用所述分类器的构建装置构建的最大熵分类器对待分类的中文文本进行分类。

本发明提供的分类器的构建方法及装置、中文文本情感分类方法及***，应用情感极性转变规则对情感器的情感极性进行极性转变，并且依据标注样本利用自学习的方法对待标注样本集中其它待标注样本进行标注，将根据标注样本集的标注样本构建的最大熵分类器作为中文文本情感分类的分类器。本发明提供的分类器的构建方法及装置、中文文本情感分类方法及***，避免了人工标注训练样本浪费的人耗代价，缩短了用于中文文本情感分类的分类器的构建时间，同时，提高了中文文本情感分类的正确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的分类器的构建方法的流程示意图；

图2为本发明实施例提供的中文文本情感分类***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种分类器的构建方法，图1为该方法的流程图，该方法可以包括：

S101：获取待标注样本集并从所述标注样本集中获取一个待标注样本，其中，待标注样本集包括至少两个待标注样本。

S102：查找待标注样本中的情感词，并获取每个情感词的情感极性，其中，情感词的情感极性包括正面和负面。

S103：转变待标注样本中符合情感极性转变规则的情感词的情感极性。

S104：统计待标注样本中情感极性为正面的情感词的数量和情感极性为负面的情感词的数量。

S105：根据情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定待标注样本的情感极性，得到标注样本。

S106：依据标注样本利用自学习的方法对待标注样本集中其它待标注样本进行标注，得到标注样本集，该标注样本集中包括了所有的标注样本。

S107：利用标注样本集中的标注样本构建最大熵分类器。

在本发明的另一实施例中，步骤S102可以包括：对照预置的情感词与情感极性的对应表，在待标注样本中查找情感词，并根据对应表获取与情感词对应的情感极性。表1给出了一情感词与情感极性的对应表需要说明的是，本实施例并不限定于表1所列举的情感词，还可有其它情感词。

表1

情感极性	情感词
		正面	喜欢，乐意，满意，好，很好
负面	讨厌，厌烦，伤心，坏

在本发明的再一实施例中，情感极性转变规则可以包括：否定规则、转折规则和/或能愿规则。相应的，步骤S103可以包括：如果待标注样本中的情感词所在的句子中出现了否定关键词，则转变该情感词的情感极性；如果待标注样本中的情感词所在的句子的下一句或下一段落出现了转折关键词，则转变该情感词的情感极性；和/或，如果待标注样本中的情感词所在的句子出现了能愿关键词，则转变该情感词的情感极性。表2列出了常见的否定关键词、转折关键词和能愿关键词，当然本实施例并不限定于这些关键词，还可包括其它表示否定、转折和能愿的关键词。

表2

下面针对基于否定规则、转折规则和能愿规则转变情感词的情感极性列举三个具体实例进行说明：

例1：我不喜欢这个产品。

在例1的句子中，若情感词为“喜欢”，且该句中出现了否定关键词“不”，则转变情感词“喜欢”的情感极性，即将“喜欢”的情感极性由正面转变为负面。

例2：我喜欢这个产品的想法，但是这个质量我不能接受。

在例2的句子中，若情感词为“喜欢”，且其所在句子的下一句中出现了转折关键词“但是”，则转变情感词“喜欢”的情感极性，即将“喜欢”的情感极性由正面转变为负面。

例3：如果颜色是红色的就好了。

在例3的句子中，若情感词为“好”，且其所在句子中，在情感词“好”的前边出现了能愿关键词“如果”，则转变情感词“好”的情感极性，即将“好”的情感极性由正面转变为负面。

在本发明的又一实施例中，步骤S106可以包括：如果情感极性为正面的情感词的数量与情感极性为负面的情感词的数量的差值大于设定阈值，则确定待标注样本的情感极性为正面；如果情感极性为负面的情感词的数量与情感极性为正面的情感词的数量的差值大于设定阈值，则确定待标注样本的情感极性为负面。假设情感极性为正面的情感词的数量为N₊，情感极性为负面的情感词的数量为N_-，设定阈值为N_max，如果N₊-N_->N_max，则确定待标注样本的情感极性为正面，如果N_--N₊>N_max，则确定待标注样本的情感极性为负面。

在本发明的又一实施例中，步骤S105可以包括：利用标注样本构建最大熵分类器；利用最大熵分类器对待标注样本集中其它待标注样本进行标分类，得到分类结果，根据分类结果确定每个待标注样本的情感极性，最终得到两个标准样本集：正面标注样本集和负面标注样本集。

其中，最大熵分类器作为机器学习分类方法中的一种，是基于最大熵信息理论，其基本思想是为所有已知的因素建立模型，而把所有未知的因素排除在外。也就是说，要找到一种概率分布，满足所有已知的事实，但是让未知的因素最随机化。相对于朴素贝叶斯方法，该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合融合各种不一样的特征，而无需考虑它们之间的影响。

在最大熵模型下，预测条件概率P(c|D)的公式如下：

P (c_{i} | D) = \frac{1}{Z (D)} \exp (\underset{k}{Σ} λ_{k, c} F_{k, c} (D, c_{i}))

其中Z(D)是归一化因子。P_k,c是特征函数，定义为：

F_{k, c} (D, c^{'}) = \{\begin{matrix} 1 & n_{k} (d) > 0 and c^{'} = c \\ 0 & oterwise \end{matrix}

本发明还提供了一种中文文本情感分类方法，该方法除了包括上述的步骤S101-S107外，还包括：利用构建的最大熵分类器对待分类的中文文本进行分类。

为了将本实施例提供的中文文本情感分类方法与现有的中文文本情感分类方法进行比较，本实施例采用一些领域内的评论语料作为非标注待分类样本，分别对这两种分类方法进行测试。测试中使用的语料为两个领域的数据，分别为关于箱包和酒店的评论。实验选用的评价标准是准确率Accuracy，准确率是评价一般分类问题的综合评价标准，对于每一个领域，标准率的计算为Accuracy=（TP+NP）/A，其中，TP指正面文本分类正确的样本总数，NP指负面文本分类正确的样本总数，A指选择的分类正确的总的样本数。

需要说明的是，对待分类的中文文本的情感极性的正确性进行判定，具体判定内容是，在正面文本中，若正面情感词数目比负面情感词数目多，则正面文本分类正确；在正面文本中，若正面情感词数目比负面情感词数目少或数目相等，则正面文本分类不正确；在负面文本中，若负面情感词数目比正面情感词数目多，则负面文本分类正确；在负面文本中，若负面情感词数目比正面情感词数目少或数目相等，则负面文本分类不正确。

表3为采用本发明提供的分类方法和采用现有技术的分类方法对中文文本进行分类的结果比较：

表3

本实验中，采用不同数量的标注样本分别进行了实验验证，且N_max=3。

传统的分类方法将计算的每个样本中的情感词数，作为判定样本的情感类别的依据。本发明实施例提供的方法，首先对情感词采用情感极性转变规则对情感词做了极性转变判定，规则包括：否定规则、转折规则、能愿规则，避免了情感极性转变对情感词判定的影响，并将使用非标注样本自动标注后构建的最大熵分类器用于中文文本情感分类。

从表3的数据可以看出，应用本实施例提供的中文情感分类方法分类的准确率，要远远高于传统的文本情感分类方法的准确率，提高的幅度最高可超过3个百分点，再次证明本实施例提供的分类方法的准确率高，减少人工标注代价的同时，避免了发生情感极性转变的情感词对文本分类结果带来的不利影响，有利于提高文本的分类效果。

与上述分类器的构建方法对应，本发明实施例还提供了一种分类器的构建装置，图2为该装置的结构示意图，该装置可以包括：获取单元101、查找单元102、极性转变单元103、统计单元104、确定单元105、自学习单元106和分类器构建单元107。其中：

获取单元101，用于获取待标注样本集并从待标注样本集中获取一个待标注样本，其中，待标注样本集包括至少两个待标注样本。查找单元102，用于查找待标注样本中的情感词，并获取每个情感词的情感极性，其中，情感极性包括正面和负面。极性转变单元103，用于转变待标注样本中符合情感极性转变规则的情感词的情感极性。统计单元104，用于统计待标注样本中情感极性为正面的情感词的数量和情感极性为负面的情感词的数量。确定单元105，用于根据情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定待标注样本的情感极性，得到标注样本。自学习单元106，用于利用依据标注样本利用自学习的方法对待标注样本集中其它待标注样本进行标注，得到标注样本集。分类器构建单元107，用于利用标注样本集中的标注样本构建最大熵分类器。

在本发明的另一实施例中，极性转变单元103可以包括：第一极性转变子单元、第二极性转变子单元和/或第三极性转变子单元。其中：

第一极性转变子单元，用于当待标注样本中的情感词所在的句子中出现了否定关键词时，转变该情感词的情感极性。第二极性转变子单元，用于当待标注样本中的情感词所在的句子的下一句或下一段落出现了转折关键词时，转变该情感词的情感极性。第三极性转变子单元，用于当待标注样本中的情感词所在的句子出现了能愿关键词时，转变该情感词的情感极性。

在本发明的另一实施例中，确定单元105可以包括：第一确定子单元和第二确定子单元。其中：

第一确定子单元，用于当情感极性为正面的情感词的数量与情感极性为负面的情感词的数量的差值大于设定阈值时，确定待标注样本的情感极性为正面。第二确定子单元，用于当情感极性为负面的情感词的数量与情感极性为正面的情感词的数量的差值大于设定阈值时，确定待标注样本的情感极性为负面。

在本发明的再一实施例中，自学自单元106可以包括：分类器构建子单元、分类子单元和第三确定子单元。其中：

分类器构建子单元，用于利用标注样本构建最大熵分类器。分类子单元，用于利用最大熵分类器对待标注样本集中其它待标注样本进行分类，得到分类结果。第三确定子单元，用于根据分类结果确定每个待标注样本的情感极性。

与上述的中文文本情感分类方法对应，本发明实施例还提供了一种中文文本情感分类***，该***除了包括上述的分类器的构建装置外，还包括：分类单元。其中，分类单元，用于利用分类器的构建装置构建的最大熵分类器对待分类的中文文本进行分类。

本发明实施例提供的分类器的构建方法及装置、中文文本情感分类方法及***，应用情感极性转变规则对情感器的情感极性进行极性转变，并且依据标注样本利用自学习的方法对待标注样本集中其它待标注样本进行标注，将根据标注样本集的标注样本构建的最大熵分类器作为中文文本情感分类的分类器。本发明提供的分类器的构建方法及装置、中文文本情感分类方法及***，避免了人工标注训练样本浪费的人耗代价，缩短了用于中文文本情感分类的分类器的构建时间，同时，提高了中文文本情感分类的正确率。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明可用于众多通用或专用的计算***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种分类器的构建方法，其特征在于，包括：

利用所述标注样本集中的标注样本构建最大熵分类器。

2.根据权利要求1所述的方法，其特征在于，转变所述待标注样本中符合情感极性转变规则的情感词的情感极性包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性包括：

4.根据权利要求1所述的方法，其特征在于，依据所述标注样本利用自学习的方法对所述待标注样本集中其它待标注样本进行标注，得到标注样本集包括：

利用所述标注样本构建最大熵分类器；

5.一种中文文本情感分类方法，其特征在于，包括：如权利要求1-4中任意一项所述的分类器的构建方法，还包括：

利用构建的最大熵分类器对待分类的中文文本进行分类。

6.一种分类器的构建装置，其特征在于，包括：获取单元、查找单元、极性转变单元、统计单元、确定单元、自学习单元和分类器构建单元；

7.根据权利要求6所述的装置，其特征在于，所述极性转变单元包括：第一极性转变子单元、第二极性转变子单元和/或第三极性转变子单元；

8.根据权利要求6所述的装置，其特征在于，所述确定单元包括：第一确定子单元和第二确定子单元；

9.根据权利要求6所述的装置，其特征在于，所述自学习单元包括：分类器构建子单元、分类子单元和第三确定子单元；

10.一种中文文本情感分类***，其特征在于，包括如权利要求6-9中任意一项所述的分类器的构建装置，还包括：分类单元；