CN104731770A

CN104731770A - 基于规则和统计模型的中文微博情感分析方法

Info

Publication number: CN104731770A
Application number: CN201510127310.4A
Authority: CN
Inventors: 黄刘生; 汪琦; 陆潇榕; 刘相言; 戚名钰; 孙嘉堃; 杨威
Original assignee: Suzhou Institute for Advanced Study USTC
Current assignee: Suzhou Institute for Advanced Study USTC
Priority date: 2015-03-23
Filing date: 2015-03-23
Publication date: 2015-06-24

Abstract

本发明公开了一种基于规则和统计模型的中文微博情感分析方法，利用规则挖掘和统计模型，对中文微博进行情感分析，并通过基于中文微博文本对微博进行情感分类的方法，将微博文本分类为正面情感、负面情感和中性情感，进一步将微博划分为喜好、愤怒、悲伤、恐惧、厌恶、惊讶和平静七类情感。通过情感划分，可以直观的显示出微博文本的情感倾向，而对微博文本情感倾向的研究可以延伸到各领域，具有广泛的应用前景。

Description

基于规则和统计模型的中文微博情感分析方法

技术领域

本发明涉及中文文本情感分析领域，特别是涉及一种基于规则和统计模型的中文微博情感分析方法。

背景技术

随着信息技术的不断发展，互联网的普及利用，各种终端设备记录了人类社会复杂频繁的信息行为，从而产生了惊人的数据量。据国际数据公司(IDC)的研究报告预测，到2020 年，全球将拥有35ZB(1ZB=10 亿TB)的数据量。微博作为近年来最热门的新型社交媒体和信息交流平台，亦贡献了海量的数据。仅就新浪微博来说，其数据中心发布的2014年用户发展报告显示，截止2014年9月30日，新浪微博月活跃用户数（MAU）已经达到1.67亿人，较去年同期增长36%，日活跃用户也已达到7660万人。每秒钟数以千计的新微博发布数量，是人们交流想法，表达情感的一种重要体现。用户通过微博发布的信息中包含着不同趋向的情感特征，深度分析这些特征对于舆情监控、市场营销、谣言控制都有着重要意义。

由于微博的内容极其简洁，一般控制在140个中文字符内，所以表达的信息有限。用户也可以随时发布微博，发布的内容也是各种各样，用户可以抒发当时的情绪，也可以对某热点话题表达自己的观点，亦可发表对影视作品的评论等等，所以，将微博进行情感分类就显得尤为必要。由于微博文本较短，同时伴有话题、表情符号等等，因此需要用特殊的方式进行分类。

发明内容

本发明主要解决的技术问题是提供一种基于规则和统计模型的中文微博情感分析方法，将微博文本分类为正面情感、负面情感和中性情感，而对微博的情感分析并不止于此，通过对微博文本的深入分析，进一步将微博划分为喜好、愤怒、悲伤、恐惧、厌恶、惊讶和平静七类情感。通过情感的进一步划分，可以直观的显示出微博文本的情感倾向，而对微博文本情感倾向的研究可以延伸到各领域，具有广泛的应用前景。

为解决上述技术问题，本发明采用的一个技术方案是：

提供一种基于规则和统计模型的中文微博情感分析方法，其包括：

步骤一：文本预处理及观点句识别，即针对每个句子，首先判断出该条句子观点句还是非观点句；

步骤二：情感极性分析，即在情感词典的基础上，对观点句进行分词处理，从而抽取词语特征，构建SVM模型，对观点句进行情感极性分类；

步骤三：情感划分，即在情感极性判断基础上，将观点句进行具体的情感划分。

在本发明一个较佳实施例中，所述情感极性包括正面情感（Pos），负面情感（Neg）和中性情感（NEUTRAL）。

在本发明一个较佳实施例中，所述文本预处理及观点句识别的具体步骤包括：

预处理：

（1.1）对微博语料进行预处理，删除无意义微博，所述无意义微博包括垃圾微博文本和广告营销微博文本；

（1.2）删除微博中的话题标签，即去除“#”和其间的文字内容，得到预处理语料；

（1.3）创建主观词词典，并标注主观词的词性；

观点句判断：

（2.1）对预处理语料进行分词并标注词性，进行句子分词和特征提取，构建特征分类模型；

（2.2）将分词语句与主观词词典进行匹配，并判断主观词是否为动词词性；

（2.3）如果主观词为动词词性，则在分词语句的前后找代词和情感词；

（2.4）在分词语句中寻找名词或名词短语，如果出现名词或名词短语，则判定该分词语句为观点句；

（2.5）如果没有出现名词或名词短语，并且满足步骤（2.3）和步骤（2.4）的要求，则直接判定该分词语句为非观点句。

在本发明一个较佳实施例中，所述情感极性分析的具体步骤包括：

创建或引用对照词典，并对对照词典中的词语进行情感极性标注；

创建网络用语词典和表情符号词典，并对词典中的词语进行情感极性标注；

对观点句进行分词，获得极性分词；

采用十折交叉验证法，将极性分词投入特征分类模型中进行训练，得到极性分词的情感极性，其中，60%的极性分词用来作训练集，40%的极性分词作测试集；

根据极性分词的情感极性，得到观点句的情感极性。

在本发明一个较佳实施例中，所述情感极性标注包括正面评价词语、负面评价词语、负面情感词语、正面情感词语、程度级别词语以及主张词语。

在本发明一个较佳实施例中，所述情感划分的具体步骤包括：

创建和收集语料库，所述语料库包括教材、科学杂志、期刊、报纸，童话故事和文学名著；

对语料进行情感标注，创建语料库的标注体系，即对每一个待标注的语料进行情感信息的填充和集合；

将微博语料逐句切割成分类句，并将分类句放入语句解析器中，语句解析器将会对句子的情感复杂程度进行分类；

提取分类好的分类句的语义特征，并对语义特征进行解析；

将解析结果传到条件随机场CRFs，利用语料库计算微博语料中每个分类句表示的情感色彩，得到文章的情感链；

对情感链进行分析评估；

根据情感链的分析评估结果和观点句的情感极性，得出最终情感划分。

在本发明一个较佳实施例中，所述对情感链进行分析评估的具体步骤包括：采用多句互相影响联合评估法对语料进行情感划分；采用共现的多元情感在语料标注中匹配的准确率来衡量情感标注的连贯性。

在本发明一个较佳实施例中，所述采用多句互相影响联合评估法对语料进行情感划分的具体步骤包括：对每个分类句进行情感评估；判断分类句之间的情感联系，即上下文的联系以及语法语义之间的联系；在表达情感及句意相似或相同的基础上进行多句互相影响联合评估。

本发明的有益效果是：对中文微博进行情感分析，利用中文微博文本对微博进行情感分类的方法，可以直观的显示出微博文本的情感倾向，而对微博文本情感倾向的研究可以延伸到各领域，具有广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1是本发明的步骤文本预处理及观点句识别的流程示意图；

图2是本发明的步骤情感极性分析的流程示意图；

图3是本发明的步骤情感划分的流程示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-3，本发明实施例包括：

一种基于规则和统计模型的中文微博情感分析方法，步骤包括：

一、语料预处理及观点句识别

将微博语料进行预处理，删除垃圾微博和广告营销微博文本等无意义微博，具体可以参考贝叶斯垃圾邮件过滤算法，本发明中所用到的垃圾微博过滤方法是在贝叶斯垃圾邮件过滤算法基础上的设计，主要做法是构建无意义微博词语词库，设置门槛值为0.9,当概率大于等于0.9时判断出这是一条无意义微博。

删除微博中的话题标签，即去除“#”和其间的文字内容。

然后进行语料分词和词性标注，进行特征提取，构建分类模型，判断是否为观点句。

观点句判断算法如下：

步骤一：将词语与主观词语词典进行匹配，并判断该词词性是否为动词。

步骤二：在主观词(动词词性)的前后找代词和情感词。

步骤三：在句子中寻找名词或名词短语，如果出现则不过滤。如果没有出现，并且满足第一二两条则直接判定为非观点句。

二、情感极性分析

此步骤的关键是需要一个完整且正确的对照词典，本发明采用知网中文词库（HowNet）作为对照词典，有3730 个表示正面评价的词语、3116 个表示负面评价的词语、1254 个表示负面情感的词语、836 个表示正面情感的词语、 219个表示程度级别的词语以及 38 个表示主张的词语，具体词语例子见表1。

表1 HowNet词库词语示例

由于微博中流行着大量的网络用语，所以总结来源于百度的网络用语，补充了网络用语词典，同时，表情符号作为微博上最直接能够表达用户情感的特色符号，也作为了情感极性分析的一部分，所以本发明也构建了表情符号词典。

通常情感词的极性被定量地表示为一个在区间[-1, 1]中的值。如果极性值大于 0，说明词语的情感极性为正面（褒义）；如果极性值小于 0，说明词语的情感极性为负面（贬义）。极性值的绝对值代表情感词的情感强度。

情感极性分析具体操作步骤如下：

步骤一：对微博语料进行预处理。

步骤二：识别观点句。

步骤三：对观点句进行分词。

步骤四：将数据投入 SVM 向量机中进行训练。训练测试采用十折交叉验证，60%用来作训练集，40%作测试集。

三、情感划分

首先进行语料库收集，语料库收集必须坚持范围广，题材丰富，科学合理的原则，本发明所采用的语料库包括中学语文教材，科学杂志、期刊，***，童话故事和文学名著。

然后，进行语料标注，语料库的标注体系就是指对语料的加工程度，即一个待标注的单元需要填充的信息集合。标注体系决定了语料标注的粒度。语料力度要粗细得当，避免粒度过粗和划分过细的情况出现。

最后，对情感进行划分，采用多句互相影响联合评估法进行情感划分，此方法的灵感来源于BLEU评测方法，采用共现的多元情感在标准标注中匹配的准确率来衡量情感标注的连贯性。

具体实施案例

下面对本发明做进一步的详细说明，使本领域的研究人员更好的理解和实施本发明的方案方法。

（1）整理HowNet词典，构建表情符词典和网络用语词典。综合以上词典，构建完整词典库，用与情感极性分析。同时需要单独构建主观词语词典和否定词词典，主观词语词典包含常用的可表示主观意愿及想法的动词，如：喜欢、愿意、肯定、期望、可以、相信、感到等62个词语，用于观点句识别。否定词词典主要包括现实生活中常用的否定词，如：不打头的词语不可以、不能、不想等，没打头的词语没有、没能等，否打头的词语如否定等，以及含有非、无的词语总计46个词语。

（2）对微博语料进行观点句识别，去除非观点句，进行数据预处理。

（3）对提取的观点句分词处理，从而进行特征选取，并对非情感极性相关句子进行过滤。

（4）计算情感词权重，构建情感极性分类器。

计算情感词权重公式如公式1-1所示：

公式1-1

其中表示情感词的情感值，表示程度副词的作用系数，表示否定副词的作用系数，表示情感词的权重, 表示表情符号的权重。

公式1-2

公式1-2中，C计算出包含n个词语情感值的微博文本情感值，当C的值大于0时表示该条微博表达正面情感，等于0为中性情感，小于0则为负面情感。

本发明所采用的数据来源于新浪微博，共80168条关于12个话题的微博文本信息，12个话题分别是小米，韩剧，雾霾，房价，转基因，林书豪，跑男，陈赫，恒大，纸牌屋，一步之遥以及新年红包。

常用的评价指标，即正确率(Precision)，召回率(Recall)以及综合评价指标（F-Measure）。正确率指的是在测试集中与人工标注结果相同的微博文本占所有测试集中微博文本的百分比，召回率是指测试集中与人工标注结果相同的微博文本占测试集中所有被人工判定为该类的文本的比例，即被正确预测的文本与所有属于该类文本的数量比。

情感极性分析结果，见表2。

表2 情感极性分析实验结果

（5）完成了情感极性分析，需要进一步进行情感划分，首先进行情感语料库建设，语料库建设是一个复杂且繁琐的过程。标注的粒度有词汇、语句两个等级，语料库完全可以应用于中文微博的情感分析，同时，两个等级的设计也为它的进一步更新和维护提供了基础。目前已标注完成的语料有821306个字词，27318个句子。

将待处理语料放入语句解析器中，语句解析器将会对句子的情感复杂程度进行分类，从而进一步提炼出语义特征，解析完成后，会将结果传到CRFs，计算文章中每个语句所表示的情感色彩，得到文章的情感链，对情感链进行分析评估，得出最终情感划分。

由于采用多句互相影响联合评估法对语句进行情感评估，具体做法是先将每个句子进行情感评估，同时关注句子之间的情感联系，即上下文的联系以及语法语义之间的联系，在表达情感及句意相似或相同的基础上进行多句互相影响联合评估。

公式1-3

公式1-3中表示n个连续句子的情感标注准确率，函数f(k,n)表示在微博文本中从k开始取n个标注的情感句与正确情感标注匹配，如果全相等则为1，否则为0。i表示第i个微博文本，表示第i个微博文本的句子总数。

同样要注意的是，否定词的使用也会导致情感转移，研究数据表明，当有否定词修饰时，“喜好”通常会转移为“厌恶”，而“愤怒”、“悲伤”、“惊讶”、“恐惧”有较大概率会转移为“无情感”。与此同时，根据中文文法的输入习惯，转折词的出现多意味着是对其后出现内容的强调，如“但是”、“然而”后常跟表达情感的语句，深入分析这些重点语句，会增加整段微博文本情感划分的准确率，所以在构建模型时，要将以上两点纳入考虑。

由于情感极性分析和情感划分采取两种不同的模型构造方法，同时，情感极性分析已经将微博文本分类成为三类情感极性的一种，而情感极性与七种情感划分有着一定程度的联系，如喜好属于正面情感，愤怒、厌恶都属于负面情感，而平静则属于中性情感，综合两种评价体系，互作修正因子，可以更好的得出实验结果。

对微博六种情感划分的评价标准主要集中在准确率上，下面给出准确率的计算公式。

公式1-4

为比较本发明的技术优势，现设立对比方案，为使用情感词典进行关键字匹配的方法，通过情感词词频计算句子情感，将此种方案命名为Smatch方法。

两种方法的实验结果对比如表3所示。

表3 实验结果比较

通过上述分析可见，本发明对中文微博的情感有良好的分析效果，采用本发明后，可以更加直观的分析出中文微博文本所表达的情感倾向。因此，本发明特别适合对大数据体系下的舆情分析、情感统计等领域。由此可见，本发明具有实质性技术特点和显著的技术进步，其应用前景非常广阔。

本发明基于规则和统计模型的中文微博情感分析方法的有益效果是：

（1）通过对微博文本、表情符号以及标点符号的分析，迅速地判断出情感倾向。

（2）基于规则的情感计算和基于统计模型的情感分类两个角度对微博文本展开情感分析，具有较强的可实施性。

（3）方法简便，可扩展性高，可用于多领域研究，如舆情分析、市场营销、谣言控制等方面。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于规则和统计模型的中文微博情感分析方法，其特征在于，包括：

步骤二：情感极性分析，即在情感词典的基础上，对观点句进行分词处理，并抽取特征，构建SVM模型，对观点句进行情感极性分类；

2.根据权利要求1所述的基于规则和统计模型的中文微博情感分析方法，其特征在于，所述情感极性包括正面情感（Pos），负面情感（Neg）和中性情感（NEUTRAL）。

3.根据权利要求1所述的基于规则和统计模型的中文微博情感分析方法，其特征在于，所述文本预处理及观点句识别的具体步骤包括：

预处理：

（1.3）创建主观词词典，并标注主观词的词性；

观点句判断：

4.根据权利要求3所述的基于规则和统计模型的中文微博情感分析方法，其特征在于，所述情感极性分类的具体步骤包括：

对观点句进行分词，获得极性分词；

根据极性分词的情感极性，得到观点句的情感极性。

5.根据权利要求4所述的基于规则和统计模型的中文微博情感分析方法，其特征在于，所述情感极性标注包括正面评价词语、负面评价词语、负面情感词语、正面情感词语、程度级别词语以及主张词语。

6.根据权利要求4所述的基于规则和统计模型的中文微博情感分析方法，其特征在于，所述情感划分的具体实施步骤包括：

将微博语料逐句切割成短句，并将短句放入语句解析器中，语句解析器将会对句子的情感复杂程度进行分类；

提取分类好的分类句的语义特征，并对语义特征进行解析；

对情感链进行分析评估；

7.根据权利要求6所述的基于规则和统计模型的中文微博情感分析方法，其特征在于，所述对情感链进行分析评估的具体步骤包括：

采用多句互相影响联合评估法对语料进行情感划分；

采用共现的多元情感在语料标注中匹配的准确率来衡量情感标注的连贯性。

8.根据权利要求7所述的基于规则和统计模型的中文微博情感分析方法，其特征在于，所述采用多句互相影响联合评估法对语料进行情感划分的具体步骤包括：

对每个分类句进行情感评估；

判断分类句之间的情感联系，即上下文的联系以及语法语义之间的联系；

在表达情感及句意相似或相同的基础上进行多句互相影响联合评估。