CN108062300A

CN108062300A - 一种基于中文文本进行情感倾向分析的方法及装置

Info

Publication number: CN108062300A
Application number: CN201610981654.6A
Authority: CN
Inventors: 杨希; 杜晓黎; 孙长秋
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2016-11-08
Filing date: 2016-11-08
Publication date: 2018-05-22

Abstract

本发明公开了一种基于中文文本进行情感倾向分析的方法，包括：获取待测的中文本文，对所述中文文本中进行文本预处理得到所述中文文本中的指定文本；根据情感词典对所述指定文本进行情感分析得到第一情感特征值，并根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值；根据所述第一情感特征值和所述第二情感特征值得到特征集合，将所述特征集合作为随机森林RF训练模型的输入特征向量进行情感预测，得到所述中文文本的情感倾向。本发明公开了一种基于中文文本进行情感倾向分析的装置。

Description

一种基于中文文本进行情感倾向分析的方法及装置

技术领域

本发明涉及通信领域，尤其涉及一种基于中文文本进行情感倾向分析的方法及装置。

背景技术

新闻的情感分析判别是新闻舆情预警的最重要组成部分。有效的对新闻的情感倾向进行分析判别，能够更好的向用户预警新闻情报。

常见的情感分析总体上分为两种：机器学习情感分析方法和基于词典的情感分析方法。

对于机器学习情感分析方法，其存在一定的缺陷，主要在于没有很好的扩展性、适应新词能力较差。无论是半监督还是全监督的机器学习方法都需要人工的训练语料对模型进行训练，如果训练语料的覆盖面不全(一般而言，对于层出不穷的新闻来说，无法做到覆盖面全)，那么无法很好的适用于新出现的新闻语料，需要经常性的对模型进行训练与更新。

对于基于词典的情感分析方法，其缺陷来自于词典本身。首先中文没有类似于英文SentiWordNet那样完善而开源的情感词典。其次，中文既可以单字成词，也可以多字成词的特殊性导致建立完善的中文情感词典的难度非常大。所以现有中文情感词典的效果都不是很理想。而在情感词典不准确的基础上想要对新闻进行情感倾向分析显然更加的困难以及不准确。

因此，亟需一种基于中文文本进行情感倾向分析的技术方案，对中文新闻的情感倾向具有高准确率、高延展性的判别能力。

发明内容

有鉴于此，本发明实施例希望提供一种基于中文文本进行情感倾向分析的方法及装置，对中文新闻的情感倾向具有高准确率、高延展性的判别能力。

本发明实施例的技术方案是这样实现的：

一方面，本发明实施例提供一种基于中文文本进行情感倾向分析的方法，所述方法包括：

获取待测的中文本文，对所述中文文本中进行文本预处理得到所述中文文本中的指定文本；

根据情感词典对所述指定文本进行情感分析得到第一情感特征值，并根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值；

根据所述第一情感特征值和所述第二情感特征值得到特征集合，将所述特征集合作为随机森林RF训练模型的输入特征向量进行情感预测，得到所述中文文本的情感倾向。

在上述方案中，所述对所述中文文本中进行文本预处理得到所述中文文本中的指定文本包括：

对所述中文文本中进行文本切分处理得到所述中文文本的每一个分词和标点，并标注每一个分词的词性；

根据词性对所述中文文本的分词进行过滤得到指定分词，并得到由所述指定分词和所述标点构成的所述指定文本；其中，所述指定分词为具有情感属性的分词。

在上述方案中，所述方法还包括：

对于不存在于所述情感词典中第一情感词，分别统计语料库中第二情感词与所述第一情感词同时出现的次数、所述第二情感词出现的次数；其中，第二情感词为与所述第一情感词同时出现次数最多的情感词；

根据所述同时出现的次数和所述第二情感词出现的次数得到权值，根据所述第二情感词的情感分值和所述权值得到所述第一情感词的情感分值，将所述第一情感词和第一情感词对应的情感分值存储在所述情感词典中。

在上述方案中，所述根据情感词典对所述指定文本进行情感分析得到第一情感特征值包括：

根据所述情感词典对所述指定文本中的句子进行情感分析，确定每一个句子的文本内容的情感分数；

对于每一个句子，获取每一个句子的句式和/或标点符号对应的情感权值，根据所述句式和/或标点符号对应的情感权值对所述句式和/或标点符号所属的句子的文本内容的情感分数进行修改后得到所述句子的情感分数；

根据所述句子的情感分数确定所述指定文本的第一情感特征值。

在上述方案中，所述确定每一个句子的文本内容的情感分数包括：

根据所述情感词典确定所述指定文本的每一个情感词对应的情感分值，并获取所述情感词的情感系数，所述情感系数根据所述情感词前面出现的情感副词和/或否定词确定；

根据所述情感词对应的情感分值和所述情感词的情感系数确定所述情感词的情感分数，根据所述情感词的情感分数确定所述指定文本的每一个句子的文本内容的情感分数。

在上述方案中，所述方法还包括：

根据所述情感词典统计所述指定文本的正向情感词的比例、负向情感词的比例和预设标点符号的个数，并得到由所述正向情感词的比例、所述负向情感词的比例和所述预设标点符号的个数组成的第三情感特征向量；

根据所述第一情感特征值、所述第二情感特征值和所述第三情感特征向量得到所述特征集合。

另一方面，本发明实施例还提供一种基于中文文本进行情感倾向分析的装置，所述装置包括：预处理单元、特征值分析单元和融合单元；其中，

所述预处理单元，用于获取待测的中文本文，对所述中文文本中进行文本预处理得到所述中文文本中的指定文本；

所述特征值分析单元，用于根据情感词典对所述指定文本进行情感分析得到第一情感特征值，并根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值；

所述融合单元，用于根据所述第一情感特征值和所述第二情感特征值得到特征集合，将所述特征集合作为随机森林RF训练模型的输入特征向量进行情感预测，得到所述中文文本的情感倾向。

在上述方案中，所述预处理单元对所述中文文本中进行文本预处理得到所述中文文本中的指定文本包括：

在上述方案中，所述装置还包括：词典扩展单元，用于：

在上述方案中，所述特征值分析单元根据情感词典对所述指定文本进行情感分析得到第一情感特征值包括：

在上述方案中，所述特征值分析单元确定每一个句子的文本内容的情感分数包括：

根据所述情感词典确定指定文本的每一个情感词对应的情感分值，并获取所述情感词的情感系数，所述情感系数根据所述情感词前面出现的情感副词和/或否定词确定；

在上述方案中，所述特征值分析单元还用于：

所述融合单元根据所述第一情感特征值、所述第二情感特征值和所述第三情感特征向量得到所述特征集合。

本发明实施例的基于中文文本进行情感倾向分析的方法及装置，获取待测的中文本文，对所述中文文本中进行文本预处理得到所述中文文本中的指定文本；根据情感词典对所述指定文本进行情感分析得到第一情感特征值，并根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值；根据所述第一情感特征值和所述第二情感特征值得到特征集合，将所述特征集合作为随机森林RF训练模型的输入特征向量进行情感预测，得到所述中文文本的情感倾向。如此，分别通过利用情感词典的词典情感分析方法和利用训练模型中的语料特征词典的机器感情分析方法得到待测中文文本中的指定文本的第一情感特征值和的第二情感特征，将第一情感特征值和第二情感特征值组成的特征集合输入到RF训练模型，得到待测中文文本的情感值，对中文新闻的情感倾向具有高准确率、高延展性的判别能力。

附图说明

图1为本发明实施例一提供的基于中文文本进行情感倾向分析的方法的流程示意图；

图2为本发明实施例二提供的基于中文文本进行情感倾向分析的方法的流程示意图；

图3为本发明实施例二提供的词典情感分析算法得到第一情感特征值的流程示意图；

图4为本发明实施例二提供的机器感情分析方法预测第二情感特征值的流程示意图；

图5为本发明实施例二提供的特征值融合的方法的流程示意图；

图6为本发明实施例三提供的一种基于中文文本进行情感倾向分析的方法的流程示意图；

图7为本发明实施例四提供的一种基于中文文本进行情感倾向分析的装置的结构示意图；

图8为本发明实施例四提供的另一种基于中文文本进行情感倾向分析的装置的结构示意图。

具体实施方式

在现有技术中，机器学习方法又可分为有监督和无监督以及半监督三种，有监督方式通常用于分类问题和回归问题，无监督方式通常用于关联规则的学习和聚类问题，半监督方式在分类和回归问题中也有很大应用。常见的情感分析方法中，使用半监督方式较多，常见有贝叶斯和支持向量机(Support Vector Machine，SVM)机器学习方法。基于词典的情感分析方法通俗的讲就是先建立词典，然后根据文本中所含情感词与词典情感词对照进行评分，根据评分结果得出情感倾向。因此，基于词典的情感分析中，情感词典的建立、分词、情感评分对情感分析结果的影响最为重要。

在本发明实施例中，获取待测的中文本文，对所述中文文本中进行文本预处理得到所述中文文本中的指定文本；根据情感词典对所述指定文本进行情感分析得到第一情感特征值，并根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值；根据所述第一情感特征值和所述第二情感特征值得到特征集合，将所述特征集合作为随机森林RF训练模型的输入特征向量进行情感预测，得到所述中文文本的情感值。

下面结合附图对技术方案的实施作进一步的详细描述。

实施例一

本发明实施例一提供一种基于中文文本进行情感倾向分析的方法，如图1所示，所述方法包括：

S101、获取待测的中文本文，对所述中文文本中进行文本预处理得到所述中文文本中的指定文本；

当需要对包括新闻文本等类型的中文文本进行情感分析时，获取待测的中文文本，并对获取的中文文本进行文本预处理得到待测的中文文本中指定文本。

对所述中文文本中进行文本预处理得到所述中文文本中的指定文本包括：对所述中文文本中进行文本切分处理得到所述中文文本的每一个分词和标点，并标注每一个分词的词性；根据词性对所述中文文本的分词进行过滤得到指定分词，并得到由所述指定分词和所述标点构成的所述指定文本；其中，所述指定分词为具有情感属性的分词。这里，文本预处理包括：切分处理和过滤处理。通过检查文本中的换行符，中文标点符号(比如句号，感叹号等)进行分句。对每一个分句进行中文分词标注词性，并根据词性筛选掉一些地名，人名以及一些没有情感属性的名词、副词，只保留具有情感属性的分词，得到包括情感词、情感副词、否定词等具有情感属性的分词和标点的指定文本。

S102、根据情感词典对所述指定文本进行情感分析得到第一情感特征值，并根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值；

当得到指定中文文本后，通过词典情感分析方法对指定中文文本进行分析得到第一情感特征值，并通过机器感情分析方法对指定中文文本进行分析得到第二情感特征值。

这里，在通过词典情感分析方法对指定文本进行分析得到第一情感特征值的过程中，使用的情感词典可为可扩展的情感词典，在可扩展的情感词典中，该情感词典的扩展算法为：对于不存在于所述情感词典中第一情感词，分别统计语料库中第二情感词与所述第一情感词同时出现的次数、所述第二情感词出现的次数；其中，第二情感词为与所述第一情感词同时出现次数最多的情感词；根据所述同时出现的次数和所述第二情感词出现的次数得到权值，根据所述第二情感词的情感分值和所述权值得到所述第一情感词的情感分值，将所述第一情感词和第一情感词对应的情感分值存储在所述情感词典中。这里，对于情感词典中不包括的情感词，通过该扩展算法将该情感词及其对应的情感分值存储在情感词典中，从而得到可灵活扩展的情感词典。

在S102中，所述根据情感词典对所述指定文本进行情感分析得到第一情感特征值包括：根据所述情感词典对所述指定文本中的句子进行情感分析，确定每一个句子的文本内容的情感分数；对于每一个句子，获取每一个句子的句式和/或标点符号对应的情感权值，根据句式和/或标点符号对应的情感权值对所述句式和/或标点符号所属的句子的文本内容的情感分数进行修改后得到所述句子的情感分数；根据所述句子的情感分数确定所述指定文本的第一情感特征值。

其中，所述确定每一个句子的文本内容的情感分数包括：根据所述情感词典确定指定文本的每一个情感词对应的情感分值，并获取所述情感词的情感系数，所述情感系数根据所述情感词前面出现的情感副词和/或否定词确定；根据所述情感词对应的情感分值和所述情感词的情感系数确定所述情感词的情感分数，根据所述情感词的情感分数确定所述指定文本的每一个句子的文本内容的情感分数。

这里，指定文本的情感分数为所有的句子的情感分数之和，情感分数包括正情感分数和负情感分数。第一情感特征值作为情感结果，在确定第一情感特征值时，将所有句子的正情感分数相加，并将所有句子的负情感分数相加，得到包括正情感分数和负情感分数的该指定文本的情感分数，这里，可将能够表征情感结果的正情感分数或负情感分数确定为第一情感特征值时，也可将情感结果记为D1，D1可为：-1，0，1，其中，-1表示负面情感，0表示中性情感，1表示正向情感。

在确定第一情感特征值的过程中，将每一个句子的文本内容的情感分数和该句子的句式对应的情感程度、标点对应的情感程度考虑进去来确定每一个句子的情感分数。各句式和标点对应的情感权值可根据需求进行设置，比如：具有“但”的转折句、因果复句等不具有情感的句式的情感权值设置为0，让步复句等情感减弱的句式的情感权值设置为0-1之间的值，“？”等不具有情感的标点对应的情感权值设置为0，“。”等情感没有变化的标号的情感权值设置为1，“！”等情感增强的标点的情感权值设置为大于1的值。这里，指定文本的每一个句子不仅包括文内正文的内容，还包括文本的标题，将标题也作为文本的句子，在确定指定文本的情感分数时，标题对应的情感分数也是考虑因素。

在确定文本内容的情感分数的过程中，文本中所有情感词对应的情感分数之和为该文本内容的情感分数，其中，在确定情感词的情感分数时，根据指定文本中的情感词的情感分值、以及出现在各情感词之前用于修饰各情感词的情感副词和/或否定词对应的情感系数来得到各情感词在本待测中文文本中的情感分数，其中，当否定词存在多个时，将否定词存在的数量也考虑进去，这里，修饰情感词的情感副词、否定词对应的情感系数根据情感词的修饰词来确定，当修饰词情感副词时，情感系数由情感副词对应的情感权值确定，当包括否定词时，情感系数由否定词对应的情感权值以及否定数量来确定，当修饰词同时宝库情感副词和否定词时，情感系数由情感副词对应的情感权值、否定词对应的情感权值和否定词的数量来确定。情感副词和否定词对应的情感权值可根据需求进行设置。

在S102中，根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值的过程中，所使用的情感分析方法可包括LR算法、SVM算法等机器情感分析方法中的一种或多种，当使用多种时，第二情感特征值为多种分析结果的集合。

S103、根据所述第一情感特征值和所述第二情感特征值得到特征集合，将所述特征集合作为随机森林RF训练模型的输入特征向量进行情感预测，得到所述中文文本的情感倾向。

在S102中得到第一情感特征值和第二情感特征值之后，将第一情感特征值和第二情感特征值组成的特征集合作为输入，利用RF算法对情感值进行预测，获得新闻在正中负三个情感上的概率，得到待测中文文本最终的情感分析结果。

在本发明实施例中，组成特征集合的情感特征值还包括第三情感特征向量，具体的，根据所述情感词典统计所述指定文本的正向情感词的比例、负向情感词的比例和预设标点符号的个数，并得到由所述正向情感词的比例、所述负向情感词的比例和所述预设标点符号的个数组成的第三情感特征向量；根据所述第一情感特征值、所述第二情感特征值和所述第三情感特征向量得到所述特征集合。此时，将包括第一情感特征值、所述第二情感特征值和所述第三情感特征向量的特征集合作为输入得到待测中文文本最终的情感分析结果。

需要说明的是，在本发明实施例中，特征集合的组成除了第一情感特征值、第二请安特征值和第三情感特征向量以外，还可包括其他的任何算法得到的能够表征指定文本的情感倾向的情感特征值。本发明实施例对此不进行任何限定。

通过本发明实施例提供的基于中文文本进行情感倾向分析的方法，融合词典算法与机器学习的方式对中文新闻情感倾向进行判别分析，对两者进行了很好的互补，相对于单一的词典算法具有更好的准确率，相对于单一的机器学习算法具有更好的适应能力，能够融合不同的算法以及特征，具有很好的扩展性。并且在本发明实施例中，当增加新的领域词或者新增情感词时不需要手动添加，能够自动扩展情感词典；在进行待测文本的预处理过程中，为词典模块以及机器学习模块提供有效的输入数据。

实施例二

本发明实施例中以具体的应用为例对本发明实施例提供的基于中文文本进行情感倾向分析的方法进行进一步说明。

这里，首先对本发明实施例使用的情感词典进行说明。具体的，

S1、识别出语料库中的可能情感词，中文中情感词通常为动词或形容词，如“喜欢”“开心的”等。这里，可能情感词为可能是情感词但并未包括在现有的情感词典中的词。

S2、计算可能的但不在现有情感词典中的可能情感词与每个情感词的共现频率，得到topN高的情感词。具体的：要测的可能情感词为A，与可能情感词出现频率最高即topN高的为情感词典中的情感词B，在语料库中统计AB两词共现的次数记为m，同时统计语料库中词B出现的频率记为n，共现率p＝m/n。如果p值越大，说明A、B两词的情感倾向方向越相似。

S3、将共现率p作为权值，计算topN情感词词B的加权情感分数为该可能情感词的情感分值。

将可能情感词和对应的情感分值存储在现有的情感词典中。

如图2所示，基于中文文本进行情感倾向分析的方法包括：

S201、对待测中文文本进行文本预处理；

这里，当待测中文文本为新闻文本时，将新闻文本进行预处理，具体的包括S2011和S2012，通过文本预处理得到有效的包括情感词、情感副词、否定词和标点等具有情感属性的文本。其中，

S2011、词典算法预处理；

通过标点符号对新闻语料进行切分，分别对每一句话进行解析形成规范语料：通过检查文本中的换行符，中文标点符号(比如句号，感叹号等)进行分句。对每一个分句进行中文分词，标注词性。

S2012、机器学习算法预处理：

对已有规范语料剔除一些垃圾词(也即对情感分析没有作用的词语，以减少机器学习算法的特征维度)：在词典算法预处理的基础上，根据词性筛选掉一些地名，人名以及一些没有情感属性的名词、副词，得到指定文本。

S202、词典情感分析算法确定第一情感特征值；

基于词典的计算方法，主要依赖于分句的情感计算。而分句的情感计算涉及到了句式、否定词等等因素。最终待测的中文文本的计算得分为分句的情感值求和。S202中词典情感分析算法确定第一情感特征值的具体计算方法如图3所示，包括：

S301、加载词典。加载情感词典、否定词词典、情感副词词典。

S302、获取预处理后的分句结果，分句主要使用断句标点符号，断句标点符号指“？”“。”“！”“，”“、”“；”“：”等。分句结果存入HashMap0<str1,Map<str2,str3>>中，其中str1表示段落编号，str2表示段落中句子编号，str3为句子(带标点)。文本分词。选用分词算法对文本分词。

S303、新闻内容处理；这里，首先对待测新闻文本的新闻内容进行处理；

S304、是否有分句未处理？

在处理过程中，判断是否由存在未处理的新闻内容的分句，如果是，执行S305，否则执行S312。这里，可在每处理一个分句判断一次是否有未处理的分句，也可同意将新闻内容的所有分句处理完后，再进一步确认是否有分句未处理，以保证所有内容均进行处理。

S305、分句处理；

在S301、S302之后形成HashMap1<str1,Map<str2,Map<str3,str4>>>格式的数据；其中，str1表示段落编号，str2表示段落中句子编号，str3为词在句子中的起始位置，str4为对应的词。

S306、情感词标记。构建HashMap2<str1,Map<str2,Map<str3,str4>>>用来存储情感词得分结果；其中，str1表示段落编号，str2表示段落中句子编号，str3为词在句子中的起始位置，str4为对应的词的情感分值，初始化为“0”。扫描hashMap1数组，在hashMap2中标出相应的情感词分值。

S307、是否有副词和否定词？当是时，执行S308，考虑情感副词与否定词位置；当否时执行S309。

S308、否定词与情感副词处理；

扫描hashMap1，如果情感词前面两个词分别为否定词和副词则按以下方式处理：a若为否定词+增强型副词+情感词＝情感正向减弱，将情感乘以一个情感系数，其中，情感系数为(0,1)之间的定值，也就是情感打折；b若为否定词+减弱型副词+情感词＝不确定情感方向，则对应的情感系数为0，该情感词的情感分数归0；c若为增强型副词+否定词+情感词＝情感逆向加强，情感分数乘以一个>1的情感系数；减弱型副词+否定词+情感词＝情感逆向减弱，将情感乘以一个(0,1)之间的定值。处理后的情感分数存入hashMap2中该情感词情感分数中。

否定词个数考虑。扫描hashMap1，如果情感词前边连续n个词中只有否定词，则该词最终的情感为：情感词分值乘以(-1)的n次方。处理后的情感分数存入hashMap2中该情感词情感分数中。

情感副词考虑。扫描hashMap1，如果情感词前边只有情感副词，则将该情感词的情感分值乘以情感副词的情感度，得到一个新的情感分数，存入hashMap2中相应情感词情感分数中。

S309、考虑标点符号；

遍历hashMap0，(以“。”“？”“！”作为一句话结束的标志)，遇到结束标点时按如下方式处理该句情感：若句子以“？”结束，则认为该句感情为0，若为“。”感情不变，若为“！”则将该句子(有可能是半句话，这里的句子指前一个标点(无论何种断句标点)到“！”之间的部分)情感乘以一个>1的定值。修改hashMap3中该句对应的情感分数。

S310、考虑句式；

遍历hashMap0，如果含有“但”等转折词，则将转折词前的句子情感归0。如果为因果复句，则将原因句中的情感归0。如果为让步复句，则将本句情感乘以一个(0,1)之间的定值，也就是情感打折。修改hashMap3中该句对应的情感值。到这步已经得出每个短句(或情感词)的情感分数。

S311、按照短句统计句子情感。

构建HashMap3<str1,HashMap<str2,str3>>，其中str1表示段落编号、str2为句子编号，str3为该句子对应的情感分数，表示为：正面情感分值均值##负面情感分值均值，如果没有正(负)面情感，取值为0。情感均值计算：正(负)情感均值＝正(负)情感词分值总和/正(负)情感词个数。

当统计完一个句子的句子情感后，执行S304判断是否有分句未处理。当所有的分句处理完后，执行S312。

S312、归一化分句情感值统计情感；

具体的包括：

情感分数求和，情感数统计：将所有的正情感分数求和(负情感分数求和)，并分别统计正负情感句子数。求内容情感均值：文本正(负)面情感分数＝文本正(负)面情感总分/正(负)情感句子数。归一化处理：由于文章中所含的正负情感词个数不同，简单的均值会将情感词个数对文章情感的影响消除，因此需要对情感进行归一化处理，所谓归一化是指：统计文章中正面情感词出现的个数和负面情感词出现的个数，正(负)面情感词*(正(负)面情感词个数/总共的情感词个数)所得分值即为最终的文章内容情感得分。

第S305至S312完成了文章正文内容的情感得分。

S313、是否有标题；

这里，判断该新闻文本是否存在标题，当存在时执行S314，否则，执行S316；

S314、标题分词情感值统计；

具体的，对文章标题分词，结果存入hashMap4<str1,str2>，其中str1表示词在标题中的起始位置，str2表示词。类似文本情感求分，对标题分词结果进行以上(5)至(9)步，将最终结果记为：正面情感分数##负面情感分数

S315、标题标点符号考虑。如果标题结尾含有“！”，则将标题情感乘以一个>1的定值；如果标题含有“？”，则将标题情感取反。标题情感归一化处理。

S314-S315步完成了文章标题的情感得分。

S316、对新闻内容情感值与新闻标题情感值加权求和；

给标题情感赋一个>1的权值，将加权的标题情感分数与文章正文情感分数按正负分别相加得到最终的文章情感得分。返回情感结果，记为D1(-1，0，1分别表示负面情感，中性情感以及正向情感)，这里，该情感结果D1即为第一情感特征值。

S203、统计处理确定第三情感特征向量；

具体的，包括：

(1)、加载情感词典。

(2)、获取分句后的分词数据。

(3)、统计正向情感词的比例(正向情感词/新闻分词后的所有单词数)记为S1；

(4)、统计负向情感词的比例(负面情感词/新闻分词后的所有单词数)记为S2；

(5)、统计感叹号以及省略号的个数，该特征记为S3。

这里，由S1、S2、S3组成的向量即为第三情感特征向量。

S204、机器学习算法确定第二情感特征值；

基于机器学习的情感值计算方法主要依赖于训练模型中对特征词的情感划分。对于机器学习方法来说，不同的特征词表示不同的维度，而情感的划分则是对多维度空间的划分。机器学习方法与词典情感计算方法不同的地方在于，机器学习方法需要训练模型，以下是获取训练模型以及预测情感结果的流程，具体的：

S2041、获取训练模型

(1)、获取训练语料库(可以是人工标注，也可以是现有情感分类的语料库)；

(2)、对语料进行文本预处理；

(3)、获取经过文本预处理后的单词集合，作为机器学习算法的语料特征词典，长度为K；

(4)、将语料库中的每一篇新闻文本转换为K维度的稀疏向量。

(5)、利用逻辑回归算法(SVM算法同样如此)对有标注的语料进行训练，得到训练模型。

S2042、预测新闻情感

如图4所示，S2042具体包括：

S401、导入算法模型；加载训练模型，加载训练模型中获取到的语料特征词典。

S402、获取预处理后的分词结果；

S403、利用词典将新闻分词结果转换为相关索引；

S404、利用词典索引构建稀疏向量；

S402-S404中，获取文本预处理后的特征词，利用已有的语料特征词典将特征词转换为K维度的稀疏向量来表示新闻文本。

S405、在模型中输入稀疏向量；

S406、根据模型获取分类结果；

S405-S406中，利用训练模型对K维度的特征向量进行情感预测，获取在正中负情感维度上的概率特征即第二情感特征值。比如：[0.25，0.25，0.5]表示负面情感概率为25％，中性情感概率为25％，正向情感概率为50％)。其中，LR算法计算结果记为特征(LR1，LR2，LR3)分别表示在不同情感上的分类概率。而SVM算法的分类结果记为特征(SVM1，SVM2，SVM3)。

S205、情感特征值的融合。

各种不同的特征值的融合主要使用的随机森林RF算法。随机森林算法能够处理很高维度(feature很多)的数据，并且不用做特征选择。具体包括模型训练和模型预测两个步骤：

S2051、模型训练；

这里，模型训练可通过训练语料库进行，具体的：

(1)、获取将预处理后的新闻通过词典算法进行预测得到的情感特征D1

(2)、获取将预处理后的新闻通过统计方法获得的情感特征S1,S2,S3

(3)、获取将预处理后的新闻通过LR方法得到的情感特征LR1,LR2,LR3

(4)、获取将预处理后的新闻通过SVM方法得到的情感特征SVM1，SVM2,SVM3

(5)、如果还有其他情感特征，比如：O1，…,OM可以作为额外特征

(6)、将特征集合(D1，S1，S2，S3，LR1，LR2，LR3，SVM1，SVM2，SVM3，O1，…，OM)作为输入特征向量进行训练，对训练语料中每一篇新闻都进行如此训练得到RF模型。

S2052、模型预测；

模型预测用于预测新闻情感；具体的，如图5所示，包括：

S501、导入RF模型；这里，RF模型为S2051中训练后得到的RF模型；

S502、获取词典算法情感倾向结果D1；

获取S202中预处理后的新闻通过词典算法进行预测得到第一特征值D1；

S503、获取词性与符号统计结果(S1，S2，S3)；

获取S203中预处理后的新闻通过统计方法获得第三特征值S1，S2，S3；

S504、获取LR算法情感分类结果(LR1，LR2，LR3)；

获取S204中将预处理后的新闻通过LR方法得到第二特征值LR1，LR2,，LR3；

S505、获取SVM算法情感分类结果(SVM1，SVM2，SVM3)；

获取S204中将预处理后的新闻通过SVM方法得到第二特征值SVM1，SVM 2，SVM3；

S506、获取其他方法特征结果(O1，…，OM)；

如果还有其他特征可以作为额外特征值O1，…,OM

S507、将所有特征整合为向量作为输入，获取在各个情感倾向上的概率；

将特征集合(D1，S1，S2，S3，LR1，LR2，LR3，SVM1，SVM2，SVM3，O1，…，OM)作为输入特征向量进行预测，得到最终的情感值结果。

实施例三

在本实施例中，结合图6对本发明实施例提供的基于中文文本进行情感倾向分析的方法进行说明。如图6所示，包括：

S601、新闻预处理；对新闻进行预处理，获得分句sentence；并对每一个分句进行分词，获得单词及其词性。

S602、词典算法；利用词典算法对分句后的单词进行处理获得词典特征D1。

S603、词性统计特征；利用统计方法对已有分词结果进行统计获得统计特征S1，S2，S3。

S604、逻辑回归算法；利用LR算法分词结果转换成的词向量进行预测获得LR1，LR2，LR3。

S605、支持向量机算法；利用SVM算法对分词结果转换成的词向量进行预测获得SVM1，SVM2，SVM3。

S606、其他；可使用其他的机器学习的情感分析方法来得到其他的情感特征值。

S607、利用以上算法得到的所有特征作为输入，利用RF算法对情感值进行预测，获得新闻在正中负三个情感上的概率，得到最终情感分析结果，即确定待测新闻的情感倾向。

如图3所示，本发明实施例提供的基于中文文本进行情感倾向分析的方法，在对新闻预处理后，经过了以下过程的处理实现了待测中文文本的情感分析：第一层的特征值获取和第二层的特征融合。其中，在第一层S602和S603对应的特征值获取的方法为基于情感词典实现的；S604、S605和S606对应的特征值获取的方法为基于机器学习实现的，本发明实施例提供的基于中文文本进行情感倾向分析的方法有效融合了基于情感词典和基于机器学习的两种情感分析方法，对两者进行了很好的互补，能够对中文新闻的情感倾向具有高准确率、高延展性的判别能力。

实施例四

为实现上述方法，本发明实施例提供一种基于中文文本进行情感倾向分析的装置，如图7所示，所述装置包括：预处理单元701、特征值分析单元702和融合单元703；其中，

预处理单元701，用于获取待测的中文本文，对所述中文文本中进行文本预处理得到所述中文文本中的指定文本；

特征值分析单元702，用于根据情感词典对所述指定文本进行情感分析得到第一情感特征值，并根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值；

融合单元703，用于根据所述第一情感特征值和所述第二情感特征值得到特征集合，将所述特征集合作为随机森林RF训练模型的输入特征向量进行情感预测，得到所述中文文本的情感倾向。

其中，预处理单元701对所述中文文本中进行文本预处理得到所述中文文本中的指定文本包括：对所述中文文本中进行文本切分处理得到所述中文文本的每一个分词和标点，并标注每一个分词的词性；根据词性对所述中文文本的分词进行过滤得到指定分词，并得到由所述指定分词和所述标点构成的所述指定文本；其中，所述指定分词为具有情感属性的分词。

如图8所示，所述装置还包括：词典扩展单元704，用于：对于不存在于所述情感词典中第一情感词，分别统计语料库中第二情感词与所述第一情感词同时出现的次数、所述第二情感词出现的次数；其中，第二情感词为与所述第一情感词同时出现次数最多的情感词；根据所述同时出现的次数和所述第二情感词出现的次数得到权值，根据所述第二情感词的情感分值和所述权值得到所述第一情感词的情感分值，将所述第一情感词和第一情感词对应的情感分值存储在所述情感词典中。

特征值分析单元702根据情感词典对所述指定文本进行情感分析得到第一情感特征值包括：

根据所述情感词典对所述指定文本中的句子进行情感分析，确定每一个句子的文本内容的情感分数；对于每一个句子，获取每一个句子的句式和/或标点符号对应的情感权值，根据所述句式和/或标点符号对应的情感权值对所述句式和/或标点符号所属的句子的文本内容的情感分数进行修改后得到所述句子的情感分数；根据所述句子的情感分数确定所述指定文本的第一情感特征值。

特征值分析单元702确定每一个句子的文本内容的情感分数包括：

根据所述情感词典确定指定文本的每一个情感词对应的情感分值，并获取所述情感词的情感系数，所述情感系数根据所述情感词前面出现的情感副词和/或否定词确定；根据所述情感词对应的情感分值和所述情感词的情感系数确定所述情感词的情感分数，根据所述情感词的情感分数确定所述指定文本的每一个句子的文本内容的情感分数。

特征值分析单元702还用于：根据所述情感词典统计所述指定文本的正向情感词的比例、负向情感词的比例和预设标点符号的个数，并得到由所述正向情感词的比例、所述负向情感词的比例和所述预设标点符号的个数组成的第三情感特征向量；相应地，融合单元703根据所述第一情感特征值、所述第二情感特征值和所述第三情感特征向量得到所述特征集合。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种基于中文文本进行情感倾向分析的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述中文文本中进行文本预处理得到所述中文文本中的指定文本包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1或3所述的方法，其特征在于，所述根据情感词典对所述指定文本进行情感分析得到第一情感特征值包括：

5.根据权利要求4所述的方法，其特征在于，所述确定每一个句子的文本内容的情感分数包括：

6.根据权利要求1或3所述的方法，其特征在于，所述方法还包括：

7.一种基于中文文本进行情感倾向分析的装置，其特征在于，所述装置包括：预处理单元、特征值分析单元和融合单元；其中，

8.根据权利要求7所述的装置，其特征在于，所述预处理单元对所述中文文本中进行文本预处理得到所述中文文本中的指定文本包括：

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：词典扩展单元，用于：

10.根据权利要求7或9所述的装置，其特征在于，所述特征值分析单元根据情感词典对所述指定文本进行情感分析得到第一情感特征值包括：

11.根据权利要求10所述的装置，其特征在于，所述特征值分析单元确定每一个句子的文本内容的情感分数包括：

12.根据权利要求7或9所述的装置，其特征在于，所述特征值分析单元还用于：