CN103970864B

CN103970864B - 基于微博文本的情绪分类和情绪成分分析方法及***

Info

Publication number: CN103970864B
Application number: CN201410193638.1A
Authority: CN
Inventors: 徐华; 杨炜炜; 王玮
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2014-05-08
Filing date: 2014-05-08
Publication date: 2017-09-22
Anticipated expiration: 2034-05-08
Also published as: CN103970864A

Abstract

本发明公开了一种基于微博文本的情绪分类和情绪成分分析方法，包括以下步骤：从互联网上获取多条用户发布的微博文本；对多条微博文本进行分词，以根据每个词的词性得到多个词；从多个词中提取多个特征词；根据多个特征词训练情绪分类体系中每个节点的分类器，以构建情绪分类体系，并通过情绪分类体系实现情绪分类；根据分类结果对微博文本情绪成分进行分析。本发明实施例的方法，通过提取多个特征词构建情绪分类体系，实现情绪分类，并根据分类结果对微博文本情绪成分进行分析，不但节省了时间，提高了分类速度和分类效果，还能快速分析情绪成分，更好地满足用户的使用需求。本发明还公开了一种基于微博文本的情绪分类和情绪成分分析***。

Description

基于微博文本的情绪分类和情绪成分分析方法及***

技术领域

本发明涉及计算机应用与互联网技术领域，特别涉及一种基于微博文本的情绪分类和情绪成分分析方法及***。

背景技术

随着网络与Web2.0的不断发展，微博已经成为了人们日常生活中不可或缺的获得信息和发布信息的重要渠道。在微博上，用户可以记录自己的生活，也可以对当下热点发表自己的看法，表达自己的意见，而这一类微博往往含有发布者的情绪。因此，通过对用户发布的微博文本进行分析，从而推断出用户的情绪，以实现从微博上挖掘单个用户和所有用户对于某些热点事件的情绪状况，以为今后的决策提供数据支持。然而，以新浪微博为例，新浪微博共有约5亿注册用户，每天有超过2亿条新微博被发布，如果这些微博全由人工处理，则非常得费时费力，浪费时间资源，不能很好地满足用户的使用需求。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种不但能节省时间，提高分类速度和分类效果，还能快速分析情绪成分的基于微博文本的情绪分类和情绪成分分析方法。

本发明的另一个目的在于提出一种基于微博文本的情绪分类和情绪成分分析***。

为达到上述目的，本发明一方面实施例提出了一种基于微博文本的情绪分类和情绪成分分析方法，包括以下步骤：从互联网上获取多条用户发布的微博文本；对所述多条微博文本进行分词，以根据每个词的词性得到多个词；从所述多个词中提取多个特征词；根据所述多个特征词训练情绪分类体系中每个节点的分类器，以构建所述情绪分类体系，并通过所述情绪分类体系实现情绪分类；以及根据分类结果对微博文本情绪成分进行分析。

根据本发明实施例的基于微博文本的情绪分类和情绪成分分析方法，通过对微博文本进行分词得到多个词，并从多个词中提取多个特征词，以根据多个特征词训练情绪分类体系中每个节点的分类器，完成构建情绪分类体系，且通过情绪分类体系实现情绪分类，并根据分类结果快速对微博文本情绪成分进行分析，检测文本中最主要的情绪，不但节省时间，提高了分类速度，还提升了分类效果，更好地满足用户的使用需求。

另外，根据本发明上述实施例的基于微博文本的情绪分类和情绪成分分析方法还可以具有如下附加的技术特征：

在本发明的一个实施例中，从所述多个词中提取所述多个特征词，具体包括：判断每个词是否为高频词；如果判断词为所述高频词，则计算所述词的相关度；以及如果判断所述词为低频词，则计算所述词的PMI值。

进一步地，在本发明的一个实施例中，根据以下公式计算所述词的相关度：

其中，t为计算的词，c为类别，N为文档数，A表示文档属于类别c不包含词t，B表示所述文档不属于所述类别c包含所述词t，C表示所述文档属于所述类别c不包含所述词t，D表示所述文档不属于所述类别c不包含所述词t。

进一步地，在本发明的一个实施例中，根据以下公式计算所述词的PMI(PointwiseMutual Information，点互式信息)值：

其中，p(t，c)表示所述文档包含所述词t且属于所述类别c的概率，p(t)表示所述文档包含所述词t的概率，p(c)表示所述文档属于所述类别c的概率。

进一步地，在本发明的一个实施例中，该基于微博文本的情绪分类和情绪成分分析方法还包括：如果所述词的相关度大于第一预设阈值，则作为特征词进行提取；如果所述词的PMI值大于第二预设阈值，则作为所述特征词进行提取。

进一步地，在本发明的一个实施例中，根据所述分类结果对所述微博文本情绪成分进行分析，进一步包括：获取所述微博文本在所述情绪度分类体系中每种情绪的回归值；根据所述每种情绪的回归值计算所述每种情绪的得分，以选取预设数值的情绪，并计算所述预设数值的情绪的比例。

进一步地，在本发明的一个实施例中，根据以下公式计算所述每种情绪的得分：

其中，S_i表示第i种情绪的得分，V_i,3表示所述第i种情绪的第三层回归值，V_i,4表示所述第i种情绪的第四层回归值；根据以下公式计算所述预设数值的情绪的比例：

其中，P_i表示所述第i种情绪的比例，K表示共有K种情绪。

本发明另一方面实施例提出了一种基于微博文本的情绪分类和情绪成分分析***，包括：获取模块，用于从互联网上获取多条用户发布的微博文本；分词模块，用于对所述多条微博文本进行分词，以根据每个词的词性得到多个词；提取模块，用于从所述多个词中提取多个特征词；创建模块，用于根据所述多个特征词训练情绪分类体系中每个节点的分类器，以构建所述情绪分类体系进行情绪分类，并通过所述情绪分类体系实现情绪分类；以及分析模块，用于根据分类结果对微博文本情绪成分进行分析。

根据本发明实施例的基于微博文本的情绪分类和情绪成分分析***，通过对微博文本进行分词得到多个词，并从多个词中提取多个特征词，以根据多个特征词训练情绪分类体系中每个节点的分类器，完成构建情绪分类体系，且通过情绪分类体系实现情绪分类，并根据分类结果快速对微博文本情绪成分进行分析，检测文本中最主要的情绪，不但节省时间，提高了分类速度，还提升了分类效果，更好地满足用户的使用需求。

另外，根据本发明上述实施例的基于微博文本的情绪分类和情绪成分分析***还可以具有如下附加的技术特征：

在本发明的一个实施例中，所述提取模块还用于：判断每个词是否为高频词；如果判断词为所述高频词，则计算所述词的相关度；以及如果判断所述词为低频词，则计算所述词的PMI值。

进一步地，在本发明的一个实施例中，根据以下公式计算所述词的PMI值：

进一步地，在本发明的一个实施例中，所述提取模块还用于：如果所述词的相关度大于第一预设阈值，则作为特征词进行提取；如果所述词的PMI值大于第二预设阈值，则作为所述特征词进行提取。

进一步地，在本发明的一个实施例中，所述分析模块还用于：获取所述微博文本在所述情绪度分类体系中每种情绪的回归值；根据所述每种情绪的回归值计算所述每种情绪的得分，以选取预设数值的情绪，并计算所述预设数值的情绪的比例。

其中，P_i表示所述第i种情绪的比例，K表示共有K种情绪。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于微博文本的情绪分类和情绪成分分析方法的流程图；

图2为根据本发明一个具体实施例的基于微博文本的情绪分类和情绪成分分析方法的流程图；

图3为根据本发明一个实施例的四层细粒度情绪分类体系；

图4为根据本发明一个实施例的基于微博文本的情绪分类和情绪成分分析***的结构示意图；以及

图5为根据本发明一个具体实施例的基于微博文本的情绪分类和情绪成分分析***的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。此外，本发明提供了的各种特定的工艺和材料的例子，但是本领域普通技术人员可以意识到其他工艺的可应用于性和/或其他材料的使用。另外，以下描述的第一特征在第二特征之“上”的结构可以包括第一和第二特征形成为直接接触的实施例，也可以包括另外的特征形成在第一和第二特征之间的实施例，这样第一和第二特征可能不是直接接触。

在本发明的描述中，需要说明的是，除非另有规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

下面参照附图描述根据本发明实施例提出的基于微博文本的情绪分类和情绪成分分析方法及***，首先将参照附图描述根据本发明实施例提出的基于微博文本的情绪分类和情绪成分分析方法。参照图1所示，该基于微博文本的情绪分类和情绪成分分析方法(以下简称分析方法)包括以下步骤：

S101，从互联网上获取多条用户发布的微博文本。

在本发明的一个实施例中，参照图2所示，本发明实施例主要从互联网上获取原创的微博文本，以便进行情绪分类和情绪成分分析。本发明实施例的数据主要基于微博的API(Application Programming Interface，应用程序编程接口)通过网络爬虫从微博上爬取，并保存到相应数据库。进一步的，抓取的数据一般为微博文本，如果要对某一事件的相关微博进行分析，可以使用相应的API抓取数据。

S102，对多条微博文本进行分词，以根据每个词的词性得到多个词。

在本发明的一个实施例中，本发明实施例优选为通过使用中科院ICTCLAS分词***对微博文本进行分词，分词后保留以下词性的词：名词(n)、字符串(x)、数词(m)、量词(q)、动词(v)、形容词(a)、状态词(z)、区别词(b)、副词(d)、未知词性(un)、疑问代词(ry)、问号(ww)、叹号(wt)、左括号(wkz)和右括号(wky)。

进一步的，在本发明的一个实施例中，为了更好地提取需要保留的词性的词，以得到多个词，从而构成特征空间，实现提取出特征词，本发明实施例还加入两条处理规则。第一条：连续重复标点规则。例如为了区别多个问号(叹号)与单个问号(叹号)，又为了统一特征，本发明将连续多个问号(叹号)统一用两个问号(叹号)来表示；第二条：否定词规则。例如当出现带否定的短语，如“不太高兴”时，分词***会将否定词分开为“不/d太/d高兴/a”，而这样不符合需求和实际语义。所以当否定词后三个词内出现形容词，就将这几个词一起作为一个词来处理，于是分词结果为“不太高兴/a”。

S103，从多个词中提取多个特征词。

在本发明的一个实施例中，从多个词中提取多个特征词，具体包括：判断每个词是否为高频词；如果判断词为高频词，则计算词的相关度；如果判断词为低频词，则计算词的PMI值。

具体地，在本发明的一个实施例中，本发明实施例提出的特征选择算法将要选择的目标特征词集合即多个特征词分为高频词集和低频词集两部分。其中，高频词可以指在采样文本中出现频率较高的，低频词可以指在采样文本中出现频率较低的，具体地可以根据实际情况决定预设频率，当词的频率高于预设频率时，判断词为高频词；当词的频率低于预设频率时，判断词为低频词。另外，需要说明的是，以下过程中涉及到的阈值都由迭代确定。

具体地，对于高频词集合，采用卡方测试与比值比(Odds Ratios)结合的方法。卡方测试算法如下：设要计算的词为t，类别为c，共有N个文档即N条微博文本，如表1所示，根据是否包含t和是否属于c将文档分为以下4类：

表1

	属于类别c	不属于类别c
			包含词t	A	B
不包含词t	C	D

进一步地，在本发明的一个实施例中，根据以下公式计算词的相关度：

其中，t为计算的词，c为类别，N为文档数，A表示文档属于类别c不包含词t，B表示文档不属于类别c包含词t，C表示文档属于类别c不包含词t，D表示文档不属于类别c不包含词t。

进一步地，在本发明的一个实施例中，根据以下公式计算词的PMI值：

其中，p(t，c)表示文档包含词t且属于类别c的概率，p(t)表示文档包含词t的概率，p(c)表示文档属于类别c的概率。

进一步地，在本发明的一个实施例中，上述分析方法还包括：如果词的相关度大于第一预设阈值，则作为特征词进行提取；如果词的PMI值大于第二预设阈值，则作为特征词进行提取。

具体地，在本发明的一个实施例中，对于高频词集合，在挑选高频词时，由高到低遍历每一个词，如果其比值比即相关度大于设定的阈值，就将该词选中，直至没有词可选或词数达到阈值。对于低频词集合，在挑选低频词时，本发明实施例采用PMI来挑选。其中，对于每一个词，如果其正PMI或负PMI高于设定的阈值，就将该词选中。最后融合高频词集合和低频词集合，作为最终保留的特征词集合。

S104，根据多个特征词训练情绪分类体系中每个节点的分类器，以构建情绪度分类体系，并通过情绪分类体系实现情绪分类。

进一步地，在本发明的一个实施例中，SVM(Support Vector Machine，支持向量机)是一种机器学习算法，用来处理线性可分的数据。当数据线性不可分时，SVM会将数据映射到高维空间中使其线性可分。同时，为了避免高维空间中的运算复杂性，SVM会使用核函数(Kernel Function)来计算结果。本发明实施例使用的分类器是SVR(SupporVectorRegression，支持向量回归)，SVR是SVM的一个分支。具体地，与SVM直接给出分类结果不同，SVR给出的是每一个样例的回归值，这样可以更灵活地调节分类阈值。对于涉及到多分类的情况，SVR首先计算出每一个类的回归值，然后计算回归值与阈值之间的差值，选差值最大的作为最终的类别。换言之，本发明实施例根据多个特征词训练情绪分类体系中每个节点的SVR，以构建四层细粒度情绪分类体系。需要说明的是，在实际应用中，还可根据数据特点灵活调整每一层的特征选择算法，即可选用与本发明不同的算法来构建情绪分类体系。本发明实施例的分析方法不但能提升情绪分类效果，还能提高情绪分类速度。

优选地，在本发明的一个实施例中，参照图3所示，情绪分类体系优选为四层的细粒度的情绪分类体系。具体地，以往的情绪分类算法一般使用3层，共7种情绪的分类体系，本发明实施例采用的情绪分类体系再原来基础上增加一层，共有19种细粒度的基本情绪，能更细致地刻画情绪。

在本发明的实施例中，本发明实施例根据多个特征词训练分类器。其中，多个特征词被分为训练集和测试集。分类器在训练集上训练，在测试集上检验效果。其中，效果评价指标采用准确率(Precision)、召回率(Recall)和F1值(F1-Score)来评价。在本发明一个具体实施例中，分类结果如表1所示，所用数据都是从新浪微博抓取的原创微博文本，共9960条。根据表2所示，本发明实施例提高了情绪分类的精准度和覆盖率，更好地对微博文本进行情绪分类。

表2

情绪	准确率	召回率	F1值
				悲伤	0.398	0.412	0.415
内疚	0.333	0.130	0.188

失望	0.327	0.358	0.341
				思念	0.446	0.465	0.455
惊奇	0.417	0.312	0.357
				慌	0.529	0.429	0.474
恐惧	0.500	0.583	0.538
				羞	0.267	0.267	0.267
愤怒	0.750	0.493	0.595
				贬责	0.284	0.338	0.309
烦闷	0.300	0.401	0.344
				怀疑	0.188	0.115	0.143
憎恶	0.514	0.463	0.487
				喜爱	0.273	0.185	0.220
相信	0.467	0.389	0.424
				赞扬	0.111	0.070	0.086
祝愿	0.606	0.680	0.641
				安心	0.294	0.294	0.294
快乐	0.578	0.585	0.581

S105，根据分类结果对微博文本情绪成分进行分析。

进一步地，在本发明的一个实施例中，根据分类结果对微博文本情绪成分进行分析，进一步包括：获取微博文本在情绪度分类体系中每种情绪的回归值；根据每种情绪的回归值计算每种情绪的得分，以选取预设数值的情绪，并计算所述预设数值的情绪的比例。

进一步地，在本发明的一个实施例中，根据以下公式计算每种情绪的得分：其中，S_i表示第i种情绪的得分，V_i,3表示第i种情绪的第三层回归值，V_i，4表示第i种情绪的第四层回归值。根据以下公式计算预设数值的情绪的比例：其中，P_i表示第i种情绪的比例，K表示共有K种情绪。

具体地，情绪成分分析依赖于情绪分类结果，检测当前文本中最主要的情绪。其中，主要是基于当前文本在情绪分类体系的第三层和第四层上的回归值来计算得分，选出得分最高的预设数值例如4种情绪。例如对于第i种基本情绪，其得分为：其中V_i,3和V_i,4分别是第三层和第四层情绪i的回归值。进一步地，通过S_i选出得分最高的4种情绪，并计算每种情绪的比例，完成对微博文本情绪成分的分析。其中，比例计算方法为：本发明实施例由计算机自动地对微博中的情绪进行识别，并检测出最主要的4种情绪，并计算比例，且将结果动态展示。

本发明实施例的分析方法具有如下几个主要特点：1)节省时间。当前的微博文本不需要人工分析，就可以快速地得到微博文本的情绪类别和主要情绪。2)适用范围广。该方法可以由厂商或主管部门使用，分析用户整体的情绪趋势，也可以由单个用户自己使用，分析自己和他人的情绪状况。3)情绪粒度细。以往的情绪分类算法一般使用3层，共7种情绪的分类体系，本发明实施例采用的情绪分类体系再原来基础上增加一层，共有19种细粒度的基本情绪，能更细致地刻画情绪。

图4为根据本发明实施例的基于微博文本的情绪分类和情绪成分分析***的结构示意图。参照图4所示，根据本发明实施例的基于微博文本的情绪分类和情绪成分分析***(以下简称分析***100)包括：获取模块10、分词模块20、提取模块30、创建模块40和分析模块50。

其中，获取模块10用于从互联网上获取多条用户发布的微博文本。分词模块20用于对多条微博文本进行分词，以根据每个词的词性得到多个词。提取模块30用于从多个词中提取多个特征词。创建模块40用于根据多个特征词训练情绪分类体系中每个节点的分类器，以构建情绪分类体系进行情绪分类，并通过情绪分类体系实现情绪分类。分析模块50用于根据分类结果对微博文本情绪成分进行分析。

在本发明的一个实施例中，参照图2所示，本发明实施例主要从互联网上获取原创的微博文本，以便进行情绪分类和情绪成分分析。本发明实施例的数据主要基于微博的API通过网络爬虫从微博上爬取，并保存到数据库80。进一步的，抓取的数据一般为微博文本，如果要对某一事件的相关微博进行分析，可以使用相应的API抓取数据。

优选地，在本发明的一个实施例中，本发明实施例优选为通过使用中科院ICTCLAS分词***对微博文本进行分词，分词后保留以下词性的词：名词(n)、字符串(x)、数词(m)、量词(q)、动词(v)、形容词(a)、状态词(z)、区别词(b)、副词(d)、未知词性(un)、疑问代词(ry)、问号(ww)、叹号(wt)、左括号(wkz)和右括号(wky)。

进一步地，在本发明的一个实施例中，提取模块30还用于判断每个词是否为高频词；如果判断词为高频词，则计算词的相关度；如果判断词为低频词，则计算词的PMI值。

具体地，对于高频词集合，采用卡方测试与比值比(Odds Ratios)结合的方法。卡方测试算法如下：设要计算的词为t，类别为c，共有N个文档即N条微博文本，如表1所示，根据是否包含t和是否属于c将文档分为4类。

进一步地，在本发明的一个实施例中，提取模块30还用于如果词的相关度大于第一预设阈值，则作为特征词进行提取；如果词的PMI值大于第二预设阈值，则作为特征词进行提取。

进一步地，在本发明的一个实施例中，SVM是一种机器学习算法，用来处理线性可分的数据。当数据线性不可分时，SVM会将数据映射到高维空间中使其线性可分。同时，为了避免高维空间中的运算复杂性，SVM会使用核函数(Kernel Function)来计算结果。本发明实施例使用的分类器是SVR，SVR是SVM的一个分支。具体地，与SVM直接给出分类结果不同，SVR给出的是每一个样例的回归值，这样可以更灵活地调节分类阈值。对于涉及到多分类的情况，SVR首先计算出每一个类的回归值，然后计算回归值与阈值之间的差值，选差值最大的作为最终的类别。换言之，本发明实施例根据多个特征词训练情绪分类体系中每个节点的SVR，以构建四层细粒度情绪分类体系。需要说明的是，在实际应用中，还可根据数据特点灵活调整每一层的特征选择算法，即可选用与本发明不同的算法来构建情绪分类体系。本发明实施例的分析方法不但能提升情绪分类效果，还能提高情绪分类速度。

进一步地，在本发明的一个实施例中，分析模块50还用于获取微博文本在情绪度分类体系中每种情绪的回归值；根据每种情绪的回归值计算每种情绪的得分，以选取预设数值的情绪，并计算所述预设数值的情绪的比例。

进一步地，在本发明的一个实施例中，根据以下公式计算每种情绪的得分：其中，S_i表示第i种情绪的得分，V_i,3表示第i种情绪的第三层回归值，V_i,4表示第i种情绪的第四层回归值。根据以下公式计算预设数值的情绪的比例：其中，P_i表示第i种情绪的比例，K表示共有K种情绪。

进一步地，在本发明的一个实施例中，参照图5所示，上述的分析***100还可以包括：用户界面模块60和数据库接口模块70.

其中，用户界面模块60用于给分析***100的使用者即用户提供一个图形化的友好的用户操作界面，以方便用户浏览自己和他人的情绪状况。数据库接口模块70用于提供了整个***的数据库80读写接口，方便其它各个不同的功能模块进行数据的I/O操作。

进一步地，在本发明的一个实施例中，该分析***100的获取模块10、分词模块20、提取模块30、创建模块40、分析模块50、用户界面模块60和数据库接口模块70均在Windows下用java、Python和JSP语言开发实现。进一步地，基于上述开发平台，该分析***100的部署运行需要如下几个层次运行环境的支撑。首先在操作***层，分析***100需要在Windows XP或其兼容的操作***平台之上运行，同时还需要程序运行支撑环境，也就是Java和Python运行支撑环境。当具备了上述支撑环境时，该分析***100才能可正常运行。而用户只需要通过网页浏览器访问***就能浏览自己和他人的情绪状况。

本发明实施例的分析***100具有如下几个主要特点：1)节省时间。当前的微博文本不需要人工分析，就可以快速地得到微博文本的情绪类别和主要情绪。2)适用范围广。该***可以由厂商或主管部门使用，分析用户整体的情绪趋势，也可以由单个用户自己使用，分析自己和他人的情绪状况。3)情绪粒度细。以往的情绪分类算法一般使用3层，共7种情绪的分类体系，本发明实施例采用的情绪分类体系再原来基础上增加一层，共有19种细粒度的基本情绪，能更细致地刻画情绪。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。另外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种基于微博文本的情绪分类和情绪成分分析方法，其特征在于，包括以下步骤：

从互联网上获取多条用户发布的微博文本；

对所述多条微博文本进行分词，以根据每个词的词性得到多个词；

从所述多个词中提取多个特征词；

根据所述多个特征词训练情绪分类体系中每个节点的分类器，以构建所述情绪分类体系，并通过所述情绪分类体系实现情绪分类；以及

根据分类结果对微博文本情绪成分进行分析，其中，根据所述分类结果对所述微博文本情绪成分进行分析，进一步包括：获取所述微博文本在所述情绪度分类体系中每种情绪的回归值；根据所述每种情绪的回归值计算所述每种情绪的得分，以选取预设数值的情绪，并计算所述预设数值的情绪的比例，并且根据以下公式计算所述每种情绪的得分：

其中，S_i表示第i种情绪的得分，V_i,3表示所述第i种情绪的第三层回归值，V_i,4表示所述第i种情绪的第四层回归值；

根据以下公式计算所述预设数值的情绪的比例：

<mrow> <msub> <mi>P</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <mrow> <msub> <mi>V</mi> <mrow> <mi>i</mi> <mo>,</mo> <mn>3</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>V</mi> <mrow> <mi>i</mi> <mo>,</mo> <mn>4</mn> </mrow> </msub> </mrow> </msup> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>4</mn> </msubsup> <msup> <mi>e</mi> <mrow> <msub> <mi>V</mi> <mrow> <mi>k</mi> <mo>,</mo> <mn>3</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>V</mi> <mrow> <mi>k</mi> <mo>,</mo> <mn>4</mn> </mrow> </msub> </mrow> </msup> </mrow> </mfrac> </mrow>

其中，P_i表示所述第i种情绪的比例，K表示共有K种情绪。

2.根据权利要求1所述的方法，其特征在于，从所述多个词中提取所述多个特征词，具体包括：

判断每个词是否为高频词；

如果判断词为所述高频词，则计算所述词的相关度；以及

如果判断所述词为低频词，则计算所述词的PMI值。

3.根据权利要求2所述的方法，其特征在于，根据以下公式计算所述词的相关度：

4.根据权利要求3所述的方法，其特征在于，根据以下公式计算所述词的PMI值：

5.根据权利要求2-4任一项所述的方法，其特征在于，还包括：

如果所述词的相关度大于第一预设阈值，则作为特征词进行提取；

如果所述词的PMI值大于第二预设阈值，则作为所述特征词进行提取。

6.一种基于微博文本的情绪分类和情绪成分分析***，其特征在于，包括：

获取模块，用于从互联网上获取多条用户发布的微博文本；

分词模块，用于对所述多条微博文本进行分词，以根据每个词的词性得到多个词；

提取模块，用于从所述多个词中提取多个特征词；

创建模块，用于根据所述多个特征词训练情绪分类体系中每个节点的分类器，以构建所述情绪分类体系进行情绪分类，并通过所述情绪分类体系实现情绪分类；以及分析模块，用于根据分类结果对微博文本情绪成分进行分析，其中，所述分析模块还用于：获取所述微博文本在所述情绪度分类体系中每种情绪的回归值；根据所述每种情绪的回归值计算所述每种情绪的得分，以选取预设数值的情绪，并计算所述预设数值的情绪的比例，并且根据以下公式计算所述每种情绪的得分：

根据以下公式计算所述预设数值的情绪的比例：

其中，P_i表示所述第i种情绪的比例，K表示共有K种情绪。

7.根据权利要求6所述的***，其特征在于，所述提取模块还用于：

判断每个词是否为高频词；

如果判断词为所述高频词，则计算所述词的相关度；以及

如果判断所述词为低频词，则计算所述词的PMI值。

8.根据权利要求7所述的***，其特征在于，根据以下公式计算所述词的相关度：

9.根据权利要求8所述的***，其特征在于，根据以下公式计算所述词的PMI值：

10.根据权利要求7-9任一项所述的***，其特征在于，所述提取模块还用于：