CN104346327A

CN104346327A - 一种文本情绪复杂度的确定方法及装置

Info

Publication number: CN104346327A
Application number: CN201410572252.1A
Authority: CN
Inventors: 李寿山; 刘欢欢; 周国栋; 李军辉
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-10-23
Filing date: 2014-10-23
Publication date: 2015-02-11

Abstract

本申请提供的文本情绪复杂度的确定方法及装置，利用预先构建的分类器对待分类文本进行分类，获得分类结果，并确定分类结果中的最大概率值，将该最大概率值对应的情绪复杂度确定为待分类文本的情绪复杂度，从而利用分类器实现了对文本情绪复杂度的确定。确定出情绪复杂度的文本可以被保存至对应数据库，进而文本推荐***可以读取该数据库中的文本在相应版块进行推荐，满足用户不同的阅读需求。

Description

一种文本情绪复杂度的确定方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其是一种文本情绪复杂度的确定方法及装置。

背景技术

当今，互联网已经成为信息的重要载体，尤其是近些年，互联网中出现了大量的网络文本，由于信息的海量，网络文本的推荐***应用而生，目的是挑选出一些网络文本，将其推荐给用户。例如，推荐的文本内容可以是新闻、博客等。其中，一种推荐***根据的是网络文本的主题，例如，按照经济、体育和娱乐等，确定待推荐的网络文本属于哪一主题，进而将该网络文本推荐到相应的主题版块。

然而，该种方式仅仅考虑新闻的所属领域，并未考虑网络文本对用户情绪的影响程度，该影响程度可以认为是文本的情绪复杂度。具体地，不同用户对同一文本内容可能产生不同的情绪，例如喜怒哀乐等，若多个用户对同一文本产生的情绪较为单一，则认为该文本的情绪复杂度为低，相反，若用户对同一文本内容产生的情绪存在多种，则认为该文本的情绪复杂度为中或者高等。

因此，可以开发一种文本推荐***，根据文本情绪复杂度进行推荐，即在不同版块中推荐情绪复杂度不同的文本，基于此，需要首先判定出文本的情绪复杂度。

发明内容

有鉴于此，本发明提供了一种文本的情绪复杂度确定方法及装置，用以实现对文本情绪复杂度的判定。为实现所述发明目的，本发明提供的技术方案如下：

一种文本情绪复杂度的确定方法，包括：

利用预先构建的分类器对待分类文本进行分类，获得所述待分类文本的分类结果；其中，所述分类结果包含预设数量的概率值，且每一概率值与一情绪复杂度对应；

确定所述预设数量概率值中的最大概率值；

将所述最大概率值对应的情绪复杂度确定为所述待分类文本的情绪复杂度。

优选地，所述分类结果包含三个概率值，分别为第一概率值、第二概率值及第三概率值；其中，第一概率值与高情绪复杂度对应，第二概率值与中情绪复杂度对应，第三概率值与低情绪复杂度对应。

优选地，所述分类器的构建方法包括：

将获取的待训练文本集合划分为所述预设数量种类的样本子集，并将所述样本子集组合为训练集；其中，所述待训练文本集合中包含多个待训练文本；

在所述待训练文本集合中，提取特征词；

利用所述训练集对所述特征词进行训练，生成分类器。

优选地，每个所述待训练文本均具有多个情绪标签，且每个情绪标签具有各自对应的投票数；

其中，所述将获取的待训练文本集合划分为所述预设数量种类的样本子集，并将所述样本子集组合为训练集，包括：

根据每个所述待训练文本各自情绪标签的投票数，确定各自的情绪复杂值；

根据每个所述待训练文本情绪复杂值，将所述待训练文本集合划分为所述预设数量种类的样本子集，并将所述样本子集组合为训练集。

优选地，所述根据每个所述待训练文本各自情绪标签的投票数，确定各自的情绪复杂值，包括：

针对每个所述待训练文本，计算各自每个情绪标签的投票数占各自待训练文本投票总数的比值；

利用复杂度计算公式，分别计算每个所述待训练文本各自的情绪复杂度值；其中，所述复杂度计算公式为：

C (e) = - Σ_{i = 1}^{n} P (e_{i}) \log P (e_{i});

其中，P(e_i)为情绪标签的投票数占各自待训练文本投票总数的比值；n为各自待训练文本的情绪标签总个数。

优选地，所述分类器为最大熵分类器。

本申请还提供了一种文本情绪复杂度的确定装置，包括：

分类器分类模块，用于利用预先构建的分类器对待分类文本进行分类，获得所述待分类文本的分类结果；其中，所述分类结果包含预设数量的概率值，且每一概率值与一情绪复杂度对应；

最大概率值确定模块，用于确定所述预设数量概率值中的最大概率值；

情绪复杂度确定模块，用于将所述最大概率值对应的情绪复杂度确定为所述待分类文本的情绪复杂度。

优选地，所述分类器分类模块利用的分类器的构建模块包括：

训练集生成子模块，用于将获取的待训练文本集合划分为所述预设数量种类的样本子集，并将所述样本子集组合为训练集；其中，所述待训练文本集合中包含多个待训练文本；

特征词提取子模块，用于在所述待训练文本集合中，提取特征词；

分类器生成子模块，用于利用所述训练集对所述特征词进行训练，生成分类器。

优选地，训练集生成子模块使用的每个所述待训练文本均具有多个情绪标签，且每个情绪标签具有各自对应的投票数；其中，所述训练集生成子模块包括：

情绪复杂值确定单元，用于根据每个所述待训练文本各自情绪标签的投票数，确定各自的情绪复杂值；

训练集组合单元，用于根据每个所述待训练文本情绪复杂值，将所述待训练文本集合划分为所述预设数量种类的样本子集，并将所述样本子集组合为训练集。

优选地，所述情绪复杂值确定单元包括：

比值计算子单元，用于针对每个所述待训练文本，计算各自每个情绪标签的投票数占各自待训练文本投票总数的比值；

复杂度计算子单元，用于利用复杂度计算公式，分别计算每个所述待训练文本各自的情绪复杂度值；其中，所述复杂度计算公式为：

C (e) = - Σ_{i = 1}^{n} P (e_{i}) \log P (e_{i});

由以上技术方案可知，本发明提供的文本情绪复杂度的确定方法及装置，利用预先构建的分类器对待分类文本进行分类，获得分类结果，并确定分类结果中的最大概率值，将该最大概率值对应的情绪复杂度确定为待分类文本的情绪复杂度，从而利用分类器实现了对文本情绪复杂度的确定。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的文本情绪复杂度的确定方法的流程图；

图2为本发明实施例提供的文本情绪复杂度的确定方法的另一流程图；

图3为本发明实施例提供的文本情绪复杂度的确定装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

情绪即是人内在的心理反应与感受，例如，喜怒哀乐等感觉。我们知道，不同用户看到同一文本内容，可能产生不同的情绪，若产生的情绪比较单一，则认为该文本的情绪复杂度为低。例如：春天到了，公园里开满了五颜六色的鲜花，人们纷纷进园进行观赏。用户看到该文本后，产生的情绪基本上都是开心，因此，该文本的情绪复杂度较低。相反，对于某些文本，不同用户可能情绪会不同。例如：路上随意停放的私家车挡住了救护车的通行，同时，救护车上的救护设备不完备，导致抢救不及时，危急病人因此死亡。部分用户可能对私家车随意停放表示生气，部分用户可能对病人的死亡表示惋惜，另外部分用户可能对救护机构的救护不及时表示愤怒等。可见，该文本可以使看到的用户产生多种不同的情绪，该文本的情绪复杂度较高。

对文本的处理，例如挑选部分文本内容在网站上进行推荐，需要明确文本的情绪复杂度，基于此，本发明提供了多个实施例以实现对文本情绪复杂度的确定。需要说明，本发明各个实施例的确定对象并不局限于网络文本，还可以是其他各种信息载体中的信息文本，例如报刊杂志等。

参照图1，其示出了本发明实施例提供的文本情绪复杂度的确定方法的流程，具体包括以下步骤：

步骤S100：利用预先构建的分类器对待分类文本进行分类，获得所述待分类文本的分类结果；其中，所述分类结果包含预设数量的概率值，且每一概率值与一情绪复杂度对应。

其中，分类器可以是利用现有技术中任意一种构建方法构建的分类器，例如，可以是支持向量机分类器、贝叶斯分类器、最大熵分类器等。需要说明，分类器包括数学模型，其利用数学模型并通过自动学习，实现对输入数据的分类。分类器可对输入数据进行至少两种的分类，进而生成的分类结果中包括该至少两种类别各自对应的结果值，其中，结果值可使用概率表示。例如，分类器可以识别两个类别，分别为类1及类2，输入数据为A，生成的结果包括数据A属于类1的概率值，以及数据A属于类2的概率值。

需要说明，分类器可判定类别的数量与构建方法相关，即构建方法使用的训练集包含多少种类的训练样本，则最终分类器则会对输入数据进行相应种类的识别，分类结果中也就包括多少个概率值。同时，分类结果中的概率值与可识别的类别一一对应，也就是说，每一个类别均产生一个概率值。本实施例，分类器可以识别多少种情绪复杂度，则生成的分类结果中包括多少个概率值，且各个概率值与各个类别的情绪复杂度一一对应。

步骤S200：确定所述预设数量概率值中的最大概率值。

其中，对各个概率值进行比较以确定其中的最大值。

步骤S300：将所述最大概率值对应的情绪复杂度确定为所述待分类文本的情绪复杂度。

本实施例中，当比对出最大概率值后，确定该最大概率值对应的情绪复杂度，进而将该情绪复杂度确定为该待分类文本的情绪复杂度。例如，最大概率值对应的情绪复杂度为低，则该待分类文本的情绪复杂度为低。

由以上技术方案可知，本发明实施例提供的文本情绪复杂度的确定方法，利用预先构建的分类器对待分类文本进行分类，获得分类结果，并确定分类结果中的最大概率值，将该最大概率值对应的情绪复杂度确定为待分类文本的情绪复杂度，从而利用分类器实现了对文本情绪复杂度的确定。

需要说明，确定出情绪复杂度的文本可以被保存至对应数据库，进而文本推荐***可以读取该数据库中的文本在相应版块进行推荐，满足用户不同的阅读需求。

可选地，上述实施例中的分类器可以判定三种类别的情绪复杂度，分别为高、中及低。进而，分类结果包括的概率值为三个，分别为第一概率值、第二概率值及第三概率值；其中，第一概率值与高情绪复杂度对应，第二概率值与中情绪复杂度对应，第三概率值与低情绪复杂度对应。

具体地，根据最大概率值确定情绪复杂度的方式是，当最大概率值为第一概率值时，确定待分类文本的情绪复杂度为高；当最大概率值为第二概率值时，确定待分类文本的情绪复杂度为中；当最大概率值为第三概率值时，确定待分类文本的情绪复杂度为低。

需要说明，上述三个概率值是经过分类器计算获得的概率值，可以称之为后验概率，即分别为第一后验概率、第二后验概率及第三后验概率，且分别与高、中及低的情绪复杂度对应。第一后验概率可以标记为P(c_high|D)，第二后验概率可以标记为P(c_mid|D)，第三后验概率可以标记为P(c_low|D)。

具体地，第一后验概率的计算模型可以是：

P (c_{high} | D) = \frac{1}{Z (D)} \exp (Σ λ_{k, c_{high}} F_{k, c_{high}} (D, c_{high}));

其中：Z(D)为归一化因子；为特征函数；为特征函数的权值；D为输入的待分类文本的特征词；c_high为待分类文本属于高情绪复杂度的概率。

需要说明，在构建分类器的过程中可以获得的取值，可选地，可以通过最大熵模型学习的拟牛顿BFGS(Broyden Fletcher Goldfarb Shann，变尺度法)得到。

Z(D)的计算公式如下：

Z (D) = \underset{c_{high}}{Σ} \exp (Σ_{k = 1}^{n} λ_{k, c_{high}} F_{k, c_{high}} (D, c_{k, c_{high}}));

其中：D为输入的待分类文本的特征词；n为特征词的总数。需要说明，Z(D)的取值可以在构建分类器的过程中获得。

特征函数的定义如下：

F_{k, c_{high}} (D, c_{high}) = \{\begin{matrix} 1, & n_{k} (d) > 0 and c_{high} = c \\ 0, & otherwise \end{matrix};

其中：n_k(d)是待分类文本中特征词的长度，c_high＝c表明含有此特征词的待分类文本的情绪复杂度为c。

该特征函数表示的含义是：当特征词的长度大于0，并且含有此特征词的待分类文本的情绪复杂度为c时，特征函数的取值为1，否则特征函数的取值为0。

同理，计算获得第二后验概率及第三后验概率，进而可以比较该三个后验概率值，以确定最大后验概率值。

上述实施例需要预先构建分类器，且构建完成后可以一直使用该分类器对每个待分类文本进行分析处理，而无需重复构建分类器。其中，上述步骤S100利用的预先构建的分类器的构建过程可以参见图2，具体包括以下步骤：

步骤S101：将获取的待训练文本集合划分为所述预设数量种类的样本子集，并将所述样本子集组合为训练集；其中，所述待训练文本集合中包含多个待训练文本。

本实施例中，预先获取到多个待训练文本，例如，在网站上采集多个新闻。其中，获取的待训练文本的数量可以根据不同的应用场景进行不同的设置，本实施例并不做具体限定。将多个待训练文本进行子集的划分，划分的子集个数与实施例一中步骤S100中概率值的预设数量相同，或者是说，本实施例中将训练文本划分为多少个样本子集，则利用分类器生成的分类结果中包含多少个概率值。

可选地，每个所述待训练文本均具有多个情绪标签，且每个情绪标签具有各自对应的投票数，则划分待训练样本集合的具体方式是：

根据每个所述待训练文本各自情绪标签的投票数，确定各自的情绪复杂值；根据每个所述待训练文本情绪复杂值，将所述待训练文本集合划分为所述预设数量种类的样本子集。

其中，待训练文本具有的情绪标签，指的是对待训练文本预先设置的供用户投票的标签。例如，博客中设置有生气、高兴、愤怒、开心等多个情绪标签，用户可以选择任意一个或多个情绪标签进行投票。收集待训练文本每个情绪标签的投票数。对于每个待训练文本，均需要确定情绪复杂值。

可选地，确定情绪复杂值的方式可以是：

针对每个所述待训练文本，计算各自每个情绪标签的投票数占各自待训练文本投票总数的比值；利用复杂度计算公式，分别计算每个所述待训练文本各自的情绪复杂度值；其中，所述复杂度计算公式为：

C (e) = - Σ_{i = 1}^{n} P (e_{i}) \log P (e_{i});

具体地，每个待训练文本均各自具有多个情绪标签，则对于每个待训练文本，均计算每个情绪标签的投票数占各自投票总数的比值。

例如，待训练文本1具有的情绪标签为两个，分别为标签1及标签2，其中，标签1的投票数为35，标签2的投票数为55。对于待训练文本1，标签1的投票数比值为35/90，标签2的投票数比值为55/90。同理，计算其他待训练标签的比值。

复杂度计算公式是利用信息熵的原理生成的，将待训练文本每个情绪标签的比值代入该公式，获得该待训练文本的情绪复杂值。同理，计算出待训练文本集合中每个待训练文本的情绪复杂值。

进而，根据情绪复杂值，将待训练文本集合划分为多个不同的样本子集，多个样本子集共同组成训练集，也就是说，训练集中包括多个划分好的样本子集。例如，将情绪复杂值属于一定区间范围内待训练文本确定为第一样本，将情绪复杂值属于另一区间范围内的确定为第二样本，将情绪复杂值属于又一区间范围内的确定为第三样本，这样，每个待训练文本分别属于不同的样本集合，待训练文本集合也就被划分为三个样本子集。当然，划分的方式及划分的子集数量仅仅是一种示例，并不局限于此。

步骤S102：在所述待训练文本集合中，提取特征词。

本实施例中，在步骤S101获取到的待训练文本集合中，提取特征词。特征词包括文本中的单个词语、词语组合或以上两者。可选地，单个词语为组成文本的所有单独的词语；词语组合为两个单词的组合。

需要说明，当特征词既包括单个词语，又包括词语组合时，对于同一词语在单词中也出现，在词语组合中也出现，则对于同一单词使用不同的标记，以进行区分。例如，单词“制裁”可以作为单词，也可以和“中美”组合为词语组合，则将“中美制裁”中的“制裁”前加上“_”进行区分，即“中美_制裁”，以与单词“制裁”区分。

可选地，词语组合为每个单词分别与相邻的前一单词及后一单词组合而成。例如，待分类文本为“美中达成协议制裁北韩”，利用分词工具获得各个单词：美、中、达成、协议、制裁、北韩，所有单词作为单个词语类型的特征词，词语组合类型的特征词包括：美_中、中_达成、达成_协议、协议_制裁、制裁_北韩。

步骤S103：利用所述训练集对所述特征词进行训练，生成分类器。

其中，利用步骤S101生成的训练集及步骤S102提取的特征词进行训练，从而生成分类器。训练的过程即是按照一定的自动学习方式学习预设数学模型中各个参数值，从而学习出最优值，确定数学模型的参数值，将该参数值确定的数学模型作为分类器。

需要说明，构建的分类器种类不同，则训练方法不同。可选地，可以使用最大熵训练方法，则生成的分类器为最大熵分类器。

为了证明本发明各个实施例对文本情绪复杂度的确定准确率，提供以下实验数据作为佐证。

使用一定数量的训练语料和测试语料进行训练和测试。实验中使用的语料是在雅虎网上搜集的新闻样本，并且有用户对每一篇新闻的情绪投票。首先，我们对情绪类别进行归类，分为三大类，即感人、开心属于一类，超扯、无聊属于一类，害怕、难过、火大属于一类。然后，分别得到这三类情绪的投票比例。最后根据复杂度计算方法得到情绪的复杂度，一共有3个级别：高、中、低。每种情绪复杂度，分别选用样本的40％、50％、60％、70％、80％作为测试语料，在剩下的每类样本中选取训练样本。

本文采用准确率Acc作为分类效果的衡量标准，计算方式为：分类正确的样本数量与总样本数量的比值，具体的测试结果参见下表1。

表1

特征词	40％	50％	60％	70％	80％
						单个词语	0.505	0.5167	0.5267	0.5467	0.5567
词语组合	0.5168	0.52	0.535	0.5633	0.5722

从表1所示的数据可以看出，本发明提供的文本情绪复杂度确定方法已经能够取得不错的效果，正确率达到0.57左右。随着样本规模的增大，正确率还会有进一步的提升。

下面对本发明实施例提供的文本情绪复杂度确定装置进行说明，需要说明，有关文本情绪复杂度确定装置的说明可参照上文提供的文本情绪复杂度确定方法，下文并不做赘述。

参照图3，其示出了本发明实施例提供的文本情绪复杂度确定装置的结构，具体包括：分类器分类模块100、最大概率值确定模块200及情绪复杂度确定模块300。其中：

分类器分类模块100，用于利用预先构建的分类器对待分类文本进行分类，获得所述待分类文本的分类结果；其中，所述分类结果包含预设数量的概率值，且每一概率值与一情绪复杂度对应；

最大概率值确定模块200，用于确定所述预设数量概率值中的最大概率值；

情绪复杂度确定模块300，用于将所述最大概率值对应的情绪复杂度确定为所述待分类文本的情绪复杂度。

由以上技术方案可知，本发明实施例提供的文本情绪复杂度的确定装置，分类器分类模块100利用预先构建的分类器对待分类文本进行分类，获得分类结果，最大概率值确定模块200确定分类结果中的最大概率值，情绪复杂度确定模块300将该最大概率值对应的情绪复杂度确定为待分类文本的情绪复杂度，从而利用分类器实现了对文本情绪复杂度的确定。

可选地，上述文本情绪复杂度确定装置，所述分类器分类模块利用的分类器的构建模块包括：

可选地，上述文本情绪复杂度的确定装置中的训练集生成子模块使用的每个所述待训练文本均具有多个情绪标签，且每个情绪标签具有各自对应的投票数；其中，所述训练集生成子模块包括：

可选地，上述文本情绪复杂度的确定装置，所述情绪复杂值确定单元包括：

C (e) = - Σ_{i = 1}^{n} P (e_{i}) \log P (e_{i});

可选地，上述装置实施例中的分类器为最大熵分类器。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本情绪复杂度的确定方法，其特征在于，包括：

确定所述预设数量概率值中的最大概率值；

2.根据权利要求1所述的文本情绪复杂度的确定方法，其特征在于，所述分类结果包含三个概率值，分别为第一概率值、第二概率值及第三概率值；其中，第一概率值与高情绪复杂度对应，第二概率值与中情绪复杂度对应，第三概率值与低情绪复杂度对应。

3.根据权利要求1所述的文本情绪复杂度的确定方法，其特征在于，所述分类器的构建方法包括：

在所述待训练文本集合中，提取特征词；

利用所述训练集对所述特征词进行训练，生成分类器。

4.根据权利要求3所述的文本情绪复杂度的确定方法，其特征在于，每个所述待训练文本均具有多个情绪标签，且每个情绪标签具有各自对应的投票数；

5.根据权利要求4所述的文本情绪复杂度的确定方法，其特征在于，所述根据每个所述待训练文本各自情绪标签的投票数，确定各自的情绪复杂值，包括：

C (e) = - Σ_{i = 1}^{n} P (e_{i}) \log P (e_{i});

6.根据权利要求1所述的文本情绪复杂度的确定方法，其特征在于，所述分类器为最大熵分类器。

7.一种文本情绪复杂度的确定装置，其特征在于，包括：

8.根据权利要求7所述的文本情绪复杂度确定装置，其特征在于，所述分类器分类模块利用的分类器的构建模块包括：

9.根据权利要求8所述的文本情绪复杂度的确定装置，其特征在于，训练集生成子模块使用的每个所述待训练文本均具有多个情绪标签，且每个情绪标签具有各自对应的投票数；其中，所述训练集生成子模块包括：

10.根据权利要求9所述的文本情绪复杂度的确定装置，其特征在于，所述情绪复杂值确定单元包括：

C (e) = - Σ_{i = 1}^{n} P (e_{i}) \log P (e_{i});