CN106202181A

CN106202181A - 一种情感分类方法、装置及***

Info

Publication number: CN106202181A
Application number: CN201610480926.4A
Authority: CN
Inventors: 李寿山; 张栋; 周国栋; 贡正仙
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-06-27
Filing date: 2016-06-27
Publication date: 2016-12-07

Abstract

本申请实施例提供一种情感分类方法、装置及***，通过对待测样本(其中，待测样本为网络平台信息中的位于第一预设时间之后的评论文本)进行分词处理，得到多个词特征；并使用预先设置的最大熵情感分类器，分别计算每个词特征的第一预测子概率和第二预测子概率；进而利用每个特征词第一预测子概率和第二预测子概率确定待测样本的情感类别的方式，实现了对网络平台信息中的评论文本的情感分类，可便于用户对网络平台信息的选取。

Description

一种情感分类方法、装置及***

技术领域

本发明涉及自然语言处理及模式识别技术领域，具体涉及一种情感分类方法、装置及***。

背景技术

随着科技的发展，网络平台(网络购物、社交网络、网络电视等)在人们日常生活中占用越来越重要的地位。也正是随着网络平台地位的提高，网络平台信息量越来越大，各种网络平台信息充斥的人们的生活，以至于不利于人们对网络平台信息的选取。

例如，网络购物平台中通常存在多个卖家同时存在同一款在售商品，用户不能确定在哪些卖家购买该在售商品比较合适(如物美价廉)、网络电视中通常包括多部影片，用户不能确定哪些影片适合收看(如网评比较好)等情况。

因此，本申请提供一种情感分类方法、装置及***，以便于用户对网络平台信息的选取，是亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供一种情感分类方法、装置及***，通过对网络平台信息中的评论文本进行情感分类，可便于用户对网络平台信息的选取。

为实现上述目的，本发明实施例提供如下技术方案：

一种情感分类方法，包括：

对待测样本进行分词处理，得到多个词特征；其中，所述待测样本为网络平台信息中的位于第一预设时间之后的评论文本；

使用预先设置的最大熵情感分类器，分别计算每个所述词特征的第一预测子概率和第二预测子概率；其中，所述第一预测子概率指示所述词特征为正面评论，所述第二预测子概率指示所述词特征为负面评论；所述最大熵情感分类器为使用所述网络平台信息中的位于第二预设时间之前的正评论文本和负评论文本作为训练样本集，利用最大熵分类算法进行训练得到的；所述第二预设时间早于所述第一预设时间；

将所有所述词特征的第一预测子概率进行乘积运算，得到第一预测概率；将所有所述词特征的第二预测子概率进行乘积运算，得到第二预测概率；

比较所述第一预测概率和第二预测概率；

根据比较结果，确定所述待测样本的情感类别；其中，当所述第一预测概率大于所述第二预测概率时，确定所述待测样本为正评论文本；当所述第一预测概率小于所述第二预测概率时，确定所述待预测样本为负评论文本。

优选的，还包括：

比较确定的所述待测样本的情感类别与预先设置的所述待测样本的情感类别是否相同；

当相同是，得到第一分类结果，所述第一分类结果指示确定的所述待测样本的情感类别准确；

当不相同时，得到第二分类结果，所述第二分类结果指示确定的所述待测样本的情感类别不准确。

优选的，当包括多个待测样本时，该方法还包括：

根据每个所述待测样本对应的第一分类结果/第二分类结果，计算所有待测样本对应的第一分类结果总数量以及第二分类结果总数量；

将所述第一分类结果总数量占所述第一分类结果总数量和第二分类结果之和的比重，确定为所述最大熵情感分类器的情感分类结果准确率。

优选的，当包括多个待测样本时，该方法还包括：

根据确定的每个所述待测样本的情感类别，计算所有待测样本中正评论文本的总数量以及负评论文本的总数量；

将正评论文本的总数量占所述正评论文本的总数量和负评论文本的总数量之和的比重，确定为所述网络平台信息的可选概率。

优选的，所述最大熵情感分类器的生成过程包括：

获取所述网络平台信息中的位于所述第二预设时间之前的评论文本作为训练样本集；所述评论文本包括正评论文本和负评论文本；

针对所述训练样本集中的每个所述评论文本，进行分词处理，得到多个词特征；

利用所述最大熵分类算法对所述训练样本集对应的各个所述词特征进行训练，得到最大熵情感分类器。

一种情感分类装置，包括：

分词处理单元，用于对待测样本进行分词处理，得到多个词特征；其中，所述待测样本为网络平台信息中的位于第一预设时间之后的评论文本；

第一概率计算单元，用于使用预先设置的最大熵情感分类器，分别计算每个所述词特征的第一预测子概率和第二预测子概率；其中，所述第一预测子概率指示所述词特征为正面评论，所述第二预测子概率指示所述词特征为负面评论；所述最大熵情感分类器为使用所述网络平台信息中的位于第二预设时间之前的所有正评论文本和负评论文本作为训练样本集，利用最大熵分类算法进行训练得到的；所述第二预设时间早于所述第一预设时间；

第二概率计算单元，用于将所有所述词特征的第一预测子概率进行乘积运算，得到第一预测概率；将所有所述词特征的第二预测子概率进行乘积运算，得到第二预测概率；

比较单元，用于比较所述第一预测概率和第二预测概率；

情感分类确定单元，用于根据比较结果，确定所述待测样本的情感类别；其中，当所述第一预测概率大于所述第二预测概率时，确定所述待测样本为正评论文本；当所述第一预测概率小于所述第二预测概率时，确定所述待预测样本为负评论文本。

优选的，还包括：

情感分类结果判断单元，用于比较确定的所述待测样本的情感类别与预先设置的所述待测样本的情感类别是否相同；以及，当相同是，得到第一分类结果，所述第一分类结果指示确定的所述待测样本的情感类别准确；以及，当不相同时，得到第二分类结果，所述第二分类结果指示确定的所述待测样本的情感类别不准确。

优选的，当包括多个待测样本时，该装置还包括：

情感分类结果准确率计算单元，用于根据每个所述待测样本对应的第一分类结果/第二分类结果，计算所有待测样本对应的第一分类结果总数量以及第二分类结果总数量；以及，将所述第一分类结果总数量占所述第一分类结果总数量和第二分类结果之和的比重，确定为所述最大熵情感分类器的情感分类结果准确率。

优选的，还包括：

最大熵情感分类器生成单元，用于获取所述网络平台信息中的位于所述第二预设时间之前的所有评论文本作为训练样本集；所述评论文本包括正评论文本和负评论文本；以及，针对所述训练样本集中的每个所述评论文本，进行分词处理，得到多个词特征；以及，利用所述最大熵分类算法对所述训练样本集对应的各个所述词特征进行训练，得到最大熵情感分类器。

一种情感分类***，其特征在于，包括：如上述所述的情感分类装置和最大熵情感分类器。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种情感分类方法流程图；

图2为本申请实施例提供的一种最大熵情感分类器的生成方法流程图；

图3为本申请实施例提供的一种情感分类装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

图1为本申请实施例提供的一种情感分类方法流程图。

如图1所示，该方法包括：

S101、对待测样本进行分词处理，得到多个词特征；其中，待测样本为网络平台信息中的位于第一预设时间之后的评论文本；

在本申请实施例中，优选的，网络平台信息为任意一个主题，如网购平台中的电子产品、网购平台中的某个商家的某个产品；网络电视中的某个影片等，具体的，发明人可根据自己的需求任意设置，在此不做限定。

在本申请实施例中，优选的，网络平台信息中包括多个评论文本，如网购平台中的某个商家的某个产品中对应多个有关该产品的评论文本。

在本申请实施例中，优选的，待测文本为网络平台信息中的位于第一预设时间之后的一个评论文本。

S102、使用预先设置的最大熵情感分类器，分别计算每个词特征的第一预测子概率和第二预测子概率；

在本申请实施例中，优选的，第一预测子概率指示词特征为正面评论，第二预测子概率指示词特征为负面评论。

在本申请实施例中，优选的，第二预设时间早于第一预设时间。具体的，最大熵情感分类器为使用网络平台信息中的位于第二预设时间之前的正评论文本和负评论文本作为训练样本集，利用最大熵分类算法进行训练得到的。

在本申请实施例中，优选的，将第一预设时间设置为2012年，第二预设时间设置为2002年。以上仅仅是本申请实施例的优选方式，发明人可根据自己的需求任意设置第一预设时间和第二预设时间的具体内容，在此不做限定。

S103、将所有词特征的第一预测子概率进行乘积运算，得到第一预测概率；将所有词特征的第二预测子概率进行乘积运算，得到第二预测概率；

S104、比较第一预测概率和第二预测概率；

S105、根据比较结果，确定待测样本的情感类别；

在本申请实施例中，优选的，当第一预测概率大于第二预测概率时，确定待测样本为正评论文本；当第一预测概率小于第二预测概率时，确定待预测样本为负评论文本。

进一步的，在本申请实施例提供的一种情感分类方法中，还包括：比较确定的待测样本的情感类别与预先设置的待测样本的情感类别是否相同；以及，当相同是，得到第一分类结果；以及，当不相同时，得到第二分类结果。

在本申请实施例中，优选的，第一分类结果指示确定的待测样本的情感类别准确。

在本申请实施例中，优选的，第二分类结果指示确定的待测样本的情感类别不准确。

在本申请实施例中，优选的，预先设置的待测样本的情感类别可通过获取与待测样本对应的网络平台信息评分得到。例如，网购平台中的某个商家的某个产品中包括多条评论，并且与每条评论对应的还有用户对该产品的评分，该评分即为与待测样本对应的网络平台信息评分。

具体的，根据待测样本对应的网络平台信息评分计算预先设置的待测样本的情感类别的方式为：将网络平台信息评分分成两类，当网络平台信息评分包括1-5分时，可将网络平台信息评分在1-3分内的网络平台信息评分对应的待测样本的情感类别确定为负类(说明待测样本对应的评论文本为负评论文本)；将网络平台信息评分在4-5分内的网络平台信息评分对应的待测样本的情感类别确定为正类(说明待测样本对应的评论文本为正评论文本)。

以上仅仅是本申请实施例的优选方式，发明人可根据自己的需求任意设置预先设置的待测样本的情感类别的获取方式，在此不做限定。

本申请通过比较确定的待测样本的情感类别与预先设置的待测样本的情感类别是否相同的方式，可实现对确定的待测样本的情感类别的准确性的检测。

进一步的，在本申请实施例提供的一种情感分类方法中，当存在多个待测样本(包括多个待测样本)时，还包括：

根据每个待测样本对应的第一分类结果/第二分类结果，计算所有待测样本对应的第一分类结果总数量以及第二分类结果总数量；以及，将第一分类结果总数量占第一分类结果总数量和第二分类结果之和的比重，确定为最大熵情感分类器的情感分类结果准确率。

在本申请实施例中，优选的，当存在多个待测样本时，首先会针对每个待测样本计算出该待测样本是对应第一分类结果还是对应第二分类结果。然后，根据所有的待测样本中每个待测样本对应的分类结果(第一分类结果或者第二分类结果)，计算所有待测样本对应第一分类结果总数量(也就是，所有的待测样本中有多少个待测样本对应第一分类结果)和第二分类结果总数量(也就是，所有的待测样本中有多少个待测样本对应第二分类结果)；最后计算第一分类结果总数量占第一分类结果总数量和第二分类结果之和的比重，并将该比重确定为最大熵情感分类器的情感分类结果准确率。

本申请实施例，通过计算第一分类结果总数量占第一分类结果总数量和第二分类结果之和的比重的方式，可实现对最大熵情感分类器的情感分类结果的准确性的验证，计算得到的比重即为最大熵情感分类器的情感分类结果准确率。

进一步的，在本申请实施例提供的一种情感分类方法中，当包括多个待测样本时，该方法还包括：根据确定的每个待测样本的情感类别，计算所有待测样本中正评论文本的总数量以及负评论文本的总数量；以及，将正评论文本的总数量占正评论文本的总数量和负评论文本的总数量之和的比重，确定为网络平台信息的可选概率。

在本申请实施例中，优选的，当存在多个待测样本时，可根据确定的每个待测样本的情感类别，计算所有待测样本中正评论文本的总数量以及负评论文本的总数量；进而可将正评论文本的总数量占正评论文本的总数量和负评论文本的总数量之和的比重，确定为网络平台信息的可选概率(可选概率越大，说明网络平台信息的用户评价越好，越被用户推荐)。

本申请通过确定网络平台信息的可选概率的方式，可便于用户直接通过各个网络平台信息的可选概率确定选择哪些网络平台信息，不需用户逐条阅读网络平台信息的评论文本，节约了时间。并且，通过利用位于第一预设时间之后的待测样本实现对网络平台信息的可选概率确定，可使得确定出的可选概率信息更加贴近当前网络平台信息的实际情况。

图2为本申请实施例提供的一种最大熵情感分类器的生成方法流程图。

如图2所示，在本申请实施例提供的一种情感分类方法中的最大熵情感分类器的生成过程包括：

S201、获取网络平台信息中的位于第二预设时间之前的评论文本作为训练样本集；

在本申请实施例中，优选的，评论文本包括正评论文本和负评论文本。

在本申请实施例中，优选的，正评论文本的数量和负评论文本的数量相同。以上仅仅是本申请实施例的优选方式，发明人可根据自己的需求任意设置正评论文本的数量和负评论文本的数量，在此不做限定。

S202、针对训练样本集中的每个评论文本，进行分词处理，得到多个词特征；

S203、利用最大熵分类算法对训练样本集对应的各个词特征进行训练，得到最大熵情感分类器。

本申请通过提供一种最大熵情感分类器的生成方法，进一步完善了本申请实施例提供的一种情感分类方法，使得本申请实施例提供的一种情感分类方法更加清晰、便于理解。

本申请实施例提供一种情感分类方法，通过对待测样本(其中，待测样本为网络平台信息中的位于第一预设时间之后的评论文本)进行分词处理，得到多个词特征；并使用预先设置的最大熵情感分类器，分别计算每个词特征的第一预测子概率和第二预测子概率；进而利用每个特征词第一预测子概率和第二预测子概率确定待测样本的情感类别的方式，实现了对网络平台信息中的评论文本的情感分类，可便于用户对网络平台信息的选取。

图3为本申请实施例提供的一种情感分类装置结构示意图。

如图3所示，该装置包括：

分词处理单元31，用于对待测样本进行分词处理，得到多个词特征；其中，待测样本为网络平台信息中的位于第一预设时间之后的评论文本；

第一概率计算单元32，用于使用预先设置的最大熵情感分类器，分别计算每个词特征的第一预测子概率和第二预测子概率；其中，第一预测子概率指示词特征为正面评论，第二预测子概率指示词特征为负面评论；最大熵情感分类器为使用网络平台信息中的位于第二预设时间之前的所有正评论文本和负评论文本作为训练样本集，利用最大熵分类算法进行训练得到的；第二预设时间早于第一预设时间；

第二概率计算单元33，用于将所有词特征的第一预测子概率进行乘积运算，得到第一预测概率；将所有词特征的第二预测子概率进行乘积运算，得到第二预测概率；

比较单元34，用于比较第一预测概率和第二预测概率；

情感分类确定单元35，用于根据比较结果，确定待测样本的情感类别；其中，当第一预测概率大于第二预测概率时，确定待测样本为正评论文本；当第一预测概率小于第二预测概率时，确定待预测样本为负评论文本。

进一步的，在本申请实施例提供的一种情感分类装置中，还包括：

情感分类结果判断单元36，用于比较确定的待测样本的情感类别与预先设置的待测样本的情感类别是否相同；以及，当相同是，得到第一分类结果，第一分类结果指示确定的待测样本的情感类别准确；以及，当不相同时，得到第二分类结果，第二分类结果指示确定的待测样本的情感类别不准确。

进一步的，在本申请实施例提供的一种情感分类装置中，当包括多个待测样本时，还包括：

情感分类结果准确率计算单元37，用于根据每个待测样本对应的第一分类结果/第二分类结果，计算所有待测样本对应的第一分类结果总数量以及第二分类结果总数量；以及，将第一分类结果总数量占第一分类结果总数量和第二分类结果之和的比重，确定为最大熵情感分类器的情感分类结果准确率。

可选概率确定单元38，用于根据确定的每个待测样本的情感类别，计算所有待测样本中正评论文本的总数量以及负评论文本的总数量；以及，将正评论文本的总数量占正评论文本的总数量和负评论文本的总数量之和的比重，确定为网络平台信息的可选概率。

最大熵情感分类器生成单元39，用于获取网络平台信息中的位于第二预设时间之前的所有评论文本作为训练样本集；评论文本包括正评论文本和负评论文本；以及，针对训练样本集中的每个评论文本，进行分词处理，得到多个词特征；以及，利用最大熵分类算法对训练样本集对应的各个词特征进行训练，得到最大熵情感分类器。

本申请实施例还提供一种情感分类***，该情感分类***包括：如上述实施例提供的的情感分类装置和最大熵情感分类器。

本申请实施例提供一种情感分类装置及***，通过对待测样本(其中，待测样本为网络平台信息中的位于第一预设时间之后的评论文本)进行分词处理，得到多个词特征；并使用预先设置的最大熵情感分类器，分别计算每个词特征的第一预测子概率和第二预测子概率；进而利用每个特征词第一预测子概率和第二预测子概率确定待测样本的情感类别的方式，实现了对网络平台信息中的评论文本的情感分类，可便于用户对网络平台信息的选取。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置或方法而言，由于其与实施例公开的方法或装置相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种情感分类方法，其特征在于，包括：

比较所述第一预测概率和第二预测概率；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，当包括多个待测样本时，该方法还包括：

4.根据权利要求3所述的方法，其特征在于，当包括多个待测样本时，该方法还包括：

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述最大熵情感分类器的生成过程包括：

6.一种情感分类装置，其特征在于，包括：

比较单元，用于比较所述第一预测概率和第二预测概率；

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求7所述的装置，其特征在于，当包括多个待测样本时，该装置还包括：

9.根据权利要求6-8任意一项所述的装置，其特征在于，还包括：

10.一种情感分类***，其特征在于，包括：如上述权利要求6-9任意一项所述的情感分类装置和最大熵情感分类器。