CN105893444A

CN105893444A - 情感分类方法及装置

Info

Publication number: CN105893444A
Application number: CN201510938180.2A
Authority: CN
Inventors: 康潮明
Original assignee: LeTV Information Technology Beijing Co Ltd
Current assignee: LeTV Information Technology Beijing Co Ltd
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2016-08-24
Also published as: WO2017101342A1

Abstract

本公开实施例提供了一种情感分类方法及装置，包括：获取待处理文档中的多个关键词，按照预设关联方式查找与每个所述关键词关联的至少一个关联词，利用预设情感词典确定查找的每个关键词和关联词的情感类别，统计每个情感类别对应的词语的总数量，将词语总数量最多的情感类别确定为所述待处理文档的情感类别。本公开能够通过提取文档关键词，获取情感主体关键词集合，有效的利用文档情感主体信息，忽略与待处理文档情感主体无关的噪音，通过关联规则算法，挖掘文档中与关键词关联的关联词的集合，将文档中词与词的语义结构关系利用起来，有效的提高文档情感分类的准确度。

Description

情感分类方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种情感分类方法及装置。

背景技术

随着互联网技术的普遍发展，在每部电影上映后，互联网上会产生大量的带有用户各种情感色彩或情感倾向性的新闻评论，这不仅可以给商家提供了一个关于电影舆论信息的平台，也可以为消费者提供了观影依据。

目前商家和消费者一般是通过手动搜索、浏览网络上的所有关于影片的信息，在搜索过程中还要人工筛选并甄别一些无用信息，筛选效率低、速度慢，这将浪费消费者及商家的大量时间和精力。

发明内容

为克服相关技术中存在的问题，本公开提供一种情感分类方法及装置。

根据本公开实施例的第一方面，提供一种情感分类方法，包括：

获取待处理文档中的多个关键词；

按照预设关联方式查找与每个所述关键词关联的至少一个关联词；

利用预设情感词典确定查找的每个关键词和关联词的情感类别；

统计每个情感类别对应的词语的总数量；

将词语总数量最多的情感类别确定为所述待处理文档的情感类别。

可选地，所述按照预设关联方式查找与每个所述关键词关联的至少一个关联词，包括：

获取待处理文档中所有词语的词性；

将所有词性为预设词性的词语，以及，位于预设黑名单中的词语删除；

判断删除后的词语中是否存在满足关联规则的词语对；

当存在满足关联规则的词语对时，判断是否存在包含任意一个所述关键词的词语对；

当存在包含任意一个所述关键词的词语对时，将每个词语对中除所述关键词之外的词语确定为所述词语对中与所述关键词关联的关联词。

可选地，所述方法还包括：

将获取的多个训练文档转化成目标格式；

利用目标格式的训练文档训练词向量模型；

获取属于不同情感类别的预设数量个种子词；

根据不同情感类别的种子词通过所述词向量模型计算属于不同情感类别的相似词；

选取相似度最大的预设数量个相似词作为属于不同情感类别的候选词；

根据所有属于不同情感类别的所述候选词构建所述情感词典。

可选地，所述获取待处理文档中的多个关键词，包括：

获取待处理文档中重要程度大于预设重要程度的关键词；

或者，获取用户输入的关键词。

可选地，所述获取待处理文档中重要程度大于预设重要程度的关键词，包括：

将待处理文档中所有词语中词性为预设词性的词语，以及，位于预设黑名单中的词语删除；

计算每个词语的词频；

计算每个词语的逆文档频率；

根据每个词语对应的所述词频和所述逆文档频率确定每个词语在所述待处理文档的重要程度。

根据本公开实施例的第二方面，提供一种情感分类装置，包括：

第一获取模块，用于获取待处理文档中的多个关键词；

查找模块，用于按照预设关联方式查找与每个所述关键词关联的至少一个关联词；

第一确定模块，用于利用预设情感词典确定查找的每个关键词和关联词的情感类别；

统计模块，用于统计每个情感类别对应的词语的总数量；

第二确定模块，用于将词语总数量最多的情感类别确定为所述待处理文档的情感类别。

可选地，所述查找模块包括：

第一获取子模块，用于获取待处理文档中所有词语的词性；

删除子模块，用于将所有词性为预设词性的词语，以及，位于预设黑名单中的词语删除；

第一判断子模块，用于判断删除后的词语中是否存在满足关联规则的词语对；

第二判断子模块，用于当存在满足关联规则的词语对时，判断是否存在包含任意一个所述关键词的词语对；

确定子模块，用于当存在包含任意一个所述关键词的词语对时，将每个词语对中除所述关键词之外的词语确定为所述词语对中与所述关键词关联的关联词。

可选地，所述装置还包括：

转化模块，用于将获取的多个训练文档转化成目标格式；

训练模块，用于利用目标格式的训练文档训练词向量模型；

第二获取模块，用于获取属于不同情感类别的预设数量个种子词；

计算模块，用于根据不同情感类别的种子词通过所述词向量模型计算属于不同情感类别的相似词；

选取模块，用于选取相似度最大的预设数量个相似词作为属于不同情感类别的候选词；

构建模块，用于根据所有属于不同情感类别的所述候选词构建所述情感词典。

可选地，所述第一获取模块包括：

第二获取子模块，用于获取待处理文档中重要程度大于预设重要程度的关键词；

或者，第三获取子模块，用于获取用户输入的关键词。

可选地，所述第二获取子模块包括：

删除单元，用于将待处理文档中所有词语中词性为预设词性的词语，以及，位于预设黑名单中的词语删除；

第一计算单元，用于计算每个词语的词频；

第二计算单元，用于计算每个词语的逆文档频率；

确定单元，用于根据每个词语对应的所述词频和所述逆文档频率确定每个词语在所述待处理文档的重要程度。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开通过获取待处理文档中的多个关键词，按照预设关联方式查找与每个所述关键词关联的至少一个关联词，利用预设情感词典确定查找的每个关键词和关联词的情感类别，统计每个情感类别对应的词语的总数量，可以将词语总数量最多的情感类别确定为所述待处理文档的情感类别。

本公开提供的该方法，能够通过提取文档关键词，获取情感主体关键词集合，有效的利用文档情感主体信息，忽略与待处理文档情感主体无关的噪音，通过关联规则算法，挖掘文档中与关键词关联的关联词的集合，将文档中词与词的语义结构关系利用起来，有效的提高文档情感分类的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种情感分类方法的流程图；

图2是图1中步骤S102的流程图；

图3是根据一示例性实施例示出的一种情感分类方法的另一种流程图；

图4是图1中步骤S101的流程图；

图5是根据一示例性实施例示出的一种情感分类装置的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

为了能够根据文档的情感主题对文档进行情感分类，如图1所示，在本公开的一个实施例中，提供一种情感分类方法，包括以下步骤。

在步骤S101中，获取待处理文档中的多个关键词。

在实际应用中，如果某个词语在某篇文本中出现次数越多，则这个词语可能对该文本越重要，出现次数通过词频(Term Frequency，缩写为TF)统计得到。但是对于所有文本来说，某个词出现的次越多，该词语对所有文本越没有区分性，反而越不重要，因此，需要找到一个权重系数，衡量该词的重要性。如果一个词不常见，但是它在该文本中多次出现，那么它在一定程度上体现了该文本的特性，即可以作为关键词，可以使用逆档频率(Inverse Document Frequency，缩写为IDF)作为权重系数，将词频(TF)和逆文档频率(IDF)这两个值相乘，就得到了一个词的TF-IDF值，某个词的TF-IDF值越大，则该词对文章的重要性越高，本公开实施例对一部电影下的所有新闻，计算其所有词语的TF-IDF值，通过设置一个阈值，构成一个关键词集合K。

在该步骤中，可以在待处理文档中提取多个出现频率最高得到多个关键词，也可以在待处理文档中提取最重要的多个关键词，还可以获取用户输入的多个关键词。

在步骤S102中，按照预设关联方式查找与每个所述关键词关联的至少一个关联词。

在本公开实施例中，预设关联方式可以指Apriori关联规则算法，关联词可以指与关键词关联的词语，关联是指支持度和置信度大于等于给定的最小支持度阈值和最小置信度阈值。

在该步骤中，可以利用Apriori关联规则算法在待处理文档中查找与关键词关联的至少一个关联词。

在步骤S103中，利用预设情感词典确定查找的每个关键词和关联词的情感类别。

在本公开实施例中，预设情感词典中的词语可以分为三个情感类别，正面情感类别、中性情感类别和负面情感类别，例如：喜欢、好、优秀、经典和爱不释手等可以为正面情感类别的词语，一般、不好不坏等可以为中性情感类别的词语，无聊、差、乏味等可以为负面情感类别的词语等。

在该步骤中，可以将每个关键词和关联词分别于预设情感词典中的所有词语进行对比，若当前关键词或者是关联词与预设情感词典中的任意一个词语相同，则可以将当前关键词或者关联词的情感类别确定为该预设情感词典中的词语所属的情感类别。

在步骤S104中，统计每个情感类别对应的词语的总数量。

在该步骤中，可以针对每个情感类别设置一个情感变量，例如：countP、countM和countN，在每检测到任何一个与预设情感词典中的词语相同的关键词或者关联词时，可以根据当前关键词或者关联词所属的情感类别对情感变量加1。

在步骤S105中，将词语总数量最多的情感类别确定为所述待处理文档的情感类别。

在该步骤中，可以通过将每个情感类别对应的情感变量进行对比，将情感变量最大的情感类别确定为待处理文档的情感类别。

本公开实施例提供的该方法，能够通过提取文档关键词，获取情感主体关键词集合，有效的利用文档情感主体信息，忽略与待处理文档情感主体无关的噪音，通过关联规则算法，挖掘文档中与关键词关联的关联词的集合，将文档中词与词的语义结构关系利用起来，有效的提高文档情感分类的准确度。

如图2所示，在本公开的又一实施例中，所述步骤S102包括以下步骤。

在步骤S201中，获取待处理文档中所有词语的词性。

在本公开实施例中，词性可以指名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词和拟声词等。

在该步骤中，可以将待处理文档按照标点符号进行切分，得到包含n个句子的集合S＝{s1,s2,...,sn}，对每个句子si(1≤i≤n)进行分词，对每个词语进行词性标注，然后获取所有词语的词性。

在步骤S202中，将所有词性为预设词性的词语，以及，位于预设黑名单中的词语删除。

在本公开实施例中，预设词性可以指叹词、介词、拟声词和数量词等，预设黑名单可以指预先设定的与文档的情感分类过程无关的词语等。

在该步骤中，可以将词性为预设词性的词语，以及与黑名单中的词语相同的词语进行删除，得到包含n个词语的集合W，W＝{w1,w2,...,wn}。

在步骤S203中，判断删除后的词语中是否存在满足关联规则的词语对。

对W中的每个元素wi(1≤i≤n)，分别计算任意两个词语wordA、wordB构成的词语对的支持度和置信度。计算支持度，即A与B的联合概率。计算公式如下：

P(A,B)＝count(A∩B)/(count(A)+count(B))

其中，count(A∩B)表示A和B同时出现的频次，count(A)表示A出现的频次，count(B)表示B出现的频次，将支持度P(A,B)大于等于预先设定最小支持度阈值的(A，B)词语对作为频繁项集，计算置信度，即在A发生条件下B发生的概率，计算公式如下：

P(B|A)＝P(A,B)/P(A)

其中，P(A,B)为上一步计算得到的支持度，P(A)为A发生的概率，获取关联项集，在前述得到的频繁项集中，将满足置信度P(B|A)大于预先设定最小置信度阈值的词语对(wordA，wordB)加入到关联项集合C中。

当存在满足关联规则的词语对时，在步骤S204中，判断是否存在包含任意一个所述关键词的词语对。

在该步骤中，可以对关联项集合C进行过滤，判断集合C中每个词语对里面的两个词语，是否包含前面提取的关键词集合K中的元素，如果不是，则将该词语对从集合C中去掉。集合C最后剩下元组组成的集合记作D。

当存在包含任意一个所述关键词的词语对时，在步骤S205中，将每个词语对中除所述关键词之外的词语确定为所述词语对中与所述关键词关联的关联词。

本公开实施例提供的该方法，能够利用关联规则自动查找与关键词关联的关联词，方法简单且高效、计算量小。

如图3所示，在本公开的又一实施例中，所述方法还包括以下步骤。

在步骤S301中，将获取的多个训练文档转化成目标格式。

在该步骤中，可以将从网上搜集的大量文本，作为训练文档，将训练文档处理成word2vec工具要求的输入格式。word2vec是一款将词表征为实数值向量的工具，其利用深度学习的思想，将每个词映射成K维实数向量(K一般为模型中的超参数)，通过词之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度。

在步骤S302中，利用目标格式的训练文档训练词向量模型。

在步骤S303中，获取属于不同情感类别的预设数量个种子词。

在该步骤之前，可以通过人工等的方式，搜集一些情感词语作为种子词。

在步骤S304中，根据不同情感类别的种子词通过所述词向量模型计算属于不同情感类别的相似词。

在步骤S305中，选取相似度最大的预设数量个相似词作为属于不同情感类别的候选词。

例如，可以选取相似度最大的前5个相似词作为候选词，然后以选取的5个候选词作为种子词，重复步骤S304和步骤S305，可以迭代3次，选取迭代后的每个情感类别下的一定数量的相似词，例如15个，作为不同情感类别下的候选词。

在步骤S306中，根据所有属于不同情感类别的所述候选词构建所述情感词典。

在该步骤中，可以将每个情感类别下的所有候选词分别构建成对应的子情感词典，例如：正面词典P、中性词典M和负面词典N等，这些子情感词典构成完整的情感词典。

本公开实施例提供的该方法，能够利用大量的训练文本作为训练素材，不断根据种子词生成相似词，并选取相似度最高的相似词作为候选词构建情感词典，构建的词典应用面更广，更适宜大数据条件下作为情感分类的依据。

在本公开的又一实施例中，所述步骤S101包括以下步骤。

在步骤S401中，获取待处理文档中重要程度大于预设重要程度的关键词。

在该步骤中，可以通过计算词语在待处理文档中出现的次数也就是词频，来判断词语在待处理文档中的重要程度。

或者，在步骤S402中，获取用户输入的关键词。

在该步骤中，用户可以自定义一些关键词，比如，用户想要看与关于特定关键词的文章的情感分类，如：用户输入的关键词是导演A，那么可以将导演A作为待处理文档的关键词等。

本公开实施例提供的该方法，能够提取文档的关键词，以便能够根据提取的关键词确定文档的情感分类。

如图4所示，在本公开的又一实施例中，所述步骤S401包括以下步骤。

在步骤S501中，将待处理文档中所有词语中词性为预设词性的词语，以及，位于预设黑名单中的词语删除。

在步骤S502中，计算每个词语的词频。

在该步骤中，词频(TF)＝某个词语在待处理文档中出现的次数/待处理文档的总词数，词频可以取商的整数部分，并且这里由于片文本的长度不一，除以文本总词数是为了将词频进行标准化。

在步骤S503中，计算每个词语的逆文档频率。

逆文档频率(IDF)＝log(文本总数/(包含该词的文本数+1))，如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。

在步骤S504中，根据每个词语对应的所述词频和所述逆文档频率确定每个词语在所述待处理文档的重要程度。

在该步骤中，TF-IDF＝词频(TF)*逆文档频率(IDF)，在这里可以设置一个阈值a＝0.7，当TF-IDF>a时，则将词加入关键词集合K中，集合K中每个元素可以由关键词语本身和该词语的TF-IDF值<keyword,score>组成，其中，keyword表示关键词，score表示TF-IDF值。

本公开实施例提供的该方法，可以根据逆文档频率及词频计算每个词语在待处理文档中的重要程度，计算量小，结果准确。

如图5所示，在本公开的又一实施例中，提供一种情感分类装置，包括：第一获取模块601、查找模块602、第一确定模块603、统计模块604和第二确定模块605。

第一获取模块601，用于获取待处理文档中的多个关键词。

查找模块602，用于按照预设关联方式查找与每个所述关键词关联的至少一个关联词。

第一确定模块603，用于利用预设情感词典确定查找的每个关键词和关联词的情感类别。

统计模块604，用于统计每个情感类别对应的词语的总数量。

第二确定模块605，用于将词语总数量最多的情感类别确定为所述待处理文档的情感类别。

在本公开的又一实施例中，所述查找模块包括：第一获取子模块、删除子模块、第一判断子模块、第二判断子模块和确定子模块。

第一获取子模块，用于获取待处理文档中所有词语的词性。

删除子模块，用于将所有词性为预设词性的词语，以及，位于预设黑名单中的词语删除。

第一判断子模块，用于判断删除后的词语中是否存在满足关联规则的词语对。

第二判断子模块，用于当存在满足关联规则的词语对时，判断是否存在包含任意一个所述关键词的词语对。

在本公开的又一实施例中，所述装置还包括：转化模块、训练模块、第二获取模块、计算模块、选取模块和构建模块。

转化模块，用于将获取的多个训练文档转化成目标格式。

训练模块，用于利用目标格式的训练文档训练词向量模型。

第二获取模块，用于获取属于不同情感类别的预设数量个种子词。

计算模块，用于根据不同情感类别的种子词通过所述词向量模型计算属于不同情感类别的相似词。

选取模块，用于选取相似度最大的预设数量个相似词作为属于不同情感类别的候选词。

在本公开的又一实施例中，所述第一获取模块包括：第二获取子模块或第三获取子模块。

第二获取子模块，用于获取待处理文档中重要程度大于预设重要程度的关键词。

或者，第三获取子模块，用于获取用户输入的关键词。

在本公开的又一实施例中，所述第二获取子模块包括：删除单元、第一计算单元、第二计算单元和确定单元。

删除单元，用于将待处理文档中所有词语中词性为预设词性的词语，以及，位于预设黑名单中的词语删除。

第一计算单元，用于计算每个词语的词频。

第二计算单元，用于计算每个词语的逆文档频率。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由所附的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种情感分类方法，其特征在于，包括：

获取待处理文档中的多个关键词；

统计每个情感类别对应的词语的总数量；

2.根据权利要求1所述的情感分类方法，其特征在于，所述按照预设关联方式查找与每个所述关键词关联的至少一个关联词，包括：

获取待处理文档中所有词语的词性；

判断删除后的词语中是否存在满足关联规则的词语对；

3.根据权利要求1所述的情感分类方法，其特征在于，所述方法还包括：

将获取的多个训练文档转化成目标格式；

利用目标格式的训练文档训练词向量模型；

获取属于不同情感类别的预设数量个种子词；

4.根据权利要求1所述的情感分类方法，其特征在于，所述获取待处理文档中的多个关键词，包括：

获取待处理文档中重要程度大于预设重要程度的关键词；

或者，获取用户输入的关键词。

5.根据权利要求4所述的情感分类方法，其特征在于，所述获取待处理文档中重要程度大于预设重要程度的关键词，包括：

计算每个词语的词频；

计算每个词语的逆文档频率；

6.一种情感分类装置，其特征在于，包括：

第一获取模块，用于获取待处理文档中的多个关键词；

统计模块，用于统计每个情感类别对应的词语的总数量；

7.根据权利要求6所述的情感分类装置，其特征在于，所述查找模块包括：

第一获取子模块，用于获取待处理文档中所有词语的词性；

8.根据权利要求6所述的情感分类装置，其特征在于，所述装置还包括：

转化模块，用于将获取的多个训练文档转化成目标格式；

训练模块，用于利用目标格式的训练文档训练词向量模型；

9.根据权利要求6所述的情感分类装置，其特征在于，所述第一获取模块包括：

或者，第三获取子模块，用于获取用户输入的关键词。

10.根据权利要求9所述的情感分类装置，其特征在于，所述第二获取子模块包括：

第一计算单元，用于计算每个词语的词频；

第二计算单元，用于计算每个词语的逆文档频率；