CN109522928A

CN109522928A - 文本的主题情感分析方法、装置、电子设备及存储介质

Info

Publication number: CN109522928A
Application number: CN201811198872.8A
Authority: CN
Inventors: 张熙; 曲思宇
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2019-03-26

Abstract

本发明实施例提供的一种文本的主题情感分析方法实现了针对待分析文档，获得该文档中的主题词和情感词，根据各个主题词确定主题，根据该文档的主题，分别计算每一情感词的情感为正向的概率和为负向的概率，并根据每一情感词的情感为正向的概率和为负向的概率，计算获得每一情感词的情感倾向，根据各个情感词的情感倾向，确定该文档的主题‑情感倾向。因此，本发明实施例提供的方法根据文档的主题确定各个情感词的正向和负向概率，进而确定文档的主题‑情感倾向。不需要将文档划分成几个句子，也不需要根据其他句子的主题来确定每一句子的主题。解决了现有技术中当文档是只有一句话的短文本时，无法获得该短文本的主题‑情感倾向的问题。

Description

文本的主题情感分析方法、装置、电子设备及存储介质

技术领域

本发明涉及主题情感分析技术领域，特别是涉及一种文本的主题情感分析方法、装置、电子设备及存储介质。

背景技术

随着互联网的发展，越来越多的用户会在互联网上发表各种言论，因而产生了海量的短文本信息。用户的言论信息通常包含了用户的情感色彩和情感倾向性，因而，近年来，出现了大量针对互联网上用户的言论信息进行情感分析的方法。

在对文本进行情感分析时仅仅提取文本中的情感信息是不可靠的，同一情感词在不同主题下可以表达不同的情感倾向，例如，“低能”一词中的“低”在与智商相关的话题中通常具有负向情感倾向；然而，如果在一个与食物有关的话题中，如“低热量”一词中“低”通常具有正向情感倾向，因此，在做情感分析时，有必要将主题信息加入，得到一个主题相关的情感极性，从而，可以比较准确地获得文本中的情感信息。现有技术中，针对文档的主题情感分析的方法，通常是先将文档划分成几个句子，然后对每个句子的主题-情感进行采样，最后再对各个句子的主题-情感进行归纳总结获得文档的与主题相关的情感倾向。

然而，发明人在实现本发明的过程中，发现现有的主题情感分析方法至少存在以下问题：需要先将文档划分成几个句子，进一步的，在针对每一句子获得每一句子的主题时，需要根据其他句子的主题来确定该句子的主题。

然而针对只有一句话的短文本，比如互联网上有很多评论都只有简短的一句话，现有的主题情感分析方法就无法将该短文本划分成几个句子，因而，也无法根据其他句子的主题来确定该句子的主题，进而，无法获得该短文本的主题-情感倾向。

发明内容

本发明实施例的目的在于提供一种文本的主题情感分析方法、装置、电子设备及存储介质，以能够获得只有一句话的短文本的主题-情感倾向。具体技术方案如下：

为了达到上述目的，第一方面，本发明实施例提供了一种文本的主题情感分析方法，所述方法包括：

获得待分析文档；

按预设分类算法，计算获得待分析文档中的主题词和情感词；

按预设的第一采样算法和第一迭代次数，针对待分析文档中的每一主题词，分别计算每一主题词的主题分别为预设的K个主题的概率，获得每个主题词的K个主题概率，其中，K为不小于1的整数；

根据每一主题词的K个主题概率，用预设的确定算法，计算获得每一主题词的主题；

当达到预设的第一迭代次数时，统计所述待分析文档中每一主题词的主题，根据统计结果确定所述待分析文档的主题；

按预设的情感词生成算法和第二迭代次数，根据所述待分析文档的主题，计算待分析文档中每一情感词的生成概率；

按预设的第二采样算法，根据所述待分析文档的主题，针对所述待分析文档中的每一情感词，分别计算每一情感词的情感为正向的概率和为负向的概率；

根据每一情感词的情感为正向的概率和为负向的概率，用预设的确定算法，计算获得每一情感词的情感倾向；

当达到预设的第二迭代次数时，统计所述待分析文档中每一情感词的情感倾向，根据统计结果确定所述待分析文档的主题-情感倾向。

可选的，所述按预设分类算法，计算获得待分析文档中的主题词和情感词的步骤，包括：

根据预存的背景词列表和情感词列表，获得待分析文档中的背景词和情感词；

将获得的待分析文档中的背景词作为候选背景词，按预设的背景词生成算法，计算待分析文档中每一候选背景词的生成概率；

将背景词的生成概率满足预设概率条件的候选背景词确定为最终的背景词；

将待分析文档中除背景词和情感词的词作为候选主题词，按预设的主题词生成算法，计算待分析文档中每一候选主题词的生成概率；

将主题词的生成概率满足预设概率条件的候选主题词确定为最终的主题词。

可选的，所述按预设的背景词生成算法，计算待分析文档中每一候选背景词的生成概率的步骤，包括：

利用背景词的生成概率公式：

计算该背景词所在位置生成背景词的概率；

其中，B_v表示背景词v在所述待分析文档d及已分析文档中出现的次数，α_v表示当背景词为v时预设的先验分布α的值，B_m表示背景词m在所述待分析文档d及已分析文档中出现的次数，α_m表示当背景词为m时预设的先验分布α的值，w表示待分析文档d中的词，V₀表示语料库中背景词的数量；

所述将背景词的生成概率满足预设概率条件的候选背景词确定为最终的背景词的步骤，包括：

将背景词的生成概率大于预设背景词概率阈值的候选背景词确定为最终的背景词。

可选的，所述按预设的主题词生成算法，计算待分析文档中每一候选主题词的生成概率的步骤，包括：

利用主题词的生成概率公式：

计算该主题词所在的位置生成主题词的概率；

其中，n_k，v表示主题为k的主题词v在所述待分析文档d及已分析文档中出现的次数，α_k，v表示主题为k主题词为v时预设的先验分布α的值，n_k，m表示主题为k的主题词m在所述待分析文档d及已分析文档中出现的次数，α_k，m表示主题为k主题词为m时预设的先验分布α的值，n_d，k表示待分析文档d中主题为k的主题词出现的次数，β_d，k表示待分析文档d中主题为k时预设的先验分布β的值，n_d，l表示待分析文档d中主题为l的主题词出现的次数，β_d，l表示待分析文档d中主题为l时预设的先验分布β的值，K为预设的主题数量，V₁表示语料库中主题词的数量；

所述将主题词的生成概率满足预设概率条件的候选主题词确定为最终的主题词的步骤，包括：

将主题词的生成概率大于预设主题词概率阈值的候选主题词确定为最终的主题词。

可选的，所述按预设的第一采样算法和第一迭代次数，针对待分析文档中的每一主题词，分别计算每一主题词的主题分别为预设的K个主题的概率，获得每个主题词的K个主题概率的步骤，包括：

利用对主题词的主题进行采样的吉布斯采样公式：

计算获得所述待分析文档中每一主题词的K个主题概率；

其中，w表示所述待分析文档d及已分析文档中的所有词。-(d，v)表示待分析文档d中除了主题词v的其它主题词，表示待分析文档d中主题词v的主题，表示待分析文档d中除了主题外的其它主题，-(v)表示语料库中除了主题词v外的其它主题词，n_d，k，-v表示待分析文档d中除了主题词v以外主题为k的所有主题词，n_d，l，-v表示待分析文档d中除了主题词v以外主题为l的所有主题词，β_d，k表示待分析文档d中主题为k时预设的先验分布β的值，β_d，l表示待分析文档d中主题为l时预设的先验分布β的值，n_k，-v表示除了主题词v以外主题为k的所有主题词在所述待分析文档d及已分析文档中出现的次数，α_k，v表示主题为k词为v时预设的先验分布α的值，n_k，-m表示除了主题词m以外主题为k的所有主题词在所述待分析文档d及已分析文档中出现的次数，α_k，m表示主题为k词为m时预设的先验分布α的值，w_-v表示已分析文档中除了主题词v外所有其它主题词，K为预设的主题数量，V₁表示语料库中主题词的数量；

所述根据每一主题词的K个主题概率，用预设的确定算法，计算获得每一主题词的主题的步骤，包括：

获得一个0～1之间的随机数，将该随机数落入到的主题的概率范围内的主题，确定为该主题词的主题。

可选的，所述按预设的情感词生成算法和第二迭代次数，根据所述待分析文档的主题，计算待分析文档中每一情感词的生成概率的步骤，包括：

利用情感词的生成概率公式：

计算该情感词所在位置生成情感词的概率；

其中，表示当主题为时，情感倾向为s的情感词v在所述待分析文档d及已分析文档中出现的次数，表示当主题为情感倾向为s，词为v时预设的先验分布λ的值，表示当主题为时，情感倾向为s的情感词m在所述待分析文档d及已分析文档中出现的次数，表示当主题为情感倾向为s，词为m时预设的先验分布λ的值，n_d，s表示待分析文档d中情感倾向为s的情感词出现的次数，γ_d，s表示待分析文档d中情感倾向为s时预设的先验分布γ的值，n_d，l表示待分析文档d中情感倾向为l的情感词出现的次数，γ_d，l表示待分析文档d中情感为l时预设的先验分布γ的值，S为情感倾向的数量，V₂表示语料库中情感词的数量，为待分析文档d的主题。

可选的，所述按预设的第二采样算法，根据所述待分析文档的主题，针对待分析文档中的每一情感词，分别计算每一情感词的情感为正向的概率和为负向的概率的步骤，包括：

利用对情感词的情感倾向进行采样的吉布斯采样公式：

计算获得所述待分析文档中每一情感词的情感为正向的概率和为负向的概率；

其中，表示待分析文档d中情感词v的情感倾向，表示待分析文档d中除了情感倾向外的其它情感倾向，n_d，s，-v表示待分析文档d中除了情感词v以外情感倾向为s的所有情感词，γ_d，s表示待分析文档d中情感倾向为s时预设的先验分布γ的值，n_d，l，-v表示待分析文档d中除了情感词v以外情感倾向为l的所有情感词，γ_d，l表示待分析文档d中情感倾向为l时预设的先验分布γ的值，表示当主题为时，情感倾向为s的除情感词v以外的其它情感词在所述待分析文档d及已分析文档中出现的次数，表示当主题为情感倾向为s，情感词为v时预设的先验分布λ的值，表示当主题为时，情感倾向为s的除情感词m以外的其它情感词在所述待分析文档d及已分析文档中出现的次数，表示当主题为情感倾向为s，词为m时预设的先验分布λ的值，S为情感倾向的数量，V₂表示语料库中情感词的数量，为待分析文档d的主题；

所述根据每一情感词的情感为正向的概率和为负向的概率，用预设的确定算法，计算获得每一情感词的情感倾向的步骤，包括：

获得一个0～1之间的随机数，将该随机数落入到的情感倾向的概率范围内的情感倾向，确定为该情感词的情感倾向。

第二方面，本发明实施例提供了一种文本的主题情感分析装置，所述装置包括：

文档获得模块，用于获得待分析文档；

获得模块，用于按预设分类算法，计算获得待分析文档中的主题词和情感词；

主题概率获得模块，用于按预设的第一采样算法和第一迭代次数，针对待分析文档中的每一主题词，分别计算每一主题词的主题分别为预设的K个主题的概率，获得每个主题词的K个主题概率，其中，K为不小于1的整数；

主题确定模块，用于根据每一主题词的K个主题概率，用预设的确定算法，计算获得每一主题词的主题；

统计模块，用于当达到预设的第一迭代次数时，统计所述待分析文档中每一主题词的主题，根据统计结果确定所述待分析文档的主题；

情感词生成模块，用于按预设的情感词生成算法和第二迭代次数，根据所述待分析文档的主题，计算待分析文档中每一情感词的生成概率；

情感概率获得模块，用于按预设的第二采样算法，根据所述待分析文档的主题，针对所述待分析文档中的每一情感词，分别计算每一情感词的情感为正向的概率和为负向的概率；

情感确定模块，用于根据每一情感词的情感为正向的概率和为负向的概率，用预设的确定算法，计算获得每一情感词的情感倾向；

所述统计模块，还用于当达到预设的第二迭代次数时，统计所述待分析文档中每一情感词的情感倾向，根据统计结果确定所述待分析文档的主题-情感倾向。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如下步骤：

获得待分析文档；

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

获得待分析文档；

本发明实施例提供的一种文本的主题情感分析方法、装置、电子设备及存储介质，针对待分析文档，获得待分析文档中的主题词和情感词，根据各个主题词确定主题，根据待分析文档的主题，分别计算每一情感词的情感为正向的概率和为负向的概率，并根据每一情感词的情感为正向的概率和为负向的概率，计算获得每一情感词的情感倾向，根据各个情感词的情感倾向，确定待分析文档的主题-情感倾向。因此，本发明实施例提供的方法根据文档的主题确定各个情感词的正向和负向概率，进而确定文档的主题-情感倾向。不需要将文档划分成几个句子，也不需要根据其他句子的主题来确定每一句子的主题。解决了现有技术中当文档是只有一句话的短文本时，无法获得该短文本的主题-情感倾向的问题。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本的主题情感分析方法的一种流程示意图；

图2为本发明实施例提供的文本的主题情感分析方法的另一种流程示意图；

图3为图2所示实施例的分析模型的概率示意图；

图4为本发明实施例提供的文本的主题情感分析装置的结构示意图；

图5本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术无法获得只有一句话的短文本的主题-情感倾向问题，本发明实施例提供了一种文本的主题情感分析方法、装置、电子设备及存储介质。

本发明实施例提供的一种文本的主题情感分析方法，核心的步骤为：

第一步：计算获得待分析文档的主题分布，然后，可以通过统计的方式将概率最大的主题作为该文档的主题。

第二步：根据上一步获得的主题来计算获得该文档的情感分布，再通过统计的方式将概率最大的情感倾向作为该文档的情感倾向。

具体的，参见图1，本发明实施例提供的文本的主题情感分析方法，包括以下步骤：

S101：获得待分析文档。

S102：按预设分类算法，计算获得待分析文档中的主题词和情感词。

具体的，可以根据预存的背景词列表和情感词列表，获得待分析文档中的背景词和情感词；

在实际应用中，在对待分析文档中的词进行分类之前还包括：

用分词算法，将待分析文档切分成词的组合，具体的，可以是对于待分析文档中的每个句子，根据分词典将句子切分成多个词。

S103：按预设的第一采样算法和第一迭代次数，针对待分析文档中的每一主题词，分别计算每一主题词的主题分别为预设的K个主题的概率，获得每个主题词的K个主题概率，其中，K为不小于1的整数。

具体的，可以为：

利用对主题词的主题进行采样的吉布斯采样公式：

计算获得所述待分析文档中每一主题词的K个主题概率。

其中，w表示所述待分析文档d及已分析文档中的所有词。-(d，v)表示待分析文档d中除了主题词v的其它主题词，表示待分析文档d中主题词v的主题，表示待分析文档d中除了主题外的其它主题，-(v)表示语料库中除了主题词v外的其它主题词，n_d，k，-v表示待分析文档d中除了主题词v以外主题为k的所有主题词，n_d，l，-v表示待分析文档d中除了主题词v以外主题为l的所有主题词，β_d，k表示待分析文档d中主题为k时预设的先验分布β的值，β_d，l表示待分析文档d中主题为l时预设的先验分布β的值，n_k，-v表示除了主题词v以外主题为k的所有主题词在所述待分析文档d及已分析文档中出现的次数，α_k，v表示主题为k词为v时预设的先验分布α的值，n_k，-m表示除了主题词m以外主题为k的所有主题词在所述待分析文档d及已分析文档中出现的次数，α_k，m表示主题为k词为m时预设的先验分布α的值，w_-v表示已分析文档中除了主题词v外所有其它主题词，K为预设的主题数量，V₁表示语料库中主题词的数量。

对于上述公式，在迭代的过程中，每确定出一个主题词的主题，n_d，k，-v和n_k，-v就会变化。比如：在待分析文档d中，确定出某一主题词的主题为k，则表示待分析文档d中除了主题词v以外主题为k的所有主题词的n_d，k，-v就会加1，而表示除了主题词v以外主题为k的所有主题词在所述待分析文档d及已分析文档中出现的次数就会加1。

S104：根据每一主题词的K个主题概率，用预设的确定算法，计算获得每一主题词的主题。

具体的，可以为：

获得一个0～1之间的随机数，将该随机数落入到的主题的概率范围内的主题，确定为该主题词的主题。例如：预设了5个主题：主题1、主题2、主题3、主题4和主题5，利用吉布斯采样算法对所述待分析文档中的某一主题词进行采样，获得了5个主题概率P1＝0.1、P2＝0.2、P3＝0.3、P4＝0.15、P5＝0.25，则P1～P5的概率范围分别为：P1＝[0，0.1]、P2＝[0.1，0.3]、P3＝[0.3，0.6]、P4＝[0.6，0.75]、P5＝[0.75，1]。在用预设的确定算法，确定该主题词的主题时，可以利用随机函数产生一个0～1之间的随机数，比如获得的随机数为0.5，由于0.5是落在P3＝[0.3，0.6]的主题概率范围内的，因而，确定该主题词的主题为主题3。

S105：当达到预设的第一迭代次数时，统计待分析文档中每一主题词的主题，根据统计结果确定待分析文档的主题。

例如：待分析文档中有A、B、C三个主题词，上述三个主题词对应的主题分别为主题1、主题2、主题1，通过统计可以得知主题1出现的次数大于主题2出现的次数，从而可以确定待分析文档的主题为主题1。

如果在一种具体的实施例中，针对上述列举的例子，出现三个主题词对应的主题均不相同，则可以将第一个主题词的主题确定为该待分析文档的主题，或从三个主题中，随机选一个主题作为该待分析文档的主题，当然本实施例所描述的情况，在实际应用中不常出现。

S106：按预设的情感词生成算法和第二迭代次数，根据所述待分析文档的主题，计算待分析文档中每一情感词的生成概率。

具体的，可以为：

根利用情感词的生成概率公式：

计算该情感词所在位置生成情感词的概率。

对于上述公式，在迭代的过程中，每确定出一个情感词的情感倾向，和n_d，s就会变化。比如：在待分析文档d中，确定出某一情感词的情感倾向为正向，则表示当主题为时，情感倾向为正向的情感词在所述待分析文档d及已分析文档中出现的次数加1，而表示待分析文档d中情感倾向为正向的情感词出现的次数n_d，s就会加1。

S107：按预设的第二采样算法，根据所述待分析文档的主题，针对所述待分析文档中的每一情感词，分别计算每一情感词的情感为正向的概率和为负向的概率。

具体的，可以为：

利用对情感词的情感倾向进行采样的吉布斯采样公式：

计算获得所述待分析文档中每一情感词的情感为正向的概率和为负向的概率。

其中，表示待分析文档d中情感词v的情感倾向，表示待分析文档d中除了情感倾向外的其它情感倾向，n_d，s，-v表示待分析文档d中除了情感词v以外情感倾向为s的所有情感词，γ_d，s表示待分析文档d中情感倾向为s时预设的先验分布γ的值，n_d，l，-v表示待分析文档d中除了情感词v以外情感倾向为l的所有情感词，γ_d，l表示待分析文档d中情感倾向为l时预设的先验分布γ的值，表示当主题为时，情感倾向为s的除情感词v以外的其它情感词在所述待分析文档d及已分析文档中出现的次数，表示当主题为情感倾向为s，情感词为v时预设的先验分布λ的值，表示当主题为时，情感倾向为s的除情感词m以外的其它情感词在所述待分析文档d及已分析文档中出现的次数，表示当主题为情感倾向为s，词为m时预设的先验分布λ的值，S为情感倾向的数量，V₂表示语料库中情感词的数量，为待分析文档d的主题。

S108：根据每一情感词的情感为正向的概率和为负向的概率，用预设的确定算法，计算获得每一情感词的情感倾向。

具体的，可以为：

获得一个0～1之间的随机数，将该随机数落入到的情感倾向的概率范围内的情感倾向，确定为该情感词的情感倾向。比如：获得的某一情感词的情感为正向的概率P1＝0.75，情感为负向的概率P2＝0.25，则P1、P2的概率范围分别为：P1＝[0，0.75]、P2＝[0.75，1]。在用预设的确定算法，确定该情感词的情感倾向时，可以利用随机函数产生一个0～1之间的随机数，比如获得的随机数为0.2，由于0.2是落在P1＝[0，0.75]的概率范围内的，因而，确定该情感词的情感倾向为正向。

S109：当达到预设的第二迭代次数时，统计所述待分析文档中每一情感词的情感倾向，根据统计结果确定所述待分析文档的主题-情感倾向。

例如：待分析文档中有A、B、C三个情感词，上述三个情感词对应的情感倾向分别为正向、正向、负向，通过统计可以得知情感倾向为正向出现的次数大于情感倾向为负向出现的次数，从而可以确定待分析文档的情感倾向为正向。

如果在一种具体的实施例中，待分析文档中有A、B二个情感词而情感词A、B对应的情感倾向分别为正向、负向时，则可以将第一个情感词的情感倾向确定为该待分析文档的情感倾向，或从两个情感倾向中，随机选一个情感倾向作为该待分析文档的情感倾向，当然本实施例所描述的情况，在实际应用中不常出现。

在一种具体的实施例中，用户可以在算法运行时设置两次迭代次数，将上述第一迭代次数和第二迭代次数设置为不同的次数，比如：将第一迭代次数设置为20次，将第二迭代次数设置为10次。

在其他实施例中，用户可以将上述第一迭代次数和第二迭代次数设置为相同的次数，此时，用户只需要在算法运行开始时，设置一次迭代次数。

由图1可见，本发明实施例提供的一种文本的主题情感分析方法，可以实现针对待分析文档，获得待分析文档中的主题词和情感词，根据各个主题词确定主题，根据待分析文档的主题，分别计算每一情感词的情感为正向的概率和为负向的概率，并根据每一情感词的情感为正向的概率和为负向的概率，计算获得每一情感词的情感倾向，根据各个情感词的情感倾向，确定待分析文档的主题-情感倾向。因此，本发明实施例提供的方法根据文档的主题确定各个情感词的正向和负向概率，进而确定文档的主题-情感倾向。不需要将文档划分成几个句子，也不需要根据其他句子的主题来确定每一句子的主题。解决了现有技术中当文档是只有一句话的短文本时，无法获得该短文本的主题-情感倾向的问题。

在实际应用中，网络中一句话的短文本可能数量非常多，这种情况下可以将这些短文本都作为待分析文档一起进行分析。以下，对这种情况的实施例进行详细说明。

首先，介绍以下该实施例中所用到的算法中使用的符号。具体如表一所示。

表一

如图2所示，该实施例的具体过程，包括如下步骤：

S201：获取情感词列表，背景词列表。

S202：获取所有待分析文档，并为每一待分析文档生成一个文档对象。

S203：根据情感词列表和背景词列表为所有待分析文档中的词进行分类。

在一种具体的实施例中，可以通过背景词列表和情感词列表，将文档中的词分为三类，分别为主题词(c＝1)、情感词(c＝2)和背景词(c＝0)，其中，将除背景词和情感词以外的词作为主题词，背景词为对文档主题和情感没有影响的词。

例如，在实际应用中，可以采用台湾大学NTUSD情感词列表来为文档中的情感词进行分类，若文档中一个词在该列表中，则将其标记为情感词。

S204：用户设定迭代次数和待分析文档主题个数K，主题编号分别为1到K。程序自动设定先验分布α、β、λ、γ，并为文档中的每个主题词，随机初始化一个主题。

S205：选择第一个待分析文档，设置为待分析文档d。

S206：当待分析文档d中某一位置的词为背景词时，根据先验分布计算该位置生成背景词的概率。

具体的，当待分析文档d中某一位置的词为背景词时，利用背景词的生成概率公式：

计算该位置生成背景词的概率。

S207：当待分析文档d中某一位置的词为主题词时，根据先验分布和待分析文档d中的其他主题词计算该位置生成主题词的概率。

具体的，当待分析文档d中某一位置的词为主题词时，利用主题词的生成概率公式：

计算该主题词所在的位置生成主题词的概率。

S208：根据先验分布和待分析文档d中的其他主题词的主题计算待分析文档d中每一主题词的主题。

具体的，对待分析文档d中的每一主题词，利用对主题词的主题进行采样的吉布斯采样公式：

计算获得所述待分析文档d中每一主题词的K个主题概率，并根据每一主题词的K个主题概率，可以用随机函数，获得一个0～1之间的随机数，将该随机数落入到的主题的概率范围内的主题，确定为该主题词的主题。

S209：选择下一个待分析文档，设置为待分析文档d，

S210：判断是否达到用户设定的迭代次数，如果达到用户设定的迭代次数，则执行步骤S211；如果未达到用户设定的迭代次数，则返回执行步骤S206。

S211：依次获得每一待分析文档的背景词的分布、主题词分布和主题分布，并根据每一待分析文档的主题分布分别统计获得每一待分析文档的主题。

S212：选择第一个待分析文档，设置为待分析文档d。

S213：当待分析文档d中某一位置的词为情感词时，根据待分析文档d的文档主题、先验分布和待分析文档d中的其他情感词计算该位置生成主题词的概率。

具体的，当待分析文档中某一位置的词为情感词时，利用情感词的生成概率公式：

计算该位置生成情感词的概率。

S214：根据待分析文档d的文档主题、先验分布和待分析文档d中的其他情感词的情感倾向计算待分析文档d中每一情感词的情感倾向。

具体的，对分析文档d中的每一情感词，利用对情感词的情感倾向进行采样的吉布斯采样公式：

计算获得所述分析文档d中每一情感词情感为正向的概率和为负向的概率，并根据该情感词情感为正向的概率和为负向的概率，可以用随机函数，获得一个0～1之间的随机数，将该随机数落入到的主题的概率范围内的主题，确定为该情感词的情感倾向。

S215：选择下一个待分析文档，设置为待分析文档d，返回步骤S212。

S216：判断是否达到用户设定的迭代次数，如果达到用户设定的迭代次数，则执行步骤S217；如果未达到用户设定的迭代次数，则返回执行步骤S213。

S217：依次获得每一待分析文档的情感词分布、情感倾向分布，并根据每一待分析文档的情感倾向分布分别统计获得每一待分析文档的情感倾向。

可选的，在确定文档的主题-情感倾向后，还可以包括以可视化的方式将结果反馈给用户。

对于以上所述的生成概率公式，可以利用似然估计的方式，分别获得背景词生成概率的参数主题词生成概率的参数情感词生成概率的参数

其中，表示生成背景词r的概率，B_r表示背景词r在待分析文档d及已分析文档中出现的次数，α_r表示当背景词为r时预设的先验分布α的值，B_v表示背景词v在待分析文档d及已分析文档中出现的次数，α_v表示当背景词为v时预设的先验分布α的值，V₀表示语料库中背景词的数量。

其中，表示主题为k时，生成主题词r的概率，n_k，r表示主题为k的词r在待分析文档d及已分析文档中出现的次数，α_k，r表示主题为k主题词为r时预设的先验分布α的值，n_k，v表示主题为k的主题词v在待分析文档d及已分析文档中出现的次数，α_k，v表示主题为k主题词为v时预设的先验分布α的值，V₁表示语料库中主题词的数量。

其中，表示主题为k，情感倾向为s时，生成情感词r的概率，n_k，s，r表示主题为k，情感倾向为s的情感词r在待分析文档d及已分析文档中出现的次数，λ_k，s，r表示主题为k，情感倾向为s情感词为r时预设的先验分布λ的值，n_k，s，v表示主题为k，情感倾向为s的情感词v在待分析文档d及已分析文档中出现的次数，λ_k，s，v表示主题为k，情感倾向为s情感词为v时预设的先验分布λ的值，V₂表示语料库中情感词的数量。

对于背景词来说，每个背景词的生成概率可以用统计的方法获得，B_v，表示背景词v在待分析文档d及已分析文档中出现的次数，V₀是语料库中所有背景词的个数，V₀可以通过计数得到，α_v为预设的先验分布，也是已知变量，由此，可以得到每个背景词的生成概率。

对于以上所述的对主题词的主题进行采样的吉布斯采样公式和对情感词的情感倾向进行采样的吉布斯采样公式，可以利用似然估计的方式，分别获得主题分布的参数和情感倾向分布的参数

其中，表示待分析文档d所想要表达的主题是a的概率，a表示预设的K个主题中的一个，n_d，a表示待分析文档d中主题为a的主题词出现的次数，β_d，a表示待分析文档d中主题为a时预设的先验分布β的值，n_d，k表示待分析文档d中主题为k的主题词出现的次数，β_d，k表示待分析文档d中主题为k时预设的先验分布β的值，K为预设的主题数量。

其中，表示待分析文档d所想要表达的情感倾向是b的概率，b表示情感倾向为正向或者为负向，n_d，b表示待分析文档d中情感为b的情感词出现的次数，γ_d，b表示待分析文档d中情感为b时预设的先验分布γ的值，n_d，s表示待分析文档d中情感倾向为s的情感词出现的次数，γ_d，s表示待分析文档d中情感倾向为s时预设的先验分布γ的值，S为情感倾向的数量。

在算法执行的过程中，可以根据文档中每个词的确定结果调整优化算法中的上述参数。

在实际应用中，可以用上述公式中的参数来描述概率的分布，参见图3，图中阴影圆圈表示观测变量，空心圆圈表示表示隐藏的变量即无法直接观测到的变量，箭头表示生成过程，方框中右下角标识表示该框中变量的个数。图中主题词分布Φ^t的个数为K个，情感词分布Φ^o的个数为S个，主题分布θ^t和情感分布θ^o的个数均为D个，主题词的主题z^t的个数为V1个，情感倾向z^o的个数为V2个，w为语料库中的词个数为V个，词分类c的个数为3个。

对于观测变量先验分布α，利用背景词的先验分布α、背景词的生成概率公式生成背景词分布Φ^b，利用主题词的先验分布α、主题词的生成概率公式生成主题词分布Φ^t。

对于观测变量先验分布λ，利用情感词的先验分布λ、情感词的生成概率公式生成情感词分布Φ^o。

对于观测变量先验分布β，利用先验分布β、对主题词的主题进行采样的吉布斯采样公式生成主题分布θ^t，并根据主题分布θ^t，获得主题词的主题z^t。

对于观测变量先验分布γ，利用先验分布γ、对情感词的情感倾向进行采样的吉布斯采样公式生成情感分布θ^o，并根据情感分布θ^o，获得情感词的情感倾向z^o。

本发明实施例提供的一种文本的主题情感分析方法，可以实现针对待分析文档，获得待分析文档中的主题词和情感词，根据各个主题词确定主题，根据待分析文档的主题，分别计算每一情感词的情感为正向的概率和为负向的概率，并根据每一情感词的情感为正向的概率和为负向的概率，计算获得每一情感词的情感倾向，根据各个情感词的情感倾向，确定待分析文档的主题-情感倾向。因此，本发明实施例提供的方法根据文档的主题确定各个情感词的正向和负向概率，进而确定文档的主题-情感倾向。不需要将文档划分成几个句子，也不需要根据其他句子的主题来确定每一句子的主题。解决了现有技术中当文档是只有一句话的短文本时，无法获得该短文本的主题-情感倾向的问题。

另外，本发明实施例提供的方法中，还利用了先验信息，将先验信息作为预设的先验分布加入到算法中，从而，提高了计算结果的准确性。

与图1所示实施例相对应，本发明实施例还提供了一种文本的主题情感分析装置。

参见图4，所述装置包括：文档获得模块401、获得模块402、主题概率获得模块403、主题确定模块404、统计模块405、情感词生成模块406、情感概率获得模块407和情感确定模块408；

所述文档获得模块401，用于获得待分析文档；

所述获得模块402，用于按预设分类算法，计算获得待分析文档中的主题词和情感词；

所述主题概率获得模块403，用于按预设的第一采样算法和第一迭代次数，针对待分析文档中的每一主题词，分别计算每一主题词的主题分别为预设的K个主题的概率，获得每个主题词的K个主题概率，其中，K为不小于1的整数；

所述主题确定模块404，用于用于根据每一主题词的K个主题概率，用预设的确定算法，计算获得每一主题词的主题；

所述统计模块405，用于当达到预设的第一迭代次数时，统计所述待分析文档中每一主题词的主题，根据统计结果确定所述待分析文档的主题；

所述情感词生成模块406，用于按预设的情感词生成算法和第二迭代次数，根据所述待分析文档的主题，计算待分析文档中每一情感词的生成概率；

所述情感概率获得模块407，用于按预设的第二采样算法，根据所述待分析文档的主题，针对所述待分析文档中的每一情感词，分别计算每一情感词的情感为正向的概率和为负向的概率；

所述情感确定模块408，用于根据每一情感词的情感为正向的概率和为负向的概率，用预设的确定算法，计算获得每一情感词的情感倾向；

所述统计模块405，还用于当达到预设的第二迭代次数时，统计所述待分析文档中每一情感词的情感倾向，根据统计结果确定所述待分析文档的主题-情感倾向。

本发明实施例提供的一种文本的主题情感分析装置，可以实现针对待分析文档，获得待分析文档中的主题词和情感词，根据各个主题词确定主题，根据待分析文档的主题，分别计算每一情感词的情感为正向的概率和为负向的概率，并根据每一情感词的情感为正向的概率和为负向的概率，计算获得每一情感词的情感倾向，根据各个情感词的情感倾向，确定待分析文档的主题-情感倾向。因此，本发明实施例提供的方法根据文档的主题确定各个情感词的正向和负向概率，进而确定文档的主题-情感倾向。不需要将文档划分成几个句子，也不需要根据其他句子的主题来确定每一句子的主题。解决了现有技术中当文档是只有一句话的短文本时，无法获得该短文本的主题-情感倾向的问题。

与图1所示实施例相对应，本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

获得待分析文档；

本发明实施例提供的电子设备，可以实现针对待分析文档，获得待分析文档中的主题词和情感词，根据各个主题词确定主题，根据待分析文档的主题，分别计算每一情感词的情感为正向的概率和为负向的概率，并根据每一情感词的情感为正向的概率和为负向的概率，计算获得每一情感词的情感倾向，根据各个情感词的情感倾向，确定待分析文档的主题-情感倾向。因此，本发明实施例提供的方法根据文档的主题确定各个情感词的正向和负向概率，进而确定文档的主题-情感倾向。不需要将文档划分成几个句子，也不需要根据其他句子的主题来确定每一句子的主题。解决了现有技术中当文档是只有一句话的短文本时，无法获得该短文本的主题-情感倾向的问题。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本的主题情感分析方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本的主题情感分析方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本的主题情感分析方法，其特征在于，所述方法包括：

获得待分析文档；

2.根据权利要求1所述的方法，其特征在于，

所述按预设分类算法，计算获得待分析文档中的主题词和情感词的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述按预设的背景词生成算法，计算待分析文档中每一候选背景词的生成概率的步骤，包括：

利用背景词的生成概率公式：

计算该背景词所在位置生成背景词的概率；

4.根据权利要求2所述的方法，其特征在于，所述按预设的主题词生成算法，计算待分析文档中每一候选主题词的生成概率的步骤，包括：

利用主题词的生成概率公式：

计算该主题词所在的位置生成主题词的概率；

5.根据权利要求1所述的方法，其特征在于，所述按预设的第一采样算法和第一迭代次数，针对待分析文档中的每一主题词，分别计算每一主题词的主题分别为预设的K个主题的概率，获得每个主题词的K个主题概率的步骤，包括：

利用对主题词的主题进行采样的吉布斯采样公式：

计算获得所述待分析文档中每一主题词的K个主题概率；

6.根据权利要求1所述的方法，其特征在于，所述按预设的情感词生成算法和第二迭代次数，根据所述待分析文档的主题，计算待分析文档中每一情感词的生成概率的步骤，包括：

利用情感词的生成概率公式：

计算该情感词所在位置生成情感词的概率；

7.根据权利要求1所述的方法，其特征在于，所述按预设的第二采样算法，根据所述待分析文档的主题，针对待分析文档中的每一情感词，分别计算每一情感词的情感为正向的概率和为负向的概率的步骤，包括：

利用对情感词的情感倾向进行采样的吉布斯采样公式：

8.一种文本的主题情感分析装置，其特征在于，所述装置包括：

文档获得模块，用于获得待分析文档；

9.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。