CN114416917A

CN114416917A - 一种基于词典的电力领域文本情感分析方法、***和存储介质

Info

Publication number: CN114416917A
Application number: CN202111495673.5A
Authority: CN
Inventors: 张波; 吕斌; 刘辉舟; 欧阳昱; 赵骞; 李晨光; 陈荣亚; 陈小平; 唐亮; 尤佳; 马一峰; 陈伟; 倪妍妍; 刘园; 左松林; 李金涛; 汪胜和; 陈庆涛; 杨玉金
Original assignee: State Grid Anhui Electric Power Co Ltd
Current assignee: State Grid Anhui Electric Power Co Ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-04-29

Abstract

一种基于词典的电力领域文本情感分析方法、***和存储介质，所述方法包括以下步骤：基于神经网络和人工标注数据训练情感指向判断模型，所述情感指向判断模型的输入为用户文本数据，情感指向判断模型的输出为情感指向；获取用户交互信息，并筛选情感极性为设置的目标极性且情感指向为服务提供方的用户交互信息对应的文本数据作为目标文本。本发明中，结合情感极值和情感指向抽取用于体现用户由于服务提供方的服务产生情感波动的目标文本，以便后续结合目标文本进一步提取用户产生情感波动的原因，从而帮助服务提供方根据客户需求改善服务。

Description

一种基于词典的电力领域文本情感分析方法、***和存储介质

技术领域

本发明涉及信息处理和情感分类领域，尤其涉及一种基于词典的电力领域文本情感分析方法、***和存储介质。

背景技术

随着大数据带来猛烈的信息风暴，海量数据几乎淹没了我们的硬盘，面对着浩瀚如烟的各类数据，巨大的财富隐匿其间，各类数据中的有用信息是最重要最具价值的金矿。其中用户情感信息作为一种非常重要的信息，在各个领域都具有极大的价值。例如购物平台下的用户购买反馈；各类新闻报道下的用户评论；各类外卖平台下的用户点餐意见等都跟用户情感息息相关。商家可以通过用户评论里所隐藏的情感信息来进一步改善所售卖的商品，新闻工作者可以通过用户评论里所隐含的情感信息来了解大众舆论，用户倾向。因此，如何提取用户话语内的情感信息是非常重要的，也是非常具有价值的，而各类情感分类方法就是在这种背景下产生并飞速发展的。

用户情感的产生可能是自身原因，也可能是服务提供方导致的。服务提供方如果能精确获取自身导致用户产生情感波动的因素，便可针对性的进行改善，从而提高用户体验。但是，目前的情感分类方法，并不能帮助服务提供方判断用户情绪波动是哪一方导致的。

发明内容

为了解决上述现有技术中缺乏可判断用户情绪波动是否因为服务提供方产生的情感识别方法的缺陷，本发明提出了一种基于词典的电力领域文本情感分析方法、***和存储介质。

本发明的目的之一采用以下技术方案：

一种基于词典的电力领域文本情感分析方法，包括以下步骤：

S1、基于神经网络和人工标注数据训练情感指向判断模型，所述情感指向判断模型的输入为用户文本数据，情感指向判断模型的输出为情感指向；所述用户文本数据为用户在与服务者交互过程中产生的文本数据，所述情感指向为导致用户情绪产生的对象，所述情感指向包括用户自身和服务提供方，服务提供方为单位或者个人，与用户交互的服务者隶属于服务提供方；

S2、获取用户交互信息，获取用户交互信息对应的文本数据作为用户文本数据，将用户文本数据并输入情感指向判断模型，获得情感指向判断模型输出的情感指向作为用户交互信息的情感指向；筛选情感极性为设置的目标极性且情感指向为服务提供方的用户交互信息对应的文本数据作为目标文本；情感极性分为积极和消极，目标极性包含积极和消极中的至少一个。

优选的，步骤S1中还包括：构建关键词词典，收集用于体现用户基于服务提供方的因素产生情感波动的词语；

在步骤S2之后还包括步骤S3：从目标文本的分词词语中筛选存在于设置的关键词词典中的分词词语作为目标分词，输出目标文本的目标分词和情感极性。

优选的，步骤S2具体包括以下步骤：

S21获取情感极性为目标极性的用户交互信息对应的文本数据作为候选文本，获取候选文本的分词词语；

S22、通过情感指向判断模型获取候选文本的情感指向，并获取情感指向为服务提供方的候选文本作为目标文本。

优选的，步骤S2中判断用户情感极性的方法为：获取用户交互信息对应的文本数据，并对文本数据进行分词，然后基于设置的情感词汇词典从文本数据的分词词语中筛选存在于情感词汇词典中的分词词语作为情绪词，再结合情绪词、否定词和程度词判断文本数据的情感极性。

优选的，判断文本数据的情感极性的方式具体包括以下步骤：

SA21、对文本数据进行分词，提取分词词语；

SA22、筛选存在于设定的情感词汇词典中的分词词语作为情绪词；

SA23、将各情绪词与前后相邻的分词词语组合成语段；

SA24、根据情绪词的情感极性以及语段中的否定词和程度词获得语段的情感值；

SA25、对文本数据中各语段的情感值求和作为文本数据的情感总值，并根据情感总值判断文本数据的情感极性。

优选的，情感词汇词典中的每个词语均设有对应的情感参照值；步骤SA25中，语段的情感值K的计算公式为：

K＝-ak₀×(b₁×b₂×...b_n)

k₀表示情绪词在情感词汇词典中对应的情感参照值，a表示语段中否定词的数量，b_i表示语段中第i个程度词对应的权重值，1≤i≤n，n为语段中程度词的数量；各程度词的权重值为设计值。

优选的，步骤SA25中，当情感总值为正数，则判断文本数据的情感极性为积极；当情感总值为负数，则文本数据的情感极性为消极。

优选的，步骤S2中用户交互信息为语音数据，步骤S2中基于设置的语音情绪判断模型获取用户交互信息的情感极性；所述语音情绪判断模型基于神经网络和人工标注数据训练获得，语音情绪判断模型的输入为语音数据，输出为输入的语音数据的情感极性。

本发明的目的之二采用以下技术方案：

一种基于词典的电力领域文本情感分析***，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器用于在执行所述计算机程序时实现上述的基于词典的电力领域文本情感分析方法。

本发明的目的之一采用以下技术方案：

一种存储介质，存储有计算机程序，所述计算机程序被执行时，用于实现上述的基于词典的电力领域文本情感分析方法。

本发明的优点在于：

(1)本发明中，结合情感极值和情感指向抽取用于体现用户由于服务提供方的服务产生情感波动的目标文本，以便后续结合目标文本进一步提取用户产生情感波动的原因，从而帮助服务提供方根据客户需求改善服务。

(2)本发明中，情感指向基于文本数据进行处理，实现了根据文本数据中的字词对用户输出的理性信息进行精确提取，提高了对情感指向进行判断的准确程度。

(3)本发明中，基于关键词词典筛选目标分词，实现了对用户基于服务提供方产生情感波动的因素的精确提取，结合目标分词和情感极性，有利于帮助服务提供方快速并精确的提取用户意见，从而根据用户意愿对服务进行改善。

(4)本发明中，先根据情感极性筛选候选文本，滤除了占比更多的不饱和情绪的用户交互信息大大的缩减了后续的文本处理工作量，提高了工作效率。

(5)本发明中，同时提供了根据文本数据和语音数据识别情感极性的方法，使得该方法适用于任一种信息交互方式，适用范围广且灵活可靠。

(6)本发明中，基于文本分词对文本数据的情感极性进行识别，精确识别了文本数据的分词词语的词性，实现了对文本数据的精确处理，提高了情感判断的可信程度。

附图说明

图1为本发明提出的一种基于词典的电力领域文本情感分析方法流程图；

图2为本发明中目标文本的获取方式流程图；

图3为本发明提出的一种判断文本数据的情感极性的方法流程图。

具体实施方式

情感极性：指的是语句或者文本中包含的情感是正面的还是负面的，正面的情感极性例如高兴、兴奋等定义为积极；负面的情感极性例如失望、生气、愤怒等定义为消极。

一种判断文本数据的情感极性的方法

本实施方式中提供的一种判断文本数据的情感极性的方法，对文本数据进行分词，然后基于设置的情感词汇词典从分词词语中筛选存在于情感词汇词典中的分词词语作为情绪词，在结合情绪词、否定词和程度词判断文本数据的情感极性。

该判断文本数据的情感极性的方法，具体包括以下步骤：

SA21、对文本数据进行分词，提取分词词语，所述分词词语即文本数据分词后的词语。文本分词是文本处理的常用技术手段，本步骤可采用现有的任一种分词手段对文本数据进行分词。

SA22、筛选存在于设置的情感词汇词典中的分词词语作为情绪词；

SA23、将各情绪词与前后相邻的分词词语组合成语段。

具体的，文本数据进行分词后，获得多个分词词语，多个分词词语均存在与文本数据中，且多个分词词语根据其在文本数据中的位置进行排序，本步骤SA23中根据该排序将作为情绪词的分词词语与其前一个分词词语以及后一个分词词语组成语段。具体的，语段中三个分词词语的前后位置关系与该三个分词词语在文本数据中的前后位置关系相同。

SA24、根据情绪词的情感极性以及语段中的否定词和程度词获得语段的情感值。具体的，情绪词的情感极性可通过情感词汇词典获得。

本实施方式中，为了更加精确的量化文本数据的情感值，所采用的的情感词汇词典中的每个词语均设有对应的情感参照值。

具体的实施时，语段的情感值K可根据计算公式获得。

K＝-ak₀×(b₁×b₂×...b_n)

SA25、对文本数据中各语段的情感值求和作为文本数据的情感总值，并根据情感总值判断文本数据的情感极性。具体的，本步骤中，当情感总值为正数，则判断文本数据的情感极性为积极；当情感总值为负数，则文本数据的情感极性为消极。

以下，结合一个具体的实施例对该判断文本数据的情感极性的方法进行解释。

第一步：获得文本数据A＝“今天大厅很干净，业务办的很快，没让我失望，我很高兴”。

第二步：对以上文本数据进行分词，去除标点符号、谓语、代词、结构助词，获得分词词语“今天大厅很干净//业务很快//没失望//很高兴”。其中“//”表示断句，位于断句前面的分词词语只能与前一个相邻的分词词语组成语段，位于断句后面的分词词语只能与后一个相邻的分词词语组成语段。

第三步：结合情感词汇词典获得情绪词“失望”“高兴”，“失望”“高兴”均位于断句处，故而均只能与前一个相邻的分词词语组成语段。

第四步：本实施例中，可获得两个语段“没-失望”和“很-高兴”。

假设“失望”在情感词汇词典中关联的情感参照值为-1，“高兴”在情感词汇词典中关联的情感参照值为2；“没”在设置的程度词词典中关联的权重值为-1，“很”在所述程度词词典中关联的权重值为2。

则，语段“没-失望”的情感值＝-1╳-1＝1；语段“很-高兴”的情感值＝2╳2＝4。

第五步：计算文本数据A的情感总值KA＝1+4＝5。即，该文本数据A的情感极性为积极。

一种判断语音数据的情感极性的方法

本实施方式中，针对语音数据，可结合音色、音量等判断情感极性。

具体的，本实施中提供的判断语音数据的情感极性的方法，基于设置的语音情绪判断模型获取用户交互信息的情感极性。

所述语音情绪判断模型基于神经网络和人工标注数据训练获得，语音情绪判断模型的输入为语音数据，输出为输入的语音数据的情感极性。

具体的，所述语音情绪判断模型的获得包括以下步骤：

第一步：获得人工标注有情感极性的语音数据样本；

第二步：结合语音数据样本对选择的神经网络进行训练，训练完成，获得用于识别语音数据的情感极性的语音情绪判断模型。

如此，针对语音数据，只需要将语音数据输入语音情绪判断模型，便可获得语音数据的情感极性。

一种基于词典的电力领域文本情感分析方法

本实施方式中提供的一种基于词典的电力领域文本情感分析方法，包括以下步骤：

S1、基于神经网络和人工标注数据训练情感指向判断模型，所述情感指向判断模型的输入为用户文本数据，情感指向判断模型的输出为情感指向；所述用户文本数据为用户在与服务者交互过程中产生的文本数据，所述情感指向为导致用户情绪产生的对象，所述情感指向包括用户自身和服务提供方。服务者为用户的交互对象，具体可以是人工客服或者机器人客服。服务提供方为单位或者个人。

S2、获取用户交互信息，并筛选情感极性为目标极性且情感指向为服务提供方的用户交互信息对应的文本数据作为目标文本。

目标极性包含积极和消极中的至少一个。具体的，目标极性可根据服务提供方的需求进行设置，例如服务提供方希望根据客户的需求改善不足时，可将目标极性设置为消极，以便筛选出用于体现用户由于服务提供方的服务产生负面情感波动的目标文本。

本步骤中，当用户交互信息为文本数据时，可通过上述的判断文本数据的情感极性的方法获得用户交互信息的情感极性。当用户交互信息为语音时，可通过所述语音情绪判断模型获得用户交互信息的情感极性；或者将用户交互信息转换为文本数据后，通过上述的判断文本数据的情感极性的方法获得用户交互信息的情感极性。

本步骤中用户交互信息的情感指向的获得方式为：将用户交互信息对应的文本数据作为用户文本数据输入情感指向判断模型，获得情感指向判断模型输出的情感指向作为用户交互信息的情感指向。如此，情感指向基于文本数据进行处理，实现了根据文本数据中的字词对用户输出的理性信息进行精确提取，提高了对情感指向进行判断的准确程度。

本实施方式中，结合情感极值和情感指向抽取用于体现用户由于服务提供方的服务产生情感波动的目标文本，以便后续结合目标文本进一步提取用户产生情感波动的原因，从而帮助服务提供方根据客户需求改善服务。

具体实施时，目标文本的提取可具体分为以下两步：

S21、获取情感极性为目标极性的用户交互信息对应的文本数据作为候选文本，获取候选文本的分词词语。

本实施方式中，先根据情感极性筛选候选文本，滤除了占比更多的不饱和情绪的用户交互信息(具体为不包含情绪词或者情感值为0的用户交互信息)，大大的缩减了后续的文本处理工作量，提高了工作效率。

该基于词典的电力领域文本情感分析方法进一步实施时，步骤S1中还包括：构建关键词词典，收集用于体现用户基于服务提供方的因素产生情感波动的词语。步骤S2之后还包括步骤S3：从目标文本的分词词语中筛选存在于关键词词典中的分词词语作为目标分词，输出目标文本的目标分词和情感极性。具体的，对目标文本进行分词时可采用现有的任一种分词规则。

具体的，关键词词典通过人工设置，关键词词典中包含的关键词包括：态度、卫生、效率、微笑等。

本实施方式中，基于关键词词典筛选目标分词，实现了对用户基于服务提供方产生情感波动的因素的精确提取，结合目标分词和情感极性，有利于帮助服务提供方快速并精确的提取用户意见，从而根据用户意愿对服务进行改善。

本实施方式中还提出了一种基于词典的电力领域文本情感分析***，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器用于在执行所述计算机程序时实现上述的基于词典的电力领域文本情感分析方法。

本实施方式中还提出了一种存储有计算机程序的存储介质，所述计算机程序被执行时，用于实现上述的基于词典的电力领域文本情感分析方法。

以下，结合两个具体的实施例，对上述的基于词典的电力领域文本情感分析方法进行具体说明。

实施例1

本实施例中，由人工客服与用户语音交流。本实施例中，设置目标极性为消极。

第一步：通过语音情绪判断模型对用户输出的每一句语音判断情感极值。当获得某句语音B的情感极值为表示消极的负值，则进一步获取该句语音B的文本数据作为候选文本B1。具体的，语音可直接通过语音文本转换规则转换成文本数据，即语音B可直接转换成文本作为候选文本B1。

假设B1＝“你们客服今天和我妈吵架，我妈都气坏了，你们的服务态度太差了”。

第二步：通过情感指向判断模型判断候选文本B1的情感指向，本实施例中，候选文本B1的情感指向为服务提供方，故而，候选文本B1转换为目标文本，记作目标文本B1＝“你们客服今天和我妈吵架，我妈都气坏了，你们的服务态度太差了”。

第三步：对目标文本B1进行分词，获得分词词语“客服今天吵架//都气坏//服务态度太差”。

第四步：将获得的分词词语与关键词词典进行匹配，假设“客服、吵架、服务、态度”均存在于关键词词典中，则输出“消极；客服、吵架、服务、态度”。

如此，根据该条记录，服务提供方可快速获知该用户产生不满情绪的原因并加以改正。

实施例1

本实施例中，由机器人与用户文字交流。本实施例中，设置目标极性为消极。

第一步：采用本实施方式提供的判断文本数据的情感极性的方法对用户输出的每一句文本数据进行情感极性分析。

假设用户输入的文本数据B1＝“你们客服今天和我妈吵架，我妈都气坏了，你们的服务态度太差了”。

文本数据B1对应的分词词语为“客服今天吵架//都气坏//服务态度太差”。其中，“气”“差”均存在情感词汇词典，将“气”“差”作为情绪词，获得两个语段“都-气-坏”“太-差”。假设，“气”在情感词汇词典中关联的情感参照值为-3，“差”在情感词汇词典中关联的情感参照值为-2；“都”“坏”“太”均为程度副词，对应的权重值分别为2、3、4。故而，该文本数据B1对应的情感总值为(-3×2×3)+(-2×4)＝-24，情感总值-24低于0，故而该文本数据B1的情感极性为消极，该文本数据B1转换为候选文本，记作候选文本B1。

第三步：将目标文本B1对应的分词词语“客服今天吵架//都气坏//服务态度太差”与关键词词典进行匹配，假设“客服、吵架、服务、态度”均存在于关键词词典中，则输出“消极；客服、吵架、服务、态度”。

以上仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明创造的保护范围之内。

Claims

1.一种基于词典的电力领域文本情感分析方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于词典的电力领域文本情感分析方法，其特征在于，步骤S1中还包括：构建关键词词典，收集用于体现用户基于服务提供方的因素产生情感波动的词语；

3.如权利要求1所述的基于词典的电力领域文本情感分析方法，其特征在于，步骤S2具体包括以下步骤：

S21、获取情感极性为目标极性的用户交互信息对应的文本数据作为候选文本，获取候选文本的分词词语；

4.如权利要求1所述的基于词典的电力领域文本情感分析方法，其特征在于，步骤S2中判断用户情感极性的方法为：获取用户交互信息对应的文本数据，并对文本数据进行分词，然后基于设置的情感词汇词典从文本数据的分词词语中筛选存在于情感词汇词典中的分词词语作为情绪词，再结合情绪词、否定词和程度词判断文本数据的情感极性。

5.如权利要求4所述的基于词典的电力领域文本情感分析方法，其特征在于，判断文本数据的情感极性的方式具体包括以下步骤：

SA21、对文本数据进行分词，提取分词词语；

SA23、将各情绪词与前后相邻的分词词语组合成语段；

6.如权利要求5所述的如权利要求1所述的基于词典的电力领域文本情感分析方法，其特征在于，情感词汇词典中的每个词语均设有对应的情感参照值；步骤SA25中，语段的情感值K的计算公式为：

K＝-ak₀×(b₁×b₂×...b_n)

7.如权利要求6所述的基于词典的电力领域文本情感分析方法，其特征在于，步骤SA25中，当情感总值为正数，则判断文本数据的情感极性为积极；当情感总值为负数，则文本数据的情感极性为消极。

8.如权利要求1所述的基于词典的电力领域文本情感分析方法，其特征在于，步骤S2中用户交互信息为语音数据，步骤S2中基于设置的语音情绪判断模型获取用户交互信息的情感极性；所述语音情绪判断模型基于神经网络和人工标注数据训练获得，语音情绪判断模型的输入为语音数据，输出为输入的语音数据的情感极性。

9.一种基于词典的电力领域文本情感分析***，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器用于在执行所述计算机程序时实现如权利要求1至8任一项所述的基于词典的电力领域文本情感分析方法。

10.一种存储介质，其特征在于，存储有计算机程序，所述计算机程序被执行时，用于实现如权利要求1至8任一项所述的基于词典的电力领域文本情感分析方法。