CN111046930A

CN111046930A - 一种基于决策树算法的供电服务满意度影响因素识别方法

Info

Publication number: CN111046930A
Application number: CN201911209719.5A
Authority: CN
Inventors: 王宗伟; 赵郭燚; 金鹏; 汪丽; 冉晶晶
Original assignee: Beijing Dataocean Smart Technology Co ltd; State Grid Co Ltd Customer Service Center; Beijing China Power Information Technology Co Ltd
Current assignee: Beijing Dataocean Smart Technology Co ltd; State Grid Co Ltd Customer Service Center; Beijing China Power Information Technology Co Ltd
Priority date: 2019-12-01
Filing date: 2019-12-01
Publication date: 2020-04-21

Abstract

本发明公开了一种基于决策树算法的供电服务满意度影响因素识别方法，该方法包括导入需要的函数库，通过USDUW函数构建决策树，将算法标记为决策点；构建决策树时，根据给定的样本数据集选择某个特征值作为树的节点，在数据集中，计算出该数据中的信息熵；确定决策树的决策点数量，将决策点概率及损益值标于概率枝上；在决策树选择决策特征时，应选择基尼指数增益值最大的特征，作为该节点***条件。本发明条理清晰，程序严谨，定量、定性分析相结合，利用模糊决策树分析法分析了电力客户的满意度，通过建立规则，可以清楚地知道哪些情况下电力客户对电力服务满意，从而为今后改进服务，提高电力客户满意度提供了条件。

Description

一种基于决策树算法的供电服务满意度影响因素识别方法

技术领域

本发明涉及供电服务满意度评估技术领域，尤其涉及一种基于决策树算法的供电服务满意度影响因素识别方法。

背景技术

随着互联网、大数据、云计算等信息技术飞速发展，大部分信息已经由纸质载体过渡到电子载体，而在这些信息中，大部分是非结构化或半结构化的文本信息。如何有效管理、挖掘、分析海量非结构化数据中蕴藏的信息，已成为大数据领域的重挑战。在非结构化数据中，文本数据占据重要地位。对于拥有大量文本数据的企业，如何有效的利用这部分数据资源决定着企业将来的发展。在电力行业客服中心的数据中，如何对工单数据进行处理，从而精准的识别工单中客户的诉求，甚至挖掘隐含诉求同时及时的发现新增突增诉求，这对提升服务的质量及客户的满意程度至关重要。

传统电力行业供电服务满意度评估体系大多通过理论法与专家法进行构建，体系适用周期存在局限性，需要定期进行体系优化重建，在实际应用过程中大多依赖人为的主观评判原则，不同人员进行评估的结果差异较大，评估工作耗时较长。本发明通过建立一种可迭代的决策数据评估模型，基于开放服务满意度评估体系构建了一种理论完善的客户满意度评估方法，通过标准化的算法模型实现评估指数自动计算，大大提高了客户满意度的评估准确性与合理性。

发明内容

为克服相关技术中存在的问题，本发明实施例提供一种基于决策树算法的供电服务满意度影响因素识别方法，解决了在实际应用过程中大多依赖人为的主观评判原则，不同人员进行评估的结果差异较大，评估工作耗时较长的问题。

本发明实施例提供一种基于决策树算法的供电服务满意度影响因素识别方法，包括以下步骤：

导入需要的函数库，通过rpart函数构建决策树，将算法标记为决策点；

构建决策树时，根据给定的样本数据集选择某个特征值作为树的节点，在数据集中，计算出该数据中的信息熵；

确定决策树的决策点数量，将决策点概率及损益值标于概率枝上；

在决策树选择决策特征时，应选择基尼指数增益值最大的特征，作为该节点***条件；

计算各个决策点的期望值并将其标于该决策点对应的状态结点上；

比较各个决策点的期望值，并标于方案枝上，将期望值小的的期望值去掉，得出最后的方案为最佳方案。

进一步地，所述作用前的信息熵计算公式为：

其中D表示训练数据集，c表示数据类别数，Pi表示类别i样本数量占所有样本的比例，对应数据集D，选择特征A作为决策树判断节点时，在特征A作用后的信息熵的为InIo(D)，作用后的信息熵计算公式如下：

其中k表示样本D被分为k个部分。

进一步地，信息增益表示数据集D在特征A的作用后，其信息熵减少的值，信息熵差值计算公式如下：Gain(A)＝Info(D)-Info_A(D)，对于决策树节点最合适的特征选择，就是Gain(A)值最大的特征。

进一步地，所述基尼指数计算公式如下：

其中c表示数据集中类别的数量，Pi表示类别i样本数量占所有样本的比例。

进一步地，选取的属性为A时，***后的数据集D的基尼指数的计算公式为：

基尼指数差值计算公式如下：ΔGini(A)＝Gini(D)-Gini_A(D)。

进一步地，建立决策树模型后给出该模型的评估值，用于判断模型的优劣，评估指标包括分类准确度、召回率、虚警率和精确度，评估指标基于混淆矩阵(confusion matrix)进行计算，其中分类准确度的计算公式如下：

召回率的计算公式如下：

虚警率计算公式如下：

精确度计算公式如下：

P：正例的样本数量，N：负例的样本数量，TP：正确预测到的正例的数量，FP：把负例预测成正例的数量，FN：把正例预测成负例的数量，TN：正确预测到的负例的数量。

进一步地，所述评估方法包括保留法、随机二次抽样、交叉验证和自助法。

进一步地，从供电质量、服务质量、公司形象与客户关系四个方面对电力客户满意度指标建立隶属函数体系，设D为数据集，C1(l＝1，2，…，L)为模糊分类，且令DC1为数据集D中类别为C1的模糊子集，则模糊分类的相对频率Pl可定义为：

公式中M(D)为模糊集合A的基数(即所有隶属度的总和).在模糊决策树的任一结点上，模糊数据集D关于模糊分类C1(l＝1，2，…，L)的模糊熵FE(D)定义为：

设在一个非叶结点上有模糊数据集D和属性集{A1，A2，…，Am}(m为属性数)，且对每个属性Ai(l≤i≤m)有ki个模糊值{Fi1，Fi2，…，Fiki}，故通过属性Ai可把数据集D划分为ki个模糊子集DFij(1≤j≤ki)，则属性Ai相对于数据集D的模糊熵FE(Ai，D)为：

属性Ai相对于数据集D的模糊信息增益FG(Ai，D)为：FG(A_i，D)＝FE(D)-FE(A_i，D).，模糊ID3算法每次选择使模糊信息增益最大的属性作为生成模糊决策树的扩展属性，即选取属性Ak0，

进一步地，将数据集通过支持向量分离方法进行分类：

A、将数据集D作为第一个候选结点，即根结点；

B、叶结点生成，当模糊决策树中结点S满足下列条件之一，则把该结点作为叶结点，并用三种叶结点标定方法之一来标定该叶结点；

1、某个分类的相对频率大于或等于给定阈值β；

2、所有分类的隶属度的总和小于给定阈值γ；

3、没有可用的扩展属性时

C、扩展属性选择，当前结点S不满足叶结点生成准则，则它是非终端结点，它的扩展属性选择过程为：对每个属性Ai(i＝1，2，…，m)，计算它们的模糊信息增益FD(Ai，D)，选择模糊信息增益最大的属性Amax，使FG(Amax，D)＝Max1≤i≤m(FG(Ai，D))，如果FG(Amax，D)≤0，则把该结点作为叶结点，并用步骤B中三种叶结点确定方法之一来标定本结点，如果信息增益FG(Amax，D)＞0，则把属性Amax作为扩展属性，把数据集D划分为k max个子集Dj(1≤j≤k max)，并产生相应的子结点Sj(1≤j≤k max)，用Sj替换S，Dj替换D，从步骤B开始递归，并重复上述过程

进一步地，所述第i个叶节点的置信度计算公式为：

本发明的实施例提供的技术方案具有以下有益效果：条理清晰，程序严谨，定量、定性分析相结合，利用模糊决策树分析法分析了电力客户的满意度，通过建立规则，可以清楚地知道哪些情况下电力客户对电力服务满意，从而为今后改进服务，提高电力客户满意度提供了条件，决策树法可以简单明了地帮助企业决策层进行分析。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本发明实施例中基于决策树算法的供电服务满意度影响因素识别方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置及相关应用、方法的例子。

图1是本发明实施例中基于决策树算法的供电服务满意度影响因素识别方法的流程图，如图1所示，该基于决策树算法的供电服务满意度影响因素识别方法，包括以下步骤：

步骤101、导入需要的函数库，通过rpart函数构建决策树，将算法标记为决策点。

步骤102、构建决策树时，根据给定的样本数据集选择某个特征值作为树的节点，在数据集中，计算出该数据中的信息熵。

信息熵表示的是不确定度，均匀分布时，不确定度最大，此时熵就最大。当选择某个特征对数据集进行分类时，分类后的数据集信息熵会比分类前的小，其差值表示为信息增益。信息增益可以衡量某个特征对分类结果的影响大小。

作用前的信息熵计算公式为：

其中D表示训练数据集，c表示数据类别数，Pi表示类别i样本数量占所有样本的比例，对应数据集D，选择特征A作为决策树判断节点时，在特征A作用后的信息熵的为Info(D)，作用后的信息熵计算公式如下：

其中k表示样本D被分为k个部分。

信息增益表示数据集D在特征A的作用后，其信息熵减少的值，信息熵差值计算公式如下：ΔGain(A)＝Info(D)-Info_A(D)，对于决策树节点最合适的特征选择，就是Gain(A)值最大的特征。

步骤103、确定决策树的决策点数量，将决策点概率及损益值标于概率枝上。

基尼指数计算公式如下：

选取的属性为A时，***后的数据集D的基尼指数的计算公式为：

基尼指数差值计算公式如下：ΔGini(A)＝Gini(D)-Gini_A(D)。

从该公式可以看出，当数据集中数据混合的程度越高，基尼指数也就越高。当数据集D只有一种数据类型，那么基尼指数的值为最低0。

步骤104、计算各个决策点的期望值并将其标于该决策点对应的状态结点上；

步骤105、比较各个决策点的期望值，并标于方案枝上，将期望值小的的期望值去掉，得出最后的方案为最佳方案。

建立决策树模型后给出该模型的评估值，用于判断模型的优劣，评估指标包括分类准确度、召回率、虚警率和精确度，评估指标基于混淆矩阵（confusion matrix)进行计算，其中分类准确度的计算公式如下：

召回率的计算公式如下：

虚警率计算公式如下：

精确度计算公式如下：

评估方法包括保留法、随机二次抽样、交叉验证和自助法。

保留法是评估分类模型性能的最基本的一种方法。将被标记的原始数据集分成训练集和检验集两份，训练集用于训练分类模型，检验集用于评估分类模型性能。但此方法不适用样本较小的情况，模型可能高度依赖训练集和检验集的构成。

随机二次抽样是指多次重复使用保留方法来改进分类器评估方法。同样此方法也不适用训练集数量不足的情况，而且也可能造成有些数据未被用于训练集。

交叉验证是指把数据分成数量相同的k份，每次使用数据进行分类时，选择其中一份作为检验集，剩下的k-1份为训练集，重复k次，正好使得每一份数据都被用于一次检验集k-1次训练集。该方法的优点是尽可能多的数据作为训练集数据，每一次训练集数据和检验集数据都是相互独立的，并且完全覆盖了整个数据集。也存在一个缺点，就是分类模型运行了K次，计算开销较大。

自助法是指在其方法中，训练集数据采用的是有放回的抽样，即已经选取为训练集的数据又被放回原来的数据集中，使得该数据有机会能被再一次抽取。

从供电质量、服务质量、公司形象与客户关系四个方面对电力客户满意度指标建立隶属函数体系，设D为数据集，C1(1＝1，2，…，L)为模糊分类，且令DC1为数据集D中类别为C1的模糊子集，则模糊分类的相对频率3O可定义为：

公式中M(D)为模糊集合A的基数(即所有隶属度的总和).在模糊决策树的任一结点上，模糊数据集D关于模糊分类C1(1＝1，2，…，L)的模糊熵FE(D)定义为：

设在一个非叶结点上有模糊数据集D和属性集{A1，A2，…，Am}(m为属性数)，且对每个属性Ai(1≤i≤m)有ki个模糊值{Fi1，Fi2，…，Fiki}，故通过属性Ai可把数据集D划分为ki个模糊子集DFij(1≤j≤ki)，则属性Ai相对于数据集D的模糊熵FE(Ai，D)为：

属性Ai相对于数据集D的模糊信息增益FG(Ai，D)为：FG(A_i，DF＝FE(D)-FE(A_i，D).，模糊ID3算法每次选择使模糊信息增益最大的属性作为生成模糊决策树的扩展属性，即选取属性Ak0，

采用聚类的方法确定隶属度函数的参数，它的主要任务是确定k值和求出中心点集合A，为此，根据特征映射算法对数据进行迭代聚类，依据数理统计中F-统计量选择最大的k和A进行求解计算。

将数据集通过支持向量分离方法进行分类：

A、将数据集D作为第一个候选结点，即根结点；

1、某个分类的相对频率大于或等于给定阈值β；

2、所有分类的隶属度的总和小于给定阈值γ；

3、没有可用的扩展属性时

C、扩展属性选择，当前结点S不满足叶结点生成准则，则它是非终端结点，它的扩展属性选择过程为：对每个属性Ai(i＝1，2，…，m)，计算它们的模糊信息增益FD(Ai，D)，选择模糊信息增益最大的属性Amax，使FG(A max，D)＝M ax1≤i≤m(FG(Ai，D))，如果FG(Amax，D)≤0，则把该结点作为叶结点，并用步骤B中三种叶结点确定方法之一来标定本结点，如果信息增益FG(Amax，D)＞0，则把属性Amax作为扩展属性，把数据集D划分为k max个子集Dj(1≤j≤k max)，并产生相应的子结点Sj(1≤j≤k max)，用Sj替换S，Dj替换D，从步骤B开始递归，并重复上述过程。

第i个叶节点的置信度计算公式为：

采用了上述实施例中的技术方案，条理清晰，程序严谨，定量、定性分析相结合，利用模糊决策树分析法分析了电力客户的满意度，通过建立规则，可以清楚地知道哪些情况下电力客户对电力服务满意，从而为今后改进服务，提高电力客户满意度提供了条件，决策树法可以简单明了地帮助企业决策层进行分析。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，所述作用前的信息熵计算公式为：

其中k表示样本D被分为k个部分。

3.根据权利要求2所述的基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，信息增益表示数据集D在特征A的作用后，其信息熵减少的值，信息熵差值计算公式如下：Gain(A)＝Info(D)-Info_A(D)，对于决策树节点最合适的特征选择，就是Gain(A)值最大的特征。

4.根据权利要求1所述的基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，所述基尼指数计算公式如下：

5.根据权利要求4所述的基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，进一步地，选取的属性为A时，***后的数据集D的基尼指数的计算公式为：

基尼指数差值计算公式如下：ΔGini(A)＝Gini(D)-Gini_A(D)。

6.根据权利要求1所述的基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，还包括，建立决策树模型后给出该模型的评估值，用于判断模型的优劣，评估指标包括分类准确度、召回率、虚警率和精确度，评估指标基于混淆矩阵(confusion matriX)进行计算，其中分类准确度的计算公式如下：

召回率的计算公式如下：

虚警率计算公式如下：

精确度计算公式如下：

P(Positive Sample)：正例的样本数量，N(Negative Sample)：负例的样本数量，TP(TruePositive)：正确预测到的正例的数量，FP(False Positive)：把负例预测成正例的数量，FN(False Negative)：把正例预测成负例的数量，TN(True Negative)：正确预测到的负例的数量。

7.根据权利要求6所述的基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，所述评估方法包括保留法、随机二次抽样、交叉验证和自助法。

8.根据权利要求1所述的基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，进一步地，从供电质量、服务质量、公司形象与客户关系四个方面对电力客户满意度指标建立隶属函数体系，设D为数据集，C1(1＝1，2，...，L)为模糊分类，且令DC1为数据集D中类别为C1的模糊子集，则模糊分类的相对频率Pl可定义为：

公式中M(D)为模糊集合A的基数(即所有隶属度的总和).在模糊决策树的任一结点上，模糊数据集D关于模糊分类C1(1＝1，2，...，L)的模糊熵FE(D)定义为：

设在一个非叶结点上有模糊数据集D和属性集{A1，A2，...，Am}(m为属性数)，且对每个属性Ai(1≤i≤m)有ki个模糊值{Fi 1，Fi 2，...，Fiki}，故通过属性Ai可把数据集D划分为ki个模糊子集DFij(1≤j≤ki)，则属性Ai相对于数据集D的模糊熵FE(Ai，D)为：

属性Ai相对于数据集D的模糊信息增益FG(Ai，D)为：FG(A_i，D)＝FE(D)-FE(A_i，D).，模糊ID3算法每次选择使模糊信息增益最大的属性作为生成模糊决策树的扩展属性，即选取属性Ak 0，

9.根据权利要求1所述的基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，进一步地，将数据集通过支持向量分离方法进行分类：

A、将数据集D作为第一个候选结点，即根结点；

1、某个分类的相对频率大于或等于给定阈值β；

2、所有分类的隶属度的总和小于给定阈值γ；

3、没有可用的扩展属性时

C、扩展属性选择，当前结点S不满足叶结点生成准则，则它是非终端结点，它的扩展属性选择过程为：对每个属性Ai(i＝1，2，...，m)，计算它们的模糊信息增益FD(Ai，D)，选择模糊信息增益最大的属性Amax，使FG(A max，D)＝M ax1≤i≤m(FG(Ai，D))，如果FG(Amax，D)≤0，则把该结点作为叶结点，并用步骤B中三种叶结点确定方法之一来标定本结点，如果信息增益FG(Amax，D)＞0，则把属性Amax作为扩展属性，把数据集D划分为k max个子集Dj(1≤j≤k max)，并产生相应的子结点Sj(1≤j≤k max)，用Sj替换S，Dj替换D，从步骤B开始递归，并重复上述过程。

10.根据权利要求9所述的基于决策树算法的供电服务满意度影响因素识别方法，其特征在于，所述第i个叶节点的置信度计算公式为：