CN113987808A

CN113987808A - 一种特征加权贝叶斯网络的用电用户投诉预警方法

Info

Publication number: CN113987808A
Application number: CN202111273660.3A
Authority: CN
Inventors: 董钟泽; 马岩; 吴大伟; 王妍; 陆春辉; 冯静宇; 于永兴; 赵蓓蓓; 刘景野; 马英宾; 许春蕾
Original assignee: State Grid Fuxin Electric Power Supply Co; State Grid Corp of China SGCC
Current assignee: State Grid Fuxin Electric Power Supply Co; State Grid Corp of China SGCC
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-28

Abstract

本发明涉及了一种特征加权贝叶斯网络的用电用户投诉预警方法，包括以下步骤：步骤一：建立特征加权的朴素贝叶斯算法；步骤二：进行贝叶斯网络学习；步骤三：数据预处理与特征提取；步骤四：投诉行为特征提取；步骤五：建立基于互信息贝叶斯的用户投诉风险预测模型；步骤六：进行实时预测，根据预测结果对用户用电投诉行为情况进行预警。通过建立一种特征加权贝叶斯的投诉风险预测模型，并通过大数据技术对电力用户投诉行为的潜在风险进行挖掘，将用户基本信息与用户投诉信息相关联挖掘内在联系，提高对潜在投诉用户的预测精度，同时通过对贝叶斯网络结构的优化，增强预测的精度和稳定性，最终实现对潜在用电投诉用户的可靠预测。

Description

一种特征加权贝叶斯网络的用电用户投诉预警方法

技术领域

本发明涉及大数据预测领域，尤其涉及特征加权贝叶斯网络的用电用户投诉预警方法。

背景技术

电力行业作为国民经济的基础产业，其稳定性不仅影响到公共安全与经济发展，也与广大人民的生活质量息息相关。当下，人民生活水平在不断提高，电力客户对电能的要求也越来越高，在供电服务过程中，稍有处理不慎，便可能引起电力客户的投诉，甚至发展为舆情事件。随着智能电网建设的深入发展，电力公司信息化建设的逐步完善，这为分析电力客户的用电行为提供了有力的数据支撑目前，大多数供电企业仅采用被动的方式了解客户诉求，在客户投诉产生后，才意识到事态严重性，此时再尽力弥补过失，就算花费大量人力、物力资源解决客户诉求，也只能起到事倍功半的效果，并已对客户造成不良感知，因此如何扭转当前的被动局面，由被动式了解客户诉求到主动预警管控变得尤为重要。随着售电侧市场改革进程的推进和国家关于提升营商环境的具体要求，降低客户投诉率，提升供电公司服务水平至关重要。

投诉预警问题本质上是一种分类问题，可以使用机器学习中法实现。投诉本身是小概率事件，数据样本相对较少，朴素贝叶斯能够克服数据量小、样本信息不足的缺陷，它是基于数理统计分析的方法，能够借助于贝叶斯网络中的先验概率和后验概率相结合形成联合概率的双向推理过程，实现了扩充子样容量的效果，来弥补小子样样本缺陷，通过结合以往的经验知识减少试验的量，从而成功的实现对电力用户投诉行为的预测。

随着电力市场日益完善，客户对电力服务需求也愈加强烈，电网公司应时刻关注客户需求变化，采取及时、有效的对策提升客户服务水平。现阶段需要根据用户基础特征构建电力客户投诉预测模型，提出对应的服务策略，提升供电公司市场竞争力。

发明内容

针对现有技术的不足，本发明提供一种基于特征加权贝叶斯网络的用电用户投诉行为预警方法，通过建立一种特征加权贝叶斯的投诉风险预测模型，并通过大数据技术对电力用户投诉行为的潜在风险进行挖掘，将用户基本信息与用户投诉信息相关联挖掘内在联系，提高对潜在投诉用户的预测精度，同时通过对贝叶斯网络结构的优化，增强预测的精度和稳定性，最终实现对潜在用电投诉用户的可靠预测。

为了解决上述技术问题，本发明采用以下的技术方案：

一种基于特征加权贝叶斯网络的用电用户投诉行为预警方法，包括以下步骤：

步骤1：建立特征加权的朴素贝叶斯算法

朴素贝叶斯理论前提是假设属性之间相互独立，但这个假设在实际应用中往往是不成立的，属性之间可能存在大量冗余，这样会影响朴素贝叶斯模型的分类效率。当属性间的相关性较小时，朴素贝叶斯模型会表现出较好的分类性能。基于这一点考虑，对属性之间的相关度进行适当改进，建立特征加权的朴素贝叶斯算法。

步骤1.1：根据粗糙集方法计算每个条件属性的重要度作为属性权值，构建特征加权朴素贝叶斯分类器，构造的特征加权朴素贝叶斯分类模型为:

步骤1.2：模型初始化，从实验数据集中随机选择组训练数据，初始化训练数据的权重D(i)

步骤1.3：进行迭代t＝1···,T

步骤1.3.1：训练加权朴素贝叶斯分类器。每个样本被附加一个初始权重，当计算条件概率时，并不是将样本出现的次数相加，而是将样本附加的权重值进行相加。每轮训练完都要进行样本的权值更新。

步骤1.3.2：计算弱分类器在最终分类器上的权重。

(α_t为弱分类器的权重)

ε_T是被错分类的样本的权值之和。

被错误分类样本更新如下:

被正确分类样本，权值更新如下:

步骤1.4：经过T轮训练之后将弱分类器按照权重α_t组合成一个强分类器h(x)。

步骤1.5：强分类器的分类策略为:每个弱分类器附带自的权值进行投票表决，决定样本最终所属类别。

步骤2：贝叶斯网络学习

贝叶斯网络学习分为结构学习和参数学习2个步骤，首先通过结构学习确定出贝叶斯的拓扑结构，然后通过参数学习得到网络中各结点的条件概率分布，进而获得随机变量X_i的联合概率分布。

步骤2.1：进行贝叶斯结构学习

常用的贝叶斯结构学习算法有K2学习算法和爬山搜索算法。这2种算法均基于评分搜索函数，通过寻找评分值最高的网络结构来获得最佳的网络结构，其中，评分搜索函数S代表了网络结构与数据集的拟合程度，其表达式为：

式中：n为网络节点数；q_i为节点x_i父节点取值组合的数量；r_i为节点x_i取值数目；m_ijk为样本集中节点x_i为第k个取值，其父节点为第j种取值组合的样本数量；m_ij为m_ijk在k∈[1,r_i]内的和。

步骤2.2：以随机生成的方式产生大量的初始贝叶斯结构。

步骤2.3：以评分搜索函数为依据，搜索评分最高的网络结构作为最优结构。

步骤2.4：进行贝叶斯网络参数学习

贝叶斯参数学习的主要方法有最大似然估计法、贝叶斯估计法和最大后验估计法。本专利采用最大似然估计法，最大似然估计的表达式为：

L(θ|D)＝P(D|θ)

式中：D为样本集；θ为参数；P(D|θ)为θ的条件概率函数；L(θ|D)为θ的似然度函数。

令θ在定义域内变动，寻找使L(θ|D)达到最大的θ值称为参数的最大似然估计，即

式中：θ^*为令L(θ|D)取最大值时的θ值。

步骤2.5：经过贝叶斯网络的结构学习和参数学习后，通过条件概率计算出多维随机变量X_i的联合概率分布，降低计算联合概率分布的复杂性。

步骤3：用户历史投诉数据和用户基本数据预处理。

用户历史投诉数据和用户基本数据主要包含文字数据和数字数据。

步骤3.1：文字数据主要指描述供电地区、投诉事由等相关数据，本专利采用One-hot离散化编码进行处理。

步骤3.2：数字数据主要指投诉时间以及用户用电量信息等数据，针对用电量信息通过采用标准差的方式将其转化为数字数据，并将投诉时间数据与用电量信息数据进行相关性分析，挖掘潜在关联性。

步骤3.3：数据集成。数据集成是将用户历史投诉数据的投诉时间、投诉类型类型等数据与用户基本属性中的用电特征和地区等属性进行集成，作为一个数据库参与后续建模。

步骤:3.4：数据清洗。数据清洗主要是将用户历史投诉数据和用户基本数据中的无效数据作删除处理并对缺失数据进行增补；

步骤4：投诉行为特征提取

投诉行为特征是描述投诉行为可能成因的重要因素，预测准确程度大部分取决于提取投诉行为特征的好坏。

步骤4.1：投诉特征初步提取。通过对用户历史投诉数据和用户基本数据的预处理，可初步提取投诉类型、投诉时间、地区、用电量、性别、年龄、台区编号、行业、用电类型、投诉回放满意度等因素作为投诉行为特征。

步骤4.2：投诉特征转化。通过对用户历史投诉数据和用户基本数据分析表明：用户用电特性、年龄、性别、投诉时间等对于投诉关系重大，故将其作为投诉行为特征。

步骤5：建立基于互信息贝叶斯的用户投诉风险预测模型。基于步骤4中提取的各投诉行为特征，建立基于特征加权的朴素贝叶斯的投诉预测模型。

建模流程分为模型训练和模型预测2步。

步骤5.1：模型训练是基于前文经过数据预处理的训练集，采用特征加权贝叶斯算法建立预测模型。

步骤5.2：模型预测是输入待分类的数据，基于预测模型输出分类结果。周期性更新训练集和将预测结果反馈给模型，让模型不断迭代优化。

步骤6：实时预测。将无标签的实时数据的相关行为特征送入步骤6所建立的投诉预测模型中，获得预测结果。

本发明的有益效果:通过建立一种特征加权贝叶斯的投诉风险预测模型，并通过大数据技术对电力用户投诉行为的潜在风险进行挖掘，将用户基本信息与用户投诉信息相关联挖掘内在联系，提高对潜在投诉用户的预测精度，同时通过对贝叶斯网络结构的优化，增强预测的精度和稳定性，最终实现对潜在用电投诉用户的可靠预测。

附图说明

图1为加权-Adaboost-NBC算法模型图

图2为本发明采用的独热编码的文字数据特征转化图

图3为本发明数据预处理及投诉行为特征提取流程图

图4为本发明用户投诉特征提取结果

图5为特征加权贝叶斯模型的训练和预测流程

图6为K折交叉验证图

图7为本发明用户投诉行为贝叶斯网络模型

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

步骤1：建立特征加权的朴素贝叶斯算法

朴素贝叶斯理论前提是假设属性之间相互独立，当属性间的相关性较小时，朴素贝叶斯模型会表现出较好的分类性能。基于这一点考虑，对属性之间的相关度进行适当改进，建立特征加权的朴素贝叶斯算法。

步骤1.1：根据不同的属性对分类结果的影响程度赋予不同的权值，将朴素贝叶斯分类器扩展为特征加权的朴素贝叶斯分类器。构造的特征加权朴素贝叶斯分类模型为:

所建立的加权-Adaboost-NBC算法模型如图1所示。通过迭代训练被错误分类的样本来增强算法的学习能力。通过提高前一个弱分类器被分错样本的权重，使接下来的弱分类器能够学习到这个“残差”，把问题交给多个弱分类器分而治之，每个分类器把前面分类器不擅长的数据学好，最后一起表决。

步骤1.3：进行迭代t＝1···,T

步骤1.3.2：计算弱分类器在最终分类器上的权重。

(α_t为弱分类器的权重)

ε_T是被错分类的样本的权值之和。

被错误分类样本更新如下:

被正确分类样本，权值更新如下:

步骤2：贝叶斯网络学习

所建立的特征加权的朴素贝叶斯模型，是结合用电用户的各种属性的重要度来进行建模，因为用电用户投诉最相关的属性是用户的经济水平、所处的地区、用户的学历水平等信息，如果仅使用朴素贝叶斯模型的话会使得所有属性的重要度都一样，导致预测用户投诉的准确度不高，通过分析用电用户特征的重要度，进行特征加权将对用电用户投诉影响大的特征的重要度进行提高，可以提高用电用户投诉预测的准确度。

加权贝叶斯不仅仅是单一的将特征的重要度进行加权，而且是对多个贝叶斯分离器进行加权形成一个分类准确度更高的分类器，通过迭代学习，不断修正后一个分类器的特征权重，最后再将多个分类器按照权重来组成强分类器，使得对用电用户投诉的预测更加准确

步骤2.1：进行贝叶斯结构学习

与爬山搜索算法相比，K2学习算法可以通过预先给出的节点顺序。在寻找贝叶斯最优拓扑的过程中融入先验信息，但在未知因果关系的情况下通过主观定义节点顺序会降低结构学习的准确性，故本发明选择爬山算法进行贝叶斯的结构学习。

步骤2.2：以随机生成的方式产生大量的初始贝叶斯结构。

步骤2.4：进行贝叶斯网络参数学习

L(θ|D)＝P(D|θ)

式中：θ^*为令L(θ|D)取最大值时的θ值。

步骤3：数据预处理与特征提取

数据预处理及投诉行为特征提取流程如图3所示。

步骤3.1：数据预处理，对用户历史投诉数据和用户基本数据进行预处理，数据类型主要包含文字数据和数字数据。

One-hot编码，又称独热编码。其独热编码方式如图2所示，是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。

上述工作主要是完成数据投诉工单，目的是将工单中计算机无法直接识别的文字等投诉数据转化为计算机可以识别的数据。

步骤3.4：数据清洗。数据清洗主要是将用户历史投诉数据和用户基本数据中的无效数据作删除处理并对缺失数据进行增补；主要包括以下方法：

1)针对所有电力用户投诉数据的缺失问题，去除大部分数据为空的整行数据。

2)针对电力用户投诉数据属性的缺失问题，去除缺失率高的属性，并针对数值型的属性计算标准差，去除标准差小的特征。

3)对缺失值较少的数据和属性进行填充，采用预填充-曲线聚类-二次填充的方法对缺失电量数据进行补全。

由于能够得到的用户的基本数据不完备，只能从现有的数据来分析对用电用户影响大的属性，例如像用户的经济水平只能通过用户所处小区的房价等信息来转化为数字信息，而这些信息又对用电用户投诉的影响很大，所以利用特征加权的朴素贝叶斯方法对特征重要度进行加权来减少数据信息缺失对用电用户投诉准确度的影响，进而提高投诉预测的准确度。

步骤五和六通过建立的特征加权的朴素贝叶斯模型不断进行迭代优化，将实时数据送入模型中补充训练集进而使得所建立的模型的准确性提高。

步骤4：投诉行为特征提取

步骤4.2：投诉特征转化。通过对用户历史投诉数据和用户基本数据分析表明：用户用电特性、用户经济水平、年龄、性别、投诉时间等对于投诉关系重大，故将其作为投诉行为特征。其中，用户用电特性通过用电量数据进行提取，用户经济水平有用户住址等信息进行转化。提取投诉用户特征结果如图4所示。

建模流程如图5所示，分为模型训练和模型预测2步。

步骤5.2：模型预测是输入待分类的数据，基于预测模型输出分类结果。周期性更新训练集和将预测结果反馈给模型，让模型不断迭代优化。得到投诉敏感度贝叶斯网络模型如图6所示。

步骤5.3：在得到投诉敏感度的贝叶斯网络后，采用K折交叉验证法进行验证，根据n次不同测试集进行验证，以n次测试结果的平均值做为最终的验证结果，基于贝叶斯网络预测停电投诉如图7所示。

步骤6：实时预测。将无标签的实时数据的相关行为特征送入步骤5所建立的投诉预测模型中，获得预测结果。

通过建立一种特征加权贝叶斯的投诉风险预测模型，并通过大数据技术对电力用户投诉行为的潜在风险进行挖掘，将用户基本信息与用户投诉信息相关联挖掘内在联系，提高对潜在投诉用户的预测精度，同时通过对贝叶斯网络结构的优化，增强预测的精度和稳定性，最终实现对潜在用电投诉用户的可靠预测。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种特征加权贝叶斯网络的用电用户投诉预警方法，其特征在于，包括以下步骤：

步骤一：建立特征加权的朴素贝叶斯算法；

步骤二：进行贝叶斯网络学习；

步骤三：数据预处理与特征提取；

步骤四：投诉行为特征提取；

步骤五：建立基于互信息贝叶斯的用户投诉风险预测模型；

步骤六：进行实时预测，根据预测结果对用户用电投诉行为情况进行预警。

2.根据权利要求1所述的特征加权贝叶斯网络的用电用户投诉预警方法，其特征在于，数据预处理及特征提取还包括：数据转化、数据集成、数据清洗、特征提取。

3.根据权利要求2所述的特征加权贝叶斯网络的用电用户投诉预警方法，其特征在于，所述数据转换包括：

利用独热编码方式将文本数据转换为数字数据；

利用计算标准差等方式对数字数据进行相关性分析。

4.根据权利要求2所述的特征加权贝叶斯网络的用电用户投诉预警方法，其特征在于，所述数据集成还包括对经过数据转化过的的数据和进行集成，作为一个数据库参与后续建模。

5.根据权利要求2所述的特征加权贝叶斯网络的用电用户投诉预警方法，其特征在于，所述数据清洗，包括：

将用户历史投诉数据和用户基本数据中的无效数据作删除处理并对缺失数据进行增补；

针对所有电力用户投诉数据的缺失问题，去除大部分数据为空的整行数据；

针对电力用户投诉数据属性的缺失问题，去除缺失率高的属性，并针对数值型的属性计算标准差，去除标准差小的特征；

对缺失值较少的数据和属性进行填充，采用预填充-曲线聚类-二次填充的方法对缺失电量数据进行补全。

6.根据权利要求1所述的特征加权贝叶斯网络的用电用户投诉预警方法，其特征在于，所述建立特征加权的朴素贝叶斯算法包括用粗糙集理论计算每个条件属性的重要度。

7.根据权利要求6所述的特征加权贝叶斯网络的用电用户投诉预警方法，其特征在于，根据粗糙集理论计算每个条件属性的重要度作为属性权值，构建特征加权朴素贝叶斯分类器，构造的特征加权朴素贝叶斯分类模型为:

8.根据权利要求6所述的特征加权贝叶斯网络的用电用户投诉预警方法，其特征在于，在训练特征加权朴素贝叶斯分类器时，每个样本被附加一个初始权重，当计算条件概率时，并不是将样本出现的次数相加，而是将样本附加的权重值进行相加。每轮训练完都要进行样本的权值更新。