CN111753907A

CN111753907A - 一种电量数据的处理方法、装置、设备和存储介质

Info

Publication number: CN111753907A
Application number: CN202010590449.3A
Authority: CN
Inventors: 纪鑫; 赵晓龙; 董林啸; 武同心; 崔琪; 何禹德; 李建芳; 褚娟; 孙明月; 程志华; 王宏刚; 刘识; 杨成月; 余婷
Original assignee: Big Data Center Of State Grid Corp Of China
Current assignee: Big Data Center Of State Grid Corp Of China
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-09
Anticipated expiration: 2040-06-24
Also published as: CN111753907B

Abstract

本申请涉及一种电量数据的处理方法、装置、设备和存储介质。该方法包括：获取当前用户的电量特征数据；将所述电量特征数据输入至训练好的随机森林模型中，得到所述电量特征数据的分类结果，其中，所述随机森林模型的参数是通过优化算法优化得到的。该方法能够提高电量数据的处理效率，同时也能够提高电量数据分类结果的准确性。

Description

一种电量数据的处理方法、装置、设备和存储介质

技术领域

本申请涉及电力行业的大数据分析技术领域，特别是涉及一种电量数据的处理方法、装置、设备和存储介质。

背景技术

为了加强用电管理，电力管理侧需要对电网中的所有用户的用电数据进行异常分析，以为后续的统计决策管理提供重要的数据依据，因此，对用户的电量数据进行有效分析显得尤为重要。

传统技术中，通常会设定对应的异常阈值，根据电量数据与异常阈值的比较结果，并通过人工对比较结果进行核查的方式去实现电量数据的异常识别。但是，传统的电量数据分析方式需要人工参与核查，从而导致电量数据的处理效率较低，且处理结果的准确率也较低。

发明内容

基于此，有必要针对传统方式电量数据的处理效率较低，且处理结果的准确率也较低的技术问题，提供一种电量数据的处理方法、装置、设备和存储介质。

第一方面，本申请实施例提供一种电量数据的处理方法，包括：

获取当前用户的电量特征数据；

将所述电量特征数据输入至训练好的随机森林模型中，得到所述电量特征数据的分类结果，其中，所述随机森林模型的参数是通过优化算法优化得到的。

第二方面，本申请实施例提供一种电量数据的处理装置，包括：

第一获取模块，用于获取当前用户的电量特征数据；

分类模块，用于将所述电量特征数据输入至训练好的随机森林模型中，得到所述电量特征数据的分类结果，其中，所述随机森林模型的参数是通过优化算法优化得到的。

第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例第一方面提供的电量数据的处理方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例第一方面提供的电量数据的处理方法。

本申请实施例提供的电量数据的处理方法、装置、计算机设备和存储介质，在获取到当前用户的电量特征数据，计算机设备将该电量特征数据输入至训练好的随机森林模型中，得到该电量特征数据的分类结果，其中，上述随机森林模型的参数是通过优化算法优化得到的。通过该技术方案，直接使用训练好的随机森林模型即可以实现对各个用户的电量特征数据的异常识别，不再需要人工参与电量数据的核查过程，减少了人为参与度，从而提高了电量数据的处理效率。同时，电量数据分类过程所使用的随机森林模型的参数也是基于优化算法优化得到的，减少了人为在参数选择方面的主观干扰性，提高了随机森林模型的训练效率，从而进一步提高了电量数据的处理效率，同时也提高了电量数据分类结果的准确性。

附图说明

图1为本申请实施例提供的电量数据的处理方法的一种流程示意图；

图2为本申请实施例提供的电量数据的处理方法的另一种流程示意图；

图3为本申请实施例提供的电量数据的处理方法的又一种流程示意图；

图4为本申请实施例提供的一种电量数据的处理装置的结构示意图；

图5为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本申请实施例中的技术方案进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，下述方法实施例的执行主体可以是电量数据的处理装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。可选的，计算机设备可以为个人计算机PC(personal computer)、移动终端、便携式设备等具有数据处理功能、且可以与外部设备或者用户交互的电子设备，当然，计算机设备也可以为服务器，本实施例对计算机设备的具体形式并不做限定。下述方法实施例以执行主体是计算机设备为例进行说明。

图1为本申请实施例提供的电量数据的处理方法的一种流程示意图。本实施例涉及的是计算机设备如何对电量数据进行分类的具体过程。如图1所示，该方法可以包括：

S101、获取当前用户的电量特征数据。

具体的，当前用户为需要进行电量数据分析的用户。为了能够准确分析某个用户的用电是否正常，通常会选择一些能够表征用户用电行为的特征数据进行综合分析。即上述电量特征数据可以为用户的用电量指标、负荷指标、线损指标、告警指标、合同容量比指标、电压三相不平衡率指标、电流三相不平衡率指标以及功率因数指标等特征数据。

当需要对当前用户进行电量数据分析时，可以从数据库中获取当前用户在某一时间周期内的电量特征数据。可选的，在获取到当前用户的电量特征数据之后，计算机设备可以对这些电量特征数据进行预处理。即，剔除这些电量特征数据中的缺失、异常数据，并对处理后的电量特征数据进行Z-Scroe归一化预处理，以消除量纲的影响，得到适合随机森林模型的输入数据。

S102、将所述电量特征数据输入至训练好的随机森林模型中，得到所述电量特征数据的分类结果。

具体的，随机森林模型是由一系列相互独立的决策树组合而成的，每一个决策树构成了整个随机森林模型的最小组成。其表达形式可以写成

其中，RF(x)为随机森林模型的输出，f_i为随机森林模型中的单个决策树分类器模型，Y表示单个决策树分类器模型的输出，I为示性函数，b为随机森林模型中的决策树的数量。当给定随机森林模型一个自变量x后，每个决策树都会互不影响地对输入进行独立判断，最终通过投票选定整个分类器的分类结果。单独的决策树决策能力往往比较薄弱，但是将一系列决策树进行有机集合，其决策能力将十分强大。

在该步骤中，计算机设备将当前用户的电量特征数据输入至训练好的随机森林模型中，随机森林模型中的各个决策树均会对该电量特征数据进行分类，得到各个决策树的分类结果，然后对各个分类结果进行简单多数投票，根据投票选定最终的分类结果。其中，最终的分类结果包括电量特征数据正常(即当前用户的用电正常)或者电量特征数据异常(即当前用户的用电异常)。

另外，在对当前用户的电量特征数据进行分类时，计算机设备所采用的随机森林模型的参数是通过优化算法优化得到的。其中，该优化算法可以为鱼群算法、遗传算法或者粒子群算法等。可选的，随机森林模型的参数可以包括决策树的数量、特征子集包含的特征数量以及所述随机森林模型实际所选的具体特征。其中，决策树的数量nTree越大，表示随机森林模型中的决策树越多，则随机森林分类器的多样性越好，分类精度越高；但是，当nTree达到某值后分类效果便趋于不变，反而致使分类器的时间空间计算量大，解释性降低。nTree过小，则致使分类器多样性降低，分类性能变差、精度降低。特征子集包含的特征数量k表示在创建随机森林模型过程中，节点***时无放回式地从总特征集中进行抽样，得到的特征子集的大小。当k值过大，则会造成决策树之间多样性低，降低分类效果；当k值过小，虽然基分类器间多样性很高，但是分类器的分类精度、泛化能力都会降低。同时，随机森林模型的参数还包括随机森林模型实际所选的具体特征Attribute(即二进制特征值)。因此，优化上述参数，对于随机森林模型来说很重要。在本实施例中，计算机设备可以通过如鱼群算法、遗传算法或者粒子群算法等优化算法优化上述参数，使得计算机设备能够在有效时间内训练出随机森林模型最优的参数，避免了人为进行参数选择的主观性。这样，计算机设备采用最优的参数所构建的随机森林模型，对当前用户的电量特征数据进行分类预测，使得预测的分类结果更加准确。

本申请实施例提供的电量数据的处理方法，在获取到当前用户的电量特征数据，计算机设备将该电量特征数据输入至训练好的随机森林模型中，得到该电量特征数据的分类结果，其中，上述随机森林模型的参数是通过优化算法优化得到的。通过该技术方案，直接使用训练好的随机森林模型即可以实现对各个用户的电量特征数据的异常识别，不再需要人工参与电量数据的核查过程，减少了人为参与度，从而提高了电量数据的处理效率。同时，电量数据分类过程所使用的随机森林模型的参数也是基于优化算法优化得到的，减少了人为在参数选择方面的主观干扰性，提高了随机森林模型的训练效率，从而进一步提高了电量数据的处理效率，同时也提高了电量数据分类结果的准确性。

在一个实施例中，还提供了上述随机森林模型的训练过程。在上述实施例的基础上，可选的，如图2所示，在上述S102之前，该方法还可以包括：

S201、获取训练样本数据集。

其中，所述训练样本数据集包括多个特征数据。构建随机森林模型的第一步是训练样本数据集的随机抽样，为了保证随机森林模型中的各个决策树的多样性，计算机设备可以从原样本数据集中有放回地随机抽取与原样本数据集同样大小的训练样本集，形成训练样本数据集。具体的，计算机设备从原样本数据集中有放回地随机抽取N个样本，该N个样本形成随机森林模型的训练样本数据集，其中，N为原样本数据集中包括的样本数量。在该步骤中，该训练样本数据集包括目标用户的电量特征数据和实际分类结果。

S202、对所述多个特征数据进行特征分组，得到多个分组结果。

其中，每个分组结果所包含的各个特征数据的属性相同。传统的拔靴(Bootstrap)采样法在决策树***时进行特征子集的选取也是随机性的。这种随机性，会导致所选取的特征子集中的内部特征对分类结果的影响不一致，即分类强的特征会和分类弱的特征划分到同一组。这种情况，反而会影响单个决策树的分类性能。为此，在本步骤中，计算机设备可以对训练样本数据集中的多个特征数据进行特征分组，得到多个分组结果，使得每个分组结果所包含的各个特征数据的属性相同。属性相同可以理解为：对分类结果的影响相当的特征位于同一组，即分类强的特征位于同一组，相反分类比较弱的特征位于同一组。

作为一种可选的实施方式，上述S202可以包括以下步骤：

S2021、针对所述多个特征数据中的每个目标特征数据，采用卡方检验算法计算所述目标特征数据的第一权重，其中，所述第一权重用于表征所述目标特征数据与其它特征数据间的关联程度。

具体的，计算机设备可以采用如下公式1，计算训练样本数据集中的每个目标特征数据的第一权值w_i,1。

公式1：

其中，A_i为目标特征数据在训练样本数据集中出现的实际次数，np_i为目标特征数据在训练样本数据集中出现的理论次数，m为训练样本数据集中包含的特征数据的种类数量。

S2022、针对所述多个特征数据中的每个目标特征数据，计算所述目标特征数据的第二权重，其中，所述第二权重用于表征所述目标特征数据的分类能力。

具体的，计算机设备可以采用如下公式2，计算训练样本数据集中的每个目标特征数据的第二权值w_i,2。

公式2：

其中，

为目标特征数据在训练样本数据集中出现的实际次数，m_i表示目标特征数据包括的种类数，

为用信息熵度量目标特征数据在所有类中分布的集中程度，其中，k为因变量特征个数，

表示类别特征在训练样本数据集中出现的频率，

为用信息熵度量目标特征数据在所有类中分布的分散程度。

S2023、针对所述多个特征数据中的每个目标特征数据，根据所述第一权重和所述第二权重，计算所述目标特征数据的加权权重。

具体的，计算机设备可以采用如下公式3，计算目标特征数据的加权权重w_i。

公式3：w_i＝λ₁w_i,1+λ₂w_i,2；

其中，λ₁和λ₂为加权系数，λ₁和λ₂的取值范围为[0,1]，且λ₁和λ₂之和等于1。

S2024、基于每个所述目标特征数据的加权权重，采用分组最小角回归算法，对所述多个特征数据进行特征分组，得到多个分组结果。

其中，计算机设备可以对各个目标特征数据的加权权重进行排序，得到排序结果，并将排序结果输入至分组最小角回归算法中，得到各个目标特征数据的分组结果，属于同一分组中的各个特征数据的属性相同。

S203、基于所述多个分组结果无放回地选取相应数量的特征数据，形成特征子集。

其中，在进行特征子集的选取时，计算机设备便可以基于上述多个分组结果随机性地选取相应数量的特征数据，形成特征子集。这样，使得每次随机抽取的部分特征能够保持内部特征对分类结果的一致性，即分类作业非常强的特征会挑选在同一组，而相反比较弱的特征会进入到下次的采样过程，这样很好得保证了每次选择出的特征是最优的特征，从而达到优化特征选择的效果，提升了决策树的分类性能。

S204、采用所述训练样本数据集训练预设初始模型中的决策树，在所述决策树***时，采用所述特征子集对所述决策树进行训练，得到所述随机森林模型。

在本实施例中，计算机设备在训练随机森林模型的过程中，能够对训练样本数据集包括的多个特征数据进行特征分组，并基于特征分组的结果选取特征子集，这样，所选取的特征子集充分考虑了特征数据之间的关联性，使得每次随机抽取的部分特征能够保持内部特征对分类结果的一致性，从而达到优化特征选择的效果，提升了决策树的分类性能，进而提升了随机森林模型的分类性能。

在一个实施例中，在训练随机森林模型的过程中，可以采用优化算法对其参数进行优化。可选的，该优化算法可以为鱼群算法。对此，如图3所示，上述S204的过程可以为：

S301、根据所述训练样本数据集、所述特征子集和所述预设初始模型，确定当前迭代次数对应的袋外误差值。

其中，预设初始模型与训练好的随机森林模型的模型结构相同，且预设初始模型包含各个待优化参数的初始值。计算机设备将训练样本数据集和特征子集输入至预设初始模型，得到预测分类结果，并基于预测分类结果和实际分类结果计算当前迭代次数对应的袋外误差值。

S302、若所述当前迭代次数未达到预设的最大迭代次数，则采用鱼群算法优化所述预设初始模型的参数的当前值，得到所述参数的优化值，并基于所述优化值确定下一迭代次数对应的袋外误差值，直至所述当前迭代次数达到所述最大迭代次数为止。

其中，可以预先设置模型训练的最大迭代次数，计算机设备判断当前迭代次数是否超过最大迭代次数，若当前迭代次数未达到最大迭代次数，则计算机设备将预设初始模型的参数的当前值输入至鱼群算法中，并基于预设初始模型的参数的当前值初始化鱼群算法的参数值，从而通过鱼群算法在基于上述参数的当前值的某一阈值区间内寻找随机森林模型参数的最优解。在通过鱼群算法得到参数的优化值之后，计算机设备基于该优化值更新预设初始模型中的参数的当前值，并基于参数更新后的预设初始模型、训练样本数据集和特征子集，计算下一迭代次数对应的袋外误差值，并将下一迭代次数作为当前迭代次数，直至当前迭代次数达到所设置的最大迭代次数为止。

在其中一个实施例中，可选的，计算机设备采用鱼群算法优化预设初始模型的参数的当前值，得到所述参数的优化值的过程可以为：将所述预设初始模型的参数的当前值作为人工鱼的状态值，形成人工鱼个体，将两个以上人工鱼个体随机组成多个鱼群；对鱼群依次执行聚群算子、追尾算子和觅食算子，并计算鱼群中各个人工鱼个体的适应度值，将适应度值最小的人工鱼个体作为最优人工鱼个体；将所述最优人工鱼个体的状态值作为所述参数的优化值。

其中，在该过程中，可以初始化鱼群算法的参数。例如，人工鱼数量popsize、行为尝试最大次数try_number，人工鱼的视野visual、拥挤度因子delta、鱼群位置X_k＝{Z_k,1,Z_k,2,…}，其中，k＝1,2,…,posize，最大步长step等。计算机设备基于预设初始模型的参数的当前值设置鱼群算法优化的阈值区间，并将该阈值区间内的参数的取值转换为人工鱼的状态值，从而形成人工鱼个体。例如，假设参数的当前值为：nTree＝1，k＝5，Attribute＝1111010000，则将其转换为人工鱼的状态值为：0011011111010000。

接着，计算鱼群的食物浓度，并基于该食物浓度进行聚群行为、追尾行为以及觅食行为分析，根据分析结果执行相应的行为。其中，F＝f(X)表示某人工鱼个体所感知到X处的食物浓度，该表达式可以作为鱼群算法的适应度函数，其与随机森林模型的袋外误差计算公式相关。

以下为鱼群算法的核心行为：

(1)、聚群行为：假设人工鱼个体的当前状态是X_i，视野中的伙伴个数为n_f，视野中鱼群的中心位置是X_c，如果

表示鱼群中心处的函数值F_c较高且该人工鱼个体附近的人工鱼密度较低，则该人工鱼个体根据如下公式4改变自身的位置。反之如果聚群行为条件

不成立，则执行觅食行为。

公式4：

其中，Z_c,i表示人工鱼个体在食物最大浓度的位置，Z_k,i表示人工鱼个体的当前位置，Z_k+1,i表示人工鱼个体在下一状态的位置，rand为服从均匀分布的随机数，其取值范围为(-1，1)。

(2)、追尾行为：假设人工鱼个体的当前状态是X_i，视野中的伙伴个数为n_f，在视野范围内找到鱼群中最大食物浓度F_max的人工鱼X_max，如果

说明此刻人工鱼X_max周边鱼的密度不高，还有继续聚群的空间，则该人工鱼X_i根据如下公式5改变自身的位置。反之如果追尾行为条件

不成立，则执行觅食行为。

公式5：

(3)、觅食行为：假设人工鱼个体的当前状态为X_k＝{Z_k,i}，在视野内d_ij≤visual内随机选择一个状态X_j＝{Z_j,i}，若F_k＞F_j，则重新随机生成一个状态X_k+1，重新计算食物浓度，尝试try_number次，如果不能找到合适状态，则按如下公式6结束觅食行为。反之则执行觅食行为，向X_j方向移动。

公式6：

鱼群按照上述行为，依次执行聚群算子、追尾算子和觅食算子，并在执行相应算子后，计算鱼群中各个人工鱼个体的适应度值，将适应度值最小的人工鱼个体作为最优人工鱼个体，并将最优人工鱼个体的状态值作为随机森林模型的参数的优化值，输入给随机森林模型。计算机设备基于该优化值更新随机森林模型的参数的当前值，并基于参数更新后的随机森林模型，计算下一迭代次数对应的袋外误差值。

S303、将所有袋外误差值中的最小袋外误差值对应的当前值作为所述参数的实际值，并将所述预设初始模型的参数的初始值更新为所述实际值，得到所述随机森林模型。

其中，计算机设备保存了所有迭代次数对应的袋外误差值，从保存的所有袋外误差值中选择最小袋外误差值，并将最小袋外误差值对应的当前值作为随机森林模型的参数的实际值。然后，计算机设备将预设初始模型的参数的初始值更新为该实际值，从而得到训练好的随机森林模型。

可选的，可以对训练好的随机森林模型进行模型评估，将传统随机森林模型和进行了特征分组以及组合鱼群算法后的随机森林模型(即优化后的随机森林模型)进行对比分析，分析结果取5折交叉验证的平均值，两种不同的随机森林模型对验证数据集的分类结果如表1所示。

表1

从表1两种随机森林模型的分类结果可以看出，优化后的随机森林模型的准确率、精确率较高，且OOB error最小，因此，优化后的随机森林模型能够取得较好的分类结果。

在本实施例中，计算机设备可以采用鱼群算法优化随机森林模型中的参数，实现袋外误差值最小化，降低了人为设置参数的主观干扰性，提高了随机森林模型的训练效率，且提高了该随机森林模型的分类结果的准确性。这样，在使用该训练好的随机森林模型对当前用户的电量数据进行分类时，进一步提高了电量数据的处理效率，同时也提高了电量数据分类结果的准确性。

图4为本申请实施例提供的一种电量数据的处理装置的结构示意图，如图4所示，该装置可以包括：第一获取模块10和分类模块11。

具体的，第一获取模块10用于获取当前用户的电量特征数据；

分类模块11用于将所述电量特征数据输入至训练好的随机森林模型中，得到所述电量特征数据的分类结果，其中，所述随机森林模型的参数是通过优化算法优化得到的。

本申请实施例提供的电量数据的处理装置，在获取到当前用户的电量特征数据，计算机设备将该电量特征数据输入至训练好的随机森林模型中，得到该电量特征数据的分类结果，其中，上述随机森林模型的参数是通过优化算法优化得到的。通过该技术方案，直接使用训练好的随机森林模型即可以实现对各个用户的电量特征数据的异常识别，不再需要人工参与电量数据的核查过程，减少了人为参与度，从而提高了电量数据的处理效率。同时，电量数据分类过程所使用的随机森林模型的参数也是基于优化算法优化得到的，减少了人为在参数选择方面的主观干扰性，提高了随机森林模型的训练效率，从而进一步提高了电量数据的处理效率，同时也提高了电量数据分类结果的准确性。

在上述实施例的基础上，可选的，该装置还可以包括：第二获取模块、特征分组模块、抽样模块和处理模块；

具体的，第二获取模块用于在分类模块11将所述电量特征数据输入至训练好的随机森林模型中，得到所述电量特征数据的分类结果之前，获取训练样本数据集，其中，所述训练样本数据集包括多个特征数据；

特征分组模块用于对所述多个特征数据进行特征分组，得到多个分组结果，其中，每个分组结果所包含的各个特征数据的属性相同；

抽样模块用于基于所述多个分组结果无放回地选取相应数量的特征数据，形成特征子集；

处理模块用于采用所述训练样本数据集训练预设初始模型中的决策树，在所述决策树***时，采用所述特征子集对所述决策树进行训练，得到所述随机森林模型。

在上述实施例的基础上，可选的，特征分组模块具体用于针对所述多个特征数据中的每个目标特征数据，采用卡方检验算法计算所述目标特征数据的第一权重，其中，所述第一权重用于表征所述目标特征数据与其它特征数据间的关联程度；针对所述多个特征数据中的每个目标特征数据，计算所述目标特征数据的第二权重，其中，所述第二权重用于表征所述目标特征数据的分类能力；针对所述多个特征数据中的每个目标特征数据，根据所述第一权重和所述第二权重，计算所述目标特征数据的加权权重；基于每个所述目标特征数据的加权权重，采用分组最小角回归算法，对所述多个特征数据进行特征分组，得到多个分组结果。

可选的，所述优化算法为鱼群算法；在上述实施例的基础上，可选的，上述处理模块可以包括：确定单元、优化单元和更新单元。

具体的，确定单元用于根据所述训练样本数据集、所述特征子集和所述预设初始模型，确定当前迭代次数对应的袋外误差值；

优化单元用于在所述当前迭代次数未达到预设的最大迭代次数时，采用鱼群算法优化所述预设初始模型的参数的当前值，得到所述参数的优化值，并基于所述优化值确定下一迭代次数对应的袋外误差值，直至所述当前迭代次数达到所述最大迭代次数为止；

更新单元用于将所有袋外误差值中的最小袋外误差值对应的当前值作为所述参数的实际值，并将所述预设初始模型的参数的初始值更新为所述实际值，得到所述随机森林模型。

在上述实施例的基础上，可选的，优化单元具体用于将所述预设初始模型的参数的当前值作为人工鱼的状态值，形成人工鱼个体，将两个以上人工鱼个体随机组成多个鱼群；对鱼群依次执行聚群算子、追尾算子和觅食算子，并计算鱼群中各个人工鱼个体的适应度值，将适应度值最小的人工鱼个体作为最优人工鱼个体；将所述最优人工鱼个体的状态值作为所述参数的优化值。

可选的，所述参数包括决策树的数量、特征子集包含的特征数量以及所述随机森林模型实际所选的具体特征。

在上述实施例的基础上，可选的，第二获取模块具体用于从原样本数据集中有放回地随机抽取N个样本，所述N个样本形成所述训练样本数据集，其中，N为所述原样本数据集中包括的样本数量。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储电量数据处理过程中所产生的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电量数据的处理方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取当前用户的电量特征数据；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取训练样本数据集，其中，所述训练样本数据集包括多个特征数据；对所述多个特征数据进行特征分组，得到多个分组结果，其中，每个分组结果所包含的各个特征数据的属性相同；基于所述多个分组结果无放回地选取相应数量的特征数据，形成特征子集；采用所述训练样本数据集训练预设初始模型中的决策树，在所述决策树***时，采用所述特征子集对所述决策树进行训练，得到所述随机森林模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：针对所述多个特征数据中的每个目标特征数据，采用卡方检验算法计算所述目标特征数据的第一权重，其中，所述第一权重用于表征所述目标特征数据与其它特征数据间的关联程度；针对所述多个特征数据中的每个目标特征数据，计算所述目标特征数据的第二权重，其中，所述第二权重用于表征所述目标特征数据的分类能力；针对所述多个特征数据中的每个目标特征数据，根据所述第一权重和所述第二权重，计算所述目标特征数据的加权权重；基于每个所述目标特征数据的加权权重，采用分组最小角回归算法，对所述多个特征数据进行特征分组，得到多个分组结果。

在一个实施例中，所述优化算法为鱼群算法，处理器执行计算机程序时还实现以下步骤：根据所述训练样本数据集、所述特征子集和所述预设初始模型，确定当前迭代次数对应的袋外误差值；若所述当前迭代次数未达到预设的最大迭代次数，则采用鱼群算法优化所述预设初始模型的参数的当前值，得到所述参数的优化值，并基于所述优化值确定下一迭代次数对应的袋外误差值，直至所述当前迭代次数达到所述最大迭代次数为止；将所有袋外误差值中的最小袋外误差值对应的当前值作为所述参数的实际值，并将所述预设初始模型的参数的初始值更新为所述实际值，得到所述随机森林模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将所述预设初始模型的参数的当前值作为人工鱼的状态值，形成人工鱼个体，将两个以上人工鱼个体随机组成多个鱼群；对鱼群依次执行聚群算子、追尾算子和觅食算子，并计算鱼群中各个人工鱼个体的适应度值，将适应度值最小的人工鱼个体作为最优人工鱼个体；将所述最优人工鱼个体的状态值作为所述参数的优化值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从原样本数据集中有放回地随机抽取N个样本，所述N个样本形成所述训练样本数据集，其中，N为所述原样本数据集中包括的样本数量。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取当前用户的电量特征数据；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取训练样本数据集，其中，所述训练样本数据集包括多个特征数据；对所述多个特征数据进行特征分组，得到多个分组结果，其中，每个分组结果所包含的各个特征数据的属性相同；基于所述多个分组结果无放回地选取相应数量的特征数据，形成特征子集；采用所述训练样本数据集训练预设初始模型中的决策树，在所述决策树***时，采用所述特征子集对所述决策树进行训练，得到所述随机森林模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：针对所述多个特征数据中的每个目标特征数据，采用卡方检验算法计算所述目标特征数据的第一权重，其中，所述第一权重用于表征所述目标特征数据与其它特征数据间的关联程度；针对所述多个特征数据中的每个目标特征数据，计算所述目标特征数据的第二权重，其中，所述第二权重用于表征所述目标特征数据的分类能力；针对所述多个特征数据中的每个目标特征数据，根据所述第一权重和所述第二权重，计算所述目标特征数据的加权权重；基于每个所述目标特征数据的加权权重，采用分组最小角回归算法，对所述多个特征数据进行特征分组，得到多个分组结果。

在一个实施例中，所述优化算法为鱼群算法，计算机程序被处理器执行时还实现以下步骤：根据所述训练样本数据集、所述特征子集和所述预设初始模型，确定当前迭代次数对应的袋外误差值；若所述当前迭代次数未达到预设的最大迭代次数，则采用鱼群算法优化所述预设初始模型的参数的当前值，得到所述参数的优化值，并基于所述优化值确定下一迭代次数对应的袋外误差值，直至所述当前迭代次数达到所述最大迭代次数为止；将所有袋外误差值中的最小袋外误差值对应的当前值作为所述参数的实际值，并将所述预设初始模型的参数的初始值更新为所述实际值，得到所述随机森林模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将所述预设初始模型的参数的当前值作为人工鱼的状态值，形成人工鱼个体，将两个以上人工鱼个体随机组成多个鱼群；对鱼群依次执行聚群算子、追尾算子和觅食算子，并计算鱼群中各个人工鱼个体的适应度值，将适应度值最小的人工鱼个体作为最优人工鱼个体；将所述最优人工鱼个体的状态值作为所述参数的优化值。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：从原样本数据集中有放回地随机抽取N个样本，所述N个样本形成所述训练样本数据集，其中，N为所述原样本数据集中包括的样本数量。

上述实施例中提供的电量数据的处理装置、计算机设备以及存储介质可执行本申请任意实施例所提供的电量数据的处理方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的电量数据的处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种电量数据的处理方法，其特征在于，包括：

获取当前用户的电量特征数据；

2.根据权利要求1所述的方法，其特征在于，在所述将所述电量特征数据输入至训练好的随机森林模型中，得到所述电量特征数据的分类结果之前，所述方法还包括：

获取训练样本数据集，其中，所述训练样本数据集包括多个特征数据；

对所述多个特征数据进行特征分组，得到多个分组结果，其中，每个分组结果所包含的各个特征数据的属性相同；

基于所述多个分组结果无放回地选取相应数量的特征数据，形成特征子集；

采用所述训练样本数据集训练预设初始模型中的决策树，在所述决策树***时，采用所述特征子集对所述决策树进行训练，得到所述随机森林模型。

3.根据权利要求2所述的方法，其特征在于，所述对所述多个特征数据进行特征分组，得到多个分组结果，包括：

针对所述多个特征数据中的每个目标特征数据，采用卡方检验算法计算所述目标特征数据的第一权重，其中，所述第一权重用于表征所述目标特征数据与其它特征数据间的关联程度；

针对所述多个特征数据中的每个目标特征数据，计算所述目标特征数据的第二权重，其中，所述第二权重用于表征所述目标特征数据的分类能力；

针对所述多个特征数据中的每个目标特征数据，根据所述第一权重和所述第二权重，计算所述目标特征数据的加权权重；

基于每个所述目标特征数据的加权权重，采用分组最小角回归算法，对所述多个特征数据进行特征分组，得到多个分组结果。

4.根据权利要求2所述的方法，其特征在于，所述优化算法为鱼群算法；

所述采用所述训练样本数据集训练预设初始模型中的决策树，在所述决策树***时，采用所述特征子集对所述决策树进行训练，得到所述随机森林模型，包括：

根据所述训练样本数据集、所述特征子集和所述预设初始模型，确定当前迭代次数对应的袋外误差值；

若所述当前迭代次数未达到预设的最大迭代次数，则采用鱼群算法优化所述预设初始模型的参数的当前值，得到所述参数的优化值，并基于所述优化值确定下一迭代次数对应的袋外误差值，直至所述当前迭代次数达到所述最大迭代次数为止；

将所有袋外误差值中的最小袋外误差值对应的当前值作为所述参数的实际值，并将所述预设初始模型的参数的初始值更新为所述实际值，得到所述随机森林模型。

5.根据权利要求4所述的方法，其特征在于，所述采用鱼群算法优化所述预设初始模型的参数的当前值，得到所述参数的优化值，包括：

将所述预设初始模型的参数的当前值作为人工鱼的状态值，形成人工鱼个体，将两个以上人工鱼个体随机组成多个鱼群；

对鱼群依次执行聚群算子、追尾算子和觅食算子，并计算鱼群中各个人工鱼个体的适应度值，将适应度值最小的人工鱼个体作为最优人工鱼个体；

将所述最优人工鱼个体的状态值作为所述参数的优化值。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述参数包括决策树的数量、特征子集包含的特征数量以及所述随机森林模型实际所选的具体特征。

7.根据权利要求2所述的方法，其特征在于，所述获取训练样本数据集，包括：

从原样本数据集中有放回地随机抽取N个样本，所述N个样本形成所述训练样本数据集，其中，N为所述原样本数据集中包括的样本数量。

8.一种电量数据的处理装置，其特征在于，包括：

第一获取模块，用于获取当前用户的电量特征数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。