CN111753907A - 一种电量数据的处理方法、装置、设备和存储介质 - Google Patents

一种电量数据的处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN111753907A
CN111753907A CN202010590449.3A CN202010590449A CN111753907A CN 111753907 A CN111753907 A CN 111753907A CN 202010590449 A CN202010590449 A CN 202010590449A CN 111753907 A CN111753907 A CN 111753907A
Authority
CN
China
Prior art keywords
data
electric quantity
random forest
feature
characteristic data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010590449.3A
Other languages
English (en)
Other versions
CN111753907B (zh
Inventor
纪鑫
赵晓龙
董林啸
武同心
崔琪
何禹德
李建芳
褚娟
孙明月
程志华
王宏刚
刘识
杨成月
余婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Center Of State Grid Corp Of China
Original Assignee
Big Data Center Of State Grid Corp Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Center Of State Grid Corp Of China filed Critical Big Data Center Of State Grid Corp Of China
Priority to CN202010590449.3A priority Critical patent/CN111753907B/zh
Publication of CN111753907A publication Critical patent/CN111753907A/zh
Application granted granted Critical
Publication of CN111753907B publication Critical patent/CN111753907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Water Supply & Treatment (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种电量数据的处理方法、装置、设备和存储介质。该方法包括:获取当前用户的电量特征数据;将所述电量特征数据输入至训练好的随机森林模型中,得到所述电量特征数据的分类结果,其中,所述随机森林模型的参数是通过优化算法优化得到的。该方法能够提高电量数据的处理效率,同时也能够提高电量数据分类结果的准确性。

Description

一种电量数据的处理方法、装置、设备和存储介质
技术领域
本申请涉及电力行业的大数据分析技术领域,特别是涉及一种电量数据的处理方法、装置、设备和存储介质。
背景技术
为了加强用电管理,电力管理侧需要对电网中的所有用户的用电数据进行异常分析,以为后续的统计决策管理提供重要的数据依据,因此,对用户的电量数据进行有效分析显得尤为重要。
传统技术中,通常会设定对应的异常阈值,根据电量数据与异常阈值的比较结果,并通过人工对比较结果进行核查的方式去实现电量数据的异常识别。但是,传统的电量数据分析方式需要人工参与核查,从而导致电量数据的处理效率较低,且处理结果的准确率也较低。
发明内容
基于此,有必要针对传统方式电量数据的处理效率较低,且处理结果的准确率也较低的技术问题,提供一种电量数据的处理方法、装置、设备和存储介质。
第一方面,本申请实施例提供一种电量数据的处理方法,包括:
获取当前用户的电量特征数据;
将所述电量特征数据输入至训练好的随机森林模型中,得到所述电量特征数据的分类结果,其中,所述随机森林模型的参数是通过优化算法优化得到的。
第二方面,本申请实施例提供一种电量数据的处理装置,包括:
第一获取模块,用于获取当前用户的电量特征数据;
分类模块,用于将所述电量特征数据输入至训练好的随机森林模型中,得到所述电量特征数据的分类结果,其中,所述随机森林模型的参数是通过优化算法优化得到的。
第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请实施例第一方面提供的电量数据的处理方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例第一方面提供的电量数据的处理方法。
本申请实施例提供的电量数据的处理方法、装置、计算机设备和存储介质,在获取到当前用户的电量特征数据,计算机设备将该电量特征数据输入至训练好的随机森林模型中,得到该电量特征数据的分类结果,其中,上述随机森林模型的参数是通过优化算法优化得到的。通过该技术方案,直接使用训练好的随机森林模型即可以实现对各个用户的电量特征数据的异常识别,不再需要人工参与电量数据的核查过程,减少了人为参与度,从而提高了电量数据的处理效率。同时,电量数据分类过程所使用的随机森林模型的参数也是基于优化算法优化得到的,减少了人为在参数选择方面的主观干扰性,提高了随机森林模型的训练效率,从而进一步提高了电量数据的处理效率,同时也提高了电量数据分类结果的准确性。
附图说明
图1为本申请实施例提供的电量数据的处理方法的一种流程示意图;
图2为本申请实施例提供的电量数据的处理方法的另一种流程示意图;
图3为本申请实施例提供的电量数据的处理方法的又一种流程示意图;
图4为本申请实施例提供的一种电量数据的处理装置的结构示意图;
图5为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本申请实施例中的技术方案进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,下述方法实施例的执行主体可以是电量数据的处理装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。可选的,计算机设备可以为个人计算机PC(personal computer)、移动终端、便携式设备等具有数据处理功能、且可以与外部设备或者用户交互的电子设备,当然,计算机设备也可以为服务器,本实施例对计算机设备的具体形式并不做限定。下述方法实施例以执行主体是计算机设备为例进行说明。
图1为本申请实施例提供的电量数据的处理方法的一种流程示意图。本实施例涉及的是计算机设备如何对电量数据进行分类的具体过程。如图1所示,该方法可以包括:
S101、获取当前用户的电量特征数据。
具体的,当前用户为需要进行电量数据分析的用户。为了能够准确分析某个用户的用电是否正常,通常会选择一些能够表征用户用电行为的特征数据进行综合分析。即上述电量特征数据可以为用户的用电量指标、负荷指标、线损指标、告警指标、合同容量比指标、电压三相不平衡率指标、电流三相不平衡率指标以及功率因数指标等特征数据。
当需要对当前用户进行电量数据分析时,可以从数据库中获取当前用户在某一时间周期内的电量特征数据。可选的,在获取到当前用户的电量特征数据之后,计算机设备可以对这些电量特征数据进行预处理。即,剔除这些电量特征数据中的缺失、异常数据,并对处理后的电量特征数据进行Z-Scroe归一化预处理,以消除量纲的影响,得到适合随机森林模型的输入数据。
S102、将所述电量特征数据输入至训练好的随机森林模型中,得到所述电量特征数据的分类结果。
具体的,随机森林模型是由一系列相互独立的决策树组合而成的,每一个决策树构成了整个随机森林模型的最小组成。其表达形式可以写成
Figure BDA0002555286990000041
其中,RF(x)为随机森林模型的输出,fi为随机森林模型中的单个决策树分类器模型,Y表示单个决策树分类器模型的输出,I为示性函数,b为随机森林模型中的决策树的数量。当给定随机森林模型一个自变量x后,每个决策树都会互不影响地对输入进行独立判断,最终通过投票选定整个分类器的分类结果。单独的决策树决策能力往往比较薄弱,但是将一系列决策树进行有机集合,其决策能力将十分强大。
在该步骤中,计算机设备将当前用户的电量特征数据输入至训练好的随机森林模型中,随机森林模型中的各个决策树均会对该电量特征数据进行分类,得到各个决策树的分类结果,然后对各个分类结果进行简单多数投票,根据投票选定最终的分类结果。其中,最终的分类结果包括电量特征数据正常(即当前用户的用电正常)或者电量特征数据异常(即当前用户的用电异常)。
另外,在对当前用户的电量特征数据进行分类时,计算机设备所采用的随机森林模型的参数是通过优化算法优化得到的。其中,该优化算法可以为鱼群算法、遗传算法或者粒子群算法等。可选的,随机森林模型的参数可以包括决策树的数量、特征子集包含的特征数量以及所述随机森林模型实际所选的具体特征。其中,决策树的数量nTree越大,表示随机森林模型中的决策树越多,则随机森林分类器的多样性越好,分类精度越高;但是,当nTree达到某值后分类效果便趋于不变,反而致使分类器的时间空间计算量大,解释性降低。nTree过小,则致使分类器多样性降低,分类性能变差、精度降低。特征子集包含的特征数量k表示在创建随机森林模型过程中,节点***时无放回式地从总特征集中进行抽样,得到的特征子集的大小。当k值过大,则会造成决策树之间多样性低,降低分类效果;当k值过小,虽然基分类器间多样性很高,但是分类器的分类精度、泛化能力都会降低。同时,随机森林模型的参数还包括随机森林模型实际所选的具体特征Attribute(即二进制特征值)。因此,优化上述参数,对于随机森林模型来说很重要。在本实施例中,计算机设备可以通过如鱼群算法、遗传算法或者粒子群算法等优化算法优化上述参数,使得计算机设备能够在有效时间内训练出随机森林模型最优的参数,避免了人为进行参数选择的主观性。这样,计算机设备采用最优的参数所构建的随机森林模型,对当前用户的电量特征数据进行分类预测,使得预测的分类结果更加准确。
本申请实施例提供的电量数据的处理方法,在获取到当前用户的电量特征数据,计算机设备将该电量特征数据输入至训练好的随机森林模型中,得到该电量特征数据的分类结果,其中,上述随机森林模型的参数是通过优化算法优化得到的。通过该技术方案,直接使用训练好的随机森林模型即可以实现对各个用户的电量特征数据的异常识别,不再需要人工参与电量数据的核查过程,减少了人为参与度,从而提高了电量数据的处理效率。同时,电量数据分类过程所使用的随机森林模型的参数也是基于优化算法优化得到的,减少了人为在参数选择方面的主观干扰性,提高了随机森林模型的训练效率,从而进一步提高了电量数据的处理效率,同时也提高了电量数据分类结果的准确性。
在一个实施例中,还提供了上述随机森林模型的训练过程。在上述实施例的基础上,可选的,如图2所示,在上述S102之前,该方法还可以包括:
S201、获取训练样本数据集。
其中,所述训练样本数据集包括多个特征数据。构建随机森林模型的第一步是训练样本数据集的随机抽样,为了保证随机森林模型中的各个决策树的多样性,计算机设备可以从原样本数据集中有放回地随机抽取与原样本数据集同样大小的训练样本集,形成训练样本数据集。具体的,计算机设备从原样本数据集中有放回地随机抽取N个样本,该N个样本形成随机森林模型的训练样本数据集,其中,N为原样本数据集中包括的样本数量。在该步骤中,该训练样本数据集包括目标用户的电量特征数据和实际分类结果。
S202、对所述多个特征数据进行特征分组,得到多个分组结果。
其中,每个分组结果所包含的各个特征数据的属性相同。传统的拔靴(Bootstrap)采样法在决策树***时进行特征子集的选取也是随机性的。这种随机性,会导致所选取的特征子集中的内部特征对分类结果的影响不一致,即分类强的特征会和分类弱的特征划分到同一组。这种情况,反而会影响单个决策树的分类性能。为此,在本步骤中,计算机设备可以对训练样本数据集中的多个特征数据进行特征分组,得到多个分组结果,使得每个分组结果所包含的各个特征数据的属性相同。属性相同可以理解为:对分类结果的影响相当的特征位于同一组,即分类强的特征位于同一组,相反分类比较弱的特征位于同一组。
作为一种可选的实施方式,上述S202可以包括以下步骤:
S2021、针对所述多个特征数据中的每个目标特征数据,采用卡方检验算法计算所述目标特征数据的第一权重,其中,所述第一权重用于表征所述目标特征数据与其它特征数据间的关联程度。
具体的,计算机设备可以采用如下公式1,计算训练样本数据集中的每个目标特征数据的第一权值wi,1
公式1:
Figure BDA0002555286990000071
其中,Ai为目标特征数据在训练样本数据集中出现的实际次数,npi为目标特征数据在训练样本数据集中出现的理论次数,m为训练样本数据集中包含的特征数据的种类数量。
S2022、针对所述多个特征数据中的每个目标特征数据,计算所述目标特征数据的第二权重,其中,所述第二权重用于表征所述目标特征数据的分类能力。
具体的,计算机设备可以采用如下公式2,计算训练样本数据集中的每个目标特征数据的第二权值wi,2
公式2:
Figure BDA0002555286990000072
其中,
Figure BDA0002555286990000073
为目标特征数据在训练样本数据集中出现的实际次数,mi表示目标特征数据包括的种类数,
Figure BDA0002555286990000081
为用信息熵度量目标特征数据在所有类中分布的集中程度,其中,k为因变量特征个数,
Figure BDA0002555286990000082
表示类别特征在训练样本数据集中出现的频率,
Figure BDA0002555286990000083
为用信息熵度量目标特征数据在所有类中分布的分散程度。
S2023、针对所述多个特征数据中的每个目标特征数据,根据所述第一权重和所述第二权重,计算所述目标特征数据的加权权重。
具体的,计算机设备可以采用如下公式3,计算目标特征数据的加权权重wi
公式3:wi=λ1wi,12wi,2
其中,λ1和λ2为加权系数,λ1和λ2的取值范围为[0,1],且λ1和λ2之和等于1。
S2024、基于每个所述目标特征数据的加权权重,采用分组最小角回归算法,对所述多个特征数据进行特征分组,得到多个分组结果。
其中,计算机设备可以对各个目标特征数据的加权权重进行排序,得到排序结果,并将排序结果输入至分组最小角回归算法中,得到各个目标特征数据的分组结果,属于同一分组中的各个特征数据的属性相同。
S203、基于所述多个分组结果无放回地选取相应数量的特征数据,形成特征子集。
其中,在进行特征子集的选取时,计算机设备便可以基于上述多个分组结果随机性地选取相应数量的特征数据,形成特征子集。这样,使得每次随机抽取的部分特征能够保持内部特征对分类结果的一致性,即分类作业非常强的特征会挑选在同一组,而相反比较弱的特征会进入到下次的采样过程,这样很好得保证了每次选择出的特征是最优的特征,从而达到优化特征选择的效果,提升了决策树的分类性能。
S204、采用所述训练样本数据集训练预设初始模型中的决策树,在所述决策树***时,采用所述特征子集对所述决策树进行训练,得到所述随机森林模型。
在本实施例中,计算机设备在训练随机森林模型的过程中,能够对训练样本数据集包括的多个特征数据进行特征分组,并基于特征分组的结果选取特征子集,这样,所选取的特征子集充分考虑了特征数据之间的关联性,使得每次随机抽取的部分特征能够保持内部特征对分类结果的一致性,从而达到优化特征选择的效果,提升了决策树的分类性能,进而提升了随机森林模型的分类性能。
在一个实施例中,在训练随机森林模型的过程中,可以采用优化算法对其参数进行优化。可选的,该优化算法可以为鱼群算法。对此,如图3所示,上述S204的过程可以为:
S301、根据所述训练样本数据集、所述特征子集和所述预设初始模型,确定当前迭代次数对应的袋外误差值。
其中,预设初始模型与训练好的随机森林模型的模型结构相同,且预设初始模型包含各个待优化参数的初始值。计算机设备将训练样本数据集和特征子集输入至预设初始模型,得到预测分类结果,并基于预测分类结果和实际分类结果计算当前迭代次数对应的袋外误差值。
S302、若所述当前迭代次数未达到预设的最大迭代次数,则采用鱼群算法优化所述预设初始模型的参数的当前值,得到所述参数的优化值,并基于所述优化值确定下一迭代次数对应的袋外误差值,直至所述当前迭代次数达到所述最大迭代次数为止。
其中,可以预先设置模型训练的最大迭代次数,计算机设备判断当前迭代次数是否超过最大迭代次数,若当前迭代次数未达到最大迭代次数,则计算机设备将预设初始模型的参数的当前值输入至鱼群算法中,并基于预设初始模型的参数的当前值初始化鱼群算法的参数值,从而通过鱼群算法在基于上述参数的当前值的某一阈值区间内寻找随机森林模型参数的最优解。在通过鱼群算法得到参数的优化值之后,计算机设备基于该优化值更新预设初始模型中的参数的当前值,并基于参数更新后的预设初始模型、训练样本数据集和特征子集,计算下一迭代次数对应的袋外误差值,并将下一迭代次数作为当前迭代次数,直至当前迭代次数达到所设置的最大迭代次数为止。
在其中一个实施例中,可选的,计算机设备采用鱼群算法优化预设初始模型的参数的当前值,得到所述参数的优化值的过程可以为:将所述预设初始模型的参数的当前值作为人工鱼的状态值,形成人工鱼个体,将两个以上人工鱼个体随机组成多个鱼群;对鱼群依次执行聚群算子、追尾算子和觅食算子,并计算鱼群中各个人工鱼个体的适应度值,将适应度值最小的人工鱼个体作为最优人工鱼个体;将所述最优人工鱼个体的状态值作为所述参数的优化值。
其中,在该过程中,可以初始化鱼群算法的参数。例如,人工鱼数量popsize、行为尝试最大次数try_number,人工鱼的视野visual、拥挤度因子delta、鱼群位置Xk={Zk,1,Zk,2,…},其中,k=1,2,…,posize,最大步长step等。计算机设备基于预设初始模型的参数的当前值设置鱼群算法优化的阈值区间,并将该阈值区间内的参数的取值转换为人工鱼的状态值,从而形成人工鱼个体。例如,假设参数的当前值为:nTree=1,k=5,Attribute=1111010000,则将其转换为人工鱼的状态值为:0011011111010000。
接着,计算鱼群的食物浓度,并基于该食物浓度进行聚群行为、追尾行为以及觅食行为分析,根据分析结果执行相应的行为。其中,F=f(X)表示某人工鱼个体所感知到X处的食物浓度,该表达式可以作为鱼群算法的适应度函数,其与随机森林模型的袋外误差计算公式相关。
以下为鱼群算法的核心行为:
(1)、聚群行为:假设人工鱼个体的当前状态是Xi,视野中的伙伴个数为nf,视野中鱼群的中心位置是Xc,如果
Figure BDA0002555286990000111
表示鱼群中心处的函数值Fc较高且该人工鱼个体附近的人工鱼密度较低,则该人工鱼个体根据如下公式4改变自身的位置。反之如果聚群行为条件
Figure BDA0002555286990000112
不成立,则执行觅食行为。
公式4:
Figure BDA0002555286990000113
其中,Zc,i表示人工鱼个体在食物最大浓度的位置,Zk,i表示人工鱼个体的当前位置,Zk+1,i表示人工鱼个体在下一状态的位置,rand为服从均匀分布的随机数,其取值范围为(-1,1)。
(2)、追尾行为:假设人工鱼个体的当前状态是Xi,视野中的伙伴个数为nf,在视野范围内找到鱼群中最大食物浓度Fmax的人工鱼Xmax,如果
Figure BDA0002555286990000114
说明此刻人工鱼Xmax周边鱼的密度不高,还有继续聚群的空间,则该人工鱼Xi根据如下公式5改变自身的位置。反之如果追尾行为条件
Figure BDA0002555286990000115
不成立,则执行觅食行为。
公式5:
Figure BDA0002555286990000116
(3)、觅食行为:假设人工鱼个体的当前状态为Xk={Zk,i},在视野内dij≤visual内随机选择一个状态Xj={Zj,i},若Fk>Fj,则重新随机生成一个状态Xk+1,重新计算食物浓度,尝试try_number次,如果不能找到合适状态,则按如下公式6结束觅食行为。反之则执行觅食行为,向Xj方向移动。
公式6:
Figure BDA0002555286990000121
鱼群按照上述行为,依次执行聚群算子、追尾算子和觅食算子,并在执行相应算子后,计算鱼群中各个人工鱼个体的适应度值,将适应度值最小的人工鱼个体作为最优人工鱼个体,并将最优人工鱼个体的状态值作为随机森林模型的参数的优化值,输入给随机森林模型。计算机设备基于该优化值更新随机森林模型的参数的当前值,并基于参数更新后的随机森林模型,计算下一迭代次数对应的袋外误差值。
S303、将所有袋外误差值中的最小袋外误差值对应的当前值作为所述参数的实际值,并将所述预设初始模型的参数的初始值更新为所述实际值,得到所述随机森林模型。
其中,计算机设备保存了所有迭代次数对应的袋外误差值,从保存的所有袋外误差值中选择最小袋外误差值,并将最小袋外误差值对应的当前值作为随机森林模型的参数的实际值。然后,计算机设备将预设初始模型的参数的初始值更新为该实际值,从而得到训练好的随机森林模型。
可选的,可以对训练好的随机森林模型进行模型评估,将传统随机森林模型和进行了特征分组以及组合鱼群算法后的随机森林模型(即优化后的随机森林模型)进行对比分析,分析结果取5折交叉验证的平均值,两种不同的随机森林模型对验证数据集的分类结果如表1所示。
表1
Figure BDA0002555286990000131
从表1两种随机森林模型的分类结果可以看出,优化后的随机森林模型的准确率、精确率较高,且OOB error最小,因此,优化后的随机森林模型能够取得较好的分类结果。
在本实施例中,计算机设备可以采用鱼群算法优化随机森林模型中的参数,实现袋外误差值最小化,降低了人为设置参数的主观干扰性,提高了随机森林模型的训练效率,且提高了该随机森林模型的分类结果的准确性。这样,在使用该训练好的随机森林模型对当前用户的电量数据进行分类时,进一步提高了电量数据的处理效率,同时也提高了电量数据分类结果的准确性。
图4为本申请实施例提供的一种电量数据的处理装置的结构示意图,如图4所示,该装置可以包括:第一获取模块10和分类模块11。
具体的,第一获取模块10用于获取当前用户的电量特征数据;
分类模块11用于将所述电量特征数据输入至训练好的随机森林模型中,得到所述电量特征数据的分类结果,其中,所述随机森林模型的参数是通过优化算法优化得到的。
本申请实施例提供的电量数据的处理装置,在获取到当前用户的电量特征数据,计算机设备将该电量特征数据输入至训练好的随机森林模型中,得到该电量特征数据的分类结果,其中,上述随机森林模型的参数是通过优化算法优化得到的。通过该技术方案,直接使用训练好的随机森林模型即可以实现对各个用户的电量特征数据的异常识别,不再需要人工参与电量数据的核查过程,减少了人为参与度,从而提高了电量数据的处理效率。同时,电量数据分类过程所使用的随机森林模型的参数也是基于优化算法优化得到的,减少了人为在参数选择方面的主观干扰性,提高了随机森林模型的训练效率,从而进一步提高了电量数据的处理效率,同时也提高了电量数据分类结果的准确性。
在上述实施例的基础上,可选的,该装置还可以包括:第二获取模块、特征分组模块、抽样模块和处理模块;
具体的,第二获取模块用于在分类模块11将所述电量特征数据输入至训练好的随机森林模型中,得到所述电量特征数据的分类结果之前,获取训练样本数据集,其中,所述训练样本数据集包括多个特征数据;
特征分组模块用于对所述多个特征数据进行特征分组,得到多个分组结果,其中,每个分组结果所包含的各个特征数据的属性相同;
抽样模块用于基于所述多个分组结果无放回地选取相应数量的特征数据,形成特征子集;
处理模块用于采用所述训练样本数据集训练预设初始模型中的决策树,在所述决策树***时,采用所述特征子集对所述决策树进行训练,得到所述随机森林模型。
在上述实施例的基础上,可选的,特征分组模块具体用于针对所述多个特征数据中的每个目标特征数据,采用卡方检验算法计算所述目标特征数据的第一权重,其中,所述第一权重用于表征所述目标特征数据与其它特征数据间的关联程度;针对所述多个特征数据中的每个目标特征数据,计算所述目标特征数据的第二权重,其中,所述第二权重用于表征所述目标特征数据的分类能力;针对所述多个特征数据中的每个目标特征数据,根据所述第一权重和所述第二权重,计算所述目标特征数据的加权权重;基于每个所述目标特征数据的加权权重,采用分组最小角回归算法,对所述多个特征数据进行特征分组,得到多个分组结果。
可选的,所述优化算法为鱼群算法;在上述实施例的基础上,可选的,上述处理模块可以包括:确定单元、优化单元和更新单元。
具体的,确定单元用于根据所述训练样本数据集、所述特征子集和所述预设初始模型,确定当前迭代次数对应的袋外误差值;
优化单元用于在所述当前迭代次数未达到预设的最大迭代次数时,采用鱼群算法优化所述预设初始模型的参数的当前值,得到所述参数的优化值,并基于所述优化值确定下一迭代次数对应的袋外误差值,直至所述当前迭代次数达到所述最大迭代次数为止;
更新单元用于将所有袋外误差值中的最小袋外误差值对应的当前值作为所述参数的实际值,并将所述预设初始模型的参数的初始值更新为所述实际值,得到所述随机森林模型。
在上述实施例的基础上,可选的,优化单元具体用于将所述预设初始模型的参数的当前值作为人工鱼的状态值,形成人工鱼个体,将两个以上人工鱼个体随机组成多个鱼群;对鱼群依次执行聚群算子、追尾算子和觅食算子,并计算鱼群中各个人工鱼个体的适应度值,将适应度值最小的人工鱼个体作为最优人工鱼个体;将所述最优人工鱼个体的状态值作为所述参数的优化值。
可选的,所述参数包括决策树的数量、特征子集包含的特征数量以及所述随机森林模型实际所选的具体特征。
在上述实施例的基础上,可选的,第二获取模块具体用于从原样本数据集中有放回地随机抽取N个样本,所述N个样本形成所述训练样本数据集,其中,N为所述原样本数据集中包括的样本数量。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储电量数据处理过程中所产生的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电量数据的处理方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,该计算机设备包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取当前用户的电量特征数据;
将所述电量特征数据输入至训练好的随机森林模型中,得到所述电量特征数据的分类结果,其中,所述随机森林模型的参数是通过优化算法优化得到的。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取训练样本数据集,其中,所述训练样本数据集包括多个特征数据;对所述多个特征数据进行特征分组,得到多个分组结果,其中,每个分组结果所包含的各个特征数据的属性相同;基于所述多个分组结果无放回地选取相应数量的特征数据,形成特征子集;采用所述训练样本数据集训练预设初始模型中的决策树,在所述决策树***时,采用所述特征子集对所述决策树进行训练,得到所述随机森林模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:针对所述多个特征数据中的每个目标特征数据,采用卡方检验算法计算所述目标特征数据的第一权重,其中,所述第一权重用于表征所述目标特征数据与其它特征数据间的关联程度;针对所述多个特征数据中的每个目标特征数据,计算所述目标特征数据的第二权重,其中,所述第二权重用于表征所述目标特征数据的分类能力;针对所述多个特征数据中的每个目标特征数据,根据所述第一权重和所述第二权重,计算所述目标特征数据的加权权重;基于每个所述目标特征数据的加权权重,采用分组最小角回归算法,对所述多个特征数据进行特征分组,得到多个分组结果。
在一个实施例中,所述优化算法为鱼群算法,处理器执行计算机程序时还实现以下步骤:根据所述训练样本数据集、所述特征子集和所述预设初始模型,确定当前迭代次数对应的袋外误差值;若所述当前迭代次数未达到预设的最大迭代次数,则采用鱼群算法优化所述预设初始模型的参数的当前值,得到所述参数的优化值,并基于所述优化值确定下一迭代次数对应的袋外误差值,直至所述当前迭代次数达到所述最大迭代次数为止;将所有袋外误差值中的最小袋外误差值对应的当前值作为所述参数的实际值,并将所述预设初始模型的参数的初始值更新为所述实际值,得到所述随机森林模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将所述预设初始模型的参数的当前值作为人工鱼的状态值,形成人工鱼个体,将两个以上人工鱼个体随机组成多个鱼群;对鱼群依次执行聚群算子、追尾算子和觅食算子,并计算鱼群中各个人工鱼个体的适应度值,将适应度值最小的人工鱼个体作为最优人工鱼个体;将所述最优人工鱼个体的状态值作为所述参数的优化值。
可选的,所述参数包括决策树的数量、特征子集包含的特征数量以及所述随机森林模型实际所选的具体特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从原样本数据集中有放回地随机抽取N个样本,所述N个样本形成所述训练样本数据集,其中,N为所述原样本数据集中包括的样本数量。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取当前用户的电量特征数据;
将所述电量特征数据输入至训练好的随机森林模型中,得到所述电量特征数据的分类结果,其中,所述随机森林模型的参数是通过优化算法优化得到的。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取训练样本数据集,其中,所述训练样本数据集包括多个特征数据;对所述多个特征数据进行特征分组,得到多个分组结果,其中,每个分组结果所包含的各个特征数据的属性相同;基于所述多个分组结果无放回地选取相应数量的特征数据,形成特征子集;采用所述训练样本数据集训练预设初始模型中的决策树,在所述决策树***时,采用所述特征子集对所述决策树进行训练,得到所述随机森林模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:针对所述多个特征数据中的每个目标特征数据,采用卡方检验算法计算所述目标特征数据的第一权重,其中,所述第一权重用于表征所述目标特征数据与其它特征数据间的关联程度;针对所述多个特征数据中的每个目标特征数据,计算所述目标特征数据的第二权重,其中,所述第二权重用于表征所述目标特征数据的分类能力;针对所述多个特征数据中的每个目标特征数据,根据所述第一权重和所述第二权重,计算所述目标特征数据的加权权重;基于每个所述目标特征数据的加权权重,采用分组最小角回归算法,对所述多个特征数据进行特征分组,得到多个分组结果。
在一个实施例中,所述优化算法为鱼群算法,计算机程序被处理器执行时还实现以下步骤:根据所述训练样本数据集、所述特征子集和所述预设初始模型,确定当前迭代次数对应的袋外误差值;若所述当前迭代次数未达到预设的最大迭代次数,则采用鱼群算法优化所述预设初始模型的参数的当前值,得到所述参数的优化值,并基于所述优化值确定下一迭代次数对应的袋外误差值,直至所述当前迭代次数达到所述最大迭代次数为止;将所有袋外误差值中的最小袋外误差值对应的当前值作为所述参数的实际值,并将所述预设初始模型的参数的初始值更新为所述实际值,得到所述随机森林模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将所述预设初始模型的参数的当前值作为人工鱼的状态值,形成人工鱼个体,将两个以上人工鱼个体随机组成多个鱼群;对鱼群依次执行聚群算子、追尾算子和觅食算子,并计算鱼群中各个人工鱼个体的适应度值,将适应度值最小的人工鱼个体作为最优人工鱼个体;将所述最优人工鱼个体的状态值作为所述参数的优化值。
可选的,所述参数包括决策树的数量、特征子集包含的特征数量以及所述随机森林模型实际所选的具体特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从原样本数据集中有放回地随机抽取N个样本,所述N个样本形成所述训练样本数据集,其中,N为所述原样本数据集中包括的样本数量。
上述实施例中提供的电量数据的处理装置、计算机设备以及存储介质可执行本申请任意实施例所提供的电量数据的处理方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的电量数据的处理方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种电量数据的处理方法,其特征在于,包括:
获取当前用户的电量特征数据;
将所述电量特征数据输入至训练好的随机森林模型中,得到所述电量特征数据的分类结果,其中,所述随机森林模型的参数是通过优化算法优化得到的。
2.根据权利要求1所述的方法,其特征在于,在所述将所述电量特征数据输入至训练好的随机森林模型中,得到所述电量特征数据的分类结果之前,所述方法还包括:
获取训练样本数据集,其中,所述训练样本数据集包括多个特征数据;
对所述多个特征数据进行特征分组,得到多个分组结果,其中,每个分组结果所包含的各个特征数据的属性相同;
基于所述多个分组结果无放回地选取相应数量的特征数据,形成特征子集;
采用所述训练样本数据集训练预设初始模型中的决策树,在所述决策树***时,采用所述特征子集对所述决策树进行训练,得到所述随机森林模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述多个特征数据进行特征分组,得到多个分组结果,包括:
针对所述多个特征数据中的每个目标特征数据,采用卡方检验算法计算所述目标特征数据的第一权重,其中,所述第一权重用于表征所述目标特征数据与其它特征数据间的关联程度;
针对所述多个特征数据中的每个目标特征数据,计算所述目标特征数据的第二权重,其中,所述第二权重用于表征所述目标特征数据的分类能力;
针对所述多个特征数据中的每个目标特征数据,根据所述第一权重和所述第二权重,计算所述目标特征数据的加权权重;
基于每个所述目标特征数据的加权权重,采用分组最小角回归算法,对所述多个特征数据进行特征分组,得到多个分组结果。
4.根据权利要求2所述的方法,其特征在于,所述优化算法为鱼群算法;
所述采用所述训练样本数据集训练预设初始模型中的决策树,在所述决策树***时,采用所述特征子集对所述决策树进行训练,得到所述随机森林模型,包括:
根据所述训练样本数据集、所述特征子集和所述预设初始模型,确定当前迭代次数对应的袋外误差值;
若所述当前迭代次数未达到预设的最大迭代次数,则采用鱼群算法优化所述预设初始模型的参数的当前值,得到所述参数的优化值,并基于所述优化值确定下一迭代次数对应的袋外误差值,直至所述当前迭代次数达到所述最大迭代次数为止;
将所有袋外误差值中的最小袋外误差值对应的当前值作为所述参数的实际值,并将所述预设初始模型的参数的初始值更新为所述实际值,得到所述随机森林模型。
5.根据权利要求4所述的方法,其特征在于,所述采用鱼群算法优化所述预设初始模型的参数的当前值,得到所述参数的优化值,包括:
将所述预设初始模型的参数的当前值作为人工鱼的状态值,形成人工鱼个体,将两个以上人工鱼个体随机组成多个鱼群;
对鱼群依次执行聚群算子、追尾算子和觅食算子,并计算鱼群中各个人工鱼个体的适应度值,将适应度值最小的人工鱼个体作为最优人工鱼个体;
将所述最优人工鱼个体的状态值作为所述参数的优化值。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述参数包括决策树的数量、特征子集包含的特征数量以及所述随机森林模型实际所选的具体特征。
7.根据权利要求2所述的方法,其特征在于,所述获取训练样本数据集,包括:
从原样本数据集中有放回地随机抽取N个样本,所述N个样本形成所述训练样本数据集,其中,N为所述原样本数据集中包括的样本数量。
8.一种电量数据的处理装置,其特征在于,包括:
第一获取模块,用于获取当前用户的电量特征数据;
分类模块,用于将所述电量特征数据输入至训练好的随机森林模型中,得到所述电量特征数据的分类结果,其中,所述随机森林模型的参数是通过优化算法优化得到的。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN202010590449.3A 2020-06-24 2020-06-24 一种电量数据的处理方法、装置、设备和存储介质 Active CN111753907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010590449.3A CN111753907B (zh) 2020-06-24 2020-06-24 一种电量数据的处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010590449.3A CN111753907B (zh) 2020-06-24 2020-06-24 一种电量数据的处理方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN111753907A true CN111753907A (zh) 2020-10-09
CN111753907B CN111753907B (zh) 2024-06-14

Family

ID=72677216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010590449.3A Active CN111753907B (zh) 2020-06-24 2020-06-24 一种电量数据的处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111753907B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114390344A (zh) * 2022-01-11 2022-04-22 北京达佳互联信息技术有限公司 视频分发方法、装置、电子设备和计算机可读存储介质
CN116011686A (zh) * 2023-03-28 2023-04-25 山东创宇环保科技有限公司 基于多数据融合的充电棚光伏发电储量预测方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021666A (zh) * 2016-05-10 2016-10-12 四川大学 一种架空输电线路的山火灾害预警方法
CN107862347A (zh) * 2017-12-04 2018-03-30 国网山东省电力公司济南供电公司 一种基于随机森林的窃电行为的发现方法
CN108537281A (zh) * 2018-04-13 2018-09-14 贵州电网有限责任公司 一种基于随机森林的电力用户特征识别分类方法
CN109145965A (zh) * 2018-08-02 2019-01-04 深圳辉煌耀强科技有限公司 基于随机森林分类模型的细胞识别方法和装置
US20190166024A1 (en) * 2017-11-24 2019-05-30 Institute For Information Industry Network anomaly analysis apparatus, method, and non-transitory computer readable storage medium thereof
CN109977028A (zh) * 2019-04-08 2019-07-05 燕山大学 一种基于遗传算法和随机森林的软件缺陷预测方法
CN110110757A (zh) * 2019-04-12 2019-08-09 国电南瑞科技股份有限公司 一种基于随机森林模型的输变电可疑数据筛查方法和设备
CN110634080A (zh) * 2018-06-25 2019-12-31 中兴通讯股份有限公司 异常用电检测方法、装置、设备及计算机可读存储介质
WO2020000248A1 (zh) * 2018-06-27 2020-01-02 大连理工大学 一种基于空间重构的航空发动机过渡态加速过程关键性能参数预测方法
CN110705683A (zh) * 2019-10-12 2020-01-17 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
US20200074306A1 (en) * 2018-08-31 2020-03-05 Ca, Inc. Feature subset evolution by random decision forest accuracy
CN111178396A (zh) * 2019-12-12 2020-05-19 国网北京市电力公司 用电异常用户的识别方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021666A (zh) * 2016-05-10 2016-10-12 四川大学 一种架空输电线路的山火灾害预警方法
US20190166024A1 (en) * 2017-11-24 2019-05-30 Institute For Information Industry Network anomaly analysis apparatus, method, and non-transitory computer readable storage medium thereof
CN107862347A (zh) * 2017-12-04 2018-03-30 国网山东省电力公司济南供电公司 一种基于随机森林的窃电行为的发现方法
CN108537281A (zh) * 2018-04-13 2018-09-14 贵州电网有限责任公司 一种基于随机森林的电力用户特征识别分类方法
CN110634080A (zh) * 2018-06-25 2019-12-31 中兴通讯股份有限公司 异常用电检测方法、装置、设备及计算机可读存储介质
WO2020000248A1 (zh) * 2018-06-27 2020-01-02 大连理工大学 一种基于空间重构的航空发动机过渡态加速过程关键性能参数预测方法
CN109145965A (zh) * 2018-08-02 2019-01-04 深圳辉煌耀强科技有限公司 基于随机森林分类模型的细胞识别方法和装置
US20200074306A1 (en) * 2018-08-31 2020-03-05 Ca, Inc. Feature subset evolution by random decision forest accuracy
CN109977028A (zh) * 2019-04-08 2019-07-05 燕山大学 一种基于遗传算法和随机森林的软件缺陷预测方法
CN110110757A (zh) * 2019-04-12 2019-08-09 国电南瑞科技股份有限公司 一种基于随机森林模型的输变电可疑数据筛查方法和设备
CN110705683A (zh) * 2019-10-12 2020-01-17 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
CN111178396A (zh) * 2019-12-12 2020-05-19 国网北京市电力公司 用电异常用户的识别方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114390344A (zh) * 2022-01-11 2022-04-22 北京达佳互联信息技术有限公司 视频分发方法、装置、电子设备和计算机可读存储介质
CN116011686A (zh) * 2023-03-28 2023-04-25 山东创宇环保科技有限公司 基于多数据融合的充电棚光伏发电储量预测方法

Also Published As

Publication number Publication date
CN111753907B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
CN111783840A (zh) 一种随机森林模型的可视化方法、装置及存储介质
Robnik-Šikonja Data generators for learning systems based on RBF networks
CN112381137B (zh) 新能源电力***可靠性评估方法、装置、设备及存储介质
CN110827924B (zh) 基因表达数据的聚类方法、装置、计算机设备及存储介质
CN110674636B (zh) 一种用电行为分析方法
CN108345908A (zh) 电网数据的分类方法、分类设备及存储介质
CN111753907A (zh) 一种电量数据的处理方法、装置、设备和存储介质
CN113408341B (zh) 负荷识别方法、装置、计算机设备和存储介质
CN112926645B (zh) 一种基于边缘计算的窃电检测方法
CN114065653A (zh) 电力负荷预测模型的构建方法与电力负荷预测方法
CN111062444A (zh) 信用风险预测方法、***、终端及存储介质
CN110502691A (zh) 基于客户分类的产品推送方法、装置及可读存储介质
CN113657421A (zh) 卷积神经网络压缩方法和装置、图像分类方法和装置
CN113095511A (zh) 一种在自动化主站实现操作到位的判断方法及装置
CN110765351A (zh) 目标用户识别方法、装置、计算机设备和存储介质
CN112232951B (zh) 基于多维度交叉特征的信用评价方法、装置、设备及介质
CN113688960A (zh) 基于灰狼优化ghfcm的居民电力数据聚类方法及装置
CN113066528A (zh) 基于主动半监督图神经网络的蛋白质分类方法
CN112348226A (zh) 预测数据生成方法、***、计算机设备及存储介质
Arunadevi et al. Comparison of feature selection strategies for classification using rapid miner
CN113837319B (zh) 基于聚类的客户分类方法、装置、设备及存储介质
CN114881158A (zh) 基于随机森林的缺失值填充方法、装置和计算机设备
CN114238852A (zh) 运营数据的分析方法、装置、存储介质及电子设备
CN113590720A (zh) 数据分类方法、装置、计算机设备和存储介质
CN111026661A (zh) 一种软件易用性全面测试方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant