CN113127469A - 一种三相不平衡数据的缺失值的填补方法及*** - Google Patents

一种三相不平衡数据的缺失值的填补方法及*** Download PDF

Info

Publication number
CN113127469A
CN113127469A CN202110459111.9A CN202110459111A CN113127469A CN 113127469 A CN113127469 A CN 113127469A CN 202110459111 A CN202110459111 A CN 202110459111A CN 113127469 A CN113127469 A CN 113127469A
Authority
CN
China
Prior art keywords
data
model
phase
probability
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110459111.9A
Other languages
English (en)
Other versions
CN113127469B (zh
Inventor
任春雷
卢颖辉
朱继阳
徐彬泰
白雨佳
屈春一
张悦
李鹏飞
韩雪
张洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid East Inner Mogolia Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid East Inner Mogolia Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid East Inner Mogolia Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110459111.9A priority Critical patent/CN113127469B/zh
Publication of CN113127469A publication Critical patent/CN113127469A/zh
Application granted granted Critical
Publication of CN113127469B publication Critical patent/CN113127469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种三相不平衡数据的缺失值的填补方法及***,所述方法包括:获取去噪处理后的三相不平衡数据;分别使用预先得到的支持向量机模型、随机森林模型、线性回归模型对获取到的三相不平衡数据中缺失值进行预测,得到各模型的预测值;使用预先训练的集成模型计算得到不同时刻使用三种模型的概率;结合计算得到的概率和相应模型的预测值,得到三相不平衡数据中缺失值的最终预测值,使用最终预测值填充三相不平衡数据的缺失值。本发明能够填充三相不平衡数据的缺失值。

Description

一种三相不平衡数据的缺失值的填补方法及***
技术领域
本发明涉及一种三相不平衡数据的缺失值的填补方法及***,属于配电网控制与信息科学的交叉领域。
背景技术
随着电网***信息化和数据化程度的提高以及用户用电数据的迅速增加,与人们各方面息息相关的电力能源的地位也变得越来越重要。用电数据也逐渐地表现出数据类型多、数据体量大、数据的增长速度快等特点。为了更好地实现对这些数据的管理和分析,目前电力企业普遍建立了统一、可复用的大数据中台。通过对收集的数据进行数据分析可以实现对电网状态的智能感知。
三相不平衡指的是三相电流或者电压的幅度值不一样,导致电压或者电流的波形图不再处于正弦波形。三相不平衡目前已经作为国网***经济性和电能质量的重要指标之一。当三相电压处于不平衡的状态时,会增大电网***的线损率,影响电网***的安全运行。因此,通过对三相不平衡数据进行数据分析,及时对三相电压不平衡的状态做出调整,可以保障电力***的安全平稳运行又能提高电网企业的经济效益。
对三相不平衡电压进行调整需要先判断电力***是否处于不平衡状态,不平衡度是判断的指标。然而,电网***在收集电力数据总是由于设备损坏或者人为等因素导致电力数据的缺失。如果不对缺失数据做处理,那么会导致电力大数据智能感知平台对三相不平衡数据的计算无法进行下去。对于缺失的电力数据最简单的处理方法是直接剔除,会造成资源的浪费,减少隐藏在这些记录中有价值的信息,有可能会影响结果分析的正确性。因此,对缺失的三相不平衡数据进行填充是很有必要的。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种三相不平衡数据的缺失值的填补方法,能够填充三相不平衡数据的缺失值。为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种三相不平衡数据的缺失值的填补方法,所述方法包括如下步骤:
获取去噪处理后的三相电压不平衡数据;
分别使用预先得到的支持向量机模型、随机森林模型、线性回归模型对获取到的三相不平衡数据中缺失值进行预测,得到各模型的预测值;
使用预先训练的集成模型计算得到不同时刻使用三种模型的概率;
结合计算得到的概率和相应模型的预测值,得到三相不平衡数据中缺失值的最终预测值,使用最终预测值填充三相不平衡数据的缺失值。
结合第一方面,进一步地,所述去噪处理为利用小波变换去除三相不平衡数据中的噪音。
结合第一方面,优选地,所述支持向量机模型中,采用D={(x1,y1),(x2,y2),…,(xi,yi)}表示数据样本集,则支持向量机模型的方程为:
Figure BDA0003041597350000021
式(1)中,
Figure BDA0003041597350000022
表示将向量x映射到高维空间后的特征向量,ωT表示向量ω的转置,ω表示支持向量机模型的法向量,参数b表示支持向量机模型的偏移项,其中ω和b需要满足找到的超平面到不同类别之间的距离和最大,则其约束函数为:
Figure BDA0003041597350000031
式(2)中,m表示样本点的数量;
式(2)的对偶问题表示为:
Figure BDA0003041597350000032
式(3)中,α表示拉格朗日乘子,T表示向量转置;
结合核函数求解式(1)得到:
Figure BDA0003041597350000033
式(4)中,κ(·)表示核函数。
结合第一方面,优选地,所述随机森立模型使用平方平均误差表示有随机森林决策树中切分后节点的不纯度函数,通过以下公式表示:
Figure BDA0003041597350000034
式(5)中,xi表示第i个切分变量,vij表示其第j个切分值,nl和nr分别表示切分后随机森林决策树左右分支的样本个数,Xl和Xr分别表示切分后随机森林决策树左右分支的样本特征,Ns表示总的样本个数,H(·)表示不纯度函数。
结合第一方面,优选地,所述线性回归模型中,采用D={(x1,y1),(x2,y2),…,(xi,yi)}表示数据样本集,则线性回归模型的方程为:
Figure BDA0003041597350000035
式(6)中,wT表示向量w的转置,w表示线性回归模型的权重向量,参数a表示线性回归模型的常数项,其中w和a使用均方误差计算得到,表示为:
Figure BDA0003041597350000041
式(7)中,w*表示使用均方误差得到的w的值,a*表示使用均方根误差得到的a的值;
使用最小二乘法求解式(6)得到:
Figure BDA0003041597350000042
式(8)中,
Figure BDA0003041597350000043
表示所有x的平均值,m表示样本点的数量。
结合第一方面,进一步地,所述预先训练的集成模型为马氏链,通过以下步骤训练得到:
通过支持向量机模型、随机森林模型、线性回归模型的预测结果的精确度确定马氏链中的初始概率矩阵和状态转移矩阵;
对现有三相数据进行部分数据的随机缺失,使用支持向量机模型、随机森林模型、线性回归模型对随机缺失值进行预测,比较随机缺失值和预测值之间的误差,修正初始概率矩阵。
结合第一方面,优选地,所述马氏链中,随机过程X={Xn,n∈T}的时间参数T={0,1,2,…},状态空间E为离散,且E={i0,i1,…},通过以下公式表示:
P(Xt=it|Xt-1=it-1,Xt-2=it-2,…,X0=i0)=P(Xt=it|Xt-1=it-1) (9)
式(9)中,P(·)表示概率,{Xt=it}表示在t时刻处于it状态;由公式(9)得到马氏链中当确定第t-1时刻的随机变量后,第t时刻的随机变量仅仅和第t-1时刻的随机变量有关,与其余变量无关,则马氏链中的一步转移概率如下:
pij=P{Xt+1=Sj|Xt=Si} (10)
式(10)中,pij表示t时刻的状态Si到t+1时刻的状态Sj的概率,使用状态转移矩阵P表示由一个状态转移到另一个状态的概率,且P=pij,则有:
Figure BDA0003041597350000051
参考初始概率分布矩阵π,计算某时刻处于某状态的概率,其中初始概率分布矩阵π={πi},始概率分布矩阵定义如下所示:
πi=P{X1=Si},1≤i≤N (12)
式(12)中,Si表示处于第i个状态,πi表示在初始时刻状态处于Si状态的概率。
结合第一方面,进一步地,所述三相不平衡数据中缺失值的最终预测值,通过以下公式计算得到:
Figure BDA0003041597350000052
式(13)中,pit表示t时刻处于第i个预测模型的概率,
Figure BDA0003041597350000053
表示t时刻第i个预测模型的预测值,
Figure BDA0003041597350000054
表示三相不平衡数据中缺失值的最终预测值。
第二方面,本发明提供了一种三相不平衡数据的缺失值的填补***,包括:
获取模块:用于获取去噪处理后的三相电压不平衡数据;
第一预测模块:用于分别使用预先得到的支持向量机模型、随机森林模型、线性回归模型对获取到的三相不平衡数据中缺失值进行预测,得到各模型的预测值;
概率计算模块:用于使用预先训练的集成模型计算得到不同时刻使用三种模型的概率;
第二预测模块:用于结合计算得到的概率和相应模型的预测值,得到三相不平衡数据中缺失值的最终预测值,并使用最终预测值填充三相不平衡数据的缺失值。
第三方面,本发明提供了一种三相不平衡数据的缺失值的填补装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述方法的步骤。
与现有技术相比,本发明实施例所提供的一种三相不平衡数据的缺失值的填补方法所达到的有益效果包括:
本发明使用去噪处理后的三相电压不平衡数据进行预测,能够避免噪音对预测的不利影响;
本发明分别使用预先得到的支持向量机模型、随机森林模型、线性回归模型对获取到的三相不平衡数据中缺失值进行预测,得到各模型的预测值;使用预先训练的集成模型计算得到不同时刻使用三种模型的概率;结合计算得到的概率和相应模型的预测值,得到三相不平衡数据中缺失值的最终预测值,能够提高预测精度;
本发明使用最终预测值填充三相不平衡数据的缺失值,能够根据填充的缺失值对不平衡数据进行分析,确定电力***的运行状态,能够及时发现不平衡状态并及时调整。
附图说明
图1是本发明实施例一提供的一种三相不平衡数据的缺失值的填补方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
如图1所示,本发明实施例提供了一种三相不平衡数据的缺失值的填补方法,包括:
获取去噪处理后的三相不平衡数据;
分别使用预先得到的支持向量机模型、随机森林模型、线性回归模型对获取到的三相不平衡数据中缺失值进行预测,得到各模型的预测值;
使用预先训练的集成模型计算得到不同时刻使用三种模型的概率;
结合计算得到的概率和相应模型的预测值,得到三相不平衡数据中缺失值的最终预测值,使用最终预测值填充三相不平衡数据的缺失值。
具体步骤如下:
步骤1:获取三相不平衡数据。
步骤2:对获取到的三相不平衡数据去噪处理。
由于电网数据平台收集到的三相电压不平衡数据中通常具有随机的噪声,所以需要对数据进行去噪处理。由于数据中的噪声类型不确定,因此本实施例采用离散小波变换对数据降噪。离散小波变换如公式(1)所示:
Figure BDA0003041597350000081
式(1)中,t代表离散时间抽样指数,T表示函数的维度,ψ(·)表示离散小波函数,b表示平移因子,a表示尺度因子,且a>1以及b∈R。
小波分解算法表达式如公式(2)和(3)所示。
Figure BDA0003041597350000082
Figure BDA0003041597350000083
式中,n表示原始序列f(t),Aj表示f(t)在第j层逼近信号的小波系数,Dj表示f(t)在第j层细节信号的小波系数,j表示分解层数,k表示输出层数量。
步骤3:分别使用预先得到的支持向量机模型、随机森林模型、线性回归模型对去噪处理过的三相不平衡数据中缺失值进行预测,得到各模型的预测值。
步骤3.1:支持向量机模型对去噪处理过的三相不平衡数据中缺失值进行预测。
支持向量机模型(SVM)是将样本数据映射到一个高维的特征空间中去,使得该样本在该特征空间内线性可分。假设数据样本集为D={(x1,y1),(x2,y2),…,(xi,yi)},在特征空间中划分超平面的模型方程为:
Figure BDA0003041597350000084
式(4)中,
Figure BDA0003041597350000086
表示将向量x映射到高维空间后的特征向量,ωT表示向量ω的转置,ω表示支持向量机模型的法向量,参数b表示支持向量机模型的偏移项,为了使得找到的超平面到不同类别之间的距离和最大,则有:
Figure BDA0003041597350000085
式(5)中,m表示样本点数量;
式(5)的对偶问题表示为:
Figure BDA0003041597350000091
式(6)中,α表示拉格朗日乘子,T表示向量转置;
结合核函数求解式(4)得到:
Figure BDA0003041597350000092
式(7)中,κ(·)表示核函数。
用支持向量机做预测能够将更多地数据拟合在间隔上。
步骤3.2:随机森林模型对去噪处理过的三相不平衡数据中缺失值进行预测。
随机森林(RF)使用随机重采样引导程序技术和节点随机分类技术构造多个不相关的决策树,又多个决策树打包组成随机森林模型。通过随机森林可以得到不同特征在在多个决策树上做的贡献,通过贡献度的大小对特征进行切分。
假设样本数据有C个特征X1,X2,…,XC,利用bootstrap方法从原始训练数据集中随机抽取K个新的自助样本集,然后返回,构造K个分类和回归树。每次未采样样本构成KOOB。
在每棵树的每个节点上随机抽取特征作为随机生成的特征子集,通过计算该特征子集中包含的每个特征所包含的信息,在特征中选择一个分类能力最好的特征进行节点分割,增加了决策树的多样性。
用平方平均误差表示所有随机森林决策树中切分后节点的不纯度函数,衡量切分特征和切分点的好坏。各个子节点的不纯度的加权和如下所示:
Figure BDA0003041597350000101
式(8)中,xi表示第i个切分变量,vij表示其第j个切分值,nl和nr分别表示切分后随机森林决策树左右分支的样本个数,Xl和Xr分别表示切分后随机森林决策树左右分支的样本特征,Ns表示总的样本个数,H(·)表示不纯度函数。
步骤3.3:线性回归模型对去噪处理过的三相不平衡数据中缺失值进行预测。
线性回归即是通过学习得到一个特征的线性组合来进行预测的函数。假设数据集为D={(x1,y1),(x2,y2),…,(xi,yi)},通过学习得到一个线性模型如下所示:
Figure BDA0003041597350000102
式(9)中,wT表示向量w的转置,w表示线性回归模型的权重向量,参数a表示线性回归模型的常数项,其中w和a使用均方误差计算得到,表示为:
Figure BDA0003041597350000103
式(10)中,w*表示使用均方误差得到的w的值,a*表示均方误差得到的a的值;
使用最小二乘法求解式(9)得到:
Figure BDA0003041597350000104
式(11)中,x表示所有x的平均值,m表示样本点的数量。
步骤4:训练集成模型。
该集成模型为马氏链,通过以下步骤训练得到:
通过支持向量机模型、随机森林模型、线性回归模型的预测结果的精确度确定马氏链中的初始概率矩阵和状态转移矩阵;
对现有三相数据进行部分数据的随机缺失,使用支持向量机模型、随机森林模型、线性回归模型对随机缺失值进行预测,比较随机缺失值和预测值之间的误差,修正初始概率矩阵。
具体地,假设随机过程X={Xn,n∈T}的时间参数T={0,1,2,…},且状态空间E也为离散的,即E={i0,i1,…},则称X为马氏链,若对于任意的n∈R以及i0,i1,…in∈E,有:
P(Xt=it|Xt-1=it-1,Xt-2=it-2,…,X0=i0)=P(Xt=it|Xt-1=it-1) (12)
式(12)中,P(·)表示概率,{Xt=it}表示在t时刻处于it状态;由公式(12)得到马氏链中当确定第t-1时刻的随机变量后,第t时刻的随机变量仅仅和第t-1时刻的随机变量有关,与其余变量无关,则马氏链中的一步转移概率如下:
pij=P{Xt+1=Sj|Xt=Si} (13)
式(13)中,pij表示t时刻的状态Si到t+1时刻的状态Sj的概率,使用状态转移矩阵P表示由一个状态转移到另一个状态的概率,且P=pij,则有:
Figure BDA0003041597350000111
参考初始概率分布矩阵π,计算某时刻处于某状态的概率,其中初始概率分布矩阵π={πi},始概率分布矩阵定义如下所示:
πi=P{X1=Si},1≤i≤N (15)
式(15)中,Si表示处于第i个状态,πi表示在初始时刻状态处于Si状态的概率。
步骤5:结合计算得到的概率和相应模型的预测值,得到三相不平衡数据中缺失值的最终预测值,使用最终预测值填充三相不平衡数据的缺失值。
通过以下公式计算得到:
Figure BDA0003041597350000121
式(16)中,pit表示t时刻处于第i个预测模型的概率,
Figure BDA0003041597350000122
表示t时刻第i个预测模型的预测值,
Figure BDA0003041597350000123
表示三相不平衡数据中缺失值的最终预测值。
实施例二:
本发明实施例提供一种三相不平衡数据的缺失值的填补***,包括:
获取模块:用于获取去噪处理后的三相电压不平衡数据;
第一预测模块:用于分别使用预先得到的支持向量机模型、随机森林模型、线性回归模型对获取到的三相不平衡数据中缺失值进行预测,得到各模型的预测值;
概率计算模块:用于使用预先训练的集成模型计算得到不同时刻使用三种模型的概率;
第二预测模块:用于结合计算得到的概率和相应模型的预测值,得到三相不平衡数据中缺失值的最终预测值,并使用最终预测值填充三相不平衡数据的缺失值。
实施例三:
本发明实施例提供一种三相不平衡数据的缺失值的填补装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。
实施例四:
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (9)

1.一种三相不平衡数据的缺失值的填补方法,其特征在于,所述方法包括如下步骤:
获取去噪处理后的三相不平衡数据;
分别使用预先得到的支持向量机模型、随机森林模型、线性回归模型对获取到的三相不平衡数据中缺失值进行预测,得到各模型的预测值;
使用预先训练的集成模型计算得到不同时刻使用三种模型的概率;
结合计算得到的概率和相应模型的预测值,得到三相不平衡数据中缺失值的最终预测值,使用最终预测值填充三相不平衡数据的缺失值。
2.根据权利要求1所述的三相不平衡数据的缺失值的填补方法,其特征在于,所述去噪处理为利用小波变换去除三相不平衡数据中的噪音。
3.根据权利要求1所述的三相不平衡数据的缺失值的填补方法,其特征在于,所述预先训练的集成模型为马氏链,通过以下步骤训练得到:
通过支持向量机模型、随机森林模型、线性回归模型的预测结果的精确度确定马氏链中的初始概率矩阵和状态转移矩阵;
对现有三相数据进行部分数据的随机缺失,使用支持向量机模型、随机森林模型、线性回归模型对随机缺失值进行预测,比较随机缺失值和预测值之间的误差,修正初始概率矩阵。
4.根据权利要求3所述的三相不平衡数据的缺失值的填补方法,其特征在于,所述初始概率矩阵表示为π={πi},其中πi表示初始概率分布,由在初始时刻状态处于Si状态的概率表示,通过下式表示:
πi=P{X1=Si},1≤i≤N (1)
式(1)中,X1表示在初始时刻马氏链的状态,Si表示处于第i个状态。
5.根据权利要求3所述的三相不平衡数据的缺失值的填补方法,其特征在于,所述状态转移矩阵通过下式表示:
Figure FDA0003041597340000021
式(2)中,pij表示t时刻的状态Si到t+1时刻的状态Sj的概率,通过下式计算:
pij=P{Xt+1=Sj|Xt=Si} (3)
式(3)中,{Xt+1=Sj}表示在t+1时刻的状态为Sj,{Xt=Si}表示t时刻的状态为Si,P{·}表示概率,满足下式的关系:
P(Xt=it|Xt-1=it-1,Xt-2=it-2,…,X0=i0)=P(Xt=it|Xt-1=it-1) (4)
式(4)中,P(·)表示概率,{Xt=it}表示在t时刻处于it状态。
6.根据权利要求1所述的三相不平衡数据的缺失值的填补方法,其特征在于,所述三相不平衡数据中缺失值的最终预测值,通过以下公式计算得到:
Figure FDA0003041597340000022
式(5)中,pit表示t时刻处于第i个预测模型的概率,
Figure FDA0003041597340000023
表示t时刻第i个预测模型的预测值,
Figure FDA0003041597340000024
表示三相不平衡数据中缺失值的最终预测值。
7.一种三相不平衡数据的缺失值的填补***,其特征在于,包括:
获取模块:用于获取去噪处理后的三相电压不平衡数据;
第一预测模块:用于分别使用预先得到的支持向量机模型、随机森林模型、线性回归模型对获取到的三相不平衡数据中缺失值进行预测,得到各模型的预测值;
概率计算模块:用于使用预先训练的集成模型计算得到不同时刻使用三种模型的概率;
第二预测模块:用于结合计算得到的概率和相应模型的预测值,得到三相不平衡数据中缺失值的最终预测值,并使用最终预测值填充三相不平衡数据的缺失值。
8.一种三相不平衡数据的缺失值的填补装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行权利要求1~6任一项所述方法的步骤。
9.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~6任一项所述方法的步骤。
CN202110459111.9A 2021-04-27 2021-04-27 一种三相不平衡数据的缺失值的填补方法及*** Active CN113127469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110459111.9A CN113127469B (zh) 2021-04-27 2021-04-27 一种三相不平衡数据的缺失值的填补方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110459111.9A CN113127469B (zh) 2021-04-27 2021-04-27 一种三相不平衡数据的缺失值的填补方法及***

Publications (2)

Publication Number Publication Date
CN113127469A true CN113127469A (zh) 2021-07-16
CN113127469B CN113127469B (zh) 2023-03-24

Family

ID=76780186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110459111.9A Active CN113127469B (zh) 2021-04-27 2021-04-27 一种三相不平衡数据的缺失值的填补方法及***

Country Status (1)

Country Link
CN (1) CN113127469B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116364178A (zh) * 2023-04-18 2023-06-30 哈尔滨星云生物信息技术开发有限公司 一种体细胞序列数据分类方法及相关设备
US11983152B1 (en) * 2022-07-25 2024-05-14 Blackrock, Inc. Systems and methods for processing environmental, social and governance data

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120254333A1 (en) * 2010-01-07 2012-10-04 Rajarathnam Chandramouli Automated detection of deception in short and multilingual electronic messages
CN103729682A (zh) * 2014-01-21 2014-04-16 国家电网公司 一种三相不平衡判别方法
CN105207212A (zh) * 2015-10-21 2015-12-30 华北电力大学 一种三相不平衡电力***的负荷等效模型的建模方法
CN107273445A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种大数据分析中缺失数据混合多重插值的装置和方法
CN107491832A (zh) * 2017-07-12 2017-12-19 国网上海市电力公司 基于混沌理论的电能质量稳态指标预测方法
CN109272364A (zh) * 2018-10-11 2019-01-25 北京国信达数据技术有限公司 自动估值模型建模方法
CN109726503A (zh) * 2019-01-12 2019-05-07 国电联合动力技术有限公司 缺失数据填补方法及装置
CN110647980A (zh) * 2019-09-18 2020-01-03 成都理工大学 一种基于gru神经网络的时间序列预测方法
CN110717249A (zh) * 2019-09-16 2020-01-21 中国石油大学(北京) 页岩气储层测井孔隙度快速预测方法及***
CN111694827A (zh) * 2020-05-31 2020-09-22 重庆大学 一种电力设备状态监测数据缺失值分类插补方法和***
CN112085125A (zh) * 2020-09-29 2020-12-15 西安交通大学 基于线性自学习网络的缺失值填补方法、存储介质及***
CN112465277A (zh) * 2021-02-01 2021-03-09 武汉朱雀闻天科技有限公司 一种在校学生挂科学分预测方法、***、装置及存储介质
CN112687349A (zh) * 2020-12-25 2021-04-20 广东海洋大学 一种降低辛烷值损失模型的构建方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120254333A1 (en) * 2010-01-07 2012-10-04 Rajarathnam Chandramouli Automated detection of deception in short and multilingual electronic messages
CN103729682A (zh) * 2014-01-21 2014-04-16 国家电网公司 一种三相不平衡判别方法
CN105207212A (zh) * 2015-10-21 2015-12-30 华北电力大学 一种三相不平衡电力***的负荷等效模型的建模方法
CN107273445A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种大数据分析中缺失数据混合多重插值的装置和方法
CN107491832A (zh) * 2017-07-12 2017-12-19 国网上海市电力公司 基于混沌理论的电能质量稳态指标预测方法
CN109272364A (zh) * 2018-10-11 2019-01-25 北京国信达数据技术有限公司 自动估值模型建模方法
CN109726503A (zh) * 2019-01-12 2019-05-07 国电联合动力技术有限公司 缺失数据填补方法及装置
CN110717249A (zh) * 2019-09-16 2020-01-21 中国石油大学(北京) 页岩气储层测井孔隙度快速预测方法及***
CN110647980A (zh) * 2019-09-18 2020-01-03 成都理工大学 一种基于gru神经网络的时间序列预测方法
CN111694827A (zh) * 2020-05-31 2020-09-22 重庆大学 一种电力设备状态监测数据缺失值分类插补方法和***
CN112085125A (zh) * 2020-09-29 2020-12-15 西安交通大学 基于线性自学习网络的缺失值填补方法、存储介质及***
CN112687349A (zh) * 2020-12-25 2021-04-20 广东海洋大学 一种降低辛烷值损失模型的构建方法
CN112465277A (zh) * 2021-02-01 2021-03-09 武汉朱雀闻天科技有限公司 一种在校学生挂科学分预测方法、***、装置及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KANG HE ET AL.: "Modeling and Predicting Surface Roughness in Hard Turning Using a Bayesian Inference-Based HMM-SVM Model", 《IEEE TRANSACTIONS ON AUTOMATION SCIENCE AND ENGINEERING》 *
张扬: "增强的生成对抗式网络缺失数据插补方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张文政 等: "基于支持向量机的辽宁省粮食产量预测", 《经济数学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11983152B1 (en) * 2022-07-25 2024-05-14 Blackrock, Inc. Systems and methods for processing environmental, social and governance data
CN116364178A (zh) * 2023-04-18 2023-06-30 哈尔滨星云生物信息技术开发有限公司 一种体细胞序列数据分类方法及相关设备

Also Published As

Publication number Publication date
CN113127469B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
Yu et al. Data mining-assisted short-term wind speed forecasting by wavelet packet decomposition and Elman neural network
CN109886464B (zh) 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法
CN113127469B (zh) 一种三相不平衡数据的缺失值的填补方法及***
CN113469189B (zh) 一种用电采集数据缺失值填充方法、***及装置
CN111027629A (zh) 基于改进随机森林的配电网故障停电率预测方法及***
CN105046044A (zh) 基于最优小波包变换的非平稳风速预测方法
CN114662386A (zh) 一种轴承故障诊断方法及***
CN112149045A (zh) 一种适用于大规模数据的降维、关联分析方法
CN117556369B (zh) 一种动态生成的残差图卷积神经网络的窃电检测方法及***
CN110490215B (zh) 一种风电场-电网相互作用的模态识别方法及***
CN104239689B (zh) 基于优化相关向量机的短期风速预测方法
CN111695623B (zh) 基于模糊聚类的大规模电池储能***成组建模方法、***、设备及可读存储介质
CN113449920A (zh) 一种风电功率预测方法、***及计算机可读介质
CN113780160A (zh) 一种电能质量扰动信号分类方法和***
CN116822742A (zh) 一种基于动态分解-重构集成处理的电力负荷预测方法
CN115936926A (zh) 一种基于smote-gbdt的不平衡窃电数据分类方法、装置、计算机设备和存储介质
CN115713032A (zh) 一种电网预防控制方法、装置、设备及介质
CN114462447A (zh) 电压暂降的识别方法、装置、计算机设备、存储介质
CN116975742A (zh) 局部放电模式识别方法、装置、设备和存储介质
CN114186168A (zh) 面向智能城市网络资源的相关性分析方法及装置
CN110175639B (zh) 一种基于特征选取的短期风电功率预测方法
CN112766356A (zh) 一种基于动态权重D-XGBoost模型的预测方法及***
CN110889396A (zh) 能源互联网扰动分类方法、装置、电子设备和存储介质
CN115080965B (zh) 基于历史表现的无监督异常检测方法及***
KR102486461B1 (ko) 시계열 데이터의 특징값을 기반으로 예측값 및 시계열 구간별 특징 중요도 산출을 수행하는 가상 계측 방법 및 그를 위한 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant