CN107818523B - 基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法 - Google Patents

基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法 Download PDF

Info

Publication number
CN107818523B
CN107818523B CN201711123306.6A CN201711123306A CN107818523B CN 107818523 B CN107818523 B CN 107818523B CN 201711123306 A CN201711123306 A CN 201711123306A CN 107818523 B CN107818523 B CN 107818523B
Authority
CN
China
Prior art keywords
data
attribute
unstable
value
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711123306.6A
Other languages
English (en)
Other versions
CN107818523A (zh
Inventor
杨济海
余放
伍小生
彭汐单
巢玉坚
蔡志民
王�华
付萍萍
李敏
吕顺利
邓伟
李志鹏
王泉啸
李石君
余伟
李宇轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING NANRUI GROUP CO
State Grid Corp of China SGCC
Wuhan University WHU
Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Original Assignee
NANJING NANRUI GROUP CO
State Grid Corp of China SGCC
Wuhan University WHU
Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING NANRUI GROUP CO, State Grid Corp of China SGCC, Wuhan University WHU, Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd filed Critical NANJING NANRUI GROUP CO
Priority to CN201711123306.6A priority Critical patent/CN107818523B/zh
Publication of CN107818523A publication Critical patent/CN107818523A/zh
Application granted granted Critical
Publication of CN107818523B publication Critical patent/CN107818523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Water Supply & Treatment (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明是一种基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法,首先通过异构数据的频率化统一了电力通信***中多源异构数据的格式,将电力通信***中各数据的格式统一成非稳定频率,再通过频率因子学习函数进行机器特征学习,分两种标签形式对频率学习函数进行参数优化求解,得出预测函数。通过设定的真值判别方法结合预测函数实现对电力通信***中采集到的海量监控数据进行学习与规则分析,使得非稳定频率的分布指向电力通信***中的异常点,从而判断数据的真值性。通过对历史数据的利用,自动对异常数据进行定位与真值推理补全,以提高电力通信***中的数据质量。

Description

基于非稳定频率分布与频率因子学习的电力通信***数据真 值判别与推断方法
技术领域
本发明属于电力通信数据与大数据技术,机器学习技术相融合的应用研究,通过将的非稳定频率模式代入频率因子学习函数进行机器学习,从而实现对电力通信***中采集到的海量监控数据进行学习与规则分析,自动对异常数据进行定位与真值推理补全,以提高电力通信***中的数据质量。
背景技术
电力通信***是一个广义的概念,泛指与电力电网相关各子***以及他们产生的数据信息,随着我国电力电网的不断发展,用电需求的不断扩大,电力通信***中产生的数据也日益庞大起来,同时数据产生的速度也越来越快,不同子***间的数据结构也有很大差异,电力通信***产生的数据成为了典型的大数据。
电力通信***是保障电力***正常运行的重要***,通过各类传感器对设备进行监测,为设备故障提供决策,为设备维修提供依据。大型的电力通信***产生海量的监测数据,这些数据在采集、录入、传输、交换与储存过程中不可避免的会出现数据失真现象。现实中,这些失真数据已经成为定位与分析电力设备故障的重要阻碍因素。提高电力通信***的数据质量是完善电力电网***的重要环节。国内外专家对电力***中失真数据的检测提出了多种解决方法,文献[1]研究能量管理***中出现数据失真的原因,然后从原因着手,解决数据失真的问题。文献[2]是从数据平台着手试图提高数据质量。文献[3]从插值拟合的角度来预测数据质量.文献[4]基于公共信息模型(Common Information Model,CIM)的高速模型交换格式CIM/E文本为载体的不同***间的数据校验技术,采用改进的多源数据筛选较优质量数据的手段,以及根据主站状态估计对现场数据进行反馈的方法,提高了电网调度***的整体数据质量。
以上基于电力设备状态估计的不良数据检测在对待局***局部数据的质量提高时有一定效果,但是对于整个电力通信***产生的多源异构大数据仍不具备良好的适用性,并且针对每一种数据失真建立相应知识库的成本是相对较高的。本发明提出频率因子学习函数基于机器学习技术,相对提高了算法的智能,不需要建立知识库,算法随用随学,降低成本。同时通过异构数据的频率化统一了多源异构数据的格式,通过国家电网真实数据集验证算法,实验结果表明该方法适用于大数据环境下的电力通信***产生的多源异构数据的失真判别与真值推断。
发明内容
电力通信***是保障电力***正常运行的重要***,通过各类传感器对设备进行监测,为设备故障提供决策,为设备维修提供依据。大型的电力通信***产生海量的监测数据,这些数据在采集、录入、传输、交换与储存过程中不可避免的会出现数据失真现象。现实中,这些失真数据已经成为定位与分析电力设备故障的重要阻碍因素。电力通信***中出现的数据异常主要包括以下形式:
1.违反监测数据精确性,监测数据准确性是指电力信息***监测到的数据通过录入、传输、交换与储存后,被最终用以分析决策前的值与真实值之间的接近程度。
2.违反监测数据一致性,监测数据一致是指,***实际记录到的数据是否满足一定的函数依赖或逻辑关系,是否有超出属性定义域的数据,是否有不符合实际的数据。
3.违反监测数据量纲统一性,监测数据量纲统一性指的是同一属性的数据是否具有统一的计量单位,由于在电力通信***中,统一属性的数据可能被不同子***监测,容易出现量纲不统一现象。
4.违反监测数据完整性,监测数据完整性是电力信息***实际录入的数据是存在缺失,是否完全记录了按设计要求记录的全部数据。
其中,前三种类型可以概括为数据准确性问题,第四种可以认为是数据缺失问题。现阶段,电力通信***采集道德数据存在大量可以直观观察到的数据缺失现象,同时不准确数据也充斥着数据库。这些现象产生一部分是由于电力监测***自身的问题,一部分是数据录入时出现的偶然差错,还有一部分是***升级时,***不兼容问题导致的数据失真。
针对目前电力通信***中出现的数据质量偏低问题,本发明旨在建立一种自动对电力数据进行失真识别,失真位与真值推理的机器学习判别方法,本方法将电力通信***中各数据的格式统一成非稳定频率分布,再通过频率因子学习函数进行特征学习,使得非稳定频率分布指向电力通信***中的异常点,从而判断数据的真值性。
为完成以上目标,本发明整体包含四个步骤,整体流程图见附图1,包括以下步骤:
定义1属性的稳定期
Figure BDA0001467848960000031
其中ei(t0)表示属性ei在t0时刻的属性值,t表示属性的一个最小稳定周期,即经过t时间,属性值回到了和ei初始时刻的值相差不大的
Figure BDA0001467848960000032
ε表一个很小的正数偏离度,其限定了属性值在稳定期内的最大偏离程度;
定义2属性集的稳定期
T=m(t1,t2,…,tn)
其中,T是属性集的稳定周期,它表示电力数据集内所有属性稳定周期的最小公倍数,m是提取最小公倍数的映射符号;
定义3稳定状态集
Figure BDA0001467848960000041
Figure BDA0001467848960000042
其中,
Figure BDA0001467848960000043
代表了经历一个属性集周期T后,属性集中各属性数据的稳定值,通常这个值与初始值ei(t)较为接近,
Figure BDA0001467848960000044
表示电力数据属性集A的一个稳定状态集,它是由A集合内所有属性对应的稳定值组合而成;稳定模式的现实意义在于它描述了正常属性值在一个小周期内的稳定值分布情况;
定义4提取非稳定频率
Figure BDA0001467848960000045
其中,fi(t)表示属性ei的非稳定频率,N[ei′(t)]表示属性ei在稳定期内被遍历时内超出偏离度的计数,
Figure BDA0001467848960000046
表示属性ei在稳定期内被遍历的次数;D(ei)表示ei不超出偏离度的定义域;
定义5非稳定频率分布
FA(t)=[f1(t),f2(t),…,fn(t)]
其中,FA(t)称为非稳定频率分布,它表示在遍历期内,来自电力属性集A中非稳定属性被检测到的频率分布,其被定义成向量的形式是为了在接下来的步骤3中进行机器学习输入;
定义6非稳定频率分布标签集,对应关系示意图见附图2
Dtrain(A)={(FA (1),y(1)),(FA (2),y(2)),...,(FA (n),y(n))}
其中Dtrain(A)表示非稳定频率标签向量,它本质是一个由第i时期非稳定频率分布FA (i)与其对应的设备故障标签y(1)组成的训练数据集;数据标签可以通过对***发生错误的错误代码进行数值赋值得到,只起分类的作用;
定义7非稳定频率分布矩阵
Figure BDA0001467848960000051
其中F表示非稳定频率分布矩阵,它是在稳定期内将第i次遍历得到的的非稳定频率分布按行向量的形式组装起来的代数结构,这种结构有利于其引入算法中,是输入频率因子学习算法的标准格式;
具体包括:
步骤1提取电力数据集稳定模式,基于构造的电力数据集,确定包含的电力设备的待测属性:
A={e1,e2,e3,…,en}
其中,A表示一个电力数据属性集合,ei,i∈[1,n2]表示对电力设备所处环境监测的n个属性(例如:网元ID,电流,设备温度,湿度,时间等),
然后设定偏离度,确定属性集稳定期;并提取稳定状态集合
步骤2构造非稳定频率分布,通过对电力通信***产生的多源异构数据频率化,使其数据结构得到统一,便于引入步骤3的算法,然后提取非稳定频率,并构造非稳定频率分布
步骤3非稳定频率因子学习,具体包括:
步骤3.1构造非稳定频率标签向量和非稳定频率分布矩阵
步骤3.2频率因子学习:基于一种频率因子学习函数,采用此函数进行参数学习;
Figure BDA0001467848960000061
Figure BDA0001467848960000062
其中,
Figure BDA0001467848960000063
为学习函数的回归标签,Fi,(i=0,1,2,…)为非稳定频率分布(向量形式的自变量),特别的,当第i属性在单位模式周期内未出现数据时,则该频率量赋值1,表明数据缺失,违反数据完整性;不同的非稳定频率分布实际刻画了不同属性出现异常数据的度以及所有异常组合模式;wj,(j=0,1,2,…)为单变量学习参数,vi,vj分别为交叉变量Fi,Fj隐参数,他们是体现频率因子学习算法学习优势的关键参数,<vi,vj>为对隐参数向量vi,vj求内积,隐参数的作用是在目标函数优化阶段解析出两个不同非稳定频率分布之前的隐含关系,同时因为i≠j,规避了非稳定分布的自相关影响,有效避开了过拟合的出现;
λ(Fi)为扳机因子,当第i次遍历属性集为空集时(此时属性集中所有数据缺失),扳机因子关闭学习函数,启用索引函数g(Fi)
步骤3.3优化求解
根据设备故障类型可设置连续性数值故障标签或分类型故障标签,分别采用回归型目标损失函数和分类型目标损失函数加以优化;
回归目标损失函数,注意此时λ=1
Figure BDA0001467848960000071
构造分类目标损失函数
Figure BDA0001467848960000072
当y=1时:
Figure BDA0001467848960000073
当y=-1时:
Figure BDA0001467848960000074
表示hingeloss型分类优化损失函数,其中max{}表示取括号中的最大值,hingeloss型目标优化函数通过估计值的取正负号来预测特定的非稳定频率分布指向电力设备错误或数据录入错误;
无论设置哪种目标函数,其优化目标都是通过求解学习函数中的参数使得目标损失函数值达到最小,即:
Figure BDA0001467848960000075
其中Θ*表示学习函数中的参数集合,包括单因子项参数wi与交叉项参数vi,vj,i,j∈Z+,i<j.
将求解得到的最优参数带入学习函数,此时学习函数转换为预测函数
Figure BDA0001467848960000076
其中
Figure BDA0001467848960000077
为代入最优参数的预测函数,当输入全新的非稳定频率分布时,该函数可以给出一个电力设备状态分类的预测值,当代入采用大量历史数据训练得到的优化参数时,预测函数值收敛于真实值;
步骤4真值判别与推断补全,具体包括:
步骤4.1判别流程
(1)型数据失真判别
当预测函数值收敛于设备正常标签值时为,相应非稳定频率分布中大于0的属性数据以及空集元素判断为失真;
(2)型数据失真判别
当预测函数值收敛与设备特定的异常标签时,相应非稳定分布中等于0的属性数据以及空集元素判断为失真;
(3)型数据失真判别
当非稳定分布所有元素全为空集时,说明数据全部缺失,该分布整体判断为失真;
步骤4.2真值推断与补全流程
当出现(1)型数据失真时,失真数据是超过预先设定的偏离度的超限数据,取未超限历史数据中出现频率最大的值对该属性赋值补全;
当出现(2)型数据失真时,失真数据是未超过预先设定的偏离度的稳定数据(设备出现变化,而数据未发生相应变化),取超限历史数据中出现频率最大的值对该属性赋值补全;
当出现(3)型数据失真时,失真数据是为空集的数据,补全方式分为两种情况,当设备运行正常时,按(1)型数据失真方式补全;当设备运行异常或设备发生变化时,按(2)型数据失真方式补全。
本发明通过设定的真值判别方法结合预测函数实现对电力通信***中采集到的海量监控数据进行学习与规则分析,使得非稳定频率的分布指向电力通信***中的异常点,从而判断数据的真值性。通过对历史数据的利用,自动对异常数据进行定位与真值推理补全,以提高电力通信***中的数据质量
附图说明
图1为总体流程图。
图2为非稳定频率分布与标签集的对应关系示意图。
图3为真值判别与推断补全流程图。
具体实施方式
针对目前电力通信***中出现的数据质量偏低问题,本发明旨在建立一种自动对电力数据进行失真识别,失真位与真值推理的机器学习判别方法,本方法将电力通信***中各数据的格式统一成非稳定频率分布,再通过频率隐因子分解学习函数进行特征学习,使得非稳定频率分布指向电力通信***中的异常点,从而判断数据的真值性。
为完成以上目标,本发明整体分为四个步骤,整体流程图见附图1
步骤1提取电力数据集稳定模式
该步骤分为三个子步骤
步骤1.1构造电力数据集,确定其包含的电力设备的待测属性
A={e1,e2,e3,…,en}
其中,A表示一个电力数据属性集合,ei,i∈[1,n2]表示对电力设备所处环境监测的n个属性(例如:网元ID,电流,设备温度,湿度,时间等)。确定属性的原则是:
(1)选择必要属性,用以真值性判别的数据所带有的属性称为必要属性,这类属性是必须选择的。
(2)选择关联属性,与必要属性相关的属性称为关联属性,关联属性只是在后续处理时作为对必要属性真值判断与推理的机器学习辅助依据(例如待测属性为设备温度,则环境温度可以作为关联属性被选取),***不会对关联属性进行真值判断,所以关联属性得选取可以根据具体情况灵活确定。
步骤1.2设定偏离度,确定属性集稳定期。
定义2属性的稳定期
Figure BDA0001467848960000101
其中ei(t0)表示属性ei在t0时刻的属性值,t表示属性的一个最小稳定周期,即经过t时间,属性值回到了和ei初始时刻的值相差不大的
Figure BDA0001467848960000102
ε表一个很小的正数偏离度,其限定了属性值在稳定期内的最大偏离程度。
定义3属性集的稳定期
T=m(t1,t2,…,tn)
其中,T是属性集的稳定周期,它表示电力数据集内所有属性稳定周期的最小公倍数,m是提取最小公倍数的映射符号。
步骤1.3提取稳定状态集合
定义4稳定状态集
Figure BDA0001467848960000103
Figure BDA0001467848960000104
其中,
Figure BDA0001467848960000105
代表了经历一个属性集周期T后,属性集中各属性数据的稳定值,通常这个值与初始值ei(t)较为接近,
Figure BDA0001467848960000106
表示电力数据属性集A的一个稳定状态集,它是由A集合内所有属性对应的稳定值组合而成。稳定模式的现实意义在于它描述了正常属性值在一个小周期内的稳定值分布情况。
需要注意的是,稳定周期T是确保各属性值在这个时间段内保持数据值稳定的最小时间跨度,当放大到更长时间跨度下,数据则可能呈现多种变化趋势。对于常数型属性(例如设备位置,网元ID等),其稳定期可以看作0。对于离散非数值型属性值,采用整数对其分类赋值,则仍适用于上述处理方式。
步骤2构造非稳定频率分布,
本步骤通过对电力通信***产生的多源异构数据频率化,使其数据结构得到统一,便于引入步骤3的算法,分为两个子步骤
步骤2.1提取非稳定频率
定义5提取非稳定频率
Figure BDA0001467848960000111
其中,fi(t)表示属性ei的非稳定频率,N[ei′(t)]表示属性ei在稳定期内被遍历时内超出偏离度的计数,
Figure BDA0001467848960000112
表示属性ei在稳定期内被遍历的次数。D(ei)表示ei不超出偏离度的定义域。
步骤2.2构造非稳定频率分布
定义6非稳定频率分布
FA(t)=[f1(t),f2(t),…,fn(t)]
其中,FA(t)称为非稳定频率分布,它表示在遍历期内,来自电力属性集A中非稳定属性被检测到的频率分布,其被定义成向量的形式是为了在接下来的步骤3中进行机器学习输入。
非稳定频率的实际意义是从统计学上指明了不符合变化规律的“突变”属性值,按步骤2.1,当数据变化超过预先设定的偏离度界限δ时,就会出现相应的非稳定频率,在单位时间段内,数据出现的越限次数越多,相应的非稳定频率值就会越大。
步骤3非稳定频率因子学习
电力通信***的数据质量需要通过真值所占的比例来量化,在一个稳定期内内,当电力或电网***中的设备正常稳定运行时,其检测或者录入的数据或者也应能反应出这种物理上的稳定,此类数据可以通过步骤1.2设定的偏离度定义到稳定集中(其补集即为非稳定分布)。但是如果***物理上出现异常或者数据录入错误,而数据在电力通信多次遍历后仍保持稳定,或者当***未出现问题,多次遍历的数据却超出偏离度的限界,此时数据可以认为数据出现失真,此类问题可以被归为数据准确性问题,同时如果数据全部或部分丢失,可以被归为数据完整性问题。
通过非稳定频率因子学习算法,可以对上述问题进行统一解决。本步骤分为四个子步骤。
步骤3.1构造非稳定频率标签向量
定义7非稳定频率分布标签集,对应关系示意图见附图2
Dtrain(A)={(FA (1),y(1)),(FA (2),y(2)),...,(FA (n),y(n))}
其中Dtrain(A)表示非稳定频率标签向量,它本质是一个由第i时期非稳定频率分布FA (i)与其对应的设备故障标签y(1)组成的训练数据集。数据标签可以通过对***发生错误的错误代码进行数值赋值得到,只起分类的作用。
步骤3.2构造非稳定频率分布矩阵
定义8非稳定频率分布矩阵
Figure BDA0001467848960000131
其中F表示非稳定频率分布矩阵,它是在稳定期内将第i次遍历得到的的非稳定频率分布按行向量的形式组装起来的代数结构,这种结构有利于其引入算法中,是输入频率因子学习算法的标准格式。
步骤3.3频率因子学习
本方法设计了一种频率因子学习函数,采用此函数进行参数学习。
定义8
Figure BDA0001467848960000132
Figure BDA0001467848960000133
其中,
Figure BDA0001467848960000134
为学习函数的回归标签,Fi,(i=0,1,2,…)为非稳定频率分布(向量形式的自变量),特别的,当第i属性在单位模式周期内未出现数据时,则该频率量赋值1,表明数据缺失,违反数据完整性。不同的非稳定频率分布实际刻画了不同属性出现异常数据的度以及所有异常组合模式。wj,(j=0,1,2,…)为单变量学习参数,vi,vj分别为交叉变量Fi,Fj隐参数,他们是体现频率因子学习算法学习优势的关键参数,<vi,vj>为对隐参数向量vi,vj求内积,隐参数的作用是在目标函数优化阶段解析出两个不同非稳定频率分布之前的隐含关系,同时因为i≠j,规避了非稳定分布的自相关影响,有效避开了过拟合的出现。
λ(Fi)为扳机因子,当第i次遍历属性集为空集时(此时属性集中所有数据缺失),扳机因子关闭学习函数,启用索引函数g(Fi),该函数的具体表达式可根据实际情况定义,其存在目的是直接将缺失值指向其属性所在的电力通信设备。这里的设计思想是:非稳定的异常数据真值性是需要学习函数来求证的,它属于数据准确性的范畴,但是数据缺失是确定违反数据完整性的,此时已不需要学习函数做任何求证,直接开启索引函数即可确定数据失真的物理原因。参数u是一个量纲统一因子,当g(Fi)的解析式确定时,u因子用来将其量纲与学习函数统一。
步骤3.4优化求解
根据设备故障类型可设置连续性数值故障标签或分类型故障标签,分别采用回归型目标损失函数和分类型目标损失函数加以优化。
定义9回归目标损失函数,注意此时λ=1
Figure BDA0001467848960000141
其中,
Figure BDA0001467848960000142
为目标损失函数,
Figure BDA0001467848960000143
对应定义8的频率因子学习函数,y(i)为真实情况中记录的电力设备异常标签或录入错误标签。优化目标是使目标损失函数的值最小,其实际意义是通过确定学习函数
Figure BDA0001467848960000144
中的参数,使得学习函数的值与电力设备异常的标签最接近。式子中乘以1/2,是为了后续优化过程中求偏导数时保持式子的简洁。
当电力设备异常标签或录入错误标签是离散分类结构时,目标损失可具体定义成hingeloss型,注意此时λ=1
定义10构造分类目标损失函数
Figure BDA0001467848960000145
当y=1时:
Figure BDA0001467848960000146
当y=-1时:
Figure BDA0001467848960000147
定义10表示hingeloss型分类优化损失函数,其中max{}表示取括号中的最大值,hingeloss型目标优化函数通过估计值的取正负号来预测特定的非稳定频率分布指向电力设备错误或数据录入错误。
无论设置哪种目标函数,其优化目标都是通过求解学习函数中的参数使得目标损失函数值达到最小,即:
Figure BDA0001467848960000151
其中Θ*表示学习函数中的参数集合,包括单因子项参数wi与交叉项参数vi,vj,i,j∈Z+,i<j.
可采取随机梯度下降法(SGD)达到优化目标,对学习函数中每个参数求偏导可以得到梯度的方向,再设定一个按梯度确定的方向前进一步的步长,循环迭代更新可得出局部最优解。算法如下:
1、回归目标损失型优化迭代方式:
Figure BDA0001467848960000152
Figure BDA0001467848960000153
在回归目标损失型优化迭代算法中,参数按梯度方向更新,设定δ为每次迭代更新的步长。δ需要根据具体问题预先设定,步长需要适中,当设定步长过大时,优化算法可能难以收敛,当设定步长过小时,容易使得迭代次数过多,浪费计算资源。
2、分类目标损失型优化方式:
Figure BDA0001467848960000154
Figure BDA0001467848960000161
将求解得到的最优参数带入学习函数,此时学习函数转换为预测函数
Figure BDA0001467848960000162
其中
Figure BDA0001467848960000163
为代入最优参数的预测函数,当输入全新的非稳定频率分布时,该函数可以给出一个电力设备状态分类的预测值,当代入采用大量历史数据训练得到的优化参数时,预测函数值收敛于真实值。
步骤4真值判别与推断补全
本步骤分为两个子步骤,本步骤示意图见附图3
步骤4.1判别流程
(4)型数据失真判别
当预测函数值收敛于设备正常标签值时为,相应非稳定频率分布中大于0的属性数据以及空集元素判断为失真。
(5)型数据失真判别
当预测函数值收敛与设备特定的异常标签时,相应非稳定分布中等于0的属性数据以及空集元素判断为失真。
(6)型数据失真判别
当非稳定分布所有元素全为空集时,说明数据全部缺失,该分布整体判断为失真。
步骤4.2真值推断与补全流程
当出现(1)型数据失真时,失真数据是超过预先设定的偏离度的超限数据,取未超限历史数据中出现频率最大的值对该属性赋值补全。
当出现(2)型数据失真时,失真数据是未超过预先设定的偏离度的稳定数据(设备出现变化,而数据未发生相应变化),取超限历史数据中出现频率最大的值对该属性赋值补全。
当出现(3)型数据失真时,失真数据是为空集的数据,补全方式分为两种情况,当设备运行正常时,按(1)型数据失真方式补全。当设备运行异常或设备发生变化时,按(2)型数据失真方式补全。

Claims (1)

1.基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法,其特征在于,包括以下步骤:
定义1属性的稳定期
Figure FDA0002968310980000011
其中ei(t0)表示属性ei在t0时刻的属性值,t表示属性的一个最小稳定周期,即经过t时间,属性值回到了和ei初始时刻的值相差不大的ei,ε表示一个很小的正数偏离度,其限定了属性值在稳定期内的最大偏离程度;
定义2属性集的稳定期
T=m(t1,t2,…,tn)
其中,T是属性集的稳定周期,它表示电力数据集内所有属性稳定周期的最小公倍数,m是提取最小公倍数的映射符号;
定义3稳定状态集
Figure FDA0002968310980000012
Figure FDA0002968310980000013
其中,
Figure FDA0002968310980000014
代表了经历一个属性集周期T后,属性集中各属性数据的稳定值,这个值与初始值ei(t)较为接近,
Figure FDA0002968310980000015
表示电力数据属性集A的一个稳定状态集,它是由A集合内所有属性对应的稳定值组合而成;稳定模式的现实意义在于它描述了正常属性值在一个小周期内的稳定值分布情况;
定义4提取非稳定频率
Figure FDA0002968310980000021
其中,fi(t)表示属性ei的非稳定频率,N[e′i(t)]表示属性ei在稳定期内被遍历时内超出偏离度的计数,
Figure FDA0002968310980000022
表示属性ei在稳定期内被遍历的次数;D(ei)表示ei不超出偏离度的定义域;
定义5非稳定频率分布
FA(t)=[f1(t),f2(t),…,fn(t)]
其中,FA(t)称为非稳定频率分布,它表示在遍历期内,来自电力属性集A中非稳定属性被检测到的频率分布,其被定义成向量的形式是为了在接下来的步骤3中进行机器学习输入;
定义6非稳定频率分布标签集
Figure FDA0002968310980000023
其中Dtrain(A)表示非稳定频率标签向量,它本质是一个由第i时期非稳定频率分布FA (i)与其对应的设备故障标签y(i)组成的训练数据集;数据标签通过对***发生错误的错误代码进行数值赋值得到,只起分类的作用;
定义7非稳定频率分布矩阵
Figure FDA0002968310980000024
其中F表示非稳定频率分布矩阵,它是在稳定期内将第i次遍历得到的的非稳定频率分布按行向量的形式组装起来的代数结构,这种结构有利于其引入算法中,是输入频率因子学习算法的标准格式;
具体包括:
步骤1提取电力数据集稳定模式,基于构造的电力数据集,确定包含的电力设备的待测属性:
A={e1,e2,e3,…,en}
其中,A表示一个电力数据属性集合,ei,i∈[1,n2]表示对电力设备所处环境监测的n个属性,然后设定偏离度,确定属性集稳定期;并提取稳定状态集合;
步骤2构造非稳定频率分布,通过对电力通信***产生的多源异构数据频率化,使其数据结构得到统一,便于引入步骤3的算法,然后提取非稳定频率,并构造非稳定频率分布;
步骤3非稳定频率因子学习,具体包括:
步骤3.1构造非稳定频率标签向量和非稳定频率分布矩阵;
步骤3.2频率因子学习:基于一种频率因子学习函数,采用此函数进行参数学习;
Figure FDA0002968310980000031
Figure FDA0002968310980000032
其中,
Figure FDA0002968310980000033
为学习函数的回归标签,Fi,(i=0,1,2,…)为非稳定频率分布,当第i属性在单位模式周期内未出现数据时,则该频率量赋值1,表明数据缺失,违反数据完整性;不同的非稳定频率分布实际刻画了不同属性出现异常数据的度以及所有异常组合模式;wi,(i=0,1,2,…)为单变量学习参数,vi,vj分别为交叉变量Fi,Fj隐参数,他们是体现频率因子学习算法学习优势的关键参数,<vi,vj>为对隐参数向量vi,vj求内积,隐参数的作用是在目标函数优化阶段解析出两个不同非稳定频率分布之前的隐含关系,同时因为i≠j,规避了非稳定分布的自相关影响,有效避开了过拟合的出现;
λ(Fi)为扳机因子,当第i次遍历属性集为空集时,扳机因子关闭学习函数,启用索引函数g(Fi),u表示一个量纲统一因子;
步骤3.3优化求解
根据设备故障类型设置连续性数值故障标签或分类型故障标签,分别采用回归型目标损失函数和分类型目标损失函数加以优化;
回归目标损失函数,注意此时λ=1
Figure FDA0002968310980000041
构造分类目标损失函数
Figure FDA0002968310980000042
当y=1时:
Figure FDA0002968310980000043
当y=-1时:
Figure FDA0002968310980000044
表示hingeloss型分类优化损失函数,其中max{}表示取括号中的最大值,hingeloss型目标优化函数通过估计值的取正负号来预测特定的非稳定频率分布指向电力设备错误或数据录入错误;
无论设置哪种目标函数,其优化目标都是通过求解学习函数中的参数使得目标损失函数值达到最小,即:
Figure FDA0002968310980000045
其中Θ*表示学习函数中的参数集合,包括单因子项参数wi与交叉项参数vi,vj,i,j∈Z+,i<j;
将求解得到的最优参数带入学习函数,此时学习函数转换为预测函数
Figure FDA0002968310980000051
其中
Figure FDA0002968310980000052
为代入最优参数的预测函数,当输入全新的非稳定频率分布时,该函数给出一个电力设备状态分类的预测值,当代入采用大量历史数据训练得到的优化参数时,预测函数值收敛于真实值;
步骤4真值判别与推断补全,具体包括:
步骤4.1判别流程
(1)型数据失真判别
当预测函数值收敛于设备正常标签值时为,相应非稳定频率分布中大于0的属性数据以及空集元素判断为失真;
(2)型数据失真判别
当预测函数值收敛与设备特定的异常标签时,相应非稳定分布中等于0的属性数据以及空集元素判断为失真;
(3)型数据失真判别
当非稳定分布所有元素全为空集时,说明数据全部缺失,该分布整体判断为失真;
步骤4.2真值推断与补全流程
当出现(1)型数据失真时,失真数据是超过预先设定的偏离度的超限数据,取未超限历史数据中出现频率最大的值对该属性赋值补全;
当出现(2)型数据失真时,失真数据是未超过预先设定的偏离度的稳定数据,取超限历史数据中出现频率最大的值对该属性赋值补全;
当出现(3)型数据失真时,失真数据是为空集的数据,补全方式分为两种情况,当设备运行正常时,按(1)型数据失真方式补全;当设备运行异常或设备发生变化时,按(2)型数据失真方式补全。
CN201711123306.6A 2017-11-14 2017-11-14 基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法 Active CN107818523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711123306.6A CN107818523B (zh) 2017-11-14 2017-11-14 基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711123306.6A CN107818523B (zh) 2017-11-14 2017-11-14 基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法

Publications (2)

Publication Number Publication Date
CN107818523A CN107818523A (zh) 2018-03-20
CN107818523B true CN107818523B (zh) 2021-04-16

Family

ID=61609208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711123306.6A Active CN107818523B (zh) 2017-11-14 2017-11-14 基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法

Country Status (1)

Country Link
CN (1) CN107818523B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549907B (zh) * 2018-04-11 2021-11-16 武汉大学 一种基于多源迁移学习的数据校验方法
CN109243558A (zh) * 2018-08-28 2019-01-18 重庆汇邡机械制造有限公司 进行大数据收集后的数据提取优化方法
CN113535693B (zh) * 2020-04-20 2023-04-07 ***通信集团湖南有限公司 一种移动平台的数据真值确定方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101622814A (zh) * 2007-03-02 2010-01-06 Nxp股份有限公司 数据通信***的快速上电
US7783584B1 (en) * 2007-10-03 2010-08-24 New York University Controllable oscillator blocks
EP2626995A1 (de) * 2012-02-13 2013-08-14 Siemens Aktiengesellschaft Verfahren zum Schutz eines Frequenzumrichters bei unsymmetrischen elektrischen Leistungsflüssen
CN103957582A (zh) * 2014-05-17 2014-07-30 浙江大学宁波理工学院 无线传感器网络自适应压缩方法
CN104156504A (zh) * 2014-07-21 2014-11-19 国家电网公司 一种发电机励磁***参数可辨识性判定方法
CN104866901A (zh) * 2015-05-12 2015-08-26 西安理工大学 一种基于改进有效集算法优化的极限学习机二元分类方法
CN105045976A (zh) * 2015-07-01 2015-11-11 中国人民解放军信息工程大学 一种运用栅格矩阵建立兵棋地图地形属性的方法
CN105122619A (zh) * 2013-03-05 2015-12-02 通用电气公司 用于提高软交流电源的电力供给的功率转换器和方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101622814A (zh) * 2007-03-02 2010-01-06 Nxp股份有限公司 数据通信***的快速上电
US7783584B1 (en) * 2007-10-03 2010-08-24 New York University Controllable oscillator blocks
EP2626995A1 (de) * 2012-02-13 2013-08-14 Siemens Aktiengesellschaft Verfahren zum Schutz eines Frequenzumrichters bei unsymmetrischen elektrischen Leistungsflüssen
CN105122619A (zh) * 2013-03-05 2015-12-02 通用电气公司 用于提高软交流电源的电力供给的功率转换器和方法
CN103957582A (zh) * 2014-05-17 2014-07-30 浙江大学宁波理工学院 无线传感器网络自适应压缩方法
CN104156504A (zh) * 2014-07-21 2014-11-19 国家电网公司 一种发电机励磁***参数可辨识性判定方法
CN104866901A (zh) * 2015-05-12 2015-08-26 西安理工大学 一种基于改进有效集算法优化的极限学习机二元分类方法
CN105045976A (zh) * 2015-07-01 2015-11-11 中国人民解放军信息工程大学 一种运用栅格矩阵建立兵棋地图地形属性的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《大数据环境下的多源数据演化更新研究》;余放等;《计算机科学》;20161231;第43卷(第12期);全文 *
《对区域电网稳定控制***通信通道自愈方式的研究》;杨济海等;《计算机科学与探索》;20161231;全文 *

Also Published As

Publication number Publication date
CN107818523A (zh) 2018-03-20

Similar Documents

Publication Publication Date Title
CN112202736B (zh) 基于统计学习和深度学习的通信网络异常分类方法
CN109343995A (zh) 基于多源异构数据融合、机器学习及客服机器人的智能运维分析***
CN102637019B (zh) 一种工业生产过程智能集成故障诊断方法及装置
CN105302096B (zh) 一种工厂智能调度方法
CN107818523B (zh) 基于非稳定频率分布与频率因子学习的电力通信***数据真值判别与推断方法
CN109255440B (zh) 基于递归神经网络(rnn)的对电力生产设备进行预测性维护的方法
CN117234785B (zh) 基于人工智能自查询的集控平台错误分析***
CN113746663B (zh) 机理数据双驱动结合的性能劣化故障根因定位方法
CN109492790A (zh) 基于神经网络与数据挖掘的风电机组健康管理方法
CN117393076B (zh) 耐热环氧树脂生产过程智能监测方法及***
CN115822887A (zh) 风电机组的性能评估与能效诊断方法及***
CN115145899B (zh) 一种基于制造企业数据空间的时空数据异常检测方法
WO2021168490A1 (en) Method for at least partially decentralized calculation of the state of health of at least one wind turbine
CN117390529A (zh) 多因素溯源的数据中台信息管理方法
CN115481726A (zh) 一种工业机器人整机健康评估方法及***
CN113740666B (zh) 一种数据中心电力***告警风暴根源故障的定位方法
CN117930815A (zh) 一种基于云平台的风电机组远程故障诊断方法及***
CN117419829A (zh) 过热故障的预警方法、装置和电子设备
CN117078123A (zh) 一种电-气综合能源***可用输电能力计算方法及***
CN112801815B (zh) 一种基于联邦学习的电力通信网络故障预警方法
Grebenyuk et al. Technological infrastructure management models and methods based on digital twins
Friederich et al. A Framework for Validating Data-Driven Discrete-Event Simulation Models of Cyber-Physical Production Systems
CN115983714A (zh) 边图神经网络电力***静态安全评估方法及***
Dagnely et al. A semantic model of events for integrating photovoltaic monitoring data
Yasenjiang et al. Fault Diagnosis and Prediction of Continuous Industrial Processes Based on Hidden Markov Model‐Bayesian Network Hybrid Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant