CN117131464A - 一种电网数据的可用性评估方法及*** - Google Patents
一种电网数据的可用性评估方法及*** Download PDFInfo
- Publication number
- CN117131464A CN117131464A CN202311387218.2A CN202311387218A CN117131464A CN 117131464 A CN117131464 A CN 117131464A CN 202311387218 A CN202311387218 A CN 202311387218A CN 117131464 A CN117131464 A CN 117131464A
- Authority
- CN
- China
- Prior art keywords
- data
- reliability
- evaluation
- low
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 123
- 238000012795 verification Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims abstract description 30
- 239000012634 fragment Substances 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000013179 statistical model Methods 0.000 claims description 4
- 238000013441 quality evaluation Methods 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 abstract description 11
- 238000004364 calculation method Methods 0.000 abstract description 8
- 238000007726 management method Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种电网数据的可用性评估方法及***,方法包括:获取电网数据并构建出测试集和验证集;对测试集进行加密检测,将加密数据作为高可信度数据;对低可信度数据进行可信度评估,评估结果均符合预期的可调整为高可信度数据;将高可信度数据按照预设任务模型的需求整合成多个数据片段,并输入任务模型进行匹配,匹配度不符合预期的数据片段则在进行修改后重新进行匹配。本发明针对微观电网数据,从数据可信度和数据适配度两个方面进行数据可用性评估,在节省算力资源和降低计算量的前提下实现数据质量、数据来源、数据标准化程度、数据安全四个维度的数据筛查,完成电网数据可用性评估,得到可靠而有效的评估结果。
Description
技术领域
本发明涉及电网数据处理领域,特别涉及一种电网数据的可用性评估方法及***。
背景技术
智能电网作为一种新型电力技术是全球电力发展的主要方向,也是电力传输和转换中不可或缺的环节。其具有安全性高、经济性强以及可靠性等特征,同时在***运行的过程中能够有效降低隐藏在电力运输过程中的潜在风险。在电力信息化深入推进过程中,电力数据规模和数据种类日益增长,涌现出的庞大数据在一定程度上影响着整个电力***的数据传输和数据存储工作,并且威胁着电网的智能化建设。
电网数据涉及发、输、配、变、用全链条上的极多主体,包括电力从产生到用户的传输管理、调度平衡管理、远期规划、***保护、运维管理、市场交易等,各种与电力相关的生产活动往往都会与电网数据相关联。这些数据具体包括但不限于:智能电表和各种传感器数据、电网边缘的分布式能源(可再生能源、电动汽车等)数据、物联网IoT设备数据、变电站自动化数据、资产状况监测数据、配电网数据分析、植被管理数据、用户参与数据、能源预测和能源市场数据、地理空间信息***数据以及归档管理数据等。
电网数据具有以下特点:海量性:电力***的四通八达使得电网数据规模极为庞大,涉及发、输、配、变、用全链条上的众多主体和环节。多样性:电网数据类型多样,包括但不限于智能电表和各种传感器数据、电网边缘的分布式能源数据、物联网IoT设备数据等,而且各种数据之间可能存在复杂的关系。实时性:电网数据实时产生,要求进行实时处理和分析,以支持实时决策和操作。价值密度低:电网数据中存在大量无效和冗余信息,价值密度相对较低。
电网数据事关电力***的安全和稳定运行,对数据的可用性有很高的要求。而由于电网数据的海量性和复杂性,难以利用传统的数据评估模型对其进行数据处理和数据分析,也就无法得到有效的数据可用性评估结果。
发明内容
有鉴于此,本发明提出了一种电网数据的可用性评估方法及***,具体方案如下:
一种电网数据的可用性评估方法,包括如下:
获取不同电力设备运行过程中所产生的电网数据,并按照设备类型或数据类型对其聚类得到多组数据集,从每组数据集中依次随机挑选样本数据以构建出测试集和验证集;
结合数据特征和加密方式判定所述测试集中的每一数据是否为加密数据,并将加密数据作为高可信度数据、非加密数据作为低可信度数据;
结合该设备类型的历史数据对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据分别进行可信度评估,两次评估结果均符合预期的低可信度数据可调整为高可信度数据;
将所有高可信度数据以及与高可信度数据具备相同数据来源和数据格式的数据定义为可被信任的第一数据,按照预设任务模型的需求将所述第一数据整合成多个数据片段;
将各数据片段输入相应需求的任务模型进行匹配,并将匹配度符合预期的数据片段列入该任务模型在相应需求下的高可用性数据片段,而匹配度不符合预期的数据片段则在进行修改后重新进行匹配。
在一个具体实施例中,所述可信度评估包括:
将低可信度数据作为待评估数据并按照设备类型进行划分,通过分析历史数据计算各设备类型在过去出现不可信数据的概率得到评估概率;
若评估概率为0,则直接认定该设备类型对应的低可信度数据的评估结果符合预期,并将其调整为高可信度数据;
若评估概率大于0且小于预设阈值,则分别对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据进行包括数据质量、数据来源、数据格式、数据安全以及数据关联性在内的一或多个评估项进行评估,且任一评估项不合格即判定该数据的评估结果不符合预期;
若评估概率不小于预设阈值,则直接判定该设备类型对应的低可信度数据的评估结果不符合预期。
在一个具体实施例中,通过概率统计模型分析历史数据得到每一数据的常态阈值,所述常态阈值涉及电力设备正常运行时的数据范围;
若某一待评估数据不处于对应的常态阈值中,则判定该数据的数据质量评估不符合预期。
在一个具体实施例中,溯源数据产生的具体电力设备是否存在;
若存在,则依次在历史数据和预设设备列表中核查该数据所对应的电力设备是否合法,并在合法的情况下认定该数据的数据来源符合预期。
在一个具体实施例中,将仅与高可信度数据具有相同数据来源或数据格式的数据作为中可信度数据;
结合该设备类型的历史数据对中可信度数据或验证集中与所述中可信度数据具备相同数据来源和数据格式的数据进行可信度评估,评估结果符合预期的中可信度数据可调整为高可信度数据。
在一个具体实施例中,筛选出所有具备关联关系的待评估数据并按照关联关系划分为多个关联组;
若关联组中存在待评估数据之间不符合相应关联关系的,则判定该数据的数据关联关系评估不符合预期。
在一个具体实施例中,所述加密方式的判断流程包括:
预先获取电网数据中所涉及的所有加密算法;
通过分析数据经各种加密算法加密后的包括数据长度、数据字符和数据出现频率在内的数据特征,利用预设数据加密筛选工具基于所述数据特征进行加密数据的筛选。
在一个具体实施例中,在所述数据集中,按照时间维度依次分布有同一设备类型所生成的不同数据项;
通过分析每一数据项在时间维度上的分布密度设定相应的时间间隔;
基于相同的时间间隔、不同的时间起点随机挑选对应时间点下每一数据项中任意一或多个数据,得到测试集和验证集,使测试集和验证集中的数据在时间维度上交错分布。
一种电网数据的可用性评估***,包括如下:
预处理单元,用于获取不同电力设备运行过程中所产生的电网数据,并按照设备类型或数据类型对其聚类得到多组数据集,从每组数据集中依次随机挑选样本数据以构建出测试集和验证集;
加密检测单元,用于结合数据特征和加密方式判定所述测试集中的每一数据是否为加密数据,并将加密数据作为高可信度数据、非加密数据作为低可信度数据;
可信度调整单元,用于结合该设备类型的历史数据对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据分别进行可信度评估,两次评估结果均符合预期的低可信度数据可调整为高可信度数据;
数据整合单元,用于将所有高可信度数据以及与高可信度数据具备相同数据来源和数据格式的数据定义为可被信任的第一数据,按照预设任务模型的需求将所述第一数据整合成多个数据片段;
数据匹配单元,用于将各数据片段输入相应需求的任务模型进行匹配,并将匹配度符合预期的数据片段列入该任务模型在相应需求下的高可用性数据片段,而匹配度不符合预期的数据片段则在进行修改后重新进行匹配。
在一个具体实施例中,在所述可信度调整单元中,具体包括:
将低可信度数据作为待评估数据并按照设备类型进行划分,通过分析历史数据计算各设备类型在过去出现不可信数据的概率得到评估概率;
若评估概率为0,则直接认定该设备类型对应的低可信度数据的评估结果符合预期,并将其调整为高可信度数据;
若评估概率大于0且小于预设阈值,则分别对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据进行包括数据质量、数据来源、数据格式、数据安全以及数据关联性在内的一或多个评估项进行评估,且任一评估项不合格即判定该数据的评估结果不符合预期;
若评估概率不小于预设阈值,则直接判定该设备类型对应的低可信度数据的评估结果不符合预期。
有益效果:本发明提供了一种电网数据的可用性评估方法及***,针对微观电网数据,从数据可信度和数据适配度两个方面进行数据可用性评估,在节省算力资源和降低计算量的前提下实现数据质量、数据来源、数据标准化程度、数据安全四个维度的数据筛查,完成电网数据可用性评估,及时发现数据中可能存在的问题,得到可靠而有效的电网数据可用性评估结果,从而保障电网的稳定运行。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例的可用性评估方法流程示意图;
图2为本发明实施例的可用性评估方法原理示意图;
图3为本发明实施例的可用性评估***模块示意图。
附图标记:1-预处理单元;2-加密检测单元;3-可信度调整单元;4-数据整合单元;5-数据匹配单元。
具体实施方式
在下文中,将更全面地描述本发明公开的各种实施例。本发明公开可具有各种实施例,并且可在其中做出调整和改变。然而,应理解:不存在将本发明公开的各种实施例限于在此公开的特定实施例的意图,而是应将本发明公开理解为涵盖落入本发明公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。
本发明主要从可信度和匹配度两个方面来评估数据可用性。数据可信度是指数据在特定应用条件下中可被认为可靠、有效的程度。数据匹配度则是数据与任务需求模型所要求的数据形式之间的适配度,不同的任务需求模型往往需要特定的数据形态。
在本发明中,高可信度数据意味着数据的可信度较高,可直接对其进行适配度评估。而中可信度数据需要经过相对较轻的考核后才能转为高可信度数据。低可信度数据则要经过更为严格的考核才能转为高可信度数据。可简单的三等分以划分高中低,也可根据实际应用进行灵活设定。
在本发明公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本发明公开的各种实施例。如在此所使用,单数形式意在也包括复数形式,除非上下文清楚地另有指示。除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明公开的各种实施例中被清楚地限定。
实施例1
本发明实施例1公开了一种电网数据的可用性评估方法,从数据可信度和数据适配度两个方面评估电网数据的可用性,能够衡量电网数据的可靠性和完整性,为电力企业的运营决策提供科学依据。可用性评估方法流程如附图1所示,原理如附图2所示,具体方案如下:
一种电网数据的可用性评估方法,包括如下:
101、获取不同电力设备运行过程中所产生的电网数据,并按照设备类型或数据类型对其聚类得到多组数据集,从每组数据集中依次随机挑选样本数据以构建出测试集和验证集;
102、结合数据特征和加密方式判定测试集中的每一数据是否为加密数据,并将加密数据作为高可信度数据、非加密数据作为低可信度数据;
103、结合该设备类型的历史数据对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据分别进行可信度评估,两次评估结果均符合预期的低可信度数据可调整为高可信度数据;
104、将所有高可信度数据以及与高可信度数据具备相同数据来源和数据格式的数据定义为可被信任的第一数据,按照预设任务模型的需求将第一数据整合成多个数据片段;
105、将各数据片段输入相应需求的任务模型进行匹配,并将匹配度符合预期的数据片段列入该任务模型在相应需求下的高可用性数据片段,而匹配度不符合预期的数据片段则在进行修改后重新进行匹配。
其中,步骤102-103主要是针对电网数据的可信度进行评估,步骤104-105则是评估电网数据与任务模型的适配度。任务模型即可理解为需求方,需求方往往需要特定的数据格式。
本实施例从数据可信度和数据适配度两个方面进行数据可用性评估,数据可信度主要针对数据质量、数据来源和数据安全,而数据适配度主要针对数据标准化程度。换言之,本实施例从数据质量、数据来源、数据标准化程度、数据安全四个维度衡量电网数据的可用性。
数据可信度受到多种因素的影响,如数据质量、数据源、数据标准化程度、数据隐私和安全等。在数据分析和决策过程中,如果数据可信度高,则该数据对分析和决策的可靠性影响较大;反之,如果数据可信度低,则该数据对分析和决策的可靠性影响较小。在电力***中,通过对电力数据的实时监测和分析,可以获得电力设备的运行状态、电力市场的价格和需求等信息。这些信息对电力***的稳定运行和优化管理具有重要的意义。如果数据的处理和分析过程存在误差或异常,就会影响数据的可信度,从而对电力***的稳定运行和优化管理造成不良影响。
本实施例针对的电网数据聚焦于微观数据,仅仅局限于具体电力设备运行过程中所产生的数据,如变压器的电压和电流、各种传感器数据、电网中的计量数据等。这些数据涉及到电网的具体设备信息,种类繁杂,会持续产出并且极易出现异常数据,同时容易溯源到具体的生成设备。而电力企业的生产管理、资源管理、运营管理等管理数据,电力***的宏观数据,电力市场的价格、交易量、交易协议等电力交易数据,均不属于本实施例的电网数据。
得到电网数据后,需要按照电力设备的类型对其聚类得到多组数据集。设备类型划分的粒度需要根据数据规模和任务模型的需求具体设定。例如,数据规模较小的情况下,设备类型可以细化为发电机、变压器、断路器、隔离开关、电力电缆等直接参与电能的生产和分配的设备。而数据规模较大的情况下,设备类型也可以宽泛的划分成一次设备、二次设备、通信及控制***等大类设备。在某些情况下,甚至可以将描述同一特征的参数划为一类,即按照数据类型进行划分,如变压器的电压参数,长时间的记录会产生大量该类型的参数,可以将电压参数单独划为一类。
在本实施例中,每组数据集对应一种电力设备的类型,构建数据集的目的是为了从每一数据集中挑选样本数据,以构建出测试集和验证集。测试集和验证集中的数据均包括所有数据集中的样本数据,以便能够充分代表每一数据集。换言之,测试集的测试结果就代表了用户对各类型数据集的可信度。测试集的数量要多于验证集,以便增加对数据的研判。
具体地,在数据集中,按照时间维度依次分布有同一设备类型所生成的不同数据项;通过分析每一数据项在时间维度上的分布密度设定相应的时间间隔;基于相同的时间间隔、不同的时间起点随机挑选对应时间点下每一数据项中任意一或多个数据,得到测试集和验证集,使测试集和验证集中的数据在时间维度上交错分布,进一步提升测试集和验证集的代表性。
在实际应用中,电网中的遥测、遥信、遥控等数据,这些数据是电网运行和维护的关键信息,需要加密处理以防止被恶意攻击或篡改。电网中的计量数据、负荷数据、交易数据等,这些数据涉及到电网的经济运行和电力交易等方面,需要加密处理以保护数据的隐私和安全。智能电表和各种传感器数据、电网边缘的分布式能源数据等,这些数据涉及到电网的设备和资产信息,需要加密处理以防止数据泄露和未经授权的访问。而上述这些数据都涉及到具体电力设备的相关参数或是由具体装置检测出的参数。
本实施例首先通过判断数据是否加密来评估数据的可信度。在电网***中,需要加密的数据主要是涉及到电网的运行、维护、设备和管理等方面的关键和敏感信息。需要加密的数据往往安全性较高或是已经进行过一轮数据筛查,至少在数据的标准化程度能够得到保证。并且,加密数据本身就具备一定的数据价值,在一定程度上也能够反映数据的可用性。因此,本实施例直接将加密数据作为高可信度数据,无需进行后续的可信度评估。而非加密数据暂时作为低可信度数据,完成可信度评估后可调整为高可信度数据。在本实施例中,只有高可信度数据代表数据通过了可信度检测,才能进行后续的数据规格处理。
优选地,加密方式的判断流程包括:预先获取电网数据中所涉及的所有加密算法;通过分析数据经各种加密算法加密后的包括数据长度、数据字符和数据出现频率在内的数据特征,利用预设数据加密筛选工具基于数据特征进行加密数据的筛选。加密数据通常具有一些特定的数据特征,如数据长度较短、出现频率较低、数据结构较为复杂等。不同的加密算法,加密后的数据会呈现出不同的特征和规律。可以使用数据挖掘技术,如关联规则挖掘、聚类分析等,从大量数据中挖掘出加密数据的特征和规律,再借助如数据加密工具、数据脱敏工具等快速、高效地筛选出加密数据。
具体地,可信度评估包括:将低可信度数据作为待评估数据并按照设备类型进行划分,通过分析历史数据计算各设备类型在过去出现不可信数据的概率得到评估概率。某些设备类型容易出现错误数据,而某些重要的设备类型由于其数据的重要性,需要保证优异性能,因此要做好日常维护来保证设备正常运行,此类数据反而出错概率较小,数据的可信度自然高。本实施例从历史数据出发,研判出此类设备。若评估概率为0,则证明该类型设备未出过错,即使出错也是概率极小,直接认定该设备类型对应的低可信度数据的评估结果符合预期,并将其调整为高可信度数据;若评估概率大于0且小于预设阈值,则该类型设备的数据出现过部分错误,但出现错误的频率较低,但为避免预测错误需要对其进行可信度评估;此处的预设阈值实际应用中需要根据需求进行设定,一般不超过10%。超过10%意味着出错概率超过一成,尤其是在海量的电网数据中,一成的错误数据也是较多的。而对精度有特殊要求的可限制在5%甚至1%。分别对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据进行包括数据质量、数据来源、数据格式、数据安全以及数据关联性在内的一或多个评估项进行评估,且任一评估项不合格即判定该数据的评估结果不符合预期;若评估概率不小于预设阈值,则证明该类设备出错概率较大,直接判定该设备类型对应的低可信度数据的评估结果不符合预期,节省算力资源。
本实施例的可信度评估由一或多个评估项组成,涉及数据质量、数据来源、数据格式、数据安全以及数据关联性。数据质量是影响数据可信度的关键因素,包括数据的准确性、完整性、一致性、可靠性和可追溯性等方面。对于电力***运行数据,可以通过对比数据的历史记录、与其他数据源的适配度、数据传输的稳定性和可靠性等方面进行评估。数据来源也是评估数据可信度的重要因素,包括数据的提供者、数据采集的方法和手段、数据的处理方式等。对于电力***运行数据,可以通过了解数据来自哪个发电厂、哪个变电站、数据采集的设备和传感器是否正常工作等方面进行评估。据标准化程度是指数据是否符合统一的规范和标准,也是评估数据可信度的因素之一。对于电力***运行数据,可以通过比对数据的单位、量纲、数据的计算方法等方面进行评估。此外,数据可解释性是指数据的含义和背景是否清晰明了,也是评估数据可信度的因素之一。对于电力***运行数据,可以通过了解数据的含义、产生背景和影响因素等方面进行评估。
优选地,通过概率统计模型分析历史数据得到每一数据的常态阈值,常态阈值涉及电力设备正常运行时的数据范围。例如,某设备的电压常年维持在50-60V之间,则常态阈值就是50-60V。常态阈值反映的是设备正常运行时的数据状态;若某一待评估数据不处于对应的常态阈值中,则判定该数据的数据质量评估不符合预期。示例性的,概率统计模型包括贝叶斯模型、决策树模型和神经网络模型。
优选地,溯源数据产生的具体电力设备是否存在;若存在,则依次在历史数据和预设设备列表中核查该数据所对应的电力设备是否合法,并在合法的情况下认定该数据的数据来源符合预期。
优选地,筛选出所有具备关联关系的待评估数据并按照关联关系划分为多个关联组;若关联组中存在待评估数据之间不符合相应关联关系的,则判定该数据的数据关联关系评估不符合预期。可以采用关联规则挖掘,通过发现和评价数据集中项集之间的关系,进而评价数据项之间的可信程度。也可以采用主成分分析,通过线性变换将原始变量转换为新的变量,即主成分,这些主成分之间不相关,且方差依次递减。这种方法可以用来评估数据的重要性和可信度。
本实施例设置测试集和验证集的目的,便是借助同一数据组中数据项的相似性来评估数据的可信度,通过将高维数据降维到低维空间,可以帮助观察数据的分布和相似性,从而评估数据可信度,降低计算量。数据来源和数据格式就是数据项之间重要的相似属性。
数据来源即为数据所产生的电力设备,本质上是在衡量具体电力设备的可信度。高可信度数据对应的数据来源具备较高的可信度,与其具备相同数据来源的参数自然也就具备较高的可信度。例如,某些电力设备较为重要,需要频繁维护和检测,自然出错概率较小,关于该类设备的各项参数出错概率就会小。
数据格式不同于数据来源,主要是为甄别出如异常的数据,如数据类型本应该是整数却出现了字符串。本实施例对数据格式的要求较高,具体包括如下部分:1.数据类型:这是数据的基本属性,例如整数(int)、浮点数(float)、字符串(string)等。2.数据结构:数据结构描述了数据的组织和排列方式。例如,数组(array)、列表(list)、元组(tuple)等。3.数据长度:通常指数据的长度或大小,可以是一个固定的数值,也可以是可变的。例如,在处理音频或视频数据时,数据的长度可能会变化。4.数据精度:通常指数据的精确度或分辨率,例如一个数字的位数或小数点后的位数。5.数据格式:通常指数据的格式或样式,例如日期格式、货币格式等。6.数据编码:数据编码是用于将数据从一种形式转换为另一种形式的过程。例如,某些数据可能需要使用特定的字符编码或压缩算法进行编码。7.数据校验:通常指数据的校验和或哈希值等,用于检查数据的完整性或一致性。
优选地,将仅与高可信度数据具有相同数据来源或数据格式的数据作为中可信度数据;结合该设备类型的历史数据对中可信度数据或验证集中与中可信度数据具备相同数据来源和数据格式的数据进行可信度评估,评估结果符合预期的中可信度数据可调整为高可信度数据。在本实施例中,与高可信度数据具有相同数据来源和数据格式的数据可作为高可信度数据,与高可信度数据具有相同数据来源或数据格式的数据可作为中可信度数据,与低可信度数据具备相同数据来源和/或数据格式的数据可作为低可信度数据。中可信度数据只需进行一次可信度评估,要么对测试集中的中可信度数据进行验证,要么对验证集中的中可信度数据进行验证,评估结果符合预期即可调整为高可信度数据,以减小计算量。而低可信度数据需要进行两次信度评估,既要对测试集中的中可信度数据进行验证,也要对验证集中的中可信度数据进行验证,两次评估均合格才能调整为高可信度数据,以提升数据预测的准确性。
数据适配度主要是维护数据与任务模型之间的兼容性和适合程度,需要结合业务需求和实际情况,综合考虑数据的规模、质量、特征和模型选择等因素进行考量。在本实施例中,需要对高可信度数据先进行清洗、过滤、去重、归一化、标准化等数据预处理,以去除杂质、消除噪声、统一尺度等。经过前述的可信度评估,数据已经被打散,需要根据模型的需求对数据进行整合,得到数据片段,再以数据片段为单位去匹配任务模型。将匹配度符合预期的数据片段列入该任务模型在相应需求下的高可用性数据片段,而匹配度不符合预期的数据片段则在进行修改后重新进行匹配,如需要检查数据中各种特征的分布、类型、取值范围、相互关系等,以及是否存在特征缺失、特征离散化等问题。
本实施例提供了一种电网数据的可用性评估方法,针对微观电网数据,从数据可信度和数据适配度两个方面进行数据可用性评估,在节省算力资源和降低计算量的前提下实现数据质量、数据来源、数据标准化程度、数据安全四个维度的数据筛查,完成电网数据可用性评估,及时发现数据中可能存在的问题,得到可靠而有效的电网数据可用性评估结果,从而保障电网的稳定运行。
实施例2
本发明实施例2公开了一种电网数据的可用性评估***,将实施例1的一种电网数据的可用性评估方法***化,***的具体结构如说明书附图3所示,具体方案如下:
一种电网数据的可用性评估***,包括如下:
预处理单元1,用于获取不同电力设备运行过程中所产生的电网数据,并按照设备类型或数据类型对其聚类得到多组数据集,从每组数据集中依次随机挑选样本数据以构建出测试集和验证集;
加密检测单元2,用于结合数据特征和加密方式判定测试集中的每一数据是否为加密数据,并将加密数据作为高可信度数据、非加密数据作为低可信度数据;
可信度调整单元3,用于结合该设备类型的历史数据对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据分别进行可信度评估,两次评估结果均符合预期的低可信度数据可调整为高可信度数据;
数据整合单元4,用于将所有高可信度数据以及与高可信度数据具备相同数据来源和数据格式的数据定义为可被信任的第一数据,按照预设任务模型的需求将第一数据整合成多个数据片段;
数据匹配单元5,用于将各数据片段输入相应需求的任务模型进行匹配,并将匹配度符合预期的数据片段列入该任务模型在相应需求下的高可用性数据片段,而匹配度不符合预期的数据片段则在进行修改后重新进行匹配。
在可信度调整单元3中,具体包括:将低可信度数据作为待评估数据并按照设备类型进行划分,通过分析历史数据计算各设备类型在过去出现不可信数据的概率得到评估概率;若评估概率为0,则直接认定该设备类型对应的低可信度数据的评估结果符合预期,并将其调整为高可信度数据;若评估概率大于0且小于预设阈值,则分别对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据进行包括数据质量、数据来源、数据格式、数据安全以及数据关联性在内的一或多个评估项进行评估,且任一评估项不合格即判定该数据的评估结果不符合预期;若评估概率不小于预设阈值,则直接判定该设备类型对应的低可信度数据的评估结果不符合预期。
本发明提出了一种电网数据的可用性评估方法及***,针对微观电网数据,从数据可信度和数据适配度两个方面进行数据可用性评估,在节省算力资源和降低计算量的前提下实现数据质量、数据来源、数据标准化程度、数据安全四个维度的数据筛查,完成电网数据可用性评估,及时发现数据中可能存在的问题,得到可靠而有效的电网数据可用性评估结果,从而保障电网的稳定运行。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。上述本发明序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (10)
1.一种电网数据的可用性评估方法,其特征在于,包括如下:
获取不同电力设备运行过程中所产生的电网数据,并按照设备类型或数据类型对其聚类得到多组数据集,从每组数据集中依次随机挑选样本数据以构建出测试集和验证集;
结合数据特征和加密方式判定所述测试集中的每一数据是否为加密数据,并将加密数据作为高可信度数据、非加密数据作为低可信度数据;
结合该设备类型的历史数据对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据分别进行可信度评估,两次评估结果均符合预期的低可信度数据可调整为高可信度数据;
将所有高可信度数据以及与高可信度数据具备相同数据来源和数据格式的数据定义为可被信任的第一数据,按照预设任务模型的需求将所述第一数据整合成多个数据片段;
将各数据片段输入相应需求的任务模型进行匹配,并将匹配度符合预期的数据片段列入该任务模型在相应需求下的高可用性数据片段,而匹配度不符合预期的数据片段则在进行修改后重新进行匹配。
2.根据权利要求1所述的可用性评估方法,其特征在于,所述可信度评估包括:
将低可信度数据作为待评估数据并按照设备类型进行划分,通过分析历史数据计算各设备类型在过去出现不可信数据的概率得到评估概率;
若评估概率为0,则直接认定该设备类型对应的低可信度数据的评估结果符合预期,并将其调整为高可信度数据;
若评估概率大于0且小于预设阈值,则分别对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据进行包括数据质量、数据来源、数据格式、数据安全以及数据关联性在内的一或多个评估项进行评估,且任一评估项不合格即判定该数据的评估结果不符合预期;
若评估概率不小于预设阈值,则直接判定该设备类型对应的低可信度数据的评估结果不符合预期。
3.根据权利要求2所述的可用性评估方法,其特征在于,通过概率统计模型分析历史数据得到每一数据的常态阈值,所述常态阈值涉及电力设备正常运行时的数据范围;
若某一待评估数据不处于对应的常态阈值中,则判定该数据的数据质量评估不符合预期。
4.根据权利要求2所述的可用性评估方法,其特征在于,溯源数据产生的具体电力设备是否存在;
若存在,则依次在历史数据和预设设备列表中核查该数据所对应的电力设备是否合法,并在合法的情况下认定该数据的数据来源符合预期。
5.根据权利要求2所述的可用性评估方法,其特征在于,将仅与高可信度数据具有相同数据来源或数据格式的数据作为中可信度数据;
结合该设备类型的历史数据对中可信度数据或验证集中与所述中可信度数据具备相同数据来源和数据格式的数据进行可信度评估,评估结果符合预期的中可信度数据可调整为高可信度数据。
6.根据权利要求2所述的可用性评估方法,其特征在于,筛选出所有具备关联关系的待评估数据并按照关联关系划分为多个关联组;
若关联组中存在待评估数据之间不符合相应关联关系的,则判定该数据的数据关联关系评估不符合预期。
7.根据权利要求1所述的可用性评估方法,其特征在于,所述加密方式的判断流程包括:
预先获取电网数据中所涉及的所有加密算法;
通过分析数据经各种加密算法加密后的包括数据长度、数据字符和数据出现频率在内的数据特征,利用预设数据加密筛选工具基于所述数据特征进行加密数据的筛选。
8.根据权利要求1所述的可用性评估方法,其特征在于,在所述数据集中,按照时间维度依次分布有同一设备类型所生成的不同数据项;
通过分析每一数据项在时间维度上的分布密度设定相应的时间间隔;
基于相同的时间间隔、不同的时间起点随机挑选对应时间点下每一数据项中任意一或多个数据,得到测试集和验证集,使测试集和验证集中的数据在时间维度上交错分布。
9.一种电网数据的可用性评估***,其特征在于,包括如下:
预处理单元,用于获取不同电力设备运行过程中所产生的电网数据,并按照设备类型或数据类型对其聚类得到多组数据集,从每组数据集中依次随机挑选样本数据以构建出测试集和验证集;
加密检测单元,用于结合数据特征和加密方式判定所述测试集中的每一数据是否为加密数据,并将加密数据作为高可信度数据、非加密数据作为低可信度数据;
可信度调整单元,用于结合该设备类型的历史数据对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据分别进行可信度评估,两次评估结果均符合预期的低可信度数据可调整为高可信度数据;
数据整合单元,用于将所有高可信度数据以及与高可信度数据具备相同数据来源和数据格式的数据定义为可被信任的第一数据,按照预设任务模型的需求将所述第一数据整合成多个数据片段;
数据匹配单元,用于将各数据片段输入相应需求的任务模型进行匹配,并将匹配度符合预期的数据片段列入该任务模型在相应需求下的高可用性数据片段,而匹配度不符合预期的数据片段则在进行修改后重新进行匹配。
10.根据权利要求9所述的可用性评估***,其特征在于,在所述可信度调整单元中,具体包括:
将低可信度数据作为待评估数据并按照设备类型进行划分,通过分析历史数据计算各设备类型在过去出现不可信数据的概率得到评估概率;
若评估概率为0,则直接认定该设备类型对应的低可信度数据的评估结果符合预期,并将其调整为高可信度数据;
若评估概率大于0且小于预设阈值,则分别对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据进行包括数据质量、数据来源、数据格式、数据安全以及数据关联性在内的一或多个评估项进行评估,且任一评估项不合格即判定该数据的评估结果不符合预期;
若评估概率不小于预设阈值,则直接判定该设备类型对应的低可信度数据的评估结果不符合预期。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311387218.2A CN117131464B (zh) | 2023-10-25 | 2023-10-25 | 一种电网数据的可用性评估方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311387218.2A CN117131464B (zh) | 2023-10-25 | 2023-10-25 | 一种电网数据的可用性评估方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117131464A true CN117131464A (zh) | 2023-11-28 |
CN117131464B CN117131464B (zh) | 2024-01-09 |
Family
ID=88856756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311387218.2A Active CN117131464B (zh) | 2023-10-25 | 2023-10-25 | 一种电网数据的可用性评估方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117131464B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915514A (zh) * | 2012-10-31 | 2013-02-06 | 清华大学 | 基于半不变量法的电力***状态估计可信度评估方法 |
CN106447210A (zh) * | 2016-10-10 | 2017-02-22 | 国家电网公司 | 一种计及可信度评价的配网设备健康度动态诊断方法 |
CN108446861A (zh) * | 2018-03-28 | 2018-08-24 | 南方电网科学研究院有限责任公司 | 基于有向图排序的电力调度***多源数据质量评价方法 |
EP3422262A1 (en) * | 2017-06-30 | 2019-01-02 | Royal Holloway And Bedford New College | Method of monitoring the performance of a machine learning algorithm |
CN111292020A (zh) * | 2020-03-13 | 2020-06-16 | 贵州电网有限责任公司 | 一种基于随机森林的电网实时运行风险评估方法及*** |
WO2020237729A1 (zh) * | 2019-05-31 | 2020-12-03 | 东北大学 | 一种基于模式转移的虚拟机混合备用动态可靠性评估方法 |
CN112069727A (zh) * | 2020-08-20 | 2020-12-11 | 国网河南省电力公司经济技术研究院 | 具备高可信度的电力***暂态稳定智能化评估***及方法 |
CN113282588A (zh) * | 2021-06-11 | 2021-08-20 | 亿景智联(北京)科技有限公司 | 一种评估时空数据质量的方法与装置 |
CN115659214A (zh) * | 2022-10-09 | 2023-01-31 | 中能融合智慧科技有限公司 | 一种基于PaaS平台的能源行业数据可信评价方法 |
CN115794795A (zh) * | 2022-12-08 | 2023-03-14 | 湖北华中电力科技开发有限责任公司 | 一种配电台区用电数据规范化清洗方法、装置、***及存储介质 |
US20230170694A1 (en) * | 2021-11-29 | 2023-06-01 | Prabuddha Banerjee | System and method for evaluating reliability of an electrical network |
KR20230087097A (ko) * | 2021-12-09 | 2023-06-16 | 주식회사 카카오뱅크 | 2단계의 로지스틱 회귀분석을 이용한 신용평가모델 운영 방법 |
-
2023
- 2023-10-25 CN CN202311387218.2A patent/CN117131464B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915514A (zh) * | 2012-10-31 | 2013-02-06 | 清华大学 | 基于半不变量法的电力***状态估计可信度评估方法 |
CN106447210A (zh) * | 2016-10-10 | 2017-02-22 | 国家电网公司 | 一种计及可信度评价的配网设备健康度动态诊断方法 |
EP3422262A1 (en) * | 2017-06-30 | 2019-01-02 | Royal Holloway And Bedford New College | Method of monitoring the performance of a machine learning algorithm |
CN108446861A (zh) * | 2018-03-28 | 2018-08-24 | 南方电网科学研究院有限责任公司 | 基于有向图排序的电力调度***多源数据质量评价方法 |
WO2020237729A1 (zh) * | 2019-05-31 | 2020-12-03 | 东北大学 | 一种基于模式转移的虚拟机混合备用动态可靠性评估方法 |
CN111292020A (zh) * | 2020-03-13 | 2020-06-16 | 贵州电网有限责任公司 | 一种基于随机森林的电网实时运行风险评估方法及*** |
CN112069727A (zh) * | 2020-08-20 | 2020-12-11 | 国网河南省电力公司经济技术研究院 | 具备高可信度的电力***暂态稳定智能化评估***及方法 |
CN113282588A (zh) * | 2021-06-11 | 2021-08-20 | 亿景智联(北京)科技有限公司 | 一种评估时空数据质量的方法与装置 |
US20230170694A1 (en) * | 2021-11-29 | 2023-06-01 | Prabuddha Banerjee | System and method for evaluating reliability of an electrical network |
KR20230087097A (ko) * | 2021-12-09 | 2023-06-16 | 주식회사 카카오뱅크 | 2단계의 로지스틱 회귀분석을 이용한 신용평가모델 운영 방법 |
CN115659214A (zh) * | 2022-10-09 | 2023-01-31 | 中能融合智慧科技有限公司 | 一种基于PaaS平台的能源行业数据可信评价方法 |
CN115794795A (zh) * | 2022-12-08 | 2023-03-14 | 湖北华中电力科技开发有限责任公司 | 一种配电台区用电数据规范化清洗方法、装置、***及存储介质 |
Non-Patent Citations (3)
Title |
---|
王平;程齐凯;: "网络信息可信度评估的研究进展及述评", 信息资源管理学报, no. 01, pages 48 - 54 * |
程晓荣;李天琦;: "电网数据可信性度量模型研究", 华北电力大学学报(自然科学版), no. 02, pages 87 - 94 * |
陈钦柱;符传福;韩来君;: "智能电网大数据分析与决策***的研究", 电子设计工程, no. 06, pages 36 - 40 * |
Also Published As
Publication number | Publication date |
---|---|
CN117131464B (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Faisal et al. | Data-stream-based intrusion detection system for advanced metering infrastructure in smart grid: A feasibility study | |
Krishna et al. | Evaluating detectors on optimal attack vectors that enable electricity theft and DER fraud | |
Bagheri et al. | Distributionally robust reliability assessment for transmission system hardening plan under $ Nk $ security criterion | |
Maamar et al. | Machine learning techniques for energy theft detection in AMI | |
CN113189451A (zh) | 配电网故障定位研判方法、***、计算机设备和存储介质 | |
Zhang et al. | Anomaly detection based on random matrix theory for industrial power systems | |
Althobaiti et al. | Energy theft in smart grids: a survey on data-driven attack strategies and detection methods | |
CN112487042A (zh) | 电能计量数据处理方法、装置、计算机设备和存储介质 | |
Mi et al. | A method of entropy weight quantitative risk assessment for the safety and security integration of a typical industrial control system | |
Sundararajan et al. | A tri-modular framework to minimize smart grid cyber-attack cognitive gap in utility control centers | |
CN117131464B (zh) | 一种电网数据的可用性评估方法及*** | |
CN115176254A (zh) | 确保机器学习模型结果可以被审计的***和方法 | |
Ezeme et al. | An imputation-based augmented anomaly detection from large traces of operating system events | |
Ausmus et al. | Big data analytics and the electric utility industry | |
CN112463853A (zh) | 通过云平台进行财务数据行为筛选工作方法 | |
CN117992861B (zh) | 一种电力数据精准度稽查方法及*** | |
Paeizi et al. | Data Analytics Applications in Digital Energy System Operation | |
Ramirez et al. | Motif analysis in internet of the things platform for wind turbine maintenance management | |
Mhmood et al. | Detection of cyber-attacks on smart grids using improved VGG19 deep neural network architecture and Aquila optimizer algorithm | |
CN117574436B (zh) | 一种基于张量的大数据隐私安全防护方法 | |
Jneid | Cluster Analysis for Medium Voltage Distribution Feeders | |
Wang et al. | A Management Specification for Data Sharing Security in the System Construction of Smart Mine | |
Alnaftchi et al. | Design of electricity theft detection system based on supervised learning | |
Guato Burgos et al. | Review of Smart Grid Failure Prediction and the Need for its Study in STEM Careers | |
Jiang et al. | Data Screening Algorithm of Power Grid Security Hidden Danger Based on Edge Computing. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |