CN109472293A - 一种基于机器学习的电网设备档案数据纠错方法 - Google Patents

一种基于机器学习的电网设备档案数据纠错方法 Download PDF

Info

Publication number
CN109472293A
CN109472293A CN201811187606.5A CN201811187606A CN109472293A CN 109472293 A CN109472293 A CN 109472293A CN 201811187606 A CN201811187606 A CN 201811187606A CN 109472293 A CN109472293 A CN 109472293A
Authority
CN
China
Prior art keywords
data
training set
machine learning
feature vector
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811187606.5A
Other languages
English (en)
Inventor
龙婧
刘伟
徐文峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUBEI CENTRAL CHINA TECHNOLOGY DEVELOPMENT OF ELECTRIC POWER Co Ltd
State Grid Corp of China SGCC
Original Assignee
HUBEI CENTRAL CHINA TECHNOLOGY DEVELOPMENT OF ELECTRIC POWER Co Ltd
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUBEI CENTRAL CHINA TECHNOLOGY DEVELOPMENT OF ELECTRIC POWER Co Ltd, State Grid Corp of China SGCC filed Critical HUBEI CENTRAL CHINA TECHNOLOGY DEVELOPMENT OF ELECTRIC POWER Co Ltd
Priority to CN201811187606.5A priority Critical patent/CN109472293A/zh
Publication of CN109472293A publication Critical patent/CN109472293A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提供一种基于机器学习的电网设备档案数据纠错方法,对现有的大量数据进行处理、挖掘其中隐藏的规律,自动生成判断规则,基于这些规则对数据进行自动诊断,能够大大降低工作难度,可以为数据质量筛查、数据整改、数据治理提供一份重要的依据;本发明利用大数据技术开展数据治理,对大量数据中异常的自动诊断,并为数据的整改提供建议,能够减少数据校验工作对业务人员的强依赖性,对于完全无规则可提炼的分散型数据异常情况,也可以机器学习实现自动处理,避免人力筛查带来的复杂工作量,本发明利用大数据对数据异常问题进行归类分析,提供给数据产生方进行整改,能够从源头上降低数据问题,为数据源头整改提供参考。

Description

一种基于机器学习的电网设备档案数据纠错方法
技术领域
本发明涉及电网设备数据纠错领域,具体是一种基于机器学习的电网设备档案数据纠错方法。
背景技术
电网生产设备台帐数据是电网生产工作开展的基础,目前各类生产设备台帐数据均存存储在设备(资产)运维精益管理***(PMS2.0)***中,总数据量超过60G,涉及到200余种设备,例如:母线、架空线路、开关柜、电容器、变压器、电缆等。
基层班组人员负责对设备数据及时进行更新维护,现场设备运维、检修、检测、试验等各项生产工作均需以设备数据为基础,只有保证设备数据准确性,相关运维检修业务记录才能准确无误登记PMS2.0***中,为设备状态检修评价和资产全寿命周期管理提供重要依据,也是运维检修精益化管理的重要体现。另外,设备规模是人资定员定编、成本核算的重要依据,因此设备数据准确性尤为重要。
目前电网生产设备台帐数据存在不完整、不准确等问题。设备参数异常不仅影响设备本身档案的管理,同时直接影响到运维检修工作的开展,例如:
1.设备台账关键参数不完整。
2.设备台账数据与GIS图形数据不对应。
3.设备台账参数填写错误。
4.***中设备台帐数据与现场存在差异。
其中问题3、4无法通过提炼错误规则开发程序来进行错误数据筛查,目前采用人工手段进行核对,每100条数据往往需要投入3人·天的工作量。工作难度大,而且效果欠佳。这些数据问题直接影响日常运维检修工作,不能正常登记运维检修记录,同时也影响营配贯通、同期线损等工作的开展,另外,设备台帐数据异常将导致人资定员定编和运维成本的核算不准确。
发明内容
针对现有技术存在的上述不足,本发明提出一种基于机器学习的电网设备档案数据纠错方法,对现有的大量数据进行处理、挖掘其中隐藏的规律,自动生成判断规则,基于这些规则对数据进行自动诊断,能够大大降低工作难度,可以为数据质量筛查、数据整改、数据治理提供一份重要的依据。
一种基于机器学习的电网设备档案数据纠错方法,包括如下步骤:
第一步:数据抽取,获取训练集:将公司保存的所有电网设备档案数据作为历史数据导入数据库中,将数据库中的历史数据作为训练集F;
第二步:对训练集F进行特征提取,通过字符串拆分的方式得到特征数据集合S={s1,s2,s3,...,sn};
第三步:手动从特征数据集合S中挑选特征值选择作为特征向量S',S'={s'1,s'2,s'3…,s'm},其中
第四步:通过TF-IDF算法对特征向量S'加权,加权方式为特征向量中的特征值s'm在训练集F中出现的频率,记为Nm,在训练集中每条数据记录包含特征词s'm的频率为N'm,那么该特征词s'm的IDF值为
因此该特征词的权重ωm可以表示为ωm=Nm*IDF(s'm),通过这种方式对特征向量S'中的每一个特征词进行计算权重,得到权重向量ω;
第五步:通过第三步和第四步选中的特征向量和得到的特征向量的权重,对原始数据通过分布式K-Means算法进行聚类,最终将训练集F分为k个类;
第六步:针对第五步得到的聚类结果,人工验证聚类中的数据,将异常数据和误判数据选出,验证每个类中的数据误判的情况,得到数据验证的准确率,对所有的类中的准确率求取平均值,得到模型的准确率,然后判断模型准确率是否达到预期的阈值,如果没有则转到第三步,重新选择特征值、特征向量、确定权重,直到准确率达到预期的阈值;
第七步:模型确定后,在使用阶段将数据聚类,然后将每一类的
异常数据返回给用户,并且将正常数据推荐给用户,由用户参考修改。
进一步的,包括第八步:模型修正:在用户使用过程中,通过用户的反馈来修正模型的特征值和权重。
进一步的,第五步中聚类算法中k的值根据训练集的样本数量和所有类中的距离和为最小时的k的值确定的,距离计算采用欧式距离计算公式对训练集F中的两条记录i,j的距离进行计算,欧式距离计算公式为
本发明利用大数据技术开展数据治理,对大量数据中异常的自动诊断,并为数据的整改提供建议,能够减少数据校验工作对业务人员的强依赖性,对于完全无规则可提炼的分散型数据异常情况,也可以机器学习实现自动处理,避免人力筛查带来的复杂工作量,本发明利用大数据对数据异常问题进行归类分析,提供给数据产生方进行整改,能够从源头上降低数据问题,为数据源头整改提供参考。
附图说明
图1是本发明基于机器学习的电网设备档案数据纠错方法的流程示意图;
图2是聚类阶段的数据预处理流程示意图;
图3是K-means并行化运行流程示意图;
图4是通过分布式K-Means算法进行聚类时k值从20到1000的选取拟合图,图中横轴表示k值,纵轴表示损失函数值;
图5是采用分布式K-Means算法时某一类的聚类结果示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。
由于电网生产设备台帐数据以前都是人工整合收集处理的,在这些数据中难免会出现各种错误和误差,这些误差和错误数据会极大的影响现场设备运维、检修、检测、试验的有效性。因此将这些数据中的异常数据更改为正常数据是十分有必要的。但是由于数据量过于庞大,仅仅靠人工手动进行筛选纠错是非常困难的,所以,本发明采用基于Spark的分布式K-Means算法来对异常数据的自动处理和纠正,可大大减小工作量。
本发明实施例提供一种基于机器学习的电网设备档案数据纠错方法的流程示意图,该方法主要是进行异常数据诊断业务,其目标有两个:一是诊断出异常的数据;二是对异常数据提供整改建议。本发明从整体上来说包含三大步骤:数据抽取、模型构建、模型修正,整体流程如图1所示,所述方法主要包括如下步骤:
第一步:数据抽取,获取训练集:将公司保存的所有电网设备档案数据作为历史数据导入数据库中,将数据库中的历史数据作为训练集F;
第二步:对训练集F进行特征提取,通过字符串拆分的方式得到特征数据集合S={s1,s2,s3,...,sn};
第三步:手动从特征数据集合S中挑选特征值选择作为特征向量S',S'={s'1,s'2,s'3…,s'm},其中
第四步:通过TF-IDF算法对特征向量S'加权,加权方式为特征向量中的特征值s'm在训练集F中出现的频率,记为Nm,在训练集中每条数据记录包含特征词s'm的频率为N'm,那么该特征词s'm的IDF值为
因此该特征词的权重ωm可以表示为ωm=Nm*IDF(s'm),通过这种方式对特征向量S'中的每一个特征词进行计算权重,得到权重向量ω;
第五步:通过第三步和第四步选中的特征向量和得到的特征向量的权重,对原始数据通过分布式K-Means算法进行聚类,聚类的目的就是为了将同种设备(同种设备由于不同的人员记录,命名方式也不同,所以需要挑选特征)的同类属性值聚和为一类,方便挑选出异常数据。聚类算法中k的值根据训练集的样本数量和所有类中的距离和为最小时的k的值确定的,距离计算采用欧式距离计算公式对训练集F中的两条记录i,j的距离进行计算,欧式距离计算公式为
最终将训练集F分为k个类;
第六步:针对第五步得到的聚类结果,人工验证聚类中的数据,将异常数据和误判数据选出,验证每个类中的数据误判的情况,得到数据验证的准确率(数据分好类后,由于同种设备,相同属性的数据应该相差不会特别大,如果发现数据异常于整个类别中该属性数据的众数和均值,那么该数据就认定为异常数据),对所有的类中的准确率求取平均值,得到模型的准确率,然后判断模型准确率是否达到预期的阈值(例如90%),如果没有则转到第三步,重新选择特征值、特征向量、确定权重,直到准确率达到预期的阈值。
第七步:模型确定后,在使用阶段将数据聚类,然后将每一类的异常数据返回给用户,并且将正常数据推荐给用户,由用户参考修改;
第八步:模型修正
在用户使用过程中,通过用户的反馈来修正模型的特征值和权重。无论机器学习的学习任务采用的是何种算法,模型评估都是端到端机器学习流水线的一种环节。监控模型算法在生产环境下表现,客观评估模型准确度和诊断效果、客户体验、用户反馈等相关指标,通过调整模型及参数进而优化模型算法。
上述第五步中,在Spark集群中并行运行K-means算法可以分为2个阶段:数据预处理阶段和K-means聚类阶段。数据预处理阶段流程如图2所示。
在聚类阶段,经过预处理阶段后,数据集已经满足了聚类的要求,因此只要把预处理之后的结果使用K-means算法计算出k个聚类中心,该K个点就能作为整个数据集的k个聚类中心。聚类阶段并行化流程如图3所示:
下面以一个具体实例对本发明的技术方案进行详细说明:
问题描述:
在实际电网工作开展中,同一种设备往往大批量采购,批量使用,在***中应该以一定数量级存在,不可能只出现一次,而且同一种设备对应的特定属性值应该是一致的,在设备档案数据当中,型号作为识别该设备的唯一标识,可以根据型号来判断该设备特定属性的值是否正确。
表1实验样本数据表
Table 2 Sample data table
目前数据集中主要是以下问题:
1.型号填写不规范无法识别
基层班组人员负责对设备数据录入,由于每个基层班组人员按照自己习惯进行数据填写,导致同一种型号的设备在“型号”字段都呈现为不同。例如上表中S11-M-100/10、S11-100/10、S11-100、S11-100KVA其实是同一种设备,但是在数据库里面填写不一样,同一种型号可能有几十种填写方式。
2.同一种型号对应多种属性值
基层班组人员录入数据时时常填写错误,而数据使用人员不清楚现场设备的情况,这直接导致很多业务无法开展。目前数据库中往往同一种型号的设备的额定容量出现多种值。
具体实施:
1.特征值的提取
特征选择在机器学习中占有相当重要的地位。从“型号”字符串文本中提取特征,例如“型号”“S11-M-100/10”通过字符拆分可以提取为S、11、M、100、10共5个特征。这5种特征共呈种组合方式。在本实验中,通过反复测试并与真实对照,从这几个特征中筛选出无关或者冗余特征,将其去除后保留一个特征子集。
2.特征值的权重
由于在“型号”文本当中提取特征,每个特征对分类的贡献程度不一样,因此在运用这些特征前要进行加权。每个特征所占的权重值不能一概而论。在这里使用TF-IDF加权的方法,TF-IDF是一种统计方法,用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
3.k值的选取
对于k值的选取,我们基于业界常用的肘部法,定义一个函数,随着k的改变,认为在正确的k时会产生极值。即:给定一个合适的类簇指标,比如平均半径或直径,只要我们假设的类簇的数目等于或者高于真实的类簇的数目时,该指标上升会很缓慢,而一旦试图得到少于真实数目的类簇时,该指标会急剧上升。例如在本实验中,设置k∈(20,1000)从20开始,每次k值增加98,损失函数和k值关系曲线如图4所示。
根据聚类结果,结合业务对数据进行后续处理,由于“型号”能够唯一标识一种设备,而设备还具备很多其它的属性,例如“额定容量”、“电压等级”、“绝缘介质”等,同一种设备的属性值唯一。在这里以对“额定容量”进行纠错为例进行介绍,得出“正确数据”、“异常数据”、“错误数据”的纠错结果,对其中的错误数据、异常数据进行分析,提供修改建议,实现智能诊断。具体的分析过程如下所示:
(1)对聚类后的结果进行统计。在同一类数据中,基于正确的数据出现频次最多,错误数据属于少数的原则,认为“型号”和“额定容量”出现次数最多的组合为推荐的正确数据。
(2)“型号”和“额定容量”跟推荐的正确数据均不一致时,判断为错误数据。
(3)“型号”和“额定容量”跟推荐的正确数据某一项不一致时,判断为异常数据。“型号”和“额定容量”跟推荐的数据格式完全一致时,为正确数据。
聚类的效果实验图如图5所示。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (3)

1.一种基于机器学习的电网设备档案数据纠错方法,其特征在于包括如下步骤:
第一步:数据抽取,获取训练集:将公司保存的所有电网设备档案数据作为历史数据导入数据库中,将数据库中的历史数据作为训练集F;
第二步:对训练集F进行特征提取,通过字符串拆分的方式得到特征数据集合S={s1,s2,s3,...,sn};
第三步:手动从特征数据集合S中挑选特征值选择作为特征向量S',S'={s′1,s′2,s′3…,s′m},其中
第四步:通过TF-IDF算法对特征向量S'加权,加权方式为特征向量中的特征值s'm在训练集F中出现的频率,记为Nm,在训练集中每条数据记录包含特征词s'm的频率为N'm,那么该特征词s'm的IDF值为
因此该特征词的权重ωm可以表示为ωm=Nm*IDF(s'm),通过这种方式对特征向量S'中的每一个特征词进行计算权重,得到权重向量ω;
第五步:通过第三步和第四步选中的特征向量和得到的特征向量的权重,对原始数据通过分布式K-Means算法进行聚类,最终将训练集F分为k个类;
第六步:针对第五步得到的聚类结果,人工验证聚类中的数据,将异常数据和误判数据选出,验证每个类中的数据误判的情况,得到数据验证的准确率,对所有的类中的准确率求取平均值,得到模型的准确率,然后判断模型准确率是否达到预期的阈值,如果没有则转到第三步,重新选择特征值、特征向量、确定权重,直到准确率达到预期的阈值;
第七步:模型确定后,在使用阶段将数据聚类,然后将每一类的异常数据返回给用户,并且将正常数据推荐给用户,由用户参考修改。
2.如权利要求1所述的基于机器学习的电网设备档案数据纠错方法,其特征在于:还包括第八步:模型修正:在用户使用过程中,通过用户的反馈来修正模型的特征值和权重。
3.如权利要求1所述的基于机器学习的电网设备档案数据纠错方法,其特征在于:第五步中聚类算法中k的值根据训练集的样本数量和所有类中的距离和为最小时的k的值确定的,距离计算采用欧式距离计算公式对训练集F中的两条记录i,j的距离进行计算,欧式距离计算公式为
CN201811187606.5A 2018-10-12 2018-10-12 一种基于机器学习的电网设备档案数据纠错方法 Pending CN109472293A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811187606.5A CN109472293A (zh) 2018-10-12 2018-10-12 一种基于机器学习的电网设备档案数据纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811187606.5A CN109472293A (zh) 2018-10-12 2018-10-12 一种基于机器学习的电网设备档案数据纠错方法

Publications (1)

Publication Number Publication Date
CN109472293A true CN109472293A (zh) 2019-03-15

Family

ID=65663800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811187606.5A Pending CN109472293A (zh) 2018-10-12 2018-10-12 一种基于机器学习的电网设备档案数据纠错方法

Country Status (1)

Country Link
CN (1) CN109472293A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110189575A (zh) * 2019-06-27 2019-08-30 广东电网有限责任公司肇庆供电局 一种基于大数据的配网运维仿真培训***
CN110826605A (zh) * 2019-10-24 2020-02-21 北京明略软件***有限公司 一种跨平台识别用户的方法及装置
CN111123039A (zh) * 2019-12-31 2020-05-08 国网北京市电力公司 基于同期特征与改进K-means聚类的配电网异常线损诊断方法
CN111159169A (zh) * 2019-12-31 2020-05-15 中国联合网络通信集团有限公司 数据治理方法及设备
CN111625991A (zh) * 2020-05-20 2020-09-04 国网河北省电力有限公司电力科学研究院 一种低压配电网拓扑校验方法
CN114154561A (zh) * 2021-11-15 2022-03-08 国家电网有限公司 一种基于自然语言处理和随机森林的电力数据治理方法
EP3985569A1 (en) * 2020-10-16 2022-04-20 Fujitsu Limited Information processing program, information processing method, and information processing device
CN117910980A (zh) * 2024-03-19 2024-04-19 国网山东省电力公司信息通信公司 一种电力档案数据治理方法、***、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001825A (zh) * 2012-11-15 2013-03-27 中国科学院计算机网络信息中心 Dns流量异常的检测方法和***
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN106604267A (zh) * 2017-02-21 2017-04-26 重庆邮电大学 一种动态自适应的无线传感器网络入侵检测智能算法
CN106778259A (zh) * 2016-12-28 2017-05-31 北京明朝万达科技股份有限公司 一种基于大数据机器学习的异常行为发现方法及***
CN107426177A (zh) * 2017-06-13 2017-12-01 努比亚技术有限公司 一种用户行为聚类分析方法及终端、计算机可读存储介质
CN107679734A (zh) * 2017-09-27 2018-02-09 成都四方伟业软件股份有限公司 一种用于无标签数据分类预测的方法和***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001825A (zh) * 2012-11-15 2013-03-27 中国科学院计算机网络信息中心 Dns流量异常的检测方法和***
CN103810264A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于特征选择的网页文本分类方法
CN106778259A (zh) * 2016-12-28 2017-05-31 北京明朝万达科技股份有限公司 一种基于大数据机器学习的异常行为发现方法及***
CN106604267A (zh) * 2017-02-21 2017-04-26 重庆邮电大学 一种动态自适应的无线传感器网络入侵检测智能算法
CN107426177A (zh) * 2017-06-13 2017-12-01 努比亚技术有限公司 一种用户行为聚类分析方法及终端、计算机可读存储介质
CN107679734A (zh) * 2017-09-27 2018-02-09 成都四方伟业软件股份有限公司 一种用于无标签数据分类预测的方法和***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
李杰 等: "《CiteSpace科技文本挖掘及可视化》", 31 January 2016 *
许鑫: "《基于文本特征计算的信息分析方法》", 30 November 2015 *
赵杰: "《搜索引擎技术》", 30 November 2007 *
龙婧 等: "基于机器学习的电网设备档案数据异常诊断研究", 《电力信息与通信技术》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110189575A (zh) * 2019-06-27 2019-08-30 广东电网有限责任公司肇庆供电局 一种基于大数据的配网运维仿真培训***
CN110189575B (zh) * 2019-06-27 2021-01-05 广东电网有限责任公司肇庆供电局 一种基于大数据的配网运维仿真培训***
CN110826605A (zh) * 2019-10-24 2020-02-21 北京明略软件***有限公司 一种跨平台识别用户的方法及装置
CN111123039A (zh) * 2019-12-31 2020-05-08 国网北京市电力公司 基于同期特征与改进K-means聚类的配电网异常线损诊断方法
CN111159169A (zh) * 2019-12-31 2020-05-15 中国联合网络通信集团有限公司 数据治理方法及设备
CN111625991A (zh) * 2020-05-20 2020-09-04 国网河北省电力有限公司电力科学研究院 一种低压配电网拓扑校验方法
EP3985569A1 (en) * 2020-10-16 2022-04-20 Fujitsu Limited Information processing program, information processing method, and information processing device
CN114154561A (zh) * 2021-11-15 2022-03-08 国家电网有限公司 一种基于自然语言处理和随机森林的电力数据治理方法
CN114154561B (zh) * 2021-11-15 2024-02-27 国家电网有限公司 一种基于自然语言处理和随机森林的电力数据治理方法
CN117910980A (zh) * 2024-03-19 2024-04-19 国网山东省电力公司信息通信公司 一种电力档案数据治理方法、***、设备及介质
CN117910980B (zh) * 2024-03-19 2024-06-11 国网山东省电力公司信息通信公司 一种电力档案数据治理方法、***、设备及介质

Similar Documents

Publication Publication Date Title
CN109472293A (zh) 一种基于机器学习的电网设备档案数据纠错方法
CN112859822B (zh) 基于人工智能的设备健康分析及故障诊断的方法及***
CN107358366B (zh) 一种配电变压器故障风险监测方法及***
CN110929918B (zh) 一种基于CNN和LightGBM的10kV馈线故障预测方法
CN111460167A (zh) 基于知识图谱定位排污对象的方法及相关设备
CN106447210B (zh) 一种计及可信度评价的配网设备健康度动态诊断方法
CN107491381A (zh) 一种设备状态监测数据质量评测***
CN109061341A (zh) 基于神经网络的卡尔曼滤波变压器故障预测方法和***
CN107368957A (zh) 一种设备状态监测数据质量评测体系的构建方法
CN109544399B (zh) 基于多源异构数据的输电设备状态评价方法及装置
CN109858886B (zh) 一种基于集成学习的费控成功率提升分析方法
CN111199361A (zh) 基于模糊推理理论的电力信息***健康评估方法及***
CN110865924B (zh) 电力信息***内部服务器健康度诊断方法与健康诊断框架
CN109542742A (zh) 基于专家模型的数据库服务器硬件健康评估方法
CN112464995A (zh) 一种基于决策树算法的电网配变故障诊断方法及***
CN110297207A (zh) 智能电表的故障诊断方法、***及电子装置
CN109101483A (zh) 一种针对电力巡检文本的错误识别方法
CN110826228B (zh) 一种地区电网运行品质极限评估方法
CN112818008A (zh) 核电调试故障智能诊断的方法、***、介质及电子设备
CN110968703B (zh) 基于lstm端到端抽取算法的异常计量点知识库构建方法及***
CN115130578A (zh) 一种基于增量式粗糙聚类的配电设备状态在线评估方法
CN112560214A (zh) 变电站母线平衡故障诊断方法、***、设备及存储介质
CN113435759A (zh) 一种基于深度学习的一次设备风险智能评估方法
CN110378358A (zh) 一种配电网异构数据整合方法及***
CN111612149A (zh) 一种基于决策树的主网线路状态检测方法、***及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190315