CN114638558A - 一种综合能源***运行事故分析的数据集分类方法 - Google Patents

一种综合能源***运行事故分析的数据集分类方法 Download PDF

Info

Publication number
CN114638558A
CN114638558A CN202210540826.1A CN202210540826A CN114638558A CN 114638558 A CN114638558 A CN 114638558A CN 202210540826 A CN202210540826 A CN 202210540826A CN 114638558 A CN114638558 A CN 114638558A
Authority
CN
China
Prior art keywords
data set
data
new
long
energy system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210540826.1A
Other languages
English (en)
Other versions
CN114638558B (zh
Inventor
***
胡浩瀚
赵峰
李温静
***
郭正雄
闫松
董建强
佘文魁
朱传晶
纪元
戴彬
刘晓静
张来东
彭晓武
田永茂
张雪成
倪升亚
李琳
张健
韩永跃
任承欢
张瑞超
强凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Richsoft Electric Power Information Technology Co ltd
State Grid Information and Telecommunication Co Ltd
Original Assignee
Tianjin Richsoft Electric Power Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Richsoft Electric Power Information Technology Co ltd filed Critical Tianjin Richsoft Electric Power Information Technology Co ltd
Priority to CN202210540826.1A priority Critical patent/CN114638558B/zh
Publication of CN114638558A publication Critical patent/CN114638558A/zh
Application granted granted Critical
Publication of CN114638558B publication Critical patent/CN114638558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/80Management or planning
    • Y02P90/82Energy audits or management systems therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Educational Administration (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本申请提供的综合能源***运行事故原因分析的数据集分类方法,通过对长数据集进行筛选,建立经典BOW模型针对令牌列表训练,输出令牌特征列表ST,然后再将原始数据集缩短为长度为300的新的数据集,该新的数据集中涵盖了大部分的原始数据集的重要信息,采用新的数据集带入卷积神经网络模型进行分类;此方法解决了长数据集分类模型不适用的问题,同时,也使得计算量有了一定的减小,即达到了准确率和计算效率的平衡。

Description

一种综合能源***运行事故分析的数据集分类方法
技术领域
本发明属于综合能源***数据处理分析领域,尤其涉及一种综合能源***运行事故分析的数据集分类方法。
背景技术
随着科学技术的不断发展,我国的智能物联网也在飞速发展,自动化和信息***的应用为综合能源***故障的分析和控制提供了新的技术手段,使能源网络逐步进入大数据时代。随着能源网络自动化和供需消耗信息采集***的推广应用,使自动化和信息化水平不断提高,综合能源***正朝着自动化、智能化方向发展,因此,对智能能源网络的建设也提出了更高的要求。目前,各大能源企业已开始搭建企业级数据集成平台,实现了核心业务***全覆盖。随着信息技术和存储介质的飞速发展,数据量和数据范围的不断扩大,人们接触的数据集信息逐渐增多,企业管理层渴望从这些海量数据中快速获取有用的信息。传统技术已经无法满足现代管理的需要,人工处理数据集信息需要花费越来越多的时间和精力。因此,信息挖掘技术的研究变得越来越重要, 随着能源网络规模的不断扩大,当能源网络设备发生故障时,会向能源网络调度中心发送大量的故障信息数据。如何从海量故障数据中提取有价值的信息并及时发现知识是一个亟待解决的问题。
现有技术中在也存在通过数学模型实现能源数据自动分类的方案,例如,中国发明专利(CN105824945A)公开了一种全球能源互联网技术资源数据收集方法,其通过针对目标URL,采用基于自然语言处理的抽取模型,自动进行文本信息的抽取;将抽取得到的数据储存在本地硬盘中,然后根据基于朴素贝叶斯的文本分类技术对数据进行自动分类。该专利文献虽然相对于人工数据分类可以提高效率和准确率,其并不适用于长数据集的分类,但是,由于能源网络具有分部地域范围广且链接大量的智能设备的特点,一次运行事故往往会收集到大量的故障原因分析的数据集,有时候一次事故的数据集能超过几百个甚至上千个字符,针对这种长数据集,如果采用现有技术中常用的贝叶斯模型、卷积神经网络或者自注意力模型等往往会造成极高的计算成本,因此,现有技术急需一种针对能源网络长数据集分类时有较高准确率同时保持较低的计算成本的技术方案。
发明内容
本发明要解决的技术问题是针对上述技术方案的不足,提供一种综合能源***运行事故分析的数据集分类方法,通过对长数据集进行筛选,建立经典BOW模型并结合原始文本语料库针对令牌列表训练,输出令牌特征列表ST,然后再将原始数据集缩短为长度为300的新的数据集,该新的数据集中涵盖了大部分的原始数据集的重要信息,采用新的数据集带入卷积神经网络模型进行分类,解决了长数据集分类模型不适用的问题。
步骤1:获取综合能源***运行事故原因数据集;本文获取了大量的能源监控设备故障原因,以某能源公司为例,通过分析收集到的故障数据集,筛选出字符超过300的长数据集;
步骤2:对所述长数据集进行多维预处理,得到预处理后的长数据集;所述预处理包括:(1)、对所述数据集进行标准化处理,删除标点符号、特殊符号和一些无意义的常用词,因为它们不利于***分析和预测数据集的内容,反而会增加计算复杂度,去除数据集中空缺值、数据异常值和重复值,数据空缺值的处理是根据原始数据的特点,在原始数据中寻找缺失值,消除或补充缺失值,对于一些不重要的空缺值,采用相邻数据填充的方法进行补充。过滤掉无法分类的数据,比如缺少重要字段的样本数据。数据异常值分析就是制定相应的规则来消除或替换不合理和错误的数据。数据重复值分析是对不同数据样本的不同字段进行比较,剔除重复数据;(2)、对所述数据集进行简化,对所述数据集可以通过数据规范方法进行简化,包括维度规范和数值规范。维度规范可以通过主成分分析和相关分析来减少变量以获得原始数据的简化或压缩表示;(3)、对所述数据集中的异常数据进行判断并剔除出所述数据集,经过数据集标准化和数据集简化后,一般的,能源网络故障原因数据中仍存在不合理数据、重复数据等异常数据信息,与同一数据集中的大部分数据存在较大差异,称为异常样本数据。该异常样本数据会直接影响模型的计算精度,导致较大误差的出现,因此,本实施例采用异常值诊断技术来查找和剔除所述异常值数据;
步骤3:建立经典BOW模型,并针对所述步骤2得到的长数据集进行训练,获得所述长数据集的特征列表,通过梯度增强分类器对所述特征列表训练,获得梯度提升分类器识别的特征重要性,对所述特征重要性从最高值开始进行排序,得到具有N个重要特征的令牌特征列表ST;
步骤4:从所述步骤2得到的所述长数据集选择任意两部分数据作为part1和part2,将part1存储为新数据集Set_new的开头,将part2存储为新数据集Set_new的末尾,且,Part1+ Part2 ≪ 1,并从所述长数据集中删除所述两部分数据,且使原始得所述长数据集中的剩余部分 Part3=1- (Part1+ Part2) 在原始的长数据集中保持合理的比例;
步骤5:通过迭代判别的方式将part3中的重要特征并入到所述新数据集Set_new中;具体地,迭代所述步骤3中的令牌特征列表ST,从先前确定的第一个重要的标记开始,在原始数据集中搜索此标记。如果没有找到,则选择下一个重要的特征,并再次搜索;如果所选标记存在于原始数据集中,选择此标记及其前后的标记邻居,将所述该标记以及所述该标记的标记邻居添加到所述新的数据集Set_new;
步骤6:设定所述新数据set_new字符数为300,重复所述步骤5,直至填满所述新的数据集Set_new;
步骤7:重复所述步骤1-6,对所有的长数据集进行处理,采用卷积神经网络对所述步骤6最终得到的新的数据集以及步骤1中未被筛选出的短数据集进行分类;卷积神经网络是神经网络中的一种,在分类任务中具有效率高、训练简单、速度快等优点,适用于处理短长度数据集。结合能源网络设备故障数据集的特殊性,本文选择卷积神经网络对数据集进行分类,卷积神经网络是一种用卷积运算代替矩阵乘法的神经网络,它通过多次翻转、滑动、叠加来提取特征,卷积神经网络最早被应用在计算机视觉领域中。在对图像识别的过程中,面对海量的图像数据,可以充分利用卷积神经网络对数据不断降维,最终保留下里面的主要特征。随着研究的不断深入,近些年卷积神经网络还被广泛应用到自然语言处理任务中,卷积神经网络网络主要由卷积层、池化层和输出层组成。卷积层作为网络的感知器,用来对输入数据进行特征提取。而特征提取得到大量信息,需要池化层对信息进一步筛选和压缩,保留下有效信息。在池化层与输出层之间一般通过全连接层进行连接,全连接层等价于传统前馈神经网络的隐藏层。最后的输出层则是实现预测的输出。本实施例卷积神经网络模型主要使用了一维卷积层和时序最大池化层,其具体结构如图2所示。
更进一步地,所述步骤7具体包括以下子步骤:步骤7.1:将所述步骤6得到的新的数据集Set_new或者所述短数据集转换成转换为词向量矩阵,如果词的数量是n,词向量的维数是k,那么这个矩阵的大小是n×k;步骤7.2:将所述词向量矩阵作为所述卷积神经网络模型的输入端,用于提取数据特征;步骤7.3:通过所述卷积神经网络模型对步骤7.2提取的特征进行特征融合操作,通过模型中的卷积层获得多个特征图谱,然后通过池化层进行特征压缩,简化网络计算的复杂度,提取出主要特征;其中,所述池化层为选择 max pooling函数以获得最重要的特征;最后通过拼接层和输出层输出所述卷积神经网络模型获得得到多个不同类别的数据集;步骤7.4:通过softmax分类器计算所述每个类别下的数据集概率,得到最终的分类结果。
基于上述技术方案,本申请提供的综合能源***运行事故原因分析的数据集分类方法,具有如下技术效果:
本申请提供的综合能源***运行事故原因分析的数据集分类方法,通过对长数据集进行处理,建立经典BOW模型针对每一个长数据集进行训练,获得一个特征列表,通过梯度增强分类器对所述特征列表训练,获得梯度提升分类器识别的特征重要性,根据所述特征重要性对机器学***衡。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的综合能源***运行事故分析的数据集分类方法流程图;
图2为本申请实施例提供的卷积神经网络结构图;
图3为本申请实施例提供的长数据集处理过程。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围,下面首先结合附图对本申请所涉及的概念进行说明。在此需要指出的是,以下对各个概念的说明,仅为了使本申请的内容更加容易理解,并不表示对本申请保护范围的限定。
为使本申请的目的、技术方案和优点更加清楚,下面结合附图对本发明的具体实施方式作进一步的详细说明。
如图1所示:本发明的技术方案为: 一种综合能源***运行事故原因分析的数据集分类方法,包括以下步骤:
步骤1:获取综合能源***运行事故原因数据集;本文获取了大量的能源监控设备故障原因,以某能源公司为例,通过分析收集到的故障数据集,筛选出字符超过300的长数据集;
步骤2:对所述长数据集进行多维预处理,得到预处理后的长数据集;所述预处理包括:(1)、对所述数据集进行标准化处理,删除标点符号、特殊符号和一些无意义的常用词,因为它们不利于***分析和预测数据集的内容,反而会增加计算复杂度,去除数据集中空缺值、数据异常值和重复值,数据空缺值的处理是根据原始数据的特点,在原始数据中寻找缺失值,消除或补充缺失值,对于一些不重要的空缺值,采用相邻数据填充的方法进行补充。过滤掉无法分类的数据,比如缺少重要字段的样本数据。数据异常值分析就是制定相应的规则来消除或替换不合理和错误的数据。数据重复值分析是对不同数据样本的不同字段进行比较,剔除重复数据;(2)、对所述数据集进行简化,对所述数据集可以通过数据规范方法进行简化,包括维度规范和数值规范。维度规范可以通过主成分分析和相关分析来减少变量以获得原始数据的简化或压缩表示;(3)、对所述数据集中的异常数据进行判断并剔除出所述数据集,经过数据集标准化和数据集简化后,一般的,能源网络故障原因数据中仍存在不合理数据、重复数据等异常数据信息,与同一数据集中的大部分数据存在较大差异,称为异常样本数据。该异常样本数据会直接影响模型的计算精度,导致较大误差的出现,因此,本实施例采用异常值诊断技术来查找和剔除所述异常值数据;
步骤3:建立经典BOW模型,并针对所述步骤2得到的长数据集进行训练,获得所述长数据集的特征列表,通过梯度增强分类器对所述特征列表训练,获得梯度提升分类器识别的特征重要性,对所述特征重要性从最高值开始进行排序,得到具有N个重要特征的令牌特征列表ST;此时,则因令牌特征列表丢失信息较多,且分类模型识别该令牌特征列表效率不高,若将该令牌特征列表ST作为分类模型的输入数据,致使对数据集分类的效果并不理想;
步骤4:从所述步骤2得到的所述长数据集选择任意两部分数据作为part1和part2,将part1存储为新数据集Set_new的开头,将part2存储为新数据集的末尾,且,Part1+ Part2 ≪ 1,并从所述长数据集中删除所述两部分数据,使原始长数据集中的剩余部分Part3=1- (Part1+ Part2) 在原始的长数据集和新数据集中保持合理的值,本实施例中,通过设置Part1:{0.1, 0.2, 0.3, 0.4, 0.5}和part2:{0, 0.05, 0.1, 0.15},并将上述数据代入上述得长数据集处理程序中,设置Set_new包含重要特征的多少作为考核指标,发现part1设置为0.1,part2设置为0.1,处理的效果最佳;
步骤5:通过迭代判别的方式将part3中的重要特征并入到所述新数据集Set_new中;具体地,迭代所述步骤3中的令牌特征列表ST,从先前确定的第一个重要的标记开始,在原始数据集中搜索此标记。如果没有找到,则选择下一个重要的特征,并再次搜索;如果所选标记存在于原始数据集中,选择此标记及其前后的标记邻居,将所述该标记以及所述该标记的标记邻居添加到所述新的数据集Set_new,具体过程如图3所示;
步骤6:设定所述新数据set_new字符数为300,重复所述步骤5,直至填满所述新的数据集Set_new;
步骤7:重复所述步骤1-6,对所有的长数据集进行处理,采用卷积神经网络对所述步骤6最终得到的新的数据集以及步骤1中未被筛选出的短数据集进行分类;卷积神经网络是神经网络中的一种,在分类任务中具有效率高、训练简单、速度快等优点,适用于处理短长度数据集。结合能源网络设备故障数据集的特殊性,本文选择卷积神经网络对数据集进行分类,卷积神经网络是一种用卷积运算代替矩阵乘法的神经网络,它通过多次翻转、滑动、叠加来提取特征,卷积神经网络最早被应用在计算机视觉领域中。在对图像识别的过程中,面对海量的图像数据,可以充分利用卷积神经网络对数据不断降维,最终保留下里面的主要特征。随着研究的不断深入,近些年卷积神经网络还被广泛应用到自然语言处理任务中,卷积神经网络网络主要由卷积层、池化层和输出层组成。卷积层作为网络的感知器,用来对输入数据进行特征提取。而特征提取得到大量信息,需要池化层对信息进一步筛选和压缩,保留下有效信息。在池化层与输出层之间一般通过全连接层进行连接,全连接层等价于传统前馈神经网络的隐藏层。最后的输出层则是实现预测的输出。本实施例卷积神经网络模型主要使用了一维卷积层和时序最大池化层,其具体结构如图2所示。
更进一步地,所述步骤7具体包括以下子步骤:步骤7.1:将所述步骤6得到的新的数据集Set_new或者所述短数据集转换成转换为词向量矩阵,如果词的数量是n,词向量的维数是k,那么这个矩阵的大小是n×k;步骤7.2:将所述词向量矩阵作为所述卷积神经网络模型的输入端,用于提取数据特征;步骤7.3:通过所述卷积神经网络模型对步骤7.2提取的特征进行特征融合操作,通过模型中的卷积层获得多个特征图谱,然后通过池化层进行特征压缩,简化网络计算的复杂度,提取出主要特征;其中,所述池化层为选择 max pooling函数以获得数据集中最重要的特征;最后通过拼接层和输出层输出所述卷积神经网络模型获得得到多个不同类别的数据集;步骤7.4:通过softmax分类器计算所述每个类别下的数据集概率,得到最终的分类结果。
基于上述技术方案,本申请提供的综合能源***运行事故原因分析的数据集分类方法,通过对长数据集进行筛选,建立经典BOW模型针对令牌列表训练,输出令牌特征列表ST,然后再通知特征提取将原始数据集缩短为长度为300的新的数据集,该新的数据集中涵盖了大部分的原始数据集的重要信息,采用新的数据集带入卷积神经网络模型进行分类;此方法解决了长数据集分类模型不适用的问题,同时,计算量有了极大的减小。
以上所述的实施例及/或实施方式,仅是用以说明实现本发明技术的较佳实施例及/或实施方式,并非对本发明技术的实施方式作任何形式上的限制,任何本领域技术人员,在不脱离本发明内容所公开的技术手段的范围,当可作些许的更动或修改为其它等效的实施例,但仍应视为与本发明实质相同的技术或实施例。

Claims (7)

1.一种综合能源***运行事故原因分析的数据集分类方法,其特征在于:包括以下步骤:
步骤1:获取综合能源***运行事故原因数据集,筛选出字符超过300的长数据集;
步骤2:对所述长数据集进行多维预处理,得到预处理后的长数据集;
步骤3:建立经典BOW模型,并针对所述步骤2得到的长数据集进行训练,获得所述长数据集的特征列表,通过梯度增强分类器对所述特征列表训练,获得梯度提升分类器识别的特征重要性,对所述特征重要性从最高值开始进行排序,得到具有N个重要特征的令牌特征列表ST;
步骤4:从所述步骤2得到的所述长数据集选择任意两部分数据作为part1和part2,将part1存储为新数据集Set_new的开头,将part2存储为新数据集Set_new的末尾,且,Part1+Part2 ≪ 1,并从所述长数据集中删除所述两部分数据,且使原始得所述长数据集中的剩余部分 Part3=1- (Part1+ Part2) 在原始的长数据集中保持80%比例;
步骤5:通过迭代判别的方式识别出part3中的重要特征,并入到所述新数据集Set_new中;
步骤6:设定所述新数据集Set_new字符数为300,集重复所述步骤5,直至填满所述新数据集Set_new;
步骤7:重复所述步骤1-6,对所有的长数据集进行处理,采用卷积神经网络对所述步骤6最终得到的新的数据集以及步骤1中未被筛选出的短数据集进行分类。
2.根据权利要求1所述的综合能源***运行事故原因分析的数据集分类方法,其特征在于:所述步骤2中的多维预处理包括:(1)、对所述数据集进行标准化处理,删除标点符号、特殊符号和无意义的常用词,去除数据集中空缺值、数据异常值和重复值;(2)、对所述数据集进行简化,通过数据规范方法进行简化,包括维度规范和数值规范,所述维度规范通过主成分分析和相关分析来减少变量以获得原始数据的简化或压缩表示;(3)、对所述数据集中的异常数据进行判断并剔除出所述数据集,经过数据集标准化和数据集简化后,再采用异常值诊断技术查找和剔除异常值数据。
3. 根据权利要求2 所述的综合能源***运行事故原因分析的数据集分类方法,其特征在于:所述去除数据集中空缺值、数据异常值和重复值具体包括:根据原始数据的特点,在原始数据中寻找缺失值,消除或补充缺失值,对于一些不重要的空缺值,采用相邻数据填充的方法进行补充,过滤掉无法分类的数据;制定规则来消除或替换不合理和错误的数据;对不同数据样本的不同字段进行比较,剔除重复数据。
4. 根据权利要求1 所述的综合能源***运行事故原因分析的数据集分类方法,其特征在于:步骤5具体包括: 迭代所述步骤3中的令牌特征列表ST,从先前确定为第一个重要的标记开始,在原始数据集中搜索此标记,如果没有找到,则选择下一个重要的特征,并再次搜索;如果所选标记存在于原始数据集中,选择此标记其前后的标记邻居,将此标记以及标记邻居添加到所述新的数据集Set_new。
5. 根据权利要求1 所述的综合能源***运行事故原因分析的数据集分类方法,其特征在于:所述步骤7具体包括以下子步骤:
步骤7.1:将所述步骤6得到的新的数据集Set_new或者所述短数据集转换成转换为词向量矩阵,如果词的数量是n,词向量的维数是k,那么这个矩阵的大小是n×k;
步骤7.2:将所述词向量矩阵作为所述卷积神经网络模型的输入端,用于提取数据特征;
步骤7.3:通过所述卷积神经网络模型对步骤7.2提取的特征进行特征融合操作;
步骤7.4:通过softmax分类器计算所述每个类别下的数据集概率,得到最终的分类结果。
6. 根据权利要求5 所述的综合能源***运行事故原因分析的数据集分类方法,其特征在于:所述步骤7.3具体包括:通过模型中的卷积层获得多个特征图谱,然后通过池化层进行特征压缩,简化网络计算的复杂度,提取出主要特征,最后通过拼接层和输出层输出所述卷积神经网络模型获得得到多个不同类别的数据集。
7. 根据权利要求6所述的综合能源***运行事故原因分析的数据集分类方法,其特征在于:所述池化层为选择 max pooling函数以获得最重要的特征。
CN202210540826.1A 2022-05-19 2022-05-19 一种综合能源***运行事故分析的数据集分类方法 Active CN114638558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210540826.1A CN114638558B (zh) 2022-05-19 2022-05-19 一种综合能源***运行事故分析的数据集分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210540826.1A CN114638558B (zh) 2022-05-19 2022-05-19 一种综合能源***运行事故分析的数据集分类方法

Publications (2)

Publication Number Publication Date
CN114638558A true CN114638558A (zh) 2022-06-17
CN114638558B CN114638558B (zh) 2022-08-23

Family

ID=81953295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210540826.1A Active CN114638558B (zh) 2022-05-19 2022-05-19 一种综合能源***运行事故分析的数据集分类方法

Country Status (1)

Country Link
CN (1) CN114638558B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824945A (zh) * 2016-03-21 2016-08-03 中国电力科学研究院 一种全球能源互联网技术资源数据收集方法
US20180032846A1 (en) * 2016-08-01 2018-02-01 Nvidia Corporation Fusing multilayer and multimodal deep neural networks for video classification
US10424048B1 (en) * 2019-02-15 2019-09-24 Shotspotter, Inc. Systems and methods involving creation and/or utilization of image mosaic in classification of acoustic events
CN111046945A (zh) * 2019-12-10 2020-04-21 北京化工大学 基于组合卷积神经网络的故障类型及损坏程度诊断方法
CN111489554A (zh) * 2020-05-12 2020-08-04 哈尔滨工业大学 一种基于Bow-tie模型的城市道路交通事故防控分析方法
CN111767398A (zh) * 2020-06-30 2020-10-13 国网新疆电力有限公司电力科学研究院 基于卷积神经网络的二次设备故障短文本数据分类方法
CN112036472A (zh) * 2020-08-28 2020-12-04 长安大学 一种电力***视觉图像分类方法及***
CN112989052A (zh) * 2021-04-19 2021-06-18 北京建筑大学 一种基于组合-卷积神经网络的中文新闻文本分类方法
CN113792825A (zh) * 2021-11-17 2021-12-14 国网江苏省电力有限公司营销服务中心 一种用电信息采集设备故障分类模型训练方法及装置
CN113850330A (zh) * 2021-09-27 2021-12-28 华北电力大学 一种基于短时傅里叶变换和卷积神经网络的配电网故障原因检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824945A (zh) * 2016-03-21 2016-08-03 中国电力科学研究院 一种全球能源互联网技术资源数据收集方法
US20180032846A1 (en) * 2016-08-01 2018-02-01 Nvidia Corporation Fusing multilayer and multimodal deep neural networks for video classification
US10424048B1 (en) * 2019-02-15 2019-09-24 Shotspotter, Inc. Systems and methods involving creation and/or utilization of image mosaic in classification of acoustic events
CN111046945A (zh) * 2019-12-10 2020-04-21 北京化工大学 基于组合卷积神经网络的故障类型及损坏程度诊断方法
CN111489554A (zh) * 2020-05-12 2020-08-04 哈尔滨工业大学 一种基于Bow-tie模型的城市道路交通事故防控分析方法
CN111767398A (zh) * 2020-06-30 2020-10-13 国网新疆电力有限公司电力科学研究院 基于卷积神经网络的二次设备故障短文本数据分类方法
CN112036472A (zh) * 2020-08-28 2020-12-04 长安大学 一种电力***视觉图像分类方法及***
CN112989052A (zh) * 2021-04-19 2021-06-18 北京建筑大学 一种基于组合-卷积神经网络的中文新闻文本分类方法
CN113850330A (zh) * 2021-09-27 2021-12-28 华北电力大学 一种基于短时傅里叶变换和卷积神经网络的配电网故障原因检测方法
CN113792825A (zh) * 2021-11-17 2021-12-14 国网江苏省电力有限公司营销服务中心 一种用电信息采集设备故障分类模型训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FAISAL AHMED ETC.: "Word Embedding based News Classification by using CNN", 《IEEE》 *
周玉等: "不平衡数据集分类方法研究综述", 《计算机应用研究》 *

Also Published As

Publication number Publication date
CN114638558B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN112989841B (zh) 一种用于突发事件新闻识别与分类的半监督学习方法
CN107145516B (zh) 一种文本聚类方法及***
CN107577702B (zh) 一种社交媒体中交通信息的辨别方法
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN111274814A (zh) 一种新型的半监督文本实体信息抽取方法
CN115330268A (zh) 一种应对矿山灾难的综合性应急指挥方法及***
CN112685374B (zh) 日志分类方法、装置及电子设备
CN111191033B (zh) 一种基于分类效用的开集分类方法
CN114461890A (zh) 分层多模态的知识产权搜索引擎方法与***
CN113159326B (zh) 基于人工智能的智能业务决策方法
CN110532449A (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN111984790B (zh) 一种实体关系抽取方法
CN117495422A (zh) 基于电力通信网建设的造价管理***及其方法
CN114638558B (zh) 一种综合能源***运行事故分析的数据集分类方法
CN117372144A (zh) 应用于小样本场景的风控策略智能化方法及***
CN116401289A (zh) 一种基于多源信息结合的可追溯性链接自动恢复方法
CN110618980A (zh) 基于法律文本精确匹配和矛盾检测的***及方法
CN115240145A (zh) 基于场景识别的违章作业行为检测方法及***
CN115098681A (zh) 一种基于有监督对比学习的开放服务意图检测方法
CN111046934B (zh) 一种swift报文软条款识别方法及装置
CN114936279A (zh) 一种面向协同制造企业的非结构化图表数据分析方法
CN114077663A (zh) 应用日志的分析方法及装置
CN114091463B (zh) 地区工单乱点分析方法、装置、电子设备及可读存储介质
CN116308464B (zh) 目标客户获取***和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220803

Address after: Room 608, block J, Haitai green industrial base, No.6 Haitai development road, Huayuan Industrial Zone, Binhai New Area, Tianjin 300384

Applicant after: TIANJIN RICHSOFT ELECTRIC POWER INFORMATION TECHNOLOGY Co.,Ltd.

Applicant after: STATE GRID INFORMATION & TELECOMMUNICATION GROUP Co.,Ltd.

Address before: Room 608, block J, Haitai green industrial base, No.6 Haitai development road, Huayuan Industrial Zone, Binhai New Area, Tianjin 300384

Applicant before: TIANJIN RICHSOFT ELECTRIC POWER INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant