CN112256761A - 一种基于电梯全生命周期的大数据挖掘和故障预测方法 - Google Patents

一种基于电梯全生命周期的大数据挖掘和故障预测方法 Download PDF

Info

Publication number
CN112256761A
CN112256761A CN202011154122.8A CN202011154122A CN112256761A CN 112256761 A CN112256761 A CN 112256761A CN 202011154122 A CN202011154122 A CN 202011154122A CN 112256761 A CN112256761 A CN 112256761A
Authority
CN
China
Prior art keywords
data
elevator
information
fault
inspection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011154122.8A
Other languages
English (en)
Inventor
刘小畅
王晨
冯双昌
欧阳惠卿
任昭霖
邱郡
梁骁
文祥
刘鹏博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Special Equipment Supervision and Inspection Technology Institute
Original Assignee
Shanghai Special Equipment Supervision and Inspection Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Special Equipment Supervision and Inspection Technology Institute filed Critical Shanghai Special Equipment Supervision and Inspection Technology Institute
Priority to CN202011154122.8A priority Critical patent/CN112256761A/zh
Publication of CN112256761A publication Critical patent/CN112256761A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Maintenance And Inspection Apparatuses For Elevators (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Indicating And Signalling Devices For Elevators (AREA)

Abstract

本发明公开了一种基于电梯全生命周期的大数据挖掘和故障预测方法,其特征在于,包括如下步骤:采集电梯全生命周期中的多源异构数据,包括电梯设计、安装、维保和检验环节的结构化数据、非结构化数据、静态数据类型和动态数据,搭建电梯多源异构数据库;对采集的数据进行预处理;对预处理后的数据进行建模和分析,对模型进行评价,利用评价后的模型对电梯设备故障进行评估。本发明通过对电梯检验、设计、安装、维保等全生命周期环节的海量数据进行数据预处理和挖掘分析,对电梯的故障进行预测,解决了现存技术只能对电梯某个单一环节的数据进行分析的问题,同时采用了有监督学习的方式,有效地对电梯的故障进行预测。

Description

一种基于电梯全生命周期的大数据挖掘和故障预测方法
技术领域
本发明涉及一种基于电梯全生命周期的大数据挖掘和故障预测方法。
背景技术
随着城市步伐的不断推进,高层建筑越来越多,而电梯是高层建筑中至关重要的一部分。电梯已经拥有百年的发展史,为人们的日常生活带来较大便利。目前电梯已成为日常生活的基本交通工具,以上海市为例,截至2019年上海电梯保有量已超过27万台,数量雄踞世界城市之首,在用电梯中,使用年限超过15年的电梯数量约2万台;5年后,梯龄15年以上电梯将占电梯总数的约1/5。然而电梯所带来的安全隐患同样备受关注,在日常应用过程所涌现的故障问题不仅对生命财产安全构成巨大威胁,也严重影响了人们的生活品质。在电梯的实际运行中,电梯困人、电梯溜车、意外停止等现象时有发生,对所乘人员的生命安全构成威胁,因此电梯故障预诊断检验检测水平亟待提高。
大数据分析是一种全新的模式,主要利用海量数据探究得到未来可能发生的某种规律。互联网时代的高度发展,促使信息的储存量显著增长。我们每天都能体会海量信息给生活带来的影响。因此,亟需利用大数据技术对现有数据进行挖掘,得出电梯故障发生的相应规律。在电梯的检验、设计、安装和维保等环节中,会产生大量数据,对这些数据进行深入挖掘,有可能找出电梯设备发生故障的规律,从而实现对电梯的重点检验、预测性维修和剩余使用寿命的评估。
现有的技术主要针对电梯的单个环节进行数据挖掘和分析,或者采用无监督学习的方式,导致无法有效地对电梯的故障进行预测。
发明内容
本发明要解决的技术问题是:面对电梯海量的基础信息数据和故障数据,现有的技术无法将电梯从设计、安装、检验到维保的多个环节串联起来进行数据挖掘和分析,单个环节的脱节数据挖掘导致和现在所使用的无监督学习的数据挖掘算法精度低,导致无法对电梯进行有效的故障预测。
为了解决上述问题,本发明的技术方案是提供了一种基于电梯全生命周期的大数据挖掘和故障预测方法,其特征在于,包括如下步骤:
步骤1、采集电梯全生命周期中的多源异构数据,包括电梯设计、安装、维保和检验环节的结构化数据、非结构化数据、静态数据类型和动态数据,搭建电梯多源异构数据库;
步骤2、对采集的数据进行预处理,包括对缺失值、重复值、和异常值的处理;
步骤3、对预处理后的数据进行建模和分析,包括:
步骤3.1、数据缺失率分析,将需要从中选取特征的数据表进行数据项缺失率计算后进行排序;
步骤3.2、对选中的主要特征值进行业务相关性分析;
步骤3.3、根据缺失率和业务相关性分析结果选取特征项;
步骤3.4、离散型数据处理:对含有顺序意义的特种项,将其字符型转化为数值型;针对有固定选项的特种项,对其进行one-hot编码;
连续型数据处理:对连续型数据进行归一化处理;
相关系数:两个变量均是连续型且具有线性关系,则可以使用皮尔逊相关系数,否则使用斯皮尔曼相关系数;
步骤4、对模型进行评价,包括:
步骤4.1、数据连接,将特征项连接成一张宽表,关联的数据表包括:设备基本信息、设备参数信息、使用单位信息、检验业务信息、检验报告信息、检验项目模板、检验项目内容、故障信息、故障部件分类信息;
增加衍生变量,构造电梯历史累计检查次数、电梯历史累计故障次数、电梯技术参数偏移度变量;将原始字符型变量转换成数值型,进入模型可选特征池;
步骤4.2、训练模型,将数据导入算法模型,对模型进行训练,拆分训练集和测试集;
步骤4.3、调参,用准确率进行10折交叉验证选择合适的参数,避免过拟合;
步骤5、利用评价后的模型对电梯设备故障进行评估:运行已经训练好的模型进行预测,得到预测结果,当预测故障可能性>60%时,将判定电梯会发生故障。
优选地,所述步骤1将不同源数据和不同结构化及非结构化的数据分别采集和导入,存放在数据库中。
优选地,所述多源异构数据的采集方式包括:
通过SQL脚本对数据库直接读取:首先采用SQL语句创建数据源的存储库,然后通过编写数据库SQL脚本语言,从不同数据源的数据库来读取数据,将读取到的不同***的业务数据,通过接口方式访问,或直接通过数据库SQL视图的方式访问,最后将获取的数据源通过SQL脚本语言写入到数据采集数据库,供后期的电梯大数据预处理和分析预测环节使用;
人工录入:采用手工录入的方式进行数据采集;
非结构化数据的转换:通过提取非结构化数据文件中有关的元数据,将其转换为XML文档,从而将非结构化数据转化为结构化数据;
在电梯上加装数据采集传感器:通过在电梯上加装传感器的方式获得实时的信号信息,从而采集到电梯的动态信息。
优选地,所述步骤2中对缺失值的处理方法包括删除缺失值、填补缺失值、和不处理;对重复值的处理方法为删除重复值;对异常值的处理为通过遍历查找出异常值,然后根据规则调整。
优选地,所述步骤4.2中利用支持向量机、梯度提升树和故障原因鉴定算法对模型进行训练。
与现有技术相比,本发明的有益效果是:
(1)实现了电梯全生命周期各环节数据的采集。传统的大数据分析往往只关注某一个环节,无法将电梯从设计、安装、检验到维保的多个环节串联起来进行数据挖掘和分析,单个环节的脱节数据采集将导致后期无法有效地预测。本发明将电梯的设计、安装、检验以及维保的全生命周期环节的数据进行采集和分析,对海量的多源异构数据进行不同方式的采集和提取,对结构化和非结构化的数据进行不同方式的处理和存储,实现了电梯全生命周期各环节数据的采集。
(2)建立了电梯全生命周期数据库。设计电梯数据表规范以建立电梯全生命周期数据库。开展电梯数据表规范研究,制定电梯数据表规范。规范主要包括以下八大类数据表:基本信息,检验信息,维保信息,运行信息,故障信息,事故信息,使用管理信息,和修理改造信息。将数据表规范与特种设备检验管理信息***数据库中的表名及字段名进行了一一对应,从而建立电梯全生命周期数据库。
(3)制定了电梯故障分类标签的规则。依据《GB/T 31821-2015电梯主要部件报废技术条件》标准,分别从电梯的设计、制造,到检验、维保环节的维度,以及电梯八大***的维度,对故障(失效模式)及风险等级进行了分类。
(4)创新数据预处理和清洗方式。面对海量数据时,传统的EXCEL方式处理数据比较费劲。一旦数据量变大,EXCEL程序经常无响应甚至死机,用户体验不好。本项目利用Python灵活高效的数据结构,对电梯的缺失数据、重复数据和异常数据进行处理,可以极大地提高数据清洗的工作效率。
(5)多种大数据挖掘分析方法融合使用。采用了逻辑回归、决策树、GBDT梯度提升决策树以及LightGBM多种方法融合的分类模型,对数据进行特征分析和特征选取,建立特征工程和建模预测,通过有监督学习的方式反复训练模型,从而对故障进行预测。
(6)设计了模型分析结果展示方式。本项目通过分析电梯全生命周期的海量数据,对故障所属***、故障类型和故障所属部件等关键数据进行统计,以直方图、条形图和折线图等方式进行展示;对上海市的电梯故障数据进行统计,以上海市地图的方式对各个区域的故障情况进行展示;对某台电梯的故障进行预测,以电梯剖面图的方式展示可能发生的故障部件及风险等级。展示方式直观清楚,一目了然。
(7)通过对电梯检验、设计、安装、维保等全生命周期环节的海量数据进行数据预处理和挖掘分析,对电梯的故障进行预测,解决了现存技术只能对电梯某个单一环节的数据进行分析的问题,同时采用了有监督学习的方式,有效地对电梯的故障进行预测。
附图说明
图1为本发明一种基于电梯全生命周期的大数据挖掘和故障预测方法流程图;
图2为多源异构数据的采集框架结构图;
图3为某台电梯的“单位内编号”为缺失值示意图;
图4为对“单位内编号”进行缺失值填补示意图;
图5为某台电梯的最后一次检验时间为异常值示意图;
图6为替换异常值示意图;
图7为数据项缺失率情况示意图一;
图8为数据项缺失率情况示意图二;
图9为数据项缺失率情况示意图三;
图10为对设备信息及报告信息中业务相关性分析情况示意图一;
图11为对设备信息及报告信息中业务相关性分析情况示意图二;
图12为对设备信息及报告信息中业务相关性分析情况示意图三;
图13为某台电梯是否发生故障预测结果示意图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
如图1所示,本发明一种基于电梯全生命周期的大数据挖掘和故障预测方法首先将电梯设计、安装、维保和检验环节的多源异构数据进行采集;通过数据清理、分类等方式对上述数据进行预处理;然后将处理过的数据进行关联性分析和数据建模,通过训练分类模型加以应用,从而对电梯设备进行故障预测。
1电梯设计、安装和维保和检验的信息数据采集
1.1数据来源
在电梯的设计、安装、检验以及维保的全生命周期中,产生了数量庞大的碎片化信息、海量的实时性数据、机器数据以及非结构化数据。我们需要从这些众多分散、异构的数据源中挖掘出隐含的、有价值的信息和知识。在整个生命周期中,数据来源有以下几方面:
(1)电梯检验信息数据
电梯检验信息数据主要来源于检验环节的数据。一部分来源于各个检验机构在监督检验、定期检验和安全评估的环节,可从检验机构的检验数据库中获取;另一部分来源于电梯制造厂商、电梯维保公司等开展电梯企业自检的单位。
(2)电梯维保信息数据
电梯维保信数据主要来源于维保环节的数据,包括维保单位内部的维修保养数据库、电梯档案信息数据库、电梯维保人员信息数据库、故障报修信息数据库以及困人救援信息数据库等等。
(3)电梯使用单位信息数据
电梯使用单位信息数据主要来源于使用单位的电梯实时数据,例如日常使用过程中的故障报修信息等。
(4)政府监管信息数据
政府监管信息数据主要来源于监管部门的监管***数据库。可通过政府监管平台来获取电梯相关的信息数据,包括注册登记信息、现场监督检查信息以及事故处理信息等。
1.2数据结构和类型
在电梯全生命周期过程中,采集的数据类型包括结构化数据和非结构化数据两种。
结构化数据,是可以用二维表的结构来逻辑表达和实现的数据。这种数据严格遵循了一定的数据格式与长度的规范,主要存储和管理在关系型数据库中,例如电梯检验数据库、维保数据库以及监察数据库中的数据等。包括电梯注册信息,产权单位信息、使用单位信息、设计单位信息、制造单位信息、施工单位信息、施工类别、维保信息(维保责任人、电话、维保开始日期和截止日期)、设备种类、设备信息(类型、规格型号、生产日期、出厂编号、设备使用安装地点)、扩展信息(额定载重、额定速度、上下行速度、层站门等)、曳引机和控制柜相关信息、钢丝绳参数、限速器参数、设备其他参数(轿厢、导轨、防火门、玻璃门等相关信息),等等。
非结构化数据,是不方便用二维表的逻辑来表现的数据。这种数据的结构一般并不规则,也没有事先定义的数据模型,例如电梯维保记录、作业人员信息、催件通知单、告知单、联络单等等。
另外,在电梯全生命周期过程中,采集的数据类型还包括静态数据类型和动态数据类型两种。其中,动态数据主要来源于从物联网平台获取的电梯的实时运行数据;其他为静态数据。
1.3多源异构数据的采集
(1)多源异构数据的采集框架
在电梯大数据采集过程中,数据来源的差异一般都比较大,而我们需要在数据库中存放经过***加工后的数据,因此需要将不同源数据和不同结构化及非结构化的数据分别采集和导入,存放在数据库中。
由于数据存储介质、数据存储类型以及数据传输方式的差异,需要在数据采集时针对多种来源的数据借助不同的导入工具和方法,分别导入。针对电梯来源数据结构差异大、数据来源广等特点,多源异构数据的采集框架为数据获取、组织和利用提供了有效的手段和方法。通过多源异构数据的采集框架,实现了不同源数据和不同结构化和非结构化数据的采集,如图2所示。多源异构数据的采集方式包括通过SQL脚本对数据库直接读取、人工录入、非结构化数据的转换以及在电梯上加装数据采集传感器等。
(2)SQL脚本提取和访问数据库的采集方式
通过采用SQL脚本语言,包括数据库定义语句,数据库操作语言,数据库查询语句和数据库处理语言等,对数据库的内容直接读取。
首先采用SQL语句创建数据源的存储库,如电梯维保单位库、电梯使用单位库、维保单位电梯档案库、维保人员信息库、电梯保养信息库、电梯困人救援和故障报修库、设备信息库、检验信息库以及监察信息库等。
然后通过编写数据库SQL脚本语言,从不同数据源的数据库来读取数据,将读取到的不同***的业务数据,通过接口方式访问,或直接通过数据库SQL视图的方式访问。最后将获取的数据源通过SQL脚本语言写入到数据采集数据库,供后期的电梯大数据预处理和分析预测环节使用。
(3)人工录入的采集方式
针对一些电梯维保环节和使用环节的纸质材料或图片,如电梯维保记录、作业人员信息、催件通知单、告知单、联络单等,可采用手工录入的方式进行数据采集。
(4)对非结构化数据进行转换的采集方式
针对一些文本文件中保存的检验报告或维保信息,可以通过提取有关的元数据,将其转换为XML文档的方式,从而将非结构化数据转化为结构化数据。
在电梯全生命周期的大数据采集过程中,比较常见的非结构化数据的文件类型包括Word文档、Excel文件以及HTML网页等。可以根据不同文件的某一特征,利用System.IO相应的API接口进行分析,从而转化为XML文档的格式。
(5)实时信号的采集方式
可以通过在电梯上加装传感器等方式,来获得实时的信号信息,从而采集到电梯的动态信息。
对电梯设计、安装、检验、维保等环节的海量数据进行采集,需要通过各种采集方式,对多种来源的数据、结构化和非机构化的数据、静态和动态的数据进行不同方式的处理,使其以统一的方式存储在数据采集数据库中,从而更好地满足下一步的数据分析任务,为今后的数据分析和模型预测提供更好地输入条件。
1.4数据库的搭建
将电梯基本信息、检验信息、维保信息、运行信息、故障信息、事故信息、使用管理信息和修理改造信息与特种设备检验管理信息***数据库中的表名及字段名进行了一一对应,从而建立电梯全生命周期数据库电梯全生命周期大数据库,电梯全生命周期大数据库应具有共享性、统一性、可靠性、动态性特征需求,通过数据库的物理结构设计、内容设计、功能模块设计、数据库信息语言编辑以及数据库的存储备份物理结构设计等,开展数据库建设。
2电梯设计、安装、维保和检验的数据处理和分析
2.1数据预处理
在利用大数据进行数据分析的过程中,会出现很多不符合要求的数据,例如电梯检验和维保的信息重复、录入的错误信息、部分信息缺失以及异常数据等。数据预处理主要是将原始输入数据中的无关数据进行删除,包括一些重复的数据和平滑噪声数据等,同时筛选掉与后期数据建模无关的无效数据,以及处理原始输入数据中的缺失值和异常值等。在实际应用中,数据预处理的工作量占整个建模过程的60%。由此可见,数据预处理是大数据挖掘和分析过程中尤为关键的一步。
Python作为现在最受欢迎的动编程语言之一,由于其在数据分析、交互式计算以及数据可视化方面的巨大优势,已经发展成为了数据科学、机器学习、学界和工业界软件开发最重要的语言之一。近年来,由于Python的第三方库(如pandas等)的不断改良,其在大数据分析和发掘方面的优势越来越明显。
2.2缺失值处理
在数据预处理过程中,往往会碰到电梯检验、设计、安装和维保数据的缺失问题。缺失值是数据预处理阶段比较常见的问题,缺失值一般由NA(not available)表示。在处理缺失值时要遵循一定的原则。在进行数据分析前,一般需要了解数据的缺失情况,需要根据具体的实际情况来处理缺失值。
处理缺失值的方法主要有三类:删除、填补和不处理。
(1)删除缺失值
针对有缺失值的数据,有时可以通过删除一小部分的缺失数据来进行数据清洗,这也是最简单和高效的办法。但是考虑到大数据的海量要求和数据采集阶段的困难,一般不会轻易进行数据的删除。
(2)填补缺失值
在数据预处理阶段,需要分析清楚缺失值产生的原因,针对故意缺失和随机缺失等情况,相应地进行填补。可以通过Pandas提供的fillna方法来填补缺失值数据。
在电梯设备基本信息数据中,对标称属性以“无”填充,如“单位内编号”、“使用单位”、“制造单位”、“使用年限”等。遍历后发现某台电梯的“单位内编号”为缺失值(如图3),对其予以“无”填充(如图4)。
(3)不处理缺失值
针对那些不影响后期建模的非关键性数据因素的缺失值,可以不进行处理。
2.3重复值处理
在数据的采集过程中,由于数据来源多样化,录入和多源数据的整合都可能产生重复的数据。针对重复值,一般采用删除的处理方法。在Python中pandas提供了查找和处理重复数据的方法。通过调用duplicated查找重复的数据。当需要删除重复值时,可调用drop_duplicates方法完成。
Pandas中,duplicated()表示找出重复的行,默认是判断全部列,返回布尔类型的结果。对于完全没有重复的行,返回False,对于有重复的行,第一次出现的那一行返回False,其余的返回True。
2.4异常值处理
在数据预处理过程中,数据中有时会出现一个或几个数值与其他数值的差异比较大,称之为异常值(outlier)。异常值会对后期的数据模型造成干扰,导致建模结果差异较大,使得数据挖掘分析的结论偏颇。因此,需要在数据预处理阶段对异常值加以处理。
数据预处理过程中的异常值的处理,需要根据实际情况来判断来删除还是用其他值替换。在电梯大数据的处理过程中,通过遍历查找出异常值,然后根据规则来进行调整。
如图5,在电梯检验设备基本信息表中,通过遍历发现某台电梯的最后一次检验时间异常。根据业务规则,可在该表中查找这台检验时间异常电梯的设备代码,根据该电梯的检验报告中的检验日期,从而确定最后一次检验时间,并将其和异常值予以替换(如图6所示)。
对电梯检验、设计、安装、维保等环节的海量数据进行处理,需要通过处理各种缺失值、重复值以及异常值,对数据进行清洗、格式转换等,使得存储在数据库或文件中的数据以统一的合适和内容来呈现,从而更好地满足下一步的数据分析任务。而将数据通过各种方式整合得到符合要求的格式,经常会花费大量的人工时间和精力。通过利用Python简洁的语法、灵活高效的数据结构、以及丰富的第三方库,我们可以极大地提高数据清洗的工作效率,从而为今后的数据分析和预测提高更好地输入条件。
3电梯设计、安装、维保和检验数据的建模分析
3.1特征分析
数据项缺失率分析
将需要从中抽取特征的表进行数据项缺失率计算后进行排序,便于特征的选取(暂定25%以上缺失率原则上不入特征),如图7至图9示例为设备基本信息和最后检验报告信息表的数据项缺失率情况。
3.2特征选取
1.业务相关性分析:即对选中的主要特征值进行业务相关性分析。如图10至图12示例为对设备信息及报告信息中业务相关性分析情况:
以上海市为例,如图10所示,上海市各区电梯分布浦东新区所有的电梯数量最多,约5万台,占上海市整体电梯数24%,其次占上海市整体电梯数量超过5%的地区为:闵行区、徐汇区、普陀区和静安区。
如图11所示,可匹配到电梯的检验报告总计约119万份,其中不合格率约占5.6%,缺失率约0.1%。
年检类检验报告占据报告的绝大部分,其次为新装类检验报告和改造类检验报告,其他类别报告数量较少。
如图12所示,不合格报告总计约为6.7万份,其中电梯在制造完成后前两年出现不合格的比例最高,分别为7%和10%。
2.选取特征项。根据缺失率和业务相关性分析结果选取特征项。以设备及其参数信息为例:
设备基本信息特征选取
名称 代码
设备类别 typeCode
设备名称 name
设备型号 model
设备出厂编号 factoryNO
设备内部编号 inNO
设备注册代码 regCode
设备使用证号 useCerNO
设备所在地区 regionCode
设备安装地址 instAddr
设备发证日期 cerDate
设备使用状态 useStatus
设计单位 desCo
制造日期 mafDate
制造单位 mafCo
安装单位 instCo
安装竣工日期 instCompDate
使用单位组织机构代码 useCoCode
使用单位 useCo
保养单位 matCo
保养单位组织机构代码 matCoCode
保养单位联系人 matCoPerson
保养单位电话 matCoTel
检验日期 inspDate
下次检验日期 nextInspDate
检验结论 inspResult
电梯信息特征选取
Figure BDA0002742185830000111
Figure BDA0002742185830000121
3.3特征工程
1、离散型数据处理
离散型数据可分为两种:一种是定序,一种是定类。
1)定序。对含有顺序意义的特征项,将其字符型转化为数值型。
2)定类。针对有固定选项的特征项,对其进行one-hot编码。
2、连续型数据处理
由于多个特征之间差异较大会造成梯度下降算法收敛速度变慢,故对特征数据进行归一化处理。
3、相关系数
两个变量均是连续型且具有线性关系,则可以使用皮尔逊相关系数,否则使用斯皮尔曼相关系数。
4电梯设计、安装、维保和检验数据的故障预测
4.1数据连接
将特征项连接成一张宽表,关联的数据表有:设备基本信息、设备参数信息、使用单位信息、检验业务信息、检验报告信息、检验项目模板、检验项目内容、故障信息(4个表)、故障部件分类信息。读取设备表字段、电梯表字段,将数值型的字段处理为decimal(10.2)类型变量,取电梯报告中最后一次检查的结果作为Y,聚合历史检查报告结果和历史明细报告结果,取历史报告平均值,计算历史报告和原始电梯数据差值的偏移量。
增加衍生变量,例如:构造电梯历史累计检查次数、电梯历史累计故障次数、电梯技术参数偏移度等变量;将原始字符型变量转换成数值型,进入电梯大数据故障预测模型可选特征池。
4.2训练模型
将数据导入算法模型,利用支持向量机、梯度提升树和故障原因鉴定等算法,对模型进行训练,拆分训练集和测试集。训练集是用于训练模型的子集,测试集是用于测试训练后模型的子集,附图为将测试集等分10组和等分20组后的结果。
4.3调参
用准确率进行10折交叉验证选择合适的参数。
正则化选择参数:在调参时如果我们主要的目的只是为了解决过拟合,一般penalty选择L2正则化就够了。但是如果选择L2正则化发现还是过拟合,即预测效果差的时候,就可以考虑L1正则化。另外,如果模型的特征非常多,我们希望一些不重要的特征系数归零,从而让模型系数稀疏化的话,也可以使用L1正则化。
优化算法选择参数。
a)liblinear:使用了开源的liblinear库实现,内部使用了坐标轴下降法来迭代优化损失函数。
b)lbfgs:拟牛顿法的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
c)newton-cg:也是牛顿法家族的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
d)sag:即随机平均梯度下降,是梯度下降法的变种,和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度,适合于样本数据多的时候,SAG是一种线性收敛算法,这个速度远比SGD快。
分类方式选择参数
对于第K类的分类决策,我们把所有第K类的样本作为正例,除了第K类样本以外的所有样本都作为负例,然后在上面做二元逻辑回归,得到第K类的分类模型。其他类的分类模型获得以此类推。
而MvM则相对复杂,这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类,我们每次在所有的T类样本里面选择两类样本出来,不妨记为T1类和T2类,把所有的输出为T1和T2的样本放在一起,把T1作为正例,T2作为负例,进行二元逻辑回归,得到模型参数。我们一共需要T(T-1)/2次分类。
类型权重参数
class_weight参数用于标示分类模型中各种类型的权重,可以不输入,即不考虑权重,或者说所有类型的权重一样。如果选择输入的话,可以选择balanced让类库自己计算类型权重,或者我们自己输入各个类型的权重,比如对于0,1的二元模型,我们可以定义class_weight={0:0.9,1:0.1},这样类型0的权重为90%,而类型1的权重为10%。
样本权重参数
由于样本不平衡,导致样本不是总体样本的无偏估计,从而可能导致我们的模型预测能力下降。遇到这种情况,我们可以通过调节样本权重来尝试解决这个问题。调节样本权重的方法有两种,第一种是在class_weight使用balanced。第二种是在调用fit函数时,通过sample_weight来自己调节每个样本权重。
3.4应用模型进行预测
运行已经训练好的模型进行预测,得到预测结果。如图13所示,预测某台电梯是否发生故障的可能性。当预测故障可能性>60%时,将判定电梯会发生故障。其中,0表示无故障,1表示有故障。

Claims (5)

1.一种基于电梯全生命周期的大数据挖掘和故障预测方法,其特征在于,包括如下步骤:
步骤1、采集电梯全生命周期中的多源异构数据,包括电梯设计、安装、维保和检验环节的结构化数据、非结构化数据、静态数据类型和动态数据,搭建电梯多源异构数据库;
步骤2、对采集的数据进行预处理,包括对缺失值、重复值、和异常值的处理;
步骤3、对预处理后的数据进行建模和分析,包括:
步骤3.1、数据缺失率分析,将需要从中选取特征的数据表进行数据项缺失率计算后进行排序;
步骤3.2、对选中的主要特征值进行业务相关性分析;
步骤3.3、根据缺失率和业务相关性分析结果选取特征项;
步骤3.4、离散型数据处理:对含有顺序意义的特种项,将其字符型转化为数值型;针对有固定选项的特种项,对其进行one-hot编码;
连续型数据处理:对连续型数据进行归一化处理;
相关系数:两个变量均是连续型且具有线性关系,则可以使用皮尔逊相关系数,否则使用斯皮尔曼相关系数;
步骤4、对模型进行评价,包括:
步骤4.1、数据连接,将特征项连接成一张宽表,关联的数据表包括:设备基本信息、设备参数信息、使用单位信息、检验业务信息、检验报告信息、检验项目模板、检验项目内容、故障信息、故障部件分类信息;
增加衍生变量,构造电梯历史累计检查次数、电梯历史累计故障次数、电梯技术参数偏移度变量;将原始字符型变量转换成数值型,进入模型可选特征池;
步骤4.2、训练模型,将数据导入算法模型,对模型进行训练,拆分训练集和测试集;
步骤4.3、调参,用准确率进行10折交叉验证选择合适的参数,避免过拟合;
步骤5、利用评价后的模型对电梯设备故障进行评估:运行已经训练好的模型进行预测,得到预测结果,当预测故障可能性>60%时,将判定电梯会发生故障。
2.如权利要求1所述的一种基于电梯全生命周期的大数据挖掘和故障预测方法,其特征在于:所述步骤1将不同源数据和不同结构化及非结构化的数据分别采集和导入,存放在数据库中。
3.如权利要求2所述的一种基于电梯全生命周期的大数据挖掘和故障预测方法,其特征在于,所述多源异构数据的采集方式包括:
通过SQL脚本对数据库直接读取:首先采用SQL语句创建数据源的存储库,然后通过编写数据库SQL脚本语言,从不同数据源的数据库来读取数据,将读取到的不同***的业务数据,通过接口方式访问,或直接通过数据库SQL视图的方式访问,最后将获取的数据源通过SQL脚本语言写入到数据采集数据库,供后期的电梯大数据预处理和分析预测环节使用;
人工录入:采用手工录入的方式进行数据采集;
非结构化数据的转换:通过提取非结构化数据文件中有关的元数据,将其转换为XML文档,从而将非结构化数据转化为结构化数据;
在电梯上加装数据采集传感器:通过在电梯上加装传感器的方式获得实时的信号信息,从而采集到电梯的动态信息。
4.如权利要求1所述的一种基于电梯全生命周期的大数据挖掘和故障预测方法,其特征在于:所述步骤2中对缺失值的处理方法包括删除缺失值、填补缺失值、和不处理;对重复值的处理方法为删除重复值;对异常值的处理为通过遍历查找出异常值,然后根据规则调整。
5.如权利要求1所述的一种基于电梯全生命周期的大数据挖掘和故障预测方法,其特征在于:所述步骤4.2中利用支持向量机、梯度提升树和故障原因鉴定算法对模型进行训练。
CN202011154122.8A 2020-10-26 2020-10-26 一种基于电梯全生命周期的大数据挖掘和故障预测方法 Pending CN112256761A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011154122.8A CN112256761A (zh) 2020-10-26 2020-10-26 一种基于电梯全生命周期的大数据挖掘和故障预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011154122.8A CN112256761A (zh) 2020-10-26 2020-10-26 一种基于电梯全生命周期的大数据挖掘和故障预测方法

Publications (1)

Publication Number Publication Date
CN112256761A true CN112256761A (zh) 2021-01-22

Family

ID=74261542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011154122.8A Pending CN112256761A (zh) 2020-10-26 2020-10-26 一种基于电梯全生命周期的大数据挖掘和故障预测方法

Country Status (1)

Country Link
CN (1) CN112256761A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113071966A (zh) * 2021-04-26 2021-07-06 平安国际智慧城市科技股份有限公司 电梯故障预测方法、装置、设备及存储介质
CN113407734A (zh) * 2021-07-14 2021-09-17 重庆富民银行股份有限公司 基于实时大数据的知识图谱***的构建方法
CN113505947A (zh) * 2021-08-26 2021-10-15 北京磁浮有限公司 一种基于综合监控***开关量的电梯设备质量评价方法
CN113682911A (zh) * 2021-08-24 2021-11-23 日立楼宇技术(广州)有限公司 一种采样方式的设置、电梯的故障检测方法及相关装置
CN113837604A (zh) * 2021-09-23 2021-12-24 万申科技股份有限公司 一种多源异构数据融合与多维度数据相关性分析***
CN115098484A (zh) * 2022-07-05 2022-09-23 江苏省特种设备安全监督检验研究院 一种特种设备数据的同步交互方法
CN116775888A (zh) * 2023-08-23 2023-09-19 江苏联著实业股份有限公司 一种用于档案形成单位开放审核的方法及***
CN116776653A (zh) * 2023-08-24 2023-09-19 国网浙江省电力有限公司宁波供电公司 一种电力电缆全生命周期追踪方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070213956A1 (en) * 2006-03-10 2007-09-13 Edsa Micro Corporation Systems and methods for real-time protective device evaluation in an electrical power distribution system
CN109947088A (zh) * 2019-04-17 2019-06-28 北京天泽智云科技有限公司 基于模型全生命周期管理的设备故障预警***
CN110825716A (zh) * 2019-06-04 2020-02-21 中国人民解放军92493部队参谋部 数据全生命周期管理***、方法及介质
CN111177916A (zh) * 2019-12-25 2020-05-19 中国航天标准化研究所 一种基于机器深度学习的卫星机电类产品寿命预测方法
CN111401583A (zh) * 2020-03-18 2020-07-10 北京天泽智云科技有限公司 基于预测性维护的自动扶梯全生命周期健康管理***
CN111581194A (zh) * 2020-04-29 2020-08-25 上海市特种设备监督检验技术研究院 基于电梯大数据的预处理和清洗方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070213956A1 (en) * 2006-03-10 2007-09-13 Edsa Micro Corporation Systems and methods for real-time protective device evaluation in an electrical power distribution system
CN109947088A (zh) * 2019-04-17 2019-06-28 北京天泽智云科技有限公司 基于模型全生命周期管理的设备故障预警***
CN110825716A (zh) * 2019-06-04 2020-02-21 中国人民解放军92493部队参谋部 数据全生命周期管理***、方法及介质
CN111177916A (zh) * 2019-12-25 2020-05-19 中国航天标准化研究所 一种基于机器深度学习的卫星机电类产品寿命预测方法
CN111401583A (zh) * 2020-03-18 2020-07-10 北京天泽智云科技有限公司 基于预测性维护的自动扶梯全生命周期健康管理***
CN111581194A (zh) * 2020-04-29 2020-08-25 上海市特种设备监督检验技术研究院 基于电梯大数据的预处理和清洗方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王晨 等: "基于大数据的电梯故障预测新模式", 《中国科技信息》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113071966A (zh) * 2021-04-26 2021-07-06 平安国际智慧城市科技股份有限公司 电梯故障预测方法、装置、设备及存储介质
CN113407734A (zh) * 2021-07-14 2021-09-17 重庆富民银行股份有限公司 基于实时大数据的知识图谱***的构建方法
CN113682911A (zh) * 2021-08-24 2021-11-23 日立楼宇技术(广州)有限公司 一种采样方式的设置、电梯的故障检测方法及相关装置
CN113505947A (zh) * 2021-08-26 2021-10-15 北京磁浮有限公司 一种基于综合监控***开关量的电梯设备质量评价方法
CN113837604A (zh) * 2021-09-23 2021-12-24 万申科技股份有限公司 一种多源异构数据融合与多维度数据相关性分析***
CN115098484A (zh) * 2022-07-05 2022-09-23 江苏省特种设备安全监督检验研究院 一种特种设备数据的同步交互方法
CN115098484B (zh) * 2022-07-05 2023-07-14 江苏省特种设备安全监督检验研究院 一种特种设备数据的同步交互方法
CN116775888A (zh) * 2023-08-23 2023-09-19 江苏联著实业股份有限公司 一种用于档案形成单位开放审核的方法及***
CN116775888B (zh) * 2023-08-23 2023-10-20 江苏联著实业股份有限公司 一种用于档案形成单位开放审核的方法及***
CN116776653A (zh) * 2023-08-24 2023-09-19 国网浙江省电力有限公司宁波供电公司 一种电力电缆全生命周期追踪方法及装置
CN116776653B (zh) * 2023-08-24 2023-12-26 国网浙江省电力有限公司宁波供电公司 一种电力电缆全生命周期追踪方法及装置

Similar Documents

Publication Publication Date Title
CN112256761A (zh) 一种基于电梯全生命周期的大数据挖掘和故障预测方法
US20230213895A1 (en) Method for Predicting Benchmark Value of Unit Equipment Based on XGBoost Algorithm and System thereof
CN111259947A (zh) 一种基于多模态学习的电力***故障预警方法和***
US9633198B2 (en) Detecting anomalous process behavior
CN114579875A (zh) 基于知识图谱的设备故障诊断与维修知识推荐***
CN112558931B (zh) 一种面向用户工作流模式的智能模型构建及运行方法
CN109376247B (zh) 一种基于关联规则的软件缺陷自动分类方法
CN113688169B (zh) 基于大数据分析的矿山安全隐患辨识与预警***
CN113779272A (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
CN116245406B (zh) 基于运维质量管理数据库的软件运维质量评价方法及***
CN111581194A (zh) 基于电梯大数据的预处理和清洗方法
CN115544272A (zh) 基于注意力机制的化工事故原因知识图谱构建方法
Chen et al. Association mining of near misses in hydropower engineering construction based on convolutional neural network text classification
Luo et al. Convolutional neural network algorithm–based novel automatic text classification framework for construction accident reports
WO2017149598A1 (ja) 機器分類装置
CN116205636B (zh) 一种基于物联网技术的地铁设施维护管理方法及***
Bond et al. A hybrid learning approach to prognostics and health management applied to military ground vehicles using time-series and maintenance event data
CN116302984A (zh) 一种测试任务的根因分析方法、装置及相关设备
CN113961708B (zh) 一种基于多层次图卷积网络的电力设备故障溯源方法
Hu et al. A classification model of power operation inspection defect texts based on graph convolutional network
US20230376795A1 (en) Device, computing platform and method of analyzing log files of an industrial plant
CN112463641B (zh) 一种用于软件缺陷核查的故障模式集构建方法及***
CN111221704B (zh) 一种确定办公管理应用***运行状态的方法及***
Wang et al. Research on big data mining and fault prediction based on elevator life cycle
Wang et al. Research on Collection and Preprocessing of Multisource Heterogeneous Elevator Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210122

WD01 Invention patent application deemed withdrawn after publication