CN107463620A - 一种基于数据挖掘的电梯事故预警预报*** - Google Patents
一种基于数据挖掘的电梯事故预警预报*** Download PDFInfo
- Publication number
- CN107463620A CN107463620A CN201710543399.1A CN201710543399A CN107463620A CN 107463620 A CN107463620 A CN 107463620A CN 201710543399 A CN201710543399 A CN 201710543399A CN 107463620 A CN107463620 A CN 107463620A
- Authority
- CN
- China
- Prior art keywords
- data
- mining
- module
- elevator
- warning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开的一种基于数据挖掘的电梯事故预警预报***,包括运行于Hadoop平台上的数据导入模块、数据挖掘模块以及数据导出模块,数据导入模块将电梯远程监管***数据库SQLServer中的原始数据导入作为数据挖掘的数据源进行保存;数据挖掘模块对保存的数据源进行数据挖掘处理;数据导出模块将数据挖掘处理后的结果导出到电梯远程监管***数据库SQLServer中,用于后续分析。本发明公开的一种基于数据挖掘的电梯事故预警预报***对电梯数据进行聚类分析及关联规则挖掘,不但保证了数据挖掘的充分性,而且提高了数据挖掘的效率,为电梯事故的预警预报提供了有力的数据支持,适用于电梯监控及电梯救援。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种基于数据挖掘的电梯事故预警预报***。
背景技术
目前,虽然国内对于大数据在电梯安全方面的研究越来越多,电梯智慧化的管理模式也为大数据在电梯安全方面的应用提供了更大的可能,近几年来我国多个城市更是逐步实现了大数据平台对电梯安全的管控,加强了电梯的维护水平,提升了电梯的救援效率,但是电梯事故的预警预报依然没有完全实现。
发明内容
本发明的目的在于提供一种基于数据挖掘的电梯事故预警预报***,采用Hadoop平台对电梯数据进行数据挖掘分析,挖掘效率高、结果可靠,能够实现电梯事故的预警预报。
本发明所采用的技术方案是:一种基于数据挖掘的电梯事故预警预报***,包括运行于Hadoop平台上的数据导入模块、数据挖掘模块以及数据导出模块,
数据导入模块通过Sqoop将电梯远程监管***数据库SQLServer中的原始数据导入后到HDFS和Hive中作为数据挖掘的数据源进行保存;
然后利用利用数据挖掘模块保存的数据源进行数据挖掘处理;
数据导出模块通过Sqoop将数据挖掘模块挖掘处理后的结果导出到电梯远程监管***数据库SQLServer中,用于后续分析。
本发明的特点还在于,
还包括数据预处理模块,数据预处理模块在数据挖掘前,先对HDFS和Hive中保存的数据源进行清洗,然后再重新保存到HDFS和Hive中作为数据挖掘的数据源进行保存。
根据数据源的特点和数据挖掘的目标,数据预处理模块对数据源利用HQL和MapReduce进行清洗,具体利用HQL完成缺失值删除和缺失值补充工作,利用MapReduce完成数据去重工作。
还包括数据调度模块,实现对数据导入模块、数据预处理模块、数据挖掘模块以及数据导出模块进行调度和整合。
数据导入模块根据需求分为增量导入和全量导入。
数据挖掘模块利用改进的K-Means算法和Apriori算法对数据进行挖掘处理。
改进的K-Means算法具体为:通过Canopy算法删除数据集中的离群点,获得k个初始聚类中心,即获得k值,得到新的数据源;将新的数据源利用K-Means算法中的方法选取多组初始聚类中心;通过准则函数确定最优的初始聚类中心;将新的数据源、k值及最优的初始聚类中心应用于K-Means算法,得到最终的聚类结果。
本发明的有益效果是:本发明的一种基于数据挖掘的电梯事故预警预报***用于对电梯数据进行聚类分析及关联规则挖掘,不但保证了数据挖掘的充分性,而且提高了数据挖掘的效率,成本低、效率高、可扩展性好,为电梯事故的预警预报提供了有力的数据支持,适用于电梯监控及电梯救援。具体而言,具有以下优点:
1、设计构思新颖,整个***基于Hadoop平台来实现,且改进了数据挖掘的算法,使得挖掘效果更好、效率更高;
2、充分利用了Hadoop平台本身具有的高可靠性、高扩展性、高效性、成本低的特点;
3、采用了两种改进的数据挖掘算法,保证了数据挖掘的充分性;
4、该方法中用到的各个模块相互独立、互不影响,除了调度模块任何一个模块均可作为执行模块,具有较高的可扩展性。
附图说明
图1是本发明的一种基于数据挖掘的电梯事故预警预报***采用的改进的K-Means算法流程图;
图2是是本发明的一种基于数据挖掘的电梯事故预警预报***采用的Apriori算法流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提供的一种基于数据挖掘的电梯事故预警预报***,包括以下几个部分:
第一部分,数据导入模块:将电梯远程监管***数据库SQLServer中的数据导入到Hadoop平台的HDFS或者Hive中,建成数据仓库,用于后续的数据挖掘。
本实施例中,有些表需要一次性将数据库中的所有历史数据都导入至HDFS中,即全量导入;有些表则需要该模块定期执行将前一天的数据定期导入HDFS中,即增量导入。这样数据仓库的数据才能与数据库同步,这也体现了数据仓库时变的特点。
第二部分,数据预处理模块:该模块的主要作用是对导入到Hadoop上的数据进行清洗,针对不同的清洗目标,采用的清洗方法也不同,主要利用HQL与MapReduce来完成,既保证了数据的全面清洗又确保了清洗时间不会过长。
本实施例中主要包括以下几个方面:数据清洗、数据集成、数据转换和数据规约等。数据清洗包括删除掉缺失严重的数据,删除掉无价值的数据;数据集成主要指删除重复数据;数据规约通过构造属性来完成;数据规约则值数据格式的规范化处理。数据集成部分利用了MapReduce,其他部分则利用HQL来完成。该方法的数据处理效率较高,节省预处理的时间。
第三部分,数据挖掘模块:采用改进的聚类分析算法K-Means和关联规则算法Apriori,既对已有的电梯故障进行了多方面的分类分析又分析了故障之间可能存在的关系。
本发明中所用的改进的K-Means算法的流程如图1所示,通过Canopy算法删除数据集中的离群点,获得k值,得到新的数据源;将新的数据源利用K-Means算法中的方法选取多组初始聚类中心;通过准则函数确定最优的初始聚类中心;将新的数据源、k值及初始聚类中心应用于K-Means算法,得到最终的聚类结果。Apriori算法的流程如图2所示,将数据库划分为n个大小相同的数据块,分别发送的不同的工作节点。改进后的K-Means算法和Apriori算法经过实验表明,在加速比和可扩展性方面均有明显提升,用于数据挖掘效率高、效果好。
第四部分,数据导出模块:与数据导入模块结构相同,其通过Sqoop将数据挖掘模块挖掘处理后的结果导出到电梯远程监管***数据库SQLServer中,用于后续分析。
本实施例中数据导出模块可以直接在数据导入模块的全量导入上修改,因为数据导出模块和数据导入模块实际上都是基于Sqoop开发,两者有很强的相似之处,大同小异。
第五部分,数据调度模块:该模块完成后,实现了对数据导入模块、数据预处理模块、数据挖掘模块以及数据导出模块进行调度和整合,即实现了完整的基于数据挖掘的电梯事故预警预报***,使用户可以操作完成所有工作。
本实施例中将所有模块整合,使得所有模块形成一个完整的工作流,是用户可操作的模块。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。
Claims (7)
1.一种基于数据挖掘的电梯事故预警预报***,其特征在于,包括运行于Hadoop平台上的数据导入模块、数据挖掘模块以及数据导出模块,
数据导入模块通过Sqoop将电梯远程监管***数据库SQLServer中的原始数据导入后到HDFS和Hive中作为数据挖掘的数据源进行保存;
利用数据挖掘模块对保存的数据源进行数据挖掘处理;
数据导出模块通过Sqoop将所述数据挖掘模块挖掘处理后的结果导出到所述电梯远程监管***数据库SQLServer中,用于后续分析。
2.如权利要求1所述的一种基于数据挖掘的电梯事故预警预报***,其特征在于,还包括数据预处理模块,所述数据预处理模块在数据挖掘前,先对所述HDFS和Hive中保存的数据源进行清洗,然后再重新保存到HDFS和Hive中作为数据挖掘的数据源进行保存。
3.如权利要求2所述的一种基于数据挖掘的电梯事故预警预报***,其特征在于,根据所述数据源的特点和数据挖掘的目标,所述数据预处理模块对数据源利用HQL和MapReduce进行清洗,具体利用HQL完成缺失值删除和缺失值补充工作,利用MapReduce完成数据去重工作。
4.如权利要求2所述的一种基于数据挖掘的电梯事故预警预报***,其特征在于,还包括数据调度模块,利用其实现对所述数据导入模块、数据预处理模块、数据挖掘模块以及数据导出模块进行调度和整合。
5.如权利要求1所述的一种基于数据挖掘的电梯事故预警预报***,其特征在于,所述数据导入模块根据需求分为增量导入和全量导入。
6.如权利要求1所述的一种基于数据挖掘的电梯事故预警预报***,其特征在于,所述数据挖掘模块利用改进的K-Means算法和Apriori算法对数据进行挖掘处理。
7.如权利要求1所述的一种基于数据挖掘的电梯事故预警预报***,其特征在于,所述改进的K-Means算法具体为:通过Canopy算法删除数据集中的离群点,获得k个初始聚类中心,即获得k值,得到新的数据源;将新的数据源利用K-Means算法中的方法选取多组初始聚类中心;通过准则函数确定最优的初始聚类中心;将新的数据源、k值及最优的初始聚类中心应用于K-Means算法,得到最终的聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710543399.1A CN107463620A (zh) | 2017-07-05 | 2017-07-05 | 一种基于数据挖掘的电梯事故预警预报*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710543399.1A CN107463620A (zh) | 2017-07-05 | 2017-07-05 | 一种基于数据挖掘的电梯事故预警预报*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107463620A true CN107463620A (zh) | 2017-12-12 |
Family
ID=60544198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710543399.1A Pending CN107463620A (zh) | 2017-07-05 | 2017-07-05 | 一种基于数据挖掘的电梯事故预警预报*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107463620A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108319652A (zh) * | 2017-12-28 | 2018-07-24 | 浙江新再灵科技股份有限公司 | 一种基于hdfs的电梯数据的列式文件存储***及方法 |
CN108764555A (zh) * | 2018-05-22 | 2018-11-06 | 浙江大学城市学院 | 一种基于Hadoop的共享单车停放点选址方法 |
CN110069551A (zh) * | 2019-04-25 | 2019-07-30 | 江南大学 | 基于Spark的医疗设备运维信息挖掘分析***及其使用方法 |
CN111309718A (zh) * | 2020-02-19 | 2020-06-19 | 南方电网科学研究院有限责任公司 | 一种配网电压数据缺失填补方法及装置 |
CN111651499A (zh) * | 2020-05-28 | 2020-09-11 | 上海卓越睿新数码科技有限公司 | 一种基于大数据技术和数学算法的学习行为分计算方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102790706A (zh) * | 2012-07-27 | 2012-11-21 | 福建富士通信息软件有限公司 | 海量事件安全分析方法及装置 |
CN103268406A (zh) * | 2013-05-09 | 2013-08-28 | 湖南大学 | 一种基于煤矿安全培训游戏的数据挖掘***及方法 |
CN106651188A (zh) * | 2016-12-27 | 2017-05-10 | 贵州电网有限责任公司贵阳供电局 | 一种输变电设备多源状态评估数据处理方法及其应用 |
-
2017
- 2017-07-05 CN CN201710543399.1A patent/CN107463620A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102790706A (zh) * | 2012-07-27 | 2012-11-21 | 福建富士通信息软件有限公司 | 海量事件安全分析方法及装置 |
CN103268406A (zh) * | 2013-05-09 | 2013-08-28 | 湖南大学 | 一种基于煤矿安全培训游戏的数据挖掘***及方法 |
CN106651188A (zh) * | 2016-12-27 | 2017-05-10 | 贵州电网有限责任公司贵阳供电局 | 一种输变电设备多源状态评估数据处理方法及其应用 |
Non-Patent Citations (4)
Title |
---|
冯永明: "基于Hadoop的电梯安全大数据挖掘研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张宏安: "基于Hadoop的多数据源数据挖掘技术应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈姗姗: "基于Hadoop的用户行为分析方法的应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈树芳 等: "电梯事故情报类信息数据挖掘与分析", 《安全分析》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108319652A (zh) * | 2017-12-28 | 2018-07-24 | 浙江新再灵科技股份有限公司 | 一种基于hdfs的电梯数据的列式文件存储***及方法 |
CN108764555A (zh) * | 2018-05-22 | 2018-11-06 | 浙江大学城市学院 | 一种基于Hadoop的共享单车停放点选址方法 |
CN108764555B (zh) * | 2018-05-22 | 2021-08-31 | 浙江大学城市学院 | 一种基于Hadoop的共享单车停放点选址方法 |
CN110069551A (zh) * | 2019-04-25 | 2019-07-30 | 江南大学 | 基于Spark的医疗设备运维信息挖掘分析***及其使用方法 |
CN111309718A (zh) * | 2020-02-19 | 2020-06-19 | 南方电网科学研究院有限责任公司 | 一种配网电压数据缺失填补方法及装置 |
CN111309718B (zh) * | 2020-02-19 | 2023-05-23 | 南方电网科学研究院有限责任公司 | 一种配网电压数据缺失填补方法及装置 |
CN111651499A (zh) * | 2020-05-28 | 2020-09-11 | 上海卓越睿新数码科技有限公司 | 一种基于大数据技术和数学算法的学习行为分计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107463620A (zh) | 一种基于数据挖掘的电梯事故预警预报*** | |
CN107256219B (zh) | 应用于自动列车控制***海量日志的大数据融合分析方法 | |
CN104820670B (zh) | 一种电力信息大数据的采集和存储方法 | |
CN106651633A (zh) | 一种基于大数据技术的用电信息采集***及其采集方法 | |
CN105608758B (zh) | 一种基于算法组态和分布式流计算的大数据分析平台装置及方法 | |
CN104331435B (zh) | 一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法 | |
CN103593422A (zh) | 一种异构数据库的虚拟访问管理方法 | |
CN106874482A (zh) | 一种基于大数据技术的图形化的数据预处理的装置及方法 | |
CN108595473A (zh) | 一种基于云计算的大数据应用平台 | |
CN106850249A (zh) | 基于大数据分析的通信网络预警分析*** | |
CN105844395A (zh) | 一种冷热电混合能源综合信息管理*** | |
CN103793756A (zh) | 一种变压器经济运行特征分析方法 | |
CN106446084A (zh) | 一种互联网人物搜索信息整合分析方法 | |
CN111767677A (zh) | 一种基于ga算法的梯级泵站群扬程优化分配方法 | |
CN107590225A (zh) | 一种基于分布式数据挖掘算法的可视化管理*** | |
Sheng et al. | Data Mining in census data with CART | |
CN102098730A (zh) | 一种基于无线传感网络的多数据流处理方法 | |
CN111556108B (zh) | 基于云平台的电力大数据采集***和方法 | |
Yongfu et al. | Connotation and selection of disruptive technologies that lead industrial change | |
CN114881352A (zh) | 一种柔性建筑综合能源大数据智慧管理平台及构建方法 | |
Wu et al. | The design of distributed power big data analysis framework and its application in residential electricity analysis | |
CN115705364A (zh) | 一种基于设备运行特征的电网监控知识图谱构建方法 | |
Chen et al. | Research on equipment situation display based on multi-source data fusion | |
CN105469181A (zh) | 一种基于大数据分析的铝电解过程能效管理*** | |
CN106611376A (zh) | 一种矿井智能量矿及数据采集管理*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171212 |
|
RJ01 | Rejection of invention patent application after publication |