CN105608758B - 一种基于算法组态和分布式流计算的大数据分析平台装置及方法 - Google Patents
一种基于算法组态和分布式流计算的大数据分析平台装置及方法 Download PDFInfo
- Publication number
- CN105608758B CN105608758B CN201510962436.3A CN201510962436A CN105608758B CN 105608758 B CN105608758 B CN 105608758B CN 201510962436 A CN201510962436 A CN 201510962436A CN 105608758 B CN105608758 B CN 105608758B
- Authority
- CN
- China
- Prior art keywords
- data
- monitoring
- result
- processing
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000007405 data analysis Methods 0.000 title claims abstract description 15
- 230000015654 memory Effects 0.000 claims abstract description 60
- 230000010354 integration Effects 0.000 claims abstract description 20
- 238000012544 monitoring process Methods 0.000 claims description 69
- 238000012545 processing Methods 0.000 claims description 43
- 238000007418 data mining Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000012423 maintenance Methods 0.000 claims description 5
- 230000005055 memory storage Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 16
- 238000003860 storage Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 238000013500 data storage Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000032683 aging Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005538 encapsulation Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- IMNFDUFMRHMDMM-UHFFFAOYSA-N N-Heptane Chemical compound CCCCCCC IMNFDUFMRHMDMM-UHFFFAOYSA-N 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 229940030980 inova Drugs 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- QCOXCILKVHKOGO-UHFFFAOYSA-N n-(2-nitramidoethyl)nitramide Chemical compound [O-][N+](=O)NCCN[N+]([O-])=O QCOXCILKVHKOGO-UHFFFAOYSA-N 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C3/00—Registering or indicating the condition or the working of machines or other apparatus, other than vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于算法组态和分布式流计算的大数据分析平台装置及方法,包括依次连接的数据源获取装置、数据整合单元、时序数据存储器、计算单元、无线终端和数据服务终端,可以快速、高效、及时地处理海量实时数据,保证计算效率高效,灵活和可扩展强,同时保证设备安全、稳定、高效地运行。
Description
技术领域
本发明涉及设备监测分析应用领域,具体涉及到一种基于算法组态和分布式流计算的大数据分析平台装置及方法。
背景技术
随着计算机技术的飞速发展,各行业的数据急速增长,数据量变的越来越大,类型也越来越多,数据结构也趋于复杂化,传统的数据库不但各设备独立放置,并且需要较大的部署空间,存在不易部署、成本较高等缺点,不能满足用户的一般要求。
时序数据是带时间标签的时间序列数据,其典型特点是产生频率快、严重依赖于采集时间、测点多信息量大。在电力行业中,为了保证设备安全、稳定、高效地运行,通常会对发电、变电等各类设备的运行状态进行实时监测,采集获得大量的时序数据可作为设备运行状态评估、设备运行故障预警、设备可靠性分析等高级应用的基础,因而,如何快速、高效、及时地处理海量实时数据,一直是电力、化工、石油、钢铁等重资产行业面临的一项重大课题。
电力行业中历史业务数据收集和分析、实时或准实时数据的即时分析是电力行业中信息化建设过程中比较重要的内容,它需要一套完整、稳定、契合实际业务场景的大数据分析装置的解决方案,对设备故障预警等实时分析类业务场景提供稳定可靠的底层数据支撑。
近年来,随着云计算、大数据、机器学习、数据挖掘等IT技术迅猛发展,分布式存储、高性能计算在理论研究和技术实践层面均获得了关键性突破,业界涌现出了一批以Hadoop为代表的大数据处理和应用解决方案。
Hadoop是一个分布式***基础架构,包括分布式文件***HDFS(HadoopDistributed FileSystem)、分布式存储***HBase、并行计算编程模型MapReduce等几个核心部分,它可以极大地简化大规模数据的处理过程,但它在功能完整性、运行稳定性方面存在一定的局限性,而基于Hadoop衍生的一些商用大数据平台又跟电力业务场景的实际需求存在偏差,因而,深度分析研究电力行业的业务需求,构建一种基于分布式时序数据服务的大数据分析装置,具有深远的意义和较强的利用价值。
电力行业中业务模型的多样性以及复杂性是电力行业中信息化建设过程中比较核心的内容,算法模型解决了由一系列计算单元依照实际业务需求动态编排,从而形成业务模型的过程,计算单元独立演化能够更好地提高计算单元的准确性;流式计算引擎能够保证计算效率的高效,灵活和可扩展等。
然而,目前并没有专门针对大数据分析平台装置而设计的结合了算法组态和分布式流计算方式的装置。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于算法组态和分布式流计算的大数据分析平台装置及方法,可以快速、高效、及时地处理海量实时数据,保证计算效率高效,灵活和可扩展强,同时保证设备安全、稳定、高效地运行。
本发明提供了一种基于算法组态和分布式流计算的大数据分析平台装置,包括依次连接的数据源获取装置、数据整合单元、时序数据存储器、计算单元、无线终端和数据服务终端,其中数据服务终端还分别与时序数据存储器、数据源获取装置和无线终端连接,
数据源获取装置,用于获取设备监测数据和常规的设备数据,并发送至数据整合单元;
数据整合单元,用于以接收来自数据源获取装置发送的设备监测数据和常规的设备数据,经过预处理后将结果发送给时序数据存储器;
时序数据存储器,用于存储预处理后的数据和配置数据,并且将访问频度高、性能要求高的数据集中缓存到时序数据存储器中的内存器;
计算单元,用于驱动调度引擎来调用和接收时序数据存储器存储的数据,并且依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,其中计算单元包括多个子计算单元,多个子计算单元按照实际业务需求动态配置,每个子计算单元独立存在,能够根据行业专家经验独立演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,回传到时序数据存储器和/或数据服务端;
数据服务端,包括数据服务端处理器、接口单元和显示装置,其中数据服务端处理器用于从时序数据存储器直接读取数据和/或接收来自计算单元处理后的数据,并且进行分析处理,将处理后的结果通过显示装置进行显示,同时通过接口单元将处理后的结果发送给无线终端;
无线终端,用于接收来自数据服务端发送的处理后的结果,并且能够无线发送控制命令至数据服务端,数据服务端接收到控制命令后控制数据源获取装置,调整数据源获取装置的数据采集频率。
进一步地,数据源获取装置包括监测传感器、监测数据存储器和设备数据存储器,其中监测数据存储器分别与监测传感器和数据整合单元连接,数据整合单元还连接设备数据存储器:
监测传感器,用于实时或准实时获取设备监测数据,并将采集到的设备监测数据传输给监测数据存储器;
监测数据存储器,用于将设备监测数据存储,并且以流式输出的方式,将设备监测数据输出至数据整合单元;
设备数据存储器,用于存储常规的设备数据,并且以批量输出的方式,将常规的设备数据输出至数据整合单元;
进一步地,分布式的流式计算引擎的通讯协议都采用统一的标准协议。
进一步地,所述标准协议为消息传输协议MQTT。
进一步地,还包括与数据整合单元连接的人工输入装置,用于在因安全要求实施了隔离措施或不支撑数据接入的情形下输入监测设备数据。
进一步地,配置数据为描述设备监测数据和/或常规的设备数据的业务含义数据、存储结构数据和/或处理逻辑数据。
进一步地,所述访问频度高、性能要求高的数据是指近期的监测数据、常规的设备数据,以及关注率较高的历史指标数据、模型元数据和预处理规则数据。
进一步地,数据服务端处理后的结果为故障预警结果和/或负荷预测结果。
进一步地,所述无线终端为笔记本电脑、平板电脑和/或手机。
本发明还提供了一种基于算法组态和分布式流计算的大数据分析平台装置的大数据分析方法,依次包括如下步骤:
(1)初始化,设置数据服务端的初始参数,根据设置好的初始参数控制监测传感器的采样周期为每秒6次,采样时间为1分钟,将1分钟内采样的数据求平均值A;
(2)在同样的初始参数条件下,重复步骤(1)3次,分别求得3次的平均值B、C、D;
(3)将平均值A、B、C、D求和后再求平均值P:
A.如果则监测传感器性能稳定,进入步骤(4);
B.如果则监测传感器性能不稳定,则进入步骤(1);
(4)实时或准实时获取设备监测数据,并将采集到的设备监测数据传输给监测数据存储器后存储,以流式输出的方式,将设备监测数据输出至数据整合单元;
(5)以批量接入的方式,通过预定义的调度计划自动获取设备数据存储器中的常规的设备数据,将设备监测数据和常规的设备数据以预处理规则进行数据的清洗、过滤、转换的预处理,并将预处理后的数据输出至时序数据存储器进行存储;
(6)将近期的监测数据、常规的设备数据,以及关注率较高的历史指标数据、模型元数据和预处理规则数据集中缓存到时序数据存储器中的内存器;
(7)通过计算单元驱动调度引擎来调用和接收时序数据存储器存储的数据,并且依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,其中计算单元包括多个子计算单元,多个子计算单元按照实际业务需求动态配置,每个子计算单元独立存在,能够根据行业专家经验独立演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,回传到时序数据存储器和/或数据服务端;
(8)从时序数据存储器直接读取数据和/或接收来自计算单元处理后的数据,并且进行分析处理,将处理后的结果通过显示装置进行显示,同时通过接口单元将处理后的结果发送给无线终端;
(9)通过无线终端接收来自数据服务端发送的处理后的结果,根据处理后的结果决定是否发送控制命令至数据服务端,数据服务端接收到控制命令后控制监测传感器,调整监测传感器的数据采集频率,其中处理后的结果为故障预警结果和/或负荷预测结果,根据处理后的结果决定是否发送控制命令至数据服务端满足:
A.当故障预警结果和/或负荷预测结果为正常时,降低监测传感器的数据采集频率;
B.当故障预警结果和/或负荷预测结果为不正常时,提高监测传感器的数据采集频率,并且重复步骤(1)-(9),同时在数据服务端发出警报,在数据服务端的显示装置上实时显示故障预警结果和/或负荷预测结果,并且通知维修人员。
本发明的大数据分析装置和方法,可以实现:
1)以稳定、可靠、高效的开源分布式存储***和并行计算服务为核心,针对重资产行业时间序列数据存储和访问需求定向封装,为设备故障预警等实时分析类业务场景提供了稳定可靠的底层数据支撑;
2)实时和准时的采集数据,时效性高,并且优化设计了数据采集频率,采集效率高,能效低但是效能高,并且装置功能强大,可以使得监测和维修人员在远程控制和监控设备状态,即时处理,处理时效性更高,并且因为缩短了处理时间使得减少了设备损耗,节约了成本;
3)针对***数据的可靠性,设计了平均值数据确认方案,使得监测数据更加稳定可靠,并且通过根据设备的实时状态调整监测频率,减轻了装置的工作负荷,使用寿命更长,性能更加稳定;
4)用分布式的流式计算引擎实现了对基于海量数据计算任务的实时推送、实时计算和输出。
附图说明
图1大数据分析平台装置结构示意图
图2算法组态和分布式流计算方法流程图
具体实施方式
下面详细说明本发明的具体实施,有必要在此指出的是,以下实施只是用于本发明的进一步说明,不能理解为对本发明保护范围的限制,该领域技术熟练人员根据上述本发明内容对本发明做出的一些非本质的改进和调整,仍然属于本发明的保护范围。
本发明提供了一种基于分布式时序数据服务的大数据分析装置,如附图1所示,包括监测传感器1、监测数据存储器2、设备数据存储器3组成的数据源获取装置,还包括数据整合单元4、时序数据存储器5、计算单元6、无线终端8和数据服务终端7,其中监测数据存储器2分别与监测传感器1和数据整合单元4,数据整合单元4还分别连接设备数据存储器3和时序数据存储器5,数据整合单元4、时序数据存储器5、计算单元6和数据服务终端7依次连接,数据服务终端7还分别与时序数据存储器5、监测传感器1和无线终端8连接;
监测传感器,用于实时或准实时获取设备监测数据,并将采集到的设备监测数据传输给监测数据存储器,监测传感器为安装于监测设备上的信息采集传感器,还可以为监测设备安装区域的摄像头、温度检测器等传感器,监测数据存储器可以实时的将设备监测数据存储,并且以流式输出的方式,将设备监测数据输出至数据整合单元。
设备数据存储器用于存储常规的设备数据,并且以批量输出的方式,将常规的设备数据输出至数据整合单,其中常规的设备数据来自于***配置管理,主要用于描述业务数据的业务含义、存储结构和处理逻辑,一般在***配置阶段产生。
数据整合单元,用于以流式接入的方式接收来自监测数据存储器发送的设备监测数据和以批量接入的方式,通过预定义的调度计划自动获取设备数据存储器中的常规的设备数据,数据整合单元将采集到的数据通过批量接入、流式接入、人工导入等多种形式获取,也可以直接连接采集点获取监测数据。接入的数据在存储之前,可以进行必要的预处理,利用预先配置好的预处理规则进行清洗、过滤、转换等操作,数据经过数据整合或者直接存储到时序数据存储器中,对于一些规则等一些访问频率高的数据,一般存储在缓存数据中,对于一些历史业务数据,访问频率不大的数据,经过数据整合后,一般存储在业务数据中;对于***定义的一些数据预处理规则,计算规则,模型数据等数据,一般存储在配置数据中;数据访问服务通过数据访问接口直接读取数据。无论是业务数据还是配置数据,其访问频度、性能需求在具体业务场景中存在较大的差异,对于访问频度高、性能要求高的数据,***将其集中缓存到了***内存中,这些被缓存的业务数据和配置数据统称为缓存数据。一般而言,近期的业务数据、关注率较高的历史指标、模型元数据、数据预处理规则等数据访问频度较高,可视作缓存数据。数据存储能够为数据查询服务提供基础保障,能够为在线计算服务和离线分析服务提供输入,同时也支持相应计算结果的回写。时序数据存储器5中涉及的数据库主要有分布式文件***HDFS(Hadoop Distributed File System),列式数据库HBase(HadoopDatabase)、内存数据库Redis、关系数据库Oracle等。Oracle数据库主要用于存储配置数据以及部分业务数据,HDFS作为大数据平台底层的分布式文件***单元,为上层的HBASE提供支撑,也可以直接存储业务数据中的非时序部分,HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储***,主要用于存储业务数据中的时序部分,Redis是一个基于内存的key-value存储***,在这里主要用于存放缓存数据。
计算单元可以利用行业专家的管理经验结合统计学原理研究分析挖掘算法,以电力设备运行相关的历史数据为输入,训练形成数据挖掘模型,不同的样本数据可形成不同的数据挖掘模型(例:按季节区分),针对设备运行产生的新的时序数据可以重复执行训练过程,进行数据挖掘模型的持续改进;创建完成的数据挖掘模型可参与在线计算,采用实时或准实时的方式分析电力设备的各项评价指标。挖掘模型的训练过程涉及到了批量计算,通过批量计算作业实现;挖掘模型的应用过程涉及到了流式计算,通过流式计算作业实现;此外,两种计算模式还可以用于实现设备评价指标、语音语义识别、文本语义分析等等与挖掘模型无关的计算任务。
计算单元通过驱动调度引擎来调用和接收时序数据存储器存储的数据,并且依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,其中计算单元包括多个子计算单元,多个子计算单元按照实际业务需求动态配置,每个子计算单元独立存在,能够根据行业专家经验独立演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,回传到时序数据存储器和/或数据服务端。计算单元是算法模型的组成部分,计算单元由计算单元设计器灵活设计配置,每个计算单元可以根据行业专家经验独立演化,计算单元是独立存在的,某一个计算单元可以进行版本升级,不断的进行演化,提高计算单元的计算准确性。大数据平台需要支持成千上万个计算模型的大规模实时、准实时流式计算,流引擎必须高效、灵活、可扩展性,易于接入未来可以支撑百万级别甚至千万级别测点的计算,所以使用Spark作为流计算引擎,所有的接入流计算引擎的通讯协议都采用统一的标准,目前统一为MQTT(消息传输协议)协议。Spark提供了一栈式解决方案,支持Batch、Streaming、Graph、Sql等多种混合计算。对于基于消息服务的实时计算结果使用kafka技术,使用kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群机来提供实时的消费;
对于时序数据与计算结果的列式分布式存储,通过封装PI、EDNA、Inova、庚盾等异构类型的实时数据库采用数据连接器,采用的是Hadoop平台中面向列家族的分布式存储大数据HBASE;
对于中间计算结果的集群式缓存,使用Redis;大数据平台中提供的大量数据都需要在短时间快速完成,对于***的吞吐量要求很高,借助分布式内存数据库机制对访问的数据进行缓存可以极大的提高效率。
Redis是一个key-value存储***,和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set--有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与memcached一样,为了保证效率,数据都是缓存在内存中。此外,Redis支持集群模式,可以对在集群节点上的数据进行分片,镜像,极大的提高了分布式内存的可靠性和可扩展性。
不同的外部数据源,对应不同的整合方式:Sqoop支持关系库中的数据导入到大数据平台中;Spark Streaming支持流式数据导入;普通的Spark Job可以提供批量的数据解析和处理。企业服务总线ESB提供了服务的集成和管理。
批量计算作业通过调度引擎驱动,从数据存储区域读入业务历史数据,依据预先编排好的处理逻辑进行计算,计算结果可以回写到数据存储区,也可以通过离线分析服务直接对外提供;流式计算作业也是通过调度引擎驱动,数据从数据存储中以流的方式接入进来,依据预先编排好的处理逻辑进行计算,计算结果可以回写到数据存储区,也可以通过在线计算服务直接对外提供。
计算作业用于定义计算任务的(也称作业节点)拓扑结构和执行逻辑,类似于工作流(Workflow),其定义过程可在***提供的作业设计器中完成,从计算引擎的视角看,每个作业节点对应于一个计算单元(Compute Unit),计算单元对应的程序逻辑称之为算子(Transformation)。***提供可视化建模工具、预置丰富的数据处理和数据展示算子,同时开放算子开发规范,支持实际业务场景的二次开发。
数据服务端可以实现对算法组态和分布式流计算的大数据分析平台装置各类功能的封装,可以实现数据访问服务、在线计算服务和离线分析服务。数据访问服务直接从数据存储区读取数据,它的交互过程不涉及数据计算,可以进一步细分为配置信息访问服务、交互式查询服务,典型应用场景主要是综合查询、可视化展示等。在线计算服务通常的时间跨度在数百毫秒到数秒之间,高并发并且需要快速响应分析结果,典型应用场景包括故障预警、负荷预测等。离线分析服务的时间跨度在数十分钟到数小时之间,主要用于多维统计预测、准实时分析以及聚类、分类等数据挖掘应用,典型应用场景包括故障模式识别、稳定工况分析等。数据服务的交互模式包括同步、异步两种,在线计算服务通常采用同步模式,离线分析服务通常采用异步模式,异步模式会引入消息服务中间件接管计算状态和计算结果信息的传递。
无线终端可以为笔记本电脑、平板电脑和/或手机,监测人员或者维修工作人员可以通过无线终端远程的和数据服务端实现交互,可以主动的实时查询或者被动接收数据服务端推送的监测结果,并且也可以通过无线终端远程的操控数据服务端及装置的其他的部分,实现远程实时的操控、监测,此外对于出现异常的情况,也可以及时的处理。
本发明还提供一种基于算法组态和分布式流计算的大数据分析平台装置的大数据分析方法,依次包括如下步骤:
(1)初始化,设置数据服务端的初始参数,根据设置好的初始参数控制监测传感器的采样周期为每秒6次,采样时间为1分钟,将1分钟内采样的数据求平均值A;
(2)在同样的初始参数条件下,重复步骤(1)3次,分别求得3次的平均值B、C、D;
(3)将平均值A、B、C、D求和后再求平均值P:
A.如果则监测传感器性能稳定,进入步骤(4);
B.如果则监测传感器性能不稳定,则进入步骤(1);
(4)实时或准实时获取设备监测数据,并将采集到的设备监测数据传输给监测数据存储器后存储,以流式输出的方式,将设备监测数据输出至数据整合单元;
(5)以批量接入的方式,通过预定义的调度计划自动获取设备数据存储器中的常规的设备数据,将设备监测数据和常规的设备数据以预处理规则进行数据的清洗、过滤、转换的预处理,并将预处理后的数据输出至时序数据存储器进行存储;
(6)将近期的监测数据、常规的设备数据,以及关注率较高的历史指标数据、模型元数据和预处理规则数据集中缓存到时序数据存储器中的内存器;
(7)通过计算单元驱动调度引擎来调用和接收时序数据存储器存储的数据,并且依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,其中计算单元包括多个子计算单元,多个子计算单元按照实际业务需求动态配置,每个子计算单元独立存在,能够根据行业专家经验独立演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,回传到时序数据存储器和/或数据服务端;
(8)从时序数据存储器直接读取数据和/或接收来自计算单元处理后的数据,并且进行分析处理,将处理后的结果通过显示装置进行显示,同时通过接口单元将处理后的结果发送给无线终端;
(9)通过无线终端接收来自数据服务端发送的处理后的结果,根据处理后的结果决定是否发送控制命令至数据服务端,数据服务端接收到控制命令后控制监测传感器,调整监测传感器的数据采集频率,其中处理后的结果为故障预警结果和/或负荷预测结果,根据处理后的结果决定是否发送控制命令至数据服务端满足:
A.当故障预警结果和/或负荷预测结果为正常时,降低监测传感器的数据采集频率;
B.当故障预警结果和/或负荷预测结果为不正常时,提高监测传感器的数据采集频率,并且重复步骤(1)-(9),同时在数据服务端发出警报,在数据服务端的显示装置上实时显示故障预警结果和/或负荷预测结果,并且通知维修人员。
本发明的算法组态和分布式流计算的大数据分析平台装置及方法是通过软件和硬件装置的配合完成,但是并不局限于此,在一定条件下,也可以完全通过硬件的方式实现。
尽管为了说明的目的,已描述了本发明的示例性实施方式,但是本领域的技术人员将理解,不脱离所附权利要求中公开的发明的范围和精神的情况下,可以在形式和细节上进行各种修改、添加和替换等的改变,而所有这些改变都应属于本发明所附权利要求的保护范围,并且本发明要求保护的产品各个部门和方法中的各个步骤,可以以任意组合的形式组合在一起。因此,对本发明中所公开的实施方式的描述并非为了限制本发明的范围,而是用于描述本发明。相应地,本发明的范围不受以上实施方式的限制,而是由权利要求或其等同物进行限定。
Claims (1)
1.一种利用基于算法组态和分布式流计算的大数据分析平台装置的大数据分析方法,其特征在于,依次包括如下步骤:
(1)初始化,设置数据服务端的初始参数,根据设置好的初始参数控制监测传感器的采样周期为每秒6次,采样时间为1分钟,以1分钟内采样的数据求平均值A;
(2)在同样的初始参数条件下,重复步骤(1)3次,分别求得3次的平均值B、C、D;
(3)将平均值A、B、C、D求和后再求平均值P:
A.如果则监测传感器性能稳定,进入步骤(4);
B.如果则监测传感器性能不稳定,则进入步骤(1);
(4)实时或准实时获取设备监测数据,并将采集到的设备监测数据传输给监测数据存储器后存储,以流式输出的方式,将设备监测数据输出至数据整合单元;
(5)以批量接入的方式,通过预定义的调度计划自动获取设备数据存储器中的常规的设备数据,将设备监测数据和常规的设备数据以预处理规则进行数据的清洗、过滤、转换的预处理,并将预处理后的数据输出至时序数据存储器进行存储;
(6)将近期的设备监测数据、常规的设备数据,以及关注率较高的历史指标数据、模型元数据和预处理规则数据集中缓存到时序数据存储器中的内存器;
(7)通过计算单元驱动调度引擎来调用和接收时序数据存储器存储的数据,并且依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型,其中计算单元包括多个子计算单元,多个子计算单元按照实际业务需求动态配置,每个子计算单元独立存在,能够根据行业专家经验独立演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,回传到时序数据存储器和/或数据服务端;
(8)从时序数据存储器直接读取数据和/或接收来自计算单元处理后的数据,并且进行分析处理,将处理后的结果通过显示装置进行显示,同时通过接口单元将处理后的结果发送给无线终端;
(9)通过无线终端接收来自数据服务端发送的处理后的结果,根据处理后的结果决定是否发送控制命令至数据服务端,数据服务端接收到控制命令后控制监测传感器,调整监测传感器的数据采集频率,其中处理后的结果为故障预警结果和/或负荷预测结果,根据处理后的结果决定是否发送控制命令至数据服务端满足:
A.当故障预警结果和/或负荷预测结果为正常时,降低监测传感器的数据采集频率;
B.当故障预警结果和/或负荷预测结果为不正常时,提高监测传感器的数据采集频率,并且重复步骤(1)-(9),同时在数据服务端发出警报,在数据服务端的显示装置上实时显示故障预警结果和/或负荷预测结果,并且通知维修人员。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510962436.3A CN105608758B (zh) | 2015-12-17 | 2015-12-17 | 一种基于算法组态和分布式流计算的大数据分析平台装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510962436.3A CN105608758B (zh) | 2015-12-17 | 2015-12-17 | 一种基于算法组态和分布式流计算的大数据分析平台装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105608758A CN105608758A (zh) | 2016-05-25 |
CN105608758B true CN105608758B (zh) | 2018-03-27 |
Family
ID=55988668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510962436.3A Active CN105608758B (zh) | 2015-12-17 | 2015-12-17 | 一种基于算法组态和分布式流计算的大数据分析平台装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105608758B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9037698B1 (en) * | 2006-03-14 | 2015-05-19 | Amazon Technologies, Inc. | Method and system for collecting and analyzing time-series data |
CN106371366A (zh) * | 2016-09-22 | 2017-02-01 | 南京中新赛克科技有限责任公司 | 基于arm架构的大数据采集与分析平台 |
CN106527384B (zh) * | 2016-12-19 | 2019-03-05 | 华南理工大学 | 一种基于云平台辅助切换策略的生产调控方法 |
CN106777243A (zh) * | 2016-12-27 | 2017-05-31 | 浪潮软件集团有限公司 | 一种流式数据分析的动态建模 |
CN107016231A (zh) * | 2017-02-21 | 2017-08-04 | 广州七乐康药业连锁有限公司 | 一种基于云平台实现医疗数据计算的方法及*** |
CN107145467A (zh) * | 2017-05-13 | 2017-09-08 | 贾宏博 | 一种分布式实时计算硬件*** |
CN107451663B (zh) * | 2017-07-06 | 2021-04-20 | 创新先进技术有限公司 | 算法组件化、基于算法组件建模方法、装置以及电子设备 |
CN107609652B (zh) * | 2017-08-30 | 2019-10-25 | 第四范式(北京)技术有限公司 | 执行机器学习的分布式***及其方法 |
CN110019543A (zh) * | 2017-09-12 | 2019-07-16 | 中兴通讯股份有限公司 | 一种时序聚类的方法及装置 |
CN108170825B (zh) * | 2018-01-05 | 2022-08-12 | 上海电气分布式能源科技有限公司 | 基于云平台的分布式能源数据监控清洗方法 |
CN108984279A (zh) * | 2018-07-02 | 2018-12-11 | 山东汇贸电子口岸有限公司 | 一种面向物联网传统sql开发人员的流式计算方法 |
CN109003459B (zh) * | 2018-07-17 | 2020-08-11 | 泉州装备制造研究所 | 一种基于分层流计算的区域交通信号控制方法及*** |
CN109344322A (zh) * | 2018-08-16 | 2019-02-15 | 中国电子科技集团公司电子科学研究院 | 复杂网络的关系图谱挖掘分析平台、方法及存储介质 |
CN109862094B (zh) * | 2019-01-31 | 2022-06-07 | 智恒科技股份有限公司 | 一种基于流计算的水务设备数据共享方法及装置 |
CN110162515A (zh) * | 2019-04-30 | 2019-08-23 | 中国科学院深圳先进技术研究院 | 一种解耦合的弹性数据仓库架构 |
CN110363383A (zh) * | 2019-06-03 | 2019-10-22 | 华东电力试验研究院有限公司 | 一种基于数字化发展下的分布式发电监测技术 |
CN110377653B (zh) * | 2019-07-15 | 2021-05-07 | 武汉中地数码科技有限公司 | 一种实时大数据计算与存储方法及*** |
CN110457330B (zh) * | 2019-08-21 | 2022-09-13 | 北京远舢智能科技有限公司 | 一种时序数据管理平台 |
CN112578679B (zh) * | 2019-09-30 | 2024-02-13 | 北京国双科技有限公司 | 控制***及方法、存储介质及电子设备 |
CN111124806B (zh) * | 2019-11-25 | 2023-09-05 | 山东鲁软数字科技有限公司 | 一种基于分布式调度任务的设备状态实时监测方法及*** |
CN111352872A (zh) * | 2020-02-20 | 2020-06-30 | 北京字节跳动网络技术有限公司 | 执行引擎、数据处理方法、装置、电子设备和介质 |
CN113590724A (zh) * | 2021-08-03 | 2021-11-02 | 厦门至恒融兴信息技术股份有限公司 | 数据指标综合管理与可视化评价方法与*** |
CN114546993A (zh) * | 2022-04-24 | 2022-05-27 | 慧士得(南京)科技有限公司 | 一种基于流式处理的工业传感器数据处理方法 |
CN115185489B (zh) * | 2022-05-25 | 2023-10-20 | 中核武汉核电运行技术股份有限公司 | 一种时序数据算法组态***和方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102685221A (zh) * | 2012-04-29 | 2012-09-19 | 华北电力大学(保定) | 一种状态监测数据的分布式存储与并行挖掘方法 |
CN103761309A (zh) * | 2014-01-23 | 2014-04-30 | ***(深圳)有限公司 | 一种运营数据处理方法及*** |
CN105069703A (zh) * | 2015-08-10 | 2015-11-18 | 国家电网公司 | 一种电网海量数据管理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352495B2 (en) * | 2009-12-15 | 2013-01-08 | Chalklabs, Llc | Distributed platform for network analysis |
-
2015
- 2015-12-17 CN CN201510962436.3A patent/CN105608758B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102685221A (zh) * | 2012-04-29 | 2012-09-19 | 华北电力大学(保定) | 一种状态监测数据的分布式存储与并行挖掘方法 |
CN103761309A (zh) * | 2014-01-23 | 2014-04-30 | ***(深圳)有限公司 | 一种运营数据处理方法及*** |
CN105069703A (zh) * | 2015-08-10 | 2015-11-18 | 国家电网公司 | 一种电网海量数据管理方法 |
Non-Patent Citations (2)
Title |
---|
智能配用电大数据需求分析与应用研究;王继业等;《中国电机工程学报》;20150420;第1829-1836页 * |
电力用户侧大数据分析与并行负荷预测;王德文等;《中国电机工程学报》;20150205;第527-537页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105608758A (zh) | 2016-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105608758B (zh) | 一种基于算法组态和分布式流计算的大数据分析平台装置及方法 | |
CN105608144B (zh) | 一种基于多层模型迭代的大数据分析平台装置及方法 | |
CN105427193B (zh) | 一种基于分布式时序数据服务的大数据分析装置及方法 | |
CN107943668B (zh) | 计算机服务器集群日志监控方法及监控平台 | |
CN106294644B (zh) | 一种基于大数据技术的海量时序数据收集处理装置及方法 | |
CN110430260A (zh) | 一种基于大数据云计算支撑的机器人云平台及工作方法 | |
CN106202566A (zh) | 一种基于大数据的海量用电数据混合存储***及方法 | |
CN102955977A (zh) | 一种基于云技术的能效服务方法及其能效服务平台 | |
CN104903894A (zh) | 用于分布式数据库查询引擎的***和方法 | |
CN103761309A (zh) | 一种运营数据处理方法及*** | |
CN105069025A (zh) | 一种大数据的智能聚合可视化与管控*** | |
KR20150112357A (ko) | 센서 데이터 처리 시스템 및 방법 | |
CN111259073A (zh) | 基于日志、流量和业务访问的业务***运行状态智能研判*** | |
US20150213035A1 (en) | Search Engine System and Method for a Utility Interface Platform | |
CN112181960A (zh) | 一种基于AIOps的智能运维框架*** | |
CN109507924A (zh) | 用于油田作业设备的远程监控*** | |
CN114416855A (zh) | 一种基于电力大数据的可视化平台及方法 | |
CN111091240A (zh) | 一种公共机构电力能效监测***及服务方法 | |
CN109639791A (zh) | 一种容器环境下云工作流调度方法及*** | |
CN115423429A (zh) | 基于图像和声音信息的多模态一体化配网运营*** | |
CN112749153A (zh) | 一种工业网络数据管理*** | |
CN115344207A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN113111261A (zh) | 一种云平台的数据处理方法、云平台及全景分析*** | |
CN111125450A (zh) | 一种多层拓扑网络资源对象的管理方法 | |
CN105223927A (zh) | 一种连续铸造云计算研发制造*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 250101 5th floor, block B, Yinhe building, 2008 Xinluo street, high tech Zone, Jinan City, Shandong Province Patentee after: Shandong luruan Digital Technology Co.,Ltd. Address before: 250101 5th floor, block B, Yinhe building, 2008 Xinluo street, high tech Zone, Jinan City, Shandong Province Patentee before: SHANDONG LUNENG SOFTWARE TECHNOLOGY Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |