CN107704359B - 一种大数据平台的监控*** - Google Patents

一种大数据平台的监控*** Download PDF

Info

Publication number
CN107704359B
CN107704359B CN201710784193.8A CN201710784193A CN107704359B CN 107704359 B CN107704359 B CN 107704359B CN 201710784193 A CN201710784193 A CN 201710784193A CN 107704359 B CN107704359 B CN 107704359B
Authority
CN
China
Prior art keywords
module
data
monitoring
fault
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710784193.8A
Other languages
English (en)
Other versions
CN107704359A (zh
Inventor
白云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tianping Inspection Bank Co ltd
Original Assignee
Beijing Tianping Inspection Bank Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tianping Inspection Bank Co ltd filed Critical Beijing Tianping Inspection Bank Co ltd
Priority to CN201710784193.8A priority Critical patent/CN107704359B/zh
Publication of CN107704359A publication Critical patent/CN107704359A/zh
Application granted granted Critical
Publication of CN107704359B publication Critical patent/CN107704359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0796Safety measures, i.e. ensuring safe condition in the event of error, e.g. for controlling element
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种大数据平台的监控***,包括监控模块、数据存储模块、大数据服务器、报警模块和日志模块;所述大数据服务器包括数据读取模块、数据处理模块、数据分析模块和故障判断规则模块。本发明所述监控***可以对大数据平台的运行情况进行实时监控,对异常状况实现预警,在出现故障前采取相应措施,防患于未然。同时在检测到发生故障后可以根据预设的故障解除规则、通过自恢复模块自动关闭或重启相应的服务,使故障能够自动解除。当故障复检模块检测到故障仍然不能解除时,报警模块向管理人员发出警报,保证故障第一时间进行处理。

Description

一种大数据平台的监控***
技术领域
本发明涉及大数据技术领域,具体说是一种大数据平台的监控***。
背景技术
近年来,随着社会信息化技术的不断提高以及互联网技术的快速普及,诸多业务领域产生海量、实时的数据。大数据平台的规模在不断扩大和增多,网络规模大、业务量多,这时将监控机制引入大数据平台,建立一个强大的大数据平台运行监控***显得尤为重要。大数据平台的监控信息是海量的,监控资源是多层次、多来源的,大数据平台的动态性、复杂性给大数据平台的监控***带来诸多困难。
现有的大数据平台中缺少统一的监控功能,不能实时的展示大数据平台中作用运行状态和对作业的统计分析功能的匮乏,监控的可操作性差,对大数据平台进行实时监控时智能化水平较低。如何有效的实时监控大数据平台并及时对大数据平台的瓶颈进行预测分析,在出现故障前采取相应措施,以及在故障发生后快速解除故障,是提高大数据平台质量的关键。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种大数据平台的监控***,可以对大数据平台的运行情况进行实时监控,对异常状况实现预警,在出现故障前采取相应措施,在检测到发生故障后可以使故障能够自动解除或向管理人员发出警报,保证故障第一时间得到处理。
为达到以上目的,本发明采取的技术方案是:
一种大数据平台的监控***,包括监控模块、数据存储模块、大数据服务器、报警模块和日志模块;所述大数据服务器包括数据读取模块、数据处理模块、数据分析模块和故障判断规则模块;
所述监控模块内嵌有预设的监控规则;所述监控模块用于根据预设的监控规则对大数据平台进行监控,并将监控数据存储到数据存储模块;
所述数据存储模块用于存储监控模块采集的监控数据;
所述数据读取模块用于从数据存储模块读取监控数据,并将读取到的监控数据发送到数据处理模块;
所述数据处理模块对接收到的监控数据,经运算放大器放大、A/D转换器转换和滤波处理后发送到数据分析模块;
所述故障判断规则模块用于预设故障判断规则;
所述数据分析模块用于根据处理后的监控数据和故障判断规则,判断***是否出现故障;
所述报警模块用于***出现故障时向管理人员发出警报;
所述日志模块用于记录***和用户的行为,查看***故障原因,监视***运行情况;
所述监控***还包括自恢复模块,所述自恢复模块内嵌有预设的故障解除规则,用于***出现故障时,根据故障解除规则自动关闭或重启相应的服务,或采用补偿回滚方式修复故障。
在上述方案的基础上,所述大数据平台是由硬件设备组成的分布式集群架构;所述数据存储模块为云存储***。
在上述方案的基础上,所述监控数据包括电压、电流、功率、温度、开关信号、用户访问信息、服务状态信息和***运行状态信息。
在上述方案的基础上,所述数据分析模块,将处理后的监控数据与故障判断规则中预设的阈值进行对比,若在阈值范围内则判定***正常,若超出阈值范围则判定***故障。
在上述方案的基础上,所述大数据服务器还包括预测模块,用于当数据分析模块判定***正常时,根据处理后的监控数据和故障判断规则中预设的阈值预测***是否即将出现异常,当预测***即将出现异常时,通过报警模块向管理人员发出预警。
在上述方案的基础上,所述数据读取模块与数据存储模块通过JDBC接口连接。
在上述方案的基础上,所述监控***还包括故障复检模块,用于当自恢复模块根据故障解除规则自动关闭或重启相应的服务,或采用补偿回滚方式修复故障后,再次检查故障是否已解除。
在上述方案的基础上,所述日志模块采集日志的方法包括:文本方式采集、SNMPTrap方式采集、syslog方式采集、Telnet采集和串口采集。
本发明所述的一种大数据平台的监控***,具有以下有益效果:
本发明所述监控***可以对大数据平台的运行情况进行实时监控,对异常状况实现预警,在出现故障前采取相应措施,防患于未然。同时在检测到发生故障后可以根据预设的故障解除规则、通过自恢复模块自动关闭或重启相应的服务,使故障能够自动解除。当故障复检模块检测到故障仍然不能解除时,报警模块向管理人员发出警报,保证故障第一时间进行处理。
附图说明
本发明有如下附图:
图1本发明所述***的结构示意图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
如图1所示,本发明所述的一种大数据平台的监控***,包括监控模块、数据存储模块、大数据服务器、报警模块和日志模块;所述大数据服务器包括数据读取模块、数据处理模块、数据分析模块和故障判断规则模块;
所述监控模块内嵌有预设的监控规则;所述监控模块用于根据预设的监控规则对大数据平台进行监控,并将监控数据存储到数据存储模块;
所述数据存储模块用于存储监控模块采集的监控数据;
所述数据读取模块用于从数据存储模块读取监控数据,并将读取到的监控数据发送到数据处理模块;
所述数据处理模块对接收到的监控数据,经运算放大器放大、A/D转换器转换和滤波处理后发送到数据分析模块;
所述故障判断规则模块用于预设故障判断规则;
所述数据分析模块用于根据处理后的监控数据和故障判断规则,判断***是否出现故障;
所述报警模块用于***出现故障时向管理人员发出警报;
所述日志模块用于记录***和用户的行为,查看***故障原因,监视***运行情况;
所述监控***还包括自恢复模块,所述自恢复模块内嵌有预设的故障解除规则,用于***出现故障时,根据故障解除规则自动关闭或重启相应的服务,或采用补偿回滚方式修复故障。
在上述方案的基础上,所述大数据平台是由硬件设备组成的分布式集群架构;所述数据存储模块为云存储***。
在上述方案的基础上,所述监控数据包括电压、电流、功率、温度、开关信号、用户访问信息、服务状态信息和***运行状态信息。
在上述方案的基础上,所述数据分析模块,将处理后的监控数据与故障判断规则中预设的阈值进行对比,若在阈值范围内则判定***正常,若超出阈值范围则判定***故障。
在上述方案的基础上,所述大数据服务器还包括预测模块,用于当数据分析模块判定***正常时,根据处理后的监控数据和故障判断规则中预设的阈值预测***是否即将出现异常,当预测***即将出现异常时,通过报警模块向管理人员发出预警。
在上述方案的基础上,所述数据读取模块与数据存储模块通过JDBC接口连接。
在上述方案的基础上,所述监控***还包括故障复检模块,用于当自恢复模块根据故障解除规则自动关闭或重启相应的服务,或采用补偿回滚方式修复故障后,再次检查故障是否已解除。
在上述方案的基础上,所述日志模块采集日志的方法包括:文本方式采集、SNMPTrap方式采集、syslog方式采集、Telnet采集和串口采集。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (1)

1.一种大数据平台的监控***,其特征在于:包括监控模块、数据存储模块、大数据服务器、报警模块和日志模块;所述大数据服务器包括数据读取模块、数据处理模块、数据分析模块和故障判断规则模块;
所述监控模块内嵌有预设的监控规则;所述监控模块用于根据预设的监控规则对大数据平台进行监控,并将监控数据存储到数据存储模块;
所述数据存储模块用于存储监控模块采集的监控数据;
所述数据读取模块用于从数据存储模块读取监控数据,并将读取到的监控数据发送到数据处理模块;
所述数据处理模块对接收到的监控数据,经运算放大器放大、A/D转换器转换和滤波处理后发送到数据分析模块;
所述故障判断规则模块用于预设故障判断规则;
所述数据分析模块用于根据处理后的监控数据和故障判断规则,判断***是否出现故障;
所述报警模块用于***出现故障时向管理人员发出警报;
所述日志模块用于记录***和用户的行为,查看***故障原因,监视***运行情况;
所述监控***还包括自恢复模块,所述自恢复模块内嵌有预设的故障解除规则,用于***出现故障时,根据故障解除规则自动关闭或重启相应的服务,或采用补偿回滚方式修复故障;
所述监控数据包括电压、电流、功率、温度、开关信号、用户访问信息、服务状态信息和***运行状态信息;
所述监控***还包括故障复检模块,用于当自恢复模块根据故障解除规则自动关闭或重启相应的服务,或采用补偿回滚方式修复故障后,再次检查故障是否已解除;
所述大数据平台是由硬件设备组成的分布式集群架构;所述数据存储模块为云存储***;
所述数据分析模块,将处理后的监控数据与故障判断规则中预设的阈值进行对比,若在阈值范围内则判定***正常,若超出阈值范围则判定***故障;
所述大数据服务器还包括预测模块,用于当数据分析模块判定***正常时,根据处理后的监控数据和故障判断规则中预设的阈值预测***是否即将出现异常,当预测***即将出现异常时,通过报警模块向管理人员发出预警;
所述数据读取模块与数据存储模块通过JDBC接口连接;
所述日志模块采集日志的方法包括:文本方式采集、SNMP Trap方式采集、syslog方式采集、Telnet采集和串口采集。
CN201710784193.8A 2017-09-04 2017-09-04 一种大数据平台的监控*** Active CN107704359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710784193.8A CN107704359B (zh) 2017-09-04 2017-09-04 一种大数据平台的监控***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710784193.8A CN107704359B (zh) 2017-09-04 2017-09-04 一种大数据平台的监控***

Publications (2)

Publication Number Publication Date
CN107704359A CN107704359A (zh) 2018-02-16
CN107704359B true CN107704359B (zh) 2021-03-16

Family

ID=61171948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710784193.8A Active CN107704359B (zh) 2017-09-04 2017-09-04 一种大数据平台的监控***

Country Status (1)

Country Link
CN (1) CN107704359B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110933028B (zh) * 2019-10-24 2022-04-15 中移(杭州)信息技术有限公司 报文传输方法、装置、网络设备及存储介质
CN110808856A (zh) * 2019-10-31 2020-02-18 深圳供电局有限公司 一种基于数据中心的大数据运维方法及***
CN111045364B (zh) * 2019-12-18 2021-04-30 国网宁夏电力有限公司信息通信公司 一种基于大数据平台的动力环境监控***辅助决策方法
CN112817828A (zh) * 2021-01-29 2021-05-18 中国农业银行股份有限公司 一种gtp的监控方法、装置及设备
CN113703400B (zh) * 2021-07-27 2023-03-31 中电科思仪科技股份有限公司 一种支持远程协同的设备状态监测***及其状态上报方法
CN116662112A (zh) * 2023-05-10 2023-08-29 江苏智先生信息科技有限公司 一种使用全自动扫描和***状态评估的数字监控平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015023100A1 (ko) * 2013-08-12 2015-02-19 주식회사 인코어드 테크놀로지스 에너지 정보 제공 장치 및 시스템
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复***
CN105681128A (zh) * 2016-01-12 2016-06-15 北京中交兴路车联网科技有限公司 一种用于大数据***状态监控的方法和装置
CN106789398A (zh) * 2016-11-25 2017-05-31 中国传媒大学 一种媒体大数据hadoop集群监控的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2866144B1 (en) * 2013-10-28 2020-03-25 Software AG Self-correcting complex event processing system and corresponding method for error correction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015023100A1 (ko) * 2013-08-12 2015-02-19 주식회사 인코어드 테크놀로지스 에너지 정보 제공 장치 및 시스템
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复***
CN105681128A (zh) * 2016-01-12 2016-06-15 北京中交兴路车联网科技有限公司 一种用于大数据***状态监控的方法和装置
CN106789398A (zh) * 2016-11-25 2017-05-31 中国传媒大学 一种媒体大数据hadoop集群监控的方法

Also Published As

Publication number Publication date
CN107704359A (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
CN107704359B (zh) 一种大数据平台的监控***
CN107179957B (zh) 物理机故障分类处理方法、装置和虚拟机恢复方法、***
KR100561628B1 (ko) 통계적 분석을 이용한 네트워크 수준에서의 이상 트래픽감지 방법
CN104052634B (zh) 信息安全监控***及方法
CN107547273B (zh) 一种电力***虚拟实例高可用的保障方法及***
CN107947998B (zh) 一种基于应用***的实时监测***
CN110661811A (zh) 一种防火墙策略管理方法及装置
CN112733147B (zh) 设备安全管理方法及***
CN117477774A (zh) 用于多功能配电柜的智能预警***及预警方法
CN115980585A (zh) 电池故障的检测方法、装置、计算机设备和存储介质
CN116980285B (zh) 基于数据处理的驻场运维智能检测响应方法、***和介质
CN116820820A (zh) 服务器故障监测方法及***
CN117439916A (zh) 一种网络安全测试评估***及方法
EP3309566B1 (en) Method and device for processing remote power feed line detection
WO2018035765A1 (zh) 网络异常的检测方法及装置
CN112816933B (zh) 一种电能表终端的维护诊断方法和***
CN117435883A (zh) 一种基于数字孪生的设备故障预测的方法和***
CN111651760A (zh) 一种设备安全状态综合分析的方法及计算机可读存储介质
CN104104666A (zh) 一种探测云端服务异常的方法和装置
CN112839029B (zh) 一种僵尸网络活跃度的分析方法与***
Jing et al. Alarm association rules mining based on run log for civil aviation information system
CN103401711A (zh) 基于安全日志的网络状态分析***
CN113469453B (zh) 基于信息物理***的电梯评估方法以及电梯评估装置
CN116186792B (zh) 一种用于供水***数据安全的实时监测方法及装置
CN114598615B (zh) 一种防火墙异常的监控方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant