CN109522287A - 分布式文件存储集群的监控方法、***、设备及介质 - Google Patents

分布式文件存储集群的监控方法、***、设备及介质 Download PDF

Info

Publication number
CN109522287A
CN109522287A CN201811087179.3A CN201811087179A CN109522287A CN 109522287 A CN109522287 A CN 109522287A CN 201811087179 A CN201811087179 A CN 201811087179A CN 109522287 A CN109522287 A CN 109522287A
Authority
CN
China
Prior art keywords
abnormal
monitoring
document storage
storage cluster
distributed document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811087179.3A
Other languages
English (en)
Other versions
CN109522287B (zh
Inventor
王涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811087179.3A priority Critical patent/CN109522287B/zh
Publication of CN109522287A publication Critical patent/CN109522287A/zh
Application granted granted Critical
Publication of CN109522287B publication Critical patent/CN109522287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种分布式文件存储集群的监控方法、***、设备及介质,所述方法包括:监控服务器接收监控平台发送的分布式文件存储集群的监控配置信息,以及接收监控客户端定时发送的分布式文件存储集群的内部状态,对集群的内部状态进行统计分析,得到监控项目的实时监控数据,若监控项目的实时监控数据符合异常条件,则监控服务器生成异常问题,并根据异常问题生成异常修复指令发送给分布式文件存储集群的中心服务器,以使中心服务器调用相应的异常修复方案对异常问题进行修复。本发明通过对分布式文件存储集群的实时监控,能够及时发现异常问题,并对异常问题进行修复,及时维持集群的健康状态,提高分布式文件存储集群的运维效率。

Description

分布式文件存储集群的监控方法、***、设备及介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种分布式文件存储集群的监控方法、***、设备及介质。
背景技术
CEPH是一个开源的分布式文件存储***,提供了对象、块和文件存储的功能,CEPH被广泛应用于各个公司的数据管理服务***中,提高数据的容错率和存储效率,它能管理和分析海量的数据,并能为成千用户的访问提供大数量级的数据,极大地节省了人工资源和管理开销。
然而,CEPH的分布式存储一般会拥有众多的节点服务器,在监控运维的方面比较复杂,如果服务器集群中出现故障隐患,不容易及时定位出问题的所在,目前在服务器集群出现问题时,需要人工排查故障问题的原因,使得定位问题的周期较长,降低了CEPH集群的运维效率。
发明内容
本发明实施例中提供一种分布式文件存储集群的监控方法、***、设备及介质,以解决CEPH集群定位问题不及时以及运维效率低的问题。
一种分布式文件存储集群的监控方法,包括:
监控服务器接收监控平台发送的分布式文件存储集群的监控配置信息,其中,所述监控配置信息包括监控项目和异常条件;
所述监控服务器接收监控客户端定时发送的所述分布式文件存储集群的内部状态,其中,所述监控客户端预先部署在所述分布式文件存储集群的监控节点对应的节点服务器上,所述分布式文件存储集群的内部状态由所述监控客户端定时从所述监控节点对应的节点服务器中获取;
所述监控服务器根据所述监控配置信息,对所述分布式文件存储集群的内部状态进行统计分析,得到所述监控项目的实时监控数据;
若所述监控项目的实时监控数据符合所述异常条件,则所述监控服务器将所述监控项目确定为异常对象,将所述实时监控数据作为异常数据,并根据所述异常对象和所述异常数据生成异常问题;
所述监控服务器根据所述异常问题生成异常修复指令,并将所述异常修复指令发送到所述分布式文件存储集群的中心服务器;
所述中心服务器若接收到所述异常修复指令,则对所述异常修复指令进行解析,并根据解析结果调用相应的异常修复方案对所述异常问题进行修复。
一种分布式文件存储集群的监控***,包括:监控服务器和中心服务器,其中,所述监控服务器和所述中心服务器之间通过网络连接;
所述监控服务器包括:
监控配置模块,用于接收监控平台发送的分布式文件存储集群的监控配置信息,其中,所述监控配置信息包括监控项目和异常条件;
数据接收模块,用于接收监控客户端定时发送的所述分布式文件存储集群的内部状态,其中,所述监控客户端预先部署在所述分布式文件存储集群的监控节点对应的节点服务器上,所述分布式文件存储集群的内部状态由所述监控客户端定时从所述监控节点对应的节点服务器中获取;
数据分析模块,用于根据所述监控配置信息,对所述分布式文件存储集群的内部状态进行统计分析,得到所述监控项目的实时监控数据;
异常确认模块,用于若所述监控项目的实时监控数据符合所述异常条件,则将所述监控项目确定为异常对象,将所述实时监控数据作为异常数据,并根据所述异常对象和所述异常数据生成异常问题;
异常通知模块,用于根据所述异常问题生成异常修复指令,并将所述异常修复指令发送到所述分布式文件存储集群的中心服务器;
所述中心服务器包括:
异常修复模块,用于若接收到所述异常修复指令,则对所述异常修复指令进行解析,并根据解析结果调用相应的异常修复方案对所述异常问题进行修复。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述分布式文件存储集群的监控方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述分布式文件存储集群的监控方法的步骤。
上述分布式文件存储集群的监控方法、***、设备及介质,通过监控服务器接收用户在监控平台针对分布式文件存储集群配置的监控配置信息,根据预先部署的监控客户端定时获取分布式文件存储集群的内部状态上传至监控服务器,监控服务器则对分布式文件存储集群的内部状态进行统计分析,得到监控项目的实时监控数据,使得监控服务器能够对分布式文件存储集群进行实时监控,可以实现监控项目的定制化,同时,若监控项目的实时监控数据符合异常条件,监控服务器则生成对应的异常问题,以及根据异常问题生成异常修复指令,将异常修复指令发送给分布式文件存储集群的中心服务器,中心服务器在接收到异常修复指令之后,对异常修复指令进行解析,并根据解析结果调用相应的异常修复方案对异常问题进行修复,及时维持分布式文件存储集群的健康状态,使得分布式文件存储集群能够正常运行,提高分布式文件存储的运维效率,从而提高分布式文件存储集群的智能管理水平。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中分布式文件存储集群的监控方法的一应用环境示意图;
图2是本发明一实施例中分布式文件存储集群的监控方法的一流程图;
图3是本发明一实施例中分布式文件存储集群的监控方法中监控服务器输出监控数据的一具体流程图;
图4是本发明一实施例中分布式文件存储集群的监控方法中监控服务器发送告警信息的一具体流程图;
图5是本发明一实施例中分布式文件存储集群的监控方法中步骤S60的一具体流程图;
图6是本发明一实施例中分布式文件存储集群的监控方法中中心服务器发送修复结果的一具体流程图;
图7是本发明一实施例中分布式文件存储集群的监控***的一原理框图;
图8是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的分布式文件存储集群的监控方法,可应用在如图1的应用环境中,其中,分布式文件存储集群包括中心服务器和若干台节点服务器,监控服务器通过网络接收监控客户端实时从节点服务器中获取的分布式文件存储集群的内部状态,得到监控数据,监控服务器对监控数据进行分析,将实时监控数据输出到监控平台,并在出现异常问题时,通过网络发送异常修复指令给分布式文件存储集群的中心服务器,由中心服务器对节点服务器进行管理维护。监控客户端和监控平台具体可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。本发明实施例提供的分布式文件存储集群的监控方法有赖于监控服务器和中心服务器的共同协作完成。
在一实施例中,图2示出本实施例中分布式文件存储集群的监控方法的一流程图,如图2所示,该分布式文件存储集群的监控方法包括步骤S10至步骤S60,详述如下:
S10:监控服务器接收监控平台发送的分布式文件存储集群的监控配置信息,其中,监控配置信息包括监控项目和异常条件。
在本发明实施例中,分布式文件存储集群是一个提供对象、块和文件存储的功能的分布式文件存储***,该分布式文件存储***是由多个服务器组成的服务器集群实现,分布式文件存储集群包括中心服务器和节点服务器,其中,中心服务器用于对节点服务器进行管理,节点服务器用于存储管理文件。
监控服务器是用于对分布式文件存储集群的内部状态进行监控的服务器,监控服务器具体可以但不限于是NAGIOS(网络监视)服务器、ZABBIX(***监控)服务器和GANGLIA(集群监控)服务器,监控平台是监控服务器提供用于监控管理的交互工具,例如,监控平台具体可以是浏览器等虚拟终端,以使用户可以在监控平台配置和查看监控信息。
具体地,用户在监控平台预先配置分布式文件存储集群的监控配置信息,监控服务器再接收监控平台通过网络发送的分布式文件存储集群的监控配置信息,监控配置信息包括监控项目和异常条件,该监控项目包括监控对象和监控对象的IP地址,异常条件是监控配置信息中针对监控对象设置的判断条件,用于判断该监控对象是否处于正常状态,监控项目可以是监控服务器默认对分布式文件存储的内部状态进行监控的常规监控项目,例如,对资源使用率、磁盘容量和网络流量等进行监控,也可以是用户自定义的监控项目,具体的监控项目可以根据实际需要进行定制,此处不做限制。
优选地,分布式文件存储集群具体可以是CEPH集群,CEPH集群是一种开源的分布式文件存储***,CEPH集群的文件存储安全性高以及文件存储效率快。
例如,当分布式文件存储集群具体为CEPH集群时,监控项目具体可以是监控CEPH集群的活动状态的信息、监控CEPH集群中OSD(Object Storage Device,对象存储设备)个数或者监控CEPH集群中节点服务器的80端口连接数等监控项目,其中,OSD的主要功能是存储数据、复制数据、平衡数据和恢复数据等,为CEPH集群提供存储服务。针对监控CEPH集群中节点服务器的80端口连接数的监控项目,该监控项目的异常条件具体可以设置为:节点服务器的80端口连接数小于5个。若监控到某台节点服务器的80端口连接数小于5个,则表示该节点服务器的80端口出现异常,符合预设的监控配置信息中的异常条件。
S20:监控服务器接收监控客户端定时发送的分布式文件存储集群的内部状态,其中,监控客户端预先部署在分布式文件存储集群的监控节点对应的节点服务器上,分布式文件存储集群的内部状态由监控客户端定时从监控节点对应的节点服务器中获取。
在本发明实施例中,分布式文件存储集群的监控节点是指分布式文件存储集群的用于收集分布式文件存储集群的内部状态的节点服务器。
优选地,当分布式文件存储集群具体为CEPH集群时,监控节点为CEPH集群的MON节点,MON节点存储有CEPH集群状态的集群视图,该集群视图包括CEPH集群的所有服务器的映射图的实时信息,CEPH集群在进行读写数据前需要向MON节点发送请求,请求获取最新的映射图,并通过映射图计算出数据的存放位置,以便进行相应的读取操作。
具体地,在分布式文件存储集群的监控节点对应的节点服务器中预先部署监控客户端,监控客户端使用预设的通信脚本主动获取分布式文件存储集群的内部状态,其中,通信脚本是预先编辑的shell脚本,该预设的通信脚本用于获取分布式文件存储集群的内部状态,以及将获取的内部状态发送给监控服务器。
优选地,当分布式文件存储集群具体为CEPH集群时,监控客户端在预设的通信脚本中采用CEPH的内部指令,从监控节点对应的节点服务器上获取CEPH集群的内部状态,例如,使用“CEPH–s”、“CEPH pg stat”或者“CEPH osd dump”等指令,其中,“CEPH–s”指令为查看集群的状态,“CEPH pg stat”指令为查看pg的状态,“CEPH osd dump”指令为查看osd的状态,pg是CEPH集群中数据存储的归置组,用于将数据进行逻辑归组。
具体地,监控客户端获取的分布式文件存储集群的内部状态即为监控数据,监控客户端通过网络将监控数据以报文的形式发送给监控服务器,该报文是监控客户端将监控数据按照预设的格式整理形成的报文,其中,报文是网络中交换与传输的数据单元,报文能够完整包括待发送的数据信息,其长度没有限制,能够一次性通过报文传输需要发送的数据信息,预设的格式具体可以根据实际需要进行设置,此处不做限制。
优选地,当分布式文件存储集群具体为CEPH集群时,监控客户端设置定时任务,定时使用预设的通信脚本获取CEPH集群的内部状态,并将CEPH集群的内部状态上传至监控服务器,该定时任务可以根据应用的需要进行设置,例如,定时任务具体可以通过使用Crontab命令进行配置相应的配置文件,并将“*/3****/etc/zabbix/scripts/CEPH-status.sh 192.168.1.15CEPH_MON>>etc/zabbix/scripts/CEPH-status.log”命令写入该配置文件中,监控客户端执行该配置文件,可以定时获取CEPH集群的内部状态的数据,其中,Crontab命令是用于设置周期性被执行的指令,“*/3****/etc/zabbix/scripts/CEPH-status.sh 192.168.1.15CEPH_MON>>/etc/zabbix/scripts/CEPH-status.log”命令表示每3分钟监控客户端将通过预设的通信脚本收集到的监控数据,发送给IP地址为192.168.1.15的监控服务器。
S30:监控服务器根据监控配置信息,对分布式文件存储集群的内部状态进行统计分析,得到监控项目的实时监控数据。
具体地,监控服务器接收监控客户端发送的报文,并对报文进行解析,读取报文中的监控数据,从而得到分布式文件存储集群的内部状态的监控数据,根据预设的监控配置信息,对分布式文件存储集群的内部状态进行统计分析,获取与监控项目的监控对象对应的监控数据,得到每个监控项目的实时监控数据。
S40:若监控项目的实时监控数据符合异常条件,则监控服务器将监控项目确定为异常对象,将实时监控数据作为异常数据,并根据异常对象和异常数据生成异常问题。
在本发明实施例,监控服务器在统计得到每个监控项目的实时数据之后,将该监控项目的实时监控数据与该监控项目对应的异常条件进行比较,对比实时监控数据是否符合针对该监控项目预设的异常条件。
具体地,若监控项目的实时监控数据符合异常条件,则监控服务器将监控项目的监控对象确定为异常对象,监控对象的IP地址即为异常地址,并将实时监控数据作为异常数据,表示该监控项目的实时监控数据处于异常状态,需要对该异常对象进行维护处理,同时,监控服务器根据异常对象和异常数据生成异常问题,该异常问题用于描述在分布式文件存储集群中发生异常问题的具体对象与具体的异常数据,使得运维人员能够根据异常问题迅速对分布式文件存储集群进行问题定位。
可以理解的是,若监控项目的实时监控数据不符合异常条件,则表示该监控项目的实时监控数据处于正常状态,该监控项目的监控对象能够正常地运行,无需维护。
S50:监控服务器根据异常问题生成异常修复指令,并将异常修复指令发送到分布式文件存储集群的中心服务器。
在本发明实施例中,分布式文件存储集群包括中心服务器和节点服务器,中心服务器是用于对节点服务器进行资源管理、性能维护和监控配置等管理操作的中心管理服务器,节点服务器是用于对象、块或者文件等进行数据处理和数据存储等操作的服务器;
具体地,针对符合异常条件的监控项目,监控服务器根据异常问题生成对应的异常修复指令,该异常修复指令包括请求维护的命令、异常地址、异常对象和异常数据,并异常修复指令发送给分布式文件存储集群的中心服务器,请求分布式文件存储集群进行异常维护。
S60:中心服务器若接收到异常修复指令,则对异常修复指令进行解析,并根据解析结果调用相应的异常修复方案对异常问题进行修复。
具体地,中心服务器若接收到异常修复指令,则对该异常修复指令进行解析,获取异常修复指令携带的异常地址、异常对象和异常数据,并根据该异常对象和异常数据确定出现的异常问题。
中心服务器根据异常问题调用相应的异常修复方案,对分布式文件存储集群中的异常地址对应的服务器出现的异常问题进行维护,该异常修复方案是根据分布式文件存储集群中的一些常见的异常情况预先进行设置的修复方案,以便中心服务器能够使用预设的异常修复方案对分布式文件存储集群中出现的异常问题及时进行智能修复。
例如,在一监控项目中,监控项目为监控分布式文件存储集群中服务器A1的磁盘使用率,并且该监控项目对应的异常条件为服务器A1的磁盘容量超过95%。在监控服务器获取的监控数据中,若服务器A1的磁盘容量超过95%,则监控服务器将服务器A1的地址确定为异常地址,服务器A1的磁盘确定为异常对象,将服务器A1的磁盘容量确定为异常数据,监控服务器根据异常对象和异常数据生成异常问题,并根据异常问题生成异常修复指令,将该异常修复指令发送给分布式文件存储集群的中心服务器,请求中心服务器对服务器A1的磁盘进行维护,中心服务器则将根据该异常修复指令获取对应的异常修复方案,例如,对缓存的日志文件进行清理或者对历史文件进行压缩处理的异常修复方案,使用该异常修复方案对服务器A1的磁盘进行维护,修复分布式文件存储集群出现的异常问题。
在本实施例中,通过监控服务器接收用户在监控平台针对分布式文件存储集群配置的监控配置信息,根据预先部署的监控客户端定时获取分布式文件存储集群的内部状态上传至监控服务器,监控服务器则对分布式文件存储集群的内部状态进行统计分析,得到监控项目的实时监控数据,使得监控服务器能够对分布式文件存储集群进行实时监控,可以实现监控项目的定制化,同时,若监控项目的实时监控数据符合异常条件,监控服务器则生成对应的异常问题,以及根据异常问题生成异常修复指令,将异常修复指令发送给分布式文件存储集群的中心服务器,中心服务器在接收到异常修复指令之后,对异常修复指令进行解析,并根据解析结果调用相应的异常修复方案对异常问题进行修复,及时维持分布式文件存储集群的健康状态,使得分布式文件存储集群能够正常运行,提高分布式文件存储的运维效率,从而提高分布式文件存储集群的智能管理水平。
在一实施例中,步骤S30之后,即在监控服务器根据监控配置信息,对分布式文件存储集群的内部状态进行统计分析,得到监控项目的实时监控数据之后,该分布式文件存储集群的监控方法中监控服务器还可以将实时监控数据按照预设的输出模板输出,详述如下:
如图3所示,在步骤S30之后,该分布式文件存储集群的监控方法还包括如下步骤:
S31:监控服务器将实时监控数据按照预设的输出模板进行监控数据填充,得到目标数据。
具体地,用户在监控平台配置好监控配置信息之后,为每个监控项目分配对应的输出模板,该输出模板是预先进行设置好的模板,用于将监控得到的监控数据输出,监控服务器在对分布式文件存储集群的内部状态进行统计分析,得到监控项目的实时监控数据之后,将实时监控数据按照预设的输出模板进行监控数据填充,从而得到在输出模板中展示的目标数据,其中,预设的输出模板可以是监控平台提供的样本模板,也可以是用户添加的自定义模板,例如,以图形、文本或者报表等形式的模板展现,具体的展现形式可以根据实际需要进行设置,此处不做限制。
S32:监控服务器将目标数据输出到监控平台,以使用户通过监控平台查看分布式文件存储集群的实时状态。
具体地,监控服务器将目标数据输出到监控平台,实时地为用户展示分布式文件存储集群的实时状态,并将符合异常条件的目标数据以标红或者放大的形式在监控平台中展示,起到醒目的效果,用于区别于处于正常状态的监控项目,以便用户在输出的目标数据中,能够快速获知异常的监控项目。
S33:监控服务器将目标数据存储到预设的历史数据库中。
具体地,预设的历史数据库是监控服务器中用于存储目标数据的数据库,监控服务器将目标数据存储到预设的历史数据库中,以便用户能够对分布式文件存储集群的历史的状态数据进行查看,其中,该预设的历史数据库具体可以是Oracle数据库或者MongoDB数据库等,具体的数据库类型可以根据实际需要进行选择,此处不做限制。
S34:监控服务器根据历史数据库中的目标数据,对分布式文件存储集群的运行状态进行分析,得到分析结果,以使用户根据分析结果对分布式文件存储集群进行维护。
具体地,监控服务器对分布式文件存储集群的运行状态进行分析包括对1天之内、1周之内和一个月之内的目标数据进行分析,分析得到的分析结果包括出现异常的监控项目、出现异常的监控项目的时间段和出现异常的监控项目的总时间,用户能够根据监控服务器分析得到的分析结果,对分布式文件存储集群进行优化和维护,例如,若节点服务器A2的磁盘容量在一周之内出现6次异常问题,则用户可以根据该分析结果对节点服务器A2的磁盘容量进行扩容等处理,以增加节点服务器A2的存储容量,提升分布式文件存储集群的性能。
在本实施例中,通过监控服务器将实时监控数据按照预设的输出模板进行监控数据填充,得到目标数据输出到监控平台,使得用户通过监控平台查看分布式文件存储集群的实时状态,并能够在目标数据中快速获知异常的监控项目,及时发现分布式文件存储集群的异常问题,同时,监控服务器将目标数据存储到预设的历史数据库中,并根据历史数据库中的目标数据,对分布式文件存储集群的运行状态进行分析,得到分析结果,以使用户根据分析结果对分布式文件存储集群进行优化和维护,从而能够提升分布式文件存储集群的性能。
在一实施例中,步骤S40之后,即在若监控项目的实时监控数据符合异常条件,则监控服务器将监控项目确定为异常对象,将实时监控数据作为异常数据,并根据异常对象和异常数据生成异常问题之后,该分布式文件存储集群的监控方法中监控服务器还可以生成告警信息发送到预设的告警地址中,详述如下:
如图4所示,在步骤S30之后,该分布式文件存储集群的监控方法还包括如下步骤:
S41:监控服务器根据预设的业务属性确定异常问题的严重程度。
在本实施例中,异常问题的严重程度包括“警告”、“一般严重”、“严重”和“灾难”四个等级,预设的业务属性是根据该监控项目的监控对象在分布式文件存储集群的业务功能预先进行设置的内容,监控服务器在监控到异常问题后,根据预设的业务属性去确定异常问题的严重程度。
例如,监控项目为监控分布式文件存储集群中OSD服务状态的个数,若该监控项目的实时监控数据符合异常条件,则该监控项目出现的异常问题的严重程度为“灾难”级别,表示该异常问题需要立即解决,否则分布式文件存储集群将会崩溃。
而监控项目为监控服务器A3的80端口连接数,在该监控项目的实时监控数据符合异常条件时,监控服务器可以根据预设的业务属性,确定该监控项目出现的异常问题的严重程度为“警告”级别,异常问题具体的严重程度可以根据监控对象在分布式文件存储集群的业务功能进行确定。
S42:监控服务器根据异常问题按照预设的格式生成告警信息,并选取与异常问题的严重程度对应的告警发送方式。
具体地,预设的格式具体可以是监控报告,或者告警信件等预先进行设置的格式,但并不限于此,具体可以根据实际应用的需要进行设置,监控服务器能够将异常问题的内容填写到该预设的格式生成告警信息,并选取与异常问题的严重程度对应的告警发送方式,该告警发送方式是根据异常问题的严重程度预设的发送告警信息的方式,具体的告警发送方式可以根据实际应用的需要进行设置。
例如,异常问题的严重程度为“灾难”等级的告警信息,则相应的告警发送方式为:监控服务器将根据预设的监控项目的监控频率一直发送告警信息,直至该预设的监控项目的监控数据处于正常状态为止,催促相关人员进行分布式文件存储集群的维护。
而异常问题的严重程度为“警告”等级的告警信息,则相应的告警发送方式为:针对相同的告警信息,监控服务器只作一次发送处理,直至该预设的监控项目的监控数据处于正常状态之后,再次出现该告警信息才会继续重新发送告警信息。
S43:监控服务器按照告警发送方式将告警信息发送给预设的告警地址。
具体地,监控服务器获取预设的告警地址,并将告警信息按照对应的告警发送方式发送给预设的告警地址,该预设的告警地址是告警信息的接收地址,该预设的告警地址包括但不限于邮箱地址、Jabber地址和短信地址,其中,Jabber为Linux***的一款即时通讯服务器。
在本实施例中,通过监控服务器根据预设的业务属性确定异常问题的严重程度,同时,根据异常问题按照预设的格式生成告警信息,选取与异常问题的严重程度对应的告警发送方式,按照告警发送方式将告警信息发送给预设的告警地址,针对不同的异常问题,采取不同的发送方式通知运维人员,使得运维人员能够根据告警信息采取相应的维护方式,提高分布式文件存储集群的维护效率。
在一实施例中,本实施例提供对步骤S60中所提及的中心服务器若接收到异常修复指令,则对异常修复指令进行解析,并根据解析结果调用相应的异常修复方案对异常问题进行修复的具体实现方法进行详细说明。
请参阅图5,图5示出了步骤S60的一具体流程图,详述如下:
S601:中心服务器接收异常修复指令,并根据异常修复指令确定异常问题,以及出现异常问题的节点服务器。
具体地,中心服务器接收监控服务器发送的异常修复指令,并对异常修复指令进行解析,得到异常地址、异常对象和异常数据,从而确定异常问题和出现异常问题的节点服务器。
S602:中心服务器根据异常问题,从预设的异常修复方案库中查找与异常问题对应的异常修复方案和每个异常修复方案的优先级别。
具体地,中心服务器基于异常修复指令携带的请求维护的命令,触发中心服务器对节点服务器的管理维护操作,中心服务器根据异常问题,从预设的异常修复方案库中查找与异常问题对应的异常修复方案,其中,异常修复方案是根据分布式文件存储集群中的一些常见的异常情况预先进行设置的修复方案,并根据每个异常修复方案的修复效果为每个异常修复方案分配优先级别,存储于异常修复方案库中,该异常修复方案库是用于存储异常修复方案的数据库。
S603:中心服务器按照异常修复方案的优先级别从高到低的顺序,依次获取每个异常修复方案对节点服务器的异常问题进行修复,直到监控项目的实时监控数据不符合异常条件,或者每个异常修复方案均被调用为止。
具体地,中心服务器按照异常修复方案的优先级别从高到低的顺序,例如,第一修复方案、第二修复方案、第三修复方案…等,依次获取每个异常修复方案对节点服务器的异常问题进行修复,直到监控项目的实时监控数据不符合异常条件,或者每个异常修复方案均被调用为止。
例如,在一监控项目中,监控项目为监控节点服务器A4的磁盘使用率,并且该监控项目对应的异常条件为服务器A4的磁盘容量超过95%,在监控服务器获取的监控数据中,若服务器A4的磁盘容量超过95%,监控服务器则发送异常修复指令给中心服务器,以便分布式文件存储集群的中心服务器对服务器A4的磁盘进行维护,中心服务器则根据该异常修复指令,在异常修复方案库中获取对应的所有的异常修复方案,并根据异常修复方案的优先级别对服务器A4进行问题修复,首先调用第一修复方案对服务器A4中缓存的日志文件进行清理,若在使用第一修复方案进行修复之后,服务器A4的磁盘容量仍然超过95%,则继续调用第二修复方案对服务器A4中的历史文件进行压缩处理等,直到服务器A4的磁盘容量处于正常的状态,或者每个异常修复方案均被调用了一次为止。
在本实施例中,通过中心服务器接收异常修复指令,并根据异常问题,从预设的异常修复方案库中查找与异常问题对应的异常修复方案和每个异常修复方案的优先级别,按照异常修复方案的优先级别从高到低的顺序,依次获取每个异常修复方案对节点服务器的异常问题进行修复,针对同一异常问题,有多个异常修复方案可以进行问题修复,提高异常问题的修复率,并且通过确认异常修复方案的优先级别,先使用效果较好的异常修复方案进行问题修复,能够提高分布式文件存储集群的维护效率。
在一实施例中,步骤S60之后,即在中心服务器若接收到异常修复指令,则对异常修复指令进行解析,并根据解析结果调用相应的异常修复方案对异常问题进行修复之后,该分布式文件存储集群的监控方法中中心服务器还可以将修复结果发送到预设的即时通讯地址中,详述如下:
如图6所示,在步骤S60之后,该分布式文件存储集群的监控方法还包括如下步骤:
S61:中心服务器对节点服务器修复之后的监控项目进行检测,得到修复结果。
具体地,中心服务器在使用异常修复方案对异常问题进行问题修复之后,对出现异常的节点服务器的监控项目进行检测,若修复之后的监控项目的实时监控数据不符合该监控项目对应的异常条件,则修复结果为修复成功,该监控项目恢复正常状态,否则,若修复之后的监控项目的实时监控数据符合该监控项目对应的异常条件,则修复结果为修复失败,表示该监控项目仍然处于异常状态。
进一步地,若修复结果为成功,中心服务器将异常问题和修复结果发送到预设的工作通讯地址,以使运维人员了解分布式文件存储集群的修复记录,从而能够对分布式文件存储集群进行进一步的优化维护,该预设的工作通讯地址是运维人员用于处理工作事件的信息接收地址,该预设的工作通讯地址包括但不限于公共邮箱地址、个人邮箱地址和短信地址等通讯地址。
S62:若修复结果为失败,中心服务器将异常问题和修复结果发送到预设的即时通讯地址,以使运维人员根据异常问题及时对分布式文件存储集群进行人工维护。
具体地,若修复结果为失败,则表示异常修复方案库中的异常修复方案无法解决对应的异常问题,或者中心服务器不存在异常修复指令对应的异常修复方案,则中心服务器将异常问题和修复结果发送到预设的即时通讯地址,该预设的即时通讯地址是运维人员用于处理紧急事件的信息接收地址,该预设的即时通讯地址包括但不限于IM(InstantMessenger,即时通信)信息接收地址、微信信息接收地址和ICQ信息接收地址等即时通讯地址,以使运维人员能够及时获知分布式文件存储集群的内部状态,对出现的异常问题进行人工维护,避免分布式文件存储集群出现问题,造成数据的丢失。
在本实施例中,通过中心服务器对节点服务器修复之后的监控项目进行检测,得到修复结果,若修复结果为失败,中心服务器将异常问题和修复结果发送到预设的即时通讯地址,及时将异常问题告知运维人员,以使运维人员根据异常问题及时对分布式文件存储集群进行人工维护,维持分布式文件存储集群的健康状态,避免造成数据的丢失。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种分布式文件存储集群的监控***,该分布式文件存储集群的监控***与上述实施例中分布式文件存储集群的监控方法一一对应。如图7所示,该分布式文件存储集群的监控***包括监控服务器和中心服务器,其中监控服务器包括监控配置模块71、数据接收模块72、数据分析模块73、异常确认模块74和异常通知模块75,中心服务器包括异常修复模块76,各功能模块详细说明如下:
监控服务器包括:
监控配置模块71,用于接收监控平台发送的分布式文件存储集群的监控配置信息,其中,监控配置信息包括监控项目和异常条件;
数据接收模块72,用于接收监控客户端定时发送的分布式文件存储集群的内部状态,其中,监控客户端预先部署在分布式文件存储集群的监控节点对应的节点服务器上,分布式文件存储集群的内部状态由监控客户端定时从监控节点对应的节点服务器中获取;
数据分析模块73,用于根据监控配置信息,对分布式文件存储集群的内部状态进行统计分析,得到监控项目的实时监控数据;
异常确认模块74,用于若监控项目的实时监控数据符合异常条件,则将监控项目确定为异常对象,将实时监控数据作为异常数据,并根据异常对象和异常数据生成异常问题;
异常通知模块75,用于根据异常问题生成异常修复指令,并将异常修复指令发送到分布式文件存储集群的中心服务器;
中心服务器包括:
异常修复模块76,用于若接收到异常修复指令,则对异常修复指令进行解析,并根据解析结果调用相应的异常修复方案对异常问题进行修复。
进一步地,该监控服务器还包括:
数据填充模块,用于将实时监控数据按照预设的输出模板进行监控数据填充,得到目标数据;
数据输出模块,用于将目标数据输出到监控平台,以使用户通过监控平台查看分布式文件存储集群的实时状态;
数据存储模块,用于将目标数据存储到预设的历史数据库中;
数据统计模块,用于根据历史数据库中的目标数据,对分布式文件存储集群的运行状态进行分析,得到分析结果,以使用户根据分析结果对分布式文件存储集群进行维护。
进一步地,该监控服务器还包括:
异常等级确认模块,用于根据预设的业务属性确定异常问题的严重程度;
告警信息生成模块,用于根据异常问题按照预设的格式生成告警信息,并选取与异常问题的严重程度对应的告警发送方式;
告警信息发送模块,用于按照告警发送方式将告警信息发送给预设的告警地址。
进一步地,中心服务器的异常修复模块76包括:
异常分析子模块,用于接收异常修复指令,并根据异常修复指令确定异常问题,以及出现异常问题的节点服务器;
方案获取子模块,用于根据异常问题,从预设的异常修复方案库中查找与异常问题对应的异常修复方案和每个异常修复方案的优先级别;
异常修复子模块,用于按照异常修复方案的优先级别从高到低的顺序,依次获取每个异常修复方案对节点服务器的异常问题进行修复,直到监控项目的实时监控数据不符合异常条件,或者每个异常修复方案均被调用为止。
进一步地,该中心服务器还包括:
项目检测模块,用于对节点服务器修复之后的监控项目进行检测,得到修复结果;
信息发送模块,用于若修复结果为失败,将异常问题和修复结果发送到预设的即时通讯地址,以使运维人员根据异常问题及时对分布式文件存储集群进行人工维护。
关于分布式文件存储集群的监控***的具体限定可以参见上文中对于分布式文件存储集群的监控方法的限定,在此不再赘述。上述分布式文件存储集群的监控***中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种分布式文件存储集群的监控方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例分布式文件存储集群的监控方法中的步骤,例如图2所示的步骤S10至步骤S60。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例分布式文件存储集群的监控方法中的步骤,或者,处理器执行计算机程序时实现上述实施例中分布式文件存储集群的监控***的各模块的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述***的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种分布式文件存储集群的监控方法,其特征在于,所述分布式文件存储集群的监控方法包括:
监控服务器接收监控平台发送的分布式文件存储集群的监控配置信息,其中,所述监控配置信息包括监控项目和异常条件;
所述监控服务器接收监控客户端定时发送的所述分布式文件存储集群的内部状态,其中,所述监控客户端预先部署在所述分布式文件存储集群的监控节点对应的节点服务器上,所述分布式文件存储集群的内部状态由所述监控客户端定时从所述监控节点对应的节点服务器中获取;
所述监控服务器根据所述监控配置信息,对所述分布式文件存储集群的内部状态进行统计分析,得到所述监控项目的实时监控数据;
若所述监控项目的实时监控数据符合所述异常条件,则所述监控服务器将所述监控项目确定为异常对象,将所述实时监控数据作为异常数据,并根据所述异常对象和所述异常数据生成异常问题;
所述监控服务器根据所述异常问题生成异常修复指令,并将所述异常修复指令发送到所述分布式文件存储集群的中心服务器;
所述中心服务器若接收到所述异常修复指令,则对所述异常修复指令进行解析,并根据解析结果调用相应的异常修复方案对所述异常问题进行修复。
2.如权利要求1所述的分布式文件存储集群的监控方法,其特征在于,在所述监控服务器根据所述监控配置信息,对所述分布式文件存储集群的内部状态进行统计分析,得到所述监控项目的实时监控数据之后,所述分布式文件存储集群的监控方法还包括:
所述监控服务器将所述实时监控数据按照预设的输出模板进行监控数据填充,得到目标数据;
所述监控服务器将所述目标数据输出到所述监控平台,以使用户通过所述监控平台查看所述分布式文件存储集群的实时状态;
所述监控服务器将所述目标数据存储到预设的历史数据库中;
所述监控服务器根据所述历史数据库中的目标数据,对所述分布式文件存储集群的运行状态进行分析,得到分析结果,以使所述用户根据所述分析结果对所述分布式文件存储集群进行维护。
3.如权利要求1所述的分布式文件存储集群的监控方法,其特征在于,在若所述监控项目的实时监控数据符合所述异常条件,则所述监控服务器将所述监控项目确定为异常对象,将所述实时监控数据作为异常数据,并根据所述异常对象和所述异常数据生成异常问题之后,所述分布式文件存储集群的监控方法还包括:
所述监控服务器根据预设的业务属性确定所述异常问题的严重程度;
所述监控服务器根据所述异常问题按照预设的格式生成告警信息,并选取与所述异常问题的严重程度对应的告警发送方式;
所述监控服务器按照所述告警发送方式将所述告警信息发送给预设的告警地址。
4.如权利要求1所述的分布式文件存储集群的监控方法,其特征在于,所述中心服务器若接收到所述异常修复指令,则对所述异常修复指令进行解析,并根据解析结果调用相应的异常修复方案对所述异常问题进行修复包括:
所述中心服务器接收所述异常修复指令,并根据所述异常修复指令确定所述异常问题,以及出现所述异常问题的节点服务器;
所述中心服务器根据所述异常问题,从预设的异常修复方案库中查找与所述异常问题对应的异常修复方案和每个所述异常修复方案的优先级别;
所述中心服务器按照异常修复方案的优先级别从高到低的顺序,依次获取每个所述异常修复方案对所述节点服务器的异常问题进行修复,直到所述监控项目的实时监控数据不符合所述异常条件,或者每个所述异常修复方案均被调用为止。
5.如权利要求4所述的分布式文件存储集群的监控方法,其特征在于,在所述中心服务器若接收到所述异常修复指令,则对所述异常修复指令进行解析,并根据解析结果调用相应的异常修复方案对所述异常问题进行修复之后,所述分布式文件存储集群的监控方法还包括:
所述中心服务器对所述节点服务器修复之后的监控项目进行检测,得到修复结果;
若所述修复结果为失败,所述中心服务器将所述异常问题和所述修复结果发送到预设的即时通讯地址,以使运维人员根据所述异常问题及时对所述分布式文件存储集群进行人工维护。
6.一种分布式文件存储集群的监控***,其特征在于,所述分布式文件存储集群的监控***包括监控服务器和中心服务器,其中,所述监控服务器和所述中心服务器之间通过网络连接;
所述监控服务器包括:
监控配置模块,用于接收监控平台发送的分布式文件存储集群的监控配置信息,其中,所述监控配置信息包括监控项目和异常条件;
数据接收模块,用于接收监控客户端定时发送的所述分布式文件存储集群的内部状态,其中,所述监控客户端预先部署在所述分布式文件存储集群的监控节点对应的节点服务器上,所述分布式文件存储集群的内部状态由所述监控客户端定时从所述监控节点对应的节点服务器中获取;
数据分析模块,用于根据所述监控配置信息,对所述分布式文件存储集群的内部状态进行统计分析,得到所述监控项目的实时监控数据;
异常确认模块,用于若所述监控项目的实时监控数据符合所述异常条件,则将所述监控项目确定为异常对象,将所述实时监控数据作为异常数据,并根据所述异常对象和所述异常数据生成异常问题;
异常通知模块,用于根据所述异常问题生成异常修复指令,并将所述异常修复指令发送到所述分布式文件存储集群的中心服务器;
所述中心服务器包括:
异常修复模块,用于若接收到所述异常修复指令,则对所述异常修复指令进行解析,并根据解析结果调用相应的异常修复方案对所述异常问题进行修复。
7.如权利要求6所述的分布式文件存储集群的监控***,其特征在于,所述监控服务器还包括:
数据填充模块,用于将所述实时监控数据按照预设的输出模板进行监控数据填充,得到目标数据;
数据输出模块,用于将所述目标数据输出到所述监控平台,以使用户通过所述监控平台查看所述分布式文件存储集群的实时状态;
数据存储模块,用于将所述目标数据存储到预设的历史数据库中;
数据统计模块,用于根据所述历史数据库中的目标数据,对所述分布式文件存储集群的运行状态进行分析,得到分析结果,以使所述用户根据所述分析结果对所述分布式文件存储集群进行维护。
8.如权利要求6所述的分布式文件存储集群的监控***,其特征在于,在所述中心服务器中,所述异常修复模块包括:
异常分析子模块,用于接收所述异常修复指令,并根据所述异常修复指令确定所述异常问题,以及出现所述异常问题的节点服务器;
方案获取子模块,用于根据所述异常问题,从预设的异常修复方案库中查找与所述异常问题对应的异常修复方案和每个所述异常修复方案的优先级别;
异常修复子模块,用于按照异常修复方案的优先级别从高到低的顺序,依次获取每个所述异常修复方案对所述节点服务器的异常问题进行修复,直到所述监控项目的实时监控数据不符合所述异常条件,或者每个所述异常修复方案均被调用为止。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述分布式文件存储集群的监控方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述分布式文件存储集群的监控方法的步骤。
CN201811087179.3A 2018-09-18 2018-09-18 分布式文件存储集群的监控方法、***、设备及介质 Active CN109522287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811087179.3A CN109522287B (zh) 2018-09-18 2018-09-18 分布式文件存储集群的监控方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811087179.3A CN109522287B (zh) 2018-09-18 2018-09-18 分布式文件存储集群的监控方法、***、设备及介质

Publications (2)

Publication Number Publication Date
CN109522287A true CN109522287A (zh) 2019-03-26
CN109522287B CN109522287B (zh) 2023-08-18

Family

ID=65771497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811087179.3A Active CN109522287B (zh) 2018-09-18 2018-09-18 分布式文件存储集群的监控方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN109522287B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110262926A (zh) * 2019-06-05 2019-09-20 世纪龙信息网络有限责任公司 服务器的元数据修复方法、装置、***和计算机设备
CN110417597A (zh) * 2019-07-29 2019-11-05 中国工商银行股份有限公司 用于监控证书的方法及装置、电子设备和可读存储介质
CN110442495A (zh) * 2019-07-30 2019-11-12 杭州安恒信息技术股份有限公司 自动化巡检***异常的方法
CN110457176A (zh) * 2019-07-12 2019-11-15 平安普惠企业管理有限公司 用于分布式***的监控方法、装置、存储介质及电子设备
CN110502496A (zh) * 2019-07-19 2019-11-26 苏州浪潮智能科技有限公司 一种分布式文件***修复方法、***、终端及存储介质
CN110532322A (zh) * 2019-08-20 2019-12-03 腾讯云计算(北京)有限责任公司 运维交互方法、***、计算机可读存储介质及设备
CN110825420A (zh) * 2019-11-26 2020-02-21 中国银行股份有限公司 分布式集群的配置参数更新方法、装置、设备及存储介质
CN111049705A (zh) * 2019-12-23 2020-04-21 深圳前海微众银行股份有限公司 一种监控分布式存储***的方法及装置
CN111078507A (zh) * 2019-12-27 2020-04-28 广州三七互娱科技有限公司 数据监控方法、***、计算机设备和存储介质
CN111159139A (zh) * 2019-12-30 2020-05-15 浪潮电子信息产业股份有限公司 一种数据处理方法、装置、存储介质及监视设备
CN111352975A (zh) * 2020-03-04 2020-06-30 中国建设银行股份有限公司 数据质量管理方法、客户端、服务端和***
CN111399845A (zh) * 2020-03-12 2020-07-10 北京字节跳动网络技术有限公司 断言的方法、装置、电子设备及计算机可读介质
CN111400117A (zh) * 2020-03-12 2020-07-10 山东汇贸电子口岸有限公司 一种自动化测试Ceph集群的方法
CN111404735A (zh) * 2020-03-09 2020-07-10 北京思特奇信息技术股份有限公司 一种分布式应用监控方法及监控***
CN111522680A (zh) * 2020-04-17 2020-08-11 支付宝(杭州)信息技术有限公司 一种自动修复异常任务节点的方法、装置及设备
CN111581005A (zh) * 2020-05-07 2020-08-25 深圳市创维软件有限公司 终端修复方法、终端和存储介质
CN111651442A (zh) * 2020-05-15 2020-09-11 京东数字科技控股有限公司 一种数据报送方法、装置、电子设备及存储介质
CN111698330A (zh) * 2020-06-12 2020-09-22 北京金山云网络技术有限公司 存储集群的数据恢复方法、装置及服务器
CN111708665A (zh) * 2020-05-29 2020-09-25 苏州浪潮智能科技有限公司 一种存储集群***全面监控的方法、装置、设备和介质
CN111813332A (zh) * 2020-05-21 2020-10-23 华北电力大学 一种高性能、高扩展和高安全的智能分布式存储***
CN112052111A (zh) * 2020-09-08 2020-12-08 中国平安人寿保险股份有限公司 服务器异常预警的处理方法、装置、设备及存储介质
CN112115026A (zh) * 2020-09-15 2020-12-22 招商局金融科技有限公司 服务器集群监控方法、装置、电子设备及可读存储介质
CN112445677A (zh) * 2019-09-04 2021-03-05 中国石油化工股份有限公司 一种计算机集群的健康状态检查和修复方法及存储介质
CN112486766A (zh) * 2020-11-25 2021-03-12 上海中通吉网络技术有限公司 基于文件的监控平台的问题排查方法、装置和***
CN112506734A (zh) * 2020-11-10 2021-03-16 珠海格力电器股份有限公司 一种服务***及其管理方法
CN112559284A (zh) * 2020-12-08 2021-03-26 爱信诺征信有限公司 集群运维***、方法及相关产品
CN112637293A (zh) * 2020-12-14 2021-04-09 北京爱奇艺科技有限公司 数据修复***、方法、装置、电子设备及存储介质
CN112711497A (zh) * 2021-01-05 2021-04-27 浪潮云信息技术股份公司 一种容器化部署Ceph集群对象unfound故障的恢复方法及***
CN112988466A (zh) * 2021-04-07 2021-06-18 中国联合网络通信集团有限公司 数据备份方法、装置、设备、存储介质及程序产品
CN113064836A (zh) * 2021-05-07 2021-07-02 中国工商银行股份有限公司 一种基于银行***自动化测试的业务异常修复方法及装置
CN113192228A (zh) * 2021-04-30 2021-07-30 中国工商银行股份有限公司 集群自动化巡检方法及装置
CN113190405A (zh) * 2021-04-29 2021-07-30 山东英信计算机技术有限公司 一种节点健康检测方法、装置及电子设备和存储介质
CN113407504A (zh) * 2021-06-15 2021-09-17 中科曙光国际信息产业有限公司 一种数据处理方法、用户空间文件***以及存储介质
CN113448806A (zh) * 2021-06-30 2021-09-28 平安证券股份有限公司 数据库集群异常检测方法、装置、终端设备及存储介质
CN113535518A (zh) * 2021-07-23 2021-10-22 北京八分量信息科技有限公司 一种用户行为的分布式实时动态监控方法及***
CN115994044A (zh) * 2023-01-09 2023-04-21 苏州浪潮智能科技有限公司 基于监控服务的数据库故障处理方法、装置及分布式集群
CN116070963A (zh) * 2023-03-06 2023-05-05 华安证券股份有限公司 一种基于大数据的线上客户服务***健康度检测方法
CN116561076A (zh) * 2023-05-10 2023-08-08 合芯科技(苏州)有限公司 分布式文件***的监控方法、装置、计算机设备及介质
CN116955074A (zh) * 2023-07-12 2023-10-27 北京铜牛信息科技股份有限公司 一种数据存储平台智能监控方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101519078A (zh) * 2009-03-13 2009-09-02 国电南瑞科技股份有限公司 综合监控***多区域数据同步方法
CN101719836A (zh) * 2008-10-09 2010-06-02 联想(北京)有限公司 一种故障检测方法及装置
CN105743993A (zh) * 2016-03-31 2016-07-06 杭州数梦工场科技有限公司 报文处理方法和***
CN107943668A (zh) * 2017-12-15 2018-04-20 江苏神威云数据科技有限公司 计算机服务器集群日志监控方法及监控平台
CN108491422A (zh) * 2018-02-07 2018-09-04 平安健康互联网股份有限公司 数据库自动化运维管理方法、服务器及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719836A (zh) * 2008-10-09 2010-06-02 联想(北京)有限公司 一种故障检测方法及装置
CN101519078A (zh) * 2009-03-13 2009-09-02 国电南瑞科技股份有限公司 综合监控***多区域数据同步方法
CN105743993A (zh) * 2016-03-31 2016-07-06 杭州数梦工场科技有限公司 报文处理方法和***
CN107943668A (zh) * 2017-12-15 2018-04-20 江苏神威云数据科技有限公司 计算机服务器集群日志监控方法及监控平台
CN108491422A (zh) * 2018-02-07 2018-09-04 平安健康互联网股份有限公司 数据库自动化运维管理方法、服务器及存储介质

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110262926A (zh) * 2019-06-05 2019-09-20 世纪龙信息网络有限责任公司 服务器的元数据修复方法、装置、***和计算机设备
CN110262926B (zh) * 2019-06-05 2021-10-08 世纪龙信息网络有限责任公司 服务器的元数据修复方法、装置、***和计算机设备
CN110457176A (zh) * 2019-07-12 2019-11-15 平安普惠企业管理有限公司 用于分布式***的监控方法、装置、存储介质及电子设备
CN110502496B (zh) * 2019-07-19 2022-10-18 苏州浪潮智能科技有限公司 一种分布式文件***修复方法、***、终端及存储介质
CN110502496A (zh) * 2019-07-19 2019-11-26 苏州浪潮智能科技有限公司 一种分布式文件***修复方法、***、终端及存储介质
CN110417597A (zh) * 2019-07-29 2019-11-05 中国工商银行股份有限公司 用于监控证书的方法及装置、电子设备和可读存储介质
CN110417597B (zh) * 2019-07-29 2022-11-01 中国工商银行股份有限公司 用于监控证书的方法及装置、电子设备和可读存储介质
CN110442495A (zh) * 2019-07-30 2019-11-12 杭州安恒信息技术股份有限公司 自动化巡检***异常的方法
CN110532322A (zh) * 2019-08-20 2019-12-03 腾讯云计算(北京)有限责任公司 运维交互方法、***、计算机可读存储介质及设备
CN110532322B (zh) * 2019-08-20 2024-04-30 腾讯云计算(北京)有限责任公司 运维交互方法、***、计算机可读存储介质及设备
CN112445677A (zh) * 2019-09-04 2021-03-05 中国石油化工股份有限公司 一种计算机集群的健康状态检查和修复方法及存储介质
CN110825420A (zh) * 2019-11-26 2020-02-21 中国银行股份有限公司 分布式集群的配置参数更新方法、装置、设备及存储介质
CN110825420B (zh) * 2019-11-26 2023-09-22 中国银行股份有限公司 分布式集群的配置参数更新方法、装置、设备及存储介质
CN111049705B (zh) * 2019-12-23 2023-09-12 深圳前海微众银行股份有限公司 一种监控分布式存储***的方法及装置
WO2021129367A1 (zh) * 2019-12-23 2021-07-01 深圳前海微众银行股份有限公司 一种监控分布式存储***的方法及装置
CN111049705A (zh) * 2019-12-23 2020-04-21 深圳前海微众银行股份有限公司 一种监控分布式存储***的方法及装置
CN111078507A (zh) * 2019-12-27 2020-04-28 广州三七互娱科技有限公司 数据监控方法、***、计算机设备和存储介质
CN111159139A (zh) * 2019-12-30 2020-05-15 浪潮电子信息产业股份有限公司 一种数据处理方法、装置、存储介质及监视设备
CN111159139B (zh) * 2019-12-30 2022-04-22 浪潮电子信息产业股份有限公司 一种数据处理方法、装置、存储介质及监视设备
CN111352975B (zh) * 2020-03-04 2024-01-30 建信金融科技有限责任公司 数据质量管理方法、客户端、服务端和***
CN111352975A (zh) * 2020-03-04 2020-06-30 中国建设银行股份有限公司 数据质量管理方法、客户端、服务端和***
CN111404735A (zh) * 2020-03-09 2020-07-10 北京思特奇信息技术股份有限公司 一种分布式应用监控方法及监控***
CN111400117A (zh) * 2020-03-12 2020-07-10 山东汇贸电子口岸有限公司 一种自动化测试Ceph集群的方法
CN111399845A (zh) * 2020-03-12 2020-07-10 北京字节跳动网络技术有限公司 断言的方法、装置、电子设备及计算机可读介质
CN111400117B (zh) * 2020-03-12 2023-07-11 山东汇贸电子口岸有限公司 一种自动化测试Ceph集群的方法
CN111522680A (zh) * 2020-04-17 2020-08-11 支付宝(杭州)信息技术有限公司 一种自动修复异常任务节点的方法、装置及设备
CN111581005A (zh) * 2020-05-07 2020-08-25 深圳市创维软件有限公司 终端修复方法、终端和存储介质
CN111581005B (zh) * 2020-05-07 2023-08-25 深圳市创维软件有限公司 终端修复方法、终端和存储介质
CN111651442A (zh) * 2020-05-15 2020-09-11 京东数字科技控股有限公司 一种数据报送方法、装置、电子设备及存储介质
CN111813332A (zh) * 2020-05-21 2020-10-23 华北电力大学 一种高性能、高扩展和高安全的智能分布式存储***
CN111708665A (zh) * 2020-05-29 2020-09-25 苏州浪潮智能科技有限公司 一种存储集群***全面监控的方法、装置、设备和介质
CN111698330A (zh) * 2020-06-12 2020-09-22 北京金山云网络技术有限公司 存储集群的数据恢复方法、装置及服务器
CN111698330B (zh) * 2020-06-12 2022-06-21 北京金山云网络技术有限公司 存储集群的数据恢复方法、装置及服务器
CN112052111B (zh) * 2020-09-08 2022-06-03 中国平安人寿保险股份有限公司 服务器异常预警的处理方法、装置、设备及存储介质
CN112052111A (zh) * 2020-09-08 2020-12-08 中国平安人寿保险股份有限公司 服务器异常预警的处理方法、装置、设备及存储介质
CN112115026B (zh) * 2020-09-15 2022-09-16 招商局金融科技有限公司 服务器集群监控方法、装置、电子设备及可读存储介质
CN112115026A (zh) * 2020-09-15 2020-12-22 招商局金融科技有限公司 服务器集群监控方法、装置、电子设备及可读存储介质
CN112506734A (zh) * 2020-11-10 2021-03-16 珠海格力电器股份有限公司 一种服务***及其管理方法
CN112486766A (zh) * 2020-11-25 2021-03-12 上海中通吉网络技术有限公司 基于文件的监控平台的问题排查方法、装置和***
CN112559284A (zh) * 2020-12-08 2021-03-26 爱信诺征信有限公司 集群运维***、方法及相关产品
CN112637293A (zh) * 2020-12-14 2021-04-09 北京爱奇艺科技有限公司 数据修复***、方法、装置、电子设备及存储介质
CN112711497A (zh) * 2021-01-05 2021-04-27 浪潮云信息技术股份公司 一种容器化部署Ceph集群对象unfound故障的恢复方法及***
CN112988466A (zh) * 2021-04-07 2021-06-18 中国联合网络通信集团有限公司 数据备份方法、装置、设备、存储介质及程序产品
CN113190405A (zh) * 2021-04-29 2021-07-30 山东英信计算机技术有限公司 一种节点健康检测方法、装置及电子设备和存储介质
CN113192228A (zh) * 2021-04-30 2021-07-30 中国工商银行股份有限公司 集群自动化巡检方法及装置
CN113064836A (zh) * 2021-05-07 2021-07-02 中国工商银行股份有限公司 一种基于银行***自动化测试的业务异常修复方法及装置
CN113407504B (zh) * 2021-06-15 2023-05-23 中科曙光国际信息产业有限公司 一种数据处理方法、用户空间文件***以及存储介质
CN113407504A (zh) * 2021-06-15 2021-09-17 中科曙光国际信息产业有限公司 一种数据处理方法、用户空间文件***以及存储介质
CN113448806B (zh) * 2021-06-30 2022-12-09 平安证券股份有限公司 数据库集群异常检测方法、装置、终端设备及存储介质
CN113448806A (zh) * 2021-06-30 2021-09-28 平安证券股份有限公司 数据库集群异常检测方法、装置、终端设备及存储介质
CN113535518A (zh) * 2021-07-23 2021-10-22 北京八分量信息科技有限公司 一种用户行为的分布式实时动态监控方法及***
CN113535518B (zh) * 2021-07-23 2023-12-05 北京八分量信息科技有限公司 一种用户行为的分布式实时动态监控方法及***
CN115994044A (zh) * 2023-01-09 2023-04-21 苏州浪潮智能科技有限公司 基于监控服务的数据库故障处理方法、装置及分布式集群
CN116070963A (zh) * 2023-03-06 2023-05-05 华安证券股份有限公司 一种基于大数据的线上客户服务***健康度检测方法
CN116561076A (zh) * 2023-05-10 2023-08-08 合芯科技(苏州)有限公司 分布式文件***的监控方法、装置、计算机设备及介质
CN116955074B (zh) * 2023-07-12 2024-02-13 北京铜牛信息科技股份有限公司 一种数据存储平台智能监控方法
CN116955074A (zh) * 2023-07-12 2023-10-27 北京铜牛信息科技股份有限公司 一种数据存储平台智能监控方法

Also Published As

Publication number Publication date
CN109522287B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN109522287A (zh) 分布式文件存储集群的监控方法、***、设备及介质
CN106777371A (zh) 日志收集***和方法
CN112565415B (zh) 一种基于云边协同的跨地域资源纳管***和纳管方法
CN102088490B (zh) 数据存储方法、设备和***
US20140195670A1 (en) Automated alert management
CN103166933A (zh) 一种数据安全交换***及方法
CN103500475B (zh) 一种办公楼宇门禁***的调试方法、***
CN110209507A (zh) 基于消息队列的数据处理方法、装置、***及存储介质
CN108696392A (zh) 一种通信状态监控方法、网络节点及计算机可读存储介质
CN104967537A (zh) 一种报警信息推送方法及装置
CN103699063A (zh) 一种制造执行***mes中离线数据的采集装置和方法
CN106844163A (zh) 一种数据库主从同步状态监控的方法以及装置
CN103501237A (zh) 设备管理方法、管理平台、设备及***
CN107800783A (zh) 远程监控服务器的方法及装置
CN107491371A (zh) 一种监控部署的方法以及装置
CN108089915A (zh) 基于消息队列的业务控件化处理的方法及***
CN108156040A (zh) 一种分布式云存储***中的中央控制节点
CN112559461A (zh) 文件传输方法及装置、存储介质及电子设备
CN102946407B (zh) 在重新连接时传递非预期协作服务器响应
CN114356654A (zh) 备份***、备份方法、装置、计算机设备和存储介质
CN112130889A (zh) 资源的管理方法和装置、存储介质、电子装置
CN111669425B (zh) 监控微服务接口的方法、存储介质
CN113254274A (zh) 消息处理方法、装置、存储介质以及服务器
JP4673532B2 (ja) マルチマネージャ環境における包括アライメントプロセス
CN111628903A (zh) 交易***运行状态的监控方法及监控***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant