CN109614283B - 分布式数据库集群的监控*** - Google Patents
分布式数据库集群的监控*** Download PDFInfo
- Publication number
- CN109614283B CN109614283B CN201811244012.3A CN201811244012A CN109614283B CN 109614283 B CN109614283 B CN 109614283B CN 201811244012 A CN201811244012 A CN 201811244012A CN 109614283 B CN109614283 B CN 109614283B
- Authority
- CN
- China
- Prior art keywords
- monitoring
- monitoring system
- primary
- management platform
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
Landscapes
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及分布式数据库集群的监控***,包括管理员客户端、监控管理平台以及多个监控节点,每个监控节点中设置有一级监控***、二级监控***以及待监控的数据库,一级监控***用于监控所述数据库;监控管理平台用于,向对应的监控节点发送所述监控任务的设置信息;监控节点中,二级监控***用于,执行针对一级监控***的监控任务,根据任务执行结果信息对一级监控***进行状态评估,将状态评估结果发送给监控管理平台;监控管理平台收到一级监控***存在异常的状态评估结果时,触发告警机制,向关联的终端和/或管理员客户端发送告警信息。本发明实施例解决了现有数据库监控***对分布式数据库集群的监控无法得到保障的问题。
Description
技术领域
本发明涉及数据库技术领域,特别是涉及分布式数据库集群的监控***。
背景技术
在互联网领域,企业大多采用分布式数据库集群来作为数据存储方案,为了保障数据库的高可用,还会部署一套监控体系,用来监控分布式数据库集群的服务与健康状况。
在实现本发明的过程中,发明人发现现有技术中存在如下问题:现有的监控体系多采用分布式结构,多个监控***构成一个分布式监控集群,当分布式数据库集群规模越大时,难以保证监控集群中的各监控***的本地脚本、远程代理及定时任务部署均运行正常,导致监控集群对分布式数据库集群的监控效果无法得到保障。
发明内容
基于此,有必要针对现有方式下监控***对分布式数据库集群的监控无法保障的问题,提供一种分布式数据库集群的监控***。
本发明实施例提供一种分布式数据库集群的监控***,包括管理员客户端、监控管理平台以及多个监控节点,每个监控节点中设置有一级监控***、二级监控***以及待监控的数据库,所述一级监控***用于监控所述数据库;
所述管理员客户端用于,接收监控设置指令,向所述监控管理平台发送所述监控设置指令;所述监控设置指令中携带有监控节点的设置信息以及监控任务的设置信息;
所述监控管理平台用于,根据所述监控节点的设置信息,向对应的监控节点发送所述监控任务的设置信息;
在对应的监控节点中,所述二级监控***用于,接收所述监控管理平台发送的监控任务的设置信息,执行所述监控任务的设置信息对应的、针对所述一级监控***的监控任务,根据任务执行结果信息对所述一级监控***进行状态评估,将状态评估结果发送给所述监控管理平台;
所述监控管理平台还用于,当收到所述一级监控***存在异常的状态评估结果时,触发告警机制,通过所述告警机制向关联的终端和/或所述管理员客户端发送告警信息。
在一个实施例中,所述监控管理平台具体用于,根据任务执行结果信息对所述一级监控***进行的状态评估至少包括:监控指标覆盖率评估、监控指标版本评估、监控指标执行状态评估和监控指标执行结果准确度评估。
在一个实施例中,所述监控管理平台还用于,在收到所述一级监控***存在异常的状态评估结果之后,针对所述一级监控***存在的异常类型,对所述一级监控***进行对应的异常修复。
在一个实施例中,所述一级监控***存在的异常包括:监控指标覆盖率异常、监控指标版本异常、监控指标执行状态异常和/或监控指标执行结果准确度异常。
在一个实施例中,在每个监控节点中,一级监控***、二级监控***、待监控的数据库三者一一对应。
在一个实施例中,在所述二级监控***中,部署有多个监控任务对应的监控脚本,所述监控任务与所述监控脚本一一对应。
在一个实施例中,在所述二级监控***中,所述监控脚本部署在管理员用户目录下,非管理员用户无权限访问所述监控脚本。
在一个实施例中,在所述二级监控***中,所述监控脚本以隐藏文件的形式部署。
在一个实施例中,所述监控管理平台具体用于,当收到所述一级监控***存在异常的状态评估结果时,识别异常等级;
针对第一异常等级,触发短信告警机制,通过所述短信告警机制向对应的终端发送告警信息;
针对第二异常等级,触发邮件+短信的告警机制,通过所述邮件+短信的告警机制向对应的终端发送告警信息;
针对第三异常等级,触发短信+APP的告警机制,通过所述短信+APP的告警机制向对应的终端以及所述管理员客户端发送告警信息;
其中,第一异常等级、第二异常等级、第三异常等级的紧急程度依次递增。
在一个实施例中,所述监控管理平台还用于,向所述管理员客户端发送所述状态评估结果;
所述管理员客户端还用于,对所述状态评估结果进行展示。
上述技术方案中的一个技术方案具有如下优点或有益效果:在监控***中包括:管理员客户端、监控管理平台以及多个监控节点,每个监控节点中设置有一级监控***、二级监控***以及待监控的数据库,所述一级监控***用于监控所述数据库。多个监控节点中的待监控的数据库构成分布式数据库集群,多个监控节点中的一级监控***构成分布式一级监控集群;多个监控节点中的二级监控***构成分布式二级监控集群。由此提供一种辅助的分布式的二级监控方案,针对分布式数据库集群及分布式一级监控集群的工作状态进行全面监控,进而有利于保障分布式数据库集群的高可用性。
附图说明
图1为一实施例的分布式数据库集群的监控***的示意性结构图;
图2为另一实施例的分布式数据库集群的监控***的示意性结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例中,分布式数据库集群包括部署在多个不同机房的数据库,为了保障分布式数据库集群中各个数据库的高可用,传统针对分布式数据库集群的监控***中会部署一套监控集群,监控集群包括多个监控服务,通过多个监控服务监控分布式数据库集群中多个数据库的服务与健康状况。这样的监控***存在以下问题:(1)当分布式数据库集群的规模越大时,难以保证监控集群中的各监控服务的本地脚本、远程代理及定时任务部署均运行正常,导致监控集群对分布式数据库集群的监控无法保障;(2)当发现某监控集群的监控存在遗漏、错误部署、版本过旧、任务执行失败和代理失效,会使监控集群成为运营维护的一个盲点,给业务会造成很大的潜在威胁;(3)当监控集群的规模过于庞大时,监控问题过多,带来极大的运维负担,运维成本过大;(4)监控集群本身也需要保持高可用,而监控集群却缺乏必要的手段来保障自身的健壮性。可见,传统针对分布式数据库集群的监控***还有待改进。
根据本发明一实施例,如图1所示,提供的分布式数据库集群的监控***包括:管理员客户端、监控管理平台以及多个监控节点,每个监控节点中设置有一级监控***、二级监控***以及待监控的数据库,所述一级监控***用于监控所述数据库。其中,多个监控节点中的待监控的数据库构成一个分布式数据库集群,多个监控节点中的一级监控***构成一个分布式一级监控***集群;多个监控节点中的二级监控***构成一个分布式二级监控***集群。本发明实施例中,监控管理平台可以是一个服务器或者云服务器集群;一级监控***、二级监控***可以是一个服务器,部署在数据库所在的机房中,可避免信息收发的延迟。
其中,管理员客户端可以是网页或者APP,用于,接收监控设置指令,向所述监控管理平台发送所述监控设置指令;所述监控设置指令中携带有监控节点的设置信息以及监控任务的设置信息;
所述监控管理平台用于,根据所述监控节点的设置信息,向对应的监控节点发送所述监控任务的设置信息;
在对应的监控节点中,所述二级监控***用于,接收所述监控管理平台发送的监控任务的设置信息,执行所述监控任务的设置信息对应的、针对所述一级监控***的监控任务,根据任务执行结果信息对所述一级监控***进行状态评估,将状态评估结果发送给所述监控管理平台;
所述监控管理平台还用于,当收到所述一级监控***存在异常的状态评估结果时,触发告警机制,通过所述告警机制向关联的终端和/或所述管理员客户端发送告警信息。
上述实施例的分布式数据库集群的监控***,通过在监控***中设置管理员客户端、监控管理平台以及多个监控节点,每个监控节点中设置有一级监控***、二级监控***以及待监控的数据库,所述一级监控***用于监控所述数据库。多个监控节点中的待监控的数据库构成分布式数据库集群,多个监控节点中的一级监控***构成分布式一级监控集群;多个监控节点中的二级监控***构成分布式二级监控集群。由此提供一种辅助的分布式的二级监控方案,针对分布式数据库集群及分布式一级监控集群的工作状态进行全面监控,进而有利于保障分布式数据库集群的高可用性。
进一步地,根据本发明一实施例,监控管理平台具体用于,根据任务执行结果信息对所述一级监控***进行的状态评估至少包括:监控指标覆盖率评估、监控指标版本评估、监控指标执行状态评估和监控指标执行结果准确度评估。
在传统的监控***中,当某个监控服务中的监控指标存在遗漏、错误部署、版本过旧、任务执行失败和代理失效等异常时,会使分布式一级监控集群成为运营维护的一个盲点,给业务会造成很大的潜在威胁。本发明上述实施例,通过分布式二级监控集群中的各个二级监控***对一级监控集群中的各个一级监控***的监控指标进行全部监控,可及时发现一级监控集群中的各个一级监控***中是否存在监控指标缺失、监控指标版本过低、监控指标无法有效运行、监控指标执行结果不准确等问题,便于及时修复一级监控集群中对应的一级监控***,进而提高对分布式数据库集群的监控效果。
进一步地,根据本发明一实施例,监控管理平台还用于,在收到所述一级监控***存在异常的状态评估结果之后,针对所述一级监控***存在的异常类型,对所述一级监控***进行对应的异常修复。
在一些场景中,一级监控***存在的异常包括:监控指标覆盖率异常、监控指标版本异常、监控指标执行状态异常和/或监控指标执行结果准确度异常。
在一些场景中,一级监控***中的监控指标包括:采集程序、定时任务、数据库中间件服务、进程并发、监控策略、权限配置、告警通道、数据库备份、数据库复制及服务自愈中的至少一项。
针对实际情况,监控管理平台还可以根据任务执行结果信息对所述一级监控***进行如下状态评估:日志评估、磁盘评估、时间同步评估、数据同步评估、定时任务评估;对应地,一级监控***存在的异常还可以包括其他情况,例如日志异常、磁盘异常、时间同步异常、数据同步异常、定时任务异常等等,不做穷举。
传统监控***中,当分布式监控集群出现异常时,无法进行自动修复,当分布式监控集群规模过于庞大时,分布式监控集群的修复问题给运维人员带来极大的运维负担,造成运维成本过大,本发明实施例通过管理员客户端、监控管理平台以及二级监控***,在发现一级监控***出现异常时,对一级监控***进行自动化的修复,例如发现监控指标异常,迅速定位到具体问题点,并按照规则库里的自动修复规则,以增加、更新或重启任务的形式修复相应的监控指标,有利于减小分布式一级监控集群的运维成本。
进一步地,根据本发明一实施例,在每个监控节点中,一级监控***、二级监控***、待监控的数据库三者一一对应;针对跨机房多数据中心的分布式数据库集群,本发明实施例有利于快速定位出存在异常的一级监控***和/或数据库集群。
进一步地,在二级监控***中,可以部署有多个监控任务对应的监控脚本,所述监控任务与所述监控脚本一一对应。其中,监控脚本可以通过JAVA的TIMER机制启动,以执行对应的监控任务。
在一些场景中,将监控脚本部署在管理员用户目录下,非管理员用户无权限访问所述监控脚本,提高了二级监控***中的监控脚本的安全指数。进一步地,还可将监控脚本以隐藏文件的形式部署,例如文件名以点开头,监控日志则以点开头形成隐藏文件,进一步提高二级监控***中的监控脚本的安全指数。
根据本发明一实施例,监控管理平台具体用于,当收到所述一级监控***存在异常的状态评估结果时,识别异常等级;针对第一异常等级,触发短信告警机制,通过所述短信告警机制向对应的终端发送告警信息;针对第二异常等级,触发邮件+短信的告警机制,通过所述邮件+短信的告警机制向对应的终端发送告警信息;针对第三异常等级,触发短信+APP的告警机制,通过所述短信+APP的告警机制向对应的终端以及所述管理员客户端发送告警信息;其中,第一异常等级、第二异常等级、第三异常等级的紧急程度依次递增。
二级监控***在发现一级监控***异常情况时,可以采用短信,邮件,APP语音三种渠道进行告警通知以及在问题解决后的恢复通知,例如:紧急级别低的异常情况可以邮件的形式发送给相关负责人;紧急级别中等的***情况可以以邮件+短信的方式发送给相关负责人;而紧急级别高的***情况可以以短信+APP语音的方式发送给相关负责人。此外,不同的告警方式还可以采用不同的告警频率,例如短信告警可以是每12小时一次,APP告警可以是每10分钟一次,以提醒相关负责人及时处理一级监控***的异常情况。
根据本发明一实施例,监控管理平台还用于,向所述管理员客户端发送所述状态评估结果;所述管理员客户端还用于,对所述状态评估结果进行展示。在一些场景下,管理员客户端具体用于,采用GUI可视化界面直观地显示一级监控***的实时状态和趋势报表,方便了相关负责人员清晰直观的知悉分布式一级监控集群的当前状态,及时进行对问题进行一键化处理并作评价与分析,并通过GUI界面实现自助一键注册、配置、更新与部署等。
进一步地,本发明实施例的分布式数据库集群的监控***结构还可以如图2所示,整个运行环境分为三部分:二级监控***集群(包括多个二级监控***)、一级监控***集群(包括多个一级监控***)和数据库集群(包括多个数据库)。这三部分在各个异地机房都有部署,且二级监控***、一级监控***、数据库一一对应。访问任意机房的监控更新的数据可以同步到其他机房的监控数据库中。各机房中的数据保持一致。通过本实施例的监控体系,可以从监控有效性、自动修复、自身健壮性、监控质量评价四个维度,对分布式数据库集群进行监控,因此间接地保障了分布式数据库集群的正常与可靠。
监控有效性是指,分布式数据库集群的监控***能够对一级监控***中监控指标的覆盖率、版本的新旧率、监控任务的执行有效率、准确度是否达到所设定的阈值的实时监控。
自动修复是指,基于本实施例的分布式数据库集群的监控***,一级监控***中的监控指标出现异常之后,能够迅速定位到具体问题点,并按照预设规则自动修复,对一级监控***的问题进行处理并告警,进而以增加、更新或重启任务的形式修复一级监控***的监控功能。
健壮性是指,基于本实施例的分布式数据库集群的监控***,二级监控***在跨机房多中心的分布式数据库集群监控受到非法侵害、任务被删除、更新的情况下,能够迅速修复整个监控体系,从而保障了整个监控***的整体健壮性,而间接地保障了多数据中心的分布式数据库运行的可靠性。
监控质量评价是指,基于本实施例的分布式数据库集群的监控***,对一级监控***中监控指标的覆盖率、版本的新旧率、监控指标的执行状态、准确度进行量化评价,用于升级一级监控***的决策依据。
监控指标的执行状态包括:合规性和时效性和一致性。合规性是指监控指标的监控手段是否符合配置的规则,因为***的统计分析功能是基于一定的规则之上的,如果监控时规则不匹配,则对后续的统计分析也会有影响;时效性是指监控指标获取的信息是否是最新的信息,对于保障数据库的监控***来说,实时性是非常重要的;一致性,是指所有监控方法的内容与版本是否保持了一致性,若是某些服务器上的监控方法不是和最新版本保持一致,不仅会影响获取数据的准确性,也会影响数据库集群运行的诊断与定位。
准确度是指一级监控***获取到的监控结果,是否是数据库当前的真实状态一致,若一致,表明一级监控***的监测结果准确,否则,表明一级监控***的监测结果不准确。
在一些场景中,二级监控***需执行的监控任务包括:仪表盘管理任务、资产管理任务、项目管理任务、程序资源池任务、质量评价任务、监控指标库任务、匹配规则库任务、监控报表任务、自动化管理任务和***配置任务中的至少一项。
其中,仪表盘是对一级监控***的监控结果以多维度的雷达图、趋势简图的形式进行展示;上述的仪表盘管理,是对二级监控***的仪表盘功能的监控;资产管理(ITIL)是指对分布式数据库集群与中间件IP、服务版本配置、操作***配置、人员角色、权限的配置信息,资产管理任务,是关于二级监控***的资产管理功能的监控;项目管理指的是数据库所在的项目、子项目、干系人、项目权限角色配置;项目管理任务,是关于一级监控***的项目管理功能的监控;程序资源池,是指二级监控***所需要的脚本、程序和字典的集合,程序资源池任务,是对二级监控***的程序资源池功能的监控;质量评价任务,是指对一级监控***的监控指标的覆盖率、版本的新旧率、执行有效率、执行结果准确度维度的趋势评价的任务;监控指标库,是一级监控***针监控数据库所需的监控指标集合,监控指标库任务,是关于一级监控***的监控指标情况的监控;匹配规则库,是管理一级监控***对应的监控指标的一个标准库,用于对一级监控***所需所有监控指标进行匹配并输出给一级监控***;匹配规则库任务是二级监控***对本地的匹配规则库情况的监控;二级监控报表任务,是二级监控***对一级监控***的综合分析表功能的监控;自助管理,是指管理员可以通过二级监控***的此功能,实现自助一键注册、配置、更新与部署监控***;自动化管理,是指自动策略的配置及监控问题指标自愈、历史日志统计分析;***配置是对二级监控***自身***权限、资源、权限角色自动化配置。
在一些场景下,一级监控***所需监控指标例如:采集程序、定时任务、代理服务、进程并发、监控策略、权限配置、告警通道、数据库备份、心跳检测、数据库复制及服务自愈、性能自愈等监控脚本、异地监控任务、主机存活监控任务、主机磁盘监控任务、时间同步监控任务。二级监控***的目的就是对这些监控指标的有无、版本新旧、执行状态、执行结果准确性的判断,从而制定策略对一级监控***中有异常的监控指标进行处理。
二级监控***的告警和恢复通知规则,是指二级监控***在发现一级监控***的异常情况时,采用何种方式进行告警通知以及在问题解决后的恢复通知,包括短信,邮件,APP语音三种渠道,针对不同的告警方式还可以采取不同的告警频率。紧急级别低的***情况可以以邮件的形式发送给相关负责人;紧急级别中等的***情况可以以邮件+短信的方式发送给相关负责人;而紧急级别高的***情况可以以短信+APP语音的方式发送给相关负责人,并且依据紧急程度不同APP信息的发送频率也不同。同时二级监控***还记录短信、邮件和APP的发送情况,如短信、邮件和APP发送时间,发送是否成功等,以日志文件的形式记录,日志文件名可以以点开头。
通过二级监控***对规则匹配的数据的采集得到异常信息(未覆盖到的、版本不一致的、集群进程异常、数据不准确的日志及数据),经过二级监控***运算,得出时间范围内的数据库集群结果,通过对比二级监控***获取到的数据库集群结果,与一级监控***获取到的数据库集群结果,可判断出一级监控***的检测准确度、合规率、一致性、时效性、覆盖率等,从而得到针对一级监控***的可视化的监控分析趋势图。
二级监控报表是基于采集程序、定时任务、代理服务、进程并发、监控策略、权限配置、告警通道、数据库备份、心跳检测、数据库复制及服务自愈、性能自愈等监控脚本、异地监控任务、主机存活监控任务、主机磁盘监控任务、时间同步监控任务等监控指标和基于时间段(天、周、月、半年、年)按数据库中心、项目、子项目、服务器应用、数据库、中间件的维度给出监控指标异常与修复细节(监控存在、最新、可行、异常与修复的具体时间(精确到秒)及异常修复日志与方案)的统计及集合。
二级监控***对一级监控***的监控任务如:采集程序、定时任务、代理服务、进程并发、监控策略、权限配置、告警通道、数据库备份、心跳检测、数据库复制及服务自愈、性能自愈等监控脚本、异地监控任务、主机存活监控任务、主机磁盘监控任务、时间同步监控任务,监控任务的脚本可根据业务做分离并部署在特定的相关服务器或服务程序上。不同监控任务的脚本的执行频率可以个性化设置,比如每n分钟执行一次。
二级监控***的监控任务都是部署在二级监控***程序上,通过远程代理与客户端的模式定时运行,接受定时任务指令,执行并返回结果给二级监控***相应的模块。
二级监控***的监控任务使用的脚本,均部署在专用二级监控用户目录下,非专用二级监控用户一般没有权限切换到二级监控用户目录,这在一定程度上提高了二级监控脚本的安全指数,程序级使用JAVA中的TIMER定时任务来启动。这些脚本中产生的各种文件以隐藏文件的形式存在,即文件名以点开头。如监控日志则以点开头形成隐藏文件。当出现某些监控脚本及监控任务不是最新或不存在的情况时,根据规则,不存在时及时通过代理补充监控任务,加入到二级监控***临时任务列表中,以备工作人员后期处理并匹配加入正常的任务列表。
二级监控***还具备机器学习的功能,机器学习通过对二级监控***的监控任务的学习分析,结合监控返回的结果信息,对现有的监控任务提出合理优化,例如添加新的监控任务,卸载不符合规范的监控任务等。通过机器学习对二级监控***的定时任务的学习分析,从而合理优化二级监控***的定时任务的执行频率和执行时间,以达到最好的监控效果。
应该理解的是,对于前述二级监控***执行的监控任务,可以根据管理员客户端的指令执行,也可以根据设定时间定时执行,多个监控任务的执行顺序和执行频率均可根据实际情况设定,由二级监控***自动执行。
上述实施例的分布式数据库集群的监控***,能够保证分布式数据库集群原有监控***的有效性、自动修复、完整性和健壮性,间接地保障了分布式数据库集群业务的正常与可靠。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
本文实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或(模块)单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在本文中提及的“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种分布式数据库集群的监控***,其特征在于,包括管理员客户端、监控管理平台以及多个监控节点,每个监控节点中设置有一级监控***、二级监控***以及待监控的数据库,所述一级监控***用于监控所述数据库;
所述管理员客户端用于,接收监控设置指令,向所述监控管理平台发送所述监控设置指令;所述监控设置指令中携带有监控节点的设置信息以及监控任务的设置信息;
所述监控管理平台用于,根据所述监控节点的设置信息,向对应的监控节点发送所述监控任务的设置信息;
在对应的监控节点中,所述二级监控***用于,接收所述监控管理平台发送的监控任务的设置信息,执行所述监控任务的设置信息对应的、针对所述一级监控***的监控任务,根据任务执行结果信息对所述一级监控***进行状态评估,将状态评估结果发送给所述监控管理平台;
所述监控管理平台还用于,当收到所述一级监控***存在异常的状态评估结果时,触发告警机制,通过所述告警机制向关联的终端和/或所述管理员客户端发送告警信息;
所述监控管理平台具体用于,根据任务执行结果信息对所述一级监控***进行的状态评估至少包括:监控指标覆盖率评估、监控指标版本评估、监控指标执行状态评估和监控指标执行结果准确度评估。
2.根据权利要求1所述的监控***,其特征在于,所述监控管理平台还用于,在收到所述一级监控***存在异常的状态评估结果之后,针对所述一级监控***存在的异常类型,对所述一级监控***进行对应的异常修复。
3.根据权利要求2所述的监控***,其特征在于,所述一级监控***存在的异常包括:监控指标覆盖率异常、监控指标版本异常、监控指标执行状态异常和/或监控指标执行结果准确度异常。
4.根据权利要求3所述的监控***,其特征在于,所述一级监控***中的监控指标包括:采集程序、定时任务、数据库中间件服务、进程并发、监控策略、权限配置、告警通道、数据库备份、数据库复制和服务自愈中的至少一项。
5.根据权利要求1所述的监控***,其特征在于,在每个监控节点中,一级监控***、二级监控***、待监控的数据库三者一一对应。
6.根据权利要求1至5任一项所述的监控***,其特征在于,在所述二级监控***中,部署有多个监控任务对应的监控脚本,所述监控任务与所述监控脚本一一对应。
7.根据权利要求6所述的监控***,其特征在于,在所述二级监控***中,所述监控脚本部署在管理员用户目录下,非管理员用户无权限访问所述监控脚本。
8.根据权利要求6或7所述的监控***,其特征在于,在所述二级监控***中,所述监控脚本以隐藏文件的形式部署。
9.根据权利要求1至5、7任一项所述的监控***,其特征在于,所述监控管理平台具体用于,当收到所述一级监控***存在异常的状态评估结果时,识别异常等级;
针对第一异常等级,触发短信告警机制,通过所述短信告警机制向对应的终端发送告警信息;
针对第二异常等级,触发邮件+短信的告警机制,通过所述邮件+短信的告警机制向对应的终端发送告警信息;
针对第三异常等级,触发短信+APP的告警机制,通过所述短信+APP的告警机制向对应的终端以及所述管理员客户端发送告警信息;
其中,第一异常等级、第二异常等级、第三异常等级的紧急程度依次递增。
10.根据权利要求1所述的监控***,其特征在于,
所述监控管理平台还用于,向所述管理员客户端发送所述状态评估结果;
所述管理员客户端还用于,对所述状态评估结果进行展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811244012.3A CN109614283B (zh) | 2018-10-24 | 2018-10-24 | 分布式数据库集群的监控*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811244012.3A CN109614283B (zh) | 2018-10-24 | 2018-10-24 | 分布式数据库集群的监控*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109614283A CN109614283A (zh) | 2019-04-12 |
CN109614283B true CN109614283B (zh) | 2022-04-08 |
Family
ID=66001945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811244012.3A Active CN109614283B (zh) | 2018-10-24 | 2018-10-24 | 分布式数据库集群的监控*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614283B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111190888A (zh) * | 2020-01-03 | 2020-05-22 | 中国建设银行股份有限公司 | 一种管理图数据库集群的方法和装置 |
CN111586129A (zh) * | 2020-04-28 | 2020-08-25 | 北京奇艺世纪科技有限公司 | 针对数据同步的报警方法、装置、电子设备及存储介质 |
CN114070858A (zh) * | 2020-07-31 | 2022-02-18 | 中移(苏州)软件技术有限公司 | 一种数据处理方法及装置、设备、存储介质 |
CN112491858B (zh) * | 2020-11-20 | 2023-05-30 | 北京百度网讯科技有限公司 | 检测异常信息的方法、装置、设备以及存储介质 |
CN112559519A (zh) * | 2020-12-09 | 2021-03-26 | 北京红山信息科技研究院有限公司 | 一种大数据集群管理*** |
CN112631297A (zh) * | 2020-12-18 | 2021-04-09 | 上海商汤临港智能科技有限公司 | 监控***、监控方法、智能行驶装置、计算机设备及介质 |
CN113342418B (zh) * | 2021-06-24 | 2022-11-22 | 国网黑龙江省电力有限公司 | 基于区块链的分布式机器学习任务卸载方法 |
CN114461449A (zh) * | 2022-01-21 | 2022-05-10 | 浪潮卓数大数据产业发展有限公司 | 一种基于大数据平台的多源数据备份方法及*** |
CN115759734B (zh) * | 2022-10-19 | 2024-01-12 | 国网物资有限公司 | 基于指标的电力业务供应链监控方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101222650A (zh) * | 2007-01-10 | 2008-07-16 | 中兴通讯股份有限公司 | 多余度监控方法和*** |
CN105337765A (zh) * | 2015-10-10 | 2016-02-17 | 上海新炬网络信息技术有限公司 | 一种分布式hadoop集群故障自动诊断修复*** |
CN105915405A (zh) * | 2016-03-29 | 2016-08-31 | 深圳市中博科创信息技术有限公司 | 一种大型集群节点性能监控*** |
CN106100938A (zh) * | 2016-08-19 | 2016-11-09 | 浪潮(北京)电子信息产业有限公司 | 一种分布式集群***的监控和告警方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7962616B2 (en) * | 2005-08-11 | 2011-06-14 | Micro Focus (Us), Inc. | Real-time activity monitoring and reporting |
-
2018
- 2018-10-24 CN CN201811244012.3A patent/CN109614283B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101222650A (zh) * | 2007-01-10 | 2008-07-16 | 中兴通讯股份有限公司 | 多余度监控方法和*** |
CN105337765A (zh) * | 2015-10-10 | 2016-02-17 | 上海新炬网络信息技术有限公司 | 一种分布式hadoop集群故障自动诊断修复*** |
CN105915405A (zh) * | 2016-03-29 | 2016-08-31 | 深圳市中博科创信息技术有限公司 | 一种大型集群节点性能监控*** |
CN106100938A (zh) * | 2016-08-19 | 2016-11-09 | 浪潮(北京)电子信息产业有限公司 | 一种分布式集群***的监控和告警方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN109614283A (zh) | 2019-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614283B (zh) | 分布式数据库集群的监控*** | |
CN111209131B (zh) | 一种基于机器学习确定异构***的故障的方法和*** | |
US20220300290A1 (en) | Determining problem dependencies in application dependency discovery, reporting, and management tool | |
US20170091008A1 (en) | Detecting and analyzing performance anomalies of client-server based applications | |
CN110716842B (zh) | 集群故障检测方法和装置 | |
CN102937930A (zh) | 应用程序监控***及方法 | |
CN107800783B (zh) | 远程监控服务器的方法及装置 | |
CN108199901B (zh) | 硬件报修方法、***、设备、硬件管理服务器与存储介质 | |
CN111698121B (zh) | 一种SNMP trap告警测试方法及相关装置 | |
JP2018160186A (ja) | 監視プログラム、監視方法および監視装置 | |
CN114924990A (zh) | 一种异常场景测试方法及电子设备 | |
CN110784352A (zh) | 一种基于Oracle Goldengate的数据同步监控告警方法及装置 | |
CN112615848B (zh) | 漏洞修复状态检测方法及*** | |
CN106982141A (zh) | Weblogic实例监控方法及装置 | |
CN114338363A (zh) | 一种持续集成方法、装置、设备及存储介质 | |
CN106502665B (zh) | 一种应用程序的修复方法及装置 | |
EP4242850A2 (en) | Determining problem dependencies in application dependency discovery, reporting, and management tool | |
WO2010010393A1 (en) | Monitoring of backup activity on a computer system | |
JP2010244137A (ja) | 障害情報収集装置 | |
KR101973728B1 (ko) | 통합 보안 이상징후 모니터링 시스템 | |
CN107590647A (zh) | 船舶管理***的伺服监管*** | |
CN112131090B (zh) | 业务***性能监控方法及装置、设备及介质 | |
JP2007141007A (ja) | システム運用監視での障害時のサポートシステム化 | |
CN113946822A (zh) | 安全风险监控方法、***、计算机设备和存储介质 | |
CN113676356A (zh) | 报警信息处理方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220121 Address after: Room 1423, No. 1256 and 1258, Wanrong Road, Jing'an District, Shanghai 200040 Applicant after: Tianyi Digital Life Technology Co.,Ltd. Address before: 1 / F and 2 / F, East Garden, Huatian International Plaza, 211 Longkou Middle Road, Tianhe District, Guangzhou, Guangdong 510630 Applicant before: Century Dragon Information Network Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |