CN115248826B - 一种大规模分布式图数据库集群运维管理的方法和*** - Google Patents

一种大规模分布式图数据库集群运维管理的方法和*** Download PDF

Info

Publication number
CN115248826B
CN115248826B CN202211148001.1A CN202211148001A CN115248826B CN 115248826 B CN115248826 B CN 115248826B CN 202211148001 A CN202211148001 A CN 202211148001A CN 115248826 B CN115248826 B CN 115248826B
Authority
CN
China
Prior art keywords
monitoring
control plane
graph database
database cluster
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211148001.1A
Other languages
English (en)
Other versions
CN115248826A (zh
Inventor
刘鑫超
汪洋
李丹骥
叶小萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yueshu Technology Co ltd
Original Assignee
Hangzhou Yueshu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yueshu Technology Co ltd filed Critical Hangzhou Yueshu Technology Co ltd
Priority to CN202211148001.1A priority Critical patent/CN115248826B/zh
Publication of CN115248826A publication Critical patent/CN115248826A/zh
Application granted granted Critical
Publication of CN115248826B publication Critical patent/CN115248826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及一种大规模分布式图数据库集群运维管理的方法和***,其中,该方法包括:构建控制平面,在控制平面导入分布式图数据库集群,并通过ssh连接信息将控制平面连接到资源平面对应的分布式图数据库集群节点上;通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到控制平面的prometheus组件进行图数据服务监控;向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于控制平面的监控显示页面上。通过本申请,解决了运维管理大规模的分布式图数据库集群效率较低的问题,提高了运行效率。

Description

一种大规模分布式图数据库集群运维管理的方法和***
技术领域
本申请涉及计算机技术领域,特别是涉及一种大规模分布式图数据库集群运维管理的方法和***。
背景技术
随着图数据库在社交网络、金融风控、知识图谱等领域的广泛应用,越来越多的企业选择使用图数据库来存储用户数据。而为了快速响应业务流量的激增和减退,并降低***的总使用成本,分布式图数据库成了最好的选择。其中,基于分布式图数据库存储计算分离的设计架构,可以按需对计算、存储资源分别进行在线的扩容或者缩容,以应对各种类型的业务场景。然而,随着数据量的不断增加,一个分布式图数据库集群往往会包含更多的节点和服务,对于一些复杂的运维操作,如集群扩缩容,版本升级等,就会在操作过程中容易有出错风险。因此,如何高效的运维管理大规模的分布式图数据库集群成了一个难题。
发明内容
本申请实施例提供了一种大规模分布式图数据库集群运维管理的方法和***,以至少解决相关技术中运维管理大规模的分布式图数据库集群效率较低的问题。
第一方面,本申请实施例提供了一种大规模分布式图数据库集群运维管理的方法,所述方法包括:
构建控制平面,在所述控制平面导入分布式图数据库集群,通过ssh连接信息将所述控制平面连接到资源平面对应的分布式图数据库集群节点上;
通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到所述控制平面的prometheus组件进行图数据服务监控;
向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于所述控制平面的监控显示页面上。
在其中一些实施例中,所述通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到所述控制平面的prometheus组件进行图数据服务监控包括:
Nebula代理服务组件通过向对应节点的各个图数据库服务定时发送http请求的方式采集图数据库的监控指标数据,并根据IP-端口-组件的结构打上标签;
所述控制平面将Nebula代理服务组件配置到prometheus组件的采集目标中,pormetheus定时向Nebula代理服务组件获取采集到的各节点的监控指标数据,并进行汇总和存储,其中,所述标签用于区分不同的节点和服务。
在其中一些实施例中,在通过监控显示页面监控分布式图数据库集群时,所述方法包括:
当分布式图数据库集群出现故障时,通过所述控制平面向所述Nebula代理服务组件下发批量起停的运维指令。
在其中一些实施例中,在通过监控显示页面监控分布式图数据库集群时,所述方法还包括:
当监控到集群负载很高,或者业务流量激增时,通过任务接口在节点上批量下发Execute指令到所述Nebula代理服务组件,增加新的节点资源来扩容集群,并通过平衡图数据指令,将图数据库空间内的分片均匀的分布到新的节点上,来分担分布式图数据库集群各个节点间的访问压力;
并在流量高峰过后,多个节点长时间空闲时,对空闲的节点批量下发Execute指令进行缩容。
在其中一些实施例中,在批量下发指令时,若指令执行失败,则通过Rollback指令进行回滚操作,返回上一步操作。
在其中一些实施例中,向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于所述控制平面的监控显示页面上包括:
获取图数据库集群的图空间作业管理数据并显示于监控页面,通过NebulaGraph查询语言对图空间作业管理数据进行远程执行和信息查看,并停止和恢复图数据库集群图空间作业管理中的相关接口。
第二方面,本申请实施例提供了一种大规模分布式图数据库集群运维管理的***,所述***包括:
通信模块,用于构建控制平面,在所述控制平面导入分布式图数据库集群,通过ssh连接信息将所述控制平面连接到资源平面对应的分布式图数据库集群节点上;
监控显示模块,用于通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到所述控制平面的prometheus组件进行图数据服务监控,
向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于所述控制平面的监控显示页面上。
在其中一些实施例中,所述监控显示模块,还用于Nebula代理服务组件通过向对应节点的各个图数据库服务定时发送http请求的方式采集图数据库的监控指标数据,并根据IP-端口-组件的结构打上标签,
所述控制平面将Nebula代理服务组件配置到prometheus组件的采集目标中,pormetheus定时向Nebula代理服务获取采集到的各节点的监控指标数据,并进行汇总和存储,其中,所述标签用于区分不同的节点和服务。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的大规模分布式图数据库集群运维管理的方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的大规模分布式图数据库集群运维管理的方法。
相比于相关技术,本申请实施例提供的大规模分布式图数据库集群运维管理的方法,构建控制平面,在控制平面导入分布式图数据库集群,并通过ssh连接信息将控制平面连接到资源平面对应的分布式图数据库集群节点上;通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到控制平面的prometheus组件进行图数据服务监控;向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于控制平面的监控显示页面上。
本申请将整个运维管理***抽象化成控制平面和资源平面两部分,控制平面主要负责整个集群的服务监控与告警以及运维指令的批量下发;资源平面以服务器节点为单位,主要负责运行图数据库服务,采集图数据库对应的监控指标以及响应控制平面下发的运维指令。通过这种将控制平面和资源平面分离的方法,可有效降低***运维管理的复杂度,解决了运维管理大规模的分布式图数据库集群效率较低的问题,提高了运行效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的大规模分布式图数据库集群运维管理的方法的流程图;
图2是根据本申请实施例的大规模分布式图数据库集群运维管理的流程示意图;
图3是根据本申请实施例的大规模分布式图数据库集群运维管理的***的结构框图;
图4是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供了一种大规模分布式图数据库集群运维管理的方法,图1是根据本申请实施例的大规模分布式图数据库集群运维管理的方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,构建控制平面,在控制平面导入分布式图数据库集群,通过ssh连接信息将控制平面连接到资源平面对应的分布式图数据库集群节点上;
首先构建控制平面,具体包括:部署NebulaGraph控制面板组件,用于运维人员在***浏览器上进行运维相关的ui交互;部署 prometheus组件,用于持久化图数据服务的监控;部署 alertmanager 组件(即告警模块),用于在集群出现问题时,向运维人员发送告警通知。
图2是根据本申请实施例的大规模分布式图数据库集群运维管理的流程示意图,如图2所示,在控制平面导入分布式图数据库集群,通过ssh连接信息,即22端口信息,将控制平面连接到资源平面对应的分布式图数据库集群节点上,此时,控制平面会自动在每个资源平面的节点部署一个Nebula代理服务组件,Nebula代理服务组件启动后会与对应的图数据库集群建立通信,加入到该集群中。需要说明的是,Nebula代理服务组件是一个极简的无状态服务,主要负责采集图数据库服务的各项指标,上报给prometheus,并和控制平面的NebulaGraph控制面板进行通信,接收并执行各种运维指令,对集群的侵入性很小。此外,其以二进制形式存在于各个服务器的安装目录中,随着集群服务的启动而启动,可以通过RPC(Remote Procedure Call,又称远程过程调用)为NebulaGraph控制面板提供运维指令接口。
以nebulagraph图数据集群为例,NebulaGraph代理服务组件通过与nebulagraph的metad服务通信,来获取nebulagraph集群的拓扑信息。获取到拓扑信息后,Nebula代理服务组件将信息上报给控制平面的NebulaGraph控制面板,来完成彼此的通信。
需要说明的是,资源平面指由分布式图数据库集群所在的服务器节点组成的平面。
步骤S102,通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到控制平面的prometheus组件进行图数据服务监控;向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于控制平面的监控显示页面上。
优选的,本实施例中,Nebula代理服务组件通过向对应集群节点的各个图数据库服务定时发送http请求的方式采集图数据库的监控指标数据,并根据IP-端口-组件的结构打上标签;对于每个注册的Nebula代理服务组件,控制平面会将其配置到prometheus组件的采集目标中,pormetheus定时向Nebula代理服务组件获取其采集到的各节点的监控指标数据,并进行汇总和存储,其中,标签用于区分不同的节点和服务。
最后,在NebulaGraph控制面板的监控页面,通过向prometheus发送prometheus查询语言语句,即promql语句,使监控数据显示并渲染于控制平面的监控显示页面上,供运维人员查看。此时,运维人员可以通过NebulaGraph控制面板的监控页面查看各个图数据库服务的运行状况,直观的感知整个集群的健康状况、负载情况等,以便在服务异常时快速做出响应。
在其中一些实施例中,通过NebulaGraph控制面板的监控页面可对图数据库集群的Job管理进行运维管理。具体包括:获取图数据库集群的图空间作业管理数据(即Job管理数据)并显示于监控页面,通过NebulaGraph查询语言(即NGQL)对图空间作业管理数据进行远程执行和信息查看,并停止和恢复图数据库集群图空间作业管理中的相关接口。以NebulaGraph为例,在Storage服务,即存储服务,上长期运维的任务被称为图空间作业,例如COMPACT(压缩存储的数据),FLUSH(将数据持久化到磁盘),STATS(统计图数据),BALANCE(平衡图数据)。随着业务数据量的不断增多,运行这类任务往往十分耗时。因此,本实施例中,在控制平面,NebulaGraph控制面板会定期查看当前正在运行的所有图空间作业实例,显示在监控页面上,并通过执行NebulaGraph查询语言提供远程执行、查看详情,并停止和恢复图数据库中图空间作业的相关接口。
通过上述步骤S101至步骤S102,本实施例将整个运维管理***抽象化成控制平面和资源平面两部分,控制平面主要负责整个集群的服务监控与告警以及运维指令的批量下发;资源平面以服务器节点为单位,主要负责运行图数据库服务,采集图数据库对应的监控指标以及响应控制平面下发的运维指令。通过这种将控制平面和资源平面分离的方法,可有效降低***运维管理的复杂度,解决了运维管理大规模的分布式图数据库集群效率较低的问题,提高了运行效率。
在其中一些实施例中,在通过监控显示页面监控分布式图数据库集群时,若分布式图数据库集群出现故障,通过控制平面向Nebula代理服务组件下发批量起停的运维指令。例如,当资源平面机房出现事故,或者业务流量激增导致部分服务宕机时,会存在很多被停止的服务,此时,可以选中所有异常停止的机器并向Nebula代理服务组件批量发送启动或者停止指令。
在其中一些实施例中,在通过监控显示页面监控分布式图数据库集群时,若监控到集群负载很高,或者业务流量激增时,通过任务接口在节点上批量下发Execute指令到Nebula代理服务组件,增加新的节点资源来扩容集群,并通过平衡图数据指令,将图数据库空间内的分片均匀的分布到新的节点上,来分担分布式图数据库集群各个节点间的访问压力;并在流量高峰过后,多个节点长时间空闲时,对空闲的节点批量下发Execute指令进行缩容。
需要说明的是,Execute是本***批量执行运维指令的工作流中任务(task)类下的一个方法,主要用于在对应的资源节点上执行对应的图数据库运维指令,例如,批量扩容缩容等。
在其中一些实施例中,在批量下发指令时,若指令执行失败,则通过Rollback指令进行回滚操作,返回上一步操作。本实施例中,Rollback是本***批量执行运维指令的工作流中任务类下的另一个方法,主要用于在一串运维指令执行失败后进行回滚操作,当有一步出错时可以按指定的指令进行回滚操作,例如,若在扩容图数据库服务的过程中由于网络异常,导致了某一个安装包下载失败,此时,可以触发Rollback流程,Rollback可以清理已下载的部分安装包,保证操作的原子性。
需要说明的是,本***批量执行运维指令的工作流中的所有指令构成了一次批量执行的工作流。
本实施例通过工作流的方式批量分发每个运维指令,有效提升了指令下发的效率,并对每个高危操作提供回滚机制,提升了每次运维操作的容错性。从而能在同时管理多个大规模图数据库的场景下使得效率提升显著。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种大规模分布式图数据库集群运维管理的***,该***用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本申请实施例的大规模分布式图数据库集群运维管理的***的结构框图,如图3所示,该***包括通信模块31和监控显示模块32:
通信模块31,用于构建控制平面,在控制平面导入分布式图数据库集群,通过ssh连接信息将控制平面连接到资源平面对应的分布式图数据库集群节点上;监控显示模块32,用于通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到控制平面的prometheus组件进行图数据服务监控,向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于控制平面的监控显示页面上。
通过上述***,本实施例中,运维人员无需对每个服务的每一步进行手动操作,只需要在控制面上通过UI页面选择对应的机器和服务,***内部会自动将所有的步骤按工作流拆分成一个个任务,整体编排好后发给Nebula代理服务组件,然后Nebula代理服务组件在对应的资源平面上执行预先设好的运维指令。即可一键完成图数据库集群扩容或缩容等操作,并可以通过监控服务,快速查看操作后的资源使用情况,对整个集群进行运维管理,提高了效率。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
此外,需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
另外,结合上述实施例中的大规模分布式图数据库集群运维管理的方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种大规模分布式图数据库集群运维管理的方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种大规模分布式图数据库集群运维管理的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图4是根据本申请实施例的电子设备的内部结构示意图,如图4所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图4所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作***、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作***和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种大规模分布式图数据库集群运维管理的方法,数据库用于存储数据。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种大规模分布式图数据库集群运维管理的方法,其特征在于,所述方法包括:
构建控制平面,在所述控制平面导入分布式图数据库集群,通过ssh连接信息将所述控制平面连接到资源平面对应的分布式图数据库集群节点上,具体地,控制平面与资源平面通过Nebula-Agent进行通信,其中,控制平面负责整个集群的服务监控与告警以及运维指令的批量下发;资源平面以服务器节点为单位,负责运行图数据库服务,采集图数据库节点对应的监控指标以及响应控制平面下发的运维指令;
通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到所述控制平面的prometheus组件进行图数据服务监控,向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于所述控制平面的监控显示页面上,其中,在通过监控显示页面监控分布式图数据库集群时,当监控到集群负载很高,或者业务流量激增时,通过任务接口在节点上批量下发Execute指令到所述Nebula代理服务组件,增加新的节点资源来扩容集群,并通过平衡图数据指令,将图数据库空间内的分片均匀的分布到新的节点上,来分担分布式图数据库集群各个节点间的访问压力;并在流量高峰过后,多个节点长时间空闲时,对空闲的节点批量下发Execute指令进行缩容;在批量下发指令时,若指令执行失败,则通过Rollback指令进行回滚操作,返回上一步操作;
向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于所述控制平面的监控显示页面上包括:
定期获取图数据库集群的图空间作业管理数据并显示于监控页面,通过NebulaGraph查询语言对图空间作业管理数据进行远程执行和信息查看,并停止和恢复图数据库集群图空间作业管理中的相关接口;其中,控制面板会定期查看当前正在运行的所有图空间作业;所述图空间作业是在存储服务上长期运维的任务。
2.根据权利要求1所述的方法,其特征在于,所述通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到所述控制平面的prometheus组件进行图数据服务监控包括:
Nebula代理服务组件通过向对应节点的各个图数据库服务定时发送http请求的方式采集图数据库的监控指标数据,并根据IP-端口-组件的结构打上标签;
所述控制平面将Nebula代理服务组件配置到prometheus组件的采集目标中,pormetheus定时向Nebula代理服务组件获取采集到的各节点的监控指标数据,并进行汇总和存储,其中,所述标签用于区分不同的节点和服务。
3.根据权利要求1所述的方法,其特征在于,在通过监控显示页面监控分布式图数据库集群时,所述方法包括:
当分布式图数据库集群出现故障时,通过所述控制平面向所述Nebula代理服务组件下发批量起停的运维指令。
4.一种大规模分布式图数据库集群运维管理的***,其特征在于,所述***包括:
通信模块,用于构建控制平面,在所述控制平面导入分布式图数据库集群,通过ssh连接信息将所述控制平面连接到资源平面对应的分布式图数据库集群节点上,具体地,控制平面与资源平面通过Nebula-Agent进行通信,其中,控制平面负责整个集群的服务监控与告警以及运维指令的批量下发;资源平面以服务器节点为单位,负责运行图数据库服务,采集图数据库节点对应的监控指标以及响应控制平面下发的运维指令;
监控显示模块,用于通过对应节点上的Nebula代理服务组件获取分布式图数据库集群的监控指标数据,上报到所述控制平面的prometheus组件进行图数据服务监控,
向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于所述控制平面的监控显示页面上,其中,在通过监控显示页面监控分布式图数据库集群时,当监控到集群负载很高,或者业务流量激增时,通过任务接口在节点上批量下发Execute指令到所述Nebula代理服务组件,增加新的节点资源来扩容集群,并通过平衡图数据指令,将图数据库空间内的分片均匀的分布到新的节点上,来分担分布式图数据库集群各个节点间的访问压力;并在流量高峰过后,多个节点长时间空闲时,对空闲的节点批量下发Execute指令进行缩容;在批量下发指令时,若指令执行失败,则通过Rollback指令进行回滚操作,返回上一步操作;
向prometheus组件发送prometheus查询语言语句使监控数据显示并渲染于所述控制平面的监控显示页面上包括:
定期获取图数据库集群的图空间作业管理数据并显示于监控页面,通过NebulaGraph查询语言对图空间作业管理数据进行远程执行和信息查看,并停止和恢复图数据库集群图空间作业管理中的相关接口;其中,控制面板会定期查看当前正在运行的所有图空间作业;所述图空间作业是在存储服务上长期运维的任务。
5.根据权利要求4所述的***,其特征在于,
所述监控显示模块,还用于Nebula代理服务组件通过向对应节点的各个图数据库服务定时发送http请求的方式采集图数据库的监控指标数据,并根据IP-端口-组件的结构打上标签,
所述控制平面将Nebula代理服务组件配置到prometheus组件的采集目标中,pormetheus定时向Nebula代理服务组件获取采集到的各节点的监控指标数据,并进行汇总和存储,其中,所述标签用于区分不同的节点和服务。
6.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至3中任一项所述的大规模分布式图数据库集群运维管理的方法。
7.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至3中任一项所述的大规模分布式图数据库集群运维管理的方法。
CN202211148001.1A 2022-09-21 2022-09-21 一种大规模分布式图数据库集群运维管理的方法和*** Active CN115248826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211148001.1A CN115248826B (zh) 2022-09-21 2022-09-21 一种大规模分布式图数据库集群运维管理的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211148001.1A CN115248826B (zh) 2022-09-21 2022-09-21 一种大规模分布式图数据库集群运维管理的方法和***

Publications (2)

Publication Number Publication Date
CN115248826A CN115248826A (zh) 2022-10-28
CN115248826B true CN115248826B (zh) 2023-04-11

Family

ID=83699443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211148001.1A Active CN115248826B (zh) 2022-09-21 2022-09-21 一种大规模分布式图数据库集群运维管理的方法和***

Country Status (1)

Country Link
CN (1) CN115248826B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127149B (zh) * 2023-04-14 2023-07-04 杭州悦数科技有限公司 图数据库集群健康度的量化方法和***
CN116955674B (zh) * 2023-09-20 2024-01-09 杭州悦数科技有限公司 一种通过LLM生成图数据库语句的方法及web装置
CN116992065B (zh) * 2023-09-26 2024-01-12 之江实验室 一种图数据库数据导入方法、***、电子设备、介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033722A (zh) * 2022-08-10 2022-09-09 杭州悦数科技有限公司 一种加速图数据库数据查询的方法、***、装置和介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11222072B1 (en) * 2015-07-17 2022-01-11 EMC IP Holding Company LLC Graph database management system and method for a distributed computing environment
CN111190888A (zh) * 2020-01-03 2020-05-22 中国建设银行股份有限公司 一种管理图数据库集群的方法和装置
US11693843B2 (en) * 2020-08-31 2023-07-04 Vesoft Inc Data processing method and system of a distributed graph database
CN112202617B (zh) * 2020-10-09 2024-02-23 腾讯云计算(北京)有限责任公司 资源管理***监控方法、装置、计算机设备和存储介质
CN112395350A (zh) * 2020-11-17 2021-02-23 中国工商银行股份有限公司 一种多数据源的监控数据可视化方法及装置
CN114528085A (zh) * 2022-02-21 2022-05-24 中国工商银行股份有限公司 资源调度方法、装置、计算机设备、存储介质和程序产品
CN114924931A (zh) * 2022-04-24 2022-08-19 杭州悦数科技有限公司 一种监控维护图数据库的方法、***、装置和介质
CN114924952B (zh) * 2022-04-28 2022-12-27 杭州悦数科技有限公司 分布式图数据库黑盒健康情况的诊断方法、***和介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033722A (zh) * 2022-08-10 2022-09-09 杭州悦数科技有限公司 一种加速图数据库数据查询的方法、***、装置和介质

Also Published As

Publication number Publication date
CN115248826A (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN115248826B (zh) 一种大规模分布式图数据库集群运维管理的方法和***
CN110427299B (zh) 微服务***应用的日志处理方法、相关设备及***
CN112910945B (zh) 请求链路跟踪方法和业务请求处理方法
CN112214382B (zh) 告警方法及装置
CN105573824B (zh) 分布式计算***的监控方法及***
CN108959385B (zh) 数据库部署方法、装置、计算机设备和存储介质
CN105718351A (zh) 一种面向Hadoop集群的分布式监控管理***
CN112506870B (zh) 数据仓库增量更新方法、装置及计算机设备
CN112698915A (zh) 多集群统一监控告警方法、***、设备及存储介质
CN113377626B (zh) 基于服务树的可视化统一报警方法、装置、设备和介质
US10372572B1 (en) Prediction model testing framework
EP3289464A1 (en) Detection of node.js memory leaks
CN112463549A (zh) 云平台的审计方法、装置、设备及计算机可读存储介质
CN112527507A (zh) 集群部署方法、装置、计算机设备和存储介质
CN114629883B (zh) 服务请求的处理方法、装置、电子设备及存储介质
CN117389830A (zh) 集群日志采集方法、装置、计算机设备及存储介质
JP2013206368A (ja) 仮想環境運用支援システム
CN113377535A (zh) 分布式定时任务分配方法、装置、设备及可读存储介质
CN115766715A (zh) 一种高可用的超融合集群监控方法和***
CN111698109A (zh) 监控日志的方法和装置
CN115150253A (zh) 一种故障根因确定方法、装置及电子设备
CN114816914A (zh) 基于Kubernetes的数据处理方法、设备及介质
CN116668269A (zh) 一种用于双活数据中心的仲裁方法、装置及***
CN111176959B (zh) 跨域的应用服务器的预警方法、***及存储介质
CN116414594A (zh) 故障树更新方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant