CN114866416A - 一种多集群统一管理***及部署方法 - Google Patents

一种多集群统一管理***及部署方法 Download PDF

Info

Publication number
CN114866416A
CN114866416A CN202210410910.1A CN202210410910A CN114866416A CN 114866416 A CN114866416 A CN 114866416A CN 202210410910 A CN202210410910 A CN 202210410910A CN 114866416 A CN114866416 A CN 114866416A
Authority
CN
China
Prior art keywords
module
management
cluster
service
service module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210410910.1A
Other languages
English (en)
Inventor
陈曦
王超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210410910.1A priority Critical patent/CN114866416A/zh
Publication of CN114866416A publication Critical patent/CN114866416A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种多集群统一管理***及部署方法,通过docker服务对综合管理模块、数据共享模块、用户界面模块内的各个服务模块进行部署,通过kubernetes服务对多个集群推理服务编排模块内的各个服务模块进行部署,由此实现各个模块之间的隔离;通过综合管理模块接收服务请求并将其发送到目标集群进行处理,然后返回处理结果,同时,可根据需要添加、减少集群的数量,或添加、减少集群内的节点的数量,以提高处理效率;其中,各个集群之间的数据交互通过隔离设置的数据共享模块实现,以实现数据交互的安全性。

Description

一种多集群统一管理***及部署方法
技术领域
本发明涉及集群管理技术领域,特别涉及一种多集群统一管理***及部署方法。
背景技术
随着云原生领域的快速发展,越来越多的企业/客户/组织将人工智能推理基础架构迁移至Kubernetes***之上。然而,Kubernetes作为一种单集群管理方案,虽然支持命名空间(namespace)用以软隔离(在不同的虚拟隔离场景中满足多租户管理和数据流转的需求),但仍无法保证多个实体集群之间的数据交互、多个实体集群的统一管理,因而,企业/组织通常需要大量的运维人员借助独立部署的管理***维护集群资源与数据,并借助大容量存储设备实现集群间的数据流转,这无法保证业务上对生产效率与信息安全的高需求。
针对上述问题,本发明专利以Docker、Kubernetes为核心支撑技术框架,提出一种多集群统一管理***及部署方法,在保证多集群数据管理的时效性、安全性、隔离性和高可用性的同时,保证多集群规模的可扩展性与集群内节点/算力的可扩展性,并保持对原有独立集群的配置与运行干扰最小化。
发明内容
为了解决现有技术的问题,本发明提供了一种多集群统一管理***及部署方法,以解决目前存在的问题。
第一方面,本申请提供了一种多集群统一管理***,其特征在于,包括综合管理模块、数据共享模块、多个集群,其中所述综合管理模块、所述数据共享模块、所述多个集群分别部署于不同的网络节点上,所述综合管理模块部署于网络中心节点上;
所述综合管理模块,包括节点管理服务模块和多集群管理服务模块,所述节点管理服务模块用于根据用户的管理请求对集群内节点进行节点服务管理,所述多集群管理服务模块用于根据用户的管理请求对所述多个集群进行集群服务管理,所述综合管理模块还用于将节点服务管理和集群服务管理中产生的静态和/或动态数据传递给所述数据共享模块,其中所述综合管理模块通过docker部署;
所述数据共享模块包括至少一个数据库,所述数据共享模块用于存储所述综合管理模块和所述多个集群产生的静态和/或动态数据,其中所述数据库通过docker部署;
所述多个集群按照各集群标识将各自集群数据存储于数据共享模块和/或按照各集群标识从所述数据共享模块获取集群数据,所述多个集群均通过Kubernetes部署。
较佳的,所述多集群统一管理***还包括用户界面模块,所述用户界面模块用于接收用户对所述多个集群的管理请求,并将所述管理请求传递给所述综合管理模块,其中所述用户界面模块通过docker部署。
较佳的,所述综合管理模块还包括独立网关服务模块,用于将服务请求转送到集群外的各服务模块上,或按照集群名称,将服务请求转送到目标集群的目标服务模块上。
较佳的,所述综合管理模块还包括通过docker部署的用户管理服务模块和/或鉴权管理服务模块和/或日志管理服务模块,其中;
所述用户管理服务模块,用于对用户/用户组进行管理,以实现对集群和/或节点的操作权限的管理;
所述鉴权管理服务模块,通过分发和验证token码的方式,对用户操作进行鉴权;
所述日志管理服务模块,用于从数据共享模块读取数据并按日志属性进行展示,所述日志属性包括以下至少一项:集群标识、操作时间、操作用户。
较佳的,所述多个集群各自包括集群内推理服务编排模块,所述集群内推理服务编排模块包括服务部署服务模块、监控管理服务模块、镜像管理服务模块、模型管理服务模块,其中;
所述服务部署服务模块,用于支持推理模型、推理镜像通过Kubernetes组件进行部署;
所述监控管理服务模块,用于对集群内硬件资源使用的实时/历史信息进行监控;
所述镜像管理服务模块,用于借助镜像仓库对推理镜像进行存储和/或分发和/或管理;
所述模型管理服务模块,用于借助文件仓库对推理模型进行存储和/或分发和/或管理。
较佳的,所述集群内推理服务编排模块还包括数据存储迁移模块和通信服务注入模块,其中;
所述数据库存储迁移模块,用于将集群数据存储至所述数据共享模块中同集群数据存储的数据库中;
通信服务注入模块,用于根据集群内服务对集群外服务需求的信息向所述多集群管理服务模块进行请求获取。
第二方面,本申请还提供了一种多集群统一管理***部署方法,包括:
通过docker部署综合管理模块,其中所述综合管理模块包括节点管理服务模块和多集群管理服务模块,所述节点管理服务模块用于根据用户的管理请求对集群内节点进行节点服务管理,所述多集群管理服务模块用于根据用户的管理请求对多个集群进行集群服务管理,所述综合管理模块还用于将集群服务管理和节点服务管理中产生的静态/或动态数据传递给数据共享模块;
通过docker部署数据共享模块,其中所述数据共享模块包括至少一个数据库,所述数据共享模块用于存储所述综合管理模块和所述多个集群产生的静态和/或动态数据;
通过Kubernetes部署多个集群,所述多个集群按照各集群标识将各自集群数据存储于数据共享模块和/或按照各集群标识从所述数据共享模块获取集群数据;
其中,所述综合管理模块、所述数据共享模块、所述多个集群分别部署于不同的网络节点上,所述综合管理模块部署于网络中心节点上。
较佳的,所述方法还包括:
通过docker部署用户界面模块,其中所述用户界面模块用于接收用户对所述多个集群的管理请求,并将所述管理请求传递给综合管理模块。
较佳的,所述方法还包括:
通过docker部署独立网关服务模块,用于将服务请求转送到集群外的各服务模块上,或按照集群名称,将服务请求转送到目标集群的目标服务模块上。
较佳的,所述方法还包括:
通过docker部署用户管理服务模块和/或鉴权管理服务模块和/或日志管理服务模块,其中;
所述用户管理服务用于对用户/用户组进行管理,以实现对集群和/或节点的操作权限的管理;
所述鉴权管理服务模块通过分发和验证token码的方式,对用户操作进行鉴权;
所述日志管理服务模块用于从数据共享模块读取数据并按日志属性进行展示,所述日志属性包括以下至少一项:集群标识、操作时间、操作用户。
本发明提供的技术方案带来的有益效果是:
本申请技术方案通过docker服务对综合管理模块、数据共享模块、用户界面模块内的各个服务模块进行部署,通过kubernetes服务对多个集群推理服务编排模块内的各个服务模块进行部署,由此实现各个模块之间的隔离;通过综合管理模块接收服务请求并将其发送到目标集群进行处理,然后返回处理结果,同时,可根据需要添加、减少集群的数量,或添加、减少集群内的节点的数量,以提高处理效率;其中,各个集群之间的数据交互通过隔离设置的数据共享模块实现,以实现数据交互的安全性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种多集群统一管理***的架构图;
图2是本发明实施例提供的一种服务请求处理方法流程图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一方面,本申请公开了一种多集群统一管理***,如图1所示,包括综合管理模块、数据共享模块、多个集群,其中所述综合管理模块、所述数据共享模块、所述多个集群分别部署于不同的网络节点上,所述综合管理模块部署于网络中心节点上。
需要说明的是,上述综合管理模块需部署在网络的中心节点上,以对上述多个集群、上述数据共享模块进行管理。
上述综合管理模块包括节点管理服务模块和多集群管理服务模块,上述节点管理服务模块用于根据用户的管理请求对集群内节点进行节点服务管理,上述多集群管理服务模块用于根据用户的管理请求对所述多个集群进行集群服务管理,所述综合管理模块还用于将节点服务管理和集群服务管理中产生的静态和/或动态数据传递给所述数据共享模块,其中所述综合管理模块通过docker部署;
所述数据共享模块包括至少一个数据库,所述数据共享模块用于存储所述综合管理模块和所述多个集群产生的静态和/或动态数据,其中所述数据库通过docker部署;
所述多个集群按照各集群标识将各自集群数据存储于数据共享模块和/或按照各集群标识从所述数据共享模块获取集群数据,所述多个集群均通过kubernetes(k8s)部署。
上述节点管理服务模块用于根据用户的管理请求对集群内节点进行节点服务管理,具体为:为集群添加节点、删除节点;提供集群内的所有节点的信息概览、提供上述节点的详细信息,提供集群内节点的taint(污点)、label(标签)、annotation(注解)信息。
节点添加方式包括:
手动添加节点,手动添加前需为待添加节点安装kubelet、kube-proxy等kubernetes(k8s)组件,调用待加入集群master节点的kubeadm接口,获取join命令,然后供用户自行添加待添加节点,执行命令完成添加操作。
自动添加节点,自动添加前需对待添加节点完成操作***的安装,在获取待添加节点IP地址、root账户的密码信息后,根据节点类型自动远程完成驱动、docker、nvIDia-docker、kubelet、kube-proxy等组件的配置与安装,并将待添加节点以node节点的角色加入至集群中。
为更好的了解和存储节点信息,节点添加后,请求集群内的监控管理服务模块,获取节点的静态属性信息,并将相关属性信息存储至数据共享模块的数据库中,其中,节点对象的静态属性信息包括节点名称、所属集群名称、节点角色、节点状态、BMC地址、CPU架构、操作***版本、操作***内核版本、容器运行时版本、节点描述、创建时间等。节点添加后,同步请求label(标签)、taint(污点)、annotation(注解)添加功能,将节点的所有label(标签)、taint(污点)、annotation(注解)信息纳入管理。
删除节点,删除节点功能通过请求集群内的通信服务模块,调用kubernetes(k8s)的“delete node”接口,将该节点删除。为便于节点管理,删除节点后,删除该节点在数据共享模块中的节点信息记录,并删除数据共享模块中与集群推理服务编排模块信息相关联的所有用户记录和业务记录,同时请求label(标签)、taint(污点)、annotation(注解)删除功能,将节点的所有label(标签)、taint(污点)、annotation(注解)信息删除。
提供集群内的所有节点的信息概览功能,通过请求数据共享模块获取节点添加时的名称、角色、状态、所属集群、BMC地址、CPU架构、操作***版本、内核版本、容器运行时版本、节点描述、创建时间等静态属性信息;请求监控管理服务模块,获取CPU、内存、GPU等资源的总量和占用量信息;通过调用kubernetes(k8s)接口获取内存、CPU、存储、容器组等资源的历史占用曲线,调用shell-export接口获取节点上加速卡相关信息、上述信息包括名称、状态、编号、UUID、使用率、温度、功率和共享状态等。
上述多集群管理服务模块用于根据用户的管理请求对所述多个集群进行集群服务管理,具体为:添加新集群、移除集群、删除集群、提供多个集群概览信息、提供某个集群的详细信息。
添加新集群功能为将已搭建完成的kubernetes(k8s)集群纳入***的管控范围,其中,在纳入***的管控范围前,需设置新集群的域名、命名、标签和描述;需选择集群的资源划分方式,如节点方式(面向用户组的资源分配最小粒度为节点)、池化方式(面向用户组的资源分配最小粒度为0.001核CPU、1M内存、1台GPU)等。
为充分掌握***的所有集群的信息,集群添加后,将进行如下操作:
将集群的相关属性信息存储至数据共享模块的数据库中,上述相关属性信息包括集群的域名、名称、标签、资源划分方式、描述;请求节点管理服务模块的节点添加功能,将集群内的所有节点纳入***进行管理;请求节点管理服务模块的label(标签)、taint(污点)、annotation(注解)添加功能,将集群内所有节点的所有label(标签)、taint(污点)、annotation(注解)信息纳入管理;请求DNS管理服务模块,在所有DNS服务中添加新增集群域名信息,以保证集群管理的连通性和时效性。
移除集群功能,此功能仅删除该集群在数据共享模块中的信息记录,因此,已移除出***管理的集群重新添加至***时,移除时仍在运行中的服务恢复如初,从而保证业务的连续性。
删除集群功能,除删除该集群在数据共享模块中的信息记录外,还需:
请求节点管理服务模块的删除节点功能,删除集群内的所有节点;请求节点管理服务模块的label(标签)、taint(污点)、annotation(注解)删除功能,将集群内所有节点的所有label(标签)、taint(污点)、annotation(注解)信息删除;
初始化kubernetes(k8s)集群,删除已运行在集群中的所有命名空间、服务;
删除数据共享模块中与集群信息相关联的所有用户记录和业务记录。
提供多个集群的概览信息功能,通过请求数据共享模块获取集群添加时配置的域名、名称、标签等信息,并通过网关服务请求集群内的通讯服务模块的通讯服务,通过kubernetes(k8s)获取kubernetes(k8s)的健康运行状态。
提供某个集群的详细信息功能为,通过请求集群内的集群内用户管理服务模块、配置管理服务模块、监控管理服务模块、告警管理服务模块等获取集群用户/用户组信息、集群配置信息、集群资源信息等。
上述taint(污点)、label(标签)、annotation(注解)均为kubernetes(k8s)集群中节点的属性信息,用于标注不同的节点角色,以实现对不同节点的分组管理,taint(污点)为kubernetes(k8s)集群中节点的属性信息,用于标注不同的节点角色,并定义pod和节点的亲和性关系,实现对服务调度的细粒度管控,其中,所有taint(污点)、label(标签)、annotation(注解)的key与value的值均可通过调用kubernetes(k8s)相关接口获取。在集群添加、节点添加时,获取相关节点上的label(标签)、annotation(注解)、taint(污点)信息,并存储至数据共享模块,且在删除集群、删除节点时,将相关节点存储在数据共享模块的label(标签)、annotation(注解)、taint(污点)信息一并删除。
在一些实施例中,上述综合管理模块,还可以包括:
用户界面模块,用于接收用户对所述多个集群的管理请求,并将所述管理请求传递给综合管理模块,其中所述用户界面模块通过docker部署。
具体的,上述用户界面模块可以被设置为两种模式:
集群外模式,用于对所述综合管理模块和所述多个集群的信息进行展示,上述信息包括:集群概览信息、集群节点概览信息、用户信息、日志信息等,以使操作人员能够对全局信息进行了解。
集群内模式,用于对所述多个集群内的各个服务模块的信息进行展示,上述信息包括:集群内服务模块产生的告警信息、站内信通知信息、配置信息、参数信息、推理/镜像信息、资源监控信息等,该模式设计为可以分别对集群进行查看,并支持分显页面的自由跳转,以方便操作人员查看。
需要说明的是,为实现与用户界面模块、集群进行良好交互,上述综合管理模块由多个服务模块构成,且各服务模块均通过docker部署,在部署时,将docker服务的重启模式设置为unless-stopped,并搭配auto-heal功能保证以保证服务的高可用性。
在一些实施例中,上述综合管理模块,还可以包括:
独立网关服务模块,用于将服务请求转送到集群外的各服务模块上,或按照集群名称,将服务请求转送到目标集群的目标服务模块上;
具体为:将对独立网关服务模块的请求URL(统一资源定位***)设计为IP:Port/<module>/<interface>,其中IP和Port分别为网关服务模块的IP地址和端口号,module为目标服务模块对应的服务名称,interface为目标服务模块的接口名称。此外,对独立网关服务模块进行请求的header体中可选择性包括集群名称,若包括集群名称,则将请求转发至kubernetes(k8s)集群内的服务模块;若不包含集群名称,则将请求转发至集群外的由docker创建服务模块。在添加集群时,将集群域名存储至数据共享模块的数据库中,独立网关服务模块根据请求体header中的集群名称查询数据库获取集群域名,连同上述请求URL(统一资源定位***)中的module名称和interface名称拼合目标接口U RL(统一资源定位***),完成目标接口URL(统一资源定位***)的访问和转发,从而结束该次请求。
DNS管理服务模块,用于将所述多个集群域名设置在同一级、用于重新配置DNS服务;
具体的,为降低域名解析延迟,在新集群加入***时,触发DNS管理服务模块重新配置DNS服务,将所有的集群的域名设置为同一级DNS,为新增集群添加其域名配置项。
在一些实施例中,上述综合管理模块,还可以包括:
用户管理服务模块,用于对用户/用户组进行管理;
具体为,用户管理服务模块设计独立于多集群管理服务模块,当***中添加集群前,亦可对用户/用户组进行管理。上述用户/用户组按等级划分为***管理员、组管理员以及普通用户。***管理员具有操作多集群和用户/用户组的权限,包括添加集群、移除集群、删除集群、添加节点、删除节点、添加用户、删除用户、修改用户信息、创建用户组、修改用户组资源分配、删除用户组、修改用户组信息、查看日志信息、查看监控信息和告警信息等权限。组管理员和普通用户具有推理模型服务部署、推理镜像服务部署、推理算法告警信息查看等权限,组管理员额外具备修改当前用户组成员和组内服务部署审批的权限。
和/或;
鉴权管理服务模块,鉴权管理服务模块,通过向前端用户分发token码、后端验证token码的方式,确保不同身份的用户的各类操作不会越权。
和/或;
日志管理服务模块,日志管理服务的功能为读取数据共享模块中的日志数据,并以明确表明日志产生集群的方式供***管理员角色根据产生集群、产生模块、产生时间范围、产生用户组、产生用户等字段进行过滤查看。所有日志信息的来源包含统一管理模块和各集群。
进一步的,上述数据共享模块还用于:
提供数据的增、删、改、查服务;
通过获取所述集群的域名环境变量、ID,确认所述数据的产生集群,其机制为:集群内的通信服务模块会读取集群域名环境变量,请求综合管理模块获取对应该集群域名的集群ID,集群内的各个服务模块在向数据共享模块发送数据增、删、改、查请求时,首先访问通信服务模块获取集群ID,并按照集群ID从数据库中操作相关联的数据。
在一些实施例中,所述多个集群各自包括集群内推理服务编排模块,上述集群内推理服务编排模块包括服务部署服务模块、监控管理服务模块、镜像管理服务模块、模型管理服务模块,其中;
服务部署服务模块,用于支持推理模型、推理镜像通过knative、kfserving等kubernetes(k8s)组件进行应用部署;
监控管理服务模块,用于对集群内硬件资源使用的实时/历史信息进行监控,如内存、CPU、加速卡、POD、硬盘等;
镜像管理服务模块,用于借助镜像仓库(如Harbor)对推理镜像进行存储和/或分发和/或管理;
模型管理服务模块,用于借助文件仓库(如HDFS)对推理模型进行存储和/或分发和/或管理。
在一些实施例中,为了便于数据的统一管理及操作方便,上述集群内推理服务编排模块还包括数据存储迁移模块和通信服务注入模块,其中;
数据库存储迁移模块,用于将集群数据存储至所述数据共享模块中同集群数据存储的数据库中;
通信服务注入模块,用于根据集群内服务对集群外服务需求的信息向所述综合管理模块进行请求获取,例如,集群内通信服务注入模块通过访问综合管理模块,获取某个集群的ID,并将其分发至集群内的各个服务模块,以便集群内各个服务模块按照集群ID从数据共享模块中操作相关数据。
在一些实施例中,为了便于对集群内用户进行管理、确保各类用户不会发生越权,上述集群内推理服务编排模块还包括:
集群内用户管理服务,用于保证集群内组管理员对所属用户组的管理,包括邀请组管理员、审批组管理员的服务部署申请;
集群内鉴权管理服务,用于保证组管理员和普通用户的操作不会发生越权;
站内信管理服务,用于对某监控项和设置的阈值生成并存储事务通知信息,并将通知消息推送至拥有权限的集群内组管理员和普通用户;
参数管理服务,用于为注入、配置、管理推理应用的算法提供参数。
第二方面,本申请提供了一种多集群统一管理***部署方法,其特征在于,所述方法包括:
通过docker部署综合管理模块,其中所述综合管理模块包括节点管理服务模块和多集群管理服务模块,所述节点管理服务模块用于根据用户的管理请求对集群内节点进行节点服务管理,所述多集群管理服务模块用于根据用户的管理请求对多个集群进行集群服务管理,所述综合管理模块还用于将集群服务管理和节点服务管理中产生的静态/或动态数据传递给数据共享模块;
通过docker部署数据共享模块,其中所述数据共享模块包括至少一个数据库,所述数据共享模块用于存储所述综合管理模块和所述多个集群产生的静态和/或动态数据;
通过kubernetes(k8s)部署多个集群,所述多个集群按照各集群标识将各自集群数据存储于数据共享模块和/或按照各集群标识从所述数据共享模块获取集群数据;
其中,所述综合管理模块、所述数据共享模块、所述多个集群分别部署于不同的网络节点上,所述综合管理模块部署于网络中心节点上。
在一些实施例中,上述多集群统一管理***部署方法,还包括:
通过docker部署用户界面模块,其中所述用户界面模块用于接收用户对所述多个集群的管理请求,并将所述管理请求传递给综合管理模块。
在一些实施例中,上述多集群统一管理***部署方法,还包括:
通过docker部署独立网关服务模块,其用于将管理请求中的URL(统一资源定位***)与管理请求头部中的集群标识对应的集群域名进行拼合形成目标接口URL(统一资源定位***),以将管理请求根据集群标识转送至目标集群的目标服务。
在一些实施例中,上述多集群统一管理***部署方法,还包括:
通过docker独立部署用户管理服务模块和/或鉴权管理服务模块和/或日志管理服务模块,其中;
所述用户管理服务用于对用户/用户组进行管理,以实现对集群和/或节点的操作权限的管理;
所述鉴权管理服务模块通过分发和验证token码的方式,对用户操作进行鉴权;
所述日志管理服务模块用于从数据共享模块读取数据并按日志属性进行展示,所述日志属性包括以下至少一项:集群标识、操作时间、操作用户。
在上述***部署完成后,对客户端发起的服务请求进行如下处理:
综合管理模块获取通过用户界面模块发送来的客户端服务请求;
综合管理模块对所述服务请求进行解析,查询所述服务请求所对应的目标集群及其对应的目标服务;
综合管理模块将所述服务请求发送到所述目标集群的所述目标服务上;
综合管理模块接收所述目标集群的所述目标服务的处理结果;
综合管理模块将所述处理结果通过用户界面模块返回到客户端。
以上对本申请所提供的技术方案进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言,由于其与实施例公开的***相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种多集群统一管理***,其特征在于,包括综合管理模块、数据共享模块、多个集群,其中所述综合管理模块、所述数据共享模块、所述多个集群分别部署于不同的网络节点上,所述综合管理模块部署于网络中心节点上;
所述综合管理模块,包括节点管理服务模块和多集群管理服务模块,所述节点管理服务模块用于根据用户的管理请求对集群内节点进行节点服务管理,所述多集群管理服务模块用于根据用户的管理请求对所述多个集群进行集群服务管理,所述综合管理模块还用于将节点服务管理和集群服务管理中产生的静态和/或动态数据传递给所述数据共享模块,其中所述综合管理模块通过docker部署;
所述数据共享模块包括至少一个数据库,所述数据共享模块用于存储所述综合管理模块和所述多个集群产生的静态和/或动态数据,其中所述数据库通过docker部署;
所述多个集群按照各集群标识将各自集群数据存储于数据共享模块和/或按照各集群标识从所述数据共享模块获取集群数据,所述多个集群均通过Kubernetes部署。
2.根据权利要求1所述的多集群统一管理***,其特征在于,所述多集群统一管理***还包括用户界面模块,所述用户界面模块用于接收用户对所述多个集群的管理请求,并将所述管理请求传递给所述综合管理模块,其中所述用户界面模块通过docker部署。
3.根据权利要求2所述的多集群统一管理***,其特征在于,所述综合管理模块还包括独立网关服务模块,用于将服务请求转送到集群外的各服务模块上,或按照集群名称,将服务请求转送到目标集群的目标服务模块上。
4.根据权利要求1所述的多集群统一管理***,其特征在于,所述综合管理模块还包括通过docker部署的用户管理服务模块和/或鉴权管理服务模块和/或日志管理服务模块,其中;
所述用户管理服务模块,用于对用户/用户组进行管理,以实现对集群和/或节点的操作权限的管理;
所述鉴权管理服务模块,通过分发和验证token码的方式,对用户操作进行鉴权;
所述日志管理服务模块,用于从数据共享模块读取数据并按日志属性进行展示,所述日志属性包括以下至少一项:集群标识、操作时间、操作用户。
5.根据权利要求1所述的多集群统一管理***,其特征在于,所述多个集群各自包括集群内推理服务编排模块,所述集群内推理服务编排模块包括服务部署服务模块、监控管理服务模块、镜像管理服务模块、模型管理服务模块,其中;
所述服务部署服务模块,用于支持推理模型、推理镜像通过Kubernetes组件进行部署;
所述监控管理服务模块,用于对集群内硬件资源使用的实时/历史信息进行监控;
所述镜像管理服务模块,用于借助镜像仓库对推理镜像进行存储和/或分发和/或管理;
所述模型管理服务模块,用于借助文件仓库对推理模型进行存储和/或分发和/或管理。
6.根据权利要求5所述的多集群统一管理***,其特征在于,所述集群内推理服务编排模块还包括数据存储迁移模块和通信服务注入模块,其中;
所述数据库存储迁移模块,用于将集群数据存储至所述数据共享模块中同集群数据存储的数据库中;
通信服务注入模块,用于根据集群内服务对集群外服务需求的信息向所述多集群管理服务模块进行请求获取。
7.一种多集群统一管理***部署方法,其特征在于,所述方法包括:
通过docker部署综合管理模块,其中所述综合管理模块包括节点管理服务模块和多集群管理服务模块,所述节点管理服务模块用于根据用户的管理请求对集群内节点进行节点服务管理,所述多集群管理服务模块用于根据用户的管理请求对多个集群进行集群服务管理,所述综合管理模块还用于将集群服务管理和节点服务管理中产生的静态/或动态数据传递给数据共享模块;
通过docker部署数据共享模块,其中所述数据共享模块包括至少一个数据库,所述数据共享模块用于存储所述综合管理模块和所述多个集群产生的静态和/或动态数据;
通过Kubernetes部署多个集群,所述多个集群按照各集群标识将各自集群数据存储于数据共享模块和/或按照各集群标识从所述数据共享模块获取集群数据;
其中,所述综合管理模块、所述数据共享模块、所述多个集群分别部署于不同的网络节点上,所述综合管理模块部署于网络中心节点上。
8.根据权利要求7所述的多集群统一管理***部署方法,其特征在于,所述方法还包括:
通过docker部署用户界面模块,其中所述用户界面模块用于接收用户对所述多个集群的管理请求,并将所述管理请求传递给综合管理模块。
9.根据权利要求7所述的多集群统一管理***部署方法,其特征在于,所述方法还包括:
通过docker部署独立网关服务模块,用于将服务请求转送到集群外的各服务模块上,或按照集群名称,将服务请求转送到目标集群的目标服务模块上。
10.根据权利要求7所述的多集群统一管理***部署方法,其特征在于,所述方法还包括:
通过docker部署用户管理服务模块和/或鉴权管理服务模块和/或日志管理服务模块,其中;
所述用户管理服务用于对用户/用户组进行管理,以实现对集群和/或节点的操作权限的管理;
所述鉴权管理服务模块通过分发和验证token码的方式,对用户操作进行鉴权;
所述日志管理服务模块用于从数据共享模块读取数据并按日志属性进行展示,所述日志属性包括以下至少一项:集群标识、操作时间、操作用户。
CN202210410910.1A 2022-04-19 2022-04-19 一种多集群统一管理***及部署方法 Withdrawn CN114866416A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210410910.1A CN114866416A (zh) 2022-04-19 2022-04-19 一种多集群统一管理***及部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210410910.1A CN114866416A (zh) 2022-04-19 2022-04-19 一种多集群统一管理***及部署方法

Publications (1)

Publication Number Publication Date
CN114866416A true CN114866416A (zh) 2022-08-05

Family

ID=82632007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210410910.1A Withdrawn CN114866416A (zh) 2022-04-19 2022-04-19 一种多集群统一管理***及部署方法

Country Status (1)

Country Link
CN (1) CN114866416A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115396302A (zh) * 2022-08-11 2022-11-25 臻乐尔科技服务(上海)有限公司 一种多节点高可用的配置分发***及其工作方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115396302A (zh) * 2022-08-11 2022-11-25 臻乐尔科技服务(上海)有限公司 一种多节点高可用的配置分发***及其工作方法
CN115396302B (zh) * 2022-08-11 2024-01-30 臻乐尔科技服务(上海)有限公司 一种多节点高可用的配置分发***及其工作方法

Similar Documents

Publication Publication Date Title
US11711420B2 (en) Automated management of resource attributes across network-based services
CN105897946B (zh) 一种访问地址的获取方法及***
CN107181808B (zh) 一种私有云***及运行方法
US20180157730A1 (en) Systems and Methods for Event Driven Object Management and Distribution Among Multiple Client Applications
US7490265B2 (en) Recovery segment identification in a computing infrastructure
CN102947797B (zh) 使用横向扩展目录特征的在线服务访问控制
US6895586B1 (en) Enterprise management system and method which includes a common enterprise-wide namespace and prototype-based hierarchical inheritance
US20130318061A1 (en) Sharing business data across networked applications
CN112214338A (zh) 一种基于微服务灵活部署的物联网云平台
US20100185658A1 (en) MDR FEDERATION FACILITY FOR CMDBf
CN106648903B (zh) 调用分布式文件***的方法和装置
CN107003906A (zh) 云计算技术部件的类型到类型分析
CN111327613B (zh) 分布式服务的权限控制方法、装置及计算机可读存储介质
CN113672352B (zh) 一种基于容器部署联邦学习任务的方法及装置
CN114866416A (zh) 一种多集群统一管理***及部署方法
CN104881749A (zh) 面向多租户的数据管理方法和数据存储***
CN101789963A (zh) 数据同步***
CN115037757B (zh) 一种多集群服务管理***
CN116383223A (zh) 资产数据处理方法、相关装置及存储介质
US11582345B2 (en) Context data management interface for contact center
JP2008509467A (ja) 複数のデータベース内に位置する属性によりデータベース・レコードを管理する方法、システム及びコンピュータ・プログラム
CN117573296B (zh) 虚拟机设备直通管控方法、装置、设备和存储介质
CN116684282B (zh) 新增云端服务器初始化方法、装置和计算机设备
CN116340691B (zh) 基于多源数据的数据资产网络化管理和共享方法及***
US20240202053A1 (en) Performing api services using zone-based topics within a pub/sub messaging infrastructure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220805

WW01 Invention patent application withdrawn after publication