CN116192885A

CN116192885A - 高可用集群架构人工智能实验云平台数据处理方法及***

Info

Publication number: CN116192885A
Application number: CN202211603530.6A
Authority: CN
Inventors: 贾子琪; 杨浩; 朱世冲; 古超; 周楚亚; 张强; 张腾飞; 陈连山
Original assignee: Nanyang Institute of Technology
Current assignee: Nanyang Institute of Technology
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-05-30

Abstract

本申请涉及云平台技术，提供了高可用集群架构人工智能实验云平台数据处理方法及***，人工智能云平台包括多个主节点和多个从节点，目标从节点若接收到目标主节点发送的实验工作任务部署指令，则根据所实验工作任务部署指令对应创建目标容器；目标从节点若接收到用户终端的访问请求并通过验证，将目标容器对应的目标容器实例与用户终端连接；目标从节点接收用户终端的目标操作数据，将目标操作数据存储至目标容器对应的键值数据库；目标从节点若接收到容器操作指令，则根据容器操作指令对应创建或删除容器。实现了在云平台中能基于云端进行人工智能相关实验任务的处理，而且能随时对集群增加或删减节点，提高集群的高可用性和负载能力。

Description

高可用集群架构人工智能实验云平台数据处理方法及***

技术领域

本申请涉及云平台技术领域，尤其涉及一种高可用集群架构人工智能实验云平台数据处理方法及***。

背景技术

目前，企业或高校在进行人工智能相关实验时，出现了部分采用实验平台集群的解决方式，即将人工智能相关实验数据放在云平台的集群上进行云端实验任务。但是目前的云平台集群中往往不能随时对集群增加或删减节点，这就导致人工智能相关实验面对的操作人员数量受限，不能处理多规模人员参与的云端实验任务处理。而且现有云平台的集群中在遇到断电等异常故障，也无法自动保存实验数据，数据存在较大的安全风险。

发明内容

本申请实施例提供了一种高可用集群架构人工智能实验云平台数据处理方法及***，旨在解决现有技术中进行人工智能相关实验使用的云平台集群中往往不能随时对集群增加或删减节点，这就导致人工智能相关实验面对的操作人员数量受限，只能开展少量人员参与的人工智能相关实验的问题。

第一方面，本申请实施例提供了一种高可用集群架构人工智能实验云平台数据处理方法，应用于人工智能实验云平台，所述人工智能云平台包括多个主节点和多个从节点，所述多个主节点和所述多个从节点均通讯连接；所述方法包括：

目标从节点若接收到目标主节点发送的实验工作任务部署指令，则根据所实验工作任务部署指令对应创建目标容器；其中，所述目标从节点为所述多个从节点中任意一个从节点，所述目标主节点为所述多个主节点中当前为活跃状态的主节点；

目标从节点若接收到用户终端的访问请求并通过验证，将所述目标容器对应的目标容器实例与所述用户终端连接；

目标从节点接收所述用户终端的目标操作数据，将所述目标操作数据存储至所述目标容器对应的键值数据库；

目标主节点发送容器操作指令至目标从节点；

目标从节点若接收到所述容器操作指令，则根据所述容器操作指令对应创建或删除容器。

第二方面，本申请实施例提供了一种高可用集群架构人工智能实验云平台数据处理***，运行于人工智能实验云平台，其包括多个主节点和多个从节点，所述多个主节点和所述多个从节点均通讯连接；其中，所述目标从节点为所述多个从节点中任意一个从节点，所述目标主节点为所述多个主节点中当前为活跃状态的主节点；

目标从节点，用于若接收到目标主节点发送的实验工作任务部署指令，则根据所实验工作任务部署指令对应创建目标容器；其中，所述目标从节点为所述多个从节点中任意一个从节点，所述目标主节点为所述多个主节点中当前为活跃状态的主节点；

目标从节点，还用于若接收到用户终端的访问请求并通过验证，将所述目标容器对应的目标容器实例与所述用户终端连接；

目标从节点，还用于接收所述用户终端的目标操作数据，将所述目标操作数据存储至所述目标容器对应的键值数据库；

目标主节点，用于发送容器操作指令至目标从节点；

目标从节点，还用于若接收到目标主节点发送的容器操作指令，则根据所述容器操作指令对应创建或删除容器。

第三方面，本申请实施例又提供了一种计算机设备，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述第一方面的高可用集群架构人工智能实验云平台数据处理方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中计算机可读存储介质存储有计算机程序，计算机程序当被处理器执行时使处理器执行上述第一方面的高可用集群架构人工智能实验云平台数据处理方法。

本申请实施例提供了一种高可用集群架构人工智能实验云平台数据处理方法及***，人工智能云平台包括多个主节点和多个从节点，多个主节点和多个从节点均通讯连接；方法包括：目标从节点若接收到目标主节点发送的实验工作任务部署指令，则根据所实验工作任务部署指令对应创建目标容器；目标从节点若接收到用户终端的访问请求并通过验证，将目标容器对应的目标容器实例与用户终端连接；目标从节点接收用户终端的目标操作数据，将目标操作数据存储至目标容器对应的键值数据库；目标主节点发送容器操作指令至目标从节点；目标从节点若接收到容器操作指令，则根据容器操作指令对应创建或删除容器。实现了在人工智能实验云平台中能基于云端进行人工智能相关实验任务的处理，而且能随时对集群增加或删减节点，提高集群的高可用性和负载能力。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的高可用集群架构人工智能实验云平台数据处理方法的应用场景示意图；

图2为本申请实施例提供的高可用集群架构人工智能实验云平台数据处理方法的流程示意图；

图3为本申请实施例提供的高可用集群架构人工智能实验云平台数据处理***的示意性框图；

图4为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本申请实施例提供的高可用集群架构人工智能实验云平台数据处理方法的应用场景示意图；图2为本申请实施例提供的高可用集群架构人工智能实验云平台数据处理方法的流程示意图。本申请实施例提供的高可用集群架构人工智能实验云平台数据处理方法应用于人工智能实验云平台，如图1所示，人工智能实验云平台包括多个主节点和多个从节点，所述多个主节点和所述多个从节点均通讯连接。人工智能实验云平台可视为包括多个主节点和多个从节点的Kubernetes集群，是一个可管理单个容器集群资源的编排和调度的分布式***。

其中，所述多个主节点中每一主节点均包括APIServer模块(可理解为接口模块)、Scheduler模块(可理解为调度模块)和Controller-Manager模块(可理解为管理控制模块)和键值数据库(可表示为Etcd数据库)。所述APIServer模块，用于根据主节点的决策去通知从节点进行集群资源的建立、删除和停止等操作；所述Scheduler模块，用于根据人工智能实验云平台所对应集群内各从节点的资源消耗情况进行Pod调度(Pod是Kubernetes***(也即K8S***)中可以创建和管理的最小单元，是资源对象模型中由用户创建或部署的最小资源对象模型)；所述Controller-Manager模块，用于对人工智能实验云平台所对应集群内各主节点和各从节点的状态是否健康进行检测；所述键值数据库，用于存储人工智能实验云平台所对应集群内各种重要配置信息，以及持久化集群内的各种数据资源。在所述多个主节点中在每一时刻只有一个正在运行并处于活跃状态的主节点并可记为Leader-Master-Node(只有Leader-Master-Node才能对外提供服务)，其他主节点则处于非活跃的备用状态。如果正在工作的主节点(即Leader-Master-Node)出现异常，人工智能实验云平台所对应集群会在备用状态的多个主节点中自动选出一个主节点立刻代替异常状态主节点成为新的正在运行并处于活跃状态的主节点接续当前工作。

所述多个从节点中每一从节点可以视为人工智能实验云平台所对应集群中的工作节点，是实际执行人工智能实验任务的节点，也是负责运行实际业务和资源的运行容器。每一从节点除了提供Pod的运行环境以外，还有用于管理和通信的基础设施，具体是每一从节点通过Kubelet组件(是从节点上的代理组件)与所述多个主节点中各主节点进行数据交互。Kubelet组件是定期从主节点的API-Server模块接收工作任务，以用于处理主节点上Pod的整个生命周期相关事物；而且Kubelet还会定期经由主节点的API-Server模块向主节点上报的所有工作信息。不同的从节点之间通过Kube-proxy组件(其为Kubernetes集群从节点上的网络代理组件)进行网络代理访问。

如图2所示，该高可用集群架构人工智能实验云平台数据处理方法包括步骤S101～S105。

S101、目标从节点若接收到目标主节点发送的实验工作任务部署指令，则根据所实验工作任务部署指令对应创建目标容器；其中，所述从节点为所述多个从节点中任意一个从节点，所述目标主节点为所述多个主节点中当前为活跃状态的主节点。

在本实施例中，当由多个主节点及多个从节点组成了人工智能实验云平台所对应集群时，该人工智能实验云平台可以作为进行人工智能实验的云平台。具体是目标主节点的用户(如具平台管理员通过管理员权限用户账号登录人工智能实验云平台的主节点)在用户界面上操作在从节点中部署实验任务，则会触发产生实验工作任务部署指令。目标主节点中产生的所述实验工作任务部署指令发送至各从节点，在各从节中的目标从节点中基于所述实验工作任务部署指令对应创建目标容器。其中，所述目标主节点为多个主节点中当前为活跃状态的主节点，以确保集群中当前只有一个主节点正在工作并进行各项数据处理。

当在所述目标从节点中基于该实验工作任务部署指令完成了目标容器的创建后，还需在各目标容器中添加与该实验工作任务部署指令对应的目标镜像从而得到各目标容器实例。当得到了目标容器实例后，各目标容器实例则可与对应的用户终端对应实验参与人员相对应，以供各实验参与人员使用用户终端连接对应的目标容器实例进行人工智能实验任务的处理。其中，各目标容器实例中已经部署了容器运行环境和模型代码等数据。目标容器实例的容器引擎可提供容器运行环境，制作不同需求镜像等；私有镜像仓库中集成了人工智能领域相关实验所需的TensorFlow、Caffe和PyTorch等框架镜像，也支持深度神经网络DNN、卷积神经网络CNN和目标检测相关的YoLoV1～V5模型等。

可见，目标容器是在从节点中创建，而非在主节点中创建，这就确保了从节点作为人工智能实验云平台中实际运行容器的云设备，而主节点则作为统一监控和管理从节点的云设备。若有从节点出现了故障，但因人工智能实验云平台采用了高可用集群和应用的高可用部署来降低节点故障问题带来的危害，确保云平台的高可靠性。

在一实施例中，步骤S101之前还包括：

目标主节点中的接口模块与目标从节点的Kubelet代理组件建立通讯连接。

在本实施例中，当构建高可用集群架构人工智能实验云平台时，需要先将多个主节点和多个从节点进行通讯连接。具体是将各从节点基于Kubelet代理组件与目标主节点中的接口模块建立通讯连接，这样作为从节点之一的目标从节点也是基于Kubelet代理组件与目标主节点中的接口模块建立通讯连接。其中，Kubelet代理组件可以形象的理解为目标主节点与各从节点之间进行数据交互的纽带。Kubelet组件是定期从主节点的API-Server模块接收工作任务，以用于处理主节点上Pod的整个生命周期相关事物；而且Kubelet还会定期经由主节点的API-Server模块向主节点上报的所有工作信息。而且，人工智能实验云平台中包括的各从节点可以基于Kube-proxy组件访问互联网，或是与用户终端基于互联网进行通讯连接。

在一实施例中，所述目标主节点中的接口模块与目标从节点的Kubelet代理组件建立通讯连接，包括：

目标主节点的Keepalived组件通过虚拟路由冗余协议自动配置人工智能实验云平台的虚拟IP地址；

目标主节点的接口模块基于所述虚拟IP地址与目标从节点的Kubelet代理组件块建立通讯连接。

在本实施例中，各主节点中均具有Keepalived组件和Haproxy组件，其中Keepalived组件用于通过虚拟路由冗余协议(即VRRP协议)自动配置人工智能实验云平台的虚拟IP地址，以确保人工智能实验云平台有一个统一的虚拟IP来对外进行访问。Haproxy组件，则用于为从节点提供负载均衡服务。

当目标主节点的Keepalived组件获取到了人工智能实验云平台的虚拟IP地址后则进行自动配置，使得所述目标主节点具有与人工智能实验云平台相同的虚拟IP。而且除了目标主节点的接口模块基于所述虚拟IP地址与目标从节点的Kubelet代理组件块建立通讯连接，剩余的其他主节点在由备用状态切换至活跃状态时也是基于的接口模块基于所述虚拟IP地址与目标从节点的Kubelet代理组件块建立通讯连接。可见，基于这一架构方式，确保了***的高可用和高负载。

在一实施例中，步骤S101包括：

若所述实验工作任务部署指令为统一实验任务部署指令，则所述目标从节点获取与所述统一实验任务部署指令对应的第一目标镜像资源、GPU资源和数据存储卷路径，所述目标从节点根据所述统一实验任务部署指令对应的第一目标镜像资源、GPU资源和数据存储卷路径对应创建目标容器；

若所述实验工作任务部署指令为个性化容器部署指令，则所述目标从节点获取与所述个性化容器部署指令对应的第二目标镜像资源，所述目标从节点根据所述个性化容器部署指令对应的第二目标镜像资源以及预先存储的数据存储卷路径对应创建目标容器。

在本实施例中，在人工智能实验云平台中预先划分了至少三类权限的用户账号，分别是管理员权限用户账号、第一权限用户账号(如老师权限用户账号)和第二权限用户账号(如学生权限用户账号)。其中，管理员权限用户账号具有对整个人工智能实验云平台的所有数据进行管理的权限，例如在人工智能实验云平台的多个从节点中创建多个命名空间(即namespace)为其中一个权限；第一权限用户账号具有在与其对应的命名空间中创建多个容器以供第二权限用户账号登录使用的权限；第二权限用户账号则只具有登录相应命名空间的相应容器进行人工智能实验任务处理的权限。

其中，管理员权限用户账号可以接收某一第一权限用户账号对应用户所提供的待创建的用户账号清单，此时则管理员权限用户账号对应管理员可以在登录了人工智能实验云平台的主节点或从节点后，由该用户账单清单对应的老师姓名及学生班级名称组合得到组合名称。之后，管理员权限用户账号对应管理员在所述人工智能实验云平台中从节点以上述组合名称对应创建命名空间。这样，即可形象的理解为管理员在人工智能实验云平台中针对该老师姓名所对应的老师所带课班级创建了班级专属的命名空间。然后，管理员权限用户账号对应管理员还能根据所述用户账单清单中包括的学生姓名清单(或学生学号清单)对应相应个数的第二权限用户账号(即用户账单清单中包括的学生姓名总个数与第二权限用户账号的总个数相同)。

当然，在每一个命名空间中根据实际需求创建多个容器时，可以是管理员权限用户账号对应管理员根据人工智能实验任务的需求及所述用户账单清单中包括的学生姓名清单创建相应个数的容器；也可以是第一权限用户账号对应老师根据人工智能实验任务的需求及所述用户账单清单中包括的学生姓名清单创建相应个数的容器。在人工智能实验云平台中所述命名空间的相关信息是存储在主节点中，且与每一命名空间对应的容器则是部署在所述人工智能实验云平台的从节点中。

当在所述人工智能实验云平台中的从节点中完成了某一班级如班级A的命名空间的创建后，可以继续由第一权限用户账号对应老师根据人工智能实验任务的需求生成统一实验任务部署指令，并在该统一实验任务部署指令中具体设置第一目标镜像资源、GPU资源和数据存储卷路径。之后所述资源容器层根据所述统一实验任务部署指令对应的第一目标镜像资源、GPU资源和数据存储卷路径对应创建容器。

其中，所述第一目标镜像资源可从集成了人工智能领域相关实验所需的TensorFlow、Caffe和PyTorch等框架镜像，或集成了深度神经网络DNN、卷积神经网络CNN和目标检测相关的YoLoV1～V5等目标检测网络这些人工智能相关神经网络模型镜像中任选一个或多个进行部署。更具体所述第一目标镜像资源可选择TensorFlow框架并在TensorFlow框架上部署卷积神经网络CNN。

当由第一权限用户账号对应老师根据人工智能实验任务的需求生成统一实验任务部署指令，并对应在所述资源容器层中完成了与所述命名空间相对应绑定的多个容器的创建后，则完成了人工智能实验任务的初始环境搭建。

当然，当在所述人工智能实验云平台中的目标从节点中完成了某一班级如班级A的命名空间的创建后，还可以由第二权限用户账号对应学生根据自身进行人工智能实验任务的个性化需求生成个性化容器部署指令，并将该个性化容器部署指令由所述人工智能实验云平台的从节点将该个性化容器部署指令发送至第一权限用户账号对应老师所使用的用户终端，当该第一权限用户账号对应老师在用户终端上操作审批通过了该个性化容器部署指令后，则所述人工智能实验云平台的目标从节点根据所述个性化容器部署指令对应的第二目标镜像资源以及预先存储的数据存储卷路径对应创建容器。同样的，所述第二目标镜像资源可从集成了人工智能领域相关实验所需的TensorFlow、Caffe和PyTorch等框架镜像，或集成了深度神经网络DNN、卷积神经网络CNN和目标检测相关的YoLoV1～V5等目标检测网络这些人工智能相关神经网络模型镜像中任选一个或多个进行部署。更具体所述第二目标镜像资源可选择TensorFlow框架并在TensorFlow框架上部署YoLoV5目标检测网络。

而且，当由第二权限用户账号对应学生根据自身进行人工智能实验任务的个性化需求生成个性化容器部署指令时，默认是不分配GPU资源的，也就是基于个性化容器部署指令在目标从节点中所创建的容器都是普通服务器容器，而非GPU服务器容器。当然，若所述个性化容器部署指令对应的容器需求中对GPU服务器容器使用有需求，则该个性化容器部署指令发送至第一权限用户账号对应老师所使用的用户终端，当该第一权限用户账号对应老师在用户终端上操作审批通过了该个性化容器部署指令后，则所述人工智能实验云平台的所述目标从节点根据所述个性化容器部署指令对应的第二目标镜像资源、GPU资源以及预先存储的数据存储卷路径对应创建容器。

在一实施例中，所述目标从节点获取与所述统一实验任务部署指令对应的第一目标镜像资源、GPU资源和数据存储卷路径，包括：

所述目标从节点若检测到统一实验任务部署指令，则获取所述统一实验任务部署指令对应的教学进度信息和教师教学标签集，根据所述教学进度信息、教师教学标签集及预设的资源调用策略生成与所述统一实验任务部署指令对应的第一目标镜像资源、GPU资源和数据存储卷路径。

在本实施例中，当所述目标从节点若检测到统一实验任务部署指令时，具体可由所述目标从节点对该统一实验任务部署指令进行解析，判断其中是否包括教学进度信息(例如学习到AA人工智能课程的第一章第五节等)和教师教学标签集(如包括人脸识别、卷积神经网络等标签)。若该统一实验任务部署指令解析得到了教学进度信息和教师教学标签集，则根据所述教学进度信息、教师教学标签集及预设的资源调用策略生成创建容器所需的第一目标镜像资源、GPU资源和数据存储卷路径等容器信息。其中，所述资源调用策略可以理解为预先设置的包括若干条教学进度信息、教师教学标签集与目标镜像资源、GPU资源和数据存储卷路径的映射表，以教学进度信息、教师教学标签集为检索条件可以查询到对应的目标镜像资源、GPU资源和数据存储卷路径。

S102、目标从节点若接收到用户终端的访问请求并通过验证，将所述目标容器对应的目标容器实例与所述用户终端连接。

在本实施例中，当在目标从节点完成了目标容器及目标容器实例的部署之后，则可以提供给用户进行访问从而进行人工智能相关实验任务的处理。当用户需访问从节点中的目标容器时，是先将带有用户账号信息的访问请求发送至目标从节点。之后目标从节点对该访问请求验证通过时，则建立所述目标容器对应的目标容器实例与所述用户终端的通讯连接。这样用户终端即可访问目标从节点进行人工智能相关实验任务的处理。

S103、目标从节点接收所述用户终端的目标操作数据，将所述目标操作数据存储至所述目标容器对应的键值数据库。

在本实施例中，当用户终端与目标从节点中的目标容器实例连接后，目标容器实例则可接收所述用户终端的目标操作数据。为了提高对目标操作数据的数据安全性，可以将将所述目标操作数据存储至目标主节点中与所述目标容器相对应的键值数据库(如Etcd数据库，其为一种键值数据库)，这样即使目标从节点发生故障停止运行时，其中所包括各容器的操作数据均是存储在目标主节点中的键值数据库。当目标从节点排除故障恢复正常时，也是从目标主节点的键值数据库中调用该目标从节点的所有数据以进行断点恢复。

在一实施例中，步骤S103之后还包括：

目标主节点若检测到当前工作状态为异常状态，从剩余的多个主节点中随机选择一个主节点以作为目标主节点。

在本实施例中，一般集群中当前只有一个主节点正在工作并进行各项数据处理，其他主节点则处于非活跃的备用状态。如果正在工作的目标主节点(即Leader-Master-Node)出现异常，人工智能实验云平台所对应集群会在备用状态的多个主节点中自动选出一个主节点立刻代替异常状态主节点成为新的正在运行并处于活跃状态的主节点接续当前工作。可见，集群中无论哪一个主节点出现故障都不会影响整个集群的工作，如果正在工作的主节点出现异常，集群会在备用主节点中自动选出一个主节点立刻代替异常节点成为新的主控制节点Leader-Master-Node接续当前工作。

在一实施例中，步骤S103之后还包括：

所述目标从节点若检测到当前工作状态为异常状态，获取当前节点容器数据并将所述当前节点容器数据存储至目标主节点中与所述目标从节点对应的键值数据库。

在本实施例中，当目标从节点的当前工作状态为异常状态，在其还未重启进行排障之前，可以在目标主节点中再次获取到该目标从节点的当前节点容器数据并将所述当前节点容器数据存储至目标主节点中与所述目标从节点对应的键值数据库进行数据备份。在该键值数据库针对每一个用户创建一个持久卷声明(PVC)和一个持久卷(PV)，当用户针对目标从节点中目标容器实例的操作停止且关闭后或者是因故障退出目标容器实例，此次关闭操作或退出操作之前用户针对目标容器实例的操作产生的当前节点容器数据会自动存储至目标主节点中与所述目标从节点对应的键值数据库进行数据备份。当用户下一次再次进入该目标容器实例后，所述人工智能实验云平台自动从所述键值数据库中调用该当前节点容器数据，以将该目标容器实例还原成上一次退出时的状态，以供用户本次重新进入后继续针对目标容器实例进行操作。

由于是将每一容器的所有节点容器数据持久化到一个动态创建的持久卷中，无论是用户主动退出容器实例还是因故障被动退出容器实例，所述人工智能实验云平台可以自动保存历史节点容器数据到持久卷中，以供用户重新进入容器后调用历史节点容器数据继续针对容器实例进行操作。

S104、目标主节点发送容器操作指令至目标从节点。

在本实施例中，当然用户除了对目标从节点中容器内的人工智能相关实验数据进行操作，还可以是用户访问目标主节点(如具有管理员权限用户账号登录了目标主节点)，然后进行增加或删除容器等操作所对应容器操作指令的触发产生操作。当完成了触发增加或删除容器的容器操作指令后，目标主节点发送容器操作指令至目标从节点。

S105、目标从节点若接收到所述容器操作指令，则根据所述容器操作指令对应创建或删除容器。

在本实施例中，人工智能实验云平台中可以基于容器操作指令实现集群节点的随时增删，以通过集群控制器方便实现Pod的扩缩容。更具体的是当目标从节点中资源紧张时，增加更多的从节点并在从节点中创建容器以实现扩容。

该方法实现了在人工智能实验云平台中能基于云端进行人工智能相关实验任务的处理，而且能随时对集群增加或删减节点，提高集群的高可用性和负载能力。

本申请实施例还提供一种高可用集群架构人工智能实验云平台数据处理***，该高可用集群架构人工智能实验云平台数据处理***用于执行前述高可用集群架构人工智能实验云平台数据处理方法的任一实施例。具体地，请参阅图3，图3是本申请实施例提供的高可用集群架构人工智能实验云平台数据处理***100的示意性框图。

其中，如图3所示，高可用集群架构人工智能实验云平台数据处理***100包多个主节点101和多个从节点102。其中，所述目标从节点为所述多个从节点102中任意一个从节点，所述目标主节点为所述多个主节点101中当前为活跃状态的主节点。

目标从节点，用于若接收到目标主节点发送的实验工作任务部署指令，则根据所实验工作任务部署指令对应创建目标容器；其中，所述从节点为所述多个从节点中任意一个从节点，所述目标主节点为所述多个主节点中当前为活跃状态的主节点。

在一实施例中，目标主节点，还用于通过目标主节点中的接口模块与目标从节点的Kubelet代理组件建立通讯连接。

在一实施例中，目标从节点还用于：

目标从节点，还用于若接收到用户终端的访问请求并通过验证，将所述目标容器对应的目标容器实例与所述用户终端连接。

目标从节点，还用于接收所述用户终端的目标操作数据，将所述目标操作数据存储至所述目标容器对应的键值数据库。

在一实施例中，目标主节点，还用于若检测到当前工作状态为异常状态，从剩余的多个主节点中随机选择一个主节点以作为目标主节点。

在一实施例中，目标从节点，还用于若检测到当前工作状态为异常状态，获取当前节点容器数据并将所述当前节点容器数据存储至目标主节点中与所述目标从节点对应的键值数据库。

目标主节点，用于发送容器操作指令至目标从节点。

目标从节点，还用于若接收到所述容器操作指令，则根据所述容器操作指令对应创建或删除容器。

该***实现了在人工智能实验云平台中能基于云端进行人工智能相关实验任务的处理，而且能随时对集群增加或删减节点，提高集群的高可用性和负载能力。

上述高可用集群架构人工智能实验云平台数据处理***可以实现为计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本申请实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，也可以是服务器集群。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参阅图4，该计算机设备500包括通过装置总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行高可用集群架构人工智能实验云平台数据处理方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行高可用集群架构人工智能实验云平台数据处理方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，处理器502用于运行存储在存储器中的计算机程序5032，以实现本申请实施例公开的高可用集群架构人工智能实验云平台数据处理方法。

本领域技术人员可以理解，图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图4所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessingUnit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本申请实施例公开的高可用集群架构人工智能实验云平台数据处理方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，后台服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种高可用集群架构人工智能实验云平台数据处理方法，应用于人工智能实验云平台，其特征在于，所述人工智能云平台包括多个主节点和多个从节点，所述多个主节点和所述多个从节点均通讯连接；所述方法包括：

目标主节点发送容器操作指令至目标从节点；

2.根据权利要求1所述的高可用集群架构人工智能实验云平台数据处理方法，其特征在于，所述根据所实验工作任务部署指令对应创建目标容器，包括：

3.根据权利要求1所述的高可用集群架构人工智能实验云平台数据处理方法，其特征在于，所述目标从节点若接收到目标主节点发送的实验工作任务部署指令，则根据所实验工作任务部署指令对应创建目标容器之前，还包括：

4.根据权利要求3所述的高可用集群架构人工智能实验云平台数据处理方法，其特征在于，所述目标主节点中的接口模块与目标从节点的Kubelet代理组件建立通讯连接，包括：

5.根据权利要求1所述的高可用集群架构人工智能实验云平台数据处理方法，其特征在于，所述目标从节点接收所述用户终端的目标操作数据，将所述目标操作数据存储至所述目标容器对应的键值数据库之后，还包括：

6.根据权利要求1所述的高可用集群架构人工智能实验云平台数据处理方法，其特征在于，所述目标从节点接收所述用户终端的目标操作数据，将所述目标操作数据存储至所述目标容器对应的键值数据库之后，还包括：

7.根据权利要求2所述的高可用集群架构人工智能实验云平台数据处理方法，其特征在于，所述目标从节点获取与所述统一实验任务部署指令对应的第一目标镜像资源、GPU资源和数据存储卷路径，包括：

8.一种高可用集群架构人工智能实验云平台数据处理***，运行于人工智能实验云平台，其特征在于，包括多个主节点和多个从节点，所述多个主节点和所述多个从节点均通讯连接；其中，目标从节点为所述多个从节点中任意一个从节点，所述目标主节点为所述多个主节点中当前为活跃状态的主节点；

目标主节点，用于发送容器操作指令至目标从节点；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的高可用集群架构人工智能实验云平台数据处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的高可用集群架构人工智能实验云平台数据处理方法。