CN110311831B - 基于容器云的***资源监控方法及相关设备 - Google Patents

基于容器云的***资源监控方法及相关设备 Download PDF

Info

Publication number
CN110311831B
CN110311831B CN201910515745.4A CN201910515745A CN110311831B CN 110311831 B CN110311831 B CN 110311831B CN 201910515745 A CN201910515745 A CN 201910515745A CN 110311831 B CN110311831 B CN 110311831B
Authority
CN
China
Prior art keywords
container
application
recording
frame
container arrangement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910515745.4A
Other languages
English (en)
Other versions
CN110311831A (zh
Inventor
高峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910515745.4A priority Critical patent/CN110311831B/zh
Publication of CN110311831A publication Critical patent/CN110311831A/zh
Priority to PCT/CN2019/118670 priority patent/WO2020248507A1/zh
Application granted granted Critical
Publication of CN110311831B publication Critical patent/CN110311831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及***资源监控技术领域,基于容器云的***资源监控方法及相关设备,所述方法包括:获取容器编排框架的部署情况后生成框架列表;获取每个容器编排框架中的应用的运行状态信息;根据运行状态信息确定容器编排框架资源不足后生成报警信息后推送给扩容执行者;获取标记为资源不足的容器编排框架的物理机器资源配置数据和应用所占用的物理机器资源占用数据后记录在对应的记录节点中;扩容结束后进行应用的重新配置和重启,获取容器编排框架的当前物理机器资源配置数据;生成扩容报告。本发明通过对容器云平台上的应用的运行状态进行监控,在***资源不足时及时预警,使容器编排框架的扩容需求得到快速响应,且保留扩容前后的历史数据。

Description

基于容器云的***资源监控方法及相关设备
技术领域
本发明涉及***资源监控技术领域,尤其涉及一种基于容器云的***资源监控方法、装置、设备及存储介质。
背景技术
随着分布式计算资源的应用逐渐普及,容器云技术开始为各类用户所青睐,互联网云计算服务提供商也针对自身的特点通过容器云技术开发了自家的产品,比如通过将容器云技术集成在自家的大产品系列中的阿里云和腾讯云,或者深度定制开发的平安Padis平台等,这些产品均是基于应用容器引擎Docker的分布式平台,可以完成应用程序的快速创建、运行、快速缩容扩容以及故障自愈。这些容器云平台的使用均需要通过依赖容器编排框架对运行于平台上的各类服务和应用进行资源的分配和管理。比如,基于Docker的Docker Swarm、Marathon、kubernetes、Nomad等编排工具。通过这些编排工具使各个服务和应用的资源得到合理分配,并且在应用或者服务崩溃时得以被恢复。常见的容器编排框架类产品提供了友好界面和RestAPI等简单易用的数据接口来创建和管理应用,也具有与第三方***集成的便利性,比如Marathon框架还能够通过JSON格式文本来实现对应用或者服务的定义,在完成对应用的定义后再通过RestAPI提交并运行应用,使其使用难度大大降低。
在业内传统方案中,随着使用时间的持续和业务的扩展,往往同一个平台上需要在确保原有部署结构不作较大调整的情况下,对***资源进行扩容,以满足发展中的业务所对应的应用或者服务对于***资源的持续增长的需求。比如,开始时在Padis平台上根据现有业务种类的不同,对应搭建并部署了多个Marathon框架后组成了Marathon集群,由这些框架集去管理不同的业务类型中运行的各类应用或者服务。随着业务持续发展,往往导致现有的应用所占用的***资源出现紧张而导致应用运行迟缓甚至崩溃的情况,此时即便重启该应用也于事无补,此时需要及时对该应用所在的Marathon框架进行***资源的扩容。但是,现有技术通常使用Google的容器监控工具cAdvisor来查看运行于Marathon等容器编排框架上的各个应用或者服务所占用的物理机器资源的使用情况,这类技术手段存在如下局限性:
1)同一时间只能监控一台物理主机,相当于单节点监控,而无法满足多节点监控的需求,但是,运行在同一容器云平台上的应用可能分布在不同的容器编排框架所管理的机器资源内运行,因此可能在不同的物理主机上运行,单节点监控无法满足这类应用的实际资源使用的监控需求。
2)只能进行实时状态查看,无法查看历史数据,从而无法为一些用于对容器云平台上的应用和服务的运行趋势进行分析的功能提供历史数据支持。
3)预警功能较弱,缺乏电话或邮件告警的功能,使得容器编排框架在物理机器资源不足时无法及时对外预警,而在容器云平台的实际运行过程中,尤其在某个应用重启或创建时,物理机器资源不足将导致应用无法启动或者创建成功,如果不能及时处理将会导致该应用对应的业务功能瘫痪。
由此可见,业内需要一种便于对容器云平台中的容器编排框架的使用资源进行多节点监控、历史数据查看和分析及故障预警的技术手段来解决上述技术难题。
发明内容
本发明提供了基于容器云的***资源监控方法及相关装置,通过为容器云平台中的每个容器编排框架设置监控节点,获取应用的实时状态信息,通过对状态信息的判断来确定容器编排框架是否存在资源不足情况,以此发出扩容预警,并根据扩容前对应用的资源配置状态的备份,在扩容后进行及时的应用重启,实现了传统的容器云平台中的监控手段无法达到的多监控节点、历史数据留存和自动预警的效果。
第一方面,本发明提供一种基于容器云的***资源监控方法,包括:获取容器云平台下的容器编排框架部署情况后生成框架列表,所述框架列表中记录所有部署在所述容器云平台下的容器编排框架;
根据记录顺序从所述框架列表中按预设的获取周期逐一获取每一个容器编排框架中的各个应用的运行状态信息,将获取的运行状态信息记录在预设的存储单元内,所述存储单元内设有用于记录每个容器编排框架的物理机器资源配置数据的框架记录节点和用于记录每个应用的运行状态信息、物理机器资源占用数据的应用记录节点,所述运行状态信息用于标识应用在其所在容器编排框架中的运行状态;
当任一所述应用的运行状态信息在预设的判断时间阈值范围内持续为等待状态,则标记所述容器编排框架资源不足,此时,生成报警信息后推送给执行扩容操作的执行者后,便于通知其执行容器编排框架的扩容作业;
获取标记为资源不足的容器编排框架的物理机器资源配置数据和运行于所述容器编排框架中的任一应用所占用的物理机器资源占用数据,将两类数据记录在对应的记录节点中;
接收所述执行者反馈的扩容作业结束信号后,从所述存储单元中调取在前记录的所述标记为资源不足的容器编排框架中的每一个应用所占用的物理机器资源占用数据后进行应用的重新配置和重启,获取所述标记为资源不足的容器编排框架的当前的物理机器资源配置数据后记录于所述框架记录节点中;
汇总所述框架记录节点和所述应用记录节点的记录数据后生成扩容报告。
在一些可能的实施例中,所述获取容器云平台下的容器编排框架部署情况后生成框架列表,所述框架列表中记录所有部署在所述容器云平台下的容器编排框架,包括:
连接所述容器云平台的管理控制台;
向所述容器云平台的管理控制台发送用于获取运行于所述容器云平台上的容器编排框架的情况的数据请求;
接收所述管理控制台的反馈后生成所述框架列表,所述框架列表中按反馈的时间顺序记录所有运行于所述容器云平台上的容器编排框架;
为所述框架列表中的每一个所述容器编排框架按照记录时间生成记录序号,所述记录序号为容器编排框架在容器云平台中的识别序号,用于区分不同的容器编排框架。
在一些可能的实施例中,所述根据记录顺序从所述框架列表中按预设的获取周期逐一获取每一个容器编排框架中的各个应用的运行状态信息,将获取的运行状态信息记录在预设的存储单元内,包括:
为所述框架列表中的每个容器编排框架生成监控节点,所述监控节点用于在设定周期内连接容器编排框架的管理控制台后获取运行其上的各个应用的运行状态信息;
根据所述框架列表中的容器编排框架的记录序号,为每个所述容器编排框架上的应用在所述存储单元中生成对应的应用记录节点,所述应用记录节点用于记录所述监控节点获取的运行于容器编排框架上的各个应用的运行状态信息;
通过所述监控节点,按照设定的监测周期连接所述容器编排框架的管理控制台后,请求获取所有运行于所述容器编排框架上的应用的运行状态信息;
接收所述容器编排框架的管理控制台的反馈后,将应用的运行状态信息按接收到反馈的时间记录于所述应用记录节点内。
在一些可能的实施例中,所述当任一所述应用的运行状态信息在预设的判断时间阈值范围内持续为等待状态,则标记所述容器编排框架资源不足,此时,生成报警信息后推送给执行扩容操作的执行者后,便于通知其执行容器编排框架的扩容作业,包括:
读取所述应用记录节点中的任一应用的运行状态信息;
判断所述应用在所述判断时间阈值范围内的运行状态信息是否持续为等待状态,如果是,则标记所述容器编排框架的状态为资源不足,如果否,则标记所述容器编排框架的状态为运行正常,所述判断时间阈值范围为预先设置的一段时长;
按上述步骤遍历所述框架列表中的所有的容器编排框架下的所有应用,标记所有的容器编排框架的状态;
调用邮件模板后生成报警邮件,在所述报警邮件中记录所述标记为资源不足的容器编排框架的记录序号和标识资源不足的提示信息;
从预设的收信人地址列表中读取所述执行者的邮件地址后将所述报警邮件推送给所述执行者。
在一些可能的实施例中,所述获取标记为资源不足的容器编排框架的物理机器资源配置数据和运行于所述容器编排框架中的任一应用所占用的物理机器资源占用数据,将两类数据记录在对应的记录节点中,包括:
连接所述标记为资源不足的容器编排框架的管理控制台;
向所述管理控制台发送数据请求,用于获取所述容器编排框架的物理机器资源配置数据和运行于所述容器编排框架中的任一应用所占用的物理机器资源占用数据;
接收所述管理控制台的反馈后,按收到反馈的时间,将物理机器资源配置数据记录于所述框架记录节点、将物理机器资源占用数据记录至应用记录节点。
在一些可能的实施例中,所述接收所述执行者反馈的扩容作业结束信号后,从所述存储单元中调取在前记录的所述标记为资源不足的容器编排框架中的每一个应用所占用的物理机器资源占用数据后进行应用的重新配置和重启,获取所述标记为资源不足的容器编排框架的当前的物理机器资源配置数据后记录于所述框架记录节点中,包括:
接收所述执行者的包含扩容作业结束信号的反馈信息;
连接所述存储单元后,从所述应用记录节点中读取所述标记为资源不足的容器编排框架中的每一个应用所占用的物理机器资源占用数据的距离当前时间最近的一次记录;
根据所述物理机器资源占用数据配置对应的应用,在配置完成后对所述应用进行重启;
连接所述容器编排框架的管理控制台,获取所述容器编排框架的当前的物理机器资源配置数据,将获取的数据按获取时间记录在所述框架记录节点中。
在一些可能的实施例中,所述获取容器云平台下的容器编排框架部署情况后生成框架列表之后,包括:
根据所述框架列表中的记录顺序,逐一连接每一个所述容器编排框架的管理控制台;
对连接成功的容器编排框架,在所述记录序号后追加成功标记后生成新的记录序号;
对连接失败的容器编排框架,在所述记录序号后追加失败标记后生成新的记录序号;
所述根据记录顺序从所述框架列表中按预设的获取周期逐一获取每一个容器编排框架中的各个应用的运行状态信息,将获取的运行状态信息记录在预设的存储单元内之前,包括对所述容器编排框架的记录序号的识别,当所述记录序号中包含成功标记后,执行读取所述容器编排框架中的应用的运行状态信息的操作,当所述记录序号中包含失败标记时,不执行读取所述容器编排框架中的应用的运行状态信息的操作。
第二方面,本发明在一些可能的实施例中提供了一种基于容器云的***资源监控装置,包括:列表生成模块、应用状态获取模块、报警信息推送模块、数据记录模块、应用重启模块、扩容报告生成模块,其中:
列表生成模块,设置为获取容器云平台下的容器编排框架部署情况后生成框架列表;
应用状态获取模块,设置为根据记录顺序从所述框架列表中按预设的获取周期逐一获取每一个容器编排框架中的各个应用的运行状态信息,将获取的运行状态信息记录在预设的存储单元内;
报警信息推送模块,设置为当任一所述应用的运行状态信息在预设的判断时间阈值范围内持续为等待状态,标记所述容器编排框架资源不足,生成报警信息后推送给执行扩容操作的执行者;
数据记录模块,设置为获取标记为资源不足的容器编排框架的物理机器资源配置数据和运行于所述容器编排框架中的任一应用所占用的物理机器资源占用数据,将两类数据记录在对应的记录节点中;
应用重启模块,设置为接收所述执行者反馈的扩容作业结束信号后,从所述存储单元中调取在前记录的所述标记为资源不足的容器编排框架中的每一个应用所占用的物理机器资源占用数据后进行应用的重新配置和重启,获取所述标记为资源不足的容器编排框架的当前的物理机器资源配置数据后记录于所述框架记录节点中;
扩容报告生成模块,设置为汇总所述框架记录节点和所述应用记录节点的记录数据后生成扩容报告。
基于相同的发明构思,本发明在一些可能的实施例中提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现上述基于容器云的***资源监控方法的步骤。
基于相同的发明构思,本发明在一些可能的实施例中提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,实现上述基于容器云的***资源监控方法的步骤。
有益效果:本发明通过对所有运行于容器云平台上的应用的运行状态进行监控,在***资源不足时及时预警,使应用所在的容器编排框架的扩容需求得到快速而准确的响应,且保留扩容前后的历史数据供后续分析查询,具体包括如下优点:
1)多节点监控:从容器云平台上的容器编排框架入手,通过调用控制台数据对各类应用进行监控,通过获取应用的运行状态来判断***资源状况,监控过程不依赖物理硬件;
2)自动预警:通过内建自动预警机制,在判断存在***资源不足的情况下,及时发出预警情报,提高了扩容对策的效率;
3)历史数据可查:通过对扩容前后的容器编排框架的物理机器资源配置数据和应用的状态信息、物理机器资源的占用情况等数据记录至各自的记录节点,实现历史数据可查询的效果,为方便后续对应用在使用资源上的预先配置和业务发展导致的***资源变化趋势提供数据支持。
附图说明
图1为本发明实施例的一种基于容器云的***资源监控方法的主流程图;
图2为本发明实施例的一种基于容器云的***资源监控方法中的生成框架列表的流程图;
图3为本发明实施例的一种基于容器云的***资源监控方法中的监控应用状态的流程图;
图4为本发明实施例的一种基于容器云的***资源监控方法中的判断资源不足的流程图;
图5为本发明实施例的一种基于容器云的***资源监控方法中的扩容前进行数据备份的流程图;
图6为本发明实施例的一种基于容器云的***资源监控方法中的扩容后恢复应用运行的流程图;
图7为本发明实施例的一种基于容器云的***资源监控装置的功能框图。
具体实施方式
本发明实施例提供了一种基于容器云的***资源监控方法、装置、设备及存储介质,用于对运行于容器云平台的资源使用情况进行监控,及时发现问题后预警,避免应用无法重启而导致业务瘫痪。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例进行描述。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1为本发明实施例提供的一种基于容器云的***资源监控方法的流程图,如图所示,一种基于容器云的***资源监控方法,包括步骤S1~S6:
S1、获取容器云平台下的容器编排框架部署情况后生成框架列表,所述框架列表中记录所有部署在所述容器云平台下的容器编排框架。
具体的,容器云平台上一般通过容器技术部署多个容器编排工具,再将各类服务或者应用通过这些工具组成的功能集群分配对应的***资源。通过获取容器云平台的访问权限连接至平台的管理控制台,再向控制台发送数据请求命令后获取部署情况。比如,在DCOS平台中使用获取Marathon框架服务状态的接口命令“/ping”来调用Marathon的运行情况。将获取到的所有的容器编排框架信息汇总后根据获取到对应的容器编排框架信息的时间生成列表或名称清单。所述列表或者所述清单用于被后续步骤调用后作为获取应用的运行状态的定位和顺序参考。
S2、根据记录顺序从所述框架列表中按预设的获取周期逐一获取每一个容器编排框架中的各个应用的运行状态信息,将获取的运行状态信息记录在预设的存储单元内,所述存储单元内设有用于记录每个容器编排框架的物理机器资源配置数据的框架记录节点和用于记录每个应用的运行状态信息、物理机器资源占用数据的应用记录节点,所述运行状态信息用于标识应用在其所在容器编排框架中的运行状态。
具体的,通过运行各个容器编排框架的命令获取由它管理的各个应用的信息,再将这些信息存储在专门为其开辟的记录节点中,以便后续步骤调用数据。比如,通过调用Marathon API接口后发送命令给Marathon的管理控制台,可返回请求的内容。比如,向管理控制台发送“/deployments”可获取当前的marathon编排框架上的应用的部署情况,包括每个应用当前的资源占用情况和运行状态情况。另外,在设置这类记录节点的存储空间中,也为容器编排框架的物理机器资源配置数据开辟了对应的记录节点,这些记录节点中的数据可持续按照记录时间顺序永久保存,供某些分析用途的功能单元调用,比如,为了分析某个应用在一定周期内在云平台上的使用情况,以此来推演该应用对应的业务的开展趋势,此时就需要这些存留的历史数据作为计算依据。
S3、当任一所述应用的运行状态信息在预设的判断时间阈值范围内持续为等待状态,则标记所述容器编排框架资源不足,此时,生成报警信息后推送给执行扩容操作的执行者后,便于通知其执行容器编排框架的扩容作业。
具体的,某些应用的暂时挂起或者等待状态并不一定是由于资源分配紧张造成,在一定时间后会自动重启成功,但是如果由于资源不足而导致的等待,则会持续下去,导致应用无法重启,因此,需要预先设置一个判断时间长度,在这个时长内如果某个应用的状态始终是等待,则可认为该应用的资源分配情况不足以支持该应用重启或者正常运行,此时可认为该应用对应的容器编排框架的自身资源存在不足的情况,需要增加足够的硬件资源给它,这一操作称为扩容。当发现某个容器编排框架存在资源不足时,生成对应的报警信息后推送给负责扩容操作的执行者,比如第三方维护公司或者平台运维等,推送的方式包括邮件、SMS消息或者语音拨叫。
S4、获取标记为资源不足的容器编排框架的物理机器资源配置数据和运行于所述容器编排框架中的任一应用所占用的物理机器资源占用数据,将两类数据记录在对应的记录节点中。
具体的,通过容器编排框架的管理控制台,发送对应的命令后获取物理机器资源配置数据和物理机器资源占用数据,然后将两类数据存储在对应的记录节点中。
S5、接收所述执行者反馈的扩容作业结束信号后,从所述存储单元中调取在前记录的所述标记为资源不足的容器编排框架中的每一个应用所占用的物理机器资源占用数据后进行应用的重新配置和重启,获取所述标记为资源不足的容器编排框架的当前的物理机器资源配置数据后记录于所述框架记录节点中。
具体的,扩容结束作业的信号可通过设置专门的反馈界面获取,由执行者输入后提交。可在反馈界面上设置获取新增了哪些硬件资源的输入入口,从而由执行者提交相关信息,当获取到这类相关信息后,可作为在新增物理机器资源配置数据后记录在框架记录节点中。另外,在扩容结束后,需要对当前扩容的容器编排框架上的应用进行重新配置和重新启动,配置依据即为此前已经保存在应用记录节点中的最近记录的数据,包括内存占用、CPU线程分配等配置数据。
S6、汇总所述框架记录节点和所述应用记录节点的记录数据后生成扩容报告。
具体的,在扩容结束后,为了给后续作业提供参考依据和数据支持,除了保留在存储单元中的备份数据外,还可以将扩容的情况汇总后生成作业报告,其中记录扩容前后的框架记录节点和应用记录节点中的数据。
本实施例,通过对运行于容器云平台中的每个容器编排框架进行监控,获取其中的应用的运行状态,以此判断是否存在资源不足的情况,及时发出预警,待扩容作业完成后恢复应用运行,可有效避免传统作业中由于监控的节点单一和无法及时预警造成的业务损失。
图2为本发明实施例提供的基于容器云的***资源监控方法中的生成框架列表的流程图,如图所示,所述S1、获取容器云平台下的容器编排框架部署情况后生成框架列表,所述框架列表中记录所有部署在所述容器云平台下的容器编排框架,包括步骤S101~步骤S104:
S101、连接所述容器云平台的管理控制台。
S102、向所述容器云平台的管理控制台发送用于获取运行于所述容器云平台上的容器编排框架的情况的数据请求。
具体的,获取容器云平台的访问权限后,连接到管理控制台,然后发送数据请求,要求获取部署在云平台上的容器编排框架的配置数据,所述数据请求中包含了获取容器编排框架的配置数据的命令。云平台的管理权限包括访问地址、数据端口、用户名和密码等信息。
S103、接收所述管理控制台的反馈后生成所述框架列表,所述框架列表中按反馈的时间顺序记录所有运行于所述容器云平台上的容器编排框架。
S104、为所述框架列表中的每一个所述容器编排框架按照记录时间生成记录序号,所述记录序号为容器编排框架在容器云平台中的识别序号,用于区分不同的容器编排框架。
具体的,在接收到控制台返回的数据后,按照返回的时间顺序将获取到的每个容器编排框架均编上序号后整理成列表,便于后续步骤调用和区分。
本实施例,通过将运行于容器云平台上的所有的容器编排框架整理成列表,便于后续步骤调用。
图3为本发明实施例提供的基于容器云的***资源监控方法中的监控应用状态的流程图,如图所示,所述S2、根据记录顺序从所述框架列表中按预设的获取周期逐一获取每一个容器编排框架中的各个应用的运行状态信息,将获取的运行状态信息记录在预设的存储单元内,包括步骤S201~S204:
S201、为所述框架列表中的每个容器编排框架生成监控节点,所述监控节点用于在设定周期内连接容器编排框架的管理控制台后获取运行其上的各个应用的运行状态信息。
具体的,监控节点的形式可以是利用访问容器编排框架的相关信息的命令组成的功能脚本,通过设置其在特定时间或者特定周期对相关容器编排框架进行数据请求,获取其上的应用的运行情况。通过设置监控节点的方式可以对应多个容器编排框架的监控需求。
S202、根据所述框架列表中的容器编排框架的记录序号,为每个所述容器编排框架上的应用在所述存储单元中生成对应的应用记录节点,所述应用记录节点用于记录所述监控节点获取的运行于容器编排框架上的各个应用的运行状态信息。
具体的,为了将监控节点获取的应用运行情况等数据永久存储,可以讲数据记录至数据库或者独立的数据文件中,并针对容器编排框架自身和运行其上的应用均设置不同的记录节点,每类记录节点均可按记录时间为顺序,依次记录获取到的数据。
S203、通过所述监控节点,按照设定的监测周期连接所述容器编排框架的管理控制台后,请求获取所有运行于所述容器编排框架上的应用的运行状态信息。
S204、接收所述容器编排框架的管理控制台的反馈后,将应用的运行状态信息按接收到反馈的时间记录于所述应用记录节点内。
具体的,为监控节点设置监测周期,相当于设置定时任务执行具有监控作用的功能脚本,脚本内配置容器编排框架的管理控制台和记录节点的连接权限信息并具有读写权限。在接收到反馈数据后,利用读写权限在应用记录节点中写入应用的运行数据,包括应用的运行状态。比如,Marathon管理的应用的状态包括“等待”、“延时”、“挂起”、“运行”。其中,“等待”表示存在某个应用或者服务处于故障或者崩溃的情况,需要对应用或者服务重启;“延时”表示存在应用或者服务由于资源用尽或者堵塞导致执行被延后;“挂起”表示存在应用或者服务暂时被中断后不执行,“运行”表示当前的应用或者服务处于正常运行状态。如果报错则表示存在应用或者服务停用的情况,如果存在这类情况,一般的,Marathon会抛出如“等待”的状态字,用于表示当前该Marathon正等待相关的应用或者服务重启。
本实施例通过为容器编排框架设置监控节点来获取实时的应用运行情况,并永久记录这些运行数据,供后续调用。
图4为本发明实施例提供的基于容器云的***资源监控方法中的判断资源不足的流程图,如图所示,所述S3、当任一所述应用的运行状态信息在预设的判断时间阈值范围内持续为等待状态,则标记所述容器编排框架资源不足,此时,生成报警信息后推送给执行扩容操作的执行者,包括步骤S301~S305:
S301、读取所述应用记录节点中的任一应用的运行状态信息。
S302、判断所述应用在所述判断时间阈值范围内的运行状态信息是否持续为等待状态,如果是,则标记所述容器编排框架的状态为资源不足,如果否,则标记所述容器编排框架的状态为运行正常,所述判断时间阈值范围为预先设置的一段时长。
具体的,如果某个应用在设定的判断时间段内处于等待状态,可认为应用发生故障而需要容器编排框架对其进行重建或者重启,但是当应用始终处于等待状态时,则可认为该应用是无法恢复的。一般的,在容器编排框架上运行的应用,相当于在虚拟机中运行的独立软件程序,当该程序被破坏或者失效后崩溃,一般来说,虚拟机***会尝试重新启动或者唤醒它,但是对于和业务关系绑定的应用来说,其占用资源随着业务的变化而发生对应变化,一般而言,不进行维护和优化的情况下,其对于资源的需求是越来越多的。当发生此类情况时,一般需要对该应用对应的容器编排框架进行资源的重配置,即硬件资源的扩容,从而分配更多的硬件资源给该容器编排框架使用,使其可分配给出现问题的应用更多的资源,使其可被重新创建或者重新启动。
S303、按上述步骤遍历所述框架列表中的所有的容器编排框架下的所有应用,标记所有的容器编排框架的状态。
具体的,根据框架列表中的各个容器编排框架的序号,逐一从应用记录节点中获取对应的应用的运行状态数据并判断其是否存在需要进行扩容的情况,然后将判断结果记录下来。
S304、调用邮件模板后生成报警邮件,在所述报警邮件中记录所述标记为资源不足的容器编排框架的记录序号和标识资源不足的提示信息。
S305、从预设的收信人地址列表中读取所述执行者的邮件地址后将所述报警邮件推送给所述执行者。
具体的,根据上述步骤的记录情况,在发生某个容器编排框架存在资源不足的情况时,通过调用预先准备好的邮件模板生成具有特定格式的报警邮件,其中记载了发生的问题和发生问题的定位,再根据邮件地址信息将这一报警邮件发送到处理人处,处理人一般是进行扩容操作的执行人,也可以是调度部门,由其转发执行部门。另外,在另一些实施例中,也可以通过设置特定报警内容的语音拨叫电话来实现预警效果,比如,根据对资源不足情况的判断记录生成预警文本,根据文本语音转译引擎生成预警语音后连接执行人后播放该预警语音。在一些实施例中,还可以通过将本发明与执行人的移动端APP绑定的形式进行预警信息的实时推送。
本实施例,通过对应用的运行状态的判断来确定容器编排框架是否发生资源不足的情况,并结合预警机制实现预警情报的及时发送,为扩容需求的及时满足提供助力。
图5为本发明实施例提供的基于容器云的***资源监控方法中的扩容前进行数据备份的流程图,如图所示,所述S4、获取标记为资源不足的容器编排框架的物理机器资源配置数据和运行于所述容器编排框架中的任一应用所占用的物理机器资源占用数据,将两类数据记录在对应的记录节点中,包括步骤S401~S403:
S401、连接所述标记为资源不足的容器编排框架的管理控制台。
S402、向所述管理控制台发送数据请求,用于获取所述容器编排框架的物理机器资源配置数据和运行于所述容器编排框架中的任一应用所占用的物理机器资源占用数据。
具体的,为扩容准备,需要预先将发生资源不足情况的容器编排框架的扩容前运行情况记录保存下来,为后续扩容后的恢复做储备。为此,要对各个应用的配置情况进行数据采集和记录。通过连接容器编排框架的管理控制台,发送获取应用状态的数据请求后获取对应的数据。获取数据的命令根据每个容器编排框架自身的特点制定。可以根据应用的ID获取,比如,通过“/v2/apps/{id}”命令获取对应id的应用在marathon框架的部署情况,也可以直接获取应用列表后获取,比如,通过“/v2/groups/{id}”获取id标识的应用组的情况。
S403、接收所述管理控制台的反馈后,按收到反馈的时间,将物理机器资源配置数据记录于所述框架记录节点、将物理机器资源占用数据记录至应用记录节点。
具体的,在接收到控制台的返回后,连接框架记录节点和应用记录节点,将返回的两类数据记录保存。
本实施例,通过在扩容前对应用的配置情况和容器编排框架的物理机器资源情况进行记录,便于生成完整的历史数据记录,也为扩容后的应用恢复提供数据恢复基础。
图6为本发明实施例提供的基于容器云的***资源监控方法中的扩容后恢复应用运行的流程图,如图所示,所述S5、接收所述执行者反馈的扩容作业结束信号后,从所述存储单元中调取在前记录的所述标记为资源不足的容器编排框架中的每一个应用所占用的物理机器资源占用数据后进行应用的重新配置和重启,获取所述标记为资源不足的容器编排框架的当前的物理机器资源配置数据后记录于所述框架记录节点中,包括步骤S501~:
S501、接收所述执行者的包含扩容作业结束信号的反馈信息。
S502、连接所述存储单元后,从所述应用记录节点中读取所述标记为资源不足的容器编排框架中的每一个应用所占用的物理机器资源占用数据的距离当前时间最近的一次记录。
S503、根据所述物理机器资源占用数据配置对应的应用,在配置完成后对所述应用进行重启。
具体的,在扩容结束后,通过获取扩容前备份的数据对各个应用进行重启。其中,扩容结束信号可由执行者在扩容作业结束后,根据预先设置的输入界面提供。其中,从记录节点中提取数据时需判断离当前提取时间最近一次记录的时间,根据该时间提取的记录为本次作业前的扩容前备份数据。
S504、连接所述容器编排框架的管理控制台,获取所述容器编排框架的当前的物理机器资源配置数据,将获取的数据按获取时间记录在所述框架记录节点中。
具体的,在扩容后的应用恢复后,通过连接容器编排框架的管理控制台,获取物理机器资源配置数据的当前数据,并将该数据记录到框架记录节点中生成新的数据记录,在这一记录前记录的,是扩容前,未分配给该容器编排框架新硬件资源前的硬件资源分配情况。根据框架记录节点中的这一物理机器资源配置数据,配合应用的恢复情况可分析出业务发展和硬件增长趋势之间的联系。
本实施例,通过调用扩容前的应用配置情况的备份数据,可迅速在扩容结束后恢复应用运行,同时,通过记录扩容前后的容器编排框架的硬件变化数据,可为业务分析的职能部门提供数据分析基础。
在其中一些实施例中,所述获取容器云平台下的容器编排框架部署情况后生成框架列表之后,包括:
根据所述框架列表中的记录顺序,逐一连接每一个所述容器编排框架的管理控制台。对连接成功的容器编排框架,在所述记录序号后追加成功标记后生成新的记录序号。对连接失败的容器编排框架,在所述记录序号后追加失败标记后生成新的记录序号。
具体的,为了对框架列表中的容器编排框架的记录顺序进行筛选,提高连接访问的精度,可预先根据列表顺序对各个容器编排框架进行逐一连接确认,并根据连接情况生成对应的标记,将标记附加到容器编排框架的记录序号后,生成新的记录序号,从而使后续步骤直接从记录序号中识别出当前的连接状态,可跳过执行当前的连接流程。同时,通过追加了标记,可保留完整的框架列表,可在执行完当前对所有标记连接成功的容器编排框架的扩容判断后,再回过头来执行连接失败的容器编排框架的再连接,避免在生成新的记录序号的过程中,由于某些容器编排框架正在扩容而导致判断失真。
在其中一些实施例中,所述根据记录顺序从所述框架列表中按预设的获取周期逐一获取每一个容器编排框架中的各个应用的运行状态信息,将获取的运行状态信息记录在预设的存储单元内之前,包括:
对所述容器编排框架的记录序号的识别,当所述记录序号中包含成功标记后,执行读取所述容器编排框架中的应用的运行状态信息的操作,当所述记录序号中包含失败标记时,不执行读取所述容器编排框架中的应用的运行状态信息的操作。
具体的,通过识别新的记录序号,可有效避开部分有问题的容器编排框架,提高连接定位的精准性,从而提高扩容判断作业的效率。
在其中一些实施例中,本发明提供了一种基于容器云的***资源监控装置,如图7所示,包括列表生成模块、应用状态获取模块、报警信息推送模块、数据记录模块、应用重启模块、扩容报告生成模块,其中:
列表生成模块11,设置为获取容器云平台下的容器编排框架部署情况后生成框架列表;
应用状态获取模块12,设置为根据记录顺序从所述框架列表中按预设的获取周期逐一获取每一个容器编排框架中的各个应用的运行状态信息,将获取的运行状态信息记录在预设的存储单元内;
报警信息推送模块13,设置为当任一所述应用的运行状态信息在预设的判断时间阈值范围内持续为等待状态,标记所述容器编排框架资源不足,生成报警信息后推送给执行扩容操作的执行者;
数据记录模块14,设置为获取标记为资源不足的容器编排框架的物理机器资源配置数据和运行于所述容器编排框架中的任一应用所占用的物理机器资源占用数据,将两类数据记录在对应的记录节点中;
应用重启模块15,设置为接收所述执行者反馈的扩容作业结束信号后,从所述存储单元中调取在前记录的所述标记为资源不足的容器编排框架中的每一个应用所占用的物理机器资源占用数据后进行应用的重新配置和重启,获取所述标记为资源不足的容器编排框架的当前的物理机器资源配置数据后记录于所述框架记录节点中;
扩容报告生成模块16,设置为汇总所述框架记录节点和所述应用记录节点的记录数据后生成扩容报告。
在其中一些实施例中,本发明提出了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现上述基于容器云的***资源监控方法的步骤。
在其中一些实施例中,本发明提出了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,实现上述基于容器云的***资源监控方法的步骤,其中,所述存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请一些示例性实施例,其中描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于容器云的***资源监控方法,其特征在于,包括:
获取容器云平台下的容器编排框架部署情况后生成框架列表,所述框架列表中记录所有部署在所述容器云平台下的容器编排框架;
根据记录顺序从所述框架列表中按预设的获取周期逐一获取每一个容器编排框架中的各个应用的运行状态信息,将获取的运行状态信息记录在预设的存储单元内,所述存储单元内设有用于记录每个容器编排框架的物理机器资源配置数据的框架记录节点和用于记录每个应用的运行状态信息、物理机器资源占用数据的应用记录节点,所述运行状态信息用于标识应用在其所在容器编排框架中的运行状态;
当任一所述应用的运行状态信息在预设的判断时间阈值范围内持续为等待状态,则标记所述容器编排框架资源不足,此时,生成报警信息后推送给执行扩容操作的执行者后,便于通知其执行容器编排框架的扩容作业;
获取标记为资源不足的容器编排框架的物理机器资源配置数据和运行于所述容器编排框架中的任一应用所占用的物理机器资源占用数据,将两类数据记录在对应的记录节点中;
接收所述执行者反馈的扩容作业结束信号后,从所述存储单元中调取在前记录的所述标记为资源不足的容器编排框架中的每一个应用所占用的物理机器资源占用数据后进行应用的重新配置和重启,获取所述标记为资源不足的容器编排框架的当前的物理机器资源配置数据后记录于所述框架记录节点中;
汇总所述框架记录节点和所述应用记录节点的记录数据后生成扩容报告。
2.根据权利要求1所述的基于容器云的***资源监控方法,其特征在于,所述获取容器云平台下的容器编排框架部署情况后生成框架列表,所述框架列表中记录所有部署在所述容器云平台下的容器编排框架,包括:
连接所述容器云平台的管理控制台;
向所述容器云平台的管理控制台发送用于获取运行于所述容器云平台上的容器编排框架的情况的数据请求;
接收所述管理控制台的反馈后生成所述框架列表,所述框架列表中按反馈的时间顺序记录所有运行于所述容器云平台上的容器编排框架;
为所述框架列表中的每一个所述容器编排框架按照记录时间生成记录序号,所述记录序号为容器编排框架在容器云平台中的识别序号,用于区分不同的容器编排框架。
3.根据权利要求2所述的基于容器云的***资源监控方法,其特征在于,所述根据记录顺序从所述框架列表中按预设的获取周期逐一获取每一个容器编排框架中的各个应用的运行状态信息,将获取的运行状态信息记录在预设的存储单元内,包括:
为所述框架列表中的每个容器编排框架生成监控节点,所述监控节点用于在设定周期内连接容器编排框架的管理控制台后获取运行其上的各个应用的运行状态信息;
根据所述框架列表中的容器编排框架的记录序号,为每个所述容器编排框架上的应用在所述存储单元中生成对应的应用记录节点,所述应用记录节点用于记录所述监控节点获取的运行于容器编排框架上的各个应用的运行状态信息;
通过所述监控节点,按照设定的监测周期连接所述容器编排框架的管理控制台后,请求获取所有运行于所述容器编排框架上的应用的运行状态信息;
接收所述容器编排框架的管理控制台的反馈后,将应用的运行状态信息按接收到反馈的时间记录于所述应用记录节点内。
4.根据权利要求1或3所述的基于容器云的***资源监控方法,其特征在于,所述当任一所述应用的运行状态信息在预设的判断时间阈值范围内持续为等待状态,则标记所述容器编排框架资源不足,此时,生成报警信息后推送给执行扩容操作的执行者后,便于通知其执行容器编排框架的扩容作业,包括:
读取所述应用记录节点中的任一应用的运行状态信息;
判断所述应用在所述判断时间阈值范围内的运行状态信息是否持续为等待状态,如果是,则标记所述容器编排框架的状态为资源不足,如果否,则标记所述容器编排框架的状态为运行正常,所述判断时间阈值范围为预先设置的一段时长;
按上述步骤遍历所述框架列表中的所有的容器编排框架下的所有应用,标记所有的容器编排框架的状态;
调用邮件模板后生成报警邮件,在所述报警邮件中记录所述标记为资源不足的容器编排框架的记录序号和标识资源不足的提示信息;
从预设的收信人地址列表中读取所述执行者的邮件地址后将所述报警邮件推送给所述执行者。
5.根据权利要求1所述的基于容器云的***资源监控方法,其特征在于,所述获取标记为资源不足的容器编排框架的物理机器资源配置数据和运行于所述容器编排框架中的任一应用所占用的物理机器资源占用数据,将两类数据记录在对应的记录节点中,包括:
连接所述标记为资源不足的容器编排框架的管理控制台;
向所述管理控制台发送数据请求,用于获取所述容器编排框架的物理机器资源配置数据和运行于所述容器编排框架中的任一应用所占用的物理机器资源占用数据;
接收所述管理控制台的反馈后,按收到反馈的时间,将物理机器资源配置数据记录于所述框架记录节点、将物理机器资源占用数据记录至应用记录节点。
6.根据权利要求1所述的基于容器云的***资源监控方法,其特征在于,所述接收所述执行者反馈的扩容作业结束信号后,从所述存储单元中调取在前记录的所述标记为资源不足的容器编排框架中的每一个应用所占用的物理机器资源占用数据后进行应用的重新配置和重启,获取所述标记为资源不足的容器编排框架的当前的物理机器资源配置数据后记录于所述框架记录节点中,包括:
接收所述执行者的包含扩容作业结束信号的反馈信息;
连接所述存储单元后,从所述应用记录节点中读取所述标记为资源不足的容器编排框架中的每一个应用所占用的物理机器资源占用数据的距离当前时间最近的一次记录;
根据所述物理机器资源占用数据配置对应的应用,在配置完成后对所述应用进行重启;
连接所述容器编排框架的管理控制台,获取所述容器编排框架的当前的物理机器资源配置数据,将获取的数据按获取时间记录在所述框架记录节点中。
7.根据权利要求2所述的基于容器云的***资源监控方法,其特征在于,所述获取容器云平台下的容器编排框架部署情况后生成框架列表之后,包括:
根据所述框架列表中的记录顺序,逐一连接每一个所述容器编排框架的管理控制台;
对连接成功的容器编排框架,在所述记录序号后追加成功标记后生成新的记录序号;
对连接失败的容器编排框架,在所述记录序号后追加失败标记后生成新的记录序号;
所述根据记录顺序从所述框架列表中按预设的获取周期逐一获取每一个容器编排框架中的各个应用的运行状态信息,将获取的运行状态信息记录在预设的存储单元内之前,包括对所述容器编排框架的记录序号的识别,当所述记录序号中包含成功标记后,执行读取所述容器编排框架中的应用的运行状态信息的操作,当所述记录序号中包含失败标记时,不执行读取所述容器编排框架中的应用的运行状态信息的操作。
8.一种基于容器云的***资源监控装置,其特征在于,包括:
列表生成模块,设置为获取容器云平台下的容器编排框架部署情况后生成框架列表;
应用状态获取模块,设置为根据记录顺序从所述框架列表中按预设的获取周期逐一获取每一个容器编排框架中的各个应用的运行状态信息,将获取的运行状态信息记录在预设的存储单元内;
报警信息推送模块,设置为当任一所述应用的运行状态信息在预设的判断时间阈值范围内持续为等待状态,标记所述容器编排框架资源不足,生成报警信息后推送给执行扩容操作的执行者;
数据记录模块,设置为获取标记为资源不足的容器编排框架的物理机器资源配置数据和运行于所述容器编排框架中的任一应用所占用的物理机器资源占用数据,将两类数据记录在对应的记录节点中;
应用重启模块,设置为接收所述执行者反馈的扩容作业结束信号后,从所述存储单元中调取在前记录的所述标记为资源不足的容器编排框架中的每一个应用所占用的物理机器资源占用数据后进行应用的重新配置和重启,获取所述标记为资源不足的容器编排框架的当前的物理机器资源配置数据后记录于框架记录节点中;
扩容报告生成模块,设置为汇总所述框架记录节点和应用记录节点的记录数据后生成扩容报告。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,其特征在于,所述计算机可读指令被所述处理器执行时,实现如权利要求1至7中任意一项所述的基于容器云的***资源监控方法。
10.一种计算机可读存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被一个或多个处理器执行时,实现如权利要求1至7中任意一项所述的基于容器云的***资源监控方法。
CN201910515745.4A 2019-06-14 2019-06-14 基于容器云的***资源监控方法及相关设备 Active CN110311831B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910515745.4A CN110311831B (zh) 2019-06-14 2019-06-14 基于容器云的***资源监控方法及相关设备
PCT/CN2019/118670 WO2020248507A1 (zh) 2019-06-14 2019-11-15 基于容器云的***资源监控方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910515745.4A CN110311831B (zh) 2019-06-14 2019-06-14 基于容器云的***资源监控方法及相关设备

Publications (2)

Publication Number Publication Date
CN110311831A CN110311831A (zh) 2019-10-08
CN110311831B true CN110311831B (zh) 2022-03-25

Family

ID=68077167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910515745.4A Active CN110311831B (zh) 2019-06-14 2019-06-14 基于容器云的***资源监控方法及相关设备

Country Status (2)

Country Link
CN (1) CN110311831B (zh)
WO (1) WO2020248507A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110311831B (zh) * 2019-06-14 2022-03-25 平安科技(深圳)有限公司 基于容器云的***资源监控方法及相关设备
CN110874291B (zh) * 2019-10-31 2022-10-21 北京中科云脑智能技术有限公司 一种异常容器实时检测方法
CN110768850A (zh) * 2019-11-12 2020-02-07 国家电网有限公司 基于电力***的通讯扩容处理方法及装置
CN111245900B (zh) * 2019-12-31 2021-09-14 北京健康之家科技有限公司 一种分布式消息发送的处理***及其处理方法
CN111277460B (zh) * 2020-01-17 2022-02-25 江苏满运软件科技有限公司 一种ZooKeeper容器化控制的方法、装置、存储介质及电子设备
CN113485788B (zh) * 2021-06-30 2023-08-29 中国民航信息网络股份有限公司 容器资源的分配方法、装置、服务器及计算机存储介质
CN113626288B (zh) * 2021-08-12 2023-08-25 杭州朗和科技有限公司 故障处理方法、***、装置、存储介质和电子设备
CN113791954B (zh) * 2021-09-17 2023-09-22 上海道客网络科技有限公司 容器裸金属服务器及其物理环境风险的应对方法、***
CN114039974B (zh) * 2021-10-20 2024-05-31 支付宝(杭州)信息技术有限公司 向用户提供设备服务的方法、装置、存储介质及电子设备
CN117369981A (zh) * 2022-06-30 2024-01-09 中兴通讯股份有限公司 基于监控器的容器调整方法、设备及存储介质
CN115525425B (zh) * 2022-09-16 2024-05-14 中国电信股份有限公司 基于云原生技术的联邦学习计算引擎编排方法及其设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017161984A1 (zh) * 2016-03-24 2017-09-28 中兴通讯股份有限公司 数据集群的部署方法、装置、***及计算机存储介质
CN109495398A (zh) * 2017-09-11 2019-03-19 ***通信集团浙江有限公司 一种容器云的资源调度方法及设备
CN109491776A (zh) * 2018-11-06 2019-03-19 北京百度网讯科技有限公司 任务编排方法和***
CN109586999A (zh) * 2018-11-12 2019-04-05 深圳先进技术研究院 一种容器云平台状态监控预警***、方法及电子设备
CN109756366A (zh) * 2018-12-24 2019-05-14 上海欣方智能***有限公司 基于caas的智能网scp云服务实现***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016155816A1 (en) * 2015-04-01 2016-10-06 Telefonaktiebolaget Lm Ericsson (Publ) Methods and devices for monitoring of network performance for container virtualization
CN108243012B (zh) * 2016-12-26 2021-02-09 ***通信集团上海有限公司 在线计费***ocs中计费应用处理***、方法及装置
US10171377B2 (en) * 2017-04-18 2019-01-01 International Business Machines Corporation Orchestrating computing resources between different computing environments
US10572320B2 (en) * 2017-12-01 2020-02-25 International Business Machines Corporation Detecting co-resident services in a container cloud
CN109348235A (zh) * 2018-11-01 2019-02-15 北京京航计算通讯研究所 基于私有云的视频点播方法
CN110311831B (zh) * 2019-06-14 2022-03-25 平安科技(深圳)有限公司 基于容器云的***资源监控方法及相关设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017161984A1 (zh) * 2016-03-24 2017-09-28 中兴通讯股份有限公司 数据集群的部署方法、装置、***及计算机存储介质
CN109495398A (zh) * 2017-09-11 2019-03-19 ***通信集团浙江有限公司 一种容器云的资源调度方法及设备
CN109491776A (zh) * 2018-11-06 2019-03-19 北京百度网讯科技有限公司 任务编排方法和***
CN109586999A (zh) * 2018-11-12 2019-04-05 深圳先进技术研究院 一种容器云平台状态监控预警***、方法及电子设备
CN109756366A (zh) * 2018-12-24 2019-05-14 上海欣方智能***有限公司 基于caas的智能网scp云服务实现***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于容器云的深度学习平台设计与实现";朱天放 等;《电子设计工程》;20190505;第27卷(第9期);第21-25页 *

Also Published As

Publication number Publication date
CN110311831A (zh) 2019-10-08
WO2020248507A1 (zh) 2020-12-17

Similar Documents

Publication Publication Date Title
CN110311831B (zh) 基于容器云的***资源监控方法及相关设备
CN108039964B (zh) 基于网络功能虚拟化的故障处理方法及装置、***
US10817386B2 (en) Virtual machine recovery method and virtual machine management device
CN108959385B (zh) 数据库部署方法、装置、计算机设备和存储介质
CN107666493B (zh) 一种数据库配置方法及其设备
CN105824846B (zh) 数据迁移方法及装置
CN105095103A (zh) 用于云环境下的存储设备管理方法和装置
CN111061432A (zh) 一种业务迁移方法、装置、设备及可读存储介质
CN110399171A (zh) 一种硬盘管理方法、***及相关组件
CN108140035B (zh) 分布式***的数据库复制方法及装置
CN111526038B (zh) 业务请求分发方法、装置、计算机设备及可读存储介质
CN108733545B (zh) 一种压力测试方法及装置
CN112181627A (zh) 定时任务调度方法、装置及***
CN109697112B (zh) 分布式集约化一站式作业***和实现方法
CN109002263B (zh) 存储容量的调整方法及装置
CN111506388B (zh) 容器性能探测方法、容器管理平台及计算机存储介质
US20090083747A1 (en) Method for managing application programs by utilizing redundancy and load balance
CN114816656A (zh) 容器组迁移方法、电子设备及存储介质
JP6394212B2 (ja) 情報処理システム、ストレージ装置及びプログラム
CN111104404A (zh) 基于分布式对象的数据存储方法及装置
CN111147554A (zh) 一种数据的存储方法、装置及计算机***
CN109995617A (zh) 主机管理特性的自动化测试方法、装置、设备及存储介质
CN109684158A (zh) 分布式协调***的状态监控方法、装置、设备及存储介质
CN116820686B (zh) 物理机的部署方法、虚拟机和容器统一监控的方法及装置
CN111767230A (zh) 一种web性能测试方法、装置及电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant