CN106776212A - 容器集群部署多进程应用的监管***及方法 - Google Patents

容器集群部署多进程应用的监管***及方法 Download PDF

Info

Publication number
CN106776212A
CN106776212A CN201611131362.XA CN201611131362A CN106776212A CN 106776212 A CN106776212 A CN 106776212A CN 201611131362 A CN201611131362 A CN 201611131362A CN 106776212 A CN106776212 A CN 106776212A
Authority
CN
China
Prior art keywords
container
monitoring
management
server
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611131362.XA
Other languages
English (en)
Other versions
CN106776212B (zh
Inventor
柏银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd filed Critical CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201611131362.XA priority Critical patent/CN106776212B/zh
Publication of CN106776212A publication Critical patent/CN106776212A/zh
Application granted granted Critical
Publication of CN106776212B publication Critical patent/CN106776212B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3017Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/483Multiproc

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种容器集群部署多进程应用的监管***及方法,该***包括管理环境模块和业务环境模块,管理环境模块和业务环境模块分别部署在不同的业务环境中或同时部署在同一个业务环境中;业务环境包括物理机环境和虚拟机环境,业务环境模块包括监控服务器、服务发现组件、和监控代理组件,管理环境模块包括管理服务器。本发明对容器的监管对象和进程进行统一监管,提供容器的自动发现能力,新部署的容器可以自动纳入监管***,已停止的容器可以自动解除监管,采集容器和容器内进程的监控信息的同时支持对容器和容器内进程的生命周期管理。

Description

容器集群部署多进程应用的监管***及方法
技术领域
本发明涉及一种监管***及方法,特别是涉及一种容器集群部署多进程应用的监管***及方法。
背景技术
容器技术是云计算的热点技术之一,当前容器技术已经在公有云、私有云、混合云场景广泛应用。容器本身是推崇单一容器跑单一进程,但是实际应用中,太多的多进程应用需要被部署到同一容器中运行。在拥有多个云应用的集群中,容器被大量创建到物理集群或者虚拟机集群中,而多数容器内应用又拥有多个进程。在现有的容器监管***中,绝大多数监管***只能监管容器本身的状态,而对部署在容器内进程不能做到有效监管。
发明内容
本发明所要解决的技术问题是提供一种容器集群部署多进程应用的监管***及方法,其对容器的监管对象和进程进行统一监管,提供容器的自动发现能力,新部署的容器可以自动纳入监管***,已停止的容器可以自动解除监管,采集容器和容器内进程的监控信息的同时支持对容器和容器内进程的生命周期管理。
本发明是通过下述技术方案来解决上述技术问题的:一种容器集群部署多进程应用的监管***,其包括管理环境模块和业务环境模块,管理环境模块和业务环境模块分别部署在不同的业务环境中或同时部署在同一个业务环境中;业务环境包括物理机环境和虚拟机环境,业务环境模块包括监控服务器、服务发现组件、和监控代理组件,管理环境模块包括管理服务器。
优选地,所述监控服务器组件部署在一个容器中,其功能包括启动或重启后和服务发现组件进行通信,获取当前可用监控代理列表;接收服务发现组件的监控代理新注册通知,刷新监控代理列表;接收各容器的监控代理组件上报的进程信息,按进程和时间要素分类整理后,保存在监控服务器的缓存***中(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群);周期性和各容器所在主机的容器守护进程进行通信,获取集群内各容器的信息,包括但不限于CPU信息、内存信息、网络信息、文件***信息,按容器和时间要素分类整理后,保存在监控服务器的缓存***中(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群);接收管理环境模块的管理服务器对某容器内特定进程下发的生命周期管理命令,转发命令给对应容器的监控代理;接收管理环境模块的管理服务器对某容器下发的生命周期管理命令,连接该容器所在主机的容器守护进程,通过容器守护进程管理该容器。
优选地,所述服务发现组件部署在一个单独容器中或和监控服务器组件部署在同一容器中,其功能包括接收监控代理的新注册消息,保存在服务发现组件的缓存***中(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群),刷新监控代理列表,并通知监控服务器;和已经注册的监控代理保持心跳连接,一旦心跳连接丢失,从监控代理列表删除该记录,并通知监控服务器;接收监控服务器查询请求,返回可用监控代理列表。
优选地,所述监控代理组件作为容器的init(开始命令)进程部署在各自单独的容器中,其功能包括容器启动后,主动向服务发现组件发送注册信息;和服务发现组件保持心跳连接;周期性采集本容器内应用各进程的信息,包括但不限于进程名称、进程状态、运行时间、CPU占用率、内存占用率,并上报进程信息给监控服务器;接收监控服务器组件下发的生命周期管理命令,对本容器内其他进程进行生命周期管理。
优选地,所述管理服务器部署在单独的管理关键中或业务容器同一集群内,其功能包括连接监控服务器,获取监控服务器采集的容器和进程信息;连接监控服务器,对集群内某容器内进程下发生命周期管理命令;连接监控服务器,对集群内某容器下发生命周期管理命令。
优选地,所述管理环境模块和业务环境模块的各组件根据业务场景均支持高可用部署。
本发明还提供一种容器集群部署多进程应用的监管方法,其包括下列步骤:
步骤一,基于多主机(物理机或者虚拟机)创建业务环境模块的容器集群,开启容器守护进程的远程通信功能;
步骤二,在容器集群中创建监控服务器和服务发现容器,监控服务器首次启动会通信接口(比如restful接口)向服务发现组件请求可用监控代理列表,服务发现容器中没有数据,则查询返回空数据;
步骤三,创建业务容器,启动监控代理并作为容器的init进程,监控代理负责采集容器内其他进程的信息,并对外部组件提供通信接口(比如restful接口)对容器内进程进行生命周期管理;
步骤四,监控代理首先通过通信接口(比如restful接口)向服务发现组件注册,包括访问地址和端口,然后通过通信接口(比如restful接口)周期性保持心跳连接,服务发现组件通过心跳连接刷新可用监控代理列表,并保存在服务发现组件的缓存***中(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群);
步骤五,服务发现组件通过通信接口(比如restful接口)向监控服务器通知监控代理注册信息,监控服务器获取到注册的监控代理访问地址和端口,通过通信接口(比如restful接口)访问监控代理,建立连接并刷新容器监控代理列表;
步骤六,监控代理周期性获取容器内所有进程的信息,包括进程名称、进程状态、运行时间、CPU占用率、内存占用率,并把采集到的信息进行整理加工,通过通信接口(比如restful接口)发送给监控服务器;
步骤七,监控服务器收到监控代理发送的进程信息,按进程和时间要素分类整理后,存入监控服务器的缓存***中(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群);
步骤八,监控服务器周期性通过通信接口(比如restful接口)连接集群内各容器所在主机的容器守护进程,调用容器管理命令采集集群内各容器的信息,包括但不限于容器id、CPU信息、内存信息、网络信息、文件***信息,按容器和时间要素分类整理后,存入监控服务器的缓存***中(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群);
步骤九,管理环境模块中管理服务器通过通信接口(比如restful接口)连接业务环境模块中监控服务器,查询监控服务器的缓存***中的容器和进程信息(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群);
步骤十,监控服务器通过通信接口(比如restful接口)接收管理环境模块中管理服务器对业务环境模块内特定容器或容器内进程下发的生命周期管理命令(比如启动、停止、重启等);
步骤十一,监控代理通过通信接口(比如restful接口)获取到对某进程的生命周期管理命令(比如启动、停止、重启等),执行命令并返回结果。
优选地,所述步骤五包括下列步骤:
步骤十二,监控服务器重启后,通过通信接口(比如restful接口)向服务发现组件请求可用监控代理列表,服务发现组件通过通信接口(比如restful接口)向监控服务器发送监控代理注册信息,监控服务器获取到注册的监控代理访问地址和端口,通过通信接口(比如restful接口)访问监控代理,建立连接并刷新容器监控代理列表;
步骤十三,服务发现组件检测到监控代理的心跳消息丢失超过预设的时间周期(比如3个时间周期),触发代理丢失事件,刷新服务发现组件的缓存***(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群),并发送通知消息到监控服务器;监控服务器接收到代理丢失事件,删除该代理并刷新容器监控代理列表。
优选地,所述步骤十包括下列步骤:
步骤十四,监控服务器通过通信接口(比如restful接口)接收到对某容器的生命管理命令(比如启动、停止、重启等),通过通信接口(比如restful接口)连接该容器所在主机的容器守护进程,执行命令并返回结果;
步骤十五,监控服务器通过通信接口(比如restful接口)接收到对某容器内进程的生命周期管理命令(比如启动、停止、重启等),通过通信接口(比如restful接口)转发到对应容器的监控代理。
本发明的积极进步效果在于:本发明对容器的监管对象和进程进行统一监管,提供容器的自动发现能力,新部署的容器可以自动纳入监管***,已停止的容器可以自动解除监管,采集容器和容器内进程的监控信息的同时支持对容器和容器内进程的生命周期管理。
附图说明
图1为本发明的***模块图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
如图1所示,本发明容器集群部署多进程应用的监管***包括管理环境模块和业务环境模块,管理环境模块和业务环境模块分别部署在不同的业务环境中或同时部署在同一个业务环境中;业务环境包括物理机环境和虚拟机环境,业务环境模块包括监控服务器、服务发现组件、和监控代理组件,管理环境模块包括管理服务器。
监控服务器组件部署在一个容器中,其功能包括启动或重启后和服务发现组件进行通信,获取当前可用监控代理列表;接收服务发现组件的监控代理新注册通知,刷新监控代理列表;接收各容器的监控代理组件上报的进程信息,按进程和时间要素分类整理后,保存在监控服务器的缓存***中(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群);周期性和各容器所在主机的容器守护进程进行通信,获取集群内各容器的信息,包括但不限于CPU信息、内存信息、网络信息、文件***信息,按容器和时间要素分类整理后,保存在监控服务器的缓存***中(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群);接收管理环境模块的管理服务器对某容器内特定进程下发的生命周期管理命令,转发命令给对应容器的监控代理;接收管理环境模块的管理服务器对某容器下发的生命周期管理命令,连接该容器所在主机的容器守护进程,通过容器守护进程管理该容器。
服务发现组件部署在一个单独容器中或和监控服务器组件部署在同一容器中,其功能包括接收监控代理的新注册消息,保存在服务发现组件的缓存***中(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群),刷新监控代理列表,并通知监控服务器;和已经注册的监控代理保持心跳连接,一旦心跳连接丢失,从监控代理列表删除该记录,并通知监控服务器;接收监控服务器查询请求,返回可用监控代理列表。
监控代理组件作为容器的init(开始命令)进程部署在各自单独的容器中,其功能包括容器启动后,主动向服务发现组件发送注册信息;和服务发现组件保持心跳连接;周期性采集本容器内应用各进程的信息,包括但不限于进程名称、进程状态、运行时间、CPU占用率、内存占用率,并上报进程信息给监控服务器;接收监控服务器组件下发的生命周期管理命令,对本容器内其他进程进行生命周期管理。
管理服务器部署在单独的管理关键中或在业务容器同一集群内,其功能包括连接监控服务器,获取监控服务器采集的容器和进程信息;连接监控服务器,对集群内某容器内进程下发生命周期管理命令;连接监控服务器,对集群内某容器下发生命周期管理命令。
管理环境模块和业务环境模块的各组件根据业务场景均支持高可用部署。
本发明容器集群部署多进程应用的监管方法包括下列步骤:
步骤一,基于多主机(物理机或者虚拟机)创建业务环境模块的容器集群,开启容器守护进程的远程通信功能;
步骤二,在容器集群中创建监控服务器和服务发现容器,监控服务器首次启动会通信接口(比如restful接口)向服务发现组件请求可用监控代理列表,服务发现容器中没有数据,则查询返回空数据;
步骤三,创建业务容器,启动监控代理并作为容器的init进程,监控代理负责采集容器内其他进程的信息,并对外部组件提供通信接口(比如restful接口)对容器内进程进行生命周期管理;
步骤四,监控代理首先通过通信接口(比如restful接口)向服务发现组件注册,包括访问地址和端口,然后通过通信接口(比如restful接口)周期性保持心跳连接,服务发现组件通过心跳连接刷新可用监控代理列表,并保存在服务发现组件的缓存***中(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群);
步骤五,服务发现组件通过通信接口(比如restful接口)向监控服务器通知监控代理注册信息,监控服务器获取到注册的监控代理访问地址和端口,通过通信接口(比如restful接口)访问监控代理,建立连接并刷新容器监控代理列表;
步骤六,监控代理周期性获取容器内所有进程的信息,包括进程名称、进程状态、运行时间、CPU占用率、内存占用率,并把采集到的信息进行整理加工,通过通信接口(比如restful接口)发送给监控服务器;
步骤七,监控服务器收到监控代理发送的进程信息,按进程和时间要素分类整理后,存入监控服务器的缓存***中(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群);
步骤八,监控服务器周期性通过通信接口(比如restful接口)连接集群内各容器所在主机的容器守护进程,调用容器管理命令采集集群内各容器的信息,包括但不限于容器id、CPU信息、内存信息、网络信息、文件***信息,按容器和时间要素分类整理后,存入监控服务器的缓存***中(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群);
步骤九,管理环境模块中管理服务器通过通信接口(比如restful接口)连接业务环境模块中监控服务器,查询监控服务器的缓存***中的容器和进程信息(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群);
步骤十,监控服务器通过通信接口(比如restful接口)接收管理环境模块中管理服务器对业务环境模块内特定容器或容器内进程下发的生命周期管理命令(比如启动、停止、重启等);
步骤十一,监控代理通过通信接口(比如restful接口)获取到对某进程的生命周期管理命令(比如启动、停止、重启等),执行命令并返回结果。
步骤五包括下列步骤:
步骤十二,监控服务器重启后,通过通信接口(比如restful接口)向服务发现组件请求可用监控代理列表,服务发现组件通过通信接口(比如restful接口)向监控服务器发送监控代理注册信息,监控服务器获取到注册的监控代理访问地址和端口,通过通信接口(比如restful接口)访问监控代理,建立连接并刷新容器监控代理列表;
步骤十三,服务发现组件检测到监控代理的心跳消息丢失超过预设的时间周期(比如3个时间周期),触发代理丢失事件,刷新服务发现组件的缓存***(缓存***可以是本地缓存***,也可以是分布式缓存集群***,比如Redis集群),并发送通知消息到监控服务器;监控服务器接收到代理丢失事件,删除该代理并刷新容器监控代理列表。
步骤十包括下列步骤:
步骤十四,监控服务器通过通信接口(比如restful接口)接收到对某容器的生命管理命令(比如启动、停止、重启等),通过通信接口(比如restful接口)连接该容器所在主机的容器守护进程,执行命令并返回结果;
步骤十五,监控服务器通过通信接口(比如restful接口)接收到对某容器内进程的生命周期管理命令(比如启动、停止、重启等),通过通信接口(比如restful接口)转发到对应容器的监控代理。
综上所述,本发明对容器的监管对象和进程进行统一监管,提供容器的自动发现能力,新部署的容器可以自动纳入监管***,已停止的容器可以自动解除监管,采集容器和容器内进程的监控信息的同时支持对容器和容器内进程的生命周期管理(比如启动、停止、重启等)。
以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种容器集群部署多进程应用的监管***,其特征在于,其包括管理环境模块和业务环境模块,管理环境模块和业务环境模块分别部署在不同的业务环境中或同时部署在同一个业务环境中;业务环境包括物理机环境和虚拟机环境,业务环境模块包括监控服务器、服务发现组件、和监控代理组件,管理环境模块包括管理服务器。
2.如权利要求1所述的容器集群部署多进程应用的监管***,其特征在于,所述监控服务器组件部署在一个容器中,其功能包括启动或重启后和服务发现组件进行通信,获取当前可用监控代理列表;接收服务发现组件的监控代理新注册通知,刷新监控代理列表;接收各容器的监控代理组件上报的进程信息,按进程和时间要素分类整理后,保存在监控服务器的缓存***中;周期性和各容器所在主机的容器守护进程进行通信,获取集群内各容器的信息,包括但不限于CPU信息、内存信息、网络信息、文件***信息,按容器和时间要素分类整理后,保存在监控服务器的缓存***中;接收管理环境模块的管理服务器对某容器内特定进程下发的生命周期管理命令,转发命令给对应容器的监控代理;接收管理环境模块的管理服务器对某容器下发的生命周期管理命令,连接该容器所在主机的容器守护进程,通过容器守护进程管理该容器。
3.如权利要求1所述的容器集群部署多进程应用的监管***,其特征在于,所述服务发现组件部署在一个单独容器中或和监控服务器组件部署在同一容器中,其功能包括接收监控代理的新注册消息,保存在服务发现组件的缓存***中,刷新监控代理列表,并通知监控服务器;和已经注册的监控代理保持心跳连接,一旦心跳连接丢失,从监控代理列表删除该记录,并通知监控服务器;接收监控服务器查询请求,返回可用监控代理列表。
4.如权利要求1所述的容器集群部署多进程应用的监管***,其特征在于,所述监控代理组件作为容器的init进程部署在各自单独的容器中,其功能包括容器启动后,主动向服务发现组件发送注册信息;和服务发现组件保持心跳连接;周期性采集本容器内应用各进程的信息,包括但不限于进程名称、进程状态、运行时间、CPU占用率、内存占用率,并上报进程信息给监控服务器;接收监控服务器组件下发的生命周期管理命令,对本容器内其他进程进行生命周期管理。
5.如权利要求1所述的容器集群部署多进程应用的监管***,其特征在于,所述管理服务器部署在单独的管理关键中或业务容器同一集群内,其功能包括连接监控服务器,获取监控服务器采集的容器和进程信息;连接监控服务器,对集群内某容器内进程下发生命周期管理命令;连接监控服务器,对集群内某容器下发生命周期管理命令。
6.如权利要求1所述的容器集群部署多进程应用的监管***,其特征在于,所述管理环境模块和业务环境模块的各组件根据业务场景均支持高可用部署。
7.一种容器集群部署多进程应用的监管方法,其特征在于,其包括以下步骤:
步骤一,基于多主机创建业务环境模块的容器集群,开启容器守护进程的远程通信功能;
步骤二,在容器集群中创建监控服务器和服务发现容器,监控服务器首次启动会通信接口向服务发现组件请求可用监控代理列表,服务发现容器中没有数据,则查询返回空数据;
步骤三,创建业务容器,启动监控代理并作为容器的init进程,监控代理负责采集容器内其他进程的信息,并对外部组件提供通信接口对容器内进程进行生命周期管理;
步骤四,监控代理首先通过通信接口向服务发现组件注册,包括访问地址和端口,然后通过通信接口周期性保持心跳连接,服务发现组件通过心跳连接刷新可用监控代理列表,并保存在服务发现组件的缓存***中;
步骤五,服务发现组件通过通信接口向监控服务器通知监控代理注册信息,监控服务器获取到注册的监控代理访问地址和端口,通过通信接口访问监控代理,建立连接并刷新容器监控代理列表;
步骤六,监控代理周期性获取容器内所有进程的信息,包括进程名称、进程状态、运行时间、CPU占用率、内存占用率,并把采集到的信息进行整理加工,通过通信接口发送给监控服务器;
步骤七,监控服务器收到监控代理发送的进程信息,按进程和时间要素分类整理后,存入监控服务器的缓存***中;
步骤八,监控服务器周期性通过通信接口连接集群内各容器所在主机的容器守护进程,调用容器管理命令采集集群内各容器的信息,包括但不限于容器id、CPU信息、内存信息、网络信息、文件***信息,按容器和时间要素分类整理后,存入监控服务器的缓存***中;
步骤九,管理环境模块中管理服务器通过通信接口连接业务环境模块中监控服务器,查询监控服务器的缓存***中的容器和进程信息;
步骤十,监控服务器通过通信接口接收管理环境模块中管理服务器对业务环境模块内特定容器或容器内进程下发的生命周期管理命令;
步骤十一,监控代理通过通信接口获取到对某进程的生命周期管理命令,执行命令并返回结果。
8.如权利要求7所述的容器集群部署多进程应用的监管方法,其特征在于,所述步骤五包括下列步骤:
步骤十二,监控服务器重启后,通过通信接口向服务发现组件请求可用监控代理列表,服务发现组件通过通信接口向监控服务器发送监控代理注册信息,监控服务器获取到注册的监控代理访问地址和端口,通过通信接口访问监控代理,建立连接并刷新容器监控代理列表;
步骤十三,服务发现组件检测到监控代理的心跳消息丢失超过预设的时间周期,触发代理丢失事件,刷新服务发现组件的缓存***,并发送通知消息到监控服务器;监控服务器接收到代理丢失事件,删除该代理并刷新容器监控代理列表。
9.如权利要求7所述的容器集群部署多进程应用的监管方法,其特征在于,所述步骤十包括下列步骤:
步骤十四,监控服务器通过通信接口接收到对某容器的生命管理命令,通过通信接口连接该容器所在主机的容器守护进程,执行命令并返回结果;
步骤十五,监控服务器通过通信接口接收到对某容器内进程的生命周期管理命令,通过通信接口转发到对应容器的监控代理。
CN201611131362.XA 2016-12-09 2016-12-09 容器集群部署多进程应用的监管***及方法 Expired - Fee Related CN106776212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611131362.XA CN106776212B (zh) 2016-12-09 2016-12-09 容器集群部署多进程应用的监管***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611131362.XA CN106776212B (zh) 2016-12-09 2016-12-09 容器集群部署多进程应用的监管***及方法

Publications (2)

Publication Number Publication Date
CN106776212A true CN106776212A (zh) 2017-05-31
CN106776212B CN106776212B (zh) 2020-02-25

Family

ID=58879689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611131362.XA Expired - Fee Related CN106776212B (zh) 2016-12-09 2016-12-09 容器集群部署多进程应用的监管***及方法

Country Status (1)

Country Link
CN (1) CN106776212B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194017A (zh) * 2017-07-28 2017-09-22 四川思途智旅软件有限公司 一种用于单服务器上多网站数据采集的***和方法
CN107508722A (zh) * 2017-08-01 2017-12-22 北京德塔精要信息技术有限公司 一种业务监控方法和装置
CN107528751A (zh) * 2017-09-30 2017-12-29 南京卓盛云信息科技有限公司 一种动态分发Zabbix监控数据的***及其管理方法
CN107689953A (zh) * 2017-08-18 2018-02-13 中国科学院信息工程研究所 一种面向多租户云计算的容器安全监控方法及***
CN107896191A (zh) * 2017-11-27 2018-04-10 深信服科技股份有限公司 一种基于容器的虚拟安全组件跨云***及方法
CN107911410A (zh) * 2017-10-17 2018-04-13 珠海金山网络游戏科技有限公司 分布式服务进程资源耗用统计方法和装置
CN108228313A (zh) * 2017-11-30 2018-06-29 中国联合网络通信集团有限公司 下游容器的发现方法及装置
CN108280012A (zh) * 2018-01-25 2018-07-13 郑州云海信息技术有限公司 一种监控服务器***进程的方法及装置
CN108563515A (zh) * 2018-03-14 2018-09-21 ***股份有限公司 一种业务进程管理方法和***
CN108874624A (zh) * 2018-05-31 2018-11-23 康键信息技术(深圳)有限公司 服务器、监控Java进程的方法及存储介质
CN108924217A (zh) * 2018-06-29 2018-11-30 中山大学 一种分布式云***自动化部署方法
CN109240809A (zh) * 2017-07-11 2019-01-18 阿里巴巴集团控股有限公司 进程维护管理方法、容器维护方法、装置和操作***
CN109408210A (zh) * 2018-09-27 2019-03-01 北京车和家信息技术有限公司 分布式定时任务管理方法及***
CN109597626A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 一种组件部署方法和装置
CN109697078A (zh) * 2018-12-10 2019-04-30 中国联合网络通信集团有限公司 非高可用性组件的修复方法、大数据集群和容器服务平台
CN109889480A (zh) * 2018-12-25 2019-06-14 武汉烽火信息集成技术有限公司 基于容器和云平台的全国产化融合云平台管理方法及***
CN110365762A (zh) * 2019-07-10 2019-10-22 腾讯科技(深圳)有限公司 服务处理方法、装置、设备及存储介质
CN110752939A (zh) * 2018-07-24 2020-02-04 成都华为技术有限公司 一种业务进程故障处理方法、通知方法和装置
CN111279319A (zh) * 2017-09-30 2020-06-12 甲骨文国际公司 容器组的动态迁移
CN111552541A (zh) * 2020-04-30 2020-08-18 北京思特奇信息技术股份有限公司 通过命令桥工厂实现调度的方法、***及计算机存储介质
CN111970240A (zh) * 2020-07-10 2020-11-20 北京金山云网络技术有限公司 集群纳管方法、装置及电子设备
CN112068977A (zh) * 2020-08-21 2020-12-11 苏州浪潮智能科技有限公司 一种面向大数据集群的进程守护方法和装置
CN112346817A (zh) * 2020-10-20 2021-02-09 北京健康之家科技有限公司 容器启动方法、装置、存储介质及计算机设备
CN112835766A (zh) * 2021-02-10 2021-05-25 杭州橙鹰数据技术有限公司 应用监控方法及装置
CN113296927A (zh) * 2020-06-09 2021-08-24 阿里巴巴集团控股有限公司 服务网格实例的构建方法、服务网格***以及多集群***
CN113656241A (zh) * 2021-07-20 2021-11-16 国网天津市电力公司 一种容器终端全生命周期管控***及方法
WO2021232842A1 (zh) * 2020-05-22 2021-11-25 国云科技股份有限公司 一种获取Docker容器内虚拟机监控数据的方法及装置
CN113806181A (zh) * 2021-09-24 2021-12-17 重庆富民银行股份有限公司 一种Redis多集群自动监控方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847116A (zh) * 2010-05-05 2010-09-29 中兴通讯股份有限公司 一种基于j2ee架构的监控***和方法
US20110082846A1 (en) * 2009-10-07 2011-04-07 International Business Machines Corporation Selective processing of location-sensitive data streams
CN105389243A (zh) * 2015-10-26 2016-03-09 华为技术有限公司 一种容器监控方法和装置
CN105893205A (zh) * 2015-11-20 2016-08-24 乐视云计算有限公司 监控基于docker创建的container的方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110082846A1 (en) * 2009-10-07 2011-04-07 International Business Machines Corporation Selective processing of location-sensitive data streams
CN101847116A (zh) * 2010-05-05 2010-09-29 中兴通讯股份有限公司 一种基于j2ee架构的监控***和方法
CN105389243A (zh) * 2015-10-26 2016-03-09 华为技术有限公司 一种容器监控方法和装置
CN105893205A (zh) * 2015-11-20 2016-08-24 乐视云计算有限公司 监控基于docker创建的container的方法及***

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109240809A (zh) * 2017-07-11 2019-01-18 阿里巴巴集团控股有限公司 进程维护管理方法、容器维护方法、装置和操作***
CN107194017A (zh) * 2017-07-28 2017-09-22 四川思途智旅软件有限公司 一种用于单服务器上多网站数据采集的***和方法
CN107508722A (zh) * 2017-08-01 2017-12-22 北京德塔精要信息技术有限公司 一种业务监控方法和装置
CN107689953A (zh) * 2017-08-18 2018-02-13 中国科学院信息工程研究所 一种面向多租户云计算的容器安全监控方法及***
CN107689953B (zh) * 2017-08-18 2020-10-27 中国科学院信息工程研究所 一种面向多租户云计算的容器安全监控方法及***
CN109597626B (zh) * 2017-09-30 2022-02-11 北京国双科技有限公司 一种组件部署方法和装置
CN107528751B (zh) * 2017-09-30 2019-10-29 南京卓盛云信息科技有限公司 一种动态分发Zabbix监控数据的***及其管理方法
CN109597626A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 一种组件部署方法和装置
CN107528751A (zh) * 2017-09-30 2017-12-29 南京卓盛云信息科技有限公司 一种动态分发Zabbix监控数据的***及其管理方法
CN111279319A (zh) * 2017-09-30 2020-06-12 甲骨文国际公司 容器组的动态迁移
CN107911410B (zh) * 2017-10-17 2021-02-02 珠海金山网络游戏科技有限公司 分布式服务进程资源耗用统计方法和装置
CN107911410A (zh) * 2017-10-17 2018-04-13 珠海金山网络游戏科技有限公司 分布式服务进程资源耗用统计方法和装置
CN107896191B (zh) * 2017-11-27 2020-11-27 深信服科技股份有限公司 一种基于容器的虚拟安全组件跨云***及方法
CN107896191A (zh) * 2017-11-27 2018-04-10 深信服科技股份有限公司 一种基于容器的虚拟安全组件跨云***及方法
CN108228313A (zh) * 2017-11-30 2018-06-29 中国联合网络通信集团有限公司 下游容器的发现方法及装置
CN108228313B (zh) * 2017-11-30 2021-11-30 中国联合网络通信集团有限公司 下游容器的发现方法及装置
CN108280012A (zh) * 2018-01-25 2018-07-13 郑州云海信息技术有限公司 一种监控服务器***进程的方法及装置
CN108563515B (zh) * 2018-03-14 2021-08-27 ***股份有限公司 一种业务进程管理方法和***
CN108563515A (zh) * 2018-03-14 2018-09-21 ***股份有限公司 一种业务进程管理方法和***
CN108874624A (zh) * 2018-05-31 2018-11-23 康键信息技术(深圳)有限公司 服务器、监控Java进程的方法及存储介质
CN108874624B (zh) * 2018-05-31 2023-03-28 康键信息技术(深圳)有限公司 服务器、监控Java进程的方法及存储介质
CN108924217A (zh) * 2018-06-29 2018-11-30 中山大学 一种分布式云***自动化部署方法
CN110752939A (zh) * 2018-07-24 2020-02-04 成都华为技术有限公司 一种业务进程故障处理方法、通知方法和装置
CN110752939B (zh) * 2018-07-24 2022-09-16 成都华为技术有限公司 一种业务进程故障处理方法、通知方法和装置
CN109408210A (zh) * 2018-09-27 2019-03-01 北京车和家信息技术有限公司 分布式定时任务管理方法及***
CN109697078A (zh) * 2018-12-10 2019-04-30 中国联合网络通信集团有限公司 非高可用性组件的修复方法、大数据集群和容器服务平台
CN109697078B (zh) * 2018-12-10 2022-02-08 中国联合网络通信集团有限公司 非高可用性组件的修复方法、大数据集群和容器服务平台
CN109889480A (zh) * 2018-12-25 2019-06-14 武汉烽火信息集成技术有限公司 基于容器和云平台的全国产化融合云平台管理方法及***
CN110365762B (zh) * 2019-07-10 2022-03-11 腾讯科技(深圳)有限公司 服务处理方法、装置、设备及存储介质
CN110365762A (zh) * 2019-07-10 2019-10-22 腾讯科技(深圳)有限公司 服务处理方法、装置、设备及存储介质
CN111552541A (zh) * 2020-04-30 2020-08-18 北京思特奇信息技术股份有限公司 通过命令桥工厂实现调度的方法、***及计算机存储介质
CN111552541B (zh) * 2020-04-30 2023-11-10 北京思特奇信息技术股份有限公司 通过命令桥工厂实现调度的方法、***及计算机存储介质
WO2021232842A1 (zh) * 2020-05-22 2021-11-25 国云科技股份有限公司 一种获取Docker容器内虚拟机监控数据的方法及装置
CN113296927A (zh) * 2020-06-09 2021-08-24 阿里巴巴集团控股有限公司 服务网格实例的构建方法、服务网格***以及多集群***
CN111970240A (zh) * 2020-07-10 2020-11-20 北京金山云网络技术有限公司 集群纳管方法、装置及电子设备
CN112068977A (zh) * 2020-08-21 2020-12-11 苏州浪潮智能科技有限公司 一种面向大数据集群的进程守护方法和装置
CN112068977B (zh) * 2020-08-21 2023-01-06 苏州浪潮智能科技有限公司 一种面向大数据集群的进程守护方法和装置
CN112346817A (zh) * 2020-10-20 2021-02-09 北京健康之家科技有限公司 容器启动方法、装置、存储介质及计算机设备
CN112835766A (zh) * 2021-02-10 2021-05-25 杭州橙鹰数据技术有限公司 应用监控方法及装置
CN113656241A (zh) * 2021-07-20 2021-11-16 国网天津市电力公司 一种容器终端全生命周期管控***及方法
CN113656241B (zh) * 2021-07-20 2023-10-31 国网天津市电力公司 一种容器终端全生命周期管控***及方法
CN113806181A (zh) * 2021-09-24 2021-12-17 重庆富民银行股份有限公司 一种Redis多集群自动监控方法及***

Also Published As

Publication number Publication date
CN106776212B (zh) 2020-02-25

Similar Documents

Publication Publication Date Title
CN106776212A (zh) 容器集群部署多进程应用的监管***及方法
CN112511339B (zh) 基于多集群的容器监控告警方法、***、设备及存储介质
US7152104B2 (en) Method and apparatus for notifying administrators of selected events in a distributed computer system
CN102880475B (zh) 计算机软件***中基于云计算的实时事件处理***及方法
US7130899B1 (en) Robust indication processing
US8032780B2 (en) Virtualization based high availability cluster system and method for managing failure in virtualization based high availability cluster system
CN102739435B (zh) 作为服务的故障检测与恢复
CN106709003A (zh) 基于Hadoop的海量日志数据处理方法
CN100579121C (zh) 一种保障专线用户上网的方法
CN105915405A (zh) 一种大型集群节点性能监控***
CN105429791B (zh) 一种分布式服务状态检测器及方法
CN106385334B (zh) 呼叫中心***及其异常检测及自恢复方法
CN102135929A (zh) 一种分布式容错服务***
CN101207517B (zh) 一种分布式企业服务总线节点可靠性维护方法
CN106657354A (zh) 一种负载均衡装置和方法
CN105472002A (zh) 基于集群节点间即时拷贝的会话同步方法
CN101321096A (zh) 基于共享socket的通信处理方法及装置
CN105630589A (zh) 分布式流程调度***及流程调度、执行方法
CN112565415A (zh) 一种基于云边协同的跨地域资源纳管***和纳管方法
CN114518934A (zh) 一种统一运维平台架构***
CN110704250A (zh) 一种分布式***的热备份装置
CN111083177A (zh) 基于协同网关的跨域协同交互方法
EP4345614A1 (en) Pod deployment method and apparatus
CN108388433A (zh) 超融合***的管理平台部署方法
CN105490847B (zh) 一种私有云存储***中节点故障实时检测及处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200225

CF01 Termination of patent right due to non-payment of annual fee