CN102118274A

CN102118274A - 一种状态监控方法、装置和***

Info

Publication number: CN102118274A
Application number: CN2009102432615A
Authority: CN
Inventors: 王磊; 范晓晖; 刘越; 王磊建; 程亮
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2009-12-30
Filing date: 2009-12-30
Publication date: 2011-07-06

Abstract

本发明实施例公开了一种状态监控方法，包括以下步骤：采集本节点的状态信息，将所述本节点的状态信息发送到预设的组播通道，并通过所述组播通道接收***中除本节点之外的其他节点的状态信息；将所述本节点的状态信息和所述其他节点的状态信息发送到服务器节点。本发明实施例能够提高***的扩充性、扩展性和可管理性。本发明实施例同样公开了一种应用上述方法的装置和***。

Description

一种状态监控方法、装置和***

技术领域

本发明涉及通信技术领域，尤其涉及一种状态监控方法、装置和***。

背景技术

随着通信网络的发展，大型应用***将扩展性作为主要的设计目标，***的结构设计也趋向于分布式和低耦合，但是，上述设计也带来越来越多的在物理上分布的节点，以及长时间运行的分布式服务。

通常情况下，物理上分布的设计都包含了多个独立的不可靠的组件，要求***的管理开销随着节点的增加缓慢增加。长时间运行的分布式服务必然要求在对客户提供服务上的高可用性，要求应用在应对各种失败时具有鲁棒性。因此，大型分布式应用***中的***状态监控对于***整体的可靠运行和管理有着重要的作用。

在设计大型应用***中的状态监控***时，主要面临扩充性、鲁棒性、扩展性、可管理性、可移植性和***开销等问题。其中，对于扩充性而言，要求***应用具有很好的扩展能力，在当前的分布式***中，比如集群，通常包括上百甚至上千台节点，对于网络计算应用来说，***包含的节点会更多；对于鲁棒性而言，由于在***节点的不断增加时，失败变得应为在***节点的不断增加时，失败也变得普遍和不可避免，要求***应对节点或网络失败具有很好的鲁棒性，***应能够在遇到失败时局部化失败，使得应用能够持续提供有效的服务；对于扩展性而言，要求***应该具有好的扩展能力，能够方便地添加新的需要监控的数据，能够知道被监控数据的优先级，针对新增加的数据以一种便利的方式进行监控或收集；对于可管理性而言，随着节点的增多，要求***应该缓慢地增加管理成本，并尽可能地避免手工配置，避免管理成本同节点的增加保持线性增长；对于可移植性而言，要求***应该具有可移植性，能够适应多数操作***和CPU(Central Processing Unit，中央处理单元)体系结构；对于***开销而言，要求***应该尽量少占用***资源，包括CPU、内存、I/O(Input/Output，输入/输出)和网络带宽。

目前，***监控采用的技术包括以下三类：一类是开发于20世纪80年代后期针对指定***开发的监控工具；另一类是依赖于网络管理协议的实现的监控工具，该网络管理协议包括SNMP(Simple Network ManagementProtocol，简单网络管理协议)、RMON(Remote Network Monitoring，远端网络监控)和CMIP(Common Management Information Protocol，通用管理信息协议)，该技术主要趋向于监控网络，对于主机监控仅能提供有限的支持；还有一类是依赖于Unix***命令产生的信息和Socket通信技术的监控工具。

发明人在实现本发明的过程中，发现现有技术至少存在以下缺陷：

现有技术需要手动配置***内各个节点之间的关系，并维护***内节点的拓扑结构，管理成本高，可管理性较差，尤其是在经常有失败发生的大型分布式应用***中。此外，现有技术中的各个节点需要向管理节点上报自身的状态信息，***开销大，且容易对网络中的其他节点造成影响。

发明内容

本发明实施例提供了一种状态监控方法、装置和***，用于提高***的扩充性、扩展性和可管理性。

本发明实施例提供了一种状态监控方法，包括以下步骤：

采集本节点的状态信息，将所述本节点的状态信息发送到预设的组播通道，并通过所述组播通道接收***中除本节点之外的其他节点的状态信息；

将所述本节点的状态信息和所述其他节点的状态信息发送到服务器节点。

优选地，所述通过组播通道接收***中除本节点之外的其他节点的状态信息之前，还包括：

获取本节点应用程序的监控数据，将所述监控数据发送到所述组播通道，所述监控数据与所述其他节点的状态信息相对应。

优选地，所述将本节点的状态信息发送到预设的组播通道，具体包括：

通过状态收集守护程序将所述本节点的状态信息发送到所述组播通道。

优选地，所述通过组播通道接收***中除本节点之外的其他节点的状态信息之后，还包括：

将所述其他节点的状态信息更新到内存中，对所述状态信息使用哈希表项Hash Table进行保存，并使用读写锁对所述状态信息进行访问控制。

本发明实施例还提供了一种状态监控装置，包括：

采集模块，用于采集本节点的状态信息；

接收模块，用于通过预设的组播通道接收***中除本节点之外的其他节点的状态信息；

发送模块，用于将所述采集模块采集的本节点的状态信息发送到所述组播通道，并将所述本节点的状态信息和所述接收模块接收到的其他节点的状态信息发送到服务器节点。

优选地，所述的装置，还包括：

获取模块，用于获取本节点应用程序的监控数据；

所述发送模块，还用于将所述获取模块接收到的监控数据发送到所述组播通道，所述监控数据与所述其他节点的状态信息相对应。

优选地，所述发送模块，具体用于通过状态收集守护程序将所述本节点的状态信息发送到所述组播通道，并将所述本节点的状态信息和所述其他节点的状态信息发送到服务器节点。

优选地，所述的装置，还包括：

更新模块，用于将所述接收模块接收到的其他节点的状态信息更新到内存中，对所述状态信息使用Hash Table进行保存，并使用读写锁对所述状态信息进行访问控制。

本发明实施例还提供了一种状态监控***，包括：

工作节点，用于采集本节点的状态信息，将所述本节点的状态信息发送到预设的组播通道，并通过所述组播通道接收***中除本节点之外的其他节点的状态信息，将所述本节点的状态信息和所述其他节点的状态信息发送到服务器节点；

服务器节点，用于接收来自所述工作节点的整个***的状态信息。

优选地，所述服务器节点，具体用于启动状态管理程序，通过所述状态管理程序同部署在各个工作节点的状态收集守护程序进行交互，获取整个***的状态信息。

与现有技术相比，本发明实施例具有以下优点：本发明实施例通过组播通道传输***的各个节点的状态信息，具有很好的扩充性、扩展性和可管理性，能够自动探测到***节点的增加和移除，不需要手动配置***内各节点的关系或拓扑结构，在***的任意一个节点上均能够获得整个***的状态信息，提高了***状态信息的冗余性，便于生成***的状态，在经常有失败发生的大型分布式应用***中尤为重要。

当***中有新的节点加入时，该节点仅需要通过状态收集程序和状态发布程序将本节点的状态信息发布到组播通道上，同时从组播通道上接收其他节点的状态信息并更新自身的内存状态信息。同时，还为应用程序发布状态信息提供了访问接口，应用程序可以使用该访问接口将自身的状态信息发布到组播通道上。此外，通过使用组播技术，减少了***开销，避免了对网络中的其他节点的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的一种状态监控方法流程图；

图2为本发明实施例中的状态监控应用场景示意图；

图3为本发明实施例应用场景中的状态监控方法流程图；

图4为本发明实施例中的Push(推送)E-mail(electronic mail，电子邮件)***结构示意图；

图5为本发明实施例中的状态监控方法应用于Push E-mail***时的方法流程图；

图6为本发明实施例中的一种状态监控装置结构示意图；

图7为本发明实施例应用场景中的一种状态监控装置结构示意图；

图8为本发明实施例中的一种状态监控***结构示意图。

具体实施方式

本发明实施例提供的技术方案中，其核心思想为将***中的各个节点的状态信息通过组播通道进行广播，在***的所有节点上部署状态发布程序和状态收集守护程序，在服务器节点上部署状态管理程序，服务器节点可以通过任意一个工作节点查询整个***的状态信息。

下面将结合本发明实施例中的附图，对本发明实施例的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例中的一种状态监控方法流程图，包括以下步骤：

步骤101，采集本节点的状态信息，将该本节点的状态信息发送到预设的组播通道，并通过该组播通道接收***中除本节点之外的其他节点的状态信息。

具体地，上述将本节点的状态信息发送到预设的组播通道，具体包括：通过状态收集守护程序将本节点的状态信息发送到组播通道。

在通过组播通道接收***中除本节点之外的其他节点的状态信息之前，还可以获取本节点应用程序的监控数据，将该监控数据发送到组播通道，该监控数据与其他节点的状态信息相对应。

通过组播通道接收***中除本节点之外的其他节点的状态信息之后，还可以将其他节点的状态信息更新到内存中，对该状态信息使用Hash Table(哈希表项)进行保存，并使用读写锁对该状态信息进行访问控制。

步骤102，将本节点的状态信息和其他节点的状态信息发送到服务器节点。

本发明实施例通过组播通道传输***的各个节点的状态信息，具有很好的扩充性、扩展性和可管理性，能够自动探测到***节点的增加和移除，不需要手动配置***内各节点的关系或拓扑结构，在***的任意一个节点上均能够获得整个***的状态信息，提高了***状态信息的冗余性，便于生成***的状态，在经常有失败发生的大型分布式应用***中尤为重要。

本发明实施例中的状态监控方法应用于分布式***中，该***包括至少一个服务器节点和多个工作节点。如图2所示，为本发明实施例中的状态监控应用场景示意图，其中，状态收集守护程序100、应用程序200和状态发布程序600部署在***的各个节点上，包括服务器节点和工作节点；状态管理程序400仅部署在服务器节点上，组播通道300位于***的各个节点之间。状态收集守护程序100、组播通道300、状态管理程序400和状态发布程序600组成完整的***状态监控组件，为应用程序200提供数据发布接口。应用程序200通过状态发布程序客户端库文件向状态发布程序600提交需要发布的状态数据。

部署在各个节点上的状态收集守护程序100完成收集本节点的状态信息后，将本节点的状态信息发布到组播通道上，并从组播通道上接收到的来自其他节点的状态信息同步到内存状态中。当服务器节点需要了解整个***的状态信息时，可以通过状态管理程序400同任何一个工作节点上的状态收集守护程序100进行交换，以获取整个***的状态信息。

以下结合上述应用场景对本发明实施例中的状态监控方法进行详细、具体的描述。

如图3所示，为本发明实施例应用场景中的状态监控方法流程图，具体包括以下步骤：

步骤301，建立组播通道。

具体地，可以为***中的所有节点规划同一个指定的组播地址，***节点将状态信息发送到该组播地址中。

步骤302，工作节点启动状态发布程序，通过该状态发布程序获取本节点应用程序的监控数据，将该监控数据发送到组播通道。

其中，本节点应用程序的监控数据与其他节点的状态信息相对应，本节点应用程序通过客户端库文件向状态发布程序发布监控数据。

步骤303，工作节点启动状态收集守护程序，通过状态收集守护程序采集本节点的状态信息，将本节点的状态信息发送到组播通道。

步骤304，状态收集守护程序通过组播通道接收***中除本节点之外的其他节点的状态信息。

步骤305，状态收集守护程序将其他节点的状态信息更新到内存中，对该状态信息使用Hash Table进行保存，并使用读写锁对该状态信息进行访问控制。

其中，状态收集守护程序由多个线程组成，每个线程都赋予了指定的任务。状态收集守护程序包括收集和发布线程、监听线程、内存存储线程和XML(Extensible Markup Language，可扩展标记语言)导出线程，其中，收集和发布线程收集本节点上的状态信息，将该状态信息发布到指定的组播地址上；监听线程用于在组播地址上接收来自其他节点的状态监控数据，并将接收到的数据更新到内存中。基于效率上的考虑，所有的监控数据使用Hash Table来保存，使用读写锁进行访问控制，以达到高的并发处理能力，并使用二进制格式保存数据，以降低物理内存的使用。

步骤306，服务器节点启动状态管理程序，通过状态管理程序同部署在各个工作节点的状态收集守护程序进行交互，获取整个***的状态信息。

本发明实施例中的状态监控方法还可以应用于Push E-mail***中，如图4所示，为本发明实施例中的Push E-mail***结构示意图，包括邮件推送网关设备410、大众邮件代理网关420和近300台通讯机设备430，其中，邮件推送网关设备410执行着邮件的推送功能，大众邮件代理网关420执行着个人邮件的转换和推送等功能，不同的通讯机设备430承载着不同的业务逻辑，如果一台通讯机设备430出现故障，要求Push E-mail***尽快检测到该通讯机设备430的故障并迅速执行相应的操作。因此，Push E-mail***需要检测各个通讯机设备430的CPU、I/O、内存以及网络带宽等信息。

随着邮件推送网关设备410的扩容和多节点设备的引入，Push E-mail***需要增加对通讯机设备430的检测数据的内容，包括部分关键设备的部分进程信息。例如，为了使通讯机设备430上的服务器程序能够更加高效稳定地运行，Push E-mail***采用一种基于进程生存期的服务器程序长效稳定运行的方法，将服务端程序分离成主控进程和应用服务进程，其中，主控进程完成通讯初始化和对应用服务进程的监控，实现逻辑简单；多个应用服务进程同时响应客户端请求，响应速度快，每个应用服务进程只接受有限次的客户端请求，完成服务后退出，可以有效地释放***资源，避免编码中的缺陷累积，从而提高TCP/IP(Transmission Control Protocol/Internet Protocol，传输控制协议/因特网互联协议)的服务端程序的长效稳定性，保证对客户端的服务品质。

在上述基于进程生存期的服务器程序长效稳定运行的方法中，PushE-mail***需要对部分关键进程进行监控，直接在广播通道中增加监控内容。各个通讯机设备430收到监控内容后，会自动采集本机中的部分关键进程的状态信息，然后通过发布程序将该状态信息上报。

如图5所示，为本发明实施例中的状态监控方法应用于Push E-mail***时的方法流程图，包括以下步骤：

步骤501，邮件推送网关设备、大众邮件代理网关和通讯机设备建立组播通道。

具体地，可以为Push E-mail***中的邮件推送网关设备、大众邮件代理网关和通讯机设备规划同一个指定的组播地址，邮件推送网关设备、大众邮件代理网关和通讯机设备将状态信息发送到该组播地址中。

步骤502，通讯机设备启动状态发布程序，通过该状态发布程序获取主控进程的监控数据，将该监控数据发送到组播通道。

其中，主控进程的监控数据与其他节点的应用服务进程的状态信息相对应，主控进程通过客户端库文件向状态发布程序发布监控数据。

步骤503，通讯机设备启动状态收集守护程序，通过状态收集守护程序采集本节点的应用服务进程的状态信息，将本节点的应用服务进程的状态信息发送到组播通道。

步骤504，状态收集守护程序通过组播通道接收***中除本节点之外的其他节点的应用服务进程的状态信息。

步骤505，状态收集守护程序将其他节点的应用服务进程的状态信息更新到内存中，对该状态信息使用Hash Table进行保存，并使用读写锁对该状态信息进行访问控制。

步骤506，邮件推送网关设备启动状态管理程序，通过状态管理程序同部署在各个通讯机设备的状态收集守护程序进行交互，获取整个***的应用服务进程的状态信息。

本发明实施例通过组播通道传输***的各个节点的应用服务进程的状态信息，具有很好的扩充性、扩展性和可管理性，能够自动探测到***节点的增加和移除，不需要手动配置***内各节点的关系或拓扑结构，在***的任意一个节点上均能够获得整个***的状态信息，提高了***状态信息的冗余性，便于生成***的状态，在经常有失败发生的大型分布式应用***中尤为重要。

本发明实施例在上述实施方式中提供了状态监控方法和多种应用场景，相应地，本发明实施例还提供了应用上述状态监控方法的装置和***。

如图6所示，为本发明实施例中的一种状态监控装置结构示意图，包括：

采集模块610，用于采集本节点的状态信息。

接收模块620，用于通过预设的组播通道接收***中除本节点之外的其他节点的状态信息。

发送模块630，用于将采集模块610采集的本节点的状态信息发送到组播通道，并将本节点的状态信息和接收模块620接收到的其他节点的状态信息发送到服务器节点。

如图7所示，为本发明实施例应用场景中的一种状态监控装置结构示意图，包括：

采集模块710，用于采集本节点的状态信息。

获取模块720，用于获取本节点应用程序的监控数据。

接收模块730，用于通过预设的组播通道接收***中除本节点之外的其他节点的状态信息。

发送模块740，用于将采集模块710采集的本节点的状态信息发送到组播通道，并将本节点的状态信息和接收模块730接收到的其他节点的状态信息发送到服务器节点。

上述发送模块740，具体用于通过状态收集守护程序将本节点的状态信息发送到所述组播通道，并将所述本节点的状态信息和所述其他节点的状态信息发送到服务器节点。

上述发送模块740，还用于将获取模块720接收到的监控数据发送到组播通道，该监控数据与其他节点的状态信息相对应。

更新模块750，用于将接收模块730接收到的其他节点的状态信息更新到内存中，对所述状态信息使用Hash Table进行保存，并使用读写锁对所述状态信息进行访问控制。

如图8所示，为本发明实施例中的一种状态监控***结构示意图，包括：

工作节点810，用于采集本节点的状态信息，将所述本节点的状态信息发送到预设的组播通道，并通过所述组播通道接收***中除本节点之外的其他节点的状态信息，将所述本节点的状态信息和所述其他节点的状态信息发送到服务器节点。

服务器节点820，用于接收来自工作节点810的整个***的状态信息。

上述服务器节点820，具体用于启动状态管理程序，通过所述状态管理程序同部署在各个工作节点的状态收集守护程序进行交互，获取整个***的状态信息。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以集成于一体，也可以分离部署；可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种状态监控方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述通过组播通道接收***中除本节点之外的其他节点的状态信息之前，还包括：

3.如权利要求1所述的方法，其特征在于，所述将本节点的状态信息发送到预设的组播通道，具体包括：

4.如权利要求1所述的方法，其特征在于，所述通过组播通道接收***中除本节点之外的其他节点的状态信息之后，还包括：

5.一种状态监控装置，其特征在于，包括：

采集模块，用于采集本节点的状态信息；

6.如权利要求5所述的装置，其特征在于，还包括：

获取模块，用于获取本节点应用程序的监控数据；

7.如权利要求5所述的装置，其特征在于，

所述发送模块，具体用于通过状态收集守护程序将所述本节点的状态信息发送到所述组播通道，并将所述本节点的状态信息和所述其他节点的状态信息发送到服务器节点。

8.如权利要求5所述的装置，其特征在于，还包括：

9.一种状态监控***，其特征在于，包括：

10.如权利要求9所述的***，其特征在于，

所述服务器节点，具体用于启动状态管理程序，通过所述状态管理程序同部署在各个工作节点的状态收集守护程序进行交互，获取整个***的状态信息。