CN108632106B - 监控服务设备的*** - Google Patents

监控服务设备的*** Download PDF

Info

Publication number
CN108632106B
CN108632106B CN201710243377.3A CN201710243377A CN108632106B CN 108632106 B CN108632106 B CN 108632106B CN 201710243377 A CN201710243377 A CN 201710243377A CN 108632106 B CN108632106 B CN 108632106B
Authority
CN
China
Prior art keywords
monitoring
task
agent
task agent
queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710243377.3A
Other languages
English (en)
Other versions
CN108632106A (zh
Inventor
洪建国
吕才兴
陈俊宏
陈文广
李振忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanta Computer Inc
Original Assignee
Quanta Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanta Computer Inc filed Critical Quanta Computer Inc
Publication of CN108632106A publication Critical patent/CN108632106A/zh
Application granted granted Critical
Publication of CN108632106B publication Critical patent/CN108632106B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/14Arrangements for monitoring or testing data switching networks using software, i.e. software packages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0695Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种设备监控***,其具有通讯装置、储存装置、以及控制器。通讯装置提供联机至因特网以及因特网上的服务设备。储存装置储存计算机可读取的指令或程序代码。控制器加载并执行指令或程序代码以透过通讯装置监控服务设备,所述监控包括以下步骤:以第一程序执行第一任务代理人以检查服务设备中是否存在监控项目,若是,则产生监控任务;以第二程序执行第二任务代理人以根据监控任务对监控项目进行监控以取得监控数据;以第三程序执行第三任务代理人以决定监控数据是否符合关联至监控任务的异常状态定义规则,若是,则产生告警讯息;以及以第四程序执行第四任务代理人以根据告警规则决定是否将告警讯息传送至监控项目所属的服务设备的管理者。

Description

监控服务设备的***
技术领域
本申请主要关于设备监控技术,特别是有关于一种以多程序分工进行设备监控的***及方法。
背景技术
近年来,由于大众对普适运算(ubiquitous computing)与网络通讯的需求大幅增长,各种无线技术纷纷问世,例如:全球行动通讯***(Global System for Mobilecommunications,GSM)技术、通用封包无线服务(General Packet Radio Service,GPRS)技术、全球增强型数据传输(Enhanced Data rates for Global Evolution,EDGE)技术、宽带分码多任务存取(Wideband Code Division Multiple Access,WCDMA)技术、分码多任务存取-2000(Code Division Multiple Access 2000,CDMA-2000)技术、分时同步分码多任务存取(Time Division-Synchronous Code Division Multiple Access,TD-SCDMA)技术、全球互通微波存取(Worldwide Interoperability for Microwave Access,WiMAX)技术、长期演进(Long Term Evolution,LTE)技术、以及分时长期演进(Time-Division LTE,TD-LTE)技术等。
随着网络逐渐普及化,一般来说,服务供货商会将服务设备架设于因特网上运行,让使用者可随时随地透过遍及的网络来存取各式的服务及应用,在此情况下,如何维持服务设备的稳定性是一个相当重要的议题。典型的解决方式是针对服务设备进行监控,以便在服务及应用发生问题或异常的初期时,能够实时通知管理人员作处理,以避免问题扩大。然而,当监控需求及监控项目的数量逐渐增加时,监控***将可能无法负荷大量的监控需求,因而造成错误处理的延迟。
以传统的监控***为例,通常会以同一个程序来执行对某一监控项目所进行的监控任务,然而,一个监控的程序包含许多阶段,每个阶段又环环相扣,前一个阶段必须执行完毕才能轮到下一个阶段的执行。因此,当执行负载偏重于其中的某个阶段时,整个监控任务的效能瓶颈就会集中在该阶段,而其余阶段则是一直处于闲置状态。此时如果为了解决效能瓶颈的问题而扩展监控程序的数量,则会连程序中闲置的阶段也一同扩展,另一方面,如果监控程序中的某个阶段发生问题而需要重新执行,则必须整个程序从头再执行一次。总的来说,传统的监控方式就执行效率及资源使用效率而言,都是不尽理想的。
发明内容
为了解决上述问题,本申请提出一种监控服务设备的***及方法,能够分别以不同的程序去独立执行监控任务中的各个阶段,并针对每个阶段进行效能的管理,当某个阶段的负载过重时,独立对该阶段的执行程序数量进行扩展,而当某个阶段的负载偏低时,独立对该阶段回收执行的程序数量。因此,能有效提升监控的效率及***资源的使用效率。
本申请的一实施例提供了一种设备监控***,包括一通讯装置、一储存装置、以及一控制器。上述通讯装置系用以提供联机至因特网以及因特网上之一或多个服务设备。上述储存装置系用以储存计算机可读取的指令或程序代码。上述控制器系用以加载并执行上述指令或程序代码以透过上述通讯装置监控上述服务设备,所述监控包括以下步骤:以一第一程序(process)执行一第一任务代理人(agent)以检查上述服务设备中是否存在一监控项目,若是,则产生一监控任务;以一第二程序执行一第二任务代理人以根据上述监控任务对上述监控项目进行监控以取得一监控数据;以一第三程序执行一第三任务代理人以决定上述监控数据是否符合关联至上述监控任务之一异常状态定义规则,若是,则产生一告警讯息;以及以一第四程序执行一第四任务代理人以根据一告警规则决定是否将上述告警讯息传送至上述监控项目所属的上述服务设备的一管理者。
关于本申请其他附加的特征与优点,此领域的熟习技术人士,在不脱离本申请的精神和范围内,当可根据本案实施方法中所揭露的设备监控***以及监控服务设备的方法做些许的更动与润饰而得到。
附图说明
图1是根据本申请一实施例所述的设备监控环境的示意图。
图2是根据本申请一实施例所述的设备监控***10的硬件架构示意图。
图3是根据本申请一实施例所述以软件来实作监控服务设备的方法的示意图。
图4是根据本申请一实施例所述的监测启动代理人321的作业流程图。
图5是根据本申请一实施例所述的监测数据收集代理人322的作业流程图。
图6是根据本申请一实施例所述的异常判断代理人323的作业流程图。
图7A及图7B是根据本申请一实施例所述的告警通知代理人324的作业流程图。
图8是根据图3的实施例所述的监控服务设备的方法的运作示意图。
具体实施方式
本章节所叙述的是实施本申请的最佳方式,目的在于说明本申请的精神而非用以限定本申请的保护范围,应理解下列实施例可经由软件、硬件、固件、或上述任意组合来实现。
图1是根据本申请一实施例所述的设备监控环境的示意图。设备监控环境100包括设备监控***10、因特网20、设备管理***30、以及服务设备40~60,其中,设备监控***10及设备管理***30可透过因特网20连接到服务设备40~60。
设备监控***10可为一具备网络通讯功能的运算装置,如:笔记本电脑、桌面计算机、工作站、服务器等,用以监控服务设备40~60,并于发现服务设备40~60有异常时发送告警讯息给设备管理***30。
服务设备40~60可各别为一服务器,用以执行并提供服务/应用,例如:电子邮件收发服务、行动推播服务、网页服务、硬设备服务、可监控设备服务或简讯收发服务等。
设备管理***30可为一具备网络通讯功能的运算装置,如:笔记本电脑、桌面计算机、工作站、服务器等,用以提供设备管理者对服务设备40~60进行设定、检查、除错、等维运作业。
图2是根据本申请一实施例所述的设备监控***10的硬件架构示意图。设备监控***10包括通讯装置11、储存装置12、以及控制器13。
通讯装置11是用以提供联机至因特网20、以及因特网20上的设备管理***30以及服务设备40~60。通讯装置11可依循至少一特定通讯技术提供有线或无线网络联机,例如:以太网(Ethernet)技术、无线区网(Wireless Fidelity,Wi-Fi)技术、全球互通微波存取技术、全球行动通讯***技术、宽带分码多任务存取技术、或长期演进技术等。
储存装置12为非瞬时(non-transitory)的计算机可读取储存媒体,例如:随机存取内存(Random Access Memory,RAM)、闪存,或硬盘、光盘,或上述媒体的任意组合,用以储存计算机可读取的指令或程序代码,包括:应用/通讯协议的程序代码、以及/或本申请的方法的程序代码及数据库。
于一具体实施例中,储存装置12亦包括数据库。
控制器13可为通用处理器、微处理器(Micro Control Unit,MCU)、应用处理器(Application Processor,AP)、或数字信号处理器(Digital Signal Processor,DSP)等,其可包括各式电路逻辑,用以提供数据处理及运算的功能、控制通讯装置11的运作以提供网络联机、从储存装置12读取或储存数据。特别是,控制器13系用以协调控制通讯装置11以及储存装置12的运作,以执行本申请的监控服务设备的方法。
该领域的熟习技艺人士当可理解,控制器13中的电路逻辑通常可包括多个晶体管,用以控制该电路逻辑的运作以提供所需的功能及作业。更进一步的,晶体管的特定结构及其之间的链接关系通常是由编译程序所决定,例如:缓存器转移语言(RegisterTransfer Language,RTL)编译程序可由处理器所运作,将类似汇编语言码的脚本文件(script)编译成适用于设计或制造该电路逻辑所需的形式。
当可理解的是,图2所示的组件仅用以提供一说明的范例,并非用以限制本申请的保护范围。举例来说,设备监控***10还可包括:显示屏幕(如:液晶显示器(LiquidCrystal Display,LCD)、发光二极管显示器(Liquid Crystal Display,LCD)、或电子纸显示器(Electronic Paper Display,EPD)等)、输入输出装置(如:一或多个按钮、键盘、鼠标、触碰板、视讯镜头、麦克风、或喇叭)、电源供应器、以及/或全球定位***(GlobalPositioning System,GPS)仪等。
图3是根据本申请一实施例所述的监控服务设备的方法的软件架构图。在此实施例,监控服务设备的方法系适用于设备监控***10,明确来说,监控服务设备的方法可用程序代码实作为多个软件模块,并由控制器13加载并执行,监控服务设备的方法的软件架构可包括监控设定模块310、监控代理人(agent)模块320、以及代理人自动管理模块330。
监控设定模块310主要负责提供监控作业所需的设定及规则,其中这些设定及规则皆可依照服务设备40~60的变动而随时更新,并储存于数据库中。监控设定模块310包括监控目标定义311、监控规则定义312、异常状态定义313、以及告警规则定义314。
监控目标定义311用以设定需要监控的目标,例如指定哪个服务设备上的哪个服务/应用是需要监控的目标。
监控规则定义312用以设定监控作业的规则。在一实施例,可针对一监控目标定义多个时段,而每个时段皆遵循不同之规则。举例来说,可先将时段的部分定义为每个星期一到五的早上八点到下午五点,然后定义多久要监控一次、可以重试的次数、间隔多久重试一次(所述重试系为了避免***误判,例如,因暂时性的***负载突冲而造成的异常)。
异常状态定义313用以设定各个监测目标的异常状态定义规则,例如:当某服务设备的中央处理器的负载程度持续10分钟达80%。需注意的是,异常状态定义规则可以随时新增与修改。
告警规则定义314用以设定当监控目标被判定发生异常时是否要发送告警讯息的规则,例如:「有错误就发」、「相同错误只发一次」、「相同错误间隔多久再发」、「相同错误累计几次再发」等选项。另外,告警讯息的发送可以是电子邮件或简讯推播的形式。
监控代理人模块320包括监测启动代理人321、监测数据收集代理人322、异常判断代理人323、告警通知代理人324,其中每个任务代理人是分别由一或多个程序所执行,各自进行监控作业流程中的不同阶段,以分工的方式完成整个监控作业。在一实施例,可以分别由不同的主机来各自提供一个程序的执行以实现一任务代理人。
监测启动代理人321主要负责启动一任务代理人,用以检查服务设备40~60中是否存在监控项目,并针对监控项目产生监控任务。其中,任务代理人是由一程序所执行。
图4系根据本申请一实施例所述的监测启动代理人321的作业流程图。首先,监测启动代理人321会定期查看数据库中所维护的关联至服务设备40~60的监控设定以及目前已设定的监控项目(步骤S401),然后决定监控项目的状态是否设定为「重试」(步骤S402),若是,则决定目前时间是否已超过规定的重试时间间隔(也就是已达监控项目的重试时间)(步骤S403),若是,则产生监控任务以启动监控作业进行重试,并将监控任务存入监控任务队列中(步骤S404),流程结束。须说明的是,步骤S402是为选择性的步骤,其目的在于前次的监控项目有可能发生错误,所以判断此次是否为「重试」。
监控任务队列为先入先出(First In First Out,FIFO)的队列,也就是说,先存入队列中的监控任务会先被监测数据收集代理人322读取出来处理。
监控任务包括监控作业所需要的数据,包括:监控目标、监控类型、监控规则、异常状态定义规则、以及告警规则等。产生的监控任务会被存入监控任务队列中。
在步骤S402,如果监控项目的状态并非设定「重试」,则决定目前时间是否符合监控设定中的引导区间(步骤S405),若是,则流程进入步骤S404;反之,若否,则流程结束。
监测数据收集代理人322主要负责启动一或多个任务代理人,用以根据监控任务队列中的监控任务进行监控,并取得监控数据。其中,每个任务代理人系各自由一程序所执行。
图5是根据本申请一实施例所述的监测数据收集代理人322的作业流程图。首先,监测数据收集代理人322从监控任务队列中取出监控任务(步骤S501),然后决定监控任务的类型是否为属于已定义的监控类型(步骤S502),若是,则根据监控类型对监控目标进行监控(步骤S503),接着,将监控取得的数据存入监控结果并将监控结果存入监控结果队列中(步骤S504),流程结束。
举例来说,监控类型可分为多种,监测数据收集代理人322可依序判断监控任务是否为监控类型1、2、3、4等,同时根据不同的类型进行不同的监控。例如:监控类型1所指为监控目标的处理器负载,监控类型2所指为监控目标的内存使用率,监控类型3所指为监控目标的磁盘使用率,监控类型4所指为监控目标的网络流量。
在步骤S502,如果监控任务的类型不属于已定义的监控类型,则产生监控结果以指示监控任务属于不支持的监控类型,并将监控结果存入监控结果队列中(步骤S505),流程结束。
监控结果队列为先入先出的队列,也就是说,先存入队列中的监控结果会先被异常判断代理人323读取出来处理。
异常判断代理人323主要负责启动一或多个任务代理人,用以判断监控结果中的监控数据是否异常,并针对异常的监控数据产生告警讯息。其中,每个任务代理人系各自由一程序所执行。
图6是根据本申请一实施例所述的异常判断代理人323的作业流程图。首先,异常判断代理人323从监控结果队列中取出监控结果(步骤S601),然后决定监控结果中的监控数据是否符合异常状态定义规则(步骤S602),若否,则将监控结果存入数据库,并将此监控项目的状态设定为「正常」,并将重试次数归零(步骤S603),流程结束。
异常状态定义规则系关联至对应的监控任务,举例来说,如果监控任务是指对一电子邮件服务器的网络流量进行监控,则异常状态定义规则可以是指该电子邮件服务器的网络流量超过一上限值。
在步骤S602,如果监控数据符合异常状态定义规则,则决定对应的监控项目的状态是否为「重试」(步骤S604),若是,则进一步决定该监控项目是否已重试达一上限值(步骤S605),若已达上限值,则产生告警讯息并将告警讯息存入告警消息队列中(步骤S606),然后将该监控项目的状态设定为「正常」,并将重试次数归零(步骤S607),流程结束。
须说明的是,步骤604与步骤605是为提高判断监控数据符合异常状态定义的正确率,避免仅为单次的异常监控数据,即认定监控项目出现问题,因有许多因素皆有可能使监控数据产生符合异常状态定义的数值。所以设定重试上限的一默认值,例如三次或四次,则仅有监控数据产生符合异常状态定义的次数达到重试上限之默认值,才认定监控项目真的出现问题,或确属异常状态,从而发出告警讯息(步骤S606),并重新将监控项目的状态设定为「正常」,且将重试次数归零(步骤S607)。
告警消息队列为先入先出的队列,也就是说,先存入队列中的告警讯息会先被告警通知代理人324读取出来处理。
在步骤S605,如果该监控项目重试未达上限值,则将监控数据存入数据库,并将该监控项目的状态设定为「重试」,并将重试次数之计数加1(步骤S608),流程结束。
告警通知代理人324主要负责启动一或多个任务代理人,用以判断是否要将告警讯息传送给服务设备的管理者。其中,每个任务代理人是各自由一程序所执行。
图7A及图7B系根据本申请一实施例所述的告警通知代理人324的作业流程图。首先,告警通知代理人324从告警消息队列中取出告警讯息(步骤S701),然后根据告警规则来决定是否将告警讯息传送给服务设备的管理者。
明确来说,先决定告警规则是否指示「有错误就发」(步骤S702),若是,则立即将告警讯息传送给服务设备的管理者(步骤S703),流程结束。反之,若否,则接着决定告警规则是否指示「相同错误只发一次」(步骤S704),若是,则决定该监控项目的前次告警讯息是否与本次告警讯息相同(步骤S705)。
在步骤S705,如果前次告警讯息与本次相同,则不传送本次告警讯息,流程结束。反之,如果前次告警讯息与本次不同,则将该监控项目的最新告警讯息更新为本次告警讯息(步骤S706),然后流程进入到步骤S703。
在步骤S704,如果告警规则并非指示「相同错误只发一次」,则接着决定告警规则是否指示「相同错误间隔多久再发」(步骤S707),若是,则决定该监控项目的前次告警讯息是否与本次告警讯息相同(步骤S708)。
在步骤S708,如果前次告警讯息与本次不同,则将该监控项目的最新告警讯息更新为本次告警讯息,并重新启动重试定时器(步骤S709),然后流程进入到步骤S703;反之,如果前次告警讯息与本次相同,则决定对应的重试定时器是否届期(重试定时器的届期即表示前次告警讯息与本次告警讯息的时间间隔已达规定之时间长度)(步骤S710),若是,则重新启动重试定时器(步骤S711),然后流程进入到步骤S703。若否,则流程结束。
在步骤S707,如果告警规则并非指示「相同错误间隔多久再发」,则接着决定告警规则是否指示「相同错误累计几次再发」(步骤S712),若否,则流程结束;反之,若是,则决定该监控项目的前次告警讯息是否与本次告警讯息相同(步骤S713)。
在步骤S713,如果前次告警讯息与本次不同,则将该监控项目的最新告警讯息更新为本次告警讯息,并重新启动重试计数器(步骤S714),然后流程进入到步骤S703;反之,如果前次告警讯息与本次相同,则决定对应的重试计数器是否已达规定的次数(意即,相同的告警讯息是否已经累计达一定数量)(步骤S715),若是,则重新启动重试计数器(步骤S716),然后流程进入到步骤S703;反之,若否,则流程结束。
回到图3,代理人自动管理模块330包括自动扩展模块331、自动回收模块332、以及作业容错模块333。
自动扩展模块331是用以监控三个消息队列(即监控任务队列、监控结果队列、以及告警消息队列)的讯息数量,当任一个消息队列中的讯息数量超过对应的任务代理人(即监测数据收集代理人、异常判断代理人、告警通知代理人)数量的高水位倍数时,则以新的程序增加一个新的任务代理人(即针对该任务代理人新增一副本),以加速处理消息队列中的讯息。举例来说,当监控任务队列中的讯息数量为监测数据收集代理人数量的10倍以上,则扩充监测数据收集代理人的数量。
自动回收模块332是用以监控三个消息队列的讯息数量,当任一消息队列中的讯息数量低于对应的任务代理人数量的低水位倍数时,则回收该任务代理人之其一(即针对该任务代理人回收其中一副本),以节省***资源。举例来说,当监控结果队列中的讯息数量为异常判断代理人数量的5倍以下,则进行异常判断代理人的回收作业。
作业容错模块333是用以提供任务代理人监控作业的容错机制。当任一任务代理人执行作业时若发生错误,会将错误记录下来,并决定该任务代理人是否已经重试作业超过容错限制次数,若没超过,则复原执行过的动作,同时将取得的任务讯息标注重试次数后再丢回原消息队列中,等待下一次的重试;反之,若重试作业已超过容错限制次数,则直接结束该次作业。
图8是根据图3的实施例所述的监控服务设备的方法的运作示意图。如图8所示,监测启动代理人321定期查看数据库中所维护的关联至服务设备40~60的监控设定以及目前已设定的监控项目,根据查看的结果产生监控任务并存入监控任务队列中。
接着,监测数据收集代理人322根据监控任务队列中的监控任务对服务设备40~60进行监控并取得监控数据,监控数据以监控结果纪录并存入监控结果队列中。
然后,异常判断代理人323从监控结果队列中取出监控结果,并且从数据库中取得异常状态定义规则,接着判断监控结果中的监控数据是否符合异常状态定义规则,针对异常的数据产生告警讯息并存入告警消息队列中。
之后,告警通知代理人324从告警消息队列中取出告警讯息,并且从数据库中取得告警规则,接着根据告警规则决定是否将告警讯息传送给设备管理***30。
本申请虽以各种实施例揭露如上,然而其仅为范例参考而非用以限定本申请的范围,任何熟习此项技艺者,在不脱离本申请之精神和范围内,当可做些许的更动与润饰。因此上述实施例并非用以限定本申请之范围,本申请之保护范围当视后附之申请专利范围所界定者为准。
【符号说明】
100 设备监控环境
10 设备监控***
11 通讯装置
12 储存装置
13 控制器
20 因特网
30 设备管理***
40~60 服务设备1~3
310 监控设定模块
311 监控目标定义
312 监控规则定义
313 异常状态定义
314 告警规则定义
320 监控代理人模块
321 监测启动代理人
322 监测数据收集代理人
323 异常判断代理人
324 告警通知代理人
330 代理人自动管理模块
331 自动扩展模块
332 自动回收模块
333 作业容错模块
S401~S405 步骤编号
S501~S505 步骤编号
S601~S608 步骤编号
S701~S716 步骤编号

Claims (9)

1.一种设备监控***,包括:
一通讯装置,用以提供联机至因特网以及因特网上之一或多个服务设备;
一储存装置,用以储存计算机可读取的指令或程序代码;以及
一控制器,用以加载并执行上述指令或程序代码以透过上述通讯装置监控上述服务设备,所述监控包括以下步骤:
以一第一程序执行一第一任务代理人以检查上述服务设备中是否存在一监控项目,若是,则产生一监控任务,并将上述监控任务存入一第一队列中;
以一第二程序执行一第二任务代理人以根据上述监控任务对上述监控项目进行监控以取得一监控数据,并将上述监控数据存入一第二队列中;
以一第三程序执行一第三任务代理人以决定上述监控数据是否符合关联至上述监控任务的一异常状态定义规则,若是,则产生一告警讯息,并将上述告警讯息存入一第三队列中;以及
以一第四程序执行一第四任务代理人以根据一告警规则决定是否将上述告警讯息传送至上述监控项目所属的上述服务设备的一管理者,
其中独立对所述监控的各个阶段的执行程序数量进行扩展,
当上述第一队列中等待读取的监控任务数量超过上述第二任务代理人所能处理的一第一预定数量时,新增另一程序以执行上述第二任务代理人的一副本;
当上述第二队列中等待读取的监控数据数量超过上述第三任务代理人所能处理的一第二预定数量时,新增另一程序以执行上述第三任务代理人的一副本;以及
当上述第三队列中等待读取的告警讯息数量超过上述第四任务代理人所能处理的一第三预定数量时,新增另一程序以执行上述第四任务代理人的一副本。
2.如权利要求1所述的设备监控***,其中上述储存装置进一步包括一数据库用以维护关联至上述服务设备的一监控设定,上述第一任务代理人还决定一目前时间是否符合上述监控设定中的一引导区间,若是,才产生上述监控任务。
3.如权利要求1所述的设备监控***,其中上述第一任务代理人还决定上述监控项目之一状态是否为「重试」,若是,则决定一目前时间是否已达上述监控项目的一重试时间,若是,才产生上述监控任务。
4.如权利要求1所述的设备监控***,其中上述监控项目是上述服务设备之一者所执行的一服务,上述监控任务包括以下至少一者:一监控目标、一监控类型、一监控规则、上述异常状态定义规则、以及上述告警规则。
5.如权利要求4所述的设备监控***,其中上述第二任务代理人系根据上述监控目标、上述监控类型、以及上述监控规则以进行对应的监控作业。
6.如权利要求1所述的设备监控***,其中上述第三任务代理人于上述监控数据不符合上述异常状态定义规则时,将上述监控数据存入上述储存装置中的一数据库并将上述监控项目的一状态设定为「正常」,以及在上述监控数据符合上述异常状态定义规则时,决定上述状态设定是否为「重试」,若上述状态设定非为「重试」,则将上述监控数据存入上述数据库并将上述状态设定为「重试」,若上述状态设定为「重试」,则决定上述监控项目是否已重试达一上限值,若未达上述上限值,则将上述监控数据存入上述数据库,若已达上述上限值,才产生上述告警讯息。
7.如权利要求1所述的设备监控***,其中上述告警规则指示以下一者:有错误就传送上述告警讯息、相同错误只传送一次上述告警讯息、相同错误间隔一时间区间再传送上述告警讯息、相同错误累计一预定次数再传送上述告警讯息。
8.如权利要求1所述的设备监控***,其中监控上述服务设备的步骤还包括:
当上述第一队列中等待读取的监控任务数量低于一第四预定数量时,移除上述第二任务代理人的上述副本;
当上述第二队列中等待读取的监控数据数量低于一第五预定数量时,移除上述第三任务代理人的上述副本;以及
当上述第三队列中等待读取的告警讯息数量低于一第六预定数量时,移除上述第四任务代理人的上述副本。
9.如权利要求1所述的设备监控***,其中当上述第二任务代理人在对上述监控项目进行监控时若发生错误,则决定上述第二任务代理人是否已重试达一第一上限值,若未达上述第一上限值,则将上述监控任务存回上述第一队列中;
当上述第三任务代理人在决定是否产生上述告警讯息时若发生错误,则决定上述第三任务代理人是否已重试达一第二上限值,若未达上述第二上限值,则将上述监控数据存回上述第二队列中;以及
当上述第四任务代理人在决定是否传送上述告警讯息时若发生错误,则决定上述第四任务代理人是否已重试达一第三上限值,若未达上述第三上限值,则将上述告警讯息存回上述第三队列中。
CN201710243377.3A 2017-03-22 2017-04-14 监控服务设备的*** Expired - Fee Related CN108632106B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW106109495 2017-03-22
TW106109495A TWI621013B (zh) 2017-03-22 2017-03-22 監控服務設備之系統

Publications (2)

Publication Number Publication Date
CN108632106A CN108632106A (zh) 2018-10-09
CN108632106B true CN108632106B (zh) 2020-11-24

Family

ID=62639890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710243377.3A Expired - Fee Related CN108632106B (zh) 2017-03-22 2017-04-14 监控服务设备的***

Country Status (3)

Country Link
US (1) US20180278497A1 (zh)
CN (1) CN108632106B (zh)
TW (1) TWI621013B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6972735B2 (ja) * 2017-07-26 2021-11-24 富士通株式会社 表示制御プログラム、表示制御方法及び表示制御装置
CN110062025B (zh) * 2019-03-14 2022-09-09 深圳绿米联创科技有限公司 数据采集的方法、装置、服务器及存储介质
CN111831503B (zh) * 2019-04-15 2024-04-05 北京京东尚科信息技术有限公司 一种基于监控代理的监控方法和监控代理装置
CN112256516A (zh) * 2019-07-22 2021-01-22 广州酷旅旅行社有限公司 一种酒店直连***用数据分析处理方法
CN110460470A (zh) * 2019-08-15 2019-11-15 成都西加云杉科技有限公司 一种告警管理***
CN111176879A (zh) * 2019-12-31 2020-05-19 中国建设银行股份有限公司 设备的故障修复方法及装置
CN112231174B (zh) * 2020-09-30 2024-02-23 ***股份有限公司 异常告警方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5061917A (en) * 1988-05-06 1991-10-29 Higgs Nigel H Electronic warning apparatus
TW201123827A (en) * 2009-12-18 2011-07-01 Via Tech Inc A surveillance module of a consumer electronic device and the surveillance method of the same
CN103067230A (zh) * 2013-01-23 2013-04-24 江苏天智互联科技有限公司 一种通过植入监控代码实现对http服务监控的方法
CN103123602A (zh) * 2011-11-18 2013-05-29 阿里巴巴集团控股有限公司 基于java的异常报警监控方法及其装置
CN103544093A (zh) * 2012-07-13 2014-01-29 深圳市快播科技有限公司 监控报警控制方法及其***
CN104657250A (zh) * 2014-12-16 2015-05-27 无锡华云数据技术服务有限公司 一种对云主机进行性能监控的监控方法
CN105225466A (zh) * 2015-09-16 2016-01-06 安康鸿天科技开发有限公司 一种数据传输及故障检测***
CN106209412A (zh) * 2015-05-08 2016-12-07 广达电脑股份有限公司 资源监控***与其方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5655081A (en) * 1995-03-08 1997-08-05 Bmc Software, Inc. System for monitoring and managing computer resources and applications across a distributed computing environment using an intelligent autonomous agent architecture
TW312772B (en) * 1996-11-22 1997-08-11 Icp Das Co Ltd Isolated PC-based interface card
CN1224914C (zh) * 2000-08-25 2005-10-26 四国电力株式会社 远程控制服务器、中央服务器以及由它们构筑的***
TWI240860B (en) * 2004-01-16 2005-10-01 Chunghwa Telecom Co Ltd Database monitoring and automatic problems reporting system
TW200537305A (en) * 2004-05-04 2005-11-16 Quanta Comp Inc Communication system, transmission device and the control method thereof
TWI331285B (en) * 2008-11-10 2010-10-01 Moxa Inc Active monitoring system and method thereof
CN103124070B (zh) * 2012-08-15 2015-03-25 中国电力科学研究院 一种微电网***协调控制方法
TW201416855A (zh) * 2012-10-23 2014-05-01 Inventec Corp 系統啟動監控方法以及電子裝置
CN104125095A (zh) * 2014-06-25 2014-10-29 世纪禾光科技发展(北京)有限公司 一种事件故障实时监控的***和方法
CN105356612B (zh) * 2015-11-27 2018-11-06 国网北京市电力公司 数据传输***和方法
TWM532085U (zh) * 2016-04-01 2016-11-11 Memxpro Inc 硬碟控制晶片及含其的硬碟
US9529634B1 (en) * 2016-05-06 2016-12-27 Live Nation Entertainment, Inc. Triggered queue transformation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5061917A (en) * 1988-05-06 1991-10-29 Higgs Nigel H Electronic warning apparatus
TW201123827A (en) * 2009-12-18 2011-07-01 Via Tech Inc A surveillance module of a consumer electronic device and the surveillance method of the same
CN103123602A (zh) * 2011-11-18 2013-05-29 阿里巴巴集团控股有限公司 基于java的异常报警监控方法及其装置
CN103544093A (zh) * 2012-07-13 2014-01-29 深圳市快播科技有限公司 监控报警控制方法及其***
CN103067230A (zh) * 2013-01-23 2013-04-24 江苏天智互联科技有限公司 一种通过植入监控代码实现对http服务监控的方法
CN104657250A (zh) * 2014-12-16 2015-05-27 无锡华云数据技术服务有限公司 一种对云主机进行性能监控的监控方法
CN106209412A (zh) * 2015-05-08 2016-12-07 广达电脑股份有限公司 资源监控***与其方法
CN105225466A (zh) * 2015-09-16 2016-01-06 安康鸿天科技开发有限公司 一种数据传输及故障检测***

Also Published As

Publication number Publication date
US20180278497A1 (en) 2018-09-27
TWI621013B (zh) 2018-04-11
TW201835764A (zh) 2018-10-01
CN108632106A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
CN108632106B (zh) 监控服务设备的***
US8805999B2 (en) Administering event reporting rules in a distributed processing system
US8627154B2 (en) Dynamic administration of component event reporting in a distributed processing system
CN113742031B (zh) 节点状态信息获取方法、装置、电子设备及可读存储介质
US10055436B2 (en) Alert management
JP2006260056A (ja) 統合運用管理サーバ、統合的な運用管理のためのメッセージの抽出方法、及び、プログラム
JP2023504469A (ja) ノード管理方法、装置、機器、記憶媒体及びシステム
CN111782341B (zh) 用于管理集群的方法和装置
CN110912949B (zh) 位点提交方法和装置
US10523508B2 (en) Monitoring management systems and methods
CN114185734A (zh) 一种监控集群的方法、装置及电子设备
CN113656239A (zh) 针对中间件的监控方法、装置及计算机程序产品
CN112817992A (zh) 执行更改任务的方法、装置、电子设备以及可读存储介质
JP2016076072A (ja) 障害通報装置、障害通報方法及び障害通報プログラム
US9575865B2 (en) Information processing system and monitoring method
CN114327819B (zh) 一种任务管理方法、装置、设备及存储介质
CN114567536B (zh) 异常数据处理方法、装置、电子设备和存储介质
CN116319758A (zh) 数据迁移方法、装置、电子设备及可读存储介质
EP4066117B1 (en) Managing provenance information for data processing pipelines
CN113419921A (zh) 一种任务监控方法、装置、设备以及存储介质
CN114090201A (zh) 资源调度方法、装置、设备及存储介质
CN112306746A (zh) 在应用环境中管理快照的方法、设备和计算机程序产品
CN113872808B (zh) 应用处理方法及装置
US11941432B2 (en) Processing system, processing method, higher-level system, lower-level system, higher-level program, and lower-level program
CN117331716A (zh) 一种消息处理方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201124

CF01 Termination of patent right due to non-payment of annual fee