CN111416721A

CN111416721A - 运用于数据中心的机柜异常状态的远端排除方法

Info

Publication number: CN111416721A
Application number: CN201910007463.3A
Authority: CN
Inventors: 林韦成; 辛柏陞; 林政翰
Original assignee: T-WIN SYSTEMS Inc
Current assignee: T-WIN SYSTEMS Inc
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2020-07-14

Abstract

一种运用于数据中心的机柜异常状态的远端排除方法，由机柜服务器管理***定时于远端取得一个机柜内的机柜管理控制器以及基板管理控制器的各项信息，并且记录管理者通过机柜服务器管理***所进行的各项操作行为。机柜服务器管理***对上述信息以及操作行为进行分析，以判断机柜内的机柜管理控制器或基板管理控制器是否处于预设的多种关注状态的其中之一。若判断任一基板管理控制器失去了与机柜服务器管理***间的连线，则机柜服务器管理***自动实施远端救援机制，以排除基板管理控制器失去网络连线的异常状态。

Description

运用于数据中心的机柜异常状态的远端排除方法

技术领域

本发明涉及数据中心，尤其涉及对数据中心中的机柜的异常状态的分析与排除的方法。

背景技术

一般来说，一个数据中心通常会通过智能型平台管理界面(IntelligentPlatform Management Interface,IPMI)对数据中心内的机柜、端点服务器等设备的机柜管理控制器(Rack Management Controller,RMC)及基板管理控制器(BaseboardManagement Controller,BMC)进行远端管理。

不论使用何种方式进行远端管理，只要任一机柜或端点服务器的RMC或BMC出现异常，管理者就会收到许多警告信件。然而，管理者一般难以通过这些警告信件在第一时间直接得知状态的真正问题点，往往需要随着时间不断推进，直到收到数百封警告信件并且与设备失去连线后，才能确定所述RMC、BMC发生了异常。

更甚者，即使部分的管理平台从不同的监控管道收集到错误讯息，并且进行汇整后提交故障评估报告给管理者，但这样的监控方式仍然需要由管理者进行最后的判断，并且决定处理方式。然而，只要有人为因素的介入，就无法全然避免误判的可能。

有鉴于此，本领域确实需要发展一套新颖的***与方法，可针对处于异常状态的RMC及BMC自动实施远端修复机制，藉此强化数据中心的监控能力，使得机柜管理能够高度自动化，同时减少人为判定所间接流失的时间，并且避免人为误判。

发明内容

本发明的主要目的，在于提供一种运用于数据中心的机柜异常状态的远端排除方法，可以在判断基板管理控制器失去了与机柜服务器管理***间的连线时，直接于远端排除基板管理控制器的异常状态。

为了达成上述的目的，本发明的远端排除方法是运用于具有一机柜及由远端与该机柜连接的一机柜服务器管理***的一数据中心，其中该机柜具有一机柜管理控制器(Rack Management Controller,RMC)及多个端点服务器，各该端点服务器分别具有一基板管理控制器(Baseboard Management Controller,BMC)，该远端排除方法包括：

a)该机柜服务器管理***定时存取一数据库以取得各该BMC的状态数据、一管理者通过该机柜服务器管理***对该机柜所实施的操作行为以及对应该操作行为所获得的反馈信息；

b)依据该状态数据、该操作行为及该反馈信息判断各该BMC的其中之一是否处于预设的多种关注状态的其中之一；及

c)于判断任一BMC处于该多种关注状态中的一第三类关注状态时，该机柜服务器管理***自动对处于该第三类关注状态的该BMC实施一远端救援机制，以排除该BMC失去网络连线的异常状态，其中该第三类关注状态指该BMC失去了与该机柜服务器管理***间的连线。

如上所述，其中更包括下列步骤：

a01)该机柜服务器管理***启动；

a02)该步骤a01)后，该机柜服务器管理***定时主动远程访问该机柜内的该RMC及各该BMC；

a03)取得该RMC及各该BMC的该状态数据；

a04)将该状态数据储存至该数据库；及

a05)于该机柜服务器管理***关闭前持续执行该步骤a02)至该步骤a04)。

如上所述，其中更包括下列步骤：

a11)该机柜服务器管理***启动；

a12)该步骤a11)后，该机柜服务器管理***提供一操作界面；

a13)于通过该操作界面接受该管理者的该操作行为时，依据该操作行为的内容对该RMC及各该BMC实施一远端管理程序；

a14)取得该远端管理程序对应的该反馈信息；

a15)将该操作行为及该反馈信息储存至该数据库；及

a16)于该机柜服务器管理***关闭前持续执行该步骤a12)至该步骤a15)。

如上所述，其中该状态数据至少包括各该BMC的网络模式、IP地址、子网络遮罩及闸道器IP地址。

如上所述，其中该反馈信息包括执行该操作行为时，该机柜服务器管理***、该机柜、各该端点服务器、该RMC及各该BMC分别产生的反馈、***参数及执行数据。

如上所述，其中该步骤b)包括下列步骤：

b1)依据该状态数据及该反馈信息判断各该BMC的其中之一是否失去与该机柜服务器管理***间的连线；

b2)依据该操作行为判断各该BMC的其中之一是否刚刚实施一网络设定作业；及

b3)于任一BMC刚刚实施了该网络设定作业，并于该网络设定作业后失去连线时，视为该BMC处于该第三类关注状态。

如上所述，其中该该步骤b1)是于任一BMC的网络模式设定为一静态IP模式，并且该BMC的静态IP地址与该数据中心内的一动态主机设定协定(Dynamic HostConfiguration Protocol,DHCP)服务器所配发的多组动态IP地址的其中之一重复时，判断该BMC失去连线。

如上所述，其中该步骤b1)是于任一BMC的网络模式设定为一静态IP模式，并且该BMC的闸道器IP地址设定错误时，判断该BMC失去连线。

如上所述，其中该步骤c包括下列步骤：

c1)于判断任一BMC处于该第三类关注状态时，判断并连接至主要负责该BMC的该RMC；

c2)控制该RMC通过该机柜的一内部硬件线路检查该BMC所属的该端点服务器，其中该RMC通过该内部硬件线路实体连接该机柜内的所有该BMC；

c3)于该端点服务器不存在时发出一警示信号；及

c4)于该端点服务器存在时，控制该RMC通过该内部硬件线路发送一智能平台管理界面(Intelligent Platform Management Interface,IPMI)指令至该BMC，以令该BMC恢复与该机柜服务器管理***间的连线。

如上所述，其中该步骤c4)是通过该IPMI指令重新设定该BMC的静态IP地址，或重新设定该BMC的闸道器IP地址。

相对于相关技术，本发明的方法由与机柜连线的机柜服务器管理***来进行分析并自动实施远端救援机制，无需等待管理者对于异常状态的人为判定，可大幅降低管理成本，亦使得机柜的监控无需人为干涉，也不受距离与时间的影响。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1为本发明的数据中心的示意图；

图2为本发明的机柜的方框图的第一具体实施例；

图3A为本发明的数据搜集流程图的第一具体实施例；

图3B为本发明的数据搜集流程图的第二具体实施例；

图4为本发明的分析与排除流程图的第一具体实施例；

图5为本发明的第一类关注状态排除流程图的第一具体实施例；

图6为本发明的第一类关注状态排除流程图的第二具体实施例；

图7为本发明的第二类关注状态排除流程图的第一具体实施例；

图8为本发明的第三类关注状态排除流程图的第一具体实施例。

其中，附图标记：

1…数据中心；

2…机柜；

21…机柜管理控制器；

211、221…网络接口控制器；

22…基板管理控制器；

23…内部网络交换机；

24…内部硬件线路；

3…机柜服务器管理***；

31…数据库；

4…公共网络交换机；

S11～S15、S21～S28…搜集步骤；

S31～S39…分析与排除步骤；

S41～S47、S51～S58、S61～S66、S71～S80…排除步骤。

具体实施方式

兹就本发明之一较佳实施例，配合附图，详细说明如后。

本发明揭露了一种机柜异常状态的远端排除方法(下面将于说明书中简称为排除方法)，所述排除方法主要运用于数据中心内，以协助管理者自动监控、分析并且排除数据中心内的异常状态。

参阅图1，为本发明的数据中心的示意图。如图1所示，本发明所述的数据中心1主要具有多个机柜2，以及由远端与多个机柜2连线的机柜服务器管理***3(下面简称为管理***3)。所述管理***3可设置于数据中心1的内部或外部，并且经由网络连接公共网络交换机4，再经由公共网络交换机4连接数据中心1内的多个机柜2。

本发明的管理***3可实时监控数据中心1内的多个机柜2、获取多个机柜2的各项信息、并且对这些信息进行分析。当发现任一机柜2发生异常状态或即将发生异常状态时，本发明的管理***3可自动实施对应的处理机制以进行状况排除。藉此，本发明可以在完全不需要人为介入、大幅降低人为误判并且提升处理速度的前提下，对机柜2已发生的异常状态进行排除，或对可能即将发生的异常状态进行预防。

于一实施例中，所述管理***3可为个人电脑或云端服务器，内部具有一或多个中央处理单元(图未标示)。管理***3被启动后，可通过公共网络交机4连接至数据中心1内的多个机柜2，并可藉由一或多个中央处理单元执行特定的应用程序与演算法，以实现对这些机柜2的监控、数据分析及异常状态排除。

所述管理***3还具有数据库31，用以暂存或永久保存从数据中心1内的多个机柜2所获得的各项信息。于图1的实施例中，所述数据库31是内建于管理***3。于其他实施例中，管理***3亦可从外部连接一或多个数据库31，不加以限定。

参阅图2，为本发明的机柜的方框图的第一具体实施例。图2的实施例中以数据中心1内的单一台机柜2连接至所述管理***3为例，进行说明，然而数据中心1可依实际所需设置多台的机柜2，而不以图2所示者为限。

如图2所示，本发明的机柜2内主要包括至少一个机柜管理控制器(RackManagement Controller,RMC)21，以及与RMC21连接的多台端点服务器220，其中各个端点服务器220分别具备至少一个基板管理控制器(Baseboard Management Controller,BMC)22。

所述RMC21为一种嵌入式***，设置于机柜2内，通过各式硬件线路协助处理机柜2的内部硬件设备(降温风扇，各式感测器或电源供应器等等设备)的所有对外通讯，并与机柜2内的所有端点服务器220的BMC22进行沟通。所述BMC22也为嵌入式***，设置于端点服务器220中并协助处理端点服务器220的内部硬件设备(各式感测器等等设备)的所有对外通讯。

本实施例中，RMC21通过内部硬件线路24连接机柜2内的所有端点服务器220的BMC22，藉由与各个BMC22沟通来控制各个端点服务器220并且获取所需信息。本实施例中，所述端点服务器可例如为直立式服务器(Tower Model Server)或刀锋服务器(BladeServer)等，但不加以限定。

如图2所示，设置在机柜2内的每一个端点服务器220分别具有一个固定的位置号码(如图2中的#1、#2、#n等)，当端点服务器220或是BMC22对外的网络功能失效时，RMC21可通过内部硬件线路24连接至机柜2内的指定位置(如上述的#1、#2、#n)，进而与该指定位置上的端点服务器220及BMC22沟通。如此一来，即使端点服务器220或是BMC22失去网络连线，机柜2仍可藉由RMC21来进行监控、管理各个BMC22并且排除各个BMC22的异常状况。

另，本发明的RMC21内设置有网络接口控制器(Network Interface Controller,NIC)211，各个BMC22内亦分别设置有网络接口控制器221。RMC21通过NIC211连接机柜2内部的内部网络交换机23，各个BMC22分别通过各自的NIC221连接所述内部网络交换机23。机柜2通过内部网络交换机23连接公共网络交换机4，并且藉由公共网络交换机4与所述管理***3建立网络连线。如此一来，管理***3可经由网络远程访问数据中心1内的机柜2，藉此查询并获取机柜2内的所有RMC21及BMC22的各项信息，并且储存于数据库31内。

本发明的主要技术特征在于，管理***3可经由网络定时访问机柜2，并获取机柜2内所有RMC21及BMC22的各项信息(例如状态数据、事件日志(event log)、***资源使用率、端点服务器220内部感测器的感测数值等等)，藉由这些信息来主动分析RMC21及BMC22是否发生异常状态，或即将发生异常状态。当管理***3经分析后认为有必要时，即可主动于远端实施对应的机制，以于远端直接排除RMC21及/或BMC22的异常状态，或是预先避免RMC21及/或BMC22进入所述异常状态。

本发明的技术方案可以在完全不需人为介入的情况下进行异常状态的处理，大幅降低了人为误判的可能，并且可令机柜2的监控达到高度自动化。

续请参阅图3A，为本发明的数据搜集流程图的第一具体实施例。

如图3A所示，若管理者欲对数据中心1内的机柜2进行监控，则管理者可直接启动远端的管理***3(步骤S11)。当管理***3被启动后，即会主动远程访问数据中心1中的机柜2(以图2中的单一个机柜2为例)内的RMC21及所有BMC22(步骤S12)。并且，管理***3藉由远程访问来取得机柜2中的RMC21及所有BMC22的各项信息(步骤S13)，再将所取得的信息储存于本地端的数据中31中(步骤S14)。

具体地，本实施例中，管理***3是在启动后定时主动访问机柜2，也就是将步骤S12、S13、S14的访问动作、信息取得动作及储存动作视为启动后的例行程序(routine)。于执行上述routine时，持续判断管理***3是否关闭(步骤S15)，并且于管理***3关闭前持续执行上述步骤S12至步骤S14，以持续对机柜2内的RMC21与BMC22进行监控。

参阅图3B，为本发明的数据搜集流程图的第二具体实施例。

本实施例中，当管理者启动了所述管理***3后(步骤S21)，管理***3可以提供一个操作界面(步骤S22)。通过这个操作界面，管理者可以登入管理***3，并且藉由管理***3来于远端对数据中心1中的各个机柜2进行信息监控以及控制。本实施例中，所述操作界面可为一个实体界面或网页(Web)界面，不加以限定。

在提供了所述操作界面后，管理***3持续判断是否通过操作界面接受了由管理者所进行的操作(步骤S23)。若确实接受到管理者的操作，则管理***3依据管理者的操作行为，从远端对机柜2以及机柜2内的RMC21及BMC22实施对应的远端管理(步骤S24)。接着，管理***3可记录管理者的上述操作行为(步骤S25)，并且，还可取得并记录管理***3、机柜2、各端点服务器220以及RMC21、BMC22因为所述远端管理而产生的反馈、***参数及执行数据等反馈信息(步骤S26)。最后，管理***3同样将所述操作行为及反馈信息储存于数据库31中(步骤S27)，以利于后续对于异常状态的分析动作。

相同地，本实施例的管理***3会将步骤S22至步骤S27的动作视为启动后的routine。于执行上述routine时，持续判断管理***3是否关闭(步骤S28)，并且于管理***3关闭前持续执行上述步骤S22至步骤S27，以持续监控并分析管理者所实施的操作行为对机柜2内的RMC21与BMC22所造成的影响。

续请参阅图4，为本发明的分析与排除流程图的第一具体实施例。

如图4所示，本实施例中管理***3会定时存取数据库31(步骤S31)，并且从数据库31中取得机柜2中的RMC21及BMC22各项信息、管理者的操作行为、以及各项反馈信息(步骤S32)，并且加以进行分析。藉由上述数据，管理***3可以分析出机柜2内的RMC21及各个BMC22是否处于预设的多种关注状态的其中之一(步骤S33)。

于一实施例中，所述管理***3可以实时地取得机柜2中的RMC21与BMC22的各项信息、实时地从操作界面取得管理者的操作行为，并且据以进行分析。于另一实施例中，管理***3可藉由图3A的步骤S14及图3B的步骤S27定时将上述数据储存至数据库31中，并且定时从数据库31中读取上述数据以进行分析，不加以限定。

于一实施例中，上述RMC21及BMC22的各项信息，可例如为状态数据(如目前处于工作模式或更新模式、IP地址、MAC地址、子网络遮罩、闸道器IP地址、IPMI session数量等)、事件日志(event log)等，而上述操作行为可例如为管理者针对特定机柜2、端点服务器220或RMC21、BMC22所实行的数据查询作业、更新作业、重置作业等，但不加以限定。通过上述数据，管理***3可以藉由执行对应演算法而分析出机柜2中目前是否具有需要即时救援的RMC21或BMC22。

于图4的实施例中，管理***3主要可预设至少三个种类的关注状态，包括第一类关注状态、第二类关注状态及第三类关注状态，其中这三类的关注状态分别对应至RMC21/BMC22不同的异常状况，并且分别需要由管理***3于远端直接实施不同的机制来加以排除或加以预防。

如图4所示，若管理***3依据上述数据(主要依据状态数据、事件日志及管理者的操作行为)进行分析后发现有任一RMC21或BMC22已处于异常状态，但尚未与管理***3失去连线，则会认定这个RMC21或BMC22是处于所述第一类关注状态(步骤S34)。当发现任一RMC21、BMC22处于第一类关注状态时，管理***3可自动对处于第一类关注状态的RMC21、BMC22实施远端恢复机制，以远程解除RMC21或BMC22的异常状态(步骤S37)。

若管理***3依据上述数据(主要依据RMC21与BMC22状态数据)进行分析后发现有任一RMC21或BMC22与管理***3的连线正常，但判断可能即将出现异常状态，则会认定这个RMC21或BMC22是处于所述第二类关注状态(步骤S35)。当发现任一RMC21、BMC22处于第二类关注状态时，管理***3可自动对处于第二类关注状态的RMC21、BMC22实施远端服务重启机制，以远程避免RMC21或BMC22进入可能的异常状态(步骤S38)。

若管理***3依据上述数据(主要依据状态数据、管理者的操作行为以及各项反馈信息)进行分析后发现有任一BMC22已失去了网络连线(即，管理***3无法远程直接访问这个BMC22)，则会认定这个BMC22是处于所述第三类关注状态(步骤S36)。当发现任一BMC22处于第三类关注状态时，管理***3可自动对处于第三类关注状态的BMC22实施远端救援机制，以远程排除BMC22失去连线的状态，并且使BMC22的网络连线恢复正常(步骤S39)。

下面段落讨论所述第一类关注状态。

由于部分的RMC21/BMC22不具备基本输入输出***(Basic Input/OutputSystem,BIOS)，因此需要通过外部服务器所提供的网络时间协定(Network TimeProtocol,NTP)服务，或是硬件时钟芯片提供的实时时钟(Real-time Clock,RTC)服务来设定时间，以与其他设备达到时间同步。

如上所述，若在RMC21或BMC22的时间同步程序尚未完成前发生了***事件，则虽然该***事件仍然会被记录在RMC21、BMC22的事件日志中，但该***事件的时间栏位将无法记录正确的事件发生时间，而只会记录例如“Pre-init”的字样。若没有正确的事件发生时间，则管理者无法将事件日志做为所述***事件的参考指标，这样将会导致判断错误。除此之外，若所述RMC21、BMC22需要进行重置(Reset)作业，也可能会造成上述***事件的事件发生时间记录错误或异常的情况。

参阅图5，为本发明的第一类关注状态排除流程图的第一具体实施例。本实施例中，所述管理***3会定时存取数据库31(步骤S41)，以由数据库31中取得机柜2内的RMC21及BMC22的状态数据及事件日志，并且判断RMC21及BMC22的状态变化(步骤S42)。

本实施例中，管理***3主要是判断所获得的事件日志中，是否有任一***事件的事件发生时间不明或错误(步骤S43)。若所述事件日志中的所有***事件皆记录了正确的事件发生时间，则管理***3不主动实施任何动作。

若经分析后，管理***3发现任一RMC21或BMC22具有时间不明或错误的***事件，则管理***3会将该RMC21或BMC22视为处于所述第一类关注状态(步骤S44)，即，认定这个RMC21或BMC22处于异常状态，但尚未失去网络连线。

于一实施例中，管理***3主要可于所述事件日志中的任一***事件的事件发生时间被记录为“Pre-init”或类似字样时(即，无法正确说明***事件的发生时间)，判断所述***事件的事件发生时间不明或错误。于另一实施例中，管理***3主要可以在从事件日志中发现任一RMC21或BMC22具有事件发生时间不明的***事件，并且从状态数据中发现这个RMC21或BMC22尚未完成时间同步程序或是需要进行重置作业时，判断所述***事件的事件发生时间不明或错误。

当管理***3于步骤S44中认定一个RMC21或BMC22处于第一类关注状态后，管理***3首先取得本次存取事件日志的时间戳记(步骤S45)，将这个时间戳记做为所述***事件的备位时间识别信息，并储存于数据库31中(步骤S46)。于一实施例中，管理***3是将本次存取数据库31以读取所述事件日志的时间做为上述时间戳记。于另一实施例中，管理***3是将本次远程访问机柜2并从RMC21、BMC22取得所述事件日志的时间做为上述时间戳记，但不加以限定。

举例来说，所述事件日志的原始内容可例如下表所示：

***事件	事件发生时间
		事件一	22.12.2018/23:30:18
事件二	Pre-init 0000000033
		事件三	22.12.2018/23:33:20

若管理***3在2018年12月22日的下午11时32分23秒时存取了所述事件日志，并发现事件二的事件发生时间有误，则管理***3可以主动为事件二产生所述备位时间识别信息，并且修改事件日志的内容或是产生新的事件日志。新的事件日志可例如下表所示：

***事件	事件发生时间	备位时间
			事件一	22.12.2018/23:30:18	x
事件二	Pre-init 0000000033	22.12.2018/23:32:23
			事件三	22.12.2018/23:33:20	x

当管理者通过所述操作界面登入管理***3，并且于管理***3中查询所述事件日志时，管理***3即可如上表所示，显示所述备位时间识别信息以做为事件二的事件发生时间。如此一来，即使RMC21或BMC22在时间同步未完成前发生一个***事件，管理***3仍可为该***事件设定一个可供识别的备位时间，以利管理***3以及管理者于对该***事件的解读，并藉此强化远端恢复的效果。

步骤S46后，管理***3可进一步通过网络发出控制指令(例如第一控制指令)至处于第一类关注状态的RMC21或BMC22，以对具有时间错误的异常状态的RMC21或BMC22执行时间校正程序(步骤S47)。于一实施例中，所述时间校正程序是控制RMC21或BMC22藉由NTP服务进行时间校正。于另一实施例中，所述时间校正程序是强制RMC21或BMC22进行重置作业，但不加以限定。

下面段落继续说明其他可能发生的第一类关注状态。

由于数据中心1内部的机柜2数量众多，当管理者有更新的需求时，实难以通过人工方式逐台进行更新。因此，当管理者要对机柜2内的RMC21、BMC22实施更新作业时(例如固件更新)，可对管理***3进行操作，以通过管理***3的相关程序码来发送更新指令以及最新版本的固件，藉此于远端同时更新数据中心1内的多个机柜2的RMC21及BMC22。

若于更新过程中遇到网络壅塞或网络信号不稳定造成网络连线中断等问题，使得部分RMC21、BMC22无法依循正常的更新流程完成更新作业，就有可能造成更新作业失败。然而，部分RMC21、BMC22在更新作业失败后仅会造成***无法正常运作，但并未失去网络连线(例如进入更新模式后无法恢复为工作模式)，此时就需要由管理***3于远端介入以进行异常状况排除。

参阅图6，为本发明的第一类关注状态排除流程图的第二具体实施例。本实施例中，管理***3同样定时存取数据库31(步骤S51)，以由数据库31中取得机柜2内的RMC21及BMC22的状态数据及事件日志，同时取得管理者通过操作界面所实施的操作行为，并且判断RMC21及BMC22的状态变化(步骤S52)。

本实施例中，管理***3首先可对RMC21及BMC22的状态数据以及事件日志进行分析，以判断是否有任一RMC21、BMC22的更新作业已逾时或发生错误(步骤S54)，并且判断所述更新作业逾时或发生错误的RMC21或BMC22的网络连线是否正常(步骤S55)。若管理***3在分析后发现有任一RMC21或BMC22的更新作业逾时或发生错误但网络连线仍然正常，则可将这个RMC21或BMC22视为处于所述第一类关注状态(步骤S56)，即，处于异常状态，但尚未失去连线。

更具体地，于上述步骤S52后，管理***3可先依据所述操作行为来判断管理者是否曾对机柜2中的RMC21及/或BMC22实施了更新作业(步骤S53)。并且，于确定了管理者曾经实施了更新作业后，管理***3再接续执行步骤S54以及步骤S55，以判断这些RMC21、BMC22的更新作业是否逾时或发生错误，以及网络连线是否正常。

所述RMC21、BMC22在接受了管理者实施的更新作业后，将会自动进入更新模式。此时，RMC21、BMC22会在状态数据中设定已进入更新模式的标记(flag)。当周边设备与RMC21、BMC22沟通并且读到更新模式的标记时，就会自动停止与这个RMC21、BMC22的互动。因此，只要RMC21、BMC22更新作业失败而无法离开更新模式，这个RMC21、BMC22就无法正常运作。当管理***3发现任一RMC21、BMC22接受了更新作业、更新作业已逾时或发生错误、但是尚未失去网络连线时，就可认定这个RMC21、BMC22处于所述第一关注状态。

步骤S56后，管理***3可进一步通过网络发出控制指令(例如第二控制指令)至处于第一类关注状态的RMC21或BMC22，以强制更新作业失败的RMC21或BMC22离开所述更新模式(步骤S57)。

如上所述，在本实施例所指的更新作业失败情况下(即，无法离开更新模式)，所述RMC21、BMC22仍可接收并处理相关的指令，只是周边设备在读到更新模式的标记(flag)时就会自动停止与RMC21、BMC22的互动。本实施例中，管理***3已判断所述RMC21、BMC22发生异常状态，因此会无视于上述标记，而藉由控制指令的发出来强制RMC21、BMC22离开更新模式。

步骤S57后，管理***3还可进一步通过网络发出另一控制指令(例如第三控制指令)至已离开更新模式的RMC21或BMC22，以强制RMC21或BMC22进行重置作业，或是再次实施所述更新作业(步骤S58)。藉此，管理***3可以确保RMC21、BMC22已恢复正常运作，并且固件或软件处于更新完成的最新版本。

下面段落接着讨论所述第二类关注状态。

本发明中的RMC21、BMC22为一种嵌入式***(Embbeded System)，因此即使机柜2内的端点服务器220未开机，管理***3仍可藉由与RMC21、BMC22的沟通来实现远程开机、远程关机、查看设备状态等远程管理功能。

一般来说，管理者在实施远程管理程序时，可在管理***3上使用智能平台管理界面(Intelligent Platform Management Interface,IPMI)工具程序来通过网络发送IPMI指令，藉此与机柜2内的RMC21、BMC22沟通。于使用IPMI工具程序的情况下，每一道指令的发送都需与目的地的RMC21、BMC22建立一个IPMI会话期间(session)，藉此才能与目的地的RMC21、BMC22进行沟通。具体地，在IPMI session建立完成后，管理***3才能通过网络与RMC21、BMC22以及机柜2、端点服务器220的底层硬件设备沟通，进而取得所述指令的执行结果(例如取得固件版本、端点服务器220内的所有感测器的感测数值等)。

惟，嵌入式***本身的运算资源是相当有限的，除了运作所需的基本资源消耗外，与RMC21的沟通、与BMC22的沟通以及回复数据中心1内的各式监控***等动作皆会进一步消耗嵌入式***的运算资源。

再者，当管理者通过管理***3对各个RMC21、BMC22实施远端管理程序时，也需消耗RMC21、BMC22的运算资源，最明显的就是令RMC21、BMC22的IPMI session数量大幅增加，使得RMC21、BMC22出现回应不及或是请求超时(timeout)的现象。此时，虽然所述RMC21、BMC22尚未发生异常状态，但可能需要由管理***3于远端介入以避免RMC21、BMC22将来发生异常状态而影响机柜2的运作。

参阅图7，为本发明的第二类关注状态排除流程图的第一具体实施例。本实施例中，所述管理***3同样会定时存取数据库31(步骤S61)，以由数据库31中取得机柜2内的RMC21及BMC22的状态数据，并且判断RMC21及BMC22的状态变化(步骤S62)。于一实施例中，管理***3在步骤S62中主要是取得RMC21及各个BMC22目前的IPMI session总数。于另一实施例中，管理***3在步骤S62中同时取得RMC21及各个BMC22目前的***资源使用率。

步骤S63后，管理***3判断是否有任一RMC21、BMC22的IPMI session总数高于第一门槛值(步骤S63)，并且于任一RMC21、BMC22的IPMI session总数高于第一门槛值时，认定这个RMC21、BMC22处于所述第二关注状态(步骤S65)，即，RMC21或BMC22的连线正常，但判断可能即将出现异常状态。

值得一提的是，若管理***3于步骤S62中同时取得了RMC21及各个BMC22的***资源使用率，则管理***3可同时判断是否有任一RMC21、BMC22的***资源使用率高于第二门槛值(步骤S64)。于此情境下，管理***3会认定目前的IPMI session总数高于第一门槛值，并且***资源使用率高于第二门槛值的RMC21或BMC22处于所述第二关注状态。

于一实施例中，所述***资源使用率为RMC21、BMC22的中央处理单元或记忆体的使用率。于另一实施例中，所述***资源使用率为RMC21、BMC22内部主要用来提供各项服务(如超文本传输协议(HyperText Transfer Protocol,HTTP)服务或IPMI服务等)所使用的***资源的使用率，但不加以限定。

当管理***3认定一个RMC21或BMC22处于第二类关注状态后，管理***3可进一步通过网络发出控制指令(例如第四控制指令)至处于第二类关注状态的RMC21或BMC22，以令所述RMC21或BMC22重启IPMI服务(步骤S66)。藉此，RMC21、BMC22可将目前累积的IPMIsession清空，以避免异常状态的发生。

于一实施例中，所述第四控制指令为重置指令，管理***3是通过网络发出重置指令至处于第二类关注状态的RMC21或BMC22，以强制RMC21或BMC22进行重置作业。如此一来，重置后的RMC21、BMC22即可直接重启IPMI服务。惟，上述仅为本发明的其中一个具体实施例，但不以上述为限。

通过上述技术方案，管理***3可以经由分析提早发现RMC21或BMC22可能即将发生异常状态，因此可主动于远端实施服务重启机制，以避免RMC21或BMC22真的发生异常状态而影响机柜2的运作。

下面段落接着讨论所述第三类关注状态。

如前文中所述，本发明的管理***3主要是通过网络与数据中心1内的机柜2中的RMC21、BMC22进行沟通，并且管理者也是通过网络对这些RMC21、BMC22实施远程管理程序。因此，当机柜2中的BMC22失去网络连线时，管理***3将无法与BMC22进行沟通，管理者也无法对BMC22进行管理。于本实施例中，BMC22失去网络连线的异常状况，可能是因为IP地址设定错误所引起的。

一般来说，机柜2内的BMC22可能被设定成使用动态IP地址(即，BMC22的网络模式被设定为动态IP模式)或静态IP地址(即，BMC22的网络模式被设定为静态IP模式)。若BMC22的网络模式为动态IP模式，则可由数据中心1内的动态主机设定协定(Dynamic HostConfiguration Protocol,DHCP)服务器(图未标示)来主动配发一组动态IP地址给BMC22使用。若BMC22的网络模式为静态IP模式，则管理者可通过管理***3的操作界面来自行为BMC22设定一组静态IP地址。

要对BMC22实施网络设定作业以设定一组可用的静态IP地址，管理者需经由管理***3下达至少四道指令给BMC22(即，需建立四个IPMI session)，包括：(1)设定BMC22的网络模式为静态IP模式；(2)设定静态IP地址；(3)设定子网络遮罩(netmask)；(4)设定闸道器(Gateway)IP地址。

如上所述，若管理者设定的静态IP地址错误(例如与DHCP服务器所配发的多组动态IP地址的其中之一重复)，或是闸道器IP地址设定错误，则在多个子网域共存的环境，或是需要通过闸道器才能沟通的环境下，所述BMC22将无法与管理***3连线。对于管理***3来说，虽然这个BMC22所属的端点服务器220仍然存在，但因为管理***3失去了与这个BMC22间的连线，因此将无法对这个BMC22(及其所属的端点服务器220)进行管理。此时，管理***3可能需要于远端介入以令BMC22恢复网络连线。

参阅图8，为本发明的第三类关注状态排除流程图的第一具体实施例。本实施例中，所述管理***3会定时存取数据库31(步骤S71)，以由数据库31中取得机柜2内的各个BMC22的状态数据、管理者通过管理***3实施的操作行为、以及管理***3基于所述操作行为所获得的各项反馈信息，并且判断BMC22的状态变化(步骤S72)。

于一实施例中，管理***3在步骤S72中取得的状态数据至少包括各个BMC22的网络模式(静态IP模式或动态IP模式)、目前使用的静态IP地址、子网络遮罩及闸道器IP地址等，不加以限定。并且，管理***3在步骤S72中取得的反馈信息主要包括所述操作行为实施时，管理***3、机柜2及各个端点服务器220(以及各个BMC22)基于这个操作行为所产生的反馈、***参数及执行数据等数据，但不加以限定。

步骤S72后，管理***3首先依据所述状态数据以及反馈信息判断机柜2中是否有任一BMC22失去了与管理***3间的连线(步骤S73)，并且，依据所述操作行为判断管理者是否刚刚为机柜2中的任一BMC22实施了网络设定作业(步骤S74)。若经分析后发现管理者刚刚对某一BMC22实施了网络设定作业，并且这个BMC22在网络设定作业后即失去连线，则管理***3即可将这个BMC22视为处于所述第三类关注状态(步骤S75)，即，BMC22已失去连线。

值得一提的是，于前述步骤S73中，管理***3主要可于任一BMC22的网络模式被设定为静态IP模式，并且这个BMC22的静态IP地址与DHCP服务器所配发的多组动态IP地址的其中之一重复时，判断这个BMC22失去网络连线(已经失去连线，或可能失去连线)。

另，于前述步骤S73中，管理***3还可于任一BMC22的网络模式被设定为静态IP模式，并且这个BMC22的闸道器IP地址设定错误时，判断这个BMC22失去网络连线(已经失去连线，或可能失去连线)。惟，上述仅为本发明的部分具体实施范例，但不应以上述为限。

于步骤S75后，管理***3已可认定某一BMC22处于所述第三类关注状态，接着，管理***3判断在数据中心1中主要负责这个BMC22的RMC21为何(步骤S76)，并且控制这个RMC21通过机柜2的内部硬件线路24检查所述BMC22所属的端点服务器220(步骤S77)，以确认这个端点服务器220是否存在(步骤S78)。

如图2所示，一个机柜2内的RMC21主要可通过内部硬件线路24实体连接机柜2中的所有端点服务器220中的BMC22，因此，即使BMC22失去网络连线，同一个机柜2内的RMC21仍可通过内部硬件线路24来与BMC22进行沟通。

若于上述步骤S78中判断所述端点服务器220不存在(例如已被抽离机柜2，或已经损坏)，则管理***3对应发出警示信号(步骤S79)。于一实施例中，管理***3可通过操作界面发出警示信号(例如文字、灯光或声响)，以对管理者进行警示。于另一实施例中，管理***3可通过网络发送警示信号(例如简讯、电子邮件或通讯软件)给管理者，以达到警示作用。

若于上述步骤S78中判断所述端点服务器220仍然存在，则管理***3控制所述RMC21通过内部硬件线路24发送一组IPMI指令至所述BMC22，以令BMC22恢复网络连线(步骤S80)。于一实施例中，管理***3可通过RMC21将IPMI指令发送至所述BMC22，以重新设定所述BMC22的静态IP地址，或是重新设定所述BMC22的闸道器IP地址，藉此令BMC22恢复与管理***3间的连线。

通过上述技术方案，管理***3可以在BMC22失去连线后主动于远端对BMC22实施救援机制，以令BMC22恢复网络连线。

本发明的方法可由管理***3自动搜集所需信息并对所有RMC21及BMC22的状态进行分析，同时于任一RMC21、BMC22处于多种关注状态之一时自动实施对应机制以排除异常状态。如此一来，本发明的技术方案可大幅降低管理成本，亦使得数据中心1的监控无需人为干涉，也不受距离与时间的影响。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种运用于数据中心的机柜异常状态的远端排除方法，运用于具有一机柜及由远端与该机柜连接的一机柜服务器管理***的一数据中心，其中该机柜具有一RMC及多个端点服务器，各该端点服务器分别具有一BMC，其特征在于，该远端排除方法包括：

2.根据权利要求1所述的运用于数据中心的机柜异常状态的远端排除方法，其特征在于，更包括下列步骤：

a01)该机柜服务器管理***启动；

a03)取得该RMC及各该BMC的该状态数据；

a04)将该状态数据储存至该数据库；及

3.根据权利要求1所述的运用于数据中心的机柜异常状态的远端排除方法，其特征在于，更包括下列步骤：

a11)该机柜服务器管理***启动；

a12)该步骤a11)后，该机柜服务器管理***提供一操作界面；

a14)取得该远端管理程序对应的该反馈信息；

a15)将该操作行为及该反馈信息储存至该数据库；及

4.根据权利要求1所述的运用于数据中心的机柜异常状态的远端排除方法，其特征在于，该状态数据至少包括各该BMC的网络模式、IP地址、子网络遮罩及闸道器IP地址。

5.根据权利要求1所述的运用于数据中心的机柜异常状态的远端排除方法，其特征在于，该反馈信息包括执行该操作行为时，该机柜服务器管理***、该机柜、各该端点服务器、该RMC及各该BMC分别产生的反馈、***参数及执行数据。

6.根据权利要求1所述的运用于数据中心的机柜异常状态的远端排除方法，其特征在于，该步骤b)包括下列步骤：

7.根据权利要求6所述的运用于数据中心的机柜异常状态的远端排除方法，其特征在于，该该步骤b1)是于任一BMC的网络模式设定为一静态IP模式，并且该BMC的静态IP地址与该数据中心内的一动态主机设定协定服务器所配发的多组动态IP地址的其中之一重复时，判断该BMC失去连线。

8.根据权利要求6所述的运用于数据中心的机柜异常状态的远端排除方法，其特征在于，该步骤b1)是于任一BMC的网络模式设定为一静态IP模式，并且该BMC的闸道器IP地址设定错误时，判断该BMC失去连线。

9.根据权利要求6所述的运用于数据中心的机柜异常状态的远端排除方法，其特征在于，该步骤c包括下列步骤：

c3)于该端点服务器不存在时发出一警示信号；及

c4)于该端点服务器存在时，控制该RMC通过该内部硬件线路发送一IPMI指令至该BMC，以令该BMC恢复与该机柜服务器管理***间的连线。

10.根据权利要求9所述的运用于数据中心的机柜异常状态的远端排除方法，其特征在于，该步骤c4)是通过该IPMI指令重新设定该BMC的静态IP地址，或重新设定该BMC的闸道器IP地址。