CN102023916B - 电脑***的检测方法 - Google Patents

电脑***的检测方法 Download PDF

Info

Publication number
CN102023916B
CN102023916B CN2009101721603A CN200910172160A CN102023916B CN 102023916 B CN102023916 B CN 102023916B CN 2009101721603 A CN2009101721603 A CN 2009101721603A CN 200910172160 A CN200910172160 A CN 200910172160A CN 102023916 B CN102023916 B CN 102023916B
Authority
CN
China
Prior art keywords
computer system
error
measured
mis repair
detecting instrument
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009101721603A
Other languages
English (en)
Other versions
CN102023916A (zh
Inventor
范国成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Gaohang Intellectual Property Operation Co ltd
TIANJIN YONGLANG TECHNOLOGY Co.,Ltd.
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN2009101721603A priority Critical patent/CN102023916B/zh
Publication of CN102023916A publication Critical patent/CN102023916A/zh
Application granted granted Critical
Publication of CN102023916B publication Critical patent/CN102023916B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种电脑***的检测方法。此方法提供一错误检测工具及多个不可修复错误。接着,错误检测工具选择其中一个不可修复错误以作为待测不可修复错误,并且于电脑***模拟待测不可修复错误。在电脑***因待测不可修复错误而重新启动后,错误检测工具被再次执行以判断硬体监控控制器所记录的***日志是否包括对应的***事件。若是,则错误检测工具选择另一不可修复错误作为待测不可修复错误,并重复上述模拟待测不可修复错误以及判断***日志是否包括对应的***事件的步骤,直到每个不可修复错误均被选择过为止。本发明提供的电脑***的检测方法可以有效地判断电脑***对错误发生时的反应。

Description

电脑***的检测方法
技术领域
本发明涉及一种电脑***的检测方法,尤其涉及一种检测在模拟***错误后所产生的***日志的方法及其相关应用。 
背景技术
对于必须随时提供服务而持续处在开机工作状态的伺服器***来说,一旦发生了与中央处理器、存储器,或周边组件互连(Peripheral ComponentInterconnect;简称为:PCI)相关的不可修复错误而导致重新启动时,***应当产生与所发生的错误相关的日志档案,进而方便***管理员通过日志内容判断错误的种类,从而对错误原因进行进一步的修复。 
然而,由于伺服器***具备相当强大且多样化的功能,在运行过程中可能发生的不可修复错误种类也十分地多。一般来说,为了确认伺服器***能否正确地在发生错误时将对应的事件记录于日志,***测试人员必须针对所有可能发生的错误,以人工的方式逐一进行测试。换句话说,***测试人员必须自行选择所要测试的错误,而在模拟错误发生后还必须等待***重新启动,接着再自行检查***所产生的日志是否正确。除此之外,***测试人员也必须记录目前已检测了哪些错误,以及在发生哪些错误时***无法产生正确的日志。不难想见,这样的检测方式不仅耗时费力,而且也无法取得一个全面性的检测结果。 
发明内容
本发明的目的是提供一种电脑***的检测方法,用以自动检测电脑***在发生所有可能产生的不可修复错误(uncorrectable error)时,所产生的 ***日志(log)的正确性。 
本发明提供一种电脑***的检测方法,用以检测具有硬体监控控制器的电脑***发生错误时的反应。此方法首先提供一错误检测工具,此错误检测工具置于电脑***的启动目录中,并提供数个不可修复错误。接着,错误检测工具选择其中一个不可修复错误以作为待测不可修复错误。在电脑***上模拟待测不可修复错误。在电脑***因应待测不可修复错误而重新启动之后,错误检测工具被再次执行以判断硬体监控控制器所记录的***日志是否包括对应于待测不可修复错误的***事件。若***日志包括上述***事件,则错误检测工具选择其中的另一不可修复错误以作为新的待测不可修复错误,并重复上述模拟待测不可修复错误以及在电脑***重新启动后判断***日志是否包括对应的***事件的步骤,直到各个不可修复错误皆被选择过为止。 
在本发明的一实施例中,其中在电脑***重新启动后执行错误检测工具的步骤包括在电脑***已载入作业***后启动错误检测工具。 
在本发明的一实施例中,其中错误检测工具在电脑***上模拟待测不可修复错误的步骤包括发送对应于待测不可修复错误的中断信号至电脑***的基本输入输出***(Basic Input/Output System;简称为:BIOS),并由基本输入输出***执行电脑***的重新启动程序。 
在本发明的一实施例中,其中错误检测工具在电脑***上模拟待测不可修复错误的步骤还包括将目前所要模拟的待测不可修复错误记录于电脑***的储存单元。 
在本发明的一实施例中,其中错误检测工具判断***日志是否包括对应于待测不可修复错误的***事件的步骤包括取得储存单元所记录的待测不可修复错误,并根据错误规格判断电脑***在发生待测不可修复错误时所应产生的***事件,最后再分析***日志是否包括上述***事件。 
在本发明的一实施例中,其中在错误检测工具判断***日志是否包括对应于待测不可修复错误的***事件的步骤之后,还包括若***日志并不包括对应于待测不可修复错误的***事件,则错误检测工具记录一错误信息以表示电脑***在发生待测不可修复错误时无法产生对应的***事件。 
在本发明的一实施例中,其中在错误检测工具判断***日志是否包括对应于待测不可修复错误的***事件的步骤之后,还包括若所述***日志不包括所述***事件,则在模拟所述待测不可修复错误的一次数到达一预设值之前,执行下列步骤:重新在电脑***上模拟待测不可修复错误。而在电脑***因应待测不可修复错误而重新启动后,错误检测工具被重新执行以判断***日志是否包括***事件。若***日志仍旧不包括***事件,则错误检测工具重复执行上述模拟待测不可修复错误以及判断***日志是否包括***事件的步骤。接着,在模拟所述待测不可修复错误的所述次数到达所述预设值时,错误检测工具记录错误信息以表示电脑***在发生待测不可修复错误时无法产生对应的***事件。 
在本发明的一实施例中,其中不可修复错误包括不可遮罩式中断(Non-Maskable Interrupt;简称为:NMI)错误以及***管理中断(System Management Interrupt;简称为:SMI)错误。 
在本发明的一实施例中,其中硬体监控控制器包括基板管理控制器(Baseboard Management Controller;简称为:BMC)。 
基于上述,本发明可以自动模拟电脑***可能发生的每种不可修复错误,并检测在发生各个不可修复错误后电脑***是否记录了对应的***事件。如此一来便能大幅增加检测上的便利性,同时缩短进行检测所需要的时间与人力。 
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并结合附图作详细说明如下。 
附图说明
图1是本发明的一实施例的电脑***的检测方法的流程图。 
图2是本发明的另一实施例的电脑***的检测方法的流程图。 
主要元件符号说明: 
105~170:本发明的一实施例的电脑***的检测方法的各步骤; 
205~280:本发明的另一实施例的电脑***的检测方法的各步骤。 
具体实施方式
图1是本发明的一实施例的电脑***的检测方法的流程图。本实施例是以具有硬体监控控制器的电脑***为例,说明检测电脑***在发生各种不可修复错误(uncorrectabl e error)时是否都能产生对应的***事件的详细步骤。其中,硬体监控控制器可以是基板管理控制器(Baseboard ManagementController;简称为:BMC),而电脑***可以是伺服器***等等,在此并不对电脑***的种类加以限制。 
首先在步骤105中,提供一错误检测工具,此错误检测工具是被置于电脑***的启动目录中。详细地说,所有被置于启动目录的应用程序或档案,都将在电脑***开机后被加载运行。而在本实施例中,是将错误检测工具的捷径或执行档置于电脑***的启动目录,在此并不加以限制。 
接着如步骤110所示,提供多个不可修复错误。不可修复错误是指在发生时会迫使电脑***重新启动的错误。在一实施例中,上述不可修复错误可以是依据电脑***架构而可能发生的所有不可修复错误,好比像是不可遮罩式中断(Non-Maskable Interrupt;简称为:NMI)错误或***管理中断(SystemManagement Interrupt;简称为:SMI)错误等等。而在另一实施例中,则可以由***测试人员自电脑***可能发生的所有不可修复错误中,选择部分错误以作为测试目标。 
接着如步骤120所示,错误检测工具自所定义的所有不可修复错误中,选择其一以作为接着要进行检测的待测不可修复错误。并且在步骤130中,错误检测工具在电脑***上模拟待测不可修复错误。举例来说,错误检测工具是利用软件来模拟电脑***发生错误的情况。即,错误检测工具在模拟错误发生时是通过软件将对应于待测不可修复错误的中断信号发送到电脑*** 的基本输入输出***(Basic Input/Output System;简称为:BIOS)。 
而基本输入输出***在收到表示待测不可修复错误的中断信号后,便会开始执行电脑***的重新启动程序。因此如步骤140所示,电脑***将因应待测不可修复错误而重新启动。接着在步骤145中,反复判断电脑***是否已顺利载入作业***。若已顺利载入作业***,表示电脑***的状态已趋于稳定状态,因此如步骤147所示,错误检测工具将被自动执行。并如步骤150所示,由错误检测工具判断硬体监控控制器所记录的***日志(log)是否包括对应于待测不可修复错误的***事件。 
在本实施例中,由于在电脑***模拟发生待测不可修复错误的情况时,会同时将目前所要模拟的待测不可修复错误记录在电脑***的储存单元。因此在电脑***重新启动之后,错误检测工具便可自储存单元取得之前所测试的是哪个待测不可修复错误,并且根据错误规格来判断电脑***在发生上述待测不可修复错误时所应产生的是哪种***事件,接着便可分析***日志是否包括了对应的***事件。 
倘若错误检测工具在分析***日志后发现在***日志中并未记录与待测不可修复错误相对应的***事件,则如步骤160所示,错误检测工具记录一错误信息以表示电脑***在发生此待测不可修复错误时,并不能正确地产生对应的***事件。然而倘若在***日志中记录有对应待测不可修复错误的***事件,则如步骤170所示,错误检测工具判断是否还有其他尚未检测的不可修复错误。若仍有未检测到的不可修复错误,则此检测方法的流程将回到步骤120,由错误检测工具选择另一个不可修复错误以作为下一个待测不可修复错误,并重复图1所示的各步骤直到每个不可修复错误都被选择且检测完毕为止。 
通过图1所示的检测方法,可以自动地在模拟发生不可修复错误时,判断基本输入输出***是否可产生与错误相关的***事件,并且判断***事件有无被正确地储存在硬体监控控制器所记录的***日志当中,进而大幅提升 检测的效率。 
值得一提的是,在某些情况下当电脑***因发生不可修复错误而须重新启动时,可能会因为太快进入重新启动程序而导致来不及将对应的***事件记录到***日志中。以下的实施例则是为了避免上述情况造成检测时的误判,从而进一步确保检测结果的正确性。 
图2是本发明的另一实施例的电脑***的检测方法的流程图。如图2所示,本实施例同样是以具有硬体监控控制器的电脑***为例来对本发明进行说明。然而,由于图2所示的步骤205至步骤250与图1的步骤105至步骤150相同或相似,故在此便不再赘述。 
倘若步骤250的判断结果显示***日志包括对应于待测不可修复错误的***事件,表示电脑***在发生此一待测不可修复错误时,基本输入输出***可以正确地产生相关的***事件,且***事件也能被记录在***日志中。因此接下来如步骤280所示,错误检测工具判断是否还有其他尚未检测的不可修复错误。若有尚未检测的不可修复错误,则此方法将回到步骤220,错误检测工具重新选择另一个待测不可修复错误,并重复步骤230至步骤280的动作,直到所有不可修复错误均检测完毕为止。 
然而,倘若步骤250的判断结果显示***日志并不包括对应于待测不可修复错误的***事件,那么如步骤260所示,错误检测工具首先判断模拟此待测不可修复错误的次数是否到达预设值(例如5次)。倘若模拟次数并未达预设值,则检测方法的流程将回到步骤230,错误检测工具重新在电脑***上模拟此一待测不可修复错误。并如步骤240至步骤250所示,判断能否产生对应的***事件。此检测方法会在无法产生对应的***事件且模拟次数尚未到达预设值之前,不断进行重新模拟与判断的动作。然而倘若仍旧无法产生***事件,且模拟此一待测不可修复错误的次数已到达预设值,则如步骤270所示,错误检测工具将表示电脑***在发生待测不可修复错误时无法产生对应的***事件的错误信息记录下来。接下来如步骤280所示,错误检 测工具判断是否有其他尚未检测的不可修复错误。若存在其他尚未检测的不可修复错误,则反复执行步骤220至步骤280。若所有的不可修复错误均检测完毕,则结束此检测方法的流程。 
如图2所示,在本实施例中当模拟一不可修复错误却无法产生对应的***事件时,此检测方法将会重复模拟同样的不可修复错误数次。如此一来,只要基本输入输出***确实有产生***事件,便可以避免将因为太快进入重新启动程序而无法即时将***事件记录到***日志的情况直接判断为无法产生***事件。据此可以避免误判,进而确保检测结果的正确性。 
综上所述,本发明所述的电脑***的检测方法是针对电脑***可能发生的不可修复错误进行检测,自动判断电脑***在面临每个不可修复错误时,能否正确地产生***事件并将其记录至***日志。如此一来,不仅可以更有效率地判断电脑***对错误发生时的反应,同时也不再需要通过人工的方式逐一对各种不可修复错误进行模拟测试,进而大幅提升检测分析时的便利性。 
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。 

Claims (9)

1.一种电脑***的检测方法,其特征在于,用以检测具有一硬体监控控制器的一电脑***发生错误时的反应,所述方法包括:
提供一错误检测工具,且所述错误检测工具置于所述电脑***的一启动目录中;
提供多个不可修复错误;
所述错误检测工具选择所述多个不可修复错误其中之一作为一待测不可修复错误;
所述错误检测工具在所述电脑***上模拟所述待测不可修复错误;
在所述电脑***因所述待测不可修复错误而重新启动后,执行所述错误检测工具;
所述错误检测工具判断所述硬体监控控制器所记录的一***日志是否包括对应于所述待测不可修复错误的一***事件;以及
若是,则所述错误检测工具选择所述多个不可修复错误其中的另一个以作为所述待测不可修复错误,并重复上述模拟所述待测不可修复错误以及在所述电脑***重新启动后判断所述***日志是否包括对应的所述***事件的步骤,直到各所述多个不可修复错误均被选择过为止。
2.根据权利要求1所述的电脑***的检测方法,其特征在于,其中在所述电脑***重新启动后执行所述错误检测工具的步骤包括:
在所述电脑***已载入一作业***后启动所述错误检测工具。
3.根据权利要求1所述的电脑***的检测方法,其特征在于,其中所述错误检测工具在所述电脑***上模拟所述待测不可修复错误的步骤包括:
发送对应所述待测不可修复错误的一中断信号至所述电脑***的一基本输入输出***;以及
由所述基本输入输出***执行所述电脑***的一重新启动程序。
4.根据权利要求1所述的电脑***的检测方法,其特征在于,其中所述 错误检测工具在所述电脑***上模拟所述待测不可修复错误的步骤还包括:
记录目前所要模拟的所述待测不可修复错误于所述电脑***的一储存单元。
5.根据权利要求4所述的电脑***的检测方法,其特征在于,其中所述错误检测工具判断所述***日志是否包括对应于所述待测不可修复错误的所述***事件的步骤包括:
取得所述储存单元所记录的所述待测不可修复错误;
根据一错误规格判断所述电脑***在发生所述待测不可修复错误时所应产生的所述***事件;以及
分析所述***日志是否包括所述***事件。
6.根据权利要求1所述的电脑***的检测方法,其特征在于,其中在所述错误检测工具判断所述***日志是否包括对应于所述待测不可修复错误的所述***事件的步骤之后,还包括:
若所述***日志不包括对应于所述待测不可修复错误的所述***事件,所述错误检测工具记录一错误信息以表示所述电脑***在发生所述待测不可修复错误时无法产生对应的所述***事件。
7.根据权利要求1所述的电脑***的检测方法,其特征在于,其中在所述错误检测工具判断所述***日志是否包括对应于所述待测不可修复错误的所述***事件的步骤之后,还包括:
若所述***日志不包括所述***事件,则在模拟所述待测不可修复错误的一次数到达一预设值之前,执行下列步骤:
所述错误检测工具重新在所述电脑***上模拟所述待测不可修复错误;
在所述电脑***因所述待测不可修复错误而重新启动后,执行所述错误检测工具;
所述错误检测工具判断所述***日志是否包括所述***事件; 
若所述***日志不包括所述***事件,则所述错误检测工具重复执行上述模拟所述待测不可修复错误以及判断所述***日志是否包括所述***事件的步骤;以及
在模拟所述待测不可修复错误的所述次数到达所述预设值时,所述错误检测工具记录一错误信息以表示所述电脑***在发生所述待测不可修复错误时无法产生对应的所述***事件。
8.根据权利要求1所述的电脑***的检测方法,其特征在于,其中所述多个不可修复错误包括不可遮罩式中断错误以及***管理中断错误。
9.根据权利要求1所述的电脑***的检测方法,其特征在于,其中所述硬体监控控制器包括一基板管理控制器。 
CN2009101721603A 2009-09-10 2009-09-10 电脑***的检测方法 Expired - Fee Related CN102023916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101721603A CN102023916B (zh) 2009-09-10 2009-09-10 电脑***的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101721603A CN102023916B (zh) 2009-09-10 2009-09-10 电脑***的检测方法

Publications (2)

Publication Number Publication Date
CN102023916A CN102023916A (zh) 2011-04-20
CN102023916B true CN102023916B (zh) 2012-11-28

Family

ID=43865235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101721603A Expired - Fee Related CN102023916B (zh) 2009-09-10 2009-09-10 电脑***的检测方法

Country Status (1)

Country Link
CN (1) CN102023916B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247650B (zh) * 2017-05-02 2019-06-18 华中科技大学 一种伺服驱动***长程监控方法
CN111221677B (zh) * 2018-11-27 2023-06-09 环达电脑(上海)有限公司 侦错备份方法与服务器
CN112346786B (zh) * 2019-08-08 2022-07-12 佛山市顺德区顺达电脑厂有限公司 应用于开机阶段及开机后运行阶段的除错信息纪录方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1369802A (zh) * 2001-02-14 2002-09-18 英业达股份有限公司 记录并自动恢复流程状态的方法
CN101075197A (zh) * 2006-05-20 2007-11-21 技嘉科技股份有限公司 利用bios模拟ipmi的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1369802A (zh) * 2001-02-14 2002-09-18 英业达股份有限公司 记录并自动恢复流程状态的方法
CN101075197A (zh) * 2006-05-20 2007-11-21 技嘉科技股份有限公司 利用bios模拟ipmi的方法

Also Published As

Publication number Publication date
CN102023916A (zh) 2011-04-20

Similar Documents

Publication Publication Date Title
US10552301B2 (en) Completing functional testing
US9824002B2 (en) Tracking of code base and defect diagnostic coupling with automated triage
US6532552B1 (en) Method and system for performing problem determination procedures in hierarchically organized computer systems
US9747192B2 (en) Automated operating system installation on multiple drives
US9971674B2 (en) System and method for testing software in a multi-platform testing environment
US10049031B2 (en) Correlation of violating change sets in regression testing of computer software
US20120331449A1 (en) Device, method and computer program product for evaluating a debugger script
US8117430B2 (en) Boot test system and method thereof
US9594670B2 (en) Managing software dependencies during software testing and debugging
US9542304B1 (en) Automated operating system installation
US10552242B2 (en) Runtime failure detection and correction
US20120254662A1 (en) Automated test system and automated test method
CN105718340A (zh) 一种基于Crontab的CPU稳定性的测试方法
CN101989220A (zh) 压力测试方法
JP5495310B2 (ja) 情報処理装置、障害解析方法及び障害解析プログラム
CN102023916B (zh) 电脑***的检测方法
US20100251029A1 (en) Implementing self-optimizing ipl diagnostic mode
US7827540B2 (en) Method for program debugging
TW202018312A (zh) 測試系統
CN109857583B (zh) 一种处理方法及装置
US7415560B2 (en) Method of automatically monitoring computer system debugging routine
US20070168978A1 (en) Computer program code debugging method and system
CN110096888B (zh) 一种加快验证及分析smm安全隐患的方法及***
CN101206592A (zh) 电源管理表格的诊断方法
US20100318854A1 (en) System and method for checking firmware definition file

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Li Fei

Inventor before: Fan Guocheng

CB03 Change of inventor or designer information
TR01 Transfer of patent right

Effective date of registration: 20170418

Address after: 300352 Binhai New Area, Tianjin Binhai private economic growth demonstration base creative center, block 12A-277, A

Patentee after: TIANJIN YONGLANG TECHNOLOGY Co.,Ltd.

Address before: Tianhe District Tong East Road Guangzhou city Guangdong province 510665 B-101 No. 5, room B-118

Patentee before: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Effective date of registration: 20170418

Address after: Tianhe District Tong East Road Guangzhou city of Guangdong Province, No. 5, room B-118 B-101

Patentee after: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Address before: Taipei City, Taiwan Chinese Shilin District Hougang Street No. 66

Patentee before: Yingda Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121128

Termination date: 20180910

CF01 Termination of patent right due to non-payment of annual fee