CN112988445A - 一种计算机板卡故障诊断方法、***及计算机板卡 - Google Patents

一种计算机板卡故障诊断方法、***及计算机板卡 Download PDF

Info

Publication number
CN112988445A
CN112988445A CN202110422728.3A CN202110422728A CN112988445A CN 112988445 A CN112988445 A CN 112988445A CN 202110422728 A CN202110422728 A CN 202110422728A CN 112988445 A CN112988445 A CN 112988445A
Authority
CN
China
Prior art keywords
fault
instruction
computer board
information
board card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110422728.3A
Other languages
English (en)
Inventor
陈和平
王康斌
陈军
佘乾宇
易辅
喻政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Xing Tian Electronic Technology Co ltd
Original Assignee
Hunan Xing Tian Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Xing Tian Electronic Technology Co ltd filed Critical Hunan Xing Tian Electronic Technology Co ltd
Priority to CN202110422728.3A priority Critical patent/CN112988445A/zh
Publication of CN112988445A publication Critical patent/CN112988445A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

一种计算机板卡故障诊断方法、***及计算机板卡,计算机板卡故障诊断方法包括以下步骤:构建故障标准指令库,故障标准指令库中存储有多个故障标准指令;获取计算机板卡的运行数据,生成对应的第一故障指令;获取中央处理器中的故障信息,生成对应的第二故障指令;将故障指令存储到第一存储单元中;读取第一存储单元中的故障指令,匹配与故障指令对应的故障标准指令;显示与该故障标准指令对应的具体故障信息。本发明实施例可以自动对计算机板卡故障产生的原因进行排查和分析,且整个计算机板卡故障诊断方法对数据处理能力的要求较低,不需要使用高成本的处理器进行辅助运算,可以有效的节约诊断成本,适合进行规模化生产和推广。

Description

一种计算机板卡故障诊断方法、***及计算机板卡
技术领域
本发明属于计算机数据处理领域,具体涉及一种计算机板卡故障诊断方法、***及计算机板卡。
背景技术
随着经济和科技的发展,计算机板卡的功能越来越多、计算能力也越来越强,开始被广泛的应用到在汽车、工业、军事等领域。但是,计算机板卡在使用过程中,难以避免的会出现故障,而现有的计算机板卡不具备故障诊断的能力,因此,在遇到故障时,通常是采用人工使用电压表、示波器等设备进行故障诊断的方式,这种诊断方式花费时间较长,且对于诊断人员的专业素养要求较高。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种计算机板卡故障诊断方法,所述计算机板卡故障诊断方法解决了计算机板卡需要人工进行诊断的问题。本发明还提出了一种计算机板卡故障诊断***和计算机板卡。
根据本发明第一方面实施例的计算机板卡故障诊断方法,包括以下步骤:
构建故障标准指令库,所述故障标准指令库中存储有多个故障标准指令,每个故障标准指令对应不同的具体故障信息;
获取计算机板卡的运行数据;
若所述运行数据超过预设的告警门限值,则生成对应的第一故障指令;
与所述计算机板卡的中央处理器进行通讯,获取所述中央处理器中的故障信息,依据所述故障信息生成对应的第二故障指令;
将所述第一故障指令和/或第二故障指令存储到第一存储单元中;
响应于用户操作,读取所述第一存储单元中的所述第一故障指令和/或第二故障指令,并依据所述故障标准指令库,匹配与所述第一故障指令和/或第二故障指令对应的故障标准指令;显示与该故障标准指令对应的具体故障信息。
根据本发明实施例的计算机板卡故障诊断方法,至少具有如下技术效果:通过与中央处理器通讯,可以直接获取中央处理器检测到的故障信息,通过获取运行数据,可以获取计算机板卡***环境的信息,进而对整个计算机板卡可能出现故障的位置实现监测;在确认故障指令后,通过存储到第一存储单元,可以避免故障指令在断电之后丢失,且仅存储故障指令,也能够有效减小对无用或重复数据的传输和存储。通过构建故障标准指令库,使得故障指令可以简单、快速确认具体故障信息。本发明实施例的计算机板卡故障诊断方法可以自动对计算机板卡故障产生的原因进行排查和分析,且整个计算机板卡故障诊断方法对数据处理能力的要求较低,不需要使用高成本的处理器进行辅助运算,可以有效的节约诊断成本,适合进行规模化生产和推广。
根据本发明的一些实施例,每个所述第一故障指令和第二故障指令皆包括编码信息、数据信息、时间信息;每个所述故障标准指令皆包括不同的标准编码信息、所述具体故障信息;所述编码信息和所述标准编码信息的生成规则一致。
根据本发明的一些实施例,所述匹配与所述第一故障指令和/或第二故障指令对应的故障标准指令包括以下步骤:
解析出所述第一故障指令和/或第二故障指令的编码信息、数据信息、时间信息;
依据所述第一故障指令和/或第二故障指令的编码信息对所述故障标准指令库进行扫描,获取与所述第一故障指令和/或第二故障指令的编码信息对应的标准编码信息,并读取与该标准编码信息对应的具体故障信息。
根据本发明的一些实施例,所述运行数据包括电压数据、电流数据、温度数据、风扇运行数据,所述电压数据、电流数据、温度数据、风扇运行数据分别对应不同的告警门限值。
据本发明第二方面实施例的计算机板卡故障诊断***,包括:
BMC单元, 设置于计算机板卡上并与所述计算机板卡的中央处理器连接,用于接收并检测所述计算机板卡的运行数据是否异常并生成对应的第一故障指令,以及接收所述中央处理器传输的故障信息并生成对应的第二故障指令;
第一存储单元,设置于所述计算机板卡上并与所述BMC单元连接,用于存储所述BMC单元传输的所述第一故障指令和/或第二故障指令;
诊断处理器,与所述第一存储单元连接,用于获取所述第一存储单元中存储的所述第一故障指令和/或第二故障指令;
第二存储单元,与所述诊断处理器连接,其内存储有故障标准指令库,所述故障标准指令库中存储有多种故障标准指令,每个故障标准指令对应不同的具体故障信息;所述第二存储单元和所述诊断处理器共同用于完成对所述第一故障指令和/或第二故障指令与故障标准指令的匹配;
显示单元,与所述诊断处理器连接。
根据本发明实施例的计算机板卡故障诊断***,至少具有如下技术效果:BMC单元通过与中央处理器通讯,可以直接获取中央处理器检测到的故障信息,BMC单元通过获取运行数据,可以获取计算机板卡***环境的信息,进而对整个计算机板卡可能出现故障的位置实现监测;在BMC单元确认故障指令后,通过存储到第一存储单元,可以避免故障指令在断电之后丢失,且仅存储故障指令,也能够有效减小对无用或重复数据的传输和存储。通过在第二存储单元中构建故障标准指令库,使得诊断处理器可以依据故障指令简单、快速确认具体故障信息。本发明实施例的计算机板卡故障诊断***可以自动对计算机板卡故障产生的原因进行排查和分析,且整个计算机板卡故障诊断***对数据处理能力的要求较低,不需要使用高成本的处理器进行辅助运算,可以有效的节约诊断成本,适合进行规模化生产和推广。
根据本发明的一些实施例,每个所述第一故障指令和第二故障指令皆包括编码信息、数据信息、时间信息;每个所述故障标准指令皆包括不同的标准编码信息、所述具体故障信息;所述编码信息和所述标准编码信息的生成规则一致。
根据本发明的一些实施例,所述BMC单元包括:
传感器组,用于采集所述计算机板卡的运行数据;
主控器,分别与所述中央处理器、第一存储单元、传感器组连接,用于接收所述中央处理器传输的故障信息并生成对应的第二故障指令,以及检测所述计算机板卡的运行数据是否异常并生成对应的第一故障指令。
根据本发明的一些实施例,所述传感器组包括:
温度传感器,用于采集所述计算机板卡的温度数据;
电流传感器和电压传感器,用于采集所述计算机板卡的电压数据和电流数据;
风扇状态检测传感器,用于采集所述风扇的风扇运行数据。
根据本发明的一些实施例,上述计算机板卡故障诊断***还包括:
设置于所述计算机板卡上的下载端口,其一端与所述第一存储单元连接;
装置壳体,其上设置有所述诊断处理器、第二存储单元、显示单元;所述诊断处理器与所述下载端口的另一端可拆卸连接。
根据本发明的一些实施例,所述显示单元包括:
VGA接口,其一端与所述诊断处理器连接;
LCD显示器,与所述VGA单元的另一端连接。
据本发明第三方面实施例的计算机板卡,包括计算机板卡本体以及与所述计算机板卡本体连接的上述任一所述的计算机板卡故障诊断***。
根据本发明实施例的计算机板卡,至少具有如下技术效果:本发明实施例的计算机板卡通过在计算机板卡本体上连接上述计算机板卡故障诊断***,具备了自动排查和定位故障的能力,且因为连接的计算机板卡故障诊断***对数据处理能力的要求较低,不需要使用高成本的处理器进行辅助运算,并不会过多的提高计算机板卡的成本,适合进行规模化生产和推广。
根据本发明的一些实施例,所述计算机板卡本体包括电池、中央处理器以及皆与所述中央处理器连接的总线、DDR、FLASH、调试接口、复位及状态指示装置、风扇;所述BMC单元与所述中央处理器连接,所述BMC单元和第一存储单元皆设置于所述计算机板卡本体上。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例的计算机板卡故障诊断方法的流程简图;
图2是本发明实施例的计算机板卡的结构框图。
附图标记:
BMC单元100、传感器组110、主控器120、
第一存储单元200、
诊断处理器300、
第二存储单元400、
显示单元500、
下载端口600。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
下面参考图1至图2描述根据本发明第一方面实施例的计算机板卡故障诊断方法。
构建故障标准指令库,故障标准指令库中存储有多个故障标准指令,每个故障标准指令对应不同的具体故障信息;
获取计算机板卡的运行数据;
若运行数据超过预设的告警门限值,则生成对应的第一故障指令;
与计算机板卡的中央处理器(即CPU)进行通讯,获取中央处理器中的故障信息,依据故障信息生成对应的第二故障指令;
将第一故障指令和/或第二故障指令存储到第一存储单元200中;
响应于用户操作,读取第一存储单元200中的第一故障指令和/或第二故障指令,并依据故障标准指令库,匹配与第一故障指令和/或第二故障指令对应的故障标准指令;显示与该故障标准指令对应的具体故障信息。
参考图1、图2,计算机板卡的中央处理器具备极佳的数据处理能力,因此中央处理器通常可以对计算机板卡内部的一些运行故障进行采集,进而可以直接通过与中央处理器进行通讯获取中央处理器检测到的故障信息,而BMC单元100在接收到故障信息后,便会依据该故障信息生成对应的第二故障指令。同时,BMC单元100作为一个监测平台,其***还具备多种检测传感器,能够对计算机板卡的外部运行环境进行有效的检测,在采集的运行数据出现超过告警门限值的情形时,同样会对应生成的第一故障指令。通过这两种检测方式的结合,便可以实现对整个计算机板卡内外运行环境的全面监测。这里需要说明,第一故障指令和第二故障指令的实际生成时的编码规则都是与故障标准指令一致的,分为第一故障指令和第二故障指令仅仅是针对故障来源不同;不同的第一故障指令和第二故障指令会具备不同编码信息,以便区分具体的故障。
在生成第一故障指令和/或第二故障指令之后,如果仅在BMC单元100中进行临时存储,那么一旦遇到掉电之类的故障时,则会直接导致所有的第一故障指令和第二故障指令丢失,从而导致后续无法进行准确的故障排查和分析。因此这里采用了第一存储器对第一故障指令和第二故障指令进行集中存储,以保证即使掉电也可以让故障指令得以保存。
故障标准指令库设置于第二存储器内,其内包括了多个故障标准指令,每个故障标准指令都对应不同的具体故障信息,同时为了后续能够实现第一故障指令和第二故障指令与故障标准指令的匹配,每个故障标准指令也会采用与第一故障指令和第二故障指令同样的编码方式设置一个标准编码信息,且每个故障标准指令对应的标准编码信息不一样,以作区别。
在出现故障后,通过用户操作来使能诊断处理器300,使能之后,诊断处理器300才会读取第一存储器中的第一故障指令和第二故障指令,然后在故障标准指令库中通过扫描的方式匹配到与编码信息一致的标准编码信息,进而获取对应的具体故障信息,到这里,实质上已经完成对具体故障的分析。
获取到具体故障信息后,便可以通过显示单元500展示具体故障信息,以便诊断人员后续能够快速的进行故障清除。在本发明的一些实施例中,具体故障信息除了包括基本错误类型外,还可以包括针对该错误类型常见的故障排查方式,这样可以进一步提高故障清除的效率。
根据本发明实施例的计算机板卡故障诊断方法,通过与中央处理器通讯,可以直接获取中央处理器检测到的故障信息,通过获取运行数据,可以获取计算机板卡***环境的信息,进而对整个计算机板卡可能出现故障的位置实现监测;在确认故障指令后,通过存储到第一存储单元200,可以避免故障指令在断电之后丢失,且仅存储故障指令,也能够有效减小对无用或重复数据的传输和存储。通过构建故障标准指令库,使得故障指令可以简单、快速确认具体故障信息。本发明实施例的计算机板卡故障诊断方法可以自动对计算机板卡故障产生的原因进行排查和分析,且整个计算机板卡故障诊断方法对数据处理能力的要求较低,不需要使用高成本的处理器进行辅助运算,可以有效的节约诊断成本,适合进行规模化生产和推广。
在本发明的一些实施例中,如果生成的第一故障指令和第二故障指令并没有匹配到故障标准指令库,则需要及时对故障标准指令库中的故障标准指令进行补充更新,以保证后续遇到相同故障时能够有效识别。
在本发明的一些实施例中,每个第一故障指令和第二故障指令皆包括编码信息、数据信息、时间信息;每个故障标准指令皆包括不同的标准编码信息、具体故障信息;编码信息和标准编码信息的生成规则一致。第一故障指令和第二故障指令中除了包含作为标记的编码信息外,通常还包括时间信息和数据信息。在显示单元500上显示时间信息可以直观知晓故障发生的时间,毕竟不是所有的故障都会直接让计算机板卡停止运行或掉电,因此在进行一次故障排查时,可能会需要面临同时匹配多条第一故障指令和/或第二故障指令的情形,而时间信息可以作为一个有效的区别,同时也可以知晓故障持续的时间。在显示单元500上显示数据信息,可以直观的展示故障的严重程度,以温度超过故障门限值为例,设门限值为80度,一个触发故障时的温度为100,一个触发故障时的温度为85度,两者会生成相同的编码信息,并对应同一个标准编码信息,但是明显100度故障更为严重,而仅通过编码信息则难以进行区分,此时,则可以通过显示温度数据的方式来直观展示严重程度。
故障标准指令的标准编码信息主要用作区别标记,且可以通过标准编码信息来获取对应的具体故障信息;当获取第一故障指令和第二故障指令后,便可以通过匹配编码信息和标准编码信息来获取对应的具体故障信息,通过这种方式可以极大的减少数据传输和存储的压力,且容易更准确的进行故障定位。
在本发明的一些实施例中,匹配与第一故障指令和/或第二故障指令对应的故障标准指令包括以下步骤:
解析出第一故障指令和/或第二故障指令的编码信息、数据信息、时间信息;
依据第一故障指令和/或第二故障指令的编码信息对故障标准指令库进行扫描,获取与第一故障指令和/或第二故障指令的编码信息对应的标准编码信息,并读取与该标准编码信息对应的具体故障信息。
在诊断处理器300获取到第一故障指令和/或第二故障指令后,会先对第一故障指令和/或第二故障指令进行解码,解析出编码信息、数据信息、时间信息,然后依据编码信息在故障标准指令库进行扫描,以匹配到对应的标准编码信息,并依据该标准编码信息获取对应的具体故障信息,并将具体故障信息读取出来,以便后续进行显示。在本发明的一些实施例中,如果未在故障标准指令库扫描到对应的标准编码信息,则会在完整扫描一次后,停止执行扫描,然后直接在显示单元500上显示解析之后的第一故障指令和/或第二故障指令;之后,维护人员需要及时更新第二存储器中的故障标准指令库,以便后续使用。
在本发明的一些实施例中,运行数据包括电压数据、电流数据、温度数据、风扇运行数据,电压数据、电流数据、温度数据、风扇运行数据分别对应不同的告警门限值。运行数据主要是针对计算机板卡的外部运行环境,因此需要重点对运行的电压数据、电流数据、温度数据、风扇运行数据进行检测,一旦出现故障,则需要尽快执行本发明实施例的计算机板卡故障诊断方法,及时完成故障排查。对于模拟量,告警门限值可以设置成不同的数值;对应数字量,则可以以是否触发作为告警门限值,例如:未触发为“0”,触发为“1”,则告警门限值可以设置为1,只要大于等于1,便可以认定为报警。
根据本发明第二方面实施例的计算机板卡故障诊断***,包括:BMC单元100、第一存储单元200、诊断处理器300、第二存储单元400、显示单元500。
BMC单元100, 设置于计算机板卡上并与计算机板卡的中央处理器(即CPU)连接,用于接收并检测计算机板卡的运行数据是否异常并生成对应的第一故障指令,以及接收中央处理器传输的故障信息并生成对应的第二故障指令;
第一存储单元200,设置于计算机板卡上并与BMC单元100连接,用于存储BMC单元100传输的第一故障指令和/或第二故障指令;
诊断处理器300,与第一存储单元200连接,用于获取第一存储单元200中存储的第一故障指令和/或第二故障指令;
第二存储单元400,与诊断处理器300连接,其内存储有故障标准指令库,故障标准指令库中存储有多种故障标准指令,每个故障标准指令对应不同的具体故障信息;第二存储单元400和诊断处理器300共同用于完成对第一故障指令和/或第二故障指令与故障标准指令的匹配;
显示单元500,与诊断处理器300连接。
参考图1、图2,计算机板卡的中央处理器具备极佳的数据处理能力,因此中央处理器通常可以对计算机板卡内部的一些运行故障进行采集,进而可以直接通过与中央处理器进行通讯获取中央处理器检测到的故障信息,而BMC单元100在接收到故障信息后,便会依据该故障信息生成对应的第二故障指令。同时,BMC单元100作为一个监测平台,其***还具备多种检测传感器,能够对计算机板卡的外部运行环境进行有效的检测,在采集的运行数据出现超过告警门限值的情形时,同样会对应生成的第一故障指令。通过这两种检测方式的结合,便可以实现对整个计算机板卡内外运行环境的全面监测。这里需要说明,第一故障指令和第二故障指令的实际生成时的编码规则都是与故障标准指令一致的,分为第一故障指令和第二故障指令仅仅是针对故障来源不同;不同的第一故障指令和第二故障指令会具备不同编码信息,以便区分具体的故障。
在生成第一故障指令和/或第二故障指令之后,如果仅在BMC单元100中进行临时存储,那么一旦遇到掉电之类的故障时,则会直接导致所有的第一故障指令和第二故障指令丢失,从而导致后续无法进行准确的故障排查和分析。因此这里采用了第一存储器对第一故障指令和第二故障指令进行集中存储,以保证即使掉电也可以让第一故障指令和第二故障指令得以保存。
故障标准指令库设置于第二存储器内,其内包括了多个故障标准指令,每个故障标准指令都对应不同的具体故障信息,同时为了后续能够实现第一故障指令和第二故障指令与故障标准指令的匹配,每个故障标准指令也会采用与第一故障指令和第二故障指令同样的编码方式设置一个标准编码信息,且每个故障标准指令对应的标准编码信息不一样,以作区别。
在出现故障后,通过用户操作来使能诊断处理器300,使能之后,诊断处理器300才会读取第一存储器中的第一故障指令和第二故障指令,然后在故障标准指令库中通过扫描的方式匹配到与编码信息一致的标准编码信息,进而获取对应的具体故障信息,到这里,实质上已经完成对具体故障的分析。获取到具体故障信息后,便可以通过显示单元500展示具体故障信息,以便诊断人员后续能够快速的进行故障清除。在本发明的一些实施例中,具体故障信息除了包括基本错误类型外,还可以包括针对该错误类型常见的故障排查方式,这样可以进一步提高故障清除的效率。
根据本发明实施例的计算机板卡故障诊断***,BMC单元100通过与中央处理器通讯,可以直接获取中央处理器检测到的故障信息,BMC单元100通过获取运行数据,可以获取计算机板卡***环境的信息,进而对整个计算机板卡可能出现故障的位置实现监测;在BMC单元100确认故障指令后,通过存储到第一存储单元200,可以避免故障指令在断电之后丢失,且仅存储故障指令,也能够有效减小对无用或重复数据的传输和存储。通过在第二存储单元400中构建故障标准指令库,使得诊断处理器300可以依据故障指令简单、快速确认具体故障信息。本发明实施例的计算机板卡故障诊断***可以自动对计算机板卡故障产生的原因进行排查和分析,且整个计算机板卡故障诊断***对数据处理能力的要求较低,不需要使用高成本的处理器进行辅助运算,可以有效的节约诊断成本,适合进行规模化生产和推广。
在本发明的一些实施例中,如果生成的第一故障指令和第二故障指令并没有匹配到故障标准指令库,则需要及时对故障标准指令库中的故障标准指令进行补充更新,以保证后续遇到相同故障时能够有效识别。
在本发明的一些实施例中,每个第一故障指令和第二故障指令皆包括编码信息、数据信息、时间信息;每个故障标准指令皆包括不同的标准编码信息、具体故障信息;编码信息和标准编码信息的生成规则一致。第一故障指令和第二故障指令中除了包含作为标记的编码信息外,通常还包括时间信息和数据信息。在显示单元500上显示时间信息可以直观知晓故障发生的时间,毕竟不是所有的故障都会直接让计算机板卡停止运行或掉电,因此在进行一次故障排查时,可能会需要面临同时匹配多条第一故障指令和/或第二故障指令的情形,而时间信息可以作为一个有效的区别,同时也可以知晓故障持续的时间。在显示单元500上显示数据信息,可以直观的展示故障的严重程度,以温度超过故障门限值为例,设门限值为80度,一个触发故障时的温度为100,一个触发故障时的温度为85度,两者会生成相同的编码信息,并对应同一个标准编码信息,但是明显100度故障更为严重,而仅通过编码信息则难以进行区分,此时,则可以通过显示温度数据的方式来直观展示严重程度。
故障标准指令的标准编码信息主要用作区别标记,且可以通过标准编码信息来获取对应的具体故障信息;当获取第一故障指令和第二故障指令后,便可以通过匹配编码信息和标准编码信息来获取对应的具体故障信息,通过这种方式可以极大的减少数据传输和存储的压力,且容易更准确的进行故障定位。
在本发明的一些实施例中,运行数据包括电压数据、电流数据、温度数据、风扇运行数据,电压数据、电流数据、温度数据、风扇运行数据分别对应不同的告警门限值。运行数据主要是针对计算机板卡的外部运行环境,因此需要重点对运行的电压数据、电流数据、温度数据、风扇运行数据进行检测,一旦出现故障,则需要尽快执行本发明实施例的计算机板卡故障诊断方法,及时完成故障排查。对于模拟量,告警门限值可以设置成不同的数值;对应数字量,则可以以是否触发作为告警门限值,例如:未触发为“0”,触发为“1”,则告警门限值可以设置为1,只要大于等于1,便可以认定为报警。
在本发明的一些实施例中,BMC单元100包括:传感器组110、主控器120。传感器组110,用于采集计算机板卡的运行数据;主控器120,分别与中央处理器、第一存储单元200、传感器组110连接,用于接收中央处理器传输的故障信息并生成对应的第二故障指令,以及检测计算机板卡的运行数据是否异常并生成对应的第一故障指令。传感器组110是多个传感器的组合,可以根据具体使用的需求,设置每个传感器的检测部位,通常至少要对电压、电流、温度、风扇运行等数据进行采集。主控器120作为核心处理单元,需要对各种运行数据进行一个判断并生成第一故障指令,以及获取中央处理器传输的故障信息并生成第二故障指令。BMC单元100的主控器120可以采用DSP、单片或ARM。在本发明的一些实施例中,BMC单元100的主控器120具体采用了STM32F407。在本发明的一些实施例中,诊断处理器300采用和BMC单元100的主控器120相同型号的处理器即可。
在本发明的一些实施例中,传感器组110包括:温度传感器、风扇状态检测传感器、电流传感器和电压传感器。温度传感器,用于采集计算机板卡的温度数据;电流传感器和电压传感器,用于采集计算机板卡的电压数据和电流数据;风扇状态检测传感器,用于采集风扇的风扇运行数据。温度传感器、风扇状态检测传感器、电流传感器和电压传感器数量并不是固定仅采用一个,可以根据需要检测的部位设置多个,保证数据采集的全面性。风扇状态检测传感器可以直接采集风扇电源的接通信号,这样只需要一个简单的开关量便可以判断风扇的工作状态,也可以采用转速测量传感器,通过转速来确认风扇的运行状态。
在本发明的一些实施例中,上述计算机板卡故障诊断***还包括:下载端口600、装置壳体。下载端口600设置于计算机板卡上,其一端与第一存储单元200连接;装置壳体上设置有诊断处理器300、第二存储单元400、显示单元500;诊断处理器300与下载端口600的另一端可拆卸连接。通过装置壳体将诊断处理器300、第二存储单元400、显示单元500集中安装后,装置壳体部分便可以通过下载端口600实现与计算机主板的快速拆卸和连接,且使用装置壳体还能够提高一定的安全性。
在本发明的一些实施例中,显示单元500包括:VGA接口、LCD显示器。VGA接口,其一端与诊断处理器300连接;LCD显示器,与VGA单元的另一端连接。通过VGA接口连接LCD显示器后,可以实现对故障信息的查看,而且在LCD显示器出现故障时,也可以快速更换LCD显示器。在本发明的一些实施例中,显示单元500仅采用了VGA接口,这样可以让整个装置壳体更加的轻便,同时也便于后续制作带有诊断功能的计算机板卡;此种方式下,如果需要查看诊断信息,则通过VGA接口外接显示器即可。
在本发明的一些实施例中,诊断处理器300、第二存储单元400、显示单元500的供电可以通过计算机板卡供电,也可以通过外接电源进行供电。
据本发明第三方面实施例的计算机板卡,包括计算机板卡本体以及与计算机板卡本体连接的上述任一的计算机板卡故障诊断***。
根据本发明实施例的计算机板卡,本发明实施例的计算机板卡通过在计算机板卡本体上连接上述计算机板卡故障诊断***,具备了自动排查和定位故障的能力,且因为连接的计算机板卡故障诊断***对数据处理能力的要求较低,不需要使用高成本的处理器进行辅助运算,并不会过多的提高计算机板卡的成本,适合进行规模化生产和推广。
在本发明的一些实施例中,计算机板卡本体包括电池、中央处理器以及皆与中央处理器连接的总线、DDR、FLASH、调试接口、复位及状态指示装置、风扇;BMC单元100与中央处理器连接,BMC单元100和第一存储单元200皆设置于计算机板卡本体上。总线、DDR、FLASH、调试接口、复位及状态指示装置、风扇、电池可以保证中央处理器的正常运行以及实现主要功能,同时通过连接BMC单元100,可以将检测到故障数据传输到BMC单元100中,并存储至第一存储器中。因为BMC单元100需要一直采集计算机板卡的运行状态,所以直接将BMC单元100和第一存储单元200集成到计算机板卡本体上,跟随整个计算机板卡同时运作,并可以直接在计算机板卡上进行取电。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上述结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.一种计算机板卡故障诊断方法,其特征在于,包括以下步骤:
构建故障标准指令库,所述故障标准指令库中存储有多个故障标准指令,每个故障标准指令对应不同的具体故障信息;
获取计算机板卡的运行数据;
若所述运行数据超过预设的告警门限值,则生成对应的第一故障指令;
与所述计算机板卡的中央处理器进行通讯,获取所述中央处理器中的故障信息,依据所述故障信息生成对应的第二故障指令;
将所述第一故障指令和/或第二故障指令存储到第一存储单元中;
响应于用户操作,读取所述第一存储单元中的所述第一故障指令和/或第二故障指令,并依据所述故障标准指令库,匹配与所述第一故障指令和/或第二故障指令对应的故障标准指令;显示与该故障标准指令对应的具体故障信息。
2.根据权利要求1所述的计算机板卡故障诊断方法,其特征在于,每个所述第一故障指令和第二故障指令皆包括编码信息、数据信息、时间信息;每个所述故障标准指令皆包括不同的标准编码信息、所述具体故障信息;所述编码信息和所述标准编码信息的生成规则一致。
3.根据权利要求2所述的计算机板卡故障诊断方法,其特征在于,所述匹配与所述第一故障指令和/或第二故障指令对应的故障标准指令包括以下步骤:
解析出所述第一故障指令和/或第二故障指令的编码信息、数据信息、时间信息;
依据所述第一故障指令和/或第二故障指令的编码信息对所述故障标准指令库进行扫描,获取与所述第一故障指令和/或第二故障指令的编码信息对应的标准编码信息,并读取与该标准编码信息对应的具体故障信息。
4.根据权利要求1所述的计算机板卡故障诊断方法,其特征在于,所述运行数据包括电压数据、电流数据、温度数据、风扇运行数据,所述电压数据、电流数据、温度数据、风扇运行数据分别对应不同的告警门限值。
5.一种计算机板卡故障诊断***,其特征在于,包括:
BMC单元, 设置于计算机板卡上并与所述计算机板卡的中央处理器连接,用于接收并检测所述计算机板卡的运行数据是否异常并生成对应的第一故障指令,以及接收所述中央处理器传输的故障信息并生成对应的第二故障指令;
第一存储单元,设置于所述计算机板卡上并与所述BMC单元连接,用于存储所述BMC单元传输的所述第一故障指令和/或第二故障指令;
诊断处理器,与所述第一存储单元连接,用于获取所述第一存储单元中存储的所述第一故障指令和/或第二故障指令;
第二存储单元,与所述诊断处理器连接,其内存储有故障标准指令库,所述故障标准指令库中存储有多种故障标准指令,每个故障标准指令对应不同的具体故障信息;所述第二存储单元和所述诊断处理器共同用于完成对所述第一故障指令和/或第二故障指令与故障标准指令的匹配;
显示单元,与所述诊断处理器连接。
6.根据权利要求5所述的计算机板卡故障诊断***,其特征在于,每个所述第一故障指令和第二故障指令皆包括编码信息、数据信息、时间信息;每个所述故障标准指令皆包括不同的标准编码信息、所述具体故障信息;所述编码信息和所述标准编码信息的生成规则一致。
7.根据权利要求5所述的计算机板卡故障诊断***,其特征在于,所述BMC单元包括:
传感器组,用于采集所述计算机板卡的运行数据;
主控器,分别与所述中央处理器、第一存储单元、传感器组连接,用于接收所述中央处理器传输的故障信息并生成对应的第二故障指令,以及检测所述计算机板卡的运行数据是否异常并生成对应的第一故障指令。
8.根据权利要求5所述的计算机板卡故障诊断***,其特征在于,还包括:
设置于所述计算机板卡上的下载端口,其一端与所述第一存储单元连接;
装置壳体,其上设置有所述诊断处理器、第二存储单元、显示单元;所述诊断处理器与所述下载端口的另一端可拆卸连接。
9.一种计算机板卡,其特征在于,包括:计算机板卡本体以及与所述计算机板卡本体连接的如权利要求5至8任一所述的计算机板卡故障诊断***。
10.根据权利要求9所述的计算机板卡,其特征在于,所述计算机板卡本体包括电池、中央处理器以及皆与所述中央处理器连接的总线、DDR、FLASH、调试接口、复位及状态指示装置、风扇;所述BMC单元与所述中央处理器连接,所述BMC单元和第一存储单元皆设置于所述计算机板卡本体上。
CN202110422728.3A 2021-04-20 2021-04-20 一种计算机板卡故障诊断方法、***及计算机板卡 Pending CN112988445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110422728.3A CN112988445A (zh) 2021-04-20 2021-04-20 一种计算机板卡故障诊断方法、***及计算机板卡

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110422728.3A CN112988445A (zh) 2021-04-20 2021-04-20 一种计算机板卡故障诊断方法、***及计算机板卡

Publications (1)

Publication Number Publication Date
CN112988445A true CN112988445A (zh) 2021-06-18

Family

ID=76341233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110422728.3A Pending CN112988445A (zh) 2021-04-20 2021-04-20 一种计算机板卡故障诊断方法、***及计算机板卡

Country Status (1)

Country Link
CN (1) CN112988445A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115407759A (zh) * 2022-11-01 2022-11-29 西北工业大学 飞行控制计算机出现板卡故障的飞行容错控制方法及***

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080055399A (ko) * 2006-12-15 2008-06-19 주식회사 케이티 장애 응대 시간 단축 및 장애 처리 정확도 향상을 위한장애 관리 방법 및 장치
JP2009146358A (ja) * 2007-12-18 2009-07-02 Canon Inc ネットワークデバイス管理システム
CN104391765A (zh) * 2014-10-27 2015-03-04 浪潮电子信息产业股份有限公司 一种自动诊断服务器启动故障的方法
CN105095032A (zh) * 2015-08-14 2015-11-25 浪潮电子信息产业股份有限公司 一种快速定位故障内存条的检测装置和方法
US10073753B2 (en) * 2016-02-14 2018-09-11 Dell Products, Lp System and method to assess information handling system health and resource utilization
CN108958227A (zh) * 2018-08-09 2018-12-07 北京智行者科技有限公司 车辆故障诊断方法
CN110413489A (zh) * 2019-07-31 2019-11-05 浪潮商用机器有限公司 快速识别服务器故障代码的***、方法、设备及存储介质
CN110515801A (zh) * 2019-08-23 2019-11-29 苏州浪潮智能科技有限公司 一种oled显示设备、服务器状态的监控方法及服务器
CN111026576A (zh) * 2019-12-09 2020-04-17 山东超越数控电子股份有限公司 一种主板故障分析的方法、设备及介质
CN111046284A (zh) * 2019-12-10 2020-04-21 珠海格力电器股份有限公司 计算机故障的诊断方法、装置及存储介质
CN112243014A (zh) * 2019-07-17 2021-01-19 青岛海尔洗衣机有限公司 故障信息的处理方法、装置、电子设备和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080055399A (ko) * 2006-12-15 2008-06-19 주식회사 케이티 장애 응대 시간 단축 및 장애 처리 정확도 향상을 위한장애 관리 방법 및 장치
JP2009146358A (ja) * 2007-12-18 2009-07-02 Canon Inc ネットワークデバイス管理システム
CN104391765A (zh) * 2014-10-27 2015-03-04 浪潮电子信息产业股份有限公司 一种自动诊断服务器启动故障的方法
CN105095032A (zh) * 2015-08-14 2015-11-25 浪潮电子信息产业股份有限公司 一种快速定位故障内存条的检测装置和方法
US10073753B2 (en) * 2016-02-14 2018-09-11 Dell Products, Lp System and method to assess information handling system health and resource utilization
CN108958227A (zh) * 2018-08-09 2018-12-07 北京智行者科技有限公司 车辆故障诊断方法
CN112243014A (zh) * 2019-07-17 2021-01-19 青岛海尔洗衣机有限公司 故障信息的处理方法、装置、电子设备和存储介质
CN110413489A (zh) * 2019-07-31 2019-11-05 浪潮商用机器有限公司 快速识别服务器故障代码的***、方法、设备及存储介质
CN110515801A (zh) * 2019-08-23 2019-11-29 苏州浪潮智能科技有限公司 一种oled显示设备、服务器状态的监控方法及服务器
CN111026576A (zh) * 2019-12-09 2020-04-17 山东超越数控电子股份有限公司 一种主板故障分析的方法、设备及介质
CN111046284A (zh) * 2019-12-10 2020-04-21 珠海格力电器股份有限公司 计算机故障的诊断方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115407759A (zh) * 2022-11-01 2022-11-29 西北工业大学 飞行控制计算机出现板卡故障的飞行容错控制方法及***

Similar Documents

Publication Publication Date Title
WO2021249269A1 (zh) 预警方法、装置、设备及存储介质
WO2012057378A1 (ko) 범용 센서 자가 진단 장치 및 그 진단 방법
JP5605863B2 (ja) センサシステム、計算機、及び、機器
CN105453141B (zh) 用于检测电子***中的故障的设备和方法
CN113415165B (zh) 一种故障诊断方法、装置、电子设备及存储介质
CN103809147A (zh) 一种交流电表故障自诊断方法
BRPI0712904A2 (pt) sistemas, métodos e aparelhos sem fio para ver e para modificar sem fio locais de memória dentro de um dispositivo de sistema de potência.
CN107445004B (zh) 电梯门故障诊断装置及方法
CN111537916B (zh) 电压采样芯片供电地断线故障诊断方法、装置及设备
CN112988445A (zh) 一种计算机板卡故障诊断方法、***及计算机板卡
CN106768018B (zh) 就地化安装电力二次设备的在线监测与诊断***及方法
CN111796645A (zh) 一种计算机的故障报警***
CN110132559A (zh) 一种用于舰船轴系及艉部振动的实时监测***和方法
US11994970B2 (en) Diagnostic system
CN103344434A (zh) 基于LabVIEW的汽车发动机参数检测***
CN111611118A (zh) 板卡自检监测***、方法和装置
CN115728665A (zh) 一种电源故障检测电路、方法及***
CN113815636A (zh) 一种车辆安全监控方法、装置、电子设备及存储介质
CN213025417U (zh) 重水反应堆保护***
CN213241134U (zh) 一种固态硬盘的生产检测设备
CN114838848A (zh) 温度采样控制方法、装置、设备及存储介质
CN208337886U (zh) 一种便携式智能传感器网络***装置
CN215810755U (zh) 一种传感器的定位***
CN109682994A (zh) 一种icp加速度传感器通路检查装置及***
CN218413532U (zh) 汽车导航主机故障数据记录仪及导航主机

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210618