CN102750194A - 一种大规模集成电路层级错误记录与响应方法 - Google Patents

一种大规模集成电路层级错误记录与响应方法 Download PDF

Info

Publication number
CN102750194A
CN102750194A CN2012102087119A CN201210208711A CN102750194A CN 102750194 A CN102750194 A CN 102750194A CN 2012102087119 A CN2012102087119 A CN 2012102087119A CN 201210208711 A CN201210208711 A CN 201210208711A CN 102750194 A CN102750194 A CN 102750194A
Authority
CN
China
Prior art keywords
error
register
mistake
level
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102087119A
Other languages
English (en)
Inventor
王恩东
胡雷钧
李仁刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN2012102087119A priority Critical patent/CN102750194A/zh
Publication of CN102750194A publication Critical patent/CN102750194A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种大规模集成电路层级错误记录与响应方法,包括如下步骤:部件模块层级寄存器集合检测、收集和记录本模块内部发生的所有错误,并根据错误等级将本模块所有的错误映射到错误等级寄存器,对本模块所有错误的等级划分;芯片全局层级寄存器集合收集各个模块报告的错误信息,并将其映射为不同的***事件;芯片全局层级寄存器集合最终映射***事件,触发***对错误进行响应。本发明层级错误处理机制通过模块分层、错误过滤、错误分级等方式收集、分类、报告错误,大大提高了***错误处理的效率,弥补了芯片内部大范围错误收集与处理所带来的资源浪费。

Description

一种大规模集成电路层级错误记录与响应方法
技术领域
本发明属于集成电路设计技术领域,涉及一种大规模集成电路层级错误记录与响应方法。
背景技术
随着集成电路技术的飞速发展,大规模的集成电路设计越来越成为该领域的基本特征,芯片的物理尺寸越来越大,其集成的晶体管数量越来越多,功能复杂的芯片内部集成几十个功能部件,这就为芯片内部错误处理机制的设计带来了考验。集成大规模集成电路的计算机***同样面临该问题,芯片内部几十个功能部件的集成使得复杂的计算机***功能得以实现,同样也为芯片内部的错误处理机制的设计难度带来了挑战,因为计算机***的设计功能复杂,导致芯片内部各个功能部件的错误检测、记录、纠正、报告等机制的实现方式也极其复杂,采用合理的错误处理机制可以高效实现芯片的功能,保证***错误的纠正与修复,避免大范围的错误信息收集与处理,进而保证***的性能和执行效率。
故,针对上述现有技术在芯片内部的错误处理机制的设计方面存在的缺陷,实有必要进行研究,以提供一种大规模集成电路层级错误记录与响应方法,提高重大错误等级错误的处理效率,以及较小错误等级错误的执行效果,有力保障***的高效运行。
发明内容
为解决上述问题,本发明的目的在于提供一种大规模集成电路层级错误记录与响应方法,以提高重大错误等级错误的处理效率,以及较小错误等级错误的执行效果,保障***的高效运行。
为实现上述目的,本发明的技术方案为:
一种大规模集成电路层级错误记录与响应方法,包括如下步骤:
部件模块层级寄存器集合检测、收集和记录本模块内部发生的所有错误,并根据错误等级将本模块所有的错误映射到错误等级寄存器,对本模块所有错误的等级划分;
芯片全局层级寄存器集合收集各个模块报告的错误信息,并将其映射为不同的***事件;
芯片全局层级寄存器集合最终映射***事件,触发***对错误进行响应。
进一步地,所述芯片全局层级寄存器收集和记录的错误是各个模块在屏蔽微小错误之后的、可能引起***事件的所有错误。
进一步地,所述错误的等级划分可分为如下三个级别:可纠正错误、可覆盖错误和不可纠正错误。
进一步地,所述部件模块层级寄存器为本地寄存器,其包括有负责记录模块内部所有发生的错误信息的本地错误记录寄存器,负责集合模块内部所有可发生的错误,并将当前发生的错误分类的本地错误状态寄存器,负责控制当前发生的错误是否报告的本地错误控制寄存器,以及负责将错误映射到三种错误严重性等级的错误等级寄存器。
进一步地,所述芯片全局层级寄存器为全局寄存器集合,其收集各个模块报告的严重等级较高的错误信息;所述全局寄存器集合包括有用于记录并分类各个模块报告的错误信息的全局状态寄存器、用于将报告的所有错误根据严重性等级分类,并将严重等级高的错误优先处理,实现错误串化处理的全局错误严重性等级寄存器集合。
本发明大规模集成电路层级错误记录与响应方法通过模块级错误和芯片级错误等多层级的错误记录与报告机制有效收集并分类错误,屏蔽微小错误,通过高效映射实现错误的快速处理;这种层级错误处理机制通过模块分层、错误过滤、错误分级等方式收集、分类、报告错误,大大提高了***错误处理的效率,弥补了芯片内部大范围错误收集与处理所带来的资源浪费,因而具有非常广阔的应用前景,具有很高的技术价值。
附图说明
图1是本发明的错误处理机制层级结构图;
图2是本发明一实施例的流程图;
图3是本发明的本地寄存器的构成图示;
图4是本发明的全局寄存器集合的构成图示。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明大规模集成电路层级错误记录与响应方法主要考虑大规模集成电路错误处理机制结构设计复杂的影响,采用模块局部错误检测、收集与记录,按照错误等级划分机制将重大错误等级的错误汇集并产生***响应的设计方式,以提高***的错误处理效率。将收集到的各个模块的错误通过错误严重性等级划分的方法映射到错误严重性等级寄存器,实现错误的严重性等级分类,采用不同的错误报告与响应机制产生针对于不同错误等级的***事件,从而大大提高了重大错误等级错误的处理效率,以及较小错误等级错误的执行效果,有力保障了***的高效运行。
请参照图1、图2所示,本发明大规模集成电路层级错误记录与响应方法主要包括如下步骤:
部件模块层级寄存器集合检测、收集和记录本模块内部发生的所有错误,并根据错误等级将本模块所有的错误映射到错误等级寄存器,对本模块所有错误的等级划分;
芯片全局层级寄存器集合收集各个模块报告的错误信息,并将其映射为不同的***事件;
全局寄存器集合最终映射***事件,触发***对错误进行响应。
其中,在各个部件模块内部设计寄存器集合实现模块内部发生错误的收集、记录、分类、等级划分等功能,当错误发生时能够在小范围内实现错误的快速判断;而在芯片全局设计寄存器集合实现各个模块错误的收集、记录、分类、等级划分等功能,其收集和记录的错误是各个模块在屏蔽微小错误之后的、可能引起***事件的所有错误,并最终将根据错误等级映射***事件。
在本发明实施例中,错误的等级划分可分为如下三个级别:可纠正错误(Correctable Error)、可覆盖错误(Recoverable Error)和不可纠正错误(Fatal Error);其分别对应不同的错误严重性,其中Correctable Error为不需要软件参与,硬件可以纠正的错误;Recoverable Error为软件可纠正的错误;而Fatal Error为软件和硬件均不可纠正的错误。
图2所示为本发明一实施例的具体流程图示,其具体包括如下步骤:
步骤1、本地模块内部错误发生;
步骤2、本地寄存器记录错误相关信息;
步骤3、在本地错误状态寄存器集合中查找对应的错误状态,并将该寄存器置位;
步骤4、本地错误严重等级寄存器集合中查找并分类错误的严重性等级,严重等级较低的错误类型将被屏蔽;严重等级高的将被报告上级全局;
步骤5、全局寄存器集合收集各个模块报告的严重等级较高的错误信息;
步骤6、全局状态寄存器记录并分类各个模块报告的错误信息;
步骤7、全局错误严重性等级寄存器集合将报告的所有错误根据严重性等级分类,并将严重等级高的错误优先处理,实现错误串化处理;
步骤8、串化的错误逐个触发相应的***事件。
请参照图3、图4所示,本发明实施例中采用错误层级记录与报告响应机制,分为部件模块和芯片全局两个层级;其中,部件模块层级寄存器集合负责检测、收集和记录本模块内部发生的所有错误,并根据错误等级将本模块所有的错误映射到错误等级寄存器,实现本模块所有错误的等级划分,可以通过屏蔽错误等级极低的错误来提高错误处理执行效率。本地寄存器集合最终映射错误的严重性等级后,对错误进行是否上报的判断,其中,本地寄存器主要包括有负责记录模块内部所有发生的错误信息的本地错误记录寄存器(Local Error Log Register),负责集合模块内部所有可发生的错误,并将当前发生的错误分类的本地错误状态寄存器(Local Error Status Register),负责控制当前发生的错误是否报告的本地错误控制寄存器(Local Error Control Register),以及负责将错误映射到三种错误严重性等级的错误等级寄存器(Error Grade Register)。芯片全局层级寄存器集合负责收集各个模块报告的错误信息,并将其映射为不同的***事件,其寄存器集合同样完成错误的收集、记录、分类、等级划分等功能,其中System Event Register负责记录发生错误的严重性,并根据错误类型和严重性发出一个或者多个***事件。
本发明实施例中当大规模集成电路内部部件模块发生错误时,层级设计方法可以优先在较小范围检测、记录、分类错误信息,并且实现错误过滤和错误严重性分级,然后将可能触发***事件的错误信息转交给全局错误寄存器,同样进行错误记录、分类、严重性等级划分,最终触发一个或者多个***事件。
在计算机******运行过程中,大规模集成电路实现多处理器互连,复杂得多处理器特性使得集成电路实现几十个功能部件以满足***功能要求,各个功能部件可能发生各种类型的错误形式和多种错误等级的错误形式,例如,Correctable Error、Recoverable Error和Fatal Error。假设Module1是芯片的互连接口部件,当该部件发生链路CRC检测故障时,Local Error Log Register记录该错误的相关信息,Local Error Status Register中集合了互连接口部件的所有错误类型,此时CRC故障错误的对应位被置为“1”,表示此时发生CRC故障错误,因为CRC故障错误可以由硬件设计的重传机制纠正,即属于Correctable Error,所以分析逻辑将Local Error Control Register的控制位配置为“1”,表示该错误等级极低,可由硬件自行纠正,不需要软件参与,Local Error Control Register控制位配置为“1”即把该错误屏蔽,减少该错误消耗更多的资源,同时该错误被记录用于状态检查。
当该部件发生链路链接故障时,同样由Local Error Log Register记录该错误的相关信息,Local Error Status Register中集合了互连接口部件的所有错误类型,此时链路链接故障错误的对应位被置为“1”,表示此时发生链路链接故障,因为链路链接故障会引起数据传输失败导致***宕机,所以该类故障属于Fatal Error高严重级别错误,可以优先处理,通过全局错误寄存器(Global Error Register)的错误收集、分类、排序的操作后,全局错误控制寄存器(Global Error Control Register)的高严重等级错误位被置为“1”,表示***发生Fatal Error高严重级别错误,并且全局错误状态寄存器(Global Error Status Register)中记录了错误类型是链路链接故障,由此将触发相应的***事件,例如,产生***复位等事件。另外,当***发生多项并行错误时,将根据各个错误的严重性等级划分,进行错误串行化处理,优先处理高严重性等级的错误,进而保障***可靠性与执行效率。
本发明通过模块级错误和芯片级错误等多层级的错误记录与报告机制有效收集并分类错误,屏蔽微小错误,通过高效映射实现错误的快速处理;局部部件模块寄存器集合的特性,主要是指在各个部件模块内部设计寄存器集合实现模块内部发生错误的收集、记录、分类、等级划分等功能,当错误发生时能够在小范围内实现错误的快速判断;芯片全局寄存器集合的特性,主要是指在芯片全局设计寄存器集合实现各个模块错误的收集、记录、分类、等级划分等功能,其收集和记录的错误是各个模块在屏蔽微小错误之后的、可能引起***事件的所有错误,并最终将根据错误等级映射***事件。错误分级和过滤机制的特性,主要是指根据错误能够产生的结果将错误按照不同的等级分类,并且将微小等级的错误采取过滤机制提高***错误处理效率。这种层级错误处理机制通过模块分层、错误过滤、错误分级等方式收集、分类、报告错误,大大提高了***错误处理的效率,弥补了芯片内部大范围错误收集与处理所带来的资源浪费,因而具有非常广阔的应用前景,具有很高的技术价值。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种大规模集成电路层级错误记录与响应方法,其特征在于,包括如下步骤:
部件模块层级寄存器集合检测、收集和记录本模块内部发生的所有错误,并根据错误等级将本模块所有的错误映射到错误等级寄存器,对本模块所有错误的等级划分;
芯片全局层级寄存器集合收集各个模块报告的错误信息,并将其映射为不同的***事件;
芯片全局层级寄存器集合最终映射***事件,触发***对错误进行响应。
2.如权利要求1所述大规模集成电路层级错误记录与响应方法,其特征在于:所述芯片全局层级寄存器收集和记录的错误是各个模块在屏蔽微小错误之后的、可能引起***事件的所有错误。
3.如权利要求2所述大规模集成电路层级错误记录与响应方法,其特征在于:所述错误的等级划分可分为如下三个级别:可纠正错误、可覆盖错误和不可纠正错误。
4.如权利要求3所述大规模集成电路层级错误记录与响应方法,其特征在于:所述部件模块层级寄存器为本地寄存器,其包括有负责记录模块内部所有发生的错误信息的本地错误记录寄存器,负责集合模块内部所有可发生的错误,并将当前发生的错误分类的本地错误状态寄存器,负责控制当前发生的错误是否报告的本地错误控制寄存器,以及负责将错误映射到三种错误严重性等级的错误等级寄存器。
5.如权利要求4所述大规模集成电路层级错误记录与响应方法,其特征在于:所述芯片全局层级寄存器为全局寄存器集合,其收集各个模块报告的严重等级较高的错误信息;所述全局寄存器集合包括有用于记录并分类各个模块报告的错误信息的全局状态寄存器、用于将报告的所有错误根据严重性等级分类,并将严重等级高的错误优先处理,实现错误串化处理的全局错误严重性等级寄存器集合。
CN2012102087119A 2012-06-25 2012-06-25 一种大规模集成电路层级错误记录与响应方法 Pending CN102750194A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012102087119A CN102750194A (zh) 2012-06-25 2012-06-25 一种大规模集成电路层级错误记录与响应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012102087119A CN102750194A (zh) 2012-06-25 2012-06-25 一种大规模集成电路层级错误记录与响应方法

Publications (1)

Publication Number Publication Date
CN102750194A true CN102750194A (zh) 2012-10-24

Family

ID=47030411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102087119A Pending CN102750194A (zh) 2012-06-25 2012-06-25 一种大规模集成电路层级错误记录与响应方法

Country Status (1)

Country Link
CN (1) CN102750194A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104407952A (zh) * 2014-11-12 2015-03-11 浪潮(北京)电子信息产业有限公司 一种通过多cpu节点控制器芯片进行调试的方法和***
CN110413490A (zh) * 2019-08-01 2019-11-05 北京百度网讯科技有限公司 确定错误信息类型的方法、错误信息代码分类方法及装置
CN111682966A (zh) * 2020-05-26 2020-09-18 中国人民解放军国防科技大学 带故障主动报告功能的网络通信装置,***及其方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1740986A (zh) * 2004-08-24 2006-03-01 华为技术有限公司 一种告警相关性屏蔽方法
US20060150009A1 (en) * 2004-12-21 2006-07-06 Nec Corporation Computer system and method for dealing with errors
CN101145681A (zh) * 2007-02-09 2008-03-19 湖南科技大学 矿用多功能智能综合继电器保护装置
US20080316013A1 (en) * 2004-07-08 2008-12-25 Andrew Corporation Supervising Arrangement

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080316013A1 (en) * 2004-07-08 2008-12-25 Andrew Corporation Supervising Arrangement
CN1740986A (zh) * 2004-08-24 2006-03-01 华为技术有限公司 一种告警相关性屏蔽方法
US20060150009A1 (en) * 2004-12-21 2006-07-06 Nec Corporation Computer system and method for dealing with errors
CN101145681A (zh) * 2007-02-09 2008-03-19 湖南科技大学 矿用多功能智能综合继电器保护装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104407952A (zh) * 2014-11-12 2015-03-11 浪潮(北京)电子信息产业有限公司 一种通过多cpu节点控制器芯片进行调试的方法和***
CN110413490A (zh) * 2019-08-01 2019-11-05 北京百度网讯科技有限公司 确定错误信息类型的方法、错误信息代码分类方法及装置
CN110413490B (zh) * 2019-08-01 2023-07-14 阿波罗智能技术(北京)有限公司 确定错误信息类型的方法、错误信息代码分类方法及装置
CN111682966A (zh) * 2020-05-26 2020-09-18 中国人民解放军国防科技大学 带故障主动报告功能的网络通信装置,***及其方法
CN111682966B (zh) * 2020-05-26 2022-08-19 中国人民解放军国防科技大学 带故障主动报告功能的网络通信装置,***及其方法

Similar Documents

Publication Publication Date Title
US8095759B2 (en) Error management firewall in a multiprocessor computer
CN101551763B (zh) 现场可编程逻辑门阵列中单粒子翻转的修复方法及装置
Radetzki et al. Methods for fault tolerance in networks-on-chip
Hwang et al. Cosmic rays don't strike twice: Understanding the nature of DRAM errors and the implications for system design
CN107799151B (zh) 固态盘SSD及高可用性PCIe SSD的方法和***
Kshirsagar et al. Design of a novel fault-tolerant voter circuit for TMR implementation to improve reliability in digital circuits
US8042071B2 (en) Circuit and method for avoiding soft errors in storage devices
Frantz et al. Dependable network-on-chip router able to simultaneously tolerate soft errors and crosstalk
CN101561477A (zh) 现场可编程逻辑门阵列中单粒子翻转的检测方法及装置
CN101551762B (zh) 具有抗单粒子效应能力的星载处理平台
CN102033789A (zh) 一种用于嵌入式安全关键***的可靠性分析方法
CN106293984A (zh) 一种计算机故障自动处理方式以及装置
JP6290934B2 (ja) プログラマブルデバイス、エラー保持システム、及び電子システム装置
US8261134B2 (en) Error management watchdog timers in a multiprocessor computer
CN102750194A (zh) 一种大规模集成电路层级错误记录与响应方法
Fiorin et al. Fault-tolerant network interfaces for networks-on-Chip
CN116049249A (zh) 报错信息处理方法、装置、***、设备和存储介质
CN102681930A (zh) 一种芯片级错误记录方法
JP5203223B2 (ja) 高速冗長データ処理システム
US9601217B1 (en) Methods and circuitry for identifying logic regions affected by soft errors
Rivers et al. Reliability challenges and system performance at the architecture level
WO2014115289A1 (ja) プログラマブルデバイス及び電子システム装置
CN106354580A (zh) 一种数据恢复方法及装置
CN101866312A (zh) 基于动态i/o值不变式的硬件故障检测***及方法
Liu et al. Recent advances on reliability of FPGAs in a radiation environment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121024