CN112506718B - 一种故障冗余机制的安全芯片处理器及处理方法 - Google Patents
一种故障冗余机制的安全芯片处理器及处理方法 Download PDFInfo
- Publication number
- CN112506718B CN112506718B CN202110162352.7A CN202110162352A CN112506718B CN 112506718 B CN112506718 B CN 112506718B CN 202110162352 A CN202110162352 A CN 202110162352A CN 112506718 B CN112506718 B CN 112506718B
- Authority
- CN
- China
- Prior art keywords
- fault
- operation unit
- current operation
- model
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2028—Failover techniques eliminating a faulty processor or activating a spare
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3024—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3447—Performance evaluation by modeling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种故障冗余机制的安全芯片处理器及处理方法,包括:安全运算模块,包括一组当前运算单元和至少一组冗余备份运算单元;特征参数提取模块,实时获取当前运算单元的运算参数信息,并从运算参数信息中提取指定的特征参数;故障预测模块,采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大,则判定当前运算单元存在故障;故障处理模块,让当前运算单元停止运行,并将该运算单元标记为故障运算单元;将其中一个冗余备份运算单元提升为当前运算单元,继续执行安全运算任务。具有可预测芯片处理器的故障、防止芯片处理器因故障停止运算、提高故障预测准确率和故障预测精确度满足应用要求等优点。
Description
技术领域
本发明涉及芯片处理器技术领域,具体涉及一种故障冗余机制的安全芯片处理器及处理方法。
背景技术
近年来,随着电子科技产业的高速发展,数字芯片在工业、通信、军事、电子消费领域的应用越来越广泛。数字芯片是现代电子设备的核心器件,随着集成化电子***芯片的结构日益复杂,数字芯片的功能不断增强,作用越来越大,对数字芯片的稳定性要求也更加严格。
和其他电子设备一样,数字芯片容易随着时间增加或工作环境变化发生故障,高故障率已成为制约其发展的重要因素之一,在潜水、军事、太空等领域中,设备的数字芯片如果发生故障将造成巨大的损失。数字芯片故障受诸多因素的共同影响,主要包括工作温度、环境温度、工作电压、环境辐射、器件老化、机械振动等等;这些因素会影响电路中的元器件性能参数,影响电路功能,最终导致电路故障。现有技术中数字芯片处理器存在以下不足:
1、数字芯片如果发生故障,相应的电子设备就会停止工作等待维修或维护;针对数字芯片的高故障率,目前一般都会对数字芯片进行定期维护,可以一定程度降低芯片故障造成的损失,但是,由于故障发生是随机性的,就存在了维护不足或过度维度等情况。
2、现有技术中也存在一些方法可以对数字芯片故障进行预测,一般是选择重要器件作为研究对象来预测,但由于集成电路芯片的物理结构复杂,芯片中器件数量很大,相互连接关系复杂,将会形成数以万计的特征参数,且不同变量之间相互影响,形成更加复杂的函数关系。现有的算法不足以应付如此规模的变量参数,特征参数的提取效率低,难以准确预测参数的变化,计算精度也不能满足应用要求。
发明内容
针对现有技术存在的上述不足,本发明的目的在于:提供一种故障冗余机制的安全芯片处理器及处理方法,设立了多组并行独立的运算单元,避免因当前运算单元出现故障,导致整个处理器停止运行,降低因故障造成的损失。通过提取和分析运算参数信息中的特征参数,预测故障,提前预警,让芯片处理器持续有效地执行安全运算任务。具有可预测芯片处理器的故障、防止芯片处理器因故障停止运算、提高故障预测准确率和故障预测精确度满足应用要求等优点。
一种故障冗余机制的安全芯片处理器,包括:
安全运算模块,包括一组当前运算单元和至少一组冗余备份运算单元,当前运算单元和冗余备份运算单元并行运作,用于根据安全运算逻辑进行安全运算任务;
特征参数提取模块,用于实时获取当前运算单元的运算参数信息,并从运算参数信息中提取指定的特征参数;
故障预测模块,用于采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大,则判定当前运算单元存在故障;
故障处理模块,用于让当前运算单元停止运行,并将该运算单元标记为故障运算单元;将其中一个冗余备份运算单元提升为当前运算单元,继续执行安全运算任务。
进一步地,还包括特征参数分析模块,用于实时监测所述特征参数的变化频率,并分析特征参数之间的函数关系和变化规律;所述特征参数包括芯片表面温度、环境温度和芯片输出频率。
进一步地,所述采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大时,则判定当前运算单元存在故障,包括:
采用故障预测模型根据特征参数的变化频率、特征参数间的变化关系来预测分析当前运算单元发生故障的特征参数的取值,将监测的实时特征参数和预测的故障特征参数进行对比,若实时特征参数和故障特征参数的绝对差值持续减小,则认为当前运算单元的故障可能性持续增大,判定当前运算单元存在故障。
进一步地,所述故障预测模型包括温度故障模型和预测模型,所述温度故障模型和预测模型均包括输入层、隐含层和输出层;温度故障模型的输入层有两个节点数,分别输入芯片表面温度和环境温度,输出层有一个节点数,输出芯片输出频率,隐含层有八个节点数,用于分析是否存在温度故障;预测模型的输入层有五个节点数,分别输入当前五个连续时刻的工作频率,输出层有一个节点数,输出预测的未来下一时刻的工作频率,隐含层有十二个节点数,用于根据当前时刻的工作频率预测分析当前运算单元在未来时刻的故障工作频率的取值。
进一步地,所述温度故障模型的隐含层的节点数目的计算,包括:
根据温度故障模型的输入层节点数目、输出层节点数目选择初始值,选择初始模型的隐含层节点数目为5;对所述温度故障模型进行训练,采用公式计算隐含层的节点数目,其中,为第i个节点的总输入,X表示多种输入参数向量,W为模型的连接权值向量;增加或减少模型的隐含层节点数目,根据模型精度和收敛速度选择误差最小的隐含层节点数;根据数据仿真计算得出,隐含层节点数目增加,模型输出误差逐渐减小,节点数目为8时,模型输出误差最小,节点数目超过8之后,模型输出误差逐渐增大。
一种故障冗余机制的安全芯片处理器方法,包括以下步骤:
采用当前运算单元根据安全运算逻辑进行安全运算任务,实时获取当前运算单元的运算参数信息,并从运算参数信息中提取指定的特征参数;
采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大,则判定当前运算单元存在故障;
若当前运算单元存在故障,则让当前运算单元停止运行,并将该运算单元标记为故障运算单元;将其中一个冗余备份运算单元提升为当前运算单元,继续执行安全运算任务。
进一步地,所述采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大时,则判定当前运算单元存在故障,包括:
实时监测所述特征参数的变化频率,并分析特征参数之间的函数关系和变化规律;所述特征参数包括芯片表面温度、环境温度和芯片输出频率;
采用故障预测模型根据特征参数的变化频率、特征参数间的变化关系来预测分析当前运算单元发生故障的特征参数的取值,将监测的实时特征参数和预测的故障特征参数进行对比,若实时特征参数和故障特征参数的绝对差值持续减小,则认为当前运算单元的故障可能性持续增大,判定当前运算单元存在故障。
进一步地,所述故障预测模型包括温度故障模型和预测模型,温度故障模型的输入为芯片表面温度和环境温度,输出为芯片输出频率,用于分析芯片表面温度和环境温度对芯片输出频率、以及芯片输出频率在预设工作条件下随时间的变化趋势;预测模型的输入为当前五个连续时刻的工作频率,输出为预测的未来下一时刻的工作频率,用于根据当前时刻的工作频率预测分析当前运算单元在未来时刻的故障工作频率的取值。
进一步地,所述温度故障模型的训练包括:
将输入样本输入所述温度故障模型,按照模型的正向传播计算模型的实际输出,计算实际输出与期望输出的误差,判断误差是否满足预设要求,若是,则训练结束,若否,则进行误差反向传播计算;经过反复迭代,计算得到满足预设要求的连接权值;得到收敛的温度故障模型,得到满足条件的隐含层连接权值矩阵和输出层连接权值矩阵;
进一步地,所述预测模型的训练包括:
将输入样本输入所述温度故障模型,按照模型的正向传播计算模型的实际输出,计算实际输出与期望输出的误差,判断误差是否满足预设要求,若是,则训练结束,若否,则进行误差反向传播计算;经过反复迭代,计算得到满足预设要求的连接权值;得到收敛的预测模型,得到满足条件的隐含层连接权值矩阵和输出层连接权值矩阵;
相比于现有技术,本发明具有以下优点:
本发明提供了一种故障冗余机制的安全芯片处理器及处理方法,设立多组并行独立的运算单元,避免因当前运算单元出现故障,导致整个处理器停止运行,降低因故障造成的损失。通过提取和分析运算参数信息中的特征参数,预测故障,提前预警,让芯片处理器持续有效地执行安全运算任务。具有可预测芯片处理器的故障、防止芯片处理器因故障停止运算、提高故障预测准确率和故障预测精确度满足应用要求等优点。
附图说明
图1为本发明实施例一中故障冗余机制的安全芯片处理器的原理框图;
图2为本发明实施例二中故障冗余机制的安全芯片处理方法的控制流程图;
图3为本发明实施例一和实施例二中预测芯片处理器故障的预测流程图;
图4为本发明实施例一和实施例二中故障预测模型训练时的误差控制流程图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
实施例一:
参照图1,一种故障冗余机制的安全芯片处理器,包括:
安全运算模块,包括一组当前运算单元和至少一组冗余备份运算单元,当前运算单元和冗余备份运算单元并行运作,用于根据安全运算逻辑进行安全运算任务;具体地,可以将当前运算单元和多组冗余备份运算单元设计成相同结构,各个运算单元可以并行独立工作、独立完成安全运算任务。
特征参数提取模块,用于实时获取当前运算单元的运算参数信息,并从运算参数信息中提取指定的特征参数;具体地,指定的特征参数包括芯片表面温度、环境温度和芯片输出频率,除此之外,在后文训练温度故障模型时,还需要提取的特征参数包括输入特征参数信号和输出特征参数信号,输入特征参数信号包括频率f、输出电压V、输出电流I等,输出特征参数信号包括温度T、湿度、辐射强度、振动频率、振动幅度等。
特征参数分析模块,用于实时监测所述特征参数的变化频率,并分析特征参数之间的函数关系和变化规律。
故障预测模块,用于采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大,则判定当前运算单元存在故障。具体地,所述故障预测模型包括温度故障模型和预测模型,所述温度故障模型和预测模型均包括输入层、隐含层和输出层;温度故障模型的输入层有两个节点数,分别输入芯片表面温度和环境温度,输出层有一个节点数,输出芯片输出频率,隐含层有八个节点数,用于分析是否存在温度故障;预测模型的输入层有五个节点数,分别输入当前五个连续时刻的工作频率,输出层有一个节点数,输出预测的未来下一时刻的工作频率,隐含层有十二个节点数,用于根据当前时刻的工作频率预测分析当前运算单元在未来时刻的故障工作频率的取值。
故障处理模块,用于让当前运算单元停止运行,并将该运算单元标记为故障运算单元;将其中一个冗余备份运算单元提升为当前运算单元,继续执行安全运算任务。
上述故障冗余机制的安全芯片处理器,在芯片处理器内部设立了多组并行独立的运算单元,若当前运算单元出现故障,可以停止该运算单元,并将另外的运算单元提升为当前运算单元,继续执行安全运算任务,可以有效防止因故障导致整个处理器停止运行,降低因故障造成的损失。通过提取和分析运算参数信息中的特征参数,能够在芯片处理器发生故障前预测故障的发生,提前预警,能够根据芯片处理器工作状态进行维护,可以提前对运算单元进行更换,让芯片处理器持续有效地执行安全运算任务,无需等到芯片处理器完全停运,进一步降低维护成本并将故障造成的损失降到最低。具有可预测芯片处理器的故障、防止芯片处理器因故障停止运算、提高故障预测准确率和故障预测精确度满足应用要求等优点。
上述故障冗余机制的安全芯片处理器,所述采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大时,则判定当前运算单元存在故障,具体方法包括:
采用故障预测模型根据特征参数的变化频率、特征参数间的变化关系来预测分析当前运算单元发生故障的特征参数的取值,将监测的实时特征参数和预测的故障特征参数进行对比,若实时特征参数和故障特征参数的绝对差值持续减小,则认为当前运算单元的故障可能性持续增大,判定当前运算单元存在故障。这样,可以提高芯片处理器的故障预测准确率,让故障预测精确度满足应用要求。具体地,安全运算单元的运算特征参数的函数变化关系一般包括阶跃型函数、线性函数、Sigmoid函数和双曲线正切函数。通过监测特征参数的变化频率值是否发生故障,从而分析输出频率与使用时间的关系,预测芯片是否发生故障。
上述故障冗余机制的安全芯片处理器,所述温度故障模型的隐含层的节点数目的计算方法如下:
根据温度故障模型的输入层节点数目、输出层节点数目选择初始值,选择初始模型的隐含层节点数目为5;对所述温度故障模型进行训练,采用公式计算隐含层的节点数目,其中,为第i个节点的总输入,X表示多种输入参数向量,W为模型的连接权值向量;增加或减少模型的隐含层节点数目,根据模型精度和收敛速度选择误差最小的隐含层节点数;根据数据仿真计算得出,隐含层节点数目增加,模型输出误差逐渐减小,节点数目为8时,模型输出误差最小,节点数目超过8之后,模型输出误差逐渐增大。
具体实施时,可以将多个安全运算单元的输入接口相互连通、输出接口相互连通,每个安全运算单元可以包括计算处理块和故障处理开关块;未发生故障时,只有当前运算单元的故障处理开关块处于开启状态,并由对应的计算处理块按照安全运算逻辑进行安全运算任务,其余运算单元的故障处理开关块均处于关闭状态;若当前运算单元发生故障,则通过故障处理模块将对应的故障处理开关块关闭,并标记故障和通知维护,以便维护人员及时维护/维修,同时,从其余的运算单元中提取一个运算单元,将其故障处理开关块打开,继续执行安全运算任务。
由于芯片处理器的性能发生恶化,并不会直接表现为功能故障,首先表现为性能参数下降,比如电路延迟、工作频率降低、噪声大等,当性能参数下降幅度达到一定程度,芯片性能恶化,影响正常工作。因此,通过分析运算特征参数的性能变化,可以判断出是否出现故障,提前预警,可以提前停止有预测故障的运算单元,让其他运行单元替换,让芯片处理器持续有效地执行安全运算任务,无需等到芯片处理器完全停运,进而降低维护成本并将故障造成的损失降到最低。这样,可以提高故障预测准确率,让故障预测精确度满足应用要求。
实施例二:
参照图2,一种故障冗余机制的安全芯片处理器方法,包括以下步骤:
采用当前运算单元根据安全运算逻辑进行安全运算任务,实时获取当前运算单元的运算参数信息,并从运算参数信息中提取指定的特征参数。具体地,在芯片处理器内部设有一组当前运算单元和至少一组冗余备份运算单元,当前运算单元和冗余备份运算单元并行运作,可以将当前运算单元和多组冗余备份运算单元设计成相同结构,各个运算单元可以并行独立工作、独立完成安全运算任务。指定的特征参数包括芯片表面温度、环境温度和芯片输出频率,除此之外,在后文训练温度故障模型时,还需要提取的特征参数包括输入特征参数信号和输出特征参数信号,输入特征参数信号包括频率f、输出电压V、输出电流I等,输出特征参数信号包括温度T、湿度、辐射强度、振动频率、振动幅度等。
采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大,则判定当前运算单元存在故障。具体地,所述故障预测模型包括温度故障模型和预测模型,温度故障模型的输入为芯片表面温度和环境温度,输出为芯片输出频率,用于分析芯片表面温度和环境温度对芯片输出频率、以及芯片输出频率在预设工作条件下随时间的变化趋势;预测模型的输入为当前五个连续时刻的工作频率,输出为预测的未来下一时刻的工作频率,用于根据当前时刻的工作频率预测分析当前运算单元在未来时刻的故障工作频率的取值。
若当前运算单元存在故障,则让当前运算单元停止运行,并将该运算单元标记为故障运算单元;将其中一个冗余备份运算单元提升为当前运算单元,继续执行安全运算任务。
上述故障冗余机制的安全芯片处理方法,在芯片处理器内部设立了多组并行独立的运算单元,若当前运算单元出现故障,可以停止该运算单元,并将另外的运算单元提升为当前运算单元,继续执行安全运算任务,可以有效防止因故障导致整个处理器停止运行,降低因故障造成的损失。通过提取和分析运算参数信息中的特征参数,能够在芯片处理器发生故障前预测故障的发生,提前预警,能够根据芯片处理器工作状态进行维护,可以提前对运算单元进行更换,让芯片处理器持续有效地执行安全运算任务,无需等到芯片处理器完全停运,进一步降低维护成本并将故障造成的损失降到最低。具有可预测芯片处理器的故障、防止芯片处理器因故障停止运算、提高故障预测准确率和故障预测精确度满足应用要求等优点。
上述故障冗余机制的安全芯片处理方法,参照图3,所述采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大时,则判定当前运算单元存在故障,包括:
实时监测所述特征参数的变化频率,并分析特征参数之间的函数关系和变化规律;所述特征参数包括芯片表面温度、环境温度和芯片输出频率;
采用故障预测模型根据特征参数的变化频率、特征参数间的变化关系来预测分析当前运算单元发生故障的特征参数的取值,将监测的实时特征参数和预测的故障特征参数进行对比,若实时特征参数和故障特征参数的绝对差值持续减小,则认为当前运算单元的故障可能性持续增大,判定当前运算单元存在故障。
这样,可以提高芯片处理器的故障预测准确率,让故障预测精确度满足应用要求。具体地,安全运算单元的运算特征参数的函数变化关系一般包括阶跃型函数、线性函数、Sigmoid函数和双曲线正切函数。通过监测特征参数的变化频率值是否发生故障,从而分析输出频率与使用时间的关系,预测芯片是否发生故障。
上述故障冗余机制的安全芯片处理方法,所述温度故障模型的训练包括:
将输入样本输入所述温度故障模型,按照模型的正向传播计算模型的实际输出,计算实际输出与期望输出的误差,判断误差是否满足预设要求,若是,则训练结束,若否,则进行误差反向传播计算;经过反复迭代,计算得到满足预设要求的连接权值;得到收敛的温度故障模型,得到满足条件的隐含层连接权值矩阵和输出层连接权值矩阵;
上述故障冗余机制的安全芯片处理方法,所述预测模型的训练包括:
将输入样本输入所述温度故障模型,按照模型的正向传播计算模型的实际输出,计算实际输出与期望输出的误差,判断误差是否满足预设要求,若是,则训练结束,若否,则进行误差反向传播计算;经过反复迭代,计算得到满足预设要求的连接权值;得到收敛的预测模型,得到满足条件的隐含层连接权值矩阵和输出层连接权值矩阵;
在上述温度故障模型和预测模型的训练过程中,参照图4,首先根据公式
依次计算出各层节点的输出值,再根据公式
计算模型的误差;判断误差是否满足要求,若是则结束训练,若否则说明误差偏大,需要进行误差反向传播计算,根据隐含层输出向量和输出层输出向量计算期望输出向量,计算输出层和隐含层的修改量,修改连接权值后,再计算模型的误差,并判断误差是否满足要求。当实际误差小于期望误差则判定满足要求。其中,H表示隐含层节点数目,M表示输入层节点数目,表示模型内部的激活函数类型,可以采用Sigmoid函数,R表示所有实数的集合。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的保护范围当中。
Claims (4)
1.一种故障冗余机制的安全芯片处理器,其特征在于,包括:
安全运算模块,包括一组当前运算单元和至少一组冗余备份运算单元,当前运算单元和冗余备份运算单元并行运作,用于根据安全运算逻辑进行安全运算任务;
特征参数提取模块,用于实时获取当前运算单元的运算参数信息,并从运算参数信息中提取指定的特征参数;
故障预测模块,用于采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大,则判定当前运算单元存在故障;
故障处理模块,用于让当前运算单元停止运行,并将该运算单元标记为故障运算单元;将其中一个冗余备份运算单元提升为当前运算单元,继续执行安全运算任务;
特征参数分析模块,用于实时监测所述特征参数的变化频率,并分析特征参数之间的函数关系和变化规律;所述特征参数包括芯片表面温度、环境温度和芯片输出频率;
所述故障预测模型包括温度故障模型和预测模型,所述温度故障模型和预测模型均包括输入层、隐含层和输出层;温度故障模型的输入层有两个节点数,分别输入芯片表面温度和环境温度,输出层有一个节点数,输出芯片输出频率,隐含层有八个节点数,用于分析是否存在温度故障;预测模型的输入层有五个节点数,分别输入当前五个连续时刻的工作频率,输出层有一个节点数,输出预测的未来下一时刻的工作频率,隐含层有十二个节点数,用于根据当前时刻的工作频率预测分析当前运算单元在未来时刻的故障工作频率的取值。
2.根据权利要求1所述的故障冗余机制的安全芯片处理器,其特征在于,所述采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大时,则判定当前运算单元存在故障,包括:
采用故障预测模型根据特征参数的变化频率、特征参数间的变化关系来预测分析当前运算单元发生故障的特征参数的取值,将监测的实时特征参数和预测的故障特征参数进行对比,若实时特征参数和故障特征参数的绝对差值持续减小,则认为当前运算单元的故障可能性持续增大,判定当前运算单元存在故障。
3.一种故障冗余机制的安全芯片处理方法,其特征在于,包括以下步骤:
采用当前运算单元和至少一组冗余备份运算单元根据安全运算逻辑进行安全运算任务,实时获取当前运算单元的运算参数信息,并从运算参数信息中提取指定的特征参数;
采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大,则判定当前运算单元存在故障;
若当前运算单元存在故障,则让当前运算单元停止运行,并将该运算单元标记为故障运算单元;将其中一个冗余备份运算单元提升为当前运算单元,继续执行安全运算任务;
所述采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大时,则判定当前运算单元存在故障,包括:
实时监测所述特征参数的变化频率,并分析特征参数之间的函数关系和变化规律;所述特征参数包括芯片表面温度、环境温度和芯片输出频率;
采用故障预测模型根据特征参数的变化频率、特征参数间的变化关系来预测分析当前运算单元发生故障的特征参数的取值,将监测的实时特征参数和预测的故障特征参数进行对比,若实时特征参数和故障特征参数的绝对差值持续减小,则认为当前运算单元的故障可能性持续增大,判定当前运算单元存在故障;
所述故障预测模型包括温度故障模型和预测模型,温度故障模型的输入为芯片表面温度和环境温度,输出为芯片输出频率,用于分析芯片表面温度和环境温度对芯片输出频率、以及芯片输出频率在预设工作条件下随时间的变化趋势;预测模型的输入为当前五个连续时刻的工作频率,输出为预测的未来下一时刻的工作频率,用于根据当前时刻的工作频率预测分析当前运算单元在未来时刻的故障工作频率的取值;
所述温度故障模型的训练包括:
将输入样本输入所述温度故障模型,按照模型的正向传播计算模型的实际输出,计算实际输出与期望输出的误差,判断误差是否满足预设要求,若是,则训练结束,若否,则进行误差反向传播计算;经过反复迭代,计算得到满足预设要求的连接权值;得到收敛的温度故障模型,得到满足条件的隐含层连接权值矩阵和输出层连接权值矩阵;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110162352.7A CN112506718B (zh) | 2021-02-05 | 2021-02-05 | 一种故障冗余机制的安全芯片处理器及处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110162352.7A CN112506718B (zh) | 2021-02-05 | 2021-02-05 | 一种故障冗余机制的安全芯片处理器及处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112506718A CN112506718A (zh) | 2021-03-16 |
CN112506718B true CN112506718B (zh) | 2021-05-11 |
Family
ID=74953125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110162352.7A Active CN112506718B (zh) | 2021-02-05 | 2021-02-05 | 一种故障冗余机制的安全芯片处理器及处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112506718B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936117A (zh) * | 2021-09-02 | 2022-08-23 | 华为技术有限公司 | 模型训练的方法、服务器、芯片以及*** |
CN116149897B (zh) * | 2023-04-19 | 2023-07-04 | 苏州云途半导体有限公司 | 一种芯片功能安全故障处理方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105988918B (zh) * | 2015-02-26 | 2019-03-08 | 阿里巴巴集团控股有限公司 | 预测gpu故障的方法和装置 |
CN106933145B (zh) * | 2017-03-09 | 2019-04-23 | 上海微小卫星工程中心 | 一种星载处理***及其控制运行方法 |
CN111242357B (zh) * | 2020-01-06 | 2024-02-02 | 北京锦鸿希电信息技术股份有限公司 | 基于神经网络学习的列车车载设备故障预测方法及装置 |
-
2021
- 2021-02-05 CN CN202110162352.7A patent/CN112506718B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112506718A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112202736B (zh) | 基于统计学习和深度学习的通信网络异常分类方法 | |
CN112506718B (zh) | 一种故障冗余机制的安全芯片处理器及处理方法 | |
CN113642754B (zh) | 一种基于rf降噪自编码信息重构和时间卷积网络的复杂工业过程故障预测方法 | |
Saeed et al. | Online fault monitoring based on deep neural network & sliding window technique | |
CN110530650B (zh) | 基于广义回归神经网络与箱型图分析的重型燃气轮机性能状态监测方法 | |
CN112799898B (zh) | 基于分布式故障检测的互联***故障节点定位方法及*** | |
KR102501883B1 (ko) | 기계 학습 기반의 설비 이상 분류 시스템 및 방법 | |
KR102501884B1 (ko) | 기계 학습 기반의 설비 이상 진단 시스템 및 방법 | |
Mathew et al. | Regression kernel for prognostics with support vector machines | |
CN114266278B (zh) | 一种基于双重注意力网络的设备剩余使用寿命预测方法 | |
CN115017826B (zh) | 一种装备剩余使用寿命预测方法 | |
CN112632845B (zh) | 基于数据的小型反应堆在线故障诊断方法、介质及设备 | |
CN106354125A (zh) | 一种利用分块pca检测化工过程故障的方法 | |
Duan | Dynamic Bayesian monitoring and detection for partially observable machines under multivariate observations | |
CN113743750B (zh) | 核电厂工艺***过程风险评估***及方法 | |
CN114962390A (zh) | 液压***故障诊断方法、***及作业机械 | |
Ahmadi et al. | Fault detection Automation in Distributed Control Systems using Data-driven methods: SVM and KNN | |
WO2015037066A1 (ja) | プラント事故時運転支援システム及びプラント事故時運転支援方法 | |
CN114943281B (zh) | 一种热管冷却反应堆智能决策方法及*** | |
KR20230102431A (ko) | 인공지능 기반의 오일가스 플랜트 설비 고장 예측 및 진단시스템 | |
Lorenti et al. | Predictive maintenance in the industry: A comparative study on deep learning-based remaining useful life estimation | |
CN118091406B (zh) | 电机检测修复方法、装置、电子设备及存储介质 | |
EP4254430A1 (en) | Device and method for tracking basis of abnormal state determination by using neural network model | |
CN117131467A (zh) | 一种核循环泵齿轮箱润滑***故障诊断方法 | |
Xu et al. | Double attention aircraft engine remaining life prediction based on CNN-GRU |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20210316 Assignee: Hangzhou Weiming Information Technology Co.,Ltd. Assignor: Zhejiang core Gravity Technology Co.,Ltd. Contract record no.: X2021330000325 Denomination of invention: A safety chip processor with fault redundancy mechanism and its processing method Granted publication date: 20210511 License type: Common License Record date: 20210927 |