CN110888412B - 半导体器件和分析*** - Google Patents

半导体器件和分析*** Download PDF

Info

Publication number
CN110888412B
CN110888412B CN201910706163.4A CN201910706163A CN110888412B CN 110888412 B CN110888412 B CN 110888412B CN 201910706163 A CN201910706163 A CN 201910706163A CN 110888412 B CN110888412 B CN 110888412B
Authority
CN
China
Prior art keywords
error
data
time
stress
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910706163.4A
Other languages
English (en)
Other versions
CN110888412A (zh
Inventor
太田直矢
竹内干
土屋文男
岛田将树
小西信也
押田大介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renesas Electronics Corp
Original Assignee
Renesas Electronics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renesas Electronics Corp filed Critical Renesas Electronics Corp
Publication of CN110888412A publication Critical patent/CN110888412A/zh
Application granted granted Critical
Publication of CN110888412B publication Critical patent/CN110888412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1004Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's to protect a block of data words, e.g. CRC or checksum
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0243Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults model based detection method, e.g. first-principles knowledge model
    • G05B23/0254Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults model based detection method, e.g. first-principles knowledge model based on a quantitative model, e.g. mathematical relationships between inputs and outputs; functions: observer, Kalman filter, residual calculation, Neural Networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03KPULSE TECHNIQUE
    • H03K3/00Circuits for generating electric pulses; Monostable, bistable or multistable circuits
    • H03K3/02Generators characterised by the type of circuit or by the means used for producing pulses
    • H03K3/027Generators characterised by the type of circuit or by the means used for producing pulses by the use of logic circuits, with internal or external positive feedback
    • H03K3/03Astable circuits
    • H03K3/0315Ring oscillators

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Debugging And Monitoring (AREA)
  • Tests Of Electronic Circuits (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本公开的实施例涉及半导体器件和分析***。一种半导体器件包括:具有预定功能的模块;用于获取关于模块中发生的错误的错误信息的错误信息获取电路;用于获取应力累积值作为施加到半导体器件的应力的累积值的应力获取电路;用于存储分析数据作为用于分析半导体器件的状态的数据的分析数据存储装置,错误发生时的错误信息和应力累积值彼此相关联。

Description

半导体器件和分析***
相关申请的交叉引用
于2018年9月7日提交的日本专利申请No.2018-167794的公开内容(包括说明书、附图和摘要)通过引用整体并入本文。
背景技术
本发明涉及半导体器件和分析***,并且例如涉及用于错误分析的技术。
用于分析设备退化的技术是已知的。例如,专利文献1公开了一种用于基于施加到设备的应力来分析设备的寿命的技术。该技术使用Arrhenius定律或Eyring模型来计算寿命。专利文献2和非专利文献1公开了使用环形振荡器测量应力的技术。
[现有技术文献]
[专利文献]
[专利文献1]日本未审查公开No.2013-92405
[专利文献2]日本未审查公开No.2017-118414
[非专利文献]
[非专利文献1]2018年的IET Circuits,Devices&Systems的Vol.12,Iss.2,pp.182-188的Kan Takeuchi等人的“Wear-out stress monitor utilizing temperatureand voltage sensitive ring oscillators”
发明内容
然而,当专注于累积应力执行设备的故障的分析时,最终导致故障的错误类型不限于一种,因此,有可能无法获取足够有用的分析结果。此外,在需要高可靠性的设备中,提供了被称为功能安全机制的装置,使得设备中产生的错误不会在设备的故障时发生。因此,需要获取可以更有效地分析以便预测性地维护设备的故障的数据。
根据本说明书和附图的描述,其他目的和新颖特征将变得很清楚。
根据一个实施例,半导体器件具有分析数据存储单元,分析数据存储单元存储分析数据作为用于分析半导体器件的状态的数据,该分析数据是将错误信息与错误发生时的应力累积值相关联的数据。
根据上述实施例,可以获取能够对设备故障的预测性维护进行更有用的分析的数据。
附图说明
图1是示出半导体器件的配置的示例的框图;
图2是示出分析***的配置的示例的框图;
图3是示出MCU的配置的示例的框图;
图4是示出MCU的另一配置的示例的框图;
图5是示出服务器的硬件配置的示例的框图;
图6是示出服务器的功能配置的示例的框图;
图7是示出在MCU中存储分析数据的操作的示例的流程图;
图8是示出在MCU从服务器接收诊断结果时的操作的示例的流程图;
图9是示出在关闭时(正常完成)的MCU的操作的示例的流程图;
图10是示出在错误检测单元向ECM通知错误检测时的MCU的操作的示例的流程图;
图11是示出在复位完成时的MCU的操作的示例的流程图;
图12是图示使用在错误发生时的数据和先前数据的分析处理的示例的流程图;
图13是示出用于确定应力数据与错误之间的关系的过程的示例的流程图;
图14是示出在MCU执行分析处理时的MCU的功能配置的示例的框图;
图15是示出非易失性存储器的存储内容的示例的示意图;
图16是示出在复位完成时的MCU操作的示例的流程图;
图17是用于构建可以预测错误发生的模型的方法的示意图;
图18是示出学习阶段的模型的输入/输出的示例的示意图;
图19是示出推理阶段的模型的输入/输出的示例的示意图;
图20是示出应力监测器的配置的示例的框图;
图21是示出应力监测器的每个组件的波形的曲线图;
图22是示出用于确定ECC错误是否是硬件错误的方法的示例的流程图;以及
图23是示出分析数据的存储过程的示例的示意图。
具体实施方式
为了清楚地解释,适当地省略和简化以下描述和附图。在附图中,相同的元素由相同的附图标记表示,并且根据需要省略其重复描述。
首先,在详细描述实施例之前,将描述实施例的概要。图1是示出根据实施例的概要的半导体器件1的配置的示例的框图。半导体器件1包括模块2、错误信息获取单元3、应力获取单元4和分析数据存储单元5。半导体器件1例如是MCU(微控制单元),但不是限于此。
模块2提供预定功能。模块2例如是执行处理以提供预定功能的硬件电路,但也可以是软件,不限于硬件电路。半导体器件1可以包括多个模块2。错误信息获取单元3获取关于模块2中已经发生的错误的错误信息。应力获取单元4获取应力累积值,该应力累积值是施加到半导体器件1的应力的累积值。
分析数据存储单元5存储分析数据作为用于分析半导体器件1的状态的数据,该分析数据是将由错误信息获取单元3获取的错误信息与由应力获取单元4在错误发生时获取的应力累积值相关联的数据。分析数据存储单元5可以将分析数据存储在设置在半导体器件1中的存储器(例如,非易失性存储器)中,或者可以将分析数据存储在另一装置(例如,使用分析数据执行预定分析处理的服务器)中。
如上所述,半导体器件1不仅存储关于应力的信息作为分析数据,而且还存储将错误信息与错误发生时的应力累积值相关联的数据作为分析数据。因此,根据这样的分析数据,可以进行专注于错误与应力之间的关系的分析。如上所述,根据半导体器件1,可以获取能够进行更有用的分析以预测和维护设备的故障的数据。
第一实施例
下面将描述该实施例的细节。图2是示出根据第一实施例的分析***10的配置的示例的框图。分析***10包括M个MCU 100(M是等于或大于1的整数)和服务器200。MCU 100例如是安装在车辆上的MCU,但不限于MCU。服务器200例如是存在于云上的服务器,但不限于此。MCU 100通过例如无线通信可通信地连接到服务器200。
图3是示出根据本发明的实施例的MCU 100的示例性配置的框图。如图3所示,MCU100包括处理器101、存储器102、模块103、错误检测单元104、应力监测器105和ECM(错误控制模块)106。本文中,MCU 100对应于图1的半导体器件1,并且处理器101、存储器102和模块103对应于图1的模块2。
存储器102可以是例如易失性存储器、非易失性存储器或两者。存储器102用于存储软件,诸如计算机程序,包括要由处理器101执行的一个或多个指令。存储器102可以存储(但不限于)软件、各种数据。而且,上述程序可以使用各种类型的非暂态计算机可读介质来存储和提供给计算机。非暂态计算机可读介质包括各种类型的有形存储介质。非暂态计算机可读介质的示例包括磁记录介质(例如,软盘、磁带、硬盘驱动器)、磁光记录介质(例如,磁光盘)、CD-ROM(只读存储器)、CD-R、CD-R/W、固态存储器(例如,屏蔽ROM、PROM(可编程ROM)、EPROM(可擦除PROM)、闪存ROM、RAM(随机存取存储器))。程序也可以通过各种类型的暂态计算机可读介质提供给计算机。暂态计算机可读介质的示例包括电信号、光信号和电磁波。暂态计算机可读介质可以经由有线或无线通信路径向计算机提供程序,诸如电线和光纤。
处理器101从存储器102读取和执行软件(计算机程序),从而执行各种处理,包括错误信息获取单元150、应力获取单元151、累积操作时间获取单元152和分析数据存储单元153的处理,这将在后面描述。处理器101例如是CPU(中央处理单元),但也可以是GPU(图形处理单元)等。处理器101可以包括多个处理器。
模块103是由提供预定功能的硬件电路配置的***模块。例如,模块103可以是ADC(模数转换器)、DAC(数模转换器)、定时器等。
错误检测单元104检测与图1所示的模块2相对应的组件的异常。即,错误检测单元104检测处理器101、存储器102和模块103中的异常。错误检测单元104可以存在于与模块2相对应的每个组件中,或者可以存在于与模块2相对应的多个组件中。错误检测单元104由例如硬件电路配置,但是可以由软件实现。错误检测单元104例如是用于检测存储器102中的错误的ECC(错误检查和校正)电路、用于检测处理器101中的错误的DCLS(双核锁步)电路的错误检测功能等。错误检测单元104可以通过检测由半导体器件(MCU 100)控制的模块的异常情况来检测在半导体器件外部的模块中产生的错误。当检测到错误时,错误检测单元104向ECM 106输出指示已经检测到错误的信号。错误检测单元104可以向ECM 106输出指示诸如检测到的错误的类型等错误内容的信号。
在本实施例中,由错误检测单元104检测到的错误包括不会导致半导体器件的故障的错误。也就是说,它包括可以由MCU 100的功能安全机制等处理的错误。例如,存储器中的1位错误是可纠正的错误,因为它可以由ECC电路校正。
ECM 106是基于从错误检测单元104通知的信号执行预定控制的控制器。例如,ECM106是具有寄存器的硬件电路,该寄存器存储定义每种类型的错误的控制内容的设置信息,并且硬件电路是指存储在寄存器中的与从错误检测单元104通知的信号相对应的设置信息,这些信号用于根据设置信息执行控制。例如,在从错误检测单元104接收到通知时,ECM106可以生成用于引起处理器101执行预定程序的中断,可以复位MCU 100,或者可以向MCU100中的另一设备或另一组件通知错误。
应力监测器105连续地测量在MCU 100的操作期间施加到MCU 100的应力,并且保持应力累积值,该应力累积值是所测量的应力的累积值。例如,应力监测器105由软件配置。在这种情况下,例如,处理器101通过输入由包括在MCU 100中的温度传感器或电压传感器测量的值来执行应力计算程序,并且从而测量应力。也就是说,应力监测器105可以使用由温度传感器和Arrhenius模型测量的MCU 100的温度来计算应力,或者可以使用由电压传感器和Eyring模型测量的MCU 100的电源电压来计算应力。应力监测器105可以由硬件电路配置。在这种情况下,例如,应力监测器105包括环形振荡器和对应力具有预定依赖性的计数器电路,并且通过用计数器电路对环形振荡器的振荡频率进行计数来测量应力。
另外,应力监测器105测量和保持累积操作时间,该累积操作时间是MCU 100的操作时间的累积值。以这种方式,应力监测器105保持MCU 100的特定时间点的累积应力值和累积操作时间。在以下描述中,累积应力值和累积操作时间统称为应力数据。
图4是示出MCU 100的示例性配置的框图。例如,图4所示的配置通过引起处理器101执行由ECM 106的控制产生的中断处理程序来实现。
错误信息获取单元150对应于图1的错误信息获取单元3,并且在本实施例中,获取关于由错误检测单元104检测到的错误的错误信息。错误信息包括指示错误类型的信息。指示错误类型的信息包括指示哪个组件已经输出错误的信息。指示错误类型的信息可以包括指示错误内容的信息。错误信息可以由错误检测单元104生成,或者错误信息可以由ECM106基于从错误检测单元104通知的信号来生成。
应力获取单元151对应于图1中的应力获取单元4,并且在本实施例中,获取由应力监测器105保持的应力累积值。累积操作时间获取单元152获取累积操作时间。在本实施例中,累积操作时间获取单元152获取由应力监测器105保持的累积操作时间。以这种方式,应力获取单元151和累积操作时间获取单元152用作获取应力数据的应力数据获取单元。
分析数据存储单元153对应于图1的分析数据存储单元5,生成分析数据作为用于分析MCU 100的状态的数据,并且将所生成的数据存储在服务器200中,该分析数据是将错误信息与在由错误信息指示的错误发生时的应力数据相关联的数据。即,分析数据存储单元153存储其中错误信息、由错误信息指示的错误发生时的应力累积值、以及错误发生时的累积操作时间彼此相关联的数据作为分析数据。应当注意,与其相关联的数据可以称为错误时间点数据。分析数据存储单元153通过使用例如设置在MCU 100中的发送/接收电路(未示出)向服务器200传输分析数据来将分析数据存储在服务器200的存储装置202(参见图5)中。
如上所述,在本实施例中,检测到的错误包括不会由于功能安全机制而导致MCU100故障的错误。因此,由错误信息获取单元150获取的错误信息包括不会作为由功能安全机构引起的半导体器件的故障发生的错误的信息。因此,分析数据存储单元153不仅存储与关于作为半导体器件的故障发生的错误的错误信息相关联的应力数据,而且还存储与关于不作为故障时发生的错误的错误信息相关联的应力数据,作为分析数据。因此,与仅存储作为故障发生的错误的分析数据的情况相比,可以获取更多的分析数据。可以确保用于分析过程的更多的数据。
无论错误检测单元104是否检测到错误,分析数据存储单元153都在预定存储定时将应力数据作为分析数据存储在服务器200的存储装置202中。在本实施例中,存储定时是在关闭时,即在正常终止时,但是也可以是操作期间的周期性定时。
除了将分析数据存储在服务器200的存储装置202中之外,分析数据存储单元153还可以将分析数据存储在MCU 100的存储器102中等。
接下来,将描述服务器200。图5是示出服务器200的硬件配置的示例的框图。如图5所示,服务器200包括例如网络接口201、存储装置202、存储器203和处理器204。
网络接口201用于与MCU 100通信。网络接口201可以包括例如网络接口卡(NIC)。
存储装置202包括HDD(硬盘驱动器)、磁带、光盘、SSD(固态驱动器)等。存储装置202存储包括从M个MCU 100传输的分析数据的各种信息。存储装置202可以存储通过使用分析数据的机器学习生成的学习模型。
存储器203包括例如易失性存储器或非易失性存储器。存储器203用于存储例如包括要由处理器204执行的一个或多个指令的程序。
处理器204例如是CPU,但也可以是GPU等。处理器204可以包括多个处理器。处理器204从存储器203读取和执行计算机程序,从而执行图6所示的服务器200的每个组件的处理。
上述程序可以使用各种类型的非暂态计算机可读介质来存储和提供给计算机。该程序还可以通过各种类型的暂态计算机可读介质提供给计算机。
图6是示出服务器200的功能配置的示例的框图。如图6所示,服务器200包括分析单元210和状态通知单元211。
分析单元210基于存储在存储装置202中的分析数据分析MCU 100的状态。分析单元210分析关于错误的信息(例如,错误的发生位置、错误的内容、错误的发生频率、错误的发生间隔等)与应力数据之间的关系。分析单元210可以使用用于分析的数据和AI(人工智能)技术来执行涉及机器学习的分析过程。也就是说,分析单元210可以使用分析数据作为训练数据通过机器学习生成模型。机器学习包括但不限于神经网络。
状态通知单元211使用网络接口201向MCU 100通知由分析单元210基于分析处理而确定的MCU 100的状态(诊断结果)。
图7是示出用于将分析数据存储在MCU 100中的示例性操作的流程图。在下文中,将参考图7描述用于存储分析数据的操作的流程。在步骤S101中,错误检测单元104监测是否发生了错误。如果错误检测单元104未检测到错误(步骤S101中的“否”),则MCU 100在步骤S104中执行正常处理。另一方面,当错误检测单元104检测到任何组件中的错误时(步骤S101中的“是”),处理进入步骤S102。
在步骤S102中,分析数据存储单元153生成分析数据,该分析数据是将关于由错误检测单元104检测到的错误的错误信息与由错误信息指示的错误发生时的应力数据相关联的数据,并且分析数据存储单元153将所生成的分析数据存储在服务器200中。在MCU 100的操作期间,应力监测器105继续对应力数据进行计数。此后,在步骤S103中,基于ECM 106的控制执行与诸如复位等错误相对应的预定处理(错误处理)。在步骤S103之后,MCU 100进入正常处理,步骤S104。
重复上述流程,直到接收到关闭MCU 100的指令。当MCU 100接收到关闭指令时(步骤S105中的“是”),在步骤S106中,分析数据存储单元153将当前应力数据存储在服务器200中。接下来,在步骤S107中,MCU 100指示服务器200使用在步骤S103和步骤S106中存储的分析数据执行分析(例如,使用分析数据和AI技术的机器学习)。此后,在步骤S108中,MCU 100关闭。
图8是示出在MCU 100从服务器200接收诊断结果时执行的示例性操作的流程图。在下文中,将参考图8描述在接收诊断结果时MCU 100操作的流程。在步骤S200中,MCU 100从服务器200接收MCU 100的状态的诊断结果。MCU 100从服务器200接收MCU 100的诊断结果,例如,作为启动时的启动过程中的过程之一。如果接收到指示存在故障迹象的诊断结果(步骤S201中的“是”),则MCU 100输出警报(步骤S202),并且然后执行正常处理(步骤S203)。如果未接收到指示存在故障迹象的诊断结果(步骤S201中的“否”),则MCU 100执行正常处理而不输出警报(步骤S203)。
上面已经描述了第一实施例。根据本实施例,如上所述,分析数据存储单元153存储其中错误信息和应力数据彼此相关联的分析数据。因此,根据这样的分析数据,可以进行专注于错误、错误发生时的累积应力值和错误发生时的累积操作时间之间的关系的分析。因此,可以对设备故障的预测性维护进行更有用的分析。
第二实施例
接下来,将描述第二实施例。错误的发生可能与累积的应力的量有关,或者可能与其他指示符有关。换言之,错误的发生可能与每单位时间的应力急剧增加有关。因此,在本实施例中,将描述其中专注于每单位时间的应力的增加量来执行分析数据的分析的配置。
下面将描述根据第二实施例的分析***10。根据第二实施例的分析***10的配置与根据第一实施例的分析***10的配置相同。也就是说,根据第二实施例的分析***10具有图2至6所示的配置。然而,在第二实施例中,存储器102至少包括诸如闪存等非易失性存储器。在以下描述中,该非易失性存储器被称为非易失性存储器102。第二实施例与第一实施例的不同之处在于用于分析的数据的存储过程。此外,在第二实施例中,如上所述,专注于每单位时间的应力的增加量来执行分析。在以下描述中,将参考流程图描述与第一实施例的不同点。
图9是示出在关闭时的MCU 100的示例性操作的流程图。在步骤S300中,MCU 100接收指示关闭的信号。接下来,在步骤S301中,分析数据存储单元153将当前应力数据(累积应力值和累积操作时间)作为分析数据存储在非易失性存储器102中。此后,在步骤S302中,MCU 100关闭。因此,无论是否检测到错误,每次执行关闭时,一组分析数据被存储在非易失性存储器102中。
在本实施例中,作为示例,已经描述了其中每次执行关闭时执行应力数据保存处理的操作示例,但是可以在MCU 100操作期间的预定周期性定时执行应力数据保存处理。也就是说,分析数据存储单元153可以在预定存储定时存储将存储定时时的累积应力值和累积操作时间彼此相关联的分析数据。在除了发生错误之外的存储定时存储的这种分析数据可以被称为预定时间点数据。
图10是示出在从错误检测单元104向ECM 106通知错误检测时的MCU 100的示例性操作的流程图。在步骤S400中,错误检测单元104检测错误并且向ECM 106输出指示已经检测到错误的信号。关于在步骤S400中检测到的错误的错误信息被称为错误信息ER1。
接下来,在步骤S401中,分析数据存储单元153将错误信息ER1与当前应力数据(即,错误发生时的应力数据)相关联,并且将其作为分析数据存储在非易失性存储器102中。此时,分析数据存储单元153存储错误信息ER1分析数据,而不在步骤S401中的存储之前覆盖或删除存储在非易失性存储器102中的最新分析数据。如上所述,非易失性存储器102存储错误发生时的应力数据和紧接在前的存储定时存储的应力数据。
在紧接在步骤S401之前的时间存储的最新分析数据中的应力累积值,换言之,在紧接在步骤S401中的存储定时之前的存储定时(即,在关闭时或在检测到错误时)存储的分析数据中的应力累积值被称为应力累积值CT0。类似地,存储在最新分析数据中的最新分析数据中的累积操作时间称为累积操作时间TM0。与分析数据中的错误信息ER1相关联的应力累积值被称为应力累积值CT1。类似地,与错误信息ER1相关联的累积操作时间被称为累积操作时间TM1。
接下来,在步骤S402中,基于ECM 106的控制执行与诸如复位等错误相对应的预定处理(错误处理)。
图11是示出在复位完成时的MCU 100的示例性操作的流程图。在步骤S500中,MCU100完成复位过程。在该步骤中完成的复位可以是在诸如加电复位等正常操作时的复位,或者可以是在错误发生时的强制复位。
在步骤S501中,分析数据存储单元153读取存储在非易失性存储器102中的最新分析数据。
接下来,在步骤S502中,分析数据存储单元153确定在步骤S501中读取的分析数据是否是在发生错误时存储的数据。具体地,分析数据存储单元153基于分析数据中包括的应力数据是否与错误信息相关联来执行该确定。如果在步骤S501中读取的用于分析的数据是在发生错误时存储的数据,则处理进行到步骤S503,否则,处理进行到步骤S504。
在步骤S503中,分析数据存储单元153从非易失性存储器102读出在先前存储时间存储的分析数据,即,在步骤S503时存储的第二新分析数据,并且向服务器200传输在步骤S501中读出的分析数据。即,分析数据存储单元153将两组分析数据存储在服务器200中。结果,在步骤S503中,例如,向服务器200传输累积应力值CT0、累积操作时间TM0、错误信息ER1、累积应力值CT1和累积操作时间TM1。在步骤S503之后,处理进入步骤S504。
在步骤S504中,应力监测器105被激活以从存储在非易失性存储器102中的最新累积应力值重新开始计数。即,应力监测器105开始将应力值加到从非易失性存储器102读取的最新累积应力值。并且开始将操作时间添加到从非易失性存储器102读取的最新累积操作时间。
接下来,将描述使用在上述步骤S503中传输的两组分析数据的分析处理。如下所述,该分析处理包括专注于每单位时间的应力增加量的分析。图12是示出基于错误发生时的分析数据和紧接在错误之前的分析数据的分析处理的示例的流程图。在该示例中,服务器200执行分析处理。
在步骤S600中,分析单元210获取在MCU 100中发生错误时的用于分析的数据和紧接在错误发生之前的用于分析的数据。也就是说,分析单元210获取累积应力值CT0、累积操作时间TM0、错误信息ER1、累积应力值CT1和累积操作时间TM1。
接下来,在步骤S601中,分析单元210计算紧接在错误发生之前的每单位时间的应力的增加DRECENT。分析单元210通过计算例如以下等式(1)来计算增量DRECENT。
DRECENT=(CT1-CT0)/(TM1-TM0) (1)
接下来,在步骤S602中,分析单元210计算每单位时间的应力的平均增量DMEAN。具体地,基于紧接在错误发生时的应力数据之前的应力数据来计算每单位时间的增加量的平均值。也就是说,分析单元210通过计算例如以下等式(2)来计算增量DMEAN。
DMEAN=CT0/TM0 (2)
接下来,在步骤S603中,分析单元210估计错误的原因。也就是说,分析单元210估计由错误数据ER1指示的错误的原因。该具体处理过程如图13所示。
图13是示出用于确定应力数据与错误之间的关系的过程的示例的流程图。即,图13是示出图12的步骤S603的具体流程的流程图。在步骤S700中,分析单元210确定在步骤S601中计算的增加应力DRECENT是否落入预定参考范围内。具体地,分析单元210确定增加量DRECENT与增加量DMEAN之间的差值是否等于或小于预定阈值。该阈值是在考虑到预先假定为每单位时间的应力增加量的变化的情况下预先设置的阈值。当增加量DRECENT不在预定参考范围内时(步骤S700中的“否”),即,当增加量DRECENT与增加量DMEAN之间的差值超过预定阈值时,分析单元210确定由错误数据ER1指示的错误与错误发生的紧邻处的应力有关(步骤S701)。也就是说,在这种情况下,假定紧接在错误发生之前存在导致MCU 100上的应力增加的环境变化,并且可以假定由该环境变化引起的应力导致了错误的发生。
如果增量DRECENT在预定参考范围内(步骤S700中的“是”),则确定步骤S702。在步骤S702中,分析单元210确定累积应力值是否等于或小于预定参考值。也就是说,分析单元210确定累积应力值是否已经达到要考虑老化劣化的水平。具体地,分析单元210确定累积应力值CT0是否等于或小于预定参考值。当应力累积值CT0超过参考值时(步骤S702中的“否”),即,当应力累积值CT0达到要考虑老化劣化的水平时,分析单元210确定由错误数据ER1指示的错误与累积应力有关(步骤S703)。也就是说,在这种情况下,可以推断累积应力导致错误的发生。
另一方面,当应力累积值CT0等于或小于参考值时(步骤S702中的“是”),分析单元210确定由错误数据ER1指示的错误与应力无关(步骤S704)。
尽管在步骤S702中将累积应力值CT0与参考值进行比较,但是可以将累积应力值CT1与参考值进行比较。此外,尽管以上描述示出了其中服务器200执行图12和图13所示的分析处理的示例,但是其中的一些或全部可以由MCU 100执行。图14是示出在MCU 100执行分析处理时的MCU 100的示例性功能配置的框图。如图14所示,该MCU 100与图4所示的配置不同之处在于,添加了分析单元154。分析单元154执行图12和图13所示的处理,例如,通过处理器101执行程序。
上面已经描述了第二实施例。如上所述,与第一实施例类似,分析数据存储单元153不仅存储与错误发生时的错误信息相关联的应力数据作为分析数据,而且还在预定存储定时间歇地存储与错误信息无关的应力数据作为分析数据。也就是说,所存储的分析数据组不仅包括错误发生时的分析数据,而且还包括紧接在错误发生之前的分析数据。在本实施例中,可以提供两个用于分析的数据以用于分析。因此,与仅专注于错误发生时的应力数据的分析相比,可以执行更多样化的分析。特别地,如图12和图13所示,分析单元210或154通过基于错误发生时的分析数据和紧接在错误发生之前的分析数据评估紧接在错误发生之前的应力增加来分析MCU 100的状态。因此,可以分析紧接在前的应力增加与错误发生之间的因果关系。此外,如图13的步骤S702所示,分析单元210或154还通过评估错误发生时的应力累积值或紧接在错误发生之前的应力累积值来分析MCU 100状态。因此,可以分析累积应力量与错误发生之间的因果关系。
接下来,将描述第三实施例。在第二实施例中,已经描述了其中使用在错误发生时的应力数据和在紧接在前的存储定时存储的应力数据来执行图12和图13所示的分析的实施例。在第三实施例中,将描述用于通过机器学习来执行分析的***。在下文中,将省略对与第二实施例相同的配置和操作的描述,并且将描述不同点。应当注意,还可以将下面描述的第三实施例的特征与第二实施例组合以形成新的实施例。
图15是示出根据第三实施例的存储在非易失性存储器102中的内容的示例的示意图。在图15所示的示例中,非易失性存储器102例如是闪存,并且包括擦除块501和擦除块502。擦除块是用于擦除非易失性存储器102中的数据的最小单位存储区域,并且包括多个写入单元区域。在图15中,写入标志是为写入单元的每个区域提供的标志,并且指示在擦除该区域之后是否执行写入处理。另外,CT表示应力累积值,并且TM表示累积操作时间。错误记录信息是指示CT和TM是否与错误信息相关联的信息。错误记录信息包括当CT和TM与错误信息相关联时的错误信息。因此,当CT和TM与错误信息相关联时,错误记录信息对应于错误信息。也就是说,当存储在非易失性存储器102中的分析数据是在发生错误时,错误记录信息是与分析数据中包括的CT和TM相关联的错误信息,并且当存储在非易失性存储器102中的分析数据不是在发生错误时,错误记录信息是指示错误信息与分析数据中包括的CT和TM无关的信息。
擦除块501和502可以用多达s-2组数据写入,其中s是大于或等于4的整数。当存储在非易失性存储器102中的数据组的总数达到s时,分析数据存储单元153存储s-2组数据,向服务器传输处于满状态的擦除块的数据,并且擦除擦除块的数据。在图15所示的示例中,在擦除块502中写入两组写入标志、错误记录信息、CT和TM。擦除块501存储s-2组数据并且处于满状态。注意,存储在擦除块502中的两组数据是用于分析的最新的两组数据,并且存储在擦除块501中的s-2组数据是早于它们存储的用于分析的数据。在图15所示的示例中,分析数据存储单元153向服务器200传输存储在擦除块501中的s-2组数据,并且擦除擦除块501。结果,最近的两组分析数据留在非易失性存储器102,并且服务器200将先前的s-2组分析数据存储在服务器200中。
以这种方式,执行控制使得两组或更多组数据保留在非易失性存储器102中。因此,当最新数据与错误的发生相关联时,MCU 100的分析单元154可以例如通过使用图12和13所示的方法推断出错误发生的原因。由于向服务器200传输多组分析数据,因此可以使用这些分析数据来构建用于错误发生预测的学习模型,并且可以执行使用该学习模型的预测,如稍后将描述的。此外,如上所述,由于多个组被集体传输到服务器200,所以可以减少通信的数目。
在第三实施例中,在复位完成时的MCU 100的操作是图16所示的流程,而不是图11所示的流程。图16是示出在第三实施例中在复位完成时的MCU 100的示例性操作的流程图。与图11所示的流程图的不同之处在于:如步骤S802和S803所示,当存储在非易失性存储器102中的数据(由错误记录信息、CT和TM组成的一组数据)达到预定组数s时,向服务器200传输一组s-2。在下文中,将参考图16进行描述。
在步骤S800中,完成MCU 100复位过程。接下来,在步骤S801中,分析数据存储单元153读出存储在非易失性存储器102中的最新分析数据。接下来,在步骤S802中,分析数据存储单元153确定存储在非易失性存储器102中的错误记录信息、CT和TM的总组数是否已经达到预定组数s。如果存储在非易失性存储器102中的组数已经达到s(步骤S802中的“是”),则处理进行到步骤S803,否则(步骤S802中的“否”),处理跳过步骤S803并且进行到步骤S804。在步骤S803中,分析数据存储单元153向服务器200传输存储在非易失性存储器102中的s-2组分析数据(即,错误记录数据、CT、TM)。在步骤S803之后,处理进行到步骤S804。在步骤S804中,激活应力监测器105以从存储在非易失性存储器102中的最新应力监测器值重新开始计数。
接下来,将描述基于传输到服务器200的数据的模型的构造。图17是示意性地示出用于构建能够预测错误的发生的模型的方法的图。如上所述,传输到服务器200的分析数据包括错误记录信息和应力数据,即CT和TM。当错误记录信息包括错误信息时,可以通过错误信息指定错误类型。因此,在错误发生时的用于分析的数据中,错误类型和应力数据彼此相关联。服务器200的分析单元210使用包括与错误类型相关联的这些应力数据的训练数据和已知AI(人工智能)来构建用于预测错误的模型。例如,训练数据是如下数据集。也就是说,一组训练数据是包括发生特定错误时的用于分析的数据的集合,并且是紧接在发生错误之前的n组(n是等于或大于1的整数)中的用于分析的一组数据。从各种MCU 100传输的分析数据生成各种训练数据。因此,在服务器200中累积大量训练数据。构成训练数据的应力数据用作机器学习中的输入数据,并且错误类型用作教示数据。
将参考其中用于构建模型的AI(即,用于构建模型的机器学习是神经网络)的示例来描述分析单元210的分析处理。注意,神经网络是示例,并且分析单元210可以使用另一机器学习方法和训练数据来构建和使用模型。图18是示出学习阶段的模型的输入/输出的示例的示意图。图19是示出推断阶段的模型的输入/输出的示例的示意图。
构成神经网络的输出层的输出神经元包括指示错误类型e1的发生的神经元N1_ER、指示与错误类型e1不同的错误类型e2的发生的神经元N2_ER等。在训练阶段,例如,当一组应力数据与某些训练数据中的错误类型e2相关联时,在分析单元210中执行学习,使得神经元N2_ER响应于该组应力数据到神经网络的输入层的输入而脉动。包括在该组训练数据中的该组应力数据是直到错误发生时的n组应力累积值CT和累积操作时间TM,如图18中的输入数据所示。分析单元210针对从由服务器200收集的分析数据中获取的大量训练数据重复如图18所示的学习过程。作为这种学习的结果,构建了能够预测错误发生的学习模型。
如图19所示,在推断阶段,分析单元210将与任何错误类型无关的一组应力数据输入到神经网络的输入层,这些输入层是学习模型。输入的应力数据集是从MCU 100传输的n组时间序列的用于分析的数据。对于该输入,如果输出层神经元Nm-1_ER显著选择性地脉动,则错误类型em-1的错误将是在不久的将来在MCU 100中指出。也就是说,从神经网络的输出层获取发生错误类型em-1的预测结果。在图19所示的示例中,神经元Nm-1_ER的脉冲程度为0.6,并且脉冲程度显著大于其他输出神经元的脉冲程度。在这种情况下,分析单元210预测MCU 100中的错误类型em-1的错误的发生。即,分析单元210使用用于分析时间序列的n组数据和从MCU 100传输的学习模型来预测在MCU 100中发生错误和错误的类型。虽然在上面的描述中使用n组CT和TM作为输入数据,但是可以使用其他数据来代替这些。例如,代替TM,可以使用上述增加量DRECENT和增加量DMEAN。除了上述机器学习的分析之外,分析单元210还可以通过图12和13所示的方法执行分析。
状态通知单元211将预测结果通知给提供在推断阶段中输入到学习模型的输入数据的MCU 100。例如,根据上述示例,状态通知单元211向MCU 100通知预期会发生错误类型em-1的错误。在以上说明中,服务器200的分析单元210通过机器学习执行分析,但是例如,机器学习的部分或全部分析可以由MCU 100的分析单元154执行。
上面已经描述了第三实施例。在根据第三实施例的分析***10中,分析单元210使用包括在错误发生时的分析数据的训练数据通过机器学习生成模型。因此,可以通过学习错误与应力数据之间的关系的模型来预测错误。由于通过区分错误原因来执行学习,因此提高了学习准确性。具体地,分析单元210使用一组分析数据作为一组训练数据,通过机器学习生成模型。该集合是包括在错误发生时的用于分析的数据的集合,并且是紧接在发生错误之前的n个集合(n是等于或大于1的整数)中的用于分析的数据集合。因此,例如,当n为等于或大于2时,在发生错误之前的用于分析的n-1个数据也被用作训练数据。因此,可以通过学习应力数据的时间序列转变与错误之间的关系的模型来预测错误。在根据第三实施例的分析***10中,使用学习模型的预测是可能的。因此,可以预先避免MCU 100达到功能障碍的风险。此外,由于错误信息包括不会由于功能安全机制而导致半导体器件故障的错误信息,因此可以获取比在仅使用作为故障发生的错误的分析数据时更多的分析数据。也就是说,提高了学习的准确性。
接下来,将描述第四实施例。在第二实施例中,错误发生时的错误信息(错误记录信息)和应力数据(累积应力值和累积运算时间)彼此关联地存储。在本实施例中,在通过将预定时段的计数值乘以p而获取的值用作应力值并且将累积值用作累积应力值的配置中,不仅临时存储累积应力值和累积操作时间,而且还临时存储错误发生时的预定时间段的计数值。在例如非专利文献1中示出了上述配置,并且在第四实施例中,不仅临时存储在该非专利文献1中描述的Acc_Cnt_T2和Acc_Cnt_TM,而且还临时存储最新的Cnt1[i]。
图20是示出根据第四实施例的应力监测器105的配置的示例的框图。图21是示出根据第四实施例的应力监测器105的组件的操作波形的曲线图。在下文中,将参考图20和图21描述第四实施例。然而,将省略对与第二实施例相同的配置和操作的描述,并且将描述不同点。应当注意,还可以将下面描述的第四实施例的特征与其他实施例组合以形成新的实施例。
如图20所示,根据本实施例的应力监测器105包括VT环形振荡器180、计数器电路181、p次幂计算电路182、p次幂累积电路183、功率计数控制电路184和累积计数时间保持电路185。通过这样的配置,应力监测器105以预定的监测周期Tm(例如,1秒)对应力数据进行计数。
VT环形振荡器180是环形振荡器,其振荡频率根据磨损失效因子的应力强度而变化很大,该应力强度基于MCU 100的电源电压V和MCU 100的温度T而变化很大。即,VT环形振荡器180是具有预定温度依赖性和预定电压依赖性的环形振荡器。VT环形振荡器180具有频率特性,使得振荡频率的p次幂与磨损失效因子的寿命的倒数成比例。因此,通过计算VT环形振荡器180的振荡数的p次幂并且使用p次幂作为应力的指示符,可以容易地评估由磨损失效因子引起的MCU 100的寿命。应当注意,在上述文章中,诸如VT环形振荡器180等振荡器被示出为VT敏感RO。
计数器电路181在每个监测时段的预定测量时段内对VT环形振荡器180的振荡次数进行计数。也就是说,VT环形振荡器180的振荡输出Fout由计数器181计数。以这种方式,计数器电路181执行间歇操作以计算振荡次数。
p次幂值计算电路182是用于计算p次幂值的电路,该p次幂值是通过将作为计数器电路181的计数值的CntVT乘以p而获取的值。也就是说,p次幂计算电路182将预定测量时段的VT环形振荡器180的振荡数乘以p。注意,p是自然数,并且p的值根据磨损失效因子预先设置。具体地,p的值例如是1至4中的任何一个。
p次幂累积电路183是用于计算由p次幂计算电路182计算的p次幂值的累积值的电路。作为累积值的累积应力计数Acc_Cnt_VT对应于累积应力值。
累积计数时间保持电路185对监测周期Tm中的重复次数进行计数并且保持计数。作为计数值的累积计数时间Acc_Cnt_TM对应于累积操作时间。
功率计数控制电路184是用于控制应力监测器105中的应力数据的计数的电路。功率计数控制电路184进行控制以将由p次幂计算电路182计算的p次幂值与由p次幂累积电路183保持的累积值相加,并且每个监测周期Tm复位计数器电路181的计数值。功率计数控制电路184控制累积计数时间保持电路185以在每个监测周期Tm递增计数值。
将参考图21所示的操作波形来描述应力监测器105的操作。当计数器电路181向上计数时,在功率计数控制电路184的控制下,由p次幂值计算电路182计算的计数器电路181的计数值的p次幂值周期性地与由p次幂值累积电路保持的累积应力计数Acc_Cnt_VT相加。此时,累积计数时间Acc_Cnt_TM从N-1以1递增到N。计数器电路181的值保持直到下一向上计数开始。在下一间歇操作中,功率计数控制电路184复位计数器电路181,并且计数器电路181再次计数VT环形振荡器180的振荡次数达预定测量时段。在预定测量时段之后,计数器电路181的计数值的p次幂值再次与由p次幂值累积电路183保持的累积应力计数Acc_Cnt_VT相加。此时,累积计数时间Acc_Cnt_TM从N递增1到N+1。在MCU 100的操作期间,在应力监测器105中重复这种操作。
这里,假定在累积计数时间Acc_Cnt_TM变为N+2之后,ECM 106被通知错误。在该实施例中,不仅将累积应力计数Acc_Cnt_VT和累积计数时间Acc_Cnt_TM而且将在错误发生时的计数器181的计数CntVT与错误相关联地存储在非易失性存储器102中。错误发生时的计数器电路181的计数值CntVT是在计数器电路181在预定测量时段内完成计数操作之后的计数值,并且是紧接在错误发生之后(紧接在MCU 100接收到错误通知之后)的计数值。因此,例如,当在计数器电路181的向上计数期间而不是在向上计数完成之后计数器电路181保持计数值的时段期间发生错误时,在计数器电路181的向上计数和p次幂值的相加完成之后,将错误信息、累积应力计数Acc_Cnt_VT、累积计数时间Acc_Cnt_TM和计数值CntVT存储在非易失性存储器102中。这是为了防止应力被低估。如果在计数时间尚未达到预定测量时段的阶段存储计数值CntVT,则计数值变为小于在等待直到达到预定测量时段时的计数值,因此,该监测时段的应力被低估了。为了防止这种情况,执行上述操作。
上面已经描述了根据第四实施例的应力监测器105的配置和操作。在本实施例中,如上所述,分析数据存储单元153存储其中错误信息(错误记录信息)与应力累积值(Acc_Cnt_VT)、累积操作时间(Acc_Cnt_TM)和在发生错误时的计数值(CntVT)相关联的数据,作为分析数据。尽管在上面的说明中存储了计数值CntVT,但是可以存储p次幂值而不是计数值CntVT。所存储的计数值或其p次幂对应于紧接在错误发生之前的应力。因此,根据本实施例,通过存储计数值CntVT,可以在发生错误之前的最新时段(例如,1秒或更短)内存储应力值。因此,当最近发生的应力异常是导致错误的原因时,可以比使用第二实施例中描述的每单位时间的应力的增加量的验证更清楚地验证计数值CntVT。换言之,可以对故障预测等执行更有效的分析。另外,当错误的原因是极其近期的电压降时,可以通过验证计数值CntVT来知道错误。这是因为,由于上述VT环形振荡器180的特性,当电源电压降低时,计数值CntVT也减小。此外,如图21的电源电压波形所示,即使当电压降没有达到下限时,也可以从计数值CntVT知道最近的电压异常。这里,下限是电压传感器检测到电源电压的异常(电源电压低于正常范围的下限的异常)的电压电平。也就是说,也可以从计数值CntVT中掌握通过使用下限的异常确定未检测到的电源电压的异常。因此,可以对故障预测等执行更有效的分析。
接下来,将描述第五实施例。第五实施例与上述实施例的不同之处在于,当已经发生的错误是存储器ECC错误时,关于错误是否是硬件错误的信息也被存储为分析数据。在下文中,将参考附图描述第五实施例。然而,将省略对与第二实施例相同的配置和操作的描述,并且将描述不同点。应当注意,还可以将下面描述的第五实施例的特征与其他实施例组合以形成新的实施例。
当模块103中产生的错误是存储器的数据错误中的错误(即,存储器ECC错误)时,根据本实施例的分析数据存储单元153存储其中指示错误是否是硬件错误信息、错误信息(错误记录信息)、以及错误发生时的应力数据彼此相关联的数据作为分析数据。具体地,当在MCU 100的任何存储器中发生ECC错误时,分析数据存储单元153执行将应力数据与错误相关联地存储在非易失性存储器102或服务器200中的处理,此后,当错误被确定为硬错误时,分析数据存储单元153将指示错误是硬错误的信息添加到包括ECC错误和应力数据的数据集中。
图22是示出用于确定ECC错误是否是硬错误的方法的示例的流程图。在下文中,将参考图22所示的流程图描述确定方法。
当发生ECC错误时,在步骤S900(S900)中,分析数据存储单元153确认在同一存储块中之前是否发生了ECC错误。错误信息包括发生ECC错误的存储器地址。因此,分析数据存储单元153参考先前发生的ECC错误的错误信息中包括的存储器地址和此次发生的ECC错误的错误信息中包括的存储器地址,并且确认两者是否在同一个内存块中。如果先前在与此次发生的ECC错误相同的存储块中没有发生ECC错误(步骤S900中的“否”),则分析数据存储单元153在步骤S903中确定不知道ECC错误是否是硬错误。
如果先前在与此次发生的ECC错误相同的存储块中发生ECC错误(步骤S900中的“是”),则在步骤S901中,分析数据存储单元153比较存储器地址以确定此次发生的ECC错误和之前发生的ECC错误是否在不同位线上的存储单元中。当在同一位线上的存储器单元中发生ECC错误时(步骤S901中的“否”),与位线相关的硬错误的可能性很大。因此,分析数据存储单元153在步骤S904中确定这些ECC错误是硬件错误。
当在不同位线上的存储器单元中发生ECC错误时(步骤S901中的“是”),在步骤S902中,分析数据存储单元153比较存储器地址以确定此次发生的ECC错误的位置和先前发生的ECC错误的位置是否在不同字线上的存储器单元中。当在同一字线上的存储器单元中发生ECC错误时(步骤S902中的“否”),与字线相关的硬错误的可能性很大。因此,分析数据存储单元153在步骤S904中确定这些ECC错误是硬件错误。如果没有在同一字线上的存储器单元中发生ECC错误(步骤S902中的“是”),则分析数据存储单元153在步骤S903中确定不知道ECC错误是否是硬错误。当确定ECC错误是硬件错误时,分析数据存储单元153将指示ECC错误是硬件错误的信息添加到分析数据。也就是说,指示硬错误的信息与错误信息和应力数据相关联。
将参考图23详细描述上述操作。图23是示出分析数据的存储过程的示例的示意图。在图23中,存储状态(1)指示其中发生了ECC错误并且存储了指示错误的发生的错误记录信息和应力数据的状态。这些数据集将被称为集合(i)。存储状态(2)指示其中在存储状态(1)之后发生ECC错误并且存储了指示错误的发生的错误记录信息和应力数据的状态。这些数据集将被称为集合(ii)。存储状态(3)指示其中在存储状态(2)之后到达预定存储定时并且存储了错误记录信息和应力数据的状态。这些数据集将被称为集合(iii)。存储状态(4)指示在存储状态(3)之后的预定存储定时再次到达并且存储了错误记录信息和应力数据的状态。这些数据集将被称为集合(iv)。存储状态(5)指示在存储状态(4)之后发生ECC错误并且存储了指示错误的发生的错误记录信息和应力数据的状态。这些数据集将被称为集合(v)。
在图23所示的示例中,当获取组(v)的应力数据时,发现由集合(v)的错误记录信息指示的ECC错误和由集合(i)的错误记录信息指示的ECC错误发生在该阶段的同一字线上的地址处。因此,当发生由集合(v)的错误记录信息指示的ECC错误时,指示ECC错误是硬错误的信息与集合(i)和集合(v)相关联。
如果即使在经过足够的时间(例如,1个月)之后也不将组(ii)判断为硬错误,则分析数据存储单元153可以将组(ii)判断为软错误。在这种情况下,例如,如果某个MCU 100的软错误率明显高于另一MCU 100的软错误率,则分析单元210可以分析除了来自与应力数据的关系的辐射之外是否存在特定于MCU 100的任何因素。结果,例如,发现容易引起诸如MCU100的电源电压的暂时降低等事件。
上面已经描述了第五实施例。根据本实施例,ECC错误可以分为由硬错误引起的错误和由软错误引起的错误。因此,可以防止诸如由与应力无关的辐射等引起的软错误等噪声信息混入分析数据组中以预测错误的发生等。因此,可以以更高的精度执行各种分析,诸如识别错误原因和错误预测。因此,用于抑制存储器错误的重现的对策变得容易。
尽管已经基于实施例具体描述了由发明人做出的发明,但是本发明不限于已经描述的实施例,并且不用说,在不脱离其主旨的情况下可以进行各种修改。

Claims (10)

1.一种半导体器件,包括:
具有预定功能的模块;
错误信息获取电路,获取关于所述模块中发生的错误的错误信息;
应力获取电路,获取应力累积值作为施加到所述半导体器件的应力的累积值;以及
分析数据存储装置,存储分析数据作为用于分析所述半导体器件的状态的数据,所述分析数据是将所述错误信息与所述错误发生时的所述应力累积值相关联的数据;以及
操作时间获取电路,获取累积操作时间,所述累积操作时间是所述半导体器件的操作时间的累积值,
其中所述分析数据存储装置存储错误时间数据作为所述分析数据,并且
其中所述错误时间数据是将所述错误信息与所述错误发生时的所述应力累积值和所述错误发生时的所述累积操作时间相关联的数据。
2.根据权利要求1所述的半导体器件,其中所述分析数据存储装置还在预定存储定时存储预定时间数据作为所述分析数据,所述预定时间数据是将所述预定存储定时处的所述应力累积值与所述预定存储定时处的所述累积操作时间相关联的数据,
其中所述分析数据至少包括所述错误时间数据、以及紧接在与所述错误时间数据相对应的所述错误发生的时间之前的所述预定时间数据。
3.根据权利要求2所述的半导体器件,还包括分析器,所述分析器通过基于所述错误时间数据、以及紧接在与所述错误时间数据相对应的所述错误发生的时间之前的所述预定时间数据,评估紧接在与所述错误时间数据相对应的所述错误发生的所述时间之前的应力的增加量,来分析所述半导体器件的状态。
4.根据权利要求3所述的半导体器件,其中所述分析器还通过评估在与所述错误时间数据相对应的所述错误发生时的所述应力累积值、或紧接在与所述错误时间数据相对应的所述错误发生的时间之前的所述应力累积值,来分析所述半导体器件的所述状态。
5.根据权利要求1所述的半导体器件,还包括:
环形振荡器;
计数器电路,计算预定时段内所述环形振荡器的振荡次数;以及
p次幂计算电路,计算p次幂值,所述p次幂值是所述计数器电路的计数值的p次幂值,
其中所述应力累积值是所述p次幂值的累积值,
其中所述分析数据存储装置存储将所述错误信息与所述错误发生时的所述应力累积值、所述错误发生时的所述累积操作时间、以及所述错误发生时的所述计数值或所述p次幂值相关联的数据,作为所述分析数据,并且
其中p是自然数。
6.根据权利要求1所述的半导体器件,其中当所述模块中发生的错误与存储器的数据错误有关时,所述分析数据存储装置存储将指示所述错误是否是硬件错误的信息与所述错误信息和所述错误发生时的所述应力累积值相关联的数据,作为所述分析数据。
7.根据权利要求1所述的半导体器件,其中所述错误信息包括关于不会由于功能安全机制而导致所述半导体器件发生故障的错误的信息。
8.一种分析***,包括:
半导体器件;以及
服务器,
其中所述半导体器件包括具有预定功能的模块、获取关于所述模块中发生的错误的错误信息的错误信息获取电路、获取应力累积值作为施加到所述半导体器件的应力的累积值的应力获取电路、以及存储分析数据的分析数据存储装置,所述分析数据是将所述错误信息与所述错误发生时的所述应力累积值相关联的数据,以及
其中所述服务器基于所述分析数据分析所述半导体器件的状态,
其中所述半导体器件还包括获取累积操作时间的操作时间获取电路,所述累积操作时间是所述半导体器件的操作时间的累积值,
其中所述分析数据存储装置在预定存储定时存储预定时间数据作为所述分析数据,所述预定时间数据是将所述存储定时时的所述应力累积值与所述存储定时时的所述累积操作时间相关联的数据,并且所述分析数据存储装置在错误发生时,存储错误时间数据作为所述分析数据,所述错误时间数据是将所述错误信息和所述应力累积值与所述错误发生时的所述累积操作时间相关联的数据,以及
其中所述服务器通过评估紧接在与所述错误时间数据相对应的所述错误发生的所述时间之前的应力的增加量,基于所述错误时间数据、以及紧接在与所述错误时间数据相对应的所述错误发生的所述时间之前的所述预定时间数据,分析所述半导体器件的所述状态。
9.根据权利要求8所述的分析***,
其中所述半导体器件还包括获取累积操作时间的操作时间获取电路,所述累积操作时间是所述半导体器件的操作时间的累积值,
其中所述分析数据存储装置在错误发生时,存储错误时间数据作为所述分析数据,所述错误时间数据是将所述错误信息与所述错误发生时的所述应力累积值和所述错误发生时的所述累积操作时间相关联的数据,以及
其中所述服务器使用包括所述错误时间数据的训练数据,通过机器学习生成模型。
10.根据权利要求9所述的分析***,
其中所述分析数据存储装置在预定存储定时,存储预定时间数据作为所述分析数据,所述预定时间数据是将所述存储定时时的所述应力累积值与所述存储定时时的所述累积操作时间相关联的数据,并且所述分析数据存储装置在错误发生时,存储错误时间数据作为所述分析数据,所述错误时间数据是将所述错误信息与所述错误发生时的所述应力累积值和所述错误发生时的所述累积操作时间相关联的数据,
其中所述服务器使用所述分析数据的聚合数据作为训练数据,通过机器学习生成模型,
其中所述聚合数据包括所述错误时间数据、以及在与所述错误时间数据相对应的所述错误发生时的所述分析数据的n个集合,并且
其中n是等于或大于1的整数。
CN201910706163.4A 2018-09-07 2019-08-01 半导体器件和分析*** Active CN110888412B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-167794 2018-09-07
JP2018167794A JP7236231B2 (ja) 2018-09-07 2018-09-07 半導体装置及び解析システム

Publications (2)

Publication Number Publication Date
CN110888412A CN110888412A (zh) 2020-03-17
CN110888412B true CN110888412B (zh) 2023-12-26

Family

ID=69720846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910706163.4A Active CN110888412B (zh) 2018-09-07 2019-08-01 半导体器件和分析***

Country Status (3)

Country Link
US (1) US11068330B2 (zh)
JP (1) JP7236231B2 (zh)
CN (1) CN110888412B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019001760A1 (de) * 2018-03-19 2019-09-19 Fanuc Corporation Informationsverarbeitungsgerät, maschinelle lernvorrichtungund system
US11455232B2 (en) * 2019-08-28 2022-09-27 Micron Technology, Inc. Debug operations on artificial intelligence operations
US20220334172A1 (en) * 2019-09-06 2022-10-20 Hitachi High-Tech Corporation Recipe Information Presentation System and Recipe Error Inference System
WO2021199164A1 (ja) * 2020-03-30 2021-10-07 株式会社日立ハイテク 診断システム
US11727306B2 (en) * 2020-05-20 2023-08-15 Bank Of America Corporation Distributed artificial intelligence model with deception nodes
CN113821364A (zh) * 2020-06-20 2021-12-21 华为技术有限公司 内存故障的处理方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099735A (ja) * 2004-09-03 2006-04-13 Toshiba Corp プロセス状態管理システム、管理サーバ、プロセス状態管理方法及びプロセス状態管理用プログラム
CN101483544A (zh) * 2008-01-10 2009-07-15 丰田自动车株式会社 故障定位装置、通信装置及故障定位方法
JP2011244381A (ja) * 2010-05-21 2011-12-01 Ricoh Co Ltd 情報処理装置、情報処理システム、情報処理方法およびそのプログラム
CN103018060A (zh) * 2011-09-19 2013-04-03 波音公司 基于实时模型的结构异常检测的方法
JP2017033238A (ja) * 2015-07-31 2017-02-09 京セラドキュメントソリューションズ株式会社 管理システムおよび管理方法
CN106796264A (zh) * 2014-08-19 2017-05-31 耐瑞唯信有限公司 片上***的老化控制
CN108334657A (zh) * 2016-12-07 2018-07-27 瑞萨电子株式会社 半导体装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05225077A (ja) * 1992-02-17 1993-09-03 Shikoku Nippon Denki Software Kk Eccを保持したメモリ制御回路のハードエラー検出方式
US6414508B1 (en) * 1999-06-28 2002-07-02 Adaptec, Inc. Methods for predicting reliability of semiconductor devices using voltage stressing
JP2005165653A (ja) * 2003-12-02 2005-06-23 Hitachi Ltd 情報処理装置の障害情報採取システム
US7474989B1 (en) * 2005-03-17 2009-01-06 Rockwell Collins, Inc. Method and apparatus for failure prediction of an electronic assembly using life consumption and environmental monitoring
JP5225077B2 (ja) 2005-05-23 2013-07-03 クラフト・フーズ・グローバル・ブランズ・エルエルシー 中心充填チューインガム組成物
JP5214656B2 (ja) * 2010-03-29 2013-06-19 株式会社東芝 評価装置および評価プログラム
US9098561B2 (en) * 2011-08-30 2015-08-04 Intel Corporation Determining an effective stress level on a processor
JP2013092405A (ja) 2011-10-25 2013-05-16 Hitachi High-Technologies Corp 寿命監視装置および寿命監視システム
JP6167948B2 (ja) * 2014-03-14 2017-07-26 富士ゼロックス株式会社 障害予測システム、障害予測装置およびプログラム
JP6381122B2 (ja) * 2014-11-07 2018-08-29 東芝三菱電機産業システム株式会社 故障推定装置、故障推定データベース装置、故障推定プログラム、故障推定データベースプログラム、および故障推定システム
JP2015084241A (ja) * 2014-12-09 2015-04-30 株式会社東芝 情報処理装置
JP6598592B2 (ja) * 2015-08-28 2019-10-30 ルネサスエレクトロニクス株式会社 半導体集積回路および電子制御ユニット
JP6703398B2 (ja) * 2015-12-25 2020-06-03 ルネサスエレクトロニクス株式会社 半導体装置
JP6957367B2 (ja) * 2018-01-18 2021-11-02 株式会社東芝 半導体チップの検査装置、半導体チップの検査システム、インテリジェントパワーモジュール、半導体チップの検査方法及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099735A (ja) * 2004-09-03 2006-04-13 Toshiba Corp プロセス状態管理システム、管理サーバ、プロセス状態管理方法及びプロセス状態管理用プログラム
CN101483544A (zh) * 2008-01-10 2009-07-15 丰田自动车株式会社 故障定位装置、通信装置及故障定位方法
JP2011244381A (ja) * 2010-05-21 2011-12-01 Ricoh Co Ltd 情報処理装置、情報処理システム、情報処理方法およびそのプログラム
CN103018060A (zh) * 2011-09-19 2013-04-03 波音公司 基于实时模型的结构异常检测的方法
CN106796264A (zh) * 2014-08-19 2017-05-31 耐瑞唯信有限公司 片上***的老化控制
JP2017033238A (ja) * 2015-07-31 2017-02-09 京セラドキュメントソリューションズ株式会社 管理システムおよび管理方法
CN108334657A (zh) * 2016-12-07 2018-07-27 瑞萨电子株式会社 半导体装置

Also Published As

Publication number Publication date
US20200081757A1 (en) 2020-03-12
CN110888412A (zh) 2020-03-17
JP7236231B2 (ja) 2023-03-09
JP2020042398A (ja) 2020-03-19
US11068330B2 (en) 2021-07-20

Similar Documents

Publication Publication Date Title
CN110888412B (zh) 半导体器件和分析***
US10747188B2 (en) Information processing apparatus, information processing method, and, recording medium
US9915925B2 (en) Initiated test health management system and method
CN101999101B (zh) ***运行预测的确定方法
US20190288925A1 (en) Methods and systems for online monitoring using a variable data sampling rate
US9396432B2 (en) Agreement breach prediction system, agreement breach prediction method and agreement breach prediction program
US20210048811A1 (en) Model generation device for life prediction, model generation method for life prediction, and recording medium storing model generation program for life prediction
CN111999656A (zh) 车辆电池内短路的检测方法、检测装置和电子设备
CN113723338B (zh) 传感器异常检测方法、装置及计算机可读存储介质
US7949497B2 (en) Machine condition monitoring using discontinuity detection
CN113129939B (zh) 具有温度缓解机制的设备及其操作方法
EP4096232A1 (en) Attack detection method, attack detection system and program
CN116413604A (zh) 一种电池参数监测方法、***、装置及存储介质
CN113196311A (zh) 用于识别和预测机器的异常感测行为模式的***和方法
US11177620B2 (en) Laser failure early warning indicator
JPWO2020136859A1 (ja) 推定装置、推定方法、及びプログラム
US10847245B2 (en) Failure indicator predictor (FIP)
CN111555899B (zh) 告警规则配置方法、设备状态监测方法、装置和存储介质
GB2590414A (en) Anomaly detection for code management
US20220058075A1 (en) Identifying faults in system data
US11994935B2 (en) Apparatus and method for predicting remaining lifetime of environment data collection sensor in livestock house
CN113820649B (zh) 一种电能表固件的寿命可靠性测试方法和装置
JP6733656B2 (ja) 情報処理装置、情報処理システム、プラントシステム、情報処理方法、及び、プログラム
US20220413480A1 (en) Time series data processing method
US20190178920A1 (en) Semiconductor device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant