CN113051111B - 多芯片模块故障识别处理方法及*** - Google Patents

多芯片模块故障识别处理方法及*** Download PDF

Info

Publication number
CN113051111B
CN113051111B CN202110249196.8A CN202110249196A CN113051111B CN 113051111 B CN113051111 B CN 113051111B CN 202110249196 A CN202110249196 A CN 202110249196A CN 113051111 B CN113051111 B CN 113051111B
Authority
CN
China
Prior art keywords
single chip
chip
mcm
data link
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110249196.8A
Other languages
English (en)
Other versions
CN113051111A (zh
Inventor
黄炜
钟雨阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haiguang Information Technology Co Ltd
Original Assignee
Haiguang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haiguang Information Technology Co Ltd filed Critical Haiguang Information Technology Co Ltd
Priority to CN202110249196.8A priority Critical patent/CN113051111B/zh
Publication of CN113051111A publication Critical patent/CN113051111A/zh
Application granted granted Critical
Publication of CN113051111B publication Critical patent/CN113051111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2289Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by configuration test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • For Increasing The Reliability Of Semiconductor Memories (AREA)

Abstract

本发明提供一种多芯片模块故障识别处理方法及***,其中,多芯片模块故障识别处理方法包括:启动MCM多芯片,所述MCM多芯片包括至少一个单芯片;通过检查所述MCM多芯片中控制链路的连通性,从所述至少一个单芯片中筛选出控制链路稳定连接的一级单芯片;对所述一级单芯片的控制链路和数据链路进行重新规划和配置;检查所述一级单芯片的数据链路;将数据链路稳定连接的一级单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能。本发明能够降低MCM多芯片制造的成本,提高MCM多芯片的可靠性。

Description

多芯片模块故障识别处理方法及***
技术领域
本发明涉及MCM(Multi-chip Module,多芯片模块)技术领域,尤其涉及一种多芯片模块故障识别处理方法及***。
背景技术
在目前的高性能计算芯片架构中,考虑到成本和扩展性等因素,广泛使用了Chiplet(小芯片)的架构方式。即在开发阶段,以Die(裸芯片)为单位进行完整的SOC(System on Chip,***级芯片)设计,并同时设计可扩展接口。在封装阶段,根据不同芯片产品线的需求,将多个Die封装到一个Package(包)中,然后再通过高速总线链接和扩展,组成性能不同的芯片。
在实际的芯片制造环节,单芯片是以晶圆为单位进行流水化生产的,每个单芯片即为后续封装中的Die。同一片MCM多芯片中有的Die是合格的,有的Die是不合格的,即有的Die是有故障的。所以在当封装厂进行封装前,会剔除掉不合格芯片,筛选出合格的芯片进行后续的封装,以提升单芯片的良率,进而提升MCM多芯片封装后的整体良率。
但是在MCM多芯片封装后,其内会因Die间连接故障或因运输过程中碰撞等因素而导致的一个或多个Die故障,并且在使用过程中也会因长期损耗使得一个或多个Die出现损坏的问题。
如此在发现故障后只能将封装后的MCM多芯片进行整体的废弃,这样不仅间接提高了MCM多芯片制造的成本,同时也整体上降低了MCM多芯片的可靠性。
发明内容
为解决上述问题,本发明提供的多芯片模块故障识别处理方法及***,通过从控制链路和数据链路的角度,对MCM多芯片中的故障芯片进行动态检测,能够有效的提高MCM多芯片的使用率,从而降低MCM多芯片制造的成本,提高MCM多芯片的可靠性。
第一方面,本发明提供一种多芯片模块故障识别处理方法,包括:
启动MCM多芯片,所述MCM多芯片包括至少一个单芯片;
通过检查所述MCM多芯片中控制链路的连通性,从所述至少一个单芯片中筛选出控制链路稳定连接的一级单芯片;
对所述一级单芯片的控制链路和数据链路进行重新规划和配置;
检查所述一级单芯片的数据链路;
将数据链路稳定连接的一级单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能。
可选地,在所述对所述一级单芯片的控制链路和数据链路进行重新规划和配置之前,所述方法还包括:
重复执行所述通过检查所述MCM多芯片中控制链路的连通性,从所述至少一个单芯片中筛选出控制链路稳定连接的一级单芯片的步骤,并记录每次筛选出的一级单芯片的数量;
选取筛选数量最少的那次所筛选出的一级单芯片作为一级优良单芯片;
所述对所述一级单芯片的控制链路和数据链路进行重新规划和配置包括:
对所述一级优良单芯片的控制链路和数据链路进行重新规划和配置;
所述检查所述一级单芯片的数据链路的步骤包括:
检查所述一级优良单芯片的数据链路;
所述将数据链路稳定连接的一级单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能包括:
将数据链路稳定连接的一级优良单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能。
可选地,所述方法还包括:
对所述至少一个单芯片中控制链路不稳定连接的单芯片进行屏蔽操作。
可选地,所述方法还包括:
对所述至少一个单芯片中控制链路不稳定连接的单芯片进行低功耗处理。
可选地,在所述检查所述一级单芯片的数据链路之前,所述方法还包括:
检查所述一级优良单芯片的控制链路,若存在至少一个一级优良单芯片的控制链路不稳定,则结束所述多芯片模块故障识别处理方法。
可选地,所述方法还包括:
对数据链路不稳定连接的一级优良单芯片进行屏蔽操作;
所述通过所述二级单芯片实现所述MCM多芯片的功能包括:
根据二级单芯片的数量和索引,对所述二级单芯片的控制链路和数据链路进行重新规划和配置;
检查所述二级单芯片的数据链路是否稳定连接,若否,则结束所述多芯片模块故障识别处理方法,若是,则根据所述二级单芯片的数量和MCM多芯片的工作状态,调整MCM多芯片的工作频率,以使所述二级单芯片实现所述MCM多芯片的功能。
可选地,所述方法还包括:
对数据链路不稳定连接的一级优良单芯片进行低功耗处理。
第二方面,本发明提供一种多芯片模块故障识别处理***,包括:
启动模块,被配置为启动MCM多芯片,所述MCM多芯片包括至少一个单芯片;
筛选模块,被配置为通过检查所述MCM多芯片中控制链路的连通性,从所述至少一个单芯片中筛选出控制链路稳定连接的一级单芯片;
调整模块,被配置为对所述一级单芯片的控制链路和数据链路进行重新规划和配置;
第一检查模块,被配置为检查所述一级单芯片的数据链路;
处理模块,被配置为将数据链路稳定连接的一级单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能。
可选地,所述***还包括:
重复执行模块,被配置为在所述对所述一级单芯片的控制链路和数据链路进行重新规划和配置之前,重复执行所述通过检查所述MCM多芯片中控制链路的连通性,从所述至少一个单芯片中筛选出控制链路稳定连接的一级单芯片的步骤,并记录每次筛选出的一级单芯片的数量;
选取模块,被配置为选取筛选数量最少的那次所筛选出的一级单芯片作为一级优良单芯片;
所述调整模块,进一步被配置为对所述一级优良单芯片的控制链路和数据链路进行重新规划和配置;
所述第一检查模块,进一步被配置为检查所述一级优良单芯片的数据链路;
所述处理模块,进一步被配置为将数据链路稳定连接的一级优良单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能。
可选地,所述***还包括:
第一屏蔽模块,被配置为对所述至少一个单芯片中控制链路不稳定连接的单芯片进行屏蔽操作。
可选地,所述***还包括:
第一低功耗处理模块,被配置为对所述至少一个单芯片中控制链路不稳定连接的单芯片进行低功耗处理。
可选地,所述***还包括:
第二检查模块,被配置为在检查所述一级单芯片的数据链路之前,检查所述一级优良单芯片的控制链路,若存在至少一个一级优良单芯片的控制链路不稳定,则结束所述多芯片模块故障识别处理***。
可选地,所述***还包括:
第二屏蔽模块,被配置为对数据链路不稳定连接的一级优良单芯片进行屏蔽操作;
所述处理模块包括:
调整子模块,被配置为根据二级单芯片的数量和索引,对所述二级单芯片的控制链路和数据链路进行重新规划和配置;
检查子模块,被配置为检查所述二级单芯片的数据链路是否稳定连接,若否,则结束所述多芯片模块故障识别处理***,若是,则根据所述二级单芯片的数量和MCM多芯片的工作状态,调整MCM多芯片的工作频率,以使所述二级单芯片实现所述MCM多芯片的功能。
可选地,所述***还包括:
第二低功耗处理模块,被配置为对数据链路不稳定连接的一级优良单芯片进行低功耗处理。
本发明实施例提供的多芯片模块故障识别处理方法及***,通过从控制链路和数据链路的角度,对MCM多芯片中的故障芯片进行动态检测,能够有效的提高MCM多芯片的使用率,从而降低MCM多芯片制造的成本,提高MCM多芯片的可靠性。
附图说明
图1为本申请一实施例的多芯片模块故障识别处理方法的示意性流程图;
图2为本申请一实施例的MCM多芯片的示意性结构图;
图3为本申请一实施例的Die间的控制链路的示意性结构图;
图4为本申请一实施例的为体现场景一中Die间控制链路的连通关系的示意性结构图;
图5为本申请一实施例的为体现场景二中Die间控制链路的连通关系的示意性结构图;
图6为本申请一实施例的为体现场景三中Die间控制链路的连通关系的示意性结构图;
图7为本申请一实施例的多芯片模块故障识别处理***的示意性结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先,本发明对涉及的专有名词进行解释,具体如下:
Die:封装前的单个芯片,包含了完整的设计,在发明中称为“单芯片”;
Package:芯片经过封装后的名称,在发明中称为“包”;
SOC:System on Chip,指有专用目标的完整集成电路***的芯片,在本发明中称为“***级芯片”;
MCM:Multi-chip Module,由多个Die进行封装的一种模块,在发明中称为“多芯片模块”,其中,MCM多芯片为采用MCM技术完成的芯片。
第一方面,本实施例提供一种多芯片模块故障识别处理方法,结合图1,该方法包括步骤S101至步骤S105:
步骤S101:启动MCM多芯片,所述MCM多芯片包括至少一个单芯片。
在本实施例中,所述启动MCM多芯片的具体方式包括:MCM多芯片的冷启动,以及MCM多芯片在运行中出现故障的情况下的重新启动。如此能够使得该方法能够在运输后以及使用一段时间后对MCM多芯片进行故障识别处理。
步骤S102:通过检查所述MCM多芯片中控制链路的连通性,从所述至少一个单芯片中筛选出控制链路稳定连接的一级单芯片。
步骤S103:对所述一级单芯片的控制链路和数据链路进行重新规划和配置。
步骤S104:检查所述一级单芯片的数据链路。
步骤S105:将数据链路稳定连接的一级单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能。
在一种可选的实施例中,在所述步骤S103之前,所述方法还包括:重复执行所述通过检查所述MCM多芯片中控制链路的连通性,从所述至少一个单芯片中筛选出控制链路稳定连接的一级单芯片的步骤,并记录每次筛选出的一级单芯片的数量和相应的索引;根据索引选取筛选数量最少的那次所筛选出的一级单芯片作为一级优良单芯片。如此能够保证一级单芯片的控制链路具有稳定的连通性。
进一步的,在确定一级优良单芯片的情况下,所述步骤S103包括:对所述一级优良单芯片的控制链路和数据链路进行重新规划和配置;所述步骤S104包括:检查所述一级优良单芯片的数据链路;所述步骤S105包括:将数据链路稳定连接的一级优良单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能。
在一种可选的实施例中,所述方法还包括:对所述至少一个单芯片中控制链路不稳定连接的单芯片进行屏蔽操作。通过对控制链路不稳定连接的单芯片进行屏蔽操作能够保证MCM多芯片中的核心单芯片稳定的对其他控制链路稳定连接的部分单芯片进行控制。
在一种可选的实施例中,所述方法还包括:对所述至少一个单芯片中控制链路不稳定连接的单芯片进行低功耗处理。通过对控制链路不稳定连接的单芯片进行低功耗处理则能够有效的降低不参与或者已经被屏蔽的单芯片在MCM多芯片中所占的功耗比,从而保证了与核心单芯片保持稳定控制链路连接的单芯片能够高效的完成相应的工作内容。
在一种可选的实施例中,在所述检查所述一级单芯片的数据链路之前,所述方法还包括:检查所述一级优良单芯片的控制链路,若存在至少一个一级优良单芯片的控制链路不稳定,则结束所述多芯片模块故障识别处理方法。
具体的,首先,重新启动芯片,并再次进行一级优良单芯片间的控制链路检查;然后,获取一级优良单芯片的数量和索引;最后,检查筛选出来的一级优良单芯片是否能够通过控制链路稳定连接,如果失败则退出该方法的流程。
通过对规划后的一级优良单芯片的控制链路的连通性进行检查,能够在进一步保证一级优良单芯片间的控制链路稳定连接的同时,还能够防止一级优良单芯片的控制链路仍存在不稳定的现象,从而便于尽早的对MCM多芯片进行废弃处理。
在一种可选的实施例中,所述方法还包括:对数据链路不稳定连接的一级优良单芯片进行屏蔽操作。
如此,该方法中的所述通过所述二级单芯片实现所述MCM多芯片的功能包括:根据二级单芯片的数量和索引,对所述二级单芯片的控制链路和数据链路进行重新规划和配置;检查所述二级单芯片的数据链路是否稳定连接,若否,则结束所述多芯片模块故障识别处理方法,若是,则根据所述二级单芯片的数量和MCM多芯片的工作状态,调整MCM多芯片的工作频率,以使所述二级单芯片实现所述MCM多芯片的功能。
具体的,首先,在一级优良单芯片间的控制链路稳定的情况下且在一级优良芯片间的控制链路和数据链路进行规划和配置后,检查一级优良单芯片间的数据链路是否正常;若数据链路中存在一级优良单芯片未能正常连接,则判定该一级优良单芯片为数据链路连接异常的故障单芯片;接着,在将该故障单芯片进行屏蔽操作后,根据屏蔽后的、剩余的一级优良单芯片,即二级单芯片,的数量和索引,再次重新规划剩余的一级优良单芯片间的控制链路和数据链路;之后,根据能够通过控制链路和数据链路稳定连接的二级单芯片的数量,并综合***输入电压和负载情况,提高MCM多芯片的最高工作频率,以补偿对故障单芯片进行屏蔽带来的性能损失;在对MCM多芯片进行后续的初始化操作后,最终进入操作***;操作***利用通过控制链路和数据链路稳定连接的一级优良单芯片上的资源正常运行。如此能够在对数据链路不稳定连接的单芯片进行屏蔽的同时,又能够保证其他数据链路和控制链路均稳定连接的单芯片的使用,从而能够进一步提高MCM多芯片的使用率。
在一种可选的实施例中,所述方法还包括:对数据链路不稳定连接的一级优良单芯片进行低功耗处理。通过对数据链路不稳定连接的一级优良单芯片进行低功耗处理能够有效的降低不参与或者已经被屏蔽的单芯片在MCM多芯片中所占的功耗比,从而进一步保证了与核心单芯片保持稳定控制链路连接的单芯片能够高效的完成相应的工作内容。
该多芯片模块故障识别处理方法通过对故障单芯片进行动态检测,在对故障单芯片的屏蔽后,根据剩余单芯片的情况,重建数据链路和控制链路的连接,最终实现在MCM多芯片内部屏蔽故障单芯片,剩余单芯片正常运行的目的,如此极限挖掘了MCM多芯片的使用价值。特别的,对于长期运行中由于损耗导致故障的MCM多芯片,通过重启MCM多芯片执行本策略后即可恢复***的使用,即提高了MCM多芯片的可靠性和可用性。
除此之外,通过在动态检测过程中获取的故障单芯片的信息,可以用于反馈给封装部门进行技术改进和故障定位分析。
第二方面,本实施例提供一种多芯片模块故障识别处理方法。在本实施例中,结合图2,MCM多芯片包含四个Die,分别为Die0、Die1、Die2和Die3。
该方法包括:
步骤1:在基板上安装因在启动时出现故障的MCM多芯片,或是因运行中出现故障的MCM多芯片,并对该MCM多芯片执行重启操作。
其中,在重启的过程中,操作***会通过索引获取MCM多芯片中Die的数量、Die间的控制链路和数据链路的连通关系。在本实例中,每次对Die间的控制链路或数据链路检查以及相应的规划和配置均可通过重启的方式进行实现,本实施例对此不作过多赘述。
步骤2:检查MCM多芯片中Die间的控制链路是否连接正常。
如果MCM多芯片中Die间的控制链路全部连接正常,则判定为已通过控制链路检测,并进入检查MCM多芯片的数据链路的步骤,即步骤3。
如果MCM多芯片中Die间的控制链路存在异常,首先,对四个Die间的控制链路检进行检查,并在四个Die中确定最终控制链路能够正常连接的Die,对最终确定的控制链路能够正常连接的Die的控制链路和数据链路进行重新规划和配置,且将其他的Die进行屏蔽操作和低功耗处理;然后,对最终确定的控制链路能够正常连接的Die的数据链路进行检查,即进入检查经重新规划后的MCM多芯片的数据链路的步骤,即步骤3。
进一步的,结合图3,四个Die间的控制链路采用了U型的连接方式。其中,在控制链路检查阶段,Die0为核心单芯片,本实例按照Die索引递增的方向逐步检查Die0与其他Die的连通性;按照上述方式检测,故障芯片识别不全有如下三种场景:
场景一:结合图4,控制通路中只能识别到1个Die,即Die0和Die1之间的控制通路连通性检查失败,退出检查。如此***会记录控制链路稳定连接的Die的数量为一个,即为Die0。
场景二:结合图5,控制通路中能够识别到2个Die,即Die0和Die1连通性检查成功,Die1和Die2之间的连通性检查失败,退出检查。如此***会记录控制链路稳定连接的Die的数量为两个,即为Die0和Die1。
场景三:结合图6,控制通路中能够识别到3个Die,即Die0和Die1连通检查成功,Die1和Die2连通性检查成功,Die2和Die3连通性检查失败,退出检查。如此***会记录控制链路稳定连接的Die的数量为三个,即为Die0、Die1和Die2。
在本实例中,基于第一方面中的重复执行所述通过检查所述MCM多芯片中控制链路的连通性,从所述至少一个单芯片中筛选出控制链路稳定连接的一级单芯片的步骤的重复次数不作限定。
但根据记录的结果,若包含了上述三个场景,则确定一级优良单芯片的数量为一个,即为Die0;若包含了上述三个场景中的场景二和场景三,则确定一级优良单芯片的数量为二个,即为Die0和Die1;若仅包含了上述三个场景中的场景三,则确定一级优良单芯片的数量为三个,即为Die0、Die1和Die2。对于其他情况,本实施例不作过多赘述。
以一级优良单芯片的数量为二个为例,MCM多芯片会在初始化阶段,即在MCM多芯片加载操作***之前,对Die2和Die3进行屏蔽操作和低功耗处理。
其中,MCM多芯片会对Die2和Die3进行屏蔽操作,使其进入阻塞状态。具体是MCM多芯片通过初始化操作,将Die2和Die3从die间控制通路连接中剔除,让后续的访问控制不会再到达Die2和Die3上,并且通过修改整个MCM多芯片上的预期能够连接到的die数量,后续做多die同步时,就当没有Die2和Die3了。
MCM多芯片会对Die2和Die3进行低功耗处理。以MCM多芯片为arm(Advanced RISCMachine,进阶精简指令集机器)架构下的产品为例,MCM多芯片在初始化阶段可以使用arm指令集中的wfi指令,使Die2和Die3的core(核心)进入静止状态,从而停止Die2和Die3的初始化流程,使Die2和Die3仅有少量的静态功耗,降低了MCM多芯片的动态功耗开支。
而在MCM多芯片对Die2和Die3进行屏蔽操作和低功耗处理之前,本实施例还包括:读取记录的控制链路正常连接的Die的数量,并获取MCM多芯片中控制链路正常连接的Die的数量;然后,对Die0和Die1的控制链路,或者控制链路和数据链路进行重新规划和配置,再次检查控制链路正常连接的Die之间的通路连接性。如果检查失败,则直接退出处理流程;如果检查正常,则进入步骤3。其中,如果获取MCM多芯片中控制链路正常连接的Die的数量为1时,操作***则跳过该步骤。
步骤3:检查MCM多芯片的数据链路,或检查经重新规划后的MCM多芯片的数据链路。
在本实施例中,MCM多芯片的数据链路为全相连接。具体的,在重新规划后的MCM多芯片中包含:Die0、Die1和Die2,即Die3因控制链路连接不正常而被剔除。此时,步骤3包括:对检查经重新规划后的MCM多芯片的数据链路进行检查,若检查结果为仅Die0和Die1的数据链路正常,或仅Die0和Die2的数据链路正常,则废弃该MCM多芯片。或者,步骤3包括:多次对检查经重新规划后的MCM多芯片的数据链路进行检查,若检查结果不一致,即存在至少两种不同的检查结果,则废弃该MCM多芯片。该步骤能够在对MCM多芯片中控制链路出现故障的单芯片进行屏蔽后,发现重新规划和配置后的单芯片在数据链路存在问题,直接将该MCM多芯片进行废弃,如此能够提高多芯片模块故障识别处理的效率,避免MCM多芯片在故障识别处理的过程中出现死循环。
如果MCM多芯片中Die间的控制链路全部连接正常,则进入检查MCM多芯片的数据链路的步骤包括:对MCM多芯片的数据链路多次进行检查,若检查结果不一致,即存在至少两种不同的检查结果,则废弃该MCM多芯片。该步骤能够在对MCM多芯片中控制链路正常的情况下,单芯片在数据链路存在问题,且对于存在问题的单芯片无法快速的进行确认,则直接将该MCM多芯片进行废弃,如此能够提高多芯片模块故障识别处理的效率,避免MCM多芯片在故障识别处理的过程中出现死循环。
如果MCM多芯片中Die间的控制链路全部连接正常,则进入检查MCM多芯片的数据链路的步骤包括:对MCM多芯片的数据链路进行检查,若检查结果为仅Die0和Die1的数据链路正常,则首先,对Die2和Die3进行屏蔽操作和相关的低功耗处理;然后,对Die0和Die1的控制链路和数据链路进行重新规划和配置。之后,再次检查Die0和Die1间的控制链路和数据链路,若Die0和Die1间的控制链路和/或数据链路存在异常,则废弃该MCM多芯片。如此能够在MCM多芯片中Die间的数据链路存在问题时,通过剔除数据链路存在故障的单芯片,并重新对剩余的单芯片进行规划和配置,从而能够提高MCM多芯片的使用效率。
在一种可选的实施例中,MCM多芯片中的Die间的控制链路和数据链路均为全相连接,如此在MCM多芯片中的任意一个Die的控制链路或/和数据链路出现问题,只需将其自身进行屏蔽操作和低功耗处理,并对其他Die间的控制链路和数据链路进行规划和配置即可。
步骤四:将控制链路和数据链路均正常的Die的数量,并综合***输入电压和负载情况,提高MCM多芯片的最高工作频率,以补偿对故障单芯片进行屏蔽带来的性能损失;在对MCM多芯片进行后续的初始化操作后,最终进入操作***;操作***利用通过控制链路和数据链路稳定连接的二级单芯片上的资源正常运行。
第三方面,本实施例提供一种多芯片模块故障识别处理***200,结合图7,该多芯片模块故障识别处理***200包括:
启动模块201,被配置为启动MCM多芯片,所述MCM多芯片包括至少一个单芯片;
筛选模块202,被配置为通过检查所述MCM多芯片中控制链路的连通性,从所述至少一个单芯片中筛选出控制链路稳定连接的一级单芯片;
调整模块203,被配置为对所述一级单芯片的控制链路和数据链路进行重新规划和配置;
第一检查模块204,被配置为检查所述一级单芯片的数据链路;
处理模块205,被配置为将数据链路稳定连接的一级单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能。
在一种可选的实施例中,多芯片模块故障识别处理***200还包括:
重复执行模块,被配置为在所述对所述一级单芯片的控制链路和数据链路进行重新规划和配置之前,重复执行所述通过检查所述MCM多芯片中控制链路的连通性,从所述至少一个单芯片中筛选出控制链路稳定连接的一级单芯片的步骤,并记录每次筛选出的一级单芯片的数量;
选取模块,被配置为选取筛选数量最少的那次所筛选出的一级单芯片作为一级优良单芯片;
所述调整模块203,进一步被配置为对所述一级优良单芯片的控制链路和数据链路进行重新规划和配置;
所述第一检查模块204,进一步被配置为检查所述一级优良单芯片的数据链路;
所述处理模块205,进一步被配置为将数据链路稳定连接的一级优良单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能。
在一种可选的实施例中,多芯片模块故障识别处理***200还包括:第一屏蔽模块,被配置为对所述至少一个单芯片中控制链路不稳定连接的单芯片进行屏蔽操作。
在一种可选的实施例中,多芯片模块故障识别处理***200还包括:第一低功耗处理模块,被配置为对所述至少一个单芯片中控制链路不稳定连接的单芯片进行低功耗处理。
在一种可选的实施例中,多芯片模块故障识别处理***200还包括:第二检查模块,被配置为在检查所述一级单芯片的数据链路之前,检查所述一级优良单芯片的控制链路,若存在至少一个一级优良单芯片的控制链路不稳定,则结束所述多芯片模块故障识别处理***。
在一种可选的实施例中,多芯片模块故障识别处理***200还包括:第二屏蔽模块,被配置为对数据链路不稳定连接的一级优良单芯片进行屏蔽操作;
所述处理模块205包括:调整子模块,被配置为根据二级单芯片的数量和索引,对所述二级单芯片的控制链路和数据链路进行重新规划和配置;检查子模块,被配置为检查所述二级单芯片的数据链路是否稳定连接,若否,则结束所述多芯片模块故障识别处理***,若是,则根据所述二级单芯片的数量和MCM多芯片的工作状态,调整MCM多芯片的工作频率,以使所述二级单芯片实现所述MCM多芯片的功能。
在一种可选的实施例中,多芯片模块故障识别处理***200还包括:第二低功耗处理模块,被配置为对数据链路不稳定连接的一级优良单芯片进行低功耗处理。
本发明实施例提供的多芯片模块故障识别处理方法及***,通过从控制链路和数据链路的角度,对MCM多芯片中的故障芯片进行动态检测,能够有效的提高MCM多芯片的使用率,从而降低MCM多芯片制造的成本,提高MCM多芯片的可靠性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (14)

1.一种多芯片模块故障识别处理方法,其特征在于,包括:
启动MCM多芯片,所述MCM多芯片包括至少一个单芯片;
通过检查所述MCM多芯片中控制链路的连通性,从所述至少一个单芯片中筛选出控制链路稳定连接的一级单芯片;
对所述一级单芯片的控制链路和数据链路进行重新规划和配置;
检查所述一级单芯片的数据链路;
将数据链路稳定连接的一级单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能。
2.根据权利要求1所述的多芯片模块故障识别处理方法,其特征在于,在所述对所述一级单芯片的控制链路和数据链路进行重新规划和配置之前,所述方法还包括:
重复执行所述通过检查所述MCM多芯片中控制链路的连通性,从所述至少一个单芯片中筛选出控制链路稳定连接的一级单芯片的步骤,并记录每次筛选出的一级单芯片的数量;
选取筛选数量最少的那次所筛选出的一级单芯片作为一级优良单芯片;
所述对所述一级单芯片的控制链路和数据链路进行重新规划和配置包括:对所述一级优良单芯片的控制链路和数据链路进行重新规划和配置;
所述检查所述一级单芯片的数据链路的步骤包括:检查所述一级优良单芯片的数据链路;
所述将数据链路稳定连接的一级单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能包括:将数据链路稳定连接的一级优良单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能。
3.根据权利要求1所述的多芯片模块故障识别处理方法,其特征在于,所述方法还包括:
对所述至少一个单芯片中控制链路不稳定连接的单芯片进行屏蔽操作。
4.根据权利要求1所述的多芯片模块故障识别处理方法,其特征在于,所述方法还包括:
对所述至少一个单芯片中控制链路不稳定连接的单芯片进行低功耗处理。
5.根据权利要求2所述的多芯片模块故障识别处理方法,其特征在于,在所述检查所述一级单芯片的数据链路之前,所述方法还包括:
检查所述一级优良单芯片的控制链路,若存在至少一个一级优良单芯片的控制链路不稳定,则结束所述多芯片模块故障识别处理方法。
6.根据权利要求2所述的多芯片模块故障识别处理方法,其特征在于,所述方法还包括:
对数据链路不稳定连接的一级优良单芯片进行屏蔽操作;
所述通过所述二级单芯片实现所述MCM多芯片的功能包括:
根据二级单芯片的数量和索引,对所述二级单芯片的控制链路和数据链路进行重新规划和配置;
检查所述二级单芯片的数据链路是否稳定连接,若否,则结束所述多芯片模块故障识别处理方法,若是,则根据所述二级单芯片的数量和MCM多芯片的工作状态,调整MCM多芯片的工作频率,以使所述二级单芯片实现所述MCM多芯片的功能。
7.根据权利要求2所述的多芯片模块故障识别处理方法,其特征在于,所述方法还包括:
对数据链路不稳定连接的一级优良单芯片进行低功耗处理。
8.一种多芯片模块故障识别处理***,其特征在于,包括:
启动模块,被配置为启动MCM多芯片,所述MCM多芯片包括至少一个单芯片;
筛选模块,被配置为通过检查所述MCM多芯片中控制链路的连通性,从所述至少一个单芯片中筛选出控制链路稳定连接的一级单芯片;
调整模块,被配置为对所述一级单芯片的控制链路和数据链路进行重新规划和配置;
第一检查模块,被配置为检查所述一级单芯片的数据链路;
处理模块,被配置为将数据链路稳定连接的一级单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能。
9.根据权利要求8所述的多芯片模块故障识别处理***,其特征在于,所述***还包括:
重复执行模块,被配置为在所述对所述一级单芯片的控制链路和数据链路进行重新规划和配置之前,重复执行所述通过检查所述MCM多芯片中控制链路的连通性,从所述至少一个单芯片中筛选出控制链路稳定连接的一级单芯片的步骤,并记录每次筛选出的一级单芯片的数量;
选取模块,被配置为选取筛选数量最少的那次所筛选出的一级单芯片作为一级优良单芯片;
所述调整模块,进一步被配置为对所述一级优良单芯片的控制链路和数据链路进行重新规划和配置;
所述第一检查模块,进一步被配置为检查所述一级优良单芯片的数据链路;
所述处理模块,进一步被配置为将数据链路稳定连接的一级优良单芯片作为二级单芯片,并通过所述二级单芯片实现所述MCM多芯片的功能。
10.根据权利要求8所述的多芯片模块故障识别处理***,其特征在于,所述***还包括:
第一屏蔽模块,被配置为对所述至少一个单芯片中控制链路不稳定连接的单芯片进行屏蔽操作。
11.根据权利要求8所述的多芯片模块故障识别处理***,其特征在于,所述***还包括:
第一低功耗处理模块,被配置为对所述至少一个单芯片中控制链路不稳定连接的单芯片进行低功耗处理。
12.根据权利要求9所述的多芯片模块故障识别处理***,其特征在于,所述***还包括:
第二检查模块,被配置为在检查所述一级单芯片的数据链路之前,检查所述一级优良单芯片的控制链路,若存在至少一个一级优良单芯片的控制链路不稳定,则结束所述多芯片模块故障识别处理***。
13.根据权利要求9所述的多芯片模块故障识别处理***,其特征在于,所述***还包括:
第二屏蔽模块,被配置为对数据链路不稳定连接的一级优良单芯片进行屏蔽操作;
所述处理模块包括:
调整子模块,被配置为根据二级单芯片的数量和索引,对所述二级单芯片的控制链路和数据链路进行重新规划和配置;
检查子模块,被配置为检查所述二级单芯片的数据链路是否稳定连接,若否,则结束所述多芯片模块故障识别处理***,若是,则根据所述二级单芯片的数量和MCM多芯片的工作状态,调整MCM多芯片的工作频率,以使所述二级单芯片实现所述MCM多芯片的功能。
14.根据权利要求9所述的多芯片模块故障识别处理***,其特征在于,所述***还包括:
第二低功耗处理模块,被配置为对数据链路不稳定连接的一级优良单芯片进行低功耗处理。
CN202110249196.8A 2021-03-05 2021-03-05 多芯片模块故障识别处理方法及*** Active CN113051111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110249196.8A CN113051111B (zh) 2021-03-05 2021-03-05 多芯片模块故障识别处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110249196.8A CN113051111B (zh) 2021-03-05 2021-03-05 多芯片模块故障识别处理方法及***

Publications (2)

Publication Number Publication Date
CN113051111A CN113051111A (zh) 2021-06-29
CN113051111B true CN113051111B (zh) 2022-06-24

Family

ID=76510639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110249196.8A Active CN113051111B (zh) 2021-03-05 2021-03-05 多芯片模块故障识别处理方法及***

Country Status (1)

Country Link
CN (1) CN113051111B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080473B (zh) * 2022-06-29 2023-11-21 海光信息技术股份有限公司 一种多芯片互连***及基于其的安全启动方法
CN115622666B (zh) * 2022-12-06 2023-03-21 北京超摩科技有限公司 用于芯粒间数据链路传输的故障通道替换方法及芯粒
CN116340046B (zh) * 2023-05-25 2023-07-25 中诚华隆计算机技术有限公司 一种芯粒故障检测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526581A (zh) * 2008-03-07 2009-09-09 佛山市顺德区顺达电脑厂有限公司 边界扫描芯片故障检测装置及方法
CN105359468A (zh) * 2013-12-06 2016-02-24 英特尔公司 使用与链路结构分组异步的微片捆包的链路传送、位错误检测以及链路重试
CN105765544A (zh) * 2013-12-26 2016-07-13 英特尔公司 多芯片封装链路
CN106932705A (zh) * 2015-12-30 2017-07-07 深圳市中兴微电子技术有限公司 一种***级封装多芯片互联测试方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10082541B2 (en) * 2015-06-11 2018-09-25 Altera Corporation Mixed redundancy scheme for inter-die interconnects in a multichip package

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526581A (zh) * 2008-03-07 2009-09-09 佛山市顺德区顺达电脑厂有限公司 边界扫描芯片故障检测装置及方法
CN105359468A (zh) * 2013-12-06 2016-02-24 英特尔公司 使用与链路结构分组异步的微片捆包的链路传送、位错误检测以及链路重试
CN105765544A (zh) * 2013-12-26 2016-07-13 英特尔公司 多芯片封装链路
CN106932705A (zh) * 2015-12-30 2017-07-07 深圳市中兴微电子技术有限公司 一种***级封装多芯片互联测试方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Embedded Multidie Interconnect Bridge—A Localized, High-Density Multichip Packaging Interconnect;Ravi Mahajan等;《IEEE Transactions on Components, Packaging and Manufacturing Technology》;20190923;全文 *

Also Published As

Publication number Publication date
CN113051111A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN113051111B (zh) 多芯片模块故障识别处理方法及***
EP1296154B1 (en) Semiconductor integrated circuit
EP0095928B1 (en) Pipeline processing apparatus having a test function
US20080104461A1 (en) ATE architecture and method for DFT oriented testing
JP2003347373A (ja) ウエハ上の回路を試験するシステム及び方法
US20090100305A1 (en) Reprogrammable built-in-self-test integrated circuit and test method for the same
US11114417B2 (en) Through-silicon via (TSV) test circuit, TSV test method and integrated circuits (IC) chip
CN112100085B (zh) 安卓应用程序稳定性测试方法、装置和设备
CN111178833A (zh) 一种基于工作流引擎的动态子流程实现方法
US7308631B2 (en) Wrapper serial scan chain functional segmentation
CN109144808B (zh) 半导体装置
US20040123262A1 (en) Automatic placement and routing system
US20070285103A1 (en) Electronic Package and Method for Testing the Same
US6963213B1 (en) Auto-recovery wafer testing apparatus and wafer testing method
EP1403651B1 (en) Testing integrated circuits
CN112147482A (zh) 一种并行测试***及其测试方法
US20090013218A1 (en) Datalog management in semiconductor testing
Babaei et al. Online-structural testing of routers in network on chip
US10816962B2 (en) Process control device, manufacturing device, process control method, control program, and recording medium
CN104239171A (zh) 测试装置及其操作方法
US8205117B2 (en) Migratory hardware diagnostic testing
US9494650B2 (en) Efficient method of retesting integrated circuits
JP3710639B2 (ja) 半導体装置
CN108804311A (zh) 一种执行测试文件的方法及装置
Gattiker et al. Feasibility study of smart substrate multichip modules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant