CN111492477A - 具有高密度z轴互连的3d计算电路 - Google Patents

具有高密度z轴互连的3d计算电路 Download PDF

Info

Publication number
CN111492477A
CN111492477A CN201880082142.3A CN201880082142A CN111492477A CN 111492477 A CN111492477 A CN 111492477A CN 201880082142 A CN201880082142 A CN 201880082142A CN 111492477 A CN111492477 A CN 111492477A
Authority
CN
China
Prior art keywords
circuit
die
connections
memory
computational
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880082142.3A
Other languages
English (en)
Inventor
S·L·泰格
I·莫哈梅德
K·东
J·德拉克鲁兹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Exelsis
Original Assignee
Exelsis
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/859,612 external-priority patent/US10762420B2/en
Priority claimed from US15/976,809 external-priority patent/US10580735B2/en
Priority claimed from US16/159,705 external-priority patent/US10672745B2/en
Priority claimed from US16/159,703 external-priority patent/US10672743B2/en
Priority claimed from US16/159,704 external-priority patent/US10672744B2/en
Application filed by Exelsis filed Critical Exelsis
Publication of CN111492477A publication Critical patent/CN111492477A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L25/00Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof
    • H01L25/18Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof the devices being of types provided for in two or more different subgroups of the same main group of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L24/00Arrangements for connecting or disconnecting semiconductor or solid-state bodies; Methods or apparatus related thereto
    • H01L24/80Methods for connecting semiconductor or other solid state bodies using means for bonding being attached to, or being formed on, the surface to be connected
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L25/00Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof
    • H01L25/50Multistep manufacturing processes of assemblies consisting of devices, each device being of a type provided for in group H01L27/00 or H01L29/00
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L2224/00Indexing scheme for arrangements for connecting or disconnecting semiconductor or solid-state bodies and methods related thereto as covered by H01L24/00
    • H01L2224/01Means for bonding being attached to, or being formed on, the surface to be connected, e.g. chip-to-package, die-attach, "first-level" interconnects; Manufacturing methods related thereto
    • H01L2224/10Bump connectors; Manufacturing methods related thereto
    • H01L2224/15Structure, shape, material or disposition of the bump connectors after the connecting process
    • H01L2224/16Structure, shape, material or disposition of the bump connectors after the connecting process of an individual bump connector
    • H01L2224/161Disposition
    • H01L2224/16135Disposition the bump connector connecting between different semiconductor or solid-state bodies, i.e. chip-to-chip
    • H01L2224/16145Disposition the bump connector connecting between different semiconductor or solid-state bodies, i.e. chip-to-chip the bodies being stacked
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L2224/00Indexing scheme for arrangements for connecting or disconnecting semiconductor or solid-state bodies and methods related thereto as covered by H01L24/00
    • H01L2224/01Means for bonding being attached to, or being formed on, the surface to be connected, e.g. chip-to-package, die-attach, "first-level" interconnects; Manufacturing methods related thereto
    • H01L2224/10Bump connectors; Manufacturing methods related thereto
    • H01L2224/15Structure, shape, material or disposition of the bump connectors after the connecting process
    • H01L2224/16Structure, shape, material or disposition of the bump connectors after the connecting process of an individual bump connector
    • H01L2224/161Disposition
    • H01L2224/16151Disposition the bump connector connecting between a semiconductor or solid-state body and an item not being a semiconductor or solid-state body, e.g. chip-to-substrate, chip-to-passive
    • H01L2224/16221Disposition the bump connector connecting between a semiconductor or solid-state body and an item not being a semiconductor or solid-state body, e.g. chip-to-substrate, chip-to-passive the body and the item being stacked
    • H01L2224/16225Disposition the bump connector connecting between a semiconductor or solid-state body and an item not being a semiconductor or solid-state body, e.g. chip-to-substrate, chip-to-passive the body and the item being stacked the item being non-metallic, e.g. insulating substrate with or without metallisation
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L2224/00Indexing scheme for arrangements for connecting or disconnecting semiconductor or solid-state bodies and methods related thereto as covered by H01L24/00
    • H01L2224/80Methods for connecting semiconductor or other solid state bodies using means for bonding being attached to, or being formed on, the surface to be connected
    • H01L2224/80001Methods for connecting semiconductor or other solid state bodies using means for bonding being attached to, or being formed on, the surface to be connected by connecting a bonding area directly to another bonding area, i.e. connectorless bonding, e.g. bumpless bonding
    • H01L2224/808Bonding techniques
    • H01L2224/80894Direct bonding, i.e. joining surfaces by means of intermolecular attracting interactions at their interfaces, e.g. covalent bonds, van der Waals forces
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L24/00Arrangements for connecting or disconnecting semiconductor or solid-state bodies; Methods or apparatus related thereto
    • H01L24/01Means for bonding being attached to, or being formed on, the surface to be connected, e.g. chip-to-package, die-attach, "first-level" interconnects; Manufacturing methods related thereto
    • H01L24/10Bump connectors ; Manufacturing methods related thereto
    • H01L24/15Structure, shape, material or disposition of the bump connectors after the connecting process
    • H01L24/16Structure, shape, material or disposition of the bump connectors after the connecting process of an individual bump connector
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L24/00Arrangements for connecting or disconnecting semiconductor or solid-state bodies; Methods or apparatus related thereto
    • H01L24/80Methods for connecting semiconductor or other solid state bodies using means for bonding being attached to, or being formed on, the surface to be connected
    • H01L24/81Methods for connecting semiconductor or other solid state bodies using means for bonding being attached to, or being formed on, the surface to be connected using a bump connector
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L24/00Arrangements for connecting or disconnecting semiconductor or solid-state bodies; Methods or apparatus related thereto
    • H01L24/93Batch processes
    • H01L24/94Batch processes at wafer-level, i.e. with connecting carried out on a wafer comprising a plurality of undiced individual devices
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L25/00Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof
    • H01L25/03Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes
    • H01L25/04Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes the devices not having separate containers
    • H01L25/065Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes the devices not having separate containers the devices being of a type provided for in group H01L27/00
    • H01L25/0657Stacked arrangements of devices
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L2924/00Indexing scheme for arrangements or methods for connecting or disconnecting semiconductor or solid-state bodies as covered by H01L24/00
    • H01L2924/0001Technical content checked by a classifier
    • H01L2924/00014Technical content checked by a classifier the subject-matter covered by the group, the symbol of which is combined with the symbol of this group, being disclosed without further technical details
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L2924/00Indexing scheme for arrangements or methods for connecting or disconnecting semiconductor or solid-state bodies as covered by H01L24/00
    • H01L2924/10Details of semiconductor or other solid state devices to be connected
    • H01L2924/11Device type
    • H01L2924/14Integrated circuits
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L2924/00Indexing scheme for arrangements or methods for connecting or disconnecting semiconductor or solid-state bodies as covered by H01L24/00
    • H01L2924/10Details of semiconductor or other solid state devices to be connected
    • H01L2924/11Device type
    • H01L2924/14Integrated circuits
    • H01L2924/143Digital devices
    • H01L2924/1434Memory
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L2924/00Indexing scheme for arrangements or methods for connecting or disconnecting semiconductor or solid-state bodies as covered by H01L24/00
    • H01L2924/15Details of package parts other than the semiconductor or other solid state devices to be connected
    • H01L2924/151Die mounting substrate
    • H01L2924/153Connection portion
    • H01L2924/1531Connection portion the connection portion being formed only on the surface of the substrate opposite to the die mounting surface
    • H01L2924/15311Connection portion the connection portion being formed only on the surface of the substrate opposite to the die mounting surface being a ball array, e.g. BGA

Landscapes

  • Engineering & Computer Science (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Computer Hardware Design (AREA)
  • Power Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • General Physics & Mathematics (AREA)
  • Manufacturing & Machinery (AREA)
  • Semiconductor Memories (AREA)
  • Semiconductor Integrated Circuits (AREA)
  • Design And Manufacture Of Integrated Circuits (AREA)

Abstract

本发明的一些实施例提供了一种三维(3D)电路,该三维(3D)电路通过将两个或更多个集成电路(IC)裸片垂直堆叠以至少部分地重叠而形成。在这种布置中,在每个裸片上限定的几个电路块(1)与在一个或多个其他裸片上限定的其他电路块重叠,并且(2)通过连接电连接到这些其他电路块,该连接穿过结合一对或多对裸片的一个或多个结合层。在一些实施例中,重叠的、连接的电路块对包括计算块对以及计算和存储器块对。穿过结合层以电连接不同裸片上的电路块的连接在下文中被称为z轴布线或连接。这是因为这些连接完全或主要在3D电路的z轴上穿越,而3D电路的x‑y轴限定了IC裸片基板或互连层的平面。这些连接也被称为垂直连接,以使它们与沿着IC裸片的互连层的水平平面连接区分开。

Description

具有高密度Z轴互连的3D计算电路
背景技术
电子电路通常被制造在诸如硅的半导体材料的晶片上。具有这种电子电路的晶片通常被切割成多个裸片,每个裸片被称为集成电路(IC)。每个裸片都装在IC盒中,并且通常称为微芯片、“芯片”或IC芯片。根据摩尔定律(由戈登·摩尔首次提出),可在IC裸片上限定的晶体管数量大约每两年增加一倍。随着半导体制造过程的进步,该定律在过去的50年中一直适用。但是,近年来,随着我们达到可能在半导体基板上限定的晶体管的最大数量,摩尔定律的终结已被预知。因此,在本领域中需要其他进步,以允许在IC芯片中限定更多的晶体管。
发明内容
本发明的一些实施例提供了三维(3D)电路,该三维(3D)电路通过将两个或更多个集成电路(IC)裸片垂直堆叠以至少部分地重叠而形成。在这种布置中,在每个裸片上限定的几个电路块(1)与在一个或多个其他裸片上限定的其他电路块重叠,并且(2)通过连接电连接到这些其他电路块,该连接穿过结合一对或多对裸片的一个或多个结合层。在一些实施例中的3D电路可以是任意类型的电路,诸如:处理器,如CPU(中央处理单元)、GPU(图形处理单元)、TPU(张量处理单元)等;或者其他类型的电路,如FPGA(现场可编程门阵列)、AI(人工智能)神经网络芯片、加密/解密芯片等。
在一些实施例中,连接在垂直于结合表面的方向上穿过(一个或多个)结合层。在一些实施例中,重叠的、连接的电路块对包括计算块对以及计算和存储器块对。穿过结合层以电连接不同裸片上的电路块的连接在下文中称为z轴布线或连接。这是因为这些连接完全或主要在3D电路的z轴上穿越,而3D电路的x-y轴限定了IC裸片基板或互连层的平面。这些连接也被称为垂直连接,以使它们与沿着IC裸片的互连层的水平平面连接区分开。
前面的发明内容旨在用作对本发明的一些实施例的简要介绍。这并不意味着是对本文档中所公开的所有发明主题的介绍或概述。以下的具体实施方式和在具体实施方式中引用的附图将进一步描述发明内容中描述的实施例以及其他实施例。因此,为了理解本文档所描述的所有实施例,需要对发明内容、具体实施方式、附图和权利要求书进行全面回顾。
附图说明
本发明的新颖特征在所附权利要求书中提出。然而,出于解释的目的,在以下附图中阐述了本发明的几个实施例。
图1示出了本发明的一些实施例的3D电路。
图2示出了在一个裸片上具有多核处理器而在另一个裸片上具有嵌入式存储器的一个高性能3D处理器的示例。
图3示出了当今在许多设备中如何普遍使用多核处理器。
图4示出了通过垂直堆叠三个裸片形成的3D处理器的示例。
图5示出了三个垂直堆叠的裸片,其中第二裸片的背面在第一和第二裸片面对面结合之后但在将第三裸片面对面安装到第二裸片之前通过减薄过程被减薄。
图6-9示出了一些实施例的其他3D处理器。
图10示出了一些实施例在不同的堆叠裸片上放置执行连续计算的两个计算电路。
图11示出了在不同的裸片上具有重叠的处理器核的一个高性能3D处理器的示例。
图12示出了在一个裸片上具有处理器核而在另一个裸片上具有高速缓存的高性能3D处理器的另一个示例。
图13示出了在两个面对面安装的裸片上具有处理器核的不同部分的3D处理器的示例。
图14示出了与第二裸片上的存储器电路重叠的第一裸片上的计算电路,第二裸片垂直堆叠在第一裸片上。
图15示出了两个垂直堆叠的裸片上的两个重叠的计算电路。
图16示出了第一裸片上的计算电路的阵列与第二裸片上的存储器的阵列重叠,该第二裸片通过直接结合互连(DBI)结合过程与第一裸片面对面地安装。
图17示出了将存储器阵列与计算阵列交错的传统方式。
图18和19示出了两个示例,这些示例示出了如何使用高密度DBI连接来减小由几个连续的电路级形成的计算电路的布置的大小,每个电路级执行产生通过到电路的另一级直到到达电路的最后级的结果的计算。
图20呈现了对两个面对面安装的裸片上的十六个多位输入值执行计算(例如加法或乘法)的计算电路。
图21示出了使用3D IC的设备。
图22提供了由安装在球栅阵列上的两个面对面安装的IC裸片形成的3D芯片的示例。
图23示出了用来生产3D芯片的一些实施例的制造过程。
图24-27示出了处于图23的制造过程的不同级的两个晶片。
图28示出了具有三个堆叠的IC裸片的3D芯片的示例。
图29示出了具有四个堆叠的IC裸片的3D芯片的示例。
图30示出了通过将三个较小的裸片面对面安装在较大的裸片上而形成的3D芯片。
具体实施方式
在本发明的以下具体实施方式中,阐述并描述了本发明的许多细节、示例和实施例。然而,对于本领域技术人员而言将显而易见的是,本发明不限于所阐述的实施例,并且本发明可以在没有所讨论的某些特定细节和示例的情况下实践。
本发明的一些实施例提供了三维(3D)电路,该三维(3D)电路通过将两个或更多个集成电路(IC)裸片垂直堆叠以至少部分地重叠而形成。在这种布置中,在每个裸片上限定的几个电路块(1)与在一个或多个其他裸片上限定的其他电路块重叠,并且(2)通过连接电连接到这些其他电路块,连接跨过一个或多个结合层,该结合层结合一对或多对裸片。在一些实施例中,重叠的、连接的电路块对包括计算块对以及计算和存储器块对。
在下面的讨论中,穿过结合层以电连接不同裸片上的电路块的连接在下文中称为z轴布线或连接。这是因为这些连接完全或大部分在3D电路的z轴上穿越(例如因为在某些实施例中,这些连接在垂直于或几乎垂直于结合表面的方向上穿过(一个或多个)结合层),其中3D电路的x-y轴限定了IC裸片基板或互连层的表面。这些连接也被称为垂直连接,以使它们与沿着IC裸片的互连层的水平平面连接区分开。
上面和下面的讨论涉及在彼此重叠的不同裸片上的不同电路块。如下所述的附图所示,两个垂直堆叠的裸片上的两个电路块在它们的水平横截面(即,它们的水平覆盖区)垂直地重叠(即,在垂直方向上重叠)。
图1示出了这种3D电路的示例。具体地,其示出了3D电路100,该3D电路100通过垂直堆叠两个IC裸片105和110而形成,使得一个裸片上的几个电路块中的每一个(1)与另一裸片上的至少一个其他电路块重叠,并且(2)部分通过z轴连接150来电子地连接到重叠的裸片,该z轴连接150穿过将两个IC裸片结合的结合层。在该示例中,两个裸片105和110面对面安装,如下文进一步所述。而且,尽管未在图1中示出,但是在一些实施例中,通过封装环氧树脂和/或芯片盒将堆叠的第一裸片和第二裸片封装到一个集成电路封装中。
如图所示,第一裸片105包括第一半导体基板120和在第一半导体基板120上方限定的第一互连层集合125。类似地,第二IC裸片110包括第二半导体基板130和在第二半导体基板130下面限定的第二互连层集合135。在一些实施例中,在第一半导体基板120和第二半导体基板130上限定许多电子组件(例如有源组件,如晶体管和二极管;或无源组件,如电阻器和电容器)。
第一基板120上的电子组件通过第一互连层集合125上的互连布线彼此连接,以形成许多微电路(例如布尔门,诸如与门、或门等)和/或更大的电路块(例如功能块,诸如存储器、解码器、逻辑单元、乘法器、加法器等)。类似地,第二基板130上的电子组件通过第二互连层集合135上的互连布线彼此连接,以形成附加的微电路和/或更大的电路块。
在一些实施例中,在一个裸片的基板(例如第一裸片105的基板120)上限定电路块所需的互连布线的一部分由另一个裸片(例如第二裸片110)的一个或多个互连层(例如第二互连层集合135)提供。换句话说,在一些实施例中,一个裸片的基板(例如第一裸片105的第一基板120)上的电子组件还通过另一裸片的互连层集合(例如,第二裸片110的第二互连层集合135)上的互连布线连接到同一基板(例如基板120)上的其他电子组件,以在第一裸片上形成电路块。
这样,在一些实施例中,一个裸片的互连层可以由另一裸片的电子组件和电路共享。如在2018年5月10日提交的美国专利申请15/976,815中所述,一个裸片的互连层还可以用于为另一裸片的电子组件和电路运送功率、时钟和数据信号,该专利申请通过引用并入本文。在以下讨论中,将两个裸片之间共享的互连层称为共享互连层。
IC裸片的每个互连层通常具有优选的布线方向(也称为路由方向)。而且,在一些实施例中,IC裸片的连续互连层的优选布线方向彼此正交。例如尽管已经引入了几种在连续的互连层的优选布线方向之间采用45度和60度偏移的布线架构,但是IC裸片的优选布线方向通常在水平和垂直优选布线方向之间交替。交替IC裸片的连续互连层之间的布线方向具有几个优点,诸如提供更好的信号路由以及避免相邻互连层上的长平行分段之间的电容耦合。
为了形成图1的3D电路100,第一裸片和第二裸片面对面堆叠,使得第一互连层集合125和第二互连层集合135彼此面对。顶部互连层160和165通过直接结合过程彼此结合,该直接结合过程在这两互连层集合之间建立直接接触的金属对金属结合、氧化物结合或熔融结合。这种结合的示例是直接接触的两个铜导体之间的铜-铜(Cu-Cu)金属结合。在一些实施例中,直接结合是通过诸如
Figure BDA0002546534510000061
(直接结合互连)技术的混合结合技术和其他金属结合技术(诸如加利福尼亚州圣何塞的Xperi Corporation公司的Invensas BondingTechnologies,Inc.提供的技术)提供的。在一些实施例中,DBI连接跨越氧化硅和氮化硅表面。
在美国专利6,962,835和美国专利7,485,968中进一步描述了DBI过程,这两个专利都通过引用并入本文。该过程也在美国专利申请15/725,030中被描述,该专利申请也通过引用方式并入本文。如美国专利申请15/725,030中所述,两个面对面安装的IC裸片之间的直接结合连接是本机互连,它允许信号跨越两个不同的裸片,而在交叉裸片边界处没有标准接口并且没有输入/输出协议。换句话说,直接结合互连允许来自一个裸片的本机信号直接传递到另一裸片,而无需对本机信号进行修改或对本机信号进行可忽略的修改,从而放弃了标准的接口连接和采用联盟的输入/输出协议。
直接结合互连允许电路跨两个面对面安装的裸片的穿过裸片边界被形成和/或通过两个面对面安装的裸片的穿过裸片边界被访问。在美国专利申请15/725,030中进一步描述了这种电路的示例。结合的美国专利6,962,835、美国专利7,485,968和美国专利申请15/725,030也描述了用于制造两个面对面安装的裸片的制造技术。
两个裸片之间的DBI连接终止于每个裸片顶部互连层上的电触点(在本文档中称为焊盘)。通过每个裸片上的互连线和/或通孔,每个裸片上的DBI连接焊盘将DBI连接与裸片上需要向DBI连接提供信号或从DBI连接接收信号的电路节点电连接。例如DBI连接焊盘连接到裸片顶部互连层上的互连分段,然后通过一系列通孔和互连线路将信号运送到裸片基板上的电路块。通孔是每个裸片上的z轴结构,该z轴结构在裸片的互连层之间以及IC裸片基板与裸片的互连层之间运送信号。
如图1所示,一些实施例的直接结合技术允许在第二裸片110的顶部互连层165和第一裸片105的顶部互连层160之间建立大量的直接连接150。在一些实施例中,为了使这些信号穿越到第一裸片105的其他互连层或第一裸片105的衬底120,第一裸片使用其他IC结构(例如,通孔)将这些信号从其顶部互连层运送到这些其他层和/或基板。在一些实施例中,可以在第一裸片105和第二裸片110的顶部互连层160和165之间建立大于1,000个连接/mm2,10,000个连接/mm2,100,000个连接/mm2,1,000,000个连接/mm2或更小,等等,以便于允许信号在第一IC裸片和第二IC裸片之间穿越。
第一裸片和第二裸片之间的直接结合连接150的长度非常短。例如基于当前的制造技术,直接结合连接的范围可以从几分之一微米到一位数或低两位数的微米(例如2-10微米)。如下面进一步描述的,这些连接的短长度允许信号穿越这些连接快速到达其目的地,同时不经历或几乎没有来自附近的平面布线和附近的直接结合的垂直连接的电容性负载。平面布线连接被称为x-y布线或连接,因为这样的布线大部分停留在3D电路的x-y轴所限定的平面内。另一方面,两个裸片之间或两个互连层之间的垂直连接被称为z轴布线或连接,因为这种布线通常在3D电路的z轴上穿越。表示z轴连接时使用“垂直”不应与穿越单个互连层的水平或垂直优选方向平面布线相混淆。
在一些实施例中,两个相邻的直接结合连接150之间的间距(距离)可以非常小,例如两个相邻的连接的间距在0.5μm至15μm之间。这种紧密接近允许在第一裸片105和第二裸片110的顶部互连层160和165之间的大量且高密度的这种连接。此外,这些连接的紧密接近不会在两个相邻的z轴连接之间引入太大的电容性负载,因为它们的长度短且互连焊盘尺寸小。例如在一些实施例中,直接结合连接的长度小于1或2μm(例如长度为0.1至0.5μm),并且即使考虑了每个裸片上的通孔长度,也可以促进两个裸片上两个不同位置之间的短Z轴连接(例如,长度为1至10μm)。总之,两个裸片之间的直接垂直连接在这些裸片上不同位置之间提供了短而快速的路径。
通过z轴连接150(例如DBI连接),第一裸片和第二裸片上的电路块的重叠部分中的电节点可以电连接。这些电节点可以在IC裸片基板上(例如在包含电路块的电子组件节点的基板部分上),也可以在IC裸片互连层上(例如在形成电路块的互连层布线上)。当这些电节点不在通过z轴连接连接的顶部互连层上时,可使用通孔将信号运送到z轴连接或将信号从z轴连接运送到这些节点。在每个IC裸片上,通孔是在互连层之间以及IC裸片基板和互连层之间运送信号的z轴结构。
图1示出了顶部互连层160和165中的重叠区域181-185之间的许多z轴连接150。这些区域中的每个对应于在IC裸片基板120和130之一上限定的电路块171-175。而且,一个裸片的顶部互连层上的每个区域通过许多z轴连接连接到另一裸片的顶部互连层中的一个或多个重叠区域。具体而言,如图所示,z轴连接将重叠的区域181和184、区域182和184以及区域183和185连接。通孔用于将信号从IC裸片基板和互连层提供给这些z轴连接。同样,当需要接收这些信号的电节点位于裸片基板或顶层以下的互连层上时,通孔还用于承载来自z轴连接的信号。
当z轴连接为DBI连接时,重叠的连接区域之间的连接密度可以在1,000个连接/mm2到1,000,000个连接/mm2的范围内。而且,两个相邻的直接结合连接150之间的间距可以非常小,例如两个相邻的连接的间距在0.5μm至15μm之间。另外,这些连接可以非常短,例如在从几分之一微米到低个位数微米的范围内。即使考虑了互连层通孔和导线,这些短的DBI连接将允许IC裸片105和110的两个基板上的两个电连接的电路节点之间的非常短的信号路径(例如,一位数或低两位数的微米,诸如2-20微米)。
在图1所示的示例中,每个顶部互连层区域181-185对应于IC裸片基板120或130上的电路块区域171-175。本领域的普通技术人员将认识到,电路块的对应顶部互连层区域(即,用于建立该电路块的z轴连接的区域)不必与IC基板上的电路块区域完全重叠。此外,在一些实施例中,用于连接两个不同裸片中的两个重叠电路块的所有z轴连接不将一个裸片的顶部互连层中的一个连续区域与另一裸片的顶部互连层中的另一连续区域连接在一起。
同样,在一些实施例中,z轴连接连接两个裸片上不重叠的电路(即,不让它们的任意水平横截面垂直重叠)。然而,使用z轴连接来电连接两个裸片105和110上(例如,具有垂直重叠的水平横截面的电路)的重叠电路(例如电路块173和175、电路块171和174等)是有利的,因为这样的重叠会大大增加用于连接两个电路的候选位置的数量。当两个电路在一个基板上彼此相邻放置时,它们之间可建立的连接数量受到在一个或多个互连层上可通过其周边建立的连接数量的限制。然而,通过将两个电路放置在两个垂直堆叠的裸片上的两个重叠区域中,两个电路之间的连接不限于穿过电路周边的***连接,还包括可通过重叠区域的区域可获得的z轴连接(例如DBI连接以及经由连接)。
在许多情况下,堆叠IC裸片可允许用于传递信号的布线大大缩短,因为堆叠为重叠电路块之间的较短连接提供了更多候选位置,而重叠电路块需要互连以接收这些信号。例如在图1中,裸片105和110上的电路块173和175共享第二裸片110的顶部互连层上的数据总线190。该数据总线将数据信号运送到这两个电路。
使用直接结合连接将信号从该数据总线190运送到第一裸片105上的电路块175。这些直接结合连接比在第一裸片上将数据总线信号路由大约几个功能块以便于从该块的***到达电路块175的连接短得多。穿越短的直接结合连接的数据信号非常快地(例如在1或2个时钟周期内)到达第一裸片上的该电路175,因为它们不需要从目的地块的***路由。在较少拥塞的共享互连层上,可以将数据总线线路放置在第一裸片上的目的地电路上方或附近,以确保可以通过短的结合连接将这条线上的数据总线信号提供给目的地电路。
Z轴连接和用于共享多个裸片上的互连层的能力减少了一个裸片上比另一个裸片上更受约束的拥塞和路由限制。堆叠IC裸片还减少了两个裸片的互连层的总数,因为它允许两个裸片共享较高级别的互连层中的一些以便于分配信号。减少高级级别互连层是有益的,因为这些层上的布线由于其较厚、较宽和较粗的布置而通常会占用更多空间。
即使在图1中两个裸片面对面安装,本领域的普通技术人员将认识到,在其他实施例中,两个裸片以其他布置垂直堆叠。例如在一些实施例中,这两个裸片面对面堆叠(即,一个裸片的互连层集合安装在另一裸片的半导体基板的背面附近)或背对背堆叠堆叠(即,一个裸片的半导体基板的背面紧挨安装在另一裸片的半导体基板的背面)。
在其他实施例中,第三裸片(例如中介层裸片)被放置在第一裸片和第二裸片之间,第一裸片和第二裸片面对面堆叠、面对背堆叠(其中第三裸片位于在一个裸片的衬底背面和另一裸片的互连层集合之间)或背对背堆叠(第三裸片位于第一裸片和第二裸片的基板的背面之间)。而且,如参考图4进一步描述的,在一些实施例中,裸片的垂直堆叠包括堆叠中的三个或更多个IC裸片。虽然一些实施例使用直接结合技术来在两个面对面堆叠的裸片的顶部互连层之间建立连接,但是其他实施例使用替代连接方案(诸如通过硅通孔TSV、直通氧化物通孔TOV、或通过玻璃通孔TGV),以在面对背的裸片之间和背对背的裸片之间建立连接。
在图1中,在不同的实施例中,两个裸片105和110上的重叠电路块171-175是不同类型的块。在一些实施例中,这样的块的示例包括存储器数据的存储器块、对数据执行计算的计算块以及从3D电路100接收和输出数据的I/O块。为了提供重叠电路块的更具体的示例,图2、4和6示出了一些实施例的几种不同的重叠存储器块、计算块和/或I/O块架构。其中一些示例示出了高性能3D多核处理器。然后,图10-11示出了重叠计算模块的几个示例,其中包括放置在不同IC裸片上的多核处理器的不同核。图13示出了处理器核的重叠功能块的示例。
图2示出了高性能3D处理器200的示例,该高性能3D处理器200具有在一个裸片205上的多核处理器250,和在另一裸片210上的嵌入式存储器255。如该图所示,多核处理器的水平截面与嵌入式存储器的水平截面基本垂直重叠。同样,在该示例中,通过诸如DBI过程的直接结合过程面对面地安装两个裸片205和210。在其他实施例中,这两个裸片可以面对背或背对背安装。
如图2所示,许多z轴连接150穿过直接结合层,该结合层将两个IC裸片205和210结合在一起,以便在多核处理器250和嵌入式存储器255之间建立许多信号路径。当使用DBI过程来结合两个裸片205和210时,z轴连接可以在1,000个连接/mm2至1,000,000个连接/mm2的范围内。这样,DBI z轴连接允许在多核处理器250和嵌入式存储器255之间限定非常多的信号路径。
DBI z轴连接150还支持非常快的信号路径,因为DBI连接通常非常短(例如0.2μm至2μm)。信号路径的总长度通常也较短,因为信号路径大部分是垂直的。信号路径通常依赖于互连线(在互连层上)和通孔(在互连层之间)来连接处理器250和嵌入式存储器255的节点。但是,信号路径通常是垂直的,因为它们经常连接在相同近似的Z形截面中的节点250。假设DBI连接非常短,则垂直信号路径的长度主要考虑裸片205和210的互连层的高度,通常为单位数到低两位数的微米(例如垂直信号路径的长度通常在10-20μm之间)。
由于z轴连接在多核处理器250和嵌入式存储器255之间提供了短、快速和丰富的连接,因此它们允许嵌入式存储器255替代当今在采用多核处理器的设备中常用的许多外部存储器。换句话说,垂直堆叠的IC裸片之间牢固的z轴连接使下一代片上***(SoC)架构能够将最快的多核处理器的计算能力与可替代外部存储器的大型嵌入式存储器相结合。
为了更好地说明这一点,图3示出了当今在许多设备中如何普遍使用多核处理器。如图所示,设备305中的多核处理器350通常通过外部I/O接口355(诸如双倍数据速率(DDR)接口)与设备305的多个外部存储器310通信。如进一步所示,多核处理器具有形成处理器350的图形处理单元356的多个通用处理核352和一个或多个图形处理核354。
每个处理核具有其自己的1级(L1)高速缓存362以存储器数据。而且,多个2级(L2)高速缓存364被用于允许不同的处理核存储它们的数据以供它们自己和其他核访问。一个或多个3级(L3)高速缓存366也用于存储从外部存储器310取回的数据并将数据提供给外部存储器310。不同的核通过仲裁器368访问L2和L3高速缓存。如图所示,I/O接口355用于取回L3高速缓存366和处理核352和354的数据。L1高速缓存通常比L2高速缓存具有更快的访问时间,而L2高速缓存进而通常比L3高速缓存具有更快的访问时间。
I/O接口消耗大量功率,并且具有有限的I/O功能。通常,I/O接口必须对输出数据和输入数据进行序列化和反序列化,这不仅消耗功率,而且限制了多核处理器的输入/输出。同样,图3所示的架构需要足够的布线以在多核处理器的各个组件和I/O接口之间路由信号。
通过将外部存储器替换为与在同一IC封装中的多核处理器250垂直堆叠的一个或多个嵌入式存储器255,可以大大改善功耗、布线和处理器的I/O瓶颈。这种布置大大减少了在多核处理器250与其外部存储器(在图2中是嵌入式存储器255)之间运送信号所需的导线的长度。现在,该布线的长度不再是毫米,而是低微米。这是线长的100-1000倍的改进。
线长的减少允许图2的3D处理器200具有比图3的当今设计低得多的功耗。3D处理器的堆叠设计还消耗了更少的功率,因为它用在嵌入式存储器255和多核处理器250之间的许多短z轴连接,放弃了外部存储器310与多核处理器350之间的低吞吐量、高功耗I/O接口。3D处理器200在其裸片之一上仍需要I/O接口(例如第一裸片205、第二裸片210或另一个堆叠的裸片,未示出),但是该处理器200不需要过多地依赖它来输入数据以消耗,因为大量数据(例如大于200MB、500MB、1GB等)可以被存储在嵌入式存储器255中。
图2的3D处理器200的堆叠设计还通过需要较少的I/O接口电路并将I/O接口电路257放置在第二裸片210上,来减小多核处理器的尺寸。在其他实施例中,I/O接口电路257在第一裸片205上,但是更少和/或更小的电路。在另一其他实施例中,I/O接口电路被放置在与第一和第二裸片堆叠的第三裸片上,如下文进一步描述的。
3D处理器200的堆叠设计还释放了使用多核处理器的设备中的空间,因为其将一些外部存储器移动到与多核处理器相同的IC裸片外壳中。可以是与多核处理器250堆叠的嵌入式存储器255的存储器的示例包括任意类型的存储器,诸如SRAM(静态随机存取存储器),DRAM(动态随机存取存储器)、MRAM(磁阻随机存取存储器)、TCAM(三态内容可寻址随机存取存储器)、NAND闪存、NOR闪存、RRAM(电阻性随机存取存储器)、PCRAM(相变随机存取存储器)等。
即使图2示出了第二裸片210上的一个嵌入式存储器,在一些实施例中,在第二裸片210上限定了多个嵌入式存储器,而在与包含多核处理器250的第一裸片205垂直堆叠的两个或更多个裸片上限定了多个嵌入式存储器。在使用多个不同的嵌入式存储器的一些实施例中,不同的嵌入式存储器都具有相同类型,而在其他实施例中,不同的嵌入式存储器是不同类型(例如一些是SRAM,而其他是NAND/NOR闪存)。在一些实施例中,不同的嵌入式存储器被限定在同一IC裸片上,而在其他实施例中,不同的嵌入式存储器被限定在不同的IC裸片上。
图2示出了在一些实施例中,多核处理器250具有类似的组件(例如多个通用处理核270、L1、L2和L3高速缓存272、274和276、高速缓存仲裁器278和280、图形处理核282等等),就像其他多处理器核一样。然而,如上所述,在3D处理器200中,用于多核处理器250的I/O接口电路257被放置在第二裸片205上。
I/O电路257从外部设备和存储器向嵌入式存储器255写入数据,并且从嵌入式存储器255读取数据以用于外部设备和存储器。在一些实施例中,I/O电路255还可以从外部设备和存储器取回用于L3高速缓存的数据,或者从L3高速缓存中接收用于外部设备和存储器的数据,而无需数据先经过嵌入式存储器255。这些实施例中的一些在L3高速缓存和I/O电路257之间具有直接的垂直(z轴)总线。在这些或其他实施例中,第一裸片205还包括I/O电路作为I/O电路255和L3高速缓存276之间的接口,或作为L3高速缓存276与外部设备/存储器之间的接口。
代替将I/O电路放置在与多核处理器的其余部分不同的裸片上或与将I/O电路放置在与多核处理器的其余部分不同的裸片上结合,一些实施例将多核处理器的其他组件放置在垂直堆叠中的不同IC裸片上。例如图4示出了通过垂直堆叠三个裸片405、410和415形成的3D处理器400的示例,其中第一裸片405包括多核处理器的多个处理器核422和424,第二裸片410包括用于处理核的L1-L3高速缓存426、428和430,以及第三裸片415包括I/O电路435。在此示例中,第一裸片405和第二裸片410面对面安装(例如,通过直接结合过程,诸如DBI过程),而第二裸片410和第三裸片415背对面安装。
在该示例中,处理器核在两个四核集合432和434中。如图所示,第一裸片405上的每个核(1)与第二裸片410上的核的L1高速缓存426重叠,(2)与第二裸片410上的一个L2高速缓存428重叠,L2高速缓存428由同一四核集合432或434中的三个其他核共享,以及(3)与第二裸片410上的L3高速缓存430重叠。在一些实施例中,许多z轴连接(例如DBI连接)在每个核和与其重叠的每个L1、L2或L3高速缓存之间建立许多信号路径。这些信号路径也由第一裸片和第二裸片的互连层上的互连分段以及互连层之间的通孔建立。
在一些实施例中,高速缓冲存储器(例如L2和L3高速缓冲存储器428和430)中的一些或全部是可以由不同核同时访问的多端口存储器。在一些实施例中的高速缓存存储器中的一个或多个包括高速缓存仲裁器电路,该高速缓存仲裁器电路同时仲裁(例如控制和调节),并且有时通过不同的处理核对存储器的访问进行仲裁。如图所示,3D处理器400还在两个四核集合432和434之间的第一裸片405上包括一个L2高速缓存存储器436,以便允许数据在这些处理器核集合之间被共享。在一些实施例中,L2高速缓存存储器436包括高速缓存仲裁器电路(未示出)。在其他实施例中,3D处理器400不包括L2高速缓存存储器436。在这些实施例中的一些中,不同的处理器核集合432和434通过L3高速缓存430共享数据。
L3高速缓存430存储数据以供所有处理核422和424访问。通过在第三裸片415上限定的I/O电路435从外部存储器(即,在3D处理器400外部的存储器)取回该数据中的一些。在一些实施例中,第三裸片415面对背地与第二裸片安装。为了建立这种安装,通过第二裸片的基板限定了TSV 460,并且这些TSV电连接(直接地或者通过在第二裸片的背面上限定的互连分段)以直接结合连接,其将第二裸片的背面连接至第三裸片的正面(即,到第三裸片的正面上的顶部互连层)。如图5所示,在将第一和第二裸片面对面结合之后,但在将第三裸片面对面安装到第二裸片之前,通过减薄过程来减薄第二裸片的背面。这种减薄允许穿过第二裸片基板的TSV较短。TSV的较短长度又允许TSV具有较小的横截面和较小的间距(即,到相邻的TSV的较小中心距),从而改进了它们的密度。
第二裸片410和第三裸片415之间的大多数信号路径都非常短(例如通常在10-20μm长的范围内),因为它们大部分沿垂直方向穿越通过减薄的第二裸片的基板和第三裸片的互连层,其具有相对短的高度。在一些实施例中,在第二裸片410上的L3高速缓存430与第三裸片415上的I/O电路435之间限定了大量的短垂直信号路径。这些信号路径使用(1)第三裸片415的顶部互连层和第二裸片410的背面之间的直接结合连接,(2)穿过第二裸片的基板的TSV 460,以及(3)第二裸片和第三裸片的互连层之间的通孔和互连层上的互连分段。这些信号路径的数量和较短的长度使I/O电路可以快速地向L3高速缓存进行写入和从L3高速缓存进行读取。
第一裸片405和第二裸片410之间的信号路径使用(1)第一裸片405和第二裸片410的顶部互连层之间的直接结合连接,以及(2)以第一裸片405和第二裸片410的互连层之间的通孔和互连层上的互连分段。第一裸片405和第二裸片410之间的这些信号路径中的大多数也很短(例如通常在10-20μm长度的范围内),因为它们大部分沿垂直方向穿越通过第一和第二裸片的互连层的,其具有相对较短的高度。在一些实施例中,在第一裸片405上的处理核与其相关联的L1-L3高速缓存之间限定了大量的短垂直信号路径。
在一些实施例中,处理器核使用这些快速且丰富的信号路径来执行将大型数据位集合非常快速的写入L1-L3高速缓存存储器和非常快速地从L1-L3高速缓存存储器读取大型数据位集合。然后,处理器核基于这些较大的数据集合执行其操作(例如其指令取指、指令解码、算术逻辑和数据写回操作),这进而使它们可以执行更复杂的指令集合和/或更快地执行更小的指令集合。
图6示出了一些实施例的另一3D处理器600。该处理器600将图2的3D处理器200的特征与图4的3D处理器400的特征相结合。具体地说,像处理器400一样,处理器600将多个处理器核422和424放置在第一裸片605上、将L1-L3高速缓存426、428和430放置在第二裸片610上,以及将I/O电路435放置在在第三裸片615上。然而,像处理器200一样,处理器600也具有一个带有嵌入式存储器622的裸片。该嵌入式存储器被限定在第二和第三裸片610和615之间放置的第四裸片620上。
在图6中,第一裸片605和第二裸片610面对面安装(例如通过直接结合过程,诸如DBI过程),第四裸片620和第二裸片610面对背安装,并且第三裸片615和第四裸片620面对背地安装。为了建立面对背安装,穿过第二裸片和第三裸片的基板限定了TSV 460。TSV通过第二裸片610电连接(直接或通过限定在第二裸片背面的互连分段)连接到直接结合连接,直接结合连接将第二裸片610的背面连接到第四裸片620的正面,同时TSV通过第四裸片620电连接(直接或通过限定在第二裸片背面的互连分段)连接到直接结合连接,直接结合连接将第四裸片620的背面连接至第三裸片615的正面。
为了允许这些TSV更短,在第一和第二裸片面对面结合之后但在将第四裸片620面对背安装到第二裸片610之前,通过减薄过程来将第二裸片的背面减薄。类似地,在将第四和第二裸片620和610面对背安装之后但在将第三裸片615面对背安装至第四裸片620之前,通过减薄过程将第四裸片620的背面减薄。此外,TSV的较短长度允许TSV具有较小的横截面和较小的间距(即,到相邻的TSV的较小中心距),从而改进了它们的密度。
如图4中一样,图6中的L3高速缓存430存储供所有处理核422和424访问的数据。然而,在图6中,L3高速缓存不连接到I/O电路435,而是通过垂直信号路径连接到第四裸片上的嵌入式存储器622。在该设计中,嵌入式存储器622通过垂直信号路径连接到第三裸片615上的I/O电路435。在一些实施例中,第二和第四裸片610和620之间以及第四和第三裸片620和615之间的垂直信号路径由z轴直接结合连接和TSV以及互连层上的互连分段和互连层之间的通孔建立。这些信号路径中的大多数非常短(例如通常在10-20μm的范围内),因为它们大多是垂直的,并且变薄的基板及其关联的互连层的高度也相对较短。
类似于图2的嵌入式存储器255,在一些实施例中,嵌入式存储器622是大存储器(例如大于200MB、500MB、1GB等)。这样,在一些实施例中,嵌入式存储器可以代替当今在采用多核处理器的设备中通常使用的一个或多个外部存储器。嵌入式存储器622的示例包括SRAM、DRAM、MRAM、NAND闪存、NOR闪存、RRAM、PCRAM等。在一些实施例中,在裸片堆叠中的一个裸片或多个裸片上限定了两种或更多种不同类型的嵌入式存储器,裸片堆叠包括其上限定了多核处理器的一个或多个裸片。
嵌入式存储器622通过许多短的垂直信号路径,从I/O电路435接收数据,并将数据提供给I/O电路435。通过这些信号路径,I/O电路435将数据从外部设备和存储器写入嵌入式存储器622,并且从嵌入式存储器622读取数据以用于外部设备和存储器。在一些实施例中,I/O电路435还可以从外部设备和存储器中取回用于L3高速缓存的数据,或者从L3高速缓存中接收用于外部设备和存储器的数据,而无需数据先经过嵌入式存储器622。这些实施例中的一些在L3高速缓冲和I/O电路435之间具有直接的垂直(z轴)总线。在这些或其他实施例中,第二裸片610和/或第四裸片620还包括I/O电路,作为I/O电路435和L3高速缓存430之间的接口,或者作为L3高速缓存430和外部设备/存储器之间的接口。
图7示出了一些实施例的又一个3D处理器700。该处理器700与图6的处理器600完全相同,除了它在第二裸片710上仅具有两层高速缓存L1和L2之外,第二裸片710面对面安装在具有八个处理器核722的第一裸片705上。如图所示,每个L1高速缓存726仅与一个核722重叠。与L1高速缓存726不同,L2高速缓存728在所有核722之间共享并且与每个核722重叠。在一些实施例中,每个核连接至每个L1或L2高速缓存,其通过以下各项重叠:(1)连接裸片705和721的顶部互连层的多个z轴DBI连接,以及(2)将信号从这些DBI连接运送到裸片705和721的其他金属和基板的互连和通孔。在一些实施例中,DBI连接允许高速缓存和核之间的数据总线比在高速缓存和核之间的传统数据总线更宽和更快。
在一些实施例中,L1高速缓存由与用于形成L2高速缓存的存储器相比可以被更快地访问(即,具有更快的读取或写入时间)的存储器形成。在一些实施例中,每个L1高速缓存726仅由一组存储器组成,而在其他实施例中,其由若干组存储器组成。类似地,在一些实施例中,L2高速缓存728仅由一组存储器组成,而在其他实施例中,其由若干组存储器组成。此外,在一些实施例中,L1高速缓存726和/或L2高速缓存728比传统的L1和L2高速缓存更密集,因为它们使用z轴DBI连接来向重叠核722提供和从重叠核722接收信号。在一些实施例中,L1和L2高速缓存726和728比传统的L1和L2高速缓存大得多,因为它们是在另一个裸片上限定的,而不是在其上限定核的裸片上,因此,它们在它们的布局和在芯片上消耗的空间量上面临较小空间限制。
其他实施例仍将其他架构用于3D处理器。例如代替仅使用一个L2高速缓存728,一些实施例使用重叠四个核(例如,四个左核726和四个右核726)或两个核(例如,四对垂直对齐的核722中的一对)的两个或四个L2高速缓存。图8示出了一些实施例的另一3D处理器800。该处理器800与图7的处理器700相同,除了它不具有L2高速缓存728。代替该L2高速缓存,处理器900在裸片810上具有片上网络(NOC)8028,该裸片是通过DBI结合过程面对面地安装到裸片705。
在一些实施例中,NOC 828是核722通过其进行通信的接口。该接口包括一个或多个总线以及相关联的总线电路。在一些实施例中,NOC 828还将每个核通信地连接到与其他核重叠的L1高速缓存。通过此NOC,第一核可以访问由第二核存储在与第二核重叠的L1高速缓存中的数据。而且,通过该NOC,在一些实施例中,第一核可以将数据存储在与第二核重叠的L1高速缓存中。在一些实施例中,L1和L2高速缓存与每个核722重叠,并且NOC 828将核连接到其他核的L2高速缓存,但是不连接到这些核的L1高速缓存。在其他实施例中,NOC 828将核连接到与其他核重叠的L1和L2高速缓存两者以及其他核。
图9示出了一些实施例的又一个3D处理器900。该处理器900与图4的处理器400完全相同,除了它仅在裸片910上具有针对六个CPU(中央处理单元)核922中的每个核的一个L1高速缓存932,和针对两个GPU(图形处理单元)核924中的每一个的一个L1高速缓存934,所述两个GPU(图形处理单元)核924被限定在通过DBI结合过程面对面安装到裸片910的裸片905上。处理器900不使用第2层和第3层高速缓存,因为它对CPU和GPU核使用大型L1高速缓存。L1高速缓存可以比传统的L1高速缓存大,因为它们是在另一个裸片而不是在其上限定核的裸片上限定的,因此在其布局和它们在芯片上消耗的空间量方面所面临的空间限制较小。
在图9中,处理器900具有在面对背安装在裸片910上的第三裸片415上限定的I/O接口。在其他实施例中,处理器900不包括第三裸片415,而仅包括在第一和第二裸片905和910。在这些实施例中的一些中,处理器900的I/O接口被限定在第一和第二裸片905和910中。而且,在其他实施例中,一个L1高速缓存932被跨多个CPU核922和/或多个GPU核924共享。
图10示出了一些实施例在两个不同的堆叠裸片上放置执行连续计算的两个计算电路。计算电路是接收多位值作为输入并基于接收到的输入来计算多位值作为输出的电路。在图10中,一个计算电路1015被限定在第一裸片1005上,而另一个计算电路1020被限定在第二裸片1010上。
第一和第二裸片通过直接结合过程(例如DBI过程)面对面安装。这种安装在两个裸片1005和1010之间限定了许多z轴连接。连同两个裸片中互连层上的互连线以及互连层之间的通孔,z轴连接在两个计算电路1015和1020之间限定了许多垂直信号路径。这些垂直信号路径很短,因为它们大部分沿垂直方向穿越相对短的裸片互连层。由于它们非常短,因此这些垂直信号路径是连接两个计算电路1015和1020的非常快的并行路径。
在图10中,第一计算电路1015接收多位输入值1030,并基于该输入值来计算多位输出值1040。在一些实施例中,多位输入值1030和/或输出值1040是大位值,例如32位、64位、128位、256位、512位、1024位等。通过这两个计算电路中之间的垂直信号路径,第一计算电路1015将其多位输出值1040作为输入值提供给计算电路1020。基于该值,计算电路1020计算另一多位输出值1045。
给定第一计算电路1015和第二计算电路1020之间的大量垂直信号路径,可以在这两个电路1015和1020之间传送大量位,而无需使用串行化和解串行化电路。垂直信号路径的数量和交换数据的大小还允许每个时钟周期执行更多的计算。由于这些垂直信号路径的长度短,两个电路1015和1020可以在一个时钟周期内交换数据。当两个计算电路放置在一个裸片上时,由于两个电路之间的距离和/或拥塞,有时可能需要8个或更多个时钟周期才能将信号从一个电路提供到另一电路。
在一些实施例中,两个裸片1005和1010上的两个重叠的计算电路是多核处理器的不同核。图11示出了在不同裸片上具有重叠处理器核的高性能3D处理器1100的示例。在该示例中,通过直接结合过程(例如DBI过程)面对面地安装两个裸片1105和1110。第一裸片1105包括第一处理器核1112,而第二裸片1110包括第二处理器核1114。
第一裸片1105还包括用于第二裸片1110上的第二核1114的L1高速缓存1116,以及用于两个核1112和1114的L2和L3高速缓存1122和1126。类似地,第二裸片1110也包括用于第一裸片1105上的第一核1112的L1高速缓存1118,以及用于两个核1112和1114的L2和L3高速缓存1124和1128。如图所示,每个核完全重叠其对应的L1高速缓存,并通过大量的垂直信号路径连接到其L1高速缓存,垂直信号路径由裸片1105和1110的顶部两个互连层之间的z轴连接限定。如上所述,这种垂直信号路径也由以下各项限定(1)每个裸片的互连层之间的通孔和/或(3)在每个裸片的互连层上的互连分段。
一个裸片上的每个核还与另一裸片上的一个L2高速缓存和一个L3高速缓存重叠,并位于其自己的裸片上的另一个L2高速缓存和另一个L3高速缓存附近。每个L2和L3高速缓存1122-826可以由每个核1112或1114访问。每个核都通过大量的垂直信号路径访问重叠的L2或L3高速缓存,这些路径部分由裸片1105和1110的顶部两个互连层之间的z轴连接部分限定,以及由以下各项限定:(1)每个裸片的互连层之间的通孔,和/或(3)每个裸片的互连层上的互连分段。
每个核还可以通过信号路径,在其自己的裸片上访问L2或L3高速缓存,信号路径由自己的裸片的互连层之间的通孔以及互连层上的互连分段限定。在一些实施例中,当每个核与其自己的裸片上的L2或L3高速缓存之间需要额外的信号路径时,每个核通过信号路径还连接到这种L2或L3高速缓存,信号路径不仅由其自己裸片上的互连层之间的通孔以及互连层上其自己的裸片的互联分段限定,而且由其他裸片的互连层之间的通孔和互连层上的互连分段限定。
然而,其他实施例不使用穿越其他裸片的互连层的信号路径来将核与自己的裸片上的L2高速缓存或L3高速缓存连接,因为与该核和仅使用核自己的裸片的互连层的高速缓存之间的信号路径相比,这样的信号路径可能具有不同的延迟(即,更大的延迟)。另一方面,给定z轴连接非常短的长度,当信号路径延迟的差异非常小(例如与仅使用核裸片的互连层的信号路径的速度相比),其他实施例将使用通过其他裸片的互连层(例如通过其顶部互连层)限定的信号路径。。
图11所示的3D架构显着增加了每个核1112或1114与其对应的L1、L2和L3高速缓存之间的连接数量(通过垂直信号路径)。随着这种增加,每个核1112或1114取回更大的数据位集合,并利用这样的更大的数据位集合来更快地执行更复杂的操作。在一些实施例中,每个核在其流水线中使用更宽的指令和数据总线,因为它可以从重叠的存储器中取回更宽的指令和数据。在这些或其他实施例中,每个核具有更多并行执行更多操作的流水线,因为该核可以从重叠存储器中取回更多指令和数据位。
在一些实施例中,一个裸片上的每个核仅使用另一裸片上的L2高速缓存或L3高速缓存(即,仅使用与核垂直重叠的L2或L3高速缓存),以便利用在它和重叠的L2高速缓存之间的大量的垂直信号路径。在这些实施例中的一些实施例中,每个核存储每个数据的冗余副本,将其存储在核自己的裸片上限定的对应高速缓存(例如另一个L2高速缓存)中自己的重叠高速缓存(例如自己的重叠L2高速缓存)中,使得数据也可用于另一核。在这些实施例中的一些实施例中,每个核通过信号路径到达其自己的裸片上的高速缓存,该信号路径不仅通过核的裸片上的互连线和通孔限定,而且还通过另一个裸片的互连线和通孔限定。
图12示出了高性能3D处理器1200的另一示例,该高性能3D处理器1200在一个裸片上具有处理器核,其与另一裸片上的高速缓存重叠。在该示例中,两个裸片1205和1210通过直接结合工艺(例如DBI工艺)面对面地安装。第一裸片1205包括第一处理器核1212,而第二裸片1210包括第二处理器核1214。第一裸片1205包括用于在第二裸片1210上限定的第二处理器核1214的L1高速缓存1216,而第二裸片1210包括用于第一裸片1205上限定的第一处理器核1212的L1高速缓存1218。
在此示例中,一个裸片上每个L1高速缓存的横截面与另一个裸片上对应核的横截面完全重叠。这确保了在每个核及其对应的L1高速缓存的重叠区域中限定z轴连接(例如DBI连接)的最大区域。这些z轴连接非常短,因此可用于在每个核与其对应的L1高速缓存之间限定非常快的总线。同样,当使用高密度z轴结合时(例如当使用DBI时),该z轴总线可能很宽,并且可以完全限定在核及其L1高速缓存的xy横截面内,如下面所描述的。通过完全包含在该横截面中,z轴总线不会消耗核及其L1高速缓存周围的路由资源。同样,该总线的速度和宽度允许该总线具有很高的吞吐带宽,从而完美地补充了L1高速缓存的高速度。
如图12所示,3D处理器1200为在其上限定了核的同一裸片上的每个核限定了L2高速缓存。在某些实施例中,每个核可以通过z轴连接访问另一个核的L2高速缓存,z轴连接是通过两个IC裸片的面对面结合建立的。而且,由于L1高速缓存的大小,在一些实施例中,3D处理器1200不使用L3高速缓存。
在一些实施例中,多处理器核的处理器核的不同组件被放置在不同的裸片上。图13示出了3D处理器1300的示例,其在两个面对面安装的裸片1305和1310上具有处理器核的不同部分。在该示例中,第一裸片1305包括多个流水线1390,每个流水线具有指令取指(IF)单元1312、指令译码单元1314、执行单元1316和回写单元1318。第二裸片包括指令存储器1322以及数据寄存器和存储器1324。
如图所示,第二裸片上的指令存储器1322与第一裸片1305上的IF单元1312重叠。而且,第二裸片上的数据寄存器和存储器1324与执行单元1316和回写单元重叠。通过裸片1305和1310的顶部两个互连层之间的z轴连接以及通过以下各项,许多垂直信号路径在重叠的核组件之间被限定:(1)每个裸片1305或1310的互连层之间的通孔,和/或(2)每个裸片的互连层上的互连分段。
通过垂直信号路径,每个IF单元1312从指令存储器中取回指令,并将取回到的指令提供给它的指令译码单元1314。该译码单元对它接收的每个指令进行译码,并将译码后的指令提供给其执行单元以执行。通过垂直信号路径,每个执行单元从数据寄存器和存储器1324接收执行接收到的指令所需的操作数,并将其执行结果提供给其回写单元1318。通过垂直信号路径,每个回写单元1318将执行结果存储在数据寄存器和存储器1324中。其他实施例使用其他架构在两个不同的裸片之间划分处理器核。例如一些实施例将指令译码和执行单元1314和1316放置在与指令取指和回写单元1312和1318不同的层上。还有其他实施例使用其他布置来在不同裸片之间划分处理器核。这些或其他实施例将处理器核的不同ALU或相同ALU的不同部分放置在不同的垂直堆叠裸片上(例如在通过DBI结合工艺来面对面安装的两个裸片上)。
如上所述,使用DBI连接来连接垂直堆叠的两个裸片上的重叠连接区域是有利的,因为DBI允许比其他z轴连接方案更大的连接密度。图14给出了说明这一点的示例。该图示出了第一裸片1405上的计算电路1415,其与第二裸片1410上的存储器电路1420重叠,第二裸片1410垂直堆叠在第一裸片1405上。该计算电路可以是任意类型的计算电路(例如处理器核、处理器流水线计算单元、神经网络神经元、逻辑门、加法器、乘法器等)和存储器电路可以是任意类型的存储器电路(例如SRAM、DRAM、非易失性存储器、高速缓存等)。
在该示例中,两个电路1415和1420在它们各自的裸片1405和1410上占据250×250微米的正方形区域(仅在图14中示出了其基板表面)。而且,在该示例中,在这些电路之间限定了100位z轴总线1425,其中在该示例中,术语总线是指在这两个电路1415和1420之间交换的数据和控制信号(在其他示例中,总线可能只包括数据信号)。图14示出了当使用TSV来限定该z轴总线1425时,该总线将在每个裸片上消耗区域1435,该区域至少是该裸片上任一电路的尺寸的2.5倍。这是因为TSV具有40微米的间距。对于TSV连接,两个裸片1405和1410将被面对背安装,其中TSV穿过两个裸片之一的基板。
另一方面,当通过安装将两个裸片面对面地结合在一起,并且使用DBI连接来限定100位z轴总线1425时,DBI总线的横截面1430可以被包含在两个电路1415和1420在各自的裸片上的覆盖区(footprint)(即,基板区域)内。具体来说,假设DBI连接具有2微米的间距,则100个DBI连接可以适合在小至20×20微米见方,因为100个连接可以限定为10×10的阵列,每个连接具有与相邻连接的2微米的最小中心距。通过被包含在电路1415和1420的覆盖区内,DBI连接通常将不消耗裸片1405和1410上的已被电路消耗的部分之外的任意宝贵的路由空间。在一些实施例中,DBI连接可以具有在小于1微米(例如0.2或0.5微米)至5微米的范围内的间距。
随着总线1425中位数的增加,TSV连接消耗的空间量和DBI连接消耗的空间量之间的差异变得更加明显。例如当在两个电路1415和1420之间交换3600位时,60x60的TSV阵列将需要最小2400x2400微米的区域(以40微米的DBI间距),而60x60-60DBI阵列将需要最小的120x120区域(以2微米DBI间距)。换句话说,TSV的覆盖区至少是DBI连接的覆盖区的400倍。当在某些计算环境(例如机器训练的神经网络)中执行计算(例如点积计算)时,在存储器电路和计算电路之间交换大量的位是很常见的。此外,DBI连接的密度允许重叠的计算电路和存储器电路之间具有非常大的带宽(例如在高GB或TB级)。
DBI连接的密度在连接两个垂直堆叠的裸片上的重叠电路区域时也是有利的。图15给出了说明这一点的示例。该图示出了在两个垂直堆叠的裸片1505和1510上的两个重叠的计算电路1515和1520。每个电路在其对应裸片的基板上占据250×250微米的正方形,并且可以是任意类型的计算电路(例如处理器核、处理器流水线计算单元、神经网络神经元、逻辑门、加法器、乘法器等)。
类似于图14中的示例,图15中的示例显示当使用DBI连接时(即,两个裸片1505和1510通过DBI面对面安装时),并且DBI连接的间距为2微米,因此,两个电路1515和1520之间的100位总线1525可以被包含在20×20微米平方的区域1530中,该区域可以全部包含在电路的覆盖区中。另一方面,当使用TSV连接时(例如当两个裸片面对背被安装并使用TSV被连接时),100位总线1525将至少消耗400x400微米的正方形区域1535,它大于计算电路1515和1520的覆盖区。这个较大的覆盖区将消耗额外的路由空间,并且不如DBI连接可以实现的较小覆盖区那样有益。
高密度DBI连接还可以用来减小由众多计算电路及其相关存储器形成的电路的大小。DBI连接还可以为该较小的电路提供计算电路及其相关联存储器之间非常高的带宽。图16给出了说明这些益处的示例。具体地,其示出了通过将用于这些电路的存储器1620移动到第二裸片1610来减小第一裸片上的计算电路1615的阵列1600的大小,第二裸片1610通过DBI结合工艺与第一裸片1605面对面地安装。在该示例中,示出了6乘10的计算电路阵列,但是在其他示例中,该阵列可以具有更多数量的电路(例如多于100个电路、多于1000个电路)。而且,在其他实施例中,可以以除阵列之外的布置来组织计算电路及其相关联的存储器电路。
计算电路1615和存储器电路1620可以是任意类型的计算处理电路和存储器电路。例如在一些实施例中,电路阵列1600是FPGA的一部分,该FPGA具有逻辑电路阵列(例如逻辑门和/或查找表,LUT)和存储器电路阵列,其中存储器阵列中的每个存储器对应于电路阵列中的一个逻辑电路。在其他实施例中,计算电路1615是神经网络的神经元或神经元的乘法器-累加器(MAC)电路。在这些实施例中,存储器电路1620存储神经元或MAC电路的权重和/或输入/输出数据。在其他实施例中,计算电路1615是GPU的处理电路,并且存储器电路存储来自这些处理电路的输入/输出数据。
如图17所示,在当今大多数单裸片实现中,存储器阵列通常与电路阵列交错。在图17的示例中,两个交错阵列的总长度为X微米。为了在阵列的同一列中连接两个电路,布线必须至少为X微米。但是,如图16所示,通过将存储器电路移动到第二裸片1610上,可以以最小布线长度X/2微米连接同一列中的两个电路。
此外,每个存储器电路可以具有较高的存储器单元密度,因为较少的空间被消耗用于限定用于向电路输出信号的共享***通道,因为这些输出信号现在可以在z轴上穿越。而且,通过将存储器电路移动到第二IC裸片1610上,更多的路由空间在第一裸片1605上的计算阵列1600中的计算电路之间以及第二裸片1610上的存储器阵列1602中的存储器电路之间的打开通道1650(在基板和金属屋之间)中可用。该额外的路由空间使得更容易连接计算电路的输出。在许多情况下,这种额外的路由空间使这些互连具有较短的导线长度。在一些实施例中,这还使得计算电路更容易从其他计算电路的存储器电路读取或向其他计算电路的存储器电路写入数据。在一些实施例中,DBI连接还用于通过第二裸片1610的金属层路由信号,以便限定用于连接在第一裸片1605上限定的计算电路1615的信号路径(即,路由)。
更高密度的DBI连接还允许在对应的存储器和计算电路之间限定更多数量的z轴连接,这些电路完全被包含在一对对应的存储器和计算电路的占覆盖区内(即,被其占用的基板区域内)。如前所述,这些DBI连接将一个晶片的顶部互连层与另一晶片的顶部互连层相连,而一对存储器和计算电路之间的其余连接则通过这些晶片上的互连和通孔来建立。同样,当计算电路需要到其对应的存储器电路的宽总线(例如128位总线、256位总线、512位总线、1000位总线、4000位总线等)时,这种方法将是非常有益的。一个这样的示例是当计算电路阵列是需要访问来自其对应存储器电路的大量数据的神经元阵列时。
图18和19示出了两个示例,这些示例示出了如何使用高密度DBI连接来减小由电路的几个连续级形成的计算电路的布置的大小,电路每个级执行产生结果的计算,结果被传递到电路的另一级,直到到达电路的最后级。在一些实施例中,这种计算电路的布置可以是加法器树,其中树中的每个计算电路是加法器。在其他实施例中,布置中的电路是乘法累加(MAC)电路,诸如在神经网络中用于计算点积的那些。
图18和19中的示例均示出了电路1800的一种实现,该电路基于八个输入值执行计算(例如加法或乘法)。在一些实施例中,每个输入值是多位值(例如三十二位值)。电路1800具有三级,第一级1802具有四个计算电路A-D,第二级1804具有两个计算电路E和F,并且第三级1806具有计算电路G。第一级1802中的每个计算电路执行基于两个输入值的运算。在第二级1804中,计算电路E基于计算电路A和B的输出执行计算,而计算电路F基于计算电路C和D的输出执行计算。最后,第三级1806中的计算电路Gn基于计算电路E和F的输出执行计算。
图18示出了在一个IC裸片1805上的电路1800的现有技术实现。在该实现中,计算电路A-G以以下顺序排成一行:A、E、B、G、C、F和D。如图所示,第一级计算电路AD(1)从在平面y轴方向上方和下方的电路(例如存储器电路或其他电路)接收其输入,并且(2)将其结果提供给计算电路E或F。计算电路E和F将其计算结果提供给该行中间的计算电路G。来自计算电路E和F的信号路径相对较长,并消耗附近的路由资源。随着电路布置(例如加法器或乘法树)的尺寸增加,互连的长度和拥塞变得更糟。例如为了实现将100个或1000个输入值相加的加法器树,在多个级中需要多个加法器,这很快导致需要长的大型数据总线,以在加法器的后续级之间传输计算结果。
图19示出了电路1800的新颖实现,其大大减小了将计算电路E和F的输出提供给计算电路G所需的连接的大小。如图所示,该实现在第一裸片1910上定义了计算电路A、B、E和G,同时在第二裸片1905上限定了计算电路C、D和F,第二裸片1905通过DBI结合工艺来面对面安装在第一裸片1905上。计算电路A、B、E和G被限定在第一裸片1910上的区域中,该区域与第二裸片1905上的其中限定了计算电路C、D和F的区域重叠。
在该实现中,计算电路G在平面y方向上位于计算电路E的下方。在此位置,计算电路G通过限定在芯片1910上的短数据总线来接收计算电路E的输出,同时通过以下各项来接收计算电路F的输出:(1)连接裸片1905和1910的顶部互连层上重叠位置1950和1952的z轴DBI连接,以及(2)这些裸片上的互连和过孔,其将电路F的输出带到电路G的输入。在该实现中,将输入提供给计算电路G的互连非常短。计算电路E和G彼此相邻,因此信号路径仅包括电路E和G之间较短的互连和通孔的长度。此外,将计算电路F的输出提供给计算电路G所需的互连、通孔和z轴DBI连接的长度非常小。
因此,通过分解两个裸片1905和1910之间的电路1800的布置,可以将相继的计算电路彼此靠近放置(因为现在可以使用附加尺寸,即z轴,可用于将电路彼此靠近放置),其进而允许在连续的级中在计算电路之间限定较短的互连。同样,DBI连接的高密度使得在用于限定连续计算电路的区域的横截面内,更容易限定更多数量的z轴连接(其为针对较大的z轴数据总线所需要的)。
计算电路布置可以具有三个以上的级。例如大加法器或MAC树可以具有更多的级(例如8个级、10个级、12个级等)。为了实现这样的电路布置,一些实施例(1)将计算电路分成两个或更多个组,然后其在两个或更多个垂直堆叠的裸片上被限定,并且(2)在这些裸片上布置不同的电路组以最小化连接在连续级中的计算电路所需的互连的长度。
图20呈现了一个示例来说明这一点。该示例示出了对十六个多位输入值执行计算(例如加法或乘法)的计算电路2000的一种实现。该电路包括图18和19的计算电路1800的两个版本2012和2014。第二版本中的计算电路被标记为电路H-N。这些版本中的每一个都有三个级。如图所示,这些两个版本的输出被提供给第四级计算电路O,其基于这些输出来执行计算。
为了实现四级电路2000,两个版本2012和2014具有倒置的布局。这是因为计算电路A、B和E(在第一版本2012的第一四个输入操作)被限定在IC裸片2010上,而计算电路H、I和L(在第二版本的第一四个输入上操作)被限定在IC裸片2005上。类似地,计算电路C、D和F(在第一版本2012的第二四个输入上操作)被限定在IC裸片2005上,而计算电路J、K和M(在第二版本的第二四个输入上运行)被限定在IC裸片2010上。此外,在IC裸片2010上限定了第一版本的第三级电路G,而第三级电路N被限定在IC裸片2005上。在IC裸片2010上也限定了第四级聚合电路O。最后,第二版本2014在x轴方向上位于第一版本的右侧。
第二版本2014相对于第一版本的整体倒置布置确保了将第三级计算电路G和N的输出提供给第四级计算电路O所需的互连的长度很短。这是因为,像计算电路E、F和G一样,计算电路L、M和N被放置在重叠的位置附近和/或重叠的位置,这允许通过短DBI连接来连接这三个电路L、M和N,并且垂直信号路径大多被由小型平面互连以及几个通孔连接促进。这种布置还将计算电路G、N和O放置在重叠的位置附近和/或重叠的位置,这又使它们可以通过短的DBI连接进行连接,并且垂直信号路径大多被由小型平面互连以及几个通孔连接促进。
图21示出了使用3D IC 2100(类似于3D IC 210、200、400、600-900中的任意一个)的设备2102。在该示例中,3D IC 2100由两个面对面安装的IC裸片2105和2110形成,它们之间具有许多直接结合连接2115。在其他示例中,3D IC 2100包括三个或更多垂直堆叠的IC裸片。如图所示,3D IC裸片2100包括将该IC的裸片封装在安全外壳2125中的盖2150。在裸片2110的背面上,一个或多个TSV和/或互连层2106被限定为将3D IC连接到球栅(ballgrid)阵列2120(例如微凸点阵列),其允许这些被安装到设备2102的印刷电路板2130上。设备2102包括其他组件(未示出)。在一些实施例中,此类组件的示例包括一个或多个存储器存储装置(例如半导体或磁盘存储器)、输入/输出接口电路、一个或多个处理器等。
在一些实施例中,第一裸片2105和第二裸片2110是图1-2、4、6-16和19-20中的任意一个中示出的第一裸片和第二裸片。在这些实施例的一些中,第二裸片2110通过球栅阵列接收数据信号,并且通过互连层上的互连线和互连层之间的通孔将接收到的信号路由到第一和第二裸片上的I/O电路。当此类数据信号需要穿越到第一裸片时,这些信号穿越面对面粘合层的z轴连接。
图22提供了3D芯片2200的另一示例,其由两个面对面安装的IC裸片2205和2210形成,所述IC裸片2205和2210安装在球栅阵列2240上。在该示例中,第一裸片2205和第二裸片2210是通过直接绑定连接(例如DBI连接)被面对面连接的。如图所示,通过第二裸片2210限定了几个TSV2222。这些TSV电连接到第二裸片2210的背面上的互连/焊盘,在其上限定了多层互连。
在一些实施例中,第二裸片2210的背面上的互连创建用于限定用于3D芯片2200的一个或多个***级电路(即,用于第一裸片2205和第二裸片2210的电路)的信号路径。***级电路的示例是功率电路、时钟电路、数据I/O信号、测试电路等。在一些实施例中,在第二裸片2210的前面上限定了作为***级电路一部分的电路组件(例如功率电路等)。电路组件可以包括有源组件(例如晶体管、二极管等)或无源/模拟组件(例如电阻器、电容器(例如去耦电容器)、电感器、滤波器、等等
在一些实施例中,用于互连这些电路组件以形成***级电路的一些或全部布线被限定在第二裸片2210的背面上的互连层上。使用这些背面互连层来实现3D芯片2200的***级电路释放第二裸片2210正面上的一个或多个互连层,以与第一裸片2205共享其他类型的互连线。在一些实施例中,背面互连层还用于限定某些电路组件(例如去耦电容器等)。如以下进一步描述的,在一些实施例中,第二裸片2210的背面也可以连接至第三裸片的正面或背面。
在一些实施例中,第二裸片2210的背面上的一个或多个层也用于将该裸片安装到球栅阵列2240,这允许3D芯片2100安装在印刷电路板上。在一些实施例中,***电路通过连接到第三裸片的背面的球栅阵列2240接收***级信号(例如功率信号、时钟信号、数据I/O信号、测试信号等)中的一些或全部。
图23示出了一些实施例用来生成图22的3D芯片2200的制造过程2300。该图将参考图24-27来解释,图24-27示出了处于该过程的不同阶段的两个晶片2405和2410。一旦被切割,两个晶片产生两个堆叠的裸片,诸如裸片2205和2210。即使图23的过程2300在晶片已经被安装和处理之后将晶片切割成裸片,其他实施例的制造过程仍在至少一个晶片的不同阶段处执行切割操作。具体地,一些实施例将第一晶片2405切割成几个第一裸片,在将第二晶片切割成单独的第二裸片之前,每个第一裸片都安装在第二晶片上。
如图所示,过程2300通过在第一晶片2405和第二晶片2410的基板上限定组件(例如晶体管),并且在每个基板上方限定多个互连层以限定在每个裸片上形成微电路(例如门)的互连开始(例如在2305开始)。为了在每个晶片上限定这些组件和互连,在一些实施例中,过程2300为每个晶片执行多个IC制造操作(例如膜沉积、图案化、掺杂等)。图24示出了在几次制造操作之后的第一和第二晶片2405和2410,这些制造操作已经在这些晶片上限定了部件和互连。如图所示,第二晶片2410的制造操作限定了若干TSV 2412,它们穿越第二晶片2410的互连层并穿透该晶片基板2416的一部分。
在对第一和第二晶片进行处理以限定它们的组件和互连之后,过程2300通过诸如DBI过程的直接结合过程来面对面地安装(在2310)第一和第二晶片2205和2210。图25示出了在第一晶片2405和第二晶片2410通过DBI过程被面对面安装之后的第一晶片2405和第二晶片2410。如图所示,该DBI过程在第一和第二晶片2405和2410之间创建多个直接结合连接2426。
接下来,在2315,过程2300在第二晶片2410的背面上执行减薄操作,以去除该晶片的基板层的一部分。如图26所示,该减薄操作在第二晶片2410的背面上暴露TSV2412。在减薄操作之后,过程2300在第二晶片的背面上限定(在2320)一个或多个互连层2430。图27示出了在第二晶片的背面上已经限定了互连层之后的第一晶片2405和第二晶片2410。
这些互连层2430包括允许3D芯片堆叠以电连接至球栅阵列的一层或多层。在一些实施例中,第三晶片的背面上的互连线/焊盘还产生一个或多个重新分布层(RDL层),其允许信号重新分布到背面上的不同位置。在一些实施例中,第二裸片的背面上的互连层2430还为第一和第二裸片的电路创建用于限定一个或多个***级电路(例如功率电路、时钟电路、数据I/O信号、测试电路等)的信号路径。在一些实施例中,***级电路由在第二裸片的正面上限定的电路组件(例如晶体管等)限定。在一些实施例中,过程2300没有在第二晶片的背面上限定互连层以创建用于***级电路的信号路径,因为其仅使用第一和第二裸片的两个面之间的第一和第二裸片的互连层来建立***级信号路径。
在第二晶片2410的背面上限定互连层之后,该过程将堆叠的晶片切割(在2325处)成单独的芯片堆叠,其中每个芯片堆叠包括两个堆叠的IC裸片2205和2210。然后该过程将每个芯片堆叠安装(在2330处)在球栅阵列上并将芯片堆叠封装在一个芯片外壳内(例如通过使用芯片盒)。然后该过程结束。
在一些实施例中,三个或更多个IC裸片被堆叠以形成3D芯片。图28示出了具有三个堆叠的IC裸片2805、2810和2815的3D芯片2800的示例。在该示例中,第一裸片2805和第二裸片2810通过直接结合连接(例如DBI连接)被面对面连接,而第三和第二裸片2815和2810被面对背地连接(例如第三裸片2815的面被安装在第二裸片2810的背上)。在一些实施例中,第一和第二裸片2805和2810是在图1-2、图4、图6-16和图19-20中的任意一个中示出的第一和第二裸片。
在图28中,通过第二裸片2810限定了几个TSV2822。这些TSV电连接到第二裸片2810的背面上的互连/焊盘,该互连/焊盘连接到第三裸片2815的顶部互连层上的互连/焊盘。第三裸片2815还具有多个TSV,其将该裸片的正面上的信号连接至该裸片的背面上的互连/焊盘。通过互连/焊盘,第三裸片的背面连接到球栅阵列2840,该球栅阵列2840允许3D芯片2800安装在印刷电路板上。
在一些实施例中,第三裸片2815包括***电路,诸如功率电路、时钟电路、数据I/O电路、测试电路等。在一些实施例中,第三裸片2815的***电路将***级信号(例如功率信号,时钟信号,数据I/O信号,测试信号等)提供给第一和第二裸片2805和2810的电路。在某些实施例中,***电路通过连接到第三裸片的背面的球栅阵列2840接收***级信号中的一些或全部。
图29示出了具有两个以上堆叠的IC裸片的3D芯片2900的另一示例。在此示例中,3D芯片2900具有四个IC裸片2905、2910、2915和2920。在此示例中,第一裸片2905和第二裸片2910通过直接结合连接(例如DBI连接)被面对面连接,而第三和第二裸片2915和2910被面对背连接(例如第三裸片2915的面安装在第二裸片2910的背上),而第四和第三裸片2920和2915被面对背地连接(例如第四裸片2920的面安装在第三裸片2915的背)。在一些实施例中,第一和第二裸片2905和2910是图1-2、图4、图6-16和图19-20中的任意一个中示出的第一和第二裸片。
在图29中,通过第二、第三和第四裸片2910、2915和2920限定了多个TSV2922。这些TSV电连接到这些裸片背面的互连/焊盘,这些互连/焊盘连接至下面的裸片的顶部互连层上或下面的互连层上互连和焊盘。通过互连/焊盘和TSV,从球栅阵列2940接收来自芯片外部的信号。
其他实施例使用其他3D芯片堆叠架构。例如代替图29中的面对背地安装第四和第三裸片2920和2915,另一实施例的3D芯片堆叠具有面对面安装的这两个裸片,以及背对背安装的第二和第三裸片2910和2915。这种布置将使第三和第四裸片2915和2920在它们的前侧上共享更紧密布置的互连层集合。
尽管已经参考许多具体细节描述了本发明,但是本领域的普通技术人员将认识到,在不脱离本发明的精神的情况下,可以以其他具体形式来实施本发明。例如在图1-2、4、6-16和19-20所示的示例中,第一IC裸片被示为与第二IC裸片面对面安装。在其他实施例中,第一IC裸片与无源中介层面对面安装,该无源中介层将裸片电连接到3D芯片外部的电路,或电连接到与面对面安装或面对背安装在中介层上的其他裸片。一些实施例将无源中介层放置在两个裸片的两个面之间。一些实施例使用中介层以允许较小的裸片连接到较大的裸片。
而且,已经参考具有垂直对准的IC裸片的几个3D结构描述了一些实施例的3D电路和IC。然而,其他实施例以无数其他3D结构来实现。例如在一些实施例中,利用放置在较大裸片或晶片上的多个较小裸片形成3D电路。图30示出了一个这样的示例。具体地,其示出了通过将三个较小的裸片3010a-c面对面地安装在较大的裸片3005上而形成的3D芯片3000。通过使该芯片的一侧被盖3020封装,另一侧安装在微凸点阵列3025上,来使所有四个裸片被容纳在一个芯片3000中,其中微凸点阵列3025连接到设备1935的板3030。一些实施例以3D结构实现,该3D结构是通过垂直堆叠两组垂直堆叠的多裸片结构而形成的。

Claims (45)

1.一种三维(3D)电路,包括:
第一集成电路(IC)裸片,包括存储器;
第二IC裸片,通过结合层与所述第一IC裸片堆叠,所述结合层结合所述第一IC裸片和所述第二IC裸片,所述第二IC裸片包括至少部分地与所述存储器重叠的计算电路;以及
多个连接,穿过所述结合层以连接所述存储器和所述计算电路的重叠部分中的节点,所述连接在所述计算电路和所述存储器之间运送信号,所述连接中的至少两个连接具有小于5微米的中心距。
2.根据权利要求1所述的3D电路,其中所述两个连接的所述中心距小于3微米。
3.根据权利要求1所述的3D电路,其中所述两个连接的所述中心距小于0.5微米。
4.根据权利要求1所述的3D电路,其中
所述第一裸片和所述第二裸片通过直接结合工艺来被面对面安装,以及
连接子集中的每个连接均短于5微米。
5.根据权利要求4所述的3D电路,其中所述连接子集中的每个连接均短于3微米。
6.根据权利要求1所述的3D电路,其中在与所述第二IC裸片的第二区域重叠的所述第一IC裸片的至少第一区域中,穿过所述结合层的所述连接的密度为至少1,000个连接/mm2,以允许大量信号在所述第一IC裸片和第二IC裸片的所述第一区域和第二区域之间穿越。
7.根据权利要求1所述的3D电路,其中在与所述第二IC裸片的第二区域重叠的所述第一IC裸片的至少第一区域中,穿过所述结合层的所述连接的密度为至少10,000个连接/mm2,以允许大量信号在所述第一IC裸片和第二IC裸片的所述第一区域和第二区域之间穿越。
8.根据权利要求1所述的3D电路,其中在与所述第二IC裸片的第二区域重叠的所述第一IC裸片的至少第一区域中,穿过所述结合层的所述连接的密度为至少100,000个连接/mm2,以允许大量信号在所述第一IC裸片和第二IC裸片的所述第一区域和第二区域之间穿越。
9.根据权利要求1所述的3D电路,其中在与所述第二IC裸片的第二区域重叠的所述第一IC裸片的至少第一区域中,穿过所述结合层的所述连接的密度为至少1,000,000个连接/mm2,以允许大量信号在所述第一IC裸片和第二IC裸片的所述第一区域和第二区域之间穿越。
10.根据权利要求1所述的3D电路,其中所述存储器是SRAM、DRAM、TRAM、MRAM、NAND闪存、NOR闪存、RRAM和PCRAM之一。
11.根据权利要求1所述的3D电路,其中
所述计算电路是第一计算电路,
所述第一IC裸片还包括与所述第一计算电路部分重叠的第二计算电路,以及
所述多个连接包括穿过所述结合层的连接集合,以连接所述第一计算电路和所述第二计算电路的重叠部分中的节点,所述连接在第一计算电路和第二计算电路之间运送信号。
12.根据权利要求11所述的3D电路,其中
所述存储器是第一存储器,并且
所述第二裸片包括与所述第二计算电路至少部分重叠的第二存储器,并且多个连接穿过所述结合层以允许信号在所述第二计算电路和所述第二存储器之间穿越。
13.根据权利要求1所述的3D电路,其中
所述计算电路为第一计算电路,所述存储器为第一存储器,并且所述多个连接为第一多个连接,
所述第一IC裸片还包括第二计算电路,并且所述第二IC裸片还包括第二存储器,所述第二存储器至少部分地与所述第二计算电路重叠,
所述3D电路包括第二多个连接,所述第二多个连接穿过所述结合层以连接所述第二存储器和所述第二计算电路的重叠部分中的节点以在所述第二计算电路和所述第二存储器之间运送信号,所述第二多个连接中的至少两个连接具有小于5微米的中心距。
14.根据权利要求1所述的3D电路,其中
所述存储器是第一存储器,并且
所述第一裸片还包括第二存储器,所述第二存储器与计算电路至少部分地重叠,并且通过穿过结合表面的多个连接来连接到所述计算电路,以允许信号在所述计算电路和所述第二存储器之间穿越。
15.根据权利要求14所述的3D电路,其中所述第一存储器和第二存储器是不同类型的存储器。
16.根据权利要求14所述的3D电路,其中所述第一存储器和第二存储器是不同级别的高速缓存存储器,并且所述计算电路包括多核处理器的至少一个核。
17.根据权利要求14所述的3D电路,其中所述第一存储器包括多核处理器的高速缓存存储器,所述第二存储器包括所述多核处理器的多个寄存器,并且所述计算电路包括所述多核处理器的至少一个核。
18.根据权利要求1所述的3D电路,其中
所述结合层为第一结合层,
所述3D电路还包括第三IC裸片,所述第三IC裸片包括输入/输出接口,
所述第三IC裸片通过第二结合层结合至所述第一IC裸片,
多个连接穿过所述第二结合层,以允许信号在所述输入/输出接口和所述存储器之间穿越。
19.根据权利要求1所述的3D电路,其中
所述结合层为第一结合层,并且所述存储器为第一存储器,
所述3D电路还包括通过第二结合层结合到所述第二IC裸片的第三IC裸片,
所述第三IC裸片包括至少部分地与所述计算电路重叠的第二存储器,
多个连接穿过所述第二结合层以允许信号在所述第二存储器和所述计算电路之间穿越。
20.根据权利要求1所述的3D电路,其中
存储器是第一存储器,以及
所述第二裸片包括连接到所述计算电路的第二存储器,所述第二存储器是与所述第一存储器不同类型的存储器。
21.根据权利要求1所述的3D电路,其中
所述第一IC裸片包括多个存储器电路的第一布置,并且所述第二IC裸片包括多个计算电路的第二布置,以及
所述第一布置中的每个存储器电路与所述第二布置中的至少一个计算电路重叠,并且通过多个连接而连接到所述至少一个计算电路,所述多个连接穿过所述结合层,并且具有到至少一个相邻连接的、小于5微米的中心距。
22.根据权利要求21所述的3D电路,其中所述第一布置和第二布置是存储器电路和计算电路的第一重叠阵列和第二重叠阵列。
23.根据权利要求21所述的3D电路,其中所述计算电路是机器训练的神经网络的神经元,每个神经元包括用于执行点积计算的乘法累加电路,并且至少一个存储器电路集合中的每个存储器电路存储所述神经元对其执行计算的数据。
24.根据权利要求21所述的3D电路,其中所述计算电路是两个乘法累加(MAC)电路,并且至少一个存储器电路集合中的每个存储器电路存储所述MAC电路对其执行计算的数据。
25.一种三维(3D)电路,包括:
第一集成电路裸片,包括第一计算电路;
第二IC裸片通过结合层与所述第一IC裸片堆叠,所述结合层结合所述第一IC裸片和所述第二IC裸片,所述第二IC裸片包括第二计算电路,所述第二计算电路至少部分地与所述第一计算电路重叠;
第一多个连接穿过所述结合层以将由所述第一计算电路所计算的数据运送到所述第二计算电路,以供所述第二计算电路用于执行计算,所述连接中的至少两个连接具有小于5微米的中心距。
26.根据权利要求25所述的3D电路,其中至少一个连接子集连接所述第一计算电路和所述第二计算电路的重叠部分中的节点。
27.根据权利要求25所述的3D电路,其中所述两个连接的所述中心距小于3微米。
28.根据权利要求25所述的3D电路,其中所述两个连接的所述中心距小于0.5微米。
29.根据权利要求25所述的3D电路,其中
所述第一裸片和所述第二裸片通过直接结合工艺来被面对面安装,以及
连接子集中的每个连接均短于5微米。
30.根据权利要求29所述的3D电路,其中所述连接子集中的每个连接均短于3微米。
31.根据权利要求25所述的3D电路,其中在与所述第二IC裸片的第二区域重叠的所述第一IC裸片的至少第一区域中,穿过所述结合层的所述连接的密度为至少1,000个连接/mm2,以允许大量信号在所述第一IC裸片和所述第二IC裸片的所述第一区域和所述第二区域之间穿越。
32.根据权利要求25所述的3D电路,其中在与所述第二IC裸片的第二区域重叠的所述第一IC裸片的至少第一区域中,穿过所述结合层的所述连接的密度为至少10,000个连接/mm2,以允许大量信号在所述第一IC裸片和所述第二IC裸片的所述第一区域和所述第二区域之间穿越。
33.根据权利要求25所述的3D电路,其中在与所述第二IC裸片的第二区域重叠的所述第一IC裸片的至少第一区域中,穿过所述结合层的所述连接的密度为至少100,000连接/mm2,以允许大量信号在所述第一IC裸片和所述第二IC裸片的所述第一区域和所述第二区域之间穿越。
34.根据权利要求25所述的3D电路,其中在与所述第二IC裸片的第二区域重叠的所述第一IC裸片的至少第一区域中,穿过所述结合层的所述连接的密度为至少1,000,000个连接/mm2,以允许大量信号在所述第一IC裸片和所述第二IC裸片的所述第一区域和所述第二区域之间穿越。
35.根据权利要求25所述的3D电路,其中从所述第一计算通过所述第一多个连接提供给所述第二计算电路的所述数据不穿越串行化和解串行化电路。
36.根据权利要求25所述的3D电路,其中所述多个连接允许所述数据在一个时钟周期内从一个裸片传递到另一个裸片。
37.根据权利要求25所述的3D电路,其中通过连接传递的每个数据信号在少于用于操作所述第一计算电路或所述第二计算电路的8个时钟周期内从所述第一计算电路的一个电路节点穿越到所述第二计算电路的另一电路节点。
38.根据权利要求25所述的3D电路,其中通过连接传递的每个数据信号在用于操作所述第一计算电路或所述第二计算电路的1个时钟周期或2个时钟周期内从所述第一计算电路的一个电路节点穿越到所述第二计算电路的另一电路节点。
39.根据权利要求25所述的3D电路,其中所述第一计算电路和所述第二计算电路是机器训练的网络的两个处理节点。
40.根据权利要求25所述的3D电路,其中所述第一计算电路和第二计算电路是机器训练的神经网络的两个神经元,每个神经元包括用于执行点积计算的乘法累加电路。
41.根据权利要求25所述的3D电路,其中所述第一计算电路和第二计算电路是乘法累加(MAC)电路图中的两个MAC电路,所述MAC电路图中已经被划分为分别在所述第一IC裸片和第二IC裸片上限定的第一部分和第二部分。
42.根据权利要求25所述的3D电路,其中所述第一计算电路和第二计算电路是加法器电路图中的两个加法器电路,所述加法器电路图已被划分为分别在所述第一IC裸片和第二IC裸片上限定的第一部分和第二部分。
43.根据权利要求25所述的3D电路,其中所述多个连接是第一多个连接,所述3D电路还包括:第二多个连接,所述第二多个连接穿过所述结合层,以将由所述第二计算电路所计算的数据运送到所述第一计算电路以供所述第一计算电路用于执行计算。
44.根据权利要求43所述的3D电路,其中从所述第二计算通过所述第二多个连接提供给所述第一计算电路的所述数据不穿越串行化和解串行化电路。
45.根据权利要求43所述的3D电路,其中所述第一多个连接和所述第二多个连接中的每个多个连接超过100个连接、200个连接、500个连接和1000个连接中的一个。
CN201880082142.3A 2017-10-20 2018-10-18 具有高密度z轴互连的3d计算电路 Pending CN111492477A (zh)

Applications Claiming Priority (29)

Application Number Priority Date Filing Date Title
US201762575259P 2017-10-20 2017-10-20
US201762575240P 2017-10-20 2017-10-20
US201762575184P 2017-10-20 2017-10-20
US201762575221P 2017-10-20 2017-10-20
US62/575,240 2017-10-20
US62/575,221 2017-10-20
US62/575,184 2017-10-20
US62/575,259 2017-10-20
US15/859,612 US10762420B2 (en) 2017-08-03 2017-12-31 Self repairing neural network
US15/859,612 2017-12-31
US15/859,546 US10607136B2 (en) 2017-08-03 2017-12-31 Time borrowing between layers of a three dimensional chip stack
US15/859,546 2017-12-31
US15/859,551 2017-12-31
US15/859,548 2017-12-31
US15/859,548 US10719762B2 (en) 2017-08-03 2017-12-31 Three dimensional chip structure implementing machine trained network
US15/859,551 US11176450B2 (en) 2017-08-03 2017-12-31 Three dimensional circuit implementing machine trained network
US201862619910P 2018-01-21 2018-01-21
US62/619,910 2018-01-21
US15/976,809 US10580735B2 (en) 2016-10-07 2018-05-10 Stacked IC structure with system level wiring on multiple sides of the IC die
US15/976,809 2018-05-10
US201862678246P 2018-05-30 2018-05-30
US62/678,246 2018-05-30
US16/159,705 US10672745B2 (en) 2016-10-07 2018-10-14 3D processor
US16/159,703 US10672743B2 (en) 2016-10-07 2018-10-14 3D Compute circuit with high density z-axis interconnects
US16/159,703 2018-10-14
US16/159,704 2018-10-14
US16/159,704 US10672744B2 (en) 2016-10-07 2018-10-14 3D compute circuit with high density Z-axis interconnects
US16/159,705 2018-10-14
PCT/US2018/056559 WO2019079625A1 (en) 2017-10-20 2018-10-18 HIGH DENSITY 3D CALCULATION CIRCUIT FOR Z-AXIS INTERCONNECTIONS

Publications (1)

Publication Number Publication Date
CN111492477A true CN111492477A (zh) 2020-08-04

Family

ID=66174238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880082142.3A Pending CN111492477A (zh) 2017-10-20 2018-10-18 具有高密度z轴互连的3d计算电路

Country Status (4)

Country Link
EP (1) EP3698402A1 (zh)
CN (1) CN111492477A (zh)
TW (1) TWI745626B (zh)
WO (1) WO2019079625A1 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10672744B2 (en) 2016-10-07 2020-06-02 Xcelsis Corporation 3D compute circuit with high density Z-axis interconnects
KR102512017B1 (ko) 2016-10-07 2023-03-17 엑셀시스 코포레이션 직접-접합된 네이티브 상호접속부 및 능동 베이스 다이
US10600735B2 (en) 2016-10-07 2020-03-24 Xcelsis Corporation 3D chip sharing data bus
US10580735B2 (en) 2016-10-07 2020-03-03 Xcelsis Corporation Stacked IC structure with system level wiring on multiple sides of the IC die
US10593667B2 (en) 2016-10-07 2020-03-17 Xcelsis Corporation 3D chip with shielded clock lines
US10672745B2 (en) 2016-10-07 2020-06-02 Xcelsis Corporation 3D processor
US10600691B2 (en) 2016-10-07 2020-03-24 Xcelsis Corporation 3D chip sharing power interconnect layer
US10580757B2 (en) 2016-10-07 2020-03-03 Xcelsis Corporation Face-to-face mounted IC dies with orthogonal top interconnect layers
US10600780B2 (en) 2016-10-07 2020-03-24 Xcelsis Corporation 3D chip sharing data bus circuit
US10719762B2 (en) 2017-08-03 2020-07-21 Xcelsis Corporation Three dimensional chip structure implementing machine trained network
US10672663B2 (en) 2016-10-07 2020-06-02 Xcelsis Corporation 3D chip sharing power circuit
US10586786B2 (en) 2016-10-07 2020-03-10 Xcelsis Corporation 3D chip sharing clock interconnect layer
US10672743B2 (en) 2016-10-07 2020-06-02 Xcelsis Corporation 3D Compute circuit with high density z-axis interconnects
CN110731012B (zh) 2019-04-15 2021-01-29 长江存储科技有限责任公司 具有处理器和异构存储器的一体化半导体器件及其形成方法
KR20240045345A (ko) 2019-04-15 2024-04-05 양쯔 메모리 테크놀로지스 씨오., 엘티디. 프로세서 및 동적 랜덤 액세스 메모리를 갖는 본디드 반도체 장치 및 이를 형성하는 방법
CN110945652A (zh) 2019-04-15 2020-03-31 长江存储科技有限责任公司 堆叠三维异质存储器件及其形成方法
WO2020210928A1 (en) * 2019-04-15 2020-10-22 Yangtze Memory Technologies Co., Ltd. Integration of three-dimensional nand memory devices with multiple functional chips
CN111033728A (zh) 2019-04-15 2020-04-17 长江存储科技有限责任公司 具有可编程逻辑器件和动态随机存取存储器的键合半导体器件及其形成方法
EP3891806A4 (en) 2019-04-15 2022-10-12 Yangtze Memory Technologies Co., Ltd. UNITED SEMICONDUCTOR DEVICES HAVING HETEROGENEOUS PROCESSOR AND MEMORIES AND METHODS FOR FORMING THEM
CN111727503B (zh) 2019-04-15 2021-04-16 长江存储科技有限责任公司 具有可编程逻辑器件和异构存储器的统一半导体器件及其形成方法
CN110870062A (zh) 2019-04-30 2020-03-06 长江存储科技有限责任公司 具有可编程逻辑器件和nand闪存的键合半导体器件及其形成方法
CN110720143B (zh) 2019-04-30 2021-01-29 长江存储科技有限责任公司 具有处理器和nand闪存的键合半导体器件及其形成方法
KR20210113644A (ko) 2019-04-30 2021-09-16 양쯔 메모리 테크놀로지스 씨오., 엘티디. 접합된 통합형 반도체 칩과 그 제조 및 작동 방법
US11599299B2 (en) 2019-11-19 2023-03-07 Invensas Llc 3D memory circuit
US11309246B2 (en) 2020-02-05 2022-04-19 Apple Inc. High density 3D interconnect configuration
US11960438B2 (en) * 2020-09-08 2024-04-16 Rambus Inc. Methods and circuits for streaming data to processing elements in stacked processor-plus-memory architecture
US11289440B1 (en) 2020-09-28 2022-03-29 Micron Technology, Inc. Combination-bonded die pair packaging and associated systems and methods
US11355163B2 (en) 2020-09-29 2022-06-07 Alibaba Group Holding Limited Memory interconnection architecture systems and methods
TW202327047A (zh) * 2021-12-16 2023-07-01 新加坡商發明與合作實驗室有限公司 高性能運算和高儲存容量的同構/異構積體電路系統

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102217066A (zh) * 2008-12-10 2011-10-12 高通股份有限公司 3d微架构***中的平行平面存储器及处理器耦合
US20120170345A1 (en) * 2011-01-04 2012-07-05 Choi Jang Seok Stacked semiconductor device and method of manufacturing the same
US20120256653A1 (en) * 2011-04-06 2012-10-11 International Business Machines Corporation Programmable logic circuit using three-dimensional stacking techniques
US20130207268A1 (en) * 2012-02-14 2013-08-15 Stmicroelectronics (Crolles 2) Sas Chip assembly system
US20140022002A1 (en) * 2012-07-20 2014-01-23 Qualcomm Incorporated Thermal management of tightly integrated semiconductor device, system and/or package
US20170278213A1 (en) * 2016-03-24 2017-09-28 Advanced Micro Devices, Inc. Hierarchical register file at a graphics processing unit

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6962835B2 (en) 2003-02-07 2005-11-08 Ziptronix, Inc. Method for room temperature metal direct bonding
US20050127490A1 (en) * 2003-12-16 2005-06-16 Black Bryan P. Multi-die processor
US7485968B2 (en) 2005-08-11 2009-02-03 Ziptronix, Inc. 3D IC method and device
US8136071B2 (en) * 2007-09-12 2012-03-13 Neal Solomon Three dimensional integrated circuits and methods of fabrication
US9425150B2 (en) * 2014-02-13 2016-08-23 Taiwan Semiconductor Manufacturing Company, Ltd. Multi-via interconnect structure and method of manufacture

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102217066A (zh) * 2008-12-10 2011-10-12 高通股份有限公司 3d微架构***中的平行平面存储器及处理器耦合
US20120170345A1 (en) * 2011-01-04 2012-07-05 Choi Jang Seok Stacked semiconductor device and method of manufacturing the same
US20120256653A1 (en) * 2011-04-06 2012-10-11 International Business Machines Corporation Programmable logic circuit using three-dimensional stacking techniques
US20130207268A1 (en) * 2012-02-14 2013-08-15 Stmicroelectronics (Crolles 2) Sas Chip assembly system
US20140022002A1 (en) * 2012-07-20 2014-01-23 Qualcomm Incorporated Thermal management of tightly integrated semiconductor device, system and/or package
US20170278213A1 (en) * 2016-03-24 2017-09-28 Advanced Micro Devices, Inc. Hierarchical register file at a graphics processing unit

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张宇昂: "三维多核处理器存储关键技术研究", 中国博士学位论文全文数据库 信息科技辑, no. 11, 16 October 2015 (2015-10-16), pages 137 - 2 *

Also Published As

Publication number Publication date
EP3698402A1 (en) 2020-08-26
TW201933578A (zh) 2019-08-16
WO2019079625A1 (en) 2019-04-25
TWI745626B (zh) 2021-11-11

Similar Documents

Publication Publication Date Title
US11152336B2 (en) 3D processor having stacked integrated circuit die
US10672743B2 (en) 3D Compute circuit with high density z-axis interconnects
US10672744B2 (en) 3D compute circuit with high density Z-axis interconnects
CN111492477A (zh) 具有高密度z轴互连的3d计算电路
US10644826B2 (en) Flexibile interfaces using through-silicon via technology
US7834450B2 (en) Semiconductor package having memory devices stacked on logic device
US20220375827A1 (en) Soic chip architecture
US8283771B2 (en) Multi-die integrated circuit device and method
US7791175B2 (en) Method for stacking serially-connected integrated circuits and multi-chip device made from same
KR101109562B1 (ko) 초고대역폭 메모리 다이 스택
US7406573B2 (en) Reconfigurable processor element utilizing both coarse and fine grained reconfigurable elements
US11756951B2 (en) Layout design methodology for stacked devices
US20100140750A1 (en) Parallel Plane Memory and Processor Coupling in a 3-D Micro-Architectural System
US20190206819A1 (en) Semiconductor memory chip, semiconductor memory package, and electronic system using the same
US20230223402A1 (en) Three-dimensional Integrated Circuit
Franzon et al. Design for 3D Stacked Circuits
CN116828866A (zh) 集成电路组件、处理器和片上***
CN113626372A (zh) 一种存算一体的集成芯片

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination