CN117075684B

CN117075684B - 一种Chiplet芯片的自适应时钟网格化校准方法

Info

Publication number: CN117075684B
Application number: CN202311331000.5A
Authority: CN
Inventors: 王嘉诚; 张少仲
Original assignee: Zhongcheng Hualong Computer Technology Co Ltd
Current assignee: Zhongcheng Hualong Computer Technology Co Ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2023-12-19
Anticipated expiration: 2043-10-16
Also published as: CN117075684A

Abstract

本发明公开了一种Chiplet芯片的自适应时钟网格化校准方法，属于集成电路技术领域，包括：在Chiplet芯片切换执行任务类型时，配置时钟校准全局模块、多个时钟校准子模块、时钟网格；在第一时钟校准周期内收集所有Chiplet的工作负载和时钟偏斜数据；预测各Chiplet的工作负载和时钟偏斜；调整芯片内时钟网格的位置和大小；在每个网格选择Chiplet部署时钟校准子模块；在第二时钟校准周期内，时钟校准子模块基于时钟校准全局模块的指示对网格内各Chiplet的时钟校准。本发明的方法能自适应动态的工作负载条件，提高多Chiplet芯片***的性能和稳定性。

Description

一种Chiplet芯片的自适应时钟网格化校准方法

技术领域

本发明属于集成电路技术领域，尤其涉及一种Chiplet芯片的自适应时钟网格化校准方法。

背景技术

随着集成电路技术的发展，基于Chiplet（芯粒）的芯片设计已经成为一种重要的***集成方法。在这种设计中，多个不同功能的Chiplet被集成在一个更大的***中，以实现性能和功耗优化。然而，如何对每个Chiplet的时钟进行有效的校准变得非常重要。在多Chiplet***中，每个Chiplet可能有自己独特的时钟偏斜。这些偏差可能由许多因素造成。如果不进行有效的管理，这些时钟偏斜可能会导致***性能下降，甚至可能导致***稳定性问题。

传统的时钟校准方法通常依赖于全局的时钟源，但这种方法在多Chiplet***中可能并不理想。由于Chiplet的数量可能非常大，全局的时钟源可能无法对每个Chiplet的时钟偏斜进行有效的校准。此外，由于工作负载和环境条件的动态变化，时钟偏斜可能会频繁地变化，这使得时钟校准变得更加复杂和困难。

因此，如何在多Chiplet***中进行有效的时钟校准，特别是在动态工作负载和环境条件下，是当今集成电路设计中的一个重要问题。需要一种新的时钟校准方法，能够对每个Chiplet的时钟偏斜进行精确的预测和校准，以提高***的性能和稳定性。

发明内容

针对上述现有技术中存在的缺陷，本发明提供一种Chiplet芯片的自适应时钟网格化校准方法，包括如下步骤：

步骤1，在所述Chiplet芯片切换执行任务类型时，配置时钟校准全局模块，以及根据任务类型配置多个时钟校准子模块、与每一个时钟校准子模块对应的时钟网格；

步骤2，在第一时钟校准周期内，收集芯片内所有Chiplet的工作负载和时钟偏斜数据；

步骤3，根据所述Chiplet芯片执行任务的类型以及收集的芯片内所有Chiplet的工作负载和时钟偏斜数据，基于预测模型对芯片内各Chiplet的工作负载和时钟偏斜进行预测；

步骤4，依据预测的芯片内各Chiplet的工作负载和时钟偏斜，调整芯片内时钟网格的位置和大小，每个时钟网格内包括一个Chiplet组，所述Chiplet组内包含至少一个Chiplet；

步骤5，在每个网格内的至少一个Chiplet中选择一个Chiplet部署时钟校准子模块；

步骤6，在第二时钟校准周期内，各个时钟校准子模块从时钟校准全局模块收到的指示，进行网格内各Chiplet的时钟校准，所述第二时钟校准周期小于第一时钟校准周期。

其中，配置时钟校准全局模块包括设定其管理的时钟校准子模块的数量，初始化全局时钟分布和时钟偏斜，以及设定时钟校准全局模块和时钟校准子模块的信息上报收集方式；

配置时钟校准子模块包括设定其所在的时钟网格的位置和大小，初始化时钟分布和时钟偏斜，以及设定其与时钟校准全局模块的信息上报收集方式。

其中，根据所述Chiplet执行任务的类型以及收集的芯片内所有Chiplet的工作负载和时钟偏斜数据，基于预测模型对芯片内各Chiplet的工作负载和时钟偏斜进行预测，包括基于使用非线性回归模型对各Chiplet的工作负载和时钟偏斜进行预测。

其中，根据所述Chiplet芯片执行的任务类型设定不同的高斯过程模型，使用基于任务类型的高斯过程对芯片内各Chiplet的工作负载进行预测。

其中，对于每个Chiplet的时钟偏斜的预测，非线性模型包含6个输入特征，分别为Chiplet功耗P、Chiplet核心频率F、Chiplet当前工作负载current_workload、Chiplet当前时钟偏斜current_clock_skew以及组合相关关系，输出下一个时钟校准周期内的时钟偏斜；

基于如下非线性关系来确定next_clock_skew，包括：

,/>,；

；

其中，，/>；

其中，

是一个向量，包含六维度输入特征；

都是模型的参数矩阵，所述参数矩阵/>通过训练数据集基于随机梯度下降进行学习。

其中，依据预测的芯片内各Chiplet的工作负载和时钟偏斜，调整芯片内时钟网格的位置和大小，每个时钟网格内包括一个Chiplet组，所述组内包含多个Chiplet，所述对芯片内Chiplet划分确定时钟网格的过程包括：

步骤a，定义并计算Chiplet之间的相似度和距离两个度量参数，所述两个度量参数根据Chiplet的物理位置、预测的工作负载和时钟偏斜来定义；

步骤b，聚类Chiplet，包括在计算出Chiplet之间的相似度和距离之后，使用基于密度的DBSCAN算法将Chiplet分组，将密度相连的Chiplet分为一个组。

其中，定义相似度函数s(i,j)来计算Chiplet_i和Chiplet_j的相似度，所述相似度函数s(i,j)根据Chiplet的预测工作负载和预测时钟偏斜来计算，所述预测工作负载和预测时钟偏斜分别为预测各Chiplet在下一个时钟校准周期内的工作负载和时钟偏斜；

所述相似度函数s(i,j)的计算公式为：

，

其中，

workload(i)和workload(j)分别表示Chiplet_i和Chiplet_j的预测工作负载；

clock_skew(i)和clock_skew(j)分别表示Chiplet_i和Chiplet_j的预测时钟偏斜；

abs()表示绝对值函数；

exp()是自然常数e的幂次方函数；

和/>是归一化因子，通过统计所有Chiplet的工作负载和时钟偏斜的标准差来得到；

以及，定义距离函数d(i,j)来计算Chiplet_i和Chiplet_j的布线距离。

其中，所述步骤b中使用基于密度的DBSCAN算法将Chiplet分组，包括：

步骤b.1，对每个Chiplet，找出与其距离小于，并且相似度大于/>的所有Chiplet；

步骤b.2，如果一个Chiplet的在所述步骤b.1中确定的邻居数量大于预设的最小邻居数量MinPts，所述Chiplet就被视为一个核心点；

步骤b.3，所有与核心点密度相连的Chiplet被分为一个组，如果多个核心点互为邻居，调整和/>值，重复所述步骤b，直至每个组内只包括一个核心点。

其中，在所述步骤5中，在每个步骤4中确定的Chiplet组成的网格内，从多个Chiplet中选择一个Chiplet部署时钟校准子模块，包括以下过程：

确定根据Chiplet的最大负载能力和预期负载进行确定每个Chiplet在预期负载下剩余的处理资源；

评估了所有Chiplet的剩余处理资源后，进行初步筛选去掉剩余资源不足的Chiplet；

在筛选后的Chiplet中，获取每个Chiplet到网格中所有其他Chiplet的布线距离，所述距离为布线距离；

获取所有布线距离的数据后，选择一个距离时钟网格内其他Chiplet的平均布线距离最小的Chiplet来部署时钟校准子模块。

其中，所述步骤6中，在第二时钟校准周期内，各个时钟校准子模块从时钟校准全局模块收到的指示，进行网格内各Chiplet的时钟校准，所述第二时钟校准周期小于第一时钟校准周期，包括：

在第二时钟校准周期开始时，时钟校准全局模块会向每个时钟校准子模块发送指令，要求它们开始新的校准周期，所述指令中包括预校准信息；

时钟校准全局模块在每个第一时钟校准周期内的第一个第二时钟校准周期内根据步骤3中得到的预测数据对每个Chiplet的时钟偏移进行预先补偿确定所述预校准信息，并确定每个Chiplet对应的时钟管理Chiplet；

所述时钟校准全局模块将每个Chiplet的时钟偏移补偿发送给对应的时钟管理Chiplet。

本发明通过使用预测模型，能够***出每个Chiplet的工作负载和时钟偏斜，从而提前进行时钟校准，提高***的稳定性。且本发明根据Chiplet执行任务的类型以及收集的工作负载数据，调整芯片内时钟网格的位置和大小，使得***能够自适应不同的工作负载条件。同时，本发明通过网格化校准方法使得时钟校准可以在更小的范围内进行，不仅提高了校准的灵活性，还使得***在扩展时能够更容易地进行时钟校准。以及，通过在每个网格内选择一个Chiplet部署时钟校准子模块，本发明使得每个时钟校准子模块只需要负责一小部分的Chiplet，从而提高了资源利用率，降低了校准的复杂性。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示出根据本发明实施例的一种Chiplet芯片的自适应时钟网格化校准方法的流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……，但这些……不应限于这些术语。这些术语仅用来将……区分开。例如，在不脱离本发明实施例范围的情况下，第一……也可以被称为第二……，类似地，第二……也可以被称为第一……。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。

在Chiplet芯片***中，每个Chiplet可能会有自己的时钟偏斜，影响到整个***的性能和稳定性。特别是在动态工作负载条件下，这种时钟偏斜可能会变得更加复杂和难以预测。传统的时钟校准方法可能无法有效应对这种情况。本发明解决了在多Chiplet***中对时钟偏斜进行有效管理的问题。

如图1所示，本发明公开了一种Chiplet芯片的自适应时钟网格化校准方法，包括如下步骤：

步骤1，在所述Chiplet芯片切换执行任务类型时，配置时钟校准全局模块，以及根据任务类型配置多个时钟校准子模块、与每一个时钟校准子模块对应的时钟网格。

步骤2，在第一时钟校准周期内，收集芯片内所有Chiplet的工作负载和时钟偏斜数据。

步骤3，根据所述Chiplet执行任务的类型以及收集的芯片内所有Chiplet的工作负载和时钟偏斜数据，基于预测模型对芯片内各Chiplet的工作负载和时钟偏斜进行预测。

步骤4，依据预测的芯片内各Chiplet的工作负载和时钟偏斜，调整芯片内时钟网格的位置和大小，每个时钟网格内包括一个Chiplet组，所述组内包含至少一个Chiplet。

步骤5，在每个网格内的至少一个Chiplet中选择一个Chiplet部署时钟校准子模块。

在某一实施例中，时钟校准全局模块用于协调和管理Chiplet内的所有时钟校准子模块。时钟校准全局模块根据所有时钟校准子模块的状态以及它们各自的时钟网格，进行全局的时钟校准。

每个时钟校准子模块负责其所在时钟网格的时钟校准。时钟校准子模块需要实时反馈其工作负载、时钟分布和时钟偏斜数据给时钟校准全局模块。

在某一实施例中，配置时钟校准全局模块包括设定其管理的时钟校准子模块的数量，初始化全局时钟分布和时钟偏斜（初始化为0），以及设定时钟校准全局模块和时钟校准子模块的信息上报收集方式。

在某一实施例中，初始时钟网格的建立基于Chiplet芯片的物理布局和所执行的任务类型的预期工作负载。如果某些类型的Chiplet在执行某些任务类型时预计会有更高工作负载，那么它们所在的时钟网格可能需要更小，以便更精细地进行时钟校准。再例如，如果某些类型的Chiplet预计会有更高的工作负载，那么它们的时钟频率设置更高。例如，所述初始时钟网格可以是在芯片内部等距离划分的尺寸一致的网格，但不同任务类型的网格大小不同。或者，所述网格可以是单Chiplet网格，即每个Chiplet都会在初始阶段形成一个网格，或者按照Chiplet类型进行网格划分，将同一计算功能的Chiplet划分到同一网格。而时钟校准子模块的确定可以在网格内随机选择。

在某一实施例中，根据所述Chiplet芯片执行的任务类型(task_type)设定不同的高斯过程模型，使用基于任务类型的高斯过程对芯片内各Chiplet的工作负载进行预测。例如，训练一个高斯过程模型A对于任务类型A，以及对任务类型B，训练高斯过程模型B，以此类推。在不同的任务类型有不同的行为模式时提高预测性能。

在某一实施例中，在第一时钟校准周期内，收集芯片内所有Chiplet的工作负载和时钟偏斜数据。其中，数据收集包括芯片内所有Chiplet的工作负载和时钟偏斜数据的收集。数据收集的第一时钟校准周期根据***的需求和性能来确定。数据收集通过硬件接口（例如，通过总线读取Chiplet的工作负载和时钟信息）来实现。

在某一实施例中，根据所述Chiplet执行任务的类型以及收集的芯片内所有Chiplet的工作负载和时钟偏斜数据，基于预测模型对芯片内各Chiplet的工作负载和时钟偏斜进行预测，包括基于使用非线性回归模型对各Chiplet的工作负载和时钟偏斜进行预测。

其中，对于每个Chiplet的工作负载预测，输入包含[当前工作负载current_workload]，输出是下一个时钟校准周期内的工作负载，所述对于芯片内每个Chiplet的工作负载预测为一元非线性回归模型

假设当前工作负载（current_workload）。基于所述，输入参数来预测下一个时钟校准周期内的工作负载。首先对输入数据进行归一化，将输入参数（即当前工作负载）归一化到[0,1]的范围内。

使用训练数据集（包括输入参数和对应的工作负载）来训练高斯过程模型。在训练过程中，选择核函数RBF核函数，并优化核函数的参数（比如长度尺度和方差），以最大化训练数据的边缘似然。在训练阶段计算以下公式：。其中，k(X_train,X_train)是训练数据之间的核函数矩阵，/>是一个白噪声项，I是单位矩阵。

对于一个新的输入参数（即新的当前工作负载），预测新的工作负载，包括使用以下公式来进行预测：

，

；

其中，

是预测的均值，即下一个时钟校准周期内的工作负载。

是预测的方差，表示预测的不确定性。

是新的输入参数和训练数据之间的核函数值向量。

是新的输入参数自己的核函数值。

Y_train是训练数据的输出值向量。

在高斯过程回归中，核函数是用来测量数据点之间的相似度的。

k(X_train,X_train)、和/>都是利用核函数计算出来的。其中：

是一个向量，其元素是新的输入参数/>和训练数据X_train中每个元素的核函数值。例如，如果X_train有n个元素，那么/>就是一个n维向量，其第i个元素就是/>。

是一个标量，它是新的输入参数/>自己的核函数值。

k(X_train,X_train)是一个nxn的矩阵（其中n是训练数据的数量），它的第i行第j列的元素就是k(X_train[i],X_train[j])，即训练数据中第i个数据点和第j个数据点的核函数值。

核函数为径向基函数RBF，表示为：。

其中，是x和y的欧氏距离的平方，l是长度尺度参数，控制了核函数的宽度。长度尺度l越大，核函数的宽度越大，越能够捕捉到数据的长距离依赖关系。

在某一实施例中，对于每个Chiplet的时钟偏斜的预测，直接参数包含[Chiplet功耗（P）、Chiplet核心频率（F），Chiplet当前工作负载（current_workload）、Chiplet当前时钟偏斜（current_clock_skew）]，输出是下一个时钟校准周期内的时钟偏斜。对于每一个Chiplet都有6个输入特征，分别为Chiplet功耗P、Chiplet核心频率F、Chiplet当前工作负载current_workload、Chiplet当前时钟偏斜current_clock_skew以及组合相关关系，以及一个输出（下一个时钟校准周期内的时钟偏斜）。基于如下非线性关系来确定next_clock_skew，包括：

,,/>；

；

其中，，/>；

其中，

是一个向量，包含六维度输入特征；

在某一实施例中，依据预测的芯片内各Chiplet的工作负载和时钟偏斜，调整芯片内时钟网格的位置和大小，每个时钟网格内包括一个Chiplet组，所述组内包含多个Chiplet，所述对芯片内Chiplet划分确定时钟网格的过程包括：

步骤a，计算Chiplet之间的相似度和距离：定义两个Chiplet之间的相似度和距离。这两个度量可以根据Chiplet的物理位置、预测的工作负载和时钟偏斜来计算。

定义相似度函数s(i,j)来计算Chiplet_i和Chiplet_j的相似度。相似度函数s(i,j)可以根据Chiplet的预测工作负载和时钟偏斜来计算。

可选地，其中，定义相似度函数s(i,j)来计算Chiplet_i和Chiplet_j的相似度，所述相似度函数s(i,j)根据Chiplet的预测工作负载和预测时钟偏斜来计算，所述预测工作负载和预测时钟偏斜分别为预测各Chiplet在下一个时钟校准周期内的工作负载和时钟偏斜；

所述相似度函数s(i,j)的计算公式为：

，

其中，

abs()表示绝对值函数；

exp()是自然常数e的幂次方函数；

可选地，定义距离函数d(i,j)来计算Chiplet_i和Chiplet_j的布线距离。距离函数d(i,j)为所述两个Chiplet之间的布线距离。

步骤b，聚类Chiplet，包括在计算出Chiplet之间的相似度和距离之后，使用基于密度的DBSCAN算法将Chiplet分组，将密度相连（即距离小于某个阈值，并且相似度大于某个阈值）的Chiplet分为一个组，包括以下过程：

步骤b.1，对每个Chiplet，找出与其距离小于（一个预设的距离阈值），并且相似度大于/>（一个预设的相似度阈值）的所有Chiplet。

步骤b.2，如果一个Chiplet的在步骤b.1中确定的邻居数量大于MinPts（一个预设的最小邻居数量），所述Chiplet就被视为一个核心点。

在某一实施例中，调整ε和θ值来使得每个组内只有一个核心点，通过不同的参数组合来实现，当聚类结果中簇过于紧密，包括多个核心点互为邻居则需要步进调整和/>的值，对于聚类结果过于紧密时，/>，/>。其中，/>，。

在某一实施例中，对于和/>的调整，当聚类结果分散包括聚类结果中噪声点超过预设数量，需要步进调整/>和/>的值。如果一个Chiplet既不是核心点，也不是边界点，那么这个Chiplet就被视为一个噪声点。其中，对于聚类结果分散时，/>，/>。其中，/>，/>。

在某一实施例中，如果一个Chiplet的邻居数量没有达到MinPts，但如果所述Chiplet是至少一个核心点的邻居，那么这个Chiplet就被视为一个边界点。边界点会被分配到它的一个核心点所在的组。如果一个边界点是多个核心点的邻居，会选择将其分配至距离最近的核心点的组。

在某一实施例中，对于噪声点的分组，包括以下规则：

获取步骤3中确定的每个噪声点的预期时钟偏移和预期工作负载。

根据预期时钟偏移和负载情况，将噪声点分为四类：高时钟偏移高负载、高时钟偏移低负载、低时钟偏移高负载、低时钟偏移低负载。

其中，如果一个噪声点的时钟偏移和负载都高于设定的对噪声点判定的对应阈值，将其分类为高时钟偏移高负载。如果时钟偏移高于阈值，但负载低于阈值，将其分类为高时钟偏移低负载。如果时钟偏移低于阈值，但负载高于阈值，分类到低时钟偏移高负载。如果一个噪声点的时钟偏移和负载都低于设定的对噪声点判定的对应阈值，将其分类为低时钟偏移低负载两类。

对于高时钟偏移高负载和高时钟偏移低负载的噪声点，进行单独的时钟管理，不将该噪声点划分到已有的时钟管理网格，并在这些噪声点对应的Chiplet中部署时钟校准子模块。

对于低时钟偏移高负载和低时钟偏移低负载的噪声点，将它们分配到距离最近的组。

在某一实施例中，在步骤5中，在每个步骤4中确定的Chiplet组成的网格内，从多个Chiplet中选择一个Chiplet部署时钟校准子模块，包括以下过程：

确定每个Chiplet在预期负载下剩余的处理资源，包括根据Chiplet的规格参数（最大负载能力）和预期负载进行确定。

评估了所有Chiplet的剩余处理资源后，进行初步筛选，去掉资源不足的Chiplet。

在筛选后的Chiplet中，获取每个Chiplet到网格中所有其他Chiplet的布线距离，所述距离为布线距离。获取所有布线距离的数据后，选择一个距离其他Chiplet平均布线距离最小的Chiplet来部署时钟校准子模块。

在某一实施例中，所述步骤6中，在第二时钟校准周期内，各个时钟校准子模块从时钟校准全局模块收到的指示，进行网格内各Chiplet的时钟校准，所述第二时钟校准周期小于第一时钟校准周期，包括：

确定每个Chiplet对应的时钟管理Chiplet具体为，若所述Chiplet为部署时钟校准子模块，则该Chiplet本身为其对应的时钟管理Chiplet。若所述Chiplet内未部署时钟校准子模块，则该Chiplet对应的时钟管理Chiplet为网格内部署有时钟校准子模块的Chiplet。

所述时钟校准全局模块将每个Chiplet的时钟偏移补偿发送给对应的时钟管理Chiplet，即时钟校准全局模块会在实际偏移发生之前就调整时钟校准策略，以减小实际的时钟偏移。

在某一实施例中，时钟校准全局模块会在第一时钟校准周期内第一个第二时钟校准周期结束时收集各个时钟校准子模块反馈的监控数据，根据对芯片内各Chiplet的对时间偏移调整后的反馈结果对下一第二时钟校准周期的事件偏移进行预测，确定第一时钟校准周期内第二个第二时钟校准周期偏移补偿，然后发送新的校准策略，开始新的校准周期。

时钟校准全局模块会将新的校准策略发送给每个时钟校准子模块。每个时钟校准子模块按照新的策略进行校准，开始新的第二时钟校准周期。

在校准完成后，结束当前的第二时钟校准周期，并进入下一个。时钟校准全局模块会再次收集监控结果，进行反馈调整和偏移补偿，然后发送新的校准策略，开始新的校准周期。

这个循环会在每个第一时钟校准周期内的每一个第二时钟校准周期重复。

在某一实施例中，在第一时钟校准周期内的最后一个第二时钟校准周期结束时收集的数据即为本发明在步骤2中的收集的第一时钟校准周期内的芯片内所有Chiplet的工作负载和时钟偏斜数据。即在第一时钟校准周期内的最后一个第二时钟校准周期结束时收集的数据包括芯片内所有Chiplet的工作负载和时钟偏斜数据。

在第一时钟校准周期内的除最后一个第二时钟校准周期以外的其他第二时钟校准周期结束时收集的数据包括芯片内所有Chiplet在已经结束的最近一个第二时钟校准周期的时钟偏移数据。

在某一实施例中，时钟校准全局模块在每个第一时钟校准周期内的第一个第二时钟校准周期结束时收集各个时钟校准子模块反馈的监控数据包括每个Chiplet当前的时钟偏移量。

所述全局基于每个Chiplet过去的时钟偏移数据，以及从各个时钟校准子模块反馈的监控数据对下一第二时钟校准周期的时钟偏移进行预测，然后确定下一周期的偏移补偿，包括：

时钟校准全局模块基于时间序列分析模型来预测每个Chiplet在下一第二时钟校准周期的时钟偏移。可选地，所述时间序列分析模型为ARIMA模型。

时钟校准全局模块根据预测的时钟偏移确定下一周期的偏移补偿。

时钟校准全局模块会根据确定的偏移补偿更新时钟校准策略，并在下一周期开始时将新的策略发送给每个时钟校准子模块。

在某一实施例中，时钟校准全局模块需要收集并组织每个Chiplet的时钟偏移数据。假设已经收集了一个Chiplet在过去N个第二时钟校准周期的时钟偏移数据，组成一个时间序列。

时钟校准全局模块选择ARIMA模型进行预测。ARIMA模型有三个主要参数：p（自回归项数量）、d（差分阶数）、q（滑动平均项数量）。可以通过模型诊断和信息准则（如AIC或BIC）来确定这些参数。例如使用Python的statsmodels库的ARIMA模型，通过遍历不同的p,d,q组合并比较AIC值来选择最优的参数组合。

时钟校准全局模块使用过去的时钟偏移数据（最近N个第二时钟校准周期的数据）来训练ARIMA模型。模型训练完成，时钟校准全局模块使用训练好的模型来预测下一个第二时钟校准周期的时钟偏移。

可选地，对每种不同类型Chiplet确定不同的ARIMA模型。

在某一实施例中，时钟校准全局模块然后可以根据预测的时钟偏移来计算时钟偏移补偿值，以使芯片内的每个Chiplet的时钟速率尽可能接近理想的时钟速率，使得各个Chiplet的协作同步效果更好。

可选地，补偿值是预测的偏移值的负值。如果预测的偏移值是+10ns，补偿值就是-10ns，使得在应用补偿后，Chiplet的时钟速率就会接近理想的速率。

时钟校准全局模块可以将计算得到的时钟偏移补偿值添加到每个Chiplet的时钟调整指令中。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

以上介绍了本发明的较佳实施方式，旨在使得本发明的精神更加清楚和便于理解，并不是为了限制本发明，凡在本发明的精神和原则之内，所做的修改、替换、改进，均应包含在本发明所附的权利要求概括的保护范围之内。

Claims

1.一种Chiplet芯片的自适应时钟网格化校准方法，包括如下步骤：

2.如权利要求1所述的一种Chiplet芯片的自适应时钟网格化校准方法，其特征在于，

配置时钟校准全局模块包括设定其管理的时钟校准子模块的数量，初始化全局时钟分布和时钟偏斜，以及设定时钟校准全局模块和时钟校准子模块的信息上报收集方式；

3.如权利要求1所述的一种Chiplet芯片的自适应时钟网格化校准方法，其特征在于，

根据所述Chiplet执行任务的类型以及收集的芯片内所有Chiplet的工作负载和时钟偏斜数据，基于预测模型对芯片内各Chiplet的工作负载和时钟偏斜进行预测，包括基于使用非线性回归模型对各Chiplet的工作负载和时钟偏斜进行预测。

4.如权利要求3所述的一种Chiplet芯片的自适应时钟网格化校准方法，其特征在于，

根据所述Chiplet芯片执行的任务类型设定不同的高斯过程模型，使用基于任务类型的高斯过程对芯片内各Chiplet的工作负载进行预测。

5.如权利要求3所述的一种Chiplet芯片的自适应时钟网格化校准方法，其特征在于，

对于每个Chiplet的时钟偏斜的预测，非线性模型包含6个输入特征，分别为Chiplet功耗P、Chiplet核心频率F、Chiplet当前工作负载current_workload、Chiplet当前时钟偏斜current_clock_skew以及组合相关关系，输出下一个时钟校准周期内的时钟偏斜；

基于如下非线性关系来确定next_clock_skew，包括：

,/>,；

；

其中，，/>；

其中，

是一个向量，包含六维度输入特征；

6.如权利要求1-5中任一项所述的一种Chiplet芯片的自适应时钟网格化校准方法，其特征在于，依据预测的芯片内各Chiplet的工作负载和时钟偏斜，调整芯片内时钟网格的位置和大小，每个时钟网格内包括一个Chiplet组，所述组内包含多个Chiplet，所述对芯片内Chiplet划分确定时钟网格的过程包括：

7.如权利要求6所述的一种Chiplet芯片的自适应时钟网格化校准方法，其特征在于，

定义相似度函数s(i,j)来计算Chiplet_i和Chiplet_j的相似度，所述相似度函数s(i,j)根据Chiplet的预测工作负载和预测时钟偏斜来计算，所述预测工作负载和预测时钟偏斜分别为预测各Chiplet在下一个时钟校准周期内的工作负载和时钟偏斜；

所述相似度函数s(i,j)的计算公式为：

，

其中，

abs()表示绝对值函数；

exp()是自然常数e的幂次方函数；

8.如权利要求6所述的一种Chiplet芯片的自适应时钟网格化校准方法，其特征在于，所述步骤b中使用基于密度的DBSCAN算法将Chiplet分组，包括：

9.如权利要求1所述的一种Chiplet芯片的自适应时钟网格化校准方法，其特征在于，在所述步骤5中，在每个步骤4中确定的Chiplet组成的网格内，从多个Chiplet中选择一个Chiplet部署时钟校准子模块，包括以下过程：

10.如权利要求1所述的一种Chiplet芯片的自适应时钟网格化校准方法，其特征在于，所述步骤6中，在第二时钟校准周期内，各个时钟校准子模块从时钟校准全局模块收到的指示，进行网格内各Chiplet的时钟校准，所述第二时钟校准周期小于第一时钟校准周期，包括：