CN101908087A

CN101908087A - 基于gpu的集成电路电源地线网络的并行仿真方法

Info

Publication number: CN101908087A
Application number: CN 201010228645
Authority: CN
Inventors: 蔡懿慈; 周强; 石晋
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2010-07-16
Filing date: 2010-07-16
Publication date: 2010-12-08
Anticipated expiration: 2030-07-16
Also published as: CN101908087B

Abstract

本发明公开一种基于GPU的集成电路电源地线网络的并行仿真方法，主要是利用GPU强大的浮点数处理和并行处理能力，以及预条件共轭梯度算法来加速集成电路电源地线仿真计算的方法。本发明将集成电路电源地线网络简化为二维规则网络，CPU将所述二维规则网络划分为满足GPU硬件要求的两个以上的分块，并向GPU传输分块信息；GPU接收CPU传输的集成电路电源地线网络的分块信息，并将各分块信息读入到与其线程组对应的局部内存中；GPU对上述分块信息进行预条件共轭梯度计算；GPU将计算结果输出给所述CPU。本发明与目前主流的CPU上的相同算法相比，它的计算效率能提高20倍左右。

Description

基于GPU的集成电路电源地线网络的并行仿真方法

技术领域

本发明涉及VLSI(Very Large Scale Integrated circuits，超大规模集成电路)物理设计领域，尤其是集成电路片上供电网络的设计和优化。

背景技术

在超大规模集成电路中，各元器件正常工作的一个重要前提是它们得到正常的供电电压。而实际上，在当前的超大规模集成电路的设计和工作中，供电网络上的电压降已经变得不可忽略，即元器件上得到的供电电压实际上会小于外部对集成电路供电的电源电压。如果供电网络上的电压降过大，就可能使元器件上得到的供电电压过低，导致元器件的时延增加影响整体的性能，严重时还会引发逻辑错误。

随着集成电路的制造工艺的发展，供电网络的设计面临越来越严重的挑战，这主要体现在：一、芯片的集成度越来越大，元器件的数目越来越多，因此需要对越来越多的元器件进行供电；二、由于功耗和散热方面的限制，集成电路的电源电压不断降低，降低的电源电压会使供电网络上的电压降阈值降低，电压降更加明显；三、由于元器件上的工作电压不断降低，使得噪声容限变小，对供电电压的波动更加敏感；四、随着集成电路的特征尺寸变小，供电网络的线宽也会变窄，进而单位长度上的电阻电容等寄生效应更加显著。因此，供电网络已经成为超大规模集成电路设计和制造的一个瓶颈，日益受到学术界和工业界的重视。

高效、精确的供电网络的仿真，对于供电网络的设计有着至关重要的意义。首先，在供电网络的设计过程中，供电网络的仿真可以尽早地发现潜在的问题并进行调整，避免在设计后期再调整时带来很大的设计成本。而目前供电网络的优化流程一般都是迭代地进行的，即在当前设计的基础上根据仿真的结果进行调整，得到下一步的设计，重复这样的流程直到得到一个合理的设计，这样重复地进行仿真往往是优化过程中比较大的时间开销所在。

目前广泛应用的供电网络的拓扑结构是一个网格状(Mesh)的拓扑结构，供电网络对于R模型(只包含电阻，不包含电容、电感)得到的是一个纯电阻电路，它适用于静态分析。使用经典的节点分析法，获得一个大规模的线性方程组，求解此线性方程组即可求得所有节点的电压值，从而可以进一步分析各节点的电压降、检查电流密度等。供电网络对于RLC模型(包含电阻、电容和电感)，通常适用于进行瞬态仿真。最常见的瞬态仿真方法是把电容、电感进行离散化处理，离散化处理后的电容、电感元件等效于一个电阻并联一个电流源，电阻值的大小是恒定的，电流源的大小可以根据上一个时间点的仿真结果得到。因此，瞬态仿真可以转化成一系列的静态仿真，实质上就是求解一系列的线性方程组。

在供电网络仿真中，线性方程组具有良好的数值性质，例如系数矩阵具有对称、正定、稀疏、对角占优等性质，求解的主要难度在于规模巨大，多达几百万甚至上千万维。目前，已经有多重网格法(multigrid)、预条件共轭梯度法(PCG)、层次化方法(hierarchical)、随机行走法(random walk)等有效的算法来进行求解，但由于规模过大求解效率仍然不能满足设计需求。

其中，预条件共轭梯度算法是一种求解系数矩阵满足正定对称的线性方程组的算法。该算法是一种迭代的方法，它从某个初始解出发，每一步都沿特定的方向进行一维搜索，直到得到的解足够精确。共轭梯度法迭代次数取决于系数矩阵本身的性质，一般认为系数矩阵越接近单位矩阵收敛越快。因此，对于线性方程组Ax＝b，可以通过将其转化为求解M^-1Ax＝M^-1b来改善系数矩阵的性质，以减少迭代次数。这个过程称为预条件。

发明内容

为了提高大规模供电网络的仿真速度，本发明提供一种计算效率高的基于GPU的集成电路电源地线网络的并行仿真方法。

为达到上述目的，本发明基于GPU的集成电路电源地线网络的并行仿真方法，包括以下步骤：

(1)将集成电路电源地线网络简化为二维规则网络，CPU将所述二维规则网络划分为满足GPU硬件要求的两个以上的分块，并向GPU传输分块信息；

(2)GPU接收CPU传输的集成电路电源地线网络的分块信息，并将各分块信息读入到与其线程组对应的局部内存中；

(3)GPU对上述分块信息进行预条件共轭梯度计算；

(4)GPU将计算结果输出给所述CPU。

进一步地，步骤(1)具体包括步骤a～c：

a.输入所述二维规则网络的信息到CPU，并计算出导纳矩阵A和电流源向量I；

b.设置初始值x₀和分块的预条件矩阵B_p ^-1；

c.将初始值x₀，导纳矩阵A和电流源向量I按各分块划分；

步骤(2)具体包括步骤d：

d.GPU的各线程组分别将对应各分块的导纳矩阵A_p和电流向量I_p读入到局部内存中，并在其内计算各分块的初始值k＝0，r_k＝I_p-A_px_k，s_k＝z_k＝B_p ^-1r_k；其中，下标p表示分块编号；

步骤(3)具体包括步骤e～k：

e.各线程组并行地计算出各分块的中间向量A_ps_k；

f.处理各分块的中间向量A_ps_k之间的行间隙和列间隙，得到As_k；

g.各线程组分别利用向量As_k进行以下计算处理：

α_k＝(z_k，r_k)/(s_k，As_k)

x_k+1＝r_k+α_ks_k

r_k+1＝r_k-α_kAs_k

h.将各分块向量r_k+1读入共享内存并调整成按块存放的顺序，便于进行预条件计算；

i.进行预条件计算，z_k+1＝B_p ^-1r_k+1，并将各分块z_k+1的顺序调整成按块存放的顺序；

j.计算系数β_k，利用β_k计算s_k+1，

β_k＝(z_k+1，r_k+1)/(z_k，r_k)

s_k+1＝z_k+1-β_ks_k

k.置k＝k+1，并判断是否已经满足结束条件，若未满足，重复步骤(e)至步骤(j)，若满足，计算结束。

特别地，忽略整个供电网络的边界或者供电引脚，每个分块的预条件矩阵B_p均相同，其中，构成预条件矩阵B_p的各元素为二维规则网络中各节点水平方向和竖直方向上金属线段的平均电阻值。

进一步地，所述导纳矩阵A和电流源向量I根据输入电路的电学参数，在CPU中计算生成。

进一步地，计算完成后的结果从GPU传回CPU和主存，并释放占用的GPU的空间，并通过计算机输出或显示出仿真结果。

本发明是将集成电路电源地线网络简化为二维规则网络并对其进行分块处理，利用GPU(Graphic Processing Unit，图形处理器)的并行处理能力来加快仿真计算的速度，同时为了提高仿真的精度，还需在GPU的共享内存中集中处理各分块之间的间隙，处理完成后，再进行预条件共轭梯度计算；进而加速了PCG(Preconditioned Conjugate Gradients Method，预条件共轭梯度算法)的计算，实验结果表明对于相同的PCG算法GPU可以比CPU快20倍左右。

本发明的供电网络仿真，所求解的线性方程组具有良好的数值性质，即系数矩阵A具有对称、正定、稀疏、对角占优等性质，而预条件共轭梯度算法又是求解大型稀疏线性方程组的有效方法之一，因此本发明采用预条件共轭梯度算法对集成电路电源地线网络进行仿真。

同时，从预条件共轭梯度算法的流程中不难看出，主要的计算量是矩阵、向量运算。因此，利用浮点计算能力更强、擅长向量运算的GPU对其进行并行化加速处理，为显著地提高计算效率提供了一个可行的途径。

附图说明

图1为本发明集成电路片上电源地线网络的等效模型；

图2为本发明集成电路片上电源地线网络的电路划分的示意图；

图3为本发明基于GPU的集成电路电源地线网络的并行仿真方法的原理图。

具体实施方式

下面对本发明的具体实施方式做详细描述。

图1是本发明基于GPU的集成电路电源地线网络的等效模型，供电网络中的金属线被等效成分布的电阻(称R模型)，各元器件被建模成了独立电流源(称为吸纳电流源)。这种供电网络是规则的水平和垂直方向的金属线交织而成的网状的结构，即为二维规则的供电网络。在集成电路制造中供电网络水平和垂直金属线在不同的金属层，交点处通过通孔连接，当通孔的阻值相对小很多时，可以忽略掉通孔得到二维规则的供电网络。

图2是本发明基于GPU的集成电路电源地线网络的电路划分的示意图，导纳矩阵A中的每个非零元素对应于图中的每一条边，包括实线和虚线。每一条边都需要进行处理，会是一个很庞大的矩阵计算，因此本发明将电路进行分块划分，利用GPU的多线程并行计算的功能对各分块的内部进行处理，而块与块之间如图虚线部分的间隙，需将处理好的各分块按顺序存放到共享内存中再进行间隙处理，因间隙产生在相邻两行和两列，所以处理方式可以转化为向量计算。

图3是本发明基于GPU的集成电路电源地线网络并行仿真方法的原理图，本实施例采用节点分析法对电源地线网络进行仿真，节点分析法的原理如下：

对于一个节点k，应用基尔霍夫定律，可以得到：

\underset{j &NotEqual; k}{Σ} g_{k, j} (v_{k} - v_{j}) = I_{k}

其中v_x表示节点x的电位，I_k表示所有流入节点k的电流源之和，g_k，j表示节点k和节点j之间的电导值(不直接相邻的节点电导值为0)。如果取地线的电位为0，并且对其它所有节点都应用基尔霍夫定律，就会得到一个线性方程组：

Av＝i

其中电位向量v是各节点的电位，是待求值；电流源向量i是各节点汇入的电源流之和，为已知值；导纳矩阵A的非对角元素为两节点间的电导的相反数，对角线元素是与该节点关联的所有电导的总和。

本实施例依据上述节点分析法的原理，对节点的个数在1024*1024到4096*4096之间的二维规则网络进行仿真计算，步骤如下：

步骤(1)根据GPU硬件的限制，将节点的个数在1024*1024到4096*4096之间的二维规则网络划分为多个16*16的分块。

步骤(2)向CPU输入导纳矩阵A和电流源向量I，电流源向量I是各节点汇入的电源流之和；导纳矩阵A的非对角元素为两节点间的电导的相反数，对角线元素是与该节点关联的所有电导的总和。

步骤(3)根据经验设置初始解x₀，初始时设置所有节点的电压降都是20毫伏。

步骤(4)忽略电路边界和供电引脚，使用水平方向和垂直方向金属线段的平均电阻得到预条件矩阵的一个分块B_p，其大小为16*16；然后再利用普通的数值计算软件求出其逆矩阵B_p ^-1。

步骤(5)导纳矩阵A和电流源向量I按各分块划分，GPU内的各线程组分别将对应各分块的导纳矩阵A_p和电流向量I_p读入到局部内存中，并计算各分块的初始值k＝0，r_k＝I_P-A_px_k，s_k＝z_k＝B_p ^-1r_k，其中下标p为分块编号。

步骤(6)每一个线程组将对应各分块的中间向量A_ps_k读入到共享内存中，并按各分块的顺序进行存储。

步骤(7)在共享内存中，处理中间向量A_ps_k的行间隙和列间隙，得到向量As_k；由于只涉及相邻两行和两列，因此可以转化成向量操作，使用CUDA例程库完成，其中，CUDA(Compute Unified Device Architecture，通用并行计算架构)包含了指令集架构ISA(Instruction Set Architecture)以及GPU内部的并行计算引擎。

步骤(8)各线程组分别利用向量As_k进行以下计算处理：

使用CUDA例程库中的cublasSdot函数计算(z_k，r_k)和(s_k，As_k)的内积，然后计算出系数α_k＝(z_k，r_k)/(s_k，A_ps_k)；

使用CUDA例程库中的cublasSaxpy函数计算x_k+1＝r_k+α_ks_k，以及r_k+1＝r_k-α_kAs_k。

步骤(9)各线程组将对应各分块向量r_k+1读入共享内存并调整成按块存放的顺序，进行预条件计算，即使用CUDA例程库中的cublasSgemm函数计算B_p ^-1与r_k+1的乘法，得到z_k+1＝B_p ^-1r_k+1，并将z_k+1的顺序恢复到按块存放的顺序；

使用CUDA例程库中的cublasSdot函数计算内积(z_k+1，r_k+1)，计算β_k＝(z_k+1，r_k+1)/(z_k，r_k)，(z_k，r_k)可以直接使用步骤(6)中的(z_k，r_k)的结果；

使用CUDA例程库中的cublasSaxpy函数计算s_k+1＝z_k+1-β_ks_k。

步骤(10)置k＝k+1，并判断是否已经满足结束条件，若未满足，重复步骤(6)～(9)，若满足，进行下一步骤。

步骤(11)将结果x_k从GPU传回CPU和主存，并释放占用的GPU空间。

步骤(12)通过计算机输出或显示出仿真结果。

本实施例使用的GPU为nVidia GeForce 9800GT硬件，该型号硬件包含112个流处理器和1GB显存。使用的软件支持是CUDA2.1(包括了驱动程序、编译器nvcc release 2.1V0.2.1221、CUBLAS 2.1等)。

在精度相同的前提下，对于规模为1024*1024和4096*4096的电路GPU加速后的运行时间分别为1.44秒和20.9秒，相比于CPU上的相同算法有20倍左右的加速比。

本发明利用成本相对低廉的GPU硬件，达到了较高的加速比和令人满意的精度，可以适用于规模很大的供电网络的仿真。

本发明的实质是求解Ax＝I式中x向量的值，采用预条件共轭梯度算法求解过程如下：

Input：A，I，x₀(预设初始值)

Output：Ax＝I的解向量x

r₀＝I-Ax₀

s₀＝r₀

for k＝0，1，2，.....

do α_k＝(z_k，r_k)/(s_k，As_k)

x_k+1＝r_k+α_ks_k

r_k+1＝r_k-α_kAs_k

Z_k+1＝M^-1r_k+1

β_k＝(z_k+1，r_k+1)/(z_k，r_k)

s_k+1＝z_k+1-β_ks_k

return x_k+1

其中，M为预条件矩阵。若不进行分块处理，采用CPU串形处理的方式计算将是很庞大的计算过程，计算的过程会很慢。

而本发明是将M划分成块，并由各分块构成一个对角矩阵如下：

其中，B₁，B₂，...B_k为各分块预条件矩阵；

分块求逆即得M^-1，如下：

如果忽略整个供电网络的边界或者供电引脚，各个分块是相同的，即：

这样，只需要预先计算一个维数较小的分块预条件矩阵的逆矩阵即可。

经过上述的处理后，本发明就可以充分利用GPU的多线程运行的特点，对每一分块进行并行地处理。实际在GPU中，每一线程组只处理各分块内的部分，然后再集中处理分块之间的部分(即各分块的行间隙和列间隙)；进行预条件计算时，即z_k+1＝M^-1r_k+1步计算，实际是各线程组分别对相应分块的处理，即z_k+1＝B_p ^-1r_k+1，再对每个分块进行并行的迭代求解，直到满足结束条件后，得到各分块的x_k+1向量(集成电路电源地线网络各节点的电位值仿真结果)；将结果x_k+1向量按分块顺序从GPU传回CPU和主存，释放占用的GPU的空间，并通过计算机输出或显示出结果。

以上，仅为本发明的较佳实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求所界定的保护范围为准。

Claims

1.一种基于GPU的集成电路电源地线网络的并行仿真方法，其特征在于，包括以下步骤：

(3)GPU对上述分块信息进行预条件共轭梯度计算；

(4)GPU将计算结果输出给所述CPU。

2.根据权利要求1所述的基于GPU的集成电路电源地线网络的并行仿真方法，其特征在于，步骤(1)具体包括步骤a～c：

b.设置初始值x₀和各分块的预条件矩阵B_p ^-1；

c.将初始值x₀，导纳矩阵A和电流源向量I按各分块划分；

步骤(2)具体包括步骤d：

步骤(3)具体包括步骤e～k：

e.各线程组并行地计算出各分块的中间向量A_ps_k；

g.各线程组分别利用向量As_k进行以下计算处理：

α_k＝(z_k，r_k)/(s_k，As_k)

x_k+1＝r_k+α_ks_k

r_k+1＝r_k-α_kAs_k

h.将各分块向量r_k+1读入共享内存并调整成按块存放的顺序；

j.计算系数β_k，利用β_k计算s_k+1，

β_k＝(z_k+1，r_k+1)/(z_k，r_k)

s_k+1＝z_k+1-β_ks_k

3.根据权利要求2所述的基于GPU的集成电路电源地线网络的并行仿真方法，其特征在于，每个分块的预条件矩阵B_p均相同，其中，构成预条件矩阵B_p的各元素为二维规则网络中各节点水平方向和竖直方向上金属线段的平均电阻值。

4.根据权利要求2所述的基于GPU的集成电路电源地线网络的并行仿真方法，其特征在于，所述导纳矩阵A和电流源向量I根据输入电路的电学参数，依照定义在CPU中计算生成。

5.根据权利要求1所述的基于GPU的集成电路电源地线网络的并行仿真方法，其特征在于，计算完成后的结果从GPU传回CPU和主存，释放占用的GPU的空间，并通过计算机输出或显示出仿真结果。