CN114139472B

CN114139472B - 基于强化学习双模型结构的集成电路直流分析方法及***

Info

Publication number: CN114139472B
Application number: CN202111297554.9A
Authority: CN
Inventors: 牛丹; 金洲; 董毅超; 裴浩杰
Original assignee: Nanjing Yunniu Intelligent Technology Co ltd; Jiangyin Zhixing Industrial Control Technology Co ltd
Current assignee: Nanjing Yunniu Intelligent Technology Co ltd; Jiangyin Zhixing Industrial Control Technology Co ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2023-05-02
Anticipated expiration: 2041-11-04
Also published as: CN114139472A

Abstract

本发明公开了一种基于强化学习双模型结构的集成电路直流分析方法及***，该方法使用双模型强化学习算法来制定集成电路伪瞬态分析的步长控制策略。强化学习双模型包括前进模型和后退模型，以集成电路仿真的状态变量作为模型输入，判断目前电路所处的状态并输出一个最优的仿真步长。本发明提供的基于强化学习双模型结构的集成电路直流分析方法可以通过电路的不同状态来自适应步长的输出，两个模型引入公共样本池来相互学习各自的经验，从而使得算法更快地收敛。将连续的步长输出代替了传统算法的离散步长输出，可以更快地提高仿真效率，大大降低了牛顿拉夫逊法的迭代次数和仿真时间。

Description

基于强化学习双模型结构的集成电路直流分析方法及***

技术领域

本发明涉及集成电路仿真技术，具体涉及基于强化学习双模型结构的集成电路直流分析方法及***。

背景技术

在集成电路设计的晶体管级电路仿真中，计算直流工作点是最重要和最基本的任务之一，如何成功求得合适的直流工作点一直以来都是学术界和工业界重点关注的对象。在传统的寻找直流工作点的方法，有purePTA、CEPTA、DPTA等等，上述方法通过数值积分的方法来计算直流工作点已经研究了几年了，这些方法都对寻找直流工作点做出了重要的贡献。然而很少有研究是关于寻找更合适的数值积分离散时间控制算法，并且这些算法在离散时间步长控制上存在一些仿真效率问题。因此，采用一种更有效的数值积分离散时间控制算法对于牛顿拉夫逊法的迭代是非常需要的。

强化学习是一种用于描述和解决智能体与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的算法。强化学习算法目前已经愈发成熟，但目前还未广泛应用在集成电路设计的晶体管级电路仿真领域，该领域中传统的伪瞬态分析仿真方法以一个固定的离散步长倍数来控制仿真的下一步步长，没有针对仿真电路的理论性分析和模型自适应，难以解决仿真的效率问题。强化学习不基于模型且能够自主的探索状态空间以找到最优的策略，因此，将强化学习算法运用在这个方向上可以很好地解决效率低下的问题。

发明内容

发明目的：本发明的一个目的是提供一种基于强化学习双模型结构的集成电路直流分析方法，针对集成电路设计的晶体管级电路仿真，根据电路仿真过程中的状态变量来适应仿真的电路模型从而采取最优的步长选择策略，用一个自适应的连续步长代替传统算法的离散步长，从而大幅降低牛顿拉夫逊法的迭代次数以及仿真时间；

本发明的另一个目的是提供一种基于强化学习双模型结构的集成电路直流分析***。

技术方案：本发明的基于强化学习双模型结构的集成电路直流分析方法，包括以下步骤：

S1、初始化强化学习双模型及集成电路仿真器；

初始化强化学习双模型包括：初始化强化学习双模型网络权重，初始化前进模型样本池，初始化后退模型样本池，初始化前进模型和后退模型的公共样本池；

初始化集成电路仿真器包括：设定初始化仿真时间步长为t₀；

S2、集成电路仿真器通过初始化仿真步长t₀得到k＝1时刻的仿真电路状态x₁；判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况，得到k＝1时刻牛顿迭代收敛标志位back₁，如果牛顿拉夫逊法的迭代次数收敛，则k＝1时刻牛顿迭代收敛标志位back₁为0，否则back₁为1；

S3、将k时刻的牛顿迭代收敛标志位back_k和k时刻的仿真电路状态x_k输出到强化学习双模型中，其中，k≥1；根据初始化牛顿迭代收敛标志位back_k选择使用前进模型或者后退模型；然后将k时刻的仿真电路状态x_k作为前进模型或者后退模型的输入，继而输出k时刻的动作，并根据前一步仿真时间步长t_k-1计算仿真时间步长t_k；

S4、将步骤S3输出的k时刻的仿真时间步长t_k输入到集成电路仿真器中，集成电路仿真器使用牛顿拉夫逊法进行伪瞬态分析，得到k+1时刻的仿真电路状态x_k+1，再次判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况，得到k+1时刻牛顿迭代收敛标志位back_k+1，将得到的k+1时刻牛顿迭代收敛标志位back_k+1和k+1时刻的仿真电路状态x_k+1反馈到强化学习双模型的前进模型或者后退模型中；

S5、前进模型或者后退模型对输入的k+1时刻的仿真电路状态x_k+1进行标准化处理，得到标准化后的k+1时刻的仿真电路状态

S6、通过步骤S5中标准化后的k+1时刻的仿真电路状态

以及步骤S4中的k+1时刻牛顿迭代收敛标志位back_k+1计算每一步的前进模型奖励或者后退模型奖励，然后判断k+1时刻牛顿迭代的收敛情况，并根据收敛情况更新样本池；

S7、采用随机梯度下降法，从前进模型样本池或后退模型样本池，以及二者的公共样本池中共取出数量为N的马尔可夫决策样本，分别更新前进模型或后退模型的网络参数；

S8、更新集成电路仿真器状态：将步骤S4中k+1时刻的仿真电路状态x_k+1作为当前状态；

S9、判断伪瞬态分析法是否收敛，如果收敛，则结束仿真；如果不收敛，则令k＝k+1，返回步骤S3执行，直至收敛。

进一步的，步骤S1中强化学习双模型网络权重包括评价网络的价值网络权重θ、目标价值网络权重

和执行网络的网络权重φ；前进模型样本池、后退模型样本池和二者的公共样本池中的样本包括仿真电路状态，仿真电路状态包括电路残差χ、电压相对变化率γ和牛顿拉夫逊法迭代次数ε。

进一步的，步骤S3中前进模型或者后退模型输出为一个区间在(-1，1)之间的连续动作值，以此控制下一步的步长；前进模型和后退模型的步长计算公式为：

其中，t_k为k时刻输出的步长，t_k-1为k-1时刻输出的步长，m,n为前进模型的比例系数，a,b为回退模型的比例系数，act为强化学习模型输出的动作值，back_k为k时刻牛顿迭代收敛标志位，其收敛时为0，不收敛则为1。

进一步的，步骤S5中标准化处理的函数公式为：

其中，

为标准化后的k+1时刻的仿真电路状态；x_k+1为k+1时刻的仿真电路状态；

为k+1时刻前进模型样本池或后退模型样本池中状态的均值；s_k+1为k+1时刻前进模型样本池或后退模型样本池中状态的标准差；

通过公式(2)将原状态电路残差χ、原状态电压相对变化率γ和原状态牛顿拉夫逊法迭代次数ε分别转化为标准化后的电路残差

标准化后的电压相对变化率

标准化后的牛顿拉夫逊法迭代次数

进一步的，步骤S6中奖励值采用奖励函数公式计算；

当强化学习双模型处于前进模型时，其奖励函数公式为：

当强化学习双模型处于后退模型时，其奖励函数公式为：

其中，c_j为负比例系数，j＝1,2,…10；

为标准化后的电路残差；

为标准化后的电压相对变化率；

为标准化后的牛顿拉夫逊法迭代次数；back为牛顿迭代收敛标志位；act为强化学习双模型输出的动作值。

进一步的，步骤S6中更新样本池的方法为：

如果步骤S4中的k+1时刻牛顿迭代收敛标志位back_k+1为0，即牛顿拉夫逊法迭代收敛，则将马尔可夫决策样本储存入前进模型样本池或后退模型样本池；如果步骤S4中的k+1时刻牛顿迭代收敛标志位back_k+1为1，即牛顿拉夫逊法迭代不收敛，则将马尔可夫决策样本储存入前进模型样本池或后退模型样本池；如果k+1时刻与k时刻的牛顿迭代收敛标志位的值不同，则将马尔可夫决策样本同时存入前进模型和后退模型的公共样本池。

进一步的，步骤S7中评价网络更新方法为：

采用批数量为N的随机批量梯度下降法对评价网络进行更新，其马尔可夫决策样本总方均误差作为损失函数为：

其中，评价网络函数分为价值函数Q_θ(s_i,a_i)和目标价值函数

价值函数和目标价值函数的网络结构相同而网络参数分别为θ和

输入均为第i个样本的状态s_i和动作a_i，Q_θ(s_i,a_i)实时更新，而每更新n次后，才会将网络参数完全复制给

因此评价网络的更新公式为：

其中，y_i为目标价值函数

的输出，α为学习率。

进一步的，步骤S7中执行网络更新方法为：

执行网络采用确定性策略梯度定理，使用批量梯度上升最大化策略目标函数，其更新公式为：

其中，执行网络参数为φ，执行网络函数为π_φ。

本发明另一实施例中，基于强化学习双模型结构的集成电路直流分析***，包括强化学习双模型和集成电路仿真器，其中，强化学习双模型包括前进模型和后退模型，前进模型和后退模型均包括评价器和执行器，执行器将输出的动作计算成时间步长给集成电路仿真器得到下一步电路的状态，并输出仿真电路状态至执行器和评价器，同时，强化学习模型将计算的奖励值输出给评价器，评价器将时间差分误差输出给执行器。

优选的，评价器中的评价网络为以leaky-Relu作为激活函数，5层每层256个神经元组成的神经网络；执行器中的执行网络为4层leaky-Relu作为激活函数，最后一层采用Sigmoid作为激活函数的五层每层256个神经元组成的神经网络。

有益效果：与现有技术相比，本发明提供的基于变强化学习双模型结构的集成电路直流分析方法，使用前进和后退两个强化学习模型学习集成电路的模型性质，从而依照目标电路的模型来自适应地输出一个最优的步长，可以更好地适应于各类的集成电路仿真，同时输出一个连续的自适应步长代替了传统算法的离散步长，大幅地降低了牛顿拉夫逊法的迭代次数以及仿真时间，提出了公共样本池，使得两个模型可以相互借鉴对方的经验，从而更快地使得模型收敛。

附图说明

图1为本发明***结构框图；

图2为本发明方法流程图。

具体实施方式

下面结合附图和具体实施例，对本发明进行详细的阐述。

如图1所示，本发明的基于强化学习双模型结构的集成电路直流分析***，包括强化学习双模型和集成电路仿真器，其中，强化学习双模型包括前进模型和后退模型，前进模型和后退模型均包括评价器和执行器，执行器将输出的动作计算成时间步长给集成电路仿真器得到下一步电路的状态，并输出仿真电路状态至执行器和评价器，同时，强化学习模型将计算的奖励值输出给评价器，评价器将时间差分误差输出给执行器。

本发明的基于强化学习双模型结构的集成电路直流分析方法，使用基于强化学习的前进模型和后退模型分别控制步长的增加和缩减，根据集成电路仿真器输出的状态来控制前进模型和后退模型的导入和自适应仿真步长的输出，如图2所示，具体包括以下步骤：

S1、初始化强化学习双模型及集成电路仿真器；其中，初始化强化学习双模型包括：初始化强化学习双模型网络权重，初始化前进模型样本池，初始化后退模型样本池，初始化前进模型和后退模型的公共样本池；初始化集成电路仿真器包括：设定初始化仿真时间步长为t₀。

本发明实施例中，强化学习双模型网络权重包括评价网络的价值网络权重θ、目标价值网络权重

和执行网络的网络权重φ；前进模型样本池、后退模型样本池和二者的公共样本池中的样本包括仿真电路状态，仿真电路状态包括电路残差χ、电压相对变化率γ和牛顿拉夫逊法迭代次数ε。评价器中的评价网络为以leaky-Relu作为激活函数，5层每层256个神经元组成的神经网络；执行器中的执行网络为4层leaky-Relu作为激活函数，最后一层采用Sigmoid作为激活函数的五层每层256个神经元组成的神经网络。前进模型和后退模型的独立样本池和两者的公共样本池大小都为40000个马尔可夫决策样本容量；初始化仿真电路的状态，设定初始仿真步长为0.001秒，通过初始仿真步长得到电路仿真过程变量，判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况，将收敛标志位和仿真过程变量输出到双模型强化学习算法中。

S2、集成电路仿真器通过初始化仿真步长t₀得到k＝1时刻的仿真电路状态x₁；判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况，得到k＝1时刻牛顿迭代收敛标志位back₁，如果牛顿拉夫逊法的迭代次数收敛，则k＝1时刻牛顿迭代收敛标志位back₁为0，否则back₁为1。

S3、将k时刻的牛顿迭代收敛标志位back_k和k时刻的仿真电路状态x_k输出到强化学习双模型中，其中，k≥1；根据初始化牛顿迭代收敛标志位back_k选择使用前进模型或者后退模型；然后将k时刻的仿真电路状态x_k作为前进模型或者后退模型的输入，继而输出k时刻的动作值，并根据前一步仿真时间步长t_k-1计算k时刻仿真时间步长t_k；

前进模型或者后退模型中的执行网络输出一个区间为(-1，1)的连续动作值，以此控制下一步的步长：前进模型和后退模型的步长计算公式为：

S4、将步骤S3输出的k时刻的仿真时间步长t_k输入到集成电路仿真器中，集成电路仿真器使用牛顿拉夫逊法进行伪瞬态分析，得到k+1时刻的仿真电路状态x_k+1，再次判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况，得到k+1时刻牛顿迭代收敛标志位back_k+1，将得到的k+1时刻牛顿迭代收敛标志位back_k+1和k+1时刻的仿真电路状态x_k+1反馈到强化学习双模型的前进模型或者后退模型中。

S5、前进模型或者后退模型对输入的k+1时刻的仿真电路状态x_k+1进行标准化处理，使得仿真电路状态变量处于一个数量级，得到标准化后的k+1时刻的仿真电路状态

为；

其中，

为k+1时刻前进模型样本池或后退模型样本池中状态的均值；s_k+1为k+1时刻前进模型样本池或后退模型样本池中状态的标准差；当前进模型样本池或后退模型样本池中有M个样本时，其公式为：

其中，

表示k+1时刻第i个样本的状态，

表示

的均值。

、标准化后的电压相对变化率

、标准化后的牛顿拉夫逊法迭代次数

S6、通过步骤S5中标准化后的k+1时刻的仿真电路状态

，以及步骤S4中的k+1时刻牛顿迭代收敛标志位back_k+1计算每一步的前进模型奖励或者后退模型奖励，然后判断k+1时刻牛顿迭代的收敛情况，并根据收敛情况更新样本池；

具体的：

通过标准化后的状态和收敛标志位计算其奖励函数：

当强化学习双模型处于前进模型时，计算其奖励函数为：

其中，c_i(i＝1,2,…5)为负比例系数，分别取-1.3、-2.7、-0.5、-3.8、-1.2，back为牛顿迭代收敛标志位，如果牛顿拉夫逊法的迭代次数收敛，牛顿迭代收敛标志位back为0，否则back为1。

将步骤S3中k时刻的仿真电路状态x_k作为当前状态、步骤S4中k+1时刻的仿真电路状态x_k+1作为下一步状态、动作和奖励值储存为一个马尔可夫决策样本，如果k+1时刻牛顿迭代收敛，则将该马尔可夫决策样本储存入前进模型样本池；如果k+1时刻牛顿迭代不收敛，则将该马尔可夫决策样本储存入前进模型样本池和公共样本池供，储存入公共样本池是为了供后退模型学习。

当强化学习双模型处于后退模型时，计算其奖励函数为：

其中，c_j(j＝6,7,…10)为负比例系数，分别取-1.2、-2.5、-0.5、-3.8、-1.2。

将步骤S3中k时刻的仿真电路状态x_k作为当前状态、步骤S4中k+1时刻的仿真电路状态x_k+1作为下一步状态、动作和奖励值储存为一个马尔可夫决策样本，如果k+1时刻牛顿迭代收敛，则将该马尔可夫决策样本储存入后退模型样本池和公共样本池，储存入公共样本池是为了供前进模型学习；如果k+1时刻牛顿迭代不收敛，则将该马尔可夫决策样本储存入后退模型样本池。

S7、采用随机梯度下降法，从前进模型样本池或后退模型样本池，以及二者的公共样本池中共取出数量为N的马尔可夫决策样本，分别更新前进模型或后退模型的网络参数；具体实施过程中取N为128；

其中，评价网络函数分为价值函数Q_θ(s_i,a_i)和目标价值函数

，价值函数和目标价值函数的网络结构相同而网络参数分别为θ和

，输入均为第i个样本的状态s_i和动作a_i，Q_θ(s_i,a_i)实时更新，而每更新n次后，才会将网络参数完全复制给

因此评价网络的更新公式为：

其中，y_i为目标价值函数

的输出，α为学习率，取α＝0.001。

其中，执行网络参数为φ，执行网络函数为π_φ。

具体实施过程中在因特尔处理器i7-10750和6GB显存英伟达RTX2060GPU的个人计算机上利用python的2.1.0版本tensorflow库实现该方法。

分别测试了该方法在PPTA、CEPTA、DPTA、RPTA的性能，选取30000个不同类型的电路进行仿真对比，强化学***均加速比达到了6.9倍，7.2倍，极大地提高了仿真效率。

Claims

1.基于强化学习双模型结构的集成电路直流分析方法，其特征在于，包括以下步骤：

S1、初始化强化学习双模型及集成电路仿真器；

S3、将k时刻的牛顿迭代收敛标志位back_k和k时刻的仿真电路状态x_k输出到强化学习双模型中，其中，k≥1；根据初始化牛顿迭代收敛标志位back_k选择使用前进模型或者后退模型；然后将k时刻的仿真电路状态x_k作为前进模型或者后退模型的输入，继而输出k时刻的动作，并根据前一步仿真时间步长t_k-1计算仿真时间步长t_k；具体的：

其中，t_k为k时刻输出的步长，t_k-1为k-1时刻输出的步长，m,n为前进模型的比例系数，a,b为回退模型的比例系数，act为强化学习模型输出的动作值，back_k为k时刻牛顿迭代收敛标志位，其收敛时为0，不收敛则为1；S4、将步骤S3输出的k时刻的仿真时间步长t_k输入到集成电路仿真器中，集成电路仿真器使用牛顿拉夫逊法进行伪瞬态分析，得到k+1时刻的仿真电路状态x_k+1，再次判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况，得到k+1时刻牛顿迭代收敛标志位back_k+1，将得到的k+1时刻牛顿迭代收敛标志位back_k+1和k+1时刻的仿真电路状态x_k+1反馈到强化学习双模型的前进模型或者后退模型中；

S6、通过步骤S5中标准化后的k+1时刻的仿真电路状态以及步骤S4中的k+1时刻牛顿迭代收敛标志位back_k+1计算每一步的前进模型奖励或者后退模型奖励，然后判断k+1时刻牛顿迭代的收敛情况，并根据收敛情况更新样本池；具体的：

通过标准化后的状态和收敛标志位计算其奖励函数：

当强化学习双模型处于前进模型时，计算其奖励函数；将步骤S3中k时刻的仿真电路状态x_k作为当前状态、步骤S4中k+1时刻的仿真电路状态x_k+1作为下一步状态、动作和奖励值储存为一个马尔可夫决策样本，如果k+1时刻牛顿迭代收敛，则将该马尔可夫决策样本储存入前进模型样本池；如果k+1时刻牛顿迭代不收敛，则将该马尔可夫决策样本储存入前进模型样本池和公共样本池供，储存入公共样本池是为了供后退模型学习；

当强化学习双模型处于后退模型时，计算其奖励函数；将步骤S3中k时刻的仿真电路状态x_k作为当前状态、步骤S4中k+1时刻的仿真电路状态x_k+1作为下一步状态、动作和奖励值储存为一个马尔可夫决策样本，如果k+1时刻牛顿迭代收敛，则将该马尔可夫决策样本储存入后退模型样本池和公共样本池，储存入公共样本池是为了供前进模型学习；如果k+1时刻牛顿迭代不收敛，则将该马尔可夫决策样本储存入后退模型样本池；

2.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法，其特征在于，强化学习双模型网络权重包括评价网络的价值网络权重θ、目标价值网络权重和执行网络的网络权重φ；前进模型样本池、后退模型样本池和二者的公共样本池中的样本包括仿真电路状态，仿真电路状态包括电路残差χ、电压相对变化率γ和牛顿拉夫逊法迭代次数ε。

3.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法，其特征在于，步骤S5中标准化处理的函数公式为：

其中，为标准化后的k+1时刻的仿真电路状态；x_k+1为k+1时刻的仿真电路状态；为k+1时刻前进模型样本池或后退模型样本池中状态的均值；s_k+1为k+1时刻前进模型样本池或后退模型样本池中状态的标准差；

通过公式(2)将原状态电路残差χ、原状态电压相对变化率γ和原状态牛顿拉夫逊法迭代次数ε分别转化为标准化后的电路残差标准化后的电压相对变化率标准化后的牛顿拉夫逊法迭代次数

4.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法，其特征在于，步骤S6中当强化学习双模型处于前进模型时，其奖励函数公式为：

当强化学习双模型处于后退模型时，其奖励函数公式为：

其中，c_j为负比例系数，j＝1,2,…10；为标准化后的电路残差；为标准化后的电压相对变化率；为标准化后的牛顿拉夫逊法迭代次数；back为牛顿迭代收敛标志位；act为强化学习双模型输出的动作值。

5.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法，其特征在于，步骤S7中评价网络更新方法为：

采用批数量为N的随机批量梯度下降法对评价网络进行更新，其马尔可夫决策样本总均方误差作为损失函数为：

其中，评价网络函数分为价值函数Q_θ(s_i,a_i)和目标价值函数价值函数和目标价值函数的网络结构相同而网络参数分别为θ和输入均为第i个样本的状态s_i和动作a_i，Q_θ(s_i,a_i)实时更新，而每更新n次后，才会将网络参数完全复制给因此评价网络的更新公式为：

其中，y_i为目标价值函数的输出，α为学习率。

6.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法，其特征在于，步骤S7中执行网络更新方法为：

其中，执行网络参数为φ，执行网络函数为π_φ，N为随机批量梯度下降法的批数量，Q_θ(s_i,a_i)为评价网络函数的价值函数，s_i和a_i分别为第i个样本的状态和动作，α为学习率。

7.一种执行权利要求1-6任一项所述基于强化学习双模型结构的集成电路直流分析方法的***，其特征在于，该***包括强化学习双模型和集成电路仿真器，其中，强化学习双模型包括前进模型和后退模型，前进模型和后退模型均包括评价器和执行器，执行器将输出的动作计算成时间步长给集成电路仿真器得到下一步电路的状态，并输出仿真电路状态至执行器和评价器，同时，强化学习模型将计算的奖励值输出给评价器，评价器将时间差分误差输出给执行器。

8.根据权利要求7所述的基于强化学习双模型结构的集成电路直流分析***，其特征在于，评价器中的评价网络为以leaky-Relu作为激活函数，5层每层256个神经元组成的神经网络；执行器中的执行网络为4层leaky-Relu作为激活函数，最后一层采用Sigmoid作为激活函数的五层每层256个神经元组成的神经网络。