CN114139472B - 基于强化学习双模型结构的集成电路直流分析方法及*** - Google Patents
基于强化学习双模型结构的集成电路直流分析方法及*** Download PDFInfo
- Publication number
- CN114139472B CN114139472B CN202111297554.9A CN202111297554A CN114139472B CN 114139472 B CN114139472 B CN 114139472B CN 202111297554 A CN202111297554 A CN 202111297554A CN 114139472 B CN114139472 B CN 114139472B
- Authority
- CN
- China
- Prior art keywords
- model
- reinforcement learning
- time
- state
- backward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 68
- 238000004458 analytical method Methods 0.000 title claims abstract description 37
- 238000004088 simulation Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 62
- 230000009977 dual effect Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 45
- 230000009471 action Effects 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 16
- 210000004027 cell Anatomy 0.000 claims description 15
- 230000001052 transient effect Effects 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 12
- 238000013461 design Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- WYMDDFRYORANCC-UHFFFAOYSA-N 2-[[3-[bis(carboxymethyl)amino]-2-hydroxypropyl]-(carboxymethyl)amino]acetic acid Chemical compound OC(=O)CN(CC(O)=O)CC(O)CN(CC(O)=O)CC(O)=O WYMDDFRYORANCC-UHFFFAOYSA-N 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 238000002940 Newton-Raphson method Methods 0.000 description 1
- 235000009470 Theobroma cacao Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 244000240602 cacao Species 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 229920003366 poly(p-phenylene terephthalamide) Polymers 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/30—Circuit design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Design And Manufacture Of Integrated Circuits (AREA)
Abstract
本发明公开了一种基于强化学习双模型结构的集成电路直流分析方法及***,该方法使用双模型强化学习算法来制定集成电路伪瞬态分析的步长控制策略。强化学习双模型包括前进模型和后退模型,以集成电路仿真的状态变量作为模型输入,判断目前电路所处的状态并输出一个最优的仿真步长。本发明提供的基于强化学习双模型结构的集成电路直流分析方法可以通过电路的不同状态来自适应步长的输出,两个模型引入公共样本池来相互学习各自的经验,从而使得算法更快地收敛。将连续的步长输出代替了传统算法的离散步长输出,可以更快地提高仿真效率,大大降低了牛顿拉夫逊法的迭代次数和仿真时间。
Description
技术领域
本发明涉及集成电路仿真技术,具体涉及基于强化学习双模型结构的集成电路直流分析方法及***。
背景技术
在集成电路设计的晶体管级电路仿真中,计算直流工作点是最重要和最基本的任务之一,如何成功求得合适的直流工作点一直以来都是学术界和工业界重点关注的对象。在传统的寻找直流工作点的方法,有purePTA、CEPTA、DPTA等等,上述方法通过数值积分的方法来计算直流工作点已经研究了几年了,这些方法都对寻找直流工作点做出了重要的贡献。然而很少有研究是关于寻找更合适的数值积分离散时间控制算法,并且这些算法在离散时间步长控制上存在一些仿真效率问题。因此,采用一种更有效的数值积分离散时间控制算法对于牛顿拉夫逊法的迭代是非常需要的。
强化学习是一种用于描述和解决智能体与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的算法。强化学习算法目前已经愈发成熟,但目前还未广泛应用在集成电路设计的晶体管级电路仿真领域,该领域中传统的伪瞬态分析仿真方法以一个固定的离散步长倍数来控制仿真的下一步步长,没有针对仿真电路的理论性分析和模型自适应,难以解决仿真的效率问题。强化学习不基于模型且能够自主的探索状态空间以找到最优的策略,因此,将强化学习算法运用在这个方向上可以很好地解决效率低下的问题。
发明内容
发明目的:本发明的一个目的是提供一种基于强化学习双模型结构的集成电路直流分析方法,针对集成电路设计的晶体管级电路仿真,根据电路仿真过程中的状态变量来适应仿真的电路模型从而采取最优的步长选择策略,用一个自适应的连续步长代替传统算法的离散步长,从而大幅降低牛顿拉夫逊法的迭代次数以及仿真时间;
本发明的另一个目的是提供一种基于强化学习双模型结构的集成电路直流分析***。
技术方案:本发明的基于强化学习双模型结构的集成电路直流分析方法,包括以下步骤:
S1、初始化强化学习双模型及集成电路仿真器;
初始化强化学习双模型包括:初始化强化学习双模型网络权重,初始化前进模型样本池,初始化后退模型样本池,初始化前进模型和后退模型的公共样本池;
初始化集成电路仿真器包括:设定初始化仿真时间步长为t0;
S2、集成电路仿真器通过初始化仿真步长t0得到k=1时刻的仿真电路状态x1;判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况,得到k=1时刻牛顿迭代收敛标志位back1,如果牛顿拉夫逊法的迭代次数收敛,则k=1时刻牛顿迭代收敛标志位back1为0,否则back1为1;
S3、将k时刻的牛顿迭代收敛标志位backk和k时刻的仿真电路状态xk输出到强化学习双模型中,其中,k≥1;根据初始化牛顿迭代收敛标志位backk选择使用前进模型或者后退模型;然后将k时刻的仿真电路状态xk作为前进模型或者后退模型的输入,继而输出k时刻的动作,并根据前一步仿真时间步长tk-1计算仿真时间步长tk;
S4、将步骤S3输出的k时刻的仿真时间步长tk输入到集成电路仿真器中,集成电路仿真器使用牛顿拉夫逊法进行伪瞬态分析,得到k+1时刻的仿真电路状态xk+1,再次判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况,得到k+1时刻牛顿迭代收敛标志位backk+1,将得到的k+1时刻牛顿迭代收敛标志位backk+1和k+1时刻的仿真电路状态xk+1反馈到强化学习双模型的前进模型或者后退模型中;
S6、通过步骤S5中标准化后的k+1时刻的仿真电路状态以及步骤S4中的k+1时刻牛顿迭代收敛标志位backk+1计算每一步的前进模型奖励或者后退模型奖励,然后判断k+1时刻牛顿迭代的收敛情况,并根据收敛情况更新样本池;
S7、采用随机梯度下降法,从前进模型样本池或后退模型样本池,以及二者的公共样本池中共取出数量为N的马尔可夫决策样本,分别更新前进模型或后退模型的网络参数;
S8、更新集成电路仿真器状态:将步骤S4中k+1时刻的仿真电路状态xk+1作为当前状态;
S9、判断伪瞬态分析法是否收敛,如果收敛,则结束仿真;如果不收敛,则令k=k+1,返回步骤S3执行,直至收敛。
进一步的,步骤S1中强化学习双模型网络权重包括评价网络的价值网络权重θ、目标价值网络权重和执行网络的网络权重φ;前进模型样本池、后退模型样本池和二者的公共样本池中的样本包括仿真电路状态,仿真电路状态包括电路残差χ、电压相对变化率γ和牛顿拉夫逊法迭代次数ε。
进一步的,步骤S3中前进模型或者后退模型输出为一个区间在(-1,1)之间的连续动作值,以此控制下一步的步长;前进模型和后退模型的步长计算公式为:
其中,tk为k时刻输出的步长,tk-1为k-1时刻输出的步长,m,n为前进模型的比例系数,a,b为回退模型的比例系数,act为强化学习模型输出的动作值,backk为k时刻牛顿迭代收敛标志位,其收敛时为0,不收敛则为1。
进一步的,步骤S5中标准化处理的函数公式为:
其中,为标准化后的k+1时刻的仿真电路状态;xk+1为k+1时刻的仿真电路状态;为k+1时刻前进模型样本池或后退模型样本池中状态的均值;sk+1为k+1时刻前进模型样本池或后退模型样本池中状态的标准差;
进一步的,步骤S6中奖励值采用奖励函数公式计算;
当强化学习双模型处于前进模型时,其奖励函数公式为:
当强化学习双模型处于后退模型时,其奖励函数公式为:
进一步的,步骤S6中更新样本池的方法为:
如果步骤S4中的k+1时刻牛顿迭代收敛标志位backk+1为0,即牛顿拉夫逊法迭代收敛,则将马尔可夫决策样本储存入前进模型样本池或后退模型样本池;如果步骤S4中的k+1时刻牛顿迭代收敛标志位backk+1为1,即牛顿拉夫逊法迭代不收敛,则将马尔可夫决策样本储存入前进模型样本池或后退模型样本池;如果k+1时刻与k时刻的牛顿迭代收敛标志位的值不同,则将马尔可夫决策样本同时存入前进模型和后退模型的公共样本池。
进一步的,步骤S7中评价网络更新方法为:
采用批数量为N的随机批量梯度下降法对评价网络进行更新,其马尔可夫决策样本总方均误差作为损失函数为:
其中,评价网络函数分为价值函数Qθ(si,ai)和目标价值函数价值函数和目标价值函数的网络结构相同而网络参数分别为θ和输入均为第i个样本的状态si和动作ai,Qθ(si,ai)实时更新,而每更新n次后,才会将网络参数完全复制给因此评价网络的更新公式为:
进一步的,步骤S7中执行网络更新方法为:
执行网络采用确定性策略梯度定理,使用批量梯度上升最大化策略目标函数,其更新公式为:
其中,执行网络参数为φ,执行网络函数为πφ。
本发明另一实施例中,基于强化学习双模型结构的集成电路直流分析***,包括强化学习双模型和集成电路仿真器,其中,强化学习双模型包括前进模型和后退模型,前进模型和后退模型均包括评价器和执行器,执行器将输出的动作计算成时间步长给集成电路仿真器得到下一步电路的状态,并输出仿真电路状态至执行器和评价器,同时,强化学习模型将计算的奖励值输出给评价器,评价器将时间差分误差输出给执行器。
优选的,评价器中的评价网络为以leaky-Relu作为激活函数,5层每层256个神经元组成的神经网络;执行器中的执行网络为4层leaky-Relu作为激活函数,最后一层采用Sigmoid作为激活函数的五层每层256个神经元组成的神经网络。
有益效果:与现有技术相比,本发明提供的基于变强化学习双模型结构的集成电路直流分析方法,使用前进和后退两个强化学习模型学习集成电路的模型性质,从而依照目标电路的模型来自适应地输出一个最优的步长,可以更好地适应于各类的集成电路仿真,同时输出一个连续的自适应步长代替了传统算法的离散步长,大幅地降低了牛顿拉夫逊法的迭代次数以及仿真时间,提出了公共样本池,使得两个模型可以相互借鉴对方的经验,从而更快地使得模型收敛。
附图说明
图1为本发明***结构框图;
图2为本发明方法流程图。
具体实施方式
下面结合附图和具体实施例,对本发明进行详细的阐述。
如图1所示,本发明的基于强化学习双模型结构的集成电路直流分析***,包括强化学习双模型和集成电路仿真器,其中,强化学习双模型包括前进模型和后退模型,前进模型和后退模型均包括评价器和执行器,执行器将输出的动作计算成时间步长给集成电路仿真器得到下一步电路的状态,并输出仿真电路状态至执行器和评价器,同时,强化学习模型将计算的奖励值输出给评价器,评价器将时间差分误差输出给执行器。
本发明的基于强化学习双模型结构的集成电路直流分析方法,使用基于强化学习的前进模型和后退模型分别控制步长的增加和缩减,根据集成电路仿真器输出的状态来控制前进模型和后退模型的导入和自适应仿真步长的输出,如图2所示,具体包括以下步骤:
S1、初始化强化学习双模型及集成电路仿真器;其中,初始化强化学习双模型包括:初始化强化学习双模型网络权重,初始化前进模型样本池,初始化后退模型样本池,初始化前进模型和后退模型的公共样本池;初始化集成电路仿真器包括:设定初始化仿真时间步长为t0。
本发明实施例中,强化学习双模型网络权重包括评价网络的价值网络权重θ、目标价值网络权重和执行网络的网络权重φ;前进模型样本池、后退模型样本池和二者的公共样本池中的样本包括仿真电路状态,仿真电路状态包括电路残差χ、电压相对变化率γ和牛顿拉夫逊法迭代次数ε。评价器中的评价网络为以leaky-Relu作为激活函数,5层每层256个神经元组成的神经网络;执行器中的执行网络为4层leaky-Relu作为激活函数,最后一层采用Sigmoid作为激活函数的五层每层256个神经元组成的神经网络。前进模型和后退模型的独立样本池和两者的公共样本池大小都为40000个马尔可夫决策样本容量;初始化仿真电路的状态,设定初始仿真步长为0.001秒,通过初始仿真步长得到电路仿真过程变量,判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况,将收敛标志位和仿真过程变量输出到双模型强化学习算法中。
S2、集成电路仿真器通过初始化仿真步长t0得到k=1时刻的仿真电路状态x1;判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况,得到k=1时刻牛顿迭代收敛标志位back1,如果牛顿拉夫逊法的迭代次数收敛,则k=1时刻牛顿迭代收敛标志位back1为0,否则back1为1。
S3、将k时刻的牛顿迭代收敛标志位backk和k时刻的仿真电路状态xk输出到强化学习双模型中,其中,k≥1;根据初始化牛顿迭代收敛标志位backk选择使用前进模型或者后退模型;然后将k时刻的仿真电路状态xk作为前进模型或者后退模型的输入,继而输出k时刻的动作值,并根据前一步仿真时间步长tk-1计算k时刻仿真时间步长tk;
前进模型或者后退模型中的执行网络输出一个区间为(-1,1)的连续动作值,以此控制下一步的步长:前进模型和后退模型的步长计算公式为:
其中,tk为k时刻输出的步长,tk-1为k-1时刻输出的步长,m,n为前进模型的比例系数,a,b为回退模型的比例系数,act为强化学习模型输出的动作值,backk为k时刻牛顿迭代收敛标志位,其收敛时为0,不收敛则为1。
S4、将步骤S3输出的k时刻的仿真时间步长tk输入到集成电路仿真器中,集成电路仿真器使用牛顿拉夫逊法进行伪瞬态分析,得到k+1时刻的仿真电路状态xk+1,再次判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况,得到k+1时刻牛顿迭代收敛标志位backk+1,将得到的k+1时刻牛顿迭代收敛标志位backk+1和k+1时刻的仿真电路状态xk+1反馈到强化学习双模型的前进模型或者后退模型中。
其中,为标准化后的k+1时刻的仿真电路状态;xk+1为k+1时刻的仿真电路状态;为k+1时刻前进模型样本池或后退模型样本池中状态的均值;sk+1为k+1时刻前进模型样本池或后退模型样本池中状态的标准差;当前进模型样本池或后退模型样本池中有M个样本时,其公式为:
S6、通过步骤S5中标准化后的k+1时刻的仿真电路状态,以及步骤S4中的k+1时刻牛顿迭代收敛标志位backk+1计算每一步的前进模型奖励或者后退模型奖励,然后判断k+1时刻牛顿迭代的收敛情况,并根据收敛情况更新样本池;
具体的:
通过标准化后的状态和收敛标志位计算其奖励函数:
当强化学习双模型处于前进模型时,计算其奖励函数为:
其中,ci(i=1,2,…5)为负比例系数,分别取-1.3、-2.7、-0.5、-3.8、-1.2,back为牛顿迭代收敛标志位,如果牛顿拉夫逊法的迭代次数收敛,牛顿迭代收敛标志位back为0,否则back为1。
将步骤S3中k时刻的仿真电路状态xk作为当前状态、步骤S4中k+1时刻的仿真电路状态xk+1作为下一步状态、动作和奖励值储存为一个马尔可夫决策样本,如果k+1时刻牛顿迭代收敛,则将该马尔可夫决策样本储存入前进模型样本池;如果k+1时刻牛顿迭代不收敛,则将该马尔可夫决策样本储存入前进模型样本池和公共样本池供,储存入公共样本池是为了供后退模型学习。
当强化学习双模型处于后退模型时,计算其奖励函数为:
其中,cj(j=6,7,…10)为负比例系数,分别取-1.2、-2.5、-0.5、-3.8、-1.2。
将步骤S3中k时刻的仿真电路状态xk作为当前状态、步骤S4中k+1时刻的仿真电路状态xk+1作为下一步状态、动作和奖励值储存为一个马尔可夫决策样本,如果k+1时刻牛顿迭代收敛,则将该马尔可夫决策样本储存入后退模型样本池和公共样本池,储存入公共样本池是为了供前进模型学习;如果k+1时刻牛顿迭代不收敛,则将该马尔可夫决策样本储存入后退模型样本池。
S7、采用随机梯度下降法,从前进模型样本池或后退模型样本池,以及二者的公共样本池中共取出数量为N的马尔可夫决策样本,分别更新前进模型或后退模型的网络参数;具体实施过程中取N为128;
采用批数量为N的随机批量梯度下降法对评价网络进行更新,其马尔可夫决策样本总方均误差作为损失函数为:
其中,评价网络函数分为价值函数Qθ(si,ai)和目标价值函数,价值函数和目标价值函数的网络结构相同而网络参数分别为θ和,输入均为第i个样本的状态si和动作ai,Qθ(si,ai)实时更新,而每更新n次后,才会将网络参数完全复制给因此评价网络的更新公式为:
执行网络采用确定性策略梯度定理,使用批量梯度上升最大化策略目标函数,其更新公式为:
其中,执行网络参数为φ,执行网络函数为πφ。
S8、更新集成电路仿真器状态:将步骤S4中k+1时刻的仿真电路状态xk+1作为当前状态;
S9、判断伪瞬态分析法是否收敛,如果收敛,则结束仿真;如果不收敛,则令k=k+1,返回步骤S3执行,直至收敛。
具体实施过程中在因特尔处理器i7-10750和6GB显存英伟达RTX2060GPU的个人计算机上利用python的2.1.0版本tensorflow库实现该方法。
分别测试了该方法在PPTA、CEPTA、DPTA、RPTA的性能,选取30000个不同类型的电路进行仿真对比,强化学***均加速比达到了6.9倍,7.2倍,极大地提高了仿真效率。
Claims (8)
1.基于强化学习双模型结构的集成电路直流分析方法,其特征在于,包括以下步骤:
S1、初始化强化学习双模型及集成电路仿真器;
初始化强化学习双模型包括:初始化强化学习双模型网络权重,初始化前进模型样本池,初始化后退模型样本池,初始化前进模型和后退模型的公共样本池;
初始化集成电路仿真器包括:设定初始化仿真时间步长为t0;
S2、集成电路仿真器通过初始化仿真步长t0得到k=1时刻的仿真电路状态x1;判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况,得到k=1时刻牛顿迭代收敛标志位back1,如果牛顿拉夫逊法的迭代次数收敛,则k=1时刻牛顿迭代收敛标志位back1为0,否则back1为1;
S3、将k时刻的牛顿迭代收敛标志位backk和k时刻的仿真电路状态xk输出到强化学习双模型中,其中,k≥1;根据初始化牛顿迭代收敛标志位backk选择使用前进模型或者后退模型;然后将k时刻的仿真电路状态xk作为前进模型或者后退模型的输入,继而输出k时刻的动作,并根据前一步仿真时间步长tk-1计算仿真时间步长tk;具体的:
前进模型或者后退模型中的执行网络输出一个区间为(-1,1)的连续动作值,以此控制下一步的步长:前进模型和后退模型的步长计算公式为:
其中,tk为k时刻输出的步长,tk-1为k-1时刻输出的步长,m,n为前进模型的比例系数,a,b为回退模型的比例系数,act为强化学习模型输出的动作值,backk为k时刻牛顿迭代收敛标志位,其收敛时为0,不收敛则为1;S4、将步骤S3输出的k时刻的仿真时间步长tk输入到集成电路仿真器中,集成电路仿真器使用牛顿拉夫逊法进行伪瞬态分析,得到k+1时刻的仿真电路状态xk+1,再次判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况,得到k+1时刻牛顿迭代收敛标志位backk+1,将得到的k+1时刻牛顿迭代收敛标志位backk+1和k+1时刻的仿真电路状态xk+1反馈到强化学习双模型的前进模型或者后退模型中;
S5、前进模型或者后退模型对输入的k+1时刻的仿真电路状态xk+1进行标准化处理,得到标准化后的k+1时刻的仿真电路状态
S6、通过步骤S5中标准化后的k+1时刻的仿真电路状态以及步骤S4中的k+1时刻牛顿迭代收敛标志位backk+1计算每一步的前进模型奖励或者后退模型奖励,然后判断k+1时刻牛顿迭代的收敛情况,并根据收敛情况更新样本池;具体的:
通过标准化后的状态和收敛标志位计算其奖励函数:
当强化学习双模型处于前进模型时,计算其奖励函数;将步骤S3中k时刻的仿真电路状态xk作为当前状态、步骤S4中k+1时刻的仿真电路状态xk+1作为下一步状态、动作和奖励值储存为一个马尔可夫决策样本,如果k+1时刻牛顿迭代收敛,则将该马尔可夫决策样本储存入前进模型样本池;如果k+1时刻牛顿迭代不收敛,则将该马尔可夫决策样本储存入前进模型样本池和公共样本池供,储存入公共样本池是为了供后退模型学习;
当强化学习双模型处于后退模型时,计算其奖励函数;将步骤S3中k时刻的仿真电路状态xk作为当前状态、步骤S4中k+1时刻的仿真电路状态xk+1作为下一步状态、动作和奖励值储存为一个马尔可夫决策样本,如果k+1时刻牛顿迭代收敛,则将该马尔可夫决策样本储存入后退模型样本池和公共样本池,储存入公共样本池是为了供前进模型学习;如果k+1时刻牛顿迭代不收敛,则将该马尔可夫决策样本储存入后退模型样本池;
S7、采用随机梯度下降法,从前进模型样本池或后退模型样本池,以及二者的公共样本池中共取出数量为N的马尔可夫决策样本,分别更新前进模型或后退模型的网络参数;
S8、更新集成电路仿真器状态:将步骤S4中k+1时刻的仿真电路状态xk+1作为当前状态;
S9、判断伪瞬态分析法是否收敛,如果收敛,则结束仿真;如果不收敛,则令k=k+1,返回步骤S3执行,直至收敛。
2.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法,其特征在于,强化学习双模型网络权重包括评价网络的价值网络权重θ、目标价值网络权重和执行网络的网络权重φ;前进模型样本池、后退模型样本池和二者的公共样本池中的样本包括仿真电路状态,仿真电路状态包括电路残差χ、电压相对变化率γ和牛顿拉夫逊法迭代次数ε。
3.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法,其特征在于,步骤S5中标准化处理的函数公式为:
其中,为标准化后的k+1时刻的仿真电路状态;xk+1为k+1时刻的仿真电路状态;为k+1时刻前进模型样本池或后退模型样本池中状态的均值;sk+1为k+1时刻前进模型样本池或后退模型样本池中状态的标准差;
通过公式(2)将原状态电路残差χ、原状态电压相对变化率γ和原状态牛顿拉夫逊法迭代次数ε分别转化为标准化后的电路残差标准化后的电压相对变化率标准化后的牛顿拉夫逊法迭代次数
4.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法,其特征在于,步骤S6中当强化学习双模型处于前进模型时,其奖励函数公式为:
当强化学习双模型处于后退模型时,其奖励函数公式为:
其中,cj为负比例系数,j=1,2,…10;为标准化后的电路残差;为标准化后的电压相对变化率;为标准化后的牛顿拉夫逊法迭代次数;back为牛顿迭代收敛标志位;act为强化学习双模型输出的动作值。
5.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法,其特征在于,步骤S7中评价网络更新方法为:
采用批数量为N的随机批量梯度下降法对评价网络进行更新,其马尔可夫决策样本总均方误差作为损失函数为:
其中,评价网络函数分为价值函数Qθ(si,ai)和目标价值函数价值函数和目标价值函数的网络结构相同而网络参数分别为θ和输入均为第i个样本的状态si和动作ai,Qθ(si,ai)实时更新,而每更新n次后,才会将网络参数完全复制给因此评价网络的更新公式为:
其中,yi为目标价值函数的输出,α为学习率。
6.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法,其特征在于,步骤S7中执行网络更新方法为:
执行网络采用确定性策略梯度定理,使用批量梯度上升最大化策略目标函数,其更新公式为:
其中,执行网络参数为φ,执行网络函数为πφ,N为随机批量梯度下降法的批数量,Qθ(si,ai)为评价网络函数的价值函数,si和ai分别为第i个样本的状态和动作,α为学习率。
7.一种执行权利要求1-6任一项所述基于强化学习双模型结构的集成电路直流分析方法的***,其特征在于,该***包括强化学习双模型和集成电路仿真器,其中,强化学习双模型包括前进模型和后退模型,前进模型和后退模型均包括评价器和执行器,执行器将输出的动作计算成时间步长给集成电路仿真器得到下一步电路的状态,并输出仿真电路状态至执行器和评价器,同时,强化学习模型将计算的奖励值输出给评价器,评价器将时间差分误差输出给执行器。
8.根据权利要求7所述的基于强化学习双模型结构的集成电路直流分析***,其特征在于,评价器中的评价网络为以leaky-Relu作为激活函数,5层每层256个神经元组成的神经网络;执行器中的执行网络为4层leaky-Relu作为激活函数,最后一层采用Sigmoid作为激活函数的五层每层256个神经元组成的神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111297554.9A CN114139472B (zh) | 2021-11-04 | 2021-11-04 | 基于强化学习双模型结构的集成电路直流分析方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111297554.9A CN114139472B (zh) | 2021-11-04 | 2021-11-04 | 基于强化学习双模型结构的集成电路直流分析方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114139472A CN114139472A (zh) | 2022-03-04 |
CN114139472B true CN114139472B (zh) | 2023-05-02 |
Family
ID=80392625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111297554.9A Active CN114139472B (zh) | 2021-11-04 | 2021-11-04 | 基于强化学习双模型结构的集成电路直流分析方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114139472B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977534A (zh) * | 2019-03-22 | 2019-07-05 | 清华大学 | 基于强化学习的电路参数优化方法及*** |
CN113113928A (zh) * | 2021-04-12 | 2021-07-13 | 国网江苏省电力有限公司电力科学研究院 | 基于深度强化学习的柔直***直流母线电压控制方法及装置 |
CN113435606A (zh) * | 2021-07-01 | 2021-09-24 | 吉林大学 | 强化学习模型的优化方法、装置、存储介质及电子设备 |
CN113485380A (zh) * | 2021-08-20 | 2021-10-08 | 广东工业大学 | 一种基于强化学习的agv路径规划方法及*** |
CN113510704A (zh) * | 2021-06-25 | 2021-10-19 | 青岛博晟优控智能科技有限公司 | 一种基于强化学习算法的工业机械臂运动规划方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401937A (zh) * | 2020-02-26 | 2020-07-10 | 平安科技(深圳)有限公司 | 数据推送方法、装置及存储介质 |
CN113268854A (zh) * | 2021-04-16 | 2021-08-17 | 中国人民解放军军事科学院国防科技创新研究院 | 一种双评价器单执行器的强化学习方法及*** |
-
2021
- 2021-11-04 CN CN202111297554.9A patent/CN114139472B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977534A (zh) * | 2019-03-22 | 2019-07-05 | 清华大学 | 基于强化学习的电路参数优化方法及*** |
CN113113928A (zh) * | 2021-04-12 | 2021-07-13 | 国网江苏省电力有限公司电力科学研究院 | 基于深度强化学习的柔直***直流母线电压控制方法及装置 |
CN113510704A (zh) * | 2021-06-25 | 2021-10-19 | 青岛博晟优控智能科技有限公司 | 一种基于强化学习算法的工业机械臂运动规划方法 |
CN113435606A (zh) * | 2021-07-01 | 2021-09-24 | 吉林大学 | 强化学习模型的优化方法、装置、存储介质及电子设备 |
CN113485380A (zh) * | 2021-08-20 | 2021-10-08 | 广东工业大学 | 一种基于强化学习的agv路径规划方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN114139472A (zh) | 2022-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107688849B (zh) | 一种动态策略定点化训练方法及装置 | |
CN107679618B (zh) | 一种静态策略定点化训练方法及装置 | |
US11928600B2 (en) | Sequence-to-sequence prediction using a neural network model | |
CN110674933A (zh) | 用于提高神经网络推断准确度的流水线技术 | |
CN108140146A (zh) | 用于使用绝热量子计算机进行机器学习的离散变分自动编码器***和方法 | |
WO2022105108A1 (zh) | 一种网络数据分类方法、装置、设备及可读存储介质 | |
CN108009635A (zh) | 一种支持增量更新的深度卷积计算模型 | |
CN113257361A (zh) | 自适应蛋白质预测框架的实现方法、装置及设备 | |
CN114282478A (zh) | 一种修正可变电阻器件阵列点乘误差的方法 | |
CN114139472B (zh) | 基于强化学习双模型结构的集成电路直流分析方法及*** | |
CN113837350A (zh) | 神经形态设备和训练用于图像识别的神经网络的方法 | |
Amaya et al. | Neurorobotic reinforcement learning for domains with parametrical uncertainty | |
CN112215363A (zh) | 用于为机器人创建策略的方法、设备和计算机程序 | |
Burms et al. | Reward-modulated Hebbian plasticity as leverage for partially embodied control in compliant robotics | |
CN115392594B (zh) | 一种基于神经网络和特征筛选的用电负荷模型训练方法 | |
CN114290339B (zh) | 基于强化学习和残差建模的机器人现实迁移方法 | |
CN115984025A (zh) | 基于深度学习图网络模型的影响力传播估计方法及*** | |
Lu et al. | NVMLearn: a simulation platform for non-volatile-memory-based deep learning hardware | |
CN114911157A (zh) | 基于部分可观测强化学习的机器人导航控制方法及*** | |
TWI767122B (zh) | 模型建構方法、系統及非揮發性電腦可讀取記錄媒體 | |
WO2020054402A1 (ja) | ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法 | |
Hu et al. | Neural-PDE: a RNN based neural network for solving time dependent PDEs | |
Wilson et al. | Evolving Differentiable Gene Regulatory Networks | |
CN113485107B (zh) | 基于一致性约束建模的强化学习机器人控制方法及*** | |
Brause | Adaptive modeling of biochemical pathways |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |