CN114139472B - 基于强化学习双模型结构的集成电路直流分析方法及*** - Google Patents

基于强化学习双模型结构的集成电路直流分析方法及*** Download PDF

Info

Publication number
CN114139472B
CN114139472B CN202111297554.9A CN202111297554A CN114139472B CN 114139472 B CN114139472 B CN 114139472B CN 202111297554 A CN202111297554 A CN 202111297554A CN 114139472 B CN114139472 B CN 114139472B
Authority
CN
China
Prior art keywords
model
reinforcement learning
time
state
backward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111297554.9A
Other languages
English (en)
Other versions
CN114139472A (zh
Inventor
牛丹
金洲
董毅超
裴浩杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yunniu Intelligent Technology Co ltd
Jiangyin Zhixing Industrial Control Technology Co ltd
Original Assignee
Nanjing Yunniu Intelligent Technology Co ltd
Jiangyin Zhixing Industrial Control Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yunniu Intelligent Technology Co ltd, Jiangyin Zhixing Industrial Control Technology Co ltd filed Critical Nanjing Yunniu Intelligent Technology Co ltd
Priority to CN202111297554.9A priority Critical patent/CN114139472B/zh
Publication of CN114139472A publication Critical patent/CN114139472A/zh
Application granted granted Critical
Publication of CN114139472B publication Critical patent/CN114139472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Design And Manufacture Of Integrated Circuits (AREA)

Abstract

本发明公开了一种基于强化学习双模型结构的集成电路直流分析方法及***,该方法使用双模型强化学习算法来制定集成电路伪瞬态分析的步长控制策略。强化学习双模型包括前进模型和后退模型,以集成电路仿真的状态变量作为模型输入,判断目前电路所处的状态并输出一个最优的仿真步长。本发明提供的基于强化学习双模型结构的集成电路直流分析方法可以通过电路的不同状态来自适应步长的输出,两个模型引入公共样本池来相互学习各自的经验,从而使得算法更快地收敛。将连续的步长输出代替了传统算法的离散步长输出,可以更快地提高仿真效率,大大降低了牛顿拉夫逊法的迭代次数和仿真时间。

Description

基于强化学习双模型结构的集成电路直流分析方法及***
技术领域
本发明涉及集成电路仿真技术,具体涉及基于强化学习双模型结构的集成电路直流分析方法及***。
背景技术
在集成电路设计的晶体管级电路仿真中,计算直流工作点是最重要和最基本的任务之一,如何成功求得合适的直流工作点一直以来都是学术界和工业界重点关注的对象。在传统的寻找直流工作点的方法,有purePTA、CEPTA、DPTA等等,上述方法通过数值积分的方法来计算直流工作点已经研究了几年了,这些方法都对寻找直流工作点做出了重要的贡献。然而很少有研究是关于寻找更合适的数值积分离散时间控制算法,并且这些算法在离散时间步长控制上存在一些仿真效率问题。因此,采用一种更有效的数值积分离散时间控制算法对于牛顿拉夫逊法的迭代是非常需要的。
强化学习是一种用于描述和解决智能体与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的算法。强化学习算法目前已经愈发成熟,但目前还未广泛应用在集成电路设计的晶体管级电路仿真领域,该领域中传统的伪瞬态分析仿真方法以一个固定的离散步长倍数来控制仿真的下一步步长,没有针对仿真电路的理论性分析和模型自适应,难以解决仿真的效率问题。强化学习不基于模型且能够自主的探索状态空间以找到最优的策略,因此,将强化学习算法运用在这个方向上可以很好地解决效率低下的问题。
发明内容
发明目的:本发明的一个目的是提供一种基于强化学习双模型结构的集成电路直流分析方法,针对集成电路设计的晶体管级电路仿真,根据电路仿真过程中的状态变量来适应仿真的电路模型从而采取最优的步长选择策略,用一个自适应的连续步长代替传统算法的离散步长,从而大幅降低牛顿拉夫逊法的迭代次数以及仿真时间;
本发明的另一个目的是提供一种基于强化学习双模型结构的集成电路直流分析***。
技术方案:本发明的基于强化学习双模型结构的集成电路直流分析方法,包括以下步骤:
S1、初始化强化学习双模型及集成电路仿真器;
初始化强化学习双模型包括:初始化强化学习双模型网络权重,初始化前进模型样本池,初始化后退模型样本池,初始化前进模型和后退模型的公共样本池;
初始化集成电路仿真器包括:设定初始化仿真时间步长为t0
S2、集成电路仿真器通过初始化仿真步长t0得到k=1时刻的仿真电路状态x1;判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况,得到k=1时刻牛顿迭代收敛标志位back1,如果牛顿拉夫逊法的迭代次数收敛,则k=1时刻牛顿迭代收敛标志位back1为0,否则back1为1;
S3、将k时刻的牛顿迭代收敛标志位backk和k时刻的仿真电路状态xk输出到强化学习双模型中,其中,k≥1;根据初始化牛顿迭代收敛标志位backk选择使用前进模型或者后退模型;然后将k时刻的仿真电路状态xk作为前进模型或者后退模型的输入,继而输出k时刻的动作,并根据前一步仿真时间步长tk-1计算仿真时间步长tk
S4、将步骤S3输出的k时刻的仿真时间步长tk输入到集成电路仿真器中,集成电路仿真器使用牛顿拉夫逊法进行伪瞬态分析,得到k+1时刻的仿真电路状态xk+1,再次判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况,得到k+1时刻牛顿迭代收敛标志位backk+1,将得到的k+1时刻牛顿迭代收敛标志位backk+1和k+1时刻的仿真电路状态xk+1反馈到强化学习双模型的前进模型或者后退模型中;
S5、前进模型或者后退模型对输入的k+1时刻的仿真电路状态xk+1进行标准化处理,得到标准化后的k+1时刻的仿真电路状态
Figure BDA0003337111910000021
S6、通过步骤S5中标准化后的k+1时刻的仿真电路状态
Figure BDA0003337111910000022
以及步骤S4中的k+1时刻牛顿迭代收敛标志位backk+1计算每一步的前进模型奖励或者后退模型奖励,然后判断k+1时刻牛顿迭代的收敛情况,并根据收敛情况更新样本池;
S7、采用随机梯度下降法,从前进模型样本池或后退模型样本池,以及二者的公共样本池中共取出数量为N的马尔可夫决策样本,分别更新前进模型或后退模型的网络参数;
S8、更新集成电路仿真器状态:将步骤S4中k+1时刻的仿真电路状态xk+1作为当前状态;
S9、判断伪瞬态分析法是否收敛,如果收敛,则结束仿真;如果不收敛,则令k=k+1,返回步骤S3执行,直至收敛。
进一步的,步骤S1中强化学习双模型网络权重包括评价网络的价值网络权重θ、目标价值网络权重
Figure BDA0003337111910000031
和执行网络的网络权重φ;前进模型样本池、后退模型样本池和二者的公共样本池中的样本包括仿真电路状态,仿真电路状态包括电路残差χ、电压相对变化率γ和牛顿拉夫逊法迭代次数ε。
进一步的,步骤S3中前进模型或者后退模型输出为一个区间在(-1,1)之间的连续动作值,以此控制下一步的步长;前进模型和后退模型的步长计算公式为:
Figure BDA0003337111910000032
其中,tk为k时刻输出的步长,tk-1为k-1时刻输出的步长,m,n为前进模型的比例系数,a,b为回退模型的比例系数,act为强化学习模型输出的动作值,backk为k时刻牛顿迭代收敛标志位,其收敛时为0,不收敛则为1。
进一步的,步骤S5中标准化处理的函数公式为:
Figure BDA0003337111910000033
其中,
Figure BDA0003337111910000034
为标准化后的k+1时刻的仿真电路状态;xk+1为k+1时刻的仿真电路状态;
Figure BDA0003337111910000035
为k+1时刻前进模型样本池或后退模型样本池中状态的均值;sk+1为k+1时刻前进模型样本池或后退模型样本池中状态的标准差;
通过公式(2)将原状态电路残差χ、原状态电压相对变化率γ和原状态牛顿拉夫逊法迭代次数ε分别转化为标准化后的电路残差
Figure BDA0003337111910000041
标准化后的电压相对变化率
Figure BDA0003337111910000042
标准化后的牛顿拉夫逊法迭代次数
Figure BDA0003337111910000043
进一步的,步骤S6中奖励值采用奖励函数公式计算;
当强化学习双模型处于前进模型时,其奖励函数公式为:
Figure BDA0003337111910000044
当强化学习双模型处于后退模型时,其奖励函数公式为:
Figure BDA0003337111910000045
其中,cj为负比例系数,j=1,2,…10;
Figure BDA0003337111910000046
为标准化后的电路残差;
Figure BDA0003337111910000047
为标准化后的电压相对变化率;
Figure BDA0003337111910000048
为标准化后的牛顿拉夫逊法迭代次数;back为牛顿迭代收敛标志位;act为强化学习双模型输出的动作值。
进一步的,步骤S6中更新样本池的方法为:
如果步骤S4中的k+1时刻牛顿迭代收敛标志位backk+1为0,即牛顿拉夫逊法迭代收敛,则将马尔可夫决策样本储存入前进模型样本池或后退模型样本池;如果步骤S4中的k+1时刻牛顿迭代收敛标志位backk+1为1,即牛顿拉夫逊法迭代不收敛,则将马尔可夫决策样本储存入前进模型样本池或后退模型样本池;如果k+1时刻与k时刻的牛顿迭代收敛标志位的值不同,则将马尔可夫决策样本同时存入前进模型和后退模型的公共样本池。
进一步的,步骤S7中评价网络更新方法为:
采用批数量为N的随机批量梯度下降法对评价网络进行更新,其马尔可夫决策样本总方均误差作为损失函数为:
Figure BDA0003337111910000049
其中,评价网络函数分为价值函数Qθ(si,ai)和目标价值函数
Figure BDA00033371119100000410
价值函数和目标价值函数的网络结构相同而网络参数分别为θ和
Figure BDA00033371119100000411
输入均为第i个样本的状态si和动作ai,Qθ(si,ai)实时更新,而每更新n次后,才会将网络参数完全复制给
Figure BDA00033371119100000412
因此评价网络的更新公式为:
Figure BDA0003337111910000051
Figure BDA0003337111910000052
其中,yi为目标价值函数
Figure BDA0003337111910000053
的输出,α为学习率。
进一步的,步骤S7中执行网络更新方法为:
执行网络采用确定性策略梯度定理,使用批量梯度上升最大化策略目标函数,其更新公式为:
Figure BDA0003337111910000054
Figure BDA0003337111910000055
其中,执行网络参数为φ,执行网络函数为πφ
本发明另一实施例中,基于强化学习双模型结构的集成电路直流分析***,包括强化学习双模型和集成电路仿真器,其中,强化学习双模型包括前进模型和后退模型,前进模型和后退模型均包括评价器和执行器,执行器将输出的动作计算成时间步长给集成电路仿真器得到下一步电路的状态,并输出仿真电路状态至执行器和评价器,同时,强化学习模型将计算的奖励值输出给评价器,评价器将时间差分误差输出给执行器。
优选的,评价器中的评价网络为以leaky-Relu作为激活函数,5层每层256个神经元组成的神经网络;执行器中的执行网络为4层leaky-Relu作为激活函数,最后一层采用Sigmoid作为激活函数的五层每层256个神经元组成的神经网络。
有益效果:与现有技术相比,本发明提供的基于变强化学习双模型结构的集成电路直流分析方法,使用前进和后退两个强化学习模型学习集成电路的模型性质,从而依照目标电路的模型来自适应地输出一个最优的步长,可以更好地适应于各类的集成电路仿真,同时输出一个连续的自适应步长代替了传统算法的离散步长,大幅地降低了牛顿拉夫逊法的迭代次数以及仿真时间,提出了公共样本池,使得两个模型可以相互借鉴对方的经验,从而更快地使得模型收敛。
附图说明
图1为本发明***结构框图;
图2为本发明方法流程图。
具体实施方式
下面结合附图和具体实施例,对本发明进行详细的阐述。
如图1所示,本发明的基于强化学习双模型结构的集成电路直流分析***,包括强化学习双模型和集成电路仿真器,其中,强化学习双模型包括前进模型和后退模型,前进模型和后退模型均包括评价器和执行器,执行器将输出的动作计算成时间步长给集成电路仿真器得到下一步电路的状态,并输出仿真电路状态至执行器和评价器,同时,强化学习模型将计算的奖励值输出给评价器,评价器将时间差分误差输出给执行器。
本发明的基于强化学习双模型结构的集成电路直流分析方法,使用基于强化学习的前进模型和后退模型分别控制步长的增加和缩减,根据集成电路仿真器输出的状态来控制前进模型和后退模型的导入和自适应仿真步长的输出,如图2所示,具体包括以下步骤:
S1、初始化强化学习双模型及集成电路仿真器;其中,初始化强化学习双模型包括:初始化强化学习双模型网络权重,初始化前进模型样本池,初始化后退模型样本池,初始化前进模型和后退模型的公共样本池;初始化集成电路仿真器包括:设定初始化仿真时间步长为t0
本发明实施例中,强化学习双模型网络权重包括评价网络的价值网络权重θ、目标价值网络权重
Figure BDA0003337111910000061
和执行网络的网络权重φ;前进模型样本池、后退模型样本池和二者的公共样本池中的样本包括仿真电路状态,仿真电路状态包括电路残差χ、电压相对变化率γ和牛顿拉夫逊法迭代次数ε。评价器中的评价网络为以leaky-Relu作为激活函数,5层每层256个神经元组成的神经网络;执行器中的执行网络为4层leaky-Relu作为激活函数,最后一层采用Sigmoid作为激活函数的五层每层256个神经元组成的神经网络。前进模型和后退模型的独立样本池和两者的公共样本池大小都为40000个马尔可夫决策样本容量;初始化仿真电路的状态,设定初始仿真步长为0.001秒,通过初始仿真步长得到电路仿真过程变量,判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况,将收敛标志位和仿真过程变量输出到双模型强化学习算法中。
S2、集成电路仿真器通过初始化仿真步长t0得到k=1时刻的仿真电路状态x1;判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况,得到k=1时刻牛顿迭代收敛标志位back1,如果牛顿拉夫逊法的迭代次数收敛,则k=1时刻牛顿迭代收敛标志位back1为0,否则back1为1。
S3、将k时刻的牛顿迭代收敛标志位backk和k时刻的仿真电路状态xk输出到强化学习双模型中,其中,k≥1;根据初始化牛顿迭代收敛标志位backk选择使用前进模型或者后退模型;然后将k时刻的仿真电路状态xk作为前进模型或者后退模型的输入,继而输出k时刻的动作值,并根据前一步仿真时间步长tk-1计算k时刻仿真时间步长tk
前进模型或者后退模型中的执行网络输出一个区间为(-1,1)的连续动作值,以此控制下一步的步长:前进模型和后退模型的步长计算公式为:
Figure BDA0003337111910000071
其中,tk为k时刻输出的步长,tk-1为k-1时刻输出的步长,m,n为前进模型的比例系数,a,b为回退模型的比例系数,act为强化学习模型输出的动作值,backk为k时刻牛顿迭代收敛标志位,其收敛时为0,不收敛则为1。
S4、将步骤S3输出的k时刻的仿真时间步长tk输入到集成电路仿真器中,集成电路仿真器使用牛顿拉夫逊法进行伪瞬态分析,得到k+1时刻的仿真电路状态xk+1,再次判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况,得到k+1时刻牛顿迭代收敛标志位backk+1,将得到的k+1时刻牛顿迭代收敛标志位backk+1和k+1时刻的仿真电路状态xk+1反馈到强化学习双模型的前进模型或者后退模型中。
S5、前进模型或者后退模型对输入的k+1时刻的仿真电路状态xk+1进行标准化处理,使得仿真电路状态变量处于一个数量级,得到标准化后的k+1时刻的仿真电路状态
Figure BDA0003337111910000072
为;
Figure BDA0003337111910000073
其中,
Figure BDA0003337111910000081
为标准化后的k+1时刻的仿真电路状态;xk+1为k+1时刻的仿真电路状态;
Figure BDA0003337111910000082
为k+1时刻前进模型样本池或后退模型样本池中状态的均值;sk+1为k+1时刻前进模型样本池或后退模型样本池中状态的标准差;当前进模型样本池或后退模型样本池中有M个样本时,其公式为:
Figure BDA0003337111910000083
其中,
Figure BDA0003337111910000084
表示k+1时刻第i个样本的状态,
Figure BDA0003337111910000085
表示
Figure BDA0003337111910000086
的均值。
通过公式(2)将原状态电路残差χ、原状态电压相对变化率γ和原状态牛顿拉夫逊法迭代次数ε分别转化为标准化后的电路残差
Figure BDA0003337111910000087
、标准化后的电压相对变化率
Figure BDA0003337111910000088
、标准化后的牛顿拉夫逊法迭代次数
Figure BDA0003337111910000089
S6、通过步骤S5中标准化后的k+1时刻的仿真电路状态
Figure BDA00033371119100000810
,以及步骤S4中的k+1时刻牛顿迭代收敛标志位backk+1计算每一步的前进模型奖励或者后退模型奖励,然后判断k+1时刻牛顿迭代的收敛情况,并根据收敛情况更新样本池;
具体的:
通过标准化后的状态和收敛标志位计算其奖励函数:
当强化学习双模型处于前进模型时,计算其奖励函数为:
Figure BDA00033371119100000811
其中,ci(i=1,2,…5)为负比例系数,分别取-1.3、-2.7、-0.5、-3.8、-1.2,back为牛顿迭代收敛标志位,如果牛顿拉夫逊法的迭代次数收敛,牛顿迭代收敛标志位back为0,否则back为1。
将步骤S3中k时刻的仿真电路状态xk作为当前状态、步骤S4中k+1时刻的仿真电路状态xk+1作为下一步状态、动作和奖励值储存为一个马尔可夫决策样本,如果k+1时刻牛顿迭代收敛,则将该马尔可夫决策样本储存入前进模型样本池;如果k+1时刻牛顿迭代不收敛,则将该马尔可夫决策样本储存入前进模型样本池和公共样本池供,储存入公共样本池是为了供后退模型学习。
当强化学习双模型处于后退模型时,计算其奖励函数为:
Figure BDA0003337111910000091
其中,cj(j=6,7,…10)为负比例系数,分别取-1.2、-2.5、-0.5、-3.8、-1.2。
将步骤S3中k时刻的仿真电路状态xk作为当前状态、步骤S4中k+1时刻的仿真电路状态xk+1作为下一步状态、动作和奖励值储存为一个马尔可夫决策样本,如果k+1时刻牛顿迭代收敛,则将该马尔可夫决策样本储存入后退模型样本池和公共样本池,储存入公共样本池是为了供前进模型学习;如果k+1时刻牛顿迭代不收敛,则将该马尔可夫决策样本储存入后退模型样本池。
S7、采用随机梯度下降法,从前进模型样本池或后退模型样本池,以及二者的公共样本池中共取出数量为N的马尔可夫决策样本,分别更新前进模型或后退模型的网络参数;具体实施过程中取N为128;
采用批数量为N的随机批量梯度下降法对评价网络进行更新,其马尔可夫决策样本总方均误差作为损失函数为:
Figure BDA0003337111910000092
其中,评价网络函数分为价值函数Qθ(si,ai)和目标价值函数
Figure BDA0003337111910000093
,价值函数和目标价值函数的网络结构相同而网络参数分别为θ和
Figure BDA0003337111910000094
,输入均为第i个样本的状态si和动作ai,Qθ(si,ai)实时更新,而每更新n次后,才会将网络参数完全复制给
Figure BDA0003337111910000095
因此评价网络的更新公式为:
Figure BDA0003337111910000096
Figure BDA0003337111910000097
其中,yi为目标价值函数
Figure BDA0003337111910000098
的输出,α为学习率,取α=0.001。
执行网络采用确定性策略梯度定理,使用批量梯度上升最大化策略目标函数,其更新公式为:
Figure BDA0003337111910000099
Figure BDA0003337111910000101
其中,执行网络参数为φ,执行网络函数为πφ
S8、更新集成电路仿真器状态:将步骤S4中k+1时刻的仿真电路状态xk+1作为当前状态;
S9、判断伪瞬态分析法是否收敛,如果收敛,则结束仿真;如果不收敛,则令k=k+1,返回步骤S3执行,直至收敛。
具体实施过程中在因特尔处理器i7-10750和6GB显存英伟达RTX2060GPU的个人计算机上利用python的2.1.0版本tensorflow库实现该方法。
分别测试了该方法在PPTA、CEPTA、DPTA、RPTA的性能,选取30000个不同类型的电路进行仿真对比,强化学***均加速比达到了6.9倍,7.2倍,极大地提高了仿真效率。

Claims (8)

1.基于强化学习双模型结构的集成电路直流分析方法,其特征在于,包括以下步骤:
S1、初始化强化学习双模型及集成电路仿真器;
初始化强化学习双模型包括:初始化强化学习双模型网络权重,初始化前进模型样本池,初始化后退模型样本池,初始化前进模型和后退模型的公共样本池;
初始化集成电路仿真器包括:设定初始化仿真时间步长为t0
S2、集成电路仿真器通过初始化仿真步长t0得到k=1时刻的仿真电路状态x1;判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况,得到k=1时刻牛顿迭代收敛标志位back1,如果牛顿拉夫逊法的迭代次数收敛,则k=1时刻牛顿迭代收敛标志位back1为0,否则back1为1;
S3、将k时刻的牛顿迭代收敛标志位backk和k时刻的仿真电路状态xk输出到强化学习双模型中,其中,k≥1;根据初始化牛顿迭代收敛标志位backk选择使用前进模型或者后退模型;然后将k时刻的仿真电路状态xk作为前进模型或者后退模型的输入,继而输出k时刻的动作,并根据前一步仿真时间步长tk-1计算仿真时间步长tk;具体的:
前进模型或者后退模型中的执行网络输出一个区间为(-1,1)的连续动作值,以此控制下一步的步长:前进模型和后退模型的步长计算公式为:
其中,tk为k时刻输出的步长,tk-1为k-1时刻输出的步长,m,n为前进模型的比例系数,a,b为回退模型的比例系数,act为强化学习模型输出的动作值,backk为k时刻牛顿迭代收敛标志位,其收敛时为0,不收敛则为1;S4、将步骤S3输出的k时刻的仿真时间步长tk输入到集成电路仿真器中,集成电路仿真器使用牛顿拉夫逊法进行伪瞬态分析,得到k+1时刻的仿真电路状态xk+1,再次判断牛顿拉夫逊法的迭代次数和伪瞬态分析收敛情况,得到k+1时刻牛顿迭代收敛标志位backk+1,将得到的k+1时刻牛顿迭代收敛标志位backk+1和k+1时刻的仿真电路状态xk+1反馈到强化学习双模型的前进模型或者后退模型中;
S5、前进模型或者后退模型对输入的k+1时刻的仿真电路状态xk+1进行标准化处理,得到标准化后的k+1时刻的仿真电路状态
S6、通过步骤S5中标准化后的k+1时刻的仿真电路状态以及步骤S4中的k+1时刻牛顿迭代收敛标志位backk+1计算每一步的前进模型奖励或者后退模型奖励,然后判断k+1时刻牛顿迭代的收敛情况,并根据收敛情况更新样本池;具体的:
通过标准化后的状态和收敛标志位计算其奖励函数:
当强化学习双模型处于前进模型时,计算其奖励函数;将步骤S3中k时刻的仿真电路状态xk作为当前状态、步骤S4中k+1时刻的仿真电路状态xk+1作为下一步状态、动作和奖励值储存为一个马尔可夫决策样本,如果k+1时刻牛顿迭代收敛,则将该马尔可夫决策样本储存入前进模型样本池;如果k+1时刻牛顿迭代不收敛,则将该马尔可夫决策样本储存入前进模型样本池和公共样本池供,储存入公共样本池是为了供后退模型学习;
当强化学习双模型处于后退模型时,计算其奖励函数;将步骤S3中k时刻的仿真电路状态xk作为当前状态、步骤S4中k+1时刻的仿真电路状态xk+1作为下一步状态、动作和奖励值储存为一个马尔可夫决策样本,如果k+1时刻牛顿迭代收敛,则将该马尔可夫决策样本储存入后退模型样本池和公共样本池,储存入公共样本池是为了供前进模型学习;如果k+1时刻牛顿迭代不收敛,则将该马尔可夫决策样本储存入后退模型样本池;
S7、采用随机梯度下降法,从前进模型样本池或后退模型样本池,以及二者的公共样本池中共取出数量为N的马尔可夫决策样本,分别更新前进模型或后退模型的网络参数;
S8、更新集成电路仿真器状态:将步骤S4中k+1时刻的仿真电路状态xk+1作为当前状态;
S9、判断伪瞬态分析法是否收敛,如果收敛,则结束仿真;如果不收敛,则令k=k+1,返回步骤S3执行,直至收敛。
2.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法,其特征在于,强化学习双模型网络权重包括评价网络的价值网络权重θ、目标价值网络权重和执行网络的网络权重φ;前进模型样本池、后退模型样本池和二者的公共样本池中的样本包括仿真电路状态,仿真电路状态包括电路残差χ、电压相对变化率γ和牛顿拉夫逊法迭代次数ε。
3.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法,其特征在于,步骤S5中标准化处理的函数公式为:
其中,为标准化后的k+1时刻的仿真电路状态;xk+1为k+1时刻的仿真电路状态;为k+1时刻前进模型样本池或后退模型样本池中状态的均值;sk+1为k+1时刻前进模型样本池或后退模型样本池中状态的标准差;
通过公式(2)将原状态电路残差χ、原状态电压相对变化率γ和原状态牛顿拉夫逊法迭代次数ε分别转化为标准化后的电路残差标准化后的电压相对变化率标准化后的牛顿拉夫逊法迭代次数
4.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法,其特征在于,步骤S6中当强化学习双模型处于前进模型时,其奖励函数公式为:
当强化学习双模型处于后退模型时,其奖励函数公式为:
其中,cj为负比例系数,j=1,2,…10;为标准化后的电路残差;为标准化后的电压相对变化率;为标准化后的牛顿拉夫逊法迭代次数;back为牛顿迭代收敛标志位;act为强化学习双模型输出的动作值。
5.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法,其特征在于,步骤S7中评价网络更新方法为:
采用批数量为N的随机批量梯度下降法对评价网络进行更新,其马尔可夫决策样本总均方误差作为损失函数为:
其中,评价网络函数分为价值函数Qθ(si,ai)和目标价值函数价值函数和目标价值函数的网络结构相同而网络参数分别为θ和输入均为第i个样本的状态si和动作ai,Qθ(si,ai)实时更新,而每更新n次后,才会将网络参数完全复制给因此评价网络的更新公式为:
其中,yi为目标价值函数的输出,α为学习率。
6.根据权利要求1所述的基于强化学习双模型结构的集成电路直流分析方法,其特征在于,步骤S7中执行网络更新方法为:
执行网络采用确定性策略梯度定理,使用批量梯度上升最大化策略目标函数,其更新公式为:
其中,执行网络参数为φ,执行网络函数为πφ,N为随机批量梯度下降法的批数量,Qθ(si,ai)为评价网络函数的价值函数,si和ai分别为第i个样本的状态和动作,α为学习率。
7.一种执行权利要求1-6任一项所述基于强化学习双模型结构的集成电路直流分析方法的***,其特征在于,该***包括强化学习双模型和集成电路仿真器,其中,强化学习双模型包括前进模型和后退模型,前进模型和后退模型均包括评价器和执行器,执行器将输出的动作计算成时间步长给集成电路仿真器得到下一步电路的状态,并输出仿真电路状态至执行器和评价器,同时,强化学习模型将计算的奖励值输出给评价器,评价器将时间差分误差输出给执行器。
8.根据权利要求7所述的基于强化学习双模型结构的集成电路直流分析***,其特征在于,评价器中的评价网络为以leaky-Relu作为激活函数,5层每层256个神经元组成的神经网络;执行器中的执行网络为4层leaky-Relu作为激活函数,最后一层采用Sigmoid作为激活函数的五层每层256个神经元组成的神经网络。
CN202111297554.9A 2021-11-04 2021-11-04 基于强化学习双模型结构的集成电路直流分析方法及*** Active CN114139472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111297554.9A CN114139472B (zh) 2021-11-04 2021-11-04 基于强化学习双模型结构的集成电路直流分析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111297554.9A CN114139472B (zh) 2021-11-04 2021-11-04 基于强化学习双模型结构的集成电路直流分析方法及***

Publications (2)

Publication Number Publication Date
CN114139472A CN114139472A (zh) 2022-03-04
CN114139472B true CN114139472B (zh) 2023-05-02

Family

ID=80392625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111297554.9A Active CN114139472B (zh) 2021-11-04 2021-11-04 基于强化学习双模型结构的集成电路直流分析方法及***

Country Status (1)

Country Link
CN (1) CN114139472B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977534A (zh) * 2019-03-22 2019-07-05 清华大学 基于强化学习的电路参数优化方法及***
CN113113928A (zh) * 2021-04-12 2021-07-13 国网江苏省电力有限公司电力科学研究院 基于深度强化学习的柔直***直流母线电压控制方法及装置
CN113435606A (zh) * 2021-07-01 2021-09-24 吉林大学 强化学习模型的优化方法、装置、存储介质及电子设备
CN113485380A (zh) * 2021-08-20 2021-10-08 广东工业大学 一种基于强化学习的agv路径规划方法及***
CN113510704A (zh) * 2021-06-25 2021-10-19 青岛博晟优控智能科技有限公司 一种基于强化学习算法的工业机械臂运动规划方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401937A (zh) * 2020-02-26 2020-07-10 平安科技(深圳)有限公司 数据推送方法、装置及存储介质
CN113268854A (zh) * 2021-04-16 2021-08-17 中国人民解放军军事科学院国防科技创新研究院 一种双评价器单执行器的强化学习方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977534A (zh) * 2019-03-22 2019-07-05 清华大学 基于强化学习的电路参数优化方法及***
CN113113928A (zh) * 2021-04-12 2021-07-13 国网江苏省电力有限公司电力科学研究院 基于深度强化学习的柔直***直流母线电压控制方法及装置
CN113510704A (zh) * 2021-06-25 2021-10-19 青岛博晟优控智能科技有限公司 一种基于强化学习算法的工业机械臂运动规划方法
CN113435606A (zh) * 2021-07-01 2021-09-24 吉林大学 强化学习模型的优化方法、装置、存储介质及电子设备
CN113485380A (zh) * 2021-08-20 2021-10-08 广东工业大学 一种基于强化学习的agv路径规划方法及***

Also Published As

Publication number Publication date
CN114139472A (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN107688849B (zh) 一种动态策略定点化训练方法及装置
CN107679618B (zh) 一种静态策略定点化训练方法及装置
US11928600B2 (en) Sequence-to-sequence prediction using a neural network model
CN110674933A (zh) 用于提高神经网络推断准确度的流水线技术
CN108140146A (zh) 用于使用绝热量子计算机进行机器学习的离散变分自动编码器***和方法
WO2022105108A1 (zh) 一种网络数据分类方法、装置、设备及可读存储介质
CN108009635A (zh) 一种支持增量更新的深度卷积计算模型
CN113257361A (zh) 自适应蛋白质预测框架的实现方法、装置及设备
CN114282478A (zh) 一种修正可变电阻器件阵列点乘误差的方法
CN114139472B (zh) 基于强化学习双模型结构的集成电路直流分析方法及***
CN113837350A (zh) 神经形态设备和训练用于图像识别的神经网络的方法
Amaya et al. Neurorobotic reinforcement learning for domains with parametrical uncertainty
CN112215363A (zh) 用于为机器人创建策略的方法、设备和计算机程序
Burms et al. Reward-modulated Hebbian plasticity as leverage for partially embodied control in compliant robotics
CN115392594B (zh) 一种基于神经网络和特征筛选的用电负荷模型训练方法
CN114290339B (zh) 基于强化学习和残差建模的机器人现实迁移方法
CN115984025A (zh) 基于深度学习图网络模型的影响力传播估计方法及***
Lu et al. NVMLearn: a simulation platform for non-volatile-memory-based deep learning hardware
CN114911157A (zh) 基于部分可观测强化学习的机器人导航控制方法及***
TWI767122B (zh) 模型建構方法、系統及非揮發性電腦可讀取記錄媒體
WO2020054402A1 (ja) ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法
Hu et al. Neural-PDE: a RNN based neural network for solving time dependent PDEs
Wilson et al. Evolving Differentiable Gene Regulatory Networks
CN113485107B (zh) 基于一致性约束建模的强化学习机器人控制方法及***
Brause Adaptive modeling of biochemical pathways

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant