一种基于深度强化学习算法的离心压缩机调控方法
技术领域
本发明属于离心压缩机调控技术领域,具体涉及一种基于深度强化学习算法的离心压缩机调控方法。
背景技术
压缩机作为大型工业级***的代表,是各种大型化工厂、炼油厂等化学工业的关键设备,在国民经济尤其是整个重工业体系中占有十分重要的地位。随着流体机械与控制理论的不断深入发展,压缩机产业迅猛发展,广泛应用于航空航天、大型化工业等各个行业。在这一过程中,由于高功率密度、高效率等优点,离心压缩机得到了广泛的应用。由于控制参数的强耦合特性,离心压缩机运行性能极易受到外部环境的干扰,导致工作点漂移,甚至产生喘振现象,对离心压缩机的高效、安全运行提出了极大的挑战。因此,通过有效的调控,提高离心压缩机工作效率,扩大其运行范围,成为保障运行安全性与可靠性亟待解决的问题。
作为一种复杂的工业***,离心压缩机具有强耦合、强非线性、大滞后的特点。随着制造技术的不断发展,离心压缩机结构愈发复杂,控制参数之间的耦合关系日趋复杂,通过简单的数学公式难以进行描述,对其进行调控涉及整机效率、防喘振等多个目标。因此,离心压缩机控制参数优化不再是简单的寻优问题,已逐渐发展成大规模、多目标、多极值、多参数的搜索问题,成为离心压缩机节能增效与安全运行相关研究的重点和难点。
深度强化学习是一种启发式、自适应的新兴机器学习方法,它的思想源于动物从不断的尝试中获得的奖励或惩罚,并学会在特定情境下选择最优的行为的学习过程。深度强化学习在策略寻优方面体现出了非凡的性能,现阶段已经应用于开发新型控制器与机器人控制等领域。异步优势演员-评论家算法(Asynchronous Advantage Actor-criticAlgorithm,以下简称为A3C),是深度强化学习领域新一代算法,该算法起源于Actor-Critic算法,由执行者网络和评价网络两个网络组成,通过两个网络的结合实现动作选择与价值判断。A3C算法创建多个并行本地网络,并与全局网络进行信息交互实现并行化网络参数更新,具有收敛速度快,全局寻优能力强的特点。由于其强大的策略寻优能力,A3C算法现阶段被广泛应用于自动驾驶、机器人等行业,并取得了良好的效果。
鉴于A3C算法在工业控制与其他相关领域的成功应用,A3C深度强化学习算法成为实现压缩机调控智能化的一种可行方案,目前还没有相关文献公开。
发明内容
为了克服上述现有技术缺点,本发明目的在于提供一种基于深度强化学习算法的离心压缩机调控方法,针对离心压缩机工作点优化问题,通过A3C学习算法得到最优化控制参数,提高***运行效率,同时保证***压比,优化***安全性。
为实现上述目的,本发明采取的技术解决方案是:
一种基于深度强化学习算法的离心压缩机调控方法,针对离心压缩机多目标、多参数的控制优化问题,首先针对入口阀门开度,设计控制器;然后设置A3C算法并行计算worker数量,设置更新间隔,根据缩短调节时间、减小超调量的控制需求建立评价指标,利用评价指标设计A3C算法奖励函数,并根据控制补偿环节确定A3C算法动作参数,确定算法迭代终止条件;运行A3C算法,确定最优补偿参数。
一种基于深度强化学习算法的离心压缩机调控方法,包括以下步骤:
步骤1)通过Simulink仿真模型对离心压缩机***进行建模,Simulink仿真模型包括气腔质量守恒子***、压缩机动量守恒子***、节流阀动力学特性子***、近似的稳态压气机特性子***四个子***,以及检测环节,其中检测环节包括质量流量及进出口压力信号的检测;
步骤2)运行Simulink模型,获取压缩机质量流量和进出口压力时域波形,通过进出口压力时域波形计算调整时间、超调量、上升时间、峰值时间、电流与扭矩有效值之比的时间响应性能指标;
选择压比ε、效率指标η、可靠性指标df,将其作为评价指标,设置评价指标向量即状态向量St,
St={ε,η,df}
其中,压比ε为:
效率指标η取等温效率与等容积效率的平均值,效率指标η计算如下:
其中,ηT为等温效率,ηv为等容效率,等温效率ηT为:
等容效率ηv为:
其中,ωm为质量流量,R为所压缩气体的气体常数,T1为进口温度,Ptot为整机功率,整机功率Ptot计算为:
Ptot=ωm(c2uu2-c1uu1)
其中,u1为叶轮叶片进口线速度;c1u为绝对速度的切向分速度;u2为叶轮叶片进口线速度;c2u为叶轮进口绝对速度的切向分速度;u1、c1u、u2、c2u计算为:
其中,ρ为所压缩气体的密度,n为电机转速,Ain为压缩机入口截面积,α1为叶轮叶片进口绝对气流角;β2为叶轮叶片进口相对气流角;D1为进口叶轮直径;D2为出口叶轮直径;b2为出口叶高;
可靠性指标取工作点到喘振线的距离,即为:
df=|ωm-ωmax|
其中,ωmax为压缩机特性曲线极值点,即喘振阈值;
对状态向量St进行归一化得到归一化状态向量S't={ε',η',df'},作为执行者网络的输入Sta;
步骤3)将入口阀门开度K作为执行者网络产生的动作At,将归一化状态向量S't与At组合,作为评价网络的输入Stc,
Stc={ε',η',df',At}
设置奖励函数为Ra=S'tI,其中I为单位列向量;
步骤4)根据计算机计算能力确定A3C并行计算线程数目:设置梯度更新参数,包括每回合步长数tu与折扣因子γ,由于动作选择形式为连续选择,所以步长tu=1;
步骤5)根据输入状态及动作分别设计Actor-Critic算法中执行者网络与评价网络参数φ(s),选用径向基神经网络作为用于动作近似与策略近似的手段,在[0,1]区间内随机配置初始执行者网络参数θ与评价网络参数w,设置执行者网络学习率α=0.0001,评价网络学习率β=0.001,网络参数更新方式如下:
其中,π(a
is
i;θ')为策略函数,V(s
i;θ'
v)为评价网络输出,R
a为奖励函数,
为价值函数梯度,用来更新评价网络参数梯度,
为策略对数的梯度,用来更新执行者网络参数;
步骤6)设置算法训练最大回合数T作为算法终止条件,设置梯度裁剪,在不改变更新方向的前提下改善梯度***问题,梯度裁剪过程为:
其中,||g||为梯度向量g的二范数,θ为梯度裁剪的阈值;
步骤7)运行A3C算法进行迭代运算,观察运行结果,如果奖励函数Ra在最后20回合的变化ΔR10≤5或动作变化小于ΔAt≤0.4,则认为算法收敛,否则认为算法不收敛;当认为算法不收敛时,将最大迭代回合数加大20%,重复步骤5)-步骤7);运行整定后的离心压缩机***验证调控结果。
本发明的有益效果为
1.本发明对离心压缩机***控制参数进行优化,提高离心压缩机***运行效率,保证***稳定性,在保证***输出压比的前提下提高离心压缩机效率,提高***安全裕度,使得优化后的离心压缩机***运行性能得到显著提高。
2.本发明通过强化学习的手段对离心压缩机***进行智能调控,有利于寻找到最优化控制参数,优化压缩机***运行状态,显著提高离心压缩机***运行性能,延长使用寿命。
附图说明
图1是本发明的流程图。
图2是本发明实施例1离心压缩机调控方法的示意图。
图3是本发明实施例1离心压缩机***Simulink模型。
图4是本发明实施例1的阀门开度变化波形图。
图5是本发明实施例1的调控前后工作点对比图。
具体实施方式
以下结合附图和实施例对本发明进一步的详细说明。
参照图1,一种基于深度强化学习算法的离心压缩机调控方法,包括以下步骤:
步骤1)本实施例根据图1流程设计离心压缩机***调控方法如图2所示,通过Simulink仿真模型对离心压缩机***进行建模,选取的Simulink仿真模型如图3所示,本实施例采用离心式压缩机Greitzer模型,由气腔质量守恒子***、压缩机动量守恒子***、节流阀动力学特性子***、近似的稳态压气机特性子***四个子***组成;其中,压缩机阀门系数为7.375,Gretizer稳定参数B=0.12644;
步骤2)本实施例设置电机速度为4320r/min,运行初始状态下的Simulink模型,获取压缩机出口压力、质量流量时间幅值序列{pout},{ωm},N为采样点数,本实施例中N=20k;通过时域响应信号得到取压缩机压比ε、效率指标η、可靠性指标df等时间响应性能指标;
由于优化目的在于提高压缩机压比、效率,并降低压缩机发生喘振的可能性,所以选择压缩机压比ε、效率指标η、工作点与可靠性指标df作为评价指标,设置评价指标向量即状态向量St,
St={ε,η,df}
其中,压比ε为:
效率指标η取等温效率与等容积效率的平均值,效率指标η计算如下:
其中,ηT为等温效率,ηv为等容效率,等温效率ηT为:
等容效率ηv为:
其中,ωm为质量流量,R为所压缩气体的气体常数,T1为进口温度,Ptot为整机功率,在本实施例中,T1=290K,整机功率Ptot计算为:
Ptot=ωm(c2uu2-c1uu1)
其中,u1为叶轮叶片进口线速度;c1u为绝对速度的切向分速度;u2为叶轮叶片进口线速度;c2u为叶轮进口绝对速度的切向分速度;u1、c1u、u2、c2u计算为:
其中,ρ为所压缩气体的密度,n为电机转速,Ain为压缩机入口截面积,α1为叶轮叶片进口绝对气流角;β2为叶轮叶片进口相对气流角;D1为进口叶轮直径;D2为出口叶轮直径;b2为出口叶高;
在本实施例中:
ρ=1.293Kg/m3 n=4320r/min Ain=0.139m2 α1=80° β2=51° D1=0.4218m D2=0.796m b2=0.0438m;
可靠性指标取工作点到喘振线的水平距离,即为:
df=|ωm-ωmax|
其中,ωmax为压缩机特性曲线极值点,即喘振阈值,在本实施例中,ωmax为3.2376Kg/s;
在本实施例中,初始压比值ε1为1.2719,初始效率指标为80.47%,初始可靠性指标为0.0851Kg/s,对状态向量St进行归一化得到归一化状态向量S't={ε',η',df'},归一化过程如下:
其中,εmin%为样本最小压比值,取值为1,εmax%为样本最大压比值,ηmin为样本最小效率指标,ηmax为最大效率指标,dfmin为样本最小可靠性指标,dfmax为样本最大可靠性指标,所有样本指标均通过离心压缩机***多次运行采样得到;
将归一化状态向量S't作为执行者网络的输入Sta;
步骤3)将入口阀门开度K作为执行者网络产生的动作At,将归一化状态向量S't与At组合,作为评价网络的输入Stc,
Stc={ε',η',df',At}
设置奖励函数为Ra=S'tI,其中I为单位列向量;
步骤4)根据计算机计算能力确定A3C并行计算线程数目:本实施例中设置并行计算线程数目为15;设置梯度更新参数,包括每回合步长数tu与折扣因子γ,由于动作选择形式为连续选择,步长tu=1,折扣系数γ=0.9;
步骤5)根据输入状态及动作分别设计Actor-Critic算法中执行者网络与评价网络参数φ(s),选用RBF神经网络作为用于近似的神经网络,于[0,1]中等间隔设置神经网络中心,配置网络参数,本实施例中随机配置初始执行者网络参数θ与评价网络参数w,本实施例中配置学习率α=0.0001,评价网络学习率β=0.001;网络参数更新方式如下
其中,π(a
is
i;θ')为策略函数,V(s
i;θ'
v)为评价网络输出,R
a为奖励函数,
为价值函数梯度,用来更新评价网络参数梯度,
为策略对数的梯度,用来更新执行者网络参数;
步骤6)设置算法最大迭代次数T=1000作为终止条件,设置梯度裁剪阈值以消除梯度***问题,梯度裁剪过程为:
其中,||g||为梯度向量g的二范数,θ为梯度裁剪阈值,本实施例中设置上限θup=10,下限θdown=0.0001;
步骤7)运行A3C算法进行迭代运算,观察运行结果,如果奖励函数Ra在最后20回合的变化ΔRa10≤5,或动作变化小于ΔAt≤0.4,则认为算法收敛;当认为算法不收敛时,则将迭代步数加大20%,重复步骤5)-步骤7);运行整定后的离心压缩机***验证调控结果。
本实施例中动作在最后20回合的变化ΔAt≤0.4,证明算法收敛。
参照图4,A3C算法在900回合左右收敛,得到最优动作为0.551,即最优入口阀门开度为55.1%。
参照图5,调控前的压比ε为1.2719,效率指标η为80.47%,可靠性指标为0.0851Kg/s;调控后压比ε为1.2642,效率指标η为87.4%,可靠性指标为1.3315Kg/s。在引入该调控方法之后,压比ε仅降低0.6%,但同时效率指标η提升7.6%,可靠性指标提高8.4%。