CN114089633B - 一种水下机器人多电机耦合驱动控制装置及方法 - Google Patents

一种水下机器人多电机耦合驱动控制装置及方法 Download PDF

Info

Publication number
CN114089633B
CN114089633B CN202111381879.5A CN202111381879A CN114089633B CN 114089633 B CN114089633 B CN 114089633B CN 202111381879 A CN202111381879 A CN 202111381879A CN 114089633 B CN114089633 B CN 114089633B
Authority
CN
China
Prior art keywords
motor
network
strategy
evaluation
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111381879.5A
Other languages
English (en)
Other versions
CN114089633A (zh
Inventor
王伟然
姚杰
葛慧林
智鹏飞
朱志宇
邱海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN202111381879.5A priority Critical patent/CN114089633B/zh
Publication of CN114089633A publication Critical patent/CN114089633A/zh
Application granted granted Critical
Publication of CN114089633B publication Critical patent/CN114089633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及水下机器人控制技术领域,具体地说,是一种水下机器人多电机耦合驱动控制装置及方法,本发明通过调整多台电机的转速比例,实现多台电力推进电机以恒定差速运行。本发明针对该方案,设计多涡流决策驱动算法(Multiple Lamb‑Policy Decision Driven Algorithm,ML‑PDDA)控制器来控制各台电机的转速,并为各台电机间的同步误差在线分配权重因子,这种方法能使控制器具有快速的动态响应,实现多电机差速协同运行,有效抵抗水下非线性扰动。

Description

一种水下机器人多电机耦合驱动控制装置及方法
技术领域
本发明涉及水下机器人控制技术领域,具体地说,是一种水下机器人多电机耦合驱动控制装置及方法。
背景技术
水下机器人广泛的应用于军事、水下资源探索、水下搜救等众多领域,随着科技的发展,水下机器人能代替人类完成更多更高难度的任务。在进行各项任务时,都需要对水下机器人的运动轨迹和姿态保持等进行高精度的控制。然而水下环境复杂,不同的环境对机器人的运动和操作产生不同的干扰,因此需要设计合适的控制结构,实现多台电机相互协同工作,保证水下机器人能抵抗水下的各种干扰,按照精准的轨迹运动,完成后续的作业任务。
目前多电机协同控制主要有以下算法:
(1)并行控制
该控制***中各台电机的给定转速相同,只有当各台电机负载严格相同时才能实现同步。各台电机只能反馈自身的跟踪误差,没有考虑电机之间的同步误差,各电机控制单元间独立没有耦合性,当某电机单元受到外界干扰时,其他电机无法接收到干扰信息,无法实现多电机协调控制,抗扰动性差。显然该方法无法满足水下的复杂环境。
(2)主从控制
电机之间的关系为主从关系,主电机输出作为从电机转速输入参考值,实现从电机对主电机速度跟踪。但是主从控制***没有从机向主机的反馈机制,若某一级电机受到干扰,该电机上级的所有电机都无法收到干扰信息,下一级的所有控制单元能做出相应的速度调节,以同样的方法再传到下一级,会带来较大的延时,抗干扰性差,这一缺点也限制了该方法的使用。
(3)虚拟主轴控制
虚拟主轴控制***模拟机械总轴同步的特性。电机的输入转速信号经过总轴作用后,输出的信号作为各个驱动单元的给定信号,驱动单元跟踪给定的信号。因为该信号是经过总轴作用,并经过滤波后得到的信号,可能存在主参考值和电机实际转速的偏差。
(4)交叉耦合控制
将两台相邻电机速度或者位置信号进行比较作差,将差值作为***反馈信号,并对该反馈信号进行跟踪。该***能够反应任何一台电机负载变化。但是该策略不适用于两个以上的电机,因为计算两个以上电机的反馈近似值非常繁琐。
(5)偏差耦合控制
偏差耦合控制是将每台电机与其余所有电机误差之和作为补偿信号反馈自身,从而实现多电机同步控制。但这样会导致计算量大大增加,同时该方法在启动过程中存在控制器饱和失效等问题。
水下机器人在完成水下作业时,既要克服周围环境的干扰使自身处于稳定状态,也要按照期望的轨迹运行。上述几种多电机协同控制算法,均以保持多台电机转速绝对同步为目标,能保证水下机器人始终以某一姿态运行,但无法保证水下机器人按照期望平稳改变航向运行。
发明内容
为了解决上述技术问题,本发明披露了一种水下机器人多电机耦合驱动控制装置及方法,来保障水下机器人在复杂的水下环境中,能够抵抗周围环境的干扰,精准平稳的驱动水下机器人。本装置可以使水下机器人稳定的运行在复杂的水下环境中,为水下机器人的水下作业提供了有力保障,提高了水下机器人的工作效率,也降低了工作人员下水作业的风险。
本发明通过多涡流决策驱动算法(Multiple Lamb-Policy Decision DrivenAlgorithm,ML-PDDA)给各台电机间的同步误差分配权重因子,配合多电机异速运行,设计一种多电机相互耦合控制结构。对于单台电机控制单元,采用多涡流决策驱动算法(ML-PDDA)设计控制器,与多电机相互耦合控制***配合实现对水下机器人驱动装置的控制。
本发明采用的具体技术方案如下:
一种水下机器人多电机耦合驱动控制装置,由多电机相互耦合算法和深度确定性策略梯度算法控制器两部分组成,具体包括以下三个模块:单台电机控制模块,同步误差权重分配模块,多电机相互耦合控制模块。
在上述技术方案中,单台电机控制模块由ML-PDDA算法控制器和永磁同步电机组成,将电机的转速误差作为控制器的输入量,结合永磁同步电机矢量控制模型,经过ML-PDDA算法策略网络处理,得到电机模型的控制量q轴电流,和同步误差权重因子α,实现对电机的转速控制,配合多电机相互耦合控制模块实现水下机器人驱动协同控制。
本发明的进一步改进,同步误差权重分配模块,利用ML-PDDA算法的评价奖励机制,对同步误差的权重因子进行整定,当输出的权重因子产生的奖励最大时,获得最佳的权重因子,整定后的同步误差作为状态量输入控制器,能更好的反映多电机间的协同状况,水下机器人的主推进电机即第1台电机的功率最大,因此将其期望转速定义为基准转速。记第i台电机的实际转速为ni,第i台电机与余下各台电机的同步误差为ei’,以第1台电机为例,同步误差e1’计算公式如公式(1)。
e'1=α1×|n1-n2|+α2×|n1-n3| (1)
公式(1)中:α1,α2是通过ML-PDDA算法整定的误差权重因子,n1,n2,n3分别是各台电机的实际转速。
本发明还披露了水下机器人多电机耦合驱动控制方法,具体包括以下步骤:
第1步:设计策略网络与评价网络;
第2步:构建值函数;
第3步:寻找最优策略;
第4步:更新评价网络。
在第1步设计策略网络与评价网络中,策略网络由输入层、两个全连接层和输出层组成,状态输入层的输入量包括各台电机的跟踪误差、同步误差及其后向差分和累积6个状态,所以设置6个节点,全连接层分别设置200和200个节点,输出层包括iq和[α12]三个控制量,所以设置3个节点,输入层和输出层均采用Relu函数作为激活函数;评价网络结构和策略网络类似,将电机的6个误差状态量和3个输出控制量共同作为评价网络的输入量,经过神经卷积网络对输入量融合,将9个状态量输入全连接层,最后输出对控制量iq和[α12]的评价值Q,输入层节点个数设置和策略网络相同,输出层只有一个评价值Q,所以节点数设置为1,激活函数采用Sigmoid函数。
在第2步构建值函数中,构建值函数Q(e,a),来评价策略网络输出的电机控制量q轴电流iq和误差权重向量α=[α12],并训练策略网络和评价网络,策略μ的值函数如公式(2)。
公式(2)中:et是t时刻控制器的输入量,包括电机跟踪误差向量和同步误差向量;at是在t时刻控制器根据输入的电机转速误差而输出的控制量,包括iq和α=[α12];γk是k步长的折扣因子这里取0.99,rt+k是控制器在误差e和e’的状态下输出at到k时刻的奖励,如公式(3)所示。
公式(3)中:ni(t)是第i台电机在t时刻的实际转速;ei(t)是第i台电机在t时刻的跟踪误差,0.1是防止跟踪误差为0,奖励趋于无穷大;ei(t)’是第i台电机与其他电机的同步误差。
只有当跟踪误差和同步误差减小时,即电机转速接近期望值并保持协同运行,奖励才会增大,若完全达到期望值,则获得奖励最大,反之减小。当跟踪误差和同步误差最小时获得奖励最大,认为此时控制器的输出控制量为最优的控制量,iq和[α12]是最适合多电机此时的工作要求。
在第3步寻找最优策略中,因为深度确定性策略梯度算法采用确定性策略,所以控制器每次输出的iq和α可以通过策略μ计算获得,定义评价函数Jπ(μ)来评价当前ML-PDDA算法学习到的新策略,如公式(4)。
Jπ(μ)=E[Qμ(e,μ(e))] (4)
公式(4)中:Qμ是在控制器输入不同的电机转速误差下,值函数根据μ策略输出iq和α所计算的Q值,即μ策略所获得的累积奖励,计算公式如公式(2)。
根据使公式(4)获得最大值来寻找最优策略,即能获得最大累积奖励的策略μ,如公式(5)。
μ=arg maxμJπ(μ) (5)
公式(4)对策略μ的参数求偏导,可得到策略梯度,如公式(6)。
采用梯度下降法更新策略网络参数,如公式(7)。
公式(7)中:θμ是策略网络参数。
通过求最大累积奖励下的策略μ来更新策略网络,使策略网络向能产生获得最大奖励的iq和[α12]方向更新。
在第4步更新评价网络中,建立经验池,将输入控制器的电机转速误差e和e’,输出的iq和α,对应获得的奖励rt,以及下一时刻的电机转速误差作为一组经验数据,存储在经验池,目标网络从经验池获取经验数据组来更新评价网络参数
将下一时刻的电机转速误差et+1放入目标策略网络,得到确定输出iq和α记为at+1,再将at+1和et+1通过神经卷积网络融合在一起,共同作为目标价值网络的输入,得到目标网络对at+1评价值Q’,然后计算出目标网络的实际评价yt如公式(8)。
yt=rt+γQ'(et+1,μ'(et+1μ')|θQ') (8)
公式(8):是在目标策略μ’所输出的iq和α;/>是目标评价网络对iq和α的评价;/>分别是目标策略、目标评价网络参数。
同时建立误差函数L,计算在线评价网络的误差,通过最小化误差更新在线评价网络,如公式(9)。
损失函数L对评价网络参数求导,如公式(10)。
评价网络参数更新如公式(11)。
通过损失函数L来更新评价网络,使评价网络能更准确的计算出策略网络输出控制量得到的奖励,ML-PDDA控制器输出最符合多电机实际运行要求的iq和[α12]。在线策略网络和在线评价网络通过策略梯度和损失函数不断更新网络参数,目标策略网络和目标评价网络在小批量的训练中通过公式(12)更新,可以减小在线评价网络计算的累积奖励Q与目标评价网络计算的累积奖励Q’的相关性,能提高在线策略网络输出iq和[α12]的有效性。
公式(12)中:分别是目标策略网络输出iq和[α12]的动作参数、目标评价网络输出iq和[α12]的价值函数参数;/>分别是在线策略、在线评价网络参数;k为学习率,取0.001。
经验池存储的数据组用来训练更新评价策略网络参数,使得控制器输出控制量iq和误差权重α,作用于控制的电机,再将电机的转速和误差输出反馈到控制器,以此完成迭代训练。当水下机器人进入陌生的水域,经验池可以充当积累经验数据的功能。通过经验数据的积累,当水下机器人需要改变航向和抵抗外部干扰,控制器能根据上位机的指令,快速输出能产生最大奖励的iq和α,使得多电机跟踪误差和同步误差最小,按照期望的转速运行,同时多电机之间通过权重分配的同步误差的耦合能保持恒定的转速差,使控制器具有快速的动态响应和较强的鲁棒性。
本发明的有益效果:
1、现有多电机控制方案虚拟主轴、交叉耦合和偏差耦合是每台电机给定相同期望转速,通过控制器消除跟踪误差和同步误差,使各台电机的转速保持同步。本专利首先给每台电机设置转速比例系数,使得各台电机根据水下机器人在需要改变航向时,能得到不同的期望转速,同时分配同步误差权重与不同的转速配合,保证多电机相互耦合,增强多电机***的抗干扰能力。现有多电机协同控制方案中,也存在给电机转速同步误差分配权重,目的还是保证各台电机的转速相同,而且不能根据电机实际运行情况进行在线整定,不利于水下机器人及时调整航向,以及抵抗环境的干扰,所以本专利设计的多电机相互耦合控制装置更适用于水下机器人的实际工作环境,具有较强的针对性;
2、多涡流决策驱动算法(ML-PDDA)利用深度学习的感知能力,有效解决了高维状态空间下的序列决策问题。现运用在多电机协同控制领域的控制方法有模糊逻辑、神经网络、模型预测控制等,这些方法需要以往大量的经验数据和复杂的数学模型,收敛速度慢,而水下环境对水下机器人的干扰具有非线性,以及***内部参数的变化,难以建立合适的数学模型,很难取得良好的控制效果。ML-PDDA算法在PDDA算法的基础上引入水流扰动,通过多个Lamb涡流来模拟水流对策略网络进行训练,探索出更适合水下环境的策略,提高训练效率和稳定性,使水下机器人运动时更好的适应水流的干扰。ML-PDDA算法具有良好的在线学习能力,能够根据电机的输入和输出数据来学习电机的数学模型,在线网络和目标网络的使用,使得学习过程更加稳定,模型的收敛速度更快;
3、多电机相互耦合控制和多涡流决策驱动算法(ML-PDDA)配合,实现各台电机可以独立改变转速,又通过相对改进的同步误差相互耦合,协同控制水下机器人驱动装置。实现水下机器人能根据控制***的指令,灵活的改变航向,抵抗周围的干扰。
附图说明
图1为本发明多电机相互耦合ML-PDDA控制算法控制装置原理图。
图2为本发明中同步误差计算结构图。
图3为本发明中同步误差权重因子整定流程图。
图4为本发明中多涡流决策驱动算法(ML-PDDA)网络结构图。
图5为本发明中策略网络结构图。
图6为本发明中评价网络结构图。
具体实施方式
为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
实施例,一种水下机器人多电机耦合驱动控制装置由三个模块组成:单台电机控制模块,同步误差权重分配模块,多电机相互耦合控制模块。其中单台电机控制模块由ML-PDDA算法控制器和永磁同步电机组成,将电机的转速误差作为控制器的输入量,结合永磁同步电机矢量控制模型,经过ML-PDDA算法策略网络处理,得到电机模型的控制量q轴电流,和同步误差权重因子α,实现对电机的转速控制,配合多电机相互耦合控制模块实现水下机器人驱动协同控制,如图1所示。
本实施例所设计的多电机相互耦合的水下机器人驱动控制装置,是由上位机通过水下机器人实际运行路线,以主推进电机的期望转速为基准,调整余下侧推与仰俯电机的转速比例,使得多台电机以不同的转速协同完成水下机器人的驱动。在水下机器人实际动力配置中可能具有多台动力推进电机与姿势控制电机(侧推与仰俯控制电机),可以将这些电机在水下机器人自身坐标系中进行分解与合并,根据其作用力方向归类为:主推进电机、侧推电机与仰俯电机。本专利中为了后续内容的描述方便,将推力归一化处理后的主推进电机定义为第1台电机,推力归一化处理后的侧推电机定义为第2台电机,与推力归一化处理后的仰俯电机定义为第3台电机。
图1中的期望转速nref恒定,以第1台电机的转速为基准,上位机通过水下机器人的运动路线,对电机2、3的转速比R2、R3作出调整,可以得到每台电机的实际期望转速nref1,2,3,再与电机的实际转速n1,2,3作差得到跟踪误差e。由于每台电机的实际期望转速不同,不能直接计算各台电机的同步误差,所以图1中给不同电机间的同步误差分配了权重因子α,计算得到同步误差e’。选择e和e’的三种状态作为控制器的输入量,分别是误差、误差的后向差分和累积。利用ML-PDDA算法的学习能力,处理六种输入状态量,输出电机的控制量q轴电流iq和误差权重α,完成对电机的精准控制,实现水下机器人的异速协同驱动。
水下机器人根据中央控制***的指令从水面到达水下作业位置,需要经过下潜、前进、上浮等过程,在这过程中水下机器人需要多次调整运动方向,由于水下机器人没有方向舵,因此需要改变各台电机的转速,使各台电机之间形成转速差,从而形成转向/姿势调整推力,从而实现水下机器人按指定的轨迹运动。传统多电机协同控制装置,一般应用于化工领域,对***中每台电机均要求保持同样的速度,因此传统多电机协同控制装置无法满足水下机器人时变、动态响应要求高、异速调整的控制要求。
水下机器人转向/姿势调整时,以上三台电机的期望转速均不相同,所以本专利设计同步误差权重分配模块,利用ML-PDDA算法的评价奖励机制,对同步误差的权重因子进行整定,当输出的权重因子产生的奖励最大时,获得最佳的权重因子,整定后的同步误差作为状态量输入控制器,能更好的反映多电机间的协同状况。
水下机器人的主推进电机即第1台电机的功率最大,因此将其期望转速定义为基准转速。记第i台电机的实际转速为ni,第i台电机与余下各台电机的同步误差为ei’,以第1台电机为例,同步误差e1’计算公式如公式(1)。
e'1=α1×|n1-n2|+α2×|n1-n3| (1)
公式(1)中:α1,α2是通过ML-PDDA算法整定的误差权重因子,n1,n2,n3分别是各台电机的实际转速。
在公式(1)中,误差权重因子α1、α2是由ML-PDDA控制器的策略网络来整定,通过奖励机制计算不同权重因子下的奖励如公式(3),只有当跟踪误差和同步误差均减小,才能获得最大奖励。当三种电机给定的期望转速一致时,多电机间同步误差无需改变权重;当三种电机给定的期望转速不一致时,通过整定同步误差权重因子,使多电机之间能保持恒定的转速差协同运行。
同步误差计算模块如图2所示。
在图2中,首先计算电机1与电机2,3的实际同步误差,通过ML-PDDA算法整定得到的误差权重因子,对实际同步误差重新组合,得到新的同步误差e’,再计算e’的后向差分Δe’,和累积∑e’,并将该三个状态量作为ML-PDDA控制器的输入量,也作为反馈。
利用ML-PDDA算法的学习能力,对误差权重因子进行整定,通过构建的值函数和奖励机制使得值函数累计奖励最大如图3所示。将奖励rt作为评价ML-PDDA控制器对电机控制效果达到最优的指标,在控制器对数据进行训练时,采用小批量训练的方式,每个小批量的长度为训练总时间Tf与控制器采样时间Ts的比值向上取整,即Tf/Ts。每批训练都会得到相应的奖励rt,将最大奖励rtmax设定为最优量,此时输出同步误差权重因子α,完成多电机相互耦合控制装置对水下机器人驱动的控制。
图4所示的是图1中的ML-PDDA控制器结构图,利用ML-PDDA较强学习能力,能有效解决高维状态空间序列决策问题,选取电机的同步误差和跟踪误差作为状态量,ML-PDDA算法策略网络输出电机的控制量q轴电流iq和误差权重向量α=[α12]。在对策略网络进行训练时,引入多个Lamb涡流叠加模拟水流的扰动,通过引入水流扰动对策略网络进行训练,引导控制器针对水下机器人的工作环境去探索策略,提高训练的有效性,可以使ML-PDDA控制器更好的适应水下环境。采用小批量训练的方式,每个小批量的长度为训练总时间Tf与控制器采样时间Ts的比值向上取整,即Tf/Ts。每批训练都会得到奖励rt,用Tf时间内的最大奖励rtmax来判定控制器输出的控制量是否达到最优。根据公式(3)在机的转速跟踪误差和同步误差最小时,才会获得最大奖励,实际转速最贴近期望转速,多电机同步效果最好,输出此时控制量iq和α,认为此状态下的控制效果最优,并存入经验池。
因为水下机器人的工作环境发杂,当水下机器人在需要改变航向时,仅依靠上位机调整各台电机的输入期望转速,通过ML-PDDA控制器输出电机的控制量iq,还是难以使水下机器人抵抗周围的非线性干扰,这里需要多电机相互协同。在改变航向时,控制器能够给电机的同步误差分配权重因子,得到新的同步误差再作为状态量输入控制器,控制器结合跟踪误差和同步误差输出iq,使得各台电机间能保持恒定的转速差,也通过计算新的同步误差使各台电机相互耦合,实现多电机协同控制。直到水下机器人进入下一个航行状态,上位机再改变电机的期望转速,ML-PDDA控制器给同步误差分配新的权重,使水下机器人按照设定航线运动。
第1步:设计策略网络与评价网络
策略网络由输入层、两个全连接层和输出层组成,状态输入层的输入量包括各台电机的跟踪误差、同步误差及其后向差分和累积6个状态,所以设置6个节点,全连接层分别设置200和200个节点,输出层包括iq和[α12]三个控制量,所以设置3个节点,输入层和输出层均采用Relu函数作为激活函数。
评价网络结构和策略网络类似,将电机的6个误差状态量和3个输出控制量共同作为评价网络的输入量,经过神经卷积网络对输入量融合,将9个状态量输入全连接层,最后输出对控制量iq和[α12]的评价值Q,输入层节点个数设置和策略网络相同,输出层只有一个评价值Q,所以节点数设置为1,激活函数采用Sigmoid函数。
第2步:构建值函数
构建值函数Q(e,a),来评价策略网络输出的电机控制量q轴电流iq和误差权重向量α=[α12],并训练策略网络和评价网络,策略μ的值函数如公式(2)。
公式(2)中:et是t时刻控制器的输入量,包括电机跟踪误差向量和同步误差向量;at是在t时刻控制器根据输入的电机转速误差而输出的控制量,包括iq和α=[α12];γk是k步长的折扣因子这里取0.99,rt+k是控制器在误差e和e’的状态下输出at到k时刻的奖励,如公式(3)所示。
公式(3)中:ni(t)是第i台电机在t时刻的实际转速;ei(t)是第i台电机在t时刻的跟踪误差,0.1是防止跟踪误差为0,奖励趋于无穷大;ei(t)’是第i台电机与其他电机的同步误差。
只有当跟踪误差和同步误差减小时,即电机转速接近期望值并保持协同运行,奖励才会增大,若完全达到期望值,则获得奖励最大,反之减小。当跟踪误差和同步误差最小时获得奖励最大,认为此时控制器的输出控制量为最优的控制量,iq和[α12]是最适合多电机此时的工作要求。
第3步:寻找最优策略
因为深度确定性策略梯度算法采用确定性策略,所以控制器每次输出的iq和α可以通过策略μ计算获得,定义评价函数Jπ(μ)来评价当前ML-PDDA算法学习到的新策略,如公式(4)。
Jπ(μ)=E[Qμ(e,μ(e))] (4)
公式(4)中:Qμ是在控制器输入不同的电机转速误差下,值函数根据μ策略输出iq和α所计算的Q值,即μ策略所获得的累积奖励,计算公式如公式(2)。
根据使公式(4)获得最大值来寻找最优策略,即能获得最大累积奖励的策略μ,如公式(5)。
μ=arg maxμJπ(μ) (5)
公式(4)对策略μ的参数求偏导,可得到策略梯度,如公式(6)。
采用梯度下降法更新策略网络参数,如公式(7)。
公式(7)中:θμ是策略网络参数。
通过求最大累积奖励下的策略μ来更新策略网络,使策略网络向能产生获得最大奖励的iq和[α12]方向更新。
第4步:更新评价网络
建立经验池,将输入控制器的电机转速误差e和e’,输出的iq和α,对应获得的奖励rt,以及下一时刻的电机转速误差作为一组经验数据,存储在经验池,目标网络从经验池获取经验数据组来更新评价网络参数
将下一时刻的电机转速误差et+1放入目标策略网络,得到确定输出iq和α记为at+1,再将at+1和et+1通过神经卷积网络融合在一起,共同作为目标价值网络的输入,得到目标网络对at+1评价值Q’,然后计算出目标网络的实际评价yt如公式(8)。
yt=rt+γQ'(et+1,μ'(et+1μ')|θQ') (8)
公式(8):是在目标策略μ’所输出的iq和α;/>是目标评价网络对iq和α的评价;/>分别是目标策略、目标评价网络参数。
同时建立误差函数L,计算在线评价网络的误差,通过最小化误差更新在线评价网络,如公式(9)。
损失函数L对评价网络参数求导,如公式(10)。
评价网络参数更新如公式(11)。
通过损失函数L来更新评价网络,使评价网络能更准确的计算出策略网络输出控制量得到的奖励,ML-PDDA控制器输出最符合多电机实际运行要求的iq和[α12]。在线策略网络和在线评价网络通过策略梯度和损失函数不断更新网络参数,目标策略网络和目标评价网络在小批量的训练中通过公式(12)更新,可以减小在线评价网络计算的累积奖励Q与目标评价网络计算的累积奖励Q’的相关性,能提高在线策略网络输出iq和[α12]的有效性。
公式(12)中:分别是目标策略网络输出iq和[α12]的动作参数、目标评价网络输出iq和[α12]的价值函数参数;/>分别是在线策略、在线评价网络参数;k为学习率,取0.001。
经验池存储的数据组用来训练更新评价策略网络参数,使得控制器输出控制量iq和误差权重α,作用于控制的电机,再将电机的转速和误差输出反馈到控制器,以此完成迭代训练。当水下机器人进入陌生的水域,经验池可以充当积累经验数据的功能。通过经验数据的积累,当水下机器人需要改变航向和抵抗外部干扰,控制器能根据上位机的指令,快速输出能产生最大奖励的iq和α,使得多电机跟踪误差和同步误差最小,按照期望的转速运行,同时多电机之间通过权重分配的同步误差的耦合能保持恒定的转速差,使控制器具有快速的动态响应和较强的鲁棒性。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种水下机器人多电机耦合驱动控制装置,由多电机相互耦合算法和深度确定性策略梯度算法控制器两部分组成,其特征在于,包括三个模块:单台电机控制模块、同步误差权重分配模块、多电机相互耦合控制模块,单台电机控制模块由ML-PDDA算法控制器和永磁同步电机组成,所述同步误差权重分配模块,利用ML-PDDA算法的评价奖励机制,对同步误差的权重因子进行整定,当输出的权重因子产生的奖励最大时,获得最佳的权重因子,整定后的同步误差作为状态量输入控制器,能更好的反映多电机间的协同状况,水下机器人的主推进电机即第1台电机的功率最大,因此将其期望转速定义为基准转速,记第i台电机的实际转速为ni,第i台电机与余下各台电机的同步误差为ei’,以第1台电机为例,同步误差e1’计算公式如公式(1):
e′1=α1×|n1-n2|+α2×|n1-n3| (1)
公式(1)中:α1,α2是通过ML-PDDA算法整定的误差权重因子,n1,n2,n3分别是各台电机的实际转速。
2.一种水下机器人多电机耦合驱动控制方法,其特征在于,使用如权利要求1所述的水下机器人多电机耦合驱动控制装置,具体包括以下步骤:
第1步:设计策略网络与评价网络;
第2步:构建值函数;
第3步:寻找最优策略;
第4步:更新评价网络。
3.根据权利要求2所述的水下机器人多电机耦合驱动控制方法,其特征在于,在第1步设计策略网络与评价网络中,策略网络由输入层、两个全连接层和输出层组成,状态输入层的输入量设置6个节点:包括各台电机的跟踪误差、同步误差及其后向差分和累积6个状态,全连接层分别设置200和200个节点,输出层设置3个节点:包括iq和[α12]三个控制量,输入层和输出层均采用Relu函数作为激活函数;评价网络结构将电机的6个误差状态量和3个输出控制量共同作为评价网络的输入量,经过神经卷积网络对输入量融合,将9个状态量输入全连接层,最后输出对控制量iq和[α12]的评价值Q,输入层节点个数设置和策略网络相同,输出层只有一个评价值Q,节点数设置为1,激活函数采用Sigmoid函数。
4.根据权利要求3所述的水下机器人多电机耦合驱动控制方法,其特征在于,在第2步构建值函数中,构建值函数Q(e,a),来评价策略网络输出的电机控制量q轴电流iq和误差权重向量α=[α1,α2],并训练策略网络和评价网络,策略μ的值函数如公式(2):
公式(2)中:et是t时刻控制器的输入量,包括电机跟踪误差向量和同步误差向量;at是在t时刻控制器根据输入的电机转速误差而输出的控制量,包括iq和α=[α12];γk是k步长的折扣因子这里取0.99,rt+k是控制器在误差e和e’的状态下输出at到k时刻的奖励,如公式(3)所示:
公式(3)中:ni(t)是第i台电机在t时刻的实际转速;ei(t)是第i台电机在t时刻的跟踪误差,0.1是防止跟踪误差为0,奖励趋于无穷大;ei(t)’是第i台电机与其他电机的同步误差。
5.根据权利要求4所述的水下机器人多电机耦合驱动控制方法,其特征在于,在第3步寻找最优策略中,定义评价函数Jπ(μ)来评价当前ML-PDDA算法学习到的新策略,如公式(4):
Jπ(μ)=E[Qμ(e,μ(e))] (4)
公式(4)中:Qμ是在控制器输入不同的电机转速误差下,值函数根据μ策略输出iq和α所计算的Q值,即μ策略所获得的累积奖励,计算公式如公式(2),
根据使公式(4)获得最大值来寻找最优策略,即能获得最大累积奖励的策略μ,如公式(5):
μ=argmaxμJπ(μ) (5)
公式(4)对策略μ的参数θμ求偏导,可得到策略梯度,如公式(6):
采用梯度下降法更新策略网络参数,如公式(7):
公式(7)中:θμ是策略网络参数;
通过求最大累积奖励下的策略μ来更新策略网络,使策略网络向能产生获得最大奖励的iq和[α12]方向更新。
6.根据权利要求5所述的水下机器人多电机耦合驱动控制方法,其特征在于,在第4步更新评价网络中,建立经验池,将输入控制器的电机转速误差e和e’,输出的iq和α,对应获得的奖励rt,以及下一时刻的电机转速误差作为一组经验数据,存储在经验池,目标网络从经验池获取经验数据组来更新评价网络参数θQ,将下一时刻的电机转速误差et+1放入目标策略网络,得到确定输出iq和α记为at+1,再将at+1和et+1通过神经卷积网络融合在一起,共同作为目标价值网络的输入,得到目标网络对at+1评价值Q’,然后计算出目标网络的实际评价yt如公式(8):
yt=rt+γQ'(et+1,μ'(et+1μ')|θQ') (8)
公式(8):μ’(et+1μ’)是在目标策略μ’所输出的iq和α;Q’(et+1,μ’(et+1μ’))是目标评价网络对iq和α的评价;θμ’Q’分别是目标策略、目标评价网络参数;
同时建立误差函数L,计算在线评价网络的误差,通过最小化误差更新在线评价网络,如公式(9):
损失函数L对评价网络参数θQ求导,如公式(10):
评价网络参数更新如公式(11):
通过损失函数L来更新评价网络,使评价网络能更准确的计算出策略网络输出控制量得到的奖励,ML-PDDA控制器输出最符合多电机实际运行要求的iq和[α12],在线策略网络和在线评价网络通过策略梯度和损失函数不断更新网络参数,目标策略网络和目标评价网络在小批量的训练中通过公式(12)更新,可以减小在线评价网络计算的累积奖励Q与目标评价网络计算的累积奖励Q’的相关性,能提高在线策略网络输出iq和[α12]的有效性:
公式(12)中:θμ’,θQ’分别是目标策略网络输出iq和[α12]的动作参数、目标评价网络输出iq和[α12]的价值函数参数;θμ,θQ分别是在线策略、在线评价网络参数;k为学习率,取0.001。
CN202111381879.5A 2021-11-19 2021-11-19 一种水下机器人多电机耦合驱动控制装置及方法 Active CN114089633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111381879.5A CN114089633B (zh) 2021-11-19 2021-11-19 一种水下机器人多电机耦合驱动控制装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111381879.5A CN114089633B (zh) 2021-11-19 2021-11-19 一种水下机器人多电机耦合驱动控制装置及方法

Publications (2)

Publication Number Publication Date
CN114089633A CN114089633A (zh) 2022-02-25
CN114089633B true CN114089633B (zh) 2024-04-26

Family

ID=80302617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111381879.5A Active CN114089633B (zh) 2021-11-19 2021-11-19 一种水下机器人多电机耦合驱动控制装置及方法

Country Status (1)

Country Link
CN (1) CN114089633B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104935217A (zh) * 2015-05-29 2015-09-23 天津大学 适用于多电机***的改进型偏差耦合控制方法
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN110323981A (zh) * 2019-05-14 2019-10-11 广东省智能制造研究所 一种控制永磁同步直线电机的方法及***
CN110406526A (zh) * 2019-08-05 2019-11-05 合肥工业大学 基于自适应动态规划的并联混合动力汽车能量管理方法
CN110597058A (zh) * 2019-08-28 2019-12-20 浙江工业大学 一种基于增强学习的三自由度自主水下航行器控制方法
CN110936824A (zh) * 2019-12-09 2020-03-31 江西理工大学 一种基于自适应动态规划的电动汽车双电机控制方法
CN111966118A (zh) * 2020-08-14 2020-11-20 哈尔滨工程大学 一种rov推力分配与基于强化学习的运动控制方法
CN112383248A (zh) * 2020-10-29 2021-02-19 浙江大学 一种双电机转矩同步***模型预测电流控制方法
CN112388636A (zh) * 2020-11-06 2021-02-23 广州大学 DDPG多目标遗传自优化三轴delta机器平台与方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
US10962976B1 (en) * 2019-11-29 2021-03-30 Institute Of Automation, Chinese Academy Of Sciences Motion control method and system for biomimetic robotic fish based on adversarial structured control
CN112631315A (zh) * 2020-12-08 2021-04-09 江苏科技大学 一种多电机协同推进的水下机器人路径跟踪方法
CN113031528A (zh) * 2021-02-25 2021-06-25 电子科技大学 一种基于深度确定性策略梯度的多足机器人运动控制方法
CN113140104A (zh) * 2021-04-14 2021-07-20 武汉理工大学 一种车辆列队跟踪控制方法、装置及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200327411A1 (en) * 2019-04-14 2020-10-15 Di Shi Systems and Method on Deriving Real-time Coordinated Voltage Control Strategies Using Deep Reinforcement Learning

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104935217A (zh) * 2015-05-29 2015-09-23 天津大学 适用于多电机***的改进型偏差耦合控制方法
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN110323981A (zh) * 2019-05-14 2019-10-11 广东省智能制造研究所 一种控制永磁同步直线电机的方法及***
CN110406526A (zh) * 2019-08-05 2019-11-05 合肥工业大学 基于自适应动态规划的并联混合动力汽车能量管理方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN110597058A (zh) * 2019-08-28 2019-12-20 浙江工业大学 一种基于增强学习的三自由度自主水下航行器控制方法
US10962976B1 (en) * 2019-11-29 2021-03-30 Institute Of Automation, Chinese Academy Of Sciences Motion control method and system for biomimetic robotic fish based on adversarial structured control
CN110936824A (zh) * 2019-12-09 2020-03-31 江西理工大学 一种基于自适应动态规划的电动汽车双电机控制方法
CN111966118A (zh) * 2020-08-14 2020-11-20 哈尔滨工程大学 一种rov推力分配与基于强化学习的运动控制方法
CN112383248A (zh) * 2020-10-29 2021-02-19 浙江大学 一种双电机转矩同步***模型预测电流控制方法
CN112388636A (zh) * 2020-11-06 2021-02-23 广州大学 DDPG多目标遗传自优化三轴delta机器平台与方法
CN112631315A (zh) * 2020-12-08 2021-04-09 江苏科技大学 一种多电机协同推进的水下机器人路径跟踪方法
CN113031528A (zh) * 2021-02-25 2021-06-25 电子科技大学 一种基于深度确定性策略梯度的多足机器人运动控制方法
CN113140104A (zh) * 2021-04-14 2021-07-20 武汉理工大学 一种车辆列队跟踪控制方法、装置及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于卫星测高数据的海洋中尺度涡流动态特征检测;赵文涛;俞建成;张艾群;李岩;;海洋学研究(第03期);全文 *
基于深度确信策略梯度的电动汽车异步电机参数标定方法;漆星;郑常宝;张倩;;电工技术学报;20201025(第20期);全文 *
永磁同步直线电机DDPG自适应控制;张振宇;张昱;陈丽;张东波;;微电机(第04期);全文 *

Also Published As

Publication number Publication date
CN114089633A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
Wang et al. Reinforcement learning-based optimal tracking control of an unknown unmanned surface vehicle
CN108161934A (zh) 一种利用深度强化学习实现机器人多轴孔装配的方法
CN111176116B (zh) 一种基于cpg模型的机器鱼闭环反馈控制方法
CN111240344B (zh) 基于强化学习技术的自主水下机器人无模型控制方法
CN111240345A (zh) 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
Song et al. Guidance and control of autonomous surface underwater vehicles for target tracking in ocean environment by deep reinforcement learning
Fang et al. Autonomous underwater vehicle formation control and obstacle avoidance using multi-agent generative adversarial imitation learning
CN111273677B (zh) 基于强化学习技术的自主水下机器人速度和艏向控制方法
Kamanditya et al. Elman recurrent neural networks based direct inverse control for quadrotor attitude and altitude control
CN111176122A (zh) 一种基于双bp神经网络q学习技术的水下机器人参数自适应反步控制方法
CN107315348B (zh) 一种基于惩罚式小波网络的无人潜航器位姿控制方法
CN117215197A (zh) 四旋翼飞行器在线轨迹规划方法、***、电子设备及介质
Wang et al. A modified ALOS method of path tracking for AUVs with reinforcement learning accelerated by dynamic data-driven AUV model
Wang et al. Autonomous piloting and berthing based on Long Short Time Memory neural networks and nonlinear model predictive control algorithm
CN113485323B (zh) 一种级联多移动机器人灵活编队方法
CN107450311A (zh) 逆模型建模方法及装置、以及自适应逆控制方法及装置
Zhao et al. Global path planning and waypoint following for heterogeneous unmanned surface vehicles assisting inland water monitoring
Li et al. Position errors and interference prediction-based trajectory tracking for snake robots
Wang et al. Path Following Control for Unmanned Surface Vehicles: A Reinforcement Learning-Based Method With Experimental Validation
CN114089633B (zh) 一种水下机器人多电机耦合驱动控制装置及方法
CN109946972A (zh) 基于在线学习模型技术的水下机器人预测控制***及方法
CN117227758A (zh) 多层次人类智能增强的自动驾驶车辆决策控制方法及***
Wang et al. Parameters Optimization‐Based Tracking Control for Unmanned Surface Vehicles
Wen et al. USV Trajectory Tracking Control Based on Receding Horizon Reinforcement Learning
Li et al. Prioritized experience replay based reinforcement learning for adaptive tracking control of autonomous underwater vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant