CN117784619B - 一种基于零和微分博弈的欠驱动无人艇容错控制方法 - Google Patents

一种基于零和微分博弈的欠驱动无人艇容错控制方法 Download PDF

Info

Publication number
CN117784619B
CN117784619B CN202410208490.8A CN202410208490A CN117784619B CN 117784619 B CN117784619 B CN 117784619B CN 202410208490 A CN202410208490 A CN 202410208490A CN 117784619 B CN117784619 B CN 117784619B
Authority
CN
China
Prior art keywords
representing
unmanned ship
error
neural network
unmanned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410208490.8A
Other languages
English (en)
Other versions
CN117784619A (zh
Inventor
陈永刚
田雪虹
麦青群
罗嘉城
刘海涛
周秀旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ocean University
Original Assignee
Guangdong Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ocean University filed Critical Guangdong Ocean University
Priority to CN202410208490.8A priority Critical patent/CN117784619B/zh
Publication of CN117784619A publication Critical patent/CN117784619A/zh
Application granted granted Critical
Publication of CN117784619B publication Critical patent/CN117784619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于零和微分博弈的欠驱动无人艇容错控制方法,属于容错控制技术领域,包括以下步骤:S1、构建欠驱动无人艇的运动学方程和动力学方程;S2、确定第一代价模型;S3、确定欠驱动无人艇的虚拟控制率;S4、构建一阶滤波器模型;S5、确定第一输入信号和第二输入信号;S6、为欠驱动无人艇的博弈双方生成第二代价模型;S7、利用零和微分博弈算法确定欠驱动无人艇的实际控制率本发明通过使用基于强化学习的最优控制方法设计虚拟最优控制律,通过将***的误差变量和***状态量作为代价函数迭代获得最小的误差和最小的能耗。

Description

一种基于零和微分博弈的欠驱动无人艇容错控制方法
技术领域
本发明属于容错控制技术领域,具体涉及一种基于零和微分博弈的欠驱动无人艇容错控制方法。
背景技术
海洋占据着地球表面积的约71%具有丰富的资源。如今,随着自动化和人工智能等技术的发展,无人***已成为社会热点。在海洋领域,包括欠驱动无人艇、无人水下航行器和自主水下航行器等。近年来,这些***在理论和实践方面得到了广泛的研究。欠驱动无人艇作为一种应用广泛且运行可靠的无人艇,具有出色的执行各种任务的能力,如监测海洋环境和完成军事任务等。因此,欠驱动无人艇具有极高的研究价值。针对欠驱动无人艇的实际问题,欠驱动无人艇凭借只提供浪涌和偏航运动的控制力和具有能耗低,结构简单的优势脱颖而出,因此关于欠驱动无人艇的研究具有重要的现实意义。
目前欠驱动无人艇的控制面临很大的挑战,由于其自身的强非线性和耦合性、模型参数的不确定性以及受外部扰动等各类不确定因素,给控制***的稳定性带来巨大的影响,所以需要应用于欠驱动无人艇的控制方法具有抗扰动和降低不确定因素的能力,确保欠驱动无人艇在实际作业过程中的稳定性和控制精度。目前研究人员也使用了很多方法来解决这一困难,诸如使用神经网络近似的方法、使用自适应模糊方法以及各种观测器来应对未知的动态和复杂的输入非线性问题。目前对于欠驱动无人艇的轨迹跟踪控制和容错控制出现了很多控制理论和方法。基于控制***的收敛时间和稳定性的概念,通过时变变换(包括状态缩放和时间缩放等技术)将原***转换为新***,处理匹配/不匹配的不确定性和未知的控制系数,构建适当的李亚普诺夫不等式,并选择适当的控制增益来证明所有闭环信号的有界性,特别是控制输入的有界性。由此出现了有限时间控制、固定时间控制、预定义时间控制和规定时间控制。欠驱动无人艇轨迹跟踪控制的发展历经了PID控制、滑模控制、模糊控制以及自适应控制的发展,这些控制方法大多是基于李亚普诺夫函数来构造控制器设计,PID控制方法简单,针对***中的比例、微分和积分项的调整,通过设置这三项的增益参数可以实现***的稳定和收敛,但调参过程复杂。滑模控制通过将误差引入到所设计的滑模面中,这种方法可以使***误差收敛,具有很强的鲁棒性,可用于解决***存在参数不确定性、外部干扰或非线性特性等问题;但由于其自身的特性需要设计其他方法来解决抖振现象。模糊控制是一种基于模糊逻辑原理的控制方法,它通过建立模糊规则来处理***的不确定性和模糊性,实现对复杂***的控制。不过其模糊规则库设计具有主观性且模糊规则的设计需要大量的专家知识和经验。
目前基于强化学习的控制方法得到研究人员的广泛关注。最优控制是一种优化问题,旨在找到使得***在给定约束条件下达到最佳性能的控制策略。它涉及到在一定时间内对***进行控制,以实现特定的目标。然而由于其求解过程的困难,通常使用数值方法、近似和优化技术,不仅计算复杂且计算量大。将强化学习结合最优控制方法可以得到最优控制输出,通过基于自适应动态规划方法的行动者-批判者神经网络结构来求解过程中的未知复杂连续函数,极大地减少了计算复杂度,且具有较强的鲁棒性。实际运行中无人艇可能会出现设备故障或设备失效的问题,所以应该考虑容错控制问题。
发明内容
本发明为了解决欠驱动无人艇轨迹跟踪问题中目前控制算法中无人艇鲁棒性不强、控制效果较差、控制***响应慢以及无人艇执行器故障和执行器偏置的问题,提出了一种基于零和微分博弈的欠驱动无人艇容错控制方法。
本发明的技术方案是:一种基于零和微分博弈的欠驱动无人艇容错控制方法包括以下步骤:
S1、构建欠驱动无人艇的运动学方程和动力学方程;
S2、根据欠驱动无人艇的运动学方程和动力学方程,确定第一代价模型;
S3、根据第一代价模型,确定欠驱动无人艇的虚拟控制率;
S4、构建一阶滤波器模型;
S5、基于一阶滤波器模型,根据欠驱动无人艇的执行器失效和执行器偏置,确定第一输入信号和第二输入信号;
S6、根据第一输入信号和第二输入信号,为欠驱动无人艇的博弈双方生成第二代价模型;
S7、根据第二代价模型,利用零和微分博弈算法确定欠驱动无人艇的实际控制率。
进一步地,S1中,欠驱动无人艇的运动学方程的表达式为:
式中,表示地球固定坐标系中欠驱动无人艇横坐标方向上的速度,/>表示地球固定坐标系中欠驱动无人艇纵坐标方向上的速度,/>表示地球固定坐标系中欠驱动无人艇的偏航角速度,/>表示地球固定坐标系中欠驱动无人艇偏航角,/>表示无人艇在纵荡方向上的速度,/>表示无人艇在横漂方向上的速度,/>表示无人艇在艏摇方向上的速度;
S1中,欠驱动无人艇的动力学方程的表达式为:
式中,表示无人艇在纵荡方向上的加速度,/>表示无人艇在横漂方向上的加速度,/>表示无人艇在艏摇方向上的加速度,/>表示无人艇纵荡方向上质量和转动惯量系数,表示无人艇横漂方向上质量和转动惯量系数,/>表示无人艇艏摇方向上质量和转动惯量系数,/>表示纵荡方向上的不确定流体动力阻尼项,/>表示横漂方向上的不确定流体动力阻尼项,/>表示艏摇方向上的不确定流体动力阻尼项,/>表示无人艇纵荡方向上的控制输入,/>表示无人艇艏摇方向上的控制输入,/>表示无人艇所受纵荡方向上的外部扰动,/>表示无人艇所受横漂方向上的外部扰动,/>表示无人艇所受艏摇方向上的外部扰动,/>表示无人艇纵荡方向上的第一模型参数,/>表示无人艇纵荡方向上的第二模型参数,/>表示无人艇纵荡方向上的第三模型参数,/>表示无人艇横漂方向上的第一模型参数,/>表示无人艇横漂方向上的第二模型参数,/>表示无人艇横漂方向上的第三模型参数,/>表示无人艇艏摇方向上的第一模型参数,/>表示无人艇艏摇方向上的第二模型参数,/>表示无人艇艏摇方向上的第三模型参数,/>表示无人艇纵荡方向上的第i模型参数,/>表示无人艇横漂方向上的第i模型参数,/>表示无人艇艏摇方向上的第i模型参数,i表示模型参数编号,t表示时间变量。
进一步地,S2包括以下子步骤:
S21、根据欠驱动无人艇的运动学方程和动力学方程,确定第一误差变量函数、第二误差变量函数、第三误差变量函数和第四误差变量函数;
S22、根据第一误差变量函数、第二误差变量函数、第三误差变量函数和第四误差变量函数,确定第一代价模型。
进一步地,S21中,第一误差变量函数的表达式为:
式中,表示无人艇在地球固定坐标系中实际横坐标和期望轨迹的横坐标的误差值,/>表示无人艇在地球固定坐标系中实际纵坐标和期望轨迹的纵坐标的误差,/>表示在地球固定坐标系中无人艇的期望航向角,/>表示地球固定坐标系中的欠驱动无人艇横坐标,/>表示地球固定坐标系中的欠驱动无人艇纵坐标,/>表示地球固定坐标系中期望轨迹的横坐标,/>表示地球固定坐标系中期望轨迹的纵坐标;
S21中,第二误差变量函数的表达式为:
式中,表示无人艇艏摇方向实际航向角和期望航向角的误差,/>表示无人艇实际位置和期望位置的误差,/>表示地球固定坐标系中欠驱动无人艇偏航角;
S21中,第三误差变量函数的表达式为:
式中,表示无人艇艏摇方向实际航向角速度和滤波航向角速度的误差,/>表示无人艇实际速度和滤波速度的误差,/>表示无人艇在艏摇方向上的速度,/>表示无人艇在纵荡方向上的速度,/>表示无人艇艏摇方向滤波航角速度,/>表示无人艇滤波速度;
S21中,第四误差变量函数的表达式为:
式中,表示无人艇艏摇方向航向角速度滤波误差,/>表示无人艇速度滤波误差,表示无人艇艏摇方向实际航向角速度的估计值,/>表示无人艇实际速度的估计值;
S22中,第一代价模型的表达式为:
式中,表示第一代价函数,/>表示第三代价函数,/>表示无人艇艏摇方向实际航向角速度,/>表示无人艇实际速度。
进一步地,S3包括以下子步骤:
S31、根据第一代价模型,确定最优价值模型,并根据最优价值模型,确定无人艇的虚拟最优控制率函数;
S32、利用critic神经网络和actor神经网络依次对欠驱动无人艇的虚拟最优控制率函数进行强化学习,得到欠驱动无人艇的虚拟控制率。
进一步地,S31中,最佳价值模型的表达式为:
式中,表示第一最优价值函数,/>表示第三最优价值函数,/>表示第一代价函数,/>表示第三代价函数,/>表示无人艇艏摇方向实际航向角和期望航向角的误差,/>表示无人艇实际位置和期望位置的误差,/>表示无人艇艏摇方向实际航向角速度,/>表示无人艇艏摇方向最优实际航向角速度,/>表示无人艇实际速度,/>表示无人艇最优实际速度,表示第一中间价值函数,/>第三中间价值函数,/>表示第一正常数,/>表示第三正常数,/>表示第一贝尔曼残差变量,/>表示第三贝尔曼残差变量,t表示时间变量;
S31中,无人艇的虚拟最优控制率函数的表达式为:
式中,表示无人艇在艏摇方向上的虚拟最优控制率,/>表示无人艇在纵荡方向上的虚拟最优控制率。
进一步地,S32中,critic神经网络的更新律表达式为:
式中,表示第一critic神经网络的权重向量的更新率,/>表示第三critic神经网络的权重向量的更新率,/>表示第一critic神经网络的学习率,/>表示第三critic神经网络的学习率,/>表示与角度误差变量相关的第一中间变量,/>表示与位置误差变量相关的第一中间变量,/>表示第一actor神经网络的权重向量估计量,/>表示第三actor神经网络的权重向量估计量,/>表示第一critic神经网络的权重向量估计量,/>表示第三critic神经网络的权重向量估计量,/>表示第一正常数,/>表示第三正常数,/>表示在地球固定坐标系中无人艇的期望航向角的导数,/>表示无人艇艏摇方向实际航向角和期望航向角的误差,/>表示无人艇实际位置和期望位置的误差,/>表示有界函数,/>表示第一神经网络的径向基函数,/>表示第三神经网络的径向基函数,t表示时间变量;
S32中,actor神经网络的更新律表达式为:
式中,表示第一actor神经网络的权重向量的更新率,/>表示第三actor神经网络的权重向量的更新率,/>表示第一actor神经网络的学习率,/>表示第三actor神经网络的学习率,/>表示无人艇的角度。
进一步地,S4中,一阶滤波器模型的表达式为:
式中,表示滤波器第一参数,/>表示滤波器第二参数,/>表示无人艇艏摇方向滤波航角速度的一阶导数,/>表示无人艇滤波速度的一阶导数,/>表示无人艇艏摇方向滤波航角速度,/>表示无人艇滤波速度,/>表示无人艇艏摇方向实际航向角速度的估计值,/>表示无人艇实际速度的估计值。
进一步地,S5中,第一输入信号的表达式为:
式中,表示容错控制中的第一失效比例,/>表示***输入的第一中间变量,/>表示容错控制中的第一执行器偏置;
所述S5中,第二输入信号的表达式为:
式中,表示容错控制中的第二失效比例,/>表示***输入的第二中间变量,/>表示容错控制中的第二执行器偏置。
进一步地,S6中,第二代价模型的表达式为:
式中,表示第二代价函数,/>表示***价函数,/>表示容错控制第一参数,/>表示容错控制第二参数,/>表示无人艇艏摇方向实际航向角速度和滤波航向角速度的误差,/>表示无人艇实际速度和滤波速度的误差,/>表示***输入的第一中间变量,/>表示容错控制中的第一执行器偏置,/>表示***输入的第二中间变量,/>表示容错控制中的第二执行器偏置。
本发明的有益效果是:
(1)本发明通过使用基于强化学习的最优控制方法设计虚拟最优控制律,通过将***的误差变量和***状态量作为代价函数迭代获得最小的误差和最小的能耗;
(2)本发明使用了基于强化学习的actor-critic神经网络网络结构,通过策略学习和最优价值学习求解复杂非线性方程;
(3)本发明使用了博弈论中的零和微分博弈方法,将控制信号和执行器故障信号作为博弈双方,根据博弈双方的总价值和为零的特点将博弈双方以及***误差最为价值函数的构成部分,可以进一步得到最优结果。
附图说明
图1为基于零和微分博弈的欠驱动无人艇容错控制方法的流程图;
图2为欠驱动无人艇轨迹跟踪图;
图3为欠驱动无人艇角度误差图;
图4为欠驱动无人艇位置误差图;
图5为欠驱动无人艇角度控制输入图;
图6为欠驱动无人艇位置控制输入图;
图7为欠驱动无人艇角度虚拟控制输入图;
图8为欠驱动无人艇位置虚拟控制输入图;
图9为欠驱动无人艇价值函数图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
如图1所示,本发明提供了一种基于零和微分博弈的欠驱动无人艇容错控制方法,包括以下步骤:
S1、构建欠驱动无人艇的运动学方程和动力学方程;
S2、根据欠驱动无人艇的运动学方程和动力学方程,确定第一代价模型;
S3、根据第一代价模型,确定欠驱动无人艇的虚拟控制率;
S4、构建一阶滤波器模型;
S5、基于一阶滤波器模型,根据欠驱动无人艇的执行器失效和执行器偏置,确定第一输入信号和第二输入信号;
S6、根据第一输入信号和第二输入信号,为欠驱动无人艇的博弈双方生成第二代价模型;
S7、根据第二代价模型,利用零和微分博弈算法确定欠驱动无人艇的实际控制率。
在本发明实施例中,S1中,欠驱动无人艇的运动学方程的表达式为:
式中,表示地球固定坐标系中欠驱动无人艇横坐标方向上的速度,/>表示地球固定坐标系中欠驱动无人艇纵坐标方向上的速度,/>表示地球固定坐标系中欠驱动无人艇的偏航角速度,/>表示地球固定坐标系中欠驱动无人艇偏航角,/>表示无人艇在纵荡方向上的速度,/>表示无人艇在横漂方向上的速度,/>表示无人艇在艏摇方向上的速度;
S1中,欠驱动无人艇的动力学方程的表达式为:
式中,表示无人艇在纵荡方向上的加速度,/>表示无人艇在横漂方向上的加速度,/>表示无人艇在艏摇方向上的加速度,/>表示无人艇纵荡方向上质量和转动惯量系数,表示无人艇横漂方向上质量和转动惯量系数,/>表示无人艇艏摇方向上质量和转动惯量系数,/>表示纵荡方向上的不确定流体动力阻尼项,/>表示横漂方向上的不确定流体动力阻尼项,/>表示艏摇方向上的不确定流体动力阻尼项,/>表示无人艇纵荡方向上的控制输入,/>表示无人艇艏摇方向上的控制输入,/>表示无人艇所受纵荡方向上的外部扰动,/>表示无人艇所受横漂方向上的外部扰动,/>表示无人艇所受艏摇方向上的外部扰动,/>表示无人艇纵荡方向上的第一模型参数,/>表示无人艇纵荡方向上的第二模型参数,/>表示无人艇纵荡方向上的第三模型参数,/>表示无人艇横漂方向上的第一模型参数,/>表示无人艇横漂方向上的第二模型参数,/>表示无人艇横漂方向上的第三模型参数,/>表示无人艇艏摇方向上的第一模型参数,/>表示无人艇艏摇方向上的第二模型参数,/>表示无人艇艏摇方向上的第三模型参数,/>表示无人艇纵荡方向上的第i模型参数,/>表示无人艇横漂方向上的第i模型参数,/>表示无人艇艏摇方向上的第i模型参数,i表示模型参数编号,t表示时间变量。
在本发明实施例中,S2包括以下子步骤:
S21、根据欠驱动无人艇的运动学方程和动力学方程,确定第一误差变量函数、第二误差变量函数、第三误差变量函数和第四误差变量函数;
S22、根据第一误差变量函数、第二误差变量函数、第三误差变量函数和第四误差变量函数,确定第一代价模型。
在本发明实施例中,S21中,第一误差变量函数的表达式为:
式中,表示无人艇在地球固定坐标系中实际横坐标和期望轨迹的横坐标的误差值,/>表示无人艇在地球固定坐标系中实际纵坐标和期望轨迹的纵坐标的误差,/>表示在地球固定坐标系中无人艇的期望航向角,/>表示地球固定坐标系中的欠驱动无人艇横坐标,/>表示地球固定坐标系中的欠驱动无人艇纵坐标,/>表示地球固定坐标系中期望轨迹的横坐标,/>表示地球固定坐标系中期望轨迹的纵坐标;
S21中,第二误差变量函数的表达式为:
式中,表示无人艇艏摇方向实际航向角和期望航向角的误差,/>表示无人艇实际位置和期望位置的误差,/>表示地球固定坐标系中欠驱动无人艇偏航角;
S21中,第三误差变量函数的表达式为:
式中,表示无人艇艏摇方向实际航向角速度和滤波航向角速度的误差,/>表示无人艇实际速度和滤波速度的误差,/>表示无人艇在艏摇方向上的速度,/>表示无人艇在纵荡方向上的速度,/>表示无人艇艏摇方向滤波航角速度,/>表示无人艇滤波速度;
S21中,第四误差变量函数的表达式为:
式中,表示无人艇艏摇方向航向角速度滤波误差,/>表示无人艇速度滤波误差,表示无人艇艏摇方向实际航向角速度的估计值,/>表示无人艇实际速度的估计值;
S22中,第一代价模型的表达式为:
式中,表示第一代价函数,/>表示第三代价函数,/>表示无人艇艏摇方向实际航向角速度,/>表示无人艇实际速度。
在本发明实施例中,S3包括以下子步骤:
S31、根据第一代价模型,确定最优价值模型,并根据最优价值模型,确定无人艇的虚拟最优控制率函数;
S32、利用critic神经网络和actor神经网络依次对欠驱动无人艇的虚拟最优控制率函数进行强化学习,得到欠驱动无人艇的虚拟控制率。
在本发明实施例中,S31中,最佳价值模型的表达式为:
式中,表示第一最优价值函数,/>表示第三最优价值函数,/>表示第一代价函数,/>表示第三代价函数,/>表示无人艇艏摇方向实际航向角和期望航向角的误差,/>表示无人艇实际位置和期望位置的误差,/>表示无人艇艏摇方向实际航向角速度,/>表示无人艇艏摇方向最优实际航向角速度,/>表示无人艇实际速度,/>表示无人艇最优实际速度,表示第一中间价值函数,/>第三中间价值函数,/>表示第一正常数,/>表示第三正常数,/>表示第一贝尔曼残差变量,/>表示第三贝尔曼残差变量,t表示时间变量;
S31中,无人艇的虚拟最优控制率函数的表达式为:
式中,表示无人艇在艏摇方向上的虚拟最优控制率,/>表示无人艇在纵荡方向上的虚拟最优控制率。
在本发明实施例中,S32中,critic神经网络的更新律表达式为:
式中,表示第一critic神经网络的权重向量的更新率,/>表示第三critic神经网络的权重向量的更新率,/>表示第一critic神经网络的学习率,/>表示第三critic神经网络的学习率,/>表示与角度误差变量相关的第一中间变量,/>表示与位置误差变量相关的第一中间变量,/>表示第一actor神经网络的权重向量估计量,/>表示第三actor神经网络的权重向量估计量,/>表示第一critic神经网络的权重向量估计量,/>表示第三critic神经网络的权重向量估计量,/>表示第一正常数,/>表示第三正常数,/>表示在地球固定坐标系中无人艇的期望航向角的导数,/>表示无人艇艏摇方向实际航向角和期望航向角的误差,/>表示无人艇实际位置和期望位置的误差,/>表示有界函数,/>表示第一神经网络的径向基函数,/>表示第三神经网络的径向基函数,t表示时间变量;
S32中,actor神经网络的更新律表达式为:
式中,表示第一actor神经网络的权重向量的更新率,/>表示第三actor神经网络的权重向量的更新率,/>表示第一actor神经网络的学习率,/>表示第三actor神经网络的学习率,/>表示无人艇的角度。
在本发明实施例中,S4中,一阶滤波器模型的表达式为:
式中,表示滤波器第一参数,/>表示滤波器第二参数,/>表示无人艇艏摇方向滤波航角速度的一阶导数,/>表示无人艇滤波速度的一阶导数,/>表示无人艇艏摇方向滤波航角速度,/>表示无人艇滤波速度,/>表示无人艇艏摇方向实际航向角速度的估计值,/>表示无人艇实际速度的估计值。
在本发明实施例中,S5中,第一输入信号的表达式为:
式中,表示容错控制中的第一失效比例,/>表示***输入的第一中间变量,/>表示容错控制中的第一执行器偏置;
S5中,第二输入信号的表达式为:
式中,表示容错控制中的第二失效比例,/>表示***输入的第二中间变量,/>表示容错控制中的第二执行器偏置。
在本发明实施例中,S6中,第二代价模型的表达式为:
式中,表示第二代价函数,/>表示***价函数,/>表示容错控制第一参数,/>表示容错控制第二参数,/>表示无人艇艏摇方向实际航向角速度和滤波航向角速度的误差,/>表示无人艇实际速度和滤波速度的误差,/>表示***输入的第一中间变量,/>表示容错控制中的第一执行器偏置,/>表示***输入的第二中间变量,/>表示容错控制中的第二执行器偏置。
为了验证本发明的有效性,在使用以下模型进行了数值仿真实验,具体实验如下。
通过选择的模型参数对欠驱动无人艇进行数值仿真实验,验证所提出的一种基于强化学习和零和微分博弈的欠驱动无人艇容错控制方法的有效性。模型参数如表1所示,控制器设计参数如表2所示,神经网络设计参数如表3所示。
表1
表1中,表示无人艇纵荡方向上质量和转动惯量系数,/>表示无人艇横漂方向上质量和转动惯量系数,/>表示无人艇艏摇方向上质量和转动惯量系数,/>表示无人艇纵荡方向上的第一模型参数,/>表示无人艇纵荡方向上的第二模型参数,/>表示无人艇纵荡方向上的第三模型参数,/>表示无人艇横漂方向上的第一模型参数,/>表示无人艇横漂方向上的第二模型参数,/>表示无人艇横漂方向上的第三模型参数,/>表示无人艇艏摇方向上的第一模型参数,/>表示无人艇艏摇方向上的第二模型参数,/>表示无人艇艏摇方向上的第三模型参数,/>表示无人艇在纵荡方向上的期望速度,/>表示无人艇在艏摇方向上的期望速度。
表2
表2中,表示第一actor神经网络的学习率,/>表示第三actor神经网络的学习率,/>表示第一critic神经网络的学习率,/>表示第三critic神经网络的学习率,/>表示第一正常数,/>表示第二正常数,/>表示第三正常数,/>表示第四正常数,/>表示第二critic神经网络的学习率,/>表示第四critic神经网络的学习率,/>表示第五actor神经网络的学习率,/>表示第六actor神经网络的学习率,/>表示滤波器第一参数,/>表示滤波器第二参数,/>表示容错控制第一参数,/>表示容错控制第二参数。
表3
表3中,表示第一神经网络基函数的中心值,/>表示第二神经网络基函数的中心值,/>表示第三神经网络基函数的中心值,/>表示第四神经网络基函数的中心值,/>表示第一神经网络基函数的中心点宽度,/>表示第二神经网络基函数的中心点宽度,/>表示第三神经网络基函数的中心点宽度,/>表示第四神经网络基函数的中心点宽度,/>表示神经网络结点分布。
本次仿真实验选择欠驱动无人艇初始位置为,且初始速度均为0。欠驱动无人艇的期望轨迹设置为/>和/>且初始条件均为0。表3中/>代表神经网络具有72个结点,范围为/>,同理/>,神经网络所有初始权重均为0。其中,/>表示仿真中无人艇的初始/>坐标值,/>表示仿真中无人艇的初始坐标值,/>表示仿真中无人艇的初始角度,/>表示无人艇/>坐标的一阶导数,/>表示无人艇纵荡方向上期望速度,/>表示无人艇纵荡方向上期望速度,/>表示仿真时间,/>表示无人艇/>坐标的一阶导数,/>表示无人艇艏摇方向上期望速度,/>表示均分计算,B表示神经网络结点分布。
仿真实验中模拟执行器故障如下:
情况1:,/>,/>,/>,/>
情况2:,/>,/>,/>,/>
情况3:,/>,/>,/>,/>
情况4:,/>,/>,/>,/>
其中,表示容错控制中的第一失效比例,/>表示容错控制中的第二失效比例,表示容错控制中的第一执行器偏置,/>表示容错控制中的第二执行器偏置。
仿真结果如图2-9所示。图2为本发明所提出的控制方法的轨迹跟踪图,可以看出在处就已经能够很好的跟踪期望轨迹,并且再之后的控制过程中无人艇位置基本与期望轨迹位置重合,跟踪效果较好。图3为控制过程中无人艇实际航向角和期望轨迹中航向角的误差值,误差在/>处完成收敛,并且误差稳定在0附近且曲线无明显的抖动。图4表示控制过程中无人艇实际位置和期望轨迹中位置的误差值,在仿真过程中误差值最终收敛至0.5m左右。图5展示了在仿真中经历故障下的控制器1的变化,可以看出在80s和85s处控制器1均出现了抖动,由于执行器故障的影响和控制方法中的补偿功能,控制器1分别用时0.2s和2s调节并恢复稳定,收敛至稳定值。图6表示了控制器2 在执行器部分失效的情况下的变化,控制器失效设置在60s处,根据图6可以看出在60s处有明显的波动,但很快又趋于稳定。图7和图8为仿真过程中的虚拟控制率的变化图,在仿真过程基本均收敛且无明显抖动。图9为仿真过程中的总价值函数图,价值函数最终收敛在35附近,3s左右可以完成收敛,且总价值函数的值很小。实验结果很好的说明了所提出的基于强化学习和零和微分博弈最优控制的欠驱动无人艇容错方法具有很好的鲁棒性和准确性,且收敛速度快,神经网络拟合效果好,应对执行器故障效果好。/>
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (4)

1.一种基于零和微分博弈的欠驱动无人艇容错控制方法,其特征在于,包括以下步骤:
S1、构建欠驱动无人艇的运动学方程和动力学方程;
S2、根据欠驱动无人艇的运动学方程和动力学方程,确定第一代价模型;
S3、根据第一代价模型,确定欠驱动无人艇的虚拟控制率;
S4、构建一阶滤波器模型;
S5、基于一阶滤波器模型,根据欠驱动无人艇的执行器失效和执行器偏置,确定第一输入信号和第二输入信号;
S6、根据第一输入信号和第二输入信号,为欠驱动无人艇的博弈双方生成第二代价模型;
S7、根据第二代价模型,利用零和微分博弈算法确定欠驱动无人艇的实际控制率;
所述S1中,欠驱动无人艇的运动学方程的表达式为:
式中,表示地球固定坐标系中欠驱动无人艇横坐标方向上的速度,/>表示地球固定坐标系中欠驱动无人艇纵坐标方向上的速度,/>表示地球固定坐标系中欠驱动无人艇的偏航角速度,/>表示地球固定坐标系中欠驱动无人艇偏航角,/>表示无人艇在纵荡方向上的速度,/>表示无人艇在横漂方向上的速度,/>表示无人艇在艏摇方向上的速度;
所述S1中,欠驱动无人艇的动力学方程的表达式为:
式中,表示无人艇在纵荡方向上的加速度,/>表示无人艇在横漂方向上的加速度,/>表示无人艇在艏摇方向上的加速度,/>表示无人艇纵荡方向上质量和转动惯量系数,/>表示无人艇横漂方向上质量和转动惯量系数,/>表示无人艇艏摇方向上质量和转动惯量系数,表示纵荡方向上的不确定流体动力阻尼项,/>表示横漂方向上的不确定流体动力阻尼项,/>表示艏摇方向上的不确定流体动力阻尼项,/>表示无人艇纵荡方向上的控制输入,/>表示无人艇艏摇方向上的控制输入,/>表示无人艇所受纵荡方向上的外部扰动,/>表示无人艇所受横漂方向上的外部扰动,/>表示无人艇所受艏摇方向上的外部扰动,/>表示无人艇纵荡方向上的第一模型参数,/>表示无人艇纵荡方向上的第二模型参数,/>表示无人艇纵荡方向上的第三模型参数,/>表示无人艇横漂方向上的第一模型参数,/>表示无人艇横漂方向上的第二模型参数,/>表示无人艇横漂方向上的第三模型参数,/>表示无人艇艏摇方向上的第一模型参数,/>表示无人艇艏摇方向上的第二模型参数,/>表示无人艇艏摇方向上的第三模型参数,/>表示无人艇纵荡方向上的第i模型参数,/>表示无人艇横漂方向上的第i模型参数,/>表示无人艇艏摇方向上的第i模型参数,i表示模型参数编号,t表示时间变量;
所述S2包括以下子步骤:
S21、根据欠驱动无人艇的运动学方程和动力学方程,确定第一误差变量函数、第二误差变量函数、第三误差变量函数和第四误差变量函数;
S22、根据第一误差变量函数、第二误差变量函数、第三误差变量函数和第四误差变量函数,确定第一代价模型;
所述S3包括以下子步骤:
S31、根据第一代价模型,确定最优价值模型,并根据最优价值模型,确定无人艇的虚拟最优控制率函数;
S32、利用critic神经网络和actor神经网络依次对欠驱动无人艇的虚拟最优控制率函数进行强化学习,得到欠驱动无人艇的虚拟控制率;
所述S4中,一阶滤波器模型的表达式为:
式中,表示滤波器第一参数,/>表示滤波器第二参数,/>表示无人艇艏摇方向滤波航角速度的一阶导数,/>表示无人艇滤波速度的一阶导数,/>表示无人艇艏摇方向滤波航角速度,/>表示无人艇滤波速度,/>表示无人艇艏摇方向实际航向角速度的估计值,/>表示无人艇实际速度的估计值;
所述S5中,第一输入信号的表达式为:
式中,表示容错控制中的第一失效比例,/>表示***输入的第一中间变量,/>表示容错控制中的第一执行器偏置;
所述S5中,第二输入信号的表达式为:
式中,表示容错控制中的第二失效比例,/>表示***输入的第二中间变量,/>表示容错控制中的第二执行器偏置;
所述S6中,第二代价模型的表达式为:
式中,表示第二代价函数,/>表示***价函数,/>表示容错控制第一参数,/>表示容错控制第二参数,/>表示无人艇艏摇方向实际航向角速度和滤波航向角速度的误差,/>表示无人艇实际速度和滤波速度的误差,/>表示***输入的第一中间变量,/>表示容错控制中的第一执行器偏置,/>表示***输入的第二中间变量,/>表示容错控制中的第二执行器偏置。
2.根据权利要求1所述的基于零和微分博弈的欠驱动无人艇容错控制方法,其特征在于,所述S21中,第一误差变量函数的表达式为:
式中,表示无人艇在地球固定坐标系中实际横坐标和期望轨迹的横坐标的误差值,表示无人艇在地球固定坐标系中实际纵坐标和期望轨迹的纵坐标的误差,/>表示在地球固定坐标系中无人艇的期望航向角,/>表示地球固定坐标系中的欠驱动无人艇横坐标,表示地球固定坐标系中的欠驱动无人艇纵坐标,/>表示地球固定坐标系中期望轨迹的横坐标,/>表示地球固定坐标系中期望轨迹的纵坐标;
所述S21中,第二误差变量函数的表达式为:
式中,表示无人艇艏摇方向实际航向角和期望航向角的误差,/>表示无人艇实际位置和期望位置的误差,/>表示地球固定坐标系中欠驱动无人艇偏航角;
所述S21中,第三误差变量函数的表达式为:
式中,表示无人艇艏摇方向实际航向角速度和滤波航向角速度的误差,/>表示无人艇实际速度和滤波速度的误差,/>表示无人艇在艏摇方向上的速度,/>表示无人艇在纵荡方向上的速度,/>表示无人艇艏摇方向滤波航角速度,/>表示无人艇滤波速度;
所述S21中,第四误差变量函数的表达式为:
式中,表示无人艇艏摇方向航向角速度滤波误差,/>表示无人艇速度滤波误差,/>表示无人艇艏摇方向实际航向角速度的估计值,/>表示无人艇实际速度的估计值;
所述S22中,第一代价模型的表达式为:
式中,表示第一代价函数,/>表示第三代价函数,/>表示无人艇艏摇方向实际航向角速度,/>表示无人艇实际速度。
3.根据权利要求1所述的基于零和微分博弈的欠驱动无人艇容错控制方法,其特征在于,所述S31中,最佳价值模型的表达式为:
式中,表示第一最优价值函数,/>表示第三最优价值函数,/>表示第一代价函数,表示第三代价函数,/>表示无人艇艏摇方向实际航向角和期望航向角的误差,/>表示无人艇实际位置和期望位置的误差,/>表示无人艇艏摇方向实际航向角速度,/>表示无人艇艏摇方向最优实际航向角速度,/>表示无人艇实际速度,/>表示无人艇最优实际速度,/>表示第一中间价值函数,/>第三中间价值函数,/>表示第一正常数,/>表示第三正常数,表示第一贝尔曼残差变量,/>表示第三贝尔曼残差变量,t表示时间变量;
所述S31中,无人艇的虚拟最优控制率函数的表达式为:
式中,表示无人艇在艏摇方向上的虚拟最优控制率,/>表示无人艇在纵荡方向上的虚拟最优控制率。
4.根据权利要求1所述的基于零和微分博弈的欠驱动无人艇容错控制方法,其特征在于,所述S32中,critic神经网络的更新律表达式为:
式中,表示第一critic神经网络的权重向量的更新率,/>表示第三critic神经网络的权重向量的更新率,/>表示第一critic神经网络的学习率,/>表示第三critic神经网络的学习率,/>表示与角度误差变量相关的第一中间变量,/>表示与位置误差变量相关的第一中间变量,/>表示第一actor神经网络的权重向量估计量,/>表示第三actor神经网络的权重向量估计量,/>表示第一critic神经网络的权重向量估计量,/>表示第三critic神经网络的权重向量估计量,/>表示第一正常数,/>表示第三正常数,/>表示在地球固定坐标系中无人艇的期望航向角的导数,/>表示无人艇艏摇方向实际航向角和期望航向角的误差,/>表示无人艇实际位置和期望位置的误差,/>表示有界函数,/>表示第一神经网络的径向基函数,/>表示第三神经网络的径向基函数,t表示时间变量;
所述S32中,actor神经网络的更新律表达式为:
式中,表示第一actor神经网络的权重向量的更新率,/>表示第三actor神经网络的权重向量的更新率,/>表示第一actor神经网络的学习率,/>表示第三actor神经网络的学习率,/>表示无人艇的角度。
CN202410208490.8A 2024-02-26 2024-02-26 一种基于零和微分博弈的欠驱动无人艇容错控制方法 Active CN117784619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410208490.8A CN117784619B (zh) 2024-02-26 2024-02-26 一种基于零和微分博弈的欠驱动无人艇容错控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410208490.8A CN117784619B (zh) 2024-02-26 2024-02-26 一种基于零和微分博弈的欠驱动无人艇容错控制方法

Publications (2)

Publication Number Publication Date
CN117784619A CN117784619A (zh) 2024-03-29
CN117784619B true CN117784619B (zh) 2024-05-31

Family

ID=90389534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410208490.8A Active CN117784619B (zh) 2024-02-26 2024-02-26 一种基于零和微分博弈的欠驱动无人艇容错控制方法

Country Status (1)

Country Link
CN (1) CN117784619B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115179963A (zh) * 2022-07-18 2022-10-14 湖南大学 自动驾驶车辆换道的容错控制方法、介质、***及汽车
CN116820101A (zh) * 2023-06-29 2023-09-29 哈尔滨工程大学 一种距离信息缺失下的欠驱动无人艇编队控制方法
CN117270528A (zh) * 2023-09-12 2023-12-22 大连海事大学 一种无人艇追逃博弈控制方法及控制器
CN117452827A (zh) * 2023-12-20 2024-01-26 广东海洋大学 一种欠驱动无人艇轨迹跟踪控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115179963A (zh) * 2022-07-18 2022-10-14 湖南大学 自动驾驶车辆换道的容错控制方法、介质、***及汽车
CN116820101A (zh) * 2023-06-29 2023-09-29 哈尔滨工程大学 一种距离信息缺失下的欠驱动无人艇编队控制方法
CN117270528A (zh) * 2023-09-12 2023-12-22 大连海事大学 一种无人艇追逃博弈控制方法及控制器
CN117452827A (zh) * 2023-12-20 2024-01-26 广东海洋大学 一种欠驱动无人艇轨迹跟踪控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Zero-Sum Differential Game-Based Optimal Fault-Tolerant Control for Interconnected Systems with Actuator Faults;Qingyi Liu等;《IEEE Transactions on Control of Network Systems ( Early Access )》;20231127;第1-12页 *
基于零和微分博弈的航天器相对位置容错控制;孟庆媛等;《中国科学: 技术科学》;20240206;第54卷(第3期);第391-401页 *
失效航天器姿态接管的SDRE微分博弈控制;柴源;罗建军;韩楠;谢剑锋;;宇航学报;20200228(第02期);第191-198页 *

Also Published As

Publication number Publication date
CN117784619A (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN109901403A (zh) 一种自主水下机器人神经网络s面控制方法
CN111240345B (zh) 基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
Yan et al. Consensus formation tracking for multiple AUV systems using distributed bioinspired sliding mode control
CN104898688A (zh) Uuv四自由度动力定位自适应抗扰滑模控制***及控制方法
CN110262494B (zh) 一种同构多无人艇***的协同学习与编队控制方法
Al-Mahturi et al. A robust self-adaptive interval type-2 TS fuzzy logic for controlling multi-input–multi-output nonlinear uncertain dynamical systems
Fu et al. Fixed-time trajectory tracking control of a full state constrained marine surface vehicle with model uncertainties and external disturbances
CN114115262B (zh) 基于方位角信息的多auv执行器饱和协同编队控制***和方法
CN112947505B (zh) 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法
CN117452827B (zh) 一种欠驱动无人艇轨迹跟踪控制方法
CN113848887A (zh) 一种基于mlp方法的欠驱动无人艇轨迹跟踪控制方法
Gao et al. Online optimal control for dynamic positioning of vessels via time-based adaptive dynamic programming
CN116820101A (zh) 一种距离信息缺失下的欠驱动无人艇编队控制方法
Li et al. Finite-time fuzzy adaptive dynamic event-triggered formation tracking control for USVs with actuator faults and multiple constraints
Dong et al. An improved dynamic surface sliding mode method for autonomous cooperative formation control of underactuated USVs with complex marine environment disturbances
Zhang et al. Hybrid threshold event-triggered control for sail-assisted USV via the nonlinear modified LVS guidance
Chen et al. Adaptive optimal consensus control of multiagent systems with unknown dynamics and disturbances via reinforcement learning
CN117873078A (zh) 一种基于人工势函数的无人水面船编队容错控制方法
CN117784619B (zh) 一种基于零和微分博弈的欠驱动无人艇容错控制方法
CN115903820A (zh) 多无人艇追逃博弈控制方法
Hou et al. Robust nonlinear model predictive control for ship dynamic positioning using Laguerre function
CN112904719B (zh) 一种适用于水下机器人位置环形区域跟踪控制方法
Jiang et al. Error-constrained coordinated tracking control for high-order multiagent systems based on barrier Lyapunov function
CN109062232B (zh) 海底地震检波飞行节点分布式有限时间防抖振构型包含控制方法
Wang et al. Course tracking control for smart ships based on a deep deterministic policy gradient-based algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant