CN116834014A

CN116834014A - 一种空间多臂机器人捕获非合作目标的智能协同控制方法和***

Info

Publication number: CN116834014A
Application number: CN202310948682.8A
Authority: CN
Inventors: 魏承; 赵梓良; 谷海宇; 刘天喜; 曹喜滨
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-10-03

Abstract

一种空间多臂机器人捕获非合作目标的智能协同控制方法和***，涉及空间双臂机器人智能捕获控制领域。解决了经典控制方法在处理复杂的机器人非线性***以及不确定或动态变化的任务环境时表现出适应能力不足的问题。所述方法包括：构建空间双臂机器人状态空间和动作空间；根据所述空间双臂机器人状态空间和动作空间构建空间双臂机器人以期望轨迹捕获目标的奖励函数；根据所述奖励函数建立基于DDPG的神经网络模型；训练所述基于DDPG的神经网络模型，获取优化模型；根据所述优化模型控制空间双臂机器人对非合作目标进行捕获。本发明应用于航天领域。

Description

一种空间多臂机器人捕获非合作目标的智能协同控制方法和 ***

技术领域

本发明涉及空间双臂机器人智能捕获控制领域，尤其涉及一种空间多臂机器人捕获非合作目标的智能协同控制方法。

背景技术

空间多臂机器人在执行任务的过程中需要根据任务的要求规划每个臂的运动轨迹，进而达到期望的、所需的位姿，由于空间多臂机器人承担的任务一般更为复杂，通常需要涉及各个臂之间的相互协同作业，而协同作业时多个机械臂之间也会互相产生干扰，因此相较于传统单臂机器人，空间多臂机器人控制器的性能要求更高。另一方面，由于空间多臂机器人动力学模型更为复杂，其在执行任务过程中所受到的外界干扰也更多，例如在作业过程中很容易形成闭链***，臂与臂之间的碰撞、耦合问题也给控制器的设计带来了挑战。

在机械臂的控制领域，传统的控制方法包括PD控制、计算力矩法、滑模控制以及自适应控制等。这些方法已经经过广泛的研究，并在机械臂应用中取得了显著成果。

PD控制指的是比例-微分控制，PD控制器会根据期望状态与当前状态之间的差异值来提供一个控制信号，具有广泛的使用范围。这种控制方法本质上属于反馈调节，具有滞后性，适用于低速、低精度、小范围运动的控制***，在机械臂、机器人控制领域有着广泛的应用。PD控制律可以用来实现机器人的定点控制或轨迹跟踪控制，其优点是简单易实现，不依赖于动力学建模。其缺点是不能消除稳态误差，并且对外部干扰敏感，在应对不同模型或未知模型时需要反复调试参数。

计算力矩法是考虑被控对象动力学模型的控制方法，它根据动力学方程，通过期望与实际的误差来计算期望的关节力矩来使机器人跟踪给定的轨迹或位置。然而计算力矩法建立在动力学模型已知或误差不大的情况下，当动力学模型未知或者动力学模型是一个时变的***时，计算力矩法的控制效果会很差。

随着机器人应用领域的扩展和机器人本身结构设计的复杂化，经典控制理论的局限性逐渐显现。经典控制方法在处理复杂的机器人非线性***以及不确定或动态变化的任务环境时表现出适应能力不足的问题。

发明内容

本发明针对经典控制方法在处理复杂的机器人非线性***以及不确定或动态变化的任务环境时表现出适应能力不足的问题，提出了一种空间多臂机器人捕获非合作目标的智能协同控制方法，所述方案具体为：

一种空间多臂机器人捕获非合作目标的智能协同控制方法，所述方法包括：

构建空间双臂机器人状态空间和动作空间；

根据所述空间双臂机器人状态空间和动作空间构建空间双臂机器人以期望轨迹捕获目标的奖励函数；

根据所述奖励函数建立基于DDPG的神经网络模型；

训练所述基于DDPG的神经网络模型，获取优化模型；

根据所述优化模型控制空间双臂机器人对非合作目标进行捕获。

进一步的，还提供一种优选方式，所述构建空间双臂机器人状态空间和动作空间，包括：

状态空间的状态量维度和动作空间的动作值维度：

所述状态空间的状态量维度为39，包括：基座在x、y、z轴的位置、姿态角、速度和角速度、机械臂的关节角、关节角速度以及非合作目标的速度和角速度；

所述动作空间的动作值维度为18，包括：基座在x、y、z轴上的控制力和控制力矩，12个关节控制力矩。

进一步的，还提供一种优选方式，所述根据所述空间双臂机器人状态空间和动作空间构建空间双臂机器人以期望轨迹捕获目标的奖励函数，包括：

R＝-e_tv-e_tω，

其中，e为代表期望值与真实值误差，e_tv为非合作目标的速度误差，e_tω为角速度误差。

进一步的，还提供一种优选方式，所述根据所述奖励函数建立基于DDPG的神经网络模型，包括：

S1：构建一个策略网络和一个值函数网络；

S2：采用经验缓存器存储神经网络模型经验，所述经验包括环境交互时，机器人状态、动作、奖励、下一个状态信息；

S3：采用策略网络生成动作，并根据值函数网络的评估结果进行策略改进；

S4：采用值函数网络的计算损失函数梯度，并使用梯度下降算法来更新策略网络和值函数网络的参数；

S5：重复步骤S2至S4，使用经验缓存器中经验和梯度更新神经网络模型，获取基于DDPG的神经网络模型。

进一步的，还提供一种优选方式，所述使用梯度下降算法来更新策略网络和值函数网络的参数包括：

所述策略网络的损失函数L_a为：

L_a＝-q_π(s,a)，

其中，(s,a)代表当前状态值和动作值，q_π为价值函数；

所述值函数网络的损失函数L_c为：

L_c＝(R+γq_π(s',a')-q_π(s,a))²，

其中，R代表当前时刻奖励值，(s',a')代表下一个状态值和动作值，γ代表折扣因子；

计算损失函数对策略网络参数的梯度和值函数网络的梯度/>

其中，为策略网络参数的梯度，/>为值函数网络的梯度。

利用梯度下降策略更新参数：

其中，α为学习率，为网络参数的梯度，θ代表网络参数。

进一步的，还提供一种优选方式，所述根据所述优化模型控制空间双臂机器人对非合作目标进行捕获，包括：

空间双臂机器人获取非合作目标的运动状态状态，

优化模型根据所述非合作目标的运动状态状态生成空间双臂机器人的控制策略；

空间双臂机器人根据所述控制策略执行相应动作，并与非合作目标及环境进行交互，获取环境信息；

根据所述环境信息调整优化模型的控制策略，形成闭环训练。

进一步的，还提供一种优选方式，所述单次闭环训练的终止条件包括：

控制总时长超过9s或非合作目标与空间双臂机器人发生碰撞。

基于同一发明构思，本发明还提供一种空间多臂机器人捕获非合作目标的智能协同控制***，所述***包括：

空间构建单元，用于构建空间双臂机器人状态空间和动作空间；

奖励函数构建单元，用于根据所述空间双臂机器人状态空间和动作空间构建空间双臂机器人以期望轨迹捕获目标的奖励函数；

神经网络模型建立单元，用于根据所述奖励函数建立基于DDPG的神经网络模型；

训练单元，用于训练所述基于DDPG的神经网络模型，获取优化模型；

捕获单元，用于根据所述优化模型控制空间双臂机器人对非合作目标进行捕获。

基于同一发明构思，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行上述任一项所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法。

基于同一发明构思，本发明还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据上述中任一项中所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法。

本发明的有益之处在于：

本发明解决了经典控制方法在处理复杂的机器人非线性***以及不确定或动态变化的任务环境时表现出适应能力不足的问题。

本发明所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法，通过构建状态空间和动作空间，能够更好地描述机器人和环境的状态以及机器人可以采取的行动，进而增强对复杂非线性***和不确定或动态变化的任务环境的建模能力；在强化学习中，奖励函数起着引导机器人行为的作用。通过根据期望轨迹构建奖励函数，本发明能够将任务目标形式化为一个优化问题，提供了更灵活、更适应不确定或动态变化的环境的奖励信号，这种自适应奖励函数可以提供更准确的反馈，帮助机器人调整策略以适应复杂的非线性***和动态环境；传统的经典控制方法通常基于线性或者非线性模型，并且需要精确地了解***动力学，然而，在复杂的机器人非线性***中，很难准确建模，本发明基于DDPG的神经网络模型使用深度神经网络来逼近确定性策略和值函数，可以更好地适应复杂的非线性***，减少对***模型的依赖，这使得机器人能够从经验中学习，并根据环境的变化灵活地调整策略；本发明使用DDPG算法对神经网络模型进行训练和优化，通过与环境的交互不断收集样本数据进行学习。这个过程是迭代的，机器人可以通过经验回放和梯度下降等技术不断改进策略，相比于经典控制方法，这种训练和优化过程更适应不确定或动态变化的任务环境，并且能够自适应地改进机器人的控制策略。

本发明所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法，通过使用基于深度强化学习的DDPG算法，可以有效地解决经典控制方法在处理复杂的机器人非线性***以及不确定或动态变化的任务环境时表现出适应能力不足的问题，本发明提供了更灵活、适应性更强的建模能力，并且允许机器人从经验中学习和优化其策略，从而更好地应对复杂机器人***和动态环境的挑战。

本发明提供了一种一种空间多臂机器人捕获非合作目标的智能协同控制方法，引入了基于DDPG的空间双臂机器人控制器，通过动力学机器学***台构建了空间双臂机器人捕获非合作目标的动力学环境模型，在非合作目标运动状态随机的情况下，使用强化学习DDPG算法解决了双臂协同控制问题，降低了双臂协同捕获非合作时产生的抖动问题，提高了控制精度。

本发明应用于航天领域。

附图说明

图1为实施方式一所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法流程图；

图2为实施方式十一所述的强化学习的框架结构图；

图3为实施方式十一所述的DDPG算法流程图；

图4为实施方式十一所述的训练过程示意图；

图5为实施方式十一所述的原奖励函数训练过程奖励值示意图；

图6为实施方式十一所述的改进奖励函数训练过程奖励值示意图；

图7为实施方式十一所述的改进前后奖励函数对比示意图；

图8为实施方式十一所述的目标运动状态示意图，其中，图8(a)为目标速度，图8(b)为目标角速度。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。

实施方式一、参见图1说明本实施方式。本实施方式所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法，所述方法包括：

构建空间双臂机器人状态空间和动作空间；

根据所述奖励函数建立基于DDPG的神经网络模型；

训练所述基于DDPG的神经网络模型，获取优化模型；

本实施方式通过构建状态空间和动作空间，空间双臂机器人可以适应各种不确定或动态变化的情况。状态空间可以包括机器人和目标的位置、速度、加速度等信息，而动作空间可以定义机器人的运动指令。这使得机器人能够根据环境的变化灵活地调整和优化控制策略。

本实施方式通过根据状态空间和动作空间建立期望轨迹捕获目标的奖励函数，可以将任务目标形式化为一个优化问题。奖励函数可以根据任务的不确定性和动态变化进行调整，以使机器人在不同环境中能够寻找最佳的行动策略。这种自适应奖励函数的使用使得机器人能够快速适应并优化其行为。通过建立DDPG模型，使用神经网络来近似策略和值函数，并进行训练以获得优化模型。DDPG算法结合了确定性策略梯度方法和经验回放技术，对于不确定或动态变化的任务环境，其可以学习到适应性较强的策略，并且可以处理连续动作空间的挑战。通过训练基于DDPG的神经网络模型，可以进行迭代优化和逐步改进机器人的控制策略。在每一次迭代中，机器人可以通过与环境交互来收集数据，然后使用经验回放和梯度下降等技术对网络进行训练。这种迭代优化的过程使得机器人能够逐渐改善和适应任务环境的动态变化。

本实施方式所述的方法在进行空间双臂机器人跟踪在不确定或动态变化的任务环境中具有灵活性、适应性、自适应奖励函数、基于DDPG的训练和迭代优化等优点，可使机器人能够有效地应对任务环境的变化并实现对非合作目标的捕获。

实施方式二、本实施方式是对实施方式一所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法的进一步限定，所述构建空间双臂机器人状态空间和动作空间，包括：

状态空间的状态量维度和动作空间的动作值维度：

通过增加状态空间的维度并包含更多的状态量，可以提供更详细和准确的状态信息，这有助于增强机器人对复杂非线性***和动态环境的建模能力。这样，机器人可以更好地感知环境变化和自身状态变化，做出更准确的决策和控制操作。

通过扩展动作空间的维度，为机器人提供了更多的控制选择和灵活性。机器人可以根据需要在不同自由度上施加适当的力和力矩，以实现精细的控制和动作表现。这样的动作空间设计有助于提高机器人的机动性和适应能力，使其能够在复杂的非线性***和动态环境下灵活地应对各种任务需求。

所述状态空间和动作空间的设计旨在提供更全面、准确的状态信息，并提供更多的控制选择和灵活性。这样的设计有助于解决经典控制方法在处理复杂的机器人非线性***以及不确定或动态变化的任务环境时表现出的适应能力不足的问题，提高机器人的自主决策和控制能力。

实施方式三、本实施方式是对实施方式一所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法的进一步限定，所述根据所述空间双臂机器人状态空间和动作空间构建空间双臂机器人以期望轨迹捕获目标的奖励函数，包括：

R＝-e_tv-e_tω，

本实施方式的奖励函数的目的是为了指导机器人在执行任务过程中优化其行为，使其能够尽可能接近或达到期望的目标轨迹。

实施方式四、本实施方式是对实施方式一所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法的进一步限定，所述根据所述奖励函数建立基于DDPG的神经网络模型，包括：

S1：构建一个策略网络和一个值函数网络；

本实施方式使用深度神经网络可以对高维状态和动作空间进行建模，提供了更强大的函数拟合能力，能够处理复杂的任务和环境；策略网络用于生成动作，值函数网络用于评估动作的价值，这两个网络结合起来可以提供策略改进的方向和指导，并有效地优化机器人的行为。通过存储经验，包括状态、动作、奖励和下一个状态等信息，可以增加训练样本的多样性和效率，避免对每个样本都进行实时计算；借助值函数网络的评估结果，策略网络可以根据当前状态选择更优的动作，通过策略改进，在训练中逐渐提升策略的性能；通过计算值函数网络的损失函数梯度，并使用梯度下降算法，可以更新策略网络和值函数网络的参数，不断优化网络模型，逐渐提高性能。

本实施方式通过基于DDPG的神经网络模型来学习和优化机器人的策略，使其能够在与环境交互的过程中根据奖励信号不断改进动作选择。通过使用经验缓存器来存储和重放经验，可以增加样本的利用效率和训练的稳定性。而策略网络和值函数网络的协同训练可以提供对策略优化的方向和指导。

本步骤的优点在于使用深度神经网络和DDPG算法进行强化学习，通过策略网络和值函数网络的优化，能够逐步提高基于DDPG的神经网络模型的策略性能，并使其在与环境交互的过程中能够更好地适应和优化其行为。

实施方式五、本实施方式是对实施方式四所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法的进一步限定，所述使用梯度下降算法来更新策略网络和值函数网络的参数包括：

所述策略网络的损失函数L_a为：

L_a＝-q_π(s,a)，

其中，(s,a)代表当前状态值和动作值，q_π为价值函数；

所述值函数网络的损失函数L_c为：

L_c＝(R+γq_π(s',a')-q_π(s,a))²，

计算损失函数对策略网络参数的梯度和值函数网络的梯度/>

其中，为策略网络参数的梯度，/>为值函数网络的梯度。

利用梯度下降策略更新参数：

其中，α为学习率，为网络参数的梯度，θ代表网络参数。

本实施方式主要是通过梯度下降算法来更新策略网络和值函数网络的参数，使得策略网络能够更好地选择动作并最大化回报，而值函数网络能够更准确地估计状态的值。这样可以提高强化学习算法的效果。

实施方式六、本实施方式是对实施方式一所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法的进一步限定，所述根据所述优化模型控制空间双臂机器人对非合作目标进行捕获，包括：

空间双臂机器人获取非合作目标的运动状态状态，

本实施方式通过获取非合作目标的运动状态状态，优化模型可以根据目标的实时运动状态生成空间双臂机器人的控制策略。这使得机器人能够根据目标的运动轨迹和变化实时调整自身的动作，以更好地追踪和捕获目标，提高捕获的成功率。

本实施方式通过与非合作目标及环境进行交互，并获取环境信息，机器人能够实时感知和理解环境的动态变化。根据环境信息，优化模型可以调整控制策略，使机器人能够更好地应对环境变化和目标的行为，提高捕获的效率和准确性。

本实施方式通过根据环境信息调整优化模型的控制策略，形成闭环训练。这意味着机器人在与非合作目标及环境的交互中，不断更新自身的控制策略，并获取反馈信息来优化模型。这样的闭环训练使得机器人可以逐步改进自身的动作策略，并适应不同场景下的目标行为变化，提高对非合作目标的捕获能力。

本实施方式使得机器人能够根据非合作目标的运动状态实时调整控制策略，并通过与目标及环境的交互不断优化模型，从而增强对非合作目标的捕获能力。这为机器人在实际应用中应对不确定性和复杂性的环境提供了更好的适应性和灵活性。

实施方式七、本实施方式是对实施方式六所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法的进一步限定，所述单次闭环训练的终止条件包括：

本实施方式通过设置控制总时长的上限，可以限制每次闭环训练的时间。这是为了确保训练过程的高效性和实时性。在实际应用中，可能存在时间要求和任务期限，因此限制训练时长可以使机器人在规定时间内快速学习和适应目标的运动状态，并提高捕获效率。通过设置碰撞检测作为终止条件，可以确保训练过程的安全性。当非合作目标与机器人发生碰撞时，可能会导致机器人受损或非合作目标受伤，甚至造成环境的破坏。因此，将碰撞检测作为终止条件可以避免潜在的危险情况的发生，保护机器人、目标和环境的安全。

本实施方式通过设置这些终止条件，可以控制训练过程的时长和安全性，并确保机器人在限定时间内学习到有效的捕获策略。同时，这些终止条件也有助于对抗过拟合等问题，避免训练过程过度延长或不合理。最终，这有助于提高非合作目标捕获任务的效果和机器人的性能。

实施方式八、本实施方式所述的一种空间多臂机器人捕获非合作目标的智能协同控制***，所述***包括：

实施方式九、本实施方式所述的一种计算机可读存储介质，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行实施方式一至实施方式七任一项所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法。

实施方式十、本实施方式所述的一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据实施方式一至实施方式七中任一项中所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法。

实施方式十一、参见图2至图8说明本实施方式。本实施方式是为实施方式一所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法提供一个具体实施例，同时也用于解释实施方式二至实施方式七，具体的：

本实施方式将强化学习环境建模与设计分为如下五个基本元素：基于DDPG的神经网络模型、状态量s、环境、奖励值r和动作值a。基于DDPG的神经网络模型在与环境交互的过程中，需要选择合适的动作来实现既定的目标。每次选择动作后，环境会根据基于DDPG的神经网络模型的决策而发生变化，同时会产生当前时刻的状态信号，其中包括当前时刻的状态量和奖励函数。这些信号会被及时反馈给基于DDPG的神经网络模型，以帮助其进一步优化选择策略。基于DDPG的神经网络模型会根据当前状态和强化信号，优化模型参数并选择下一步行动，以求实现最大化奖励值。在选择动作的过程中，基于DDPG的神经网络模型不仅需要考虑即时奖励值的大小，还需要考虑所选动作对环境下一刻状态和最终奖励值的影响。因此，智能体需要通过不断试错和学习来提高自己的选择、决策能力，以适应不同的环境扰动和任务需求。其关系如图2所示，其中，智能体代表基于DDPG的神经网络模型。

本实施方式中，空间双臂机器人捕获目标训练环境由空间双臂机器人和非合作目标组成，空间双臂机器人为漂浮基双6自由度机械臂空间机器人，将非合作目标的模型构建为旋转目标动力学模型，并将其形成离散形式的状态方程和量测方程:

其中，x_k代表***的状态量[q₀，q₁，q₂，q₃，ω₁，ω₂，ω₃]，分别包含姿态四元数和角速度共七个值；状态方程里***噪声w_k，是均值为0的高斯白噪声^[46]；量测方程里噪声v_k，同样是均值为0的高斯白噪声。除了这些量外还需要对初始协方差矩阵进行定义：P₀为初值协方差矩阵，代表对初始估计值x₀的确信程度；协方差矩阵Q_k代表建模不确定性程度(线性化程度、离散化程度引入的误差)；协方差矩阵R_k代表观测器不确定性程度。本实施方式中非合作目标的旋转速度初值在训练时设定为随机值。

本实施方式中状态量维度为39，分别包括：基座在x、y、z轴的位置、姿态角、速度和角速度、机械臂的关节角、关节角速度以及非合作目标的速度和角速度；动作值维度为18，分别包括：基座在x、y、z轴上的控制力和控制力矩，12个关节控制力矩。

用e代表期望值与真实值误差，非合作目标的速度误差表示为e_tv，角速度误差为e_tω，则训练过程奖励值描述如下：

R＝-e_tv-e_tω

训练过程奖励值为负，非合作目标的期望速度和角速度与真实值之间的误差越小奖励值越高。

空间双臂机器人的动作、状态空间是连续值，训练采用DDPG算法，具体的：

1.状态表示(State Representation)：

确定环境的状态信息，将环境的状态信息作为神经网络的输入。

2.神经网络构建：

分别构建两个神经网络，一个用于构建策略，一个用于构建值函数。通常使用深度神经网络，其中策略网络(Actor Network)用于选择动作即π(a|s)，值函数网络(CriticNetwork)用于评估动作的价值即q_π(s,a)。

3.经验回放(Experience Replay)：

使用一个经验缓存器(Replay Buffer)即经验池来存储智能体的经验。每次与环境交互时，将状态、动作、奖励、下一个状态等信息存储在经验池中。经验池的意义是为了增强样本的效率和稳定性。在训练过程中，不是立即使用当前的经验进行参数更新，而是从经验缓存器中随机采样一批数据进行训练。

4.策略评估(Policy Evaluation)：

使用值函数网络来评估选择的动作的价值，这里选择马尔可夫性更好的状态-动作值函数q_π(s,a)，对于给定的状态和动作，状态-动作值函数表示智能体在该状态下采取某个动作后从当前时刻起所能获得的期望回报。它衡量的是智能体采取某个动作后的整体价值，这个值函数估计后续用来指导策略改进。

5.策略改进(Policy Improvement)：

通过使用策略评估函数得到的动作值作为指导，智能体可以根据当前的策略网络和值函数网络选择一个更优的动作(例如贪心策略)，以期望获得更好的长期回报。

6.梯度更新(Gradient Update)：

进行梯度更新时需要根据值函数网络(Critic Network)的输出来计算损失函数的梯度，并使用梯度下降算法来更新策略网络和值函数网络的参数。

具体的，对于策略网络，我们希望最大化值函数网络对下一个状态的估计值。可将策略网络的损失函数定义为：

L_a＝-q_π(s,a)

对于值函数网络，本实施方式希望最小化TD误差(Temporal Difference Error)，即当前状态的值函数估计与下一个状态的值函数估计之间的差距，定义为：

L_c＝(R+γq_π(s',a')-q_π(s,a))²

其中R代表当前时刻奖励值，(s,a)代表当前状态值和动作值，(s',a')代表下一个状态值和动作值，γ代表折扣因子，之后分别计算损失函数对策略网络参数和值函数网络的梯度

之后利用梯度下降策略更新参数，具体规则如下：

通过从参数中减去梯度乘以学习率来更新参数，以朝着损失函数下降的方向移动。

重复步骤3到步骤6，不断与环境交互、更新神经网络参数，直到达到预定的停止条件或学习目标。DDPG算法结构如图3所示。

综上所述，建立应用于空间双臂机器人捕获的DDPG的算法伪代码如表1所示：

表1 DDPG伪代码

/>

空间双臂机器人通过非合作目标的运动状态状态，根据当前的智能体提供的控制策略得到控制量，再利用环境的反馈调整控制策略，形成一个闭环训练过程，最终通过强化学习得到的是一个高鲁棒性的控制器。

假设在无重力条件下，单次训练终止条件包括一下两点：

(1)控制总时长超过9s。

(2)非合作目标与空间双臂机器人发生碰撞。

发生以上两种情况之一立刻停止训练。通过以上两点分别促使智能体尽快完成捕获任务以及避免非合作目标与空间双臂机器人发生碰撞。

仿真实验基于以下硬件环境：CPU 11th Gen Intel(R)Core(TM)[email protected]，RAM 16.0GB,GPU Nvidia GeForce RTX 3060Laptop。actor和critic网络均为3层，每层单元数分别为128、64、32层。本实施方式构建的实验设定的训练参数表如表2所示。总计训练5000次，训练过程如图4所示。

表2训练参数表

分别采用式和式的奖励函数构建形式进行训练，训练过程中的奖励函数分别如图5、图6所示，两次训练平均奖励值对比如图7所示。针对无法提取到马尔科夫性好且不依赖观测量重构的状态表征的问题，建立了一种从高维观测量中提取低维状态表征并实现状态表征间互信息估计的神经网络模型，引入一种基于运动学先验知识的目标函数优化方法。如图7所示基于运动学先验知识目标函数优化方法的奖励函数相较于原本奖励函数在相同训练回合下平均奖励值提高了7％，并且收敛速度、训练稳定性都得到了提高。

将训练得到DDPG控制器用于捕获中进行仿真验证，得到捕获过程中目标的速度和角速度如图8所示。

通过以上仿真结果证明本文所构建的DDPG智能体能够有效解决空间双臂机器人捕获非合作目标的问题。如图8所示，DDPG训练得到的控制器在捕获过程中对目标的扰动很小，能够很快的让旋转目标速度收敛，并且有效地抑制了捕获过程中抖动的问题。通过基于动力学模型预测误差目标函数优化方法设计奖励函数，提高了训练的稳定性、加快了训练速度。

以上结合附图对本发明提供的技术方案进行进一步详细地描述，是为了突出优点和有益之处，并不用于作为对本发明的限制，任何基于本发明的精神原则范围内的，对本发明的修改、实施方式的组合、改进和等同替换等，均应当包含在本发明的保护范围之内。

Claims

1.一种空间多臂机器人捕获非合作目标的智能协同控制方法，其特征在于，所述方法包括：

构建空间双臂机器人状态空间和动作空间；

根据所述奖励函数建立基于DDPG的神经网络模型；

训练所述基于DDPG的神经网络模型，获取优化模型；

2.根据权利要求1所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法，其特征在于，所述构建空间双臂机器人状态空间和动作空间，包括：

状态空间的状态量维度和动作空间的动作值维度：

3.根据权利要求1所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法，其特征在于，所述根据所述空间双臂机器人状态空间和动作空间构建空间双臂机器人以期望轨迹捕获目标的奖励函数，包括：

R＝-e_tv-e_tω，

4.根据权利要求1所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法，其特征在于，所述根据所述奖励函数建立基于DDPG的神经网络模型，包括：

S1：构建一个策略网络和一个值函数网络；

5.根据权利要求4所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法，其特征在于，所述使用梯度下降算法来更新策略网络和值函数网络的参数包括：

所述策略网络的损失函数L_a为：

L_a＝-q_π(s,a)，

其中，(s,a)代表当前状态值和动作值，q_π为价值函数；

所述值函数网络的损失函数L_c为：

L_c＝(R+γq_π(s',a')-q_π(s,a))²，

计算损失函数对策略网络参数的梯度和值函数网络的梯度/>

其中，为策略网络参数的梯度，/>为值函数网络的梯度。

利用梯度下降策略更新参数：

其中，α为学习率，为网络参数的梯度，θ代表网络参数。

6.根据权利要求1所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法，其特征在于，所述根据所述优化模型控制空间双臂机器人对非合作目标进行捕获，包括：

空间双臂机器人获取非合作目标的运动状态状态，

7.根据权利要求6所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法，其特征在于，所述单次闭环训练的终止条件包括：

8.一种空间多臂机器人捕获非合作目标的智能协同控制***，其特征在于，所述***包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行权利要求1-7任一项所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法。

10.一种计算机设备，其特征在于：包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据权利要求1-7中任一项中所述的一种空间多臂机器人捕获非合作目标的智能协同控制方法。