CN111762339B

CN111762339B - 一种星球探测车车轮在线机器学习控制方法

Info

Publication number: CN111762339B
Application number: CN202010620973.0A
Authority: CN
Inventors: 杨怀广; 齐华囡; 廉文浩; 黄澜; 高海波; 邓宗全; 尤波; 丁亮
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2022-01-11
Anticipated expiration: 2040-06-30
Also published as: CN111762339A

Abstract

本发明提供了一种星球探测车车轮在线机器学习控制方法，涉及机器人控制技术领域，包括：确定星球探测车的伪从动轮；获取星球车的期望移动速度、伪从动轮的挂钩牵引力、支持力、力矩以及PID控制器输出的速度控制量；根据期望移动速度确定伪从动轮的驱动速度；将速度控制量、挂钩牵引力、支持力和力矩输入在线学习神经网络模型进行在线学习，将在线学习神经网络模型的输出确定为挂钩牵引力的逼近值；根据逼近值与PID控制器的控制系数的偏导关系确定伪从动轮的PID控制增益调整量；根据PID控制增益调整量确定更新速度控制量。本发明通过在线学习神经网络模型结合PID控制，使得对伪从动轮的驱动控制具有更强的适应性和稳定性。

Description

一种星球探测车车轮在线机器学习控制方法

技术领域

本发明涉及机器人控制技术领域，具体而言，涉及一种星球探测车车轮在线机器学习控制方法。

背景技术

近年来，世界各国相继展开了一系列的星球探测任务，作为科学探测仪器的有效载体平台，星球车在星球探测工程中起着举足轻重的作用。在星球车执行探测任务的过程中，不仅要求星球车在移动中具有例如前进、后退、转弯、爬坡等基本功能，同时还要有针对地形的适应能力和一定的越障避障能力。

目前着陆月球、火星等天体表面执行勘测任务的星球车大多为多轮移动机器人。面对复杂多样的地形环境，有效的多轮移动机器人运动控制显得更为重要。在星球车的移动过程中，如何适应多变的地形，充分发挥车轮的牵引能力，实现多轮之间的协调控制和降低星球车的能源消耗，成为一个至关重要的问题。

现有的一些基于轮地力学原理建立星球车运动学模型的方案，其控制效果完全依赖模型的准确度，但对于复杂多变的地形，轮地的模型参数是很难准确获得的。因此，限制了对星球车的控制效果。与此同时，基于模型的PID控制方案，也被应用到星球车控制中。但对于不同的地形环境，PID控制也暴露出自适应性差等缺点，导致对星球车的控制效果也不甚理想。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题，为达上述目的，第一方面，本发明提供了一种星球探测车车轮在线机器学习控制方法，其包括：

确定所述星球探测车的伪从动轮，其中，所述伪从动轮包括在所述星球探测车的车轮中，用于根据所述星球探测车的车体运动状态进行驱动控制，以使车轮的速度矢量跟随所述车体运动状态的一个或多个车轮；

获取星球车的期望移动速度、所述伪从动轮的挂钩牵引力、支持力和力矩，以及所述伪从动轮的PID控制器输出的速度控制量；

根据所述期望移动速度，基于逆运动学模型确定所述伪从动轮的驱动速度；

将所述PID控制器输出的所述速度控制量、所述挂钩牵引力、所述支持力和所述力矩输入在线学习神经网络模型进行在线学习，将所述在线学习神经网络模型的输出确定为所述挂钩牵引力的逼近值；

根据所述逼近值与所述PID控制器的控制系数的偏导关系确定所述伪从动轮的PID控制增益调整量；

根据所述PID控制增益调整量确定更新速度控制量，以对所述伪从动轮进行驱动速度控制，使得所述伪从动轮的所述速度矢量跟随所述星球探测车的所述车体运动状态。

进一步地，所述将所述PID控制器输出的所述速度控制量、所述挂钩牵引力、所述支持力和所述力矩输入在线学习神经网络模型进行在线学习包括：

将多组采样数据以短序列的方式作为一组训练样本输入所述在线学习神经网络模型，其中，每组所述采样数据包括所述PID控制器输出的所述速度控制量、所述挂钩牵引力、所述支持力和所述力矩；

确定所述在线学习神经网络模型的学习序列的长度，在所述在线学习神经网络模型每次迭代开始时，将最新获取的一组采样数据输入所述在线学习神经网络，同时删除最早的一组采样数据，进行在线学习。

进一步地，所述在线学习神经网络模型包括输入层、隐藏层和输出层，其中，所述隐藏层包括多个隐藏层节点，每个所述隐藏层节点的激活函数为

进一步地，所述将所述在线学习神经网络模型的输出确定为所述挂钩牵引力的逼近值包括：

根据目标输出矩阵与隐藏层输出矩阵确定输出权值矩阵，其中，所述目标输出矩阵以所述挂钩牵引力为逼近对象，所述隐藏层输出矩阵根据所述输入层的神经元与所述隐藏层的神经元的连接权值、所述隐藏层的神经元的阈值和所述激活函数确定；

根据所述输出权值矩阵与所述隐藏层输出矩阵确定所述在线学习神经网络模型的输出作为所述逼近值。

进一步地，所述根据所述逼近值与所述PID控制器的控制系数的偏导关系确定所述伪从动轮的PID控制增益调整量包括：

采用梯度下降法根据所述逼近值与所述PID控制器的控制系数的偏导关系确定所述伪从动轮的PID三个参数的所述控制增益调整量。

进一步地，所述根据所述期望移动速度，基于逆运动学模型确定所述伪从动轮的驱动速度包括：

根据车体在世界坐标系下的位姿信息和所述期望移动速度确定所述星球车的运动模型；

根据所述运动模型通过矩阵求逆后解算出所述驱动速度。

进一步地，所述根据所述PID控制增益调整量确定更新速度控制量，以对所述伪从动轮进行驱动速度控制包括：

根据所述PID控制增益调整量来更新PID控制参数；

根据更新后的所述PID控制参数确定所述PID控制器输出的所述速度控制量的调整量；

根据所述PID控制器输出的所述速度控制量的调整量来确定所述更新速度控制量，并根据所述更新速度控制量进行所述驱动速度控制。

为达上述目的，第二方面，本发明提供了一种星球探测车车轮在线机器学习控制***，其包括：

确定模块，用于确定所述星球探测车的伪从动轮，其中，所述伪从动轮包括在所述星球探测车的车轮中，用于根据所述星球探测车的车体运动状态进行驱动控制，以使车轮的速度矢量跟随所述车体运动状态的一个或多个车轮；

获取模块，用于获取星球车的期望移动速度、所述伪从动轮的挂钩牵引力、支持力和力矩，以及所述伪从动轮的PID控制器输出的速度控制量；

处理模块，用于根据所述期望移动速度，基于逆运动学模型确定所述伪从动轮的驱动速度；还用于将所述PID控制器输出的所述速度控制量、所述挂钩牵引力、所述支持力和所述力矩输入在线学习神经网络模型进行在线学习，将所述在线学习神经网络模型的输出确定为所述挂钩牵引力的逼近值；还用于根据所述逼近值与所述PID控制器的控制系数的偏导关系确定所述伪从动轮的PID控制增益调整量；

控制模块，用于根据所述PID控制增益调整量确定更新速度控制量，以对所述伪从动轮进行驱动速度控制，使得所述伪从动轮的所述速度矢量跟随所述星球探测车的所述车体运动状态。

使用本发明的星球探测车车轮在线机器学习控制方法或***，通过采集伪从动轮的相关参数作为学习样本，经过在线学习神经网络模型进行在线学习后，输出挂钩牵引力的逼近值，并根据所述挂钩牵引力的逼近值确定PID各控制参数的增益调整量，并由此确定对PID控制器输出的速度控制量的调整量，进而实现对伪从动轮的驱动速度控制。本发明通过在线学习神经网络模型的非线性映射能力和自学习能力提高***的自适应控制准确度。并通过结合PID控制，使得对星球车的伪从动轮的驱动控制具有更强的适应性和稳定性。且根据对采集数据的更新处理，能有效消除累积噪声对控制***的影响，提高控制的可靠性。且本发明可有效解决多轮移动机器人的冗余控制问题，实现驱动轮间的协调控制，节省***能耗。

为达上述目的，第三方面，本发明提供了一种星球探测车，包括如上所述的星球探测车车轮在线机器学习控制***。

使用本发明的星球探测车，通过在线机器学习控制***实现对伪从动轮的主动跟随控制，有效提高对星球探测车的控制可靠性，并能减少车轮间的冗余控制，节省***能耗。

为达上述目的，第四方面，本发明提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现根据本发明第一方面所述的星球探测车车轮在线机器学习控制方法。

为达上述目的，第五方面，本发明提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现根据本发明第一方面所述的星球探测车车轮在线机器学习控制方法。

根据本发明的非临时性计算机可读存储介质和计算设备，具有与根据本发明第一方面的星球探测车车轮在线机器学习控制方法具有类似的有益效果，在此不再赘述。

附图说明

图1为根据本发明实施例的OS-ELM-PID控制***的示意图；

图2为根据本发明实施例的星球探测车车轮在线机器学习控制方法的流程示意图；

图3为根据本发明实施例的星球车伪从动轮的控制原理示意图；

图4为根据本发明实施例的确定伪从动轮的驱动速度的流程示意图；

图5为根据本发明实施例的二轮移动星球车的俯视图；

图6为根据本发明实施例的确定挂钩牵引力的逼近值的流程示意图；

图7为根据本发明实施例的在线学习神经网络模型的结构示意图；

图8为根据本发明实施例的进行在线学习的流程示意图；

图9为根据本发明实施例的更新数据的原理示意图；

图10为根据本发明实施例的对伪从动轮进行驱动速度控制的流程示意图；

图11为根据本发明实施例的星球探测车车轮在线机器学习控制***的结构示意图；

图12为根据本发明实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图详细描述根据本发明的实施例，描述涉及附图时，除非另有表示，不同附图中的相同附图标记表示相同或相似的要素。要说明的是，以下示例性实施例中所描述的实施方式并不代表本发明的所有实施方式。它们仅是与如权利要求书中所详述的、本发明公开的一些方面相一致的装置和方法的例子，本发明的范围并不局限于此。在不矛盾的前提下，本发明各个实施例中的特征可以相互组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

随着深空探测技术的逐步深入，星球探测车显得更为重要。星球车的有效移动控制，是星球车顺利完成任务的重要保障。现有的星球车多采用多轮移动机器人，以双轮移动机器人为例，会设置一个主动轮一个从动轮，主要基于对主动轮的驱动控制来控制星球车的移动，在复杂的地形环境中，有时候控制效果不理想。现有技术中也会采用每个车轮独立驱动的方式，但是增加了轮间作用力的相互影响，也增加了控制的协调难度。

本发明通过结合神经网络在线学习(online sequential extreme learningmachine)的自适应能力，以及PID控制的可靠性特点，形成OS-ELM-PID控制***，来对星球车的伪从动轮进行有效的自适应控制，从而克服多轮移动机器人的冗余控制问题，实现驱动轮间的协调控制。

图1所示为根据本发明实施例的OS-ELM-PID控制***的示意图，根据星球车的期望移动速度v_d通过逆运动学模型解算出星球车伪从动轮的驱动速度v₁₁；将伪从动轮的挂钩牵引力F_DP、支持力F_N、力矩T以及PID控制器输出的速度控制量v₁₂作为在线学习神经网络模型的输入，通过在线学习确定挂钩牵引力逼近值y_m；再根据挂钩牵引力逼近值y_m与所述PID控制器的控制系数的偏导关系进行微分运算确定PID控制器的三个参数的控制增益调整量，进而确定调整后的PID控制器输出的更新后的速度控制量v₁₂，并根据模型解算的伪从动轮的驱动速度v₁₁和PID控制器输出的更新后的速度控制量v₁₂来进行伪从动轮的驱动控制，实现伪从动轮对车体运动状态的主动跟随。

图2所示为根据本发明实施例的星球探测车车轮在线机器学习控制方法的流程示意图，包括步骤S1至S6。

在步骤S1中，确定所述星球探测车的伪从动轮，其中，所述伪从动轮包括在所述星球探测车的车轮中，用于根据所述星球探测车的车体运动状态进行驱动控制，以使车轮的速度矢量跟随所述车体运动状态的一个或多个车轮。在本发明实施例中，以二轮星球探测车为例进行描述，确定其中一个车轮为驱动轮，则另一个车轮为伪从动轮。可以理解的是，在本发明其他实施例中，也可以对多轮星球探测车进行相应控制。

在步骤S2中，获取星球车的期望移动速度v_d、伪从动轮的挂钩牵引力F_DP、支持力F_N、力矩T和PID控制器输出的速度控制量v₁₂。在本发明实施例中，可根据不同的地形环境设定星球车的期望移动速度v_d。图3所示为根据本发明实施例的星球车伪从动轮的控制原理示意图，在本发明实施例中，伪从动轮是根据车体的运动状态自适应驱动的车轮，其驱动速度由车体的运动状态决定，来主动跟随车体的运动，可称为主动跟随控制。

如图3所示，以左轮为伪从动轮为例，如果伪从动轮没有跟上车体的运动，会受到向前的拉力或向后的推力(即挂钩牵引力F_DP1)，f_DP和τR分别为伪从动轮对车体的阻力和转矩。右轮为驱动轮，其挂钩牵引力为F_DP2。实时消除伪从动轮受到的挂钩牵引力F_DP1，就可以保证伪从动轮已跟上车体的运动。伪从动轮的好处在于可以不仅可以减少轮间的内力对抗，实现优化能源消耗和多轮移动机器人的驱动轮协调控制，还能解除冗余控制。

在本发明实施例中，伪从动轮的挂钩牵引力F_DP、支持力F_N和力矩T均可由安装在轮轴上的六维力传感器获得。可以理解的是，PID控制器输出的速度控制量v₁₂在初始状态时可根据不同的地形环境或星球车的期望移动速度等进行设定。

在步骤S3中，根据所述期望移动速度，基于逆运动学模型确定所述伪从动轮的驱动速度。图4所示为根据本发明实施例的确定伪从动轮的驱动速度的流程示意图，包括步骤S31至S32。

在步骤S31中，根据车体在世界坐标系下的位姿信息和所述期望移动速度确定所述星球车的运动模型。图5所示为根据本发明实施例的二轮移动星球车的俯视图。在本发明实施例中，根据车体在世界坐标系下的位姿信息建立星球车的运动模型，如下式所示：

其中，[x y φ]^T表示车体在世界坐标系下的位姿信息，x、y表示车体在世界坐标系下的坐标，φ表示车体转角，r表示车轮的半径，b表示两个车轮轮心之间的距离，ω₁＝v₁/r表示伪从动轮的速度，ω₂＝v₂/r表示驱动轮的速度。

可以理解的是，在本发明实施例中，世界坐标系的坐标轴和原点都可由人为设置。如果是使用车载相机的情况，则星球车开机时的起点就是世界坐标系(地理)与运动坐标系(机器人)共同的原点。世界坐标指期望的星球车运动轨迹坐标，例如：在世界坐标系下，希望车轮在x方向移动5m，则发送指令[5,0,0]即可。车体转角指在水平面上车体的转向角度，旋转轴为竖直方向，可人为指定转角的正负分别对应向左还是向右转。

在步骤S32中，根据所述运动模型通过矩阵求逆后解算出所述驱动速度。在本发明实施例中，建立上述星球车的运动模型后，通过矩阵求逆后可解算出伪从动轮的驱动速度v₁₁。

在步骤S4中，将所述PID控制器输出的所述速度控制量v₁₂、所述挂钩牵引力F_DP、所述支持力F_N和所述力矩T输入在线学习神经网络模型进行在线学习，将所述在线学习神经网络模型的输出确定为所述挂钩牵引力的逼近值y_m。图6所示为根据本发明实施例的确定挂钩牵引力的逼近值的流程示意图，包括步骤S41至S42。

在步骤S41中，将所述PID控制器输出的速度控制量v₁₂、所述挂钩牵引力F_DP、所述支持力F_N和所述力矩T输入所述在线学习神经网络模型进行在线学习。图7所示为根据本发明实施例的在线学习神经网络模型的结构示意图。在本发明实施例中，在线学习神经网络模型共有3层，分别为输入层、隐藏层和输出层，其中，w_j＝[w_1j,w_2j...w_nj]代表n个输入层神经元与第j(j＝1,2…,J)个隐藏层神经元的连接权值，X_i代表第i(i＝1,2…,N)组输入，β_j表示神经网络输出权重。

在本发明实施例中，为增加神经网络的泛化能力，输入层节点设为4个，分别为PID控制器输出的速度控制量v₁₂、挂钩牵引力F_DP、支持力F_N和力矩T。输出层节点设为1个，为在线学习神经网络模型给出的挂钩牵引力逼近值y_m。可以理解的是，可用试凑法得出隐藏层节点个数，在本发明实施例中，取隐藏层节点个数为17个。

图8所示为根据本发明实施例的进行在线学习的流程示意图，包括步骤S411至S412。

在步骤S411中，将多组采样数据以短序列的方式作为一组训练样本输入所述在线学习神经网络模型，其中，每组所述采样数据包括PID控制器输出的速度控制量v₁₂、挂钩牵引力F_DP、支持力F_N和力矩T。在本发明实施例中，将多组采样数据以短序列的方式送入在线学习神经网络模型进行迭代，序列长度N取5。例如在传感器采集数据后，第一组数据为x1＝[v₁₂,F_DP,F_N,T]，每一次采样得到一组数据。例如序列长度为5，采样矩阵(矩阵的大小＝序列长度)为X₀＝[x₁,x₂,x₃,x₄,x₅]，得到五组采样数据之后，作为训练样本的第一个序列输入所述在线学习神经网络模型，在线学习神经网络模型初始化完毕。可以理解的是，与伪从动轮动力学相关的其它数据也可以作为输入，以增加学习能力，本发明并不以此为限。

当在线学习神经网络模型进入初始化阶段时，在(0～1)范围内随机初始化在线学习神经网络模型的连接权值w_j和阈值b_j。在本发明实施例，为了增加神经网络的快速性，隐藏层节点激活函数取

但本发明并不以此为限。将采样数据以短序列的方式送入神经网络进行迭代，在本发明实施例中，序列长度N取5。在线学习神经网络模型的初始目标输出矩阵T₀和具有j个隐藏层节点的隐藏层初始输出矩阵H₀，如下所示：

其中，w_j＝[w_1j,w_2j...w_nj]，代表n个输入层神经元与第j(j＝1,2…,J)个隐藏层神经元的连接权值，X_i代表第i(i＝1,2…,N)组采样数据，b_j表示第j个隐藏层神经元的阈值。

初始输出权值矩阵计算如下：

β₀＝K₀ ^-1H₀T₀，

其中，

K表示中间参数。

在本发明实施例中，根据目标输出矩阵与隐藏层输出矩阵确定输出权值矩阵，其中，所述目标输出矩阵以所述挂钩牵引力为逼近对象，所述隐藏层输出矩阵根据所述输入层的神经元与所述隐藏层的神经元的连接权值、所述隐藏层的神经元的阈值和所述激活函数确定。

在步骤S412中，确定所述在线学习神经网络模型的学习序列的长度，在所述在线学习神经网络模型每次迭代开始时，将最新获取的一组采样数据输入所述在线学习神经网络，同时删除最早的一组采样数据，进行在线学习。图9所示为根据本发明实施例的更新数据的原理示意图，在本发明实施例中，确定学习序列的长度为5。为消除数据噪声对神经网络控制造成的影响，在数据更新过程中，每次加入一组最新的采样数据，然后删除一组最早的数据，以消除累积噪声对控制***的影响。在本发明实施例中，在线学习神经网络模型进行第一次学习时，第一组训练样本X₁＝[x₂,x₃,x₄,x₅,x₆]，第二次学习时X₂＝[x₃,x₄,x₅,x₆,x₇]，第三次学习时X₃＝[x₄,x₅,x₆,x₇,x₈]，每次迭代学习时以此类推。

在本发明实施例中，目标输出矩阵T_n与隐藏层输出矩阵H_n如下：

其中，N＝n-N₀+1，序列的长度N₀取为5，n为学习过程中第n组采样数据，N表示被删除数据的序号。

输出权值矩阵β_n计算如下：

其中，

在步骤S42中，将所述在线学习神经网络模型的输出确定为所述逼近值。在本发明实施例中，根据输出权值矩阵β_n＝[β₁ … β_j]与隐藏层输出矩阵H_n＝[h₁ … h_j]，可计算得到在线学习神经网络模型的输出：伪从动轮挂钩牵引力逼近值y_m，计算公式如下所示：

y_m＝h₁β₁+h₂β₂+…+h_jβ_j。

在本发明实施例中，针对多变的地形环境，尤其当星球车进入未知环境时，需要控制器具有较强的适应性和快速性。而之前的星球车控制器传统大多追求稳定，所以采用在线学习神经网络在PID稳定控制的基础上补偿了控制***的快速性和适应性。

在步骤S5中，根据所述逼近值与所述PID控制器的控制系数的偏导关系确定所述伪从动轮的PID控制增益调整量。在本发明实施例中，采用梯度下降法根据所述逼近值与所述PID控制器的控制系数的偏导关系确定所述伪从动轮的PID三个参数的所述控制增益调整量。

在本发明实施例中，PID控制器的性能指标函数为：

其中，e(k)＝F_d(k)-F_DP(k)。

为实现伪从动轮的主动跟随控制，设其挂钩牵引力的期望值F_d＝0。

根据梯度下降法可得到PID控制器三个参数的增益调整量如下：

其中，η表示学习速率，u表示输出速度。

在步骤S6中，根据所述PID控制增益调整量确定更新速度控制量，以对所述伪从动轮进行驱动速度控制，使得所述伪从动轮的所述速度矢量跟随所述星球探测车的所述车体运动状态。图10所示为根据本发明实施例的对伪从动轮进行驱动速度控制的流程示意图，包括步骤S61至S63。

在步骤S61中，根据所述PID控制增益调整量来更新PID控制参数。在本发明实施例中，PID控制参数更新公式如下：

可以理解的是，K_P、K_I、K_D分别表示PID控制器的比例增益、积分增益、微分增益三个控制参数。

在步骤S62中，根据更新后的所述PID控制参数确定所述PID控制器输出的所述速度控制量的调整量。在本发明实施例中，对于位置式PID，其输出的速度控制量的调整量为：

在步骤S63中，根据所述PID控制器输出的所述速度控制量的调整量来确定所述更新速度控制量，并根据所述更新速度控制量进行所述驱动速度控制。在本发明实施例中，伪从动轮的驱动速度的控制量v为：

在本发明实施例，根据PID控制器输出的速度控制量v₁₂的调整量和驱动速度v₁₁相加作为更新速度控制量，即伪从动轮的驱动速度控制量，对伪从动轮进行驱动速度控制，实现伪从动轮的主动跟随运动。

采用本发明实施例的星球探测车车轮在线机器学习控制方法，通过采集伪从动轮的相关参数作为学习样本，经过在线学习神经网络模型进行在线学习后，输出挂钩牵引力的逼近值，并根据所述挂钩牵引力的逼近值确定PID各控制参数的增益调整量，并由此确定对PID控制器输出的速度控制量的调整量，进而实现对伪从动轮的驱动速度控制。本发明通过在线学习神经网络模型的非线性映射能力和自学习能力提高***的自适应控制准确度。并通过结合PID控制，使得对星球车的伪从动轮的驱动控制具有更强的适应性和稳定性。且根据对采集数据的更新处理，能有效消除累积噪声对控制***的影响，提高控制的可靠性。且本发明可有效解决多轮移动机器人的冗余控制问题，实现驱动轮间的协调控制，节省***能耗。

本发明第二方面的实施例还提供了一种星球探测车车轮在线机器学习控制***。图11所示为根据本发明实施例的星球探测车车轮在线机器学习控制***1100的结构示意图，包括确定模块1101、获取模块1102、处理模块1103以及控制模块1104。

确定模块1101用于确定所述星球探测车的伪从动轮，其中，所述伪从动轮包括在所述星球探测车的车轮中，用于根据所述星球探测车的车体运动状态进行驱动控制，以使车轮的速度矢量跟随所述车体运动状态的一个或多个车轮。

获取模块1102用于获取星球车的期望移动速度、所述伪从动轮的挂钩牵引力、支持力和力矩，以及所述伪从动轮的PID控制器输出的速度控制量。

处理模块1103用于根据所述期望移动速度，基于逆运动学模型确定所述伪从动轮的驱动速度；还用于将所述PID控制器输出的所述速度控制量、所述挂钩牵引力、所述支持力和所述力矩输入在线学习神经网络模型进行在线学习，将所述在线学习神经网络模型的输出确定为所述挂钩牵引力的逼近值；还用于根据所述逼近值与所述PID控制器的控制系数的偏导关系确定所述伪从动轮的PID控制增益调整量。

控制模块1104用于根据所述PID控制增益调整量确定更新速度控制量，以对所述伪从动轮进行驱动速度控制，使得所述伪从动轮的所述速度矢量跟随所述星球探测车的所述车体运动状态。

在本发明实施例中，处理模块1103还用于采用梯度下降法根据所述逼近值确定所述伪从动轮的PID三个参数的所述控制调整量。

所述星球探测车车轮在线机器学习控制***1100的各个模块的更具体实现方式可以参见对于本发明的星球探测车车轮在线机器学习控制方法的描述，且具有与之相似的有益效果，在此不再赘述。

本发明第三方面的实施例提出了一种星球探测车，包括如上所述的星球探测车车轮在线机器学习控制***。

采用本发明实施例的星球探测车，通过在线机器学习控制***实现对伪从动轮的主动跟随控制，有效提高对星球探测车的控制可靠性，并能减少车轮间的冗余控制，节省***能耗。

本发明第四方面的实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现根据本发明第一方面所述的星球探测车车轮在线机器学习控制方法。

一般来说，用于实现本发明方法的计算机指令的可以采用一个或多个计算机可读的存储介质的任意组合来承载。非临时性计算机可读存储介质可以包括任何计算机可读介质，除了临时性地传播中的信号本身。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言，特别是可以使用适于神经网络计算的Python语言和基于TensorFlow、PyTorch等平台框架。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本发明第五方面的实施例提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现根据本发明第一方面所述的星球探测车车轮在线机器学习控制方法。

根据本发明第四、五方面的非临时性计算机可读存储介质和计算设备，可以参照根据本发明第一方面实施例具体描述的内容实现，并具有与根据本发明第一方面实施例的星球探测车车轮在线机器学习控制方法具有类似的有益效果，在此不再赘述。

图12所示为适于用来实现本公开的实施方式的示例性计算设备的框图。图12显示的计算设备12仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，计算设备12可以通用计算设备的形式实现。计算设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性的计算机可读存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图中未显示，通常称为“硬盘驱动器”)。尽管图12中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。

计算设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信，和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算设备12的其它模块通信。要说明的是，尽管图中未示出，可以结合计算设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

本发明的计算设备可以是服务器，也可以有限算力的终端设备。

尽管上面已经示出和描述了本发明的实施例，应当理解的是，上述实施例是示例性的，不能解释为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种星球探测车车轮在线机器学习控制方法，其特征在于，包括：

2.根据权利要求1所述的星球探测车车轮在线机器学习控制方法，其特征在于，所述将所述PID控制器输出的所述速度控制量、所述挂钩牵引力、所述支持力和所述力矩输入在线学习神经网络模型进行在线学习包括：

3.根据权利要求1所述的星球探测车车轮在线机器学习控制方法，其特征在于，所述在线学习神经网络模型包括输入层、隐藏层和输出层，其中，所述隐藏层包括多个隐藏层节点，每个所述隐藏层节点的激活函数为双曲正切函数Tanh，

其中，e为自然指数，x为所述激活函数的输入。

4.根据权利要求3所述的星球探测车车轮在线机器学习控制方法，其特征在于，所述将所述在线学习神经网络模型的输出确定为所述挂钩牵引力的逼近值包括：

5.根据权利要求1所述的星球探测车车轮在线机器学习控制方法，其特征在于，所述根据所述逼近值与所述PID控制器的控制系数的偏导关系确定所述伪从动轮的PID控制增益调整量包括：

6.根据权利要求1-5中任一项所述的星球探测车车轮在线机器学习控制方法，其特征在于，所述根据所述期望移动速度，基于逆运动学模型确定所述伪从动轮的驱动速度包括：

根据所述运动模型通过矩阵求逆后解算出所述驱动速度。

7.根据权利要求1-5中任一项所述的星球探测车车轮在线机器学习控制方法，其特征在于，所述根据所述PID控制增益调整量确定更新速度控制量，以对所述伪从动轮进行驱动速度控制包括：

根据所述PID控制增益调整量来更新PID控制参数；

8.一种星球探测车车轮在线机器学习控制***，其特征在于，包括：

9.一种星球探测车，其特征在于，包括如权利要求8所述的星球探测车车轮在线机器学习控制***。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现根据权利要求1-7中任一项所述的星球探测车车轮在线机器学习控制方法。