CN113805483B

CN113805483B - 基于模型预测的机器人控制方法、装置和计算机设备

Info

Publication number: CN113805483B
Application number: CN202111090098.0A
Authority: CN
Inventors: 张兴龙; 徐昕; 方强; 周星
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2022-07-12
Anticipated expiration: 2041-09-17
Also published as: CN113805483A

Abstract

本申请涉及一种基于模型预测的机器人控制方法、装置、计算机设备和存储介质。方法包括：通过表示机器人的控制约束和状态约束的障碍函数，构建机器人安全相关的代价函数和控制策略结构，构造值函数网络，在任意时刻k，根据k+1，…，k+L预测时刻的代价函数的累加和k+L+1时刻的值函数网络，得到多步策略评估的参考代价函数，通过最小化值函数网络和参考代价函数的误差的平方，得到值函数权值更新律；构造策略逼近网络，得到策略权值矩阵的策略权值更新律，用于计算机器人的控制量。本发明提出一种基于障碍函数的控制策略，可实现最优性和安全性的平衡，采用多步策略评估的方法对策略的安全性进行评估，可处理时变约束。

Description

基于模型预测的机器人控制方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于模型预测的机器人控制方法、装置、计算机设备和存储介质。

背景技术

随着机器人技术的发展，机器人在服务、工业和国防等领域有了越来越多的应用。机器人的动力学是高度非线性的，而且多数机器人的控制需要考虑安全约束，例如无人车需要考虑安全避碰，机械手需要在受限工作区域工作。因此，在设计控制器时不仅要保证最优的控制性能还需要满足安全约束的要求。基于数值求解的模型预测控制能够满足上述控制要求，但需要在线实时求解，在线计算量大，很难实现高频率实时部署。目前比较流行的基于策略优化的方法例如强化学习方法，在计算效率方面具有明显的优势。但是强化学习需要通过试错实现策略优化，很难满足安全约束。因此，现有的机器人学习控制方法亟需解决安全性无法保证的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种基于模型预测的机器人控制方法、装置、计算机设备和存储介质。

一种基于模型预测的机器人控制方法，所述方法包括：

获取机器人的控制约束信息和状态约束信息，根据所述控制约束信息得到第一障碍函数，根据所述状态约束信息得到第二障碍函数，根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构；所述控制策略结构中还包括引入的预控制量；

根据所述第二障碍函数构造值函数网络；所述值函数网络中包括值函数权值矩阵；

在机器人控制过程中的任意时刻k，根据k+1，…，k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络，得到多步策略评估的参考代价函数；

根据所述值函数网络的值和所述参考代价函数的值，得到第一逼近误差，通过最小化所述第一逼近误差的平方，得到所述值函数权值矩阵的值函数权值更新律；

根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络；所述控制策略逼近网络包括控制策略权值矩阵；

根据所述控制策略逼近网络的值和第一障碍函数定义一个合成控制量；根据所述合成控制量和预先定义的合成控制量的期望值，得到第二逼近误差，通过最小化所述第二逼近误差的欧几里得范数，得到所述控制策略权值矩阵的控制策略权值更新律；所述合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值；

根据所述控制策略权值更新律和所述控制策略逼近网络得到机器人在任意k时刻的控制量。

在其中一个实施例中，还包括：获取机器人的控制约束信息和状态约束信息，根据所述控制约束信息得到第一障碍函数，根据所述状态约束信息得到第二障碍函数，根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构；所述代价函数为：

其中，

和

是状态和控制变量，k是离散时间指针，

是时变约束集合，

和

是连续函数，

和

是正定对称矩阵，μ＞0是可调参数，γ是折扣因子，

为障碍函数，

为所述第一障碍函数，

为所述第二障碍函数；

所述控制策略结构为：

其中

表示所述预控制量，是一个新引入的变量，

是待优化的变量，

表示为对变量v的偏导，

表示为对变量x的偏导，

表示由控制约束的所述第一障碍函数产生的相斥力，当v_k越靠近约束集合

的边界，所述

的值越大；

表示由状态约束的所述第二障碍函数产生的相斥力，当x_k越靠近约束集合

的边界，所述

的值越大。

在其中一个实施例中，还包括：针对一个约束集合

障碍函数为：

对所述障碍函数

重新中心化，得到：

其中，如果

z_c＝0，否则，选择

在其中一个实施例中，还包括：根据所述第二障碍函数构造值函数网络；所述值函数网络为：

其中，

和

是权值矩阵，

是基函数向量，W_c＝(W_c1，W_c2)，

在其中一个实施例中，还包括：在机器人控制过程中的任意时刻k，根据k+1，…，k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络，得到多步策略评估的参考代价函数；所述参考代价函数为：

在其中一个实施例中，还包括：根据所述值函数网络的值和所述参考代价函数的值，得到第一逼近误差为：

通过最小化

得到所述值函数权值矩阵的值函数权值更新律为：

其中，γ_c是预设的更新律。

在其中一个实施例中，还包括：根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络；所述控制策略逼近网络为：

其中

是权值矩阵，

是基函数向量，

在其中一个实施例中，还包括：定义所述合成控制量为：

获取预先定义的合成控制量期望值为：

其中

表示为对变量u的偏导，f(x，u)为机器人动力学模型x_k+1＝f(x_k，u_k)的模型函数；

根据所述合成控制量和所述合成控制量期望，得到第二逼近误差为：

通过最小化所述第二逼近误差的欧几里得范数δ_a，k＝||ε_a，k||²，得到所述控制策略权值矩阵的控制策略权值更新律为：

其中，γ_a是预设的更新律。

一种基于模型预测的机器人控制装置，所述装置包括：

代价函数和控制策略构建模块，用于获取机器人的控制约束信息和状态约束信息，根据所述控制约束信息得到第一障碍函数，根据所述状态约束信息得到第二障碍函数，根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构；所述控制策略结构中还包括引入的预控制量；

值函数网络构建模块，用于根据所述第二障碍函数构造值函数网络；所述值函数网络中包括值函数权值矩阵；

参考代价函数构建模块，用于在机器人控制过程中的任意时刻k，根据k+1，…，k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络，得到多步策略评估的参考代价函数；

值函数权值更新律确定模块，用于根据所述值函数网络的值和所述参考代价函数的值，得到第一逼近误差，通过最小化所述第一逼近误差的平方，得到所述值函数权值矩阵的值函数权值更新律；

控制策略逼近网络构建模块，用于根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络；所述控制策略逼近网络包括控制策略权值矩阵；

控制策略权值更新律确定模块，用于根据所述控制策略逼近网络的值和第一障碍函数定义一个合成控制量；根据所述合成控制量和预先定义的合成控制量的期望值，得到第二逼近误差，通过最小化所述第二逼近误差的欧几里得范数，得到所述控制策略权值矩阵的控制策略权值更新律；所述合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值；

机器人控制量确定模块，用于根据所述控制策略权值更新律和所述控制策略逼近网络得到机器人在任意k时刻的控制量。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于模型预测的机器人控制方法、装置、计算机设备和存储介质，通过表示机器人的控制约束的第一障碍函数和表示机器人状态约束的第二障碍函数，构建机器人安全相关的代价函数和控制策略结构，构造值函数网络，在机器人控制过程中的任意时刻k，根据k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络，得到多步策略评估的参考代价函数，根据值函数网络的值和参考代价函数的值，得到第一逼近误差，通过最小化第一逼近误差的平方，得到值函数权值矩阵的值函数权值更新律；根据控制策略中的预控制量、第一障碍函数和第二障碍函数构造控制策略逼近网络，根据预先定义的合成控制量和包括k+1时刻的值函数网络的值的合成控制量期望值，得到第二逼近误差，通过最小化第二逼近误差的欧几里得范数，得到控制策略权值矩阵的控制策略权值更新律，根据控制策略权值更新律和控制策略逼近网络得到机器人在任意k时刻的控制量。本发明提出一种基于障碍函数的控制策略，可以实现最优性和安全性的平衡，同时，采用多步策略评估的方法对策略的安全性进行评估，使得本发明的控制方法有能力处理时变约束。

附图说明

图1为一个实施例中基于模型预测的机器人控制方法的流程示意图；

图2为一个实施例中基于模型预测的机器人控制装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于模型预测的机器人控制方法，包括以下步骤：

步骤102，获取机器人的控制约束信息和状态约束信息，根据控制约束信息得到第一障碍函数，根据状态约束信息得到第二障碍函数，根据第一障碍函数和第二障碍函数构建机器人安全相关的代价函数和控制策略结构。

本发明考虑一个机器人动力学模型：

x_k+1＝f(x_k，u_k)

其中，

和

是状态和控制变量，k是离散时间指针，

是时变约束集合，

和

是连续函数；其中，

可以形式化为状态安全约束，例如在轮式机器人中其可以表示为机器人本身的状态约束，也可以表示由避障而形式化的约束。

控制目标是：从初始状态

寻找一个控制策略u_k＝u(x_k)能够最小化如下性能指标：

同时需要满足模型约束x_k+1＝f(x_k，u_k)，

γ是折扣因子。

针对上述问题，本发明提出一种安全强化学习方法来实现安全近似最优控制。

控制策略结构中包括与控制约束相关的第一障碍函数、与状态约束相关的第二障碍函数和一个预控制量。预控制量是一个新引入的变量，与当前控制量以及当前控制约束的障碍函数产生的相斥力相关。

步骤104，根据第二障碍函数构造值函数网络。

值函数网络中包括值函数权值矩阵。

步骤106，在机器人控制过程中的任意时刻k，根据k+1，…，k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络，得到多步策略评估的参考代价函数。

多步策略评价能够处理时变约束，也就是未来约束变化反映在未来的障碍函数中，被提前评估并用于策略更新。

步骤108，根据值函数网络的值和参考代价函数的值，得到第一逼近误差，通过最小化第一逼近误差的平方，得到值函数权值矩阵的值函数权值更新律。

步骤110，根据预控制量和第一障碍函数以及第二障碍函数构造控制策略逼近网络。

控制策略逼近网络包括控制策略权值矩阵。

步骤112，根据控制策略逼近网络的值和第一障碍函数定义一个合成控制量根据合成控制量和预先定义的合成控制量的期望值，得到第二逼近误差，通过最小化第二逼近误差的欧几里得范数，得到控制策略权值矩阵的控制策略权值更新律。

合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值。

步骤114，根据控制策略权值更新律和控制策略逼近网络得到机器人在任意k时刻的控制量。

上述基于模型预测的机器人控制方法中，通过表示机器人的控制约束的第一障碍函数和表示机器人状态约束的第二障碍函数，构建机器人安全相关的代价函数和控制策略结构，构造值函数网络，在机器人控制过程中的任意时刻k，根据k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络，得到多步策略评估的参考代价函数，根据值函数网络的值和参考代价函数的值，得到第一逼近误差，通过最小化第一逼近误差的平方，得到值函数权值矩阵的值函数权值更新律；根据控制策略中的预控制量、第一障碍函数和第二障碍函数构造控制策略逼近网络，根据预先定义的合成控制量和包括k+1时刻的值函数网络的值的合成控制量期望值，得到第二逼近误差，通过最小化第二逼近误差的欧几里得范数，得到控制策略权值矩阵的控制策略权值更新律，根据控制策略权值更新律和控制策略逼近网络得到机器人在任意k时刻的控制量。本发明提出一种基于障碍函数的控制策略，可以实现最优性和安全性的平衡，同时，采用多步策略评估的方法对策略的安全性进行评估，使得本发明的控制方法有能力处理时变约束。

在其中一个实施例中，还包括：获取机器人的控制约束信息和状态约束信息，根据控制约束信息得到第一障碍函数，根据状态约束信息得到第二障碍函数，根据第一障碍函数和第二障碍函数构建机器人安全相关的代价函数和控制策略结构；代价函数为：

其中，

和

是状态和控制变量，k是离散时间指针，

是时变约束集合，

和

是连续函数，

和

是正定对称矩阵，μ＞0是可调参数，γ是折扣因子，

为障碍函数，

为第一障碍函数，

为第二障碍函数；

控制策略结构为：

其中

表示预控制量，是一个新引入的变量，

是待优化的变量，

表示为对变量v的偏导，

表示为对变量x的偏导，

表示由控制约束的第一障碍函数产生的相斥力，当v_k越靠近约束集合

的边界，所述

的值越大；

的边界，所述

的值越大。

在其中一个实施例中，还包括：针对一个约束集合

障碍函数为：

对障碍函数

重新中心化，得到：

其中，如果

否则，选择

在其中一个实施例中，还包括：根据第二障碍函数构造值函数网络；值函数网络为：

其中，

和

是权值矩阵，

是基函数向量，W_c＝(W_c1，W_c2)，

在其中一个实施例中，还包括：在机器人控制过程中的任意时刻k，根据k+1，…，k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络，得到多步策略评估的参考代价函数；参考代价函数为：

在其中一个实施例中，还包括：根据值函数网络的值和参考代价函数的值，得到第一逼近误差为：

通过最小化

得到值函数权值矩阵的值函数权值更新律为：

其中，γ_c是预设的更新律。

在其中一个实施例中，还包括：根据预控制量和第一障碍函数以及第二障碍函数构造控制策略逼近网络；控制策略逼近网络为：

其中

是权值矩阵，

是基函数向量，

在其中一个实施例中，还包括：定义合成控制量为：

获取预先定义的合成控制量期望值为：

其中

根据合成控制量和合成控制量期望，得到第二逼近误差为：

通过最小化第二逼近误差的欧几里得范数δ_a，k＝||ε_a，k||²，得到控制策略权值矩阵的控制策略权值更新律为：

其中，γ_a是预设的更新律。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种基于模型预测的机器人控制装置，包括：代价函数和控制策略构建模块202、值函数网络构建模块204、参考代价函数构建模块206、值函数权值更新律确定模块208、控制策略逼近网络构建模块210、控制策略权值更新律确定模块212和机器人控制量确定模块214，其中：

代价函数和控制策略构建模块202，用于获取机器人的控制约束信息和状态约束信息，根据控制约束信息得到第一障碍函数，根据状态约束信息得到第二障碍函数，根据第一障碍函数和第二障碍函数构建机器人安全相关的代价函数和控制策略结构；控制策略结构中还包括引入的预控制量；

值函数网络构建模块204，用于根据第二障碍函数构造值函数网络；值函数网络中包括值函数权值矩阵；

参考代价函数构建模块206，用于在机器人控制过程中的任意时刻k，根据k+1，…，k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络，得到多步策略评估的参考代价函数；

值函数权值更新律确定模块208，用于根据值函数网络的值和参考代价函数的值，得到第一逼近误差，通过最小化第一逼近误差的平方，得到值函数权值矩阵的值函数权值更新律；

控制策略逼近网络构建模块210，用于根据预控制量和第一障碍函数以及第二障碍函数构造控制策略逼近网络；控制策略逼近网络包括控制策略权值矩阵；

控制策略权值更新律确定模块212，用于根据控制策略逼近网络的值和第一障碍函数定义一个合成控制量；根据合成控制量和预先定义的合成控制量的期望值，得到第二逼近误差，通过最小化第二逼近误差的欧几里得范数，得到控制策略权值矩阵的控制策略权值更新律；合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值；

机器人控制量确定模块214，用于根据控制策略权值更新律和控制策略逼近网络得到机器人在任意k时刻的控制量。

代价函数和控制策略构建模块202还用于获取机器人的控制约束信息和状态约束信息，根据控制约束信息得到第一障碍函数，根据状态约束信息得到第二障碍函数，根据第一障碍函数和第二障碍函数构建机器人安全相关的代价函数和控制策略结构；代价函数为：

其中，

和

是状态和控制变量，k是离散时间指针，

是时变约束集合，

和

是连续函数，

和

是正定对称矩阵，μ＞0是可调参数，γ是折扣因子，

为障碍函数，

为第一障碍函数，

为第二障碍函数；

控制策略结构为：

其中

表示预控制量，是一个新引入的变量，

是待优化的变量，

表示为对变量υ的偏导，

表示为对变量x的偏导，

的边界，所述

的值越大；

的边界，所述

的值越大。

值函数网络构建模块204还用于根据第二障碍函数构造值函数网络；值函数网络为：

其中，

和

是权值矩阵，

是基函数向量，W_c＝(W_c1，W_c2)，

参考代价函数构建模块206还用于在机器人控制过程中的任意时刻k，根据k+1，…，k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络，得到多步策略评估的参考代价函数；参考代价函数为：

值函数权值更新律确定模块208还用于根据值函数网络的值和参考代价函数的值，得到第一逼近误差为：

通过最小化

得到值函数权值矩阵的值函数权值更新律为：

其中，γ_c是预设的更新律。

策略逼近网络构建模块210还用于根据预控制量和第一障碍函数以及第二障碍函数构造控制策略逼近网络；控制策略逼近网络为：

其中

是权值矩阵，

是基函数向量，

策略权值更新律确定模块212还用于定义合成控制量为：

获取预先定义的合成控制量期望值为：

其中

根据合成控制量和合成控制量期望，得到第二逼近误差为：

其中，γ_a是预设的更新律。

关于基于模型预测的机器人控制装置的具体限定可以参见上文中对于基于模型预测的机器人控制方法的限定，在此不再赘述。上述基于模型预测的机器人控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于模型预测的机器人控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。