CN113805483B - 基于模型预测的机器人控制方法、装置和计算机设备 - Google Patents
基于模型预测的机器人控制方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN113805483B CN113805483B CN202111090098.0A CN202111090098A CN113805483B CN 113805483 B CN113805483 B CN 113805483B CN 202111090098 A CN202111090098 A CN 202111090098A CN 113805483 B CN113805483 B CN 113805483B
- Authority
- CN
- China
- Prior art keywords
- function
- value
- control
- network
- control strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本申请涉及一种基于模型预测的机器人控制方法、装置、计算机设备和存储介质。方法包括:通过表示机器人的控制约束和状态约束的障碍函数,构建机器人安全相关的代价函数和控制策略结构,构造值函数网络,在任意时刻k,根据k+1,…,k+L预测时刻的代价函数的累加和k+L+1时刻的值函数网络,得到多步策略评估的参考代价函数,通过最小化值函数网络和参考代价函数的误差的平方,得到值函数权值更新律;构造策略逼近网络,得到策略权值矩阵的策略权值更新律,用于计算机器人的控制量。本发明提出一种基于障碍函数的控制策略,可实现最优性和安全性的平衡,采用多步策略评估的方法对策略的安全性进行评估,可处理时变约束。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于模型预测的机器人控制方法、装置、计算机设备和存储介质。
背景技术
随着机器人技术的发展,机器人在服务、工业和国防等领域有了越来越多的应用。机器人的动力学是高度非线性的,而且多数机器人的控制需要考虑安全约束,例如无人车需要考虑安全避碰,机械手需要在受限工作区域工作。因此,在设计控制器时不仅要保证最优的控制性能还需要满足安全约束的要求。基于数值求解的模型预测控制能够满足上述控制要求,但需要在线实时求解,在线计算量大,很难实现高频率实时部署。目前比较流行的基于策略优化的方法例如强化学习方法,在计算效率方面具有明显的优势。但是强化学习需要通过试错实现策略优化,很难满足安全约束。因此,现有的机器人学习控制方法亟需解决安全性无法保证的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种基于模型预测的机器人控制方法、装置、计算机设备和存储介质。
一种基于模型预测的机器人控制方法,所述方法包括:
获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述第二障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述第二障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;
根据所述值函数网络的值和所述参考代价函数的值,得到第一逼近误差,通过最小化所述第一逼近误差的平方,得到所述值函数权值矩阵的值函数权值更新律;
根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述控制策略逼近网络的值和第一障碍函数定义一个合成控制量;根据所述合成控制量和预先定义的合成控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律;所述合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值;
根据所述控制策略权值更新律和所述控制策略逼近网络得到机器人在任意k时刻的控制量。
在其中一个实施例中,还包括:获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述代价函数为:
所述控制策略结构为:
其中表示所述预控制量,是一个新引入的变量, 是待优化的变量,表示为对变量v的偏导,表示为对变量x的偏导,表示由控制约束的所述第一障碍函数产生的相斥力,当vk越靠近约束集合的边界,所述的值越大;表示由状态约束的所述第二障碍函数产生的相斥力,当xk越靠近约束集合的边界,所述的值越大。
在其中一个实施例中,还包括:根据所述第二障碍函数构造值函数网络;所述值函数网络为:
在其中一个实施例中,还包括:在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;所述参考代价函数为:
在其中一个实施例中,还包括:根据所述值函数网络的值和所述参考代价函数的值,得到第一逼近误差为:
其中,γc是预设的更新律。
在其中一个实施例中,还包括:根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络;所述控制策略逼近网络为:
在其中一个实施例中,还包括:定义所述合成控制量为:
获取预先定义的合成控制量期望值为:
根据所述合成控制量和所述合成控制量期望,得到第二逼近误差为:
通过最小化所述第二逼近误差的欧几里得范数δa,k=||εa,k||2,得到所述控制策略权值矩阵的控制策略权值更新律为:
其中,γa是预设的更新律。
一种基于模型预测的机器人控制装置,所述装置包括:
代价函数和控制策略构建模块,用于获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
值函数网络构建模块,用于根据所述第二障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
参考代价函数构建模块,用于在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;
值函数权值更新律确定模块,用于根据所述值函数网络的值和所述参考代价函数的值,得到第一逼近误差,通过最小化所述第一逼近误差的平方,得到所述值函数权值矩阵的值函数权值更新律;
控制策略逼近网络构建模块,用于根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
控制策略权值更新律确定模块,用于根据所述控制策略逼近网络的值和第一障碍函数定义一个合成控制量;根据所述合成控制量和预先定义的合成控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律;所述合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值;
机器人控制量确定模块,用于根据所述控制策略权值更新律和所述控制策略逼近网络得到机器人在任意k时刻的控制量。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述第二障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;
根据所述值函数网络的值和所述参考代价函数的值,得到第一逼近误差,通过最小化所述第一逼近误差的平方,得到所述值函数权值矩阵的值函数权值更新律;
根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述控制策略逼近网络的值和第一障碍函数定义一个合成控制量;根据所述合成控制量和预先定义的合成控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律;所述合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值;
根据所述控制策略权值更新律和所述控制策略逼近网络得到机器人在任意k时刻的控制量。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;
根据所述第二障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;
在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;
根据所述值函数网络的值和所述参考代价函数的值,得到第一逼近误差,通过最小化所述第一逼近误差的平方,得到所述值函数权值矩阵的值函数权值更新律;
根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;
根据所述控制策略逼近网络的值和第一障碍函数定义一个合成控制量;根据所述合成控制量和预先定义的合成控制量的期望值,得到第二逼近误差,通过最小化所述第二逼近误差的欧几里得范数,得到所述控制策略权值矩阵的控制策略权值更新律;所述合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值;
根据所述控制策略权值更新律和所述控制策略逼近网络得到机器人在任意k时刻的控制量。
上述基于模型预测的机器人控制方法、装置、计算机设备和存储介质,通过表示机器人的控制约束的第一障碍函数和表示机器人状态约束的第二障碍函数,构建机器人安全相关的代价函数和控制策略结构,构造值函数网络,在机器人控制过程中的任意时刻k,根据k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络,得到多步策略评估的参考代价函数,根据值函数网络的值和参考代价函数的值,得到第一逼近误差,通过最小化第一逼近误差的平方,得到值函数权值矩阵的值函数权值更新律;根据控制策略中的预控制量、第一障碍函数和第二障碍函数构造控制策略逼近网络,根据预先定义的合成控制量和包括k+1时刻的值函数网络的值的合成控制量期望值,得到第二逼近误差,通过最小化第二逼近误差的欧几里得范数,得到控制策略权值矩阵的控制策略权值更新律,根据控制策略权值更新律和控制策略逼近网络得到机器人在任意k时刻的控制量。本发明提出一种基于障碍函数的控制策略,可以实现最优性和安全性的平衡,同时,采用多步策略评估的方法对策略的安全性进行评估,使得本发明的控制方法有能力处理时变约束。
附图说明
图1为一个实施例中基于模型预测的机器人控制方法的流程示意图;
图2为一个实施例中基于模型预测的机器人控制装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于模型预测的机器人控制方法,包括以下步骤:
步骤102,获取机器人的控制约束信息和状态约束信息,根据控制约束信息得到第一障碍函数,根据状态约束信息得到第二障碍函数,根据第一障碍函数和第二障碍函数构建机器人安全相关的代价函数和控制策略结构。
本发明考虑一个机器人动力学模型:
xk+1=f(xk,uk)
针对上述问题,本发明提出一种安全强化学习方法来实现安全近似最优控制。
控制策略结构中包括与控制约束相关的第一障碍函数、与状态约束相关的第二障碍函数和一个预控制量。预控制量是一个新引入的变量,与当前控制量以及当前控制约束的障碍函数产生的相斥力相关。
步骤104,根据第二障碍函数构造值函数网络。
值函数网络中包括值函数权值矩阵。
步骤106,在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络,得到多步策略评估的参考代价函数。
多步策略评价能够处理时变约束,也就是未来约束变化反映在未来的障碍函数中,被提前评估并用于策略更新。
步骤108,根据值函数网络的值和参考代价函数的值,得到第一逼近误差,通过最小化第一逼近误差的平方,得到值函数权值矩阵的值函数权值更新律。
步骤110,根据预控制量和第一障碍函数以及第二障碍函数构造控制策略逼近网络。
控制策略逼近网络包括控制策略权值矩阵。
步骤112,根据控制策略逼近网络的值和第一障碍函数定义一个合成控制量根据合成控制量和预先定义的合成控制量的期望值,得到第二逼近误差,通过最小化第二逼近误差的欧几里得范数,得到控制策略权值矩阵的控制策略权值更新律。
合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值。
步骤114,根据控制策略权值更新律和控制策略逼近网络得到机器人在任意k时刻的控制量。
上述基于模型预测的机器人控制方法中,通过表示机器人的控制约束的第一障碍函数和表示机器人状态约束的第二障碍函数,构建机器人安全相关的代价函数和控制策略结构,构造值函数网络,在机器人控制过程中的任意时刻k,根据k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络,得到多步策略评估的参考代价函数,根据值函数网络的值和参考代价函数的值,得到第一逼近误差,通过最小化第一逼近误差的平方,得到值函数权值矩阵的值函数权值更新律;根据控制策略中的预控制量、第一障碍函数和第二障碍函数构造控制策略逼近网络,根据预先定义的合成控制量和包括k+1时刻的值函数网络的值的合成控制量期望值,得到第二逼近误差,通过最小化第二逼近误差的欧几里得范数,得到控制策略权值矩阵的控制策略权值更新律,根据控制策略权值更新律和控制策略逼近网络得到机器人在任意k时刻的控制量。本发明提出一种基于障碍函数的控制策略,可以实现最优性和安全性的平衡,同时,采用多步策略评估的方法对策略的安全性进行评估,使得本发明的控制方法有能力处理时变约束。
在其中一个实施例中,还包括:获取机器人的控制约束信息和状态约束信息,根据控制约束信息得到第一障碍函数,根据状态约束信息得到第二障碍函数,根据第一障碍函数和第二障碍函数构建机器人安全相关的代价函数和控制策略结构;代价函数为:
控制策略结构为:
其中表示预控制量,是一个新引入的变量,是待优化的变量,表示为对变量v的偏导,表示为对变量x的偏导,表示由控制约束的第一障碍函数产生的相斥力,当vk越靠近约束集合的边界,所述的值越大;表示由状态约束的所述第二障碍函数产生的相斥力,当xk越靠近约束集合的边界,所述的值越大。
在其中一个实施例中,还包括:根据第二障碍函数构造值函数网络;值函数网络为:
在其中一个实施例中,还包括:在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络,得到多步策略评估的参考代价函数;参考代价函数为:
在其中一个实施例中,还包括:根据值函数网络的值和参考代价函数的值,得到第一逼近误差为:
其中,γc是预设的更新律。
在其中一个实施例中,还包括:根据预控制量和第一障碍函数以及第二障碍函数构造控制策略逼近网络;控制策略逼近网络为:
在其中一个实施例中,还包括:定义合成控制量为:
获取预先定义的合成控制量期望值为:
根据合成控制量和合成控制量期望,得到第二逼近误差为:
通过最小化第二逼近误差的欧几里得范数δa,k=||εa,k||2,得到控制策略权值矩阵的控制策略权值更新律为:
其中,γa是预设的更新律。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种基于模型预测的机器人控制装置,包括:代价函数和控制策略构建模块202、值函数网络构建模块204、参考代价函数构建模块206、值函数权值更新律确定模块208、控制策略逼近网络构建模块210、控制策略权值更新律确定模块212和机器人控制量确定模块214,其中:
代价函数和控制策略构建模块202,用于获取机器人的控制约束信息和状态约束信息,根据控制约束信息得到第一障碍函数,根据状态约束信息得到第二障碍函数,根据第一障碍函数和第二障碍函数构建机器人安全相关的代价函数和控制策略结构;控制策略结构中还包括引入的预控制量;
值函数网络构建模块204,用于根据第二障碍函数构造值函数网络;值函数网络中包括值函数权值矩阵;
参考代价函数构建模块206,用于在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络,得到多步策略评估的参考代价函数;
值函数权值更新律确定模块208,用于根据值函数网络的值和参考代价函数的值,得到第一逼近误差,通过最小化第一逼近误差的平方,得到值函数权值矩阵的值函数权值更新律;
控制策略逼近网络构建模块210,用于根据预控制量和第一障碍函数以及第二障碍函数构造控制策略逼近网络;控制策略逼近网络包括控制策略权值矩阵;
控制策略权值更新律确定模块212,用于根据控制策略逼近网络的值和第一障碍函数定义一个合成控制量;根据合成控制量和预先定义的合成控制量的期望值,得到第二逼近误差,通过最小化第二逼近误差的欧几里得范数,得到控制策略权值矩阵的控制策略权值更新律;合成控制量的期望值中包括k+1预测时刻的值函数网络对k+1预测时刻的状态量求偏导得到的值;
机器人控制量确定模块214,用于根据控制策略权值更新律和控制策略逼近网络得到机器人在任意k时刻的控制量。
代价函数和控制策略构建模块202还用于获取机器人的控制约束信息和状态约束信息,根据控制约束信息得到第一障碍函数,根据状态约束信息得到第二障碍函数,根据第一障碍函数和第二障碍函数构建机器人安全相关的代价函数和控制策略结构;代价函数为:
控制策略结构为:
其中表示预控制量,是一个新引入的变量,是待优化的变量,表示为对变量υ的偏导,表示为对变量x的偏导,表示由控制约束的第一障碍函数产生的相斥力,当vk越靠近约束集合的边界,所述的值越大;表示由状态约束的所述第二障碍函数产生的相斥力,当xk越靠近约束集合的边界,所述的值越大。
值函数网络构建模块204还用于根据第二障碍函数构造值函数网络;值函数网络为:
参考代价函数构建模块206还用于在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的代价函数的累加和k+L+1预测时刻的值函数网络,得到多步策略评估的参考代价函数;参考代价函数为:
值函数权值更新律确定模块208还用于根据值函数网络的值和参考代价函数的值,得到第一逼近误差为:
其中,γc是预设的更新律。
策略逼近网络构建模块210还用于根据预控制量和第一障碍函数以及第二障碍函数构造控制策略逼近网络;控制策略逼近网络为:
策略权值更新律确定模块212还用于定义合成控制量为:
获取预先定义的合成控制量期望值为:
根据合成控制量和合成控制量期望,得到第二逼近误差为:
通过最小化第二逼近误差的欧几里得范数δa,k=||εa,k||2,得到控制策略权值矩阵的控制策略权值更新律为:
其中,γa是预设的更新律。
关于基于模型预测的机器人控制装置的具体限定可以参见上文中对于基于模型预测的机器人控制方法的限定,在此不再赘述。上述基于模型预测的机器人控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于模型预测的机器人控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (3)
1.一种基于模型预测的机器人控制方法,其特征在于,所述方法包括:
获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;所述代价函数为:
所述控制策略结构为:
其中表示所述预控制量,是一个新引入的变量,是待优化的变量,表示为对变量υ的偏导,表示为对变量x的偏导,表示由控制约束的所述第一障碍函数产生的相斥力,当vk越靠近约束集合的边界,所述的值越大;表示由状态约束的所述第二障碍函数产生的相斥力,当xk越靠近约束集合的边界,所述的值越大;所述障碍函数的定义为:
根据所述第二障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;所述值函数网络为:
在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的所述代价函数的累加和k+K+1预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;所述参考代价函数为:
根据所述值函数网络的值和所述参考代价函数的值,得到第一逼近误差为:
其中,γc是预设的更新律;
根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;所述控制策略逼近网络为:
定义合成控制量为:
所述合成控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值;
获取预先定义的合成控制量期望值为:
根据所述合成控制量和所述合成控制量期望,得到第二逼近误差为:
通过最小化所述第二逼近误差的欧几里得范数δa,k=||εa,k||2,得到所述控制策略权值矩阵的控制策略权值更新律为:
其中,γa是预设的更新律;
根据所述控制策略权值更新律和所述控制策略逼近网络得到机器人在任意k时刻的控制量。
2.一种基于模型预测的机器人控制装置,其特征在于,所述装置包括:
代价函数和控制策略构建模块,用于获取机器人的控制约束信息和状态约束信息,根据所述控制约束信息得到第一障碍函数,根据所述状态约束信息得到第二障碍函数,根据所述第一障碍函数和所述第二障碍函数构建所述机器人安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;所述代价函数为:
所述控制策略结构为:
其中表示所述预控制量,是一个新引入的变量,是待优化的变量,表示为对变量υ的偏导,表示为对变量x的偏导,表示由控制约束的所述第一障碍函数产生的相斥力,当vk越靠近约束集合的边界,所述的值越大;表示由状态约束的所述第二障碍函数产生的相斥力,当xk越靠近约束集合的边界,所述的值越大;所述障碍函数的定义为:
值函数网络构建模块,用于根据所述第二障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;所述值函数网络为:
参考代价函数构建模块,用于在机器人控制过程中的任意时刻k,根据k+1,…,k+L预测时刻的所述代价函数的累加和k+L+1预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;所述参考代价函数为:
值函数权值更新律确定模块,用于根据所述值函数网络的值和所述参考代价函数的值,得到第一逼近误差为:
其中,γc是预设的更新律;
控制策略逼近网络构建模块,用于根据所述预控制量和所述第一障碍函数以及所述第二障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;所述控制策略逼近网络为:
控制策略权值更新律确定模块,用于定义合成控制量为:
所述合成控制量的期望值中包括k+1时刻的值函数网络对k+1时刻的状态量求偏导得到的值;
获取预先定义的合成控制量期望值为:
根据所述合成控制量和所述合成控制量期望,得到第二逼近误差为:
通过最小化所述第二逼近误差的欧几里得范数δa,k=||εa,k||2,得到所述控制策略权值矩阵的控制策略权值更新律为:
其中,γa是预设的更新律;
机器人控制量确定模块,用于根据所述控制策略权值更新律和所述控制策略逼近网络得到机器人在任意k时刻的控制量。
3.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111090098.0A CN113805483B (zh) | 2021-09-17 | 2021-09-17 | 基于模型预测的机器人控制方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111090098.0A CN113805483B (zh) | 2021-09-17 | 2021-09-17 | 基于模型预测的机器人控制方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113805483A CN113805483A (zh) | 2021-12-17 |
CN113805483B true CN113805483B (zh) | 2022-07-12 |
Family
ID=78895649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111090098.0A Active CN113805483B (zh) | 2021-09-17 | 2021-09-17 | 基于模型预测的机器人控制方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113805483B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114326438B (zh) * | 2021-12-30 | 2023-12-19 | 北京理工大学 | 基于控制障碍函数的安全强化学习四旋翼控制***及方法 |
CN114610040A (zh) * | 2022-04-02 | 2022-06-10 | 天津大学 | 一种应用于无人操作***的自主避障学习控制方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110161865A (zh) * | 2019-06-13 | 2019-08-23 | 吉林大学 | 一种基于非线性模型预测控制的智能车换道轨迹规划方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104898659B (zh) * | 2015-03-11 | 2017-08-11 | 北京理工大学 | 一种基于模型预测的人机协同控制方法 |
CN107357168B (zh) * | 2017-06-01 | 2019-12-31 | 同济大学 | 一种基于机会约束模型预测控制的无人车避障方法 |
CN107861508B (zh) * | 2017-10-20 | 2021-04-20 | 纳恩博(北京)科技有限公司 | 一种移动机器人局部运动规划方法及装置 |
US11099575B2 (en) * | 2018-01-30 | 2021-08-24 | Brain Corporation | Systems and methods for precise navigation of autonomous devices |
JP6992719B2 (ja) * | 2018-09-27 | 2022-01-13 | オムロン株式会社 | 制御装置 |
CN110647042B (zh) * | 2019-11-11 | 2022-04-26 | 中国人民解放军国防科技大学 | 一种基于数据驱动的机器人鲁棒学习预测控制方法 |
CN112558483B (zh) * | 2020-12-29 | 2023-05-16 | 北京电子工程总体研究所 | 一种基于模型预测控制的编队控制方法及*** |
-
2021
- 2021-09-17 CN CN202111090098.0A patent/CN113805483B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110161865A (zh) * | 2019-06-13 | 2019-08-23 | 吉林大学 | 一种基于非线性模型预测控制的智能车换道轨迹规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113805483A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113805483B (zh) | 基于模型预测的机器人控制方法、装置和计算机设备 | |
US8452423B2 (en) | Methods and systems for the design and implementation of optimal multivariable model predictive controllers for fast-sampling constrained dynamic systems | |
CN113534669B (zh) | 基于数据驱动的无人车控制方法、装置和计算机设备 | |
US10895854B1 (en) | System and method for control constrained operation of machine with partially unmodeled dynamics using Lipschitz constant | |
Wu et al. | Adaptive fuzzy control for perturbed strict-feedback nonlinear systems with predefined tracking accuracy | |
CN112987577B (zh) | 一种无人车数据驱动自适应控制方法和装置 | |
CN113759724B (zh) | 基于数据驱动的机器人控制方法、装置和计算机设备 | |
Liu et al. | Multi-kernel online reinforcement learning for path tracking control of intelligent vehicles | |
US10953891B2 (en) | Method and system for providing an optimized control of a complex dynamical system | |
Yi et al. | Adaptive fuzzy output feedback control for nonlinear nonstrict-feedback time-delay systems with full state constraints | |
CN113495531B (zh) | 数控模型的速度控制方法、装置、计算机设备和存储介质 | |
CN110824496B (zh) | 运动估计方法、装置、计算机设备和存储介质 | |
CN112230679B (zh) | 基于延时的群组耦合***协同控制方法和装置 | |
US6738688B2 (en) | Method of predicting carrying time in automatic warehouse system | |
CN115598979A (zh) | 一种液压***的模型参数辨识方法、装置及液压工程机械 | |
CN115146416A (zh) | 一种工程机械液压***模型参数辨识方法、装置和挖掘机 | |
CN113805587A (zh) | 多无人车分布式编队控制方法、装置和设备 | |
CN114721272A (zh) | 轨迹跟踪控制方法、装置、设备与计算机可读存储介质 | |
Zietkiewicz | Non-minimum phase properties and feedback linearization control of nonlinear chemical reaction | |
CN111125809A (zh) | 建筑钢柱生成方法、装置、计算机设备和存储介质 | |
Shokry et al. | Dynamic optimization of batch processes under uncertainty via meta-multiparametric approach | |
CN112989499B (zh) | 一种无人车数据驱动控制方法和装置 | |
Zhuang et al. | Robust control design for zero-sum differential games problem based on off-policy reinforcement learning technique | |
Katz et al. | Model approximation in multiparametric optimization and control–a computational study | |
Emelianova | State observer-based iterative learning control of an uncertain continuous-time system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |