CN117687342B

CN117687342B - 基于高斯过程非保守概率误差界的机器人安全控制方法

Info

Publication number: CN117687342B
Application number: CN202410135885.XA
Authority: CN
Inventors: 秦家虎; 李嘉诚; 张聪; 刘轻尘; 马麒超; 李曼
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2024-01-31
Filing date: 2024-01-31
Publication date: 2024-05-17
Anticipated expiration: 2044-01-31
Also published as: CN117687342A

Abstract

本发明涉及机器人安全控制技术领域，公开了一种基于高斯过程非保守概率误差界的机器人安全控制方法，包括以下步骤：基于传感器测量机器人的状态与状态变化率，利用高斯过程在线学习机器人动力学模型：基于在线数据集，利用逆韦伯分布，估计未知的动力学残差项、后验均值和后验方差的李普希兹常数；基于后验方差与估计的李普希兹常数，计算非保守概率误差界，以评估机器人动力学模型的不确定性对安全的威胁程度；基于非保守概率误差界与控制屏障函数构建实现安全控制的二次规划方程，并通过前馈控制器补偿动力学残差项，实现对机器人的安全控制；解决了机器人任务执行过程中的基本安全问题，从而拓宽机器人的应用场景。

Description

基于高斯过程非保守概率误差界的机器人安全控制方法

技术领域

本发明涉及机器人安全控制技术领域，具体涉及一种基于高斯过程非保守概率误差界的机器人安全控制方法。

背景技术

安全控制对于机器人的各类应用至关重要，例如使移动机器人能够在危险环境中执行救援任务，以及使无人机在茂密的丛林中进行生物多样性监测等。近年来，基于控制障碍函数（Control Barrier Function）的方法在控制和机器人领域内备受关注，用于设计有安全保证的可靠控制器。基于控制障碍函数的方法在设计简单而有效的安全控制器方面具有优势和坚实的理论基础。

然而，在实际机器人应用中，动态***的建模往往不准确，而基于控制障碍函数的方法依赖于准确的动力学模型，因此在设计鲁棒控制器时需要考虑模型不确定性或残余动力学。许多现有技术从不同角度探索设计鲁棒控制器，其中一种观点是通过学习和补偿残余动力学，并通过引入表征不确定性的概率误差界来实现基于控制屏障函数的鲁棒安全控制。然而，此前的技术方案所提出的高斯过程的概率误差界均过于保守无法应用于真实的机器人上，迄今为止尚没有满足机器人应用要求的非保守的概率误差界。

发明内容

为解决上述技术问题，本发明提供一种基于高斯过程非保守概率误差界的机器人安全控制方法。

为解决上述技术问题，本发明采用如下技术方案：

一种基于高斯过程非保守概率误差界的机器人安全控制方法，包括以下步骤：

步骤一，基于传感器测量机器人的状态与状态变化率，利用高斯过程在线学习机器人动力学模型：

给定机器人动力学模型，其中/>、/>均为已知并且满足李普希兹连续的***函数，/>是未知的动力学残差项；机器人的状态/>与机器人的状态变化率/>通过传感器测量得到，/>与/>的差值是/>的噪声观测值；

构建在线数据集，其中/>，上标/>表示在线数据集的容量，/>表示/>中第/>个机器人状态，/>表示第/>个噪声观测值；随时间递增，迭代在线数据集/>，并在线训练机器人动力学模型，输出后验均值/>与后验方差/>；

步骤二：基于在线数据集，利用逆韦伯分布，分别估计未知的动力学残差项/>、后验均值/>和后验方差/>的李普希兹常数/>、/>和/>：

提取在线数据集中的机器人状态数据/>，并使用随机方法将机器人状态数据中的元素两两组合，且每个组合中的两个机器人状态的距离不超过设定阈值/>，构成新的集合/>，/>；

过程A：通过差分法求解从集合中提取的/>个元素的函数变化率，并在/>个函数变化率中选择最大值；

将过程A重复次，获取与/>个过程A的结果最接近的逆韦伯分布，所述逆韦伯分布的位置参数即为李普希兹常数/>、/>和/>的估计；

步骤三：基于后验方差与所估计的李普希兹常数/>、/>与/>，计算非保守概率误差界/>，以评估机器人动力学模型的不确定性对安全的威胁程度；

步骤四：基于非保守概率误差界与控制屏障函数构建实现安全控制的二次规划方程，并通过前馈控制器补偿动力学残差项，实现对机器人的安全控制：

给定初始的标称控制量，通过设计控制屏障函数构建二次规划方程，以修正标称控制量/>；同时在二次规划方程的约束不等式中引入非保守概率误差界/>，进一步修正标称控制量，输出优化后的控制量/>；

通过对机器人动力学模型在线学习获得的后验均值，构建前馈控制器：，补偿模型残差项/>，其中，/>表示伪逆；补偿后的控制量作为最终控制量直接作用于机器人的控制。

进一步地，步骤一中，所述构建在线数据集，随时间递增，迭代在线数据集/>，并在线训练机器人动力学模型，输出后验均值/>与后验方差/>，具体包括：

（1）初始化时间参数，/>为时间窗口大小；初始化机器人状态/>，初始化在线数据集/>；

（2）当时刻时，采集当前时刻的噪声观测值/>，并更新在线数据集/>；

（3）当时刻时，预测当前机器人状态的动力学残差项的后验均值/>和后验方差/>：

；

其中，是在线数据集/>中的噪声观测值组成的集合，/>表示测量噪声的方差，为传感器参数表上可获取的数据，/>表示单位矩阵，/>、/>、/>分别表示核函数的标量形式、向量形式、矩阵形式；核函数的标量形式/>，其中/>表示与机器人状态/>相同或者不同的机器人状态，/>、/>表示核函数的两个超参数；若/>能被/>整除，采集噪声观测值/>，删除在线数据集中最底部的动力学样本，嵌入新的动力学样本/>，完成一次在线数据集的更新；循环在线数据集的更新过程，获取后验均值/>与后验方差/>。

进一步地，步骤二中，所述过程A：通过差分法求解从集合中提取的/>个元素的函数变化率，并在/>个函数变化率中选择最大值，将过程A重复/>次，获取与/>个过程A的结果最接近的逆韦伯分布，所述逆韦伯分布的位置参数即为李普希兹常数/>、/>和/>的估计，具体包括以下步骤：

S21，所述过程A为：从集合中提取/>个元素，通过差分法求解/>个元素对应的函数变化率/>：

；

其中，代指/>、/>或/>；并在/>个函数变化率中选择最大值/>：；

S22，将过程A重复次，基于/>个最大值/>拟合逆韦伯分布，逆韦伯分布的分布函数/>为：

；

其中是位置参数，/>是形状参数，/>是规模参数；将逆韦伯分布的位置参数/>输出作为对应李普希兹常数的估计；

S23，重复执行步骤S21与步骤S22，分别计算得到对李普希兹常数、/>和/>的估计。

进一步地，步骤三中，所述基于后验方差与所估计的李普希兹常数/>、/>与/>，计算非保守概率误差界，具体包括：

首先做如下计算：

；

其中表示与方差有关的不确定性，/>表示数据离散化导致的不确定性，/>表示状态空间，所述状态空间为立方体空间，边长为/>，/>表示概率；/>表示给定网格系数和状态空间下的状态点数，/>，/>表示机器人状态的维度；

通过和/>获得非保守概率误差界/>：

；

表示后验标准差；所述非保守概率误差界/>具有能够在概率/>层面保障误差的上限：

；

表示事件发生的概率。

进一步地，步骤四中，所述给定初始的标称控制量，通过设计控制屏障函数构建二次规划方程，以修正标称控制量/>，同时在二次规划方程的约束不等式中引入非保守概率误差界/>，进一步修正标称控制量，输出优化后的控制量/>，具体包括：

构造控制屏障函数，控制屏障函数/>的安全约束不等式为：

；

其中，为拓展/>函数，其中/>、/>为李导数，且

，/>；

基于控制屏障函数构建带有非保守概率误差界约束的二次规划方程，输出优化后的控制量/>：

；

其中，表示所有控制量构成的空间。

与现有技术相比，本发明的有益技术效果是：

1.本发明基于控制屏障函数设计控制器的方法，能够有效构造二次规划安全控制器，解决了机器人任务执行过程中的基本安全问题，从而拓宽机器人的应用场景。

2.本发明基于高斯过程在线学习动力学模型的方法，用于应对动力学未知或不准确对安全带来的危害，该技术具有显著的数据高效性，在扩展适用场景的同时，降低求解的运算量和时间，从而推动机器人算法的落地。

3.本发明在线计算非保守的概率误差界的方法，显著提高了机器人应对不确定性的能力，提升了机器人与扰动下运行时的鲁棒性，从而能够增强在信息不确定场景下的机器人的安全性。

附图说明

图1为本发明中的基于高斯过程非保守概率误差界的机器人安全控制方法的流程示意图；

图2为本发明的原理架构图；

图3为本发明风扰场景下风场的高斯过程拟合示意图；

图4为本发明所使用的控制屏障函数示意图；

图5为本发明中基于非保守概率误差界的控制过程示意图；

图6为实施例中进行李普希兹常数估计所采用的函数的图像。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

本发明通过高斯过程这一学习工具，对采集的动力学样本进行学习训练，构建出更完整的机器人动力学模型，以为机器人提供安全保证。本发明中的基于高斯过程非保守概率误差界的机器人安全控制方法的流程参见图1。

给定机器人动力学模型，其中/>、/>均为已知且满足李普希兹连续的***函数，/>是未知的动力学残差项；机器人的状态/>与机器人的状态变化率/>通过传感器测量得到，/>与/>的差值是/>的噪声观测值。

与传统学习不同，本发明构建在线数据集，其中/>，上标/>表示在线数据集/>的容量，/>表示/>中第/>个机器人状态，/>表示第/>个噪声观测值；随时间递增，迭代在线数据集/>，并在线训练机器人动力学模型，输出后验均值/>与后验方差/>。

在线数据集随时间更新，首先定义时间窗口/>，该时间窗口随时间滑动；初始化时间参数/>，/>为时间窗口大小。

初始化状态，初始化在线数据集/>。

当时刻时，采集当前时刻的噪声观测值/>，并更新在线数据集/>。

当时刻时，预测当前机器人状态的动力学残差项的后验均值/>和后验方差/>：

；

其中，是在线数据集/>中的噪声观测值组成的集合，/>表示测量噪声的方差，为传感器参数表上可获取的数据，/>表示单位矩阵，/>、/>、/>分别表示核函数的标量形式、向量形式、矩阵形式；核函数的标量形式/>，其中/>表示另一个机器人状态（可与/>相同也可不同），/>、/>表示核函数的两个超参数；若/>能被/>整除，采集噪声测量/>，删除在线数据集中最底部的动力学样本，嵌入新的动力学样本/>，完成一次在线数据集的更新。循环此过程可以迭代获取后验均值/>与后验方差/>。

传统的高斯过程学习方法随着时间增大，对于在线数据集的训练时间也随之增长，最终导致的计算负担将极大；而本发明在线学习方法中，时间窗口的设置可以有效增强数据处理效率，能有效减小机器人的计算负担。风扰1.9m/s的场景下，无人机将拟合风对其动力学带来的干扰函数（即动力学残差项），拟合的结果如图3所示。在外部的风扰下，无人机的轨迹出现了偏离（跟踪轨迹应为直线），并且无人机利用高斯过程对风场情况成功拟合。图3中Px表示x轴，Py表示y轴。

本发明设计了基于李普希兹常数估计来计算非保守概率误差界的算法，具体分为三个步骤：数据重组、李普希兹常数估计和概率误差界计算。本发明首先将高斯过程在线学习算法中采集的在线数据集进行随机重组，提取中的机器人状态，并使用随机方法将元素两两组合，每个组合形如/>，且每个组合中的变量距离不超过/>，即/>，注意样本可以重复出现在不同的组合中，如此多次重组，构成新的集合/>。

本发明从集合中提取/>个元素，本发明使用/>代称/>、/>或者函数，通过差分法求解他们对应的函数变化率/>：

；

并在个函数变化率中选择最大值/>，即/>；如此重复/>次，基于/>个数据拟合逆韦伯分布，逆韦伯分布的分布函数/>为：

；

其中，是位置参数，/>是形状参数，/>是规模参数。所得逆韦伯分布的位置参数/>输出作为李普希兹常数的估计。重复执行上述步骤，可分别计算李普希兹常数/>、/>与/>，如前所述，在每个李普希兹的计算过程中/>将被具体的/>、/>或者/>来代替，以实现对于不同函数李普希兹常数的估计效果。本发明基于后验方差/>与所估计李普希兹常数/>、/>与，计算一个非保守概率误差界/>，以评估机器人模型的不确定性对安全的威胁程度。

首先做如下计算：

；

其中表示与方差有关的不确定性，/>表示数据离散化导致的不确定性，/>表示状态空间，一般为立方体空间（边长为/>），/>表示概率；/>表示给定网格系数/>和状态空间下的状态点数，具体计算过程为/>。

通过以上不确定性的表征可获得概率误差界：

；

表示后验标准差；该概率误差界/>有能够在概率层面保障误差的上限，具体如下所示：

；

其中为上述概率，/>表示事件/>发生的概率。

该结果保证了在极高概率下机器人动力学模型的动力学残差项与后验均值的差值小于所计算出的概率误差界。现有技术中的误差界/>过于保守，即使给定概率/>很小，所计算出来的安全管道仍然占据大半个状态空间，在该误差界下设计的鲁棒控制会阻碍机器人的任务操作，将一些并非不安全的行为识别为不安全，即机器人的行为也过于保守。而本发明所设计的概率误差界，得益于对李普希兹常数的准确估计（如表1所示一些实例函数估计结果）以及对于算法的在线化设计，能够有效去除冗余的不确定性和保守西欧性，最终能够有效地保持安全与机器人任务操作的权衡。

表1 李普希兹常数估计的实例结果

本发明使用控制屏障函数这一工具来实现机器人的安全控制，并使用所计算的非保守的概率误差界强化安全效果，以下描述这一模块具体实施过程。

首先构造控制屏障函数，控制屏障函数所表征的安全条件是/>，控制屏障函数映射到动力学上的安全约束不等式为：

；

其中，为拓展/>函数，其中/>、/>为李导数，且满足/>，，当此条件满足时，总能满足安全条件/>。上式表明，机器人的动力学模型/>通过李导数的形式可传递到安全约束之中，如图4所示，当动力学满足约束不等式，则机器人始终能保持安全状态。因此该方法是依据于动力学模型来干预机器人的控制输入，以实现安全控制效果。

本发明基于控制屏障函数设计带有概率误差界约束的二次规划方程：

；

式中表示标称控制量，/>表示所有控制量构成的空间。上式考未考虑模型不确定性带来的影响，本发明将引入非保守的概率误差界，并合成新的二次规划控制器；

；

表示非保守概率误差界，且/>，表征对动力学不确定性的鲁棒性，/>被称为安全管道，安全管道的实例化效果如图5中的点阵区域所示。本发明设计的二次规划控制器，不同于传统方法只约束机器人的预测轨迹，其对于以预测轨迹为中心的管道都存在安全约束。这一操作的目的是应对动力学上的不确定性，动力学的不确定性会导致机器人的实际轨迹与期望轨迹有一定偏差，但总是能大概率处于管道内。因此，在动力学不确定性的干扰下，管道的安全能够极大程度地代表机器人的安全。如图5所示，机器人期望轨迹所处的管道都获得了安全保证，这能够使机器人根据不确定程度，与碍物保持相应的距离；且当不确定性小时，此距离忽略不计，当不确定性大时，此距离相应增大。

同时，为了消除为了动力学残差带来的影响，本发明构建了前馈控制器，补偿模型动力学残差项/>给控制量/>带来的影响，其中/>表示伪逆；输出补偿后的控制量/>至机器人***，/>可被证明以极大概率保证机器人的安全性。

以上是本发明的详细说明，图2展示了发明的完整原理架构。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于高斯过程非保守概率误差界的机器人安全控制方法，包括以下步骤：

给定机器人动力学模型，其中/>、/>均为已知并且满足李普希兹连续的***函数，/>是未知的动力学残差项；机器人的状态/>与机器人的状态变化率/>通过传感器测量得到，/>与/>的差值是/>的噪声观测值；构建在线数据集/>，其中/>，上标表示在线数据集/>的容量，/>表示/>中第/>个机器人状态，/>表示第/>个噪声观测值；随时间递增，迭代在线数据集/>，并在线训练机器人动力学模型，输出后验均值/>与后验方差/>；

步骤二：基于在线数据集，利用逆韦伯分布，分别估计未知的动力学残差项/>、后验均值/>和后验方差/>的李普希兹常数/>、/>和/>：提取在线数据集/>中的机器人状态数据/>，并使用随机方法将机器人状态数据中的元素两两组合，且每个组合中的两个机器人状态的距离不超过设定阈值/>，构成新的集合/>，；

通过对机器人动力学模型在线学习获得的后验均值，构建前馈控制器：，补偿未知的动力学残差项/>，其中，/>表示伪逆；补偿后的控制量/>作为最终控制量直接作用于机器人的控制。

2.根据权利要求1所述的基于高斯过程非保守概率误差界的机器人安全控制方法，其特征在于，步骤一中，所述构建在线数据集，随时间递增，迭代在线数据集/>，并在线训练机器人动力学模型，输出后验均值/>与后验方差/>，具体包括：

；

其中，是在线数据集/>中的噪声观测值组成的集合，/>表示测量噪声的方差，为传感器参数表上可获取的数据，/>表示单位矩阵，/>、/>、/>分别表示核函数的标量形式、向量形式、矩阵形式；核函数的标量形式/>，其中/>表示与机器人状态相同或者不同的机器人状态，/>、/>表示核函数的两个超参数；若/>能被/>整除，采集噪声观测值/>，删除在线数据集中最底部的动力学样本，嵌入新的动力学样本/>，完成一次在线数据集的更新；循环在线数据集的更新过程，获取后验均值/>与后验方差/>。

3.根据权利要求1所述的基于高斯过程非保守概率误差界的机器人安全控制方法，其特征在于，步骤二中，所述过程A：通过差分法求解从集合中提取的/>个元素的函数变化率，并在/>个函数变化率中选择最大值，将过程A重复/>次，获取与/>个过程A的结果最接近的逆韦伯分布，所述逆韦伯分布的位置参数即为李普希兹常数/>、/>和/>的估计，具体包括以下步骤：

；

S22，将过程A重复次，基于/>个最大值/>拟合逆韦伯分布，逆韦伯分布的分布函数为：

；

4.根据权利要求1所述的基于高斯过程非保守概率误差界的机器人安全控制方法，其特征在于，步骤三中，所述基于后验方差与所估计的李普希兹常数/>、/>与/>，计算非保守概率误差界，具体包括：

首先做如下计算：

；

其中表示与方差有关的不确定性，/>表示数据离散化导致的不确定性，/>表示状态空间，所述状态空间为立方体空间，边长为/>，/>表示概率；/>表示给定网格系数/>和状态空间下的状态点数，/>，/>表示机器人状态的维度；

通过和/>获得非保守概率误差界/>：

；

表示事件发生的概率。

5.根据权利要求1所述一种基于高斯过程非保守概率误差界的机器人安全控制方法，其特征在于，步骤四中，所述给定初始的标称控制量，通过设计控制屏障函数构建二次规划方程，以修正标称控制量/>，同时在二次规划方程的约束不等式中引入非保守概率误差界/>，进一步修正标称控制量，输出优化后的控制量/>，具体包括：

构造控制屏障函数，控制屏障函数/>的安全约束不等式为：

；

其中，为拓展/>函数，其中/>、/>为李导数，且

，/>；

；

其中，表示所有控制量构成的空间。