CN116619383B

CN116619383B - 基于确定学习的机械臂pid控制方法及***

Info

Publication number: CN116619383B
Application number: CN202310741430.8A
Authority: CN
Inventors: 张付凯; 杨钦辰; 王聪
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2024-02-20
Anticipated expiration: 2043-06-21
Also published as: CN116619383A

Abstract

本发明提供了一种基于确定学习的机械臂PID控制方法及***，包括：获取参考轨迹及机械臂的实时状态信息，基于获取的参考轨迹及机械臂的实时状态信息，获得跟踪误差；将所述跟踪误差输入预先构建的基于确定学习的PID控制器中，输出出对应的控制信号，并基于所述控制信号对机械臂进行实时控制；其中，所述基于确定学习的PID控制器的构建，具体为：基于复合误差项确定机械臂***内在未知动力学函数；利用径向基神经网络模型对机械臂***内在未知动力学函数进行近似；利用周期性的参考轨迹及对应的机械臂状态信息对所述径向基神经网络模型进行训练，基于训练好的径向基神经网络模型权值信息进行PID控制器的构建。

Description

基于确定学习的机械臂PID控制方法及***

技术领域

本发明属于机械臂控制技术领域，尤其涉及一种基于确定学习的机械臂PID控制方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

机械臂控制是一种广泛应用于工业自动化、医疗、军事和航天等领域的技术。机械臂控制方法是指如何控制机械臂的运动，使其按照预定的轨迹、速度和加速度执行任务。机械臂通常由关节、执行器和传感器等组成，通过对其关节和执行器进行精确的控制，可以完成各种各样的任务，如物体抓取、搬运、组装和焊接等。

随着科技的进步和人工智能技术的发展，机械臂控制方法也在不断创新和改进。传统的机械臂控制方法包括PID控制、动态面控制和模糊控制等。这些方法虽然可以实现基本的控制功能，但难以适应复杂环境和变化的任务需求。实际工业中的机械臂模型往往是复杂的带有未知动态的非线性***，如何对***中存在的不确定动态进行建模一直是一个具有挑战性的问题。机械臂自适应神经网络控制是一种基于人工智能技术的控制方法，它通过使用神经网络对机械臂进行建模和控制，以实现更加精准、高效、稳定的机械臂控制。其能够根据外部环境的变化和机械臂的自身特性进行自适应调整，从而更好地适应各种复杂的场景和任务需求。然而，传统的自适应神经控制理论主要关注***的稳定性和跟踪控制，缺少对知识获取和利用的探索。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于确定学习的机械臂PID控制方法及***，所述方案充分考虑了传统PID控制器在面对复杂未知非线性***中存在的不足，通过引入神经网络去实现了对未知动态的补偿，大大改善了传统控制器的控制效果；同时，通过引入状态变换，解决了因为***仿射项的存在而导致闭环误差***无法进行学习的问题。

根据本发明实施例的第一个方面，提供了一种基于确定学习的机械臂PID控制方法，包括：

获取参考轨迹及机械臂的实时状态信息，其中，所述状态信息包括关节位置信息及关节速度信息；

基于获取的参考轨迹及机械臂的实时状态信息，获得跟踪误差；

将所述跟踪误差输入预先构建的基于确定学习的PID控制器中，输出出对应的控制信号，并基于所述控制信号对机械臂进行实时控制；

其中，所述基于确定学习的PID控制器的构建，具体为：确定机械臂***的跟踪误差变量表示，并基于所述跟踪误差变量表示确定复合误差项；基于所述复合误差项确定机械臂***内在未知动力学函数；利用径向基神经网络模型对机械臂***内在未知动力学函数进行近似；利用周期性的参考轨迹及对应的机械臂状态信息对所述径向基神经网络模型进行训练，基于训练好的径向基神经网络模型权值信息进行PID控制器的构建。

进一步的，所述机械臂***的跟踪误差变量表示的确定，具体为：构建机械臂连续时间模型，并将其转换为状态空间表达形式；基于机械臂***的状态空间表达确定机械臂***的跟踪误差变量表示。

进一步的，对于复合误差项中的仿射项，通过将复合误差项除以仿射项的上界来消除仿射项的影响。

进一步的，基于训练好的径向基神经网络模型权值信息进行PID控制器的构建，具体为：预先构建用于描述机械臂***内在未知动力学函数的径向基神经网络，并构建神经网络的权值更新律；利用周期性的参考轨迹及对应的机械臂***状态信息对所述径向基神经网络模型进行训练；对于训练好的模型知识，以常值神经网络权值方式进行存储；基于存储的模型知识进行PID控制器的构建。

进一步的，所述基于确定学习的PID控制器，具体表示如下：

其中，K_p，K_i，K_d>0分别为比例项、积分项以及微分项的控制系数；e(t)与e(s)为跟踪误差，为在预定时间段内对径向基神经网络的估计权重求平均值；S(Z)为径向基函数的输入回归向量。

进一步的，所述复合误差项具体表示如下：

z₂＝e₂+αe+βr

其中，e₂为位置误差的微分，e为跟踪误差，α为跟踪误差前面的比例系数，β为跟踪误差积分项前面的比例系数，r为跟踪误差的积分项。

进一步的，所述关节位置信息通过关节角度进行表示。

根据本发明实施例的第二个方面，提供了一种基于确定学习的机械臂PID控制***，包括：

数据获取单元，其用于获取参考轨迹及机械臂的实时状态信息，其中，所述状态信息包括关节位置信息及关节速度信息；

跟踪误差确定单元，其用于基于获取的参考轨迹及机械臂的实时状态信息，获得跟踪误差；

控制单元，其用于将所述跟踪误差输入预先构建的基于确定学习的PID控制器中，输出对应的控制信号，并基于所述控制信号对机械臂进行实时控制；其中，所述基于确定学习的PID控制器的构建，具体为：确定机械臂***的跟踪误差变量表示，并基于所述跟踪误差变量表示确定复合误差项；基于所述复合误差项确定机械臂***内在未知动力学函数；利用径向基神经网络模型对机械臂***内在未知动力学函数进行近似；利用周期性的参考轨迹及对应的机械臂状态信息对所述径向基神经网络模型进行训练，基于训练好的径向基神经网络模型权值信息进行PID控制器的构建。

根据本发明实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种基于确定学习的机械臂PID控制方法。

根据本发明实施例的第四个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种基于确定学习的机械臂PID控制方法。

以上一个或多个技术方案存在以下有益效果：

(1)本发明提供了一种基于确定学习的机械臂PID控制方法及***，所述方案充分考虑了传统PID控制器在面对复杂未知非线性***中存在的不足，通过引入神经网络去实现了对未知动态的补偿，大大改善了传统控制器的控制效果。

(2)本发明所述方案通过引入状态变换，解决了因为***仿射项的存在而导致闭环误差***无法进行学习的问题。

(3)本发明所述方案可以实现对于复杂非线性***中未知动态的精确辨识和建模，将学习到的知识经验以常值神经网络的形式进行存储，并可以有效地利用所学到的知识，在面对相同或者相似的控制任务的时候，构建经验控制器，从而大幅度改善***的瞬态表现，节省计算资源，进一步提高***的整体控制性能。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中所述的基于自适应神经网络的PID控制(学习阶段)下跟踪性能示意图；

图2为本发明实施例中所述的自适应控制过程中神经网络权重收敛情况示意图；

图3为本发明实施例中所述的所学习神经网络对非线性未知动态的逼近情况示意图；

图4为本发明实施例中所述的自适应神经控制和学习控制作用下的跟踪误差收敛情况示意图；

图5为本发明实施例中所述的一种基于确定学习的机械臂PID控制方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了一种基于确定学习的机械臂PID控制方法。

传统的PID控制器是目前工业中最普遍应用的控制器，据相关调查表明，工业应用中约95％的控制器回路是采用PID这一结构。由此可见PID这一经典的控制器在工业应用中的地位。针对现有技术存在的问题，本实施例提出了一种基于确定学习的机械臂PID控制方法，所述方案通过引入确定学习理论，与传统的PID结合，实现了对于机械臂***中未知动态的准确辨识，从而在一定程度上克服了传统PID在面对未知非线性***的壁垒。进一步，利用学到的知识构建基于经验的PID控制器，从而大幅度提高了控制性能。本实施例所提出的方法充分体现了智能控制的理念，实现了对知识的获取，存储和利用。通过将现代的先进学习算法与传统PID控制器相结合，实现了对于机械臂***的高性能控制。面对相同或相似的任务的时候，所构建的基于知识的经验控制器避免了对控制器参数的在线调整，从而大大节省了计算时间，提高了控制***的瞬态性能。

具体的，如图5所示，一种基于确定学习的机械臂PID控制方法，包括：

在具体实施中，所述机械臂***的跟踪误差变量表示的确定，具体为：构建机械臂连续时间模型，并将其转换为状态空间表达形式；基于机械臂***的状态空间表达确定机械臂***的跟踪误差变量表示。

在具体实施中，对于复合误差项中的仿射项，通过将复合误差项除以仿射项的上界来消除仿射项的影响。

在具体实施中，基于训练好的径向基神经网络模型权值信息进行PID控制器的构建，具体为：预先构建用于描述机械臂***内在未知动力学函数的径向基神经网络，并构建神经网络的权值更新律；利用周期性的参考轨迹及对应的机械臂***状态信息对所述径向基神经网络模型进行训练；对于训练好的模型知识，以常值神经网络权值方式进行存储；基于存储的模型知识进行PID控制器的构建。

在具体实施中，所述基于确定学习的PID控制器，具体表示如下：

在具体实施中，所述复合误差项具体表示如下：

z₂＝e₂+αe+βr

其中，e₂为跟踪误差的微分，e为跟踪误差，α为跟踪误差前设置的比例系数，β为跟踪误差积分项前面的比例系数，r为跟踪误差的积分项。

在具体实施中，所述关节位置信息通过关节角度进行表示。

具体的，为了便于理解，以下结合附图从具体实施的角度对本实施例所述方案进行详细说明：

一种基于确定学习的机械臂PID控制方法，具体包括如下步骤：

步骤1：建立n关节机械臂连续时间模型：

其中，q,分别表示为机械臂的关节角度，关节速度以及关节加速度；τ代表控制器输入力矩向量；M(q)代表机械臂的未知惯性矩阵；/>表示未知的科里奥利力矩阵；G(q)表示重力向量。

步骤2：将上述n关节机械臂模型转换为状态空间表达式的形式：

其中，x₁＝q，表示为转换之后的***状态，分别对应于原***中的关节角度信息和关节速度信息。

步骤3：基于确定学习的智能PID控制器设计

定义***的跟踪误差：

e＝x₁-x_d1 (3)

其中，x_d1为***的循环参考轨迹，x1为***的实际关节位置变量。

记F(x₁，x₂)＝M^-1[-G(x₁)-B(x₁，x₂)x₂]，Q(x₁，x₂)＝M^-1(x₁)。定义复合误差项z₂＝e₂+αe+βr，并求导：

其中，e₂的具体表示α为跟踪误差项前面的比例系数，β为跟踪误差积分项前面的比例系数，r为跟踪误差的积分项，u为控制器输入，

定义要拟合的机器人内在未知动力学：

H(Z)＝Q^-1(F(x₁，x₂)-f_d(x_d)+αe₂+βe) (5)

综合上述n关节机械臂动力学模型，即公式(2)以及公式(4)、(5)，传统的PID控制器，以及确定学习理论，引入径向基神经网络(Radial basis function neural network，RBFNN)，去辨识***中的未知函数H(Z)，从而抵消***中的不确定性。

具体为：

其中，e(t)与e(s)为跟踪误差，为神经网络权值的估计值。

定义：K_p＝Kα，K_d＝K，K_i＝Kβ，可以得到如下简化形式：

其中，K_p，K_i，K_d>0分别为比例项(Proportional)，积分项(Integral)以及微分项(Differential)的控制系数。S(Z)是RBFNN的输入回归向量，是神经网络权值的估计值，Z＝[x₁，x₂，x_d1，x_d2]^T是神经网络的输入向量。

其中，x_d2为模型参考输出x_d1的导数。

根据李亚普诺夫稳定性设计神经网络的权值更新率，具体如下：

其中Γ＝Γ^T>0是一个正定对角矩阵。σ>0是一个大于0的常数。在学习阶段，即在自适应控制器，即公式(7)的作用下，图1展示了基于自适应神经网络的PID控制(学习阶段)下跟踪性能，***输出实现了对参考信号的跟踪控制。

步骤4：从闭环控制中进行学习

根据确定学习理论，当RBF NN(即径向基神经网络)的输入向量满足循环轨迹的时候，沿着轨迹附近的神经元总能满足持续激励条件。根据李亚普诺夫稳定性，上述***在控制器(即公式(7))的作用下，闭环***实现稳定，由此可以推导出神经网络的输入向量Z＝[x₁，x₂，x_d1，x_d2]^T在跟踪之后可以实现循环轨迹，满足持续激励的条件。但是由于机械臂模型中仿射项Q＝M^-1的存在，可能会放大误差，导致出现学习无法进行。为了解决这个问题，本专利采用了一种状态变换的方法，从而可以消除仿射项的影响。具体如下：E＝z₂/q_max，其中q_max是仿射项的上界。通过状态变换，原始沿着轨迹的闭环误差***可以转换为以下的带有扰动项的线性时变***(Linear time-varying system,LTV),具体形式如下：

通过LTV***指数稳定性定理以及非线性***的扰动定理可以证明沿着轨迹附近的神经元的权值估计误差收敛到零附近的一个小邻域内，从而实现了神经网络权值的精确收敛，***的未知非线性动态可以由轨迹附近的神经元组成的神经网络精确逼近。图2展示了自适应控制过程中神经网络权重收敛情况，在跟踪控制过程中，实现了神经网络权值的收敛。

步骤5：以下基于确定学习得到的知识再利用，构建基于经验知识的智能PID控制器，主要包括以下处理过程：

利用步骤4学习到的关于未知非线性***的知识，根据确定学习理论，将所学到的知识表示为如下：

其中，[t_a，t_b]表示神经网络权值收敛后的稳态阶段，由此RBF NN从控制中学到的知识就以常值神经网络的形式存储。图3展示了所学习神经网络对非线性未知动态的逼近情况，学到的常值神经网络实现了对机械臂未知内在动态的准确建模。

然后基于常值神经网络去构建基于经验知识的智能PID控制器，控制器的形式如下：

对于相同或者相似的控制任务，基于经验知识的控制器，即公式(11)，可以快速被调用，而不用重新在线计算更新神经权值，大大节省了计算资源，进一步提高了智能PID控制器的控制性能。图4分别展示了自适应神经控制(Adaptive neural control,ANC)和学习控制(Learning control,LC)作用下的跟踪控制性能，可以看出PID学习控制可以获得更好的控制性能(跟踪误差更小，瞬态性能更好)。

实施例二

本实施例的目的是提供一种基于确定学习的机械臂PID控制***。

一种基于确定学习的机械臂PID控制***，包括：

控制单元，其用于将所述跟踪误差输入预先构建的基于确定学习的PID控制器中，输出出对应的控制信号，并基于所述控制信号对机械臂进行实时控制；其中，所述基于确定学习的PID控制器的构建，具体为：确定机械臂***的跟踪误差变量表示，并基于所述跟踪误差变量表示确定复合误差项；基于所述复合误差项确定机械臂***内在未知动力学函数；利用径向基神经网络模型对机械臂***内在未知动力学函数进行近似；利用周期性的参考轨迹及对应的机械臂状态信息对所述径向基神经网络模型进行训练，基于训练好的径向基神经网络模型权值信息进行PID控制器的构建。

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

上述实施例提供的一种基于确定学习的机械臂PID控制方法及***可以实现，具有广阔的应用前景。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于确定学习的机械臂PID控制方法，其特征在于，包括：

其中，所述基于确定学习的PID控制器的构建，具体为：确定机械臂***的跟踪误差变量表示，并基于所述跟踪误差变量表示确定复合误差项；基于所述复合误差项确定机械臂***内在未知动力学函数；利用径向基神经网络模型对机械臂***内在未知动力学函数进行近似；利用周期性的参考轨迹及对应的机械臂状态信息对所述径向基神经网络模型进行训练，基于训练好的径向基神经网络模型权值信息进行PID控制器的构建；

基于训练好的径向基神经网络模型权值信息进行PID控制器的构建，具体为：预先构建用于描述机械臂***内在未知动力学函数的径向基神经网络，并构建神经网络的权值更新律；利用周期性的参考轨迹及对应的机械臂***状态信息对所述径向基神经网络模型进行训练；对于训练好的模型知识，以常值神经网络权值方式进行存储；基于存储的模型知识进行PID控制器的构建；

所述复合误差项具体表示如下：

z₂＝e₂+αe+βr

其中，e₂为位置误差的微分，e为跟踪误差，α为跟踪误差项前面的比例系数，β为跟踪误差积分项前面的比例系数，r为跟踪误差的积分项。

2.如权利要求1所述的一种基于确定学习的机械臂PID控制方法，其特征在于，所述机械臂***的跟踪误差变量表示的确定，具体为：构建机械臂连续时间模型，并将其转换为状态空间表达形式；基于机械臂***的状态空间表达确定机械臂***的跟踪误差变量表示。

3.如权利要求1所述的一种基于确定学习的机械臂PID控制方法，其特征在于，对于复合误差项中的仿射项，通过将复合误差项除以仿射项的上界来消除仿射项的影响。

4.如权利要求1所述的一种基于确定学习的机械臂PID控制方法，其特征在于，所述基于确定学习的PID控制器，具体表示如下：

5.如权利要求1所述的一种基于确定学习的机械臂PID控制方法，其特征在于，所述关节位置信息通过关节角度进行表示。

6.一种基于确定学习的机械臂PID控制***，其特征在于，包括：

控制单元，其用于将所述跟踪误差输入预先构建的基于确定学习的PID控制器中，输出出对应的控制信号，并基于所述控制信号对机械臂进行实时控制；其中，所述基于确定学习的PID控制器的构建，具体为：确定机械臂***的跟踪误差变量表示，并基于所述跟踪误差变量表示确定复合误差项；基于所述复合误差项确定机械臂***内在未知动力学函数；利用径向基神经网络模型对机械臂***内在未知动力学函数进行近似；利用周期性的参考轨迹及对应的机械臂状态信息对所述径向基神经网络模型进行训练，基于训练好的径向基神经网络模型权值信息进行PID控制器的构建；

所述复合误差项具体表示如下：

z₂＝e₂+αe+βr

7.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任一项所述的一种基于确定学习的机械臂PID控制方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一项所述的一种基于确定学习的机械臂PID控制方法。