CN113219829B

CN113219829B - 一种液压驱动单元的位置控制方法及***

Info

Publication number: CN113219829B
Application number: CN202110452940.4A
Authority: CN
Inventors: 巴凯先; 宋颜和; 张艺杰; 陈馨; 付承伟; 俞滨; 高正杰
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2022-12-16
Anticipated expiration: 2041-04-26
Also published as: NL2031309A; NL2031309B1; CN113219829A

Abstract

本发明涉及一种液压驱动单元的位置控制方法及***，所述方法包括如下步骤：获取液压驱动单元的位置误差；根据所述位置误差，基于拟牛顿算法确定用于控制液压驱动单元的初始控制信号；根据所述位置误差，基于模糊规则确定控制信号优化步长的搜索方向；在所述搜索方向上，采用Armijo‑Goldstein准则确定控制信号优化步长；利用所述控制信号优化步长对初始控制信号进行优化，并基于优化后的控制信号对所述液压驱动单元进行控制，本申请在确定初始控制信号的基础上，利用模糊、Armijo‑Goldstein准则等对初始控制信号进行优化，提升了液压驱动单元的控制***的自适应能力和稳定性。

Description

一种液压驱动单元的位置控制方法及***

技术领域

本发明涉及工业控制技术领域，特别是涉及一种液压驱动单元的位置控制方法及***。

背景技术

足式机器人相对传统轮式、履带式移动型机器人，在复杂任务环境中具有更好的适应能力。液压足式机器人依托其足式仿生结构和独特的驱动方式，能够在承受大负载的同时在未知、非结构环境中实现行走、跑动等多种运动姿态，可担任野外作战辅助、核事故后建筑物内侦查、生化武器毁伤范围内救援等极限任务。液压足式机器人腿部作为机器人的动力来源，由仿生机械结构和液压驱动单元组成，其中液压驱动单元作为腿部“肌肉”，其位置控制精度及稳定性直接决定机器人的性能。

国内外控制科学的学者提出了多种改善液压驱动单元位置控制性能的方法，以反馈、顺馈控制为代表的经典方法在各类控制***中表现出一定的通用性，参数调整得当的情况下能够取得良好的控制精度；以模型预测控制(MPC，Model Predictive Control)、自抗扰控制(ADRC，Active Disturbance Rejection Control)为代表的现代控制方法则在保证精度的同时，提高了***的自适应性和鲁棒性；以模糊控制、神经网络控制为代表的智能控制算法的运用则进一步提高了控制***的自适应性。然而这些控制方法均为基于***模型和人类先验知识所设计，足式机器人工作环境复杂，液压驱动单元工作条件未知、多变，控制方法在设计之初不能考虑到所有工作状况，在某些运动工况下会出现响应变慢、精度降低等影响机器人运动控制性能的问题，进而造成机器人运动不平稳，甚至整机倾覆等事故。

因此，迫切需要一种高性能位置控制方法，提升液压驱动单元的控制***的自适应能力和稳定性。

发明内容

本发明的目的是提供一种液压驱动单元的位置控制方法及***，以提升液压驱动单元的控制***的自适应能力和稳定性。

为实现上述目的，本发明提供了如下方案：

本发明提供一种液压驱动单元的位置控制方法，所述方法包括如下步骤：

获取液压驱动单元的位置误差，所述位置误差为期望位置与液压驱动单元的实际输出位置的差值；

根据所述位置误差，基于拟牛顿算法确定用于控制液压驱动单元的初始控制信号；

根据所述位置误差，基于模糊规则确定控制信号优化步长的搜索方向；

在所述搜索方向上，采用Armijo-Goldstein准则确定控制信号优化步长；

利用所述控制信号优化步长对初始控制信号进行优化；

基于优化后的控制信号对所述液压驱动单元进行控制，当下一个采样时间点到达时，返回步骤“获取液压驱动单元的位置误差”。

可选的，所述根据所述位置误差，基于模糊规则确定控制信号优化步长的搜索方向，之前还包括：

判断所述初始控制信号的TD误差是否小于误差阈值，获得判断结果；

若所述判断结果为是，则利用所述初始控制信号对所述液压驱动单元进行控制；当下一个采样时间点到达时，返回步骤“获取液压驱动单元的位置误差”。

可选的，所述根据所述位置误差，基于拟牛顿算法确定用于控制液压驱动单元的初始控制信号，具体包括：

利用近似Hessian矩阵的迭代公式，确定当前采样时间点的近似Hessian矩阵；

根据当前采样时间点的近似Hessian矩阵和所述位置误差，利用控制液压驱动单元的传递函数的泰勒展开公式计算用于控制液压驱动单元的初始控制信号。

可选的，所述近似Hessian矩阵的迭代公式为：

其中，B_k和B_k-1分别表示当前采样时间点k和前一个采样时间点k-1的近似Hessian矩阵，y_k-1和s_k-1分别表示前一个采样时间点k-1的初始控制信号和位置误差。

可选的，控制液压驱动单元的传递函数的泰勒展开公式为：

其中，s表示位置误差，当计算当前采样时间点k的初始控制信号时，s＝s_k，s_k-1分别表示前一个采样时间点k-1的位置误差，B_k表示当前采样时间点k的近似Hessian矩阵；f(·)表示控制液压驱动单元的传递函数的泰勒展开公式，f(s_k-1)表示前一个采样时间点k-1的控制液压驱动单元的传递函数的泰勒展开公式的函数值。

可选的，所述在所述搜索方向上，采用Armijo-Goldstein准则确定控制信号优化步长，具体包括：

在所述搜索方向上，采用Armijo-Goldstein准则，求解不等式

确定控制信号优化步长；

其中，f(·)表示控制液压驱动单元的传递函数的泰勒展开公式，α_k表示当前采样时间点k的控制信号优化步长，d_k表示当前采样时间点k的搜索方向，g_k为控制液压驱动单元的传递函数对当前采样时间点k的位置误差的偏导数，ρ为常数。

可选的，所述利用所述控制信号优化步长对初始控制信号进行优化，具体包括：

利用公式y'_k←y_k+α[r_k+γy_k-y_k-1]对所述控制信号的控制值进行优化，直到所述控制信号的控制值的TD误差小于误差阈值；

其中，y'_k为当前采样时间点k的优化后的控制信号、y_k和y_k-1分别表示当前采样时间点k和前一个采样时间点的初始控制信号；α为控制信号优化步长，[r_k+γy_k-y_k-1]为TD误差计算式，r_k表示当前采样时间点k的控制值的反馈，γ为折扣率。

一种液压驱动单元的位置控制***，所述***包括：

位置误差获取模块，用于获取液压驱动单元的位置误差，所述位置误差为期望位置与液压驱动单元的实际输出位置的差值；

初始控制信号确定模块，用于根据所述位置误差，基于拟牛顿算法确定用于控制液压驱动单元的初始控制信号；

搜索方向确定模块，用于根据所述位置误差，基于模糊规则确定控制信号优化步长的搜索方向；

控制信号优化步长确定模块，用于在所述搜索方向上，采用Armijo-Goldstein准则确定控制信号优化步长；

优化控制模块，用于利用所述控制信号优化步长对初始控制信号进行优化，并基于优化后的控制信号对所述液压驱动单元进行控制。

可选的，所述控制***还包括：

判断模块，用于判断所述初始控制信号的TD误差是否小于误差阈值，获得判断结果；

控制模块，用于若所述判断结果为是，则利用所述初始控制信号对所述液压驱动单元进行控制；当下一个采样时间点到达时，返回步骤“获取液压驱动单元的位置误差”。

可选的，所述初始控制信号确定模块，具体包括：

近似Hessian矩阵确定子模块，用于利用近似Hessian矩阵的迭代公式，确定当前采样时间点的近似Hessian矩阵；

初始控制信号计算子模块，用于根据当前采样时间点的近似Hessian矩阵和所述位置误差，利用控制液压驱动单元的传递函数的泰勒展开公式计算用于控制液压驱动单元的初始控制信号。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种液压驱动单元的位置控制方法，所述方法包括如下步骤：获取液压驱动单元的位置误差；根据所述位置误差，基于拟牛顿算法确定用于控制液压驱动单元的初始控制信号；根据所述位置误差，基于模糊规则确定控制信号优化步长的搜索方向；在所述搜索方向上，采用Armijo-Goldstein准则确定控制信号优化步长；利用所述控制信号优化步长对初始控制信号进行优化，并基于优化后的控制信号对所述液压驱动单元进行控制，本申请在确定初始控制信号的基础上，利用模糊、Armijo-Goldstein准则等对初始控制信号进行优化，提升了液压驱动单元的控制***的自适应能力和稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种液压驱动单元的位置控制方法的流程图；

图2为传统DDPG算法的结构框架图；

图3为基于传统的DDPG的液压驱动单元控制***框图；

图4为本发明具体实施例提供的改进的DDPG算法的流程图；

图5为本发明具体实施例提供的液压驱动单元性能测试实验台的控制结构实物图，其中，图5a为控制器实物图，图5b为电器柜实物图；

图6为本发明具体实施例提供的液压驱动单元性能测试实验台的实物图；

图7为本发明具体实施例提供的实验工况示意图；

图8为本发明具体实施例提供的液压驱动单元性能测试实验台在第一种工况下的实验结果图；其中，图8a为第一种工况下的位置误差，图8b为第一种工况下的控制信号；

图9为本发明具体实施例提供的液压驱动单元性能测试实验台在第二种工况下的实验结果图；其中，图9a为第二种工况下的位置误差，图9b为第二种工况下的控制信号；

图10为本发明具体实施例提供的液压驱动单元性能测试实验台在第三种工况下的实验结果图；其中，图10a为第三种工况下的位置误差，图10b为第三种工况下的控制信号；

图11为本发明具体实施例提供的机器人单腿试验台的实物图；

图12为本发明提供的控制液压驱动单元的传递函数的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1和2所示，本发明提供本发明提供一种液压驱动单元的位置控制方法，所述方法包括如下步骤：

步骤101，获取液压驱动单元的位置误差。

位置误差为期望位置与液压驱动单元的实际输出位置的差值。

步骤102，根据所述位置误差，基于拟牛顿算法确定用于控制液压驱动单元的初始控制信号。

步骤102所述根据所述位置误差，基于拟牛顿算法确定用于控制液压驱动单元的初始控制信号，具体包括：

利用近似Hessian矩阵的迭代公式，确定当前采样时间点的近似Hessian矩阵。所述近似Hessian矩阵的迭代公式为：

根据当前采样时间点的近似Hessian矩阵和所述位置误差，利用控制液压驱动单元的传递函数的泰勒展开公式计算用于控制液压驱动单元的初始控制信号。控制液压驱动单元的传递函数的泰勒展开公式为：

其中，控制液压驱动单元的传递函数的框图如图12所示。

图中，K_axv为伺服阀增益(m/V)，ζ为伺服阀阻尼比；ω为伺服阀固有频率(rad/s)，x_v为伺服阀阀芯位移(m)，p_s为***供油压力(Pa)，p₂为伺服缸右腔压力(Pa)，p₀为***回油压力(Pa)，K_d为折算流量系数，C_d为伺服阀滑阀节流口流量系数，W为面积梯度(m)，ρ为液压油密度(Kg/m3)，A_p1为伺服缸活塞左腔有效面积(m2)，A_p2为伺服缸活塞右腔有效面积(m2)，Δx_p为伺服缸活塞位移相对于其初始位置变化量(m)，C_ip为伺服缸内泄漏系数[m3/(s·Pa)]，C_ep为伺服缸外泄漏系数[m3/(s·Pa)]，β_e为有效体积模量(Pa)，V₁为进油腔容积(m³)，V₂为回油腔容积(m³)，L₀为伺服缸活塞初始位置(m)，x_p为伺服缸活塞位移(m)，V₀₁为进油腔初始容积(m³)，V_g1为伺服阀与伺服缸进油连接流道容积(m³)，V₀₂为回油腔初始容积(m³)，V_g2为伺服阀与伺服缸回油连接流道容积(m³)，K为负载刚度(N/m)，m_t1为液压驱动单元折算到伺服缸活塞上总质量(Kg)，m_t2为负载质量(Kg)，B_p1为液压驱动单元黏性阻尼系数[N/(m/s)]，B_p2为负载阻尼系数[N/(m/s)]，F_f1为液压驱动单元内部库仑摩擦力(N)，F_f2为负载端库仑摩擦力(N)，F_L为外负载力(N)，p₁为伺服缸左腔压力(Pa)。

近似Hessian矩阵的迭代公式的推导过程为：

L(θ)为神经网络的损失函数(评估模型的拟合精度，显示模型对***输出参数拟合的误差，损失函数越小，网络性能越好)，θ为神经网络参数，神经网络的学习问题可以表示为，在确定的数据集下的无约束极小值问题：

对f(θ)进行泰勒展开，仅保留二阶及二阶以下项，可得：

其中，

为f的梯度，表达式为：

为f的Hessian矩阵，表达式为：

将

与

分别记为：g和H。

求极值的必要条件为：

f′(θ)＝0 (6)

联立(5)和(6)两式，且H为非奇异矩阵，可得：

给定初值θ₀，可得到牛顿法的迭代公式：

拟牛顿法构造近似Hessian矩阵的正定矩阵，免去了计算Hessian的复杂计算。

对f(θ)进行泰勒展开，仅保留二阶及二阶以下项，可得：

式(9)两边同时取梯度，可得：

g_k+1-g_k≈H_k+1·(θ_k+1-θ_k) (10)

令s_k＝θ_k+1-θ_k，y_k＝g_k+1-g_k，得到拟牛顿条件为：

该算法的核心思想是寻求矩阵B_k逼近Hessian矩阵H_k

B_k+1＝B_k+ΔB_k (12)

下面的主要工作为求校正矩阵ΔB_k，假设是对称矩阵：

ΔB_k＝αuu^T+βvv^T (13)

联立式(11)、(12)、(13)可得：

y_k＝B_ks_k+(αu^Ts_k)u+(βv^Ts_k)v (14)

通过上式，令αu^Ts_k＝1，βv^Ts_k＝-1，u＝y_k，v＝B_ks_k可得：

可得校正矩阵为：

综上得到近似Hessian矩阵的迭代公式为：

令位置误差x_r-x_p＝θ，则通过公式(17)可以得到

的近似迭代计算矩阵，既：

将公式(18)的计算结果代入公式(9)，即可求得目标输出函数μ＝f(θ)的当次计算结果。

步骤103，根据所述位置误差，基于模糊规则确定控制信号优化步长的搜索方向。

所述模糊规则为：不同的位置误差对应的不同的误差等级；每个所述误差等级对应一个不同的随机过程均值；每个所述误差等级对应一个不同的随机过程变化范围。

具体的，根据输入的位置误差和输出随机UO过程的均值、变化范围的信息，隶属度函数均采用三角隶属度，解模糊方式采用重心法，设计模糊规则表如表1和表2所示。

表1 UO随机过程均值模糊规则表

表2 UO随机过程变化范围模糊规则表

模糊语言的表达如下：

{负大、负中、负小、零、正小、正中、正大}

在算法中常用其英文缩写：

{NB,NM,NS,ZO,PS,PM,PB}

本申请的模糊规则为：不同的位置误差对应的不同的反馈误差等级；每个所述反馈误差等级对应一个不同阶数的Armijo-Goldstein准则表达式。

步骤104，在所述搜索方向上，采用Armijo-Goldstein准则确定控制信号优化步长。

Armijo-Goldstein搜索准则是一种不精确搜索过程，整体收敛速度较快，占用计算资源也相对较少。

步骤104所述在所述搜索方向上，采用Armijo-Goldstein准则确定控制信号优化步长，具体包括：

在所述搜索方向上，采用Armijo-Goldstein准则，求解不等式

确定控制信号优化步长。

步骤105，利用所述控制信号优化步长对初始控制信号进行优化。

步骤105所述利用所述控制信号优化步长对初始控制信号进行优化，具体包括：

r_k的计算过程为：令s＝x_r-x_p，s_k为当前采样时间点k的位置误差。则r_k计算公式为：

r_t＝r₁+r₂

具体的，将确定出的***输出参数输入TD算法中进行迭代更新运算，当TD误差小于设定值时，认为得到了***最优输出参数。TD算法是一种单步更新的无模型学习算法，具有较高计算效率和稳定性相，其实现形式如下：

v(S_t)←v(S_t)+α[r_t+1+γv(S_t+1)-v(S_t)] (19)

其中，α为学习率，即迭代步长。[r_t+1+γv(S_t+1)-v(S_t)]称为TD误差。当TD误差越来越小时，学习过程趋于收敛，v(S_t)既越来越接近真实值。既通过多次迭代来减少TD误差，使***输出参数接近最优值。

r_t是对***输出v(S_t)的反馈，γ为折扣率，为[0,1]的常值，既令将当次计算的μ＝ν(S_t)，通过不断迭代减少TD误差，来获得较为准确的输出值μ。

步骤106，基于优化后的控制信号对所述液压驱动单元进行控制，当下一个采样时间点到达时，返回步骤101。该控制为控制液压驱动单元的活塞的运动。

作为一种优选的实施方式，步骤103所述根据所述位置误差，基于模糊规则确定控制信号优化步长的搜索方向，之前还包括：

判断所述初始控制信号的TD误差是否小于误差阈值，获得判断结果。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供一种液压驱动单元的位置控制方法，通过设计基于模糊优化的智能体探索策略、基于Armijo-Goldstein准则与BFGS方法的神经网络训练算法和智能体更新策略，优化DDPG深度学习算法，提高算法性能，提升算法与液压驱动单元***的契合程度。本发明使基于DDPG的深度学习算法成功应用于液压驱动单元位置控制***中，极大的提升了液压驱动单元在面对未知工况时的自适应能力及位置控制精度。

一种液压驱动单元的位置控制***，所述***包括：

位置误差获取模块，用于获取液压驱动单元的位置误差；

搜索方向确定模块，用于根据所述位置误差，基于模糊规则确定用于控制液压驱动单元的控制信号的搜索方向；

控制值确定模块，用于在所述搜索方向上，采用基于拟牛顿算法改进的Armijo-Goldstein准则确定所述控制信号的控制值；

控制模块，用于基于所述控制信号的控制值对所述液压驱动单元进行控制。

可选的，所述模糊规则为：不同的位置误差对应的不同的反馈误差等级；每个所述反馈误差等级对应一个不同阶数的Armijo-Goldstein准则表达式。

可选的，所述控制值确定模块，具体包括：

近似Hessian矩阵确定子模块，用于利用近似Hessian矩阵的迭代公式，确定使Armijo-Goldstein准则表达式稳定时的近似Hessian矩阵；

控制值的计算公式确定子模块，用于将所述近似Hessian矩阵带入所述Armijo-Goldstein准则表达式得到用于计算所述控制信号在所述搜索方向上的控制值的计算公式；

控制值计算子模块，用于利用所述计算公式计算所述控制信号在所述搜索方向上的控制值。

可选的，所述近似Hessian矩阵的迭代公式为：

其中，B_k和B_k+1分别表示第k次迭代和第k+1次迭代时的近似Hessian矩阵，y_k和s_k分别表示第k次迭代时的Armijo-Goldstein准则表达式的输出值和输入值。

为了说明本发明的技术效果，本发明还提供了如下具体的实施例。

图2为传统DDPG算法结构框架，深度强化学习方法凭借其类人脑学习过程的算法结构，能够在与外界环境的交互中通过环境反馈信号获得有效的学习信息，在探索与学习中逐渐达到既定目标，目前已经在多个领域崭露头角，体现出不同于其他机器学习方法的优势。将深度强化学习用于液压驱动单元位置控制***中，能够从根本上对控制***建立状态转移概率模型，建立***状态、控制量与***性能之间的关系，根据***每一时刻的状态进行实时控制，且具备自学习能力，对于训练时没有遇到的工作状态，能够通过自我探索来改善控制策略，达到高精度的位置控制性能。

但由于液压***的强非线性、参数模型复杂等特点，传统深度强化学习算法无法应用于液压驱动单元位置控制***中。

为了提高学习算法在实际***中的稳定性，降低实验风险，保证人身与设备安全，将DDPG智能体的输出乘以***当前误差作为最终的控制量输出给液压***。那么，DDPG控制模块输入为位置误差e、速度误差de、加速度误差dde，输出为增益系数，***的控制律为：

u＝A(s)·(x_r-x_p) (21)

其中，A为策略目标网络构成的映射，s为DDPG智能体输入，x_r为***期望位置，x_p为***实际位置，图3为基于传统的DDPG的液压驱动单元控制***框。

学习过程中，智能体会不断进行随机探索，在确定性策略强化学习中，常用UO(Uhlenbeck-Ornstein)随机过程生成噪声，该方法具有很好的时序性，生成的随机信号在时间上具有很强的关联，适合智能体探索控制***等具备动量属性的环境。

但要实现效率最高的学习过程仅凭随机探索是不够的，需要有一个导师指引，将智能体的探索引导向最优解的方向，增大智能体发现更好动作的概率。因此考虑将模糊思想用于改进智能体探索方向，综合考虑当前***状态，将智能体的探索引向相对容易获得更多回报的方向。模糊探索的基本原理是，当***实际位置超前于期望位置时，应当减小控制量，使液压缸运动速度降低；当***实际位置落后于期望位置时，应当增大控制量，增加液压缸运动速度，缩小于期望位置的差距；当误差较大时，应当扩大探索范围，以寻找更优的动作；当误差较小时，应缩小探索范围，具体模糊规则设计如下：

在模糊***中，通过模糊语言来表达对数量的模糊认知，构建模糊评价规则，一般使用“大”、“中”、“小”等日常生活用语。在控制***中，输入量和输出量一般有正负方向之分，因此，考虑“正负”，模糊语言的表达如下：

{负大、负中、负小、零、正小、正中、正大}

在算法中常用其英文缩写：

{NB,NM,NS,ZO,PS,PM,PB}

整个探索过程以UO随机过程为基础，用模糊规则改变随机过程输出值的均值与变化范围，模糊规则输入为位置误差e，输出为智能体随机UO过程的均值mu与变化范围sig。

本发明针对的液压驱动单元正弦运动的位置跟随误差一般在10^-1mm量级，考虑到学习初期误差会比较大，所以设定位置误差e的基本论域为[-2mm,2mm]，为方便用模糊语言表达，将基本论域按照如下边界值分为7个部分：

{-2,-1,-0.4,-0.1,0.1,0.4,1,2}

当实际情况超过其范围时，取最大值2或最小值-2。

设定UO随机过程的均值mu的基本论域为[-3,3]，将基本论域按照如下边界值分为7个部分：

{-3,-2,-1,-0.5,0.5,1,2,3}

设定UO随机过程的变化范围sig的基本论域为[0,1]，将基本论域按照如下边界值分为4个部分：

{0,0.15,0.3,0.6,1}

首先令位置误差e＝x_r-x_p，下面以一个具体例子演示结合过程：

假设在t时刻得到的位置误差e＝1mm，根据本发明专利划分的基本论域等级，其应属于模糊语言中的PM等级。此时为进行随机探索所附加的UO噪声的均值mu＝2，噪声幅值变化范围为sig＝0.6，既此时输入到Armijo-Goldstein准则中的输入量x_k为[e+mu-sig,e+mu+sig]＝[2.4，,3.6]中的随机一个值，通过Armijo-Goldstein准则确定出满足不等式关系的最优步长α_k。

此时输入到BFGS中的θ_k＝s_k，利用公式(18)计算出近似Hessian矩阵B_k的值，再将B_k值代入公式(9)，即可求得第k次目标函数值f(θ_k)＝μ_k。

将最优步长α_k、控制值μ_k以及反馈r_t+1代入公式(19)对控制信号优化，进行误差迭代更新计算，当误差满足设计要求时，即可获得较为准确的控制信号μ。

神经网络的学习过程实际上是一个非线性优化问题，通过迭代优化改变网络权值，理想目标是损失函数为0。最普遍的方法是定步长梯度下降法，实现简单，但学习过程中性能波动较大，学习方差偏大，不能保证每一步都向收敛的方向前进，需要采用一些搜索方法来提高收敛性。搜索方法分为精确搜索和不精确搜索，精确搜索精度最高，但工作量大，需要很多计算资源，不精确搜索，每一步不要求达到精确最小，搜索步数相对增加，但整体收敛速度较快，占用计算资源也相对较少。

Armijo-Goldstein搜索准则是一种不精确搜索过程，其核心思想主要为：(1)目标函数值要有足够的下降，离目标要有足够的接近；(2)搜索步长不能太小。BFGS法是一种拟牛顿算法，它的提出针对牛顿法需要计算Hessian矩阵占用计算资源高的缺点进行改进，构造近似Hessian来降低计算量，是目前平衡了收敛性能和计算资源需求的最佳算法。

结合Armijo-Goldstein准则与BFGS算法，本发明神经网络的训练算法步骤如下：

1.初始化网络参数，给定收敛精度；

2.确定搜索方向；

3.根据Armijo-Goldstein准则进行搜索，确定最优步长；

4计算近似Hessian矩阵；

5根据给定条件判断是否收敛，若是，结束算法，若否，回到步骤2。

本发明的改进DDPG算法的运行过程如图4所示。

将本发明的改进DDPG算法下载至试验台的控制器，进行验证。

图5为控制器及电器柜，对液压驱动单元性能测试实验台进行控制，试验台主要由两个液压驱动单元组成，按照对顶形式安装，左侧的液压驱动单元利用位移传感器进行位置闭环，右侧的液压驱动单元采用力传感器进行零力伺服控制，图6为液压对顶的液压驱动单元性能测试实验台，其中实际位移信号与期望唯一信号偏差为控制***学习的对象，通过控制***不断学习，输出控制信号控制伺服阀进而实现控制***对液压伺服***的控制。

图7为DDPG算法在试验台所设计实验工况，图8、9、10为三种工况所对应实验曲线，可见在智能体收敛后具备良好的控制效果，能够高精度控制液压驱动单元。

在对顶实验平台试验后，可将算法移植入机器人单腿试验台，图11，进行实验。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种液压驱动单元的位置控制方法，其特征在于，所述方法包括如下步骤：

在所述搜索方向上，采用Armijo-Goldstein准则确定控制信号优化步长；利用所述控制信号优化步长对初始控制信号进行优化，并基于优化后的控制信号对所述液压驱动单元进行控制；

当下一个采样时间点到达时，返回步骤“获取液压驱动单元的位置误差”；

所述根据所述位置误差，基于拟牛顿算法确定用于控制液压驱动单元的初始控制信号，具体包括：

根据当前采样时间点的近似Hessian矩阵和所述位置误差，利用控制液压驱动单元的传递函数的泰勒展开公式计算用于控制液压驱动单元的初始控制信号；

所述近似Hessian矩阵的迭代公式为：

其中，B_k和B_k-1分别表示当前采样时间点k和前一个采样时间点k-1的近似Hessian矩阵，y_k-1和s_k-1分别表示前一个采样时间点k-1的初始控制信号和位置误差；

控制液压驱动单元的传递函数的泰勒展开公式为：

其中，s表示位置误差，当计算当前采样时间点k的初始控制信号时，s＝s_k，s_k-1表示前一个采样时间点k-1的位置误差，B_k表示当前采样时间点k的近似Hessian矩阵；f(·)表示控制液压驱动单元的传递函数的泰勒展开公式，f(s_k-1)表示前一个采样时间点k-1的控制液压驱动单元的传递函数的泰勒展开公式的函数值。

2.根据权利要求1所述的液压驱动单元的位置控制方法，其特征在于，所述根据所述位置误差，基于模糊规则确定控制信号优化步长的搜索方向，之前还包括：

3.根据权利要求1所述的液压驱动单元的位置控制方法，其特征在于，所述在所述搜索方向上，采用Armijo-Goldstein准则确定控制信号优化步长，具体包括：

在所述搜索方向上，采用Armijo-Goldstein准则，求解不等式

确定控制信号优化步长；

4.根据权利要求1所述的液压驱动单元的位置控制方法，其特征在于，所述利用所述控制信号优化步长对初始控制信号进行优化，具体包括：

5.一种液压驱动单元的位置控制***，其特征在于，所述***包括：

优化控制模块，用于利用所述控制信号优化步长对初始控制信号进行优化，并基于优化后的控制信号对所述液压驱动单元进行控制；

所述初始控制信号确定模块，具体包括：

初始控制信号计算子模块，用于根据当前采样时间点的近似Hessian矩阵和所述位置误差，利用控制液压驱动单元的传递函数的泰勒展开公式计算用于控制液压驱动单元的初始控制信号；

所述近似Hessian矩阵的迭代公式为：

控制液压驱动单元的传递函数的泰勒展开公式为：

6.根据权利要求5所述的液压驱动单元的位置控制***，其特征在于，所述控制***还包括：