CN113641099B

CN113641099B - 一种超越专家演示的阻抗控制模仿学习训练方法

Info

Publication number: CN113641099B
Application number: CN202110787181.7A
Authority: CN
Inventors: 黄攀峰; 武曦; 刘正雄; 马志强
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2023-02-10
Anticipated expiration: 2041-07-13
Also published as: CN113641099A

Abstract

本发明涉及一种超越专家演示的阻抗控制模仿学习训练方法，属于机器人智能控制领域。首先通过直接接触并引导、通过操纵杆引导或手工设计等任意方式收集专家演示轨迹，放入专家演示区；将专家演示轨迹和之后用策略重新采样得到的轨迹放入重放缓冲区；通过事后经验重放，将演示数据的成功率提高；通过生成性对抗模仿学习，将训练出的策略和演示数据之间的误差逐步缩小，最终得到期望的训练策略。

Description

一种超越专家演示的阻抗控制模仿学习训练方法

技术领域

本发明属于机器人智能控制领域，具体涉及一种超越专家演示的阻抗控制模仿学习训练方法。

背景技术

机器人技术越来越多地部署到了各种各样的非结构化场景中，在这些环境中机器人需要以安全稳定的方式与未知环境进行交互，进而完成复杂的任务。为使机器人与环境的相互作用力保持在合理的范围内，阻抗控制被广泛应用。特别地，在复杂任务中，根据不同的任务阶段和环境约束调整阻抗的能力对于安全性和性能至关重要，因此通常需要进行变阻抗控制。

通过模仿学习得到阻抗参数的变化策略或许是一种好的方法，但大量高质量的演示并不容易获得，并且学习到的策略的成功率往往受限于用来进行训练的演示的成功率。

发明内容

要解决的技术问题

为了弥补现有变阻抗控制方法的不足，本发明采用鲁棒对抗性模仿学习方法，提出一种超越专家演示的阻抗控制模仿学习训练方法，可以获得比专家演示成功率更高的变阻抗控制策略。

技术方案

一种超越专家演示的阻抗控制模仿学习训练方法，其特征在于步骤如下：

步骤1：收集专家演示轨迹

阻抗控制模型表达式为

其中，e＝x-x₀，x为实际位置，x₀为初始位置，e、

和

分别为末端执行器的位移、速度和加速度，M、B和K分别为惯性矩阵、阻尼矩阵和刚度矩阵，F为实际接触力；

定义s_t为当前状态，即当前跟踪位置误差e_t，速度跟踪误差

和接触力F_t，a_t为当前动作，即阻抗参数M，B，K的值；奖励函数r_t可根据任务进行设置；

将(s_t,a_t,r_t,s_t+1)定义为演示轨迹的一个点，专家演示轨迹即为若干个点组成的一串连续轨迹；进行训练之前需要收集尽量多的专家演示轨迹；

步骤2：建立重放缓冲区

将步骤1所获得的所有专家演示轨迹归入专家演示区E；建立重放缓冲区R，同样将专家演示轨迹归入，即此时专家演示区与重放缓冲区相同；

对于多目标设置，期望状态由目标g∈G描述，不同的轨迹可以有不同的目标，并且每个目标对应一个声明f_g，用来代表目标是否已经实现；所训练智能体的真正目标即达到状态s_t+1，使得f_g(s_t+1)＝1；

从目标集合G中采样目标g，并在目标为g的情况下应用当前策略π，获得若干采样轨迹，加入重放缓冲区中；

步骤3：基于生成性对抗模仿学习通过占用度量匹配更新鉴别器

利用下式在专家演示区和重放缓冲区采样，得到

在专家演示区采样，得到(s_t，a_t)_E；在重放缓冲区采样，得到(s_t，a_t)_R；

生成性对抗模仿学习是通过占用度量匹配来学习参数化策略的一种方法，生成性对抗模仿学习包括鉴别器和生成器，生成器产生一系列状态-动作对，在步骤4中产生，鉴别器D(s_t,a_t)是一个二进制分类器，试图区分状态-动作对是来自专家还是来自经过训练的策略。鉴别器参数可以通过下式更新：

其中H(π_β)是熵正则项；

步骤4：通过深度确定性策略梯度获得目标策略

演员网络π_β(s_t)的目的是学习使动作价值函数最大的策略，用参数β控制；批评家网络Q_α(s_t,a_t)的目的是评估当前状态下动作的价值，从而指导演员采取最佳行动，由参数α控制；二者相互促进，最终获得目标策略；为了使学习过程稳定，采用参数分别为α′和β′的批评家网络和演员网络作为目标网络；

1)批评家网络参数更新

通过最小化损失函数来更新批评家网络Q_α(s_t，a_t)；批评家网络的损失函数为

其中，Q_α(s_t,a_t)为预测的动作价值函数，y为时间差分目标；y可由目标网络计算；

y＝r_t+γQ_α′(s_t+1,π_β′(s_t+1))

γ是一个预定义的折扣因子，奖励r_t由鉴别器奖励

和额外的后见之明奖励

构成，k₁和k₂为其对应系数；

因此可用下式更新批评家网络和目标网络：

α′＝τα+(1-τ)α′

2)演员网络参数更新

类似于批评家网络，演员网络π_β(s_t)也通过最小化损失函数来更新；演员网络的损失函数为

其中，

是用于加速学习的退火奖励；

因此可用下式更新演员网络和目标网络：

β′＝τβ+(1-τ)β′

获得期望结果通常需重复执行一定次数，需要重新采样并扩充重放缓冲区进行进一步循环；循环若干次之后演员网络π_β(s_t)所代表的策略即为最终所得目标策略。

所述的奖励函数r_t设置为

ζ为参数。

所述的专家演示采用直接接触并引导、通过操纵杆引导或手工设计。

有益效果

本发明提出的一种超越专家演示的阻抗控制模仿学习训练方法，首先通过直接接触并引导、通过操纵杆引导或手工设计等任意方式收集专家演示轨迹，放入专家演示区；将专家演示轨迹和之后用策略重新采样得到的轨迹放入重放缓冲区；通过事后经验重放，将演示数据的成功率提高；通过生成性对抗模仿学习，将训练出的策略和演示数据之间的误差逐步缩小，最终得到期望的训练策略。有益效果如下：

1、相对于参数不变的阻抗控制方式，通过根据不同任务阶段和环境约束调整阻抗参数的变阻抗控制方法，提升了交互的安全性和稳定性；

2、相对于其他基于训练的变阻抗控制，通过模仿学习方法，训练阻抗参数的训练效率更高，更接近于人的行为，且不受设计者个人经验影响；

3、通过事后经验重放的方法，在重放缓冲区提升了用来进行训练的演示的成功率，进而使最终训练出的策略成功率提升，甚至达到可以超过专家演示的水平；

4、通过生成性对抗模仿学习，减少演示数据和生成策略间的误差，使最终训练出的策略成功率进一步提升。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出的一种超越专家演示的阻抗控制模仿学习训练方法，包括如下四个部分：

1、收集专家演示轨迹；

2、建立重放缓冲区；

3、基于生成性对抗模仿学习通过占用度量匹配更新鉴别器；

4、通过深度确定性策略梯度获得目标策略。

具体步骤如下：

步骤一、收集专家演示轨迹

阻抗控制模型表达式为

其中，e＝x-x₀，x为实际位置，x₀为初始位置，e、

和

分别为末端执行器的位移、速度和加速度，M、B和K分别为惯性矩阵、阻尼矩阵和刚度矩阵，F为实际接触力。

定义s_t为当前状态，即当前跟踪位置误差e_t，速度跟踪误差

和接触力F_t，a_t为当前动作，即阻抗参数M，B，K的值。奖励函数r_t可根据任务进行设置，如设置为

将(s_t,a_t,r_t,s_t+1)定义为演示轨迹的一个点，专家演示轨迹即为若干个点组成的一串连续轨迹。进行训练之前需要收集尽量多的专家演示轨迹。专家演示可以采用直接接触并引导、通过操纵杆引导或手工设计等多种方式，且不要求演示具有较高成功率。

步骤二、建立重放缓冲区

将步骤一所获得的所有专家演示轨迹归入专家演示区E。建立重放缓冲区R，同样将专家演示轨迹归入，即此时专家演示区与重放缓冲区相同。

对于多目标设置，期望状态由目标g∈G描述，不同的轨迹可以有不同的目标，并且每个目标对应一个声明f_g，用来代表目标是否已经实现。所训练智能体的真正目标即达到状态s_t+1，使得f_g(s_t+1)＝1。

从目标集合G中采样目标g，并在目标为g的情况下应用当前策略π，获得若干采样轨迹，加入重放缓冲区中。

步骤三、基于生成性对抗模仿学习通过占用度量匹配更新鉴别器

为了使最终得到的策略可以优于专家演示，需要提供额外的奖励函数。此处使用事后经验重放，通过假设实际达到的状态为真实目标，将失败轨迹变为可用的成功轨迹，进而提高演示的利用率。另外，此处对奖励值进行了设计，使得训练初期即使没有完成任务也可以获得一定的奖励，进而鼓励策略进行广泛的探索。

利用上式在专家演示区和重放缓冲区采样，得到

在专家演示区采样，得到(s_t,a_t)_E；在重放缓冲区采样，得到(s_t,a_t)_R。

生成性对抗模仿学习是通过占用度量匹配来学习参数化策略的一种方法。生成性对抗模仿学习包括鉴别器和生成器，生成器产生一系列状态-动作对，在步骤四中产生，鉴别器D(s_t,a_t)是一个二进制分类器，试图区分状态-动作对是来自专家还是来自经过训练的策略。鉴别器参数可以通过下式更新：

其中H(π_β)是熵正则项。基于生成性对抗模仿学习通过占用度量匹配更新鉴别器。

利用上式在专家演示区和重放缓冲区采样，得到

生成性对抗模仿学习是通过占用度量匹配来学习参数化策略的一种方法。生成性对抗模仿学习包括鉴别器和生成器，生成器产生一系列状态-动作对，在步骤四中产生，鉴别器D_μ(s_t,a_t)是一个二进制分类器，试图区分状态-动作对是来自专家还是来自经过训练的策略。鉴别器参数可以通过下式更新：

其中H(π_β)是熵正则项。

取期望值。

步骤四、通过深度确定性策略梯度获得目标策略

深度确定性策略梯度是一种演员-批评家方法。演员网络π_β(s_t)的目的是学习使动作价值函数最大的策略，用参数β控制。批评家网络Q_α(s_t,a_t)的目的是评估当前状态下动作的价值，从而指导演员采取最佳行动，由参数α控制。二者相互促进，最终获得目标策略。为了使学习过程稳定，采用参数分别为α′和β′的批评家网络和演员网络作为目标网络。

1)批评家网络参数更新

通过最小化损失函数来更新批评家网络Q_α(s_t，a_t)。批评家网络的损失函数为

其中，Q_α(s_t，a_t)为预测的动作价值函数，y为时间差分目标。y可由目标网络计算。

y＝r_t+γQ_α′(s_t+1,π_β′(s_t+1))

γ是一个预定义的折扣因子，奖励r_t由鉴别器奖励

和额外的后见之明奖励

构成，k₁和k₂为其对应系数。

因此可用下式更新批评家网络和目标网络：

α′＝τα+(1-τ)α′

2)演员网络参数更新

类似于批评家网络，演员网络π_β(s_t)也通过最小化损失函数来更新。演员网络的损失函数为

其中，

是用于加速学习的退火奖励。

因此可用下式更新演员网络和目标网络：

β′＝τβ+(1-τ)β′

获得期望结果通常需重复执行一定次数，需要重新采样并扩充重放缓冲区进行进一步循环。循环若干次之后演员网络π_β(s_t)所代表的策略即为最终所得目标策略。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。