CN113641099B - 一种超越专家演示的阻抗控制模仿学习训练方法 - Google Patents
一种超越专家演示的阻抗控制模仿学习训练方法 Download PDFInfo
- Publication number
- CN113641099B CN113641099B CN202110787181.7A CN202110787181A CN113641099B CN 113641099 B CN113641099 B CN 113641099B CN 202110787181 A CN202110787181 A CN 202110787181A CN 113641099 B CN113641099 B CN 113641099B
- Authority
- CN
- China
- Prior art keywords
- network
- target
- demonstration
- expert
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种超越专家演示的阻抗控制模仿学习训练方法,属于机器人智能控制领域。首先通过直接接触并引导、通过操纵杆引导或手工设计等任意方式收集专家演示轨迹,放入专家演示区;将专家演示轨迹和之后用策略重新采样得到的轨迹放入重放缓冲区;通过事后经验重放,将演示数据的成功率提高;通过生成性对抗模仿学习,将训练出的策略和演示数据之间的误差逐步缩小,最终得到期望的训练策略。
Description
技术领域
本发明属于机器人智能控制领域,具体涉及一种超越专家演示的阻抗控制模仿学习训练方法。
背景技术
机器人技术越来越多地部署到了各种各样的非结构化场景中,在这些环境中机器人需要以安全稳定的方式与未知环境进行交互,进而完成复杂的任务。为使机器人与 环境的相互作用力保持在合理的范围内,阻抗控制被广泛应用。特别地,在复杂任务 中,根据不同的任务阶段和环境约束调整阻抗的能力对于安全性和性能至关重要,因 此通常需要进行变阻抗控制。
通过模仿学习得到阻抗参数的变化策略或许是一种好的方法,但大量高质量的演示并不容易获得,并且学习到的策略的成功率往往受限于用来进行训练的演示的成功 率。
发明内容
要解决的技术问题
为了弥补现有变阻抗控制方法的不足,本发明采用鲁棒对抗性模仿学习方法,提出一种超越专家演示的阻抗控制模仿学习训练方法,可以获得比专家演示成功率更高 的变阻抗控制策略。
技术方案
一种超越专家演示的阻抗控制模仿学习训练方法,其特征在于步骤如下:
步骤1:收集专家演示轨迹
阻抗控制模型表达式为
将(st,at,rt,st+1)定义为演示轨迹的一个点,专家演示轨迹即为若干个点组成的一 串连续轨迹;进行训练之前需要收集尽量多的专家演示轨迹;
步骤2:建立重放缓冲区
将步骤1所获得的所有专家演示轨迹归入专家演示区E;建立重放缓冲区R,同样将专家演示轨迹归入,即此时专家演示区与重放缓冲区相同;
对于多目标设置,期望状态由目标g∈G描述,不同的轨迹可以有不同的目标,并且每个目标对应一个声明fg,用来代表目标是否已经实现;所训练智能体的真正目标 即达到状态st+1,使得fg(st+1)=1;
从目标集合G中采样目标g,并在目标为g的情况下应用当前策略π,获得若干采样轨迹,加入重放缓冲区中;
步骤3:基于生成性对抗模仿学习通过占用度量匹配更新鉴别器
生成性对抗模仿学习是通过占用度量匹配来学习参数化策略的一种方法,生成性对抗模仿学习包括鉴别器和生成器,生成器产生一系列状态-动作对,在步骤4中产生, 鉴别器D(st,at)是一个二进制分类器,试图区分状态-动作对是来自专家还是来自经过 训练的策略。鉴别器参数可以通过下式更新:
其中H(πβ)是熵正则项;
步骤4:通过深度确定性策略梯度获得目标策略
演员网络πβ(st)的目的是学习使动作价值函数最大的策略,用参数β控制;批评家网络Qα(st,at)的目的是评估当前状态下动作的价值,从而指导演员采取最佳行动,由 参数α控制;二者相互促进,最终获得目标策略;为了使学习过程稳定,采用参数分 别为α′和β′的批评家网络和演员网络作为目标网络;
1)批评家网络参数更新
通过最小化损失函数来更新批评家网络Qα(st,at);批评家网络的损失函数为
其中,Qα(st,at)为预测的动作价值函数,y为时间差分目标;y可由目标网络计算;
y=rt+γQα′(st+1,πβ′(st+1))
因此可用下式更新批评家网络和目标网络:
α′=τα+(1-τ)α′
2)演员网络参数更新
类似于批评家网络,演员网络πβ(st)也通过最小化损失函数来更新;演员网络的损失函数为
因此可用下式更新演员网络和目标网络:
β′=τβ+(1-τ)β′
获得期望结果通常需重复执行一定次数,需要重新采样并扩充重放缓冲区进行进一步循环;循环若干次之后演员网络πβ(st)所代表的策略即为最终所得目标策略。
所述的专家演示采用直接接触并引导、通过操纵杆引导或手工设计。
有益效果
本发明提出的一种超越专家演示的阻抗控制模仿学习训练方法,首先通过直接接触并引导、通过操纵杆引导或手工设计等任意方式收集专家演示轨迹,放入专家演示 区;将专家演示轨迹和之后用策略重新采样得到的轨迹放入重放缓冲区;通过事后经 验重放,将演示数据的成功率提高;通过生成性对抗模仿学习,将训练出的策略和演 示数据之间的误差逐步缩小,最终得到期望的训练策略。有益效果如下:
1、相对于参数不变的阻抗控制方式,通过根据不同任务阶段和环境约束调整阻抗参数的变阻抗控制方法,提升了交互的安全性和稳定性;
2、相对于其他基于训练的变阻抗控制,通过模仿学习方法,训练阻抗参数的训练效率更高,更接近于人的行为,且不受设计者个人经验影响;
3、通过事后经验重放的方法,在重放缓冲区提升了用来进行训练的演示的成功率, 进而使最终训练出的策略成功率提升,甚至达到可以超过专家演示的水平;
4、通过生成性对抗模仿学习,减少演示数据和生成策略间的误差,使最终训练出的策略成功率进一步提升。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并 不用于限定本发明。此外,下面描述的本发明各个实施方式中所涉及到的技术特征只 要彼此之间未构成冲突就可以相互组合。
本发明提出的一种超越专家演示的阻抗控制模仿学习训练方法,包括如下四个部分:
1、收集专家演示轨迹;
2、建立重放缓冲区;
3、基于生成性对抗模仿学习通过占用度量匹配更新鉴别器;
4、通过深度确定性策略梯度获得目标策略。
具体步骤如下:
步骤一、收集专家演示轨迹
阻抗控制模型表达式为
将(st,at,rt,st+1)定义为演示轨迹的一个点,专家演示轨迹即为若干个点组成的一 串连续轨迹。进行训练之前需要收集尽量多的专家演示轨迹。专家演示可以采用直接接触并引导、通过操纵杆引导或手工设计等多种方式,且不要求演示具有较高成功率。
步骤二、建立重放缓冲区
将步骤一所获得的所有专家演示轨迹归入专家演示区E。建立重放缓冲区R,同样将专家演示轨迹归入,即此时专家演示区与重放缓冲区相同。
对于多目标设置,期望状态由目标g∈G描述,不同的轨迹可以有不同的目标,并且每个目标对应一个声明fg,用来代表目标是否已经实现。所训练智能体的真正目标 即达到状态st+1,使得fg(st+1)=1。
从目标集合G中采样目标g,并在目标为g的情况下应用当前策略π,获得若干采样轨迹,加入重放缓冲区中。
步骤三、基于生成性对抗模仿学习通过占用度量匹配更新鉴别器
为了使最终得到的策略可以优于专家演示,需要提供额外的奖励函数。此处使用事后经验重放,通过假设实际达到的状态为真实目标,将失败轨迹变为可用的成功轨 迹,进而提高演示的利用率。另外,此处对奖励值进行了设计,使得训练初期即使没 有完成任务也可以获得一定的奖励,进而鼓励策略进行广泛的探索。
生成性对抗模仿学习是通过占用度量匹配来学习参数化策略的一种方法。生成性对抗模仿学习包括鉴别器和生成器,生成器产生一系列状态-动作对,在步骤四中产生, 鉴别器D(st,at)是一个二进制分类器,试图区分状态-动作对是来自专家还是来自经过 训练的策略。鉴别器参数可以通过下式更新:
其中H(πβ)是熵正则项。基于生成性对抗模仿学习通过占用度量匹配更新鉴别器。
为了使最终得到的策略可以优于专家演示,需要提供额外的奖励函数。此处使用事后经验重放,通过假设实际达到的状态为真实目标,将失败轨迹变为可用的成功轨 迹,进而提高演示的利用率。另外,此处对奖励值进行了设计,使得训练初期即使没 有完成任务也可以获得一定的奖励,进而鼓励策略进行广泛的探索。
生成性对抗模仿学习是通过占用度量匹配来学习参数化策略的一种方法。生成性对抗模仿学习包括鉴别器和生成器,生成器产生一系列状态-动作对,在步骤四中产生, 鉴别器Dμ(st,at)是一个二进制分类器,试图区分状态-动作对是来自专家还是来自经过 训练的策略。鉴别器参数可以通过下式更新:
步骤四、通过深度确定性策略梯度获得目标策略
深度确定性策略梯度是一种演员-批评家方法。演员网络πβ(st)的目的是学习使动作价值函数最大的策略,用参数β控制。批评家网络Qα(st,at)的目的是评估当前状态 下动作的价值,从而指导演员采取最佳行动,由参数α控制。二者相互促进,最终获 得目标策略。为了使学习过程稳定,采用参数分别为α′和β′的批评家网络和演员网络 作为目标网络。
1)批评家网络参数更新
通过最小化损失函数来更新批评家网络Qα(st,at)。批评家网络的损失函数为
其中,Qα(st,at)为预测的动作价值函数,y为时间差分目标。y可由目标网络计算。
y=rt+γQα′(st+1,πβ′(st+1))
因此可用下式更新批评家网络和目标网络:
α′=τα+(1-τ)α′
2)演员网络参数更新
类似于批评家网络,演员网络πβ(st)也通过最小化损失函数来更新。演员网络的损失函数为
因此可用下式更新演员网络和目标网络:
β′=τβ+(1-τ)β′
获得期望结果通常需重复执行一定次数,需要重新采样并扩充重放缓冲区进行进一步循环。循环若干次之后演员网络πβ(st)所代表的策略即为最终所得目标策略。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到各种等效的修 改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (3)
1.一种超越专家演示的阻抗控制模仿学习训练方法,其特征在于步骤如下:
步骤1:收集专家演示轨迹
阻抗控制模型表达式为
将(st,at,rt,st+1)定义为演示轨迹的一个点,专家演示轨迹即为若干个点组成的一串连续轨迹;进行训练之前需要收集尽量多的专家演示轨迹;
步骤2:建立重放缓冲区
将步骤1所获得的所有专家演示轨迹归入专家演示区E;建立重放缓冲区R,同样将专家演示轨迹归入,即此时专家演示区与重放缓冲区相同;
对于多目标设置,期望状态由目标g∈G描述,不同的轨迹可以有不同的目标,并且每个目标对应一个声明fg,用来代表目标是否已经实现;所训练智能体的真正目标即达到状态st+1,使得fg(st+1)=1;
从目标集合G中采样目标g,并在目标为g的情况下应用当前策略π,获得若干采样轨迹,加入重放缓冲区中;
步骤3:基于生成性对抗模仿学习通过占用度量匹配更新鉴别器
生成性对抗模仿学习是通过占用度量匹配来学习参数化策略的一种方法,生成性对抗模仿学习包括鉴别器和生成器,生成器产生一系列状态-动作对,在步骤4中产生,鉴别器D(st,at)是一个二进制分类器,试图区分状态-动作对是来自专家还是来自经过训练的策略;鉴别器参数可以通过下式更新:
其中H(πβ)是熵正则项;
步骤4:通过深度确定性策略梯度获得目标策略
演员网络πβ(st)的目的是学习使动作价值函数最大的策略,用参数β控制;批评家网络Qα(st,at)的目的是评估当前状态下动作的价值,从而指导演员采取最佳行动,由参数α控制;二者相互促进,最终获得目标策略;为了使学习过程稳定,采用参数分别为α′和β′的批评家网络和演员网络作为目标网络;
1)批评家网络参数更新
通过最小化损失函数来更新批评家网络Qα(st,at);批评家网络的损失函数为
其中,Qα(st,at)为预测的动作价值函数,y为时间差分目标;y可由目标网络计算;
y=rt+γQα′(st+1,πβ′(st+1))
因此可用下式更新批评家网络和目标网络:
α′=τα+(1-τ)α′
2)演员网络参数更新
类似于批评家网络,演员网络πβ(st)也通过最小化损失函数来更新;演员网络的损失函数为
因此可用下式更新演员网络和目标网络:
β′=τβ+(1-τ)β′
获得期望结果通常需重复执行一定次数,需要重新采样并扩充重放缓冲区进行进一步循环;循环若干次之后演员网络πβ(st)所代表的策略即为最终所得目标策略。
3.根据权利要求1所述一种超越专家演示的阻抗控制模仿学习训练方法,其特征在于所述的专家演示采用直接接触并引导、通过操纵杆引导或手工设计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110787181.7A CN113641099B (zh) | 2021-07-13 | 2021-07-13 | 一种超越专家演示的阻抗控制模仿学习训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110787181.7A CN113641099B (zh) | 2021-07-13 | 2021-07-13 | 一种超越专家演示的阻抗控制模仿学习训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113641099A CN113641099A (zh) | 2021-11-12 |
CN113641099B true CN113641099B (zh) | 2023-02-10 |
Family
ID=78417128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110787181.7A Active CN113641099B (zh) | 2021-07-13 | 2021-07-13 | 一种超越专家演示的阻抗控制模仿学习训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113641099B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114189470B (zh) * | 2022-02-14 | 2022-04-19 | 军事科学院***工程研究院网络信息研究所 | 一种基于模仿学习的智能路由决策保护方法和装置 |
CN114779661B (zh) * | 2022-04-22 | 2023-03-24 | 北京科技大学 | 基于多分类生成对抗模仿学习算法的化学合成机器人*** |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153153A (zh) * | 2017-12-19 | 2018-06-12 | 哈尔滨工程大学 | 一种学习变阻抗控制***及控制方法 |
CN110651279A (zh) * | 2017-06-28 | 2020-01-03 | 渊慧科技有限公司 | 利用学徒来训练动作选择神经网络 |
CN111348034A (zh) * | 2020-04-03 | 2020-06-30 | 苏州大学 | 基于生成对抗模仿学习的自动泊车方法及*** |
CN111460650A (zh) * | 2020-03-31 | 2020-07-28 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
CN111488988A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 基于对抗学习的控制策略模仿学习方法及装置 |
CN111580560A (zh) * | 2020-05-29 | 2020-08-25 | 中国科学技术大学 | 一种基于深度模仿学习的无人直升机自主特技飞行方法 |
CN111602144A (zh) * | 2018-02-09 | 2020-08-28 | 渊慧科技有限公司 | 生成指令序列以控制执行任务的代理的生成神经网络*** |
CN111983922A (zh) * | 2020-07-13 | 2020-11-24 | 广州中国科学院先进技术研究所 | 一种基于元模仿学习的机器人演示示教方法 |
CN113043275A (zh) * | 2021-03-29 | 2021-06-29 | 南京工业职业技术大学 | 基于专家演示和强化学习的微零件装配方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10872294B2 (en) * | 2018-09-27 | 2020-12-22 | Deepmind Technologies Limited | Imitation learning using a generative predecessor neural network |
US20200241542A1 (en) * | 2019-01-25 | 2020-07-30 | Bayerische Motoren Werke Aktiengesellschaft | Vehicle Equipped with Accelerated Actor-Critic Reinforcement Learning and Method for Accelerating Actor-Critic Reinforcement Learning |
CN111856925B (zh) * | 2020-06-02 | 2021-12-03 | 清华大学 | 基于状态轨迹的对抗式模仿学习方法及装置 |
-
2021
- 2021-07-13 CN CN202110787181.7A patent/CN113641099B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110651279A (zh) * | 2017-06-28 | 2020-01-03 | 渊慧科技有限公司 | 利用学徒来训练动作选择神经网络 |
CN108153153A (zh) * | 2017-12-19 | 2018-06-12 | 哈尔滨工程大学 | 一种学习变阻抗控制***及控制方法 |
CN111602144A (zh) * | 2018-02-09 | 2020-08-28 | 渊慧科技有限公司 | 生成指令序列以控制执行任务的代理的生成神经网络*** |
CN111460650A (zh) * | 2020-03-31 | 2020-07-28 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
CN111348034A (zh) * | 2020-04-03 | 2020-06-30 | 苏州大学 | 基于生成对抗模仿学习的自动泊车方法及*** |
CN111488988A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 基于对抗学习的控制策略模仿学习方法及装置 |
CN111580560A (zh) * | 2020-05-29 | 2020-08-25 | 中国科学技术大学 | 一种基于深度模仿学习的无人直升机自主特技飞行方法 |
CN111983922A (zh) * | 2020-07-13 | 2020-11-24 | 广州中国科学院先进技术研究所 | 一种基于元模仿学习的机器人演示示教方法 |
CN113043275A (zh) * | 2021-03-29 | 2021-06-29 | 南京工业职业技术大学 | 基于专家演示和强化学习的微零件装配方法 |
Non-Patent Citations (3)
Title |
---|
Robust Control of Space Robot for Capturing Objects Using Optimal Control Method;Panfeng Huang等;《2007 International Conference on Information Acquisition》;20070827;全文 * |
基于示教学习和自适应力控制的机器人装配研究;陈鹏飞等;《机电工程》;20200520(第05期);全文 * |
基于阻抗控制的下肢康复外骨骼随动控制;周伟杰等;《科学技术与工程》;20200218(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113641099A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113110592B (zh) | 一种无人机避障与路径规划方法 | |
CN113641099B (zh) | 一种超越专家演示的阻抗控制模仿学习训练方法 | |
CN112904728B (zh) | 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法 | |
CN112596373B (zh) | 一种基于量子萤火虫算法的无人机姿控参数智能整定方法 | |
CN111260027A (zh) | 一种基于强化学习的智能体自动决策方法 | |
CN112132263A (zh) | 一种基于强化学习的多智能体自主导航方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN112550314A (zh) | 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制*** | |
CN112549028A (zh) | 基于动态运动基元和人工势场的双臂机器人轨迹规划方法 | |
Belmonte-Baeza et al. | Meta reinforcement learning for optimal design of legged robots | |
CN111348034B (zh) | 基于生成对抗模仿学习的自动泊车方法及*** | |
CN114290339B (zh) | 基于强化学习和残差建模的机器人现实迁移方法 | |
CN117103282A (zh) | 一种基于matd3算法的双臂机器人协同运动控制方法 | |
Wang et al. | Learning of long-horizon sparse-reward robotic manipulator tasks with base controllers | |
Su et al. | Learning to assemble noncylindrical parts using trajectory learning and force tracking | |
Arshad et al. | Deep Deterministic Policy Gradient to Regulate Feedback Control Systems Using Reinforcement Learning. | |
CN111531543B (zh) | 基于生物启发式神经网络的机器人自适应阻抗控制方法 | |
Williams et al. | Locally weighted regression pseudo-rehearsal for adaptive model predictive control | |
CN116047904A (zh) | 面向机器人操作技能学习的人员仿真现实混合训练方法 | |
CN113919475B (zh) | 机器人技能学习的方法、装置、电子设备及存储介质 | |
CN115446867A (zh) | 一种基于数字孪生技术的工业机械臂控制方法及*** | |
Tang et al. | Reinforcement learning for robots path planning with rule-based shallow-trial | |
Samsani et al. | Rapid Autonomous Vehicle Drifting with Deep Reinforcement Learning | |
Klink et al. | Tracking Control for a Spherical Pendulum via Curriculum Reinforcement Learning | |
De Almeida et al. | Swing-up control of the Acrobot using noncollocated partial feedback linearisation: an algorithmic approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |