CN113641099B - 一种超越专家演示的阻抗控制模仿学习训练方法 - Google Patents

一种超越专家演示的阻抗控制模仿学习训练方法 Download PDF

Info

Publication number
CN113641099B
CN113641099B CN202110787181.7A CN202110787181A CN113641099B CN 113641099 B CN113641099 B CN 113641099B CN 202110787181 A CN202110787181 A CN 202110787181A CN 113641099 B CN113641099 B CN 113641099B
Authority
CN
China
Prior art keywords
network
target
demonstration
expert
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110787181.7A
Other languages
English (en)
Other versions
CN113641099A (zh
Inventor
黄攀峰
武曦
刘正雄
马志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110787181.7A priority Critical patent/CN113641099B/zh
Publication of CN113641099A publication Critical patent/CN113641099A/zh
Application granted granted Critical
Publication of CN113641099B publication Critical patent/CN113641099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种超越专家演示的阻抗控制模仿学习训练方法,属于机器人智能控制领域。首先通过直接接触并引导、通过操纵杆引导或手工设计等任意方式收集专家演示轨迹,放入专家演示区;将专家演示轨迹和之后用策略重新采样得到的轨迹放入重放缓冲区;通过事后经验重放,将演示数据的成功率提高;通过生成性对抗模仿学习,将训练出的策略和演示数据之间的误差逐步缩小,最终得到期望的训练策略。

Description

一种超越专家演示的阻抗控制模仿学习训练方法
技术领域
本发明属于机器人智能控制领域,具体涉及一种超越专家演示的阻抗控制模仿学习训练方法。
背景技术
机器人技术越来越多地部署到了各种各样的非结构化场景中,在这些环境中机器人需要以安全稳定的方式与未知环境进行交互,进而完成复杂的任务。为使机器人与 环境的相互作用力保持在合理的范围内,阻抗控制被广泛应用。特别地,在复杂任务 中,根据不同的任务阶段和环境约束调整阻抗的能力对于安全性和性能至关重要,因 此通常需要进行变阻抗控制。
通过模仿学习得到阻抗参数的变化策略或许是一种好的方法,但大量高质量的演示并不容易获得,并且学习到的策略的成功率往往受限于用来进行训练的演示的成功 率。
发明内容
要解决的技术问题
为了弥补现有变阻抗控制方法的不足,本发明采用鲁棒对抗性模仿学习方法,提出一种超越专家演示的阻抗控制模仿学习训练方法,可以获得比专家演示成功率更高 的变阻抗控制策略。
技术方案
一种超越专家演示的阻抗控制模仿学习训练方法,其特征在于步骤如下:
步骤1:收集专家演示轨迹
阻抗控制模型表达式为
Figure BDA0003159468020000011
其中,e=x-x0,x为实际位置,x0为初始位置,e、
Figure BDA0003159468020000021
Figure BDA0003159468020000022
分别为末端执行器的 位移、速度和加速度,M、B和K分别为惯性矩阵、阻尼矩阵和刚度矩阵,F为实际接 触力;
定义st为当前状态,即当前跟踪位置误差et,速度跟踪误差
Figure BDA0003159468020000023
和接触力Ft,at为当前动作,即阻抗参数M,B,K的值;奖励函数rt可根据任务进行设置;
将(st,at,rt,st+1)定义为演示轨迹的一个点,专家演示轨迹即为若干个点组成的一 串连续轨迹;进行训练之前需要收集尽量多的专家演示轨迹;
步骤2:建立重放缓冲区
将步骤1所获得的所有专家演示轨迹归入专家演示区E;建立重放缓冲区R,同样将专家演示轨迹归入,即此时专家演示区与重放缓冲区相同;
对于多目标设置,期望状态由目标g∈G描述,不同的轨迹可以有不同的目标,并且每个目标对应一个声明fg,用来代表目标是否已经实现;所训练智能体的真正目标 即达到状态st+1,使得fg(st+1)=1;
从目标集合G中采样目标g,并在目标为g的情况下应用当前策略π,获得若干采样轨迹,加入重放缓冲区中;
步骤3:基于生成性对抗模仿学习通过占用度量匹配更新鉴别器
利用下式在专家演示区和重放缓冲区采样,得到
Figure BDA0003159468020000024
在专家演示区采样,得到(st,at)E;在重放缓冲区采样,得到(st,at)R
Figure BDA0003159468020000025
生成性对抗模仿学习是通过占用度量匹配来学习参数化策略的一种方法,生成性对抗模仿学习包括鉴别器和生成器,生成器产生一系列状态-动作对,在步骤4中产生, 鉴别器D(st,at)是一个二进制分类器,试图区分状态-动作对是来自专家还是来自经过 训练的策略。鉴别器参数可以通过下式更新:
Figure BDA0003159468020000031
其中H(πβ)是熵正则项;
步骤4:通过深度确定性策略梯度获得目标策略
演员网络πβ(st)的目的是学习使动作价值函数最大的策略,用参数β控制;批评家网络Qα(st,at)的目的是评估当前状态下动作的价值,从而指导演员采取最佳行动,由 参数α控制;二者相互促进,最终获得目标策略;为了使学习过程稳定,采用参数分 别为α′和β′的批评家网络和演员网络作为目标网络;
1)批评家网络参数更新
通过最小化损失函数来更新批评家网络Qα(st,at);批评家网络的损失函数为
Figure BDA0003159468020000032
其中,Qα(st,at)为预测的动作价值函数,y为时间差分目标;y可由目标网络计算;
y=rt+γQα′(st+1β′(st+1))
Figure BDA0003159468020000033
γ是一个预定义的折扣因子,奖励rt由鉴别器奖励
Figure BDA0003159468020000034
和额外的后 见之明奖励
Figure BDA0003159468020000035
构成,k1和k2为其对应系数;
因此可用下式更新批评家网络和目标网络:
Figure BDA0003159468020000036
α′=τα+(1-τ)α′
2)演员网络参数更新
类似于批评家网络,演员网络πβ(st)也通过最小化损失函数来更新;演员网络的损失函数为
Figure BDA0003159468020000037
其中,
Figure BDA0003159468020000041
是用于加速学习的退火奖励;
因此可用下式更新演员网络和目标网络:
Figure BDA0003159468020000042
β′=τβ+(1-τ)β′
获得期望结果通常需重复执行一定次数,需要重新采样并扩充重放缓冲区进行进一步循环;循环若干次之后演员网络πβ(st)所代表的策略即为最终所得目标策略。
所述的奖励函数rt设置为
Figure BDA0003159468020000043
ζ为参数。
所述的专家演示采用直接接触并引导、通过操纵杆引导或手工设计。
有益效果
本发明提出的一种超越专家演示的阻抗控制模仿学习训练方法,首先通过直接接触并引导、通过操纵杆引导或手工设计等任意方式收集专家演示轨迹,放入专家演示 区;将专家演示轨迹和之后用策略重新采样得到的轨迹放入重放缓冲区;通过事后经 验重放,将演示数据的成功率提高;通过生成性对抗模仿学习,将训练出的策略和演 示数据之间的误差逐步缩小,最终得到期望的训练策略。有益效果如下:
1、相对于参数不变的阻抗控制方式,通过根据不同任务阶段和环境约束调整阻抗参数的变阻抗控制方法,提升了交互的安全性和稳定性;
2、相对于其他基于训练的变阻抗控制,通过模仿学习方法,训练阻抗参数的训练效率更高,更接近于人的行为,且不受设计者个人经验影响;
3、通过事后经验重放的方法,在重放缓冲区提升了用来进行训练的演示的成功率, 进而使最终训练出的策略成功率提升,甚至达到可以超过专家演示的水平;
4、通过生成性对抗模仿学习,减少演示数据和生成策略间的误差,使最终训练出的策略成功率进一步提升。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并 不用于限定本发明。此外,下面描述的本发明各个实施方式中所涉及到的技术特征只 要彼此之间未构成冲突就可以相互组合。
本发明提出的一种超越专家演示的阻抗控制模仿学习训练方法,包括如下四个部分:
1、收集专家演示轨迹;
2、建立重放缓冲区;
3、基于生成性对抗模仿学习通过占用度量匹配更新鉴别器;
4、通过深度确定性策略梯度获得目标策略。
具体步骤如下:
步骤一、收集专家演示轨迹
阻抗控制模型表达式为
Figure BDA0003159468020000051
其中,e=x-x0,x为实际位置,x0为初始位置,e、
Figure BDA0003159468020000052
Figure BDA0003159468020000053
分别为末端执行器的 位移、速度和加速度,M、B和K分别为惯性矩阵、阻尼矩阵和刚度矩阵,F为实际接 触力。
定义st为当前状态,即当前跟踪位置误差et,速度跟踪误差
Figure BDA0003159468020000054
和接触力Ft,at为当前动作,即阻抗参数M,B,K的值。奖励函数rt可根据任务进行设置,如设置为
Figure BDA0003159468020000055
Figure BDA0003159468020000056
将(st,at,rt,st+1)定义为演示轨迹的一个点,专家演示轨迹即为若干个点组成的一 串连续轨迹。进行训练之前需要收集尽量多的专家演示轨迹。专家演示可以采用直接接触并引导、通过操纵杆引导或手工设计等多种方式,且不要求演示具有较高成功率。
步骤二、建立重放缓冲区
将步骤一所获得的所有专家演示轨迹归入专家演示区E。建立重放缓冲区R,同样将专家演示轨迹归入,即此时专家演示区与重放缓冲区相同。
对于多目标设置,期望状态由目标g∈G描述,不同的轨迹可以有不同的目标,并且每个目标对应一个声明fg,用来代表目标是否已经实现。所训练智能体的真正目标 即达到状态st+1,使得fg(st+1)=1。
从目标集合G中采样目标g,并在目标为g的情况下应用当前策略π,获得若干采样轨迹,加入重放缓冲区中。
步骤三、基于生成性对抗模仿学习通过占用度量匹配更新鉴别器
为了使最终得到的策略可以优于专家演示,需要提供额外的奖励函数。此处使用事后经验重放,通过假设实际达到的状态为真实目标,将失败轨迹变为可用的成功轨 迹,进而提高演示的利用率。另外,此处对奖励值进行了设计,使得训练初期即使没 有完成任务也可以获得一定的奖励,进而鼓励策略进行广泛的探索。
Figure BDA0003159468020000061
利用上式在专家演示区和重放缓冲区采样,得到
Figure BDA0003159468020000062
在专家演示区采样,得到(st,at)E;在重放缓冲区采样,得到(st,at)R
生成性对抗模仿学习是通过占用度量匹配来学习参数化策略的一种方法。生成性对抗模仿学习包括鉴别器和生成器,生成器产生一系列状态-动作对,在步骤四中产生, 鉴别器D(st,at)是一个二进制分类器,试图区分状态-动作对是来自专家还是来自经过 训练的策略。鉴别器参数可以通过下式更新:
Figure BDA0003159468020000063
其中H(πβ)是熵正则项。基于生成性对抗模仿学习通过占用度量匹配更新鉴别器。
为了使最终得到的策略可以优于专家演示,需要提供额外的奖励函数。此处使用事后经验重放,通过假设实际达到的状态为真实目标,将失败轨迹变为可用的成功轨 迹,进而提高演示的利用率。另外,此处对奖励值进行了设计,使得训练初期即使没 有完成任务也可以获得一定的奖励,进而鼓励策略进行广泛的探索。
Figure BDA0003159468020000071
利用上式在专家演示区和重放缓冲区采样,得到
Figure BDA0003159468020000072
在专家演示区采样,得到(st,at)E;在重放缓冲区采样,得到(st,at)R
生成性对抗模仿学习是通过占用度量匹配来学习参数化策略的一种方法。生成性对抗模仿学习包括鉴别器和生成器,生成器产生一系列状态-动作对,在步骤四中产生, 鉴别器Dμ(st,at)是一个二进制分类器,试图区分状态-动作对是来自专家还是来自经过 训练的策略。鉴别器参数可以通过下式更新:
Figure BDA0003159468020000073
其中H(πβ)是熵正则项。
Figure BDA0003159468020000074
取期望值。
步骤四、通过深度确定性策略梯度获得目标策略
深度确定性策略梯度是一种演员-批评家方法。演员网络πβ(st)的目的是学习使动作价值函数最大的策略,用参数β控制。批评家网络Qα(st,at)的目的是评估当前状态 下动作的价值,从而指导演员采取最佳行动,由参数α控制。二者相互促进,最终获 得目标策略。为了使学习过程稳定,采用参数分别为α′和β′的批评家网络和演员网络 作为目标网络。
1)批评家网络参数更新
通过最小化损失函数来更新批评家网络Qα(st,at)。批评家网络的损失函数为
Figure BDA0003159468020000075
其中,Qα(st,at)为预测的动作价值函数,y为时间差分目标。y可由目标网络计算。
y=rt+γQα′(st+1β′(st+1))
Figure BDA0003159468020000081
γ是一个预定义的折扣因子,奖励rt由鉴别器奖励
Figure BDA0003159468020000082
和额外的后 见之明奖励
Figure BDA0003159468020000083
构成,k1和k2为其对应系数。
因此可用下式更新批评家网络和目标网络:
Figure BDA0003159468020000084
α′=τα+(1-τ)α′
2)演员网络参数更新
类似于批评家网络,演员网络πβ(st)也通过最小化损失函数来更新。演员网络的损失函数为
Figure BDA0003159468020000085
其中,
Figure BDA0003159468020000086
是用于加速学习的退火奖励。
因此可用下式更新演员网络和目标网络:
Figure BDA0003159468020000087
β′=τβ+(1-τ)β′
获得期望结果通常需重复执行一定次数,需要重新采样并扩充重放缓冲区进行进一步循环。循环若干次之后演员网络πβ(st)所代表的策略即为最终所得目标策略。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到各种等效的修 改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (3)

1.一种超越专家演示的阻抗控制模仿学习训练方法,其特征在于步骤如下:
步骤1:收集专家演示轨迹
阻抗控制模型表达式为
Figure FDA0003936521150000011
其中,e=x-x0,x为实际位置,x0为初始位置,e、
Figure FDA0003936521150000014
Figure FDA0003936521150000015
分别为末端执行器的位移、速度和加速度,M、B和K分别为惯性矩阵、阻尼矩阵和刚度矩阵,F为实际接触力;
定义st为当前状态,即当前跟踪位置误差et,速度跟踪误差
Figure FDA0003936521150000012
和接触力Ft,at为当前动作,即阻抗参数M,B,K的值;奖励函数rt可根据任务进行设置;
将(st,at,rt,st+1)定义为演示轨迹的一个点,专家演示轨迹即为若干个点组成的一串连续轨迹;进行训练之前需要收集尽量多的专家演示轨迹;
步骤2:建立重放缓冲区
将步骤1所获得的所有专家演示轨迹归入专家演示区E;建立重放缓冲区R,同样将专家演示轨迹归入,即此时专家演示区与重放缓冲区相同;
对于多目标设置,期望状态由目标g∈G描述,不同的轨迹可以有不同的目标,并且每个目标对应一个声明fg,用来代表目标是否已经实现;所训练智能体的真正目标即达到状态st+1,使得fg(st+1)=1;
从目标集合G中采样目标g,并在目标为g的情况下应用当前策略π,获得若干采样轨迹,加入重放缓冲区中;
步骤3:基于生成性对抗模仿学习通过占用度量匹配更新鉴别器
利用下式在专家演示区和重放缓冲区采样,得到
Figure FDA0003936521150000013
在专家演示区采样,得到(st,at)E;在重放缓冲区采样,得到(st,at)R
Figure FDA0003936521150000021
生成性对抗模仿学习是通过占用度量匹配来学习参数化策略的一种方法,生成性对抗模仿学习包括鉴别器和生成器,生成器产生一系列状态-动作对,在步骤4中产生,鉴别器D(st,at)是一个二进制分类器,试图区分状态-动作对是来自专家还是来自经过训练的策略;鉴别器参数可以通过下式更新:
Figure FDA0003936521150000022
其中H(πβ)是熵正则项;
步骤4:通过深度确定性策略梯度获得目标策略
演员网络πβ(st)的目的是学习使动作价值函数最大的策略,用参数β控制;批评家网络Qα(st,at)的目的是评估当前状态下动作的价值,从而指导演员采取最佳行动,由参数α控制;二者相互促进,最终获得目标策略;为了使学习过程稳定,采用参数分别为α′和β′的批评家网络和演员网络作为目标网络;
1)批评家网络参数更新
通过最小化损失函数来更新批评家网络Qα(st,at);批评家网络的损失函数为
Figure FDA0003936521150000023
其中,Qα(st,at)为预测的动作价值函数,y为时间差分目标;y可由目标网络计算;
y=rt+γQα′(st+1,πβ′(st+1))
Figure FDA0003936521150000024
γ是一个预定义的折扣因子,奖励rt由鉴别器奖励
Figure FDA0003936521150000025
和额外的后见之明奖励
Figure FDA0003936521150000026
构成,k1和k2为其对应系数;
因此可用下式更新批评家网络和目标网络:
Figure FDA0003936521150000027
α′=τα+(1-τ)α′
2)演员网络参数更新
类似于批评家网络,演员网络πβ(st)也通过最小化损失函数来更新;演员网络的损失函数为
Figure FDA0003936521150000031
其中,
Figure FDA0003936521150000032
是用于加速学习的退火奖励;
因此可用下式更新演员网络和目标网络:
Figure FDA0003936521150000033
β′=τβ+(1-τ)β′
获得期望结果通常需重复执行一定次数,需要重新采样并扩充重放缓冲区进行进一步循环;循环若干次之后演员网络πβ(st)所代表的策略即为最终所得目标策略。
2.根据权利要求1所述一种超越专家演示的阻抗控制模仿学习训练方法,其特征在于所述的奖励函数rt设置为
Figure FDA0003936521150000034
ζ为参数。
3.根据权利要求1所述一种超越专家演示的阻抗控制模仿学习训练方法,其特征在于所述的专家演示采用直接接触并引导、通过操纵杆引导或手工设计。
CN202110787181.7A 2021-07-13 2021-07-13 一种超越专家演示的阻抗控制模仿学习训练方法 Active CN113641099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110787181.7A CN113641099B (zh) 2021-07-13 2021-07-13 一种超越专家演示的阻抗控制模仿学习训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110787181.7A CN113641099B (zh) 2021-07-13 2021-07-13 一种超越专家演示的阻抗控制模仿学习训练方法

Publications (2)

Publication Number Publication Date
CN113641099A CN113641099A (zh) 2021-11-12
CN113641099B true CN113641099B (zh) 2023-02-10

Family

ID=78417128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110787181.7A Active CN113641099B (zh) 2021-07-13 2021-07-13 一种超越专家演示的阻抗控制模仿学习训练方法

Country Status (1)

Country Link
CN (1) CN113641099B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114189470B (zh) * 2022-02-14 2022-04-19 军事科学院***工程研究院网络信息研究所 一种基于模仿学习的智能路由决策保护方法和装置
CN114779661B (zh) * 2022-04-22 2023-03-24 北京科技大学 基于多分类生成对抗模仿学习算法的化学合成机器人***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153153A (zh) * 2017-12-19 2018-06-12 哈尔滨工程大学 一种学习变阻抗控制***及控制方法
CN110651279A (zh) * 2017-06-28 2020-01-03 渊慧科技有限公司 利用学徒来训练动作选择神经网络
CN111348034A (zh) * 2020-04-03 2020-06-30 苏州大学 基于生成对抗模仿学习的自动泊车方法及***
CN111460650A (zh) * 2020-03-31 2020-07-28 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置
CN111580560A (zh) * 2020-05-29 2020-08-25 中国科学技术大学 一种基于深度模仿学习的无人直升机自主特技飞行方法
CN111602144A (zh) * 2018-02-09 2020-08-28 渊慧科技有限公司 生成指令序列以控制执行任务的代理的生成神经网络***
CN111983922A (zh) * 2020-07-13 2020-11-24 广州中国科学院先进技术研究所 一种基于元模仿学习的机器人演示示教方法
CN113043275A (zh) * 2021-03-29 2021-06-29 南京工业职业技术大学 基于专家演示和强化学习的微零件装配方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10872294B2 (en) * 2018-09-27 2020-12-22 Deepmind Technologies Limited Imitation learning using a generative predecessor neural network
US20200241542A1 (en) * 2019-01-25 2020-07-30 Bayerische Motoren Werke Aktiengesellschaft Vehicle Equipped with Accelerated Actor-Critic Reinforcement Learning and Method for Accelerating Actor-Critic Reinforcement Learning
CN111856925B (zh) * 2020-06-02 2021-12-03 清华大学 基于状态轨迹的对抗式模仿学习方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110651279A (zh) * 2017-06-28 2020-01-03 渊慧科技有限公司 利用学徒来训练动作选择神经网络
CN108153153A (zh) * 2017-12-19 2018-06-12 哈尔滨工程大学 一种学习变阻抗控制***及控制方法
CN111602144A (zh) * 2018-02-09 2020-08-28 渊慧科技有限公司 生成指令序列以控制执行任务的代理的生成神经网络***
CN111460650A (zh) * 2020-03-31 2020-07-28 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法
CN111348034A (zh) * 2020-04-03 2020-06-30 苏州大学 基于生成对抗模仿学习的自动泊车方法及***
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置
CN111580560A (zh) * 2020-05-29 2020-08-25 中国科学技术大学 一种基于深度模仿学习的无人直升机自主特技飞行方法
CN111983922A (zh) * 2020-07-13 2020-11-24 广州中国科学院先进技术研究所 一种基于元模仿学习的机器人演示示教方法
CN113043275A (zh) * 2021-03-29 2021-06-29 南京工业职业技术大学 基于专家演示和强化学习的微零件装配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Robust Control of Space Robot for Capturing Objects Using Optimal Control Method;Panfeng Huang等;《2007 International Conference on Information Acquisition》;20070827;全文 *
基于示教学习和自适应力控制的机器人装配研究;陈鹏飞等;《机电工程》;20200520(第05期);全文 *
基于阻抗控制的下肢康复外骨骼随动控制;周伟杰等;《科学技术与工程》;20200218(第05期);全文 *

Also Published As

Publication number Publication date
CN113641099A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN113110592B (zh) 一种无人机避障与路径规划方法
CN113641099B (zh) 一种超越专家演示的阻抗控制模仿学习训练方法
CN112904728B (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
CN112596373B (zh) 一种基于量子萤火虫算法的无人机姿控参数智能整定方法
CN111260027A (zh) 一种基于强化学习的智能体自动决策方法
CN112132263A (zh) 一种基于强化学习的多智能体自主导航方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN112550314A (zh) 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制***
CN112549028A (zh) 基于动态运动基元和人工势场的双臂机器人轨迹规划方法
Belmonte-Baeza et al. Meta reinforcement learning for optimal design of legged robots
CN111348034B (zh) 基于生成对抗模仿学习的自动泊车方法及***
CN114290339B (zh) 基于强化学习和残差建模的机器人现实迁移方法
CN117103282A (zh) 一种基于matd3算法的双臂机器人协同运动控制方法
Wang et al. Learning of long-horizon sparse-reward robotic manipulator tasks with base controllers
Su et al. Learning to assemble noncylindrical parts using trajectory learning and force tracking
Arshad et al. Deep Deterministic Policy Gradient to Regulate Feedback Control Systems Using Reinforcement Learning.
CN111531543B (zh) 基于生物启发式神经网络的机器人自适应阻抗控制方法
Williams et al. Locally weighted regression pseudo-rehearsal for adaptive model predictive control
CN116047904A (zh) 面向机器人操作技能学习的人员仿真现实混合训练方法
CN113919475B (zh) 机器人技能学习的方法、装置、电子设备及存储介质
CN115446867A (zh) 一种基于数字孪生技术的工业机械臂控制方法及***
Tang et al. Reinforcement learning for robots path planning with rule-based shallow-trial
Samsani et al. Rapid Autonomous Vehicle Drifting with Deep Reinforcement Learning
Klink et al. Tracking Control for a Spherical Pendulum via Curriculum Reinforcement Learning
De Almeida et al. Swing-up control of the Acrobot using noncollocated partial feedback linearisation: an algorithmic approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant