CN112894809A - 一种基于强化学习的阻抗控制器设计方法和*** - Google Patents

一种基于强化学习的阻抗控制器设计方法和*** Download PDF

Info

Publication number
CN112894809A
CN112894809A CN202110061914.9A CN202110061914A CN112894809A CN 112894809 A CN112894809 A CN 112894809A CN 202110061914 A CN202110061914 A CN 202110061914A CN 112894809 A CN112894809 A CN 112894809A
Authority
CN
China
Prior art keywords
learning
control
impedance
function
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110061914.9A
Other languages
English (en)
Other versions
CN112894809B (zh
Inventor
赵兴炜
陶波
韩世博
丁汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202110061914.9A priority Critical patent/CN112894809B/zh
Publication of CN112894809A publication Critical patent/CN112894809A/zh
Application granted granted Critical
Publication of CN112894809B publication Critical patent/CN112894809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1605Simulation of manipulator lay-out, design, modelling of manipulator
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1633Programme controls characterised by the control loop compliant, force, torque control, e.g. combined with position control

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习的阻抗控制器设计方法和***,属于机器人控制领域。本发明方法综合考虑控制输入,受控***位置、速度和受到的外力的影响,并利用受控***所受外力与其位置之间的正比例关系,设计出一种有效的奖励函数和价值函数,可在***模型和环境模型未知的情况下,通过强化学习设计出最优的阻抗控制器,并可通过调节参数修改***的响应特性,生成理想的机器人阻抗控制器。本发明方法明确了价值函数的形式,极大地减少了待定系数的数量,不需要复杂的深度网络对价值函数进行拟合,极大加速了学习过程。

Description

一种基于强化学习的阻抗控制器设计方法和***
技术领域
本发明属于机器人控制领域,更具体地,涉及一种基于强化学习的阻抗控制器设计方法和***。
背景技术
随着顺应操作和人机交互场景的出现,机器人控制的目标不再是单一的减小位置误差,其柔顺性也收到越来越多的关注。阻抗控制是一种非常有效的机器人柔顺控制方法,当存在外力时自动在外力和目标位置之间保持平衡,避免刚性碰撞和接触力过大,保护机器人、工件和使用者;当不存在外力时可以实现较高的位置精度,满足各类工作的需要。
专利CN202010771033.1提出了一种基于RBF神经网络的机械臂自适应阻抗控制方法,但需要获得名义动力学模型设计阻抗控制器并设计误差补偿控制器,结构较为复杂。专利CN201910352004.9则需要通过预处理对机器人的动力学参数进行辨识。专利CN201910287227.1提出的一种利用环境预测优化非模型机器人多轴孔装配控制方法将强化学习用于机器人装配,但是其采用的深度强化学习方法收敛速度慢,训练时间长,在使用中具有一定局限性。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于强化学习的阻抗控制器设计方法和***,其目的在于在***动力学模型未知情况下,快速获得最优的阻抗控制器。
为实现上述目的,按照本发明的一个方面,提供了一种基于强化学习的阻抗控制器设计方法,包括:
S1.设计奖励函数和价值函数;奖励函数设置为
Figure BDA0002903010380000021
价值函数设置为
Figure BDA0002903010380000022
Figure BDA0002903010380000023
其中,
Figure BDA0002903010380000024
分别表示受控***当前的位置、速度和受到的外力;Qf,Qx,Qv分别为外力、位置、速度在阻抗控制器设计目标中的权重;u=KX为***的控制输入;K为待设计优化的阻抗控制参数,
Figure BDA0002903010380000025
表示矩阵的克罗内克积;θ为价值函数参数;
S2.基于奖励函数和价值函数,采用强化学习的方法估计θ,获得最优的阻抗控制参数K,完成阻抗控制器的设计。
进一步地,步骤S1具体包括:
S101.将受控***受到的外力f视为***状态的一部分,得到增广状态向量为
Figure BDA0002903010380000026
分别表示受控***当前的位置、速度和受到的外力;阻抗控制器的形式设置为u=KX,u为***的控制输入,K为待设计和优化的阻抗控制参数;
S102.将控制输入u、受控***当前位置q,速度
Figure BDA0002903010380000027
和受到的外力f视为控制***的代价,将代价函数设置为:
Figure BDA0002903010380000028
Q1,Q2,Q3为控制权重,均为正实数;
S103.将f=Feq代入代价函数得到:
Figure BDA0002903010380000029
Figure BDA00029030103800000210
矩阵形式为
Figure BDA00029030103800000211
S104.奖励函数设计为代价函数的相反数:
Figure BDA0002903010380000031
价值函数设计为奖励函数的累加
Figure BDA0002903010380000032
进一步地,增广状态向量X中元素的排列顺序任意,K、ck、r、Qv(X,u)、
Figure BDA0002903010380000033
θ的具体形式根据X中元素的排列顺序变化。
进一步地,步骤S2具体为:
S201.学习过程初始化:设置K为零向量,θ为零向量,设置更新周期iupdate,iupdate为正整数;
S202.学习周期初始化:将受控***设置为起始状态XΔT,设置学习参数P=δH,其中δ为一个正整数,H为n*n的单位矩阵;
S203.计算控制输入u=KXiΔT+σRand,Rand为随机数,σ为权重因子;XiΔT为当前控制周期***状态,i=1,2,3…,ΔT为受控***的控制周期;
S204.计算奖励函数
Figure BDA0002903010380000034
Figure BDA0002903010380000035
S205.获得下一控制周期***状态X(i+1)ΔT,更新***价值函数参数θ和学习参数P:
Figure BDA0002903010380000036
Figure BDA0002903010380000037
Figure BDA0002903010380000038
θ=θ+gradient
Figure BDA0002903010380000039
gradient为中间量,γ为预测因子,0<γ<1;
S206.更新阻抗控制参数K:当i为iupdate的倍数时,将θ的元素依次排列为一个n*n的矩阵,并对H进行分块得到
Figure BDA00029030103800000310
其中H21为和K同维度的矩阵;令Kupdated=K-l*(H21+KH22),K=Kupdated;l为更新权重;
S207.学习周期终止判定:若iΔT≥Tmax,该学习周期终止,否则令i=i+1,返回S203;Tmax为一个学习周期最大长度;
S208.学习终止判定:在第k个学习周期前后的控制律分别为u=KkX和u=Kk-1X,若max(abs(Kk-Kk-1))≤ε,则学习过程终止,得到的阻抗控制器为u=KkX,否则返回S202;ε为终止判定阈值。
与上述方法实施过程对应地,本发明还提供了一种基于强化学习的阻抗控制器设计***,包括:
控制目标设计模块,用于设计奖励函数和价值函数;奖励函数设置为
Figure BDA0002903010380000041
价值函数设置为
Figure BDA0002903010380000042
Figure BDA0002903010380000043
其中,
Figure BDA0002903010380000044
分别表示受控***当前的位置、速度和受到的外力;Qf,Qx,Qv分别为外力、位置、速度在阻抗控制器设计目标中的权重;u=KX为***的控制输入;K为待设计优化的阻抗控制参数,
Figure BDA0002903010380000045
表示矩阵的克罗内克积;θ为价值函数参数;
阻抗控制参数优化模块,用于基于奖励函数和价值函数,采用强化学习的方法估计θ,获得最优的阻抗控制参数K,完成阻抗控制器的设计。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。
(1)本发明方法综合考虑控制输入,受控***位置、速度和受到的外力的影响,并利用受控***所受外力与其位置之间的正比例关系,设计出一种有效的奖励函数和价值函数,可在***模型和环境模型未知的情况下,通过强化学习设计出最优的阻抗控制器,并可通过调节参数修改***的响应特性,生成理想的机器人阻抗控制器。
(2)本发明方法明确了价值函数的形式,极大地减少了待定系数的数量,不需要复杂的深度网络对价值函数进行拟合,极大加速了学习过程。
附图说明
图1是本发明提供的基于强化学习的阻抗控制器设计方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
参考图1,本发明提供的一种基于强化学习的阻抗控制器设计方法,包括:
S1.设计奖励函数和价值函数;
S101.将受控***受到的外力f视为***状态的一部分,得到增广状态向量为
Figure BDA0002903010380000051
分别表示受控***当前的位置、速度和受到的外力;阻抗控制器的形式设置为u=KX,这里u为***的控制输入,K为待设计和优化的阻抗控制参数。
S102.将控制输入u,受控***位置q,速度
Figure BDA0002903010380000052
和受到的外力f视为控制***的代价,将代价函数设置为:
Figure BDA0002903010380000053
Q1,Q2,Q3为控制权重,均为正实数。
S103.受控***所受外力f为其位置的正比例函数,即f=Feq,代入代价函数得到:
Figure BDA0002903010380000061
将其写作矩阵形式:
Figure BDA0002903010380000062
S104.奖励函数设计为控制函数的相反数:
Figure BDA0002903010380000063
价值函数设计为奖励函数的累加,即
Figure BDA0002903010380000064
将价值函数设置为
Figure BDA0002903010380000065
表示矩阵的克罗内克积。θ为待估计的控制权重为Q1,Q2,Q3时价值函数参数。
奖励函数代表着阻抗控制器的设计目标,本发明提出的奖励函数综合考虑控制输入,受控***位置、速度和受到的外力的影响,并利用受控***所受外力与其位置之间的正比例关系,其形式具备充分的物理含义,因此在实际使用中可以保证学习过程的稳定性和收敛性。同时,Qf,Qx,Qv分别外力、位置、速度在阻抗控制器设计目标中的权重,便于使用者根据应用场景需要灵活地调整设计目标,获得在该场景下地最优阻抗控制器。
在强化学习过程中,经过不断地学习迭代,最终将获得真实的价值函数。错误的价值函数形式将导致学习失败,复杂的价值函数形式(如深度神经网络)将使得学习过程冗长。本发明提出的价值函数形式极大地减少了待定系数的数量,不需要复杂的深度网络对价值函数进行拟合,极大加速了学习过程。
S2.基于奖励函数和价值函数,采用强化学习的方法估计θ,获得最优的阻抗控制参数K,完成阻抗控制器的设计。
采用强化学习的方法完成控制器设计的步骤为:
S201.学习过程初始化,设置K为零向量,θ为零向量,设置更新周期iupdate,iupdate为正整数。
S202.学习周期初始化,将受控***设置为起始状态XΔT,设置学习参数P=δH,其中δ为一个正整数,H为n*n的单位矩阵。记***状态为XiΔT,其中i=1,2,3…,ΔT为受控***的控制周期。此时i=1。
S203.计算控制输入u=KXiΔT+σRand;Rand为随机数,σ为权重因子。
S204.计算奖励函数
Figure BDA0002903010380000071
S205.获得***状态X(i+1)ΔT,更新***价值函数参数θ和学习参数P:
Figure BDA0002903010380000072
Figure BDA0002903010380000073
Figure BDA0002903010380000074
θ=θ+gradient
本方法提出的价值函数参数更新方法计算量小,可在学习过程中即时对价值函数进行更新,提升了价值函数地收敛速度。
S206.更新阻抗控制参数K:当i为iupdate的倍数时,将θ的元素依次排列为一个n*n的矩阵,并对H进行分块得到
Figure BDA0002903010380000075
其中H21为和K同维度的矩阵;令Kupdated=K-l*(H21+KH22),K=Kupdated;l为更新权重。
本方法提供了一种解析形式的控制参数更新策略,计算复杂度低,收敛速度快。同时,可通过调节iupdate调节控制参数更新频率,调节l调节控制参数更新速度,实现对学习过程的有效控制,有效避免了学习过慢导致的学习过程冗长和学习过快导致的控制参数无法收敛的情况。
S207.学习周期终止判定:若iΔT≥Tmax,该学习周期终止,否则令i=i+1,返回S203。Tmax为一个学习周期最大长度。
S208.学习终止判定:记在第k个学习周期前后的控制律分别为u=KkX和u=Kk-1X,若max(abs(Kk-Kk-1))≤ε,则学习过程终止,得到的阻抗控制器为u=KkX,否则返回S202。ε为终止判定阈值。
为了验证本发明方法有效性,依照本方法进行了仿真和实验验证,结果表明,采用本方法,无需获得受控***的动力学参数,经过10个学习长度为Tmax=250ΔT的学习周期后,即可生成一个最优的阻抗控制器,和动辄需要上千次训练的深度强化学习相比具有明显的优越性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于强化学习的阻抗控制器设计方法,其特征在于,包括:
S1.设计奖励函数和价值函数;奖励函数设置为
Figure FDA0002903010370000011
价值函数设置为
Figure FDA0002903010370000012
Figure FDA0002903010370000013
其中,
Figure FDA0002903010370000014
q,
Figure FDA0002903010370000015
f分别表示受控***当前的位置、速度和受到的外力;Qf,Qx,Qv分别为外力、位置、速度在阻抗控制器设计目标中的权重;u=KX为***的控制输入;K为待设计优化的阻抗控制参数,
Figure FDA0002903010370000016
Figure FDA0002903010370000017
表示矩阵的克罗内克积;θ为价值函数参数;
S2.基于奖励函数和价值函数,采用强化学习的方法估计θ,获得最优的阻抗控制参数K,完成阻抗控制器的设计。
2.根据权利要求1所述的一种基于强化学习的阻抗控制器设计方法,其特征在于,步骤S1具体包括:
S101.将受控***受到的外力f视为***状态的一部分,得到增广状态向量为
Figure FDA0002903010370000018
q,
Figure FDA0002903010370000019
f分别表示受控***当前的位置、速度和受到的外力;阻抗控制器的形式设置为u=KX,u为***的控制输入,K为待设计和优化的阻抗控制参数;
S102.将控制输入u、受控***当前位置q,速度
Figure FDA00029030103700000110
和受到的外力f视为控制***的代价,将代价函数设置为:
Figure FDA00029030103700000111
Q1,Q2,Q3为控制权重,均为正实数;
S103.将f=Feq代入代价函数得到:
Figure FDA0002903010370000021
Figure FDA0002903010370000022
矩阵形式为
Figure FDA0002903010370000023
S104.奖励函数设计为代价函数的相反数:
Figure FDA0002903010370000024
价值函数设计为奖励函数的累加
Figure FDA0002903010370000025
3.根据权利要求2所述的一种基于强化学习的阻抗控制器设计方法,其特征在于,增广状态向量X中元素的排列顺序任意,K、ck、r、Qv(X,u)、
Figure FDA0002903010370000026
θ的具体形式根据X中元素的排列顺序变化。
4.根据权利要求1所述的一种基于强化学习的阻抗控制器设计方法,其特征在于,步骤S2具体为:
S201.学习过程初始化:设置K为零向量,θ为零向量,设置更新周期iupdate,iupdate为正整数;
S202.学习周期初始化:将受控***设置为起始状态XΔT,设置学习参数P=δH,其中δ为一个正整数,H为n*n的单位矩阵;
S203.计算控制输入u=KXiΔT+σRand,Rand为随机数,σ为权重因子;XiΔT为当前控制周期***状态,i=1,2,3...,ΔT为受控***的控制周期;
S204.计算奖励函数
Figure FDA0002903010370000027
Figure FDA0002903010370000028
S205.获得下一控制周期***状态X(i+1)ΔT,更新***价值函数参数θ和学习参数P:
Figure FDA0002903010370000031
Figure FDA0002903010370000032
Figure FDA0002903010370000033
θ=θ+gradient
Figure FDA0002903010370000034
gradient为中间量,γ为预测因子,0<γ<1;
S206.更新阻抗控制参数K:当i为iupdate的倍数时,将θ的元素依次排列为一个n*n的矩阵,并对H进行分块得到
Figure FDA0002903010370000035
其中H21为和K同维度的矩阵;令Kupdated=K-l*(H21+KH22),K=Kupdated;l为更新权重;
S207.学习周期终止判定:若iΔT≥Tmax,该学习周期终止,否则令i=i+1,返回S203;Tmax为一个学习周期最大长度;
S208.学习终止判定:在第k个学习周期前后的控制律分别为u=KkX和u=Kk-1X,若max(abs(Kk-Kk-1))≤ε,则学习过程终止,得到的阻抗控制器为u=KkX,否则返回S202;ε为终止判定阈值。
5.一种基于强化学习的阻抗控制器设计***,其特征在于,包括:
控制目标设计模块,用于设计奖励函数和价值函数;奖励函数设置为
Figure FDA0002903010370000036
价值函数设置为
Figure FDA0002903010370000037
Figure FDA0002903010370000038
其中,
Figure FDA0002903010370000039
q,
Figure FDA00029030103700000310
f分别表示受控***当前的位置、速度和受到的外力;Qf,Qx,Qv分别为外力、位置、速度在阻抗控制器设计目标中的权重;u=KX为***的控制输入;K为待设计优化的阻抗控制参数,
Figure FDA00029030103700000311
Figure FDA00029030103700000312
表示矩阵的克罗内克积;θ为价值函数参数;
阻抗控制参数优化模块,用于基于奖励函数和价值函数,采用强化学习的方法估计θ,获得最优的阻抗控制参数K,完成阻抗控制器的设计。
6.根据权利要求5所述的一种基于强化学习的阻抗控制器设计***,其特征在于,控制目标设计模块具体实施过程为:
将受控***受到的外力f视为***状态的一部分,得到增广状态向量为
Figure FDA0002903010370000041
q,
Figure FDA0002903010370000042
f分别表示受控***当前的位置、速度和受到的外力;阻抗控制器的形式设置为u=KX,u为***的控制输入,K为待设计和优化的阻抗控制参数;
将控制输入u、受控***当前位置q,速度
Figure FDA0002903010370000043
和受到的外力f视为控制***的代价,将代价函数设置为:
Figure FDA0002903010370000044
Q1,Q2,Q3为控制权重,均为正实数;
将f=Feq代入代价函数得到:
Figure FDA0002903010370000045
Figure FDA0002903010370000046
矩阵形式为
Figure FDA0002903010370000047
奖励函数设计为代价函数的相反数:
Figure FDA0002903010370000048
价值函数设计为奖励函数的累加
Figure FDA0002903010370000049
7.根据权利要求6所述的一种基于强化学习的阻抗控制器设计***,其特征在于,增广状态向量X中元素的排列顺序任意,K、ck、r、Qv(X,u)、
Figure FDA00029030103700000410
θ的具体形式根据X中元素的排列顺序变化。
8.根据权利要求5所述的一种基于强化学习的阻抗控制器设计***,其特征在于,阻抗控制参数优化模块的实施过程具体为:
S201.学习过程初始化:设置K为零向量,θ为零向量,设置更新周期iupdate,iupdate为正整数;
S202.学习周期初始化:将受控***设置为起始状态XΔT,设置学习参数P=δH,其中δ为一个正整数,H为n*n的单位矩阵;
S203.计算控制输入u=KXiΔr+σRand,Rand为随机数,σ为权重因子;XiΔT为当前控制周期***状态,i=1,2,3...,ΔT为受控***的控制周期;
S204.计算奖励函数
Figure FDA0002903010370000051
S205.获得下一控制周期***状态X(i+1)ΔT,更新***价值函数参数θ和学习参数P:
Figure FDA0002903010370000052
Figure FDA0002903010370000053
Figure FDA0002903010370000054
θ=θ+gradient
Figure FDA0002903010370000055
gradient为中间量,γ为预测因子,0<γ<1。
S206.更新阻抗控制参数K:当i为iupdate的倍数时,将θ的元素依次排列为一个n*n的矩阵,并对H进行分块得到
Figure FDA0002903010370000056
其中H21为和K同维度的矩阵;令Kupdated=K-l*(H21+KH22),K=Kupdated;l为更新权重;
S207.学习周期终止判定:若iΔT≥Tmax,该学习周期终止,否则令i=i+1,返回S203;Tmax为一个学习周期最大长度;
S208.学习终止判定:在第k个学习周期前后的控制律分别为u=KkX和u=Kk-1X,若max(abs(Kk-Kk-1))≤ε,则学习过程终止,得到的阻抗控制器为u=KkX,否则返回S202;ε为终止判定阈值。
CN202110061914.9A 2021-01-18 2021-01-18 一种基于强化学习的阻抗控制器设计方法和*** Active CN112894809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110061914.9A CN112894809B (zh) 2021-01-18 2021-01-18 一种基于强化学习的阻抗控制器设计方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110061914.9A CN112894809B (zh) 2021-01-18 2021-01-18 一种基于强化学习的阻抗控制器设计方法和***

Publications (2)

Publication Number Publication Date
CN112894809A true CN112894809A (zh) 2021-06-04
CN112894809B CN112894809B (zh) 2022-08-02

Family

ID=76114670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110061914.9A Active CN112894809B (zh) 2021-01-18 2021-01-18 一种基于强化学习的阻抗控制器设计方法和***

Country Status (1)

Country Link
CN (1) CN112894809B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114789444A (zh) * 2022-05-05 2022-07-26 山东省人工智能研究院 一种基于深度强化学习和阻抗控制的柔顺人机接触方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107020636A (zh) * 2017-05-09 2017-08-08 重庆大学 一种基于策略梯度的机器人学习控制方法
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN111401556A (zh) * 2020-04-22 2020-07-10 清华大学深圳国际研究生院 一种对抗式模仿学习中奖励函数的选择方法
CN111531543A (zh) * 2020-05-12 2020-08-14 中国科学院自动化研究所 基于生物启发式神经网络的机器人自适应阻抗控制方法
CN111613200A (zh) * 2020-05-26 2020-09-01 辽宁工程技术大学 一种基于强化学习的降噪方法
US10766136B1 (en) * 2017-11-03 2020-09-08 Amazon Technologies, Inc. Artificial intelligence system for modeling and evaluating robotic success at task performance
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN111782870A (zh) * 2020-06-18 2020-10-16 湖南大学 基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107020636A (zh) * 2017-05-09 2017-08-08 重庆大学 一种基于策略梯度的机器人学习控制方法
US10766136B1 (en) * 2017-11-03 2020-09-08 Amazon Technologies, Inc. Artificial intelligence system for modeling and evaluating robotic success at task performance
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN111401556A (zh) * 2020-04-22 2020-07-10 清华大学深圳国际研究生院 一种对抗式模仿学习中奖励函数的选择方法
CN111531543A (zh) * 2020-05-12 2020-08-14 中国科学院自动化研究所 基于生物启发式神经网络的机器人自适应阻抗控制方法
CN111613200A (zh) * 2020-05-26 2020-09-01 辽宁工程技术大学 一种基于强化学习的降噪方法
CN111782870A (zh) * 2020-06-18 2020-10-16 湖南大学 基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
M.戈帕尔: "《机器学习及其应用》", 30 April 2020, 机械工业出版社 *
李科霖: "复杂结构柔顺加工的人机示教编程与机器人力控研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114789444A (zh) * 2022-05-05 2022-07-26 山东省人工智能研究院 一种基于深度强化学习和阻抗控制的柔顺人机接触方法
CN114789444B (zh) * 2022-05-05 2022-12-16 山东省人工智能研究院 一种基于深度强化学习和阻抗控制的柔顺人机接触方法

Also Published As

Publication number Publication date
CN112894809B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN107662208B (zh) 一种基于神经网络的柔性关节机械臂有限时间自适应反步控制方法
CN110286595B (zh) 一类受饱和非线性输入影响的分数阶***自适应控制方法
CN107561935A (zh) 基于多层神经网络的电机位置伺服***摩擦补偿控制方法
CN111665853A (zh) 一种面向规划控制联合优化的无人车辆运动规划方法
CN112904726B (zh) 一种基于误差重构权重更新的神经网络反步控制方法
CN112894809B (zh) 一种基于强化学习的阻抗控制器设计方法和***
CN107193210B (zh) 一种非线性***的自适应学习预设性能控制方法
CN106773684B (zh) 基于智能学习评价的柔性机械臂复合控制方法
CN110162739A (zh) 基于变遗忘因子的rffklms算法权值更新优化方法
CN104834218B (zh) 一种平行单级双倒立摆的动态面控制器结构及设计方法
CN111880412A (zh) 基于单评判网络的可重构机器人零和神经最优控制方法
CN113589689A (zh) 一种基于多参数自适应神经网络的滑模控制器设计方法
CN111367175B (zh) 一种未知转移概率跳变***的邻态偏差智能控制方法
CN114326405B (zh) 一种基于误差训练的神经网络反步控制方法
CN112000116A (zh) 一种基于改进萤火虫pid方法的自主水下航行器航向角控制方法
CN110991606B (zh) 基于径向基神经网络的压电陶瓷驱动器复合控制方法
CN113346552A (zh) 基于积分式强化学习的自适应最优agc控制方法
CN109709809B (zh) 基于磁滞内核的电/磁流变执行器的建模方法及其跟踪方法
CN114559429B (zh) 基于自适应迭代学习的柔性机械臂的神经网络控制方法
CN110554605A (zh) 一种基于约束跟踪的复杂机械***自适应鲁棒控制方法
CN112346342B (zh) 一种非仿射动力学***的单网络自适应评价设计方法
CN114859725A (zh) 一种非线性***自适应事件触发控制方法及***
CN112147897B (zh) 离散不确定多时滞四旋翼***的容错控制方法
CN114139282A (zh) 一种跨介质飞行器的入水冲击载荷建模方法
CN111221250B (zh) 一种具有参数不确定性和多个外部扰动的非线性***及其设计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant