CN111142378A - 一种双足机器人神经网络控制器的神经网络优化方法 - Google Patents

一种双足机器人神经网络控制器的神经网络优化方法 Download PDF

Info

Publication number
CN111142378A
CN111142378A CN202010015286.6A CN202010015286A CN111142378A CN 111142378 A CN111142378 A CN 111142378A CN 202010015286 A CN202010015286 A CN 202010015286A CN 111142378 A CN111142378 A CN 111142378A
Authority
CN
China
Prior art keywords
neural network
parameters
deep neural
robot
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010015286.6A
Other languages
English (en)
Inventor
王宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Sunrain Sign & Display System Co ltd
Original Assignee
Sichuan Sunrain Sign & Display System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Sunrain Sign & Display System Co ltd filed Critical Sichuan Sunrain Sign & Display System Co ltd
Priority to CN202010015286.6A priority Critical patent/CN111142378A/zh
Publication of CN111142378A publication Critical patent/CN111142378A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种双足机器人神经网络控制器的神经网络优化方法,所述双足机器人神经网络控制器采用全链接的深度神经网络,用于对双足机器人的行走控制,包括:S1对深度神经网络的拓扑结构进行优化;S2对拓扑结构优化后的深度神经网络的网络参数进行优化。本发明通过对深度神经网络进行拓扑结构和控制参数上的最优化,有效的避免网络陷入局部最优,很好的适应和解决了双足机器人非线性控制难的问题,从而能够更好的拟合出机器人***的参数模型。

Description

一种双足机器人神经网络控制器的神经网络优化方法
技术领域
本发明涉及行走机器人领域,特别涉及一种双足机器人神经网络控制器的神经网络优化方法。
背景技术
现有的机器人控制方法需要对机器人的各个结构的参数做分析和建模。
由于机器人各个部件的非线性特性和机器人的自由度比其他的***多且复杂,耦合度极高。对各个部件及***构成的***人工建立和分析***模型和参数,是一件非常困难和复杂的事情,得到的模型的稳定性和适用性很难保障。
而深度神经网络具备复杂的非线性特性,能够拟合各种非线性函数。所以针对机器人***这种高度非线性和高耦合性的***具备天生的优势。然而,利用现有技术的机器人神经网络控制器训练的网络容易陷入局部最优,无法较好的拟合出机器人***的参数模型。
发明内容
本发明的目的在于克服现有技术中机器人神经网络控制器训练的网络容易陷入局部最优,无法较好的拟合出机器人***的参数模型的不足,提供一种双足机器人神经网络控制器的神经网络优化方法,有效的避免网络陷入局部最优,从而能够更好的拟合出机器人***的参数模型。
为了实现上述发明目的,本发明提供了以下技术方案:
一种双足机器人神经网络控制器的神经网络优化方法,所述双足机器人神经网络控制器采用全链接的深度神经网络,用于对双足机器人的行走控制,包括如下步骤:
S1对深度神经网络的拓扑结构进行优化;
S2对拓扑结构优化后的深度神经网络的网络参数进行优化。
优选的,所述步骤S1包括:
S11提取环境的状态参数作为深度神经网络的输入,深度神经网络产生一个动作参数;
S12根据动作参数与状态参数按照设置的奖励规则得到奖励参数;
S13根据奖励参数,采用WANN算法对深度神经网络进行拓扑结构优化,提取动作完成后环境的状态参数作为优化后的深度神经网络的输入;其中,若根据奖励参数判断出机器人倒下,则将机器人复位,提取复位后环境的状态参数作为优化后的深度神经网络的输入;
循环S11-S13,直到训练次数达到设置好的次数,得到拓扑结构优化后的深度神经网络。
优选的,所述WANN算法的优化过程:在输入层和输出层之间随机的加入节点,并在新加入的节点和输入层、输出层之间进行随机连接,然后对得到的深度神经网络进行测试,将测试结果最优的深度神经网络留下来进行变异,继续随机的添加节点和改变链接关系,完成对深度神经网络的拓扑结构的优化。
优选的,所述步骤S2包括:S21提取环境的状态参数作为深度神经网络的输入,深度神经网络产生一个动作参数;
S22根据动作参数与状态参数按照设置的奖励规则得到奖励参数;
S23根据奖励参数,采用进化策略算法对深度神经网络进行网络参数优化,提取动作完成后环境的状态参数作为优化后的深度神经网络的输入;其中,若根据奖励参数判断出机器人倒下,则将机器人复位,提取复位后环境的状态参数作为优化后的深度神经网络的输入;
循环S21-S23,直到训练次数达到设置好的次数,得到网络参数优化后的深度神经网络。
优选的,所述动作参数包括完成该动作的各关节电机的转角。
优选的,所述奖励规则:
Figure BDA0002358647120000031
其中,reward为奖励,s为机器人向前移动距离,h为机器人盆骨高度,θ为盆骨仰角,m为电机总数。
优选的,所述进化策略算法为协方差自适应调整的进化策略,通过调整参数使得产生好解的概率逐渐增大,完成对深度神经网络的网络参数的优化。
优选的,所述状态参数包括:当前环境下的盆骨的俯仰角、偏航角、翻滚角,当前环境下的各关节的转角、转速,当前环境下的左右脚的压力值。
优选的,所述盆骨的俯仰角、偏航角、翻滚角采用IMU(惯性测量单元)进行测量。
根据本发明的另一方面,提供一种电子设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。
与现有技术相比,本发明的有益效果:
本发明的双足机器人神经网络控制器采用全链接的深度神经网络,通过对深度神经网络进行拓扑结构和控制参数上的最优化,有效的避免网络陷入局部最优,很好的适应和解决了双足机器人非线性控制难的问题,从而能够更好的拟合出机器人***的参数模型。
附图说明:
图1为本发明的流程图示意图。
图2为本发明的优化拓扑结构流程图示意图。
图3为本发明的优化网络参数流程图示意图。
图4为本发明的一种电子设备结构图示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
为了对机器人的非线性、高耦合的***进行建模,采用全链接的深度神经网络对***进行建模,深度神经网络是机器人的控制器,充当了对机器人状态到动作的映射功能。本发明通过一种双足机器人神经网络控制器的神经网络优化方法完成对深度神经网络的拓扑结构及网络参数的优化,如图1所示,首先步骤S1对拓扑结构进行优化,然后步骤S2对网络参数进行优化。
如图2所示,人工神经网络ANN即上述的深度神经网络,具体的步骤S1对ANN的拓扑结构进行优化,包括如下步骤:
S11提取环境的状态参数作为ANN的输入(状态参数包括:当前环境下的盆骨的俯仰角、偏航角、翻滚角,当前环境下的各关节的转角、转速,当前环境下的左右脚的压力值;其中,盆骨的俯仰角、偏航角、翻滚角采用IMU进行测量),ANN产生一个动作参数(动作参数包括完成该动作的各关节电机的转角);
S12根据动作参数与状态参数按照设置的奖励规则得到奖励参数;
其中,所述奖励规则:
Figure BDA0002358647120000051
其中,reward为奖励,s为机器人向前移动距离,h为机器人盆骨高度,θ为盆骨仰角,m为电机总数。
S13根据奖励参数,采用WANN算法对ANN进行拓扑结构优化,提取动作完成后环境的状态参数作为优化后的ANN的输入;其中,若根据奖励参数判断出机器人倒下,则将机器人复位,提取复位后环境的状态参数作为优化后的ANN的输入;其中,所述WANN算法的优化过程:在输入层和输出层之间随机的加入节点,并在新加入的节点和输入层、输出层之间进行随机连接,然后对得到的ANN进行测试,将测试结果最优的ANN留下来进行变异,继续随机的添加节点和改变链接关系,完成对ANN的拓扑结构的优化。
循环S11-S13,直到训练次数达到设置好的次数,得到拓扑结构优化后的ANN。
如图3所示,步骤S2对拓扑结构优化后的ANN的网络参数进行优化:
S21提取环境的状态参数作为ANN的输入,ANN产生一个动作参数;
S22根据动作参数与状态参数按照同样的奖励规则得到奖励参数;
S23根据奖励参数,采用进化策略算法对ANN进行网络参数优化,提取动作完成后环境的状态参数作为优化后的ANN的输入;其中,若根据奖励参数判断出机器人倒下,则将机器人复位,提取复位后环境的状态参数作为优化后的ANN的输入;其中,所述进化策略算法为协方差自适应调整的进化策略,通过调整参数使得产生好解的概率逐渐增大,完成对ANN的网络参数的优化。
循环S21-S23,直到训练次数达到设置好的次数,得到网络参数优化后的ANN。
图4示出了根据本发明示例性实施例的电子设备(例如具备程序执行功能的计算机服务器),其包括至少一个处理器,电源,以及与所述至少一个处理器通信连接的存储器和输入输出接口;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述任一实施例所公开的方法;所述输入输出接口可以包括显示器、键盘、鼠标、以及USB接口,用于输入输出数据;电源用于为电子设备提供电能。
本领域技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种双足机器人神经网络控制器的神经网络优化方法,其特征在于,所述双足机器人神经网络控制器采用全链接的深度神经网络,用于对双足机器人的行走控制,包括如下步骤:
S1对深度神经网络的拓扑结构进行优化;
S2对拓扑结构优化后的深度神经网络的网络参数进行优化。
2.根据权利要求1所述的双足机器人神经网络控制器的神经网络优化方法,其特征在于,所述步骤S1包括:
S11提取环境的状态参数作为深度神经网络的输入,深度神经网络产生一个动作参数;
S12根据动作参数与状态参数按照设置的奖励规则得到奖励参数;
S13根据奖励参数,采用WANN算法对深度神经网络进行拓扑结构优化,提取动作完成后环境的状态参数作为优化后的深度神经网络的输入;其中,若根据奖励参数判断出机器人倒下,则将机器人复位,提取复位后环境的状态参数作为优化后的深度神经网络的输入;
循环S11-S13,直到训练次数达到设置好的次数,得到拓扑结构优化后的深度神经网络。
3.根据权利要求2所述的双足机器人神经网络控制器的神经网络优化方法,其特征在于,所述WANN算法的优化过程:在输入层和输出层之间随机的加入节点,并在新加入的节点和输入层、输出层之间进行随机连接,然后对得到的深度神经网络进行测试,将测试结果最优的深度神经网络留下来进行变异,继续随机的添加节点和改变链接关系,完成对深度神经网络的拓扑结构的优化。
4.根据权利要求2所述的双足机器人神经网络控制器的神经网络优化方法,其特征在于,所述步骤S2包括:S21提取环境的状态参数作为深度神经网络的输入,深度神经网络产生一个动作参数;
S22根据动作参数与状态参数按照设置的奖励规则得到奖励参数;
S23根据奖励参数,采用进化策略算法对深度神经网络进行网络参数优化,提取动作完成后环境的状态参数作为优化后的深度神经网络的输入;其中,若根据奖励参数判断出机器人倒下,则将机器人复位,提取复位后环境的状态参数作为优化后的深度神经网络的输入;
循环S21-S23,直到训练次数达到设置好的次数,得到网络参数优化后的深度神经网络。
5.根据权利要求4所述的双足机器人神经网络控制器的神经网络优化方法,其特征在于,所述动作参数包括完成该动作的各关节电机的转角。
6.根据权利要求4所述的双足机器人神经网络控制器的神经网络优化方法,其特征在于,所述奖励规则:
Figure FDA0002358647110000021
其中,reward为奖励,s为机器人向前移动距离,h为机器人盆骨高度,θ为盆骨仰角,m为电机总数。
7.根据权利要求4所述的双足机器人神经网络控制器的神经网络优化方法,其特征在于,所述进化策略算法为协方差自适应调整的进化策略,通过调整参数使得产生好解的概率逐渐增大,完成对深度神经网络的网络参数的优化。
8.根据权利要求4所述的双足机器人神经网络控制器的神经网络优化方法,其特征在于,所述状态参数包括:当前环境下的盆骨的俯仰角、偏航角、翻滚角,当前环境下的各关节的转角、转速,当前环境下的左右脚的压力值。
9.根据权利要求8所述的双足机器人神经网络控制器的神经网络优化方法,其特征在于,所述盆骨的俯仰角、偏航角、翻滚角采用IMU进行测量。
10.一种电子设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。
CN202010015286.6A 2020-01-07 2020-01-07 一种双足机器人神经网络控制器的神经网络优化方法 Pending CN111142378A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010015286.6A CN111142378A (zh) 2020-01-07 2020-01-07 一种双足机器人神经网络控制器的神经网络优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010015286.6A CN111142378A (zh) 2020-01-07 2020-01-07 一种双足机器人神经网络控制器的神经网络优化方法

Publications (1)

Publication Number Publication Date
CN111142378A true CN111142378A (zh) 2020-05-12

Family

ID=70523877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010015286.6A Pending CN111142378A (zh) 2020-01-07 2020-01-07 一种双足机器人神经网络控制器的神经网络优化方法

Country Status (1)

Country Link
CN (1) CN111142378A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256028A (zh) * 2020-10-15 2021-01-22 华中科技大学 一种双足机器人柔顺步态控制方法、***、设备及介质
CN113143256A (zh) * 2021-01-28 2021-07-23 上海电气集团股份有限公司 步态特征提取方法、下肢评估、控制方法、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103203746A (zh) * 2012-09-29 2013-07-17 同济大学 两足机器人cpg控制网络拓扑结构构建方法
CN103204193A (zh) * 2013-04-08 2013-07-17 浙江大学 一种欠驱动双足机器人行走控制方法
CN104751228A (zh) * 2013-12-31 2015-07-01 安徽科大讯飞信息科技股份有限公司 深度神经网络的构建方法及***
CN108549237A (zh) * 2018-05-16 2018-09-18 华南理工大学 基于深度增强学习的预观控制仿人机器人步态规划方法
CN108983804A (zh) * 2018-08-27 2018-12-11 燕山大学 一种基于深度强化学习的双足机器人步态规划方法
CN109740738A (zh) * 2018-12-29 2019-05-10 腾讯科技(深圳)有限公司 一种神经网络模型训练方法、装置、设备和介质
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN110033089A (zh) * 2019-04-17 2019-07-19 山东大学 基于分布式估计算法的深度神经网络参数优化方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103203746A (zh) * 2012-09-29 2013-07-17 同济大学 两足机器人cpg控制网络拓扑结构构建方法
CN103204193A (zh) * 2013-04-08 2013-07-17 浙江大学 一种欠驱动双足机器人行走控制方法
CN104751228A (zh) * 2013-12-31 2015-07-01 安徽科大讯飞信息科技股份有限公司 深度神经网络的构建方法及***
CN108549237A (zh) * 2018-05-16 2018-09-18 华南理工大学 基于深度增强学习的预观控制仿人机器人步态规划方法
CN108983804A (zh) * 2018-08-27 2018-12-11 燕山大学 一种基于深度强化学习的双足机器人步态规划方法
CN109740738A (zh) * 2018-12-29 2019-05-10 腾讯科技(深圳)有限公司 一种神经网络模型训练方法、装置、设备和介质
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN110033089A (zh) * 2019-04-17 2019-07-19 山东大学 基于分布式估计算法的深度神经网络参数优化方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256028A (zh) * 2020-10-15 2021-01-22 华中科技大学 一种双足机器人柔顺步态控制方法、***、设备及介质
CN113143256A (zh) * 2021-01-28 2021-07-23 上海电气集团股份有限公司 步态特征提取方法、下肢评估、控制方法、设备及介质
CN113143256B (zh) * 2021-01-28 2023-09-26 上海电气集团股份有限公司 步态特征提取方法、下肢评估、控制方法、设备及介质

Similar Documents

Publication Publication Date Title
Tsounis et al. Deepgait: Planning and control of quadrupedal gaits using deep reinforcement learning
US8996177B2 (en) Robotic training apparatus and methods
CN111142378A (zh) 一种双足机器人神经网络控制器的神经网络优化方法
KR101912918B1 (ko) 학습 로봇, 그리고 이를 이용한 작업 솜씨 학습 방법
US20200233384A1 (en) Reinforcement learning method, recording medium, and reinforcement learning apparatus
CN114066333A (zh) 数据处理方法及装置
KR20210012672A (ko) 인공지능 기반 로봇 매니퓰레이터의 자동 제어 시스템 및 방법
CN111203890A (zh) 一种机器人的位置误差补偿方法
CN117215204B (zh) 基于强化学习的机器人步态训练方法及***
CN112365004A (zh) 一种机器人自主异常修复技能学习方法及***
CN115293052A (zh) 电力***有功潮流在线优化控制方法、存储介质和装置
CN111428869A (zh) 模型生成的方法、装置、计算机设备和存储介质
CN114529010A (zh) 一种机器人自主学习方法、装置、设备及存储介质
Wu et al. Custom sine waves are enough for imitation learning of bipedal gaits with different styles
WO2021186500A1 (ja) 学習装置、学習方法、及び、記録媒体
EP2898996A1 (en) Method of controlling a robotic system and a robotic system controller for implementing this method
CN114571456B (zh) 基于机器人技能学习的电连接器装配方法及***
Lee et al. Combining GRN modeling and demonstration-based programming for robot control
CN112782973B (zh) 基于双智能体协作博弈的双足机器人行走控制方法和***
CN113156925B (zh) 一种基于对抗网络的双足机器人行走控制方法及电子设备
Jiang et al. Motion sequence learning for robot walking based on pose optimization
Luo et al. Active online learning of the bipedal walking
Kaur et al. Learning robotic skills through reinforcement learning
CN117283565B (zh) 一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法
CN118017523B (zh) 一种电力***的电压控制方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200512

RJ01 Rejection of invention patent application after publication