CN118181277A - 一种自适应神经网络驱动机器人动力优化控制方法及*** - Google Patents

一种自适应神经网络驱动机器人动力优化控制方法及*** Download PDF

Info

Publication number
CN118181277A
CN118181277A CN202410235652.7A CN202410235652A CN118181277A CN 118181277 A CN118181277 A CN 118181277A CN 202410235652 A CN202410235652 A CN 202410235652A CN 118181277 A CN118181277 A CN 118181277A
Authority
CN
China
Prior art keywords
network
ddpg
robot
neural network
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410235652.7A
Other languages
English (en)
Inventor
洪伟
杨强强
蒋勇
柯海鹏
吴肖
徐广学
刘华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaneng Nuclear Energy Technology Research Institute Co Ltd
Original Assignee
Huaneng Nuclear Energy Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaneng Nuclear Energy Technology Research Institute Co Ltd filed Critical Huaneng Nuclear Energy Technology Research Institute Co Ltd
Priority to CN202410235652.7A priority Critical patent/CN118181277A/zh
Publication of CN118181277A publication Critical patent/CN118181277A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种自适应神经网络驱动机器人动力优化控制方法,涉及机器人技术领域,包括整合多种传感器,实时收集环境数据;构建DDPG模型,并训练DDPG模型,使用训练的模型处理数据;动态调整机器人各爬行单元的动力输出;以提高对复杂环境适应能力和操作效率为目的,进行自主学习和优化。DDPG模型包括演员网络、输入层、隐藏层以及输出层,所述输入层接收多维传感器数据输入;所述隐藏层包含两层全连接层,每层256个神经元,使用ReLU激活函数输出层;所述输出层生成多维动力输出,本发明通过深度学习模型自主学习环境特征和动力响应,提高了机器人***在未知环境中的自适应性和灵活性,能够在复杂的决策过程中实现更高质量的动力输出决策。

Description

一种自适应神经网络驱动机器人动力优化控制方法及***
技术领域
本发明涉及机器人技术领域,特别是一种自适应神经网络驱动机器人动力优化控制方法及***。
背景技术
近年来,随着自动化和智能化技术的快速发展,机器人在各种工业和商业应用中的使用变得越来越普遍。特别是在难以接近或对人类操作人员具有潜在危险的环境中,机器人的应用显得尤为重要。例如,在发电机等大型机械设备中,维护和检查工作通常需要在狭窄和复杂的空间内进行,这对机器人的机动性和适应性提出了高要求。目前,大多数用于此类应用的机器人依赖于预设的程序和路径来导航。然而,这些方法在复杂或变化的环境中可能不够灵活或高效。因此,存在一种需求,即开发一种能够自主学习和适应其运行环境的机器人***,以提高操作的灵活性和效率。在这种背景下,自学习式神经网络成为了一种有前景的解决方案。通过利用神经网络的学习和适应能力,机器人可以实时调整其行为,以适应复杂的环境和任务要求。然而,当前的技术在动力分配和运动控制方面仍存在限制,这限制了机器人在特定应用中的性能和效率。
针对这一问题,本发明提出了一种新型的动力分配***,该***通过自学习式神经网络来优化爬行机器人在发电机等设备内部的移动,从而提高其整体性能和适应性。
发明内容
鉴于现有的狭窄空间应用机器人依赖于预设的程序和路径来导航,在复杂或变化的环境中不够灵活高效的问题,提出了本发明。
因此,本发明所要解决的问题在于提供了一种自学习式神经网络驱动的爬行机器人动力分配***优化机器人在狭窄空间爬行的效率与安全性。
为解决上述技术问题,本发明提供如下技术方案:
第一方面,本发明实施例提供了一种自适应神经网络驱动机器人动力优化控制方法,其包括整合多种传感器,包括视觉、触觉、温度以及距离传感器,实时收集环境数据;构建DDPG模型,并训练DDPG模型,使用训练的模型处理数据;动态调整机器人各爬行单元的动力输出;以提高对复杂环境适应能力和操作效率为目的,进行自主学习和优化。
作为本发明自适应神经网络驱动机器人动力优化控制方法的一种优选方案,其中:DDPG模型包括演员网络、输入层、隐藏层以及输出层,输入层接收多维传感器数据输入;隐藏层包含两层全连接层,每层256个神经元,使用ReLU激活函数输出层;输出层生成多维动力输出,使用tanh激活函数,确保输出值在-1到1之间。
作为本发明自适应神经网络驱动机器人动力优化控制方法的一种优选方案,其中:动力输出的具体公式如下:
Pi=g(Ai,θ)
其中,Pi表示第i个爬行单元的动力输出,θ表示演员网络的参数,Ai表示i对应的动力输出决策,g表示演员网络的决策函数。
作为本发明自适应神经网络驱动机器人动力优化控制方法的一种优选方案,其中:训练DDPG模型包括以下步骤:将代码导入TensorFlow、deque、random以及NumPy;定义一个需要输入和输出维度作为参数的函数build_actor_network用于构建演员网络;定义一个需要输入维度作为参数的函数build_critic_network用于构建评论家网络;初始化演员和评论家网络,并创建一个回放缓冲区;定义train_ddpg函数进行训练;定义update_networks函数用于更新演员和评论家网络的参数;裁剪动作值,通过safe_action函数确保动作在安全范围内;调用train_ddpg函数开始训练。
作为本发明自适应神经网络驱动机器人动力优化控制方法的一种优选方案,其中:定义train_ddpg函数进行训练包括以下步骤:接收总的训练回合数、每回合的最大步数和批次大小作为参数;在每一回合中,重置环境,演员网络根据当前状态预测动作,然后执行动作并获得新状态和奖励;将经验存储在回放缓冲区中;当回放缓冲区数据足够时,从中随机采样一个批次进行网络更新。
作为本发明自适应神经网络驱动机器人动力优化控制方法的一种优选方案,其中:自主学习和优化包括对当前策略评估,当前策略评估的具体公式如下:
Q=b+SC+EIC
其中,Q表示当前策略评估值,b表示偏置项,SC表示传感器数据贡献,EIC表示环境与内部状态贡献;传感器数据贡献的具体公式如下:
其中,SC表示传感器数据贡献,S(j)表示第j个传感器的数据,f(S(j))表示传感器数据处理函数,w表示权重,j表示第j个传感器;环境与内部状态贡献的具体公式如下:
其中,EIC表示环境与内部状态贡献,E表示环境状态,Φ表示内部状态,θ表示网络参数,ψ表示复杂函数,A表示动作。
作为本发明自适应神经网络驱动机器人动力优化控制方法的一种优选方案,其中:训练DDPG模型还包括超参数设置,超参数设置包括设置学习率、折扣因子、目标网络更新率以及回放缓冲区大小;设置演员网络的学习率为0.0001,评论家网络的学习率为0.001;折扣因子设置为0.99;目标网络更新率设置为0.005;回放缓冲区大小设置为1e6。
第二方面,本发明实施例提供了自适应神经网络驱动机器人动力优化控制***,其包括数据收集单元,用于整合多种传感器,实时收集环境数据;模型构建单元,用于构建DDPG模型,并训练DDPG模型,使用训练的模型处理数据;动态调整单元,动态调整机器人各爬行单元的动力输出;迭代优化单元,用于以提高对复杂环境适应能力和操作效率为目的,进行自主学习和优化。
第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,其中:计算机程序指令被处理器执行时实现如本发明第一方面的自适应神经网络驱动机器人动力优化控制方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中:计算机程序指令被处理器执行时实现如本发明第一方面的自适应神经网络驱动机器人动力优化控制方法的步骤。
本发明有益效果为:通过深度学习模型自主学习环境特征和动力响应,提高了机器人***在未知环境中的自适应性和灵活性,机器人能够根据环境变化,如障碍物位置、温湿度等条件,实时调整动力输出策略,以最优方式完成任务,利用演员-评论家架构,能够在复杂的决策过程中实现更高质量的动力输出决策。演员网络负责生成动作,而评论家网络评估这些动作的潜在效用,通过不断学习和反馈,不仅提升了动力***的性能,还确保了决策过程的高效性和准确性,通过精确控制每个动作的动力输出,有效减少了能源浪费,提高了能源使用效率,这种优化的动力管理不仅降低了运营成本,还有助于延长机器人的使用寿命,提高了机器人***的整体可持续性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为自适应神经网络驱动机器人动力优化控制方法的流程图。
图2为自适应神经网络驱动机器人动力优化控制方法在不同环境复杂度下的性能表现图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
实施例1
参照图1,为本发明第一个实施例,该实施例提供了一种自适应神经网络驱动机器人动力优化控制方法,包括以下步骤:
S1:整合多种传感器,包括视觉、触觉、温度以及距离传感器,实时收集环境数据。
具体的,采用10维传感器,10维传感器包括距离传感器(前向),用于测量机器人前方的距离,以便于检测前方的障碍物;距离传感器(侧向),用于测量机器人两侧的距离,以检测侧面的障碍;触觉传感器(底部),用于检测机器人底部与地面的接触情况;触觉传感器(顶部),用于检测机器人顶部与障碍物的接触情况。温度传感器,用于测量机器人周围的环境温度;湿度传感器,用于测量机器人周围的环境湿度;距离传感器(前向)加速度计,用于测量机器人的加速度,帮助判断移动速度和方向;陀螺仪,用于测量机器人的方向和旋转角度、定位和平衡控制;声波传感器,用于通过发射和接收声波,测量机器人与周围物体的距离;光线传感器,用于检测环境的光线强度、调整机器人的视觉***。
优选的,采用多种传感器实时收集环境数据,包括但不限于视觉、触觉、温度以及距离传感器,以获取周围环境的全面信息。
进一步的,传感器布局,触觉传感器布置于底部和侧面,用于检测接触压力;距离传感器布置于前端和侧面,使用超声波或激光测距;温度和湿度传感器布置于机器人体表;陀螺仪和加速度计布置于中心控制单元内部,用于监测方向和加速度。
优选的,这些传感器数据的组合提供了机器人对其周围环境的全面感知,使其能够根据不同的环境条件和任务需求进行动力分配和导航调整。在DDPG模型中,这些数据被用作输入,以帮助模型学习如何在各种条件下最有效地操作机器人。
S2:构建DDPG模型,并训练DDPG模型,使用训练的模型处理数据。
具体的,DDPG模型包括演员网络、输入层、隐藏层以及输出层,输入层接收10维传感器数据输入;隐藏层包含两层全连接层,每层256个神经元,使用ReLU激活函数输出层;输出层生成4维动力输出,使用tanh激活函数,确保输出值在-1到1之间。
优选的,ReLU函数是非线性的,这使得神经网络能够学习复杂的非线性关系,ReLU函数的计算非常简单,即对输入取最大值并输出,不涉及复杂的数学运算,如指数或对数运算。这降低了网络训练和推理的计算成本,当输入为负数时,ReLU的输出为零,这意味着在网络的训练过程中,一些神经元会变得不活跃(输出恒为零),从而实现了稀疏激活性。这有助于减少过拟合,提高模型的泛化能力。
进一步的,ReLU函数在正数范围内具有恒定的梯度为1,这有助于缓解梯度消失问题。梯度消失是深度神经网络中常见的问题,特别是使用Sigmoid或Tanh等激活函数时,由于它们的梯度在接近饱和区域时接近零,导致反向传播过程中梯度几乎消失,难以有效地更新网络参数。对于较大的正数输入,ReLU函数的梯度仍然为1,这有助于缓解梯度***问题。梯度***是指在反向传播过程中,梯度变得非常大,导致数值不稳定和训练困难。ReLU函数的有界性质有助于限制梯度的大小,减少梯度***的发生。
进一步的,训练DDPG模型还包括超参数设置,超参数设置包括设置学习率、折扣因子、目标网络更新率以及回放缓冲区大小;设置演员网络的学习率为0.0001,评论家网络的学习率为0.001;折扣因子设置为0.99;目标网络更新率设置为0.005;回放缓冲区大小设置为1e6。
进一步的,训练DDPG模型包括以下步骤:将代码导入TensorFlow、deque、random以及NumPy;定义一个需要输入和输出维度作为参数的函数build_actor_network用于构建演员网络;定义一个需要输入维度作为参数的函数build_critic_network用于构建评论家网络;初始化演员和评论家网络,并创建一个回放缓冲区;定义train_ddpg函数进行训练;定义update_networks函数用于更新演员和评论家网络的参数;裁剪动作值,通过safe_action函数确保动作在安全范围内;调用train_ddpg函数开始训练。
更进一步的,定义train_ddpg函数进行训练包括以下步骤:接收总的训练回合数、每回合的最大步数和批次大小作为参数;在每一回合中,重置环境,演员网络根据当前状态预测动作,然后执行动作并获得新状态和奖励;将经验存储在回放缓冲区中;当回放缓冲区数据足够时,从中随机采样一个批次进行网络更新。
S3:动态调整机器人各爬行单元的动力输出。
具体的,动力输出的具体公式如下:
Pi=g(Ai,θ)
其中,Pi表示第i个爬行单元的动力输出,用于指示该单元应该施加多少力量或速度,θ表示演员网络的参数,参数通过学习过程优化,以便更好地预测在给定状态下哪些动作会产生最优的奖励或结果,Ai表示i对应的动力输出决策,g表示演员网络的决策函数,接收动作Ai和网络参数θ作为输入,输出具体的动力值Pi
进一步的,策略计算输入机器人的状态:
其中,S表示机器人的状态,Stactile表示触觉传感器数据,用于检测机器人与其他物体的接触情况,Sdistance表示距离传感器数据,用于测量机器人与周围物体的距离,包括前向和侧向距离,Stemp表示温度传感器数据,用于监测机器人周围环境的温度,Shumid表示湿度传感器数据,用于监测机器人周围环境的湿度,Sgyro表示陀螺仪数据,用于测量机器人的方向和旋转角度,帮助进行定位和平衡控制,Saccel表示加速度计数据,测量机器人的加速度,以判断其移动速度和方向。
S4:以提高对复杂环境适应能力和操作效率为目的,进行自主学习和优化。
具体的,评论家网络包括输入层、隐藏层和输出层,输入层结合10维传感器数据和4维动力输出;隐藏层为两层全连接层,每层256个神经元,使用ReLU激活函数;输出层为单一值输出,预测当前状态和动作的Q值。
进一步的,自主学习和优化包括对当前策略评估,当前策略评估的具体公式如下:
Q=b+SC+EIC
其中,Q表示当前策略评估值,b表示偏置项,SC表示传感器数据贡献,EIC表示环境与内部状态贡献。
更进一步的,传感器数据贡献的具体公式如下:
其中,SC表示传感器数据贡献,S(j)表示第j个传感器的数据,f(S(j))表示传感器数据处理函数,w表示权重,j表示第j个传感器。
更进一步的,环境与内部状态贡献的具体公式如下:
其中,EIC表示环境与内部状态贡献,E表示环境状态,Φ表示内部状态,θ表示网络参数,ψ表示复杂函数,A表示动作。
进一步的,本实施例还提供一种自适应神经网络驱动机器人动力优化控制***,包括数据收集单元,用于整合多种传感器,实时收集环境数据;模型构建单元,用于构建DDPG模型,并训练DDPG模型,使用训练的模型处理数据;动态调整单元,动态调整机器人各爬行单元的动力输出;迭代优化单元,用于以提高对复杂环境适应能力和操作效率为目的,进行自主学习和优化。
本实施例还提供一种计算机设备,适用于自适应神经网络驱动机器人动力优化控制方法的情况,包括存储器和处理器;存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,实现如上述实施例提出的自适应神经网络驱动机器人动力优化控制方法。
该计算机设备可以是终端,该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例提出的实现一种基于运行状态的燃煤机组搁置成本补贴计算方法;存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
综上,通过深度学习模型自主学习环境特征和动力响应,提高了机器人***在未知环境中的自适应性和灵活性。机器人能够根据环境变化,如障碍物位置、温湿度等条件,实时调整动力输出策略,以最优方式完成任务,利用演员-评论家架构,能够在复杂的决策过程中实现更高质量的动力输出决策。演员网络负责生成动作,而评论家网络评估这些动作的潜在效用,通过不断学习和反馈,不仅提升了动力***的性能,还确保了决策过程的高效性和准确性。通过精确控制每个动作的动力输出,有效减少了能源浪费,提高了能源使用效率。这种优化的动力管理不仅降低了运营成本,还有助于延长机器人的使用寿命,提高了机器人***的整体可持续性。
实施例2
参照图1,为本发明第二个实施例,该实施例提供了一种自适应神经网络驱动机器人动力优化控制方法,与上个实施例不同的是:
具体的,DDPG模型包括演员网络、输入层、隐藏层以及输出层,输入层接收12维传感器数据输入(增加了2维用于更精确的环境感知);隐藏层包含三层全连接层,每层512个神经元,使用LeakyReLU激活函数输出层;输出层生成5维动力输出,增加了一个维度以提供更精细的控制,使用sigmoid激活函数,确保输出值在0到1之间。
更进一步的,评论家网络的输入层结合12维传感器数据和5维动力输出,隐藏层为三层全连接层,每层512个神经元,使用LeakyReLU激活函数。
优选的,传感器增加了振动传感器和声音传感器,用于更细致的环境感知。
优选的,策略计算输入机器人的状态:
其中,S表示机器人的状态,Stactile表示触觉传感器数据,用于检测机器人与其他物体的接触情况,Sdistance表示距离传感器数据,用于测量机器人与周围物体的距离,包括前向和侧向距离,Stemp表示温度传感器数据,用于监测机器人周围环境的温度,Shumid表示湿度传感器数据,用于监测机器人周围环境的湿度,Sgyro表示陀螺仪数据,用于测量机器人的方向和旋转角度,帮助进行定位和平衡控制,Saccel表示加速度计数据,测量机器人的加速度,以判断其移动速度和方向,Svibration表示振动传感器数据,Ssound表示声音传感器数据。
优选的,为新的5维动力输出设置新的安全阈值。
具体的,这个改进的实例更加注重于通过深度学习DDPG模型优化机器人在特定挑战环境(例如狭窄通道)中的动力输出控制。通过增加额外的传感器维度和动力输出维度,以及使用更复杂的网络结构,旨在提供更精细和高效的环境感知和动力管理,确保机器人能够在复杂环境中表现得更加灵活和高效。
实施例3
参照图2,为本发明第二个实施例,该实施例提供了一种自适应神经网络驱动机器人动力优化控制方法,为了验证本发明的有益效果,通过经济效益计算和仿真实验进行科学论证。
在实验室条件下对本发明进行了一系列测试,以验证其性能。与传统动力控制***相比,本发明能够在各种复杂环境中实现更快的任务完成时间、更高的能源效率和更低的错误率。说明书附图2展示了机器人在模拟环境中的行为路径、动力输出调整过程以及任务执行前后的能源消耗对比,明显证明了本发明的优越性。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种自适应神经网络驱动机器人动力优化控制方法,其特征在于:包括,
整合多种传感器,包括视觉、触觉、温度以及距离传感器,实时收集环境数据;
构建DDPG模型,并训练DDPG模型,使用训练的模型处理数据;
动态调整机器人各爬行单元的动力输出;
以提高对复杂环境适应能力和操作效率为目的,进行自主学习和优化。
2.如权利要求1所述的自适应神经网络驱动机器人动力优化控制方法,其特征在于:所述DDPG模型包括演员网络、输入层、隐藏层以及输出层,所述输入层接收多维传感器数据输入;所述隐藏层包含两层全连接层,每层256个神经元,使用ReLU激活函数输出层;所述输出层生成多维动力输出,使用tanh激活函数,确保输出值在-1到1之间。
3.如权利要求2所述的自适应神经网络驱动机器人动力优化控制方法,其特征在于:所述动力输出的具体公式如下:
Pi=g(Ai,θ)
其中,Pi表示第i个爬行单元的动力输出,θ表示演员网络的参数,Ai表示i对应的动力输出决策,g表示演员网络的决策函数。
4.如权利要求1所述的自适应神经网络驱动机器人动力优化控制方法,其特征在于:所述训练DDPG模型包括以下步骤:
将代码导入TensorFlow、deque、random以及NumPy;
定义一个需要输入和输出维度作为参数的函数build_actor_network用于构建演员网络;
定义一个需要输入维度作为参数的函数build_critic_network用于构建评论家网络;
初始化演员和评论家网络,并创建一个回放缓冲区;
定义train_ddpg函数进行训练;
定义update_networks函数用于更新演员和评论家网络的参数;
裁剪动作值,通过safe_action函数确保动作在安全范围内;
调用train_ddpg函数开始训练。
5.如权利要求4所述的自适应神经网络驱动机器人动力优化控制方法,其特征在于:所述定义train_ddpg函数进行训练包括以下步骤:
接收总的训练回合数、每回合的最大步数和批次大小作为参数;
在每一回合中,重置环境,
演员网络根据当前状态预测动作,执行动作并获得新状态和奖励;
将经验存储在回放缓冲区中;
当回放缓冲区数据足够时,从中随机采样一个批次进行网络更新。
6.如权利要求1所述的自适应神经网络驱动机器人动力优化控制方法,其特征在于:所述自主学习和优化包括对当前策略评估,当前策略评估的具体公式如下:
Q=b+SC+EIC
其中,Q表示当前策略评估值,b表示偏置项,SC表示传感器数据贡献,EIC表示环境与内部状态贡献;
传感器数据贡献的具体公式如下:
其中,SC表示传感器数据贡献,S(j)表示第j个传感器的数据,f(S(j))表示传感器数据处理函数,w表示权重,j表示第j个传感器;
环境与内部状态贡献的具体公式如下:
其中,EIC表示环境与内部状态贡献,E表示环境状态,Φ表示内部状态,θ表示网络参数,ψ表示复杂函数,A表示动作。
7.如权利要求1所述的自适应神经网络驱动机器人动力优化控制方法,其特征在于:所述训练DDPG模型还包括超参数设置,所述超参数设置包括设置学习率、折扣因子、目标网络更新率以及回放缓冲区大小;
设置演员网络的学习率为0.0001,评论家网络的学习率为0.001;
折扣因子设置为0.99;
目标网络更新率设置为0.005;
回放缓冲区大小设置为1e6。
8.一种自适应神经网络驱动机器人动力优化控制***,基于权利要求1~7任一所述的自适应神经网络驱动机器人动力优化控制方法,其特征在于:还包括,
数据收集单元,用于整合多种传感器,包括视觉、触觉、温度以及距离传感器,实时收集环境数据;
模型构建单元,用于构建DDPG模型,并训练DDPG模型,使用训练的模型处理数据;
动态调整单元,动态调整机器人各爬行单元的动力输出;
迭代优化单元,用于以提高对复杂环境适应能力和操作效率为目的,进行自主学习和优化。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1~7任一所述的自适应神经网络驱动机器人动力优化控制方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1~7任一所述的自适应神经网络驱动机器人动力优化控制方法的步骤。
CN202410235652.7A 2024-03-01 2024-03-01 一种自适应神经网络驱动机器人动力优化控制方法及*** Pending CN118181277A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410235652.7A CN118181277A (zh) 2024-03-01 2024-03-01 一种自适应神经网络驱动机器人动力优化控制方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410235652.7A CN118181277A (zh) 2024-03-01 2024-03-01 一种自适应神经网络驱动机器人动力优化控制方法及***

Publications (1)

Publication Number Publication Date
CN118181277A true CN118181277A (zh) 2024-06-14

Family

ID=91412931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410235652.7A Pending CN118181277A (zh) 2024-03-01 2024-03-01 一种自适应神经网络驱动机器人动力优化控制方法及***

Country Status (1)

Country Link
CN (1) CN118181277A (zh)

Similar Documents

Publication Publication Date Title
US8996177B2 (en) Robotic training apparatus and methods
US11161241B2 (en) Apparatus and methods for online training of robots
US9687984B2 (en) Apparatus and methods for training of robots
US12067491B2 (en) Multi-agent reinforcement learning with matchmaking policies
Motlagh et al. An expert fuzzy cognitive map for reactive navigation of mobile robots
Rogers et al. Multidimensional control systems: case studies in design and evaluation
EP3788549B1 (en) Stacked convolutional long short-term memory for model-free reinforcement learning
US9189730B1 (en) Modulated stochasticity spiking neuron network controller apparatus and methods
US9367798B2 (en) Spiking neuron network adaptive control apparatus and methods
US9082079B1 (en) Proportional-integral-derivative controller effecting expansion kernels comprising a plurality of spiking neurons associated with a plurality of receptive fields
Jeerige et al. Comparison of deep reinforcement learning approaches for intelligent game playing
US10481565B2 (en) Methods and systems for nonlinear adaptive control and filtering
US20230144995A1 (en) Learning options for action selection with meta-gradients in multi-task reinforcement learning
CN116848532A (zh) 具有短期记忆单元的注意力神经网络
US20230166397A1 (en) Method for obstacle avoidance in degraded environments of robots based on intrinsic plasticity of snn
Das Sharma et al. Harmony search-based hybrid stable adaptive fuzzy tracking controllers for vision-based mobile robot navigation
Rottmann et al. Adaptive autonomous control using online value iteration with gaussian processes
Chen et al. Mobile robot wall-following control by improved artificial bee colony algorithm to design a compensatory fuzzy logic controller
CN118181277A (zh) 一种自适应神经网络驱动机器人动力优化控制方法及***
Ponce et al. Distributed evolutionary learning control for mobile robot navigation based on virtual and physical agents
KR20230157488A (ko) 가중 정책 프로젝션을 사용한 다중 목적 강화 학습
Kaur et al. Learning robotic skills through reinforcement learning
Tamiz et al. A novel attention control modeling method for sensor selection based on fuzzy neural network learning
Subramanian et al. MDHO: mayfly deer hunting optimization algorithm for optimal obstacle avoidance based path planning using mobile robots
bin Kamarulariffin et al. Improving Deep Reinforcement Learning Training Convergence using Fuzzy Logic for Autonomous Mobile Robot Navigation.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination