CN111645076A - 一种机器人控制方法及设备 - Google Patents

一种机器人控制方法及设备 Download PDF

Info

Publication number
CN111645076A
CN111645076A CN202010552467.2A CN202010552467A CN111645076A CN 111645076 A CN111645076 A CN 111645076A CN 202010552467 A CN202010552467 A CN 202010552467A CN 111645076 A CN111645076 A CN 111645076A
Authority
CN
China
Prior art keywords
executed
action
actions
exploration
current state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010552467.2A
Other languages
English (en)
Other versions
CN111645076B (zh
Inventor
王东署
胡宇航
罗勇
辛健斌
王河山
马天磊
贾建华
张方方
陈书立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN202010552467.2A priority Critical patent/CN111645076B/zh
Publication of CN111645076A publication Critical patent/CN111645076A/zh
Application granted granted Critical
Publication of CN111645076B publication Critical patent/CN111645076B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请的目的是提供一种机器人控制方法及设备,本申请通过模拟灵长类动物大脑生理机制中的前扣带回皮层神经调节机制对所述探索速度进行动态调整,根据所处环境来实时调节探索和利用的程度,从而实现了机器人在利用环境与探索环境之间动态平衡,提高了机器人行为决策过程中的学习收敛速度,有利于得到更优的全局解。

Description

一种机器人控制方法及设备
技术领域
本申请涉及计算机领域,尤其涉及一种机器人控制方法及设备。
背景技术
现有技术中,机器人要在未知环境中学习并适应环境,强化学习是关键技术之一。强化学习的优势在于其不需要给定期望的输出,而是根据强化信号通过在线交互式训练使机器人在环境中运动时获得最大累计回报,从而获得较好效果的控制策略。因此强化学习经常被用在机器人行为决策的研究中。
目前,强化学***衡,探索与利用的协调状态直接影响强化学***衡机制对强化学习算法的效率至关重要。
探索利用平衡的算法通常分为2大类:无指导的方法和有指导的方法。目前的动作选择方法中无指导的方法需要对探索参数进行精细的调节,其缺点是没有考虑每个动作的不确定性预期报酬且探索参数的取值需要在多次模拟后才能正确确定;有指导的方法的缺点是需要大量复杂计算才能收敛到最优解。
目前,机器人强化学***衡策略是间接选择策略,这种策略在学***衡,该类策略包括多种常用的方法,如ε-greedy方法、Boltzmann分布和启发式动作选择方法等。其中,ε-greedy策略因实现简单而被广泛使用,但其参数ε为固定值,对于动态的学习过程,其探索与利用问题仍然存在,在一定程度上影响了算法的学习速率和效率。而Boltzmann分布方法涉及到动作选择概率,将动作的选择与值函数联系在一起,利用温度参数调整动作的选择概率。Boltzmann分布方法的缺点是温度参数的初始值设定是不确定的,参数的设置对算法的学习速率和效率有一定的影响。总之,这些方法都不能根据机器人所处的环境实时调节探索或利用的程度,造成适应性不强、收敛速度慢和局部最优等缺陷。
因此,在机器人学***衡,根据所处环境来实时调节探索和利用的程度,具有学习收敛速度快,稳定后的解全局更优等优势的机器人控制方法是本领域技术人员需要继续研究的方向。
发明内容
本申请的一个目的是提供一种机器人控制方法及设备,以解决现有技术中如何在机器人学习的过程中调节探索和利用的程度,从而提高学习收敛速度,得到更优的全局解的问题。
根据本申请的一个方面,提供了一种机器人控制方法,包括:
获取所述机器人的当前状态和至少两个待执行动作及其对应的权重,其中,所述当前状态包括当前环境和奖励信息,并基于所述当前状态和至少两个待执行动作及其对应的权重,确定奖励预测误差信号;
基于所述奖励预测误差信号,通过前扣带回皮层神经调节机制对探索速度进行调节,得到与所述当前状态对应的所述探索速度;
基于所述探索速度、所有所述待执行动作及其对应的权重从所有所述待执行动作中确定最优待执行动作并执行。
进一步地,上述一种机器人控制方法中,所述基于所述奖励预测误差信号,通过前扣带回皮层神经调节机制对探索速度进行调节,得到与所述当前状态对应的所述探索速度,包括:
基于所述奖励预测误差信号,通过所述前扣带回皮层神经调节机制,确定正确神经元响应值和错误神经元响应值;
获取正确神经元响应更新率以及错误神经元响应更新率,并利用所述当前状态对应的所述正确神经元响应值和所述错误神经元响应值以及所述正确神经元响应更新率和所述错误神经元响应值更新率计算的到所述当前状态对应的警觉值;
通过所述警觉值对所述探索速度进行调节,得到与所述当前状态对应的所述探索速度。
进一步地,上述一种机器人控制方法中,所述基于所述探索速度、所有所述待执行动作及其对应的权重从所有所述待执行动作中确定最优待执行动作并执行,包括:
基于所述探索速度、所有所述待执行动作及其对应的权重进行方程转化得到与所述当前状态对应的每个所述待执行动作的执行概率;
基于每个所述待执行动作的执行概率确定所述最优待执行动作并执行。
进一步地,上述一种机器人控制方法中,所述基于每个所述待执行动作的执行概率确定所述最优待执行动作并执行,包括:
基于每个所述待执行动作的执行概率,得到所有所述待执行动作的执行概率的相似度;
若所有所述待执行动作的执行概率的相似度大于相似度阈值时,则从所有所述待执行动作中随机选出一个所述待执行动作作为所述最优待执行动作并执行;
若所有所述待执行动作的执行概率的相似度小于等于所述相似度阈值时,则将所有所述待执行动作中执行概率最大的所述待执行动作作为所述最优待执行动作并执行。
进一步地,所述机器人控制方法还包括:
获取执行所述最优待执行动作后的更新状态;
基于所述更新状态对所述待执行动作及其对应的权重进行更新。
进一步地,上述一种机器人控制方法中,基于所述更新状态对所述待执行动作对应的权重进行更新,包括:
基于所述更新状态判断执行所述最优待执行动作后是否发生碰撞;
若未发生碰撞,则基于所述当前状态、所述最优待执行动作以及所述更新状态对所述待执行动作及其对应的权重进行更新,得到更新后的待执行动作对应的权重。
根据本申请的另一方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述任一项所述的方法。
根据本申请的另一方面,还提供了一种机器人控制设备,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述中任一项所述的方法。
与现有技术相比,本申请通过获取所述机器人的当前状态和至少两个待执行动作及其对应的权重,其中,所述当前状态包括当前环境以及基于所述当前环境信息得到奖励反馈信息;基于所述奖励反馈信息,通过前扣带回皮层神经调节机制对探索速度进行调节,得到与所述当前状态对应的所述探索速度;基于所述探索速度、所有所述待执行动作及其对应的权重从所有所述待执行动作中确定最优待执行动作并执行,即通过模拟灵长类动物大脑生理机制中的前扣带回皮层神经调节机制对所述探索速度进行动态调整,根据所处环境来实时调节探索和利用的程度,从而实现了机器人在利用环境与探索环境之间动态平衡,提高了机器人在行为决策过程中的学习收敛速度,有利于得到更优的全局解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种机器人控制方法的流程示意图;
图2示出根据本申请一个方面的一种机器人控制方法的基于ACC神经调节机制行为决策模型示意图;
图3示出根据本申请一个方面的一种机器人控制方法的ACC神经网络结构示意图;
图4示出根据本申请一个方面的一种机器人控制方法的一实施例的流程示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit,CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase-Change RAM,PRAM)、静态随机存取存储器(Static Random Access Memory,SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能光盘(Digital Versatile Disk,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
图1示出根据本申请一个方面的一种机器人控制方法的流程示意图,该方法适用于移动机器人的各种运动场景,该方法包括步骤S11、步骤S12、及步骤S13,其中,具体包括:
步骤S11,获取所述机器人的当前状态和至少两个待执行动作及其对应的权重,其中,所述当前状态包括当前环境和奖励信息,并基于所述当前状态和至少两个待执行动作及其对应的权重,确定奖励预测误差信号,在此,奖励预测误差信号为奖励预测误差的强化信号,基于所述当前状态和至少两个待执行动作及其对应的权重,确定奖励预测误差信号,由如下公式计算得到:
Figure BDA0002543007880000071
其中,Rt为表示机器人在与环境实时交互的t时刻获得的奖励信息;γ为折扣因子;Q(s,a)为强化学习中的当前状态s下选择执行待执行动作a的期望值;st表示t时间对应的所述机器人的状态;i为待执行动作的编号,取值范围为i=1,2,……,n;ai为编号为i的待执行动作;A为所有待执行动作ai的集合。
步骤S12,基于所述奖励预测误差信号,通过前扣带回皮层(Anterior CingulateCortex,ACC)神经调节机制对探索速度进行调节,得到与所述当前状态对应的所述探索速度,在此,所述探索速度用于指示机器人探索环境的程度;利用前扣带回皮层神经调节机制对探索速度进行调节,实现机器人探索和利用之间的平衡,即机器人深度学习的过程中可以尝试选择不同的动作并执行即探索未知的动作策略,而不仅是依据已经学习到的经验来选择当前状态下的最优待执行动作,提高了所述机器人学习、认知和进化能力,以便得到更优的待执行动作。
步骤S13,基于所述探索速度、所有所述待执行动作及其对应的权重从所有所述待执行动作中确定最优待执行动作并执行,实现了得到更优的全局解。
上述步骤S11至步骤S13,首先,通过获取所述机器人的当前状态和至少两个待执行动作及其对应的权重,其中,所述当前状态包括当前环境以及基于所述当前环境信息得到奖励反馈信息;然后,基于所述奖励反馈信息,通过前扣带回皮层神经调节机制对探索速度进行调节,得到与所述当前状态对应的所述探索速度;最后,基于所述探索速度、所有所述待执行动作及其对应的权重从所有所述待执行动作中确定最优待执行动作并执行,即通过模拟灵长类动物大脑生理机制中的前扣带回皮层神经调节机制对所述探索速度进行动态调整,根据所处环境来实时调节探索和利用的程度,从而实现了机器人在利用环境与探索环境之间动态平衡,提高了机器人在行为决策过程中的学习收敛速度,有利于得到更优的全局解。
例如,如图2所示,以强化学习中的Actor-Critic算法为基础,Actor部分为三层的径向基函数神经网络,Critic部分为Q学习算法。首先,获取所述机器人的当前状态s和待执行动作a1、a2、a3......an以及待执行动作a1对应的权重W1、待执行动作a2对应的权重W2、待执行动作a3对应的权重W3......待执行动作an对应的权重Wn,其中,所述当前状态s包括当前环境以及奖励信息R,基于所述当前状态s和至少两个待执行动作及其对应的权重,确定奖励预测误差信号δ;然后,基于所述奖励预测误差信号δ,通过前扣带回皮层神经调节机制对探索速度进行调节,得到与所述当前状态对应的所述探索速度β;最后,基于所述探索速度β、所有所述待执行动作a1、a2、a3......an及其对应的权重W1、W2、W3......Wn从所有所述待执行动作a1、a2、a3......an中确定最优待执行动作并执行,即通过模拟灵长类动物大脑生理机制中的前扣带回皮层神经调节机制对所述探索速度β进行动态调整,根据所处环境来实时调节探索和利用的程度,从而实现了机器人在利用环境与探索环境之间动态切换,提高了机器人在行为决策过程中的学习收敛速度,并且使得稳定后得到更优的全局解。
接着本申请的上述实施例,所述步骤S12基于所述奖励预测误差信号,通过前扣带回皮层神经调节机制对探索速度进行调节,得到与所述当前状态对应的所述探索速度,包括:
基于所述奖励预测误差信号,通过所述前扣带回皮层神经调节机制确定正确神经元响应值和错误神经元响应值,在此,所述奖励预测误差信号影响ACC中的一组反馈分类神经元:正确神经元(correct neuron,COR)和错误神经元(error neuron,ERR);其中,所述奖励预测误差信号包括负的所述奖励预测误差信号和正的所述奖励预测误差信号,当得到一个负的所述奖励预测误差信号时,位于ACC中表示错误的神经元ERR响应,当有一个正的强化信号时,位于前扣带回皮层ACC中表示正确的神经元COR响应。通过所述前扣带回皮层神经调节机制确定正确神经元响应值和错误神经元响应值以便后续对所述探索速度进行调整。
获取正确神经元响应更新率以及错误神经元响应更新率,并利用所述当前状态对应的所述正确神经元响应值和所述错误神经元响应值以及所述正确神经元响应更新率和所述错误神经元响应值更新率计算得到所述当前状态对应的警觉值,在此,所述警觉值用于指示当前环境下所述机器人的警觉程度,该方法引入警觉值,来模拟人类在不同警觉程度下的不同反应,从而实现机器人利用环境和探索环境的动态转换;确定所述警觉值,由如下公式计算得到:
β*(t)←β*(t)+μ+δ+(t)+μ-δ-(t)
其中,μ+为正确神经元响应更新率,μ-为错误神经元响应更新率,δ+(t)为正确神经元响应值,δ-(t)为错误神经元响应值。
通过所述警觉值对所述探索速度进行调节,得到与所述当前状态对应的所述探索速度,在此,通过所述警觉值来调节所述探索速度,若机器人选择了最优待执行动作,警觉值降低,探索速度降低,此时机器人可以继续重复当前的动作,即表现为利用环境;反之,当选择了非最优待执行动作时,警觉值提高,探索速度提高,此时机器人应及时调整动作选择,即机器人可以尝试随机选择某一个待执行动作,即表现为探索环境;所述探索速度可以由sigmoid函数进行算法过滤得到,公式如下:
β=ω1/(1+exp(ω2·[1-β*]+ω3))
式中,ω1、ω2和ω3均为常数,且ω1>ω3>0,ω2<0,β*为警觉值。
例如,如图3、4所示,首先,获取所述机器人的当前状态s和至少两个待执行动作a1、a2、a3......an及其对应的权重W1、W2、W3......Wn,其中,所述当前状态包括当前环境V。视觉输入当前环境V(例如屏幕上看到的目标或桌子上的物体)被输入到后顶叶皮层,然后在腹侧被盖区(Ventral tegmental area,VTA)收到一个奖励信息R,并通过该奖励信息R计算所述奖励预测误差信号δ,ACC中的一组反馈分类神经元:正确神经元和错误神经元通过所述奖励预测误差信号δ来调节所需的警觉值β*。最后,所述待执行动作及其对应的权重和警觉度β*被传递到外侧前额皮质(Lateral Prefrontal Cortex,LPFC),LPFC选择应该执行的动作,并根据警觉度β*的大小来对探索速度进行调节,从而实现探索(exploration)和利用(exploitation)的动态平衡。
接着本申请的上述实施例,所述步骤S13基于所述探索速度、所有所述待执行动作及其对应的权重从所有所述待执行动作中确定最优待执行动作并执行,包括:
基于所述探索速度、所有所述待执行动作及其对应的权重进行方程转化得到与所述当前状态对应的每个所述待执行动作的执行概率,在此,得到与所述当前状态对应的每个所述待执行动作的执行概率,具体计算公式如下:
Figure BDA0002543007880000101
其中,n为机器人在状态s时共有n种所述待执行动作进行选择,j为待执行动作的编号,取值范围为j=1,2,……,n,β为探索速度。
基于每个所述待执行动作的执行概率确定所述最优待执行动作并执行,实现了对所述探索速度的动态调整即探索和利用的平衡,以便得到最优待执行动作。
例如,首先,获取所有所述待执行动作a1、a2、a3......an及其对应的权重W1、W2、W3......Wn以及所述探索速度β;然后,基于所述探索速度β、所有所述待执行动作a1、a2、a3......an及其对应的权重W1、W2、W3......Wn通过Boltzmann-Softmax方程转化得到与所述当前状态对应的所述待执行动作a1的执行概率P(a1)、待执行动作a2的执行概率P(a2)、待执行动作a3的执行概率P(a3)......待执行动作an的执行概率P(an),其中,P(a1)+P(a2)+P(a3)+......P(an)=1;最后,根据每个所述待执行动作的执行概率P(a1)、P(a2)、P(a3)......P(an)得到所述最优待执行动作并执行,使得所选择的待执行动作为最优的待执行动作。
进一步地,基于每个所述待执行动作的执行概率确定所述最优待执行动作并执行,包括:
基于每个所述待执行动作的执行概率,得到所有所述待执行动作的执行概率的相似度;
若所有所述待执行动作的执行概率的相似度大于相似度阈值时,则从所有所述待执行动作中随机选出一个所述待执行动作作为所述最优待执行动作并执行,在此,此时探索速度为较小值,各个待执行动作的执行概率彼此接近,从而导致原本具有最大值权重的所述待执行动作经过执行概率转换后并没有最高的执行概率,即可以随机选出一个所述待执行动作作为所述最优待执行动作并执行,从而实现机器人对外界环境的进一步探索,提高了机器人在行为决策过程中的学习收敛速度。
若所有所述待执行动作的执行概率的相似度小于等于所述相似度阈值时,则将所有所述待执行动作中所述执行概率最大的所述待执行动作作为所述最优待执行动作并执行,在此,此时探索速度为较大值,各个所述待执行动作的执行概率之间的差异增加,即所述执行概率最高的所述待执行动作为最优待执行动作,有利于机器人在进行动作决策时选择最优的待执行动作进行执行。
例如,获取每个所述待执行动作a1、a2、a3......an的执行概率P(a1)、P(a2)、P(a3)......P(an),得到所有所述待执行动作的执行概率的相似度X。预先设置相似度阈值K,此时所有所述待执行动作的执行概率的相似度大于相似度阈值即X>K,即各个待执行动作的执行概率彼此接近;然后,随机选出一个所述待执行动作作为所述最优待执行动作并执行,从而实现机器人对外界环境的进一步探索,提高了机器人在行为决策过程中的学习收敛速度。
又例如,获取每个所述待执行动作a1、a2、a3......an的执行概率P(a1)、P(a2)、P(a3)......P(an),得到所有所述待执行动作的执行概率的相似度X。预先设置相似度阈值K,此时所有所述待执行动作的执行概率的相似度小于相似度阈值即X<K,即各个所述待执行动作的执行概率之间存在较大的差异;然后,将所述执行概率最高的所述待执行动作为最优待执行动作并执行,利于机器人在进行动作决策时选择最优的待执行动作进行执行。
本申请的又一优选实施例,所述方法还包括:
获取执行所述最优待执行动作后的更新状态,在此,所述更新状态包括更新后的当前环境和更新后的奖励信息;
基于所述更新状态对所述待执行动作及其对应的权重进行更新,在此,实现了对待执行动作及其对应的权重的更新,提高了机器人在行为决策过程中的学习收敛速度,有利于得到更优的全局解。
例如,执行最优待执行动作,并获取执行所述最优待执行动作后的更新状态V;基于所述更新状态V对所述待执行动作及其对应的权重进行更新,提高了机器人在行为决策过程中的学习收敛速度,有利于得到更优的全局解。
接着本申请的上述实施例,基于所述更新状态对所述待执行动作及其对应的权重进行更新,包括:
基于所述更新状态判断执行所述最优待执行动作后是否发生碰撞;
若未发生碰撞,则基于所述当前状态、所述最优待执行动作以及所述更新状态对所述待执行动作及其对应的权重进行更新,得到更新后的待执行动作及其对应的权重。
例如,执行最优待执行动作,并获取执行所述最优待执行动作后的更新状态v;通过获取的所述更新状态v可知所述机器人未与障碍物发生碰撞,此时,基于所述当前状态s、所述最优待执行动作以及所述更新状态v对所述待执行动作a1、a2、a3......an及其对应的权重W1、W2、W3......Wn进行更新,得到更新后的待执行动作a1、a2、a3......an对应的权重W1’、W2’、W3’......Wn’,从而提高了所述机器人学习、认知和进化能力,以便在以后的行为决策中得到更优的待执行动作。
根据本申请的另一个方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述控制用户对垒方法。
根据本申请的另一个方面,还提供了一种机器人控制设备,其特征在于,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述在设备上控制用户对垒方法。
在此,所述设备的各实施例的详细内容,具体可参见上述设备端的控制用户对垒方法实施例的对应部分,在此,不再赘述。
综上所述,本申请通过获取所述机器人的当前状态和至少两个待执行动作及其对应的权重,其中,所述当前状态包括当前环境和奖励信息,并基于所述当前状态和至少两个待执行动作及其对应的权重,确定奖励预测误差信号;基于所述奖励预测误差信号,通过前扣带回皮层神经调节机制对探索速度进行调节,得到与所述当前状态对应的所述探索速度;基于所述探索速度、所有所述待执行动作及其对应的权重从所有所述待执行动作中确定最优待执行动作并执行,即通过模拟灵长类动物大脑生理机制中的前扣带回皮层神经调节机制对所述探索速度进行动态调整,根据所处环境来实时调节探索和利用的程度,从而实现了机器人在利用环境与探索环境之间动态平衡,提高了机器人行为决策过程中的学习收敛速度,有利于得到更优的全局解。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (8)

1.一种机器人控制方法,其特征在于,所述方法包括:
获取所述机器人的当前状态和至少两个待执行动作及其对应的权重,其中,所述当前状态包括当前环境和奖励信息,并基于所述当前状态和至少两个待执行动作及其对应的权重,确定奖励预测误差信号;
基于所述奖励预测误差信号,通过前扣带回皮层神经调节机制对探索速度进行调节,得到与所述当前状态对应的所述探索速度;
基于所述探索速度、所有所述待执行动作及其对应的权重从所有所述待执行动作中确定最优待执行动作并执行。
2.根据权利要求1所述的方法,其特征在于,所述基于所述奖励预测误差信号,通过前扣带回皮层神经调节机制对探索速度进行调节,得到与所述当前状态对应的所述探索速度,包括:
基于所述奖励预测误差信号,通过所述前扣带回皮层神经调节机制确定正确神经元响应值和错误神经元响应值;
获取正确神经元响应更新率以及错误神经元响应更新率,利用所述当前状态对应的所述正确神经元响应值和所述错误神经元响应值以及所述正确神经元响应更新率和所述错误神经元响应值更新率计算得到所述当前状态对应的警觉值;
通过所述警觉值对所述探索速度进行调节,得到与所述当前状态对应的所述探索速度。
3.根据权利要求1所述的方法,其特征在于,所述基于所述探索速度、所有所述待执行动作及其对应的权重从所有所述待执行动作中确定最优待执行动作并执行,包括:
基于所述探索速度、所有所述待执行动作及其对应的权重进行方程转化得到与所述当前状态对应的每个所述待执行动作的执行概率;
基于每个所述待执行动作的执行概率确定所述最优待执行动作并执行。
4.根据权利要求3所述的方法,其特征在于,所述基于每个所述待执行动作的执行概率确定所述最优待执行动作并执行,包括:
基于每个所述待执行动作的执行概率,得到所有所述待执行动作的执行概率的相似度;
若所有所述待执行动作的执行概率的相似度大于相似度阈值时,则从所有所述待执行动作中随机选出一个所述待执行动作作为所述最优待执行动作并执行;
若所有所述待执行动作的执行概率的相似度小于等于所述相似度阈值时,则将所有所述待执行动作中所述执行概率最大的所述待执行动作作为所述最优待执行动作并执行。
5.根据权利要求1-4任意一项权利要求所述的方法,其中,所述方法还包括:
获取执行所述最优待执行动作后的更新状态;
基于所述更新状态对所述待执行动作对应的权重进行更新。
6.根据权利要求5所述的方法,其特征在于,基于所述更新状态对所述待执行动作及其对应的权重进行更新,包括:
基于所述更新状态判断执行所述最优待执行动作后是否发生碰撞;
若未发生碰撞,则基于所述当前状态、所述最优待执行动作以及所述更新状态对所述待执行动作及其对应的权重进行更新,得到更新后的待执行动作对应的权重。
7.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如权利要求1至6中任一项所述的方法。
8.一种机器人控制设备,其特征在于,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。
CN202010552467.2A 2020-06-17 2020-06-17 一种机器人控制方法及设备 Active CN111645076B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010552467.2A CN111645076B (zh) 2020-06-17 2020-06-17 一种机器人控制方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010552467.2A CN111645076B (zh) 2020-06-17 2020-06-17 一种机器人控制方法及设备

Publications (2)

Publication Number Publication Date
CN111645076A true CN111645076A (zh) 2020-09-11
CN111645076B CN111645076B (zh) 2021-05-11

Family

ID=72342733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010552467.2A Active CN111645076B (zh) 2020-06-17 2020-06-17 一种机器人控制方法及设备

Country Status (1)

Country Link
CN (1) CN111645076B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537318A (zh) * 2021-07-01 2021-10-22 郑州大学 一种仿人脑记忆机理的机器人行为决策方法及设备
CN113671834A (zh) * 2021-08-24 2021-11-19 郑州大学 一种机器人柔性行为决策方法及设备
CN113848946A (zh) * 2021-10-20 2021-12-28 郑州大学 一种基于神经调节机制的机器人行为决策方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345749A (zh) * 2013-06-27 2013-10-09 中国科学院自动化研究所 一种基于模态融合的大脑网络功能连接偏侧性检测方法
US20170008168A1 (en) * 2015-07-10 2017-01-12 Board Of Trustees Of Michigan State University Navigational Control of Robotic Systems and Other Computer-Implemented Processes Using Developmental Network with Turing Machine Learning
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN110000781A (zh) * 2019-03-29 2019-07-12 郑州大学 基于发育网络的移动机器人运动方向预先决策方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345749A (zh) * 2013-06-27 2013-10-09 中国科学院自动化研究所 一种基于模态融合的大脑网络功能连接偏侧性检测方法
US20170008168A1 (en) * 2015-07-10 2017-01-12 Board Of Trustees Of Michigan State University Navigational Control of Robotic Systems and Other Computer-Implemented Processes Using Developmental Network with Turing Machine Learning
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN110000781A (zh) * 2019-03-29 2019-07-12 郑州大学 基于发育网络的移动机器人运动方向预先决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐建平 宋红生 王东署: "一种移动机器人动态环境下的路径规划", 《郑州大学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537318A (zh) * 2021-07-01 2021-10-22 郑州大学 一种仿人脑记忆机理的机器人行为决策方法及设备
CN113537318B (zh) * 2021-07-01 2023-04-07 郑州大学 一种仿人脑记忆机理的机器人行为决策方法及设备
CN113671834A (zh) * 2021-08-24 2021-11-19 郑州大学 一种机器人柔性行为决策方法及设备
CN113671834B (zh) * 2021-08-24 2023-09-01 郑州大学 一种机器人柔性行为决策方法及设备
CN113848946A (zh) * 2021-10-20 2021-12-28 郑州大学 一种基于神经调节机制的机器人行为决策方法及设备
CN113848946B (zh) * 2021-10-20 2023-11-03 郑州大学 一种基于神经调节机制的机器人行为决策方法及设备

Also Published As

Publication number Publication date
CN111645076B (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN111645076B (zh) 一种机器人控制方法及设备
US11461661B2 (en) Stochastic categorical autoencoder network
EP4231197B1 (en) Training machine learning models on multiple machine learning tasks
US5598510A (en) Self organizing adaptive replicate (SOAR)
Fernández-Navarro et al. MELM-GRBF: A modified version of the extreme learning machine for generalized radial basis function neural networks
US9330358B1 (en) Case-based reasoning system using normalized weight vectors
US20220067588A1 (en) Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model
Berkenkamp Safe exploration in reinforcement learning: Theory and applications in robotics
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
Huang et al. Interpretable policies for reinforcement learning by empirical fuzzy sets
WO2021200392A1 (ja) データ調整システム、データ調整装置、データ調整方法、端末装置及び情報処理装置
Zhang et al. Universal value iteration networks: When spatially-invariant is not universal
US20220299232A1 (en) Machine learning device and environment adjusting apparatus
CN113671834A (zh) 一种机器人柔性行为决策方法及设备
Kochenderfer Adaptive modelling and planning for learning intelligent behaviour
Motta Goulart et al. An evolutionary algorithm for large margin classification
US12020789B1 (en) Systems and methods enabling baseline prediction correction
US11869383B2 (en) Method, system and non-transitory computer- readable recording medium for providing information on user's conceptual understanding
JP7491622B1 (ja) パターン認識装置、学習方法、及びプログラム
CN113848946B (zh) 一种基于神经调节机制的机器人行为决策方法及设备
WO2024150487A1 (ja) 学習装置、プログラムおよび学習方法
US20240078921A1 (en) Method, system and non-transitory computer-readable recording medium for answering prediction for learning problem
Serrano et al. Inter-Task Similarity for Lifelong Reinforcement Learning in Heterogeneous Tasks.
US20230043618A1 (en) Computation apparatus, neural network system,neuron model apparatus, computation method and program
WO2022217856A1 (en) Methods, devices and media for re-weighting to improve knowledge distillation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant