CN112016678A - 用于增强学习的策略生成网络的训练方法、装置和电子设备 - Google Patents

用于增强学习的策略生成网络的训练方法、装置和电子设备 Download PDF

Info

Publication number
CN112016678A
CN112016678A CN202010867107.1A CN202010867107A CN112016678A CN 112016678 A CN112016678 A CN 112016678A CN 202010867107 A CN202010867107 A CN 202010867107A CN 112016678 A CN112016678 A CN 112016678A
Authority
CN
China
Prior art keywords
continuous
information
state
value
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010867107.1A
Other languages
English (en)
Other versions
CN112016678B (zh
Inventor
赵瑞
徐伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Horizon Robotics Technology Co Ltd
Original Assignee
Nanjing Horizon Robotics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Horizon Robotics Technology Co Ltd filed Critical Nanjing Horizon Robotics Technology Co Ltd
Publication of CN112016678A publication Critical patent/CN112016678A/zh
Application granted granted Critical
Publication of CN112016678B publication Critical patent/CN112016678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mechanical Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Robotics (AREA)
  • Manipulator (AREA)

Abstract

公开了一种用于增强学习的策略生成网络的训练方法,训练装置和电子设备。该用于增强学习的策略生成网络的训练方法包括:获取执行任务的对象的连续对象状态信息和所述对象所作用的环境的连续环境状态信息;确定所述连续对象状态信息和所述连续环境状态信息的联合概率分布,以及所述连续对象状态信息和所述连续环境状态信息各自的第一边缘分布和第二边缘分布;确定所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值;以及,以所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数。这样,提高了策略生成网络生成策略的性能。

Description

用于增强学习的策略生成网络的训练方法、装置和电子设备
技术领域
本申请涉及增强学习技术领域,且更为具体地,涉及一种用于增强学习的策略生成网络的训练方法、训练装置和电子设备。
背景技术
近来,增强学习(RL)结合深度学习(DL)在很多奖励驱动的任务中取得了成功,包括在各种游戏中展现出超越人的性能,此外在机器人的连续控制任务,复杂环境内的导航任务,操纵物体的任务中也表现出优异的性能。
但是,尽管取得了很多成就,当前的增强学习任务中,执行任务的对象,例如操纵物体的机器人通常仅从外部奖励信号中学习,这不同于人的学习过程。例如,在人学习操纵物体的过程中,人不仅尝试完成任务,而且学习掌握环境的可控制方面。比如,即使在无监督状态下,人也可以快速地发现自己的动作与环境的状态改变之间的关联,从而使用该技能来将环境操纵为想要的状态。
并且,在当前的实际的增强学习任务中,设计能够保证执行任务的对象,学习到想要的行为,例如操纵物体的行为的外部奖励函数是很困难的。因此,期望提供改进的用于生成执行任务的对象的动作的策略生成网络的训练方案,以在缺乏外部奖励的情况下有效地生成执行任务的对象的动作。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于增强学习的策略生成网络的训练方法,训练装置和电子设备,其确定对象状态和环境状态之间的互信息,即对象状态和环境状态的概率分布之间的KL散度值,以作为奖励函数训练策略生成网络,从而提高了策略生成网络生成策略的性能。
根据本申请的一方面,提供了一种用于增强学习的策略生成网络的训练方法,包括:获取执行任务的对象的连续对象状态信息和所述对象所作用的环境的连续环境状态信息,所述连续对象状态信息包含所述对象的多个对象状态,且所述连续环境状态信息包含所述环境的多个环境状态;确定所述连续对象状态信息和所述连续环境状态信息的联合概率分布,以及所述连续对象状态信息和所述连续环境状态信息各自的第一边缘分布和第二边缘分布;确定所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值;以及,以所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数。
根据本申请的另一方面,提供了一种用于增强学习的策略生成网络的训练装置,包括:状态获取单元,用于获取执行任务的对象的连续对象状态信息和所述对象所作用的环境的连续环境状态信息,所述连续对象状态信息包含所述对象的多个对象状态,且所述连续环境状态信息包含所述环境的多个环境状态;分布确定单元,用于确定所述状态获取单元所获取的所述连续对象状态信息和所述连续环境状态信息的联合概率分布,以及所述连续对象状态信息和所述连续环境状态信息各自的第一边缘分布和第二边缘分布;散度值确定单元,用于确定所述分布确定单元所确定的所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值;以及,网络更新单元,用于以所述散度值确定单元所确定的所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的用于增强学习的策略生成网络的训练方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的用于增强学习的策略生成网络的训练方法。
本申请提供的用于增强学习的策略生成网络的训练方法,训练装置和电子设备,通过确定对象状态和环境状态之间的互信息,即对象状态和环境状态的概率分布之间的KL散度值,以作为奖励函数训练策略生成网络,相当于执行任务的对象学习通过策略生成网络所生成的策略来控制环境,从而提高了策略生成网络所生成的策略的有效性。
并且,本申请提供的用于增强学习的策略生成网络的训练方法,训练装置和电子设备,通过使用对象状态和环境状态之间的互信息作为奖励函数训练策略生成网络,可以在没有人工制作或者人为指定的外部奖励函数的情况下或者在环境内奖励稀疏的情况下有效地生成策略,从而提高了策略生成网络的性能。
此外,本申请提供的用于增强学习的策略生成网络的训练方法,训练装置和电子设备,通过执行任务的对象学习以策略生成网络所生成的策略来学习控制环境,可以以模仿人类学习执行任务的方式,来帮助执行任务的对象快速地适应未知任务。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1图示了标准的增强学习模型的示意图。
图2图示了根据本申请实施例的用于增强学习的策略生成网络的训练方法的流程图。
图3图示了根据本申请实施例的用于增强学习的策略生成网络的训练装置的框图。
图4图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
图1图示了标准的增强学习模型的示意图。如图1所示,策略生成网络N生成执行任务的对象(Agent)的动作A,环境的当前状态S0基于动作A迁移到环境的下一状态S1,且p用于表示当前状态到下一状态的迁移概率。另外,奖励函数r输入到策略生成网络N,用于由策略生成网络N更新其生成动作A的策略,例如,通常目的是最大化奖励函数的累积数值。
以控制机器人的增强学习任务为例,策略生成网络N生成用于控制机器人执行动作A的策略,例如该动作A是向某个方向移动机器人,则环境的当前状态S0可以表示为机器人的当前位置,其基于动作A迁移到环境的下一状态S1,即机器人的下一位置。
在本申请中,以控制机器人操纵物体的增强学习任务为例,策略生成网络N生成用于控制机器人执行动作A的策略,以通过该策略控制机器人做出动作A,通过动作A,机器人将要操纵的物体,例如要移动的物体从当前状态S0,例如当前位置改变到下一状态S1,例如移动到下一位置。这里,当前状态S0可以被划分为机器人的当前状态,以及要移动的物体的当前状态。此外,下一状态S1也可以被划分为机器人的下一状态,以及要移动的物体的下一状态。另外,如上所述,奖励函数r输入到策略生成网络N,用于由策略生成网络N更新其生成动作A的策略。
如上所述,由于在增强学习任务中,常常存在没有人工制作或者人为指定的外部奖励函数的情况,因为设计这种函数很困难,且存在很多外部奖励稀疏的环境。
因此,在这些任务中,需要能够在没有外部奖励函数的情况下,完全自主地从环境中学习来控制执行任务的对象的动作,也就是,以某种类型的内在奖励驱动生成对象的动作的策略生成网络的更新。
因此,本申请的基本构思是将传统增强学习任务中的环境状态划分为执行任务的对象的对象状态和对象所作用的环境的环境状态,并通过对象状态和环境状态之间的互信息来作为奖励函数。
也就是,在执行任务的对象的学习过程期间,通过估计对象状态和环境状态之间的互信息,执行任务的对象可以当在其自己的状态和环境状态之间存在高互信息值时接收到高的内在奖励,从而相当于执行任务的对象学习控制环境。
具体地,本申请提供的用于增强学习的策略生成网络的训练方法,训练装置和电子设备首先获取执行任务的对象的连续对象状态信息和所述对象所作用的环境的连续环境状态信息,所述连续对象状态信息包含所述对象的多个对象状态,且所述连续环境状态信息包含所述环境的多个环境状态,然后确定所述连续对象状态信息和所述连续环境状态信息的联合概率分布,以及所述连续对象状态信息和所述连续环境状态信息各自的第一边缘分布和第二边缘分布,再确定所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值,最后以所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数。
这样,在本申请提供的用于增强学习的策略生成网络的训练方法中,通过以连续对象状态信息和连续环境状态信息的联合概率分布与第一边缘分布和第二边缘分布之积的KL散度值来作为内在奖励训练策略生成网络,可以在没有外部监督的情况下学习控制环境状态,从而获得以下优点:
首先,能够在没有人工制作或者人为指定的外部奖励函数的情况下学习执行任务的对象的动作策略。第二,学习掌握***纵的环境的状态能够帮助执行任务的对象学习在奖励稀疏的环境下实现目标,也就是,执行任务的对象能够发现操纵技能,并且可以快速地适应具有稀疏的外部奖励的特定任务。第三,学习掌握***纵的环境的状态能够帮助执行任务的对象快速地适应未知任务。
另外,在本申请提供的用于增强学习的策略生成网络的训练方法中,学习到的互信息除了作为内在奖励以外,还可以用于其它目的,例如当策略生成网络按经验生成多个候选动作时,所述互信息可以用于评判候选动作的优先级。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图2图示了根据本申请实施例的用于增强学习的策略生成网络的训练方法的流程图。
如图2所示,根据本申请实施例的用于增强学习的策略生成网络的训练方法包括以下步骤。
步骤S110,获取执行任务的对象的连续对象状态信息和所述对象所作用的环境的连续环境状态信息,所述连续对象状态信息包含所述对象的多个对象状态,且所述连续环境状态信息包含所述环境的多个环境状态。
在本申请实施例中,在增强学习的任务中,执行任务的对象和所述对象所作用的环境取决于任务类型,可以是不同类型的对象和环境。例如,在通过机器人操纵物体的任务中,执行任务的对象是机器人,而所述对象作用的环境指的是***纵的物体的状态。
如上所述,在通常的增强学习方案中,仅包括单一的环境状态。而在本申请实施例中,将单一的环境状态划分为两个部分,即执行任务的对象的对象状态和所述对象所作用的环境的环境状态。例如,执行任务的对象的对象状态指的是机器人的状态,而所述对象所作用的环境的环境状态是机器人所操纵的物体的状态。
具体地,机器人可以通过各种动作来操纵物体,比如推动、拾取和放置等。对于机器人来说,其状态可以包括机器人的各个关节的位置,即以(x,y,z)表示的坐标位置,另外还可以包括各个关节的方位、线速度和角速度等。在本申请实施例中,为了简单,可以仅以(x,y,z)坐标表示的位置来描述机器人的状态。另外,被机器人操纵的物体的状态也可以简单地以(x,y,z)坐标表示的位置来描述。这样,机器人的连续对象状态就是指连续的一组(x,y,z)坐标,且被机器人操纵的物体的连续环境状态也是指连续的一组(x,y,z)坐标。
例如,将每个机器人的状态定义为sc,则有sc=(xc,yc,zc),且将被机器人操纵的物体的状态定义为si,则有si=(xi,yi,zi)。并且,机器人的连续对象状态信息可以表示为Sc,其中
Figure BDA0002650067020000061
且被机器人操纵的物体的连续环境状态信息可以表示为Si,其中
Figure BDA0002650067020000062
因此,在根据本申请实施例的用于增强学习的策略生成网络的训练方法中,获取执行任务的对象的连续对象状态信息和所述对象所作用的环境的连续环境状态信息包括:获取所述执行任务的对象的连续的三维位置信息以作为所述连续对象状态信息;以及,获取所述对象所作用的环境的连续的三维位置信息以作为所述连续环境状态信息。
这样,通过获取所述对象的连续的三维位置信息和所述环境的连续的三维位置信息作为状态信息,可以使得状态信息的形式简单,并且,由于状态信息聚焦于对象和环境的空间位置,便于策略生成网络用于空间位置类型的任务。
此外,在上述用于增强学习的策略生成网络的训练方法,其中,获取所述执行任务的对象的连续的三维位置信息以作为所述连续对象状态信息包括:获取所述执行任务的对象的连续的三维位置信息,以及连续的方位信息、线速度信息和角速度信息中的至少一个以作为所述连续对象状态信息。
也就是,通过获取执行任务的对象的三维位置信息以及方位、线速度和角速度等其它运动信息作为状态信息,可以训练策略生成网络,以使得生成的策略能够控制执行任务的对象的上述方面的运动,从而实现复杂的功能,比如机器手拾取物品。
在根据本申请实施例的训练方法的开始阶段,执行任务的对象可以按照部分随机的策略,比如∈-贪心算法来执行动作,以探索环境并收集对象状态和环境状态以获取所述连续对象状态信息和所述连续环境状态信息。
步骤S120,确定所述连续对象状态信息和所述连续环境状态信息的联合概率分布,以及所述连续对象状态信息和所述连续环境状态信各自的第一边缘分布和第二边缘分布。
因为能够控制环境状态以与其自身的状态具有高的互信息的执行任务的对象能够更好地掌握环境,因此,在本申请实施例中,在没有外部奖励函数的情况下,使用对象状态和环境状态之间的互信息来促进策略生成网络学习策略,比如记为πθ(at|st),其中at表示动作,st表示状态,且该策略生成网络具有参数θ。
在数学上,两个随机变量之间的互信息可以表示为两个随机变量的联合概率分布与两个随机变量各自的边缘分布之积之间的KL散度。因此,在本申请实施例中,为了确定所述连续对象状态信息和所述连续环境状态信息之间的互信息,首先确定所述连续对象状态信息和所述连续环境状态信息的联合概率分布,以及所述连续对象状态信息和所述连续环境状态信息各自的第一边缘分布和第二边缘分布。
S130,确定所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值。也就是,如上所述,按照所述连续对象状态信息和所述连续环境状态信息之间的互信息的数学表示,确定所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值作为所述连续对象状态信息和所述连续环境状态信息之间的互信息。具体地,可以以下式表示:
Figure BDA0002650067020000071
其中,
Figure BDA0002650067020000072
表示所述连续对象状态信息和所述连续环境状态信息的联合概率分布,
Figure BDA0002650067020000073
表示所述连续环境状态信息的边缘分布与所述连续对象状态信息的边缘分布之积。
S140,以所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数。也就是,可以采用增强学习中常用的策略生成网络的更新策略,来更新所述策略生成网络,且所述策略生成网络的更新的目的在于使得累积的奖励函数值最大化,也就是,最大化执行任务的对象的状态信息与对象所作用的环境的环境信息之间的互信息。
具体地,在本申请实施例中,可以使用深度决定性策略梯度(Deep DeterministicPolicy Gradient:DDPG)来更新所述策略生成网络的参数。该策略以相对较激进的方式更新策略生成网络的参数以改进策略,当执行任务的对象快速地开始学习时效果更好。
另外,在本申请实施例中,还可以使用柔性致动评价(Soft Actor Critic:SAC)来更新所述策略生成网络的参数。该策略以相对较保守的方式更新策略生成网络的参数以改进策略,能够更全面地探索环境。
因此,在根据本申请实施例的用于增强学习的策略生成网络的训练方法中,以所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数包括:以所述KL散度值作为奖励函数而通过深度决定性策略梯度更新所述策略生成网络的参数。
并且在根据本申请实施例的用于增强学习的策略生成网络的训练方法中,以所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数包括:以所述KL散度值作为奖励函数而通过柔性致动评价更新所述策略生成网络的参数。
这样,根据本申请实施例的用于增强学习的策略生成网络的训练方法,能够通过确定对象状态和环境状态之间的互信息,即对象状态和环境状态的概率分布之间的KL散度值,以作为奖励函数训练策略生成网络,相当于执行任务的对象学习通过策略生成网络所生成的策略来控制环境,从而提高了策略生成网络所生成的策略的有效性。
并且,根据本申请实施例的用于增强学习的策略生成网络的训练方法,能够通过使用对象状态和环境状态之间的互信息作为奖励函数训练策略生成网络,可以在没有人工制作或者人为指定的外部奖励函数的情况下或者在环境内奖励稀疏的情况下有效地生成策略,从而提高了策略生成网络的性能。
此外,根据本申请实施例的用于增强学习的策略生成网络的训练方法,能够使得执行任务的对象学习使用策略生成网络所生成的策略来控制环境,可以以模仿人类学习执行任务的方式,来帮助执行任务的对象快速地适应未知任务。
下面,将进一步详细说明计算所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值的示例。
在一个示例中,使用下限值来接近互信息的值,即I(Si;Sc)。首先,可以使用Donsker-Varadhan表示来将互信息的KL形式重写为:
Figure BDA0002650067020000091
其中从所有函数T取上确界以使得两个期望有限。然后,以PAC-贝叶斯文献中的压缩引理来取Donsker-Varadhan表示中的互信息的下限值,表示为:
Figure BDA0002650067020000092
上式中的期望可以使用来自
Figure BDA0002650067020000093
Figure BDA0002650067020000094
的经验样本,或者通过从联合分布沿着样本轴拖曳样本而获得。且IΦ(Si,Sc)可以通过梯度上升来训练。统计网络Tφ可以由具有参数φ∈Φ的深度神经网络来参数化,其目的是以任意精度来估计互信息。用于训练所述统计网络时的互信息的表达式如下:
Figure BDA0002650067020000095
其中,状态对
Figure BDA0002650067020000096
从联合分布
Figure BDA0002650067020000097
采样获得,其它状态
Figure BDA0002650067020000098
从边缘分布采样
Figure BDA0002650067020000099
采样。在估计下限值
Figure BDA00026500670200000910
之后,使用反向传播来优化统计网络Tφ的参数φ。
并且,在本申请实施例中,将过渡互信息值定义为如上所述的KL散度值,其是从当前状态st到下一状态st+1的互信息增加值,表示为:
Figure BDA00026500670200000911
这里,
Figure BDA00026500670200000912
是预定义的最大过渡互信息值。该clip可以用于将过渡互信息值限制在
Figure BDA0002650067020000101
的间隔内。其中,下限0强制互信息估计值为非负。并且在实践中,为了缓和某些特别大的过渡互信息值的影响,以阈值
Figure BDA0002650067020000102
来确定过渡互信息值,即内在奖励函数值的上限是有益的。通过使用该clip函数,可以使得策略生成网络的训练稳定。该阈值可以作为超参数。
因此,在根据本申请实施例的用于增强学习的策略生成网络的训练方法中,确定所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值包括:从所述联合概率分布采样(经验采样或者沿着样本轴采样)第一当前状态对和第一下一状态对;从所述连续对象状态信息和所述第二边缘分布分别采样当前状态和下一状态以组成第二当前状态对和第二下一状态对;通过用于计算互信息的统计网络确定所述第一当前状态对和第一下一状态对的两个第一互信息值;通过用于计算互信息的统计网络确定所述第二当前状态对和第二下一状态对的两个第二互信息值,并通过所述多个第二互信息值作为自然常数的指数以确定两个第二指数值;基于所述两个第一互信息值与两个第二指数值,确定过渡互信息值;以及,基于所述过渡互信息值获得所述KL散度值。
具体地,所述第一状态当前对和第一下一状态对可以是如以上公式中的
Figure BDA0002650067020000103
其中n=t和t+1,所述第二当前状态对和第二下一状态对可以是如以上公式中的
Figure BDA0002650067020000104
其中n=t和t+1,所述统计网络可以是如以上公式中的Tφ,所述第一当前状态对和第一下一状态对的两个第一互信息值可以是如以上公式中的
Figure BDA0002650067020000105
其中n=t和t+1,所述第二当前状态对和第二下一状态对的两个第二互信息值可以是如以上公式中的
Figure BDA0002650067020000106
其中n=t和t+1,两个第二指数值可以是如以上公式中的
Figure BDA0002650067020000107
其中n=t和t+1。
这样,可以以相对简单的计算来获得所述KL散度值。
并且,在上述用于增强学习的策略生成网络的训练方法中,基于所述过渡互信息值获得所述KL散度值包括:确定所述过渡互信息值是否小于零或者大于预定义的最大过渡互信息值;响应于所述过渡互信息值小于零,将所述KL散度值设置为零;响应于所述过渡互信息值大于预定义的最大过渡互信息值,将所述KL散度值设置为所述预定义的最大过渡互信息值;以及,响应于所述过渡互信息值大于零且小于所述预定义的最大过渡互信息值,将所述KL散度值设置为所述过渡互信息值。
这样,通过将KL散度值限定在零和最大过渡互信息值之间,可以使得策略生成网络的训练稳定。
另外,在上述用于增强学***均值减去对多个第二指数值的平均值的对数以获得训练用过渡互信息值;以及,通过反向传播更新所述统计网络的参数以最大化所述训练用过渡互信息值。
具体地,所述多个训练用第一状态对可以是如以上公式中的
Figure BDA0002650067020000111
所述多个训练用第二状态对可以是如以上公式中的
Figure BDA0002650067020000112
所述统计网络可以是如以上公式中的Tφ,多个训练用第一互信息值可以是如以上公式中的
Figure BDA0002650067020000113
所述训练用第二互信息值可以是如以上公式中的
Figure BDA0002650067020000114
多个训练用第二指数值可以是如以上公式中的
Figure BDA0002650067020000115
这样,可以使得在所述统计网络的训练过程中,所述训练用过渡互信息值的计算简单,以降低所述统计网络的训练的时间成本和计算成本。
示例性装置
图3图示了根据本申请实施例的用于增强学习的策略生成网络的训练装置的框图。
如图3所示,根据本申请实施例的用于增强学习的策略生成网络的训练装置200包括:状态获取单元210,用于获取执行任务的对象的连续对象状态信息和所述对象所作用的环境的连续环境状态信息,所述连续对象状态信息包含所述对象的多个对象状态,且所述连续环境状态信息包含所述环境的多个环境状态;分布确定单元220,用于确定所述状态获取单元210所获取的所述连续对象状态信息和所述连续环境状态信息的联合概率分布,以及所述连续对象状态信息和所述连续环境状态信息各自的第一边缘分布和第二边缘分布;散度值确定单元230,用于确定所述分布确定单元220所确定的所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值;以及,网络更新单元240,用于以所述散度值确定单元230所确定的所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数。
在一个示例中,在上述用于增强学习的策略生成网络的训练装置200中,所述状态获取单元210用于:对象状态获取子单元,用于获取所述执行任务的对象的连续的三维位置信息以作为所述连续对象状态信息;以及,环境状态获取子单元,用于获取所述对象所作用的环境的连续的三维位置信息以作为所述连续环境状态信息。
在一个示例中,在上述用于增强学习的策略生成网络的训练装置200中,所述对象状态获取子单元用于:获取所述执行任务的对象的连续的三维位置信息,以及连续的方位信息、线速度信息和角速度信息中的至少一个以作为所述连续对象状态信息。
在一个示例中,在上述用于增强学习的策略生成网络的训练装置200中,所述散度值确定单元230用于:从所述联合概率分布采样第一当前状态对和第一下一状态对;从所述连续对象状态信息和所述第二边缘分布分别采样当前状态和下一状态以组成第二当前状态对和第二下一状态对;通过用于计算互信息的统计网络确定所述第一当前状态对和第一下一状态对的两个第一互信息值;通过用于计算互信息的统计网络确定所述第二当前状态对和第二下一状态对的两个第二互信息值,并通过所述多个第二互信息值作为自然常数的指数以确定两个第二指数值;基于所述两个第一互信息值与两个第二指数值,确定过渡互信息值;以及,基于所述过渡互信息值获得所述KL散度值。
在一个示例中,在上述用于增强学习的策略生成网络的训练装置200中,所述散度值确定单元230基于所述过渡互信息值获得所述KL散度值包括:确定所述过渡互信息值是否小于零或者大于预定义的最大过渡互信息值;响应于所述过渡互信息值小于零,将所述KL散度值设置为零;响应于所述过渡互信息值大于预定义的最大过渡互信息值,将所述KL散度值设置为所述预定义的最大过渡互信息值;以及,响应于所述过渡互信息值大于零且小于所述预定义的最大过渡互信息值,将所述KL散度值设置为所述过渡互信息值。
在一个示例中,在上述用于增强学***均值减去对多个第二指数值的平均值的对数以获得训练用过渡互信息值;以及,通过反向传播更新所述统计网络的参数以最大化所述训练用过渡互信息值。
在一个示例中,在上述用于增强学习的策略生成网络的训练装置200中,所述网络更新单元240用于:以所述KL散度值作为奖励函数而通过深度决定性策略梯度更新所述策略生成网络的参数。
在一个示例中,在上述用于增强学习的策略生成网络的训练装置200中,所述网络更新单元240用于:以所述KL散度值作为奖励函数而通过柔性致动评价更新所述策略生成网络的参数。
这里,本领域技术人员可以理解,上述用于增强学习的策略生成网络的训练装置200中的各个单元和模块的具体功能和操作已经在上面参考图2的用于增强学习的策略生成网络的训练方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的用于增强学习的策略生成网络的训练装置200可以实现在各种终端设备中,例如用于增强学习任务的服务器等。在一个示例中,根据本申请实施例的用于增强学习的策略生成网络的训练装置200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该用于增强学习的策略生成网络的训练装置200可以是该终端设备的操作***中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该用于增强学习的策略生成网络的训练装置200同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该用于增强学习的策略生成网络的训练装置200与该终端设备也可以是分立的设备,并且该用于增强学习的策略生成网络的训练装置200可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图4来描述根据本申请实施例的电子设备。
图4图示了根据本申请实施例的电子设备的框图。
如图4所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的用于增强学习的策略生成网络的训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如对象状态信息、环境状态信息、互信息值等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括训练好的策略生成网络的参数等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图4中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于增强学习的策略生成网络的训练方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于增强学习的策略生成网络的训练方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够作出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种用于增强学习的策略生成网络的训练方法,包括:
获取执行任务的对象的连续对象状态信息和所述对象所作用的环境的连续环境状态信息,所述连续对象状态信息包含所述对象的多个对象状态,且所述连续环境状态信息包含所述环境的多个环境状态;
确定所述连续对象状态信息和所述连续环境状态信息的联合概率分布,以及所述连续对象状态信息和所述连续环境状态信息各自的第一边缘分布和第二边缘分布;
确定所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值;以及
以所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数。
2.如权利要求1所述的用于增强学习的策略生成网络的训练方法,其中,获取执行任务的对象的连续对象状态信息和所述对象所作用的环境的连续环境状态信息包括:
获取所述执行任务的对象的连续的三维位置信息以作为所述连续对象状态信息;以及
获取所述对象所作用的环境的连续的三维位置信息以作为所述连续环境状态信息。
3.如权利要求2所述的用于增强学习的策略生成网络的训练方法,其中,获取所述执行任务的对象的连续的三维位置信息以作为所述连续对象状态信息包括:
获取所述执行任务的对象的连续的三维位置信息,以及连续的方位信息、线速度信息和角速度信息中的至少一个以作为所述连续对象状态信息。
4.如权利要求1所述的用于增强学习的策略生成网络的训练方法,其中,确定所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值包括:
从所述联合概率分布采样第一当前状态对和第一下一状态对;
从所述连续对象状态信息和所述第二边缘分布分别采样当前状态和下一状态以组成第二当前状态对和第二下一状态对;
通过用于计算互信息的统计网络确定所述第一当前状态对和第一下一状态对的两个第一互信息值;
通过用于计算互信息的统计网络确定所述第二当前状态对和第二下一状态对的两个第二互信息值,并通过所述多个第二互信息值作为自然常数的指数以确定两个第二指数值;
基于所述两个第一互信息值与两个第二指数值,确定过渡互信息值;以及,
基于所述过渡互信息值获得所述KL散度值。
5.如权利要求4所述的用于增强学习的策略生成网络的训练方法,其中,基于所述过渡互信息值获得所述KL散度值包括:
确定所述过渡互信息值是否小于零或者大于预定义的最大过渡互信息值;
响应于所述过渡互信息值小于零,将所述KL散度值设置为零;
响应于所述过渡互信息值大于预定义的最大过渡互信息值,将所述KL散度值设置为所述预定义的最大过渡互信息值;以及,
响应于所述过渡互信息值大于零且小于所述预定义的最大过渡互信息值,将所述KL散度值设置为所述过渡互信息值。
6.如权利要求4所述的用于增强学习的策略生成网络的训练方法,其中,所述统计网络通过训练得到,所述训练过程包括:
从所述联合概率分布采样多个训练用第一状态对;
从所述连续对象状态信息和所述第二边缘分布分别采样状态以组成多个训练用第二状态对;
使用所述统计网络计算所述多个训练用第一状态对的多个训练用第一互信息值;
使用所述统计网络计算所述多个训练用第二状态对的多个训练用第二互信息值,并使用所述多个训练用第二互信息值作为自然常数的指数以计算出多个训练用第二指数值;
将所述多个第一互信息值的平均值减去对多个第二指数值的平均值的对数以获得训练用过渡互信息值;以及,
通过反向传播更新所述统计网络的参数以最大化所述训练用过渡互信息值。
7.如权利要求1所述的用于增强学习的策略生成网络的训练方法,其中,以所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数包括:
以所述KL散度值作为奖励函数而通过深度决定性策略梯度更新所述策略生成网络的参数。
8.如权利要求1所述的用于增强学习的策略生成网络的训练方法,其中,以所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数包括:
以所述KL散度值作为奖励函数而通过柔性致动评价更新所述策略生成网络的参数。
9.一种用于增强学习的策略生成网络的训练装置,包括:
状态获取单元,用于获取执行任务的对象的连续对象状态信息和所述对象所作用的环境的连续环境状态信息,所述连续对象状态信息包含所述对象的多个对象状态,且所述连续环境状态信息包含所述环境的多个环境状态;
分布确定单元,用于确定所述状态获取单元所获取的所述连续对象状态信息和所述连续环境状态信息的联合概率分布,以及所述连续对象状态信息和所述连续环境状态信息各自的第一边缘分布和第二边缘分布;
散度值确定单元,用于确定所述分布确定单元所确定的所述联合概率分布与所述第一边缘分布和所述第二边缘分布之积的KL散度值;以及
网络更新单元,用于以所述散度值确定单元所确定的所述KL散度值作为奖励函数而通过预定策略更新所述策略生成网络的参数。
10.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-8中任一项所述的用于增强学习的策略生成网络的训练方法。
CN202010867107.1A 2019-09-23 2020-08-26 用于增强学习的策略生成网络的训练方法、装置和电子设备 Active CN112016678B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962904419P 2019-09-23 2019-09-23
US62/904,419 2019-09-23

Publications (2)

Publication Number Publication Date
CN112016678A true CN112016678A (zh) 2020-12-01
CN112016678B CN112016678B (zh) 2024-08-09

Family

ID=73503476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010867107.1A Active CN112016678B (zh) 2019-09-23 2020-08-26 用于增强学习的策略生成网络的训练方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112016678B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949933A (zh) * 2021-03-23 2021-06-11 成都信息工程大学 一种基于多智能体强化学习的交通组织方案优化方法
CN113537406A (zh) * 2021-08-30 2021-10-22 重庆紫光华山智安科技有限公司 一种图像自动数据增强方法、***、介质及终端
CN113705777A (zh) * 2021-08-07 2021-11-26 中国航空工业集团公司沈阳飞机设计研究所 一种无人机自主寻径模型训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
US20190126472A1 (en) * 2017-10-27 2019-05-02 Deepmind Technologies Limited Reinforcement and imitation learning for a task
CN110081893A (zh) * 2019-04-01 2019-08-02 东莞理工学院 一种基于策略重用和强化学习的导航路径规划方法
US20190258918A1 (en) * 2016-11-03 2019-08-22 Deepmind Technologies Limited Training action selection neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190258918A1 (en) * 2016-11-03 2019-08-22 Deepmind Technologies Limited Training action selection neural networks
CN110235148A (zh) * 2016-11-03 2019-09-13 渊慧科技有限公司 训练动作选择神经网络
US20190126472A1 (en) * 2017-10-27 2019-05-02 Deepmind Technologies Limited Reinforcement and imitation learning for a task
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN110081893A (zh) * 2019-04-01 2019-08-02 东莞理工学院 一种基于策略重用和强化学习的导航路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
REIN HOUTHOOFT ETC.: "VIME: Variational Information Maximizing Exploration", ARXIV:1605.09674V4, 27 January 2017 (2017-01-27), pages 1 - 2 *
***等: "基于KL散度的策略优化", 计算机科学, 30 June 2019 (2019-06-30) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949933A (zh) * 2021-03-23 2021-06-11 成都信息工程大学 一种基于多智能体强化学习的交通组织方案优化方法
CN113705777A (zh) * 2021-08-07 2021-11-26 中国航空工业集团公司沈阳飞机设计研究所 一种无人机自主寻径模型训练方法及装置
CN113705777B (zh) * 2021-08-07 2024-04-12 中国航空工业集团公司沈阳飞机设计研究所 一种无人机自主寻径模型训练方法及装置
CN113537406A (zh) * 2021-08-30 2021-10-22 重庆紫光华山智安科技有限公司 一种图像自动数据增强方法、***、介质及终端
CN113537406B (zh) * 2021-08-30 2023-04-07 重庆紫光华山智安科技有限公司 一种图像自动数据增强方法、***、介质及终端

Also Published As

Publication number Publication date
CN112016678B (zh) 2024-08-09

Similar Documents

Publication Publication Date Title
Pham et al. Optlayer-practical constrained optimization for deep reinforcement learning in the real world
EP4231197B1 (en) Training machine learning models on multiple machine learning tasks
US11779837B2 (en) Method, apparatus, and device for scheduling virtual objects in virtual environment
CN112016678B (zh) 用于增强学习的策略生成网络的训练方法、装置和电子设备
US20130325774A1 (en) Learning stochastic apparatus and methods
CN111144580A (zh) 一种基于模仿学习的层级强化学习训练方法和装置
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及***
JP7493554B2 (ja) Few-shot模倣のためのデモンストレーション条件付き強化学習
CN114840322A (zh) 任务调度方法及装置、电子设备和存储
CN114529010A (zh) 一种机器人自主学习方法、装置、设备及存储介质
US20200134498A1 (en) Dynamic boltzmann machine for predicting general distributions of time series datasets
CN113419424A (zh) 减少过估计的模型化强化学习机器人控制方法及***
US20240202569A1 (en) Learning device, learning method, and recording medium
KR20220090732A (ko) 리스크 척도를 나타내는 파라미터에 기반하여 훈련된 모델을 사용하여, 주어진 상황에 대한 디바이스의 행동을 결정하는 방법 및 시스템
CN116968024A (zh) 获取用于生成形封闭抓取位姿的控制策略的方法、计算设备和介质
CN117112742A (zh) 一种对话模型优化方法、装置、计算机设备和存储介质
CN115421387B (zh) 一种基于逆强化学习的可变阻抗控制***及控制方法
CN116894530A (zh) 路径规划方法、装置、电子设备及存储介质
US20220305647A1 (en) Future prediction, using stochastic adversarial based sampling, for robotic control and/or other purpose(s)
CN110450164A (zh) 机器人控制方法、装置、机器人及存储介质
CN116710974A (zh) 在合成数据***和应用程序中使用域对抗学习的域适应
CN112016611A (zh) 生成器网络和策略生成网络的训练方法、装置和电子设备
Jha et al. Data efficient learning of robust control policies
CN113485107B (zh) 基于一致性约束建模的强化学习机器人控制方法及***
Chen et al. Distributed continuous control with meta learning on robotic arms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant