CN113962390A - 基于深度强化学习网络构建多样化搜索策略的模型的方法 - Google Patents

基于深度强化学习网络构建多样化搜索策略的模型的方法 Download PDF

Info

Publication number
CN113962390A
CN113962390A CN202111565916.8A CN202111565916A CN113962390A CN 113962390 A CN113962390 A CN 113962390A CN 202111565916 A CN202111565916 A CN 202111565916A CN 113962390 A CN113962390 A CN 113962390A
Authority
CN
China
Prior art keywords
virtual
state
agent
search
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111565916.8A
Other languages
English (en)
Other versions
CN113962390B (zh
Inventor
黄凯奇
尹奇跃
张俊格
徐沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111565916.8A priority Critical patent/CN113962390B/zh
Publication of CN113962390A publication Critical patent/CN113962390A/zh
Application granted granted Critical
Publication of CN113962390B publication Critical patent/CN113962390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开涉及一种基于深度强化学习网络构建多样化搜索策略的模型的方法,上述方法基于虚拟奖励的权重的设置,能够使得不同智能体访问不同的状态,一旦某个智能体陷入了误导性奖励,那么当其他智能体再次访问导向这个误导性奖励的一系列状态时,由于权重是负值,所以其余这些智能体获得的虚拟奖励的信号是负的,也就会迫使这些智能体不再访问导向这个误导性奖励的这一系列状态,从而保证不同的智能体访问不同的状态集合,使得更新后的搜索策略模型经过训练后能够找到全局最优对应的第二目标位置,有效解决了现有技术中对高维数据进行搜索时陷入误导性奖励导致的无法搜索到全局最优的技术问题,能够降低智能体由于误导性奖励陷入局部解的概率。

Description

基于深度强化学习网络构建多样化搜索策略的模型的方法
技术领域
本公开涉及深度强化学习领域和图像处理技术领域,尤其涉及一种基于深度强化学习网络构建多样化搜索策略的模型的方法。
背景技术
随着人工智能技术的发展,在面对复杂场景进行决策时,提出了深度强化学习的方法。深度学习(DL,Deep Learning)是机器学习中一种对数据进行表征学习的方法。强化学习(RL,Reinforcement Learning)是通过对未知环境一边探索一边建立环境模型以及学习得到一个最优策略。深度强化学习(DRL,Deep ReinforcementLearning)是将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的信息进行控制,是一种更接近人类思维方式的人工智能方法。
深度强化学习已经成为一种流行的训练智能体执行复杂任务的方法。深度强化学习通过最大化奖励信号来训练智能体。目前深度强化学习取得的成功大多是在奖励信号被精心设计且足够稠密的场景。然而,在许多环境中,奖励信号对智能体来说是非常稀疏的。在奖励稠密的场景中,智能体可以通过采取随机的行动轻松地找到奖励。但是,在奖励稀疏的场景下,希望通过随机探索获得奖励是很困难的。而如果没有奖励信号,深度强化学习算法将无法更新其策略。在奖励稀疏的场景中,智能体必须具备探索的能力。因此,深度强化学习中的探索问题具有极其重要的研究和应用价值。
然而,传统深度强化学习的探索方法很难在输入为高维数据的场景(例如以图像和高维向量为状态的环境)下处理误导性奖励的问题,这些误导性奖励会阻止智能体获得长期来看更高的回报,这最终使得智能体陷入到局部解中。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种基于深度强化学习网络构建多样化搜索策略的模型的方法。
第一方面,本公开的实施例提供了一种基于深度强化学习网络构建模型的方法。上述方法包括:获取初始化状态下的多个智能体对图像仿真环境进行搜索的搜索数据,上述图像仿真环境中具有:局部最优对应的第一目标位置和全局最优对应的第二目标位置;根据上述搜索数据中的位置状态信息和初始化的虚拟奖励模型,为上述多个智能体生成对应的虚拟奖励和针对上述虚拟奖励的权重,其中,当上述搜索数据指示上述多个智能体中的一个处于上述第一目标位置时,上述虚拟奖励的权重为负值;根据上述虚拟奖励和针对上述虚拟奖励的权重,更新上述搜索数据中的奖励信息,并对应更新上述智能体的搜索策略模型和更新上述虚拟奖励模型;以及根据更新后的搜索数据和虚拟奖励模型,对更新后的搜索策略模型继续进行训练,直至达到训练结束条件,训练完成的搜索策略模型作为能够定位至上述第二目标位置的图像搜索模型。
根据本公开的实施例,上述虚拟奖励模型包括:虚拟奖励生成器和判别器;其中,上述虚拟奖励生成器用于激励上述智能体对历史访问次数相对较少的图像位置状态进行访问;上述判别器用于确定上述多个智能体对特定图像位置状态访问的概率。
根据本公开的实施例,上述搜索数据为针对各个智能体的依时序分布的数据组序列,上述数据组序列中每一时刻的数据组包含:当前状态,针对当前状态的当前搜索动作,针对当前状态实施当前搜索动作后得到的下一时刻状态,本次奖励信息。其中,上述根据上述搜索数据中的状态信息和初始化的虚拟奖励模型,为上述多个智能体生成对应的虚拟奖励和针对上述虚拟奖励的权重,包括:针对每一时刻的数据组,执行以下步骤:将上述下一时刻状态输入至上述虚拟奖励生成器中,输出得到上述下一时刻状态对应的虚拟奖励;将上述下一时刻状态输入至上述判别器中,输出得到上述下一时刻状态由各个智能体进行访问的概率;以及根据上述下一时刻状态由当前智能体进行访问的概率和平均访问概率,生成针对上述虚拟奖励的权重。
根据本公开的实施例,上述智能体的总个数为N,上述下一时刻状态由当前智能体进行访问的概率表示为
Figure 314158DEST_PATH_IMAGE001
,其中,z表示当前智能体的编号,z的取值为1,2,3,……,N
Figure 300700DEST_PATH_IMAGE002
表示下一时刻状态;上述平均访问概率为1/N
其中,上述虚拟奖励的权重
Figure DEST_PATH_IMAGE003
满足以下表达式:
Figure 373698DEST_PATH_IMAGE004
根据本公开的实施例,上述根据上述虚拟奖励和针对上述虚拟奖励的权重,更新上述搜索数据中的奖励信息,包括:将上述虚拟奖励和和针对上述虚拟奖励的权重对应进行加权计算,得到虚拟奖励信息;以及对上述搜索数据中的上述本次奖励信息与虚拟奖励信息进行加和计算,得到更新后的奖励信息。
根据本公开的实施例,上述对应更新上述智能体的搜索策略模型,包括:将针对各个智能体的包含更新后的奖励信息的搜索数据作为当前智能体的搜索策略模型的输入,基于深度强化学习网络中的actor-critic算法对上述搜索策略模型的参数进行更新;其中,上述搜索策略模型包括策略网络和值网络,上述策略网络的输入为当前状态,上述策略网络的输出为针对当前状态的当前搜索动作;上述值网络用于根据当前状态预测出能够完成搜索任务的概率;对上述搜索策略模型的参数进行更新包括:对上述策略网络和上述值网络的参数均进行更新。
根据本公开的实施例,上述判别器包括神经网络模型
Figure DEST_PATH_IMAGE005
,上述虚拟奖励生成器包括:参数随机初始化且参数固定的目标网络
Figure 653239DEST_PATH_IMAGE006
和参数可训练的预测网络
Figure DEST_PATH_IMAGE007
其中,更新上述虚拟奖励模型,包括:
将更新后的搜索数据中的状态信息作为上述判别器的输入,基于第一损失函数来更新上述判别器的参数;将更新后的搜索数据中的状态信息作为上述虚拟奖励生成器的输入,基于第二损失函数来更新上述虚拟奖励生成器的参数;
其中,上述第一损失函数表示为
Figure 811688DEST_PATH_IMAGE008
Figure 523292DEST_PATH_IMAGE008
满足以下表达式:
Figure DEST_PATH_IMAGE009
其中,M表示训练数据的总个数,判别器的神经网络模型
Figure 201529DEST_PATH_IMAGE010
以状态s为输入,输出该状态s属于第z个智能体的概率
Figure DEST_PATH_IMAGE011
,z的取值为1,2,3,……,N,N表示智能体的总个数;
其中,上述第二损失函数表示为
Figure 402703DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
满足以下表达式:
Figure 303575DEST_PATH_IMAGE014
根据本公开的实施例,上述获取初始化状态下的多个智能体对图像仿真环境进行搜索的搜索数据,包括:针对初始化状态下的多个智能体中的每个智能体,将图像仿真环境给出的当前状态s t 作为当前智能体的输入,当前智能体输出与上述当前状态s t 对应的搜索动作a t ;图像仿真环境根据上述当前状态s t 以及对应的搜索动作a t ,输出下一时刻状态s t+1、当前智能体获得的本次奖励信息r t 和终止标识符d t ;基于时序进行迭代,得到针对各个智能体的依时序分布的数据组序列,上述数据组序列为六元组形式:(s t a t r t d t s t+1,z),其中z表示智能体的编号,z的取值为1,2,3,……,N,N表示智能体的总个数。
第二方面,本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的基于深度强化学习网络构建多样化搜索策略的模型的方法。
第三方面,本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的基于深度强化学习网络构建多样化搜索策略的模型的方法。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:
通过根据搜索数据中的位置状态信息和初始化的虚拟奖励模型,为多个智能体生成对应的虚拟奖励和针对上述虚拟奖励的权重,其中,当上述搜索数据指示上述多个智能体中的一个位于局部最优对应的第一目标位置时,上述虚拟奖励的权重为负值;基于虚拟奖励的权重的设置,能够使得不同智能体访问不同的状态,一旦某个智能体陷入了误导性奖励(获得误导性奖励的方式就是访问产生误导性奖励的状态,例如访问图像仿真环境中的第一目标位置对应的状态),那么当其他智能体再次访问导向这个误导性奖励的一系列状态时,由于权重是负值,所以其余这些智能体获得的虚拟奖励的信号是负的,也就会迫使这些智能体不再访问导向这个误导性奖励的这一系列状态,从而保证不同的智能体访问不同的状态集合,使得更新后的搜索策略模型经过训练后能够找到全局最优对应的第二目标位置,有效解决了现有技术中对高维数据(例如为3D图像、实际场景数据等)进行搜索时陷入误导性奖励导致的无法搜索到全局最优的技术问题,能够降低智能体由于误导性奖励陷入局部解的概率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了根据本公开实施例的基于深度强化学习网络构建多样化搜索策略的模型的方法的流程图;
图2示意性地示出了根据本公开实施例的图像仿真环境的示意图,其中(a)为3D图像仿真环境的立体示意图,(b)为该3D图像仿真环境的俯视图;
图3示意性地示出了根据本公开实施例的步骤S110的详细实施过程示意图;
图4示意性地示出了根据本公开实施例的判别器的结构示意图;
图5示意性地示出了根据本公开实施例的步骤S120和步骤S130中更新奖励信息的实施过程示意图;
图6A示意性地示出了根据现有技术进行目标搜索的结果;
图6B示意性地示出了根据本公开实施例提供的方法构建得到的图像搜索模型进行目标搜索的结果;以及
图7示意性地示出了本公开实施例提供的电子设备的结构框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的第一个示例性实施例提供了一种基于深度强化学习网络构建模型的方法。
图1示意性地示出了根据本公开实施例的基于深度强化学习网络构建多样化搜索策略的模型的方法的流程图。
参照图1所示,本公开实施例提供的基于深度强化学习网络构建多样化搜索策略的模型的方法,包括以下步骤:S110、S120、S130和S140。
在步骤S110,获取初始化状态下的多个智能体对图像仿真环境进行搜索的搜索数据,上述图像仿真环境中具有:局部最优对应的第一目标位置和全局最优对应的第二目标位置。
图2示意性地示出了根据本公开实施例的图像仿真环境的示意图,其中(a)为3D图像仿真环境的立体示意图,(b)为该3D图像仿真环境的俯视图。
参照图2中(a)和(b)所示,上述图像仿真环境例如为3D图像仿真环境,该3D图像仿真环境可以是对虚拟环境进行仿真的环境,例如为对游戏界面中的环境(例如为立体迷宫)进行仿真的环境,或者为用于模拟真实环境(例如具有不同重要程度的物品在火灾下的救援场景)的仿真环境。智能体所在的装置或者智能体本身可以通过传感器感知周围环境(真实环境或者虚拟界面中的环境),并利用感知数据来仿真得到上述图像仿真环境。
在该3D图像仿真环境中,以包括两种目标作为示例,各个目标的具体个数不做限制。在图2的(b)中以五角星来示意目标,其中一种目标为局部最优对应的第一目标Goal1,该第一目标Goal1位于3D图像仿真环境中的第一目标位置;另一种目标为全局最优对应的第二目标Goal2,该第二目标Goal2位于3D图像仿真环境中的第二目标位置。上述第一目标的第一目标位置和上述第二目标的第二目标位置可以是静止不变(随着时间)的,也可以是随着时间动态变化的。
智能体在初始化状态下,该智能体的搜索策略模型中的参数为初始化值。本公开的实施例中,智能体是指能通过传感器感知环境和通过执行器作用于环境的一个程序或者一个实体,例如可以是应用程序:以状态为输入,以动作为输出;也可以是安装有上述应用程序的一个电子设备,例如具有传感器(用于探测环境)的智能机器人(例如为搜救机器人)或者其他智能设备。
通过智能体与图像仿真环境进行交互,即智能体在图像仿真环境中,将智能体所处的当前状态输入至初始化后的搜索策略模型中,输出得到该智能体所要执行的搜索动作,图像仿真环境根据智能体所处的当前状态(例如为当前位置)和搜索动作,得到智能***于图像仿真环境中的下一时刻状态以及本次奖励信息。如此基于时序进行迭代,得到多个智能体各自的搜索数据,该搜索数据至少包括位置状态信息(可以对应于当前状态、下一时刻状态的描述)和奖励信息。
在步骤S120,根据上述搜索数据中的位置状态信息和初始化的虚拟奖励模型,为上述多个智能体生成对应的虚拟奖励和针对上述虚拟奖励的权重,其中,当上述搜索数据指示上述多个智能体中的一个处于上述第一目标位置时,上述虚拟奖励的权重为负值。
初始化的虚拟奖励模型(例如为神经网络模型)的参数为初始化值。当上述搜索数据指示上述智能体靠近上述第一目标位置时,上述虚拟奖励的权重为负值;基于虚拟奖励的权重的设置,能够使得不同智能体访问不同的状态。一旦某个智能体陷入了误导性奖励(获得误导性奖励的方式就是访问产生误导性奖励的状态,例如某个智能体访问图像仿真环境中的第一目标位置对应的状态),那么当其他智能体再次访问导向这个误导性奖励的一系列状态时,由于权重是负值,所以其余这些智能体获得的虚拟奖励的信号是负的,也就会迫使这些智能体不再访问导向这个误导性奖励的这一系列状态,从而保证不同的智能体访问不同的状态集合。
在步骤S130,根据上述虚拟奖励和针对上述虚拟奖励的权重,更新上述搜索数据中的奖励信息,并对应更新上述智能体的搜索策略模型和更新上述虚拟奖励模型。
通过根据虚拟奖励和针对上述虚拟奖励的权重来对搜索数据中的奖励信息进行更新,并对应更新智能体的搜索策略模型和更新上述虚拟奖励模型,实现了通过权重的正负来对搜索方向(搜索策略的一个具体体现)的动态调整,以使得多个智能体不会局限于局部解。上述虚拟奖励及其权重整体用于在奖励信息(本次奖励信息)的基础上给出搜索方向的导向,当权重为负值时,虚拟奖励对搜索数据中的奖励信息起到负向调节作用,如此会使得智能体采用与之前采用的移动策略(例如为靠近第一目标位置的移动方式)相反的策略(比如为远离第一目标位置并且逐步靠近第二目标位置)。
在步骤S140,根据更新后的搜索数据和虚拟奖励模型,对更新后的搜索策略模型继续进行训练,直至达到训练结束条件,训练完成的搜索策略模型作为能够定位至上述第二目标位置的图像搜索模型。
上述训练结束条件包括:数据量达到预设数量,或者训练时长达到设定值等。
基于上述步骤S110~S140,通过根据搜索数据中的位置状态信息和初始化的虚拟奖励模型,为多个智能体生成对应的虚拟奖励和针对上述虚拟奖励的权重,其中,当上述搜索数据指示上述多个智能体中的一个位于局部最优对应的第一目标位置时,上述虚拟奖励的权重为负值;这样一来,基于虚拟奖励的权重的设置,能够使得不同智能体访问不同的状态,一旦某个智能体陷入了误导性奖励,那么当其他智能体再次访问导向这个误导性奖励的一系列状态时,由于权重是负值,所以其余这些智能体获得的虚拟奖励的信号是负的,也就会迫使这些智能体不再访问导向这个误导性奖励的这一系列状态,从而保证不同的智能体访问不同的状态集合,使得更新后的搜索策略模型经过训练后能够找到全局最优对应的第二目标位置,有效解决了现有技术中对高维数据(例如为3D图像)进行搜索时陷入误导性奖励导致的无法搜索到全局最优的技术问题,能够降低智能体由于误导性奖励陷入局部解的概率。
下面来对上述各个步骤的具体实施过程进行详细介绍。
图3示意性地示出了根据本公开实施例的步骤S110的详细实施过程示意图。
以多个智能体的总个数为N(N≥2且N为整数)进行示例,在图3中示例当前智能体分配了M(M≥2且M为整数)个图像仿真环境,在图3中仅以其中一个智能体与M个图像仿真环境(Cz1,Cz2,……,CzM)中的CzM的交互过程作为示例。
例如,参照图3所示,上述搜索数据为针对各个智能体的依时序分布的数据组序列,上述数据组序列中每一时刻的数据组包含:当前状态s t ,针对当前状态的当前搜索动作a t ,针对当前状态实施当前搜索动作后得到的下一时刻状态s t+1,本次奖励信息r t 。针对各个智能体的搜索数据中携带有智能体的编号标识和终止标识符。
根据本公开的实施例,参照图3所示,上述步骤S110中,获取初始化状态下的多个智能体对图像仿真环境进行搜索的搜索数据,包括:针对初始化状态下的多个智能体中的每个智能体,将图像仿真环境给出的当前状态s t (对应于智能体在图像仿真环境中所处的位置)作为当前智能体的输入,当前智能体输出与上述当前状态s t 对应的搜索动作a t ;图像仿真环境根据上述当前状态s t 以及对应的搜索动作a t ,输出下一时刻状态s t+1、当前智能体获得的本次奖励信息r t 和终止标识符d t ;基于时序进行迭代,得到针对各个智能体的依时序分布的数据组序列,上述数据组序列为六元组形式:(s t a t r t d t s t+1,z),其中z表示智能体的编号,z的取值为1,2,3,……,N,N表示智能体的总个数。
其中,初始时刻t的取值为0,例如图2中(b)所示例的s 0状态。
下面结合图4和图5来描述步骤S120的详细实施过程。
图4示意性地示出了根据本公开实施例的判别器的结构示意图;图5示意性地示出了根据本公开实施例的步骤S120和步骤S130中更新奖励信息的实施过程示意图。
根据本公开的实施例,上述虚拟奖励模型包括:虚拟奖励生成器和判别器。其中,上述虚拟奖励生成器用于激励上述智能体对历史访问次数相对较少的图像位置状态进行访问。上述判别器用于确定上述多个智能体对特定图像位置状态访问的概率。
判别器的作用包括:以某个状态作为输入,输出该状态由各个智能体进行访问的概率,第z个智能体的输出概率与历史访问数据(状态数据)中,该第z个智能体访问该状态的次数成正比。虚拟奖励生成器的作用包括:以某个状态作为输入,输出虚拟奖励。虚拟奖励与历史访问数据(状态数据)中所有智能体访问该状态的次数成反比。
结合图4和图5所示,根据本公开的实施例,上述判别器包括神经网络模型410,上述虚拟奖励生成器包括两个神经网络模型,分别为参数随机初始化且参数固定的目标网络510和参数可训练的预测网络520。
在上述步骤S120中,根据上述搜索数据中的状态信息和初始化的虚拟奖励模型,为上述多个智能体生成对应的虚拟奖励和针对上述虚拟奖励的权重,包括:针对每一时刻的数据组,执行以下子步骤:S121、S122和S123。
在子步骤S121,将上述下一时刻状态输入至上述虚拟奖励生成器中,输出得到上述下一时刻状态对应的虚拟奖励。
例如,参照图5所示,将下一时刻状态s t+1输入至参数经过初始化的虚拟奖励生成器中,经过初始化状态下的目标网络510和预测网络520进行处理后,输出得到虚拟奖励,在图5中以b e 来示意虚拟奖励。
在子步骤S122,将上述下一时刻状态输入至上述判别器中,输出得到上述下一时刻状态由各个智能体进行访问的概率。
例如,参照图4和图5所示,将下一时刻状态s t+1输入至判别器中的神经网络模型410中,经过神经网络模型410处理后输出得到下一时刻状态由当前智能体进行访问的概率。
在子步骤S123,根据上述下一时刻状态由当前智能体进行访问的概率和平均访问概率,生成针对上述虚拟奖励的权重,由于该权重有助于增加搜索策略的多元性,因此在图5中将权重描述为多样性因子/多样化因子(diversity factor)。
根据本公开的实施例,上述智能体的总个数为N,上述下一时刻状态由当前智能体进行访问的概率表示为
Figure DEST_PATH_IMAGE015
,其中,z表示当前智能体的编号,z的取值为1,2,3,……,N
Figure 615608DEST_PATH_IMAGE016
表示下一时刻状态;上述平均访问概率为1/N
其中,上述虚拟奖励的权重
Figure 600881DEST_PATH_IMAGE003
满足以下表达式:
Figure 723689DEST_PATH_IMAGE017
(1)。
根据本公开的实施例,上述步骤S130中,根据上述虚拟奖励和针对上述虚拟奖励的权重,更新上述搜索数据中的奖励信息,包括以下子步骤:S131和S132。
在子步骤S131,将上述虚拟奖励和和针对上述虚拟奖励的权重对应进行加权计算,得到虚拟奖励信息。
参照图5所示,以b de 来示意虚拟奖励信息。
在子步骤S132,对上述搜索数据中的上述本次奖励信息与虚拟奖励信息进行加和计算,得到更新后的奖励信息。
参照图5所示,以r de 来示意更新后的奖励信息。
根据本公开的实施例,上述步骤S130中,对应更新上述智能体的搜索策略模型,包括:将针对各个智能体的包含更新后的奖励信息的搜索数据作为当前智能体的搜索策略模型的输入,基于深度强化学习网络中的actor-critic算法对上述搜索策略模型的参数进行更新。
其中,上述搜索策略模型包括策略网络和值网络,上述策略网络的输入为当前状态,上述策略网络的输出为针对当前状态的当前搜索动作;上述值网络用于根据当前状态预测出能够完成搜索任务的概率。对上述搜索策略模型的参数进行更新包括:对上述策略网络和上述值网络的参数均进行更新。
在一实施例中,对于策略网络,采用策略梯度进行更新,上述策略梯度满足以下表达式:
Figure 794413DEST_PATH_IMAGE018
(2),
其中,
Figure 910137DEST_PATH_IMAGE019
表示第z个智能体的策略梯度,M表示训练数据的总个数,π表示策略网络,θ表示网络参数,z表示当前智能体的编号,z的取值为1,2,3,……,N
Figure 749917DEST_PATH_IMAGE020
表示当前时刻t对应的当前状态
Figure 542161DEST_PATH_IMAGE021
的值估计,
Figure 834602DEST_PATH_IMAGE022
表示下一时刻t+1对应的下一时刻状态
Figure 691700DEST_PATH_IMAGE023
的值估计,
Figure 448303DEST_PATH_IMAGE024
表示本次奖励信息,
Figure 99865DEST_PATH_IMAGE025
表示当前状态
Figure 958230DEST_PATH_IMAGE026
选择搜索动作
Figure 353440DEST_PATH_IMAGE027
的概率。
上述值网络的损失函数
Figure 964549DEST_PATH_IMAGE028
满足以下表达式:
Figure 52591DEST_PATH_IMAGE029
(3)。
根据本公开的实施例,上述判别器包括神经网络模型
Figure 631209DEST_PATH_IMAGE030
,上述虚拟奖励生成器包括:参数随机初始化且参数固定的目标网络
Figure 830109DEST_PATH_IMAGE031
和参数可训练的预测网络
Figure 295726DEST_PATH_IMAGE032
其中,上述步骤S130中,更新上述虚拟奖励模型,包括:将更新后的搜索数据中的状态信息作为上述判别器的输入,基于第一损失函数来更新上述判别器的参数;将更新后的搜索数据中的状态信息作为上述虚拟奖励生成器的输入,基于第二损失函数来更新上述虚拟奖励生成器的参数。
其中,上述第一损失函数表示为
Figure 554669DEST_PATH_IMAGE033
Figure 122047DEST_PATH_IMAGE034
满足以下表达式:
Figure 859059DEST_PATH_IMAGE035
(4),
其中,M表示训练数据的总个数,判别器的神经网络模型
Figure 444761DEST_PATH_IMAGE036
以状态s为输入,输出该状态s属于第z个智能体的概率
Figure 874606DEST_PATH_IMAGE037
,z的取值为1,2,3,……,N,N表示智能体的总个数;
其中,上述第二损失函数表示为
Figure 162236DEST_PATH_IMAGE038
Figure 702939DEST_PATH_IMAGE039
满足以下表达式:
Figure 408727DEST_PATH_IMAGE040
(5)。
下面结合一具体实例来描述本公开的基于深度强化学习网络构建模型的方法的实施过程。
该方法包括以下步骤:
步骤a,初始化智能体、图像仿真环境、判别器以及虚拟奖励生成器。
具体地,初始化5(N的一种示例)个智能体的策略网络和值网络的参数。初始化5×32(N×M的一种示例)个图像仿真环境。初始化判别器中神经网络模型的参数。初始化由目标网络和预测网络构成的虚拟奖励生成器的参数。初始化数据收集列表。需要注意的是每个图像仿真环境初始化后将返回初始状态数据(图像数据),即第0步。
步骤b,智能体与环境交互,收集搜索数据。
具体地,步骤b可以采用以下子步骤来实现:
子步骤b-1,并行使用5×32个图像仿真环境,为每个智能体分配32个图像仿真环境(后续可以简称为环境)。
子步骤b-2,对于上述并行环境中的其中一个环境,将当前环境的状态数据送入对应的智能体的搜索策略网络,得到当前状态对应的动作输出(输出搜索动作)。
子步骤b-3,对于所有环境,执行子步骤b-2。
子步骤b-4,各个环境接收对应的智能体的动作进行一步前向仿真,并将下一步的状态数据、本次奖励信息以及终止标识符返回。
子步骤b-5,上述子步骤b-2到b-4过程重复128(时序长度)次,可以得到160个具有128时序轨迹长度的六元组形式的搜索数据(s t a t r t d t s t+1,z),该搜索数据作为训练数据,t的取值为0~127(包括端点值),共有128组训练数据。
值得注意的是,期间,当某个时刻环境仿真结束,则重置环境(重新初始化)继续进行仿真。
子步骤b-6,将上述搜索数据存入数据收集列表。
步骤c,生成虚拟奖励信号。
具体的,步骤c可以采用以下子步骤来实现:
子步骤c-1,从数据收集列表中拉取训练数据。
子步骤c-2,对于上述训练数据中的一个搜索数据(s t a t r t d t s t+1,z)(t的取值是确定的),将其中的下一时刻状态s t+1送入虚拟奖励生成器,得到虚拟奖励b t
步骤d,生成虚拟奖励权重。
具体的,步骤d可以采用以下子步骤来实现:
子步骤d-1,从数据收集列表中拉取训练数据。
子步骤d-2,对于上述训练数据中的一个搜索数据(s t a t r t d t s t+1,z)(t的取值是确定的),将其中的下一时刻状态s t+1送入判别器,得到其是智能体z生成的概率
Figure 743893DEST_PATH_IMAGE041
,再根据上述公式(1)来计算虚拟奖励的权重α t
子步骤d-3,更新奖励信号:r t (更新后)=r t (更新前)+α t ×b t
子步骤d-4,将上述子步骤c-1、c-2,d-1、d-2、d-3针对数据收集列表中的所有数据实施,即针对各个数据,执行160×128次,直到对数据收集列表中的所有搜索数据(或者描述为训练数据)都进行了更新。
其中,由于当上述搜索数据指示上述多个智能体中的一个处于上述第一目标位置时,上述虚拟奖励的权重为负值,比如5个智能体中的智能体2的访问轨迹是S0,S1,S2,S3,S*,S*表示误导性状态,当智能体2访问这一状态S*后,对应虚拟奖励的权重为负值,那么其他智能体1、3、4和5如果在后续访问这些状态时都会得到负奖励,这就迫使这些智能体1、3、4和5通过调整搜索策略,避免访问导向状态S*的一系列状态。
步骤e,更新模型参数。
具体的,步骤e可以采用以下子步骤来实现:
子步骤e-1,从数据收集列表中拉取训练数据。
子步骤e-2,使用数据收集列表中的所有数据,根据数据中的智能体编号z更新对应智能体的策略网络和值网络的参数;通过交叉熵损失更新判别器的参数;更新包含一个参数随机初始化且参数固定的目标网络和一个参数可训练的预测网络的虚拟奖励生成器的参数,具体更新方法可以参照前述实施例的描述,这里不再赘述。
步骤f,清空数据收集列表,保存模型参数。
具体的,步骤f可以采用以下子步骤来实现:
子步骤f-1,清空数据收集列表中的数据。
子步骤f-2,重复前述步骤b~e的过程预设次数(例如为103次),完成一个版本参数的更新,并保存所有智能体的策略网络和值网络的参数;保存判别器的参数;保存虚拟奖励生成器中的目标网络和预测网络的参数。
步骤g,持续训练智能体,直到迭代完成。
具体地,重复步骤b~e,直到收集的总数据量超过预设数据量的要求(例如为2×108)。
上述构建搜索模型的方法与已有的深度强化学习的搜索方法相比,能够解决现有方法很难在输入为高维数据(图像)的场景下处理误导性奖励的问题,降低了智能体由于误导性奖励陷入局部解的概率。
下面结合实际实际结果来对比说明本公开实施例提供的方法相较于现有的深度强化学习的探索方法的优势。
参照图2所示,3D图像仿真环境为一游戏场景,游戏的任务是让智能体找到目标,一旦找到目标游戏就结束。上述3D图像仿真环境中的第一目标Goal1对应于小额奖励,例如为奖励值为1分,第二目标Goal2对应于大额奖励,例如为奖励值为10分,该第一目标Goal1的第一目标位置距离智能体的初始位置(初始状态S0)较近,第二目标Goal2的第二目标位置距离智能体的初始位置较远。
图6A示意性地示出了根据现有技术进行目标搜索的结果,参照图6A所示,采用现有的深度强化学习方法对3D图像仿真环境中的目标进行搜索,结果是通过环境感知和学习,最终定位至局部最优解对应的第一目标Goal1,由此可知,现有技术中会陷入误导性奖励中。
图6B示意性地示出了根据本公开实施例提供的方法构建得到的图像搜索模型进行目标搜索的结果,参照图6B所示,采用本公开实施例提供的方法对上述3D图像仿真环境中的目标进行搜索,最终能够实现2个探索路径,其内在对应于两个搜索策略网络,当某一个智能体学习到图6B中采用空白箭头示意的接近第一目标的搜索策略之后,会使得虚拟奖励的权重为负值,从而导致其他智能体如果再学习到接近第一目标Goal1的搜索策略的话就会被惩罚(对应于虚拟奖励信息为负值),也就迫使其他智能体变化搜索策略,采用远离上述第一目标的搜索策略,能够进一步探索环境并学习到填充箭头示意的接近第二目标Goal2的搜索策略。
本公开上述实施例提供的各个技术方案可以全部或部分步骤以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例实施例的电子设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。实现本公开的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
本公开的第二个示例性实施例提供了一种电子设备。
图7示意性示出了本公开实施例提供的电子设备的结构框图。
参照图7所示,本公开实施例提供的电子设备700包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701、通信接口702和存储器703通过通信总线704完成相互间的通信;存储器703,用于存放计算机程序;处理器701,用于执行存储器上所存放的程序时,实现如上所述的基于深度强化学习网络构建多样化搜索策略的模型的方法。
本公开的第三个示例性实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的基于深度强化学习网络构建多样化搜索策略的模型的方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于深度强化学习网络构建多样化搜索策略的模型的方法,其特征在于,包括:
获取初始化状态下的多个智能体对图像仿真环境进行搜索的搜索数据,所述图像仿真环境中具有:局部最优对应的第一目标位置和全局最优对应的第二目标位置;
根据所述搜索数据中的位置状态信息和初始化的虚拟奖励模型,为所述多个智能体生成对应的虚拟奖励和针对所述虚拟奖励的权重,其中,当所述搜索数据指示所述多个智能体中的一个处于所述第一目标位置时,所述虚拟奖励的权重为负值;
根据所述虚拟奖励和针对所述虚拟奖励的权重,更新所述搜索数据中的奖励信息,并对应更新所述智能体的搜索策略模型和更新所述虚拟奖励模型;
根据更新后的搜索数据和虚拟奖励模型,对更新后的搜索策略模型继续进行训练,直至达到训练结束条件,训练完成的搜索策略模型作为能够定位至所述第二目标位置的图像搜索模型。
2.根据权利要求1所述的方法,其特征在于,所述虚拟奖励模型包括:虚拟奖励生成器和判别器;
其中,所述虚拟奖励生成器用于激励所述智能体对历史访问次数相对较少的图像位置状态进行访问;
所述判别器用于确定所述多个智能体对特定图像位置状态访问的概率。
3.根据权利要求2所述的方法,其特征在于,所述搜索数据为针对各个智能体的依时序分布的数据组序列,所述数据组序列中每一时刻的数据组包含:当前状态,针对当前状态的当前搜索动作,针对当前状态实施当前搜索动作后得到的下一时刻状态,本次奖励信息;
其中,所述根据所述搜索数据中的状态信息和初始化的虚拟奖励模型,为所述多个智能体生成对应的虚拟奖励和针对所述虚拟奖励的权重,包括:
针对每一时刻的数据组,执行以下步骤:
将所述下一时刻状态输入至所述虚拟奖励生成器中,输出得到所述下一时刻状态对应的虚拟奖励;
将所述下一时刻状态输入至所述判别器中,输出得到所述下一时刻状态由各个智能体进行访问的概率;以及
根据所述下一时刻状态由当前智能体进行访问的概率和平均访问概率,生成针对所述虚拟奖励的权重。
4.根据权利要求3所述的方法,其特征在于,所述智能体的总个数为N,所述下一时刻状态由当前智能体进行访问的概率表示为
Figure 422762DEST_PATH_IMAGE001
,其中,z表示当前智能体的编号,z的取值为1,2,3,……,N
Figure 546576DEST_PATH_IMAGE002
表示下一时刻状态;所述平均访问概率为1/N
其中,所述虚拟奖励的权重
Figure 830927DEST_PATH_IMAGE003
满足以下表达式:
Figure 555038DEST_PATH_IMAGE004
5.根据权利要求3所述的方法,其特征在于,所述根据所述虚拟奖励和针对所述虚拟奖励的权重,更新所述搜索数据中的奖励信息,包括:
将所述虚拟奖励和和针对所述虚拟奖励的权重对应进行加权计算,得到虚拟奖励信息;
对所述搜索数据中的所述本次奖励信息与虚拟奖励信息进行加和计算,得到更新后的奖励信息。
6.根据权利要求1所述的方法,其特征在于,所述对应更新所述智能体的搜索策略模型,包括:
将针对各个智能体的包含更新后的奖励信息的搜索数据作为当前智能体的搜索策略模型的输入,基于深度强化学习网络中的actor-critic算法对所述搜索策略模型的参数进行更新;
其中,所述搜索策略模型包括策略网络和值网络,所述策略网络的输入为当前状态,所述策略网络的输出为针对当前状态的当前搜索动作;所述值网络用于根据当前状态预测出能够完成搜索任务的概率;
对所述搜索策略模型的参数进行更新包括:对所述策略网络和所述值网络的参数均进行更新。
7.根据权利要求2所述的方法,其特征在于,所述判别器包括神经网络模型
Figure 583037DEST_PATH_IMAGE005
,所述虚拟奖励生成器包括:参数随机初始化且参数固定的目标网络
Figure 826936DEST_PATH_IMAGE006
和参数可训练的预测网络
Figure 16609DEST_PATH_IMAGE007
其中,所述更新所述虚拟奖励模型,包括:
将更新后的搜索数据中的状态信息作为所述判别器的输入,基于第一损失函数来更新所述判别器的参数;
其中,所述第一损失函数表示为
Figure 729481DEST_PATH_IMAGE008
Figure 295592DEST_PATH_IMAGE008
满足以下表达式:
Figure 597260DEST_PATH_IMAGE009
其中,M表示训练数据的总个数,判别器的神经网络模型
Figure 20151DEST_PATH_IMAGE010
以状态s为输入,输出该状态s属于第z个智能体的概率
Figure 407270DEST_PATH_IMAGE011
,z的取值为1,2,3,……,N,N表示智能体的总个数;
将更新后的搜索数据中的状态信息作为所述虚拟奖励生成器的输入,基于第二损失函数来更新所述虚拟奖励生成器的参数;
其中,所述第二损失函数表示为
Figure 94516DEST_PATH_IMAGE012
Figure 985111DEST_PATH_IMAGE013
满足以下表达式:
Figure 844483DEST_PATH_IMAGE014
8.根据权利要求1所述的方法,其特征在于,所述获取初始化状态下的多个智能体对图像仿真环境进行搜索的搜索数据,包括:
针对初始化状态下的多个智能体中的每个智能体,将图像仿真环境给出的当前状态s t 作为当前智能体的输入,当前智能体输出与所述当前状态s t 对应的搜索动作a t
图像仿真环境根据所述当前状态s t 以及对应的搜索动作a t ,输出下一时刻状态s t+1、当前智能体获得的本次奖励信息r t 和终止标识符d t
基于时序进行迭代,得到针对各个智能体的依时序分布的数据组序列,所述数据组序列为六元组形式:(s t a t r t d t s t+1,z),其中z表示智能体的编号,z的取值为1,2,3,……,N,N表示智能体的总个数。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。
CN202111565916.8A 2021-12-21 2021-12-21 基于深度强化学习网络构建多样化搜索策略的模型的方法 Active CN113962390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111565916.8A CN113962390B (zh) 2021-12-21 2021-12-21 基于深度强化学习网络构建多样化搜索策略的模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111565916.8A CN113962390B (zh) 2021-12-21 2021-12-21 基于深度强化学习网络构建多样化搜索策略的模型的方法

Publications (2)

Publication Number Publication Date
CN113962390A true CN113962390A (zh) 2022-01-21
CN113962390B CN113962390B (zh) 2022-04-01

Family

ID=79473425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111565916.8A Active CN113962390B (zh) 2021-12-21 2021-12-21 基于深度强化学习网络构建多样化搜索策略的模型的方法

Country Status (1)

Country Link
CN (1) CN113962390B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115272541A (zh) * 2022-09-26 2022-11-01 成都市谛视无限科技有限公司 一种驱动智能体到达多目标点的姿态生成方法
CN115412401A (zh) * 2022-08-26 2022-11-29 京东科技信息技术有限公司 训练虚拟网络嵌入模型及虚拟网络嵌入的方法和装置
CN117150927A (zh) * 2023-09-27 2023-12-01 北京汉勃科技有限公司 基于极端新颖度搜索的深度强化学习探索方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107263449A (zh) * 2017-07-05 2017-10-20 中国科学院自动化研究所 基于虚拟现实的机器人远程示教***
CN110882544A (zh) * 2019-11-28 2020-03-17 网易(杭州)网络有限公司 多智能体训练方法、装置和电子设备
CN111242443A (zh) * 2020-01-06 2020-06-05 国网黑龙江省电力有限公司 基于深度强化学习的能源互联网中虚拟电厂经济调度方法
WO2020162211A1 (ja) * 2019-02-06 2020-08-13 日本電信電話株式会社 制御装置、制御方法及びプログラム
CN112765723A (zh) * 2020-12-10 2021-05-07 南京航空航天大学 好奇心驱动的混合动力***深度强化学习能量管理方法
US20210200163A1 (en) * 2019-12-13 2021-07-01 Tata Consultancy Services Limited Multi-agent deep reinforcement learning for dynamically controlling electrical equipment in buildings
CN113392935A (zh) * 2021-07-09 2021-09-14 浙江工业大学 基于注意力机制的多智能体深度强化学习策略优化方法
CN113592101A (zh) * 2021-08-13 2021-11-02 大连大学 一种基于深度强化学习的多智能体协作模型

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107263449A (zh) * 2017-07-05 2017-10-20 中国科学院自动化研究所 基于虚拟现实的机器人远程示教***
WO2020162211A1 (ja) * 2019-02-06 2020-08-13 日本電信電話株式会社 制御装置、制御方法及びプログラム
CN110882544A (zh) * 2019-11-28 2020-03-17 网易(杭州)网络有限公司 多智能体训练方法、装置和电子设备
US20210200163A1 (en) * 2019-12-13 2021-07-01 Tata Consultancy Services Limited Multi-agent deep reinforcement learning for dynamically controlling electrical equipment in buildings
CN111242443A (zh) * 2020-01-06 2020-06-05 国网黑龙江省电力有限公司 基于深度强化学习的能源互联网中虚拟电厂经济调度方法
CN112765723A (zh) * 2020-12-10 2021-05-07 南京航空航天大学 好奇心驱动的混合动力***深度强化学习能量管理方法
CN113392935A (zh) * 2021-07-09 2021-09-14 浙江工业大学 基于注意力机制的多智能体深度强化学习策略优化方法
CN113592101A (zh) * 2021-08-13 2021-11-02 大连大学 一种基于深度强化学习的多智能体协作模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XU PEI ET AL: "Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games", 《IEEE TRANSACTIONS ON GAMES》 *
黄凯奇: "人机对抗智能技术", 《中国科学信息科学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115412401A (zh) * 2022-08-26 2022-11-29 京东科技信息技术有限公司 训练虚拟网络嵌入模型及虚拟网络嵌入的方法和装置
CN115412401B (zh) * 2022-08-26 2024-04-19 京东科技信息技术有限公司 训练虚拟网络嵌入模型及虚拟网络嵌入的方法和装置
CN115272541A (zh) * 2022-09-26 2022-11-01 成都市谛视无限科技有限公司 一种驱动智能体到达多目标点的姿态生成方法
CN115272541B (zh) * 2022-09-26 2023-01-03 成都市谛视无限科技有限公司 一种驱动智能体到达多目标点的姿态生成方法
CN117150927A (zh) * 2023-09-27 2023-12-01 北京汉勃科技有限公司 基于极端新颖度搜索的深度强化学习探索方法及***
CN117150927B (zh) * 2023-09-27 2024-04-02 北京汉勃科技有限公司 基于极端新颖度搜索的深度强化学习探索方法及***

Also Published As

Publication number Publication date
CN113962390B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN113962390B (zh) 基于深度强化学习网络构建多样化搜索策略的模型的方法
CN105637540A (zh) 用于强化学习的方法和设备
US20210158162A1 (en) Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space
CN109952582A (zh) 一种强化学习模型的训练方法、节点、***及存储介质
US20190286979A1 (en) Reinforcement Learning for Concurrent Actions
CN111026272B (zh) 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN114261400B (zh) 一种自动驾驶决策方法、装置、设备和存储介质
CN114004370A (zh) 基于深度强化学习网络构建对区域敏感的模型的方法
CN113919482A (zh) 智能体训练方法、装置、计算机设备和存储介质
CN115300910B (zh) 基于多智能体强化学习的去混淆游戏策略模型生成方法
WO2021058626A1 (en) Controlling agents using causally correct environment models
CN111611703B (zh) 基于数字孪生的沙盘推演方法、装置、设备和存储介质
CN117540203A (zh) 一种集群机器人合作导航的多向课程学习训练方法及装置
CN115826621B (zh) 一种基于深度强化学习的无人机运动规划方法及***
Adamsson Curriculum learning for increasing the performance of a reinforcement learning agent in a static first-person shooter game
CN113139644B (zh) 一种基于深度蒙特卡洛树搜索的信源导航方法及装置
EP4278301A1 (en) An apparatus and method for training a parametric policy
KR20220090732A (ko) 리스크 척도를 나타내는 파라미터에 기반하여 훈련된 모델을 사용하여, 주어진 상황에 대한 디바이스의 행동을 결정하는 방법 및 시스템
Beaulac et al. Narrow Artificial Intelligence with Machine Learning for Real‐Time Estimation of a Mobile Agent’s Location Using Hidden Markov Models
Picardi A comparison of Different Machine Learning Techniques to Develop the AI of a Virtual Racing Game
CN116520851B (zh) 物体围捕方法和装置
CN117474077B (zh) 一种基于oar模型与强化学习的辅助决策方法和装置
CN117556681B (zh) 一种智能空战决策方法、***及电子设备
Elliott et al. Using supervised training signals of observable state dynamics to speed-up and improve reinforcement learning
CN116415627A (zh) 用于自动驾驶的目标网络的训练方法、设备以及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant