CN111950703A - 一种强化学习方法及计算机可读存储介质 - Google Patents

一种强化学习方法及计算机可读存储介质 Download PDF

Info

Publication number
CN111950703A
CN111950703A CN202010769098.2A CN202010769098A CN111950703A CN 111950703 A CN111950703 A CN 111950703A CN 202010769098 A CN202010769098 A CN 202010769098A CN 111950703 A CN111950703 A CN 111950703A
Authority
CN
China
Prior art keywords
experience
state
importance
module
storage pool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010769098.2A
Other languages
English (en)
Inventor
袁春
朱新瑞
李思楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202010769098.2A priority Critical patent/CN111950703A/zh
Publication of CN111950703A publication Critical patent/CN111950703A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种强化学习方法及计算机可读存储介质,方法包括:智能体决策网络接收任务环境给出的当前状态t并决策出动作t发送给任务环境;智能体决策网络接收反馈回的奖励t和状态t+1;智能体决策网络将第一经验元祖传给经验存储池,经验存储池将状态t提供给状态激励模块,状态激励模块返回一个激励奖励t;经验存储池提供新的位置存储第二经验元祖,重要度计算模块将当前所有经验的重要度最大值作为第二经验元组对应的重要度;概率选取模块根据所述重要度对应修改权值,并抽样一个批次的下标值给经验存储池,经验存储池将对应经验元组传回给智能体决策网络;智能体决策网络训练结束后将对应时间差误差计算返给经验存储池;重复这个过程。

Description

一种强化学习方法及计算机可读存储介质
技术领域
本发明涉及强化学习技术领域,尤其涉及一种强化学习方法及计算机可读存储介质。
背景技术
在强化学习过程中,对于数据的存储,以及训练时如何进行数据选取,是深度强化学习中最重要的工作之一。
现有技术中,最常见通用的方法是对于已有数据进行等概率选取,然而这种方法对于数据本身信息的利用效率不足,传统的经验回放中的等概率选取方案,在噪声较大,或者无用尝试较多时,会使得重要的经验被选取进行训练的概率偏低,降低智能体的学习效率。
现有技术中,在解决利用效率不足的情况时,时间复杂度较高。
现有技术中,缺乏一种时间复杂度低的情况下提高数据利用率的强化学习方法。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
本发明为了解决现有的问题,提供一种强化学习方法及计算机可读存储介质。
为了解决上述问题,本发明采用的技术方案如下所述:
一种强化学习方法,包括如下步骤:S1:智能体决策网络接收任务环境给出的当前的状态t并基于所述当前的状态决策出动作t,发送给所述任务环境;S2:所述智能体决策网络接收所述任务环境基于所述动作t反馈回的奖励t和状态t+1,所述状态t、所述动作t、所述奖励t和所述状态t+1共同组成第一经验元祖;S3:所述智能体决策网络将所述第一经验元祖传给经验存储池,所述经验存储池将所述第一经验元祖中的状态t提供给状态激励模块,所述状态激励模块根据所述状态t返回一个激励奖励t给所述经验存储池;所述状态t、所述动作t、所述奖励t、所述激励奖励t和所述状态t+1共同组成第二经验元祖;S4:所述经验存储池提供一个新的位置用于存储所述第二经验元祖,S5:重要度计算模块将当前所有经验的重要度最大值作为所述第二经验元组对应的重要度;概率选取模块根据所述重要度对应修改权值,并抽样一个批次的下标值给所述经验存储池,所述经验存储池将对应批次下标的一批经验元组传回给所述智能体决策网络;S6:所述智能体决策网络收到所述经验元祖并进行训练;S7:所述智能体决策网络训练结束后,将对应时间差误差计算得出后,返回给所述经验存储池;所述经验存储池将时间差误差传回给所述重要度计算模块,所述重要度计算模块修改对应位置的重要度信息;重要度计算模块将修改信息交给概率选取模块,概率选取模块对应修改权值;重复这个过程直到达到预定时间或次数。
优选地,所述重要度计算模块采用信心上限值方法进行重要度计算。
优选地,采用如下公式进行重要度计算:
CI(xi)=SP(δ,λ)+ηCP(cni)
其中:
Figure BDA0002615850260000021
Figure BDA0002615850260000022
其中,δ是时间差误差,λ是一个随时间线性增长的超参数,表示智能体模型当前学***均和的均衡权重系数。
优选地,不同使用场景中,SP函数和CP函数具体形式不同。
优选地,所述概率选取模块依数值概率采样的算法,利用将每个样本的概率数值映射到0-1的数轴上的方法进行;对于存在的N个样本,第i个样本的数值为Vi,则第i个样本被采样的概率为:
Figure BDA0002615850260000023
将该式的分子改为一个前缀和相减的形式:
Figure BDA0002615850260000031
随机出一个[0,1]中的随机小数p,寻找被选择的样本i满足:
Figure BDA0002615850260000032
在所有样本数值都大于0的前提下,对于任意小数,有且仅有一个样本满足上式条件,并最终被选择。
优选地,所述概率选取模块采用线段树方法提高采用效率;所述概率选取模块根据所述重要度修改对应线段树上的节点的权值。
优选地,增加经验权重进行回放的方法,采用等比例不等概率进行经验采样。
优选地,采用伸展树对于所述概率选取模块的概率选取方法进行优化。
优选地,所述状态激励模块基于PixelCNN的路径期望探索值估计方法,利用CNN结构,输入一个状态值,最后输出一个预期的探索次数的对数值,记为PGn(x),则该状态x的额外奖励为:
Figure BDA0002615850260000033
Figure BDA0002615850260000034
其中,PGn(x)表示的是网络输出的第x个经验预计需要访问次数,
Figure BDA0002615850260000035
形成了激励奖励计算的中间量,r+(x)是激励奖励值。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。
本发明的有益效果为:提供一种强化学***时难以被发现的经验被挖掘出来的概率提高。最终使得本发明的方法可以在各个方法上广泛使用。
附图说明
图1是本发明实施例中强化学习方法的示意图。
图2是本发明实施例中智能体模块的结构示意图。
图3是本发明实施例中第一种深度强化学习的智能体决策网络中实施实施例。
图4是本发明实施例中第二种深度强化学习的智能体决策网络中实施实施例。
图5是本发明实施例中第三种深度强化学习的智能体决策网络中实施实施例。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外,连接既可以是用于固定作用也可以是用于电路连通作用。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
现有技术中的,优先级经验回放方法通过将时间差误差作为概率和权重去对经验进行筛选和网络更新,虽然提高了数据的利用率但是提高了时间复杂度。
自步经验回放方法将时间差误差和一个随时间线性增长的系数进行比较,越靠近则重要度越高,同时增加覆盖惩罚项,使得已被选择次数越多的经验随后被再次选取的概率降低,虽然提高了数据的利用率但是但提高了时间复杂度。
由于经验回放方向上的改进受大框架性能影响,虽能有局部提升但不能对于整个智能体的性能有质的突破,并且相关研究结果时间性能负荷过大,导致这一领域的深入挖掘变少。
如图1所示,本发明提供一种强化学习方法,包括如下步骤:
S1:智能体决策网络接收任务环境给出的当前的状态t并基于所述当前的状态决策出动作t,发送给所述任务环境;
S2:所述智能体决策网络接收所述任务环境基于所述动作t反馈回的奖励t和状态t+1,所述状态t、所述动作t、所述奖励t和所述状态t+1共同组成第一经验元祖;
S3:所述智能体决策网络将所述第一经验元祖传给经验存储池,所述经验存储池将所述第一经验元祖中的状态t提供给状态激励模块,所述状态激励模块根据所述状态t返回一个激励奖励t给所述经验存储池;所述状态t、所述动作t、所述奖励t、所述激励奖励t和所述状态t+1共同组成第二经验元祖;
S4:所述经验存储池提供一个新的位置用于存储所述第二经验元祖;
S5:重要度计算模块将当前所有经验的重要度最大值作为所述第二经验元组对应的重要度;概率选取模块根据所述重要度对应修改权值,并抽样一个批次的下标值给所述经验存储池,所述经验存储池将对应批次下标的一批经验元组传回给所述智能体决策网络;
S6:所述智能体决策网络收到所述经验元祖并进行训练;
S7:所述智能体决策网络训练结束后,将对应时间差误差计算得出后,返回给所述经验存储池;所述经验存储池将时间差误差传回给所述重要度计算模块,所述重要度计算模块修改对应位置的重要度信息;重要度计算模块将修改信息交给概率选取模块,概率选取模块对应修改权值;重复这个过程直到达到预定时间或次数。
为了便于理解上述步骤,请参照图2的智能体模块的结构示意图。
如图2所示,本发明的智能体模块包括:
智能体决策网络,用于与环境直接进行交互;
经验存储池,用于对经验的存储,并且在智能体需要进行网络参数更新时反馈一个批次的经验;
奖励激励模块,计算出一个值加到该经验的奖励中,被探索次数越多的相应的值就会越少,以此来提高被探索次数较少的经验的关注程度;
重要度计算模块,提供了经验被选择的重要度数值,用于每个经验被选取概率的计算参考,而概率选取模块则是加速概率选取过程的速度。
在智能体决策网络需要进行网络参数更新时,由概率选取模块抽样出训练批次序号{K},经验存储池将对应位置的经验元组批次交互给智能体决策网络进行网络训练和参数更新,智能体训练结束后,将对应位置的时间差误差返回给经验回放中的重要度计算模块,重要度计算模块重新修正相应位置经验的重要度,并将修正通知给概率选取模块,概率选取模块再进行调整更新。
传统的经验回放中的等概率选取方案,在噪声较大,或者无用尝试较多时,会使得重要的经验被选取进行训练的概率偏低,降低智能体的学习效率。本发明旨在提出一种提高重要经验被选取的概率,并且这种方法能够被广泛使用且对智能体的整体运行时间没有过多负荷。
同时,本发明并没有对采样数据的权重进行更改,只修改了概率,这样做的好处是在于权重的数量级需要更细致的调整,这样的方法并不能广泛有效。另一方面,本发明的概率选取方案进行了时间复杂度优化,使得本发明的方法对于整个智能体学***时难以被发现的经验被挖掘出来的概率提高。最终使得本发明的方法可以在各个方法上广泛使用。
在本发明的一种实施例中,重要度计算模块采用信心上限值方法进行重要度计算。
信心上限值方法原本是一种博弈树搜索算法,超大规模博弈树的搜索过程中相对于传统的搜索算法有着时间和空间方面的优势。它的原始意义是在进行博弈搜索树的策略选择时使用以下估计值:
Figure BDA0002615850260000061
其中,vi表示的是节点i本身的价值估计,Ti是指这个节点已被访问次数。用SP函数来代替vi,并用每个经验被训练次数来代替式子中的Ti
在本发明的一种实施例中,重要度计算方法由CI函数给出:
CI(xi)=SP(δ,λ)+ηCP(cni)
其中:
Figure BDA0002615850260000071
Figure BDA0002615850260000072
其中,δ是时间差误差,λ是一个随时间线性增长的超参数,表示智能体模型当前学***均和的均衡权重系数。
另一方面,CP函数会根据经验已被探索次数cn,形成一个负相关函数,使得被探索次数越少的经验,在接下来的过程中被筛选的概率越高,最终二者用线性相加的方式构成最终的重要度估计。
在本发明的另一种实施例中,利用了我们的覆盖惩罚函数但对经验重要度函数进行了变更。我们的重要度计算模块的重要度计算依赖于公式:
CI(xi)=SP(δ,λ)+ηCP(cni)
在已有的强化学习方法中也有对每个经验的重要度进行评估的类似方法,它们可能会用其他公式进行重要度计算,甚至可能使用同样的CI函数进行计算,但使用具体形式不同的SP函数和CP函数,或者是修改了加权和的权重;即不同使用场景中,SP函数和CP函数具体形式不同。
在本发明的一种实施例中,所述概率选取模块依数值概率采样的算法,利用将每个样本的概率数值映射到0-1的数轴上的方法进行;对于存在的N个样本,第i个样本的数值为Vi,则第i个样本被采样的概率为:
Figure BDA0002615850260000073
将该式的分子改为一个前缀和相减的形式:
Figure BDA0002615850260000081
随机出一个[0,1]中的随机小数p,寻找被选择的样本i满足:
Figure BDA0002615850260000082
在所有样本数值都大于0的前提下,对于任意小数,有且仅有一个样本满足上式条件,并最终被选择。
观察上式,可以发现,我们需要维护的是每个采样数据的前缀和,以及所有采样数据的总和,并且能够快速找到适配随机值的采样数据。线段树是一个可以快速维护区间和,快速进行区间查找和快速进行单点修改的数据结构。它利用了分治的思想,将一整个区间进行两两划分,形成一个完全二叉树的形式。在划分区间时,尽可能将左右区间以等长划分,并且每个叶子节点代表一个元素,这样每个叶子节点的深度则为O(logN)级别。如下图所示,每次询问或者修改都只需要从根节点走到叶子节点,则只需要访问O(logN)个节点,而不使用该方法则需要访问单独所有叶子节点,即O(N)个点。我们在每个节点记录这个节点所代表的所有元素的V值之和。那么对于任意询问操作,首先来到根节点,判断该值是否大于根节点的左儿子记录的权值和,如果不大于,则向左儿子递归询问,否则,令该值减去左儿子权重和,并向右儿子递归。直到递归到叶子节点结束。同理,对于每个修改操作,仅需将对应的叶子节点到根节点所有节点的值进行改变即可,同样只需改变O(logN)个节点的权值。
重要度计算模块CI(xi)传递给概率选取模块,修改线段树中包含i的所有节点。
在本发明的一种实施例中,用伸展树或者其他方法对于概率选取进行优化。伸展是一种二叉排序树,它能在O(log n)内完成***、查找和删除操作。它的优势在于不需要记录用于平衡树的冗余信息。伸展树是一种自调整形式的二叉查找树,它会沿着从某个节点到树根之间的路径,通过一系列的旋转把这个节点搬移到树根去。伸展树同样可以将概率选取的时间复杂度优化到O(logn)。
然后,本发明利用卷积神经网络对探索次数较少的状态进行奖励上的激励,在重要度计算模块中提到的覆盖惩罚,主要是针对不均衡的优先级带来的不均衡样本采样问题提出的解决方案,然而这个方案只是针对经验层面的多样性增强,对于实际智能体的探索多样性并没有很好的帮助。具体的讲,假如在经验池中有不同的两个经验,但表达的状态是同一个的情况(这种情况很容易发生,因为经验池的长度非常长,强化学习每次从初始状态走完一整个过程只需要经验池长度的大约1%以内的步长)时,分别对它们所经历的训练次数进行覆盖惩罚显然是不够准确的。假如我们的强化学习环境有许多必经之路出现在经验池中,这些经验出现次数频繁,给筛选数据带来了巨大的噪声,导致训练效率降低。
状态激励模块:是一种基于PixelCNN的路径期望探索值估计方法,是对于每个状态,估计它可能需要经过的次数,来对于立即奖励增加一个偏执值。具体的讲,我们利用一个简单的CNN结构,输入一个状态值,最后输出一个预期的探索次数的对数值,记为PGn(x),则该状态x的额外奖励为:
Figure BDA0002615850260000091
Figure BDA0002615850260000092
其中,PGn(x)表示的是网络输出的第x个经验预计需要访问次数,
Figure BDA0002615850260000093
形成了激励奖励计算的中间量,再将这个中间量取负二分之一次方,便得到了我们的激励奖励值r+(x)。
一种来自于计算机视觉的方法PixelCNN是对于每张图片估计它可能需要的被训练次数,以此来提高效率,这里用状态信息来代替图片,让PixelCNN输出预期经过该状态的次数,对于经过次数少的状态,给予其激励奖励,使得它被选出来进行训练的概率有所提高。
在本发明的一种实施例中,由于状态激励模块主要作用是输入一个状态的特征信息,输出一个估计的状态激励,并且神经网络的表达能力具有一定的相似性,可能会有不使用PixelCNN的神经网络方法,而使用其他神经网络(如ResNet等著名的神经网络结构)。
在本发明的一种实施例中,增加了经验权重进行回放的方法。等比例不等概率进行经验采用。在已有的强化学习方法中,有方法选择等概率进行经验的采样,但采样得到的经验,以不同权重交给智能体决策网络,使得它们训练网络时使用不同的权重进行影响。
最终被广泛应用到多个智能体决策网络中。除了最基础的经验回放外,其他经验回放都不能广泛应用在多个智能体决策网络中。本发明的模型可以在多个智能体决策网络中进行广泛应用,都能取得一定的改进效果。
在一种具体的实施例中,将本发明的方法在DQN或者是DQN的变形版本上实施。深度强化学习中最经典的方法就是DQN。它是基于雅达利2600游戏机任务环境提出的,在该环境下状态由64*64的图像组成,而动作是一个大小为8的选择集。DQN对状态-动作对的价值估计函数(即Q函数)进行深度学习,网络模型接受状态图片作为输入,最后输出当前状态下每个动作的估计函数,智能体在测试时,即接受当前状态作为输入,获取每个动作的估计函数值,取最优值为决策动作。如下列算法描述所述为DQN的基本运行流程。其中下划线部分与经验回放相关。
Figure BDA0002615850260000101
Figure BDA0002615850260000111
在另一种具体的实施例中,本发明在由Emo Todorov机器人有限公司开发的一个具有连续动作的机器人自动控制环境MuJoCo上运行本发明的方法,该环境的每个分任务以及其具体内容由表1给出:
表1环境的每个分任务以及其具体内容
Figure BDA0002615850260000112
本发明分别三个深度强化学习的智能体决策网络中实施实施例,分别是DDPG,TD3和SAC,如图3-图5所示。从这三个图可以看出,本发明的方法可以很简单便捷的在各种不同的智能体决策网络中使用。
具体地,本发明比较了四个不同版本:(1)只拥有最简单的经验回放的版本(后面简称为版本1);(2)装载优先级经验回放版本(后面简称为版本2);(3)只装载PixelCNN的期望次数探索方法(后面简称为版本3)(4)同时具有改进过的课程学习优先级经验回放方法和PixelCNN的期望次数探索方法(后面简称为版本4),观察在第100个Epoch下的期望奖励的结果。
表2到表4先后展示了本发明的方法在MuJoCo的各个环境下的DDPG,SAC还有TD3的运行结果。
表2 DDPG上的性能表现
任务编号 版本1 版本2 版本3 版本4
1 9.04 9.51 9.66 10.07
2 -6.35 -6.26 -6.36 -6.19
3 5.19 9.35 6.34 12.33
4 46.76 46.88 46.71 48.44
5 694.78 730.06 694.81 734.14
6 8439.44 9321.32 7746.24 9333.93
7 1000.0 1000.0 1000.0 1000.0
8 -14.46 -14.13 -15.0 -11.49
9 5.30 6.02 4.96 6.11
10 5.20 6.71 5.37 7.47
表3 SAC性能表现
任务名称 版本1 版本2 版本3 版本4
1 292.62 287.19 302.35 312.70
2 9861.04 9959.53 9991.80 10203.33
3 3141.02 2855.50 3030.13 3206.18
4 655.75 648.89 615.61 678.03
5 98447.64 98493.37 98618.06 98628.35
6 8089.03 9349.45 9354.59 9358.94
7 1000.0 1000.0 1000.0 1000.0
8 -14.24 -14.64 -15.17 -14.26
9 29.36 30.21 29.86 31.62
10 2754.78 3018.40 3496.27 3195.46
表4 TD3性能表现
任务名称 版本1 版本2 版本3 版本4
1 4508.32 4595.81 4739.75 5014.70
2 11205.79 11454.57 11307.45 11139.35
3 3141.02 2855.50 3030.13 3206.18
4 98.09 97.54 116.71 121.57
5 60928.04 61402.76 61306.0 61605.78
6 8642.83 9343.72 7895.88 9321.00
7 1000.0 1000.0 1000.0 1000.0
8 -9.42 -8.04 -8.61 -7.71
9 46.85 47.14 47.28 48.32
10 4281.48 4423.58 4361.43 4329.78
从表中可以看出,对于一些简单的具有奖励分数上限的任务环境,本发明的方法在已有的优秀框架下并不会造成性能的损失。在相对困难的任务环境上本发明的方法通过对经验的合理筛选,来对其性能进行提升。
本发明的方法还可以应用在智能自动驾驶***&智能机器人控制。智能自动驾驶***和智能机器人控制领域都有现有的利用强化学习方法来做智能核心的设计,因此在这些领域可能会有本发明的用武之地。
本发明的方法还可以应用在电子游戏,围棋游戏与抽样检测。在电子游戏,围棋游戏中,都有可能进行大规模存档的收集与分析工作,本发明可以用于存档的收集与分析,将被分析次数过少或是分析价值较高的存档进行快速的提取,从而提高分析的效率。抽样检测亦是如此。对于不同单位的样品的抽样,可以根据单位本身的信息估计出一个样品的抽样重要度,同时根据单位已抽样次数来评估其需要再次被抽样的概率。
本发明的方法还可以应用在个性化推荐。对于每位用户的个性化推荐,可以通过该用户历史点击该推荐的次数和近一段时间接收推荐的次数来估计下一次推送个性化推荐的时间,和该用户点击的概率。
本申请实施例还提供一种控制装置,包括处理器和用于存储计算机程序的存储介质;其中,处理器用于执行所述计算机程序时至少执行如上所述的方法。
本申请实施例还提供一种存储介质,用于存储计算机程序,该计算机程序被执行时至少执行如上所述的方法。
本申请实施例还提供一种处理器,所述处理器执行计算机程序,至少执行如上所述的方法。
所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM,DynamicRandom AccessMemory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic RandomAccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double DataRateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的***和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (10)

1.一种强化学习方法,其特征在于,包括如下步骤:
S1:智能体决策网络接收任务环境给出的当前的状态t并基于所述当前的状态决策出动作t,发送给所述任务环境;
S2:所述智能体决策网络接收所述任务环境基于所述动作t反馈回的奖励t和状态t+1,所述状态t、所述动作t、所述奖励t和所述状态t+1共同组成第一经验元祖;
S3:所述智能体决策网络将所述第一经验元祖传给经验存储池,所述经验存储池将所述第一经验元祖中的状态t提供给状态激励模块,所述状态激励模块根据所述状态t返回一个激励奖励t给所述经验存储池;所述状态t、所述动作t、所述奖励t、所述激励奖励t和所述状态t+1共同组成第二经验元祖;
S4:所述经验存储池提供一个新的位置用于存储所述第二经验元祖;
S5:重要度计算模块将当前所有经验的重要度最大值作为所述第二经验元组对应的重要度;概率选取模块根据所述重要度对应修改权值,并抽样一个批次的下标值给所述经验存储池,所述经验存储池将对应批次下标的一批经验元组传回给所述智能体决策网络;
S6:所述智能体决策网络收到所述经验元祖并进行训练;
S7:所述智能体决策网络训练结束后,将对应时间差误差计算得出后,返回给所述经验存储池;所述经验存储池将时间差误差传回给所述重要度计算模块,所述重要度计算模块修改对应位置的重要度信息;重要度计算模块将修改信息交给概率选取模块,概率选取模块对应修改权值;重复这个过程直到达到预定时间或次数。
2.如权利要求1所述的强化学习方法,其特征在于,所述重要度计算模块采用信心上限值方法进行重要度计算。
3.如权利要求2所述的强化学习方法,其特征在于,采用如下公式进行重要度计算:
CI(xi)=SP(δ,λ)+ηCP(cni)
其中:
Figure FDA0002615850250000021
Figure FDA0002615850250000022
其中,δ是时间差误差,λ是一个随时间线性增长的超参数,表示智能体模型当前学***均和的均衡权重系数。
4.如权利要求3所述的强化学习方法,其特征在于,不同使用场景中,SP函数和CP函数具体形式不同。
5.如权利要求4所述的强化学习方法,其特征在于,所述概率选取模块依数值概率采样的算法,利用将每个样本的概率数值映射到0-1的数轴上的方法进行;对于存在的N个样本,第i个样本的数值为Vi,则第i个样本被采样的概率为:
Figure FDA0002615850250000023
将该式的分子改为一个前缀和相减的形式:
Figure FDA0002615850250000024
随机出一个[0,1]中的随机小数p,寻找被选择的样本i满足:
Figure FDA0002615850250000025
在所有样本数值都大于0的前提下,对于任意小数,有且仅有一个样本满足上式条件,并最终被选择。
6.如权利要求5所述的强化学习方法,其特征在于,所述概率选取模块采用线段树方法提高采用效率;
所述概率选取模块根据所述重要度修改对应线段树上的节点的权值。
7.如权利要求6所述的强化学习方法,其特征在于,增加经验权重进行回放的方法,采用等比例不等概率进行经验采样。
8.如权利要求7所述的强化学习方法,其特征在于,采用伸展树对于所述概率选取模块的概率选取方法进行优化。
9.如权利要求7所述的强化学习方法,其特征在于,所述状态激励模块基于PixelCNN的路径期望探索值估计方法,利用CNN结构,输入一个状态值,最后输出一个预期的探索次数的对数值,记为PGn(x),则该状态x的额外奖励为:
Figure FDA0002615850250000031
Figure FDA0002615850250000032
其中,PGn(x)表示的是网络输出的第x个经验预计需要访问次数,
Figure FDA0002615850250000033
形成了激励奖励计算的中间量,r+(x)是激励奖励值。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一所述方法的步骤。
CN202010769098.2A 2020-08-03 2020-08-03 一种强化学习方法及计算机可读存储介质 Pending CN111950703A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010769098.2A CN111950703A (zh) 2020-08-03 2020-08-03 一种强化学习方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010769098.2A CN111950703A (zh) 2020-08-03 2020-08-03 一种强化学习方法及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111950703A true CN111950703A (zh) 2020-11-17

Family

ID=73339255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010769098.2A Pending CN111950703A (zh) 2020-08-03 2020-08-03 一种强化学习方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111950703A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801731A (zh) * 2021-01-06 2021-05-14 广东工业大学 一种接单辅助决策的联邦强化学习方法
CN113146823A (zh) * 2021-05-07 2021-07-23 中国建筑第五工程局有限公司 一种混凝土加速养护装置
CN113487039A (zh) * 2021-06-29 2021-10-08 山东大学 基于深度强化学习的智能体自适应决策生成方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801731A (zh) * 2021-01-06 2021-05-14 广东工业大学 一种接单辅助决策的联邦强化学习方法
CN113146823A (zh) * 2021-05-07 2021-07-23 中国建筑第五工程局有限公司 一种混凝土加速养护装置
CN113487039A (zh) * 2021-06-29 2021-10-08 山东大学 基于深度强化学习的智能体自适应决策生成方法及***
CN113487039B (zh) * 2021-06-29 2023-08-22 山东大学 基于深度强化学习的智能体自适应决策生成方法及***

Similar Documents

Publication Publication Date Title
CN111950703A (zh) 一种强化学习方法及计算机可读存储介质
CN107368519A (zh) 一种契合用户兴趣变化的协同处理方法及***
WO2016187705A1 (en) System and method for ranking search results
US5787424A (en) Process and system for recursive document retrieval
CN108462605A (zh) 一种数据的预测方法和装置
CN101339562A (zh) 引入兴趣模型反馈更新机制的门户个性化推荐服务***
EP4075292A1 (en) Method and apparatus for processing database
CN111310860A (zh) 改进梯度提升决策树性能的方法及计算机可读存储介质
CN109299093A (zh) Hive数据库中拉链表的更新方法、装置和计算机设备
Curry et al. Scaling genetic programming to large datasets using hierarchical dynamic subset selection
Belzile et al. A modeler’s guide to extreme value software
CN110968564A (zh) 一种数据处理方法及数据状态预测模型的训练方法
Zhang et al. Bayesian network classifiers using ensembles and smoothing
CN117146954A (zh) 一种基于改进woa-bp神经网络的称重补偿方法及装置
Horie et al. Multi-objective safe reinforcement learning: the relationship between multi-objective reinforcement learning and safe reinforcement learning
CN118043802A (zh) 一种推荐模型训练方法及装置
US20110264609A1 (en) Probabilistic gradient boosted machines
CN107807993B (zh) 一种网页历史记录功能的实现方法及装置
CN116090618A (zh) 一种电力通信网的运行态势感知方法和装置
US20220318626A1 (en) Meta-training framework on dual-channel combiner network system for dialysis event prediction
Zou et al. Data-efficient reinforcement learning for malaria control
CN113094611B (zh) 服务处理方法、装置及计算机设备
CN111724897B (zh) 一种运动功能数据处理方法及***
Ben Slimane et al. Mjolnir: A framework agnostic auto-tuning system with deep reinforcement learning
Malone Learning optimal Bayesian networks with heuristic search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination