CN111652371A - 一种离线强化学习网络训练方法、装置、***及存储介质 - Google Patents

一种离线强化学习网络训练方法、装置、***及存储介质 Download PDF

Info

Publication number
CN111652371A
CN111652371A CN202010479469.3A CN202010479469A CN111652371A CN 111652371 A CN111652371 A CN 111652371A CN 202010479469 A CN202010479469 A CN 202010479469A CN 111652371 A CN111652371 A CN 111652371A
Authority
CN
China
Prior art keywords
network
action
risk
sample data
updating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010479469.3A
Other languages
English (en)
Inventor
詹仙园
徐浩然
张玥
霍雨森
朱翔宇
李春洋
邓欣
郑宇�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong City Beijing Digital Technology Co Ltd
Original Assignee
Jingdong City Beijing Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong City Beijing Digital Technology Co Ltd filed Critical Jingdong City Beijing Digital Technology Co Ltd
Priority to CN202010479469.3A priority Critical patent/CN111652371A/zh
Publication of CN111652371A publication Critical patent/CN111652371A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种离线强化学习网络训练方法、装置、***及存储介质。方法包括:根据样本数据和当前的动作网络,对动作网络的奖励网络和风险网络的网络参数进行更新;获取样本数据的分布与动作网络的分布的分布相似度;基于奖励网络、风险网络和分布相似度,对动作网络进行更新。本发明实施例根据样本数据和动作网络对相应的奖励网络和风险网络进行更新,使得奖励网络和风险网络适应动作网络,并获取样本数据的分布和动作网络的输出结果的分布的分布相似度,基于奖励网络和风险网络对于动作网络的评价,和样本数据和动作网络的分布相似度,完成对于动作网络的更新,并循环上述步骤预设次数后完成对动作网络的优化。

Description

一种离线强化学习网络训练方法、装置、***及存储介质
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种离线强化学习网络训练方法、装置、***及存储介质。
背景技术
大多数强化学习(RL)算法只有在模拟环境中经历了大量的尝试和错误后才能学习良好的策略,比如在游戏领域和机器人领域。但是在现实世界中的场景(例如,自动驾驶汽车,复杂工业***控制),我们没有一个完美的模拟环境,我们只有一批预先收集的环境交互数据,其中还包括一些不安全的尝试。
因此,如何从这些离线数据中训练出一个最大化长期奖励并且满足安全约束的策略,是一个亟待解决的问题。
发明内容
为了解决现有技术存在的问题,本发明的至少一个实施例提供了一种离线强化学习网络训练方法、装置、***及存储介质。
第一方面,本发明实施例提供了一种离线强化学习网络训练方法,所述方法包括:
获取样本数据;
根据所述样本数据和当前的动作网络,对所述动作网络的奖励网络和风险网络的网络参数进行更新;
获取所述所述样本数据的分布与所述动作网络的分布的分布相似度;
基于所述奖励网络、风险网络和分布相似度,对所述动作网络进行更新,并获取所述动作网络的更新次数;
当所述更新次数小于或等于预设阈值时,再次对所述动作网络进行更新,直至所述更新次数大于所述预设阈值。
基于上述技术方案,本发明实施例还可以做出如下改进。
结合第一方面,在第一方面的第一种实施例中,所述根据所述样本数据和当前的动作网络,对所述动作网络的奖励网络和风险网络的网络参数进行更新,包括:
通过如下计算方式计算所述奖励网络的第一优化网络参数:
Figure BDA0002516827570000021
其中,φR为所述奖励网络的第一优化网络参数,argmin()为函数的最小值的函数,r为所述样本数据中的单步奖励值,γ为强化学习方法中的衰减系数,st为t时刻的样本数据的状态值,at为st输入所述动作网络得到的动作值,st+1为t+1时刻的样本数据的状态值,at+1为st+1输入所述动作网络得到的动作值,QR为所述奖励网络,
Figure BDA0002516827570000022
为不同at+1下的奖励网络QR的最大值;
根据所述第一优化网络参数对所述奖励网络的网络参数进行更新;
通过如下计算方式计算所述风险网络的第二优化网络参数:
Figure BDA0002516827570000023
其中,φC为所述风险网络的第二优化网络参数,argmin()为计算函数的最小值的函数,c为所述样本数据中的单步风险值,γ为强化学习方法中的衰减系数,st为t时刻的样本数据的状态值,at为st输入所述动作网络得到的动作值,st+1为t+1时刻的样本数据的状态值,at+1为st+1输入所述动作网络得到的动作值,QC为所述风险网络,
Figure BDA0002516827570000024
为不同at+1下的风险网络QC的期望值;Aπ为所述动作网络;
根据所述第二优化网络参数对所述风险网络的网络参数进行更新。
结合第一方面,在第一方面的第二种实施例中,所述获取所述所述样本数据的分布与所述动作网络的分布的分布相似度,包括:
基于逆相相对熵距离算法计算所述样本数据的的分布和所述动作网络的分布的距离,作为所述分布相似度。
结合第一方面或第一方面的第一或第二种实施例,在第一方面的第三种实施例中,所述基于所述奖励网络、风险网络和分布相似度,对所述动作网络进行更新,包括:
通过如下计算方式得到所述动作网络的第三优化网络参数:
φπ=argmax[QR-τ×QC+L];
τ=argmin|Q-D|;
其中,φπ为所述动作网络的第三优化网络参数,QR为所述奖励网络,QC为所述风险网络,L为所述分布相似度,τ为拉格朗日系数;D为风险网络设定阈值;
通过所述第三优化网络参数对所述动作网络进行更新。
第二方面,本发明实施例提供了一种离线强化学习网络训练装置,所述装置包括:
获取单元,用于获取样本数据;
第一更新单元,用于根据所述样本数据和当前的动作网络,对所述动作网络的奖励网络和风险网络的网络参数进行更新;
处理单元,用于获取所述所述样本数据的分布与所述动作网络的分布的分布相似度;
第二更新单元,用于基于所述奖励网络、风险网络和分布相似度,对所述动作网络进行更新,并获取所述动作网络的更新次数;当所述更新次数小于或等于预设阈值时,再次通过第一获取单元获取样本数据,并重新对所述动作网络进行更新,直至所述更新次数大于所述预设阈值。
结合第二方面,在第二方面的第一种实施例中,所述第一更新单元,具体用于计算所述奖励网络的第一优化网络参数:并根据所述第一优化网络参数对所述奖励网络的网络参数进行更新;
其中,通过如下计算方式计算所述奖励网络的网络参数:
Figure BDA0002516827570000041
其中,φR为所述奖励网络的第一优化网络参数,argmin()为函数的最小值的函数,r为所述样本数据中的单步奖励值,γ为强化学习方法中的衰减系数,st为t时刻的样本数据的状态值,at为st输入所述动作网络得到的动作值,st+1为t+1时刻的样本数据的状态值,at+1为st+1输入所述动作网络得到的动作值,QR为所述奖励网络,
Figure BDA0002516827570000042
为不同at+1下的奖励网络QR的最大值;
所述第一更新单元,具体用于计算所述风险网络的第二优化网络参数;根据第二优化网络参数对所述风险网络的网络参数进行更新;
其中,通过如下计算方式计算所述风险网络的网络参数:
Figure BDA0002516827570000043
其中,φC为所述风险网络的第二优化网络参数,argmin()为计算函数的最小值的函数,c为所述样本数据中的单步风险值,γ为强化学习方法中的衰减系数,st为t时刻的样本数据的状态值,at为st输入所述动作网络得到的动作值,st+1为t+1时刻的样本数据的状态值,at+1为st+1输入所述动作网络得到的动作值,QC为所述风险网络,
Figure BDA0002516827570000044
为不同at+1下的风险网络QC的期望值;Aπ为所述动作网络。
结合第二方面,在第二方面的第二种实施例中,所述处理单元,具体用于基于逆相相对熵距离算法计算所述样本数据的的分布和所述动作网络的分布的距离,作为所述分布相似度。
结合第二方面或第二方面的第一或第二种实施例,在第二方面的第三种实施例中,所述第二更新单元,具体用于计算所述动作网络的第三优化网络参数;通过所述第三优化网络参数对所述动作网络进行更新。
其中,通过如下计算方式计算所述动作网络的第三优化网络参数:
φπ=argmax[QR-τ×QC+L];
τ=argmin|Q-D|;
其中,φπ为所述动作网络的第三优化网络参数,QR为所述奖励网络,QC为所述风险网络,L为所述分布相似度,τ为拉格朗日系数;D为风险网络设定阈值。
第三方面,本发明实例提供了一种离线强化学习网络训练***,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面中任一所述的离线强化学习网络训练方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一所述的离线强化学习网络训练方法。
本发明的上述技术方案与现有技术相比具有如下优点:本发明实施例根据样本数据和动作网络对相应的奖励网络和风险网络进行更新,使得奖励网络和风险网络适应动作网络,并获取样本数据的分布和动作网络的输出结果的分布的分布相似度,基于奖励网络和风险网络对于动作网络的评价,和样本数据和动作网络的分布相似度,完成对于动作网络的更新,并循环上述步骤预设次数后完成对动作网络的优化。
附图说明
图1是本发明实施例提供的一种离线强化学习网络训练方法流程示意图;
图2是本发明另一实施例提供的一种离线强化学习网络训练方法流程示意图;
图3是本发明又一实施例提供的一种离线强化学习网络训练方法流程示意图其一;
图4是本发明又一实施例提供的一种离线强化学习网络训练方法流程示意图其二;
图5是本发明又一实施例提供的一种离线强化学习网络训练装置结构示意图;
图6是本发明又一实施例提供的一种离线强化学习网络训练***结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种离线强化学习网络训练方法。参照图1,方法包括如下步骤:
S11、获取样本数据。
在本实施例中,可以从离线数据中获取样本数据,基于该样本数据训练得到相应的神经网络模型,即本申请中的动作网络,在传统的动作网络-奖励网络(actor-critic)框架中,Actor-Critic算法分为两部分,我们分开来看actor的前身是policy gradient算法,他可以轻松地在连续动作空间内选择合适的动作,value-based的Qlearning做这件事就会因为空间过大而***,但是又因为Actor是基于回合更新的所以学习效率比较慢,这时候我们发现可以使用一个value-based的算法作为Critic就可以实现单步更新,这样两种算法相互补充就形成了我们的Actor-Critic,本申请中的样本数据可以是任意强化学习网络的初始数据,比如,自动驾驶汽车领域、游戏领域、机器人领域中的环境交互数据,本方案对此不作特别限定。
强化学习,英文名称:Reinforcement learning,强化学习是机器学习中的一个领域,强调如何基于环境状态,而选择最优的动作策略,以取得最大化的预期收益。强化学习任务对应了四元组。其中代表状态(state)空间,每个状态是***感知到的环境的描述;***能采取的动作(action)构成动作空间;若某个动作作用在当前状态上,则潜在的转移函数T(transition probability)将使得环境从当前状态按某种概率转移到另一个状态;在转移到另一个状态的同时,环境会根据潜在的奖励(reward)函数反馈给***一个奖励。
S12、根据样本数据和当前的动作网络,对动作网络的奖励网络和风险网络的网络参数进行更新。
在本实施例中,在Actor-Critic框架中,在将样本数据输入动作网络后,会得到一个相应的输出结果,但是动作网络不可能是一开始就是最优的网络,此时,针对输出结果和样本数据中的真实结果,动作网络的奖励网络和风险网络会产生一个奖励值和一个风险值,通过该奖励值和风险值,可以侧面确定动作网络的分布与样本数据的分布的差异,比如,动作网络针对样本数据会得到一个输出结果,而奖励网络和风险网络是针对动作网络的动作给出的评分值和风险值,即输出结果和样本数据中的真实结果越一致,评分值就应该会越大,而风险值越小,若实际情况中的奖励网络和风险网络并未给出正确的奖励值和风险值,此时,就可以对奖励网络和风险网络进行更新,保证奖励网络和风险网络可以正确的评价当前的动作网络的动作。
在本实施例中,可以通过每个样本数据输入动作网络后得到的结果对奖励网络和风险网络进行更新,使得风险网络输出的风险值在预设阈值内时奖励网络输出的奖励值处于最大值;或者,通过样本数据输入动作网络后得到的输出结果与样本数据中的真实结果的差异来对动作网络对应的奖励网络和风险网络进行更新,
S13、获取样本数据的分布与动作网络的分布的分布相似度。
在本实施例中,在离线强化学习算法中,最终需要动作网络与样本数据具有相类似的分布,在本实施例中,可以通过余弦值计算样本数据的分布和动作网络的分布的相似度值,具体的,可以将样本数据的分布和动作网络的分布转换为相应的向量,通过计算相应向量的余弦值作为样本数据的分布和动作网络的分布的分布相似度,还可以通过计算样本数据好动作网络的相对熵距离作为分布相似度。
S14、基于奖励网络、风险网络和分布相似度,对动作网络进行更新,并获取动作网络的更新次数。
在本实施例中,根据奖励网络、风险网络和分布相似度,对动作网络进行更新,由于本方案需要在满足风险网络的风险值最小时,奖励网络的奖励值为最大值,且最终动作网络与样本数据的分布相似度值所表示的动作网络和样本数据的分布最相似,所以,在本步骤中可以通过确定奖励网络的奖励值、风险网络的风险值和分布相似度是否均满足相应的预设条件,来对动作网络进行更新。
在本实施例中,更新后的动作网络应当使得风险网络输出的风险值在预设风险值之内、且奖励网络输出的奖励值为最大值、且分布相似度也为最大值,或者,使得风险网络输出的风险值最小值、同时奖励网络输出的奖励值和分布相似度均为最大值。
S15、当更新次数小于或等于预设阈值时,再次对动作网络进行更新,直至更新次数大于预设阈值。
在本实施例中,通过执行上述步骤预设次数,即可完成对于动作网络的训练,对收集数据的策略要求较宽松,具有鲁棒性,符合实际应用场景。
在本实施例中,步骤S13中具体包括:基于逆相相对熵距离算法计算样本数据的的分布和动作网络的分布的距离,作为分布相似度。
如图2所示,本发明实施例提供了一种离线强化学习网络训练方法。与图1所示训练方法相比,区别在于,根据样本数据和当前的动作网络,对动作网络的奖励网络网络参数进行更新,具体包括如下步骤:
S21、通过如下计算方式计算奖励网络的第一优化网络参数:
Figure BDA0002516827570000091
其中,φR为奖励网络的第一优化网络参数,argmin()为函数的最小值的函数,r为样本数据中的单步奖励值,γ为强化学习方法中的衰减系数,st为t时刻的样本数据的状态值,at为st输入动作网络得到的动作值,st+1为t+1时刻的样本数据的状态值,at+1为st+1输入动作网络得到的动作值,QR为奖励网络,
Figure BDA0002516827570000092
为不同at+1下的奖励网络QR的最大值;
S22、根据第一优化网络参数对奖励网络的网络参数进行更新。
在本实施例中,通过上述公式完成对奖励网络的参数进行更新,使得奖励网络与样本数据和动作网络相符合,即奖励网络在样本数据输入后输出的奖励值可以用于对样本数据输入动作网络的输出结果的评价。
在本实施例中,单步奖励值r为Actor-Critic框架中可以得到的数值,且上述实施例中也有相应介绍,本步骤对此不再赘述,为由于动作值at+1是根据样本数据的状态值st+1输入动作网络得到,而样本数据至少有一组,所以,可以得到上述公式中不同的at+1下的奖励网络QR的最大值。
如图3所示,本发明实施例提供了一种离线强化学习网络训练方法。与图1所示训练方法相比,区别在于,根据样本数据和当前的动作网络,对动作网络的风险网络网络参数进行更新,具体包括如下步骤:
S31、通过如下计算方式计算风险网络的第二优化网络参数:
Figure BDA0002516827570000101
其中,φC为风险网络的第二优化网络参数,argmin()为计算函数的最小值的函数,c为样本数据中的单步风险值,γ为强化学习方法中的衰减系数,st为t时刻的样本数据的状态值,at为st输入动作网络得到的动作值,st+1为t+1时刻的样本数据的状态值,at+1为st+1输入动作网络得到的动作值,QC为风险网络,
Figure BDA0002516827570000102
为不同at+1下的风险网络QC的期望值;Aπ为动作网络。
S32、根据第二优化网络参数对风险网络的网络参数进行更新。
在本实施例中,本方案中的各项参数与上述实施例中的参数相类似,本步骤中对此不再赘述。
在本实施例中,在更新风险网络时,使用的是下一时刻风险网络的期望值,这样做的原因有以下三点,1)累计风险的定义和累积奖励不一样,在所定义的问题中目标是最大化累计奖励并且使得累积风险小于给定的阈值,而不是最小化累积风险;2)相比较于在线学习的情况,离线学习中评价累积风险价值要困难很多,使得累积风险价值最小的状态-动作对(s,a)有极大可能在数据分布范围外,评价这部分状态对的累积风险价值会引入很大的误差。因此,使用期望的形式可以极大地缓解累积风险价值预估不准的问题。
如图4所示,本发明实施例提供了一种离线强化学习网络训练方法。与图1所示训练方法相比,区别在于,基于奖励网络、风险网络和分布相似度,对动作网络进行更新,包括如下步骤:
S41、通过如下计算方式得到动作网络的第三优化网络参数:
φπ=argmax[QR-τ×QC+L];
τ=argmin|Q-D|;
其中,φπ为动作网络的第三优化网络参数,QR为奖励网络,QC为风险网络,L为分布相似度,τ为拉格朗日系数;D为风险网络设定阈值;
S42、通过第三优化网络参数对动作网络进行更新。
在本实施例中,计算得到第三优化网络参数,并通过第三优化网络参数对动作网络的网络参数进行更新,完成对动作网络的一次优化过程。通过在上述公式有引入拉格朗日系数,通过拉格朗日松弛法将带约束化大问题转变为无约束优化问题,使用随机梯度下降算法更新策略与拉格朗日系数。
如图5所示,本发明实施例提供了一种离线强化学习网络训练装置,***包括:获取单元11、第一更新单元12、处理单元13和第二更新单元14。
在本实施例中,获取单元11,用于获取样本数据;
在本实施例中,第一更新单元12,用于根据样本数据和当前的动作网络,对动作网络的奖励网络和风险网络的网络参数进行更新;
在本实施例中,处理单元13,用于获取样本数据的分布与动作网络的分布的分布相似度;
在本实施例中,第二更新单元14,用于基于奖励网络、风险网络和分布相似度,对动作网络进行更新,并获取动作网络的更新次数;当更新次数小于或等于预设阈值时,再次通过第一获取单元11获取样本数据,并重新对动作网络进行更新,直至更新次数大于预设阈值。
在本实施例中,第一更新单元12,具体用于计算奖励网络的第一优化网络参数:并根据第一优化网络参数对奖励网络的网络参数进行更新;
其中,通过如下计算方式计算奖励网络的网络参数:
Figure BDA0002516827570000121
其中,φR为奖励网络的第一优化网络参数,argmin()为函数的最小值的函数,r为样本数据中的单步奖励值,γ为强化学习方法中的衰减系数,st为t时刻的样本数据的状态值,at为st输入动作网络得到的动作值,st+1为t+1时刻的样本数据的状态值,at+1为st+1输入动作网络得到的动作值,QR为奖励网络,
Figure BDA0002516827570000122
为不同at+1下的奖励网络QR的最大值;
第一更新单元12,具体用于计算风险网络的第二优化网络参数;根据第二优化网络参数对风险网络的网络参数进行更新;
其中,通过如下计算方式计算风险网络的网络参数:
Figure BDA0002516827570000123
其中,φC为风险网络的第二优化网络参数,argmin()为计算函数的最小值的函数,c为样本数据中的单步风险值,γ为强化学习方法中的衰减系数,st为t时刻的样本数据的状态值,at为st输入动作网络得到的动作值,st+1为t+1时刻的样本数据的状态值,at+1为st+1输入动作网络得到的动作值,QC为风险网络,
Figure BDA0002516827570000131
为不同at+1下的风险网络QC的期望值;Aπ为动作网络。
在本实施例中,处理单元13,具体用于基于逆相相对熵距离算法计算样本数据的的分布和动作网络的分布的距离,作为分布相似度。
在本实施例中,第二更新单元14,具体用于计算动作网络的第三优化网络参数;通过第三优化网络参数对动作网络进行更新。
其中,通过如下计算方式计算动作网络的第三优化网络参数:
φπ=argmax[QR-τ×QC+L];
τ=argmin|Q-D|;
其中,φπ为动作网络的第三优化网络参数,QR为奖励网络,QC为风险网络,L为分布相似度,τ为拉格朗日系数;D为风险网络设定阈值。
如图6所示,本发明实施例提供了一种离线强化学习网络训练***,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现如下所示离线强化学习网络训练方法:
获取样本数据;
根据样本数据和当前的动作网络,对动作网络的奖励网络和风险网络的网络参数进行更新;
获取样本数据的分布与动作网络的分布的分布相似度;
基于奖励网络、风险网络和分布相似度,对动作网络进行更新,并获取动作网络的更新次数;
当更新次数小于或等于预设阈值时,再次对动作网络进行更新,直至更新次数大于预设阈值。
本发明实施例提供的电子设备,处理器1110通过执行存储器1130上所存放的程序根据样本数据和动作网络对相应的奖励网络和风险网络进行更新,使得奖励网络和风险网络适应动作网络,并获取样本数据的分布和动作网络的输出结果的分布的分布相似度,基于奖励网络和风险网络对于动作网络的评价,和样本数据和动作网络的分布相似度,完成对于动作网络的更新,并循环上述步骤预设次数后完成对动作网络的优化。
上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述任一实施例的离线强化学习网络训练方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种离线强化学习网络训练方法,其特征在于,所述方法包括:
获取样本数据;
根据所述样本数据和当前的动作网络,对所述动作网络的奖励网络和风险网络的网络参数进行更新;
获取所述所述样本数据的分布与所述动作网络的分布的分布相似度;
基于所述奖励网络、风险网络和分布相似度,对所述动作网络进行更新,并获取所述动作网络的更新次数;
当所述更新次数小于或等于预设阈值时,再次对所述动作网络进行更新,直至所述更新次数大于所述预设阈值。
2.根据权利要求1所述的训练方法,其特征在于,所述根据所述样本数据和当前的动作网络,对所述动作网络的奖励网络和风险网络的网络参数进行更新,包括:
通过如下计算方式计算所述奖励网络的第一优化网络参数:
Figure FDA0002516827560000011
其中,φR为所述奖励网络的第一优化网络参数,arg min()为函数的最小值的函数,r为所述样本数据中的单步奖励值,γ为强化学习方法中的衰减系数,st为t时刻的样本数据的状态值,at为st输入所述动作网络得到的动作值,st+1为t+1时刻的样本数据的状态值,at+1为st+1输入所述动作网络得到的动作值,QR为所述奖励网络,
Figure FDA0002516827560000012
为不同at+1下的奖励网络QR的最大值;
根据所述第一优化网络参数对所述奖励网络的网络参数进行更新;
通过如下计算方式计算所述风险网络的第二优化网络参数:
Figure FDA0002516827560000021
其中,φC为所述风险网络的第二优化网络参数,arg min()为计算函数的最小值的函数,c为所述样本数据中的单步风险值,γ为强化学习方法中的衰减系数,st为t时刻的样本数据的状态值,at为st输入所述动作网络得到的动作值,st+1为t+1时刻的样本数据的状态值,at+1为st+1输入所述动作网络得到的动作值,QC为所述风险网络,
Figure FDA0002516827560000022
为不同at+1下的风险网络QC的期望值;Aπ为所述动作网络;
根据所述第二优化网络参数对所述风险网络的网络参数进行更新。
3.根据权利要求1所述的训练方法,其特征在于,所述获取所述所述样本数据的分布与所述动作网络的分布的分布相似度,包括:
基于逆相相对熵距离算法计算所述样本数据的的分布和所述动作网络的分布的距离,作为所述分布相似度。
4.根据权利要求1~3中任一所述的训练方法,其特征在于,所述基于所述奖励网络、风险网络和分布相似度,对所述动作网络进行更新,包括:
通过如下计算方式得到所述动作网络的第三优化网络参数:
φπ=argmax[QR-τ×QC+L];
τ=argmin|Q-D|;
其中,φπ为所述动作网络的第三优化网络参数,QR为所述奖励网络,QC为所述风险网络,L为所述分布相似度,τ为拉格朗日系数;D为风险网络设定阈值;
通过所述第三优化网络参数对所述动作网络进行更新。
5.一种离线强化学习网络训练装置,其特征在于,所述装置包括:
获取单元,用于获取样本数据;
第一更新单元,用于根据所述样本数据和当前的动作网络,对所述动作网络的奖励网络和风险网络的网络参数进行更新;
处理单元,用于获取所述所述样本数据的分布与所述动作网络的分布的分布相似度;
第二更新单元,用于基于所述奖励网络、风险网络和分布相似度,对所述动作网络进行更新,并获取所述动作网络的更新次数;当所述更新次数小于或等于预设阈值时,再次通过第一获取单元获取样本数据,并重新对所述动作网络进行更新,直至所述更新次数大于所述预设阈值。
6.根据权利要求5所述的训练装置,其特征在于,所述第一更新单元,具体用于计算所述奖励网络的第一优化网络参数:并根据所述第一优化网络参数对所述奖励网络的网络参数进行更新;
其中,通过如下计算方式计算所述奖励网络的网络参数:
Figure FDA0002516827560000031
其中,φR为所述奖励网络的第一优化网络参数,argmin()为函数的最小值的函数,r为所述样本数据中的单步奖励值,γ为强化学习方法中的衰减系数,st为t时刻的样本数据的状态值,at为st输入所述动作网络得到的动作值,st+1为t+1时刻的样本数据的状态值,at+1为st+1输入所述动作网络得到的动作值,QR为所述奖励网络,
Figure FDA0002516827560000032
为不同at+1下的奖励网络QR的最大值;
所述第一更新单元,具体用于计算所述风险网络的第二优化网络参数;根据第二优化网络参数对所述风险网络的网络参数进行更新;
其中,通过如下计算方式计算所述风险网络的网络参数:
Figure FDA0002516827560000033
其中,φC为所述风险网络的第二优化网络参数,argmin()为计算函数的最小值的函数,c为所述样本数据中的单步风险值,γ为强化学习方法中的衰减系数,st为t时刻的样本数据的状态值,at为st输入所述动作网络得到的动作值,st+1为t+1时刻的样本数据的状态值,at+1为st+1输入所述动作网络得到的动作值,QC为所述风险网络,
Figure FDA0002516827560000041
为不同at+1下的风险网络QC的期望值;Aπ为所述动作网络。
7.根据权利要求5所述的训练装置,其特征在于,所述处理单元,具体用于基于逆相相对熵距离算法计算所述样本数据的的分布和所述动作网络的分布的距离,作为所述分布相似度。
8.根据权利要求5~7中任一所述的训练装置,其特征在于,所述第二更新单元,具体用于计算所述动作网络的第三优化网络参数;通过所述第三优化网络参数对所述动作网络进行更新;
其中,通过如下计算方式计算所述动作网络的第三优化网络参数:
φπ=argmax[QR-τ×QC+L];
τ=argmin|Q-D|;
其中,φπ为所述动作网络的第三优化网络参数,QR为所述奖励网络,QC为所述风险网络,L为所述分布相似度,τ为拉格朗日系数;D为风险网络设定阈值。
9.一种离线强化学习网络训练***,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于存储器上所存放的程序时,实现权利要求1~4中任一所述的离线强化学习网络训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~4中任一所述的离线强化学习网络训练方法。
CN202010479469.3A 2020-05-29 2020-05-29 一种离线强化学习网络训练方法、装置、***及存储介质 Pending CN111652371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010479469.3A CN111652371A (zh) 2020-05-29 2020-05-29 一种离线强化学习网络训练方法、装置、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010479469.3A CN111652371A (zh) 2020-05-29 2020-05-29 一种离线强化学习网络训练方法、装置、***及存储介质

Publications (1)

Publication Number Publication Date
CN111652371A true CN111652371A (zh) 2020-09-11

Family

ID=72348144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010479469.3A Pending CN111652371A (zh) 2020-05-29 2020-05-29 一种离线强化学习网络训练方法、装置、***及存储介质

Country Status (1)

Country Link
CN (1) CN111652371A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN113360618A (zh) * 2021-06-07 2021-09-07 暨南大学 一种基于离线强化学习的智能机器人对话方法及***
CN114484584A (zh) * 2022-01-20 2022-05-13 国电投峰和新能源科技(河北)有限公司 一种基于离线强化学习的供热控制方法及***
CN116679615A (zh) * 2023-08-03 2023-09-01 中科航迈数控软件(深圳)有限公司 数控加工工艺的优化方法、装置、终端设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112668235B (zh) * 2020-12-07 2022-12-09 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN113360618A (zh) * 2021-06-07 2021-09-07 暨南大学 一种基于离线强化学习的智能机器人对话方法及***
CN113360618B (zh) * 2021-06-07 2022-03-11 暨南大学 一种基于离线强化学习的智能机器人对话方法及***
CN114484584A (zh) * 2022-01-20 2022-05-13 国电投峰和新能源科技(河北)有限公司 一种基于离线强化学习的供热控制方法及***
CN114484584B (zh) * 2022-01-20 2022-11-11 国电投峰和新能源科技(河北)有限公司 一种基于离线强化学习的供热控制方法及***
CN116679615A (zh) * 2023-08-03 2023-09-01 中科航迈数控软件(深圳)有限公司 数控加工工艺的优化方法、装置、终端设备及存储介质
CN116679615B (zh) * 2023-08-03 2023-10-20 中科航迈数控软件(深圳)有限公司 数控加工工艺的优化方法、装置、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN111652371A (zh) 一种离线强化学习网络训练方法、装置、***及存储介质
US9536191B1 (en) Reinforcement learning using confidence scores
KR20190028531A (ko) 복수의 기계 학습 태스크에 대해 기계 학습 모델들을 훈련
CN111275207A (zh) 基于半监督的横向联邦学习优化方法、设备及存储介质
EP3568810B1 (en) Action selection for reinforcement learning using neural networks
US20070260563A1 (en) Method to continuously diagnose and model changes of real-valued streaming variables
CN110770764A (zh) 超参数的优化方法及装置
WO2021077097A1 (en) Systems and methods for training generative models using summary statistics and other constraints
US20220148290A1 (en) Method, device and computer storage medium for data analysis
Rothfuss et al. Meta-learning priors for safe bayesian optimization
WO2020030052A1 (zh) 一种动物数量识别方法、装置、介质及电子设备
EP3571631A1 (en) Noisy neural network layers
CN110399279B (zh) 一种用于非人智能体的智能度量方法
CN109190757B (zh) 任务处理方法、装置、设备及计算机可读存储介质
US11501207B2 (en) Lifelong learning with a changing action set
CN111353597B (zh) 一种目标检测神经网络训练方法和装置
JP6954346B2 (ja) パラメータ推定装置、パラメータ推定方法、及びプログラム
CN114970732A (zh) 分类模型的后验校准方法、装置、计算机设备及介质
WO2023056501A1 (en) Harmonizing diffusion tensor images using machine learning
CN111368792B (zh) 特征点标注模型训练方法、装置、电子设备及存储介质
US11710301B2 (en) Apparatus for Q-learning for continuous actions with cross-entropy guided policies and method thereof
CN113505859A (zh) 模型训练方法及装置、图像识别方法及装置
CN112101563A (zh) 基于事后经验的信赖域策略优化方法、装置及相关设备
CN114844889B (zh) 视频处理模型的更新方法、装置、电子设备及存储介质
CN114550235B (zh) 姿态角检测方法、***、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200911

RJ01 Rejection of invention patent application after publication