CN111985640A

CN111985640A - 一种基于强化学习的模型训练方法以及相关装置

Info

Publication number: CN111985640A
Application number: CN202010662161.2A
Authority: CN
Inventors: 黄高; 石文杰; 宋士吉; 马林
Original assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Current assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-11-24

Abstract

本申请公开了一种基于强化学习的模型训练方法以及相关装置，可以应用于游戏策略模拟的过程中。通过获取预设强化学习模型和多个目标强化学习模型；然后将目标样本输入预设强化学习模型，并在强化学习环境中进行迭代计算，以得到样本集合；并从样本集合中提取经验样本，以结合目标强化学习模型建立正则化安德森目标函数；进一步的通过得到安德森系数向量确定损失函数，以对预设强化学习模型进行训练。由于在训练过程中的样本为循环使用的过程，提高了数据的利用率，进而减少了智能体与环境的交互次数，提高了强化学习模型训练的效率。

Description

一种基于强化学习的模型训练方法以及相关装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于强化学习的模型训练方法以及相关装置。

背景技术

强化学习是一种通过经验进行策略自主学习的数学框架。近年来，无模型深度强化学习算法被广泛应用于各种极具挑战性的领域，比如雅达利(Atari)系列单机游戏和星际争霸等多人在线战术竞技(MOBA)类游戏。

一般，对于强化学习模型的训练过程，为了训练得到一个较好的策略，通过智能体需要与环境进行持续的交互即可。

然而，对于围棋、视频游戏等具有高维状态空间的场景，智能体需要与环境交互的次数过高，影响强化学习模型训练的效率。

发明内容

有鉴于此，本申请提供一种基于强化学习的模型训练方法，可以有效避免伪造工作量证明产生的影响，提高机器学习任务的资源分配过程的准确性。

本申请第一方面提供一种基于强化学习的模型训练方法，可以应用于终端设备中包含基于强化学习的模型训练功能的***或程序中，具体包括：获取预设强化学习模型和多个目标强化学习模型，所述预设强化学习模型与所述目标强化学习模型相关联；

将目标样本输入所述预设强化学习模型，并在强化学习环境中进行迭代计算，以得到样本集合；

从所述样本集合中提取N个经验样本，以结合所述目标强化学习模型建立正则化安德森目标函数，N为正整数；

通过调整所述安德森目标函数指示的组合贝尔曼残差，以得到安德森系数向量；

基于所述安德森系数向量确定损失函数，以对所述预设强化学习模型进行训练，训练后的所述预设强化学习模型用于指示智能体响应与所述强化学习环境输出的状态信息进行动作调整。

可选的，在本申请一些可能的实现方式中，所述样本集合中样本数量为D，D为正整数，所述从所述样本集合中提取N个经验样本，以结合所述目标强化学习模型建立正则化安德森目标函数，包括：

若D＜N，则进行样本补充，以得到更新后的所述样本集合；

从更新后的所述样本集合中提取N个经验样本，以结合所述目标强化学习模型建立正则化安德森目标函数；

若D≥N，则从所述样本集合中的D个样本中提取N个经验样本，以结合所述目标强化学习模型建立正则化安德森目标函数。

可选的，在本申请一些可能的实现方式中，所述进行样本补充，以得到更新后的所述样本集合，包括：

确定当前时间步对应的相邻时间步；

基于所述相邻时间步与预设迭代参数的关系进行样本补充，以得到更新后的所述样本集合。

可选的，在本申请一些可能的实现方式中，所述方法还包括：

确定所述样本集合的样本容量N_D；

当所述样本集合中的样本数量D达到所述样本容量N_D时，基于所述样本集合中样本的写入顺序进行样本替换，以对所述样本集合进行更新。

可选的，在本申请一些可能的实现方式中，所述将目标样本输入所述预设强化学习模型，并在强化学习环境中进行迭代计算，以得到样本集合，包括：

确定所述强化学习环境的第一状态；

按照预设概率获取第一动作；

在所述强化学习环境处于第一状态的情况下施加所述第一动作，以得到奖励值和第二状态；

基于所述第一状态、所述第一动作、所述奖励值和所述第二状态构建为所述目标样本，以迭代得到所述样本集合。

可选的，在本申请一些可能的实现方式中，所述预设概率为p，所述按照预设概率获取第一动作，包括：

按照概率p获取随机动作，以作为所述第一动作；

或；

按照概率(1-p)获取预设动作，以作为所述第一动作，所述预设动作用于指示与所述预设强化学习模型相关的动作。

可选的，在本申请一些可能的实现方式中，所述从所述样本集合中提取N个经验样本，以结合所述目标强化学习模型建立正则化安德森目标函数，包括：

确定迭代计算中对应的安德森阶次；

基于所述安德森阶次确定对应数量的所述目标强化学习模型，以结合N个所述经验样本建立正则化安德森目标函数。

可选的，在本申请一些可能的实现方式中，所述确定迭代计算中对应的安德森阶次，包括：

确定当前迭代计算的迭代次数；

基于所述迭代次数与所述目标强化学习模型的数量值的大小关系确定所述安德森阶次。

可选的，在本申请一些可能的实现方式中，所述基于所述安德森系数向量确定损失函数，以对所述预设强化学习模型进行训练，包括：

基于所述安德森系数向量确定损失函数；

通过所述损失函数的导数对所述预设强化学习模型的权重参数进行更新，以对所述预设强化学习模型进行训练。

可选的，在本申请一些可能的实现方式中，所述预设强化学习模型应用于视频游戏的智能交互场景，所述预设强化学习模型为基于安德森加速的值函数模型。

本申请第二方面提供一种基于强化学习的模型训练的装置，包括：获取单元，用于获取预设强化学习模型和多个目标强化学习模型，所述预设强化学习模型与所述目标强化学习模型相关联；

计算单元，用于将目标样本输入所述预设强化学习模型，并在强化学习环境中进行迭代计算，以得到样本集合；

提取单元，用于从所述样本集合中提取N个经验样本，以结合所述目标强化学习模型建立正则化安德森目标函数，N为正整数；

所述计算单元，还用于通过调整所述安德森目标函数指示的组合贝尔曼残差，以得到安德森系数向量；

训练单元，用于基于所述安德森系数向量确定损失函数，以对所述预设强化学习模型进行训练，训练后的所述预设强化学习模型用于指示智能体响应与所述强化学习环境输出的状态信息进行动作调整。

可选的，在本申请一些可能的实现方式中，所述样本集合中样本数量为D，D为正整数，所述提取单元，具体用于若D＜N，则进行样本补充，以得到更新后的所述样本集合；

所述提取单元，具体用于从更新后的所述样本集合中提取N个经验样本，以结合所述目标强化学习模型建立正则化安德森目标函数；

所述提取单元，具体用于若D≥N，则从所述样本集合中的D个样本中提取N个经验样本，以结合所述目标强化学习模型建立正则化安德森目标函数。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于确定当前时间步对应的相邻时间步；

所述提取单元，具体用于基于所述相邻时间步与预设迭代参数的关系进行样本补充，以得到更新后的所述样本集合。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于确定所述样本集合的样本容量N_D；

所述提取单元，具体用于当所述样本集合中的样本数量D达到所述样本容量N_D时，基于所述样本集合中样本的写入顺序进行样本替换，以对所述样本集合进行更新。

可选的，在本申请一些可能的实现方式中，所述计算单元，具体用于确定所述强化学习环境的第一状态；

所述计算单元，具体用于按照预设概率获取第一动作；

所述计算单元，具体用于在所述强化学习环境处于第一状态的情况下施加所述第一动作，以得到奖励值和第二状态；

所述计算单元，具体用于基于所述第一状态、所述第一动作、所述奖励值和所述第二状态构建为所述目标样本，以迭代得到所述样本集合。

可选的，在本申请一些可能的实现方式中，所述预设概率为p，所述计算单元，具体用于按照概率p获取随机动作，以作为所述第一动作；

所述计算单元，具体用于按照概率(1-p)获取预设动作，以作为所述第一动作，所述预设动作用于指示与所述预设强化学习模型相关的动作。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于确定迭代计算中对应的安德森阶次；

所述提取单元，具体用于基于所述安德森阶次确定对应数量的所述目标强化学习模型，以结合N个所述经验样本建立正则化安德森目标函数。

可选的，在本申请一些可能的实现方式中，所述提取单元，具体用于确定当前迭代计算的迭代次数；

所述提取单元，具体用于基于所述迭代次数与所述目标强化学习模型的数量值的大小关系确定所述安德森阶次。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于基于所述安德森系数向量确定损失函数；

所述训练单元，具体用于通过所述损失函数的导数对所述预设强化学习模型的权重参数进行更新，以对所述预设强化学习模型进行训练。

本申请第三方面提供一种智能体动作调整的方法，具体包括：

获取智能体的第一动作以及第一策略，以确定基于贝克曼算子设定的值函数，所述第一策略的时间步为k，k为正整数；

基于所述值函数建立安德森目标函数，所述安德森目标函数用于指示m个目标策略在强化学习环境中的组合贝尔曼残差，m≤k，m为正整数；

通过调整所述组合贝尔曼残差获取安德森系数向量；

基于所述安德森系数向量确定第二策略，所述第二策略用于指示所述智能体响应于所述强化学习环境反馈的状态信息执行第二动作。

本申请第四方面提供一种智能体动作调整的装置，具体包括：

获取单元，用于获取智能体的第一动作以及第一策略，以确定基于贝克曼算子设定的值函数，所述第一策略的时间步为k，k为正整数；

计算单元，用于基于所述值函数建立安德森目标函数，所述安德森目标函数用于指示m个目标策略在强化学习环境中的组合贝尔曼残差，m≤k，m为正整数；

所述计算单元，还用于通过调整所述组合贝尔曼残差获取安德森系数向量；

调整单元，用于基于所述安德森系数向量确定第二策略，所述第二策略用于指示所述智能体响应于所述强化学习环境反馈的状态信息执行第二动作。

本申请第五方面提供一种计算机设备，包括：存储器、处理器以及总线***；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的基于强化学习的模型训练方法，或上述第三方面所述的智能体动作调整的方法。

本申请第六方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的基于强化学习的模型训练方法，或上述第三方面所述的智能体动作调整的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的基于强化学习的模型训练方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取预设强化学习模型和多个目标强化学习模型，预设强化学习模型与目标强化学习模型相关联；然后将目标样本输入预设强化学习模型，并在强化学习环境中进行迭代计算，以得到样本集合；并从样本集合中提取N个经验样本，以结合目标强化学习模型建立正则化安德森目标函数；进一步的通过调整安德森目标函数指示的组合贝尔曼残差，以得到安德森系数向量；进而基于安德森系数向量确定损失函数，以对预设强化学习模型进行训练，训练后的预设强化学习模型用于指示智能体响应与强化学习环境输出的状态信息进行动作调整。从而实现基于安德森加速的强化学习模型训练过程，由于在训练过程中的样本为循环使用的过程，提高了数据的利用率，进而减少了智能体与环境的交互次数，提高了强化学习模型训练的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为基于强化学习的模型训练***运行的网络架构图；

图2为本申请实施例提供的一种基于强化学习的模型训练的流程架构图；

图3为本申请实施例提供的一种基于强化学习的模型训练方法的流程图；

图4为本申请实施例提供的一种模型训练的步骤示意图；

图5为本申请实施例提供的一种训练结果示意图；

图6为本申请实施例提供的一种智能体动作调整的方法的流程图；

图7为本申请实施例提供的一种智能体动作调整的场景示意图；

图8为本申请实施例提供的一种基于强化学习的模型训练装置的结构示意图；

图9为本申请实施例提供的一种动作调整装置的结构示意图；

图10为本申请实施例提供的一种终端设备的结构示意图；

图11为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

本申请实施例提供了一种基于强化学习的模型训练方法以及相关装置，可以应用于终端设备中包含基于强化学习的模型训练功能的***或程序中，通过获取预设强化学习模型和多个目标强化学习模型，预设强化学习模型与目标强化学习模型相关联；然后将目标样本输入预设强化学习模型，并在强化学习环境中进行迭代计算，以得到样本集合；并从样本集合中提取N个经验样本，以结合目标强化学习模型建立正则化安德森目标函数；进一步的通过调整安德森目标函数指示的组合贝尔曼残差，以得到安德森系数向量；进而基于安德森系数向量确定损失函数，以对预设强化学习模型进行训练，训练后的预设强化学习模型用于指示智能体响应与强化学习环境输出的状态信息进行动作调整。从而实现基于安德森加速的强化学习模型训练过程，由于在训练过程中的样本为循环使用的过程，提高了数据的利用率，进而减少了智能体与环境的交互次数，提高了强化学习模型训练的效率。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中可能出现的一些名词进行解释。

强化学习(reinforcement learning)：又称再励学习、评价学习，是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖励值。

深度强化学习：将深度学习的感知能力和强化学习的决策能力相结合，可以直接根据输入的动作进行智能体的控制。

安德森加速：也称为安德森混合或普莱混合，是一种能够加快不动点迭代计算的方法，它将新的迭代计算设计为先前估计的线性组合，从而加速不动点迭代。具体来说，经典的不动点迭代反复地将算子应用于上一个估计，而不同于经典的不动点迭代，安德森加速方法先在由先前多个估计张成的子空间内搜索一个具有最小残差的最优点，然后再将算子应用于该最优估计以加速迭代过程。

正则化：保留所有的特征变量，但是会减小特征变量的数量级的计算过程。

应理解，本申请提供的基于强化学***台，具体的，基于强化学习的模型训练***可以运行于如图1所示的网络架构中，如图1所示，是基于强化学习的模型训练***运行的网络架构图，如图可知，基于强化学习的模型训练***可以提供与多个信息源的应用交互过程，例如：游戏应用；终端通过接收服务器发送的通过强化学习模型得到的动作信息对终端界面中的虚拟元素进行相应的控制，从而实现终端与玩家的智能交互过程；可以理解的是，图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到基于强化学习的模型训练的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多模型训练交互的场景中，具体服务器数量因实际场景而定。

本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可以理解的是，上述基于强化学习的模型训练***可以运行于个人移动终端，例如：作为视频游戏AI这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供基于强化学习的模型训练，以得到信息源的基于强化学习的模型训练处理结果；具体的基于强化学习的模型训练***可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的***部件进行运行，还可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度强化学习等几大方向。

其中，强化学习是一种通过经验进行策略自主学习的数学框架。近年来，无模型深度强化学习算法被广泛应用于各种极具挑战性的领域，比如雅达利(Atari)系列单机游戏和星际争霸等多人在线战术竞技(MOBA)类游戏。

为了解决上述问题，本申请提出了一种基于强化学习的模型训练方法，该方法应用于图2所示的基于强化学习的模型训练的流程框架中，如图2所示，为本申请实施例提供的一种基于强化学习的模型训练的流程架构图，即智能体(Agent)选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个奖励值反馈给Agent，Agent根据奖励值和环境当前状态再选择下一个动作，选择的原则是使受到正向奖励值的概率增大。选择的动作不仅影响立即奖励值，而且影响环境下一时刻的状态及最终的强化值，从而实现循环的响应过程。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件***中的一种处理逻辑，也可以作为一种基于强化学习的模型训练装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该基于强化学习的模型训练装置通过获取预设强化学习模型和多个目标强化学习模型，预设强化学习模型与目标强化学习模型相关联；然后将目标样本输入预设强化学习模型，并在强化学习环境中进行迭代计算，以得到样本集合；并从样本集合中提取N个经验样本，以结合目标强化学习模型建立正则化安德森目标函数；进一步的通过调整安德森目标函数指示的组合贝尔曼残差，以得到安德森系数向量；进而基于安德森系数向量确定损失函数，以对预设强化学习模型进行训练，训练后的预设强化学习模型用于指示智能体响应与强化学习环境输出的状态信息进行动作调整。从而实现基于安德森加速的强化学习模型训练过程，由于在训练过程中的样本为循环使用的过程，提高了数据的利用率，进而减少了智能体与环境的交互次数，提高了强化学习模型训练的效率。

本申请实施例提供的方案涉及人工智能的强化学习等技术，具体通过如下实施例进行说明:

结合上述流程架构，下面将对本申请中基于强化学习的模型训练方法进行介绍，请参阅图3，图3为本申请实施例提供的一种基于强化学习的模型训练方法的流程图，该管理方法可以是由参与者执行的，本申请实施例至少包括以下步骤：

301、获取预设强化学习模型和多个目标强化学习模型。

本实施例中，预设强化学习模型与目标强化学习模型相关联，即目标强化学习模型作为预设强化学习模型的稳定基准，使得预设强化学习模型在训练过程中收敛，提高对于预设强化学习模型的训练效果。具体的，目标强化学习模型与预设强化学习模型可以是应用于同一应用的不同或相同的深度强化学习模型，例如：目标强化学习模型与预设强化学习模型都是关于游戏“星际争霸”的深度强化学习模型。

可以理解的是，预设强化学习模型和多个目标强化学习模型的获取可以是随机获取的，即随机生成一个强化学习模型，并基于该强化学习模型进行复制或扰动模型参数(例如对于强化学习模型中的参数乘以扰动系数0.9)，从而得到用于训练的预设强化学习模型，以及用于作为训练基准的目标强化学习模型。

可选的，由于不同的游戏对应的策略有所不同，例如对于动作类游戏，预设强化学习模型主要用于指示游戏中虚拟对象动作的变化，即以单一虚拟对象为模拟对象；而在策略类游戏中，预设强化学习模型主要用于指示游戏中多个虚拟对象的动作变化，即以多个虚拟对象为模拟对象。故在获取预设强化学习模型和多个目标强化学习模型时，还可以考虑到作用游戏的类型，即获取目标应用的类型，然后根据目标应用的类型确定对应的模型数据库，进而在对应的模型数据库中随机获取相似的预设强化学习模型和多个目标强化学习模型，或基于一个强化学习模型进行变化所得。从而提高了预设强化学习模型与目标应用的关联度，保证了模型训练的准确性。

302、将目标样本输入预设强化学习模型，并在强化学习环境中进行迭代计算，以得到样本集合。

本实施例中，输入预设强化学习模型的目标样本可以是训练开始的初始样本，即时间步t＝0，并从强化学习环境中随机获取一个环境状态s₀，对应的智能体执行动作a₀，然后从强化学习环境中接收到一个奖励r₀，并观测到时间步t＝1对应的环境状态s₁，从而作为目标样本e₀＝(s₀，a₀，r₀，s₁)；另外，输入预设强化学习模型的目标样本还可以是训练过程中任一时间步对应的经验样本，例如目标样本为时间步t＝5的经验样本，即e₅＝(s₅，a₅，r₅，s₆)，对应的，样本集合即为e₀、e₁、…e₂；具体的时间步因实际场景而定，此处不做限定。

具体的，基于预设强化学习模型进行在强化学习环境中的迭代计算即基于图2所示的***框架的循环计算的过程，即强化学习环境为图2中的环境，该环境与预设强化学习模型相对应，然后根据不同的时间步t(t＝0、1、2、3...)进行在强化学习环境中的迭代计算，所得到的结果即构成样本集合。可以理解的是，样本集合中样本的数量数动态变化的，即随着时间步t的推移，样本集合中样本的数量逐渐增加。

可以理解的是，样本集合中样本的构建是基于当前时间步对应的环境状态、动作、奖励值以及下一时间步的环境状态设定的。具体的，首先确定强化学习环境的第一状态；然后按照预设概率获取第一动作；进而在强化学习环境处于第一状态的情况下施加第一动作，以得到奖励值和第二状态；从而基于第一状态、第一动作、奖励值和第二状态构建样本，以迭代得到样本集合。例如：当前环境状态为s_t，对应的智能体执行动作a_t，并从强化学习环境中接收到一个奖励r_t，并观测到下一个时间步对应的环境状态s_t+1；从而记e_t＝(s_t，a_t，r_t，s_t+1)为一个经验样本，以作为样本集合中的样本。

下面结合游戏场景对经验样本的构建进行说明。其中，智能体即为游戏中的虚拟人物，当前环境状态为“虚拟人物受到正面攻击”，即s_t；对应的虚拟人物执行动作“向左翻滚2米，进行闪避”，即a_t；并从强化学习环境中接收到对该动作的打分“90”，该打分用于指示预设强化学习模型对于该动作作为输入的输出值，即奖励值r_t；并观测到下一个时间步对应的环境状态为“虚拟人物受到侧面攻击”，即s_t+1；从而将上述环境与动作同对应的字符进行关联，即(“虚拟人物受到正面攻击”，“向左翻滚2米，进行闪避”，“90”，“虚拟人物受到侧面攻击”)为经验样本，可以计为e_t＝(s_t，a_t，r_t，s_t+1)，进一步的基于s_t+1重复上述基于s_t的经验样本构建过程，从而得到样本集合。

可选的，为了保证后续学习过程中样本的多样性，即避免训练后的模型过于发散或没有发散的情况；可以设定预设概率p，对第一动作进行获取，具体包括：按照概率p获取随机动作，以作为第一动作；或者按照概率(1-p)获取预设动作，以作为第一动作，其中预设动作用于指示与预设强化学习模型相关的动作，例如按照概率0.6获取随机动作，或按照概率0.4获取预设动作。具体的，预设动作的选择可以参照如下公式进行：

a_t＝argmax_aQ_θ(s_t，a)

其中，Q_θ为值函数，即选择可以得到最大值函数值的动作a作为a_t，s_t为当前环境状态。

303、从样本集合中提取N个经验样本，以结合目标强化学习模型建立正则化安德森目标函数。

本实施例中，N为正整数；而由于样本集合中样本数量为动态变化的，故可能存在从样本集合中无法提取出N个经验样本的情况。对于该情况，需要对样本进行补充。

具体的，样本集合中样本数量为D，D为正整数，从样本集合中提取N个经验样本的过程中若D＜N，则进行样本补充，以得到更新后的样本集合；进而从更新后的样本集合中提取N个经验样本，以结合目标强化学习模型建立正则化安德森目标函数。具体的，对于样本补充的过程，可以首先确定当前时间步对应的相邻时间步；然后基于相邻时间步与预设迭代参数的关系进行样本补充，以得到更新后的样本集合。在一种可能的场景中，当前时间步为t，相邻时间步为t+1，即再次进行随机选择动作，然后执行动作，并得到奖励构建经验样本的过程。

可选的，由于迭代计算过程中可能存在一定的上限，即存在最大时间步T，此时应判断相邻时间步是否超过了最大时间步，即t+1与T的大小关系，若大于，则可以返回初始迭代的过程，即t＝0的过程，获取初始的经验样本，从而实现样本的补充。通过对于样本的补充保证了供于训练的样本的完整性，保证了训练的准确性。

另外，对于D≥N的情况，则说明样本集合中可以提取N个经验样本，故从样本集合中的D个样本中提取N个经验样本，以结合目标强化学习模型建立正则化安德森目标函数。

在另一种可能的场景中，样本集合中的样本数量可以存在上限，即样本容量N_D。对于该场景，可以首先确定样本集合的样本容量N_D；当样本集合中的样本数量D达到样本容量N_D时，基于样本集合中样本的写入顺序进行样本替换，以对样本集合进行更新。即当样本集合

的样本数量已经达到最大容量

时，则先删除最先加入的一个样本，再将经验样本e_t存入经验列队集合

中；否则直接将经验样本e_t存入经验列队集合

中。通过样本容量的设定，舍弃了样本集合中差异较大的样本，从而保证了样本之间的关联性。

可选的，对于结合经验样本与目标强化学习模型建立正则化安德森目标函数的过程，还与安德森阶次相关，即首先确定迭代计算中对应的安德森阶次；然后基于安德森阶次确定对应数量的目标强化学习模型，以结合N个经验样本建立正则化安德森目标函数。

另外，考虑到目标强化学习模型与安德森阶次的对应性，可以确定当前迭代计算的迭代次数k；然后基于迭代次数k与目标强化学习模型的数量值c的大小关系确定安德森阶次m。即如果k+1＜c，令m＝k+1，否则令m＝c，从而保证安德森目标函数的正常建立。

具体的，正则化安德森目标函数

的定义为前m个目标强化学习网络

(i＝c-m+1，...，c)在N个经验样本中的组合贝尔曼残差，具体可以参照如下公式：

其中，

为正则化安德森目标函数，

表示二范数的平方，α＝[α₁，...，α_m]^T为安德森系数向量，

为贝尔曼算子，λ为正则化系数。

本实施例中，通过额外保存一个较小的残差矩阵和求解一个最小二乘问题，且其规模可通过安德森阶次的大小的控制，因此不会增加大量存储空间，计算代价较小且可控。

304、通过调整安德森目标函数指示的组合贝尔曼残差，以得到安德森系数向量。

本实施例中，通过最小化步骤303中的安德森目标函数

可得到第k个迭代步的安德森系数向量，其公式如下：

其中，

为组合贝尔曼残差矩阵，I为单位矩阵，

为正则化安德森目标函数，λ为正则化系数，T为最大时间步。

305、基于安德森系数向量确定损失函数，以对预设强化学习模型进行训练，训练后的预设强化学习模型用于指示智能体响应与强化学习环境输出的状态信息进行动作调整。

本实施例中，可以使用提取的N个经验样本计算评价网络的损失函数L_Q(θ)，公式如下：

其中，N为提取的经验样本数，γ为折扣因子，Q为值函数，θ为预设强化学习模型的权重参数，θⁱ(i＝1，...，c)为目标强化学习模型的权重参数。

具体的，对于基于损失函数的模型训练过程，即梯度下降算法的计算过程。首先基于安德森系数向量确定损失函数，然后通过损失函数的导数对预设强化学习模型的权重参数进行更新，以对预设强化学习模型进行训练。

其中，通过损失函数L_Q(θ)的导数来更新评价网络的权重参数θ，其公式如下：

进一步的，更新目标强化学习模型的权重参数θⁱ(i＝，...，c)，具体如下：

如果当前迭代步k能整除M，则令θⁱ＝θⁱ⁺¹(i＝1，...，m-1)、θ^m＝θ，并令k＝k+1；然后对k进行判定：如果k＜K，则再次进行样本构建的过程，即随机选择动作进行环境响应，即在此进行步骤302的过程，对应的目标样本即为迭代步k对应的经验样本，从而进行循环训练。若k≥K，则说明训练结束。

可以理解的是，本申请提供的模型训练方法不仅适用于策略迭代、值迭代等传统强化学习算法，还可以应用到例如深度Q网络(DQN)及其各种变体、孪生延时的深度确定性策略梯度(TD3)和异步策略分层强化学习等方法中。

具体的，本申请提出的模型训练方法具体用于深度网络学习模型的训练，可以有效改善异步策略强化学习算法应用于游戏环境时数据利用率低下的问题。同时可以减少智能体与游戏环境交互的次数以加快收敛速度，从而减少训练过程导致的计算资源消耗。

结合上述实施例可知，通过获取预设强化学习模型和多个目标强化学习模型，预设强化学习模型与目标强化学习模型相关联；然后将目标样本输入预设强化学习模型，并在强化学习环境中进行迭代计算，以得到样本集合；并从样本集合中提取N个经验样本，以结合目标强化学习模型建立正则化安德森目标函数；进一步的通过调整安德森目标函数指示的组合贝尔曼残差，以得到安德森系数向量；进而基于安德森系数向量确定损失函数，以对预设强化学习模型进行训练，训练后的预设强化学习模型用于指示智能体响应与强化学习环境输出的状态信息进行动作调整。从而实现基于安德森加速的强化学习模型训练过程，由于在训练过程中的样本为循环使用的过程，提高了数据的利用率，进而减少了智能体与环境的交互次数，提高了强化学习模型训练的效率。

在一种可能的场景中，由于上述模型训练过程中样本构建为动态的过程，即基于时间步的迭代过程，具体的，在游戏场景中可以参照图4所示的响应步骤进行本申请的模型训练过程，如图4所示，为本申请实施例提供的一种模型训练的步骤示意图，具体包括：

401、参数设置。

本实施例中，分别设置最大迭代次数K、最大时间步T、经验回放抽取的训练集大小N和折扣因子γ，评价网络的学习率ρ_c，目标评价网络更新频次M，正则化系数λ，最大安德森阶次c。

402、初始化网络模型。

本实施例中，初始化网络模型的过程即随机初始化一个评价网络Q_θ(s_t，a_t)和c个目标评价网络

的并设定权重参数θ和θⁱ(i＝1，...，c)；另外，还可以构建游戏经验列队集合

且该经验列队集合

的最大容量为

并初始化为空，即样本数量为0。

403、迭代计算。

本实施例中，迭代开始时，即对评价网络进行训练，设定初始化迭代次数k＝0，并逐步递增。

404、时间步设定。

本实施例中，设置初始时间步t＝0，并从环境中接收一个随机初始观测状态s₀；从而逐步得到t＝1、2、3...等时间步对应的样本。

405、动作选择。

本实施例中，动作选择的过程即以概率p随机选择一个动作a_t，否则选择a_t＝argmax_aQ_θ(s_t，a)。

406、构建样本。

本实施例中，构建样本时需要首先执行动作a_t，然后从游戏环境中接收到一个奖励r_t，并观测到下一个状态s_t+1，从而记e_r＝(s_t，α_t，r_t，s_t+1)为一个经验样本。如此重复，得到多个经验样本。

407、确定样本集合。

本实施例中，如果经验列队集合

的样本数量已经达到最大容量

则先删除最先加入的一个样本，再将经验样本e_t存入经验列队集合

中；否则直接将经验样本e_t存入经验列队集合

中。

408、样本提取。

本实施例中，样本提取的过程即从经验列队集合

(样本集合)中选取N个经验样本。

409、比较样本提取数与样本集合包含样本数的大小关系。

本实施例中，当经验列队集合

中样本数量不超过N时，则执行步骤410；当经验列队集合

超过N时，则从该经验列队集合

中随机选取N个经验样本(s_l，a_l，η，s_l+1)。

410、样本补充。

本实施例中，样本补充的过程基于相邻时间步的样本进行，即令t＝t+1并对t进行判定。

411、样本是否超限。

本实施例中，如果t＜T，则重新返回步骤与游戏环境进行下一时间步的交互，即以概率p随机选择一个动作a_t，否则选择a_t＝argmax_aQ_θ(s_t，a)；否则则设置当前时间步t＝0，并从环境中接收一个随机初始观测状态s₀，即初始样本的构建。

412、确定安德森阶次。

本实施例中，确定当前安德森阶次m的过程参考如下公式：k+1＜c，令m＝k+1，否则令m＝c。

413、建立正则化安德森目标函数。

本实施例中，正则化安德森目标函数

定义为前m个目标评价网络(目标强化学习模型)

(i＝c-m+1，...，c)在N个经验样本中的组合贝尔曼残差，如下所示：

其中，

表示二范数的平方，α＝[α₁，...，α_m]^T为安德森系数向量。

414、确定安德森系数向量。

本实施例中，通过最小化步骤413中的安德森目标函数

可得到第k个迭代步的安德森系数向量：

其中，

为组合贝尔曼残差矩阵，I为单位矩阵。

415、基于N个样本计算损失函数。

本实施例中，使用选取的N个经验样本计算评价网络的损失函数L_Q(θ)，公式如下：

416、梯度下降算法。

本实施例中，通过损失函数L_Q(θ)的导数来更新评价网络的权重参数θ，公式如下：

进一步的，更新目标强化学习模型的权重参数θⁱ(i＝1，...，c)，具体如下：

如果当前迭代步k能整除M，则令θⁱ＝θⁱ⁺¹(i＝1，...，m-1)、θ^m＝θ，并令k＝k+1；然后对k进行判定：如果k＜K，则再次进行样本构建的过程，即随机选择动作进行环境响应。若k≥K，则说明训练结束。

通过上述步骤可以有效改善异步策略强化学习算法应用于游戏环境时数据利用率低下的问题。同时可以减少智能体与游戏环境交互的次数以加快收敛速度，从而减少训练过程导致的计算资源消耗。

在该游戏场景中，本申请所提出的面向游戏环境的异步策略强化学习正则化安德森加速方法(RAA)的性能分析如下所示，为了验证RAA在游戏环境中对异步策略深度强化学习算法的加速效果，本申请实施例以Atari系列多个视频游戏作为强化学习任务为例进行说明。

具体的，如图5所示，为本申请实施例提供的一种训练结果示意图，其中，记RAA-DQN为使用了本申请提出的正则化安德森加速方法的DQN算法，左上角为RAA-DQN与DQN算法在训练过程中的学***均得到，阴影部分对应着7次实验的标准差。

通过图5可得如下结论：相对于DQN算法，RAA-DQN算法在四种游戏任务中均有着更快的收敛速度和更大的平均回报值。

上述实施例介绍了安德森加速应用于深度强化学习模型训练的过程，下面，对安德森加速应用于策略的迭代进行介绍。请参阅图6，图6为本申请实施例提供的一种智能体动作调整的方法的流程图，本申请实施例至少包括以下步骤：

601、获取智能体的第一动作以及第一策略，以确定基于贝克曼算子设定的值函数。

本实施例中，获取智能体的第一动作以及第一策略的过程可以响应于用户交互界面中虚拟元素的触发，如图7所示，为本申请实施例提供的一种智能体动作调整的场景示意图。图中示出了智能体与用户的交互界面，用户可以点击自动按钮A1，从而触发用户控制的虚拟对象自动操作而定过程，即自动基于第一动作以及第一策略生成第二动作以及第二策略，并逐步迭代。

本实施例中，第一策略的时间步为k，k为正整数；且s_t、a_t和r_t分别表示第t时间步的环境观测状态、执行动作和环境反馈的奖励值(或得分)，γ为折扣因子，π_k表示策略迭代中经过k个迭代步后得到的游戏策略，Q^π表示策略π对应的动作值函数。

具体的，对于值函数的设定，给定如下贝尔曼算子

公式如下：

其中，

表示对奖励值和观测状态的期望值，s_t、a_t和r_t分别表示第t时间步的环境观测状态、执行动作和环境反馈的奖励值。

602、基于值函数建立安德森目标函数。

本实施例中，安德森目标函数用于指示m个目标策略在强化学习环境中的组合贝尔曼残差，且m≤k，m为正整数。

具体的，安德森目标函数

定义为前m个策略π_k-m+i(i＝1，...，m)在整个状态动作空间中的组合贝尔曼残差，如下所示：

其中，||·||₂表示二范数，α＝[α₁，...，α_m]^T为安德森系数向量，

为贝尔曼算子。

603、通过调整组合贝尔曼残差获取安德森系数向量。

本实施例中，调整组合贝尔曼残差的过程即通过最小化安德森目标函数

可得到第k个迭代步的安德森系数向量：

其中，

为组合贝尔曼残差矩阵，1表示元素全是1的向量。

604、基于安德森系数向量确定第二策略，第二策略用于指示智能体响应于强化学习环境反馈的状态信息执行第二动作。

本实施例中，对任意一个环境观测状态s，均通过一种贪婪的方式选取对应的执行动作a，从而得到第k+1个迭代步的策略函数π_k+1(第二策略)，具体参照如下公式：

其中，

为第k个迭代步得到的安德森系数向量。

通过上述实施例可知，本申请在每个迭代步仅使用之前迭代步的策略或值函数估计来得到一个更好的策略或值函数，可直接应用于各种异步策略强化学习算法和游戏环境，实现加速学习。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图8，图8为本申请实施例提供的一种基于强化学习的模型训练装置的结构示意图，基于强化学习的模型训练装置800包括：

获取单元801，用于获取预设强化学习模型和多个目标强化学习模型，所述预设强化学习模型与所述目标强化学习模型相关联；

计算单元802，用于将目标样本输入所述预设强化学习模型，并在强化学习环境中进行迭代计算，以得到样本集合；

提取单元803，用于从所述样本集合中提取N个经验样本，以结合所述目标强化学习模型建立正则化安德森目标函数，N为正整数；

所述计算单元802，还用于通过调整所述安德森目标函数指示的组合贝尔曼残差，以得到安德森系数向量；

训练单元804，用于基于所述安德森系数向量确定损失函数，以对所述预设强化学习模型进行训练，训练后的所述预设强化学习模型用于指示智能体响应与所述强化学习环境输出的状态信息进行动作调整。

可选的，在本申请一些可能的实现方式中，所述样本集合中样本数量为D，D为正整数，所述提取单元803，具体用于若D＜N，则进行样本补充，以得到更新后的所述样本集合；

所述提取单元803，具体用于从更新后的所述样本集合中提取N个经验样本，以结合所述目标强化学习模型建立正则化安德森目标函数；

所述提取单元803，具体用于若D≥N，则从所述样本集合中的D个样本中提取N个经验样本，以结合所述目标强化学习模型建立正则化安德森目标函数。

可选的，在本申请一些可能的实现方式中，所述提取单元803，具体用于确定当前时间步对应的相邻时间步；

所述提取单元803，具体用于基于所述相邻时间步与预设迭代参数的关系进行样本补充，以得到更新后的所述样本集合。

可选的，在本申请一些可能的实现方式中，所述提取单元803，具体用于确定所述样本集合的样本容量N_D；

所述提取单元803，具体用于当所述样本集合中的样本数量D达到所述样本容量N_D时，基于所述样本集合中样本的写入顺序进行样本替换，以对所述样本集合进行更新。

可选的，在本申请一些可能的实现方式中，所述计算单元802，具体用于确定所述强化学习环境的第一状态；

所述计算单元802，具体用于按照预设概率获取第一动作；

所述计算单元802，具体用于在所述强化学习环境处于第一状态的情况下施加所述第一动作，以得到奖励值和第二状态；

所述计算单元802，具体用于基于所述第一状态、所述第一动作、所述奖励值和所述第二状态构建为所述目标样本，以迭代得到所述样本集合。

可选的，在本申请一些可能的实现方式中，所述预设概率为p，所述计算单元802，具体用于按照概率p获取随机动作，以作为所述第一动作；

所述计算单元802，具体用于按照概率(1-p)获取预设动作，以作为所述第一动作，所述预设动作用于指示与所述预设强化学习模型相关的动作。

可选的，在本申请一些可能的实现方式中，所述提取单元803，具体用于确定迭代计算中对应的安德森阶次；

所述提取单元803，具体用于基于所述安德森阶次确定对应数量的所述目标强化学习模型，以结合N个所述经验样本建立正则化安德森目标函数。

可选的，在本申请一些可能的实现方式中，所述提取单元803，具体用于确定当前迭代计算的迭代次数；

所述提取单元803，具体用于基于所述迭代次数与所述目标强化学习模型的数量值的大小关系确定所述安德森阶次。

可选的，在本申请一些可能的实现方式中，所述训练单元804，具体用于基于所述安德森系数向量确定损失函数；

所述训练单元804，具体用于通过所述损失函数的导数对所述预设强化学习模型的权重参数进行更新，以对所述预设强化学习模型进行训练。

本申请实施例还提供了一种智能体动作调整装置900，如图9所示，是本申请实施例提供的一种动作调整装置的结构示意图，具体包括：

获取单元901，用于获取智能体的第一动作以及第一策略，以确定基于贝克曼算子设定的值函数，所述第一策略的时间步为k，k为正整数；

计算单元902，用于基于所述值函数建立安德森目标函数，所述安德森目标函数用于指示m个目标策略在强化学习环境中的组合贝尔曼残差，m≤k，m为正整数；

所述计算单元902，还用于通过调整所述组合贝尔曼残差获取安德森系数向量；

调整单元903，用于基于所述安德森系数向量确定第二策略，所述第二策略用于指示所述智能体响应于所述强化学习环境反馈的状态信息执行第二动作。

本申请实施例还提供了一种终端设备，如图10所示，是本申请实施例提供的另一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图10示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图10，手机包括：射频(radio frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作，以及在触控面板1031上一定范围内的隔空触控操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(liquidcrystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；可选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，可选的，电源可以通过电源管理***与处理器1080逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1080还具有执行如上述动作调整方法的各个步骤的功能。

本申请实施例还提供了一种服务器，请参阅图11，图11是本申请实施例提供的一种服务器的结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口11511，和/或，一个或一个以上操作***1141，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由模型训练装置所执行的步骤可以基于该图11所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有基于强化学习的模型训练指令，当其在计算机上运行时，使得计算机执行如前述图3至图7所示实施例描述的方法中基于强化学习的模型训练装置所执行的步骤。

本申请实施例中还提供一种包括基于强化学习的模型训练指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图7所示实施例描述的方法中基于强化学习的模型训练装置所执行的步骤。

本申请实施例还提供了一种基于强化学习的模型训练***，所述基于强化学习的模型训练***可以包含图8所描述实施例中的基于强化学习的模型训练装置，或图9所描述实施例中的动作调整装置，或图10所描述实施例中的终端设备，或者图11所描述的服务器。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，基于强化学习的模型训练装置，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于强化学习的模型训练方法，其特征在于，包括：

获取预设强化学习模型和多个目标强化学习模型，所述预设强化学习模型与所述目标强化学习模型相关联；

2.根据权利要求1所述的方法，其特征在于，所述样本集合中样本数量为D，D为正整数，所述从所述样本集合中提取N个经验样本，以结合所述目标强化学习模型建立正则化安德森目标函数，包括：

若D＜N，则进行样本补充，以得到更新后的所述样本集合；

3.根据权利要求2所述的方法，其特征在于，所述进行样本补充，以得到更新后的所述样本集合，包括：

确定当前时间步对应的相邻时间步；

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

确定所述样本集合的样本容量N_D；

5.根据权利要求1所述的方法，其特征在于，所述将目标样本输入所述预设强化学习模型，并在强化学习环境中进行迭代计算，以得到样本集合，包括：

确定所述强化学习环境的第一状态；

按照预设概率获取第一动作；

6.根据权利要求5所述的方法，其特征在于，所述预设概率为p，所述按照预设概率获取第一动作，包括：

按照概率p获取随机动作，以作为所述第一动作；

或；

7.根据权利要求1所述的方法，其特征在于，所述从所述样本集合中提取N个经验样本，以结合所述目标强化学习模型建立正则化安德森目标函数，包括：

确定迭代计算中对应的安德森阶次；

8.根据权利要求7所述的方法，其特征在于，所述确定迭代计算中对应的安德森阶次，包括：

确定当前迭代计算的迭代次数；

9.根据权利要求1所述的方法，其特征在于，所述基于所述安德森系数向量确定损失函数，以对所述预设强化学习模型进行训练，包括：

基于所述安德森系数向量确定损失函数；

10.根据权利要求1所述的方法，其特征在于，所述预设强化学习模型应用于视频游戏的智能交互场景，所述预设强化学习模型为基于安德森加速的值函数模型。

11.一种智能体动作调整的方法，其特征在于，包括：

通过调整所述组合贝尔曼残差获取安德森系数向量；

12.一种基于强化学习的模型训练的装置，其特征在于，包括：

获取单元，用于获取预设强化学习模型和多个目标强化学习模型，所述预设强化学习模型与所述目标强化学习模型相关联；

13.一种基于强化学习的模型训练的装置，其特征在于，包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至10任一项所述的基于强化学习的模型训练方法，或权利要求11所述的智能体动作调整的方法。

15.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1至10任一项所述的基于强化学习的模型训练方法，或权利要求11所述的智能体动作调整的方法。