CN110516389B

CN110516389B - 行为控制策略的学习方法、装置、设备及存储介质

Info

Publication number: CN110516389B
Application number: CN201910820695.0A
Authority: CN
Inventors: 孙明飞; 石贝; 付强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2021-04-13
Anticipated expiration: 2039-08-29
Also published as: CN110516389A

Abstract

本申请公开了一种行为控制策略的学习方法、装置、计算机设备及存储介质，该方法包括：从演示行为数据序列中采样出包括至少两个演示行为数据的演示行为数据片段；依据演示行为数据片段，设置物理仿真器中模拟的目标对象的各个关节的初始状态信息，并利用待训练的神经网络模型确定出目标对象的各个关节的作用力数据；控制物理仿真器中模拟的目标对象的各个关节的运动，以使得物理仿真器基于设定的动作行为限定特征，仿真出的目标对象的仿真行为数据序列；依据演示行为数据及仿真行为数据，确定动作行为差异度；基于动作行为差异度，优化神经网络模型直至达到优化目标。本申请的方案有利于演示学习的对象基于演示动作生成扩展后的动作行为。

Description

行为控制策略的学习方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种行为控制策略的学习方法、装置、设备及存储介质。

背景技术

演示学习是一种将演示行为作为目标的自主学习技术，在演示学习中，待学习技能的对象被要求模仿演示的行为，以使得该对象可以获得与演示行为相应的运动技能。其中，在不同应用领域中，待学习技能的对象也会有所不同。如，在游戏领域中，待学习技能的对象可以为游戏中的人物、动物等等；又如，在机器人控制领域中，待学习技能的对象可以为机器人。

目前，演示学习过程中，通过多样的机器学习算法能够从若干组演示范例中学习得到行为控制策略，然后便可以基于该行为控制策略，对实际应用环境中的对象进行行为控制，以使得对象可以获得与演示范例相应的动作行为。

然而，在现有的演示学习过程中，如果希望待学习技能的对象具备某项运动技能，就需要预先获得该运动技能对应的动作演示数据；如果缺少了相应的动作演示数据，则无法使得对象具备相应的运动技能，导致待学习技能的对象生成某项技能的复杂度较高。例如，如果希望游戏中的人物具备搬着箱子行走的运动技能，则需要预先通过真人搬着箱子行走的演示数据。

发明内容

有鉴于此，本申请提供了一种行为控制策略的学习方法、装置、设备及存储介质，以有利于演示学习的对象可以学习到不同于演示动作的动作行为，降低该对象学习行为技能的复杂度。

为实现上述目的，一方面，本申请提供了一种行为控制策略的学习方法，包括：

从演示行为数据序列中采样出作为训练样本的演示行为数据片段，所述演示行为数据片段包括具有先后顺序的至少两个演示行为数据，所述演示行为数据包括演示对象的各个关节的第一状态信息；

依据所述演示行为数据片段，设置物理仿真器中模拟的目标对象的各个关节的初始状态信息，并利用待训练的神经网络模型确定出作用于所述目标对象的各个关节的作用力数据，所述目标对象与所述演示对象具有相同的关节；

基于所述神经网络模型确定的所述目标对象的各个关节的作用力数据，控制所述物理仿真器中模拟的目标对象的各个关节的运动，以使得所述物理仿真器基于设定的动作行为限定特征，仿真出所述目标对象的仿真行为数据序列，所述仿真行为数据序列包括具有先后顺序的至少一个仿真行为数据，所述仿真行为数据包括所述目标对象的各个关节的第二状态信息，所述动作行为限定特征用于限定所述模拟的目标对象的动作行为所需满足的特征；

依据所述演示行为数据中演示对象的各个关节的第一状态信息以及所述仿真行为数据中所述目标对象的各个关节的第二状态信息，确定所述模拟的目标对象与所述演示对象之间的动作行为差异度；

基于所述动作行为差异度，优化所述神经网络模型所表达的行为控制策略，直至达到优化目标，将所述神经网络模型表达的行为控制策略确定为演示学习中所依据的控制策略。

又一方面，本申请还提供了一种行为控制策略的学习装置，包括：

数据采样单元，用于从演示行为数据序列中采样出作为训练样本的演示行为数据片段，所述演示行为数据片段包括具有先后顺序的至少两个演示行为数据，所述演示行为数据包括演示对象的各个关节的第一状态信息；

模型控制单元，用于依据所述演示行为数据片段，设置物理仿真器中模拟的目标对象的各个关节的初始状态信息，并利用待训练的神经网络模型确定出作用于所述目标对象的各个关节的作用力数据，所述目标对象与所述演示对象具有相同的关节；

数据仿真单元，用于基于所述神经网络模型确定的所述目标对象的各个关节的作用力数据，控制所述物理仿真器中模拟的目标对象的各个关节的运动，以使得所述物理仿真器基于设定的动作行为限定特征，仿真出所述目标对象的仿真行为数据序列，所述仿真行为数据序列包括具有先后顺序的至少一个仿真行为数据，所述仿真行为数据包括所述目标对象的各个关节的第二状态信息，所述动作行为限定特征用于限定所述模拟的目标对象的动作行为所需满足的特征；

差异比对单元，用于依据所述演示行为数据中演示对象的各个关节的第一状态信息以及所述仿真行为数据中所述目标对象的各个关节的第二状态信息，确定所述模拟的目标对象与所述演示对象之间的动作行为差异度；

训练优化单元，用于基于所述动作行为差异度，优化所述神经网络模型所表达的行为控制策略，直至达到优化目标，将所述神经网络模型表达的行为控制策略确定为演示学习中所依据的控制策略。

又一方面，本申请还提供了一种计算机设备，包括：

处理器和存储器；

所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器用于存储所述程序，所述程序至少用于：

基于所述神经网络模型确定的所述目标对象的各个关节的作用力数据，控制所述物理仿真器中模拟的目标对象的各个关节的运动，以使得所述物理仿真器基于设定的动作行为限定特征，仿真出所述目标对象的仿真行为数据序列，所述仿真行为数据序列包括具有先后顺序的至少一个仿真行为数据，所述仿真行为数据包括所述目标对象的各个关节的第二状态信息，所述动作行为限定特征用于限定所述模拟的目标对象的动作行为所需满足的特征；依据所述演示行为数据中演示对象的各个关节的第一状态信息以及所述仿真行为数据中所述目标对象的各个关节的第二状态信息，确定所述模拟的目标对象与所述演示对象之间的动作行为差异度；

又一方面，本申请还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任一项所述的行为控制策略的学习方法。

经由上述的技术方案可知，本申请中演示学习所需的行为控制策略通过神经网络模型表达。通过神经网络模型与物理仿真器的配合来完成神经网络模型所表达的行为控制策略的训练，而且，在训练神经网络模型的过程中，除了结合演示行为数据之外，还在物理仿真器中设置了待学习行为技能的对象所对应的动作行为限制特征，通过动作行为限制特征可以限定物理仿真器中模拟的该目标对象的行为特征所需满足的特征需求，从而使得训练出的神经网络模型所表达的行为控制策略可以使得目标对象生成与演示行为数据尽可能相似，且又符合设定的动作行为限制特征的其他动作行为。由此可知，基于训练得到的神经网络模型控制目标对象的行为学习时，既可以有利于目标对象学习到与演示行为数据相似的动作行为且与演示行为数据对应的动作行为不完全相同的动作行为，即可以扩展出的其他类似的动作行为，有利于目标对象在基于演示动作行为数据可以学习出与演示动作行为数据的演示行为不同的动作行为，从而在没有某种动作行为的演示行为数据的情况下，也可以得到相应动作行为的行为控制策略，进而可以基于该行为控制策略控制目标对象学习出与演示行为类似但却不同的动作行为，有利于降低演示学习的复杂度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1a示出了演示学习中演示对象的各个关节及其状态的示意图；

图1b示出了演示学习中待学习技术的对象各个关节的结构示意图；

图2示出了本申请的一种行为控制策略的学习方法所适用的一种计算机设备的一种组成结构示意图；

图3示出了本申请一种行为控制策略的学习方法一个实施例的流程示意图；

图4示出了本申请的一种行为控制策略的学习方法又一个实施例的流程示意图；

图5示出了本申请的行为控制策略的学习方法的一种实现原理的架构示意图；

图6示出了本申请一种行为控制策略的学习方法应用于一种应用场景的流程示意图；

图7示出了本申请一种行为控制策略的学习装置一个实施例的组成结构示意图。

具体实施方式

本申请的方案适用于演示学习，演示学习中涉及到演示对象，以及待学习行为技能的对象。其中，演示对象用于演示行为，以生成演示学习所依据的演示行为数据。而待学习行为技能的对象为基于演示行为数据最终学习到相应动作行为技能的对象。如，该对象可以为机器人，或者游戏中的游戏对象。

如，以游戏领域为例，待学习技能的对象可以为游戏中的游戏人物。在该种情况下，可以根据真实的用户演示的动作(如行走、跳跃等动作)，获得演示行为数据，并根据演示行为数据，对游戏中的游戏人物进行强化学习，以使得游戏人物能够具备演示出的该动作(如行走、跳跃等动作)的技能。

目前，在演示学习过程中，演示行为数据一般表达为演示对象的各个关节的状态，该状态可以包括各个关节的角度、速度(包含各个基准方向的速度)等。而待学习技能的对象与演示对象具有相同的关节，相应的各个关节的自由度也相同。

如图1a所示，其示出了演示对象所包含的各个关节以及各个关节的状态。

在图1a中以演示对象为人为例，在图1a中示出了该演示对象包含了人体的各个关节，如，膝关节、肘关节、腕关节等等。

同时，该演示行为数据可以反映出图1中演示对象的各个关节所处的状态。如，各个关节在三维空间中的角度以及速度等。例如，在设定的三维空间中，具有相互垂直的X轴、Y轴和Z轴，基于演示对象的演示行为数据可以得到演示对象的每个关节相对于这三个轴向的角度等。

相应的，为了能够使得待学习技能的目标对象能够基于演示对象的演示行为数据演示学习出相应的技能，该待学习技能的目标对象应该具有与该演示对象相同的关节。当然，各个关节的自由度也是相同的。如图1b所示，其为基于图1a所示的演示对象的演示行为数据进行演示学习的目标对象的结构示意图。由图1b可以看出，该目标对象同样为人体，目标对象与演示对象的关节以及自由度均相同。

可以理解的是，图1a和图1b仅仅是以演示对象和待学习行为技能的目标对象为人作为示例，在实际应用中，如果目标对象为其他形态则需要演示对象具有与该目标对象相同的关节即可，比如，目标对象为动物形态的机器人(例如机器猫)，则演示对象可以动物(例如猫)等。

可以理解的是，在演示学习过程中，需要基于演示行为数据，确定控制目标对象的行为控制策略，然后基于行为控制策略来控制目标对象的运动，以使得目标对象可以学习到与演示行为相似的行为技能。

然而，发明人经过研究发现：现有的演示学习过程中所确定的行为控制策略，只能使得目标对象学习到与演示行为基本一致的行为，而无法学习与演示行为相似但是却经过扩展的其他行为动作，从而限制了通过演示学习所能学习到的行为技能，进而只有在具备某种行为的演示数据的情况下，才可以学习到该种行为，导致演示学习的复杂度较高，灵活性较差。

基于以上研究发现，本申请的方案可以基于演示行为数据，训练出适合扩展演示行为的行为控制策略。

本申请的方案适用于计算机设备，该计算机设备可以为个人计算机、服务器以及其他具备数据处理能够的电子设备。

如，参见图2，其示出了本申请实施例的行为控制策略的学习方法所适用的计算机设备的一种组成结构示意图。在图2中，该计算机设备200可以包括：处理器201、存储器202、通信接口203、输入单元204和显示器205和通信总线206。

处理器201、存储器202、通信接口203、输入单元204、显示器205、均通过通信总线206完成相互间的通信。

在本申请实施例中，该处理器201，可以为中央处理器(Central ProcessingUnit，CPU)，特定应用集成电路(application-specific integrated circuit，ASIC)，数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。

该处理器可以调用存储器202中存储的程序，具体的，处理器可以执行后续图3至图6中计算机设备所执行的操作。

存储器202中用于存放一个或者一个以上程序，程序可以包括程序代码，所述程序代码包括计算机操作指令，在本申请实施例中，该存储器中至少存储有用于实现以下功能的程序：

从演示行为数据序列中采样出作为训练样本的演示行为数据片段，该演示行为数据片段包括具有先后顺序的至少两个演示行为数据，该演示行为数据包括演示对象的各个关节的第一状态信息；

依据该演示行为数据片段，设置物理仿真器中模拟的目标对象的各个关节的初始状态信息，并利用待训练的神经网络模型确定出作用于该目标对象的各个关节的作用力数据，该目标对象与该演示对象具有相同的关节；

基于该神经网络模型确定的该目标对象的各个关节的作用力数据，控制该物理仿真器中模拟的目标对象的各个关节的运动，以使得该物理仿真器基于设定的动作行为限定特征，仿真出的该目标对象的仿真行为数据序列，该仿真行为数据序列包括具有先后顺序的至少一个仿真行为数据，该仿真行为数据包括该目标对象的各个关节的第二状态信息，该动作行为限定特征用于限定该模拟的目标对象的动作行为所需满足的特征；依据该演示行为数据中演示对象的各个关节的第一状态信息以及该仿真行为数据中该目标对象的各个关节的第二状态信息，确定该模拟的目标对象与该演示对象之间的动作行为差异度；

基于该动作行为差异度，优化该神经网络模型所表达的行为控制策略，直至达到优化目标，将该神经网络模型表达的行为控制策略确定为演示学习中所依据的控制策略。

在一种可能的实现方式中，该存储器202可包括存储程序区和存储数据区，其中，存储程序区可存储操作***、以上所提到的程序，以及至少一个功能(比如声音播放功能、图像播放功能以及定位功能等)所需的应用程序等；存储数据区可存储根据计算机设备的使用过程中所创建的数据，比如，音频数据、电话本等。

此外，存储器202可以包括高速随机存取存储器，还可以包括非易失性存储器等。

该通信接口203可以为通信模块的接口，如GSM模块的接口。

本申请还可以包括输入单元205，该输入单元可以包括触摸感应单元、键盘等等。

该显示器204包括显示面板，如触摸显示面板等。

当然，图2所示的计算机设备结构并不构成对本申请实施例中计算机设备的限定，在实际应用中计算机设备可以包括比图2所示的更多或更少的部件，或者组合某些部件。

下面结合流程图对本申请的行为控制策略的学习方法进行介绍。

如图3所示，其示出了本申请一种行为控制策略的学习方法的一种流程示意图，本实施例的方案可以应用于前面提到的计算机设备，该方法包括：

S301，从演示行为数据序列中采样出作为训练样本的演示行为数据片段。

其中，演示行为数据序列包括多个连续的不同时刻的演示行为数据。而演示行为数据片段属于演示行为数据序列中连续的一部分数据段，相应的，该演示行为数据片段中包括具有先后顺序的至少两个演示行为数据，即，演示行为数据片段包括相邻两个时刻的演示行为数据。该演示行为数据包括演示对象的各个关节的状态信息。

关节的状态信息可以表征该关节所呈现的具体状态，通过该状态信息可以反映出关节的运动状态，进而通过各个关节的状态信息反映出演示对象的动作行为。如，关节的状态信息包括关节所处的角度以及速度等状态值中的一种或者几种。其中，为了便于与后续仿真中的各个关节的状态信息进行区分，将该演示对象的关节的状态信息称为第一状态信息。

可以理解的是，获得演示行为数据序列的方式可以有多种，如，在一种可能的实现方式中，可以是在演示对象演示了动作行为之后，通过动作捕捉设备捕获该演示对象演示的演示数据，该演示数据可以作为演示行为数据序列；或者，是对演示数据处理得到该演示行为数据序列。当然，通过其他方式获得该演示行为数据序列也同样适用于本实施例，对此不加限制。

可以理解的是，对演示行为数据序列进行采样可以得到用于训练行为控制策略所需的样本。其中，从演示行为数据序列中采样出作为训练样本的演示行为数据片段的具体方式可以有多种。如，可以每次随机从演示行为数据序列中采样出一段数据作为训练样本。当然，也可以是一次从演示行为数据序列中采样出多个演示行为数据片段，但是每个训练周期，仅仅使用一个演示行为数据片段对神经网络进行训练。

S302，依据演示行为数据片段，设置物理仿真器中模拟的目标对象的各个关节的初始状态信息，并利用待训练的神经网络模型确定出作用于所述目标对象的各个关节的作用力数据。

其中，该物理仿真器也称为物理引擎，是一款用于模拟智能体运动的仿真程序。

在本申请实施例中，该物理仿真器中可以模拟的智能体为该目标对象，同时，该物理仿真器可以仿真目标对象在真实物理空间中的受力及运动情况。

其中，该目标对象为待学习行为技能的对象，如，以游戏应用为例，该目标对象可以为游戏应用中的游戏人物等游戏对象。由前面可知，该目标对象与该演示对象所具有的关节相同。

在本申请实施例中，通过神经网络模型来表达行为控制策略，因此，通过训练神经网络模型可以得到用于对目标对象的各个关节进行控制的行为控制策略。该行为控制策略可以通过该神经网络模型输出的对于该目标对象的各个关节的作用力来表征。

可以理解的是，为了使得物理仿真器中模拟的目标对象可以学习演示行为数据对应的演示行为，需要先基于该演示行为数据片段中演示行为数据，设定物理仿真器中该目标对象的各个关节的初始状态信息，以使得物理仿真器中模拟的目标对象的初始动作行为与演示行为片段中演示对象中首个或者中间的动作行为一致。

作为一种可选方式，为了使得物理仿真器可以仿真出目标对象学习演示行为数据片段对应的各个演示行为，可以依据演示行为数据片段中首个演示行为数据中演示对象的各个关节的第一状态信息，设置物理仿真器中模拟的目标对象的各个关节的初始状态信息。在该种情况下，物理仿真器中目标对象各个关节的状态信息均与该演示行为数据片段中第一个演示行为数据所包含的演示对象相应关节的第一状态信息保持一致。

相应的，可以将该首个演示行为数据中演示对象的各个关节的第一状态信息输入到待训练的神经网络模型，得到该神经网络模型输出的用于控制该目标对象的各个关节的作用力数据。在本申请中，是通过神经网络模型与物理仿真器之间的交互来完成神经网络模型的训练，因此，该神经网络模型需要基于输入的演示行为数据，预测出该目标对象学习该演示行为数据对应的演示行为所需的各个关节的作用力情况。由于该目标对象需要与该演示对象具有相同的关节，因此，此处神经网络模型可以认为是目标对象(或者，物理仿真器中模拟的目标对象)的各个关节的作用力数据，也可以认为是演示对象的各个关节对应的作用力数据。

其中，关节的作用力数据可以为作用到该关节上的力的数据，如，作用到该关节上的控制力的大小、方向以及时长等等数据中的一种或者多种。

其中，该神经网络模型可以根据需要设定，作为一种可选方式，该神经网络模型可以为深度神经网络模型。

S303，基于该神经网络模型确定的该各个关节的作用力数据，控制该物理仿真器中模拟的目标对象的各个关节的运动，以使得该物理仿真器基于设定的动作行为限定特征，仿真出仿真行为数据序列。

该仿真行为数据序列包括至少一个仿真行为数据，该仿真行为数据包括该目标对象的各个关节的第二状态信息。

其中，物理仿真器模拟出的目标对象的各个关节的状态信息同样可以反映出该仿真出的该目标对象的动作行为，如，仿真出的目标对象的各个关节所处的角度以及速度等数值。为了便于区分，将仿真出的目标对象的关节的状态信息称为第二状态信息。

可以理解的是，在物理仿真器中目标对象各个关节的初始状态信息确定的情况下，将神经网络模型输出的各个关节的作用力数据输入到物理仿真器中，可以使得物理仿真器模拟该目标对象的各个关节所受到的作用力，从而模拟出该目标对象的各个关节具有相应的作用力的情况下，该目标对象的各个关节的动作变化，得到仿真出的该目标对象的各个关节的状态信息。

可以理解的是，每次向物理仿真器中模拟的目标对象的各个关节施加一次作用力，该目标对象的各个关节会存在一次状态信息的变化，从而仿真出该目标对象的一个仿真行为数据。

物理仿真器还可以与神经网络模型不断交互，以仿真出多个仿真行为数据。如，根据演示行为数据片段中包含的演示行为数据的数量或者结合实际需要，还可以设定物理仿真器与神经网络模型的多次交互，即结合物理仿真器仿真出的仿真行为数据，更新神经网络模型输出的作用力数据，并将神经网络模型输出的作用力数据再次作用到物理仿真器模拟的目标对象中，并不断重复该过程，可以仿真出一系列的仿真行为数据，从而得到包含至少一个仿真行为数据的仿真行为数据序列。

特别的，本申请的该物理仿真器中还设置有动作行为限定特征，该动作行为限定特征用于限定该模拟的目标对象的动作行为所需满足的特征。也就是说，物理仿真器中配置有用于限定该目标对象学习动作行为所需额外满足的动作行为需求。

如，该动作行为限定特征可以为配置模拟的该目标对象进行动作行为的过程中需要携带设定的物品，例如，目标对象需要携带箱子。

又如，该动作行为限定特征可以为限定模拟的该目标对象的动作行为方式，例如，目标对象需要不断变换动作。

又如，动作行为限定特征可以为限定目标对象需要在控制特定物品运动的同时，学习动作行为。

可以理解的是，在物理仿真器中设置有动作行为限定特征的情况下，通过神经网络模型与物理仿真器之间的交互，最终需要仿真出的目标对象的动作行为满足原则：在模拟出的目标对象的动作行为与演示对象的演示行为数据对应的动作行为尽可能相似的前提下，使得目标对象的动作行为符合该动作行为限定特征。

举例说明：

假设演示对象演示的动作行为为行走动作，而演示学习的目的是使得目标对象学习到搬着物品行走这一动作行为。在该种情况下，则物理仿真器中配置的动作行为限制特征可以为目标对象搬着物品。

S304，依据该演示行为数据中演示对象的各个关节的第一状态信息以及仿真行为数据中该目标对象的各个关节的第二状态信息，确定该模拟的目标对象与该演示对象之间的动作行为差异度。

其中，该动作行为差异度用于反映该演示对象的各个关节的第一状态信息与仿真出的该目标对象的各个关节的第二状态信息之间的综合差异情况。可见，该综合差异情况实际上就是模拟的该目标对象的动作行为与该演示对象的动作行为之间的差异度。

其中，确定动作行为差异度的具体方式可以根据需要设定，如，物理仿真器仿真出的各个仿真行为数据为分别针对演示行为数据片段中各个演示行为数据对应的各个关节的第一状态信息进行学***均值确定动作行为差异度

S305，基于该动作行为差异度，优化该神经网络模型所表达的行为控制策略，直至达到优化目标，将该神经网络模型表达的行为控制策略确定为演示学习中所依据的控制策略。

可以理解的是，该动作行为差异度可以反映出模拟出的目标对象的动作行为与演示对象演示的动作行为的差异程度，因此，该动作行为差异度可以作为优化神经网络模型所依据的参数。

其中，优化神经网络模型所表达的行为控制策略本质上就是调整该神经网络模型的内部参数，以改变神经网络模型所表达的行为控制策略。

作为一种可选方式，可以将演示学习与强化学习算法结合，相应的，可以依据该动作行为差异度，并结合强化学习算法，确定激励信号；按照该激励信号，调整该神经网络模型中的内部参数。

可以理解的是，该优化目标可以根据需要设定，达到优化目标则说明已经演示行为数据，并通过神经网络模型输出的行为控制策略控制物理仿真器中模拟的目标对象的动作行为与演示对象的演示行为的相似程度符合要求。如，在一种可选的实现方式中，该优化目标可以为动作行为差异度为最小值，即，动作行为差异度小于当前时刻之前确定出的动作行为差异度。该优化目标还可以为确定出的动作行为差异度的变化幅值小于设定值。

如果基于当前确定的动作行为差异度确定出当前尚未达到优化目标，则需要基于所述动作行为差异度，优化所述神经网络模型表达的行为控制策略，同时，需要利用采样出的训练样本继续训练该神经网络模型。如，如果尚未达到优化目标，则需要继续训练，如，如果步骤S301中采样出多个演示行为数据片段，则可以选取未用于训练的演示行为数据片段继续执行步骤S302到S305的操作。可选的，在每次仅仅从演示行为数据序列中采样出一个作为训练样本的演示行为数据片段的情况下，则可以返回步骤S301，以重新从该演示行为数据序列中采样出一个演示行为数据片段作为训练样本，并继续执行步骤S302到S305的操作，直至达到优化目标。

相应的，如果确定达到优化目标，则可以结束学习(或者说训练)，则训练出的神经网络模型可以用于作为真实场景中目标对象的行为控制策略。

作为一种可选方式，在训练得到该神经网络模型之后，还可以将该神经网络模型加载到该目标应用程序中，以通过该神经网络模型所表达的行为控制策略控制该目标应用程序控制的目标对象的动作行为。其中，该目标应用程序用于控制目标对象的运行，即，该目标应用程序为实际应用场景中目标对象的控制程度，而并非模拟环境中模拟的目标对象的控制程序。

如，以游戏领域的演示学习为例，在训练得到该神经网络模型之后，可以将该神经网络模型加载到游戏应用中，以基于该神经网络模型控制游戏应用中游戏对象的动作行为。如，将游戏对象当前的动作行为输入到神经网络模型中，并基于神经网络模型输出的该游戏对象的各个关节的作用力数据，控制该游戏对象的各个关节的运动，从而使得游戏对象可以获得与演示对象相似且符合行为限制特征的动作行为。

经由上述的技术方案可知，本申请中演示学习所需的行为控制策略通过神经网络模型表达。通过神经网络模型与物理仿真器的配合来完成神经网络模型所表达的行为控制策略的训练，而且，在训练神经网络模型的过程中，除了结合演示行为数据之外，还在物理仿真器中设置了待学习行为技能的对象所对应的动作行为限制特征，通过动作行为限制特征可以限定物理仿真器中模拟的该目标对象的行为特征所需满足的特征需求，从而使得训练出的神经网络模型所表达的行为控制策略可以使得目标对象生成与演示行为数据尽可能相似，且又符合设定的动作行为限制特征的其他动作行为。

由此可知，基于训练得到的神经网络模型控制目标对象的行为学习时，既可以有利于目标对象学习到与演示行为数据相似的动作行为且与演示行为数据对应的动作行为不完全相同的动作行为，即可以扩展出的其他类似的动作行为，有利于目标对象在基于演示动作行为数据可以学习出与演示动作行为数据的演示行为不同的动作行为，从而在没有某种动作行为的演示行为数据的情况下，也可以得到相应动作行为的行为控制策略，进而可以基于该行为控制策略控制目标对象学习出与演示行为类似但是不同的动作行为，有利于降低演示学习的复杂度。

为了便于理解，下面以深度强化学习来训练得到神经网络模型的过程为例对本申请的方案进行说明。在该种情况中，将深度强化学习与演示学习相结合，并根据待学习行为技能的目标对象的具体任务要求，设定行为动作限制特征，以训练得到适用于该目标对象学习到与演示对象动作形式且符合特定要求的动作行为。

如图4，其示出了本申请一种行为控制策略的学习方法又一个实施例的流程示意图，本实施例同样应用于前面提到的计算机设备，本实施例的方法可以包括：

S401，从获得的演示行为数据序列中随机采样一段演示行为数据片段。

如，随机抽取一个连续时间段内的演示行为数据作为该演示行为数据片段，该演示行为数据片段包括演示对象在至少两个连续时刻各自对应的演示行为数据。演示行为数据同样包括演示对象的各个关节的第一状态值。

可以理解的是，以上步骤S401是以采样出一个作为训练样本的演示行为数据片段为例说明，但是对于其他情况，也适用于本实施例。

S402，依据演示行为数据片段中第一个演示行为数据中演示对象的各个关节的第一状态信息，设置物理仿真器中模拟的目标对象的各个关节的初始状态信息。

如，将物理仿真器中该目标对象每个关节的初始状态信息分别与该第一个演示行为数据中演示对象中该关节的第一状态信息保持一致，从而设定了物理仿真器中目标对象的初始状态，从而使得物理仿真器后续可以仿真出该目标对象学习该演示行为数据片段中第二个以及后续演示行为数据对应的演示动作。

S403，将该第一个演示行为数据中演示对象的各个关节的第一状态信息输入到待训练的神经网络模型，得到神经网络模型输出的用于控制该目标对象的各个关节的作用力数据。

S404，基于该物理仿真器中模拟的目标对象的各个关节的初始状态信息，依据该神经网络模型确定的该目标对象的各个关节的作用力数据，向该物理仿真器中模拟的目标对象的各个关节施加作用力，以使得该物理仿真器基于设定的动作行为限定特征，仿真出该目标对象的一个仿真行为数据。

可以理解的是，物理仿真器中目标对象各个关节的初始状态信息确定的情况下，向该目标对象的各个关节作用力，可以使得目标对象中各个关节的状态发生一次改变，得到一个仿真行为数据，该仿真行为数据包括目标对象的各个关节的第二状态信息。

可以理解的是，该步骤S404中仿真出的仿真行为数据是在目标对象的各个关节的初始状态的情况下，依据神经网络模型输出的作用力仿真出向目标对象的各个关节的状态信息，因此，该仿真行为数据表征的是物理仿真器中目标对象学习针对演示行为片段中第二个演示行为数据所学习出的动作行为。

S405，检测仿真行为数据的总数量是否满足设定条件，如果是，确认得到包含至少一个仿真行为数据的仿真行为数据序列，并执行步骤S408；如果否，则执行步骤S406。

其中，该设定条件可以根据需要设定，如，假设针对演示行为数据片段中设定数量个演示行为数据进行演示学习，那么可以该设定条件可以为总数量达到该设定数量。

可选的，可以设定物理仿真器需要仿真目标对象模拟个演示行为数据片段中所有演示行为数据对应的演示动作，因此，该设定条件可以为该仿真行为数据的总数量与演示行为数据片段中演示行为数据的数量一致；或者是，演示行为数据的总数量超过该演示行为数据片段中演示行为数据的数量。此处，需要说明的是，如果物理仿真器中目标对象各个关节的初始状态信息也被确定为该物理仿真器仿真出的一个仿真行为数据，那么设定条件就可以是：仿真行为数据的总数量与演示行为数据片段中演示行为数据的数量一致。如果物理仿真器中目标对象各个关节的初始状态信息不被认定为该物理仿真器仿真出的一个仿真行为数据，那么只需要仿真行为数据的总数量与演示行为数据片段中演示行为数据的数量减1相同即可。

可以理解的是，如果仿真行为数据的总数量满足设定条件，则将仿真出的至少一个仿真行为数据确定为仿真行为数据序列。可以理解的是，如果物理仿真器中目标对象各个关节的初始状态信息也被确定为该物理仿真器仿真出的一个仿真行为数据，那么仿真行为数据序列应该包括至少两个仿真行为数据。

S406，将该物理仿真器最近一次仿真出的目标对象的仿真行为数据输入到所述神经网络模型，得到更新后的目标对象的各个关节的作用力数据。

S407，依据该更新后的目标对象的各个关节的作用力数据，向物理仿真器中模拟的目标对象的各个关节施加作用力，以使得物理仿真器基于设定的动作行为限定特征，仿真出目标对象的仿真行为数据，并返回步骤S405，直至仿真出的仿真行为数据的总数量满足设定条件。

该步骤S406和S407中，神经网络模型会基于物理仿真器仿真出的仿真行为数据，更新对目标对象的各个关节所需施加的作用力数据，并控制物理仿真器继续仿真目标对象各个关节的运动，直至得到多个仿真行为数据。

如，假设演示行为数据片段包括有连续的5个演示行为数据，那么在基于演示行为数据片段中第一个演示行为数据设置了物理仿真器中目标对象的各个关节的初始状态信息，使得物理仿真器得到第一个仿真行为数据之后，该物理仿真器通过步骤S404会仿真出与该第二个演示行为数据对应的第二个仿真行为数据，然后通过该步骤S406和S407的三次重复执行，还可以与演示行为数据片段中第三个到第五个演示行为数据分别对应的第三个到第五个仿真行为数据，从而得到包含五个仿真行为数据的仿真行为数据序列。

S408，依据演示行为数据片段中至少两个演示行为数据以及仿真行为序列中至少一个仿真行为数据，确定该模拟的目标对象与该演示对象之间的动作行为差异度。

可以理解的是，由于演示行为数据片段中第一个演示行为数据与该物理仿真器中目标对象的各个关节的初始状态信息一致，则可以只需要将演示行为数据片段中第一个演示行为数据之后的演示行为数据与物理仿真器中各个关节的初始状态信息之后仿真出的仿真行为数据进行比对即可。

当然，如果物理仿真器中目标对象各个关节的初始状态信息也被确定为该物理仿真器仿真出的一个仿真行为数据，那么物理仿真器会输出至少两个仿真行为数据，则可以按照顺序对应关系，依次比对顺序对应的演示行为数据与仿真行为数据。

S409，依据该动作行为差异度以及当前时刻之前确定的动作行为差异度，检测动作行为差异度是否达到收敛状态，如果否，则执行步骤S410；如果是，则结束训练。

其中，该收敛状态可以理解为强化学习中常规设定的收敛状态，如前面提到的几种优化目标，对此不再赘述。

S410，根据动作行为差异度，确定激励信号。

可以理解的是，强化学习是利用高仿真的物理引擎和强化信号去训练智能体，在训练过程中，智能体不断利用已有的策略与物理引擎进行交互，产生一系列的强化信号(即激励信号)，这些激励信号会用于更新策略。在本实施例中，策略通过神经网络模型表达，而该智能体为物理引擎中模拟出的目标对象，因此，根据该动作行为差异度，可以确定出用于更新神经网络模型中策略的激励信号。

其中，该动作行为差异度越大，则该激励信号越小；反之，该动作行为差异度越小，该激励信号越大。

S411，依据该激励信号，调整神经网络模型中的内部参数，以改变该神经网络模型所表达的行为控制策略，并返回步骤S401，以重新采样出演示动作行为片段。

可以理解的是，通过不断优化神经网络模型所要到达的目标是模拟出的目标对象能够生成与演示数据尽可能相近的动作行为，该优化问题可以表示如下：

min|τ-τ_E|，且遵循h(τ)≤0，g(τ)＝0；

其中，τ_E为演示行为数据，τ为最终优化得到的模拟的目标对象的仿真行为数据，该仿真行为数据包括模拟的目标对象各个关节的第二状态信息。h(τ)≤0和g(τ)＝0表示用于设定不同动作行为限制特征的两种设定方式，如，h(τ)≤0可以为在不属于某种情况下才可以的动作特征。而g(τ)＝0可以为等于某种情况下才可以执行的动作行为特征。

由此可知，优化问题本质就是生成满足动作行为限制特定且与演示行为数据尽量相似的优化数据，即τ。

相应的，以生成的优化的τ作为学习目标，定义激励函数，在物理仿真器进行大量仿真之后，可以用确定的激励信号去更新表达行为控制策略的神经网络模型。

为了便于直观的理解本申请的行为控制策略的学习方法，可以参见图5，其示出了本申请的方法实现原理框架示意图。

由图5可以看出，从演示行为数据序列中采样出演示行为数据之后，演示行为数据会输入到神经网络模型中，而神经网络模型基于该演示行为数据会输出用于控制物理仿真器中模拟的目标对象对应的各个关节的作用力数据，从而使得该物理仿真器可以基于动作行为特征对目标对象的行为进行仿真，并输出仿真的该目标对象的仿真行为数据。该仿真行为数据包括仿真出的该目标对象的各个关节的状态信息。通过对比仿真行为数据和采样出的演示行为数据可以确定出演示对象与目标对象之间的行为差异度，这样，基于行为差异度可以优化该神经网络模型，直至达到收敛，使得物理仿真器输出的仿真行为数据与相应的演示行为数据接近且仿真行为数据所表征的动作行为符合该动作行为特征。

为了便于理解本申请方案的好处，下面结合一应用场景进行介绍。

以游戏应用中游戏人物的演示学习为例说明，并假设需要游戏人物基于真实用户演示的行走动作生成搬着物品行走。在该种情况下，本实施例的行为控制策略的学习方法可以参见图6所示，该图6可以应用于计算机设备，该流程可以包括：

S601，获取真实用户演示的行走动作的演示数据序列。

本实施例中，以基于演示学习使得游戏应用中的游戏人物可以学习到真实用户的行为动作为例，因此，该演示数据序列是真实用户演示的行走动作的数据。具体的，该演示数据序列包括：真实用户的各个关节在多个不同时刻的第一状态值。

可以理解的是，本实施例是以需要游戏人物学习真实用户的行走动作为例，但是如果游戏人物待学习的动作为其他动作，那么只需要获得真实用户或者与游戏人物具有相同关节的演示对象演示的相应动作的演示数据序列即可。例如，需要游戏人物学习翻跟斗的动作，则只需将演示数据序列替换为真实用户等演示演示的翻跟头的演示数据序列即可。

S602，从演示数据序列中随机采样一段演示数据片段。

S603，依据演示数据片段中的第一个演示数据，设定物理仿真器中游戏人物的各个关节的初始状态信息，得到物理仿真器中该游戏任务的第一个仿真行为数据。

该步骤S602和S603仍以一种采样训练样本的方式为例说明，但是对于其他采样方式也同样适用于本实施例。

S604，将该第一个演示数据输入到待训练的神经网络模型，得到该神经网络模型输出的待模拟的游戏人物的各个关节的作用力数据。

S605，依据该神经网络模型输出的该游戏人物的各个关节的作用力数据，控制物理仿真器中模拟的该游戏人物的各个关节的运动，以使得该物理仿真器基于设定的携带物品行走特征，仿真出的该游戏人物在携带物品行走的情况下，该游戏人物的各个关节的第二状态信息，得到仿真出的目标对象的第二个仿真行为数据。

可以理解的是，由于需要游戏人物基于真实用户演示的行走动作扩展学习得到携带物品行走的动作，因此，物理仿真器中配置的动作行为控制特征为目标对象携带物品(如箱子)行走这一特征。相应的，物理仿真器会依据神经网络模型输入的各个关节的作用力数据，对游戏人物携带物品行走的过程进行仿真，从而输出仿真得到的该游戏人物携带物品行走的仿真行为数据。该仿真行为数据包括游戏人物各个关节的第二状态信息。

可以理解的是，如果需要基于真实用户的行走动作扩展出其他与行走动作相关的动作行为，那么仿真控制器中配置行为动作限定特征也会有所不同。如，需要游戏人物根据真实用户正常的行走动作学习出不断变换姿势行走的动作技能，该物理仿真器中配置的动作行为限定特征可以为：游戏人物相邻时刻的行走姿势不同。当然，本实施例是以学习行走动作的场景为例，如果待学习的动作行为为其他情况，则可以根据演示对象演示的动作行为以及游戏人物所需扩展的具体动作行为，设置该物理仿真器中的动作行为限制特征。

S606，将物理仿真器最近一次仿真出的游戏人物的仿真行为数据输入到神经网络模型，得到更新后的游戏人物的各个关节的作用力数据，并依据更新后的游戏人物的各个关节的作用力数据，向物理仿真器中模拟的游戏人物的各个关节施加作用力，以使得物理仿真器基于设定的动作行为限定特征，仿真出游戏人物的仿真行为数据，重复该步骤S606，直至仿真出的仿真行为数据的总数量与演示行为数据片段中演示行为数据的总数量一致。

该步骤S606可以参见前面实施例的相关介绍，在此不再赘述。

S607，依据该演示行为数据片段中各个演示行为数据仿真出的仿真行为数据序列中各个仿真行为数据，确定模拟的游戏人物与该真实用户之间的动作行为差异度。

S608，依据该动作行为差异度以及当前时刻之前确定的动作行为差异度，检测当前确定的动作行为差异度是否到达最小值，如果否，则执行步骤S609；如果是，则结束训练。

本实施例，以优化目标为动作行为差异度达到最小为例，但是对于优化目标为其他情况也同样适用于本实施例。

S609，根据动作行为差异度，确定激励信号。

S610，依据该激励信号，调整神经网络模型中的内部参数，以改变该神经网络模型所表达的行为控制策略，并返回步骤S602，以重新采样出演示数据序列片段，并重新采样出一个作为训练样本的演示数据。

可以理解的是，在确认达到优化目标之后，则该神经网络模型训练完成，在该基础上，则可以基于该神经网络模型所表达的控制策略控制游戏应用中该游戏人物的动作行为，以使得游戏人物可以学习到携带物品行走的动作行为。

具体的，可以将训练出的神经网络模型加载到游戏应用中，该游戏应用中的该游戏人物携带有物品。在该种情况下，游戏应用可以获取游戏人物的各个关节的状态信息，并将游戏人物的各个关节的状态信息输入到该神经网络模型中；然后，游戏应用可以基于该神经网络模型输出的该游戏人物的各个关节的作用力控制游戏人物各个关节的运动，以使得游戏人物可以生成携带物品行走的动作。

由本实施例可见，本申请的方案可以基于真实用户的行走动作，训练出用于控制游戏人物携带物品行走所需的行为控制策略对应的神经网络模型，从而可以基于神经网络模型对游戏应用中的游戏人物进行动作控制，使得游戏人物可以学习到与真实用户演示的行走动作相似，并在真实用户演示的行走动作的基础上扩展出的携带物品行走的运动技能。

通过测试，本申请的方案可以使得游戏人物获得最佳的搬运物品行走的行为，可以长时间稳定行走，实现了现有的方案所不能达到的效果。

对应本申请的一种行为控制策略的学习方法，本申请还提供了一种行为控制策略的学习装置。

如图7所示，其示出了本申请一种行为控制策略的学习装置一个实施例的组成结构示意图，本实施例的装置可以包括：

数据采样单元701，用于从演示行为数据序列中采样出作为训练样本的演示行为数据片段，所述演示行为数据片段包括具有先后顺序的至少两个演示行为数据，所述演示行为数据包括演示对象的各个关节的第一状态信息；

模型控制单元702，用于依据所述演示行为数据片段，设置物理仿真器中模拟的目标对象的各个关节的初始状态信息，并利用待训练的神经网络模型确定出作用于所述目标对象的各个关节的作用力数据，所述目标对象与所述演示对象具有相同的关节；

数据仿真单元703，用于基于所述神经网络模型确定的所述目标对象的各个关节的作用力数据，控制所述物理仿真器中模拟的目标对象的各个关节的运动，以使得所述物理仿真器基于设定的动作行为限定特征，仿真出所述目标对象的仿真行为数据序列，所述仿真行为数据序列包括具有先后顺序的至少一个仿真行为数据，所述仿真行为数据包括所述目标对象的各个关节的第二状态信息，所述动作行为限定特征用于限定所述模拟的目标对象的动作行为所需满足的特征；

差异比对单元704，用于依据所述演示行为数据中演示对象的各个关节的第一状态信息以及所述仿真行为数据中所述目标对象的各个关节的第二状态信息，确定所述模拟的目标对象与所述演示对象之间的动作行为差异度；

训练优化单元705，用于基于所述动作行为差异度，优化所述神经网络模型所表达的行为控制策略，直至达到优化目标，将所述神经网络模型表达的行为控制策略确定为演示学习中所依据的控制策略。

在一种可能的实现方式中，所述训练优化单元，包括：

检测子单元，用于检测所述动作行为差异度是否达到设定的优化目标；

循环训练子单元，用于如果所述动作行为差异度未达到设定的优化目标，则基于所述动作行为差异度，优化所述神经网络模型表达的行为控制策略，并返回执行所述数据采样单元的操作；

结束控制子单元，用于如果所述动作行为差异度达到设定的优化目标，则确认学习完成，将所述神经网络模型表达的行为控制策略确定为演示学习中所依据的控制策略。

可选的，所述训练优化单元或者循环训练子单元在基于所述动作行为差异度，优化所述神经网络模型表达的行为控制策略时，具体为，用于依据所述动作行为差异度，并基于强化学习算法，确定激励信号；按照所述激励信号，调整所述神经网络模型中的内部参数，以改变所述神经网络模型所表达的行为控制策略。

在一种可能的实现方式中，所述模型控制单元，包括：

仿真初置单元，用于依据所述演示行为数据片段中首个演示行为数据中演示对象的各个关节的第一状态信息，设置物理仿真器中模拟的目标对象的各个关节的初始状态信息；

初始力确定单元，用于将所述首个演示行为数据中所述演示对象的各个关节的第一状态信息输入到待训练的神经网络模型，得到所述神经网络模型输出的用于控制所述目标对象的各个关节的作用力数据。

在又一种可能的实现方式中，所述数据仿真单元，包括：

仿真控制单元，用于基于所述物理仿真器中模拟的目标对象的各个关节的初始状态信息，依据所述神经网络模型确定的所述目标对象的各个关节的作用力数据，向所述物理仿真器中模拟的目标对象的各个关节施加作用力，以使得所述物理仿真器基于设定的动作行为限定特征，仿真出所述目标对象的一个仿真行为数据；

仿真结束控制单元，用于如果所述仿真行为数据的总数量满足设定条件，则确认得到包含至少一个仿真行为数据的仿真行为数据序列；

仿真循环单元，用于如果所述仿真行为数据的总数量未满足设定条件，将所述物理仿真器最近一次仿真出的所述目标对象的仿真行为数据输入到所述神经网络模型，得到更新后的所述目标对象的各个关节的作用力数据，并依据所述更新后的所述目标对象的各个关节的作用力数据，向所述物理仿真器中模拟的目标对象的各个关节施加作用力，以使得所述物理仿真器基于设定的动作行为限定特征，仿真出所述目标对象的仿真行为数据，直至仿真出的仿真行为数据的总数量满足设定条件。

可选的，该装置还可以包括：

模型应用单元，用于在训练优化单元得到所述神经网络模型表达的行为控制策略之后，将所述神经网络模型加载到目标应用程序中，以通过所述神经网络模型所表达的行为控制策略控制所述目标应用程序控制的目标对象的动作行为，所述目标应用程序用于控制目标对象的运行。

另一方面，本申请还提供了一种存储介质，该存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任意一个实施例中的行为控制策略的学习方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种行为控制策略的学习方法，其特征在于，包括：

基于所述神经网络模型确定的所述目标对象的各个关节的作用力数据，控制所述物理仿真器中模拟的目标对象的各个关节的运动，以使得所述物理仿真器基于设定的动作行为限定特征，仿真出所述目标对象的仿真行为数据序列，所述仿真行为数据序列包括具有先后顺序的至少一个仿真行为数据，所述仿真行为数据包括所述目标对象的各个关节的第二状态信息，所述动作行为限定特征用于限定所述模拟的目标对象进行动作行为的过程中所需额外满足的特征；

2.根据权利要求1所述的行为控制策略的学习方法，其特征在于，所述基于所述动作行为差异度，优化所述神经网络模型所表达的行为控制策略，直至达到优化目标，包括：

检测所述动作行为差异度是否达到设定的优化目标；

如果所述动作行为差异度未达到设定的优化目标，则基于所述动作行为差异度，优化所述神经网络模型表达的行为控制策略，并返回执行所述从演示行为数据序列中采样出作为训练样本的演示行为数据片段的操作；

如果所述动作行为差异度达到设定的优化目标，则确认学习完成。

3.根据权利要求1或2所述的行为控制策略的学习方法，其特征在于，所述基于所述动作行为差异度，优化所述神经网络模型表达的行为控制策略，包括：

依据所述动作行为差异度，并基于强化学习算法，确定激励信号；

按照所述激励信号，调整所述神经网络模型中的内部参数，以改变所述神经网络模型所表达的行为控制策略。

4.根据权利要求1所述的行为控制策略的学习方法，其特征在于，所述依据所述演示行为数据片段，设置物理仿真器中模拟的目标对象的各个关节的初始状态信息，并利用待训练的神经网络模型确定出作用于所述目标对象的各个关节的作用力数据，包括：

依据所述演示行为数据片段中首个演示行为数据中演示对象的各个关节的第一状态信息，设置物理仿真器中模拟的目标对象的各个关节的初始状态信息；

将所述首个演示行为数据中所述演示对象的各个关节的第一状态信息输入到待训练的神经网络模型，得到所述神经网络模型输出的用于控制所述目标对象的各个关节的作用力数据。

5.根据权利要求1或4所述的行为控制策略的学习方法，其特征在于，所述基于所述神经网络模型确定的所述目标对象的各个关节的作用力数据，控制所述物理仿真器中模拟的目标对象的各个关节的运动，以使得所述物理仿真器基于设定的动作行为限定特征，仿真出所述目标对象的仿真行为数据序列，包括：

基于所述物理仿真器中模拟的目标对象的各个关节的初始状态信息，依据所述神经网络模型确定的所述目标对象的各个关节的作用力数据，向所述物理仿真器中模拟的目标对象的各个关节施加作用力，以使得所述物理仿真器基于设定的动作行为限定特征，仿真出所述目标对象的一个仿真行为数据；

如果所述仿真行为数据的总数量满足设定条件，则确认得到包含至少一个仿真行为数据的仿真行为数据序列；

如果所述仿真行为数据的总数量未满足设定条件，将所述物理仿真器最近一次仿真出的所述目标对象的仿真行为数据输入到所述神经网络模型，得到更新后的所述目标对象的各个关节的作用力数据，并依据所述更新后的所述目标对象的各个关节的作用力数据，向所述物理仿真器中模拟的目标对象的各个关节施加作用力，以使得所述物理仿真器基于设定的动作行为限定特征，仿真出所述目标对象的仿真行为数据，直至仿真出的仿真行为数据的总数量满足设定条件。

6.根据权利要求1所述的行为控制策略的学习方法，其特征在于，在得到所述神经网络模型表达的行为控制策略之后，还包括：

将所述神经网络模型加载到目标应用程序中，以通过所述神经网络模型所表达的行为控制策略控制所述目标应用程序控制的目标对象的动作行为，所述目标应用程序用于控制目标对象的运行。

7.一种行为控制策略的学习装置，其特征在于，包括：

数据仿真单元，用于基于所述神经网络模型确定的所述目标对象的各个关节的作用力数据，控制所述物理仿真器中模拟的目标对象的各个关节的运动，以使得所述物理仿真器基于设定的动作行为限定特征，仿真出所述目标对象的仿真行为数据序列，所述仿真行为数据序列包括具有先后顺序的至少一个仿真行为数据，所述仿真行为数据包括所述目标对象的各个关节的第二状态信息，所述动作行为限定特征用于限定所述模拟的目标对象进行动作行为的过程中所需额外满足的特征；

8.根据权利要求7所述的行为控制策略的学习装置，其特征在于，所述训练优化单元，包括：

9.一种计算机设备，其特征在于，包括：

处理器和存储器；

所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器用于存储所述程序，所述程序至少用于：

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至6任一项所述的行为控制策略的学习方法。