CN117253287A

CN117253287A - 基于域泛化的动作预测模型训练方法、相关方法及产品

Info

Publication number: CN117253287A
Application number: CN202311229929.7A
Authority: CN
Inventors: 崔琼杰; 王浩帆
Original assignee: Shuhang Technology Beijing Co ltd
Current assignee: Shuhang Technology Beijing Co ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-12-19
Anticipated expiration: 2043-09-21
Also published as: CN117253287B

Abstract

本申请公开了一种基于域泛化的动作预测模型训练方法、相关方法及产品。该方法包括：获取学生模型和教师模型；获取隐式增广样本和显式增广样本，样本图像序列、隐式增广样本和显式增广样本均包括参考人物，参考人物在样本图像序列中的原始动作与参考人物在隐式增广样本中的增广动作属于同一类别，原始动作的模态与增广动作的模态不同；利用学生模型，预测与隐式增广样本对应的未来动作和与显式增广样本对应的未来动作，得到伪标签；利用教师模型，预测与隐式增广样本对应的未来动作和与显式增广样本对应的未来动作，得到第一预测结果；基于伪标签对第一预测结果的监督，更新教师模型的参数，得到目标模型。

Description

基于域泛化的动作预测模型训练方法、相关方法及产品

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种基于域泛化的动作预测模型训练方法、相关方法及产品。

背景技术

人体运动是一种多样化的数据，这种多样性主要体现在动作模态的多变性、人物属性的独特性。基于深度学习的动作预测模型所使用到的训练集规模无论多大，总是无法涵盖测试阶段出现的新人物，其中，新人物为未出现在训练集中的人物。这就导致动作预测模型的训练集和动作预测模型的测试数据之间的分布不一致，进而导致在测试数据中出现新人物的情况下，针对该新人物得到的预测结果的准确度低。因此，如何通过对动作预测模型进行域泛化，使动作预测模型提高对新人物的预测准确度具有非常重要的意义。

发明内容

本申请提供一种基于域泛化的动作预测模型训练方法、相关方法及产品，其中，相关方法包括：人机交互方法，产品包括：基于域泛化的动作预测模型训练装置、人机交互装置、电子设备、计算机可读存储介质。

第一方面，提供了一种基于域泛化的动作预测模型训练方法，所述方法包括：

获取学生模型和教师模型，所述学生模型基于样本图像序列训练得到，所述教师模型具备基于图像序列预测未来动作的能力；

获取隐式增广样本和显式增广样本，所述样本图像序列、所述隐式增广样本和所述显式增广样本均包括参考人物，所述参考人物在所述样本图像序列中的原始动作与所述参考人物在所述隐式增广样本中的增广动作属于同一类别，所述原始动作的模态与所述增广动作的模态不同，所述显式增广样本通过向所述样本图像序列添加噪声得到；

利用所述学生模型，预测与所述隐式增广样本对应的未来动作和与所述显式增广样本对应的未来动作，得到伪标签；

利用所述教师模型，预测与所述隐式增广样本对应的未来动作和与所述显式增广样本对应的未来动作，得到第一预测结果；

基于所述伪标签对所述第一预测结果的监督，更新所述教师模型的参数，得到目标模型。

结合本申请任一实施方式，所述获取隐式增广样本，包括：

获取所述样本图像序列；

获取隐式增广器，所述隐式增广器包括离散余弦变换、图神经网络、反离散余弦变换；

利用所述隐式增广器，对所述样本图像序列进行处理，生成所述隐式增广样本。

结合本申请任一实施方式，获取显式增广样本，包括：

通过向所述样本图像序列添加高斯噪声得到所述显式增广样本。

结合本申请任一实施方式，获取学生模型，包括：

获取初始模型；

利用所述初始模型预测与所述样本图像序列对应的未来动作，得到第一预测结果；

获取所述样本图像序列的真实标签；

基于所述真实标签对所述第一预测结果的监督，更新所述初始模型的参数得到所述学生模型。

结合本申请任一实施方式，所述利用所述学生模型，预测与所述隐式增广样本对应的未来动作和与所述显式增广样本对应的未来动作，得到伪标签，包括：

利用所述学生模型预测与所述隐式增广样本对应的未来动作，得到第一隐式预测结果；

利用所述学生模型预测与所述显式增广样本对应的未来动作，得到第一显式预测结果；

将所述第一隐式预测结果和所述第一显式预测结果，作为伪标签。

结合本申请任一实施方式，所述利用所述教师模型，预测与所述隐式增广样本对应的未来动作和与所述显式增广样本对应的未来动作，得到第一预测结果，包括：

利用所述学生模型预测与所述隐式增广样本对应的未来动作，得到第二隐式预测结果；

利用所述学生模型预测与所述显式增广样本对应的未来动作，得到第二显式预测结果；

将所述第二隐式预测结果和所述第二显式预测结果，作为所述第一预测结果。

结合本申请任一实施方式，所述方法还包括：

确定所述样本图像序列与所述隐式增广样本的差异损失；

基于所述差异损失确定所述隐式增广器的总损失，所述差异损失与所述总损失呈负相关；

基于所述总损失，更新隐式增广器的参数。

结合本申请任一实施方式，在所述隐式增广样本的数量超过1的情况下，所述基于所述差异损失确定所述隐式增广器的总损失，包括：

确定所述隐式增广样本的多样性促进损失；

基于所述差异损失和所述多样性促进损失，确定所述总损失，所述多样性促进损失与所述总损失呈正相关。

结合本申请任一实施方式，所述基于所述差异损失和所述多样性促进损失，确定所述总损失，包括：

确定所述原始动作与所述增广动作的分类损失；

基于所述差异损失、所述多样性促进损失和所述分类损失，确定所述总损失，所述分类损失与所述总损失呈正相关。

第二方面，提供了一种人机交互方法，所述人机交互方法应用于人机交互装置，所述人机交互装置包括摄像头，所述方法包括：

通过所述摄像头采集目标人物的动作，得到目标历史图像序列；

获取根据第一方面及其任一实施方式训练得到的目标模型；

利用所述目标模型，对所述目标历史图像序列进行处理，预测得到所述目标人物的目标未来动作；

响应于所述目标未来动作，执行目标操作。

第三方面，提供了一种基于域泛化的动作预测模型训练装置，所述装置包括：

获取单元，用于获取学生模型和教师模型，所述学生模型基于样本图像序列训练得到，所述教师模型具备基于图像序列预测未来动作的能力；

所述获取单元，用于获取隐式增广样本和显式增广样本，所述样本图像序列、所述隐式增广样本和所述显式增广样本均包括参考人物，所述参考人物在所述样本图像序列中的原始动作与所述参考人物在所述隐式增广样本中的增广动作属于同一类别，所述原始动作的模态与所述增广动作的模态不同，所述显式增广样本通过向所述样本图像序列添加噪声得到；

预测单元，用于利用所述学生模型，预测与所述隐式增广样本对应的未来动作和与所述显式增广样本对应的未来动作，得到伪标签；

所述预测单元，用于利用所述教师模型，预测与所述隐式增广样本对应的未来动作和与所述显式增广样本对应的未来动作，得到第一预测结果；

更新单元，用于基于所述伪标签对所述第一预测结果的监督，更新所述教师模型的参数，得到目标模型。

结合本申请任一实施方式，所述获取单元，用于：

获取所述样本图像序列；

结合本申请任一实施方式，所述获取单元，用于：

获取初始模型；

获取所述样本图像序列的真实标签；

结合本申请任一实施方式，所述预测单元，用于：

结合本申请任一实施方式，所述装置还包括：

确定单元，用于确定所述样本图像序列与所述隐式增广样本的差异损失；

所述确定单元，用于基于所述差异损失确定所述隐式增广器的总损失，所述差异损失与所述总损失呈负相关；

所述更新单元，用于基于所述总损失，更新隐式增广器的参数。

结合本申请任一实施方式，在所述隐式增广样本的数量超过1的情况下，所述确定单元，用于：

确定所述隐式增广样本的多样性促进损失；

结合本申请任一实施方式，所述确定单元，用于：

确定所述原始动作与所述增广动作的分类损失；

第四方面，提供了一种人机交互装置，所述人机交互装置包括：

摄像头，用于采集目标人物的动作，得到目标历史图像序列；

获取单元，用于获取根据第一方面及其任一实施方式训练得到的目标模型；

预测单元，用于利用所述目标模型，对所述目标历史图像序列进行处理，预测得到所述目标人物的目标未来动作；

执行单元，用于响应于所述目标未来动作，执行目标操作。

第五方面，提供了一种电子设备，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任一实施方式；在所述处理器执行所述计算机指令的情况下，所述电子设备或者执行如上述第二方面及其任一实施方式。

第六方面，提供了另一种电子设备，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；

在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任一实施方式；在所述处理器执行所述计算机指令的情况下，所述电子设备或者执行如上述第二方面及其任一实施方式。

第七方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令；

在所述程序指令被处理器执行的情况下，使所述处理器执行如上述第一方面及其任一实施方式；在所述程序指令被处理器执行的情况下，或者使所述处理器或者执行如上述第二方面及其任一实施方式。

第八方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或指令；在所述计算机程序或指令在计算机上运行的情况下，使得所述计算机执行上述第一方面及其任一实施方式；在所述程序指令被处理器执行的情况下，或者使所述处理器执行如上述第二方面及其任一实施方式。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

本申请中，学生模型基于样本图像序列训练得到，教师模型具备基于图像序列中的人物的基础特征，预测人物的未来动作的能力，其中，基础特征包括不同人物共有的特征。

样本图像序列、样本图像序列的隐式增广样本和样本图像序列的显式增广样本均包括参考人物，参考人物在样本图像序列中的原始动作与参考人物在隐式增广样本中的增广动作属于同一类别，而且原始动作的模态与增广动作的模态不同，显式增广样本通过向样本图像序列添加噪声得到。因此，隐式增广样本和显示增广样本为属于不同域的图像序列，而且显示增广样本为通过添加噪声获得的增强数据。

训练装置在获取学生模型、教师模型、隐式增广样本和显式增广样本后，利用学生模型，预测与隐式增广样本对应的未来动作和与显式增广样本对应的未来动作，得到伪标签，可使伪标签包括有利于实现域泛化的信息。利用教师模型，预测与隐式增广样本对应的未来动作和与显式增广样本对应的未来动作，得到第一预测结果。最后基于伪标签对第一预测结果的监督，更新教师模型的参数得到目标模型，可使教师模型学习到域泛化的能力。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种基于域泛化的动作预测模型训练方法的流程示意图；

图2为本申请实施例提供的一种域泛化训练的框架图；

图3为本申请实施例提供的一种人机交互方法的流程示意图；

图4为本申请实施例提供的一种基于域泛化的动作预测模型训练装置的结构示意图；

图5为本申请实施例提供的一种人机交互装置的结构示意图；

图6为本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

人体运动是一种多样化的数据，这种多样性主要体现在动作模态的多变性、人物属性的独特性。基于深度学习的动作预测模型所使用到的数据规模无论多大，总是无法涵盖测试阶段出现的新动作内容。并且，出于隐私性考虑，测试阶段的人物属性(身高、身材比例、行为习惯)等个性化参数往往在训练集中是不可见的。也就是说，对于动作预测模型的部署来说，不可避免地会遇到未出现在训练集中的新人物，并且这些新人物(及其人物属性)与训练集总是不相关的。这种训练集(源域)和测试数据(目标域)之间的分布不一致的问题，易导致难以针对测试阶段的新人物得到可靠的预测结果。因此，如何对动作预测模型进行域泛化具有非常重要的意义。基于此，本申请实施例提供了一种基于域泛化的动作预测模型训练方法，以通过对模型的训练，使模型具备域泛化的能力。

本申请实施例的执行主体为基于域泛化的动作预测模型训练装置(下文简称为训练装置)，其中，训练装置可以是任意一种可执行本申请方法实施例所公开的技术方案的电子设备。可选的，训练装置可以是以下中的一种：计算机、服务器。

应理解，本申请方法实施例还可以通过处理器执行计算机程序代码的方式实现。下面结合本申请实施例中的附图对本申请实施例进行描述。请参阅图1，图1是本申请实施例提供的一种基于域泛化的动作预测模型训练方法的流程示意图。

101、获取学生模型和教师模型。

本申请实施例中，学生模型和教师模型均可以是任意结构的深度学习模型。学生模型基于样本图像序列训练得到。上述教师模型具备基于图像序列预测未来动作的能力，其中，基于图像序列预测未来动作的能力指，基于图像序列中的人物的动作，预测该人物的未来动作。教师模型具备的预测未来动作的能力，为基于图像序列中的人物的基础特征预测人物的未来动作，其中，基础特征包括不同人物的共有特征。

在一种获取学生模型的实现方式中，训练装置接收用户通过输入组件输入的学生模型。可选的，输入组件包括：键盘、鼠标、触控屏、触控板、音频输入器。

在另一种获取学生模型的实现方式中，训练装置接收终端发送的学生模型。可选的，终端包括：手机、计算机、平板电脑、服务器。

在一种获取教师模型的实现方式中，训练装置接收用户通过输入组件输入的教师模型。

在另一种获取教师模型的实现方式中，训练装置接收终端发送的教师模型。

应理解，本申请实施例中，执行获取学生模型的步骤、执行获取教师模型的步骤可以同时执行，也可以分开执行，本申请对此不作限定。

102、获取样本图像序列的隐式增广样本和上述样本图像序列的显式增广样本。

本申请实施例中，隐式增广样本和显示增广样本均为图像序列。样本图像序列、隐式增广样本和显式增广样本均包括参考人物，其中，参考人物可以是任意人物。参考人物在样本图像序列中的动作为原始动作，参考人物在隐式增广样本中的动作为增广动作，原始动作与增广动作属于同一类别，但是原始动作的模态与增广动作的模态不同。例如，原始动作与增广动作均为跳跃，即原始动作的类别与增广动作的类别均为跳跃。若原始动作为垂直向上跳跃，增广动作为向前跳跃，那么原始动作的模态与增广动作的模态不同。显式增广样本通过向样本图像序列添加噪声得到。参考人物在显式增广样本中的动作与原始动作相同。

在一种可能实现的方式中，训练装置通过执行以下步骤获取样本图像序列的隐式增广样本：获取样本图像序列。获取隐式增广器(Implicit Augmenter)，其中，隐式增广器包括离散余弦变换(discrete cosine transform，DCT)、图神经网络(Graph NeuralNetworks，GNN)、反离散余弦变换(inverse discrete cosine transform，IDCT)。利用隐式增广器，对样本图像序列进行处理，生成隐式增广样本。

隐式增广器首先对样本图像序列进行DCT，然后利用GNN对DCT后的结果进行处理，最后再对GNN的处理结果进行IDCT得到隐式增广样本。

可选的，隐式增广器包括用于生成上半身动作的上半身增广器和用于生成下半身动作的下半身增广器。上半身增广器的结构与下半身增广器的结构相同。可选的，上半身增广器的结构与下半身增广器均包括：1个DCT、9个GNN、1个IDCT。通过上半身增广器对样本图像序列进行处理，可生成上半身增广样本。通过下半身增广器对样本图像序列进行处理，可生成下半身增广样本。最后对上半身增广样本和下半身增广样本进行拼接，可得到隐式增广样本。

可选的，通过隐式增广器生成的隐式增广样本的数量为8，不同的隐式增广样本的增广动作的模态不同。

在一种可能实现的方式中，训练装置通过执行以下步骤获取样本图像序列的显式增广样本：通过向样本图像序列添加高斯噪声得到显式增广样本。可选的，训练装置通过显式增广器向样本图像序列添加高斯噪声得到显式增广样本。假设样本图像序列为x～q，其中，q为x的分布，则通过显式增广器生成显式增广样本的过程可以表达为下式：

其中，为显式增广器输出的结果，/>表示高斯分布，σ²为高斯噪声的方差，I为与x同等维度的单位矩阵。应理解，K为通过显式增广器生成的显式增广样本的数量。在显式增广样本的数量大于1的情况下，用于生成不同的显式增广样本的方差不同。可选的，K＝8。σ²＝[10,15,20,25,30,35,40,45]，即高斯噪声的方差包括以下8个值：10、15、20、25、30、35、40、45。

103、利用上述学生模型，预测与上述隐式增广样本对应的未来动作和与上述显式增广样本对应的未来动作，得到伪标签。

样本图像序列、隐式增广样本和显式增广样本均包括参考人物，因此样本图像序列、隐式增广样本和显式增广样本之间不存在人物属性特征的差异。原始动作与增广动作属于同一类别，原始动作的模态与增广动作的模态不同，因此隐式增广样本相较于样本图像序列，存在动作的模态的差异。因此，隐式增广样本和显式增广样本，相较于样本图像序列，均为不同域的样本。于是在学生模型是基于样本图像序列训练得到的情况下，利用学生模型对隐式增广样本进行处理，可使学生模型学习到如何利用样本中除基础特征之外的特征进行预测，从而实现域泛化。具体的，学生模型可利用增广动作的模态，预测与隐式增广样本对应的未来动作。

因此，训练装置利用学生模型，对隐式增广样本和显示增广样本进行处理得到伪标签，可使伪标签不仅包括人物的基础特征，而且包括有利于实现域泛化的信息。

可选的，在隐式增广样本的数量大于1的情况下，学生模型分别对各个隐式增广样本进行处理，得到各个隐式增广样本的预测结果，其中，隐式增广样本的预测结果与隐式增广样本一一对应。计算所有隐式增广样本的预测结果的平均值，得到第一隐式预测结果。在显式增广样本的数量大于1的情况下，学生模型分别对各个显式增广样本进行处理，得到各个显式增广样本的预测结果，其中，显式增广样本的预测结果与显式增广样本一一对应。计算所有显式增广样本的预测结果的平均值，得到第一显式预测结果。例如，隐式增广样本的数量和显式增广样本的数量均为8。学生模型分别对各个隐式增广样本进行处理，得到8个隐式增广样本的预测结果。学生模型分别对各个显式增广样本进行处理，得到8个显式增广样本的预测结果。然后计算8个隐式增广样本的预测结果的平均值得到第一隐式预测结果，计算8个显式增广样本的预测结果的平均值得到第一显式预测结果。

104、利用上述教师模型，预测与上述隐式增广样本对应的未来动作和与上述显式增广样本对应的未来动作，得到第一预测结果。

训练装置利用教师模型，对隐式增广样本进行处理，可基于隐式增广样本预测参考人物的未来动作，得到第二隐式预测结果。利用教师模型，对显式增广样本进行处理，可基于显式增广样本预测参考人物的未来动作，得到第二显式预测结果。第一预测结果包括第二隐式预测结果和第二显式预测结果。

可选的，在隐式增广样本的数量大于1的情况下，教师模型分别对各个隐式增广样本进行处理，得到各个隐式增广样本的预测结果，其中，隐式增广样本的预测结果与隐式增广样本一一对应。计算所有隐式增广样本的预测结果的平均值，得到第二隐式预测结果。在显式增广样本的数量大于1的情况下，教师模型分别对各个显式增广样本进行处理，得到各个显式增广样本的预测结果，其中，显式增广样本的预测结果与显式增广样本一一对应。计算所有显式增广样本的预测结果的平均值，得到第二显式预测结果。例如，隐式增广样本的数量和显式增广样本的数量均为8。教师模型分别对各个隐式增广样本进行处理，得到8个隐式增广样本的预测结果。教师模型分别对各个显式增广样本进行处理，得到8个显式增广样本的预测结果。然后计算8个隐式增广样本的预测结果的平均值得到第二隐式预测结果，计算8个显式增广样本的预测结果的平均值得到第二显式预测结果。

105、基于上述伪标签对上述第一预测结果的监督，更新上述教师模型的参数，得到目标模型。

训练装置基于伪标签对第一预测结果的监督，更新教师模型的参数，可使教师模型的预测结果与学生模型的预测结果接近。由于伪标签包括有利于实现域泛化的信息，训练装置基于伪标签对教师模型输出的第一预测结果进行监督得到目标模型，可使教师模型学习到域泛化的能力，也就是使目标模型具备域泛化的能力。这样可提高目标模型对新人物的动作的预测准确度，其中，新人物为目标模型所处理过的图像序列中未出现过的人物。

在一种可能实现的方式中，训练装置基于伪标签对第一预测结果的差异，确定教师模型的损失，其中，差异与教师模型的损失呈负相关。基于教师模型的损失确定教师模型的反向传播的梯度，基于该梯度更新教师模型的参数，直至教师模型的损失收敛，得的目标模型。

本申请实施中，学生模型基于样本图像序列训练得到，教师模型具备基于图像序列中的人物的基础特征，预测人物的未来动作的能力，其中，基础特征包括不同人物共有的特征。

作为一种可选的实施方式，训练装置通过执行以下步骤获取学生模型：

2001、获取初始模型。

本申请实施例中，初始模型可以是任意深度学习模型。

在一种获取初始模型的实现方式中，训练装置接收用户通过输入组件输入的初始模型。

在另一种获取初始模型的实现方式中，训练装置接收终端发送的初始模型。

2002、利用上述初始模型预测与上述样本图像序列对应的未来动作，得到第二预测结果。

训练装置利用初始模型，对样本图像序列进行处理，可基于样本图像序列预测参考人物的未来动作，得到第二预测结果。

2003、获取上述样本图像序列的真实标签。

本申请实施例中，真实标签为真值(ground truth，GT)，基于真实标签可确定与样本图像序列对应的真实未来动作。可选的，真实标签为样本图像序列的标注数据，训练装置通过获取样本图像蓄力的标注数据获取真实标签。

2004、基于上述真实标签对上述第一预测结果的监督，更新上述初始模型的参数得到上述学生模型。

训练装置基于真实标签对第一预测结果的监督，更新初始模型的参数，可提高初始模型对参考人物的未来动作的预测准确度。

在该种实施方式中，训练装置在获取初始模型后，利用初始模型预测与样本图像序列对应的未来动作，得到第一预测结果。再在获取样本图像序列的真实标签后，基于真实标签对第一预测结果的监督，更新初始模型的参数，可得到学生模型。

作为一种可选的实施方式，训练装置还执行以下步骤：

3001、确定上述样本图像序列与上述隐式增广样本的差异损失。

本申请实施例中，差异损失可用于衡量样本图像序列与隐式增广样本的差异。在一种可能实现的方式中，训练装置基于不一致性损失(discrepancy loss)，计算得到样本图像序列与隐式增广样本的差异损失：

其中，为隐式增广器，/>为不一致性损失，/>为隐式增广器生成的隐式增广样本，x为样本图像序列，/>为/>中的一个。可选的，H＝8，即隐式增广器共生成了8个隐式增广样本。‖.‖₂为L2范数。

3002、基于上述差异损失确定上述隐式增广器的总损失。

本申请实施例中，差异损失与总损失呈负相关。在一种可能实现的方式中，训练装置将差异损失作为隐式增广器的总损失。

3003、基于上述总损失，更新隐式增广器的参数。

具体的，训练装置基于总损失，确定隐式增广器的反向传播的梯度，然后基于反向传播的梯度更新隐式增广器的参数。

在该种实施方式中，训练装置确定样本图像序列与隐式增广样本的差异损失。然后基于差异损失确定隐式增广器的总损失，并基于总损失，更新隐式增广器的参数，可使隐式增广器生成的隐式增广样本与样本图像序列的差异更大，具体的，使隐式增广器生成的隐式增广样本中的增广动作的模态与样本图像序列中的原始动作的模态的差异更大。由此扩大隐式增广样本与样本图像序列的差异性。

作为一种可选的实施方式，在隐式增广样本的数量超过1的情况下，训练装置在执行步骤3002的过程中执行以下步骤：

4001、确定上述隐式增广样本的多样性促进损失。

本申请实施例中，多样性促进损失(diversity-promoting loss)可表征通过隐式增广器生成的不同隐式增广样本之间的差异性。在一种可能实现的方式中，训练装置通过下式确定隐式增广样本的多样性促进损失：

其中，为多样性促进损失，H为隐式增广器生成的隐式增广样本的数量，exp(·)是以自然常数e为底的指数函数，/>为H个隐式增广样本中的第j个样本，/>为H个隐式增广样本中的第h个样本。δ为参数，可选的，δ＝100。‖.‖₁为L1范数。

4002、基于上述差异损失和上述多样性促进损失，确定上述总损失。

本申请实施例中，多样性促进损失与总损失呈正相关。在一种可能实现的方式中，训练装置通过对差异损失和多样性促进损失进行加权求和，确定总损失，其中，差异损失与总损失呈负相关，多样性促进损失与总损失呈正相关。

在该种实施方式中，训练装置确定隐式增广样本的多样性促进损失。然后在差异损失与总损失呈负相关，且多样性促进损失与总损失呈正相关的情况下，基于差异损失和多样性促进损失，确定总损失。这样，基于总损失更新隐式增广器的参数，不仅可扩大隐式增广样本与样本图像序列的差异性，还可增大隐式增广器生成的不同隐式增广样本的差异，从而丰富隐式增广样本的多样性。

作为一种可选的实施方式，训练装置在执行步骤4002的过程中执行以下步骤：

5001、确定上述原始动作与上述增广动作的分类损失。

本申请实施例中，分类损失可表征增广动作的类别与原始动作的类别的差异。在一种可能实现的方式中，训练装置通过下式确定原始动作与增广动作的分类损失：

其中，为分类损失，C为原始动作的类别的数量，H为隐式增广器生成的隐式增广样本的数量，p是原始动作的类别标签，/>为H个隐式增广样本中的第h个样本中的增广动作的类别标签，log是对数函数。

5002、基于上述差异损失、上述多样性促进损失和上述分类损失，确定上述总损失。

上述分类损失与上述总损失呈正相关。

本申请实施例中，分类损失与总损失呈正相关。在一种可能实现的方式中，训练装置通过对差异损失、多样性促进损失和分类损失进行加权求和，确定总损失，其中，差异损失与总损失呈负相关，多样性促进损失与总损失呈正相关，分类失与总损失呈正相关。此时，训练装置基于总损失更新隐式增广器的参数可通过下式表示：

其中，λ_dis、λ_div、λ_cls均为权重，可选的，λ_dis＝0.5，λ_div＝0.3，λ_cls＝0.2。φ表示隐式增广器，Φ表示隐式增广器的参数。

在公式(5)中，λ_dis 的优化方向是最大化，λ_div/>λ_cls/>两者的优化方向均为最小化。因此，若基于差异损失、多样性促进损失和分类损失，确定总损失，那么差异损失与总损失呈负相关，多样性促进损失与总损失呈正相关，分类失与总损失呈正相关。

在该种实施方式中，训练装置确定原始动作与增广动作的分类损失。然后在差异损失与总损失呈负相关，且多样性促进损失与总损失，且分类损失与总损失呈正相关的情况下，基于差异损失、多样性促进损失和分类损失，确定总损失。这样，基于总损失更新隐式增广器的参数，不仅可扩大隐式增广样本与样本图像序列的差异性，而且可增大隐式增广器生成的不同隐式增广样本的差异，丰富隐式增广样本的多样性，而且还可提高原始动作的类别与增广动作的类别的匹配度。

请参阅图2，图2为本申请实施例提供的一种域泛化训练的框架图。如图2所示，样本图像序列经过显式增广器的处理，向样本图像序列中添加噪声，生成K个显式增广样本(即为图2中的/>)，其中，/>表示/>和/>均服从均值为0、标准差为1的正态分布。/>为隐式增广器的上半身增广器向样本图像序列添加的噪声，该噪声用于生成上半身增广样本。/>为隐式增广器的下半身增广器向样本图像序列添加的噪声，该噪声用于生成下半身增广样本。/>表示正态分布。样本图像序列经过隐式增广器的处理，生成H个隐式增广样本(即为图2中的/>)。基于K个显式增广样本、H个隐式增广样本和样本图像序列，可确定差异损失、多样性促进损失和分类损失，然后在步骤①中，基于差异损失、多样性促进损失和分类损失，更新隐式增广器。可选的，在步骤①中基于差异损失、多样性促进损失和分类损失更新隐式增广器可表达为下式：

其中，α为学习率，可选的，α＝0.001。

如图2所示，教师模型和学生模型均为现有模型，即教师模型和学生模型可以是任意模型。利用样本图像序列和样本图像序列的真实标签，对学生模型进行训练，可得到预测损失，然后在步骤②中基于预测损失更新学生模型。可选的，在步骤②中基于预测损失更新学生模型表达为下式：

其中，θ表示学生模型的参数。β为学习率，可选的，β＝0.001。为L2范数，为预测损失，/>为学生模型基于样本图像序列得到的预测结果，y为真实标签。_θ表示计算学生模型的反向传播梯度。

此外，还可利用学生模型生成伪标签，利用教师模型对K个显式增广样本和H个隐式增广样本进行处理，得到各个增广样本的预测结果，然后计算所有预测结果的平均值得到第一预测结果，并基于伪标签对第一预测结果的监督得到预测损失，在步骤②中基于预测损失更新教师模型。可选的，在步骤②中基于预测损失更新学生模型表达为下式：

其中，φ表示教师模型的参数。β为学习率，可选的，β＝0.001。为L2范数，为预测损失，/>为第一预测结果，/>为伪标签。ψ表示计算教师模型的反向传播梯度。

步骤②中的学习率为β，可选的，β＝0.001。

可选的，下表1给出了一种基于域泛化的动作预测模型训练方法的流程：

表1

基于前文所提供的基于域泛化的动作预测模型训练方法，训练得到的目标模型，可用于对人体动作进行预测。具体的，在获取目标人物的历史图像序列后，利用目标模型对历史图像序列进行处理，可预测得到目标人物的未来动作序列，进而可在实际应用场景中，基于目标人物的未来动作序列，进行相应的处理。

在一个可能实现的场景中，可将基于目标模型实现的人体动作的预测应用于人机交互(human-robot interaction，HRI)，HRI是指用户与人机交互装置进行交互，其中，人机交互装置可以是任意电子设备。在HRI应用场景中，人机交互装置需要通过识别用户的动作，来理解用户所表达的意图，进而可依据用户所表达的意图执行与用户的动作相应的操作。因此人机交互装置对用户的动作的响应快慢，也将影响用户对人机交互的体验差。基于此，本申请实施例还提供了一种人机交互方法，以提高人机交互装置对用户的动作的响应速度，进而提升用户对人机交互的体验。

人机交互方法的实施例所公开的技术方案的执行主体为人机交互装置。人机交互装置可以是任意一种可执行人机交互方法的实施例所公开的技术方案的电子设备。人机交互装置包括摄像头。可选的，人机交互装置可以是以下中的一种：用于提供服务的机器人。

应理解，人机交互方法的实施例还可以通过处理器执行计算机程序代码的方式实现。下面结合本申请实施例中的附图对本申请实施例进行描述。请参阅图3，图3是本申请实施例提供的一种人机交互方法的流程示意图。

301、通过上述摄像头采集目标人物的动作，得到目标历史图像序列。

本申请实施例中，目标人物为与人机交互装置进行交互的用户。历史图像序列为目标人物在与人机交互装置进行交互的过程中，通过摄像头对目标人物的动作进行采集得到的图像序列。

302、获取通过基于域泛化的动作预测模型训练方法训练得到的目标模型。

303、利用上述目标模型，对上述目标历史图像序列进行处理，预测得到上述目标人物的目标未来动作。

304、响应于上述目标未来动作，执行目标操作。

本申请实施例中，目标操作为人机交互装置在基于目标人物的目标未来动作确定用户所表达的意图后，依据用户所表达的意图所确定的操作。例如，人机交互装置在基于目标未来动作，确定用户所表达的意图为将要打电话，那么目标操作可以是将人机交互装置的扬声器的音量调低。又例如，人机交互装置在基于目标未来动作，确定用户所表达的意图为将要开门离开，那么目标操作可以是输出请慢走的语音。

本申请实施例中，人机交互装置通过摄像头采集目标人物的目标历史图像序列。然后在获取目标模型后，利用目标模型，对目标历史图像序列进行处理，预测得到目标人物的目标未来动作。这样，人机交互装置可基于目标未来动作，确定用户所表达的意图，进而根据用户所表达的意图确定目标操作，并通过执行目标操作与目标人物进行交互。由于人机交互装置是基于预测的目标未来动作来执行目标操作，因此可做到针对目标人物的动作进行提前响应，进而可提高对用户的动作的响应速度，从而提升用户对人机交互的体验。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参阅图4，图4为本申请实施例提供的一种基于域泛化的动作预测模型训练装置的结构示意图，该基于域泛化的动作预测模型训练装置1包括：获取单元11、预测单元12、更新单元13，可选的，基于域泛化的动作预测模型训练装置1还包括确定单元14，具体的：

获取单元11，用于获取学生模型和教师模型，所述学生模型基于样本图像序列训练得到，所述教师模型具备基于图像序列预测未来动作的能力；

所述获取单元11，用于获取隐式增广样本和显式增广样本，所述样本图像序列、所述隐式增广样本和所述显式增广样本均包括参考人物，所述参考人物在所述样本图像序列中的原始动作与所述参考人物在所述隐式增广样本中的增广动作属于同一类别，所述原始动作的模态与所述增广动作的模态不同，所述显式增广样本通过向所述样本图像序列添加噪声得到；

预测单元12，用于利用所述学生模型，预测与所述隐式增广样本对应的未来动作和与所述显式增广样本对应的未来动作，得到伪标签；

所述预测单元12，用于利用所述教师模型，预测与所述隐式增广样本对应的未来动作和与所述显式增广样本对应的未来动作，得到第一预测结果；

更新单元13，用于基于所述伪标签对所述第一预测结果的监督，更新所述教师模型的参数，得到目标模型。

结合本申请任一实施方式，所述获取单元11，用于：

获取所述样本图像序列；

结合本申请任一实施方式，所述获取单元11，用于：

获取初始模型；

获取所述样本图像序列的真实标签；

结合本申请任一实施方式，所述预测单元12，用于：

结合本申请任一实施方式，所述装置1还包括：

确定单元14，用于确定所述样本图像序列与所述隐式增广样本的差异损失；

所述确定单元14，用于基于所述差异损失确定所述隐式增广器的总损失，所述差异损失与所述总损失呈负相关；

所述更新单元13，用于基于所述总损失，更新隐式增广器的参数。

结合本申请任一实施方式，在所述隐式增广样本的数量超过1的情况下，所述确定单元14，用于：

确定所述隐式增广样本的多样性促进损失；

结合本申请任一实施方式，所述确定单元14，用于：

确定所述原始动作与所述增广动作的分类损失；

请参阅图5，图5为本申请实施例提供的一种人机交互装置的结构示意图，该人机交互装置2包括：摄像头21、获取单元22、预测单元23、执行单元24，具体的：

摄像头21，用于采集目标人物的动作，得到目标历史图像序列；

获取单元22，用于获取根据基于域泛化的动作预测模型训练方法训练得到的目标模型；

预测单元23，用于利用所述目标模型，对所述目标历史图像序列进行处理，预测得到所述目标人物的目标未来动作；

执行单元24，用于响应于所述目标未来动作，执行目标操作。

在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

图6为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备3包括处理器31，存储器32。可选的，该电子设备3还包括输入装置33，输出装置34。该处理器31、存储器32、输入装置33和输出装置34通过连接器相耦合，该连接器包括各类接口、传输线或总线等等，本申请实施例对此不作限定。应当理解，本申请的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。

处理器31可以包括是一个或多个处理器，例如包括一个或多个中央处理器(central processing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。可选的，处理器31可以是多个CPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。可选的，该处理器还可以为其他类型的处理器等等，本申请实施例不作限定。

存储器32可用于存储计算机程序指令，以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地，存储器包括但不限于是随机存储记忆体(random accessmemory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置33用于输入数据和/或信号，以及输出装置34用于输出数据和/或信号。输入装置33和输出装置34可以是独立的器件，也可以是一个整体的器件。

可理解，本申请实施例中，存储器32不仅可用于存储相关指令，还可用于存储相关数据，本申请实施例对于该存储器中具体所存储的数据不作限定。

可以理解的是，图6仅仅示出了一种电子设备的简化设计。在实际应用中，电子设备还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、存储器等，而所有可以实现本申请实施例的电子设备都在本申请的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本申请各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显式或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显式的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digitalversatiledisc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器(read-only memory，ROM)或随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种基于域泛化的动作预测模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取隐式增广样本，包括：

获取所述样本图像序列；

3.根据权利要求2所述的方法，其特征在于，获取显式增广样本，包括：

4.根据权利要求2或3所述的方法，其特征在于，获取学生模型，包括：

获取初始模型；

获取所述样本图像序列的真实标签；

5.根据权利要求1所述的方法，其特征在于，所述利用所述学生模型，预测与所述隐式增广样本对应的未来动作和与所述显式增广样本对应的未来动作，得到伪标签，包括：

6.根据权利要求5所述的方法，其特征在于，所述利用所述教师模型，预测与所述隐式增广样本对应的未来动作和与所述显式增广样本对应的未来动作，得到第一预测结果，包括：

7.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

确定所述样本图像序列与所述隐式增广样本的差异损失；

基于所述总损失，更新隐式增广器的参数。

8.根据权利要求7所述的方法，其特征在于，在所述隐式增广样本的数量超过1的情况下，所述基于所述差异损失确定所述隐式增广器的总损失，包括：

确定所述隐式增广样本的多样性促进损失；

9.根据权利要求8所述的方法，其特征在于，所述基于所述差异损失和所述多样性促进损失，确定所述总损失，包括：

确定所述原始动作与所述增广动作的分类损失；

10.一种人机交互方法，其特征在于，所述人机交互方法应用于人机交互装置，所述人机交互装置包括摄像头，所述方法包括：

获取根据权利要求1至9中任意一项所述的方法训练得到的目标模型；

响应于所述目标未来动作，执行目标操作。

11.一种基于域泛化的动作预测模型训练装置，其特征在于，所述装置包括：

12.一种人机交互装置，其特征在于，所述人机交互装置包括：

获取单元，用于获取根据权利要求1至9中任意一项所述的方法训练得到的目标模型；

执行单元，用于响应于所述目标未来动作，执行目标操作。

13.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；

在所述处理器执行所述计算机指令的情况下，所述电子设备执行如权利要求1至9中任意一项所述的方法；

在所述处理器执行所述计算机指令的情况下，所述电子设备或者执行如权利要求10所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令；

在所述程序指令被处理器执行的情况下，使所述处理器执行权利要求1至9中任意一项所述的方法；

在所述程序指令被处理器执行的情况下，或者使所述处理器执行权利要求10所述的方法。