CN115861902B

CN115861902B - 无监督的动作迁移和发现方法、***、设备和介质

Info

Publication number: CN115861902B
Application number: CN202310063448.7A
Authority: CN
Inventors: 张恺成; 陈泽林; 郑伟诗
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2023-02-06
Filing date: 2023-02-06
Publication date: 2023-06-09
Anticipated expiration: 2043-02-06
Also published as: CN115861902A

Abstract

本发明公开了一种无监督的动作迁移和发现方法、***、设备和介质，方法包括：获取无标签的目标数据集；构建分解动作流的卷积网络模型，对所有视频都做切片处理，用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签，并以这些伪标签学习视频切片表达的分解动作；构建完整动作流的卷积网络模型，用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签，并以这些伪标签学习完整视频表达的完整动作；分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习，使得模型能发现新的动作类型并学习到更精确的分解动作信息。本发明可以在无监督条件下完成动作识别任务，并利用迁移学习方法提高动作识别准确率和整体算法效率。

Description

无监督的动作迁移和发现方法、***、设备和介质

技术领域

本发明属于动作识别的技术领域，具体涉及一种无监督的动作迁移和发现方法、***、设备和介质。

背景技术

无监督动作迁移旨在将已预训练好的网络应用在无监督的目标数据集中，完成动作识别这项任务，现有的技术包括有两个方面：

（1）无监督动作识别。完全监督动作识别已经发展了很多年，对目前来说最具代表性意义的工作为双流网络，该双流网络包含帧卷积网络和光流卷积网络，给动作识别赋予了时序运动信息。现有技术中还探索并研究出了高效的3D卷积网络，实现了对空间位置和动作信息关系的建模。无监督动作识别则主要提出了一些自监督标注的方法，通过精心设计的无监督代理任务对模型预训练，再用目标数据集已有的标签对模型进行精细化训练。

（2）无监督迁移学习。在迁移学习中，训练数据来自两个不同的域，即源域和目标域。迁移学习的主要任务是利用源数据集训练来提高目标数据集的模型性能。较为流行的迁移学习方法是无监督领域自适应UDA（unsupervised domain adaptation）。UDA 应用于有标注的源数据集和无标注的目标数据集，且源任务与目标任务一致（如动作类型一致）。大部分UDA工作专注于最小化领域差异。

在大型数据集下进行预训练得到的网络模型迁移到小数据集上，并只针对目标数据集做精细化完全监督训练，可以显著提高目标数据集上的动作识别性能（与随机初始化训练相比）。然而，在实际生活应用中，很难轻易得到用以精细化有监督训练的手动标签。无监督动作识别目前主要的工作都是自监督训练的方法，仍然需要利用有标注的数据进行全监督的精细化调整，无法将预训练模型直接迁移到无标注的目标数据集上使用。在迁移学习部分，传统UDA方法并不完全适用与无监督迁移学习，因为目标任务常常出现与源任务不一致。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种无监督的动作迁移和发现方法、***、设备和介质，在无监督条件下完成动作识别任务，并利用迁移学习方法提高动作识别准确率和整体算法效率。

为了达到上述目的，本发明采用以下技术方案：

第一方面，本发明提供了一种无监督的动作迁移和发现方法，包括下述步骤：

获取无标签的目标数据集，对所述目标数据集为采集到的视频；

构建分解动作与完整动作双向学习MUSIC模型，所述MUSIC模型包括分解动作流的卷积网络模型和完整动作流的卷积网络模型；所述分解动作流的卷积网络模型是对所有视频都做切片处理，用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签，并以这些伪标签学习视频切片表达的分解动作；所述完整动作流的卷积网络模型是用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签，并以这些伪标签学习完整视频表达的完整动作；

分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习，得到训练好的MUSIC模型；在相互学习过程中，给分解动作流和完整动作流之间添加完整性约束，使得完整动作的表达是由已被学习到的分解动作构造而成，并采用相似完整动作区分策略对相似性完整动作进行区分，所述相似完整动作区分策略是如果分解动作不同，则其所属的完整动作被划分到不同的类别中，最后引入分解动作对齐策略，使得分解动作流的卷积网络模型和完整动作流的卷积网络模型都学习共享的分解动作；

利用学习好的MUSIC模型在无监督条件下完成动作识别任务。

作为优选的技术方案，所述分解动作流的卷积网络模型的动作学习包括分解动作流的聚类步骤和分解动作流的学习步骤；

在分解动作流的聚类步骤中，提取全部视频切片的特征，并将全部视频切片的特征用聚类算法聚类成多个分解动作，得到分解动作特征集合A，所述分解动作特征集合A的提取方法如下所示：

，

，

其中，N表示视频总数，

是并集操作，/>

表示第/>

个视频的第/>

个切片所提取到的分解动作特征，/>

是第i个视频的第b帧到第b+l-1帧所构成的视频切片，/>

表示分解动作流的卷积网络模型，/>

表示分解动作流的卷积网络的参数，/>

表示切片长度，

是视频切片起始帧构成的集合，/>

表示每隔/>

帧对视频进行切片采样，/>

表示第/>

个视频的总帧数，则/>

表示一个视频的总切片数量；

用聚类算法对分解动作特征集合A做聚类，得到所有切片分解动作的伪标签集合

和聚类中心集合/>

，其中/>

表示第/>

个视频的第b个切片的伪标签，/>

表示第/>

个视频,/>

，N表示视频总数，/>

表示第b个切片，/>

表示表示一个视频的总切片数量，T_i表示第/>

个视频的总帧数，δ表示第δ帧，/>

表示第/>

个聚类的聚类中心特征，/>

表示分解动作聚类簇的下标序号，/>

表示分解动作聚类簇的总数。

作为优选的技术方案，在分解动作流的学习步骤中，对所有视频都进行随机切片特征采样并计算每个切片特征的分类概率，计算公式如下：

，

其中，

是第/>

个视频第/>

个切片的动作预测概率向量，/>

表示/>

的第/>

列，即预测概率向量中对第/>

个聚类簇的预测概率，/>

表示深度学习网络训练得到的softmax参数，/>

每次迭代会重置；/>

是实数域[/>

]的矩阵；/>

表示分解动作第/>

个视频第/>

个切片的特征向量；

令

表示所有切片的预测向量的集合，伪标签/>

给第/>

个切片提供了自监督信息，训练/>

得到损失函数如下：

，

其中，

是指示函数。

作为优选的技术方案，所述完整动作流的卷积网络模型的动作学习包括完整动作流的聚类步骤和完整动作流的学习步骤；

在完整动作流的聚类步骤中，完整动作的特征提取如下：

，

，

其中，

表示第i个视频的完整特征，/>

是任何类型的聚合函数，/>

表示第i个视频第m个片段提取到的部分特征，/>

表示第m个视频片段的起始帧，/>

表示视频片段综述，

是第i个视频的第/>

帧到第/>

帧构成的视频片段，l表示视频片段长度，

示完整动作流的卷积网络，/>

是完整动作流卷积网络的参数，并令V表示所有视频的完整动作特征集合；

用聚类算法对完整动作特征集合V做聚类，得到所有视频完整动作的伪标签集合

，其中/>

表示第/>

个视频的伪标签，/>

表示第/>

个视频,/>

，N表示视频总数。

作为优选的技术方案，所述完整性约束

的实现如下：

，

，

其中，

表示完整特征对各个聚类簇的预测概率向量，/>

表示训练后得到的softmax参数且每次迭代重置。

作为优选的技术方案，所述相似完整动作区分策略具体为：

通过最具代表性的分解动作来区分完整动作，所述代表性的分解动作

由视频各个片段的分解动作预测概率取均值最大值而得，具体如下：

，

其中，

是对最大值取下标的函数，/>

表示/>

对分解动作/>

的预测概率，/>

表示当前视频/>

的片段总数；

根据所述代表性的分解动作来给完整动作分类，即包含不同代表性分解动作的完整动作，应该被识别为不同的动作类型并聚类到不同的簇中，具体来说，完整动作聚类集合如下：

，

其中，

表示符合完整动作聚类集合公式条件下的一个子集，/>

，

，/>

表示完整动作的聚类数量，/>

；

然后得到了一个新的完整动作聚类标签

，/>

表示第/>

个视频的完整动作在/>

中的聚类标签，最后，利用/>

对/>

进行训练，得损失函数如下：

，

其中，

表示在应用相似完整动作区分策略后的聚类标签总数，/>

表示视频

的完整动作特征被预测为动作/>

的概率。

作为优选的技术方案，所述分解动作对齐策略具体为：

强制分解动作流和完整动作流学习共享的分解动作，通过最小化损失函数

来对齐完整动作流中的分解动作/>

和分解动作流中的/>

，具体损失函数如下：

，

其中，

是任何表示两个分布之间距离的函数，/>

表示分解动作/>

在完整动作流的分布，/>

表示分解动作/>

在分解动作流中的分布，考虑到计算的有效性和简便性，采用简化2-Wasserstein距离计算分布的损失函数/>

：

，

其中，

表示期望，/>

表示方差；

最终，MUSIC模型的学习步骤损失函数表达为：

，

其中，

、/>

是分解动作流和完整动作流伪标签指导的分类损失函数，/>

是完整性约束损失函数，/>

是分解动作对齐损失函数，/>

和/>

是平衡各个损失的权重。

第二方面，本发明提供了一种无监督的动作迁移和发现***，应用于所述的无监督的动作迁移和发现方法，包括数据获取模块、模型构建模块、相互学习模块以及动作识别模块；

所述数据获取模块，用于获取无标签的目标数据集，对所述目标数据集为采集到的视频；

所述模型构建模块，用于构建分解动作与完整动作双向学习MUSIC模型，所述MUSIC模型包括分解动作流的卷积网络模型和完整动作流的卷积网络模型；所述分解动作流的卷积网络模型是对所有视频都做切片处理，用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签，并以这些伪标签学习视频切片表达的分解动作；所述完整动作流的卷积网络模型是用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签，并以这些伪标签学习完整视频表达的完整动作；

所述相互学习模块，用于分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习，在相互学习过程中，给分解动作流和完整动作流之间添加完整性约束，使得完整动作的表达是由已被学习到的分解动作构造而成，并采用相似完整动作区分策略对相似性完整动作进行区分，所述相似完整动作区分策略是如果分解动作不同，则其所属的完整动作被划分到不同的类别中，最后引入分解动作对齐策略，使得分解动作流的卷积网络模型和完整动作流的卷积网络模型都学习共享的分解动作；

所述动作识别模块，用于利用学习好的MUSIC模型在无监督条件下完成动作识别任务。

第三方面，本发明提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的无监督的动作迁移和发现方法。

第四方面，本发明提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的无监督的动作迁移和发现方法。

本发明与现有技术相比，具有如下优点和有益效果：

本发明通过构建分解动作流的卷积网络模型，对所有视频都做切片处理，用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签，并以这些伪标签学习视频切片表达的分解动作；构建完整动作流的卷积网络模型，用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签，并以这些伪标签学习完整视频表达的完整动作；分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习，使得模型能发现新的动作类型并学习到更精确的分解动作信息。因此本发明能够识别目标数据集中全新的动作类型，运用双向相互学习来同时训练两个流，以达到对分解动作和完整动作组合关系建模的目的。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例完整动作为跳远时的分解动作示意图；

图2为本发明实施例完整动作为调高时的分解动作示意图；

图3为本发明实施例无监督的动作迁移和发现方法的流程图；

图4为本发明实施例无监督的动作迁移和发现***的方框图；

图5为本发明实施例电子设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

本实施例无监督的动作迁移和发现方法是基于提出的MUSIC模型（mutuallylearnthe subactions and the complete actions）实现的。可以理解的是，一个完整动作的完成是由很多小的分解动作完成的，越是复杂的动作，就包含越多的分解动作，请参阅图1，当完整动作为跳远时，分解动作可分为跑步和跳远；请参阅图2，当完整动作为跳高时，分解动作可分为跑步和向上跳。为了能够学习到全新的动作类型，理解更高层的动作语义，MUSIC算法框架主要思想就是利用分解动作和完整动作之间的关系来提供自我监督。概括来说，MUSIC算法由两部分动作学习流组成，即分解动作流和完整动作流，并让这两部分双向相互学习。在分解动作流中，对所有视频都做切片处理，用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签，并以这些伪标签学习视频切片表达的分解动作。在完整动作流中，用聚类算法计算出所有视频的聚类中心作为视频动作的伪标签，并以这些伪标签学习完整视频表达的完整动作。为了实现分解动作流和完整动作流的双向学习，MUSIC模型还完成了以下的工作：

(1)引入完整性约束来对分解动作流和完整动作流之间的组合关系建模。

(2)采用了相似完整动作区分策略，即如果分解动作不同，则其所属的完整动作被划分到不同的类别中。

(3)引入了分解动作对齐策略，要求分解动作流和完整动作流都学习共享的分解动作。

请参阅图3，本实施例一种无监督的动作迁移和发现方法，具体包括下述步骤：

S1、获取无标签的目标数据集；

本实施例中，所述目标数据集为采集到的视频，例如跑步的动作视频或跳高的动作视频。

S2、构建分解动作与完整动作双向学习MUSIC模型，所述MUSIC模型包括分解动作流的卷积网络模型和完整动作流的卷积网络模型；所述分解动作流的卷积网络模型是对所有视频都做切片处理，用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签，并以这些伪标签学习视频切片表达的分解动作；所述完整动作流的卷积网络模型是用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签，并以这些伪标签学习完整视频表达的完整动作。

S21、分解动作流，分解动作流的动作学习由聚类步骤和学习步骤迭代进行而实现；

首先，在聚类步骤中，本实施例提取了全部视频切片的特征，并将这些特征用聚类算法聚类成许多细分动作类型，分解动作特征集合A的提取方法如下所示：

，

，

其中，N表示视频总数，

表示第/>

个视频的第/>

个切片所提取到的分解动作特征，/>

表示分解动作流的卷积网络模型，/>

表示分解动作卷积网络的参数，/>

表示切片长度，/>

表示每隔/>

帧对视频进行切片采样，/>

表示第/>

个视频的总帧数，则

表示一个视频的总切片数量。

随后，用聚类算法（如k-means）对集合A做聚类，并得到所有切片分解动作的伪标签集合P=

（/>

）和聚类中心集合H=/>

（/>

表示分解动作聚类簇的总数）；令P表示所有切片的伪标签集合，H表示分解动作的类型字典。

其次，在学习步骤中，本实施例对所有视频都进行了随机切片特征采样并根据下式得到每个特征的分类概率：

，

其中，

是第/>

个视频的动作预测概率向量，/>

每次迭代会重置。

令

表示所有切片的预测向量的集合，伪标签/>

给第/>

个切片提供了自监督信息，训练/>

可以得到损失函数如下：

，

其中，

是指示函数。

S22、完整动作流；

在完整动作流中，动作学习的步骤同样分为聚类步骤和学习步骤，与分解动作流不同的是，完整动作是由完整视频表示的而不是视频切片。具体来说，一个完整动作可以从一个视频中的M个均匀划分视频片段聚合表达而成。

在聚类步骤中，完整动作的特征提取如下：

，

，

其中，

可以是任何聚合函数（如均值函数、最值函数，LSTM），/>

表示第m个视频片段的起始帧，/>

表示完整动作流的卷积网络，并令V表示所有视频的完整动作特征集合。

S3、双向相互学习；

本实施例中，是将完整动作流和分解动作流这两个流协同训练，是为了利用动作之间的关系来提供语义级的伪监督，并对分解动作和完整动作之间的组合关系建模。通过双向相互学习，期望该MUSIC算法模型能发现新的动作类型并学习到更精确的分解动作信息，以便动作迁移能更好适应目标域。

S31、完整性约束；

考虑到完整动作的表达是包含了分解动作的表达的，因此本实施例给分解动作流和完整动作流之间添加完整性约束，使得完整动作的表达是由已被学习到的分解动作构造而成的，完整性约束

的实现如下：

，

，

其中，

且每次迭代重置。

S32、相似完整动作区分策略；

由于完整动作流倾向于把相似的完整动作合并为同一类，而本实施例的工作需要发现新的动作类型，需要区分开这些相似但不一致的动作。因此，利用分解动作流识别到的分解动作去区分这些相似的完整动作，并学习到更具有辨别力的特征表达。具体来说，包含不同分解动作的完整动作应该属于不同的类别。然而，在分解动作流中，网络有可能给出错误的伪标签或分类预测，因此本实施例只通过最具代表性的分解动作来区分完整动作。代表性分解动作

，

其中，

表示/>

对分解动作/>

的预测概率，/>

表示当前视频/>

的片段总数。

下一步则需要根据这个代表性分解动作来给完整动作分类，即包含不同代表性分解动作的完整动作，应该被识别为不同的动作类型并聚类到不同的簇中。具体来说，完整动作聚类集合如下：

，

其中，

，（/>

表示完整动作的聚类数量），/>

。

然后得到了一个新的完整动作聚类标签

，/>

表示第/>

个视频的完整动作在/>

中的聚类标签。最后，利用/>

对/>

进行训练，可得损失函数如下：

，

其中，

表示在应用相似完整动作区分策略后的聚类标签总数，/>

表示每个视频 />

的完整动作被预测为动作/>

的概率。

S33、分解动作对齐策略；

考虑到采用了完整性约束和相似完整动作区分策略，完整动作是根据分解动作重构和区分的，所以需要让两个流学习一些共享的分解动作，本实施例称之为分解动作对齐。具体来说，如完整性约束损失函数公式所示，

表示出了完整动作流中学习到的分解动作。那强制两个流学习那些共享的分解动作，可以通过最小化损失函数/>

来对齐完整动作流中的分解动作/>

和分解动作流中的/>

，具体损失函数如下：

，

其中，

可以是任何表示两个分布之间距离的函数（如KL散度或Wasserstein距离），/>

表示分解动作/>

在完整动作流的分布，/>

表示分解动作/>

在分解动作流中的分布。考虑到计算的有效性和简便性，本实施例决定采用简化2-Wasserstein距离计算分布的损失函数/>

：

，

其中，

表示期望，/>

表示方差。

最终，MUSIC 算法框架的学习步骤损失函数表达为：

，

其中，

和/>

分别是两个流伪标签指导的分类损失函数（交叉熵），/>

是完整性约束损失函数，/>

是分解动作对齐损失函数，/>

和/>

是平衡各个损失的权重。

S4、利用学习好的MUSIC模型在无监督条件下完成动作识别任务。

下面简单叙述MUSIC模型在无监督条件下完成动作识别任务的性能：

本实施例采用了两个动作识别方面最常用的大型数据集作为用于预训练的源数据集：Kinetics和Ig65m。同时，采用了两个基准数据集作为目标数据集用于测试 MUSIC 算法的性能：UCF-101和HMDB-51。在 UCF-101 和 HMDB-51 中，超过 50% 的动作类型都是源数据集中没用的新动作类型。

测试时，本实施例采用余弦距离来衡量两个动作特征的相似性。首先，每个动作类型的视频都随机采样一个作为对照组。然后，每个动作类型的视频（非对照组）再随机选择一个用于测试，并得到 rank-1和rank-5。重复上述过程若干次，每次重新选择不同的对照组，最后将得到的数次准确率取平均值。

预训练部分，本实施例用 Kinetics预训练3D-ResNeXt-101模型，用Ig65m预训练R(2+1)D-34[10]模型。模型的输入是一个连续 16 帧的视频片段，分辨率为224×224。完整动作流中的聚合函数

是平均池化函数，除非特别说明，所有视频切片的采样间隔/>

。聚类簇数设置为/>

。完整动作视频的分割片段数量M=3。损失函数参数/>

。

本发明重新实现了一些最先进的无监督动作识别算法，并且都使用相同的预训练模型来进行比较，详细性能对比情况下表所示。

“完全监督方法”指将预训练的模型迁移到目标数据集上做有监督精细化训练，算法选择的是temporal segment network（TSN）。“直接迁移方法”指直接将预训练好的模型迁移到目标数据集上测试，不做精细化训练。

在无监督的条件下，本发明获得了最优的性能，且与其他无监督算法相比是有较大程度提升的。相比同类型工作能有如此提升的主要原因是，MUSIC 算法将分解动作和完整动作的关系进行了建模，使网络能更深层的学习到动作的语义信息，进而能够识别出一些不在预训练数据集中的新动作类型。而其他同类型工作都没有明确地解决动作迁移问题中新的动作类型的问题。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的无监督的动作迁移和发现方法相同的思想，本发明还提供了无监督的动作迁移和发现***，该***可用于执行上述无监督的动作迁移和发现方法。为了便于说明，无监督的动作迁移和发现***实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

请参阅图4，在本申请的另一个实施例中，提供了一种无监督的动作迁移和发现***100，该***包括数据获取模块101、模型构建模块102、相互学习模块103以及动作识别模块104；

所述数据获取模块101，用于获取无标签的目标数据集，对所述目标数据集为采集到的视频；

所述模型构建模块102，用于构建MUSIC模型，所述MUSIC模型包括分解动作流的卷积网络模型和完整动作流的卷积网络模型；所述分解动作流的卷积网络模型是对所有视频都做切片处理，用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签，并以这些伪标签学习视频切片表达的分解动作；所述完整动作流的卷积网络模型是用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签，并以这些伪标签学习完整视频表达的完整动作；

所述相互学习模块103，用于分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习，在相互学习过程中，给分解动作流和完整动作流之间添加完整性约束，使得完整动作的表达是由已被学习到的分解动作构造而成，并采用相似完整动作区分策略对相似性完整动作进行区分，所述相似完整动作区分策略是如果分解动作不同，则其所属的完整动作被划分到不同的类别中，最后引入分解动作对齐策略，使得分解动作流的卷积网络模型和完整动作流的卷积网络模型都学习共享的分解动作；

所述动作识别模块104，用于利用学习好的MUSIC模型在无监督条件下完成动作识别任务。

需要说明的是，本发明的无监督的动作迁移和发现***与本发明的无监督的动作迁移和发现方法一一对应，在上述无监督的动作迁移和发现方法的实施例阐述的技术特征及其有益效果均适用于无监督的动作迁移和发现的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的无监督的动作迁移和发现***的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述无监督的动作迁移和发现***的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

请参阅图5，在一个实施例中，提供了一种实现无监督的动作迁移和发现方法的电子设备，所述电子设备200可以包括第一处理器201、第一存储器202和总线，还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序，如无监督的动作迁移和发现程序203。

其中，所述第一存储器202至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元，例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备，例如电子设备200上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据，例如无监督的动作迁移和发现程序203的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述第一处理器201在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述第一存储器202内的程序或者模块，以及调用存储在所述第一存储器202内的数据，以执行电子设备200的各种功能和处理数据。

图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备200的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

所述电子设备200中的所述第一存储器202存储的无监督的动作迁移和发现程序203是多个指令的组合，在所述第一处理器201中运行时，可以实现：

利用学习好的MUSIC模型在无监督条件下完成动作识别任务。

进一步地，所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM (DRAM)、同步DRAM (SDRAM)、双数据率SDRAM (DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.无监督的动作迁移和发现方法，其特征在于，包括下述步骤：

获取无标签的目标数据集，所述目标数据集为采集到的视频；

所述分解动作流的卷积网络模型的动作学习包括分解动作流的聚类步骤和分解动作流的学习步骤；在分解动作流的聚类步骤中，提取全部视频切片的特征，并将全部视频切片的特征用聚类算法聚类成多个分解动作，得到分解动作特征集合A，所述分解动作特征集合A的提取方法如下所示：

，

，

其中，N表示视频总数，

是并集操作，/>

表示第/>

个视频的第/>

个切片所提取到的分解动作特征，/>

是第i个视频的第b帧到第b+l-1帧所构成的视频切片，/>

表示分解动作流的卷积网络模型，/>

表示分解动作流的卷积网络的参数，/>

表示切片长度，/>

是视频切片起始帧构成的集合，/>

表示每隔/>

帧对视频进行切片采样，/>

表示第/>

个视频的总帧数，则/>

表示一个视频的总切片数量；

和聚类中心集合/>

，其中/>

表示第/>

个视频的第b个切片的伪标签，/>

表示第/>

个视频,/>

，N表示视频总数，/>

表示第b个切片，/>

表示一个视频的总切片数量，T_i表示第/>

个视频的总帧数，δ表示第δ帧，/>

表示第/>

个聚类的聚类中心特征，/>

表示分解动作聚类簇的下标序号，/>

表示分解动作聚类簇的总数；

所述完整动作流的卷积网络模型的动作学习包括完整动作流的聚类步骤和完整动作流的学习步骤；

在完整动作流的聚类步骤中，完整动作的特征提取如下：

，

，

其中，

表示第i个视频的完整特征，/>

是任何类型的聚合函数，/>

表示第i个视频第m个片段提取到的部分特征，/>

表示第m个视频片段的起始帧，/>

表示视频片段综述，

是第i个视频的第/>

帧到第/>

帧构成的视频片段，l表示视频片段长度，

示完整动作流的卷积网络，/>

，其中/>

表示第/>

个视频的伪标签，/>

表示第/>

个视频, />

，N表示视频总数；

所述分解动作对齐策略具体为：强制分解动作流和完整动作流学习共享的分解动作，通过最小化损失函数

来对齐完整动作流中的分解动作/>

和分解动作流中的/>

，具体损失函数如下：

，

其中，

是任何表示两个分布之间距离的函数，/>

表示分解动作/>

在完整动作流的分布，/>

表示分解动作/>

：

，

其中，

表示期望，/>

表示方差；

最终，MUSIC模型的学习步骤损失函数表达为：

，

其中，

、/>

是分解动作流和完整动作流伪标签指导的分类损失函数，/>

是完整性约束损失函数，/>

是分解动作对齐损失函数，/>

和/>

是平衡各个损失的权重；

所述完整性约束

的实现如下：

，

，

其中，

表示完整特征对各个聚类簇的预测概率向量，/>

表示训练后得到的softmax参数且每次迭代重置；

利用学习好的MUSIC模型在无监督条件下完成动作识别任务。

2.根据权利要求1所述的无监督的动作迁移和发现方法，其特征在于，在分解动作流的学习步骤中，对所有视频都进行随机切片特征采样并计算每个切片特征的分类概率，计算公式如下：

，/>

其中，

是第/>

个视频第/>

个切片的动作预测概率向量，/>

表示

的第/>

列，即预测概率向量中对第/>

个聚类簇的预测概率，/>

表示深度学习网络训练得到的softmax参数，/>

每次迭代会重置；/>

是实数域[/>

]的矩阵；/>

表示分解动作第/>

个视频第/>

个切片的特征向量；

令

表示所有切片的预测向量的集合，伪标签/>

给第/>

个切片提供了自监督信息，训练/>

得到损失函数如下：

，

其中，

是指示函数。

3.根据权利要求1所述的无监督的动作迁移和发现方法，其特征在于，所述相似完整动作区分策略具体为：

，

其中，

是对最大值取下标的函数，/>

表示/>

对分解动作/>

的预测概率，/>

表示当前视频/>

的片段总数；

，

其中，

表示符合完整动作聚类集合公式条件下的一个子集，/>

，

，/>

表示完整动作的聚类数量，/>

；

然后得到了一个新的完整动作聚类标签

，/>

表示第/>

个视频的完整动作在/>

中的聚类标签，最后，利用/>

对/>

进行训练，得损失函数如下：

，

其中，

表示在应用相似完整动作区分策略后的聚类标签总数，/>

表示视频 />

的完整动作特征被预测为动作/>

的概率。

4.无监督的动作迁移和发现***，其特征在于，应用于权利要求1-3中任一项所述的无监督的动作迁移和发现方法，包括数据获取模块、模型构建模块、相互学习模块以及动作识别模块；

5.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-3中任意一项所述的无监督的动作迁移和发现方法。

6.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-3任一项所述的无监督的动作迁移和发现方法。