CN115861902B - 无监督的动作迁移和发现方法、***、设备和介质 - Google Patents

无监督的动作迁移和发现方法、***、设备和介质 Download PDF

Info

Publication number
CN115861902B
CN115861902B CN202310063448.7A CN202310063448A CN115861902B CN 115861902 B CN115861902 B CN 115861902B CN 202310063448 A CN202310063448 A CN 202310063448A CN 115861902 B CN115861902 B CN 115861902B
Authority
CN
China
Prior art keywords
action
complete
video
actions
decomposition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310063448.7A
Other languages
English (en)
Other versions
CN115861902A (zh
Inventor
张恺成
陈泽林
郑伟诗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202310063448.7A priority Critical patent/CN115861902B/zh
Publication of CN115861902A publication Critical patent/CN115861902A/zh
Application granted granted Critical
Publication of CN115861902B publication Critical patent/CN115861902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种无监督的动作迁移和发现方法、***、设备和介质,方法包括:获取无标签的目标数据集;构建分解动作流的卷积网络模型,对所有视频都做切片处理,用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签,并以这些伪标签学习视频切片表达的分解动作;构建完整动作流的卷积网络模型,用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签,并以这些伪标签学习完整视频表达的完整动作;分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习,使得模型能发现新的动作类型并学习到更精确的分解动作信息。本发明可以在无监督条件下完成动作识别任务,并利用迁移学习方法提高动作识别准确率和整体算法效率。

Description

无监督的动作迁移和发现方法、***、设备和介质
技术领域
本发明属于动作识别的技术领域,具体涉及一种无监督的动作迁移和发现方法、***、设备和介质。
背景技术
无监督动作迁移旨在将已预训练好的网络应用在无监督的目标数据集中,完成动作识别这项任务,现有的技术包括有两个方面:
(1)无监督动作识别。完全监督动作识别已经发展了很多年,对目前来说最具代表性意义的工作为双流网络,该双流网络包含帧卷积网络和光流卷积网络,给动作识别赋予了时序运动信息。现有技术中还探索并研究出了高效的3D卷积网络,实现了对空间位置和动作信息关系的建模。无监督动作识别则主要提出了一些自监督标注的方法,通过精心设计的无监督代理任务对模型预训练,再用目标数据集已有的标签对模型进行精细化训练。
(2)无监督迁移学习。在迁移学习中,训练数据来自两个不同的域,即源域和目标域。迁移学习的主要任务是利用源数据集训练来提高目标数据集的模型性能。较为流行的迁移学习方法是无监督领域自适应UDA(unsupervised domain adaptation)。UDA 应用于有标注的源数据集和无标注的目标数据集,且源任务与目标任务一致(如动作类型一致)。大部分UDA工作专注于最小化领域差异。
在大型数据集下进行预训练得到的网络模型迁移到小数据集上,并只针对目标数据集做精细化完全监督训练,可以显著提高目标数据集上的动作识别性能(与随机初始化训练相比)。然而,在实际生活应用中,很难轻易得到用以精细化有监督训练的手动标签。无监督动作识别目前主要的工作都是自监督训练的方法,仍然需要利用有标注的数据进行全监督的精细化调整,无法将预训练模型直接迁移到无标注的目标数据集上使用。在迁移学习部分,传统UDA方法并不完全适用与无监督迁移学习,因为目标任务常常出现与源任务不一致。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种无监督的动作迁移和发现方法、***、设备和介质,在无监督条件下完成动作识别任务,并利用迁移学习方法提高动作识别准确率和整体算法效率。
为了达到上述目的,本发明采用以下技术方案:
第一方面,本发明提供了一种无监督的动作迁移和发现方法,包括下述步骤:
获取无标签的目标数据集,对所述目标数据集为采集到的视频;
构建分解动作与完整动作双向学习MUSIC模型,所述MUSIC模型包括分解动作流的卷积网络模型和完整动作流的卷积网络模型;所述分解动作流的卷积网络模型是对所有视频都做切片处理,用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签,并以这些伪标签学习视频切片表达的分解动作;所述完整动作流的卷积网络模型是用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签,并以这些伪标签学习完整视频表达的完整动作;
分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习,得到训练好的MUSIC模型;在相互学习过程中,给分解动作流和完整动作流之间添加完整性约束,使得完整动作的表达是由已被学习到的分解动作构造而成,并采用相似完整动作区分策略对相似性完整动作进行区分,所述相似完整动作区分策略是如果分解动作不同,则其所属的完整动作被划分到不同的类别中,最后引入分解动作对齐策略,使得分解动作流的卷积网络模型和完整动作流的卷积网络模型都学习共享的分解动作;
利用学习好的MUSIC模型在无监督条件下完成动作识别任务。
作为优选的技术方案,所述分解动作流的卷积网络模型的动作学习包括分解动作流的聚类步骤和分解动作流的学习步骤;
在分解动作流的聚类步骤中,提取全部视频切片的特征,并将全部视频切片的特征用聚类算法聚类成多个分解动作,得到分解动作特征集合A,所述分解动作特征集合A的提取方法如下所示:
Figure SMS_1
Figure SMS_2
其中,N表示视频总数,
Figure SMS_4
是并集操作,/>
Figure SMS_6
表示第/>
Figure SMS_8
个视频的第/>
Figure SMS_10
个切片所提取到的分解动作特征,/>
Figure SMS_12
是第i个视频的第b帧到第b+l-1帧所构成的视频切片,/>
Figure SMS_14
表示分解动作流的卷积网络模型,/>
Figure SMS_16
表示分解动作流的卷积网络的参数,/>
Figure SMS_3
表示切片长度,
Figure SMS_5
是视频切片起始帧构成的集合,/>
Figure SMS_7
表示每隔/>
Figure SMS_9
帧对视频进行切片采样,/>
Figure SMS_11
表示第/>
Figure SMS_13
个视频的总帧数,则/>
Figure SMS_15
表示一个视频的总切片数量;
用聚类算法对分解动作特征集合A做聚类,得到所有切片分解动作的伪标签集合
Figure SMS_17
和聚类中心集合/>
Figure SMS_19
,其中/>
Figure SMS_21
表示第/>
Figure SMS_23
个视频的第b个切片的伪标签,/>
Figure SMS_25
表示第/>
Figure SMS_27
个视频,/>
Figure SMS_30
,N表示视频总数,/>
Figure SMS_18
表示第b个切片,/>
Figure SMS_20
表示表示一个视频的总切片数量,Ti表示第/>
Figure SMS_22
个视频的总帧数,δ表示第δ帧,/>
Figure SMS_24
表示第/>
Figure SMS_26
个聚类的聚类中心特征,/>
Figure SMS_28
表示分解动作聚类簇的下标序号,/>
Figure SMS_29
表示分解动作聚类簇的总数。
作为优选的技术方案,在分解动作流的学习步骤中,对所有视频都进行随机切片特征采样并计算每个切片特征的分类概率,计算公式如下:
Figure SMS_31
其中,
Figure SMS_33
是第/>
Figure SMS_35
个视频第/>
Figure SMS_38
个切片的动作预测概率向量,/>
Figure SMS_40
表示/>
Figure SMS_41
的第/>
Figure SMS_43
列,即预测概率向量中对第/>
Figure SMS_45
个聚类簇的预测概率,/>
Figure SMS_32
表示深度学习网络训练得到的softmax参数,/>
Figure SMS_34
每次迭代会重置;/>
Figure SMS_36
是实数域[/>
Figure SMS_37
]的矩阵;/>
Figure SMS_39
表示分解动作第/>
Figure SMS_42
个视频第/>
Figure SMS_44
个切片的特征向量;
Figure SMS_46
表示所有切片的预测向量的集合,伪标签/>
Figure SMS_47
给第/>
Figure SMS_48
个切片提供了自监督信息,训练/>
Figure SMS_49
得到损失函数如下:
Figure SMS_50
其中,
Figure SMS_51
是指示函数。
作为优选的技术方案,所述完整动作流的卷积网络模型的动作学习包括完整动作流的聚类步骤和完整动作流的学习步骤;
在完整动作流的聚类步骤中,完整动作的特征提取如下:
Figure SMS_52
Figure SMS_53
其中,
Figure SMS_54
表示第i个视频的完整特征,/>
Figure SMS_56
是任何类型的聚合函数,/>
Figure SMS_57
表示第i个视频第m个片段提取到的部分特征,/>
Figure SMS_59
表示第m个视频片段的起始帧,/>
Figure SMS_61
表示视频片段综述,
Figure SMS_62
是第i个视频的第/>
Figure SMS_63
帧到第/>
Figure SMS_55
帧构成的视频片段,l表示视频片段长度,
Figure SMS_58
示完整动作流的卷积网络,/>
Figure SMS_60
是完整动作流卷积网络的参数,并令V表示所有视频的完整动作特征集合;
用聚类算法对完整动作特征集合V做聚类,得到所有视频完整动作的伪标签集合
Figure SMS_64
,其中/>
Figure SMS_65
表示第/>
Figure SMS_66
个视频的伪标签,/>
Figure SMS_67
表示第/>
Figure SMS_68
个视频,/>
Figure SMS_69
,N表示视频总数。
作为优选的技术方案,所述完整性约束
Figure SMS_70
的实现如下:
Figure SMS_71
Figure SMS_72
其中,
Figure SMS_73
表示完整特征对各个聚类簇的预测概率向量,/>
Figure SMS_74
表示训练后得到的softmax参数且每次迭代重置。
作为优选的技术方案,所述相似完整动作区分策略具体为:
通过最具代表性的分解动作来区分完整动作,所述代表性的分解动作
Figure SMS_75
由视频各个片段的分解动作预测概率取均值最大值而得,具体如下:
Figure SMS_76
其中,
Figure SMS_77
是对最大值取下标的函数,/>
Figure SMS_78
表示/>
Figure SMS_79
对分解动作/>
Figure SMS_80
的预测概率,/>
Figure SMS_81
表示当前视频/>
Figure SMS_82
的片段总数;
根据所述代表性的分解动作来给完整动作分类,即包含不同代表性分解动作的完整动作,应该被识别为不同的动作类型并聚类到不同的簇中,具体来说,完整动作聚类集合如下:
Figure SMS_83
其中,
Figure SMS_84
表示符合完整动作聚类集合公式条件下的一个子集,/>
Figure SMS_85
Figure SMS_86
,/>
Figure SMS_87
表示完整动作的聚类数量,/>
Figure SMS_88
然后得到了一个新的完整动作聚类标签
Figure SMS_89
,/>
Figure SMS_90
表示第/>
Figure SMS_91
个视频的完整动作在/>
Figure SMS_92
中的聚类标签,最后,利用/>
Figure SMS_93
对/>
Figure SMS_94
进行训练,得损失函数如下:
Figure SMS_95
其中,
Figure SMS_96
表示在应用相似完整动作区分策略后的聚类标签总数,/>
Figure SMS_97
表示视频
Figure SMS_98
的完整动作特征被预测为动作/>
Figure SMS_99
的概率。
作为优选的技术方案,所述分解动作对齐策略具体为:
强制分解动作流和完整动作流学习共享的分解动作,通过最小化损失函数
Figure SMS_100
来对齐完整动作流中的分解动作/>
Figure SMS_101
和分解动作流中的/>
Figure SMS_102
,具体损失函数如下:
Figure SMS_103
其中,
Figure SMS_104
是任何表示两个分布之间距离的函数,/>
Figure SMS_105
表示分解动作/>
Figure SMS_106
在完整动作流的分布,/>
Figure SMS_107
表示分解动作/>
Figure SMS_108
在分解动作流中的分布,考虑到计算的有效性和简便性,采用简化2-Wasserstein距离计算分布的损失函数/>
Figure SMS_109
Figure SMS_110
其中,
Figure SMS_111
表示期望,/>
Figure SMS_112
表示方差;
最终,MUSIC模型的学习步骤损失函数表达为:
Figure SMS_113
其中,
Figure SMS_114
、/>
Figure SMS_115
是分解动作流和完整动作流伪标签指导的分类损失函数,/>
Figure SMS_116
是完整性约束损失函数,/>
Figure SMS_117
是分解动作对齐损失函数,/>
Figure SMS_118
和/>
Figure SMS_119
是平衡各个损失的权重。
第二方面,本发明提供了一种无监督的动作迁移和发现***,应用于所述的无监督的动作迁移和发现方法,包括数据获取模块、模型构建模块、相互学习模块以及动作识别模块;
所述数据获取模块,用于获取无标签的目标数据集,对所述目标数据集为采集到的视频;
所述模型构建模块,用于构建分解动作与完整动作双向学习MUSIC模型,所述MUSIC模型包括分解动作流的卷积网络模型和完整动作流的卷积网络模型;所述分解动作流的卷积网络模型是对所有视频都做切片处理,用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签,并以这些伪标签学习视频切片表达的分解动作;所述完整动作流的卷积网络模型是用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签,并以这些伪标签学习完整视频表达的完整动作;
所述相互学习模块,用于分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习,在相互学习过程中,给分解动作流和完整动作流之间添加完整性约束,使得完整动作的表达是由已被学习到的分解动作构造而成,并采用相似完整动作区分策略对相似性完整动作进行区分,所述相似完整动作区分策略是如果分解动作不同,则其所属的完整动作被划分到不同的类别中,最后引入分解动作对齐策略,使得分解动作流的卷积网络模型和完整动作流的卷积网络模型都学习共享的分解动作;
所述动作识别模块,用于利用学习好的MUSIC模型在无监督条件下完成动作识别任务。
第三方面,本发明提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的无监督的动作迁移和发现方法。
第四方面,本发明提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现所述的无监督的动作迁移和发现方法。
本发明与现有技术相比,具有如下优点和有益效果:
本发明通过构建分解动作流的卷积网络模型,对所有视频都做切片处理,用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签,并以这些伪标签学习视频切片表达的分解动作;构建完整动作流的卷积网络模型,用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签,并以这些伪标签学习完整视频表达的完整动作;分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习,使得模型能发现新的动作类型并学习到更精确的分解动作信息。因此本发明能够识别目标数据集中全新的动作类型,运用双向相互学习来同时训练两个流,以达到对分解动作和完整动作组合关系建模的目的。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例完整动作为跳远时的分解动作示意图;
图2为本发明实施例完整动作为调高时的分解动作示意图;
图3为本发明实施例无监督的动作迁移和发现方法的流程图;
图4为本发明实施例无监督的动作迁移和发现***的方框图;
图5为本发明实施例电子设备的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
本实施例无监督的动作迁移和发现方法是基于提出的MUSIC模型(mutuallylearnthe subactions and the complete actions)实现的。可以理解的是,一个完整动作的完成是由很多小的分解动作完成的,越是复杂的动作,就包含越多的分解动作,请参阅图1,当完整动作为跳远时,分解动作可分为跑步和跳远;请参阅图2,当完整动作为跳高时,分解动作可分为跑步和向上跳。为了能够学习到全新的动作类型,理解更高层的动作语义,MUSIC算法框架主要思想就是利用分解动作和完整动作之间的关系来提供自我监督。概括来说,MUSIC算法由两部分动作学习流组成,即分解动作流和完整动作流,并让这两部分双向相互学习。在分解动作流中,对所有视频都做切片处理,用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签,并以这些伪标签学习视频切片表达的分解动作。在完整动作流中,用聚类算法计算出所有视频的聚类中心作为视频动作的伪标签,并以这些伪标签学习完整视频表达的完整动作。为了实现分解动作流和完整动作流的双向学习,MUSIC模型还完成了以下的工作:
(1)引入完整性约束来对分解动作流和完整动作流之间的组合关系建模。
(2)采用了相似完整动作区分策略,即如果分解动作不同,则其所属的完整动作被划分到不同的类别中。
(3)引入了分解动作对齐策略,要求分解动作流和完整动作流都学习共享的分解动作。
请参阅图3,本实施例一种无监督的动作迁移和发现方法,具体包括下述步骤:
S1、获取无标签的目标数据集;
本实施例中,所述目标数据集为采集到的视频,例如跑步的动作视频或跳高的动作视频。
S2、构建分解动作与完整动作双向学习MUSIC模型,所述MUSIC模型包括分解动作流的卷积网络模型和完整动作流的卷积网络模型;所述分解动作流的卷积网络模型是对所有视频都做切片处理,用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签,并以这些伪标签学习视频切片表达的分解动作;所述完整动作流的卷积网络模型是用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签,并以这些伪标签学习完整视频表达的完整动作。
S21、分解动作流,分解动作流的动作学习由聚类步骤和学习步骤迭代进行而实现;
首先,在聚类步骤中,本实施例提取了全部视频切片的特征,并将这些特征用聚类算法聚类成许多细分动作类型,分解动作特征集合A的提取方法如下所示:
Figure SMS_120
Figure SMS_121
其中,N表示视频总数,
Figure SMS_124
表示第/>
Figure SMS_126
个视频的第/>
Figure SMS_127
个切片所提取到的分解动作特征,/>
Figure SMS_129
表示分解动作流的卷积网络模型,/>
Figure SMS_130
表示分解动作卷积网络的参数,/>
Figure SMS_131
表示切片长度,/>
Figure SMS_132
表示每隔/>
Figure SMS_122
帧对视频进行切片采样,/>
Figure SMS_123
表示第/>
Figure SMS_125
个视频的总帧数,则
Figure SMS_128
表示一个视频的总切片数量。
随后,用聚类算法(如k-means)对集合A做聚类,并得到所有切片分解动作的伪标签集合P=
Figure SMS_133
(/>
Figure SMS_134
)和聚类中心集合H=/>
Figure SMS_135
(/>
Figure SMS_136
表示分解动作聚类簇的总数);令P表示所有切片的伪标签集合,H表示分解动作的类型字典。
其次,在学习步骤中,本实施例对所有视频都进行了随机切片特征采样并根据下式得到每个特征的分类概率:
Figure SMS_137
其中,
Figure SMS_138
是第/>
Figure SMS_139
个视频的动作预测概率向量,/>
Figure SMS_140
每次迭代会重置。
Figure SMS_141
表示所有切片的预测向量的集合,伪标签/>
Figure SMS_142
给第/>
Figure SMS_143
个切片提供了自监督信息,训练/>
Figure SMS_144
可以得到损失函数如下:
Figure SMS_145
其中,
Figure SMS_146
是指示函数。
S22、完整动作流;
在完整动作流中,动作学习的步骤同样分为聚类步骤和学习步骤,与分解动作流不同的是,完整动作是由完整视频表示的而不是视频切片。具体来说,一个完整动作可以从一个视频中的M个均匀划分视频片段聚合表达而成。
在聚类步骤中,完整动作的特征提取如下:
Figure SMS_147
Figure SMS_148
其中,
Figure SMS_149
可以是任何聚合函数(如均值函数、最值函数,LSTM),/>
Figure SMS_150
表示第m个视频片段的起始帧,/>
Figure SMS_151
表示完整动作流的卷积网络,并令V表示所有视频的完整动作特征集合。
S3、双向相互学习;
本实施例中,是将完整动作流和分解动作流这两个流协同训练,是为了利用动作之间的关系来提供语义级的伪监督,并对分解动作和完整动作之间的组合关系建模。通过双向相互学习,期望该MUSIC算法模型能发现新的动作类型并学习到更精确的分解动作信息,以便动作迁移能更好适应目标域。
S31、完整性约束;
考虑到完整动作的表达是包含了分解动作的表达的,因此本实施例给分解动作流和完整动作流之间添加完整性约束,使得完整动作的表达是由已被学习到的分解动作构造而成的,完整性约束
Figure SMS_152
的实现如下:
Figure SMS_153
Figure SMS_154
其中,
Figure SMS_155
且每次迭代重置。
S32、相似完整动作区分策略;
由于完整动作流倾向于把相似的完整动作合并为同一类,而本实施例的工作需要发现新的动作类型,需要区分开这些相似但不一致的动作。因此,利用分解动作流识别到的分解动作去区分这些相似的完整动作,并学习到更具有辨别力的特征表达。具体来说,包含不同分解动作的完整动作应该属于不同的类别。然而,在分解动作流中,网络有可能给出错误的伪标签或分类预测,因此本实施例只通过最具代表性的分解动作来区分完整动作。代表性分解动作
Figure SMS_156
由视频各个片段的分解动作预测概率取均值最大值而得,具体如下:
Figure SMS_157
其中,
Figure SMS_158
表示/>
Figure SMS_159
对分解动作/>
Figure SMS_160
的预测概率,/>
Figure SMS_161
表示当前视频/>
Figure SMS_162
的片段总数。
下一步则需要根据这个代表性分解动作来给完整动作分类,即包含不同代表性分解动作的完整动作,应该被识别为不同的动作类型并聚类到不同的簇中。具体来说,完整动作聚类集合如下:
Figure SMS_163
其中,
Figure SMS_164
,(/>
Figure SMS_165
表示完整动作的聚类数量),/>
Figure SMS_166
然后得到了一个新的完整动作聚类标签
Figure SMS_167
,/>
Figure SMS_168
表示第/>
Figure SMS_169
个视频的完整动作在/>
Figure SMS_170
中的聚类标签。最后,利用/>
Figure SMS_171
对/>
Figure SMS_172
进行训练,可得损失函数如下:
Figure SMS_173
其中,
Figure SMS_174
表示在应用相似完整动作区分策略后的聚类标签总数,/>
Figure SMS_175
表示每个视频 />
Figure SMS_176
的完整动作被预测为动作/>
Figure SMS_177
的概率。
S33、分解动作对齐策略;
考虑到采用了完整性约束和相似完整动作区分策略,完整动作是根据分解动作重构和区分的,所以需要让两个流学习一些共享的分解动作,本实施例称之为分解动作对齐。具体来说,如完整性约束损失函数公式所示,
Figure SMS_178
表示出了完整动作流中学习到的分解动作。那强制两个流学习那些共享的分解动作,可以通过最小化损失函数/>
Figure SMS_179
来对齐完整动作流中的分解动作/>
Figure SMS_180
和分解动作流中的/>
Figure SMS_181
,具体损失函数如下:
Figure SMS_182
其中,
Figure SMS_183
可以是任何表示两个分布之间距离的函数(如KL散度或Wasserstein距离),/>
Figure SMS_184
表示分解动作/>
Figure SMS_185
在完整动作流的分布,/>
Figure SMS_186
表示分解动作/>
Figure SMS_187
在分解动作流中的分布。考虑到计算的有效性和简便性,本实施例决定采用简化2-Wasserstein距离计算分布的损失函数/>
Figure SMS_188
Figure SMS_189
其中,
Figure SMS_190
表示期望,/>
Figure SMS_191
表示方差。
最终,MUSIC 算法框架的学习步骤损失函数表达为:
Figure SMS_192
其中,
Figure SMS_193
和/>
Figure SMS_194
分别是两个流伪标签指导的分类损失函数(交叉熵),/>
Figure SMS_195
是完整性约束损失函数,/>
Figure SMS_196
是分解动作对齐损失函数,/>
Figure SMS_197
和/>
Figure SMS_198
是平衡各个损失的权重。
S4、利用学习好的MUSIC模型在无监督条件下完成动作识别任务。
下面简单叙述MUSIC模型在无监督条件下完成动作识别任务的性能:
本实施例采用了两个动作识别方面最常用的大型数据集作为用于预训练的源数据集:Kinetics和Ig65m。同时,采用了两个基准数据集作为目标数据集用于测试 MUSIC 算法的性能:UCF-101和HMDB-51。在 UCF-101 和 HMDB-51 中,超过 50% 的动作类型都是源数据集中没用的新动作类型。
测试时,本实施例采用余弦距离来衡量两个动作特征的相似性。首先,每个动作类型的视频都随机采样一个作为对照组。然后,每个动作类型的视频(非对照组)再随机选择一个用于测试,并得到 rank-1和rank-5。重复上述过程若干次,每次重新选择不同的对照组,最后将得到的数次准确率取平均值。
预训练部分,本实施例用 Kinetics预训练3D-ResNeXt-101模型,用Ig65m预训练R(2+1)D-34[10]模型。模型的输入是一个连续 16 帧的视频片段,分辨率为224×224。完整动作流中的聚合函数
Figure SMS_199
是平均池化函数,除非特别说明,所有视频切片的采样间隔/>
Figure SMS_200
。聚类簇数设置为/>
Figure SMS_201
。完整动作视频的分割片段数量M=3。损失函数参数/>
Figure SMS_202
本发明重新实现了一些最先进的无监督动作识别算法,并且都使用相同的预训练模型来进行比较,详细性能对比情况下表所示。
Figure SMS_203
“完全监督方法”指将预训练的模型迁移到目标数据集上做有监督精细化训练,算法选择的是temporal segment network(TSN)。“直接迁移方法”指直接将预训练好的模型迁移到目标数据集上测试,不做精细化训练。
在无监督的条件下,本发明获得了最优的性能,且与其他无监督算法相比是有较大程度提升的。相比同类型工作能有如此提升的主要原因是,MUSIC 算法将分解动作和完整动作的关系进行了建模,使网络能更深层的学习到动作的语义信息,进而能够识别出一些不在预训练数据集中的新动作类型。而其他同类型工作都没有明确地解决动作迁移问题中新的动作类型的问题。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
基于与上述实施例中的无监督的动作迁移和发现方法相同的思想,本发明还提供了无监督的动作迁移和发现***,该***可用于执行上述无监督的动作迁移和发现方法。为了便于说明,无监督的动作迁移和发现***实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
请参阅图4,在本申请的另一个实施例中,提供了一种无监督的动作迁移和发现***100,该***包括数据获取模块101、模型构建模块102、相互学习模块103以及动作识别模块104;
所述数据获取模块101,用于获取无标签的目标数据集,对所述目标数据集为采集到的视频;
所述模型构建模块102,用于构建MUSIC模型,所述MUSIC模型包括分解动作流的卷积网络模型和完整动作流的卷积网络模型;所述分解动作流的卷积网络模型是对所有视频都做切片处理,用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签,并以这些伪标签学习视频切片表达的分解动作;所述完整动作流的卷积网络模型是用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签,并以这些伪标签学习完整视频表达的完整动作;
所述相互学习模块103,用于分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习,在相互学习过程中,给分解动作流和完整动作流之间添加完整性约束,使得完整动作的表达是由已被学习到的分解动作构造而成,并采用相似完整动作区分策略对相似性完整动作进行区分,所述相似完整动作区分策略是如果分解动作不同,则其所属的完整动作被划分到不同的类别中,最后引入分解动作对齐策略,使得分解动作流的卷积网络模型和完整动作流的卷积网络模型都学习共享的分解动作;
所述动作识别模块104,用于利用学习好的MUSIC模型在无监督条件下完成动作识别任务。
需要说明的是,本发明的无监督的动作迁移和发现***与本发明的无监督的动作迁移和发现方法一一对应,在上述无监督的动作迁移和发现方法的实施例阐述的技术特征及其有益效果均适用于无监督的动作迁移和发现的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
此外,上述实施例的无监督的动作迁移和发现***的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述无监督的动作迁移和发现***的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
请参阅图5,在一个实施例中,提供了一种实现无监督的动作迁移和发现方法的电子设备,所述电子设备200可以包括第一处理器201、第一存储器202和总线,还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序,如无监督的动作迁移和发现程序203。
其中,所述第一存储器202至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元,例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备,例如电子设备200上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据,例如无监督的动作迁移和发现程序203的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述第一处理器201在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述第一存储器202内的程序或者模块,以及调用存储在所述第一存储器202内的数据,以执行电子设备200的各种功能和处理数据。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备200的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
所述电子设备200中的所述第一存储器202存储的无监督的动作迁移和发现程序203是多个指令的组合,在所述第一处理器201中运行时,可以实现:
获取无标签的目标数据集,对所述目标数据集为采集到的视频;
构建分解动作与完整动作双向学习MUSIC模型,所述MUSIC模型包括分解动作流的卷积网络模型和完整动作流的卷积网络模型;所述分解动作流的卷积网络模型是对所有视频都做切片处理,用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签,并以这些伪标签学习视频切片表达的分解动作;所述完整动作流的卷积网络模型是用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签,并以这些伪标签学习完整视频表达的完整动作;
分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习,得到训练好的MUSIC模型;在相互学习过程中,给分解动作流和完整动作流之间添加完整性约束,使得完整动作的表达是由已被学习到的分解动作构造而成,并采用相似完整动作区分策略对相似性完整动作进行区分,所述相似完整动作区分策略是如果分解动作不同,则其所属的完整动作被划分到不同的类别中,最后引入分解动作对齐策略,使得分解动作流的卷积网络模型和完整动作流的卷积网络模型都学习共享的分解动作;
利用学习好的MUSIC模型在无监督条件下完成动作识别任务。
进一步地,所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM (DRAM)、同步DRAM (SDRAM)、双数据率SDRAM (DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.无监督的动作迁移和发现方法,其特征在于,包括下述步骤:
获取无标签的目标数据集,所述目标数据集为采集到的视频;
构建分解动作与完整动作双向学习MUSIC模型,所述MUSIC模型包括分解动作流的卷积网络模型和完整动作流的卷积网络模型;所述分解动作流的卷积网络模型是对所有视频都做切片处理,用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签,并以这些伪标签学习视频切片表达的分解动作;所述完整动作流的卷积网络模型是用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签,并以这些伪标签学习完整视频表达的完整动作;
分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习,得到训练好的MUSIC模型;在相互学习过程中,给分解动作流和完整动作流之间添加完整性约束,使得完整动作的表达是由已被学习到的分解动作构造而成,并采用相似完整动作区分策略对相似性完整动作进行区分,所述相似完整动作区分策略是如果分解动作不同,则其所属的完整动作被划分到不同的类别中,最后引入分解动作对齐策略,使得分解动作流的卷积网络模型和完整动作流的卷积网络模型都学习共享的分解动作;
所述分解动作流的卷积网络模型的动作学习包括分解动作流的聚类步骤和分解动作流的学习步骤;在分解动作流的聚类步骤中,提取全部视频切片的特征,并将全部视频切片的特征用聚类算法聚类成多个分解动作,得到分解动作特征集合A,所述分解动作特征集合A的提取方法如下所示:
Figure QLYQS_1
Figure QLYQS_2
其中,N表示视频总数,
Figure QLYQS_4
是并集操作,/>
Figure QLYQS_6
表示第/>
Figure QLYQS_8
个视频的第/>
Figure QLYQS_10
个切片所提取到的分解动作特征,/>
Figure QLYQS_12
是第i个视频的第b帧到第b+l-1帧所构成的视频切片,/>
Figure QLYQS_14
表示分解动作流的卷积网络模型,/>
Figure QLYQS_16
表示分解动作流的卷积网络的参数,/>
Figure QLYQS_3
表示切片长度,/>
Figure QLYQS_5
是视频切片起始帧构成的集合,/>
Figure QLYQS_7
表示每隔/>
Figure QLYQS_9
帧对视频进行切片采样,/>
Figure QLYQS_11
表示第/>
Figure QLYQS_13
个视频的总帧数,则/>
Figure QLYQS_15
表示一个视频的总切片数量;
用聚类算法对分解动作特征集合A做聚类,得到所有切片分解动作的伪标签集合
Figure QLYQS_18
和聚类中心集合/>
Figure QLYQS_20
,其中/>
Figure QLYQS_22
表示第/>
Figure QLYQS_24
个视频的第b个切片的伪标签,/>
Figure QLYQS_26
表示第/>
Figure QLYQS_28
个视频,/>
Figure QLYQS_30
,N表示视频总数,/>
Figure QLYQS_17
表示第b个切片,/>
Figure QLYQS_19
表示一个视频的总切片数量,Ti表示第/>
Figure QLYQS_21
个视频的总帧数,δ表示第δ帧,/>
Figure QLYQS_23
表示第/>
Figure QLYQS_25
个聚类的聚类中心特征,/>
Figure QLYQS_27
表示分解动作聚类簇的下标序号,/>
Figure QLYQS_29
表示分解动作聚类簇的总数;
所述完整动作流的卷积网络模型的动作学习包括完整动作流的聚类步骤和完整动作流的学习步骤;
在完整动作流的聚类步骤中,完整动作的特征提取如下:
Figure QLYQS_31
Figure QLYQS_32
其中,
Figure QLYQS_34
表示第i个视频的完整特征,/>
Figure QLYQS_36
是任何类型的聚合函数,/>
Figure QLYQS_38
表示第i个视频第m个片段提取到的部分特征,/>
Figure QLYQS_39
表示第m个视频片段的起始帧,/>
Figure QLYQS_40
表示视频片段综述,
Figure QLYQS_41
是第i个视频的第/>
Figure QLYQS_42
帧到第/>
Figure QLYQS_33
帧构成的视频片段,l表示视频片段长度,
Figure QLYQS_35
示完整动作流的卷积网络,/>
Figure QLYQS_37
是完整动作流卷积网络的参数,并令V表示所有视频的完整动作特征集合;
用聚类算法对完整动作特征集合V做聚类,得到所有视频完整动作的伪标签集合
Figure QLYQS_43
,其中/>
Figure QLYQS_44
表示第/>
Figure QLYQS_45
个视频的伪标签,/>
Figure QLYQS_46
表示第/>
Figure QLYQS_47
个视频, />
Figure QLYQS_48
,N表示视频总数;
所述分解动作对齐策略具体为:强制分解动作流和完整动作流学习共享的分解动作,通过最小化损失函数
Figure QLYQS_49
来对齐完整动作流中的分解动作/>
Figure QLYQS_50
和分解动作流中的/>
Figure QLYQS_51
,具体损失函数如下:
Figure QLYQS_52
其中,
Figure QLYQS_53
是任何表示两个分布之间距离的函数,/>
Figure QLYQS_54
表示分解动作/>
Figure QLYQS_55
在完整动作流的分布,/>
Figure QLYQS_56
表示分解动作/>
Figure QLYQS_57
在分解动作流中的分布,考虑到计算的有效性和简便性,采用简化2-Wasserstein距离计算分布的损失函数/>
Figure QLYQS_58
Figure QLYQS_59
其中,
Figure QLYQS_60
表示期望,/>
Figure QLYQS_61
表示方差;
最终,MUSIC模型的学习步骤损失函数表达为:
Figure QLYQS_62
其中,
Figure QLYQS_63
、/>
Figure QLYQS_64
是分解动作流和完整动作流伪标签指导的分类损失函数,/>
Figure QLYQS_65
是完整性约束损失函数,/>
Figure QLYQS_66
是分解动作对齐损失函数,/>
Figure QLYQS_67
和/>
Figure QLYQS_68
是平衡各个损失的权重;
所述完整性约束
Figure QLYQS_69
的实现如下:
Figure QLYQS_70
Figure QLYQS_71
其中,
Figure QLYQS_72
表示完整特征对各个聚类簇的预测概率向量,/>
Figure QLYQS_73
表示训练后得到的softmax参数且每次迭代重置;
利用学习好的MUSIC模型在无监督条件下完成动作识别任务。
2.根据权利要求1所述的无监督的动作迁移和发现方法,其特征在于,在分解动作流的学习步骤中,对所有视频都进行随机切片特征采样并计算每个切片特征的分类概率,计算公式如下:
Figure QLYQS_74
,/>
其中,
Figure QLYQS_76
是第/>
Figure QLYQS_78
个视频第/>
Figure QLYQS_79
个切片的动作预测概率向量,/>
Figure QLYQS_81
表示
Figure QLYQS_83
的第/>
Figure QLYQS_84
列,即预测概率向量中对第/>
Figure QLYQS_86
个聚类簇的预测概率,/>
Figure QLYQS_75
表示深度学习网络训练得到的softmax参数,/>
Figure QLYQS_77
每次迭代会重置;/>
Figure QLYQS_80
是实数域[/>
Figure QLYQS_82
]的矩阵;/>
Figure QLYQS_85
表示分解动作第/>
Figure QLYQS_87
个视频第/>
Figure QLYQS_88
个切片的特征向量;
Figure QLYQS_89
表示所有切片的预测向量的集合,伪标签/>
Figure QLYQS_90
给第/>
Figure QLYQS_91
个切片提供了自监督信息,训练/>
Figure QLYQS_92
得到损失函数如下:
Figure QLYQS_93
其中,
Figure QLYQS_94
是指示函数。
3.根据权利要求1所述的无监督的动作迁移和发现方法,其特征在于,所述相似完整动作区分策略具体为:
通过最具代表性的分解动作来区分完整动作,所述代表性的分解动作
Figure QLYQS_95
由视频各个片段的分解动作预测概率取均值最大值而得,具体如下:
Figure QLYQS_96
其中,
Figure QLYQS_97
是对最大值取下标的函数,/>
Figure QLYQS_98
表示/>
Figure QLYQS_99
对分解动作/>
Figure QLYQS_100
的预测概率,/>
Figure QLYQS_101
表示当前视频/>
Figure QLYQS_102
的片段总数;
根据所述代表性的分解动作来给完整动作分类,即包含不同代表性分解动作的完整动作,应该被识别为不同的动作类型并聚类到不同的簇中,具体来说,完整动作聚类集合如下:
Figure QLYQS_103
其中,
Figure QLYQS_104
表示符合完整动作聚类集合公式条件下的一个子集,/>
Figure QLYQS_105
Figure QLYQS_106
,/>
Figure QLYQS_107
表示完整动作的聚类数量,/>
Figure QLYQS_108
然后得到了一个新的完整动作聚类标签
Figure QLYQS_109
,/>
Figure QLYQS_110
表示第/>
Figure QLYQS_111
个视频的完整动作在/>
Figure QLYQS_112
中的聚类标签,最后,利用/>
Figure QLYQS_113
对/>
Figure QLYQS_114
进行训练,得损失函数如下:
Figure QLYQS_115
其中,
Figure QLYQS_116
表示在应用相似完整动作区分策略后的聚类标签总数,/>
Figure QLYQS_117
表示视频 />
Figure QLYQS_118
的完整动作特征被预测为动作/>
Figure QLYQS_119
的概率。
4.无监督的动作迁移和发现***,其特征在于,应用于权利要求1-3中任一项所述的无监督的动作迁移和发现方法,包括数据获取模块、模型构建模块、相互学习模块以及动作识别模块;
所述数据获取模块,用于获取无标签的目标数据集,对所述目标数据集为采集到的视频;
所述模型构建模块,用于构建分解动作与完整动作双向学习MUSIC模型,所述MUSIC模型包括分解动作流的卷积网络模型和完整动作流的卷积网络模型;所述分解动作流的卷积网络模型是对所有视频都做切片处理,用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签,并以这些伪标签学习视频切片表达的分解动作;所述完整动作流的卷积网络模型是用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签,并以这些伪标签学习完整视频表达的完整动作;
所述相互学习模块,用于分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习,在相互学习过程中,给分解动作流和完整动作流之间添加完整性约束,使得完整动作的表达是由已被学习到的分解动作构造而成,并采用相似完整动作区分策略对相似性完整动作进行区分,所述相似完整动作区分策略是如果分解动作不同,则其所属的完整动作被划分到不同的类别中,最后引入分解动作对齐策略,使得分解动作流的卷积网络模型和完整动作流的卷积网络模型都学习共享的分解动作;
所述动作识别模块,用于利用学习好的MUSIC模型在无监督条件下完成动作识别任务。
5.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-3中任意一项所述的无监督的动作迁移和发现方法。
6.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-3任一项所述的无监督的动作迁移和发现方法。
CN202310063448.7A 2023-02-06 2023-02-06 无监督的动作迁移和发现方法、***、设备和介质 Active CN115861902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310063448.7A CN115861902B (zh) 2023-02-06 2023-02-06 无监督的动作迁移和发现方法、***、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310063448.7A CN115861902B (zh) 2023-02-06 2023-02-06 无监督的动作迁移和发现方法、***、设备和介质

Publications (2)

Publication Number Publication Date
CN115861902A CN115861902A (zh) 2023-03-28
CN115861902B true CN115861902B (zh) 2023-06-09

Family

ID=85657626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310063448.7A Active CN115861902B (zh) 2023-02-06 2023-02-06 无监督的动作迁移和发现方法、***、设备和介质

Country Status (1)

Country Link
CN (1) CN115861902B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821737B (zh) * 2023-06-08 2024-04-30 哈尔滨工业大学 基于改进弱监督多特征融合的裂纹声发射信号识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10977551B2 (en) * 2016-12-14 2021-04-13 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
US20190228313A1 (en) * 2018-01-23 2019-07-25 Insurance Services Office, Inc. Computer Vision Systems and Methods for Unsupervised Representation Learning by Sorting Sequences
CA3102439A1 (en) * 2018-06-08 2019-12-12 Zestfinance, Inc. Systems and methods for decomposition of non-differentiable and differentiable models
CN113870315B (zh) * 2021-10-18 2023-08-25 南京硅基智能科技有限公司 基于多算法集成的动作迁移模型训练方法及动作迁移方法
CN113947525A (zh) * 2021-11-25 2022-01-18 中山大学 一种基于可逆流网络的无监督动作风格迁移方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度神经网络和投影树的高效率动作识别算法;郭洪涛;龙娟娟;;计算机应用与软件(第04期);第273-289页 *

Also Published As

Publication number Publication date
CN115861902A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN110298415B (zh) 一种半监督学习的训练方法、***和计算机可读存储介质
Kieu et al. Outlier detection for multidimensional time series using deep neural networks
Aakur et al. A perceptual prediction framework for self supervised event segmentation
Qin et al. Compressive sequential learning for action similarity labeling
CN111738532B (zh) 一种事件对对象影响度的获取方法和***
CN110334186B (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN111052128B (zh) 用于检测和定位视频中的对象的描述符学习方法
US20210182602A1 (en) Flexible imputation of missing data
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN115861902B (zh) 无监督的动作迁移和发现方法、***、设备和介质
CN115695950B (zh) 一种基于内容感知的视频摘要生成方法
CN113763385A (zh) 视频目标分割方法、装置、设备及介质
Nie et al. Classification-enhancement deep hashing for large-scale video retrieval
CN115062709A (zh) 模型优化方法、装置、设备、存储介质及程序产品
CN117349494A (zh) 空间图卷积神经网络的图分类方法、***、介质及设备
Yue et al. Vambc: A variational approach for mobility behavior clustering
CN116956171A (zh) 基于ai模型的分类方法、装置、设备及存储介质
CN115035455A (zh) 一种基于对抗多模态领域自适应的跨类别视频时间定位方法、***和存储介质
Luo et al. Memory enhanced spatial-temporal graph convolutional autoencoder for human-related video anomaly detection
CN113420821A (zh) 一种基于标记和特征局部相关性的多标记学习方法
JP5623344B2 (ja) 縮約素性生成装置、方法、プログラム、モデル構築装置及び方法
Yu et al. Construction of garden landscape design system based on multimodal intelligent computing and deep neural network
CN111581469B (zh) 基于多子空间表示的偏多标记学习方法
Ren et al. Weakly-supervised temporal action localization with multi-head cross-modal attention
Yang et al. Multi-scale Siamese prediction network for video anomaly detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant