CN116311504A

CN116311504A - 一种小样本行为识别方法、***及设备

Info

Publication number: CN116311504A
Application number: CN202310139138.9A
Authority: CN
Inventors: 魏迎梅; 阮瓒茜; 申天睿; 郭延明; 谢毓湘; 蒋杰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-06-23

Abstract

本发明实施例提供了一种小样本行为识别方法、***及设备，该方法包括：构建小样本行为识别模型；将待处理视频进行预处理得到具有类别标签的支持集及无类别标签的查询集；基于小样本行为识别模型中的特征嵌入模块处理支持集和查询集，分别得到支持特征集合及查询特征集合；至少基于混合注意力模块对支持特征集合及查询特征集合中的特征进行增强处理；基于原型注意力模块将支持特征集合中的支持特征基于目标映射函数映射至不同的第一向量空间，同时将增强处理后查询特征集合中的查询特征基于目标映射函数映射至不同的第二向量空间，比对各个第一向量空间与第二向量空间的距离，并确定向量空间距离最近的查询特征与支持特征所属类别为同一类别。

Description

一种小样本行为识别方法、***及设备

技术领域

本发明实施例涉及小样本行为识别技术领域，特别涉及一种小样本行为识别方法、***及设备。

背景技术

动作识别是视频理解领域中的一个重要的分支任务，它旨在于对一段包含了人物动作的视频进行分类。与图像领域的任务不同，在视频领域的行为识别任务中，人体的动作是变化的。近年来，随着视频领域大规模数据集的不断完善和深度学习技术的发展，针对行为识别的研究也取得了不错的进展。传统的基于深度学习的行为识别任务需要有大量带有标签的视频数据来作为任务的底层数据支撑，人力成本高。当前的传统深度学习算法只擅长于掌握某个特定任务，即使在数据集相似的情况下，训练好的模型也难以迁移到其他数据集任务上。在现实工业界中，国防军事、医学诊疗等部分领域难以获取到大量的有标签视频数据。直接使用深度学习方法在小规模数据集上进行训练，往往会出现模型过拟合的问题。有研究者尝试采用对视频图片数据进行旋转、裁剪等简单的数据增强方法来扩充数据集，但效果欠佳。深度学习使用的神经网络设计模拟了人类大脑神经元的运作方式，然而人类学习分类新事物并不需要通过成千上万的数据来进行训练，人类有能力通过只看几个甚至一个图像来准确识别一个新的物体类别。在降低对大规模数据集的依赖和类人脑的需求之下，针对小样本数据的行为识别研究应运而生。

小样本行为识别建立在小样本学习的基础上。小样本学习被设置为一个N-way，K-shot的学习任务。其中way代表了训练数据采样的类别，shot代表了每个类里的样本总数。当设置采样类别N＝3，样本总数K＝3时，训练的采样过程如图1所示。首先，针对数据集中的所有类别，随机抽取其中N(图中N＝3)个类别作为训练类别。图中在抽取了类别2、类别3、类别5。然后，在已经选择的类别的总样本中，随机选择K(图中K＝3)个样本，在图中指的是绿色方块，构成训练用到的支持集。支持集中总共的样本量是K*N。最后，在选择训练类别的剩余未选样本中，选择X(图中X＝3)个样本，在图中用橙色方块表示，构成查询集。查询集中拥有X*N个样本。支持集中所有的样本都带了标签，查询集中的样本没有标签。小样本学习的核心目标就是判断查询集中的样本和支持集中样本的相似性，将查询集中的样本精准分类。每一次的采样过程成为一个episode。

如图1所示，小样本行为识别的任务目标是将一个没有标签的查询视频分类到支持集中的一个动作类别中，支持集中每个动作类别的样本有限。小样本行为识别是一个具有挑战性的计算机视觉问题，视频由多张视频帧组成，具有时序性，识别视频中的人体行为需要联合上下文视频帧信息来进行理解。行为识别作为视频理解的最重要的分支之一，在现实场景中有重要的应用价值。而传统的基于深度学习的行为识别任务需要大量的数据依赖，模型缺乏数据迁移能力，难以拓展应用场景。研究小样本行为识别的方法能够更好地应对这种实际情况，提高识别精度。因此，基于小样本的行为识别方法研究意义重大，具有重要的理论意义和实际应用价值。

目前针对小样本行为识别任务的方法一般可以分成两类，一类是基于生成的方法，一类是基于度量学习的方法。基于生成的方法的本质目的是通过扩充数据集样本量来提升识别精度。基于度量学习的方法使用了元学习的思想，通过处理获得一个特征向量空间，通过度量与支持向量的距离得到分类结果。目前主流的方法大都采用了度量学习的思想。例如，STRM就在TRX的基础上增加了时空丰富模块和时间关系建模模块，在对特征进行增强处理后，通过一个分类器对中间层的特征进行度量分类来进一步增强特征可分辨性。STRM方法达到了当前的最优性能。但是，包括STRM在内的大部分小样本学习方法都采用了2D网络来作为网络基本骨架。2D网络在提取特征时是无法处理视频序列的时序信息的，所以这些方法都要割裂地对特征的时序信息进行处理。

发明内容

本发明实施例提供了一种小样本行为识别方法，包括：

构建小样本行为识别模型，所述小样本行为识别模型包括用于同时提取、处理视频的空间特征及时序特征的特征嵌入模块、用于捕捉处理所述视频的空间上下文特征的混合注意力模块、用于实现所述视频的特征分类的原型注意力模块；

将待处理视频进行预处理得到具有类别标签的支持集及无类别标签的查询集，所述支持集与查询集均由具有时序的视频帧形成；

向所述小样本行为识别模型中输入所述支持集及查询集；

基于所述特征嵌入模块处理所述支持集和查询集，分别得到支持特征集合及查询特征集合；

至少基于所述混合注意力模块对所述支持特征集合及查询特征集合中的特征进行增强处理；

基于所述原型注意力模块将增强处理后的所述支持特征集合中的支持特征基于目标映射函数映射至不同的第一向量空间，同时将增强处理后所述查询特征集合中的查询特征基于所述目标映射函数映射至不同的第二向量空间，比对各个所述第一向量空间与第二向量空间的距离，并基于比对结果确定向量空间距离最近的所述查询特征与支持特征所属类别为同一类别。

作为一可选实施例，所述特征嵌入模块由一个2D卷积网络和一个1D卷积网络组成，所述2D卷积网络用于处理视频的空间数据，所述1D卷积网络用于处理视频的时序特征，以得到支持集、查询集中多个视频帧的时序关系。

作为一可选实施例，所述混合注意力模块引入有串联式的极化注意力机制，基于所述极化注意力机制会在所述小样本行为识别模型的输入通道、支持特征或查询特征的宽、高三个维度进行数据处理。

作为一可选实施例，所述至少基于所述混合注意力模块对所述支持特征集合及查询特征集合中的特征进行增强处理，包括：

基于所述极化注意力机制，将所述支持特征集合及查询特征集合中的每个特征均分成两个分支，并分别进入1x1的第一卷积层和第二卷积层转换形成第一数据及第二数据，其中所述第一数据的输入通道压缩成1，所述第二数据的输入通道维度为C/2，C为所述混合注意力模块的输入通道数；

基于目标函数对所述第一数据进行信息增强处理；

将所述第二数据与增强处理后的所述第一数据进行矩阵相乘，并在相乘结果后接上1x1卷积及所述混合注意力模块中的特征归一化层，以将所述第二数据的输入通道维度升为C；

对所述第一数据与第二数据进行动态映射，以控制所述混合注意力模块中的权重均位于0-1之间；

将所述权重与所述支持特征集合及查询特征集合中的每个特征进行点乘，以实现每个所述特征在对应的输入通道上的注意力增强。

基于所述极化注意力机制，将所述支持特征集合及查询特征集合中的每个特征均分成两个分支，并分别进入1x1的第三卷积层和第四卷积层转换形成第三数据及第四数据；

对所述第三数据进行空间维度压缩，使其宽、高转换形成1*1的尺寸；

保持所述第四数据的空间维度恒定；

对压缩后的所述第三数据进行信息增强处理；

对所述第四数据与信息增强后的所述第三数据进行动态映射，以控制所述混合注意力模块中的权重均位于0-1之间；

将所述权重与所述支持特征集合及查询特征集合中的每个特征进行点乘，以实现每个所述特征在对应的空间上的注意力增强。

作为一可选实施例，所述混合注意力模块中还包含时空残差模块；

所述方法还包括：

基于所述时空残差模块对所述支持特征集合及查询特征集合中的特征在空间维度上执行2D卷积到中间子空间；

基于所述时空残差模块中的激活函数和BN层处理卷积至所述中间子空间中的特征，使该特征在时间轴上执行1D卷积；

基于所述时空残差模块中的池化层处理执行1D卷积的特征，得到增强处理后的所述支持特征集合及查询特征集合。

作为一可选实施例，所述原型注意力模块具有多头自注意力层；

所述方法还包括：

基于所述多头自注意力层处理所述原型注意力模块获得的增强处理后的所述支持特征及查询特征，得到特征间的注意力分数；

将所述注意力分数及对应的增强处理后的所述支持特征或查询特征进行输入相加后，结合所述目标函数进行映射处理。

作为一可选实施例，所述比对各个所述第一向量空间与第二向量空间的距离，并基于比对结果确定向量空间距离最近的所述查询特征与支持特征所属类别相同，包括：

所述原型注意力模块基于度量空间计算不同的所述支持特征对应的所述第一向量空间与不同的所述查询特征对应的第二向量空间的距离，并基于比对结果确定向量空间距离最近的所述查询特征与支持特征所属类别为同一类别。

其中，所述度量空间为所述原型注意力模块在所述多头自注意力层进行特征处理时学习得到。

本发明另一实施例同时提供一种小样本行为识别***，包括：

构建模块，用于构建小样本行为识别模型，所述小样本行为识别模型包括用于同时提取、处理视频的空间特征及时序特征的特征嵌入模块、用于捕捉处理所述视频的空间上下文特征的混合注意力模块、用于实现所述视频的特征分类的原型注意力模块；

预处理模块，用于将待处理视频进行预处理得到具有类别标签的支持集及无类别标签的查询集，所述支持集与查询集均由具有时序的视频帧形成；

输入模块，用于向所述小样本行为识别模型中输入所述支持集及查询集；

小样本行为识别模型，用于根据所述特征嵌入模块处理所述支持集和查询集，分别得到支持特征集合及查询特征集合；根据所述混合注意力模块对所述支持特征集合及查询特征集合中的特征进行增强处理；根据所述原型注意力模块将增强处理后的所述支持特征集合中的支持特征基于目标映射函数映射至不同的第一向量空间，同时将增强处理后所述查询特征集合中的查询特征基于所述目标映射函数映射至不同的第二向量空间，比对各个所述第一向量空间与第二向量空间的距离，并基于比对结果确定向量空间距离最近的所述查询特征与支持特征所属类别为同一类别。

本发明另一实施例还提供一种小样本行为识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行以实现如上文中任一项实施例所述的小样本行为识别方法。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为现有方案中的小样本行为识别方法过程图。

图2为本发明实施例中的小样本行为识别方法的流程图。

图3为本发明实施例中的小样本行为识别模型的结构框架图。

图4为本发明实施例中的小样本行为识别方法的应用流程图。

图5为本发明实施例中的R(2+1)D网络主要模块结构图。

图6为本发明实施例中的极化注意力机制结构图。

图7为本发明实施例中的小样本行为识别***的结构框图。

具体实施方式

下面，结合附图对本发明的具体实施例进行详细的描述，但不作为本发明的限定。

应理解的是，可以对此处公开的实施例做出各种修改。因此，下述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本发明的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本发明进行了描述，但本领域技术人员能够确定地实现本发明的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本公开的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本公开的具体实施例；然而，应当理解，所公开的实施例仅仅是本公开的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此，本文所公开的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本公开的相同或不同实施例中的一个或多个。

下面，结合附图详细的说明本发明实施例。

如图2所示，本发明实施例提供一种小样本行为识别方法，包括：

S101:构建小样本行为识别模型，所述小样本行为识别模型包括用于同时提取、处理视频的空间特征及时序特征的特征嵌入模块、用于捕捉处理视频的空间上下文特征的混合注意力模块、用于实现视频的特征分类的原型注意力模块；

S102:将待处理视频进行预处理得到具有类别标签的支持集及无类别标签的查询集，支持集与查询集均由具有时序的视频帧形成；

S103:向小样本行为识别模型中输入支持集及查询集；

S104:基于特征嵌入模块处理支持集和查询集，分别得到支持特征集合及查询特征集合；

S105:至少基于混合注意力模块对支持特征集合及查询特征集合中的特征进行增强处理；

S106:基于原型注意力模块将增强处理后的支持特征集合中的支持特征基于目标映射函数映射至不同的第一向量空间，同时将增强处理后查询特征集合中的查询特征基于目标映射函数映射至不同的第二向量空间，比对各个第一向量空间与第二向量空间的距离，并基于比对结果确定向量空间距离最近的查询特征与支持特征所属类别为同一类别。

所谓的小样本行为识别旨在样本量极少的数据基础上进行模型训练，将没有标签的视频准确分类到有标签的视频类别中，也即实现视频分类。目前大多数的方法采用了度量学习的思想，并选择2D网络来作为骨干网络，需要割裂地对特征的时序信息进行处理。为解决该问题，本实施例提出了一种用于小样本行为识别的混合注意力原型网络，也即一结构不同于现有方案的小样本行为识别模型。该模型算法由特征嵌入模块、混合注意力模块和原型注意力模块组成，其中特征嵌入模块通过采样视频理解领域的R(2+1)D作为主干网络来利用视频领域知识，对时域空域信息进行联合处理。在混合注意力模块中，模型同时对空间和时序信息进行了增强。原型注意力模块遵循原型网络的架构，在度量匹配之前，本实施例添加了多头注意力机制来学习向量空间中类间样本点的关系。

应用时，如图3所示，可以给定一个支持集(support set)和一个查询集(queryset)作为小样本行为识别模型(以下简称模型)的输入，通过模型处理将支持集中的支持特征和查询集中的查询特征映射到向量空间。利用查询集中的样本点(查询特征向量)对向量空间中支持集的样本点(支持特征向量)进行度量匹配，选择相似度最高的支持特征向量，即距离最小的支持特征向量的标签作为对应的查询特征向量的类别标签。

为了方便阐述上述实施例，设定N＝3，K＝1，并只针对单个查询视频进行阐述。具体地，支持集中包含了N个种类的视频动作。每个单独的视频片段被抽取成L个视频帧数，作为模型的输入。支持集中的视频帧进入时序特征提取模块(也即特征嵌入模块)进行处理，得到支持特征Es。查询集中的视频帧数据也通过同样结构的特征嵌入模块得到查询特征Eq。也就是，如图4所示，本实施例中的模型具有两组模块，每组模块均包括特征嵌入模块、混合注意力模块及原型注意力模块，两组模块分别用于处理支持集和查询集，且两组模块中的对应模块共享参数，如两组模块中的特征嵌入模块共享参数，结构相同。接着，将得到的特征进一步通过混合注意力模块进行增强处理，之后将增强处理后的支持集中的特征基于一映射函数分别映射到不同的向量空间(D₁...D_N)；对于查询集中的特征使用同一个映射函数映射到向量空间G，然后判断向量空间G与多个不同的向量空间(D₁...D_N)的距离，选择距离最近的支持特征向量所对应的类别作为查询样本所属的类别。

进一步地，如图5所示，本实施例中的特征嵌入模块由一个2D卷积网络和一个1D卷积网络组成，本实施例的特征嵌入模块采用了R(2+1)D网络。也就是特征嵌入模块为R(2+1)D网络，其是在3D CNN基础上演化而得到，本实施例的特征嵌入模块是把3D CNN中完整的3D卷积拆成一个2D卷积一个1D卷积，2D卷积网络用于处理视频的空间数据，1D卷积网络用于处理视频的时序特征，这是因为三维时空卷积把空间信息和动态信息融合在一起，不容易优化，而二维卷积和一维卷积更容易优化，通过本实施例设计的特征嵌入模块，可以得到支持集、查询集中多个视频帧的时序关系。

进一步地，本实施例中的混合注意力模块是为了能更好提取到视频的空间和时间上下文信息。首先，为了捕捉到空间上不同位置不同类别特征之间的差异，如图6所示，本实施例通过引入串联式的极化注意力机制PSA，在视频帧的画面和通道中进行空间上下文的特征提取及增强。基于极化注意力机制会在小样本行为识别模型的输入通道、支持特征或查询特征的宽、高三个维度进行数据处理，不会影响到数据的批次维度和时间维度。也就是说，PSA的处理对象就是支持集、查询集中的单张视频帧。

具体地，在至少基于混合注意力模块对支持特征集合及查询特征集合中的特征进行增强处理时，包括：

S107:基于极化注意力机制，将支持特征集合及查询特征集合中的每个特征均分成两个分支，并分别进入1x1的第一卷积层和第二卷积层转换形成第一数据及第二数据，其中第一数据的输入通道压缩成1，第二数据的输入通道维度为C/2，C为混合注意力模块的输入通道数；

S108:基于目标函数对第一数据进行信息增强处理；

S109:将第二数据与增强处理后的第一数据进行矩阵相乘，并在相乘结果后接上1x1卷积及混合注意力模块中的特征归一化层，以将第二数据的输入通道维度升为C；

S110:对第一数据与第二数据进行动态映射，以控制混合注意力模块中的权重均位于0-1之间；

S111：将权重与支持特征集合及查询特征集合中的每个特征进行点乘，以实现每个特征在对应的输入通道上的注意力增强。

例如，特征嵌入模块输出的特征数据分别记为E(si)、E(q)，其作为混合注意力模块的输入，为了方便阐述，本实施例中将PSA(模块)的输入记为x。结合图6可知，PSA有两个分支，分别是通道分支和空间分支。根据PSA提出的思想，本实施例需要让一个维度的特征完全坍塌，同时让特征在正交方向的维度保持高分辨率。所以在串联式PSA中，输入的数据x也分成两个分支，分别进入1x1的卷积层F_q和F_v，并分别转换成了q(第一数据)和v(第二数据)。其中q的输入通道被压缩成1，而v的输入通道维度降成了C/2，C为混合注意力模块的输入通道数，虽然其输入通道进行了降维，但是实际上依旧保持在一个比较高的维度。由于q的输入通道维度被压缩了，故本实施例优选利用Softmax函数对q的信息进行增强，以此来增加注意力的范围。然后将q和v进行矩阵相乘处理，并在相乘结果后接上1x1卷积和LayerNorm层(特征归一化层)，以将输入通道的C/2的维度升为C维度。最后再采用Sigmoid函数进行处理后的q和v的动态映射。基于Sigmoid函数，可以让所有PSA模块的参数(权重)都保持在0-1之间，基于该权重与初始输入数据x进行点乘，如此就可使x特征得到了通道上的注意力增强。

进一步地，在至少基于混合注意力模块对支持特征集合及查询特征集合中的特征进行增强处理时，还包括：

S112：基于极化注意力机制，将支持特征集合及查询特征集合中的每个特征均分成两个分支，并分别进入1x1的第三卷积层和第四卷积层转换形成第三数据及第四数据；

S113：对第三数据进行空间维度压缩，使其宽、高转换形成1*1的尺寸；

S114：保持第四数据的空间维度恒定；

S115：对压缩后的第三数据进行信息增强处理；

S116：对第四数据与信息增强后的第三数据进行动态映射，以控制混合注意力模块中的权重均位于0-1之间；

S117：将权重与支持特征集合及查询特征集合中的每个特征进行点乘，以实现每个特征在对应的空间上的注意力增强。

例如，由于本实施例中的PSA具有两个分支，当输入数据X得到了通道上的注意力增强后，就要进入空间分支进行空间上的注意力增强。图5展示了空间分支的具体结构，与上述的通道注意力类似，空间注意力模块在一开始也设置了两个1x1的卷积层，该两个卷积层把输入的特征x_c分别转换为了k和v。接着基于PSA的极化滤波思想，在k特征上使用GlobalPooling函数对空间维度进行压缩。把k特征的宽高转换成了1*1的尺寸，同时保持v特征的空间维度不变，仍位于一个比较大的水平。由于k特征的空间维度被压缩，所以本实施例同样使用Softmax函数对k的信息进行增强。最后与通道分支类似，使用Sigmoid函数处理获得的k和v，得到空间注意力权重，再与输入的特征x_c进行点乘，完成x_c在空间上的注意力增强。上述处理过程见公式：

x_c＝x⊙σ_sm(F_z(F_q(x)×φ(F_v(x))))

其中，σ_sm表示的是softmax函数。

优选地，本实施例中PSA模块后加入了时空残差模块，完成了混合注意力模块的构建，也即，本实施例中的混合注意力模块中还包含时空残差模块，基于时空残差模块可以在进一步优化空间特征的同时，实现时间上下文维度上的特征增强，补足了PSA模块在时间上处理的不足。

具体地，所述方法还包括：

S118：基于时空残差模块对支持特征集合及查询特征集合中的特征在空间维度上执行2D卷积到中间子空间；

S119：基于时空残差模块中的激活函数和BN层处理卷积至中间子空间中的特征，使该特征在时间轴上执行1D卷积；

S120：基于时空残差模块中的池化层处理执行1D卷积的特征，得到增强处理后的支持特征集合及查询特征集合。

例如，记输入的数据E(si)、E(q)首先在空间维度上执行1*d*d的2D卷积到中间子空间。接着经过relu激活函数和BN层的处理，在时间轴上执行k*1*1的1D卷积，加强对时间维度的特征处理。最后，将加强时间维度的特征处理后的结果通过时空残差模块的自适应池化层处理，得到了混合注意力模块的最终输出。其中，为了防止随着网络层数的增加而发生网络退化现象，本实施例采取了残差连接的方式连接PSA模块和时空残差模块。

进一步地，本实施例中的原型注意力模块用于实现未带标签的视频的最终分类。在小样本分类问题中，由于训练数据过少，一般的分类算法会表现出过拟合的现象，从而导致分类结果与实际结果有较大的误差。为了减少因数据量过少而导致的过拟合的影响，本实施例使用基于度量的原型网络来对之前网络学习到的特征进行度量分类，增加网络泛化性。

具体地，本实施例中的原型注意力模块具有多头自注意力层；

所述方法还包括：

S121：基于多头自注意力层处理原型注意力模块获得的增强处理后的支持特征及查询特征，得到特征间的注意力分数；

S122：将注意力分数及对应的增强处理后的支持特征或查询特征进行输入相加后，结合目标函数进行映射处理。

其中，在比对各个第一向量空间与第二向量空间的距离，并基于比对结果确定向量空间距离最近的查询特征与支持特征所属类别相同时，包括：

原型注意力模块基于度量空间计算不同的支持特征对应的第一向量空间与不同的查询特征对应的第二向量空间的距离，并基于比对结果确定向量空间距离最近的查询特征与支持特征所属类别相同；

其中，度量空间为原型注意力模块在多头自注意力层进行特征处理时学习得到。

例如，在经过上述网络模块处理后，本实施例把得到的特征表示为x，

在特征向量进行匹配之前，本实施例先使用标准多头自注意力层对特征x进行处理。其中N是输入序列的长度，D是隐藏维数。本实施例使用三个可学习参数的投影矩阵W_q，W_k，W_v来计算得到注意力层中的query、key和value，具体映射关系可以表示为：

x_q＝W_qx，x_k＝W_kx，x_v＝W_vx

在得到query、key和value的映射输出后，根据使用的多头注意力头部的数目h进一步把得到的x_q，x_k，x_v平均分成h份。同时每个头部再分别计算各自的自注意力，接着将每个头部得到的结果进行拼接。之后将拼接后的结果通过可学习的参数矩阵W^o进行融合。由此，可以得到样本之间的注意力分数，注意力分数和初始特征输入相加作为裨益。上述过程可以表示为：

其中d_k表示的是x_k的维度，σ_sm表示的是softmax函数。而不论是查询集还是支持集都会经过上述多头注意力模块的处理。但值得注意的是，在查询集的处理过程中，key和value的输入均是支持集提供的。具体可以表示为：

进一步地，本实施例中提出的模型加强了类原型样本之间的联系，对类间差距小的样本点的分类以及离群、重叠样本点之间的分类问题起到了很大程度的帮助。在经过多头注意力的处理后，原型注意力模块会学习一个度量空间，在该空间中，可以通过计算查询集中的样本与支持集中每个类的样本对应原型表示(即向量空间)的距离来进行分类，距离哪个类的原型表示最近，则被判断为哪个类。本实施例优选采用cosine函数来度量样本点(特征向量)间的距离。具体来说距离函数D可以表示为公式：

其中Π指的是样本点的总数，Q_G表示的是查询集中的样本点(查询特征向量)，S_G表示的是支持集中的样本点(支持特征向量)。另外，本实施例优选采用交叉熵代价函数来计算网络的损失，其中

表示预测标签，y表示真实标签，整个模型的损失函数可以简单表示为：

采用上述实施例所述的小样本行为识别方法可以达到以下技术效果：

1.相比于现有的小样本行为识别方法，本实施例从传统的视频理解任务中得到了启发，采用R(2+1)D作为主干网络来提取视频行为序列的特征。R(2+1)D网络可以在输入信息的空间维度和时间维度上联合建模，不需要时间维度割裂地处理。

2.本实施例提出了混合注意力模块。在混合注意力模块中，引入了极化自注意力机制对空间维度的信息特征进行增强。在极化自注意力机制之后，本实施例还添加了额外的一层残差连接的(2+1)D卷积，用于同时处理空间和时序信息，充分加强了了时序空间特征。

3.小样本的数据极其容易过拟合，基于此考量，本实施例还提出了原型注意力模块。原型注意力模块遵循原型网络的架构，在度量匹配之前，还添加了多头注意力机制来学习向量空间中类间样本点的关系，有效解决了小样本训练中过拟合地问题。

如图7所示，本发明另一实施例同时提供一种小样本行为识别***100，包括：

构建模块，用于构建小样本行为识别模型，小样本行为识别模型包括用于同时提取、处理视频的空间特征及时序特征的特征嵌入模块、用于捕捉处理视频的空间上下文特征的混合注意力模块、用于实现视频的特征分类的原型注意力模块；

预处理模块，用于将待处理视频进行预处理得到具有类别标签的支持集及无类别标签的查询集，支持集与查询集均由具有时序的视频帧形成；

输入模块，用于向小样本行为识别模型中输入支持集及查询集；

小样本行为识别模型，用于根据特征嵌入模块处理支持集和查询集，分别得到支持特征集合及查询特征集合；根据混合注意力模块对支持特征集合及查询特征集合中的特征进行增强处理；根据原型注意力模块将增强处理后的支持特征集合中的支持特征基于目标映射函数映射至不同的第一向量空间，同时将增强处理后查询特征集合中的查询特征基于目标映射函数映射至不同的第二向量空间，比对各个第一向量空间与第二向量空间的距离，并基于比对结果确定向量空间距离最近的查询特征与支持特征所属类别为同一类别。

作为一可选实施例，特征嵌入模块由一个2D卷积网络和一个1D卷积网络组成，2D卷积网络用于处理视频的空间数据，1D卷积网络用于处理视频的时序特征，以得到支持集、查询集中多个视频帧的时序关系。

作为一可选实施例，混合注意力模块引入有串联式的极化注意力机制，基于极化注意力机制会在小样本行为识别模型的输入通道、支持特征或查询特征的宽、高三个维度进行数据处理。

作为一可选实施例，至少基于混合注意力模块对支持特征集合及查询特征集合中的特征进行增强处理，包括：

基于极化注意力机制，将支持特征集合及查询特征集合中的每个特征均分成两个分支，并分别进入1x1的第一卷积层和第二卷积层转换形成第一数据及第二数据，其中第一数据的输入通道压缩成1，第二数据的输入通道维度为C/2，C为混合注意力模块的输入通道数；

基于目标函数对第一数据进行信息增强处理；

将第二数据与增强处理后的第一数据进行矩阵相乘，并在相乘结果后接上1x1卷积及混合注意力模块中的特征归一化层，以将第二数据的输入通道维度升为C；

对第一数据与第二数据进行动态映射，以控制混合注意力模块中的权重均位于0-1之间；

将权重与支持特征集合及查询特征集合中的每个特征进行点乘，以实现每个特征在对应的输入通道上的注意力增强。

基于极化注意力机制，将支持特征集合及查询特征集合中的每个特征均分成两个分支，并分别进入1x1的第三卷积层和第四卷积层转换形成第三数据及第四数据；

对第三数据进行空间维度压缩，使其宽、高转换形成1*1的尺寸；

保持第四数据的空间维度恒定；

对压缩后的第三数据进行信息增强处理；

对第四数据与信息增强后的第三数据进行动态映射，以控制混合注意力模块中的权重均位于0-1之间；

将权重与支持特征集合及查询特征集合中的每个特征进行点乘，以实现每个特征在对应的空间上的注意力增强。

作为一可选实施例，混合注意力模块中还包含时空残差模块；

所述***还包括：

时空残差模块，用于对支持特征集合及查询特征集合中的特征在空间维度上执行2D卷积到中间子空间，并基于时空残差模块中的激活函数和BN层处理卷积至中间子空间中的特征，使该特征在时间轴上执行1D卷积；接着基于时空残差模块中的池化层处理执行1D卷积的特征，得到增强处理后的支持特征集合及查询特征集合。

作为一可选实施例，原型注意力模块具有多头自注意力层；

所述原型注意力模块还用于：

基于多头自注意力层处理原型注意力模块获得的增强处理后的支持特征及查询特征，得到特征间的注意力分数；

将注意力分数及对应的增强处理后的支持特征或查询特征进行输入相加后，结合目标函数进行映射处理。

作为一可选实施例，比对各个第一向量空间与第二向量空间的距离，并基于比对结果确定向量空间距离最近的查询特征与支持特征所属类别相同，包括：

本发明另一实施例还提供一种小样本行为识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

进一步地，本发明一实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的小样本行为识别方法。应理解，本实施例中的各个方案具有上述方法实施例中对应的技术效果，此处不再赘述。

进一步地，本发明实施例还提供了一种计算机程序产品，所述计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可读指令，所述计算机可执行指令在被执行时使至少一个处理器执行诸如上文所述实施例中的小样本行为识别方法。

需要说明的是，本发明的计算机存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的***、***或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、***或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输配置为由指令执行***、***或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、天线、光缆、RF等等，或者上述的任意合适的组合。

另外，本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的***。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令***的制造品，该指令***实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种小样本行为识别方法，其特征在于，包括：

向所述小样本行为识别模型中输入所述支持集及查询集；

2.根据权利要求1所述的小样本行为识别方法，其特征在于，所述特征嵌入模块由一个2D卷积网络和一个1D卷积网络组成，所述2D卷积网络用于处理视频的空间数据，所述1D卷积网络用于处理视频的时序特征，以得到支持集、查询集中多个视频帧的时序关系。

3.根据权利要求1所述的小样本行为识别方法，其特征在于，所述混合注意力模块引入有串联式的极化注意力机制，基于所述极化注意力机制会在所述小样本行为识别模型的输入通道、支持特征或查询特征的宽、高三个维度进行数据处理。

4.根据权利要求3所述的小样本行为识别方法，其特征在于，所述至少基于所述混合注意力模块对所述支持特征集合及查询特征集合中的特征进行增强处理，包括：

基于目标函数对所述第一数据进行信息增强处理；

5.根据权利要求3所述的小样本行为识别方法，其特征在于，所述至少基于所述混合注意力模块对所述支持特征集合及查询特征集合中的特征进行增强处理，包括：

保持所述第四数据的空间维度恒定；

对压缩后的所述第三数据进行信息增强处理；

6.根据权利要求3所述的小样本行为识别方法，其特征在于，所述混合注意力模块中还包含时空残差模块；

所述方法还包括：

7.根据权利要求1所述的小样本行为识别方法，其特征在于，所述原型注意力模块具有多头自注意力层；

所述方法还包括：

8.根据权利要求7所述的小样本行为识别方法，其特征在于，所述比对各个所述第一向量空间与第二向量空间的距离，并基于比对结果确定向量空间距离最近的所述查询特征与支持特征所属类别相同，包括：

所述原型注意力模块基于度量空间计算不同的所述支持特征对应的所述第一向量空间与不同的所述查询特征对应的第二向量空间的距离，并基于比对结果确定向量空间距离最近的所述查询特征与支持特征所属类别相同；

9.一种小样本行为识别***，其特征在于，包括：

10.一种小样本行为识别设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行以实现如权利要求1-8中任一项所述的小样本行为识别方法。