CN111126218B

CN111126218B - 一种基于零样本学习的人体行为识别方法

Info

Publication number: CN111126218B
Application number: CN201911288489.6A
Authority: CN
Inventors: 孔德慧; 孙彬; 王少帆; 李敬华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2023-09-26
Anticipated expiration: 2039-12-12
Also published as: CN111126218A

Abstract

公开一种基于零样本学习的人体行为识别方法，其提高了所训练分类器的分类性能和准确率，推进了人体行为类别自动标注目标的实现。该方法包括：(1)基于动作类与动作关联物体构造知识图谱，并通过基于注意力机制的图卷积网络AMGCN动态更新其关系，旨在更好地描述图中节点的关系；(2)学习基于梯度惩罚和循环一致性约束的生成对抗网络WGAN‑GCC，使得学习的生成器能够更好地生成未知类特征；(3)将图卷积网络和生成对抗网络两个网络结合为双流深度神经网络，使得训练的分类器更具判别性。

Description

一种基于零样本学习的人体行为识别方法

技术领域

本发明涉及计算机视觉和模式识别的技术领域，尤其涉及一种基于零样本学习的人体行为识别方法。

背景技术

人体行为识别是机器学习和计算机视觉领域中一个重要的研究课题，在众多研究课题中得到广泛的应用，如人机交互，视频监控，运动检索和体育视频分析等。当前，互联网技术和新兴社交媒体的飞速发展，以及人机交互技术应用领域的不断拓展，使得图像、视频等形式的数据每天都在以惊人的速度增加，所涉及的人体行为的复杂度也在与日提高，且视频类别数量也随之增长。面对呈***性增长的海量视频数据，一个非常棘手的问题就是人体行为视频数据标注问题。海量数据的手工标注，不仅是一个耗时且昂贵的操作，而且容易受人的主观判断的影响，因此手工标注是一项繁琐又具主观歧义性的任务。与此同时，传统的行为识别方法囿于数据类别可扩展性的限制而不适用于识别未知类视频，无法支持自动标注功能的实现。由此可见，如何从已标注的人体行为视频中获取潜在的信息，从而对未知的视频进行有效的标注已成为目前一个迫切需要解决的问题。因此，零样本人体行为识别方法最近受到广泛的关注，其核心任务是在不提供同类别训练数据的前提下对未知标签的行为数据进行识别。

众所周知，模型的训练非常依赖数据的标注，所以零样本学习问题给基于机器学习的模型训练带来了挑战。已有解决零样本学习问题的方法主要可分为两类：(1)手工定义动作属性并利用动作与属性的关系来区分新的动作类。然而，人的主观因素、领域知识的缺乏使得确定用于描述所有动作的一组属性非常困难。此外，尽管属性可以看作是数据驱动的学习，但是它们的语义含义可能是未知的或不恰当的。所以基于属性的方法很难有效解决海量类别的零样本学习问题。(2)采用动作名称的语义表示(例如，词嵌入)来建模语义空间中的动作与动作的关系实现分类。尽管这些方法简单有效，但词嵌入空间只能以隐式方式表示动作与动作的关系，所以分类性能较差。

上述两类方法忽略了动作类别间存在的内涵式关系和外延关系，导致以上零样本学习方法的泛化能力较差。实际上，人类使用经验学习的语义知识，可借助概念语义内涵与外延的关联，推而广之地使自己具有识别更大规模概念的能力。因此，使用结构化知识信息来构建概念的关系(例如，动作和属性)能够将学到的知识从已知类迁移到未知类。一些基于图卷积网络(Graph Convolutional Networks，GCN)的方法通过将知识图谱应用于零样本学习，达成了知识迁移的目的。然而，这些方法所构建的邻接矩阵在初始设置后保持不变，这使其无法自适应地描述图中节点不断变化的关系，导致知识迁移不完整。另外，现有的零样本学习方法在训练中无法使用未知类的样本特征，这使得训练的分类器更偏向于预测已知类的样本类别。因此，在模型训练过程中提供未知类行为相关的特征，使学习到的分类器更好地适应未知类动作的分类需求，必将有效提升零样本分类方法性能。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种基于零样本学习的人体行为识别方法，其提高了所训练分类器的分类性能和准确率，推进了人体行为类别自动标注目标的实现。

本发明的技术方案是：这种基于零样本学习的人体行为识别方法，该方法包括以下步骤：

(1)基于动作类与动作关联物体构造知识图谱，并通过基于注意力机制的图卷积网络AMGCN动态更新其关系，旨在更好地描述图中节点的关系；

(2)学习基于梯度惩罚和循环一致性约束的生成对抗网络WGAN-GCC，使得学习的生成器能够更好地生成未知类特征；

(3)将图卷积网络和生成对抗网络两个网络结合为双流深度神经网络，使得训练的分类器更具判别性。

本发明基于动作类和相关物体的关联关系构造动作知识图谱，提出一种基于注意力机制的图卷积网络，从而实现了动作类-物体关联关系的动态表达，使知识更新对模型学***衡的问题；实验结果表明，本发明提高了所训练分类器的分类性能和准确率，推进了人体行为类别自动标注目标的实现。

附图说明

图1示出了根据本发明的基于零样本学习的人体行为识别方法的基于注意力机制的图卷积网络。

图2示出了根据本发明的基于零样本学习的人体行为识别方法的基于梯度惩罚和循环一致性约束的生成对抗网络。

图3示出了根据本发明的基于零样本学习的人体行为识别方法的双流深度神经网络。

图4示出了在HMDB51和UCF101数据集上对本发明方法每一部分的评价。

图5示出了根据本发明的基于零样本学习的人体行为识别方法的流程图。

具体实施方式

如图5所示，这种基于零样本学习的人体行为识别方法，该方法包括以下步骤：

优选地，所述步骤(1)中，构建一个由已知动作类S、未知动作类U和物体O的概念组成的知识图谱，并使用这些概念相应的词向量作为知识图谱中的节点；然后通过ConceptNet可以确定节点间的初始关系并用邻接矩阵A表示，其中A的每一个元素A_ij表示第i个节点和第j个节点的关系；

为已知类的训练集，其中/>表示特征，中的y表示一个已知类的标签，/>表示特定类的词向量，在训练过程中是可用的，其中/>中的u表示一个未知类的标签，/>表示相应类的词向量，未知类的样本特征在训练中是不可用的。

优选地，所述步骤(1)中，图卷积网络将C＝S+U个动作类和O个物体信息的词向量以及邻接矩阵A作为输入，通过网络每一层之间信息的传递和计算，获取所有动作类的分类器和所有物体分类器/>其中O个物体分类器充当了已知和未知类动作之间的桥梁；每一层GCN都是将上一层的特征矩阵Z_l-1作为输入,并输出新的特征矩阵Z_l，其中第一层的输入是一个k×(C+O)维的特征矩阵，k表示每个特征的维度；网络中每一层的卷积运算表示为公式(1)

其中A表示邻接矩阵，I表示单位矩阵,Φ_(l-1)表示第l-1层的参数矩阵；每一层后都跟随一个ReLU函数，为了使得训练的动作类分类器具有更强的分类能力，在每一次迭代后，将更新动作-物体、物体-物体和动作-动作之间的关系，通过公式(2)更新邻接矩阵A：

其中表示第j个节点的k近邻；图卷积网络在训练时使用的交叉熵损失函数为公式(3)：

其中表示第n个样本关于第i个类的标签(0或1)，N表示已知类训练样本个数和未知类合成样本个数之和，/>表示预测的分数，为公式(4)：

其中表示第i类动作的第n个样本。

优选地，所述步骤(2)中，WGAN-GCC的损失函数由梯度惩罚约束的WGAN损失函数和循环一致性损失函数/>两部分组成，为公式(5)：

梯度惩罚约束的WGAN的损失函数为公式(6)：

其中λ是惩罚系数，前两项近似于Wasserstein距离，第三项是对D的梯度惩罚项；这里的判别器为/>它去除了sigmoid层并且输出为实值；期望生成的特征具有较强的判别能力，以便可以使用相同类的特征重建类的词向量，加入解码器使合成特征/>重建词向量c(y)，这里使用的循环一致性损失函数为公式(7)：

其中表示重构的词向量；

通过训练基于梯度惩罚和循环一致性约束的生成对抗网络，通过生成器生成未知类的特征；给定未知类的词向量c(u)和随机高斯噪声/>通过计算/>合成任意特征/>从而获得合成的训练集/>

优选地，所述步骤(3)中，首先训练WGAN-GCC，生成未知类特征，并与已知类的特征一起作为AMGCN的训练样本；然后，通过AMGCN同时训练已知类的分类器和未知类的分类器。

优选地，所述步骤(3)中，在测试阶段，使用训练的分类器对测试视频进行分类，q＝Wx，其中W表示分类器矩阵，x表示测试样本，表示预测的标签向量，该向量中最大元素所在的维度即为预测的类别。

以下更详细地说明本发明。

本发明提出一种新的基于零样本学习的人体行为识别方法。其基本思想是：首先，基于动作类与动作关联物体构造知识图谱，并通过图卷积网络动态更新其关系，旨在更好地描述图中节点的关系(如图1所示)。然后，学习一种改进的生成对抗网络，使得学习的生成器能够更好地生成未知类特征(如图2所示)。最后，将两个网络结合(如图3所示)，使得训练的分类器更具判别性。

定义为已知类的训练集，其中/>表示特征，/>中的y表示一个已知类的标签，/>表示特定类的词向量。此外，在训练过程中是可用的，其中/>中的u表示一个未知类的标签，/>表示相应类的词向量，未知类的样本特征在训练中是不可用的。

(1)基于注意力机制的图卷积网络分类器训练

为了能够更好描述动作类和相关物体的关联关系，本发明提出了一种基于注意力机制的图卷积网络(Attention mechanism based graph convolution network，AMGCN)，从而动态地表达动作类-物体的关系(如图1所示)。本发明构建一个由已知动作类(S)、未知动作类(U)和物体(O)的概念组成的知识图谱，并使用这些概念相应的词向量作为知识图谱中的节点。然后通过ConceptNet可以确定节点间的初始关系并用邻接矩阵A表示，其中A的每一个元素A_ij表示第i个节点和第j个节点的关系。

本发明设计的GCN将C＝S+U个动作类和O个物体信息的词向量以及邻接矩阵A作为输入，通过网络每一层之间信息的传递和计算，获取所有动作类的分类器和所有物体分类器/>其中O个物体分类器充当了已知和未知类动作之间的桥梁。每一层GCN都是将上一层的特征矩阵Z_l-1作为输入,并输出新的特征矩阵Z_l，其中第一层的输入是一个k×(C+O)维的特征矩阵，k表示每个特征的维度。网络中每一层的卷积运算可表示为

其中A表示邻接矩阵，I表示单位矩阵,Φ_(l-1)表示第l-1层的参数矩阵。每一层后都会跟随一个ReLU函数。为了使得训练的动作类分类器具有更强的分类能力，在每一次迭代后，我们将会更新动作-物体、物体-物体和动作-动作之间的关系，也就是通过下式更新邻接矩阵A：

其中表示第j个节点的k近邻。本发明设计的GCN在训练时使用的交叉熵损失函数为：

其中表示第n个样本关于第i个类的标签(0或1)，N表示已知类训练样本个数和未知类合成样本个数之和，/>表示预测的分数，即：

其中表示第i类动作的第n个样本。

(2)基于梯度惩罚和循环一致性约束的WGAN样本生成模型

给定已知类的训练数据，我们希望使用未知类的词向量c(u)来合成未知类的数据，从而减小已知类与未知类训练样本不平衡的问题。一种有效的方法就是通过GAN合成一些未知类的“假”样本。GAN由生成器G和判别器D组成，其中，生成器用于生成“假”样本，判别器用于判别样本是真实的还是合成的。一般情况下，通过给定语义描述，GAN可以合成未知对象的图片。然而，本发明的研究对象为人体行为视频而不是图片，所以我们提出了一种基于梯度惩罚和循环一致性约束的WGAN(Wasserstein Generative Adversarial Networkbased on Gradient penalty and Cycle-consistency Constraint，WGAN-GCC)合成未知类的样本特征，如图2所示，其中c(y)表示每个类的词向量。WGAN-GCC的损失函数由梯度惩罚约束的WGAN损失函数和循环一致性损失函数/>两部分组成，即：

梯度惩罚约束的WGAN的损失函数为：

其中λ是惩罚系数。前两项近似于Wasserstein距离，第三项是对D的梯度惩罚项。这里的判别器为/>它去除了sigmoid层并且输出为实值。此外，我们期望生成的特征具有较强的判别能力，以便可以使用相同类的特征重建类的词向量。因此，我们加入解码器使合成特征/>重建词向量c(y)。这里使用的循环一致性损失函数为：

其中表示重构的词向量。

通过训练WGAN-GCC，就可以通过生成器生成未知类的特征。给定未知类的词向量c(u)和随机高斯噪声/>通过计算/>可以合成任意特征/>从而可以获得合成的训练集/>

(3)双流深度神经网络、

通过生成未知类特征，可以为基于注意力机制的图卷积网络训练分类器提供更多的未知类训练样本，增强其分类性能和泛化能力。因此，本发明结合上述两个网络提出双流深度神经网络(Two stream deep neural network，TSDNN)，如图3所示。这样，训练样本就包括已知类样本特征和虚拟未知类的样本特征。训练期间，本发明首先训练WGAN-GCC，生成未知类特征，并与已知类的特征一起作为AMGCN的训练样本(如图3上半部分所示)。然后，通过AMGCN同时训练已知类的分类器和未知类的分类器。在测试阶段，本发明使用训练的分类器对测试视频进行分类，即q＝Wx，其中W表示分类器矩阵，x表示测试样本，表示预测的标签向量，该向量中最大元素所在的维度即为预测的类别。通过图4可以看出本发明方法使用或不使用WGAN-GCC和注意力机制对性能的影响，其中Ours表示本发明方法，Ours-NoGAN表示不使用WGAN-GCC的方法，Ours-NoAt表示不使用注意力机制的方法。对于Ours-NoGAN，该方法在训练中没有未知类的合成特征，这使得学习的分类器对未知类的样本分类性能降低。对于Ours-NoAt，该方法在训练中没有动态地更新邻接矩阵A，这使得动作-动作、动作-物体、物体-物体之间的关系不能自适应地进行调整，所以训练得到的分类器分类性能下降。结果清楚地表明，结合WGAN-GCC和注意力机制的GCN对于零样本学习都是重要且有效的。

本发明使用HMDB51数据库和UCF101数据库，针对零样本学习(Zero-shotlearning，ZSL)和广义零样本学习(Generalized zero-shot learning，GZSL)两种不同的任务验证本发明的有效性。在训练阶段，对于ZSL和GZSL这两种任务，已知类的样本和属性都是可用的。在测试阶段，对于ZSL任务，训练的模型只对未知类的数据进行评价；对GZSL任务，训练的模型要同时对已知类和未知类的数据进行评价。

在ZSL任务上的实验结果如表1所示，其中BoW表示词袋模型，FV表示FisherVector，I3D表示Inflated 3D，W表示词向量(word2vec)。从表中可以看出，本发明在UCF101数据集和HMDB51数据集上均取得了最好的识别效果。与传统方法(ZSECOC、UR等)相比，本发明和一些深度学习的方法性能更优。与最近的方法UR、CLSWGAN和CEWGAN相比，本发明在HMDB51数据集上性能分别提升了6.8％、2.1％和1％，在UCF101数据集上性能分别提升了10.8％、2.5％和1.4％。这些结果证明了本发明的有效性。此外，本发明的性能具有更小的标准差，这表明，本发明具有较稳定的识别性能。在GZSL任务上的实验结果如表2所示，从表中可以看出本发明在两个数据集上分类结果优于对比方法，分别在HMDB51和UCF101数据集上达到了36.4％和37.6％的识别率。与目前最优的CEWGAN相比，本发明具有较优的性能。

表3展示了本发明与使用GAN的有关方法的对比，其中s、u、H分别表示已知类的准确率、未知类的准确率和它们的调和平均数，即:

从表3可以看出，本发明方法的准确率是最佳的。本发明方法的结果明显好于CLSWGAN和CEWGAN，本发明方法相比于这两种方法在两个数据集上性能分别提升了3.7％/5.2％、2.8％/3.9％，这说明设计一个合理的分类器可以明显的提升性能。与CEWGAN-OD相比，本发明方法在未知类上的准确率略差，但是在已知类上的准确率明显优于对方，总体准确率也占优。CEWGAN-OD在未知类上的准确率性能较优的部分原因是该方法加入了OD(out-of-distribution)检测器，可以在分类前先检测每个样本是否属于已知类，从而提升了分类性能。而本发明方法并没有加入OD检测器，只用一个共用的分类器进行分类，依然能达到较优的总体分类性能。

表1

表2

表3

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于零样本学习的人体行为识别方法，其特征在于：该方法包括以下步骤：

(1)基于动作类与动作关联物体构造知识图谱，并通过基于注意力机制的图卷积网络AMGCN动态更新其关系；

(3)将图卷积网络和生成对抗网络两个网络结合为双流深度神经网络，使得训练的分类器更具判别性；

所述步骤(1)中，构建一个由已知动作类S^’、未知动作类U^’和物体O的概念组成的知识图谱，并使用这些概念相应的词向量作为知识图谱中的节点；然后通过ConceptNet确定节点间的初始关系并用邻接矩阵A表示，其中A的每一个元素A_ij表示第i个节点和第j个节点的关系；为已知类的训练集，其中x表示特征，/>中的y表示一个已知类的标签，c(y)表示特定类的词向量，/>在训练过程中是可用的，其中/>中的u表示一个未知类的标签，c(u)表示相应类的词向量，未知类的样本特征在训练中是不可用的；

所述步骤(1)中，图卷积网络将C＝S^’+U^’个动作类和O个物体信息的词向量以及邻接矩阵A作为输入，通过网络每一层之间信息的传递和计算，获取所有动作类的分类器和所有物体分类器/>其中O个物体分类器充当了已知和未知类动作之间的桥梁；每一层图卷积都是将上一层的特征矩阵Z_l-1作为输入,并输出新的特征矩阵Z_l，其中第一层的输入是一个k×(C+O)维的特征矩阵，k表示每个特征的维度；网络中每一层的卷积运算表示为公式(1)

其中表示第n个样本关于第i个类的标签，N表示已知类训练样本个数和未知类合成样本个数之和，/>表示预测的分数，为公式(4)：

其中表示第i类动作的第n个样本。

2.根据权利要求1所述的基于零样本学习的人体行为识别方法，其特征在于：所述步骤(2)中，WGAN-GCC的损失函数由梯度惩罚约束的WGAN损失函数和循环一致性损失函数/>两部分组成，为公式(5)：

梯度惩罚约束的WGAN的损失函数为公式(6)：

其中λ是惩罚系数；这里的判别器为D：/>它去除了sigmoid层并且输出为实值；期望生成的特征具有较强的判别能力，以便使用相同类的特征重建类的词向量，加入解码器使合成特征/>重建词向量c(y)，这里使用的循环一致性损失函数为公式(7)：

其中表示重构的词向量；

通过训练基于梯度惩罚和循环一致性约束的生成对抗网络，通过生成器生成未知类的特征；

给定未知类的词向量c(u)和随机高斯噪声/>通过计算/>合成任意特征/>从而获得合成的训练集/>

3.根据权利要求2所述的基于零样本学习的人体行为识别方法，其特征在于：所述步骤(3)中，首先训练WGAN-GCC，生成未知类特征，并与已知类的特征一起作为AMGCN的训练样本；

然后，通过AMGCN同时训练已知类的分类器和未知类的分类器。

4.根据权利要求3所述的基于零样本学习的人体行为识别方法，其特征在于：所述步骤(3)中，在测试阶段，使用训练的分类器对测试视频进行分类，q^’＝Wx^’，其中W表示分类器矩阵，x^’表示测试样本，q^’表示预测的标签向量，该向量中最大元素所在的维度为预测的类别。