CN111126218B - 一种基于零样本学习的人体行为识别方法 - Google Patents

一种基于零样本学习的人体行为识别方法 Download PDF

Info

Publication number
CN111126218B
CN111126218B CN201911288489.6A CN201911288489A CN111126218B CN 111126218 B CN111126218 B CN 111126218B CN 201911288489 A CN201911288489 A CN 201911288489A CN 111126218 B CN111126218 B CN 111126218B
Authority
CN
China
Prior art keywords
class
network
action
unknown
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911288489.6A
Other languages
English (en)
Other versions
CN111126218A (zh
Inventor
孔德慧
孙彬
王少帆
李敬华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911288489.6A priority Critical patent/CN111126218B/zh
Publication of CN111126218A publication Critical patent/CN111126218A/zh
Application granted granted Critical
Publication of CN111126218B publication Critical patent/CN111126218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

公开一种基于零样本学习的人体行为识别方法,其提高了所训练分类器的分类性能和准确率,推进了人体行为类别自动标注目标的实现。该方法包括:(1)基于动作类与动作关联物体构造知识图谱,并通过基于注意力机制的图卷积网络AMGCN动态更新其关系,旨在更好地描述图中节点的关系;(2)学习基于梯度惩罚和循环一致性约束的生成对抗网络WGAN‑GCC,使得学习的生成器能够更好地生成未知类特征;(3)将图卷积网络和生成对抗网络两个网络结合为双流深度神经网络,使得训练的分类器更具判别性。

Description

一种基于零样本学习的人体行为识别方法
技术领域
本发明涉及计算机视觉和模式识别的技术领域,尤其涉及一种基于零样本学习的人体行为识别方法。
背景技术
人体行为识别是机器学习和计算机视觉领域中一个重要的研究课题,在众多研究课题中得到广泛的应用,如人机交互,视频监控,运动检索和体育视频分析等。当前,互联网技术和新兴社交媒体的飞速发展,以及人机交互技术应用领域的不断拓展,使得图像、视频等形式的数据每天都在以惊人的速度增加,所涉及的人体行为的复杂度也在与日提高,且视频类别数量也随之增长。面对呈***性增长的海量视频数据,一个非常棘手的问题就是人体行为视频数据标注问题。海量数据的手工标注,不仅是一个耗时且昂贵的操作,而且容易受人的主观判断的影响,因此手工标注是一项繁琐又具主观歧义性的任务。与此同时,传统的行为识别方法囿于数据类别可扩展性的限制而不适用于识别未知类视频,无法支持自动标注功能的实现。由此可见,如何从已标注的人体行为视频中获取潜在的信息,从而对未知的视频进行有效的标注已成为目前一个迫切需要解决的问题。因此,零样本人体行为识别方法最近受到广泛的关注,其核心任务是在不提供同类别训练数据的前提下对未知标签的行为数据进行识别。
众所周知,模型的训练非常依赖数据的标注,所以零样本学习问题给基于机器学习的模型训练带来了挑战。已有解决零样本学习问题的方法主要可分为两类:(1)手工定义动作属性并利用动作与属性的关系来区分新的动作类。然而,人的主观因素、领域知识的缺乏使得确定用于描述所有动作的一组属性非常困难。此外,尽管属性可以看作是数据驱动的学习,但是它们的语义含义可能是未知的或不恰当的。所以基于属性的方法很难有效解决海量类别的零样本学习问题。(2)采用动作名称的语义表示(例如,词嵌入)来建模语义空间中的动作与动作的关系实现分类。尽管这些方法简单有效,但词嵌入空间只能以隐式方式表示动作与动作的关系,所以分类性能较差。
上述两类方法忽略了动作类别间存在的内涵式关系和外延关系,导致以上零样本学习方法的泛化能力较差。实际上,人类使用经验学习的语义知识,可借助概念语义内涵与外延的关联,推而广之地使自己具有识别更大规模概念的能力。因此,使用结构化知识信息来构建概念的关系(例如,动作和属性)能够将学到的知识从已知类迁移到未知类。一些基于图卷积网络(Graph Convolutional Networks,GCN)的方法通过将知识图谱应用于零样本学习,达成了知识迁移的目的。然而,这些方法所构建的邻接矩阵在初始设置后保持不变,这使其无法自适应地描述图中节点不断变化的关系,导致知识迁移不完整。另外,现有的零样本学习方法在训练中无法使用未知类的样本特征,这使得训练的分类器更偏向于预测已知类的样本类别。因此,在模型训练过程中提供未知类行为相关的特征,使学习到的分类器更好地适应未知类动作的分类需求,必将有效提升零样本分类方法性能。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于零样本学习的人体行为识别方法,其提高了所训练分类器的分类性能和准确率,推进了人体行为类别自动标注目标的实现。
本发明的技术方案是:这种基于零样本学习的人体行为识别方法,该方法包括以下步骤:
(1)基于动作类与动作关联物体构造知识图谱,并通过基于注意力机制的图卷积网络AMGCN动态更新其关系,旨在更好地描述图中节点的关系;
(2)学习基于梯度惩罚和循环一致性约束的生成对抗网络WGAN-GCC,使得学习的生成器能够更好地生成未知类特征;
(3)将图卷积网络和生成对抗网络两个网络结合为双流深度神经网络,使得训练的分类器更具判别性。
本发明基于动作类和相关物体的关联关系构造动作知识图谱,提出一种基于注意力机制的图卷积网络,从而实现了动作类-物体关联关系的动态表达,使知识更新对模型学***衡的问题;实验结果表明,本发明提高了所训练分类器的分类性能和准确率,推进了人体行为类别自动标注目标的实现。
附图说明
图1示出了根据本发明的基于零样本学习的人体行为识别方法的基于注意力机制的图卷积网络。
图2示出了根据本发明的基于零样本学习的人体行为识别方法的基于梯度惩罚和循环一致性约束的生成对抗网络。
图3示出了根据本发明的基于零样本学习的人体行为识别方法的双流深度神经网络。
图4示出了在HMDB51和UCF101数据集上对本发明方法每一部分的评价。
图5示出了根据本发明的基于零样本学习的人体行为识别方法的流程图。
具体实施方式
如图5所示,这种基于零样本学习的人体行为识别方法,该方法包括以下步骤:
(1)基于动作类与动作关联物体构造知识图谱,并通过基于注意力机制的图卷积网络AMGCN动态更新其关系,旨在更好地描述图中节点的关系;
(2)学习基于梯度惩罚和循环一致性约束的生成对抗网络WGAN-GCC,使得学习的生成器能够更好地生成未知类特征;
(3)将图卷积网络和生成对抗网络两个网络结合为双流深度神经网络,使得训练的分类器更具判别性。
本发明基于动作类和相关物体的关联关系构造动作知识图谱,提出一种基于注意力机制的图卷积网络,从而实现了动作类-物体关联关系的动态表达,使知识更新对模型学***衡的问题;实验结果表明,本发明提高了所训练分类器的分类性能和准确率,推进了人体行为类别自动标注目标的实现。
优选地,所述步骤(1)中,构建一个由已知动作类S、未知动作类U和物体O的概念组成的知识图谱,并使用这些概念相应的词向量作为知识图谱中的节点;然后通过ConceptNet可以确定节点间的初始关系并用邻接矩阵A表示,其中A的每一个元素Aij表示第i个节点和第j个节点的关系;
为已知类的训练集,其中/>表示特征,中的y表示一个已知类的标签,/>表示特定类的词向量,在训练过程中是可用的,其中/>中的u表示一个未知类的标签,/>表示相应类的词向量,未知类的样本特征在训练中是不可用的。
优选地,所述步骤(1)中,图卷积网络将C=S+U个动作类和O个物体信息的词向量以及邻接矩阵A作为输入,通过网络每一层之间信息的传递和计算,获取所有动作类的分类器和所有物体分类器/>其中O个物体分类器充当了已知和未知类动作之间的桥梁;每一层GCN都是将上一层的特征矩阵Zl-1作为输入,并输出新的特征矩阵Zl,其中第一层的输入是一个k×(C+O)维的特征矩阵,k表示每个特征的维度;网络中每一层的卷积运算表示为公式(1)
其中A表示邻接矩阵,I表示单位矩阵,Φ(l-1)表示第l-1层的参数矩阵;每一层后都跟随一个ReLU函数,为了使得训练的动作类分类器具有更强的分类能力,在每一次迭代后,将更新动作-物体、物体-物体和动作-动作之间的关系,通过公式(2)更新邻接矩阵A:
其中表示第j个节点的k近邻;图卷积网络在训练时使用的交叉熵损失函数为公式(3):
其中表示第n个样本关于第i个类的标签(0或1),N表示已知类训练样本个数和未知类合成样本个数之和,/>表示预测的分数,为公式(4):
其中 表示第i类动作的第n个样本。
优选地,所述步骤(2)中,WGAN-GCC的损失函数由梯度惩罚约束的WGAN损失函数和循环一致性损失函数/>两部分组成,为公式(5):
梯度惩罚约束的WGAN的损失函数为公式(6):
其中λ是惩罚系数,前两项近似于Wasserstein距离,第三项是对D的梯度惩罚项;这里的判别器为/>它去除了sigmoid层并且输出为实值;期望生成的特征具有较强的判别能力,以便可以使用相同类的特征重建类的词向量,加入解码器使合成特征/>重建词向量c(y),这里使用的循环一致性损失函数为公式(7):
其中表示重构的词向量;
通过训练基于梯度惩罚和循环一致性约束的生成对抗网络,通过生成器生成未知类的特征;给定未知类的词向量c(u)和随机高斯噪声/>通过计算/>合成任意特征/>从而获得合成的训练集/>
优选地,所述步骤(3)中,首先训练WGAN-GCC,生成未知类特征,并与已知类的特征一起作为AMGCN的训练样本;然后,通过AMGCN同时训练已知类的分类器和未知类的分类器。
优选地,所述步骤(3)中,在测试阶段,使用训练的分类器对测试视频进行分类,q=Wx,其中W表示分类器矩阵,x表示测试样本,表示预测的标签向量,该向量中最大元素所在的维度即为预测的类别。
以下更详细地说明本发明。
本发明提出一种新的基于零样本学习的人体行为识别方法。其基本思想是:首先,基于动作类与动作关联物体构造知识图谱,并通过图卷积网络动态更新其关系,旨在更好地描述图中节点的关系(如图1所示)。然后,学习一种改进的生成对抗网络,使得学习的生成器能够更好地生成未知类特征(如图2所示)。最后,将两个网络结合(如图3所示),使得训练的分类器更具判别性。
定义为已知类的训练集,其中/>表示特征,/>中的y表示一个已知类的标签,/>表示特定类的词向量。此外,在训练过程中是可用的,其中/>中的u表示一个未知类的标签,/>表示相应类的词向量,未知类的样本特征在训练中是不可用的。
(1)基于注意力机制的图卷积网络分类器训练
为了能够更好描述动作类和相关物体的关联关系,本发明提出了一种基于注意力机制的图卷积网络(Attention mechanism based graph convolution network,AMGCN),从而动态地表达动作类-物体的关系(如图1所示)。本发明构建一个由已知动作类(S)、未知动作类(U)和物体(O)的概念组成的知识图谱,并使用这些概念相应的词向量作为知识图谱中的节点。然后通过ConceptNet可以确定节点间的初始关系并用邻接矩阵A表示,其中A的每一个元素Aij表示第i个节点和第j个节点的关系。
本发明设计的GCN将C=S+U个动作类和O个物体信息的词向量以及邻接矩阵A作为输入,通过网络每一层之间信息的传递和计算,获取所有动作类的分类器和所有物体分类器/>其中O个物体分类器充当了已知和未知类动作之间的桥梁。每一层GCN都是将上一层的特征矩阵Zl-1作为输入,并输出新的特征矩阵Zl,其中第一层的输入是一个k×(C+O)维的特征矩阵,k表示每个特征的维度。网络中每一层的卷积运算可表示为
其中A表示邻接矩阵,I表示单位矩阵,Φ(l-1)表示第l-1层的参数矩阵。每一层后都会跟随一个ReLU函数。为了使得训练的动作类分类器具有更强的分类能力,在每一次迭代后,我们将会更新动作-物体、物体-物体和动作-动作之间的关系,也就是通过下式更新邻接矩阵A:
其中表示第j个节点的k近邻。本发明设计的GCN在训练时使用的交叉熵损失函数为:
其中表示第n个样本关于第i个类的标签(0或1),N表示已知类训练样本个数和未知类合成样本个数之和,/>表示预测的分数,即:
其中 表示第i类动作的第n个样本。
(2)基于梯度惩罚和循环一致性约束的WGAN样本生成模型
给定已知类的训练数据,我们希望使用未知类的词向量c(u)来合成未知类的数据,从而减小已知类与未知类训练样本不平衡的问题。一种有效的方法就是通过GAN合成一些未知类的“假”样本。GAN由生成器G和判别器D组成,其中,生成器用于生成“假”样本,判别器用于判别样本是真实的还是合成的。一般情况下,通过给定语义描述,GAN可以合成未知对象的图片。然而,本发明的研究对象为人体行为视频而不是图片,所以我们提出了一种基于梯度惩罚和循环一致性约束的WGAN(Wasserstein Generative Adversarial Networkbased on Gradient penalty and Cycle-consistency Constraint,WGAN-GCC)合成未知类的样本特征,如图2所示,其中c(y)表示每个类的词向量。WGAN-GCC的损失函数由梯度惩罚约束的WGAN损失函数和循环一致性损失函数/>两部分组成,即:
梯度惩罚约束的WGAN的损失函数为:
其中λ是惩罚系数。前两项近似于Wasserstein距离,第三项是对D的梯度惩罚项。这里的判别器为/>它去除了sigmoid层并且输出为实值。此外,我们期望生成的特征具有较强的判别能力,以便可以使用相同类的特征重建类的词向量。因此,我们加入解码器使合成特征/>重建词向量c(y)。这里使用的循环一致性损失函数为:
其中表示重构的词向量。
通过训练WGAN-GCC,就可以通过生成器生成未知类的特征。给定未知类的词向量c(u)和随机高斯噪声/>通过计算/>可以合成任意特征/>从而可以获得合成的训练集/>
(3)双流深度神经网络、
通过生成未知类特征,可以为基于注意力机制的图卷积网络训练分类器提供更多的未知类训练样本,增强其分类性能和泛化能力。因此,本发明结合上述两个网络提出双流深度神经网络(Two stream deep neural network,TSDNN),如图3所示。这样,训练样本就包括已知类样本特征和虚拟未知类的样本特征。训练期间,本发明首先训练WGAN-GCC,生成未知类特征,并与已知类的特征一起作为AMGCN的训练样本(如图3上半部分所示)。然后,通过AMGCN同时训练已知类的分类器和未知类的分类器。在测试阶段,本发明使用训练的分类器对测试视频进行分类,即q=Wx,其中W表示分类器矩阵,x表示测试样本,表示预测的标签向量,该向量中最大元素所在的维度即为预测的类别。通过图4可以看出本发明方法使用或不使用WGAN-GCC和注意力机制对性能的影响,其中Ours表示本发明方法,Ours-NoGAN表示不使用WGAN-GCC的方法,Ours-NoAt表示不使用注意力机制的方法。对于Ours-NoGAN,该方法在训练中没有未知类的合成特征,这使得学习的分类器对未知类的样本分类性能降低。对于Ours-NoAt,该方法在训练中没有动态地更新邻接矩阵A,这使得动作-动作、动作-物体、物体-物体之间的关系不能自适应地进行调整,所以训练得到的分类器分类性能下降。结果清楚地表明,结合WGAN-GCC和注意力机制的GCN对于零样本学习都是重要且有效的。
本发明使用HMDB51数据库和UCF101数据库,针对零样本学习(Zero-shotlearning,ZSL)和广义零样本学习(Generalized zero-shot learning,GZSL)两种不同的任务验证本发明的有效性。在训练阶段,对于ZSL和GZSL这两种任务,已知类的样本和属性都是可用的。在测试阶段,对于ZSL任务,训练的模型只对未知类的数据进行评价;对GZSL任务,训练的模型要同时对已知类和未知类的数据进行评价。
在ZSL任务上的实验结果如表1所示,其中BoW表示词袋模型,FV表示FisherVector,I3D表示Inflated 3D,W表示词向量(word2vec)。从表中可以看出,本发明在UCF101数据集和HMDB51数据集上均取得了最好的识别效果。与传统方法(ZSECOC、UR等)相比,本发明和一些深度学习的方法性能更优。与最近的方法UR、CLSWGAN和CEWGAN相比,本发明在HMDB51数据集上性能分别提升了6.8%、2.1%和1%,在UCF101数据集上性能分别提升了10.8%、2.5%和1.4%。这些结果证明了本发明的有效性。此外,本发明的性能具有更小的标准差,这表明,本发明具有较稳定的识别性能。在GZSL任务上的实验结果如表2所示,从表中可以看出本发明在两个数据集上分类结果优于对比方法,分别在HMDB51和UCF101数据集上达到了36.4%和37.6%的识别率。与目前最优的CEWGAN相比,本发明具有较优的性能。
表3展示了本发明与使用GAN的有关方法的对比,其中s、u、H分别表示已知类的准确率、未知类的准确率和它们的调和平均数,即:
从表3可以看出,本发明方法的准确率是最佳的。本发明方法的结果明显好于CLSWGAN和CEWGAN,本发明方法相比于这两种方法在两个数据集上性能分别提升了3.7%/5.2%、2.8%/3.9%,这说明设计一个合理的分类器可以明显的提升性能。与CEWGAN-OD相比,本发明方法在未知类上的准确率略差,但是在已知类上的准确率明显优于对方,总体准确率也占优。CEWGAN-OD在未知类上的准确率性能较优的部分原因是该方法加入了OD(out-of-distribution)检测器,可以在分类前先检测每个样本是否属于已知类,从而提升了分类性能。而本发明方法并没有加入OD检测器,只用一个共用的分类器进行分类,依然能达到较优的总体分类性能。
表1
表2
表3
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (4)

1.一种基于零样本学习的人体行为识别方法,其特征在于:该方法包括以下步骤:
(1)基于动作类与动作关联物体构造知识图谱,并通过基于注意力机制的图卷积网络AMGCN动态更新其关系;
(2)学习基于梯度惩罚和循环一致性约束的生成对抗网络WGAN-GCC,使得学习的生成器能够更好地生成未知类特征;
(3)将图卷积网络和生成对抗网络两个网络结合为双流深度神经网络,使得训练的分类器更具判别性;
所述步骤(1)中,构建一个由已知动作类S、未知动作类U和物体O的概念组成的知识图谱,并使用这些概念相应的词向量作为知识图谱中的节点;然后通过ConceptNet确定节点间的初始关系并用邻接矩阵A表示,其中A的每一个元素Aij表示第i个节点和第j个节点的关系;为已知类的训练集,其中x表示特征,/>中的y表示一个已知类的标签,c(y)表示特定类的词向量,/>在训练过程中是可用的,其中/>中的u表示一个未知类的标签,c(u)表示相应类的词向量,未知类的样本特征在训练中是不可用的;
所述步骤(1)中,图卷积网络将C=S+U个动作类和O个物体信息的词向量以及邻接矩阵A作为输入,通过网络每一层之间信息的传递和计算,获取所有动作类的分类器和所有物体分类器/>其中O个物体分类器充当了已知和未知类动作之间的桥梁;每一层图卷积都是将上一层的特征矩阵Zl-1作为输入,并输出新的特征矩阵Zl,其中第一层的输入是一个k×(C+O)维的特征矩阵,k表示每个特征的维度;网络中每一层的卷积运算表示为公式(1)
其中A表示邻接矩阵,I表示单位矩阵,Φ(l-1)表示第l-1层的参数矩阵;每一层后都跟随一个ReLU函数,为了使得训练的动作类分类器具有更强的分类能力,在每一次迭代后,将更新动作-物体、物体-物体和动作-动作之间的关系,通过公式(2)更新邻接矩阵A:
其中表示第j个节点的k近邻;图卷积网络在训练时使用的交叉熵损失函数为公式(3):
其中表示第n个样本关于第i个类的标签,N表示已知类训练样本个数和未知类合成样本个数之和,/>表示预测的分数,为公式(4):
其中 表示第i类动作的第n个样本。
2.根据权利要求1所述的基于零样本学习的人体行为识别方法,其特征在于:所述步骤(2)中,WGAN-GCC的损失函数由梯度惩罚约束的WGAN损失函数和循环一致性损失函数/>两部分组成,为公式(5):
梯度惩罚约束的WGAN的损失函数为公式(6):
其中λ是惩罚系数;这里的判别器为D:/>它去除了sigmoid层并且输出为实值;期望生成的特征具有较强的判别能力,以便使用相同类的特征重建类的词向量,加入解码器使合成特征/>重建词向量c(y),这里使用的循环一致性损失函数为公式(7):
其中表示重构的词向量;
通过训练基于梯度惩罚和循环一致性约束的生成对抗网络,通过生成器生成未知类的特征;
给定未知类的词向量c(u)和随机高斯噪声/>通过计算/>合成任意特征/>从而获得合成的训练集/>
3.根据权利要求2所述的基于零样本学习的人体行为识别方法,其特征在于:所述步骤(3)中,首先训练WGAN-GCC,生成未知类特征,并与已知类的特征一起作为AMGCN的训练样本;
然后,通过AMGCN同时训练已知类的分类器和未知类的分类器。
4.根据权利要求3所述的基于零样本学习的人体行为识别方法,其特征在于:所述步骤(3)中,在测试阶段,使用训练的分类器对测试视频进行分类,q=Wx,其中W表示分类器矩阵,x表示测试样本,q表示预测的标签向量,该向量中最大元素所在的维度为预测的类别。
CN201911288489.6A 2019-12-12 2019-12-12 一种基于零样本学习的人体行为识别方法 Active CN111126218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911288489.6A CN111126218B (zh) 2019-12-12 2019-12-12 一种基于零样本学习的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911288489.6A CN111126218B (zh) 2019-12-12 2019-12-12 一种基于零样本学习的人体行为识别方法

Publications (2)

Publication Number Publication Date
CN111126218A CN111126218A (zh) 2020-05-08
CN111126218B true CN111126218B (zh) 2023-09-26

Family

ID=70498832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911288489.6A Active CN111126218B (zh) 2019-12-12 2019-12-12 一种基于零样本学习的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN111126218B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723729B (zh) * 2020-06-18 2022-08-05 四川千图禾科技有限公司 基于知识图谱的监控视频犬类姿态和行为智能识别方法
CN112100392B (zh) * 2020-07-28 2022-03-15 浙江大学 一种基于强化学习和知识图谱的设备故障溯因方法
CN112100380B (zh) * 2020-09-16 2022-07-12 浙江大学 一种基于知识图谱的生成式零样本预测方法
CN112307914B (zh) * 2020-10-20 2024-05-14 西北工业大学 一种基于文本信息指导的开放域图像内容识别方法
CN112364895B (zh) * 2020-10-23 2023-04-07 天津大学 一种基于属性继承的图卷积网络零样本学习方法
CN112488241B (zh) * 2020-12-18 2022-04-19 贵州大学 一种基于多粒度融合网络的零样本图片识别方法
CN115082750A (zh) * 2021-03-12 2022-09-20 北京沃东天骏信息技术有限公司 物体可供性的检测方法和装置
CN113313039B (zh) * 2021-05-31 2023-07-25 西安电子科技大学 基于动作知识库与集成学习的视频行为识别方法及***
CN113269274B (zh) * 2021-06-18 2022-04-19 南昌航空大学 一种基于循环一致性的零样本识别方法及***
US11798225B2 (en) 2021-08-11 2023-10-24 Here Global B.V. 3D building generation using topology
CN113705507B (zh) * 2021-09-02 2023-09-19 上海交通大学 基于深度学习的混合现实开集人体姿态识别方法
CN113887580B (zh) * 2021-09-15 2023-01-24 天津大学 一种考虑多粒度类相关性的对比式开放集图像识别方法及装置
CN114004223B (zh) * 2021-10-12 2022-05-24 北京理工大学 一种基于行为基的事件知识表示方法
CN113920379B (zh) * 2021-11-09 2024-05-28 北京工业大学 一种基于知识辅助的零样本图像分类方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107553490A (zh) * 2017-09-08 2018-01-09 深圳市唯特视科技有限公司 一种基于深度学习的单目视觉避障方法
CN108596026A (zh) * 2018-03-16 2018-09-28 中国科学院自动化研究所 基于双流生成对抗网络的跨视角步态识别装置及训练方法
CN108875818A (zh) * 2018-06-06 2018-11-23 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN109190665A (zh) * 2018-07-30 2019-01-11 国网上海市电力公司 一种基于半监督生成对抗网络的通用图像分类方法和装置
CN109190524A (zh) * 2018-08-17 2019-01-11 南通大学 一种基于生成对抗网络的人体动作识别方法
CN109711452A (zh) * 2018-12-20 2019-05-03 四川新网银行股份有限公司 一种基于wgan-gp模型对用户行为的不平衡分类方法
CN110222771A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种零样本图片的类别识别方法
CN110334781A (zh) * 2019-06-10 2019-10-15 大连理工大学 一种基于Res-Gan的零样本学习算法
WO2019222401A2 (en) * 2018-05-17 2019-11-21 Magic Leap, Inc. Gradient adversarial training of neural networks

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10181082B2 (en) * 2017-02-06 2019-01-15 Brown University Method and system for automated behavior classification of test subjects

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107553490A (zh) * 2017-09-08 2018-01-09 深圳市唯特视科技有限公司 一种基于深度学习的单目视觉避障方法
CN108596026A (zh) * 2018-03-16 2018-09-28 中国科学院自动化研究所 基于双流生成对抗网络的跨视角步态识别装置及训练方法
WO2019222401A2 (en) * 2018-05-17 2019-11-21 Magic Leap, Inc. Gradient adversarial training of neural networks
CN108875818A (zh) * 2018-06-06 2018-11-23 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN109190665A (zh) * 2018-07-30 2019-01-11 国网上海市电力公司 一种基于半监督生成对抗网络的通用图像分类方法和装置
CN109190524A (zh) * 2018-08-17 2019-01-11 南通大学 一种基于生成对抗网络的人体动作识别方法
CN109711452A (zh) * 2018-12-20 2019-05-03 四川新网银行股份有限公司 一种基于wgan-gp模型对用户行为的不平衡分类方法
CN110222771A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种零样本图片的类别识别方法
CN110334781A (zh) * 2019-06-10 2019-10-15 大连理工大学 一种基于Res-Gan的零样本学习算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Semantic embedding space for zero-shot action recognition;Xun Xu 等;2015 IEEE International Conference on Image Processing (ICIP);全文 *
语义自编码结合关系网络的零样本图像识别算法;林克正 等;模式识别与人工智能;全文 *

Also Published As

Publication number Publication date
CN111126218A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111126218B (zh) 一种基于零样本学习的人体行为识别方法
US20200380366A1 (en) Enhanced generative adversarial network and target sample recognition method
CN109086658B (zh) 一种基于生成对抗网络的传感器数据生成方法与***
CN109993100B (zh) 基于深层特征聚类的人脸表情识别的实现方法
Kollias et al. A multi-component CNN-RNN approach for dimensional emotion recognition in-the-wild
CN111507311A (zh) 一种基于多模态特征融合深度网络的视频人物识别方法
CN108804453A (zh) 一种视音频识别方法及装置
CN110853656B (zh) 基于改进神经网络的音频篡改识别方法
Li et al. Two-class 3D-CNN classifiers combination for video copy detection
Jain et al. Video captioning: a review of theory, techniques and practices.
Huang et al. A generative adversarial network model based on intelligent data analytics for music emotion recognition under IoT
Huang et al. Large-scale weakly-supervised content embeddings for music recommendation and tagging
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
CN111160163A (zh) 一种基于区域关系建模和信息融合建模的表情识别方法
Furht et al. Deep learning techniques in big data analytics
Long et al. Learning to localize actions from moments
Reddy et al. An extensive analytical approach on human resources using random forest algorithm
CN113779283B (zh) 一种深度监督与特征融合的细粒度跨媒体检索方法
Yin et al. Multi-level fusion based class-aware attention model for weakly labeled audio tagging
Li et al. Enhanced broad siamese network for facial emotion recognition in human–robot interaction
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
CN111144500A (zh) 基于解析高斯机制的差分隐私深度学习分类方法
Saleem et al. Stateful human-centered visual captioning system to aid video surveillance
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant