CN106845329A - 一种基于深度卷积特征多通道金字塔池化的动作识别方法 - Google Patents

一种基于深度卷积特征多通道金字塔池化的动作识别方法 Download PDF

Info

Publication number
CN106845329A
CN106845329A CN201610997834.3A CN201610997834A CN106845329A CN 106845329 A CN106845329 A CN 106845329A CN 201610997834 A CN201610997834 A CN 201610997834A CN 106845329 A CN106845329 A CN 106845329A
Authority
CN
China
Prior art keywords
depth
feature
multichannel
network model
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610997834.3A
Other languages
English (en)
Inventor
***
肖翔
李昊曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Original Assignee
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University, SYSU CMU Shunde International Joint Research Institute filed Critical Sun Yat Sen University
Priority to CN201610997834.3A priority Critical patent/CN106845329A/zh
Publication of CN106845329A publication Critical patent/CN106845329A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于深度卷积特征多通道金字塔池化的动作识别方法,包括:1)对输入视频每一帧采用空间流深度网络模型,得到每帧的表观特征;对视频中每连续M帧采用时间流深度网络模型,提取视频的运动特征;2)对空间流深度网络模型和时间流深度网络模型得到的多通道深度特征图采用4层空间金字塔结构,得到的每个局部块用最大池化方法计算该块的最大值表达,获取特征图在不同尺度下的局部信息;3)将深度特征图中在相同时空位置的多通道局部块的表达连接起来,形成视频的特征描述子;4)采用增强型局部级联描述子向量方法进行特征表示,得到视频的中层表示;4)采用线性支持向量机进行特征分类,得到识别准确率。

Description

一种基于深度卷积特征多通道金字塔池化的动作识别方法
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于深度卷积特征多通道金字塔池化的动作识别方法。
背景技术
科技的发展使得摄像设备得到了普及,数量巨大的视频数据也随之产生。同时,针对视频的应用也应运而生:智能视频监控、视频数据分类、高级人机交互等。在这些应用中,针对人的动作进行理解是最核心的关注点,也是人们研究的核心内容。
由于人体动作识别有很大的潜在价值,所以此课题作为一个研究热点已经持续了至少十年时间,很多种方法都被提出,例如:基于密集轨迹(DT)的方法、基于时空兴趣点的方法以及基于卷积神经网络(CNN)的方法等。其中,基于CNN的方法研究的人数最多,这种方法能够取得目前最好的结果。然而,大多数深层CNN网络都将单张卷积图看成一个整体来用,而卷积图中的局部信息往往被忽略,所以,我们的动作识别研究将会针对基于深度卷积特征多通道金字塔池化的动作识别方法以提取深度特征中的局部信息。
基于卷积神经网络的方法的主要思想是:首先,对视频采用多层的卷积层、池化层和全连接层,提取视频的描述子特征;接下来将这些特征放入分类器中进行分类,以完成最终的识别过程。很多学者在这个基础上进行了探索和改进。Annane等人提出了一种双流卷积网络用于动作识别,包括空间流和时间流网络,空间流用于提取视频帧的表观特征,时间流用于提取视频连续帧的运动特征,将二者进行融合,以此提升识别效果。Wang等人将深度卷积特征和人工特征进行融合,学习到深度特征和人工特征这两种不同类型特征的优势。以上方法都取得了较好的效果,但是现存的基于深度网络的研究通常将单张深度特征图作为一个整体来使用而忽略了深度特征中的局部信息,而这种线索对于提高基于深度网络的识别准确率是有帮助的。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于深度卷积特征多通道金字塔池化的动作识别方法。该方法将视频数据集的视频作为输入,进行视频特征提取和识别,最后输出视频的分类结果,该方法具有简单易实现,识别效果好的特点。
为了达到上述目的,本发明采用的技术方案是:
一种基于深度卷积特征多通道金字塔池化的动作识别方法,包括以下步骤:
(1)输入待识别的视频,采用two-stream深度网络模型得到多通道深度卷积图;其中two-stream网络模型包括空间流(spatial-stream)深度网络模型和时间流(temporal-stream)深度网络模型。
具体是:对输入视频的每一帧采用空间流网络,得到帧的表观特征;对输入视频的每连续M帧,利用时间流网络模型得到运动特征;其中空间流网络和时间流网络模型均包含5个卷积层,3个池化层,以及3个全连接层;
(2)对空间流深度网络模型和时间流深度网络模型得到的多通道深度特征图采用4层空间金字塔结构,得到的每个局部块用最大池化方法计算该块的最大值表达,获取特征图在不同尺度下的局部信息;
(3)将深度特征图中在相同时空位置的多通道局部块的表达连接起来,形成视频的特征描述子;
(4)对步骤(3)提取的描述子特征采用局部级联描述子向量方法(VLAD)进行特征建模,形成该视频最终的向量表示;
(5)采用支持向量机(SVM)进行特征分类,最终输出分类结果,获取视频的动作识别结果,该方法在YouTube人体行为数据集上实现了93.1%的准确率。
本发明基于深度卷积神经网络方法,并且通过探索深度特征图中的局部信息,提出了一种新的深度特征多通道金字塔池化描述子,它能够有效地获取特征图在不同尺度下的局部信息,并且结合了局部级联描述子向量,显著提高了动作识别的准确率。
优选的,步骤(1)中,空间流和时间流深度网络模型将视频每帧作为输入,对原始图像做多层的卷积和池化操作,得到每层的输出都是多个通道的深度特征图,获取更具抽象的图像特征表达。
优选的,步骤(2)中,选取空间流深度网络模型的第5层卷积层的输出特征图以及时间流深度网络模型的第4层卷积层的输出特征图来进行空间金字塔的操作,对多通道深度特征图采用4层金字塔结构,其中4层金字塔结构为(1×1,2×2,3×3,4×4),其中第一层(1×1)对应的是整个多通道深度特征图,第4层(4×4)对应的是多通道深度特征图最大尺度下的局部块,因此通过金字塔结构得到多通道深度特征图位于不同尺度下的局部块,对每个局部块采用最大池化方法,计算块中最大值作为该局部块的特征表示。
优选的,步骤(3)中,由于每个通道上的特征图包含的是不同图像信息,故将所有通道上的特征图中同一空间位置的块的特征串联起来,形成该块的多通道特征描述子。
优选的,步骤(4)中,描述子特征表示为{x1,...xi,...xd},d表示局部块的描述子特征的维数,对描述子特征{x1,...xi,...xd},假设利用k-means聚类已经学习得到的码本(codebook)和k个中心(c1,...cj,...ck),采用局部级联描述子向量方法(VLAD)对特征进行特征建模,具体过程如下:
(5-1)描述子特征的每一维xi赋给码本(codebook)中离该描述子特征最近的聚类中心cj,然后得到量化后的索引:NN(xi)=argminj||xi-cj||
(5-2)将所有离聚类中心cj最近的描述子特征,计算这些描述子特征和中心cj的差的累积和,获得子向量:
(5-3)将各子向量uj连接起来,得到k×d维的向量表示u=[u1...uk];
(5-4)对向量u先采用“power-law”归一化处理,即:
vj=|vj|α×sign(vj),j=1...k×d,α=0.2
随后用2范数归一化(L2-normalized),最终得到该描述子特征的VLAD表示。
本发明相对于现有技术具有如下的优点及效果:
1、本发明提出了一种新的描述子特征来充分获取不同尺度下的深度信息。
2、本发明对不同通道下的卷积图的相同区域做池化连接,可以得到该区域的不同方面的信息,比如边缘或者纹理。
3、本发明将局部级联描述子结合深度特征进行识别,提升了识别效果。
附图说明
图1为本发明的总体流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
附图给出了本发明的操作过程,如1图所示,一种基于深度卷积特征多通道金字塔池化的动作识别方法,包括以下步骤:
(1)输入待识别的视频,采用two-stream深度网络模型得到多通道深度卷积图;其中two-stream网络模型包括空间流(spatial-stream)深度网络模型和时间流(temporal-stream)深度网络模型。
具体是:对输入视频的每一帧采用空间流网络,得到帧的表观特征;对输入视频的每连续M帧,利用时间流网络模型得到运动特征。其中空间流网络和时间流网络模型均包含5个卷积层,3个池化层,以及3个全连接层;
(2)对空间流深度网络模型和时间流深度网络模型得到的多通道深度特征图采用4层空间金字塔结构,得到的每个局部块用最大池化方法计算该块的最大值表达,获取特征图在不同尺度下的局部信息;
(3)将深度特征图中在相同时空位置的多通道局部块的表达连接起来,形成视频的特征描述子;
(4)对步骤(3)提取的描述子特征采用局部级联描述子向量方法(VLAD)进行特征建模,形成该视频最终的向量表示;
(5)采用支持向量机(SVM)进行特征分类,最终输出动作视频的识别准确率。
步骤(1)中的具体过程如下:空间流和时间流深度网络模型将视频每帧作为输入,对原始图像做多层的卷积和池化操作,得到每层的输出都是多个通道的深度特征图,获取更具抽象的图像特征表达。
步骤(2)中的具体过程如下:选取空间流网络第5层卷积层的输出特征图以及时间流网络第4层卷积层的输出特征图来进行空间金字塔的操作,对特征图采用4层金字塔结构(1×1,2×2,3×3,4×4),其中第一层(1×1)对应的是整个特征图,而第4层(4×4)对应的是最大尺度下的局部块。因此通过金字塔结构得到特征图位于不同尺度下的局部块。对每个局部块采用最大池化方法,计算块中最大值作为该局部块的特征表示。
步骤(3)中的具体过程如下:由于每个通道上的特征图包含的是不同图像信息,故将所有通道上的特征图中同一空间位置的块的特征串联起来,形成该块的多通道特征描述子。
步骤(4)中的具体过程如下:描述子特征表示为{x1,...xi,...xd},d表示局部块的描述子特征的维数,对描述子特征{x1,...xi,...xd},假设利用k-means聚类已经学习得到的码本(codebook)和k个中心(c1,...cj,...ck),采用局部级联描述子向量方法(VLAD)对特征进行特征建模,具体过程如下:
(5-1)描述子特征的每一维xi赋给码本(codebook)中离该描述子特征最近的聚类中心cj,然后得到量化后的索引:NN(xi)=argminj||xi-cj||
(5-2)将所有离聚类中心cj最近的描述子特征,计算这些描述子特征和中心cj的差的累积和,获得子向量:
(5-3)将各子向量uj连接起来,得到k×d维的向量表示u=[u1...uk];
(5-4)对向量u先采用“power-law”归一化处理,即:
vj=|vj|α×sign(vj),j=1...k×d,α=0.2
随后用2范数归一化(L2-normalized),最终得到该描述子特征的VLAD表示。

Claims (5)

1.一种基于深度卷积特征多通道金字塔池化的动作识别方法,其特征在于,包括以下步骤:
(1)输入待识别的视频,采用two-stream深度网络模型得到多通道深度卷积图;其中two-stream网络模型包括空间流(spatial-stream)深度网络模型和时间流(temporal-stream)深度网络模型。
具体是:对输入视频的每一帧采用空间流网络,得到帧的表观特征;对输入视频的每连续M帧,利用时间流网络模型得到运动特征;其中空间流网络和时间流网络模型均包含5个卷积层,3个池化层,以及3个全连接层;
(2)对空间流深度网络模型和时间流深度网络模型得到的多通道深度特征图采用4层空间金字塔结构,得到的每个局部块用最大池化方法计算该局部块的最大值表达,获取特征图在不同尺度下的局部信息;
(3)将深度特征图中在相同时空位置的多通道局部块的表达连接起来,形成视频的特征描述子;
(4)对步骤(3)提取的描述子特征采用局部级联描述子向量方法(VLAD)进行特征建模,形成该视频最终的向量表示;
(5)采用支持向量机(SVM)进行特征分类,最终输出分类结果,获取视频的动作识别结果。
2.根据权利要求1所述的深度卷积特征多通道金字塔池化的动作识别方法,其特征在于,所述步骤(1)中,空间流网络模型和时间流深度网络模型将视频每帧作为输入,对原始图像做多层的卷积和池化操作,得到每层的输出都是多个通道的深度特征图,获取更具抽象的图像特征表达。
3.根据权利要求1所述的深度卷积特征多通道金字塔池化的动作识别方法,其特征在于,所述步骤(2)中,选取空间流网络模型的第5层卷积层的输出特征图以及时间流网络模型的第4层卷积层的输出卷积图来进行空间金字塔的操作,对多通道卷积图采用4层金字塔结构,其中4层金字塔结构为(1×1,2×2,3×3,4×4),其中第一层(1×1)对应的是整个多通道特征图,第4层(4×4)对应的是多通道特征图最大尺度下的局部块,因此通过金字塔结构得到多通道特征图位于不同尺度下的局部块,对每个局部块采用最大池化方法,计算块中最大值作为该局部块的特征表示。
4.根据权利要求1所述的深度卷积特征多通道金字塔池化的动作识别方法,其特征在于,所述步骤(3)中,由于每个通道上的特征图包含的是不同图像信息,故将所有通道上的特征图中同一空间位置的局部块的特征串联起来,形成该块的多通道特征描述子。
5.根据权利要求1所述的深度卷积特征多通道金字塔池化的动作识别方法,其特征在于,所述步骤(4)中,描述子特征表示为{x1,...xi,...xd},d表示局部块的描述子特征的维数,对描述子特征{x1,...xi,...xd},假设利用k-means聚类已经学习得到的码本(codebook)和k个中心(c1,...cj,...ck),采用局部级联描述子向量方法(VLAD)对特征进行特征建模,具体过程如下:
(5-1)描述子特征的每一维xi赋给码本(codebook)中离该描述子特征最近的聚类中心cj,然后得到量化后的索引:NN(xi)=arg minj||xi-cj||,
(5-2)确定所有离聚类中心cj最近的描述子特征,计算这些描述子特征和中心cj的差的累积和,获得子向量:
u j = Σ i : N N ( x i ) = j x i - c j
(5-3)将各子向量uj连接起来,得到k×d维的向量表示u=[u1...uk];
(5-4)对向量u先采用“power-law”归一化处理,即:
vj=|vj|α×sign(vj),j=1...k×d,α=0.2
随后用2范数归一化(L2-normalized),最终得到该描述子特征的VLAD表示。
CN201610997834.3A 2016-11-11 2016-11-11 一种基于深度卷积特征多通道金字塔池化的动作识别方法 Pending CN106845329A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610997834.3A CN106845329A (zh) 2016-11-11 2016-11-11 一种基于深度卷积特征多通道金字塔池化的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610997834.3A CN106845329A (zh) 2016-11-11 2016-11-11 一种基于深度卷积特征多通道金字塔池化的动作识别方法

Publications (1)

Publication Number Publication Date
CN106845329A true CN106845329A (zh) 2017-06-13

Family

ID=59145720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610997834.3A Pending CN106845329A (zh) 2016-11-11 2016-11-11 一种基于深度卷积特征多通道金字塔池化的动作识别方法

Country Status (1)

Country Link
CN (1) CN106845329A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563284A (zh) * 2017-07-26 2018-01-09 中国农业大学 行人追踪方法及装置
CN107705805A (zh) * 2017-10-25 2018-02-16 北京奇虎科技有限公司 音频查重的方法及装置
CN108416795A (zh) * 2018-03-04 2018-08-17 南京理工大学 基于排序池化融合空间特征的视频动作识别方法
CN108596163A (zh) * 2018-07-10 2018-09-28 中国矿业大学(北京) 一种基于cnn和vlad的煤岩识别方法
CN108875611A (zh) * 2018-06-05 2018-11-23 北京字节跳动网络技术有限公司 视频动作识别方法和装置
CN109947986A (zh) * 2019-03-18 2019-06-28 东华大学 基于结构化分段卷积神经网络的红外视频时序定位方法
CN109948666A (zh) * 2019-03-01 2019-06-28 广州杰赛科技股份有限公司 图像相似性识别方法、装置、设备及存储介质
CN109977904A (zh) * 2019-04-04 2019-07-05 成都信息工程大学 一种基于深度学习的轻量型的人体动作识别方法
CN110032942A (zh) * 2019-03-15 2019-07-19 中山大学 基于时域分段及特征差分的动作识别方法
CN110097000A (zh) * 2019-04-29 2019-08-06 东南大学 基于局部特征聚合描述符和时序关系网络的视频行为识别方法
CN110569814A (zh) * 2019-09-12 2019-12-13 广州酷狗计算机科技有限公司 视频类别识别方法、装置、计算机设备及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069434A (zh) * 2015-08-12 2015-11-18 河海大学常州校区 一种视频中人体动作行为识别方法
CN105956517A (zh) * 2016-04-20 2016-09-21 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于密集轨迹的动作识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069434A (zh) * 2015-08-12 2015-11-18 河海大学常州校区 一种视频中人体动作行为识别方法
CN105956517A (zh) * 2016-04-20 2016-09-21 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于密集轨迹的动作识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LING SHAO 等: "Spatio-Temporal Laplacian Pyramid Coding for Action Recognition", 《IEEE TRANSACTIONS ON CYBERNETICS》 *
SHICHAO ZHAO 等: "Pooling the Convolutional Layers in Deep ConvNets for Action Recognition", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
赵竞雄: "基于深度信息的人体动作识别", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563284A (zh) * 2017-07-26 2018-01-09 中国农业大学 行人追踪方法及装置
CN107705805A (zh) * 2017-10-25 2018-02-16 北京奇虎科技有限公司 音频查重的方法及装置
CN107705805B (zh) * 2017-10-25 2021-01-29 北京奇虎科技有限公司 音频查重的方法及装置
CN108416795A (zh) * 2018-03-04 2018-08-17 南京理工大学 基于排序池化融合空间特征的视频动作识别方法
CN108875611A (zh) * 2018-06-05 2018-11-23 北京字节跳动网络技术有限公司 视频动作识别方法和装置
CN108596163A (zh) * 2018-07-10 2018-09-28 中国矿业大学(北京) 一种基于cnn和vlad的煤岩识别方法
CN109948666A (zh) * 2019-03-01 2019-06-28 广州杰赛科技股份有限公司 图像相似性识别方法、装置、设备及存储介质
CN110032942A (zh) * 2019-03-15 2019-07-19 中山大学 基于时域分段及特征差分的动作识别方法
CN110032942B (zh) * 2019-03-15 2021-10-08 中山大学 基于时域分段及特征差分的动作识别方法
CN109947986A (zh) * 2019-03-18 2019-06-28 东华大学 基于结构化分段卷积神经网络的红外视频时序定位方法
CN109977904A (zh) * 2019-04-04 2019-07-05 成都信息工程大学 一种基于深度学习的轻量型的人体动作识别方法
CN110097000A (zh) * 2019-04-29 2019-08-06 东南大学 基于局部特征聚合描述符和时序关系网络的视频行为识别方法
CN110569814A (zh) * 2019-09-12 2019-12-13 广州酷狗计算机科技有限公司 视频类别识别方法、装置、计算机设备及计算机存储介质
CN110569814B (zh) * 2019-09-12 2023-10-13 广州酷狗计算机科技有限公司 视频类别识别方法、装置、计算机设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN106845329A (zh) 一种基于深度卷积特征多通道金字塔池化的动作识别方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN107273800B (zh) 一种基于注意机制的卷积递归神经网络的动作识别方法
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN105631479B (zh) 基于非平衡学习的深度卷积网络图像标注方法及装置
Xiao et al. Scene classification with improved AlexNet model
CN110399821B (zh) 基于人脸表情识别的顾客满意度获取方法
CN107679491A (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN108288035A (zh) 基于深度学习的多通道图像特征融合的人体动作识别方法
CN109241995B (zh) 一种基于改进型ArcFace损失函数的图像识别方法
CN109886358A (zh) 基于多时空信息融合卷积神经网络的人体行为识别方法
CN108804397A (zh) 一种基于少量目标字体的汉字字体转换生成的方法
CN109614979A (zh) 一种基于选择与生成的数据增广方法及图像分类方法
CN104281853A (zh) 一种基于3d卷积神经网络的行为识别方法
CN111709304A (zh) 一种基于时空注意力增强特征融合网络的行为识别方法
CN105956517B (zh) 一种基于密集轨迹的动作识别方法
CN106778444B (zh) 一种基于多视图卷积神经网络的表情识别方法
CN104778476B (zh) 一种图像分类方法
CN105046689B (zh) 一种基于多层次图结构的交互式立体图像快速分割方法
CN108647599B (zh) 结合3d跃层连接和循环神经网络的人体行为识别方法
CN104809469A (zh) 一种面向服务机器人的室内场景图像分类方法
CN104063721A (zh) 一种基于语义特征自动学习与筛选的人类行为识别方法
CN109815920A (zh) 基于卷积神经网络和对抗卷积神经网络的手势识别方法
CN113326748B (zh) 一种采用多维相关注意力模型的神经网络行为识别方法
CN113505719B (zh) 基于局部-整体联合知识蒸馏算法的步态识别模型压缩***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170613