CN112836602B - 基于时空特征融合的行为识别方法、装置、设备及介质 - Google Patents

基于时空特征融合的行为识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN112836602B
CN112836602B CN202110079906.7A CN202110079906A CN112836602B CN 112836602 B CN112836602 B CN 112836602B CN 202110079906 A CN202110079906 A CN 202110079906A CN 112836602 B CN112836602 B CN 112836602B
Authority
CN
China
Prior art keywords
features
feature
processed
space
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110079906.7A
Other languages
English (en)
Other versions
CN112836602A (zh
Inventor
梁添才
蔡德利
赵清利
徐天适
王乃洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Radio & Tv Xinyi Technology Co ltd
Original Assignee
Shenzhen Xinyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xinyi Technology Co Ltd filed Critical Shenzhen Xinyi Technology Co Ltd
Priority to CN202110079906.7A priority Critical patent/CN112836602B/zh
Publication of CN112836602A publication Critical patent/CN112836602A/zh
Application granted granted Critical
Publication of CN112836602B publication Critical patent/CN112836602B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于时空特征融合的行为识别方法、装置、设备及介质,方法包括:获取待处理视频帧,并将所述待处理视频帧的尺寸进行统一;提取所述待处理视频帧中的浅层特征;根据所述浅层特征,提取所述待处理视频帧中的深层特征;提取所述待处理视频帧中的时空2D特征层;根据所述深层特征和所述时空2D特征层,识别所述待处理视频帧中目标对象的行为类别。本发明使用2D卷积方式替代3D卷积,能够有效减少网络的计算量,同时在行为识别上也能保持识别性能,保证识别准确率和实时性,可广泛应用于计算机视觉技术领域。

Description

基于时空特征融合的行为识别方法、装置、设备及介质
技术领域
本发明涉及计算机视觉技术领域,尤其是基于时空特征融合的行为识别方法、装置、设备及介质。
背景技术
行为识别是计算机视觉领域中的一个重要领域,其主要任务是通过视频自动分析出目标的正在进行的行为动作,它在视频监控与监测、机器人交互等方面发挥着重要的作用。
随着深度学习的不断发展,视频理解与行为分析的性能得到了巨大的提升,行为识别技术也获得显著的发展。目前主流的行为识别方法分为双流法、基于人体骨架的识别方法和基于3D卷积网络的方法等。双流法包含视频帧RGB图与光流两方面信息,该方法设计两个深度卷积网络分别提取视频帧的时空信息和视频的光流信息,之后将两个网络的结果进行融合,得到最终的行为识别结果。现有技术有提及使用双流法进行行为识别。双流法能够获得较高的精度,但是双流法需要提取视频的光流,计算效率低,无法达到实时的行为识别。基于人体骨架的识别方法是通过视频帧的人体关键点(头部、手部、脚部等)的位置进行行为识别,有效减少行为识别模型的参数。相关现有技术还有对视频帧的人体关键点进行行为识别,基于人体骨架的识别方法依赖于视频帧人体关键点的准确率,并且在关键点提取过程耗时长,关键点的识别精度不高,导致最后的行为识别准确率不高。基于3D卷积网络的方法是直接将视频输入3D卷积网络,提取视频的时间维度和空间维度的特征,最后获得较高的行为识别精度。相关技术还有提及将ECO算法结合2D卷积和3D卷积,在行为识别获得较高的准确率。然而,由于3D卷积计算量大,影响推理速度,实际应用中,难以做到在线实时的行为识别。
发明内容
有鉴于此,本发明实施例提供一种计算量小、准确率高且实时性良好的,基于时空特征融合的行为识别方法、装置、设备及介质。
本发明的一方面提供了一种基于时空特征融合的行为识别方法,包括:
获取待处理视频帧,并将所述待处理视频帧的尺寸进行统一;
提取所述待处理视频帧中的浅层特征;
根据所述浅层特征,提取所述待处理视频帧中的深层特征;
提取所述待处理视频帧中的时空2D特征层;
根据所述深层特征和所述时空2D特征层,识别所述待处理视频帧中目标对象的行为类别。
优选地,所述获取待处理视频帧,并将所述待处理视频帧的尺寸进行统一,包括:
获取连续输入的视频内容;
从所述视频内容中提取出N帧图像;
将所述N帧图像的尺寸确定为224*224。
优选地,所述浅层特征包括所述图像的纹理特征和细节特征;
所述提取所述待处理视频帧中的浅层特征,具体为:
通过InceptionV2卷积网络对所述图像进行提取,得到InceptionV2-3c特征。
优选地,所述深层特征包括所述图像的轮廓特征、形状特征和最显著特征;
所述根据所述浅层特征,提取所述待处理视频帧中的深层特征,包括:
通过InceptionV2卷积网络对所述InceptionV2-3c特征进行提取,得到Pooling特征。
优选地,所述提取所述待处理视频帧中的时空2D特征层,包括:
通过时空2D卷积模块对所述InceptionV2-3c特征进行提取,得到时间特征和空间特征;
将所述时间特征和所述空间特征进行平均池化处理,得到时空2D特征。
优选地,所述通过时空2D卷积模块对所述InceptionV2-3c特征进行提取,得到时间特征和空间特征,包括:
对所述InceptionV2-3c特征进行降维操作,得到时间特征;
对所述InceptionV2-3c特征依次执行归一化操作、ReLU激活操作、3*3卷积操作,得到第一特征;
对所述InceptionV2-3c特征依次执行归一化操作、ReLU激活操作、第一3*3卷积操作以及第二3*3卷积操作,得到第二特征;
将所述第一特征和所述第二特征相加,得到第三特征作为空间特征。
优选地,所述方法还包括:
训练行为识别模型;
以及,
对所述行为识别模型进行测试。
本发明实施例的另一方面还提供了一种基于时空特征融合的行为识别装置,包括:
获取模块,用于获取待处理视频帧,并将所述待处理视频帧的尺寸进行统一;
第一提取模块,用于提取所述待处理视频帧中的浅层特征;
第二提取模块,用于根据所述浅层特征,提取所述待处理视频帧中的深层特征;
第三提取模块,用于提取所述待处理视频帧中的时空2D特征层;
识别模块,用于根据所述深层特征和所述时空2D特征层,识别所述待处理视频帧中目标对象的行为类别。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明的实施例首先获取待处理视频帧,并将所述待处理视频帧的尺寸进行统一;提取所述待处理视频帧中的浅层特征;根据所述浅层特征,提取所述待处理视频帧中的深层特征;提取所述待处理视频帧中的时空2D特征层;根据所述深层特征和所述时空2D特征层,识别所述待处理视频帧中目标对象的行为类别。本发明实施例使用2D卷积方式替代3D卷积,能够有效减少网络的计算量,同时在行为识别上也能保持识别性能,保证识别准确率和实时性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的步骤流程图;
图2为本发明实施例提供的网络结构总框图;
图3为本发明实施例提供的五维特征示意图;
图4为本发明实施例提供的五维特征的一个维度示意图;
图5为本发明实施例提供的五维特征的一个维度拉伸示意图;
图6为本发明实施例提供的降维操作后的特征效果示意图;
图7为本发明实施例提供的Temporal 2D模块的网络结构示意图;
图8为本发明实施例提供的Res block的结构示意图;
图9为本发明实施例提供的block1的结构示意图;
图10为本发明实施例提供的block2的结构示意图;
图11为本发明实施例提供的模型训练流程的示意图;
图12为本发明实施例提供的模型测试流程的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
针对现有技术存在的问题,本发明实施例提供了一种基于时空特征融合的行为识别方法,如图1所示,该方法包括以下步骤:
获取待处理视频帧,并将所述待处理视频帧的尺寸进行统一;
提取所述待处理视频帧中的浅层特征;
根据所述浅层特征,提取所述待处理视频帧中的深层特征;
提取所述待处理视频帧中的时空2D特征层;
根据所述深层特征和所述时空2D特征层,识别所述待处理视频帧中目标对象的行为类别。
优选地,所述获取待处理视频帧,并将所述待处理视频帧的尺寸进行统一,包括:
获取连续输入的视频内容;
从所述视频内容中提取出N帧图像;
将所述N帧图像的尺寸确定为224*224。
优选地,所述浅层特征包括所述图像的纹理特征和细节特征;
所述提取所述待处理视频帧中的浅层特征,具体为:
通过InceptionV2卷积网络对所述图像进行提取,得到InceptionV2-3c特征。
优选地,所述深层特征包括所述图像的轮廓特征、形状特征和最显著特征;
所述根据所述浅层特征,提取所述待处理视频帧中的深层特征,包括:
通过InceptionV2卷积网络对所述InceptionV2-3c特征进行提取,得到Pooling特征。
优选地,所述提取所述待处理视频帧中的时空2D特征层,包括:
通过时空2D卷积模块对所述InceptionV2-3c特征进行提取,得到时间特征和空间特征;
将所述时间特征和所述空间特征进行平均池化处理,得到时空2D特征。
优选地,所述通过时空2D卷积模块对所述InceptionV2-3c特征进行提取,得到时间特征和空间特征,包括:
对所述InceptionV2-3c特征进行降维操作,得到时间特征;
对所述InceptionV2-3c特征依次执行归一化操作、ReLU激活操作、3*3卷积操作,得到第一特征;
对所述InceptionV2-3c特征依次执行归一化操作、ReLU激活操作、第一3*3卷积操作以及第二3*3卷积操作,得到第二特征;
将所述第一特征和所述第二特征相加,得到第三特征作为空间特征。
优选地,所述方法还包括:
训练行为识别模型;
以及,
对所述行为识别模型进行测试。
下面结合说明书附图,对本发明的行为识别方法进行详细描述,如图2所示,图2为本发明实施例提供的网络结构总框图,在该实施例中,提出了一种基于时空特征融合的行为识别的网络结构,包括:
(1)视频预处理模块:用于提取视频帧,并统一视频帧的尺寸;
(2)浅层特征提取模块:用于提取视频帧的浅层特征,包括图像纹理等特征;
(3)深层特征提取模块:用于提取视频帧的深层特征,包括目标轮廓、形状等特征;
(4)时空2D卷积模块:用于提取并融合视频帧的时空特征;
(5)分类识别模块:用于计算分类识别的损失,同时得到目标所属的行为类别。
网络结构总框图如图2所示。此网络结构是针对ECO算法网络模型进行改进,提出时空特征融合策略,将网络的浅层特征进一步提取并融合时间和空间的特征,替换ECO模型的3D卷积,减少网络的模型参数,加快目标行为识别的速度。
需要说明的是,在本发明实施例中提及的浅层网络提取的是纹理、细节特征;深层网络提取的是轮廓、形状、最强特征。其中,浅层网络包含更多的特征,也具备提取关键特征的能力。相对而言,层数越深,提取的特征越具有代表性.图像的分辨率是越来越小。浅层网络和深层网络的提取过程基本相同,深层特征在浅层特征的基础上完成。如图2,两种网络都采用InceptionV2卷积网络来实现。
具体地,浅层特征提取模块是由卷积网络InceptionV2 3a到3c层构成,浅层特征提取模块主要是提取图像的浅层特征,最后得到InceptionV2-3c特征。深层特征提取模块是由卷积网络InceptionV2 4a到5b层和Pooling层构成,深层特征提取模块主要是用于提取图像的深层特征,最后得到Pooling特征。
在图2所示的网络结构总框图中,视频预处理模块接收视频的连续输入,将视频取出N帧图像,每一帧图像的尺寸都设置成224x224大小。N帧图像输入到浅层特征提取模块,浅层特征提取模块是由卷积网络InceptionV2 3a到3c层构成,深层特征模块主要是提取图像的浅层特征,最后得到InceptionV2-3c特征。
InceptionV2-3c特征输入深层特征提取模块,深层特征模块是由卷积网络InceptionV24a到5b层和Pooling层构成,深层特征模块主要是用于提取图像的深层特征,最后得到Pooling特征。
InceptionV2-3c特征输入时空2D卷积模块,时空2D卷积模块主要用于提取N帧图像的时间特征和空间特征,并将两种特征融合,得到时空2D特征。
Pooling特征层和时空2D特征输入分类识别模块,分类识别模块由全连接层(Fully Connected Layer)和SoftMax函数构成,分类识别模块主要用于获得最后的行为的分类识别结果。
时空2D卷积模块包括降维模块和Temporal 2D模块。
其中,降维模块主要用于将五维特征转变成四维特征,降维模块的具体操作为:五维特征为五维数据,大小为(B,C,T,H,W),每个维度分别表示为特征的数量维度B,特征的通道维度C,特征的时间维度T,特征的高度维度H以及特征的宽度维度W。以B=C=1为例,四维特征如图3所示。图4为图3一个维度为(H,W)的二维张量。对图4进行拉伸后,转化成一维张量(H*W),如图5所示。最后实现降维操作,得到如图6所示的效果示意图。将其他的所有时间维度都进行降维操作,最后可以得到四维特征。
Temporal 2D模块包括三个Res block和一个Pooling层,如图7所示。如图8所示,在Res block中,分成两个部分,分别是block1和block2。如图9所示,在block1中,输入特征依次重复BatchNorm批量归一化操作、ReLU方式激活特征、3x3卷积的操作,得到新的特征,最后与输入特征进行Eltwise-Sum(特征相加)操作.
如图10所示。在block2中,输入特征依次重复BatchNorm批量归一化操作、ReLU方式激活特征、3x3卷积的操作,其中第一个3x3卷积设置步长为2,最后得到新的特征block2-1;另一方面,输入特征进行经过3x3卷积,步长设置为2,得到特征block2-2,之后将block2-1和block2-2两个特征使用Eltwise操作(特征相加),得到block2的输出特征。
InceptionV2-3c特征依次经过三个Res block和Pooling层进行平均池化,最后得到时空2D特征。
另外,本发明实施例提出一种基于时空特征融合的行为识别的网络结构及识别方法,网络结构包括视频预处理模块、浅层特征提取模块、深层特征提取模块、时空2D卷积模块和分类识别模块。识别方法基于网络的结构,包括行为识别模型的训练部分和测试部分,两部分的网络结构都相同。
下面以Kinetics行为识别数据集的训练和测试来介绍本发明的实施过程。Kinetics数据集的***于Youtube,每个视频仅包括一个行为类别,共有400个类别,每个视频帧的分辨率为320x240。Kinetics训练集包括236180个视频,测试集包括19905个视频。训练和测试过程采用Caffe框架实现,实验所用的显卡型号为Tesla V100。
本发明的模型训练流程图如图11所示,具体步骤为:
(1)将Kinetics训练数据集的每个视频的所有视频帧提取出来,视频帧保存的格式为JPG;
(2)设置模型的训练总迭代次数为120000次,初始学习率设置为0.001,在0-69999次的学习率为0.001,在70000-95999次的学习率为0.0001,在96000-120000次的学习率为0.00001,学习率的优化方式为SGD随机梯度下降法。模型训练的批量大小batch size设置为10,模型初始迭代次数设置为0,模型的保存间隔设置为2000,模型的预训练模型采用ECO算法在Kinetics数据集的迭代次数为30000次的模型。
(3)模型迭代次数加1,继续网络的训练过程。
(4)从训练集中随机取batch size个视频,预处理模块在每个视频中随机取N个视频帧,每个视频帧的尺寸设置为224x224,并采用翻转、缩放、减去BGR图像三个通道的均值(107,117,123)等操作处理视频帧。
(5)浅层特征提取模块采用InceptionV2 3a-3c网络结构,对预处理的N个视频帧提取浅层特征,得到InceptionV2-3c的浅层特征层。
(6)深层特征提取模块采用InceptionV2 4a-5b网络结构,对InceptionV2-3c的特征层提取视频帧的深层特征,得到InceptionV2-5b的深层特征层。
(7)由时空2D卷积模块对InceptionV2-3c的浅层特征层提取并融合视频帧时间和空间特征,最后得到时空2D特征层。
(8)由分类识别模块对InceptionV2-5b的深层特征层和时空2D特征层拼接的特征层进行行为分类,采用全连接层和SoftMax函数计算行为分类的损失。
(9)判断迭代次数能否整除模型保存间隔,如果能整除,则对模型参数进行保存。
(10)对模型的行为分类损失采用随机梯度下降法进行反向传播,分别更新浅层特征提取模块、深层特征提取模块、时空2D卷积模块以及分类识别模块的参数。
(11)判断迭代次数是否大于等于模型训练的总迭代次数,如果是,结束模型的训练,否则返回(3)。
本发明的模型测试流程图如图12所示,具体步骤为:
(1)将Kinetics测试数据集的每个视频的所有视频帧提取出来,视频帧保存的格式为JPG。(2)设置测试模型,采用本发明在Kinetics数据集训练120000次的模型作为测试模型,测试时的批量大小batch size设置为1,测试的迭代次数test_iter设置为4000。
(3)视频预处理模块对batch size个视频中随机取N个视频帧,每个视频帧的尺寸设置为224x224,减去BGR图像三个通道的均值(107,117,123)处理每个视频帧。
(4)跟前述训练部分的步骤(5)一致,预处理的N个视频帧经过浅层特征提取模块,得到视频帧的浅层特征。
(5)跟前述训练部分的步骤(6)一致,浅层特征层经过深层特征提取模块,得到视频帧的深层特征。
(6)跟前述训练部分的步骤(7)一致,浅层特征层经过时空2D卷积模块,得到视频帧的时空2D特征层。
(7)由分类识别模块对深层特征层和时空2D特征层采用全连接层和SoftMax函数,得到该视频的行为分类的类别。
(8)判断测试视频是否全部都输入网络进行测试,如果是,结束测试并输出测试结果;否则返回(3)继续对视频进行测试。
将本发明提出的行为识别网络与经典行为识别网络ECO算法进行详细的对比评估,以设置视频帧N为8时,在主流的行为识别数据集Kinetics、UCF101和SomethingV2进行验证测试。下列的表1为本发明行为识别方法与ECO算法的测试结果对比表。
表1
由表1可以看到,在Kinetics和UCF101数据集上本发明的准确率几乎与ECO一致;在SomethingV2数据集上,本发明与ECO得到了一样的准确率,表明本发明能有效进行行为识别。另一方面,由于本发明采用了时空2D卷积网络模块,替换原始的3D卷积,参数量大大减少,使得本发明的模型大小远低于ECO模型,模型占用空间大大降低。在推理时间上,本发明模型所用的时间仅为20ms,相对于ECO模型,推理时间降低了23.1%,因此本发明能做到在线实时的行为识别。
本发明实施例还提供了一种基于时空特征融合的行为识别装置,包括:
获取模块,用于获取待处理视频帧,并将所述待处理视频帧的尺寸进行统一;
第一提取模块,用于提取所述待处理视频帧中的浅层特征;
第二提取模块,用于根据所述浅层特征,提取所述待处理视频帧中的深层特征;
第三提取模块,用于提取所述待处理视频帧中的时空2D特征层;
识别模块,用于根据所述深层特征和所述时空2D特征层,识别所述待处理视频帧中目标对象的行为类别。
本发明实施例还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于时空特征融合的行为识别方法,其特征在于,包括:
通过视频预处理模块获取待处理视频帧,并将所述待处理视频帧的尺寸进行统一;
通过浅层特征提取模块提取所述待处理视频帧中的浅层特征;
根据所述浅层特征,通过深层特征提取模块提取所述待处理视频帧中的深层特征;
通过时空2D卷积模块提取所述待处理视频帧中的时空2D特征层;
根据所述深层特征和所述时空2D特征层,通过分类识别模块识别所述待处理视频帧中目标对象的行为类别;
其中,浅层特征提取模块的网络和深层特征提取模块的网络采用InceptionV2卷积网络来实现;
浅层特征提取模块是由卷积网络InceptionV2 3a到3c层构成,浅层特征提取模块用于提取图像的浅层特征,最后得到InceptionV2-3c特征;深层特征提取模块是由卷积网络InceptionV2 4a到5b层和Pool ing层构成,深层特征提取模块用于提取图像的深层特征,最后得到Pooling特征;
所述时空2D卷积模块包括降维模块和Temporal 2D模块;
降维模块用于将五维特征转变成四维特征,降维模块中的五维特征为五维数据,其中五维数据的大小为(B,C,T,H,W),每个维度分别表示为特征的数量维度B,特征的通道维度C,特征的时间维度T,特征的高度维度H以及特征的宽度维度W;
Temporal 2D模块包括三个Res block和一个Pooling层,在Res block中分成两个部分,分别是block1和block2;
在block1中,输入特征依次重复BatchNorm批量归一化操作、ReLU方式激活特征、3x3卷积的操作,得到新的特征,最后与输入的特征进行特征相加操作;
在block2中,输入特征依次重复BatchNorm批量归一化操作、ReLU方式激活特征、3x3卷积的操作,其中第一个3x3卷积设置步长为2,最后得到新的特征block2-1;同时,输入特征进行经过3x3卷积,步长设置为2,得到特征block2-2,之后将block2-1和block2-2两个特征使用Eltwise操作,得到block2的输出特征;
深层特征依次经过三个Res block和Pool ing层进行平均池化,最后得到时空2D特征。
2.根据权利要求1所述的基于时空特征融合的行为识别方法,其特征在于,所述获取待处理视频帧,并将所述待处理视频帧的尺寸进行统一,包括:
获取连续输入的视频内容;
从所述视频内容中提取出N帧图像;
将所述N帧图像的尺寸确定为224*224。
3.根据权利要求2所述的基于时空特征融合的行为识别方法,其特征在于,所述浅层特征包括所述图像的纹理特征和细节特征;
所述提取所述待处理视频帧中的浅层特征,具体为:
通过InceptionV2卷积网络对所述图像进行提取,得到InceptionV2-3c特征。
4.根据权利要求3所述的基于时空特征融合的行为识别方法,其特征在于,所述深层特征包括所述图像的轮廓特征、形状特征和最显著特征;
所述根据所述浅层特征,提取所述待处理视频帧中的深层特征,包括:
通过InceptionV2卷积网络对所述InceptionV2-3c特征进行提取,得到Pool ing特征。
5.根据权利要求3所述的基于时空特征融合的行为识别方法,其特征在于,所述提取所述待处理视频帧中的时空2D特征层,包括:
通过时空2D卷积模块对所述InceptionV2-3c特征进行提取,得到时间特征和空间特征;
将所述时间特征和所述空间特征进行平均池化处理,得到时空2D特征。
6.根据权利要求5所述的基于时空特征融合的行为识别方法,其特征在于,所述通过时空2D卷积模块对所述InceptionV2-3c特征进行提取,得到时间特征和空间特征,包括:
对所述InceptionV2-3c特征进行降维操作,得到时间特征;
对所述InceptionV2-3c特征依次执行归一化操作、ReLU激活操作、3*3卷积操作,得到第一特征;
对所述InceptionV2-3c特征依次执行归一化操作、ReLU激活操作、第一3*3卷积操作以及第二3*3卷积操作,得到第二特征;
将所述第一特征和所述第二特征相加,得到第三特征作为空间特征。
7.根据权利要求1-6中任一项所述的基于时空特征融合的行为识别方法,其特征在于,所述方法还包括:
训练行为识别模型;
以及,
对所述行为识别模型进行测试。
8.一种应用如权利要求1-7任一项所述的基于时空特征融合的行为识别方法的装置,其特征在于,包括:
获取模块,用于获取待处理视频帧,并将所述待处理视频帧的尺寸进行统一;
第一提取模块,用于提取所述待处理视频帧中的浅层特征;
第二提取模块,用于根据所述浅层特征,提取所述待处理视频帧中的深层特征;
第三提取模块,用于提取所述待处理视频帧中的时空2D特征层;
识别模块,用于根据所述深层特征和所述时空2D特征层,识别所述待处理视频帧中目标对象的行为类别。
9.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。
CN202110079906.7A 2021-01-21 2021-01-21 基于时空特征融合的行为识别方法、装置、设备及介质 Active CN112836602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110079906.7A CN112836602B (zh) 2021-01-21 2021-01-21 基于时空特征融合的行为识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110079906.7A CN112836602B (zh) 2021-01-21 2021-01-21 基于时空特征融合的行为识别方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112836602A CN112836602A (zh) 2021-05-25
CN112836602B true CN112836602B (zh) 2024-04-05

Family

ID=75929651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110079906.7A Active CN112836602B (zh) 2021-01-21 2021-01-21 基于时空特征融合的行为识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112836602B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887419B (zh) * 2021-09-30 2023-05-12 四川大学 一种基于提取视频时空信息的人体行为识别方法及***
CN114529889A (zh) * 2022-01-28 2022-05-24 燕山大学 一种分心驾驶行为识别方法、装置及存储介质
CN116824641B (zh) * 2023-08-29 2024-01-09 卡奥斯工业智能研究院(青岛)有限公司 姿态分类方法、装置、设备和计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
WO2020258498A1 (zh) * 2019-06-26 2020-12-30 平安科技(深圳)有限公司 基于深度学习的足球比赛行为识别方法、装置及终端设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
WO2020258498A1 (zh) * 2019-06-26 2020-12-30 平安科技(深圳)有限公司 基于深度学习的足球比赛行为识别方法、装置及终端设备

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Multi-Branch Spatial-Temporal Network for Action Recognition;Yingying Wang等;《IEEE Signal Processing Letters》;20190911;第26卷(第10期);1556 - 1560 *
SAST: Learning Semantic Action-Aware Spatial-Temporal Features for Efficient Action Recognition;Fei Wang等;《IEEE Access》;20191212;第7卷;164876 - 164886 *
Spatio-temporal Collaborative Convolution for Video Action Recognition;Xu Li等;《2020 IEEE International Conference on Artificial Intelligence and Computer Applications》;20200901;554-558 *
一种基于2D时空信息提取的行为识别算法;刘董经典等;《智能***学报》;20200828;第15卷(第5期);900-909 *
基于时空特征的视频行为识别;常颖;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20200615(第6期);I138-841 *
基于深度学***;吴甜甜;;数学的实践与认识;20191223(第24期);135-141 *

Also Published As

Publication number Publication date
CN112836602A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
Zhao et al. Supervised segmentation of un-annotated retinal fundus images by synthesis
CN112836602B (zh) 基于时空特征融合的行为识别方法、装置、设备及介质
Sabir et al. Recurrent convolutional strategies for face manipulation detection in videos
Wang et al. Detect globally, refine locally: A novel approach to saliency detection
Kim et al. Fully deep blind image quality predictor
Pathak et al. Context encoders: Feature learning by inpainting
CN109886881B (zh) 人脸妆容去除方法
Halit et al. Multiscale motion saliency for keyframe extraction from motion capture sequences
Din et al. Effective removal of user-selected foreground object from facial images using a novel GAN-based network
CN114399480A (zh) 蔬菜叶片病害严重程度检测方法及装置
CN114219719A (zh) 基于双重注意力和多尺度特征的cnn医学ct图像去噪方法
CN112597824A (zh) 行为识别方法、装置、电子设备和存储介质
Ahmed et al. Improve of contrast-distorted image quality assessment based on convolutional neural networks.
Xu et al. AutoSegNet: An automated neural network for image segmentation
He et al. What catches the eye? Visualizing and understanding deep saliency models
CN117275063A (zh) 基于三维信息时序一致性的人脸深度伪造检测方法及***
Tan et al. Local context attention for salient object segmentation
Fan et al. [Retracted] Accurate Recognition and Simulation of 3D Visual Image of Aerobics Movement
Gupta et al. A robust and efficient image de-fencing approach using conditional generative adversarial networks
Astono et al. [Regular Paper] Adjacent Network for Semantic Segmentation of Liver CT Scans
Zhang et al. Learning to explore intrinsic saliency for stereoscopic video
Lyu et al. Pyramidal convolution attention generative adversarial network with data augmentation for image denoising
CN115689993A (zh) 基于注意力与多特征融合的皮肤癌图像分割方法及***
Li et al. Prune the Convolutional Neural Networks with Sparse Shrink
Li et al. Image inpainting research based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 1001, Office Building T3, Hualian Business Center, Nanshan Community, Nanshan Street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Radio & TV Xinyi Technology Co.,Ltd.

Country or region after: China

Address before: 518000 1001, building T3, Hualian Business Center, Nanshan community, Nanshan street, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN XINYI TECHNOLOGY Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address