CN111931603B - 基于竞合网络的双流卷积网络的人体动作识别***及方法 - Google Patents
基于竞合网络的双流卷积网络的人体动作识别***及方法 Download PDFInfo
- Publication number
- CN111931603B CN111931603B CN202010710147.5A CN202010710147A CN111931603B CN 111931603 B CN111931603 B CN 111931603B CN 202010710147 A CN202010710147 A CN 202010710147A CN 111931603 B CN111931603 B CN 111931603B
- Authority
- CN
- China
- Prior art keywords
- network
- video
- convolution
- convolutional
- static
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000002860 competitive effect Effects 0.000 title claims description 11
- 230000003068 static effect Effects 0.000 claims abstract description 86
- 230000003287 optical effect Effects 0.000 claims abstract description 72
- 230000011218 segmentation Effects 0.000 claims abstract description 42
- 238000012706 support-vector machine Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000013257 coordination network Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 description 39
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于竞合网络的双流卷积网络的人体动作识别***及方法,所述***包括视频输入部分、特征提取部分和结果融合部分,其中特征提取部分还包括竞合网络。所述方法为:将视频输入双流架构的网络,其中时间流部分通过竞合网络对视频帧进行动静像素分割,输出剔除静态区域的光流图像,并输入到中等规模卷积网络,对光流图像进行特征提取;空间流部分将多帧视频图像输入卷积3D网络,对每一帧视频图像进行特征提取;分别在所述中等规模卷积网络和卷积3D网络的softmax层对提取的特征进行特征分类,然后采用多类支持向量机将分类结果进行分数融合,得到人体动作的正确识别,由此减少由环境等外部差异带来的误差,提升动作识别准确度。
Description
技术领域
本发明涉及计算机视觉领域,具体涉及人体动作识别的分析研究,更具体地涉及一种基于竞合网络架构的双流卷积网络的人体动作识别***及方法。
背景技术
在信息社会中,图片信息和视频信息在所有感官信息中占到很大比重。计算机视觉是运用照相机和计算机来获取有关被拍摄对象的数据与信息的学科,能够对图片信息和视频信息进行自动、高效的处理,因此,计算机视觉领域受到了越来越多的关注,在这一领域中,人体动作识别是一个重要的研究方向,不论是智能监控、视频安防还是虚拟现实技术,都需要人体动作识别技术的支持。在众多人体动作识别技术中,双流卷积网络通过模拟人体的视觉感受以及对视频信息的理解,不仅对图像的空间信息进行提取,还对视频帧序列中的时间信息进行了理解。
人体动作识别的一般步骤为:首先对视频进行运动目标检测,再对检测出的运动目标进行特征提取,最后将提取特征进行分类识别。传统的动作识别方法往往从二维入手进行研究,但效果并不理想。近年来,深度学习的发展及其在人体动作识别方面的应用,提出了许多关于自动提取特征的方法,也进一步提高算法的识别率。用深度学习方法解决视频中动作识别的问题解决思路有三种,分别是:双流方法,C3D(Convolutional 3DNetwork)方法以及CNN-LSTM(CNN-Long Short-Term Memory)。其中,双流方法就是应用双流卷积网络分别处理视频中的空间维度和时间维度信息,双流卷积网络分为空间流卷积网络和时间流卷积网络。RGB图像作为空间流卷积网络的输入,光流图像作为时间流卷积网络的输入,通过多任务训练的方法联合数据集,去除过拟合,进而提高识别准确率。
但双流卷积网络的光流场受遮挡、多视角、光照、背景等环境差异影响较大,影响动作识别的准确度。同时光流图像是对整个视频进行的处理,视频中的静态区域会对时间流卷积网络产生噪音干扰。而竞合(Competitive Collaboration)网络的提出刚好可以解决此问题,竞合网络将深度估计网络、相机运动网络、光流网络和运动分割网络联系在一起进行网络改进,可解决运动区域与静态区域分割问题。
因此,本发明提出一种应用竞合网络,能够有效去除视频帧中静态像素对动态像素的干扰,减少由环境等外部差异带来的误差,并准确的对视频中人体动作进行识别的方法。
发明内容
本发明提供一种基于竞合网络的双流卷积网络的人体动作识别***和方法,通过使用卷积3D网络和光流网络的双流网络架构,将竞合网络融入到光流网络中,对视频帧进行动静态区域分割。竞合网络中的光流网络输出只含动态像素的光流图作为时间流卷积网络的输入,以去除环境噪音,提升人体动作识别准确度。同时竞合网络内部的由深度网络和相机运动网络组成的静态区域网络和光流网络所代表的动态区域网络会联合起来对运动分割网络进行训练,使之在分割动静态区域方面更加准确,减少了由环境等外部差异带来的误差。
为达到上述目的,本发明提供了一种基于竞合网络的双流卷积网络的人体动作识别***,其包括:
视频输入部分,包括待识别视频的视频多帧图像序列以及视频单帧+视频多帧图像序列;
特征提取部分,连接所述视频输入部分,其包括空间流卷积网络与时间流卷积网络,分别对所述视频多帧图像序列与所述视频单帧+视频多帧图像序列中实现动静态像素分割的帧与帧之间的密集光流进行特征提取和分类;
结果融合部分,连接所述特征提取部分,其包括融合网络,将所述时间流卷积网络和所述空间流卷积网络输出的分类结果进行结果融合;
其中,还包括:
竞合网络,包括在所述特征提取部分中,并连接所述时间流卷积网络,其包含的四个网络分别对所述视频单帧+视频多帧图像序列进行训练并实现动静像素分割,输出只包含运动像素的光流图像序列。
在本发明一实施例中,其中,所述竞合网络包括静态区域网络、动态区域网络和运动分割网络,所述静态区域网络包括深度估计网络和相机运动网络,所述动态区域网络为光流网络;
在本发明一实施例中,其中,所述时间流卷积网络为中等规模卷积网络,所述中等规模卷积网络包括5层卷积层、2层全连接层和一层softmax,其输入图像尺寸为224×224,第一层卷积层的卷积核尺寸为7×7,卷积步长为2,第二层卷积层的卷积核尺寸为5×5,卷积步长为2,第三层至第五层卷积层的卷积核尺寸均为3×3,卷积步长为1;
在本发明一实施例中,其中,所述空间流卷积网络为卷积3D网络,所述卷积3D网络具有8个卷积层、5个池化层、两个全连接层以及一个softmax输出层,所有3D卷积滤波器均为3×3×3,步长为1×1×1,池化层1核大小为1×2×2、步长1×2×2,其余所有3D池化层均为2×2×2,步长为2×2×2,每个全连接层有4096个输出单元;
在本发明一实施例中,其中,所述融合网络为多类支持向量机,所述多类支持向量机在其损失函数的计算中添加L2范式的正则化惩罚以消除特定权重的模糊性,所述L2范式的正则化惩罚通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重,公式如下:
式中,W为权重,k表示W中元素的行向量,l表示W中元素的列向量;
多类支持向量机的整体损失函数为:
式中,xi为第i个数据中包含的图像特征,yi代表正确类别的标签,f(xi,W)为线性评分函数以计算不同分类类别的分值,属于第j类的得分为f(xi,W)j,N为训练样本的数目,λ为超参数,△为正确类别yi的得分始终比不正确分类j上的得分所高出的边界值,max函数用以取两者的较大值。
本发明还提供了一种包括所述***的基于竞合网络的双流卷积网络的人体动作识别方法,其包括以下步骤:
S1.将视频输入所述基于竞合网络的双流卷积网络和所述竞合网络;
S2.所述竞合网络对所述视频的帧进行动静像素分割,输出剔除静态区域像素、只包含运动像素的光流图像序列;
S3.将S2输出的光流图像序列输入所述中等规模卷积网络,并对光流图像进行特征提取;
S4.将S1的视频输入卷积3D网络,并对视频中的每一帧图像进行特征提取;
S5.分别在S3所述中等规模卷积网络和S4所述卷积3D网络的softmax层对提取的特征进行特征分类;
S6.使用多类支持向量机将特征分类的结果进行分数融合,从而得到人体动作的正确识别;其中,多类支持向量机在其损失函数的计算中添加L2范式的正则化惩罚,所述L2范式的正则化惩罚为通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重,公式如下:
式中,W为权重,k表示W中元素的行向量,l表示W中元素的列向量;
多类支持向量机的整体损失函数为:
其中,xi为第i个数据中包含的图像特征,yi代表正确类别的标签,f(xi,W)为线性评分函数以计算不同分类类别的分值,属于第j类的得分为f(xi,W)j,N为训练样本的数目,λ为超参数,△为正确类别yi的得分始终比不正确分类j上的得分所高出的边界值,max函数用以取两者的较大值;
S7.输出最终的识别结果。
在本发明一实施例中,其中S2中所述竞合网络对视频帧进行动静像素分割的具体步骤为:
S21.静态区域网络通过所述深度估计网络和所述相机运动网络估算静态区域光流,从而预测静态区域像素;
S22.动态区域网络通过视频多帧图像估算光流,从而预测动态区域像素;
S23.S21预测的静态区域像素和S22预测的动态区域像素竞争训练视频帧图像中的像素;
S24.运动分割网络协调所述静态区域网络与所述动态区域网络的竞争关系,并从所述动态区域网络中移除静态区域像素,从而在整个视频多帧图像上产生合成光流;
S25.使用合成光流的损失共同训练所述静态区域网络、所述动态区域网络与所述运动分割网络;
S26.所述静态区域网络、所述动态区域网络与所述运动分割网络在训练周期交替的进行动静态区域的划分,从而输出剔除静态区域像素、只包含运动像素的光流图像;
其中,S26所述的训练周期包括第一阶段和第二阶段:
第一阶段:所述运动分割网络作为协调网络训练由所述静态区域网络和所述动态区域网络组成的两个竞争网络,最小化能量函数;
第二阶段:两个竞争网络合作训练协调网络,最小化能量函数。
本发明通过在双流网络中引入竞合网络对动静像素进行分割,使光流网络输出剔除静态区域像素的光流图,并以此作为时间流卷积网络的输入,从而减少现有技术中由环境等外部差异带来的误差,提升动作识别准确度。同时与由卷积3D网络构成的空间流卷积网络联合组成双流网络,使视频中的时间信息和空间信息都得到充分的利用。
附图说明
图1为本发明基于竞合网络架构的双流卷积网络的人体动作识别方法框图;
图2为原始双流网络模型;
图3为竞合网络的原理示意图;
图4为CNN-M网络结构图;
图5为2D卷积网络与3D卷积网络的区别示意图;
图6为竞合网络的两个阶段示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1为本发明基于竞合网络架构的双流卷积网络的人体动作识别方法框图,如图1所示,将视频输入双流架构的网络,其中时间流部分通过竞合网络对视频帧进行动静像素分割,输出剔除静态区域的光流图像,并输入到中等规模卷积网络,对光流图像进行特征提取;空间流部分将多帧视频图像输入卷积3D网络,对每一帧视频图像进行特征提取;分别在所述中等规模卷积网络和卷积3D网络的softmax层对提取的特征进行特征分类,然后使用多类支持向量机将分类结果进行分数融合,从而得到人体动作的正确识别。
下面通过具体实施例说明本发明提供的基于竞合网络的双流卷积网络的人体动作识别***和方法。
本发明实施例提供的基于竞合网络的双流卷积网络的人体动作识别***是以如图2所示的双流网络为网络架构进行特征提取的,其中每一视频单帧,也就是RGB图像可作为空间成分,输入空间流卷积网络,视频帧与帧之间的密集光流输入时间流卷积网络,两个卷积网络分别进行特征提取和分类识别,最后进行结果融合,如图1和图2所示,基于竞合网络的双流卷积网络的人体动作识别***包括:
视频输入部分,包括待识别视频的视频多帧图像序列以及视频单帧+视频多帧图像序列;
特征提取部分,连接所述视频输入部分,其包括空间流卷积网络与时间流卷积网络,分别对所述视频多帧图像序列与所述视频单帧+视频多帧图像序列中实现动静态像素分割的帧与帧之间的密集光流进行特征提取和分类;
结果融合部分,连接所述特征提取部分,其包括融合网络,将所述时间流卷积网络和所述空间流卷积网络输出的分类结果进行结果融合;
其中,还包括:
竞合网络,包括在所述特征提取部分中,并连接所述时间流卷积网络,其包含的四个网络分别对所述视频单帧+视频多帧图像序列进行训练并实现动静像素分割,输出只包含运动像素的光流图像序列。
在本发明实施例中,所述竞合网络包括静态区域网络R、动态区域网络F和运动分割网络,如图3所示,其中静态区域网络R包括深度估计网络D和相机运动网络C,即可用R=(D,C)表示,动态区域网络为光流网络F;
在本发明实施例中,所述时间流卷积网络为中等规模卷积网络,所述中等规模卷积网络(CNN-M)包括5层卷积层、2层全连接层和一层softmax,如图4所示,所述中等规模卷积网络的输入图像尺寸为224×224,第一层卷积层的卷积核尺寸为7×7,卷积步长为2,第二层卷积层的卷积核尺寸为5×5,卷积步长为2,第三层至第五层卷积层的卷积核尺寸均为3×3,卷积步长为1。CNN-M通过增加滤波器的数量,减小滤波器的尺寸和步长,CNN-M可以更好地发现和保留原始输入图像的细节信息。
在本发明实施例中,所述空间流卷积网络为卷积3D网络,如图1所示,所述卷积3D网络为具有3×3×3卷积核均匀设置的3D卷积网络,其具有8个卷积层、5个池化层、两个全连接层以及一个softmax输出层,所有3D卷积滤波器均为3×3×3,步长为1×1×1,设置池化层1核大小为1×2×2、步长1×2×2,其余所有3D池化层均为2×2×2,步长为2×2×2,每个全连接层有4096个输出单元。
在3D卷积网络中,卷积和池化操作在时空上执行,而2D卷积网络中,它们仅在空间上完成,如图5所示,其中,图5(a)为多帧输入的2D卷积网络及其输出,图5(b)为多帧输入的3D卷积网络及其输出。其中视频片段尺寸定义为c×L×H×W,c是通道数,L是帧数的长度,H和W分别是帧的高度和宽度。3D卷积和池化核大小指向d×k×k,d是核的时间深度,k是核的空间大小。因此,与2D卷积网络相比,3D卷积网络能够通过3D卷积和3D池化操作更好地建模时间信息。
在本发明实施例中,,所述融合网络为多类支持向量机(MulticlassSupportVector Machine,multi-SVM),所述多类支持向量机在其损失函数的计算中添加L2范式的正则化惩罚以消除特定权重的模糊性。
基于以上基于竞合网络的双流卷积网络的人体动作识别***,本发明实施例还提供基于竞合网络的双流卷积网络的人体动作识别方法,其包括以下步骤:
S1.将所述视频输入所述基于竞合网络的双流卷积网络和所述竞合网络;
S2.所述竞合网络对所述视频帧进行动静像素分割,输出剔除静态区域像素、只包含运动像素的光流图像序列;
其中,如图3所示,S2中所述竞合网络对视频帧进行动静像素分割的具体步骤为:
S21.所述静态区域网络R通过所述深度估计网络D和所述相机运动网络C估算静态区域光流,从而预测静态区域像素;
S22.所述动态区域网络F通过视频多帧图像估算光流,从而预测动态区域像素;
S23.S21预测的静态区域像素和S22预测的动态区域像素竞争训练视频帧图像中的像素;
S24.所述运动分割网络M协调所述静态区域网络R与所述动态区域网络F的竞争关系,并从所述动态区域网络F中移除静态区域像素,从而在整个视频多帧图像上产生合成光流;
S25.使用合成光流的损失共同训练所述静态区域网络R、所述动态区域网络F与所述运动分割网络M;
S26.所述静态区域网络R、所述动态区域网络F与所述运动分割网络M在训练周期交替的进行动静态区域的划分,从而输出剔除静态区域像素、只包含运动像素的光流图像;
其中,如图6所示,S26所述的训练周期包括第一阶段和第二阶段:
第一阶段为竞争阶段(图6左图),运动分割网络M作为协调网络训练由静态区域网络R和动态区域网络F组成的两个竞争网络,最小化能量函数,其能量函数为:
式中,·表示元素乘积,分区由M的输出结果管理,Ω表示空间像素集合,是竞争者分区的结果,/>为一组无标注的训练数据集,动静态区域分割即将/>分割为两个不相交的数据集,LR为静态区域网络的损失函数,LF为动态区域网络的损失函数,在竞争过程中,每个竞争网络都试图通过对/>进行分区来获得最小的损失函数;
第二阶段为合作阶段(图6右图),两个竞争网络(R和F)合作训练协调网络M,使其在下一周期对数据的划分更为准确,最小化能量函数,其能量函数为:
式中,LM表示竞争对手{R,F}之间的共识的损失函数(LOSS)。
在本发明一实施例中,分别使用Dθ,Fψ,Mχ表示深度估计网络、相机运动网络、光流网络及运动分割网络,下标/>为各网络的相关参数,用I-,I,I+三帧代表连续帧来计算Cφ,Mχ,其中目标图像的深度估计为:
d=Dθ(I) (3)
通过相应图像帧I-I+来进行相机运动估计为:
估计静态场景的光流只需要相机运动网络和深度估计网络即可,一般与场景结构有关,每对目标相关图像的分割mask如下:
m-,m+=Mχ(I-,I,I+) (5)
式中m-,m+∈[0,1]Ω为在空间像素集合Ω中静态区域的概率,最终光流网络Fψ通过估计其光流,输入两帧图像,并在其估计的前向光流估计u-和反向光流估计u+共享其权重:
u-=Fψ(I,I-),u+=Fψ(I,I+ )(6)
损失函数(LOSS)方面,网络最小化能量函数为:
E=λRER+λFEF+λMEM+λCEC+λSES (7)
式中,{λR,λF,λM,λC,λS}是权重,ER和EF分别是静态区域网络和运动区域网络的最小化目标,EM为分割网络的最小化能量函数,决定这两个竞争网络的竞争数据,权重λM过大时会将更多像素送入静态区域。EC为一致性损失用以管理合作部分,ES为光滑度项用以管理平滑度,通过ER最小化静态场景的光度损失:
式中,Ω是空间像素集合,ρ是鲁棒误差函数,Is表示目标图像相邻的两个图像,即为参考帧,es为参考帧的相机运动估计,ms为该参考帧在静态区域的概率,wC为相机变换函数,根据深度估计d和相机运动估计e由参考帧变换到目标图像I;
同样的,通过EF最小化运动区域光度损失:
式中,us表示参考帧的光流估计,wf为光流变换函数,可利用光流估计u由参考帧变换到目标图像I;
计算鲁棒损失为:
式中,λρ代表权重,是一个固定值,ε=0.01。x,y分别是两帧图片,式中第二部分是结构相似性损失,μx,σx是图片x像素周围的局部均值和标准差,μy,σy是图片y像素周围的局部均值和标准差,c1=0.012,c2=0.032;
运动分割网络的最小化能量函数EM用来减小在mask和由λM管理的单元向量之间的交叉熵H:
较大的λM更偏向于静态区域网络R,使场景偏向静态。
ν(e,d)表示由相机运动估计e和深度估计d生成的光流,使用一致性损失EC约束分割mask,并通过对由ν(e,d)产生的静态场景流和由Fψ估计的光流之间的一致性,来分割运动物体,一致性损失定义如下:
式中,是一个指示函数,值为1时表示条件正确,第一个指示函数是对竞争网络分配mask,并通过比较静态区域帧的鲁棒损失ρR和动态区域帧的鲁棒损失ρF来确定同一像素的光度损失。其中,ρR=(I,wc(Is,es,d)),ρF=(I,wf(Is,us)),在第二个指示函数中,阈值λC使/>如果由ν(e,d)产生的静态场景流与光流u相近,那么就是静态场景,符号∨代表两个指示函数间的逻辑或(OR),如果R的光度损失比F低或者R的光流与F的相似,那么一致性损失EC将此像素归为静态区域像素。
最终光滑度项ES用来对深度估计、分割和光流进行约束:
式中是空间方向的一阶导数,λe保证平滑度由图像边缘决定。
深度和相机运动直接从网络输出,运动分割m*由mask网络Mχ以及从光流网络Fψ中估计的场景流和光流一致性输出,表示为:
式中,第一项结合从Mχ推出mask概率,第二项使用从R=(D,C)和Fψ推出的光流之间的一致性来矫正mask,最后,在(I,I+)间完整的光流u*,是由静态场景和单独移动物体光流结合得到,表示为:
S3.将S2输出的光流图像输入中等规模卷积网络,并对光流图像进行特征提取;
S4.将S1的视频输入卷积3D网络,并对视频中的每一帧图像进行特征提取;
S5.分别在S3所述中等规模卷积网络和S4所述卷积3D网络的softmax层对提取的特征进行特征分类;
其中,从图5的CNN-M网络结构及图1中的卷积3D网络架构可以看出,双流网络中的两个特征提取的卷积网络后都各连接一个softmax层,用以对提取的特征进行特征分类。
S6.使用多类支持向量机(Multiclass Support Vector Machine,multi-SVM)将特征分类的结果进行分数融合,从而得到人体动作的正确识别;其中,多类支持向量机在其损失函数的计算中添加L2范式的正则化惩罚以消除特定权重的模糊性,所述L2范式的正则化惩罚与多类支持向量机multi-SVM的损失函数如下:
其中,设第i个数据中包含的图像特征xi和代表正确类别的标签yi,通过线性评分函数f(xi,W)来计算不同分类类别的分值,其中W为权重,设分值为s,则其属于第j类的得分为sj=f(xi,W)j。将线性评分函数s=f(xi,W)在不正确类别j的得分Sj与正确类别yi的得分Syi比较,通过损失函数预测不正确类别的累加,计算针对第i个数据的多类SVM的损失函数为:
式中,△为正确分类上的得分始终比不正确分类上的得分所高出的边界值;max函数用以取Sj-Syi+△与0的较大值,若Li=0,说明给定的数据xi分类正确;
若损失函数只包含误差部分,可能存在多个W,为消除特定权重W的模糊性,在误差部分基础上添加正则化惩罚(regularization penalty)部分,本实施例所采用的正则化惩罚是L2范式,所述L2范式通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重,公式如下:
式中,k表示W中元素的行向量,l表示W中元素的列向量,正则化部分仅基于权重,与数据无关,其优势在于对大数值权重进行惩罚,提升模型泛化能力,避免产生过拟合。
将线性评分函数带入,得到multi-SVM的完整损失函数为:
其中,N为训练样本的数目,λ为超参数。
S7.输出最终的识别结果。
综上,本发明通过将竞合网络引入双流网络中,利用竞合网络可以分割视频的动态区域、静态区域的特性,使其中的光流网络输出只含运动像素的光流图作为双流网络中时间流卷积网络的输入,大大改善了静态环境对动作识别的干扰问题,提高了动作识别的准确率。并且与C3D网络联合构成双流网络,使视频中的时间信息和空间信息都得到充分的利用。此外,在本发明实施例中所使用的竞合网络可使用无标记数据集,其竞争合作特性使其中的运动分割网络在下一次进行动静态像素分割之前会受到由深度估计网络和相机运动网络组成的静态区域网络和光流网络所代表的动态区域网络的联合训练,使下一次的动静态像素分割更加准确,作为时间流卷积网络输入的光流图中干扰会更少,动作识别正确率变高。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
Claims (5)
1.一种基于竞合网络的双流卷积网络的人体动作识别***,其包括:
视频输入部分,包括待识别视频的视频多帧图像序列以及视频单帧+视频多帧图像序列;
特征提取部分,连接所述视频输入部分,其包括空间流卷积网络与时间流卷积网络,分别对所述视频多帧图像序列与所述视频单帧+视频多帧图像序列中实现动静态像素分割的帧与帧之间的密集光流进行特征提取和分类;
结果融合部分,连接所述特征提取部分,其包括融合网络,将所述时间流卷积网络和所述空间流卷积网络输出的分类结果进行结果融合;
其特征在于,还包括:
竞合网络,包括在所述特征提取部分中,并连接所述时间流卷积网络,其包含的四个网络分别对所述视频单帧+视频多帧图像序列进行训练并实现动静像素分割,输出只包含运动像素的光流图像序列,所述竞合网络包括静态区域网络、动态区域网络和运动分割网络,所述静态区域网络包括深度估计网络和相机运动网络,所述动态区域网络为光流网络;
所述融合网络为多类支持向量机;
其中,基于竞合网络的双流卷积网络的人体动作识别***进行人体动作识别的方法,包括以下步骤:
S1.将视频输入所述基于竞合网络的双流卷积网络和所述竞合网络;
S2.所述竞合网络对所述视频的帧进行动静像素分割,输出剔除静态区域像素、只包含运动像素的光流图像序列;
S3.将S2输出的光流图像序列输入所述时间流卷积网络,并对光流图像进行特征提取;
S4.将S1的视频输入卷积3D网络,并对视频中的每一帧图像进行特征提取;
S5.分别在S3所述时间流卷积网络和S4所述卷积3D网络的softmax层对提取的特征进行特征分类;
S6.使用多类支持向量机将特征分类的结果进行分数融合,从而得到人体动作的正确识别;
S7.输出最终的识别结果;
其中,S2中所述竞合网络对视频帧进行动静像素分割的具体步骤为:
S21.静态区域网络通过所述深度估计网络和所述相机运动网络估算静态区域光流,从而预测静态区域像素;
S22.动态区域网络通过视频多帧图像估算光流,从而预测动态区域像素;
S23.S21预测的静态区域像素和S22预测的动态区域像素竞争训练视频帧图像中的像素;
S24.运动分割网络协调所述静态区域网络与所述动态区域网络的竞争关系,并从所述动态区域网络中移除静态区域像素,从而在整个视频多帧图像上产生合成光流;
S25.使用合成光流的损失共同训练所述静态区域网络、所述动态区域网络与所述运动分割网络;
S26.所述静态区域网络、所述动态区域网络与所述运动分割网络在训练周期交替的进行动静态区域的划分,从而输出剔除静态区域像素、只包含运动像素的光流图像。
2.根据权利要求1所述的一种基于竞合网络的双流卷积网络的人体动作识别***,其特征在于,所述时间流卷积网络为中等规模卷积网络,所述中等规模卷积网络包括5层卷积层、2层全连接层和一层softmax,其输入图像尺寸为224×224,第一层卷积层的卷积核尺寸为7×7,卷积步长为2,第二层卷积层的卷积核尺寸为5×5,卷积步长为2,第三层至第五层卷积层的卷积核尺寸均为3×3,卷积步长为1。
3.根据权利要求1所述的一种基于竞合网络的双流卷积网络的人体动作识别***,其特征在于,所述空间流卷积网络为卷积3D网络,所述卷积3D网络具有8个卷积层、5个池化层、两个全连接层以及一个softmax输出层,所有3D卷积滤波器均为3×3×3,步长为1×1×1,池化层1核大小为1×2×2、步长1×2×2,其余所有3D池化层均为2×2×2,步长为2×2×2,每个全连接层有4096个输出单元。
4.根据权利要求1所述的一种基于竞合网络的双流卷积网络的人体动作识别***,其特征在于,所述多类支持向量机在其损失函数的计算中添加L2范式的正则化惩罚以消除特定权重的模糊性,所述L2范式的正则化惩罚为通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重,公式如下:
式中,W为权重,k表示W中元素的行向量,l表示W中元素的列向量;
多类支持向量机的整体损失函数为:
式中,xi为第i个数据中包含的图像特征,yi代表正确类别的标签,f(xi,W)为线性评分函数以计算不同分类类别的分值,属于第j类的得分为f(xi,W)j,N为训练样本的数目,λ为超参数,△为正确类别yi的得分始终比不正确分类j上的得分所高出的边界值,max函数用以取两者的较大值。
5.根据权利要求1所述的基于竞合网络的双流卷积网络的人体动作识别***,其特征在于,S26所述的训练周期包括第一阶段和第二阶段:
第一阶段:所述运动分割网络作为协调网络训练由所述静态区域网络和所述动态区域网络组成的两个竞争网络,最小化能量函数;
第二阶段:两个竞争网络合作训练协调网络,最小化能量函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010710147.5A CN111931603B (zh) | 2020-07-22 | 2020-07-22 | 基于竞合网络的双流卷积网络的人体动作识别***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010710147.5A CN111931603B (zh) | 2020-07-22 | 2020-07-22 | 基于竞合网络的双流卷积网络的人体动作识别***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111931603A CN111931603A (zh) | 2020-11-13 |
CN111931603B true CN111931603B (zh) | 2024-01-12 |
Family
ID=73315975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010710147.5A Active CN111931603B (zh) | 2020-07-22 | 2020-07-22 | 基于竞合网络的双流卷积网络的人体动作识别***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931603B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507803A (zh) * | 2020-11-16 | 2021-03-16 | 北京理工大学 | 一种基于双流网络的步态识别方法 |
CN112597975B (zh) * | 2021-02-26 | 2021-06-08 | 上海闪马智能科技有限公司 | 一种基于视频的火灾烟雾和抛洒物检测方法及*** |
CN113537232B (zh) * | 2021-05-31 | 2023-08-22 | 大连民族大学 | 双通道交互时间卷积网络、近景视频动作分割方法、计算机***和介质 |
CN114565973A (zh) * | 2022-02-25 | 2022-05-31 | 全球能源互联网研究院有限公司 | 一种动作识别***、方法、装置及模型训练方法、装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103035006A (zh) * | 2012-12-14 | 2013-04-10 | 南京大学 | 一种LiDAR辅助下基于LEGION的高分辨率航空影像分割方法 |
WO2019103188A1 (ko) * | 2017-11-23 | 2019-05-31 | 주식회사 아이메디신 | 뇌파 분석을 통한 외상성 뇌손상 평가 시스템 및 방법 |
CN110889375A (zh) * | 2019-11-28 | 2020-03-17 | 长沙理工大学 | 用于行为识别的隐双流协作学习网络及方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
-
2020
- 2020-07-22 CN CN202010710147.5A patent/CN111931603B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103035006A (zh) * | 2012-12-14 | 2013-04-10 | 南京大学 | 一种LiDAR辅助下基于LEGION的高分辨率航空影像分割方法 |
WO2019103188A1 (ko) * | 2017-11-23 | 2019-05-31 | 주식회사 아이메디신 | 뇌파 분석을 통한 외상성 뇌손상 평가 시스템 및 방법 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN110889375A (zh) * | 2019-11-28 | 2020-03-17 | 长沙理工大学 | 用于行为识别的隐双流协作学习网络及方法 |
Non-Patent Citations (1)
Title |
---|
Competitive Collaboration: Joint Unsupervised Learning of Depth, Camera Motion, Optical Flow and Motion Segmentation;Anurag Ranjan等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;12240-12249 * |
Also Published As
Publication number | Publication date |
---|---|
CN111931603A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931603B (zh) | 基于竞合网络的双流卷积网络的人体动作识别***及方法 | |
CN110097568B (zh) | 一种基于时空双分支网络的视频对象检测与分割方法 | |
Zhou et al. | Self-supervised monocular depth estimation with internal feature fusion | |
Zhu et al. | Hidden two-stream convolutional networks for action recognition | |
CN111310731B (zh) | 基于人工智能的视频推荐方法、装置、设备及存储介质 | |
Wang et al. | Salient object detection based on multi-scale contrast | |
CN112836640B (zh) | 一种单摄像头多目标行人跟踪方法 | |
CN110889375B (zh) | 用于行为识别的隐双流协作学习网络及方法 | |
CN111080675B (zh) | 一种基于时空约束相关滤波的目标跟踪方法 | |
US11640714B2 (en) | Video panoptic segmentation | |
Rahmon et al. | Motion U-Net: Multi-cue encoder-decoder network for motion segmentation | |
CN106127197B (zh) | 基于显著标签排序的图像显著性目标检测方法和装置 | |
CN110097115B (zh) | 一种基于注意力转移机制的视频显著性物体检测方法 | |
CN113657560B (zh) | 基于节点分类的弱监督图像语义分割方法及*** | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及*** | |
CN108764244B (zh) | 基于卷积神经网络和条件随机场的潜在目标区域检测方法 | |
CN111368634B (zh) | 基于神经网络的人头检测方法、***及存储介质 | |
CN115223082A (zh) | 一种基于时空多尺度Transformer的航拍视频分类方法 | |
Jiang et al. | A CNN model for semantic person part segmentation with capacity optimization | |
CN112184767A (zh) | 对运动物体进行轨迹跟踪的方法、装置、设备及存储介质 | |
CN109255382A (zh) | 用于图片匹配定位的神经网络***,方法及装置 | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及*** | |
CN114898407A (zh) | 一种基于深度学习牙齿目标实例分割及其智能预览的方法 | |
Liu et al. | Asflow: Unsupervised optical flow learning with adaptive pyramid sampling | |
Wang et al. | Paul: Procrustean autoencoder for unsupervised lifting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |