CN111709351B - 基于多径时空特征强化融合的三支流网络行为识别方法 - Google Patents

基于多径时空特征强化融合的三支流网络行为识别方法 Download PDF

Info

Publication number
CN111709351B
CN111709351B CN202010530501.6A CN202010530501A CN111709351B CN 111709351 B CN111709351 B CN 111709351B CN 202010530501 A CN202010530501 A CN 202010530501A CN 111709351 B CN111709351 B CN 111709351B
Authority
CN
China
Prior art keywords
network
time
fusion
space
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010530501.6A
Other languages
English (en)
Other versions
CN111709351A (zh
Inventor
孔军
邓浩阳
蒋敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202010530501.6A priority Critical patent/CN111709351B/zh
Publication of CN111709351A publication Critical patent/CN111709351A/zh
Application granted granted Critical
Publication of CN111709351B publication Critical patent/CN111709351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

基于多径时空特征强化融合的三支流网络行为识别方法。该方法采用一种基于时空双流网络的网络框架,称为多径时空特征强化融合网络。针对双流网络仅融合顶层时空特征导致的双流信息利用不充分、特征融合阶段位于全局采样层之后导致特征融合交互不够的问题,本发明利用压缩双线性算法,对来自双流网络多层对应时空特征进行降维,然后进行融合,在减少融合特征所需内存的同时,增加融合特征之间的交互,增强融合效果。此外,本发明在融合流中提出多尺度通道‑空间注意力模块,对融合特征中有效特征进行增强,对无效特征进行抑制。最后,本发明还结合时间分段网络TSN的思想对视频中长期时间信息进行捕捉,进一步提高了行为识别模型的鲁棒性。

Description

基于多径时空特征强化融合的三支流网络行为识别方法
技术领域
本发明属于机器视觉领域,特别涉及一种基于多径时空特征强化融合的三支流网络行为识别方法。
背景技术
随着社会的发展,机器视觉领域的知识越来越多地被应用到实际生活中,而行为识别是机器视觉领域中一个重要的研究方向。行为识别可以应用于人机交互、医疗监护、视频智能监控等场景中,但由于光照条件、物体遮挡、复杂背景、穿着衣物等因素的影响,行为识别还有许多需要解决的问题。目前存在的行为识别方法主要有(1)基于RGB视频;(2)基于骨骼节点;(3)基于RGB+D视频。由于RGB视频数据获取途径较多,获取成本较低,所以本发明选择以RGB视频为研究对象,以提取融合视频中时间特征和空间特征为目的,提出包含独特融合流的三支流网络方法来有效识别人体行为。
目前,以RGB视频作为数据进行行为识别的方法主要使用双流网络。在双流网络中,通过两个分离卷积神经网络中卷积操作的堆积来提取RGB图像中的空间特征和光流图片中的时间特征,最后对两个网络提取的顶层特征进行加权融合,得到最终的结果。但是传统的双流网络仍然存在以下三个问题:(1)双流网络融合阶段位于全局平均采样层之后,而提取的特征经过全局平均采样层之后存在信息损失的情况,如何最大化保留融合特征中的有效的信息是一个值得解决的问题;(2)双流网络仅融合网络顶层的特征,而卷积神经网络顶层特征虽然包含丰富的全局信息,但是缺少对行为分类也有帮助的局部信息;(3)双流网络对待融合特征上的各个部分使用相同的优先级,即使用相同的权重对特征的各个部分进行加权,而融合特征的各个部分对行为识别的分类的有效性是不相同的。
基于以上考虑,本发明提出一种基于多径时空特征强化融合的三支流网络行为识别方法。首先,将融合阶段提前到全局平均采样层之前,在信息损失发生之前使用压缩双线性算法对特征进行融合,最大化特征交互的同时减少融合所需计算量。其次,融合采用的特征选用包括来自网络顶层在内的多层特征,保证有足够的全局以及局部特征提供给行为识别。最后,提出多尺度注意力模块对所得的融合特征各个部分进行优先级调整增强整个网络的鲁棒性。
发明内容
本发明的主要目的是提出一种基于多径时空特征强化融合的三支流网络行为识别方法,对传统双流网络的多层对应的时空特征融合后进行增强,得到更具辨识性的信息,以进行更加高效的行为识别。
为了实现上述目的,本发明提供如下技术方案:
基于多径时空特征强化融合的三支流网络行为识别方法,步骤如下:
步骤一、获取RGB帧:对于数据集中的每个视频进行取帧处理,获得RGB原始帧
Figure BDA0002535204270000021
N+1为视频总帧数;
步骤二、计算光流图:应用TVL1算法对按时序排序的RGB原始帧frgb两两进行计算得到光流图
Figure BDA0002535204270000022
步骤三、将视频在时间尺度上分为k段:按时间顺序将RGB原始帧frgb及光流图fopt各分为等长的k份,分别为
Figure BDA0002535204270000023
Figure BDA0002535204270000024
其中j={1,2,…,k},
Figure BDA0002535204270000025
floor(·)表示向下取整函数,特别地,N0=0;
步骤四、构建包括k个并行时间分段网络在内的多时间分段融合网络,每个分段网络包括一个空间流网络、一个时间流网络和一个融合流网络。
步骤五、对每个分段融合网络分别计算空间流预测概率分布:针对第k个时间分段融合网络,基于双流网络中的空间流网络获取多层空间特征
Figure BDA0002535204270000031
和空间流预测概率分布
Figure BDA0002535204270000032
从第k段视频原始帧
Figure BDA0002535204270000033
中随机选取一帧RGB图片输入双流网络中的空间流网络中,从空间流网络中最后M个卷积模块输出中可以得到多层空间特征
Figure BDA0002535204270000034
空间流网络最后输出的结果就是空间流预测概率分布
Figure BDA0002535204270000035
步骤六、对每个分段融合网络分别计算时间流预测概率分布:针对第k个时间分段融合网络,基于双流网络中的时间流网络获取多层时间特征
Figure BDA0002535204270000036
和时间流预测概率分布
Figure BDA0002535204270000037
从第k段视频光流图
Figure BDA0002535204270000038
中选取时间上对应于步骤五中RGB图片的连续五张光流图片,输入双流网络中的时间流网络中,从时间流网络中最后M个卷积模块输出中可以得到多层时间特征
Figure BDA0002535204270000039
时间流网络最后输出的结果就是时间流预测概率分布
Figure BDA00025352042700000310
步骤七、时空特征融合:使用M个多径压缩双线性融合模块DCBF分别融合M对时间流网络、空间流网络对应层特征得到M个压缩时空特征;
步骤八、多径特征融合:使用多径压缩双线性融合模块DCBF融合M个压缩时空特征得到多径压缩时空特征;
步骤九、使用注意力机制增强多径压缩时空特征:使用多尺度通道-空间注意力模块CSA对多径压缩时空特征进行特征权重调整,最后经过全局平均采样层和全连接层,得到融合流预测概率分布
Figure BDA00025352042700000311
步骤十、重复上述步骤五到步骤九k次获得对应视频不同时间分段的k段预测结果
Figure BDA00025352042700000312
步骤十一、计算空间流最终概率预测分布Pspa、时间流最终概率预测分布Ptem和融合流最终概率预测分布Pfus:对三个流的各个时间分段结果进行融合,计算方法为加和平均。
步骤十二、计算加权融合三个流的预测概率分布P:本发明使用加权平均融合方法对三个最终概率预测分布进行融合。
与现有的技术相比,本发明具有以下有益效果:
1.传统的双流网络识别行为仅使用网络得到的顶层特征,步骤五和步骤六取来自基础双流网络多层空间特征和时间特征,步骤七中使用这些特征,在保留重要的全局信息的同时,还使用对行为识别有帮助的局部信息,相比传统的双流网络,增加了有效信息利用率,有效地提升了行为识别效率;
2.步骤七和步骤八中采用多径压缩双线性融合,显著降低了直接融合所需计算代价,同时最大化了特征之间的交互,有利于产生更多有效的融合特征;
3.步骤九中使用的多尺度通道-空间注意力模块可以进一步通过权重调整对融合特征中有效信息部分进行增强,对无效信息部分以及噪声进行抑制,提高整个网络行为识别的效果,使网络更加关注于原图片中与行为相关的物体和人;
4.与基础的双流网络相比,本发明的识别准确率更高,而且仅需增加一个较浅的融合网络。
附图说明
图1为本发明的算法流程图;
图2为结合TSN思想后本发明的总体模型图;
图3为本发明的算法模型图(单个时间分段);
图4为多尺度通道-空间注意力模块图;
图5(a)为通道注意力(上);
图5(b)为多尺度空间注意力(下);
图6为不同情况下连续两帧RGB帧和对应的一帧光流图;其中,(a-1)至(d-1)表示RGB帧1,(a-2)至(d-2)表示RGB帧2,(a-3)至(d-3)表示光流图x通道,(a-4)至(d-4)表示光流图y通道;
图7为DCBF模块1、DCBF模块2和DCBF模块3的通用结构图;
图8为DCBF模块4;
图9为不同情况下的原RGB帧、加入注意力模块前普通双流网络中空间流注意力热力图和加入注意力模块后空间流注意力热力图;其中,(a-1)至(d-1)表示原RGB帧空间流输入,(a-2)至(d-2)表示加入注意力模块前普通双流网络中空间流注意力热力图,(a-3)至(d-4)表示加入注意力模块后空间流注意力热力图。
具体实施方式
为了对本发明进行更好的说明,下面以公开的行为数据集UCF101为例进行阐述,在本实例中采用k=3对整个视频进行分段,即使用3个时间分段网络,每个网络中选取M=3层特征,具体实施中k,M可以根据实际情况进行调整。
图2是将整个视频按照时间顺序分为三段后的总体模型图;
图3为本发明的整体模型图(单个时间分段);
图3表示单个时间分段的本发明算法模型图,结合图2可以表示本发明中完整的算法流程图,算法以RGB图片和对应连续光流图片为输入,其中由视频得到的RGB帧输入空间流网络,对应RGB帧的多帧光流图片则输入时间流网络,由空间流和时间流分别得到的多径空间特征和多径时间特征则输入到融合流网络中。关键部分包括空间流网络、时间流网络以及由DCBF模块(多径压缩双线性融合模块)和CSA模块(多尺度通道-空间注意力模块)组成的融合流网络。其中空间流网络和时间流网络使用的是InceptionV3网络,融合流网络使用的多层特征来自于InceptionV3的第10层(顶层)、第9层(中间层)和第8层(中间层)。最终,融合三个流网络采用加权平均融合方法,其默认的融合权重分别是0.5,2.0和1.0。
图4所示为CSA模块,其中
Figure BDA0002535204270000061
表示对应元素相乘;
图5(a)和图5(b)为CSA模块中通道注意力和多尺度空间注意力子模块的具体构成。
其中的多尺度空间注意力使特征中每个空间上的位置可以获得多尺度的视野,方便网络选择最适合该空间位置的最佳卷积核。
上述方案中步骤二中TVL1算法的具体方法可以参考:Zach C,Pock T,BischofH.A duality based approach for realtime TV-L 1 optical flow[C]//Joint patternrecognition symposium.Springer,Berlin,Heidelberg,2007:214-223.
上述方案中步骤一RGB帧和步骤二中TVL1算法提取的对应光流图如图6所示;
上述方案中步骤五中空间流预测概率分布
Figure BDA0002535204270000062
的具体计算方法为:以UCF101数据库为例,该数据库共有101个动作分类,将单帧RGB数据输入到如图2所示的空间流网络中,经过空间流网络的多层卷积计算,并通过网络中最终的全局平均采样计算和一个全连接层计算,空间流网络将输出一个101维的数据
Figure BDA0002535204270000063
数据每一个维度给出对应动作分类的概率预测。
上述方案中步骤六中时间流预测概率分布
Figure BDA0002535204270000064
的具体计算方法为:以UCF101数据库为例,该数据库共有101个动作分类,将与RGB单帧对应的多帧连续光流图片数据输入到如图2所示的时间流网络中,经过时间流网络的多层卷积计算,并通过网络中最终全局平均采样计算和一个全连接层的计算,时间流网络将输出一个101维的数据
Figure BDA0002535204270000065
数据每一个维度给出对应动作分类的概率预测。
上述方案中步骤七、步骤八中多径压缩双线性融合模块DCBF的具体设计为:输入数据为空间流网络特定层的空间特征和时间流网络对应的时间特征。首先使用压缩双线性算法对对应的空间特征、时间特征进行采样,实现时间特征、空间特征的降维和融合,如图7中部分1所示;再经过一个卷积核为1×1的卷积层和一个卷积核为3×3的卷积层,两个卷积层后面都分别接着一个归一化模块BN(Batch Normalization)层和激活函数RuLU函数,如图7中部分2所示;部分2的设计主要是为了提升融合流网络复杂性降低网络欠拟合的风险。
图7为DCBF模块1、DCBF模块2和DCBF模块3的通用结构;
上述方案中步骤七中多径压缩双线性融合模块的具体设计为:使用压缩双线性算法直接对将来自DCBF模块1、DCBF模块2和DCBF模块3的多个压缩时空特征进行降维融合。
图8为DCBF模块4的结构。
上述方案中步骤七、步骤八中多径压缩双线性融合模块采用的压缩双线性算法具体可参考:Gao Y,Beijbom O,Zhang N,et al.Compact bilinear pooling[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2016:317-326.
步骤七、步骤八中使用的压缩双线性算法先使用Count Sketch投影函数对数据进行降维操作,再使用双线性融合计算融合特征。相比普通的融合方法(最大值采样融合、平均值采样融合、特征拼接融合、双线性融合以及卷积采样融合)采用压缩双线性融合显著降低了直接融合所需计算代价,同时最大化了特征之间的交互,有利于产生更多有效的融合特征;
结合本实例,上述方案中各DCBF模块的各层特征通道数配置为如表1所示,每个通道中特征的大小为8×8;
表1 DCBF模块各层特征通道数配置
Figure BDA0002535204270000081
上述方案中步骤九中多尺度通道-空间注意力模块CSA的具体设计方法为:多尺度通道-空间注意力模块由卷积块注意力模块CBAM(Woo S,Park J,Lee J Y,et al.Cbam:Convolutional block attention module[C]//Proceedings of the EuropeanConference on Computer Vision(ECCV).2018:3-19.)改进而来,改进点有两点,如图4、图5(a)、图5(b)所示1)将空间注意力分支和通道注意力分支由序列连接改为了平行连接的方式,这样可以减少两个注意力分支之间的影响,使两个注意力模块可以单独发挥最大的作用;2)将CBAM中空间注意力中的单个卷积核改为多个不同的卷积核,这样就可以赋予得到的特征的不同位置具有不同的感受野,并且考虑到特征的最大尺度为8×8,所以选用的不同卷积核为3×3、5×5和7×7。
上述方案中步骤九中的多尺度通道-空间注意力模块效果图如图9所示;
上述方案中步骤十一中的空间流最终预测概率分布Pspa的具体计算方法为:对视频时间尺度上各分段的空间流预测结果计算平均。计算公式为:
Figure BDA0002535204270000082
上述方案中步骤十一中的时间流最终预测概率分布Ptem的具体计算方法为:对视频时间尺度上各分段的时间流预测结果计算平均。计算公式为:
Figure BDA0002535204270000083
上述方案中步骤十一中的融合流最终预测概率分布Pfus的具体计算方法为:对视频时间尺度上各分段的融合流预测结果计算平均。计算公式为:
Figure BDA0002535204270000091
上述方案中步骤十二中的预测概率分布P的具体计算方法为:对空间流最终预测结果、时间流最终预测结果和融合流最终预测结果进行加权平均。计算公式如下
Figure BDA0002535204270000092
其中默认α=0.5,β=2.0,γ=1.0。α、β、γ的物理含义是:因为时间流预测结果、空间流时间流预测结果和融合流时间流预测结果对最终预测的贡献度是不一样的,故此处使用α、β、γ作为权重来调整三个流的贡献度,α、β、γ的取值随实际应用场景而调整。
上述方案中,所提网络的训练过程包括三个步骤:
步骤一:对仅包括时间流和空间流的基础双流网络进行训练
步骤二:冻结基础双流网络的参数,对融合流网络进行训练
步骤三:解冻基础双流网络的参数,对三个流一起训练
这样做的目的是为了加快网络训练的速度,同时降低对设备的要求。
为验证本发明的准确性和鲁棒性,本发明在公开的UCF101和HMBD51数据集上进行了实验。UCF101数据集总共包含13320个视频,其来源于YouTube,都是真实的人体行为。它的类别总数是101类,其中具体包含以下几类动作:人和物体交互,人的肢体行为,人与人的交互行为,人和乐器之间的行为以及人与球类之间的行为。UCF101数据集的类别是丰富的并且存在着相机运动,姿势,尺寸,视角,杂乱的背景,光照条件等变化因素,因此该数据集是具有挑战性的。HMDB51数据集,包含了6766视频序列,有51个行为类别,其来源包括YouTube、Google视频和电影的剪辑,比较符合真实日常生活动作,包含面部动作、面部操作与对象操作、身体动作、与对象交互动作和人体动作。HMDB51同样存在光照、背景、衣着变化等干扰因素,是一个具有挑战性的数据集
实验参数设置如表2、表3、表4和表5所示,RGB图片和光流图片尺寸都调整为340×256,经过预处理后输入网络前都调整为299×299:
表2空间流网络实验参数设置
Figure BDA0002535204270000101
表3时间流网络实验参数设置
Figure BDA0002535204270000102
表4融合流网络参数冻结阶段实验参数设置
Figure BDA0002535204270000103
表5融合流网络参数解冻阶段实验参数设置
Figure BDA0002535204270000104
表2和表3分别表示空间流和时间流在两个具有挑战性的数据集UCF101和HMDB51上的参数设置。表4表示冻结双流网络参数后,对融合流训练时使用的实验配置。表5冻结双流网络参数后,对融合流训练时使用的实验配置。训练批次大小表示每次训练所使用的数据量,学习率变换轮数表示每到设定的轮数则降低学习率,降低倍率由学习率减小倍率决定,最大迭代轮数表示达到该规定轮数后则停止网络训练,Dropout概率表示网络中Dropout层的参数设置。
表6为本发明提出的方法DFFN在UCF101和HMDB51数据集上的测试结果,本发明在这两个数据集上都取得了较高的识别率。尽管这两个数据集存在着遮挡,变形,背景混乱,低分辨率等困难,但本发明提出的方法对这些困难具有很好的鲁棒性,因此表现相对较好。
表6在UCF101和HMDB51上的识别率
数据集 UCF101 HMDB51
DFFN的准确率 95.27% 71.33%
本发明提出的方法相对于传统双流网络包含两个部分的变化,针对多径特征使用多径压缩双线性融合以及针对融合特征采用多尺度通道-空间注意力机制。
从表7中可以看出,针对UCF101数据集的消融实验,单纯使用TSN和双流网络的精度达到93.74%。在此基础上加入多径压缩双线性融合后,精度可以达到94.75%。最后加入多尺度通道-空间注意力机制,精度达到95.20%。这表明两种方法都对行为识别的性能有好的影响。它们分别可以融合基础双流网络的各层特征,得到全局以及局部信息,弥补双流网络的不足;以及对得到的融合特征进行特征增强,将网络注意力集中在数据中具有有效信息的区域,从而提高识别精度。
表7 UCF101数据集消融实验结果
Figure BDA0002535204270000111
上面结合附图对本发明的具体实施方式做了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.基于多径时空特征强化融合的三支流网络行为识别方法,其特征在于,步骤如下:
步骤一、获取RGB帧:对于数据集中的每个视频进行取帧处理,获得RGB原始帧N+1为视频总帧数;
步骤二、计算光流图:应用TVL1算法对按时序排序的RGB原始帧frgb两两进行计算得到光流图
步骤三、将视频在时间尺度上分为k段:按时间顺序将RGB原始帧frgb及光流图fopt各分为等长的k份,分别为其中j={1,2,…,k},floor(·)表示向下取整函数,N0=0;
步骤四、构建包括k个并行时间分段网络在内的多时间分段融合网络,每个分段网络包括一个空间流网络、一个时间流网络和一个融合流网络;
步骤五、对每个分段融合网络分别计算空间流预测概率分布:针对第k个时间分段融合网络,从第k段视频原始帧中随机选取一帧RGB图片输入双流网络中的空间流网络中,从空间流网络中最后M个卷积模块输出中得到多层空间特征空间流网络最后输出的结果就是空间流预测概率分布
步骤六、对每个分段融合网络分别计算时间流预测概率分布:针对第k个时间分段融合网络,从第k段视频光流图中选取时间上对应于步骤五中RGB图片的连续五张光流图片,输入双流网络中的时间流网络中,从时间流网络中最后M个卷积模块输出中得到多层时间特征时间流网络最后输出的结果就是时间流预测概率分布
步骤七、时空特征融合:使用M个多径压缩双线性融合模块DCBF分别融合M对时间流网络、空间流网络对应层特征,得到M个压缩时空特征;
步骤八、多径特征融合:使用多径压缩双线性融合模块DCBF融合M个压缩时空特征得到多径压缩时空特征;
所述步骤七、步骤八中多径压缩双线性融合模块DCBF的具体设计为:输入数据为空间流网络特定层的空间特征和时间流网络对应的时间特征;首先使用压缩双线性算法对对应的空间特征、时间特征进行采样,实现时间特征、空间特征的降维和双线性融合,再经过一个卷积核为1×1的卷积层和一个卷积核为3×3的卷积层,两个卷积层后面都分别接着一个归一化模块BN层和激活函数RuLU函数;
步骤九、使用注意力机制增强多径压缩时空特征:使用多尺度通道-空间注意力模块对多径压缩时空特征进行特征权重调整,最后经过全局平均采样层和全连接层,得到融合流预测概率分布
所述步骤九中多尺度通道-空间注意力模块CSA的具体设计方法为:多尺度通道-空间注意力模块由卷积块注意力模块CBAM改进而来,改进点有两点:1)将空间注意力分支和通道注意力分支由序列连接改为了平行连接的方式;2)将CBAM中空间注意力中的单个卷积核改为多个不同的卷积核,确保赋予得到的特征的不同位置具有不同的感受野,并且根据特征的最大尺度,选用不同卷积核;
步骤十、重复上述步骤五到步骤九k次获得对应视频不同时间分段的k段预测结果
步骤十一、计算空间流最终预测概率分布Pspa、时间流最终预测概率分布Ptem和融合流最终预测概率分布Pfus:对三个流的各个时间分段结果进行融合,计算方法为加和平均;
所述步骤十一中空间流最终预测概率分布Pspa的具体计算方法为:对视频时间尺度上各分段的空间流预测结果计算平均,计算公式为:时间流最终预测概率分布Ptem的具体计算方法为:对视频时间尺度上各分段的时间流预测结果计算平均,计算公式为:融合流最终预测概率分布Pfus的具体计算方法为:对视频时间尺度上各分段的融合流预测结果计算平均,计算公式为:
步骤十二、计算加权融合三个流的预测概率分布P:使用加权平均融合方法对三个最终预测概率分布进行融合。
2.根据权利要求1所述的基于多径时空特征强化融合的三支流网络行为识别方法,其特征在于,所述的空间流网络和时间流网络使用的是InceptionV3网络,融合流网络使用的多层特征来自于InceptionV3的顶层第10层网络、中间层第9层网络和中间层第8层网络。
3.根据权利要求1所述的基于多径时空特征强化融合的三支流网络行为识别方法,其特征在于,所述步骤六中时间流预测概率分布的具体计算方法为:将与RGB单帧对应的多帧连续光流图片数据输入时间流网络中,经过时间流网络的多层卷积计算,并通过网络中最终全局平均采样计算和一个全连接层的计算,时间流网络将输出数据每一个维度给出对应动作分类的概率预测。
4.根据权利要求1所述的基于多径时空特征强化融合的三支流网络行为识别方法,其特征在于,上述方法中步骤十二中的预测概率分布P的具体计算方法为:对空间流最终预测结果、时间流最终预测结果和融合流最终预测结果进行加权平均,计算公式如下
5.根据权利要求1所述的基于多径时空特征强化融合的三支流网络行为识别方法,其特征在于,上述方法中,网络的训练过程包括三个步骤:
步骤一:对仅包括时间流和空间流的基础双流网络进行训练;
步骤二:冻结基础双流网络的参数,对融合流网络进行训练;
步骤三:解冻基础双流网络的参数,对三个流一起训练。
CN202010530501.6A 2020-06-11 2020-06-11 基于多径时空特征强化融合的三支流网络行为识别方法 Active CN111709351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010530501.6A CN111709351B (zh) 2020-06-11 2020-06-11 基于多径时空特征强化融合的三支流网络行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010530501.6A CN111709351B (zh) 2020-06-11 2020-06-11 基于多径时空特征强化融合的三支流网络行为识别方法

Publications (2)

Publication Number Publication Date
CN111709351A CN111709351A (zh) 2020-09-25
CN111709351B true CN111709351B (zh) 2023-05-05

Family

ID=72540269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010530501.6A Active CN111709351B (zh) 2020-06-11 2020-06-11 基于多径时空特征强化融合的三支流网络行为识别方法

Country Status (1)

Country Link
CN (1) CN111709351B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215107A (zh) * 2020-09-29 2021-01-12 中国农业大学 一种猪的行为识别方法及装置、电子设备和存储介质
CN112380999B (zh) * 2020-11-16 2023-08-01 东北大学 一种针对直播过程中诱导性不良行为的检测***及方法
CN112434608B (zh) * 2020-11-24 2023-02-28 山东大学 一种基于双流结合网络的人体行为识别方法及***
CN112489092B (zh) * 2020-12-09 2023-10-31 浙江中控技术股份有限公司 细粒度工业运动模态分类方法、存储介质、设备和装置
CN112507920B (zh) * 2020-12-16 2023-01-24 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法
CN113762017B (zh) * 2021-01-13 2024-04-16 北京京东振世信息技术有限公司 一种动作识别方法、装置、设备及存储介质
CN113111822B (zh) * 2021-04-22 2024-02-09 深圳集智数字科技有限公司 用于拥堵识别的视频处理方法、装置与电子设备
CN114677704B (zh) * 2022-02-23 2024-03-26 西北大学 一种基于三维卷积的时空特征多层次融合的行为识别方法
CN114898143B (zh) * 2022-04-19 2024-07-05 天津大学 基于全局与局部视觉特征协同分类方法、设备及存储介质
CN116071809B (zh) * 2023-03-22 2023-07-14 鹏城实验室 一种基于多类表征时空交互的人脸时空表征生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993077A (zh) * 2019-03-18 2019-07-09 南京信息工程大学 一种基于双流网络的行为识别方法
CN110569773A (zh) * 2019-08-30 2019-12-13 江南大学 基于时空显著性行为注意力的双流网络行为识别方法
CN111259795A (zh) * 2020-01-16 2020-06-09 河南职业技术学院 基于多流深度学习的人体行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993077A (zh) * 2019-03-18 2019-07-09 南京信息工程大学 一种基于双流网络的行为识别方法
CN110569773A (zh) * 2019-08-30 2019-12-13 江南大学 基于时空显著性行为注意力的双流网络行为识别方法
CN111259795A (zh) * 2020-01-16 2020-06-09 河南职业技术学院 基于多流深度学习的人体行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Tran 等.Two-Stream Flow-Guided Convolutional Attention Networks for Action Recognition.《IEEE》.2017,全文. *
徐海洋 等.基于时空方向主成分直方图的人体行为识别.《激光与光电子学进展》.2018,全文. *

Also Published As

Publication number Publication date
CN111709351A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN111709351B (zh) 基于多径时空特征强化融合的三支流网络行为识别方法
Jiang et al. Dual-path deep fusion network for face image hallucination
CN109271933B (zh) 基于视频流进行三维人体姿态估计的方法
WO2021073418A1 (zh) 人脸识别方法、装置、设备及存储介质
Luc et al. Transformation-based adversarial video prediction on large-scale data
CN112819910B (zh) 基于双鬼注意力机制网络的高光谱图像重建方法
CN111523410A (zh) 一种基于注意力机制的视频显著性目标检测方法
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及***
CN109711380A (zh) 一种基于全局上下文信息的时序行为片段生成***及方法
CN114612832A (zh) 一种实时手势检测方法及装置
Xu et al. Context-aware attention network for predicting image aesthetic subjectivity
Shan et al. Mbnet: a multi-resolution branch network for semantic segmentation of ultra-high resolution images
CN116030498A (zh) 面向虚拟服装走秀的三维人体姿态估计方法
CN112200096A (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
Wu et al. Cycle-retinex: Unpaired low-light image enhancement via retinex-inline cyclegan
She et al. Facial image inpainting algorithm based on attention mechanism and dual discriminators
Kong et al. Progressive motion context refine network for efficient video frame interpolation
CN114882405B (zh) 一种基于时空双流金字塔网络架构的视频显著性检测方法
CN116524402A (zh) 基于多头自注意力的多时间跨度上下文建模动作识别方法
CN115527275A (zh) 基于P2CS_3DNet的行为识别方法
Wu et al. Video crowd counting via dynamic temporal modeling
CN114463844A (zh) 一种基于自注意力双流网络的跌倒检测方法
Hua et al. An Efficient Multiscale Spatial Rearrangement MLP Architecture for Image Restoration
Xiu et al. Face super-resolution using recurrent generative adversarial network
Zhou et al. A Simple Baseline for Efficient Hand Mesh Reconstruction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant