CN109993096B - 一种面向视频目标检测的光流多层帧特征传播及聚合方法 - Google Patents

一种面向视频目标检测的光流多层帧特征传播及聚合方法 Download PDF

Info

Publication number
CN109993096B
CN109993096B CN201910230235.2A CN201910230235A CN109993096B CN 109993096 B CN109993096 B CN 109993096B CN 201910230235 A CN201910230235 A CN 201910230235A CN 109993096 B CN109993096 B CN 109993096B
Authority
CN
China
Prior art keywords
feature
network
layer
frame
optical flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910230235.2A
Other languages
English (en)
Other versions
CN109993096A (zh
Inventor
张斌
柳波
郭军
刘晨
张娅杰
刘文凤
王馨悦
王嘉怡
李薇
陈文博
侯帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910230235.2A priority Critical patent/CN109993096B/zh
Publication of CN109993096A publication Critical patent/CN109993096A/zh
Application granted granted Critical
Publication of CN109993096B publication Critical patent/CN109993096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种面向视频目标检测的光流多层帧特征传播及聚合方法,涉及计算机视觉技术领域。该方法首先通过特征网络提取相邻帧的多层特征、光流网络提取光流,然后利用光流将当前帧的前一帧和当前帧的后一帧的多层帧级别特征传播到当前帧,步长不同的层需要对光流做上采样或下采样,获取多层传播特征;然后逐层依次聚合每层的传播特征,最后生成多层聚合的帧级别特征用于最后的视频目标检测。本发明提供的面向视频目标检测的光流多层帧特征传播及聚合方法,使得输出的帧级别聚合特征兼顾了浅层网络分辨率高和深层网络高维语义特征的优点,能提升检测性能,而且多层特征聚合的方法对小目标的检测性能有所提升。

Description

一种面向视频目标检测的光流多层帧特征传播及聚合方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种面向视频目标检测的光流多层帧特征传播及聚合方法。
背景技术
目前国内外视频目标检测方法主要可以划分为两类,一类为框水平的方法,另一类为基于光流的特征水平的方法。近些年,研究者关注于深层神经网络提取的高语义特征层次,通过光流对视频帧之间的运动信息建模,利用帧间的光流将相邻帧的特征传播到当前帧,预测或增强当前帧的特征,这种方法的优点是思路清晰,简单有效,并且可以端到端的训练模型。尽管光流可以用于特征层次的空间变换,但是利用光流信息传播帧间的特征存在误差,比如DFF和FGFA在传播帧之间的特征时,使用了残差网络最后一个残差块res5提取的特征,但是由于光流网络存在误差,导致局部特征不对齐,造成了两个问题:一是res5提取的特征分辨率低、语义层次高,每个像素点包含的语义信息都很丰富,如果在这些存在误差的传播特征上直接进行检测或聚合之后再进行检测,而不用一些方法矫正这些误差的像素点,会直接影响检测的性能;二是残差块res5提取特征的每个像素点在原始图像上的感受野较大,视频中的一些较小的目标低于64×64分辨率,在残差块res5对应的特征值范围低于4×4,单个像素点的误差对这些小目标的检测产生的影响远大于对较大的高于150×150分辨率的大目标检测。图像目标检测领域中,通常同时使用特征网络多层的特征进行检测,以提高检测精度,尤其是小目标的检测精度,称为特征金字塔,典型的方法如SSD、FPN,以上方法证明了特征网络不同层次的特征各有优点,联合多层一起检测能有效提升检测精度。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种面向视频目标检测的光流多层帧特征传播及聚合方法,实现对光流特征的传播与聚合。
为解决上述技术问题,本发明所采取的技术方案是:一种面向视频目标检测的光流多层帧特征传播及聚合方法,包括基于光流的多层帧级别特征提取与传播过程和基于多层传播特征的帧级别特征聚合过程两部分;
所述基于光流的多层帧级别特征提取与传播过程,包括以下步骤:
步骤S1:提取视频相邻帧的多层特征;
使用残差网络ResNet-101网络作为提取帧级别特征的特征网络;所述ResNet-101网络在不同的层上有不同的步长,修改残差块res5的最后三层输出步长为16,并在网络的最后添加一个扩张卷积层,将残差块res5输出的特征降维;
步骤S2:采用FlowNet光流网络提取视频的光流,并对光流进行后处理,使其针对特征网络各层不同尺寸的特征进行尺寸变换;
步骤S2.1:使用FlowNet网络的Simple版本提取视频的光流;直接从通道维度上串联视频图像的相邻两帧,将串联后的6通道图像输入到FlowNet网络中提取光流;
步骤S2.2:为了匹配特征的尺寸,对光流进行上采样和下采样;
步骤S2.2.1:给定视频的当前帧图像Ii和它的相邻帧图像Ii-t,则FlowNet网络输出的光流如下公式所示:
Figure BDA0002006472780000021
其中,
Figure BDA0002006472780000022
表示当前帧Ii与其相邻帧Ii-t的光流,上标8表示步长为8,
Figure BDA0002006472780000023
表示光流网络FlowNet;
步骤S2.2.2:对光流进行上采样,得到对应特征步长为4的光流,如下公式所示:
Figure BDA0002006472780000024
其中,
Figure BDA0002006472780000025
表示当前帧Ii与其相邻帧Ii-t的光流,上标4表示步长为4,upSample(·)表示最近邻上采样函数;
步骤S2.2.3:对光流进行下采样,得到对应特征步长为16的光流,如下公式所示:
Figure BDA0002006472780000026
其中,
Figure BDA0002006472780000027
表示当前帧Ii与其相邻帧Ii-t的光流,上标16表示步长为16,downSample(·)表示平均池化下采样;
步骤S2.2.4:若
Figure BDA0002006472780000028
则对应的
Figure BDA0002006472780000029
其中C为通道数,默认为2,H和W分别为光流的高度和宽度;得到适用于多层特征传播的光流,如下公式所示:
Figure BDA00020064727800000210
其中,s表示特征步长;
步骤S3:利用光流将i-t帧及i+t帧的多层帧级别特征传播到第i帧,得到多层传播特征
Figure BDA00020064727800000211
给定多步长光流
Figure BDA0002006472780000031
传播特征层数l和第i-t帧图像Ii-t,则最终的传播特征通过下式计算得到:
Figure BDA0002006472780000032
Figure BDA0002006472780000033
其中,l表示层数,l∈(1,n),n为特征网络的总层数,
Figure BDA0002006472780000034
表示特征网络的第l层输出;
Figure BDA0002006472780000035
表示warp映射函数,其将第i-t帧特征fi-t中位置p的值映射到当前帧i的对应位置p+δp处,δp表示位置偏移;
则第i+t帧的多层传播特征通过下式计算得到:
Figure BDA0002006472780000036
Figure BDA0002006472780000037
所述的基于多层传播特征的帧级别特征聚合过程,包括以下步骤:
步骤C1:由特征网络第一层的传播特征
Figure BDA0002006472780000038
当前帧特征
Figure BDA0002006472780000039
得到特征网络第一层的聚合特征如下公式所示:
Figure BDA00020064727800000310
其中,
Figure BDA00020064727800000311
为特征网络第一层的聚合特征,
Figure BDA00020064727800000312
为聚合第一层特征的放缩余弦相似性权重;
步骤C2:将步骤C1的聚合特征
Figure BDA00020064727800000313
作为当前帧特征输入到特征网络第二层,得到特征
Figure BDA00020064727800000314
同时获取相邻帧第二层的传播特征
Figure BDA00020064727800000315
再次聚合特征,得到特征网络第二层的聚合特征如下公式所示:
Figure BDA00020064727800000316
其中,
Figure BDA00020064727800000317
为特征网络第二层的聚合特征,
Figure BDA00020064727800000318
为聚合第二层特征的放缩余弦相似性权重;
步骤C3:重复以上聚合过程,逐一聚合特征网络每层的帧级别特征,并将上一层输出的聚合特征作为下一层的当前帧特征,直到获得特征网络最后一层的聚合特征,如下公式所示:
Figure BDA00020064727800000319
其中,
Figure BDA0002006472780000041
为特征网络第n层的聚合特征,
Figure BDA0002006472780000042
为聚合第n层特征的放缩余弦相似性权重,n为特征网络的总层数;
所述特征网络第n层的聚合特征
Figure BDA0002006472780000043
即为最终用于视频目标检测的特征,
Figure BDA0002006472780000044
既聚合了多帧的时间信息,又聚合了特征网络多层的空间信息;
所述聚合第n层特征的放缩余弦相似性权重的计算方法为:
(1)、使用余弦相似性权重建模光流的质量分布;
使用一个浅层的映射网络
Figure BDA0002006472780000045
将特征映射到专门计算相似性的维度,如下公式所示:
Figure BDA0002006472780000046
Figure BDA0002006472780000047
其中,
Figure BDA0002006472780000048
为特征fi和fi-t→i映射后的特征,
Figure BDA0002006472780000049
为映射网络;
给定当前帧特征fi和相邻帧传播的特征fi-t→i,则在空间位置p处它们之间的余弦相似性为:
Figure BDA00020064727800000410
公式(14)输出的权重沿通道求和,使输出的权重维度变为二维矩阵,维度为W×H,W和H分别为特征的宽度和高度,以减少需要学习的权重参数数量,使网络更容易训练;
(2)、直接从视频帧的外观特征中提取放缩因子,对视频帧的质量分布建模,得到帧级别的放缩余弦相似性权重,并将其作为步骤4的帧级别聚合权重;
给定当前帧特征fi和第i-t帧的传播特征fi-t→i,则权重放缩网络
Figure BDA00020064727800000411
输出的权重放缩因子为:
Figure BDA00020064727800000412
由于λi-t为通道级别的向量,而余弦相似性权重wi-t→i为2维平面的矩阵,为了获得像素级别的权重,通过通道级的乘法结合两者;对于输出的放缩后的权重每个通道c,每个空间位置p处的像素值,通过下式计算得到:
Figure BDA00020064727800000413
其中,
Figure BDA00020064727800000414
为通道级别的乘法;
通过公式(14)、(15)、(16)得到放缩后的余弦相似性权重;
相应地,第i+t帧传播特征的权重为:
Figure BDA00020064727800000415
沿着多帧归一化位置p的权重,使得
Figure BDA00020064727800000416
归一化操作通过SoftMax函数完成;
所述映射网络和权重放缩网络共享前两层,在ResNet-101输出的1024维向量后使用1×1卷积和3×3卷积两个连续的卷积层,然后连接两个分支子网;第一个分支为1×1卷积,作为映射网络,用于输出映射后的特征
Figure BDA0002006472780000051
第二个分支同样为1×1卷积,然后连接一个全局平均池化层,作为权重放缩网络,生成一个1024维的特征向量,对应ResNet-101输出特征向量的每个通道,用于衡量特征的重要性程度,控制特征时间聚合权重的放缩尺度。
采用上述技术方案所产生的有益效果在于:本发明提供的一种面向视频目标检测的光流多层帧特征传播及聚合方法,在特征网络的浅层输出(res3层、res4层)上传播特征,一方面浅层网络分辨率高,特征传播时,对小目标的容错率较高;另一方面浅层网络的传播误差可以通过后续网络减弱,甚至逐渐矫正。然后,在特征网络的浅层和深层同时传播特征并聚合深层与浅层特征,这样既利用了深层网络的高语义特征,又保留了浅层特征的高分辨率。使得输出的帧级别聚合特征兼顾了浅层网络分辨率高和深层网络高维语义特征的优点,能提升检测性能,而且多层特征聚合的方法对小目标的检测性能有所提升。
附图说明
图1为本发明实施例提供的一种面向视频目标检测的光流多层帧特征传播及聚合方法的流程图;
图2为本发明实施例提供的基于光流的多层特征传播及其聚合过程的示意图;
图3为本发明实施例提供的FlowNet网络结构(simple版本)的示意图;
图4为本发明实施例提供的不同网络层检测性能的对比图;
图5为本发明实施例提供的ImageNet VID验证集的真实框面积分布直方图及其分组划分。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施以视频数据集ImageNet VID为例,采用本发明的一种面向视频目标检测的光流多层帧特征传播及其聚合方法对该视频数据进行验证;
一种面向视频目标检测的光流多层帧特征传播及聚合方法,如图1和图2所示,包括基于光流的多层帧级别特征提取与传播过程和基于多层传播特征的帧级别特征聚合过程两部分;
所述基于光流的多层帧级别特征提取与传播过程,包括以下步骤:
步骤S1:提取视频相邻帧的多层特征;
使用残差网络ResNet-101网络作为提取帧级别特征的特征网络;所述ResNet-101网络在不同的层上有不同的步长,参考R-FCN网络,并修改残差块res5的最后三层输出步长为16,并在网络的最后添加一个扩张卷积层,将res5输出的特征降维;
本实施例,使用修改的ResNet-101网络作为提取帧级别特征的特征网络,各层的详细步长和空间尺度统计数据见表1。ResNet-101在网络不同的层上有不同的步长,修改最后三层res5a_relu、res5a_relu、res5b_relu的输出步长为16,并添加一个dilate=6,kernel=3,pad=6,num_filters=1024的扩张卷积层feat_conv_3×3_relu。
表1 ResNet-101各层步长统计
编号 ResNet-101各层 步长 尺寸
1 res2a_relu 4 1/4
2 res2b_relu 4 1/4
3 res2c_relu 4 1/4
4 res3a_relu 8 1/8
5 res3b1_relu 8 1/8
6 res3b2_relu 8 1/8
7 res3b3_relu 8 1/8
8 res4a_relu 16 1/16
9 res4b1_relu 16 1/16
10 res4b2_relu 16 1/16
30 res4b22_relu 16 1/16
31 res5a_relu 16 1/16
32 res5b_relu 16 1/16
33 feat_conv_3×3_relu 16 1/16
由于残差网络的结构特性,本实施例只统计了残差模块的输出层,内部层不统计,也不会用于特征传播,Number表示对应的网络层的编号,Layers列举了ResNet-101除前两层外的所有网络层输出,stride表示对应网络层输出的特征步长,spatial_scale表示对应层输出的尺度/原始图片尺度;本实施例中,使用res2b_relu层、res3b3_relu层、res4b22_relu层和feat_conv_3×3_relu层进行多层特征传播。
步骤S2:采用FlowNet光流网络提取视频的光流,并对光流进行后处理,使其针对特征网络各层不同尺寸的特征进行尺寸变换;
步骤S2.1:使用如图3所示的FlowNet网络的Simple版本提取视频的光流;直接从通道维度上串联视频图像的相邻两帧,将串联后的6通道图像输入到FlowNet网络中提取光流;
所述FlowNet网络通过下采样CNN提取两帧图像的包含高维语义信息的特征;
首先使用一个窗口大小为2×2,步长为2的平均池化层将原始输入图片尺寸减半,然后通过9个连续的卷积层使特征抽象水平提升,同时特征尺寸变为原来的1/32;
下采样CNN的输出特征图具有很高的语义,但是它的分辨率低,相对于原图来说,特征图在采用的过程中,丢失了很多图像之间的细节信息,这样的特征学出来的光流效果很差,因此FlowNet网络在下采样CNN后引入精炼模块,提高特征分辨率,学习图像间高质量的光流;
所述精炼模块基于FCN思想,采用了类似于FCN的反卷积操作,提升特征的分辨率,同时结合前面层的输出特征补充丢失的细节信息,最后输出双通道的光流;所述精炼模块网络结构为:首先通过一个反卷积将特征图尺寸增大一倍,然后和下采样CNN中对应的卷积层输出特征图沿着通道维度串联到一起,作为下一层的输入,后面的过程基本同样如此,不同之处在于后面每次都用一个流分支学习一个对应尺寸的光流,并将此光流沿着通道维度串联到输出特征图,继续作为下一层输入;
步骤S2.2:为了匹配特征的尺寸,对光流进行上采样和下采样;
步骤S2.2.1:给定视频的当前帧图像Ii和它的相邻帧图像Ii-t,则FlowNet网络输出的光流如下公式所示:
Figure BDA0002006472780000071
其中,
Figure BDA0002006472780000072
表示当前帧Ii与其相邻帧Ii-t的光流,上标8表示步长为8,
Figure BDA0002006472780000079
表示光流网络FlowNet;
步骤S2.2.2:对光流进行上采样,得到对应特征步长为4的光流,如下公式所示:
Figure BDA0002006472780000073
其中,
Figure BDA0002006472780000074
表示当前帧Ii与其相邻帧Ii-t的光流,上标4表示步长为4,upSample(·)表示最近邻上采样函数;
步骤S2.2.3:对光流进行下采样,得到对应特征步长为16的光流,如下公式所示:
Figure BDA0002006472780000075
其中,
Figure BDA0002006472780000076
表示当前帧Ii与其相邻帧Ii-t的光流,上标16表示步长为16,downSample(·)表示平均池化下采样;
步骤S2.2.4:若
Figure BDA0002006472780000077
对应的
Figure BDA0002006472780000078
其中C为通道数,默认为2,H和W分别为光流的高度和宽度;得到适用于多层特征传播的光流,如下公式所示:
Figure BDA0002006472780000081
其中,s表示特征步长;
步骤S3:利用光流将i-t帧及i+t帧的多层帧级别特征传播到第i帧,得到多层传播特征
Figure BDA0002006472780000082
本实施例中,为了传播多层特征,对同一步长的各层使用相同的光流;例如,将res4a_relu层到扩张卷积层feat_conv_3×3_relu层都是用步长为16的光流传播特征。
给定多步长光流
Figure BDA0002006472780000083
传播特征层数1和第i-t帧图像Ii-t,则最终的传播特征通过下式计算得到:
Figure BDA0002006472780000084
Figure BDA0002006472780000085
其中,l表示层数,l∈(1,n),n为特征网络的总层数,与表1中第一列Number对应,
Figure BDA0002006472780000086
表示特征网络的第l层输出;
Figure BDA0002006472780000087
表示warp映射函数,其将第i-t帧特征fi-t中位置p的值映射到当前帧i的对应位置p+δp处,6p表示位置偏移;
则第i+t帧的多层传播特征通过下式计算得到:
Figure BDA0002006472780000088
Figure BDA0002006472780000089
所述的基于多层传播特征的帧级别特征聚合过程,包括以下步骤:
步骤C1:由特征网络第一层的传播特征
Figure BDA00020064727800000810
当前帧特征
Figure BDA00020064727800000811
得到特征网络第一层的聚合特征如下公式所示:
Figure BDA00020064727800000812
其中,
Figure BDA00020064727800000813
为特征网络第一层的聚合特征,
Figure BDA00020064727800000814
为聚合第一层特征的放缩余弦相似性权重;
步骤C2:将步骤C 1的聚合特征
Figure BDA00020064727800000815
作为当前帧特征输入到特征网络第二层,得到特征
Figure BDA00020064727800000816
同时获取相邻帧第二层的传播特征
Figure BDA0002006472780000091
再次聚合特征,得到特征网络第二层的聚合特征如下公式所示:
Figure BDA0002006472780000092
其中,
Figure BDA0002006472780000093
为特征网络第二层的聚合特征,
Figure BDA0002006472780000094
为聚合第二层特征的放缩余弦相似性权重;
步骤C 3:重复以上聚合过程,逐一聚合特征网络每层的帧级别特征,并将上一层输出的聚合特征作为下一层的当前帧特征,直到获得特征网络最后一层的聚合特征,如下公式所示:
Figure BDA0002006472780000095
其中,
Figure BDA0002006472780000096
为特征网络第n层的聚合特征,
Figure BDA0002006472780000097
为聚合第n层特征的放缩余弦相似性权重,n为特征网络的总层数;
所述特征网络第n层的聚合特征
Figure BDA0002006472780000098
即为最终用于视频目标检测的特征,
Figure BDA0002006472780000099
既聚合了多帧的时间信息,又聚合了特征网络多层的空间信息,极大地增强了当前帧特征的表征能力。
所述聚合第n层特征的放缩余弦相似性权重的计算方法为:
(1)、使用余弦相似性权重建模光流的质量分布;
使用一个浅层的映射网络
Figure BDA00020064727800000910
将特征映射到专门计算相似性的维度,如下公式所示:
Figure BDA00020064727800000911
Figure BDA00020064727800000912
其中,
Figure BDA00020064727800000913
为特征fi和fi-t→i映射后的特征,
Figure BDA00020064727800000914
为映射网络;
给定当前帧特征fi和相邻帧传播的特征fi-t→i,则在空间位置p处它们之间的余弦相似性为:
Figure BDA00020064727800000915
公式(14)输出的权重沿通道求和,使输出的权重维度变为二维矩阵,维度为W×H,W和H分别为特征的宽度和高度,以减少需要学习的权重参数数量,使网络更容易训练;
(2)、直接从视频帧的外观特征中提取放缩因子,对视频帧的质量分布建模,得到帧级别的放缩余弦相似性权重,并将其作为步骤4的帧级别聚合权重;
给定当前帧特征fi和第i-t帧的传播特征fi-t→i,则权重放缩网络
Figure BDA00020064727800000916
输出的权重放缩因子为:
Figure BDA00020064727800000917
由于λi-t为通道级别的向量,而余弦相似性权重wi-t→i为2维平面的矩阵,为了获得像素级别的权重,通过通道级的乘法结合两者;对于输出的放缩后的权重每个通道c,每个空间位置p处的像素值,通过下式计算得到:
Figure BDA0002006472780000101
其中,
Figure BDA0002006472780000102
为通道级别的乘法;
通过公式(14)、(15)、(16)得到放缩后的余弦相似性权重;
相应地,第i+t帧传播特征的权重为:
Figure BDA0002006472780000103
沿着多帧归一化位置p的权重,使得
Figure BDA0002006472780000104
归一化操作通过SoftMax函数完成;
所述映射网络和权重放缩网络共享前两层,在ResNet-101输出的1024维向量后使用1×1卷积和3×3卷积两个连续的卷积层,然后连接两个分支子网;第一个分支为1×1卷积,作为映射网络,用于输出映射后的特征
Figure BDA0002006472780000105
第二个分支同样为1×1卷积,然后连接一个全局平均池化层,作为权重放缩网络,生成一个1024维的特征向量,对应ResNet-101输出特征向量的每个通道,用于衡量特征的重要性程度,控制特征时间聚合权重的放缩尺度。
本实施例选择ResNet-101的三个标准块的输出测试,即对res3块的输出res3c_relu,res4块的输出res4b22_relu和res5块的输出conv_3×3_feat进行测试,本实施例在res3c_relu附近,每隔5层采样一次,在res4块中每隔3层采样一次,最后采样出9层进行测试,对应的层数number为(2,7,12,19,21,24,27,30,33),检测的均值平均精度对比如图4所示。从图4可以看出,res4b22_relu的准确率最好,conv_3×3_feat的性能次之,res3c_relu的性能最差。并且从第17层开始,前面的层性能下降较快,后面的层均值平均精度的差距缩小,在第30层的检测精度达到最高。验证了浅层网络较深层网络特征传播性能更好,但是随着网络层数的变浅,这种性能会饱和,甚至由于分辨率的增加,导致光流预测难度增加,整体检测性能下降。
本实施例在ImageNet VID验证集上进行了测试。调整FGFA的特征传播层数,使其作为每个层级的baseline,测试结果如表2所示。
表2多层与单层传播特征聚合精度对比
Figure BDA0002006472780000106
通过表2的实验结果,可以看出,使用res4最后一层(res4b22_relu)传播的特征聚合要好于使用res5最后一层(FGFA),因此使用浅层网络较深层网络传播特征的性能更好。同样从结果可以看出,传播res4和res5的特征并聚合,能够进一步提升检测的性能(72.1→73.6↑1.5),验证了多层特征聚合对检测精度的提升。
为了更进一步证明多层特征聚合的方法对小目标的检测性能的提升,将VID验证集按照真实框面积划分为小、中、大三个分组,如图5所示。目标大小的划分标准为面积介于(0,642)之间的分类为小,介于(642,1502)之间的分类为中,大于1502的分类为大。本实施例统计了验证集中的各分组的占比分布,如图5所示。从图5中可以看出,VID验证集中大目标占大多数(60.0%),小目标数量很少(13.5%),本实施例分别在ImageNet VID验证集的这三个分组上测试了单一的深层(res5最后一层)特征传播、单一的浅层(res4最后一层)特征传播和融合多层(res4+res5最后一层)传播特征的性能对比,测试结果如表3所示。
表3不同方法在ImageNet VID验证集不同大小目标上的检测精度
方法 均值平均精度(%)(小) 均值平均精度(%)(中) 均值平均精(%)(大)
FGFA(res5) 26.9 51.4 83.0
FGFA(res4) 29.5 50.8 84.1
FGFA(res4+res5) 30.1 51.9 84.5
由表3可知,浅层特征聚合对小目标的检测性能高于深层特征聚合(26.9%→29.5%↑2.6%),说明对于小目标检测来说,浅层特征传播的误差比深层特征传播的误差影响更小。同时聚合浅层与深层的特征,在验证集的所有子部分中都取得了最好的检测性能,说明融合深层、浅层的特征能更加全面的提升检测性能,且证明了本发明的多层特征聚合算法能很好的融合多层特征各自的优点。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (4)

1.一种面向视频目标检测的光流多层帧特征传播及聚合方法,其特征在于:包括基于光流的多层帧级别特征提取与传播过程和基于多层传播特征的帧级别特征聚合过程两部分;
所述基于光流的多层帧级别特征提取与传播过程,包括以下步骤:
步骤S1:提取视频相邻帧的多层特征;
使用残差网络ResNet-101网络作为提取帧级别特征的特征网络,ResNet-101网络在不同的层上有不同的步长,并修改残差块res5的最后三层输出步长为16,并在网络的最后添加一个扩张卷积层,将残差块res5输出的特征降维;
步骤S2:采用FlowNet光流网络提取视频的光流,并对光流进行后处理,使其针对特征网络各层不同尺寸的特征进行尺寸变换;
步骤S2.1:使用FlowNet网络的Simple版本提取视频的光流;直接从通道维度上串联视频图像的相邻两帧,将串联后的6通道图像输入到FlowNet网络中提取光流;
步骤S2.2:为了匹配特征的尺寸,对光流进行上采样和下采样,得到适用于多层特征传播的光流;
步骤S3:利用光流将i-t帧及i+t帧的多层帧级别特征传播到第i帧,得到多层传播特征
Figure FDA0002006472770000011
所述的基于多层传播特征的帧级别特征聚合过程,包括以下步骤:
步骤C1:由特征网络第一层的传播特征
Figure FDA0002006472770000012
当前帧特征
Figure FDA0002006472770000013
得到特征网络第一层的聚合特征如下公式所示:
Figure FDA0002006472770000014
其中,
Figure FDA0002006472770000015
为特征网络第一层的聚合特征,
Figure FDA0002006472770000016
为聚合第一层特征的放缩余弦相似性权重;
步骤C2:将步骤C1的聚合特征
Figure FDA0002006472770000017
作为当前帧特征输入到特征网络第二层,得到特征
Figure FDA0002006472770000018
同时获取相邻帧第二层的传播特征
Figure FDA0002006472770000019
再次聚合特征,得到特征网络第二层的聚合特征如下公式所示:
Figure FDA00020064727700000110
其中,
Figure FDA00020064727700000111
为特征网络第二层的聚合特征,
Figure FDA00020064727700000112
为聚合第二层特征的放缩余弦相似性权重;
步骤C3:重复以上聚合过程,逐一聚合特征网络每层的帧级别特征,并将上一层输出的聚合特征作为下一层的当前帧特征,直到获得特征网络最后一层的聚合特征,如下公式所示:
Figure FDA00020064727700000113
其中,
Figure FDA0002006472770000021
为特征网络第n层的聚合特征,
Figure FDA0002006472770000022
为聚合第n层特征的放缩余弦相似性权重,n为特征网络的总层数;
所述特征网络第n层的聚合特征
Figure FDA0002006472770000023
即为最终用于视频目标检测的特征,
Figure FDA0002006472770000024
既聚合了多帧的时间信息,又聚合了特征网络多层的空间信息,极大地增强了当前帧特征的表征能力;
所述聚合第n层特征的放缩余弦相似性权重的计算方法为:
(1)、使用余弦相似性权重建模光流的质量分布;
(2)、从视频帧的外观特征中提取放缩因子,对视频帧的质量分布建模,得到帧级别的放缩余弦相似性权重,并将其作为帧级别聚合权重。
2.根据权利要求1所述的一种面向视频目标检测的光流多层帧特征传播及聚合方法,其特征在于:所述步骤S2.2的具体方法为:
步骤S2.2.1:给定视频的当前帧图像Ii和它的相邻帧图像Ii-t,则FlowNet网络输出的光流如下公式所示:
Figure FDA0002006472770000025
其中,
Figure FDA0002006472770000026
表示当前帧Ii与其相邻帧Ii-t的光流,上标8表示步长为8,
Figure FDA0002006472770000027
表示光流网络FlowNet;
步骤S2.2.2:对光流进行上采样,得到对应特征步长为4的光流,如下公式所示:
Figure FDA0002006472770000028
其中,
Figure FDA0002006472770000029
表示当前帧Ii与其相邻帧Ii-t的光流,上标4表示步长为4,upSample(·)表示最近邻上采样函数;
步骤S2.2.3:对光流进行下采样,得到对应特征步长为16的光流,如下公式所示:
Figure FDA00020064727700000210
其中,
Figure FDA00020064727700000211
表示当前帧Ii与其相邻帧Ii-t的光流,上标16表示步长为16,downSample(·)表示平均池化下采样;
步骤S2.2.4:若
Figure FDA00020064727700000212
则对应的
Figure FDA00020064727700000213
其中C为通道数,默认为2,H和W分别为光流的高度和宽度;得到适用于多层特征传播的光流,如下公式所示:
Figure FDA0002006472770000031
其中,s表示特征步长。
3.根据权利要求1所述的一种面向视频目标检测的光流多层帧特征传播及聚合方法,其特征在于:所述步骤S3的具体方法为:
给定多步长光流
Figure FDA0002006472770000032
传播特征层数l和第i-t帧图像Ii-t,则最终的传播特征通过下式计算得到:
Figure FDA0002006472770000033
Figure FDA0002006472770000034
其中,l表示层数,l∈(1,n),n为特征网络的总层数,
Figure FDA0002006472770000035
表示特征网络的第l层输出;
Figure FDA0002006472770000036
表示warp映射函数,其将第i-t帧特征fi-t中位置p的值映射到当前帧i的对应位置p+δp处,δp表示位置偏移;
则第i+t帧的多层传播特征通过下式计算得到:
Figure FDA0002006472770000037
Figure FDA0002006472770000038
4.根据权利要求1所述的一种面向视频目标检测的帧级别特征聚合方法,其特征在于:步骤C3所述使用余弦相似性权重建模光流的质量分布的具体方法为:
使用一个浅层的映射网络
Figure FDA0002006472770000039
将特征映射到专门计算相似性的维度,如下公式所示:
Figure FDA00020064727700000310
Figure FDA00020064727700000311
其中,
Figure FDA00020064727700000312
为特征fi和fi-t→i映射后的特征,
Figure FDA00020064727700000313
为映射网络;
所述从视频帧的外观特征中提取放缩因子,对视频帧的质量分布建模,得到帧级别的放缩余弦相似性权重的具体方法为:
给定当前帧特征fi和相邻帧传播的特征fi-t→i,则在空间位置p处它们之间的余弦相似性为:
Figure FDA0002006472770000041
公式(14)输出的权重沿通道求和,使输出的权重维度变为二维矩阵,维度为W×H,W和H分别为特征的宽度和高度,以减少需要学习的权重参数数量,使网络更容易训练。
给定当前帧特征fi和第i-t帧的传播特征fi-t→i,则权重放缩网络
Figure FDA0002006472770000042
输出的权重放缩因子为:
Figure FDA0002006472770000043
由于λi-t为通道级别的向量,而余弦相似性权重wi-t→i为2维平面的矩阵,为了获得像素级别的权重,通过通道级的乘法结合两者;对于输出的放缩后的权重的每个通道c,每个空间位置p处的像素值,通过下式计算得到:
Figure FDA0002006472770000044
其中,
Figure FDA0002006472770000045
为通道级别的乘法;
通过公式(14)、(15、(16)得到放缩后的余弦相似性权重;
相应地,第i+t帧传播特征的权重为:
Figure FDA0002006472770000046
沿着多帧归一化位置p的权重,使得
Figure FDA0002006472770000047
归一化操作通过SoftMax函数完成;
所述映射网络和权重放缩网络共享前两层,在ResNet-101输出的1024维向量后使用1×1卷积和3×3卷积两个连续的卷积层,然后连接两个分支子网;第一个分支为1×1卷积,作为映射网络,用于输出映射后的特征
Figure FDA0002006472770000048
第二个分支同样为1×1卷积,然后连接一个全局平均池化层,作为权重放缩网络,生成一个1024维的特征向量,对应ResNet-101输出特征向量的每个通道,用于衡量特征的重要性程度,控制特征时间聚合权重的放缩尺度。
CN201910230235.2A 2019-03-26 2019-03-26 一种面向视频目标检测的光流多层帧特征传播及聚合方法 Active CN109993096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910230235.2A CN109993096B (zh) 2019-03-26 2019-03-26 一种面向视频目标检测的光流多层帧特征传播及聚合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910230235.2A CN109993096B (zh) 2019-03-26 2019-03-26 一种面向视频目标检测的光流多层帧特征传播及聚合方法

Publications (2)

Publication Number Publication Date
CN109993096A CN109993096A (zh) 2019-07-09
CN109993096B true CN109993096B (zh) 2022-12-20

Family

ID=67131468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910230235.2A Active CN109993096B (zh) 2019-03-26 2019-03-26 一种面向视频目标检测的光流多层帧特征传播及聚合方法

Country Status (1)

Country Link
CN (1) CN109993096B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110400305A (zh) * 2019-07-26 2019-11-01 哈尔滨理工大学 一种基于深度学习的目标检测方法
CN110852199A (zh) * 2019-10-28 2020-02-28 中国石化销售股份有限公司华南分公司 一种基于双帧编码解码模型的前景提取方法
CN110866509B (zh) 2019-11-20 2023-04-28 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
CN111144376B (zh) * 2019-12-31 2023-12-05 华南理工大学 视频目标检测特征提取方法
CN113673545A (zh) * 2020-05-13 2021-11-19 华为技术有限公司 光流估计方法、相关装置、设备及计算机可读存储介质
CN112307872A (zh) * 2020-06-12 2021-02-02 北京京东尚科信息技术有限公司 用于检测目标对象的方法的和装置
CN111860293B (zh) * 2020-07-16 2023-12-22 中南民族大学 遥感场景分类方法、装置、终端设备及存储介质
CN111950612B (zh) * 2020-07-30 2021-06-01 中国科学院大学 基于fpn的融合因子的弱小目标检测方法
CN112307889B (zh) * 2020-09-22 2022-07-26 北京航空航天大学 一种基于小型辅助网络的人脸检测算法
CN112394356B (zh) * 2020-09-30 2024-04-02 桂林电子科技大学 一种基于U-Net的小目标无人机检测***及方法
CN111968064B (zh) * 2020-10-22 2021-01-15 成都睿沿科技有限公司 一种图像处理方法、装置、电子设备及存储介质
CN112966581B (zh) * 2021-02-25 2022-05-27 厦门大学 一种基于内外语义聚合的视频目标检测方法
CN113223044A (zh) * 2021-04-21 2021-08-06 西北工业大学 一种结合特征聚合和注意力机制的红外视频目标检测方法
CN113570608B (zh) * 2021-06-30 2023-07-21 北京百度网讯科技有限公司 目标分割的方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108242062A (zh) * 2017-12-27 2018-07-03 北京纵目安驰智能科技有限公司 基于深度特征流的目标跟踪方法、***、终端及介质
CN109376611A (zh) * 2018-09-27 2019-02-22 方玉明 一种基于3d卷积神经网络的视频显著性检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152627B2 (en) * 2017-03-20 2018-12-11 Microsoft Technology Licensing, Llc Feature flow for video recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108242062A (zh) * 2017-12-27 2018-07-03 北京纵目安驰智能科技有限公司 基于深度特征流的目标跟踪方法、***、终端及介质
CN109376611A (zh) * 2018-09-27 2019-02-22 方玉明 一种基于3d卷积神经网络的视频显著性检测方法

Also Published As

Publication number Publication date
CN109993096A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN109993096B (zh) 一种面向视频目标检测的光流多层帧特征传播及聚合方法
CN111583109B (zh) 基于生成对抗网络的图像超分辨率方法
CN109118432B (zh) 一种基于快速循环卷积网络的图像超分辨率重建方法
CN109087273B (zh) 基于增强的神经网络的图像复原方法、存储介质及***
WO2018161775A1 (zh) 一种用于图像处理的神经网络模型的训练方法、装置和存储介质
CN109035142B (zh) 一种对抗网络结合航拍图像先验的卫星图像超分辨方法
CN107274347A (zh) 一种基于深度残差网络的视频超分辨率重建方法
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN111402129A (zh) 一种基于联合上采样卷积神经网络的双目立体匹配方法
CN111179167A (zh) 一种基于多阶段注意力增强网络的图像超分辨方法
Li et al. FilterNet: Adaptive information filtering network for accurate and fast image super-resolution
CN110060204B (zh) 一种基于可逆网络的单一图像超分辨率方法
CN110889895A (zh) 一种融合单帧重建网络的人脸视频超分辨率重建方法
CN108830812A (zh) 一种基于网格结构深度学习的视频高帧率重制方法
CN112365514A (zh) 基于改进PSPNet的语义分割方法
CN110136067B (zh) 一种针对超分辨率b超影像的实时影像生成方法
CN108765282B (zh) 基于fpga的实时超分辨方法及***
CN102915527A (zh) 基于形态学成分分析的人脸图像超分辨率重建方法
CN111931857B (zh) 一种基于mscff的低照度目标检测方法
CN111145102A (zh) 一种基于卷积神经网络的合成孔径雷达图像去噪方法
Sun et al. Learning local quality-aware structures of salient regions for stereoscopic images via deep neural networks
CN114842216A (zh) 一种基于小波变换的室内rgb-d图像语义分割方法
CN111986085A (zh) 一种基于深度反馈注意力网络***的图像超分辨率方法
CN115760814A (zh) 一种基于双耦合深度神经网络的遥感图像融合方法及***
CN115526779A (zh) 一种基于动态注意力机制的红外图像超分辨率重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant