CN109993096B

CN109993096B - 一种面向视频目标检测的光流多层帧特征传播及聚合方法

Info

Publication number: CN109993096B
Application number: CN201910230235.2A
Authority: CN
Inventors: 张斌; 柳波; 郭军; 刘晨; 张娅杰; 刘文凤; 王馨悦; 王嘉怡; 李薇; 陈文博; 侯帅
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2022-12-20
Anticipated expiration: 2039-03-26
Also published as: CN109993096A

Abstract

本发明提供一种面向视频目标检测的光流多层帧特征传播及聚合方法，涉及计算机视觉技术领域。该方法首先通过特征网络提取相邻帧的多层特征、光流网络提取光流，然后利用光流将当前帧的前一帧和当前帧的后一帧的多层帧级别特征传播到当前帧，步长不同的层需要对光流做上采样或下采样，获取多层传播特征；然后逐层依次聚合每层的传播特征，最后生成多层聚合的帧级别特征用于最后的视频目标检测。本发明提供的面向视频目标检测的光流多层帧特征传播及聚合方法，使得输出的帧级别聚合特征兼顾了浅层网络分辨率高和深层网络高维语义特征的优点，能提升检测性能，而且多层特征聚合的方法对小目标的检测性能有所提升。

Description

一种面向视频目标检测的光流多层帧特征传播及聚合方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种面向视频目标检测的光流多层帧特征传播及聚合方法。

背景技术

目前国内外视频目标检测方法主要可以划分为两类，一类为框水平的方法，另一类为基于光流的特征水平的方法。近些年，研究者关注于深层神经网络提取的高语义特征层次，通过光流对视频帧之间的运动信息建模，利用帧间的光流将相邻帧的特征传播到当前帧，预测或增强当前帧的特征，这种方法的优点是思路清晰，简单有效，并且可以端到端的训练模型。尽管光流可以用于特征层次的空间变换，但是利用光流信息传播帧间的特征存在误差，比如DFF和FGFA在传播帧之间的特征时，使用了残差网络最后一个残差块res5提取的特征，但是由于光流网络存在误差，导致局部特征不对齐，造成了两个问题：一是res5提取的特征分辨率低、语义层次高，每个像素点包含的语义信息都很丰富，如果在这些存在误差的传播特征上直接进行检测或聚合之后再进行检测，而不用一些方法矫正这些误差的像素点，会直接影响检测的性能；二是残差块res5提取特征的每个像素点在原始图像上的感受野较大，视频中的一些较小的目标低于64×64分辨率，在残差块res5对应的特征值范围低于4×4，单个像素点的误差对这些小目标的检测产生的影响远大于对较大的高于150×150分辨率的大目标检测。图像目标检测领域中，通常同时使用特征网络多层的特征进行检测，以提高检测精度，尤其是小目标的检测精度，称为特征金字塔，典型的方法如SSD、FPN，以上方法证明了特征网络不同层次的特征各有优点，联合多层一起检测能有效提升检测精度。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种面向视频目标检测的光流多层帧特征传播及聚合方法，实现对光流特征的传播与聚合。

为解决上述技术问题，本发明所采取的技术方案是：一种面向视频目标检测的光流多层帧特征传播及聚合方法，包括基于光流的多层帧级别特征提取与传播过程和基于多层传播特征的帧级别特征聚合过程两部分；

所述基于光流的多层帧级别特征提取与传播过程，包括以下步骤：

步骤S1：提取视频相邻帧的多层特征；

使用残差网络ResNet-101网络作为提取帧级别特征的特征网络；所述ResNet-101网络在不同的层上有不同的步长，修改残差块res5的最后三层输出步长为16，并在网络的最后添加一个扩张卷积层，将残差块res5输出的特征降维；

步骤S2：采用FlowNet光流网络提取视频的光流，并对光流进行后处理，使其针对特征网络各层不同尺寸的特征进行尺寸变换；

步骤S2.1：使用FlowNet网络的Simple版本提取视频的光流；直接从通道维度上串联视频图像的相邻两帧，将串联后的6通道图像输入到FlowNet网络中提取光流；

步骤S2.2：为了匹配特征的尺寸，对光流进行上采样和下采样；

步骤S2.2.1：给定视频的当前帧图像I_i和它的相邻帧图像I_i-t，则FlowNet网络输出的光流如下公式所示：

其中，

表示当前帧I_i与其相邻帧I_i-t的光流，上标8表示步长为8，

表示光流网络FlowNet；

步骤S2.2.2：对光流进行上采样，得到对应特征步长为4的光流，如下公式所示：

其中，

表示当前帧I_i与其相邻帧I_i-t的光流，上标4表示步长为4，upSample(·)表示最近邻上采样函数；

步骤S2.2.3：对光流进行下采样，得到对应特征步长为16的光流，如下公式所示：

其中，

表示当前帧I_i与其相邻帧I_i-t的光流，上标16表示步长为16，downSample(·)表示平均池化下采样；

步骤S2.2.4：若

则对应的

其中C为通道数，默认为2，H和W分别为光流的高度和宽度；得到适用于多层特征传播的光流，如下公式所示：

其中，s表示特征步长；

步骤S3：利用光流将i-t帧及i+t帧的多层帧级别特征传播到第i帧，得到多层传播特征

给定多步长光流

传播特征层数l和第i-t帧图像I_i-t，则最终的传播特征通过下式计算得到：

其中，l表示层数，l∈(1，n)，n为特征网络的总层数，

表示特征网络的第l层输出；

表示warp映射函数，其将第i-t帧特征f_i-t中位置p的值映射到当前帧i的对应位置p+δp处，δp表示位置偏移；

则第i+t帧的多层传播特征通过下式计算得到：

所述的基于多层传播特征的帧级别特征聚合过程，包括以下步骤：

步骤C1：由特征网络第一层的传播特征

当前帧特征

得到特征网络第一层的聚合特征如下公式所示：

其中，

为特征网络第一层的聚合特征，

为聚合第一层特征的放缩余弦相似性权重；

步骤C2：将步骤C1的聚合特征

作为当前帧特征输入到特征网络第二层，得到特征

同时获取相邻帧第二层的传播特征

再次聚合特征，得到特征网络第二层的聚合特征如下公式所示：

其中，

为特征网络第二层的聚合特征，

为聚合第二层特征的放缩余弦相似性权重；

步骤C3：重复以上聚合过程，逐一聚合特征网络每层的帧级别特征，并将上一层输出的聚合特征作为下一层的当前帧特征，直到获得特征网络最后一层的聚合特征，如下公式所示：

其中，

为特征网络第n层的聚合特征，

为聚合第n层特征的放缩余弦相似性权重，n为特征网络的总层数；

所述特征网络第n层的聚合特征

即为最终用于视频目标检测的特征，

既聚合了多帧的时间信息，又聚合了特征网络多层的空间信息；

所述聚合第n层特征的放缩余弦相似性权重的计算方法为：

(1)、使用余弦相似性权重建模光流的质量分布；

使用一个浅层的映射网络

将特征映射到专门计算相似性的维度，如下公式所示：

其中，

为特征f_i和f_i-t→i映射后的特征，

为映射网络；

给定当前帧特征f_i和相邻帧传播的特征f_i-t→i，则在空间位置p处它们之间的余弦相似性为：

公式(14)输出的权重沿通道求和，使输出的权重维度变为二维矩阵，维度为W×H，W和H分别为特征的宽度和高度，以减少需要学习的权重参数数量，使网络更容易训练；

(2)、直接从视频帧的外观特征中提取放缩因子，对视频帧的质量分布建模，得到帧级别的放缩余弦相似性权重，并将其作为步骤4的帧级别聚合权重；

给定当前帧特征f_i和第i-t帧的传播特征f_i-t→i，则权重放缩网络

输出的权重放缩因子为：

由于λ_i-t为通道级别的向量，而余弦相似性权重w_i-t→i为2维平面的矩阵，为了获得像素级别的权重，通过通道级的乘法结合两者；对于输出的放缩后的权重每个通道c，每个空间位置p处的像素值，通过下式计算得到：

其中，

为通道级别的乘法；

通过公式(14)、(15)、(16)得到放缩后的余弦相似性权重；

相应地，第i+t帧传播特征的权重为：

沿着多帧归一化位置p的权重，使得

归一化操作通过SoftMax函数完成；

所述映射网络和权重放缩网络共享前两层，在ResNet-101输出的1024维向量后使用1×1卷积和3×3卷积两个连续的卷积层，然后连接两个分支子网；第一个分支为1×1卷积，作为映射网络，用于输出映射后的特征

第二个分支同样为1×1卷积，然后连接一个全局平均池化层，作为权重放缩网络，生成一个1024维的特征向量，对应ResNet-101输出特征向量的每个通道，用于衡量特征的重要性程度，控制特征时间聚合权重的放缩尺度。

采用上述技术方案所产生的有益效果在于：本发明提供的一种面向视频目标检测的光流多层帧特征传播及聚合方法，在特征网络的浅层输出(res3层、res4层)上传播特征，一方面浅层网络分辨率高，特征传播时，对小目标的容错率较高；另一方面浅层网络的传播误差可以通过后续网络减弱，甚至逐渐矫正。然后，在特征网络的浅层和深层同时传播特征并聚合深层与浅层特征，这样既利用了深层网络的高语义特征，又保留了浅层特征的高分辨率。使得输出的帧级别聚合特征兼顾了浅层网络分辨率高和深层网络高维语义特征的优点，能提升检测性能，而且多层特征聚合的方法对小目标的检测性能有所提升。

附图说明

图1为本发明实施例提供的一种面向视频目标检测的光流多层帧特征传播及聚合方法的流程图；

图2为本发明实施例提供的基于光流的多层特征传播及其聚合过程的示意图；

图3为本发明实施例提供的FlowNet网络结构(simple版本)的示意图；

图4为本发明实施例提供的不同网络层检测性能的对比图；

图5为本发明实施例提供的ImageNet VID验证集的真实框面积分布直方图及其分组划分。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施以视频数据集ImageNet VID为例，采用本发明的一种面向视频目标检测的光流多层帧特征传播及其聚合方法对该视频数据进行验证；

一种面向视频目标检测的光流多层帧特征传播及聚合方法，如图1和图2所示，包括基于光流的多层帧级别特征提取与传播过程和基于多层传播特征的帧级别特征聚合过程两部分；

步骤S1：提取视频相邻帧的多层特征；

使用残差网络ResNet-101网络作为提取帧级别特征的特征网络；所述ResNet-101网络在不同的层上有不同的步长，参考R-FCN网络，并修改残差块res5的最后三层输出步长为16，并在网络的最后添加一个扩张卷积层，将res5输出的特征降维；

本实施例，使用修改的ResNet-101网络作为提取帧级别特征的特征网络，各层的详细步长和空间尺度统计数据见表1。ResNet-101在网络不同的层上有不同的步长，修改最后三层res5a_relu、res5a_relu、res5b_relu的输出步长为16，并添加一个dilate＝6，kernel＝3，pad＝6，num_filters＝1024的扩张卷积层feat_conv_3×3_relu。

表1 ResNet-101各层步长统计

编号	ResNet-101各层	步长	尺寸
				1	res2a_relu	4	1/4
2	res2b_relu	4	1/4
				3	res2c_relu	4	1/4
4	res3a_relu	8	1/8
				5	res3b1_relu	8	1/8
6	res3b2_relu	8	1/8
				7	res3b3_relu	8	1/8
8	res4a_relu	16	1/16
				9	res4b1_relu	16	1/16
10	res4b2_relu	16	1/16
				…	…	…	…
30	res4b22_relu	16	1/16
				31	res5a_relu	16	1/16
32	res5b_relu	16	1/16
				33	feat_conv_3×3_relu	16	1/16

由于残差网络的结构特性，本实施例只统计了残差模块的输出层，内部层不统计，也不会用于特征传播，Number表示对应的网络层的编号，Layers列举了ResNet-101除前两层外的所有网络层输出，stride表示对应网络层输出的特征步长，spatial_scale表示对应层输出的尺度/原始图片尺度；本实施例中，使用res2b_relu层、res3b3_relu层、res4b22_relu层和feat_conv_3×3_relu层进行多层特征传播。

步骤S2.1：使用如图3所示的FlowNet网络的Simple版本提取视频的光流；直接从通道维度上串联视频图像的相邻两帧，将串联后的6通道图像输入到FlowNet网络中提取光流；

所述FlowNet网络通过下采样CNN提取两帧图像的包含高维语义信息的特征；

首先使用一个窗口大小为2×2，步长为2的平均池化层将原始输入图片尺寸减半，然后通过9个连续的卷积层使特征抽象水平提升，同时特征尺寸变为原来的1/32；

下采样CNN的输出特征图具有很高的语义，但是它的分辨率低，相对于原图来说，特征图在采用的过程中，丢失了很多图像之间的细节信息，这样的特征学出来的光流效果很差，因此FlowNet网络在下采样CNN后引入精炼模块，提高特征分辨率，学习图像间高质量的光流；

所述精炼模块基于FCN思想，采用了类似于FCN的反卷积操作，提升特征的分辨率，同时结合前面层的输出特征补充丢失的细节信息，最后输出双通道的光流；所述精炼模块网络结构为：首先通过一个反卷积将特征图尺寸增大一倍，然后和下采样CNN中对应的卷积层输出特征图沿着通道维度串联到一起，作为下一层的输入，后面的过程基本同样如此，不同之处在于后面每次都用一个流分支学习一个对应尺寸的光流，并将此光流沿着通道维度串联到输出特征图，继续作为下一层输入；

其中，

表示当前帧I_i与其相邻帧I_i-t的光流，上标8表示步长为8，

表示光流网络FlowNet；

其中，

其中，

步骤S2.2.4：若

对应的

其中，s表示特征步长；

本实施例中，为了传播多层特征，对同一步长的各层使用相同的光流；例如，将res4a_relu层到扩张卷积层feat_conv_3×3_relu层都是用步长为16的光流传播特征。

给定多步长光流

传播特征层数1和第i-t帧图像I_i-t，则最终的传播特征通过下式计算得到：

其中，l表示层数，l∈(1，n)，n为特征网络的总层数，与表1中第一列Number对应，

表示特征网络的第l层输出；

表示warp映射函数，其将第i-t帧特征f_i-t中位置p的值映射到当前帧i的对应位置p+δp处，6p表示位置偏移；

则第i+t帧的多层传播特征通过下式计算得到：

步骤C1：由特征网络第一层的传播特征

当前帧特征

得到特征网络第一层的聚合特征如下公式所示：

其中，

为特征网络第一层的聚合特征，

为聚合第一层特征的放缩余弦相似性权重；

步骤C2：将步骤C 1的聚合特征

作为当前帧特征输入到特征网络第二层，得到特征

同时获取相邻帧第二层的传播特征

其中，

为特征网络第二层的聚合特征，

为聚合第二层特征的放缩余弦相似性权重；

步骤C 3：重复以上聚合过程，逐一聚合特征网络每层的帧级别特征，并将上一层输出的聚合特征作为下一层的当前帧特征，直到获得特征网络最后一层的聚合特征，如下公式所示：

其中，

为特征网络第n层的聚合特征，

所述特征网络第n层的聚合特征

即为最终用于视频目标检测的特征，

既聚合了多帧的时间信息，又聚合了特征网络多层的空间信息，极大地增强了当前帧特征的表征能力。

所述聚合第n层特征的放缩余弦相似性权重的计算方法为：

(1)、使用余弦相似性权重建模光流的质量分布；

使用一个浅层的映射网络

将特征映射到专门计算相似性的维度，如下公式所示：

其中，

为特征f_i和f_i-t→i映射后的特征，

为映射网络；

输出的权重放缩因子为：

其中，

为通道级别的乘法；

通过公式(14)、(15)、(16)得到放缩后的余弦相似性权重；

相应地，第i+t帧传播特征的权重为：

沿着多帧归一化位置p的权重，使得

归一化操作通过SoftMax函数完成；

本实施例选择ResNet-101的三个标准块的输出测试，即对res3块的输出res3c_relu，res4块的输出res4b22_relu和res5块的输出conv_3×3_feat进行测试，本实施例在res3c_relu附近，每隔5层采样一次，在res4块中每隔3层采样一次，最后采样出9层进行测试，对应的层数number为(2，7，12，19，21，24，27，30，33)，检测的均值平均精度对比如图4所示。从图4可以看出，res4b22_relu的准确率最好，conv_3×3_feat的性能次之，res3c_relu的性能最差。并且从第17层开始，前面的层性能下降较快，后面的层均值平均精度的差距缩小，在第30层的检测精度达到最高。验证了浅层网络较深层网络特征传播性能更好，但是随着网络层数的变浅，这种性能会饱和，甚至由于分辨率的增加，导致光流预测难度增加，整体检测性能下降。

本实施例在ImageNet VID验证集上进行了测试。调整FGFA的特征传播层数，使其作为每个层级的baseline，测试结果如表2所示。

表2多层与单层传播特征聚合精度对比

通过表2的实验结果，可以看出，使用res4最后一层(res4b22_relu)传播的特征聚合要好于使用res5最后一层(FGFA)，因此使用浅层网络较深层网络传播特征的性能更好。同样从结果可以看出，传播res4和res5的特征并聚合，能够进一步提升检测的性能(72.1→73.6_↑1.5)，验证了多层特征聚合对检测精度的提升。

为了更进一步证明多层特征聚合的方法对小目标的检测性能的提升，将VID验证集按照真实框面积划分为小、中、大三个分组，如图5所示。目标大小的划分标准为面积介于(0，64²)之间的分类为小，介于(64²，150²)之间的分类为中，大于150²的分类为大。本实施例统计了验证集中的各分组的占比分布，如图5所示。从图5中可以看出，VID验证集中大目标占大多数(60.0％)，小目标数量很少(13.5％)，本实施例分别在ImageNet VID验证集的这三个分组上测试了单一的深层(res5最后一层)特征传播、单一的浅层(res4最后一层)特征传播和融合多层(res4+res5最后一层)传播特征的性能对比，测试结果如表3所示。

表3不同方法在ImageNet VID验证集不同大小目标上的检测精度

方法	均值平均精度(％)(小)	均值平均精度(％)(中)	均值平均精(％)(大)
				FGFA(res5)	26.9	51.4	83.0
FGFA(res4)	29.5	50.8	84.1
				FGFA(res4+res5)	30.1	51.9	84.5

由表3可知，浅层特征聚合对小目标的检测性能高于深层特征聚合(26.9％→29.5％_↑2.6％)，说明对于小目标检测来说，浅层特征传播的误差比深层特征传播的误差影响更小。同时聚合浅层与深层的特征，在验证集的所有子部分中都取得了最好的检测性能，说明融合深层、浅层的特征能更加全面的提升检测性能，且证明了本发明的多层特征聚合算法能很好的融合多层特征各自的优点。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。