CN111310609A

CN111310609A - 基于时序信息和局部特征相似性的视频目标检测方法

Info

Publication number: CN111310609A
Application number: CN202010075005.6A
Authority: CN
Inventors: 古晶; 刘芳; 赵柏宇; 焦李成; 卞月林; 巨小杰; 张向荣; 陈璞花
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2020-06-19
Anticipated expiration: 2040-01-22
Also published as: CN111310609B

Abstract

本发明公开了一种基于时序信息和局部特征相似性的视频目标检测方法，主要解决现有技术检测视频目标准确率较低和特征位置不匹配的问题。其实现方案是：用ResNet网络提取视频每一帧的特征图；用局部特征哈希相似性度量计算特征图的相似性，并用该哈希相似性得分表示当前位置特征的变化；对相邻帧的特征图进行加权，并与当前帧特征相加，得到当前帧的修正特征；用基于稀疏分类的区域候选网络得到修正特征的候选目标框；用感兴趣区域池化得到大小统一的特征，并将这些大小统一的特征输入到训练后的分类和回归网络，得到检测结果。本发明提高了检测准确率较高，降低了计算复杂度。

Description

基于时序信息和局部特征相似性的视频目标检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种视频目标检测方法，可用于视频中的目标识别和定位。

背景技术

计算机视觉是人工智能的一个重要领域，是一门关于计算机和软件***的科学，可以让计算机对图像及场景进行识别和理解，计算机视觉包括图像识别、目标检测、图像生成、图像超分辨率重建等分支领域。视觉理解主要有三个层次，分别是分类、检测、分割。其中，分类任务关心整体，给出的是整张图片的内容描述，而检测则关注特定的物体目标，要求同时获得这一目标的识别结果和定位结果。相比分类，检测给出的是对图片前景和背景的理解，还需要从背景中分离出感兴趣的目标，并确定这一目标的识别和定位结果。

目标检测是计算机视觉领域一个重要的研究课题，它的实现是运动目标跟踪、目标识别、行为理解等视频分析技术的关键，目标检测的效果将直接影响到后续工作的进展。图像目标检测任务在过去几年的时间取得了巨大的进展，检测性能得到明显提升。特别是在视频监控、车辆辅助驾驶等领域，基于视频的目标检测有着更为广泛的需求。但是，要将图像检测技术直接用到视频检测会面临新的挑战。第一，把深度网络应用到所有的视频帧会带来巨大的运算代价；第二，对存在运动模糊、视频虚焦、罕见姿势的视频帧直接用图像检测技术检测，准确率较低。

为了提高视频检测准确率，较早的方法大都关注后处理，在图像目标检测对每一帧进行检测之后，利用视频特有的时序特征对检测结果做进一步处理，如管道卷积神经网络T-CNN 和序列非极大值抑制Seq-NMS方法。但是，这种后处理方法无疑增加了检测所需的计算，减小了检测速度，无法满足实时性的需求。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于时序信息和局部特征相似性的视频目标检测方法，以提高检测速度，满足实时性的需求。

本发明的技术方案是这样实现的：

本发明的技术思路是充分利用视频序列的时序信息、挖掘相邻帧图像中目标特征的变化，其方案是：先用ResNet网络提取视频每一帧的特征图；再以自适应的方式，利用相邻前序帧的时序信息对当前帧的特征进行修正；再通过基于稀疏分类的区域候选网络得到修正特征的候选目标框；再用感兴趣区域池化得到大小统一的特征，随后通过分类和回归网络得到最终的检测结果，具体实现步骤包括如下：

1.基于时序信息和局部特征相似性的视频目标检测方法，其特征在于，包括如下：

(1)分别对视频V中第t帧视频帧I^(t)与其前k帧I^(t-k),...,I^(t-1)，通过ResNet网络，得到 I^(t)的特征图F^(t)和I^(t-k),...,I^(t-1)的特征图F^(t-k),...,F^(t-1)；

(2)计算F^(t)与F^(t-k),...,F^(t-1)的局部特征哈希相似性得分s^(t,t-k),...,s^(t,t-1)：

(3)基于时序信息计算视频帧I^(t)的修正特征图F'^(t)：

(3.1)对局部特征哈希相似性得分s^(t,t-k),...,s^(t,t-1)在各个空间位置上分别进行softmax 操作，得到特征图F^(t-k),...,F^(t-1)对应的权重α^(t-k),...,α^(t-1)；

(3.2)对特征图F^(t-k),...,F^(t-1)和对应权重α^(t-k),...,α^(t-1)在各个空间位置加权求和，并与F^(t)相加，得到视频帧I^(t)的修正特征图F^'(t)；

(4)用视频帧I^(t)的修正特征图F^'(t)选择视频帧I^(t)的候选目标区域：

(4.1)对I^(t)帧的修正特征图F^'(t)，将其依次通过大小为3×3和1×1的卷积核，得到I^(t)帧的中间层特征图F^”(t)；

(4.2)在特征图的各个位置生成9个不同尺度的锚框，即先设置大小为16×16的基锚框，保持面积不变使其长宽比为(0.5,1,2),再对这三个不同长宽比的锚框分别放大(8,16,32)个尺度，一共得到9个锚框。

(4.3)训练softmax层和目标框回归层参数,得到训练后的softmax层和目标框回归层；

(4.4)对每一个锚框在I^(t)帧的中间层特征图F^”(t)上，用训练后的softmax层判断是否含有目标：

若含有目标，则用训练后的目标框回归对锚框坐标进行微调，得到I^(t)帧的若干候选目标区域，执行(5)；

若不含有目标，则将锚框丢弃；

(5)在视频帧I^(t)的修正特征图F^'(t)上，对每个候选目标区域用感兴趣区域池化提取其大小统一的候选区域特征；

(6)用各个候选区域特征得到视频帧的目标类别和目标框位置：

(6.1)训练分类和回归网络，得到训练后的分类和回归网络：

(6.2)将视频帧I^(t)的各个候选区域特征输入到训练后的分类和回归网络，分别得到视频帧I^(t)的目标类别和目标框位置。

进一步，(2)中计算F^(t)与F^(t-k),...,F^(t-1)的局部特征哈希相似性得分s^(t,t-k),...,s^(t,t-1)，实现如下：

(2.1)计算第t帧特征图F^(t)和第t-k帧特征图F^(t-k)的局部特征哈希相似性得分：

(2.1a)对第t帧I^(t)的特征图F^(t)，在任一位置(i,j)上取八邻域,构成以位置(i,j)为中心的邻域特征块

对

中的所有值求平均，得到位置(i,j)处的特征平均值

(2.1b)对第t-k帧I^(t-k)的特征图F^(t-k)，在位置(i,j)上取八邻域,构成以位置(i,j)为中心的邻域特征块

对

中的所有值求平均，得到位置(i,j)处的特征平均值

(2.1c)将第t帧I^(t)的邻域特征块

中每个值与其平均值

比较，并将

中大于或等于均值

处的哈希值设为1，将

中小于均值

处的哈希值设为0，得到由0和1组成的

哈希表示

(2.1d)将第t-k帧I^(t-k)的邻域特征块

中每个值与其平均值

比较，并将

中大于或等于均值

处的哈希值设为1，将

中小于均值

处的哈希值设为0，得到由0和1组成的

哈希表示

(2.1e)计算

哈希表示

和

哈希表示

的汉明距离

(2.1f)用邻域特征块

所包含值的个数减去汉明距离

得到第t帧的特征图和第 t-k帧的特征图在位置(i,j)上的哈希相似性得分

(2.1g)重复(2.1a)–(2.1f)，计算第t帧特征图F^(t)和第t-k帧特征图F^(t-k)在所有位置的哈希相似性得分，并根据空间位置将它们进行组合，得到第t帧特征图和第t-k帧特征图的局部特征哈希相似性得分s^(t,t-k)；

(2.2)重复(2.1)，分别计算F^(t)与F^(t-k+1),...,F^(t-1)的局部特征哈希相似性得分 s^(t,t-k+1),...,s^(t,t-1)，从而得到第t帧视频帧与其前k帧的的局部特征哈希相似性得分 s^(t ^,t-k),...,s^(t,t-1)。

本发明与现有技术相比，具有如下优点：

1)本发明在两阶段图像目标检测方法的基础上，基于时序信息，考虑相邻帧间的关系，在多帧构成的视频序列上，通过对相邻帧的特征进行加权，并与当前帧特征相加，自适应地得到当前帧的修正特征，可对存在运动模糊、视频虚焦、罕见姿势的视频帧修正特征后检测，提高了检测准确率。

2)本发明在利用时序信息对特征进行修正中，利用局部特征哈希相似性度量计算特征相似性，并用该哈希相似性得分表示当前位置特征的变化,解决了由于视频中运动目标位置变化带来的特征位置不匹配问题，与常见的相似性度量方法相比，降低了计算复杂度，提高了运行效率。

附图说明

图1是本发明的实现流程图；

图2是本发明中计算局部特征哈希相似性得分的子流程图；

图3是本发明中计算修正特征的子流程图；

图4和图5是用本发明进行视频目标检测的效果图。

具体实施方式

下面结合附图对本发明的实施例和效果做进一步详细说明。

本发明的实施主要分为训练和测试两个部分，训练过程是通过计算模型损失函数和反向传播，更新模型参数；测试过程是固定参数，先利用时序信息计算视频帧的修正特征，再用修正特征得到视频帧的目标类别和目标框位置。

参照图1，本实例的实现步骤如下：

步骤1，计算第t帧视频帧及其前序帧的特征图。

对视频V中第t帧视频帧I^(t)与其前k帧I^(t-k),...,I^(t-1)，通过ResNet网络，得到I^(t)的特征图F^(t)和I^(t-k),...,I^(t-1)的特征图F^(t-k),...,F^(t-1)。

所述ResNet网络是由1个7×7卷积层、1个3×3最大池化层、16个残差块组成的特征提取网络，其中每个残差块分别由1个1×1卷积层、1个3×3卷积层、1个1×1卷积层和恒等映射组合而成。

步骤2，计算第t帧视频帧与其前k帧的局部特征哈希相似性得分。

2.1)计算第t帧特征图F^(t)和第t-k帧特征图F^(t-k)的局部特征哈希相似性得分：

参照图2，本步骤的具体实现如下：

2.1a)对第t帧I^(t)的特征图F^(t)，在任一位置(i,j)上取八邻域,构成以位置(i,j)为中心的邻域特征块

对

中的所有值求平均，得到位置(i,j)处的特征平均值

2.1b)对第t-k帧I^(t-k)的特征图F^(t-k)，在位置(i,j)上取八邻域,构成以位置(i,j)为中心的邻域特征块

对

中的所有值求平均，得到位置(i,j)处的特征平均值

2.1c)将第t帧I^(t)的邻域特征块

中每个值与其平均值

比较，并将

中大于或等于均值

处的哈希值设为1，将

中小于均值

处的哈希值设为0，得到由0和1组成的

哈希表示

2.1d)将第t-k帧I^(t-k)的邻域特征块

中每个值与其平均值

比较，并将

中大于或等于均值

处的哈希值设为1，将

中小于均值

处的哈希值设为0，得到由0和1组成的

哈希表示

2.1e)计算

哈希表示

和

哈希表示

的汉明距离

其中，

分别为

中第l个元素的值；

2.1f)用邻域特征块

所包含值的个数减去汉明距离

2.1g)重复2.1a)–2.1f)，计算第t帧特征图F^(t)和第t-k帧特征图F^(t-k)在所有位置的哈希相似性得分，并根据空间位置将它们进行组合，得到第t帧特征图和第t-k帧特征图的局部特征哈希相似性得分s^(t,t-k)；

2.2)重复步骤2.1)，分别计算F^(t)与F^(t-k+1),...,F^(t-1)的局部特征哈希相似性得分s^(t,t-k+1),...,s^(t,t-1)，从而得到第t帧视频帧与其前k帧的的局部特征哈希相似性得分 s^(t ^,t-k),...,s^(t,t-1)。

步骤3，计算第t帧视频帧的修正特征图。

参照图3，本步骤实现如下：

3.1)对局部特征哈希相似性得分s^(t,t-k),...,s^(t,t-1)在各个空间位置上分别进行softmax操作，得到特征图F^(t-k),...,F^(t-1)对应的权重α^(t-k),...,α^(t-1)；

3.2)对特征图F^(t-k),...,F^(t-1)和对应权重α^(t-k),...,α^(t-1)在各个空间位置进行加权求和，并与F^(t)相加，得到视频帧I^(t)的修正特征图F^'(t)：

其中β为权重因子，

步骤4，用第t帧视频帧的修正特征图选择候选目标区域。

4.1)对I^(t)帧的修正特征图F^'(t)，将其依次通过大小为3×3和1×1的卷积核，得到I^(t)帧的中间层特征图F^”(t)；

4.2)在中间层特征图F^”(t)的各个位置生成9个不同尺度的锚框，即先设置大小为16×16 的基锚框，保持面积不变使其长宽比为(0.5,1,2),再对这三个不同长宽比的锚框分别放大 (8,16,32)个尺度，一共得到9个锚框；

4.3)训练softmax层和目标框回归层参数：

4.3a)随机初始化softmax层和目标框回归层参数；

4.3b)对每一锚框，用初始化后的softmax层计算锚框含有目标的概率，用初始化后的目标框回归计算锚框的参数化坐标；

4.3c)用约束softmax层参数的L1正则项构造区域候选损失函数

其中，e_i为softmax层计算的第i个锚框A_i含有目标的概率，

是锚框A_i是否含有目标的真实值标签，o_i是锚框A_i的参数化坐标，

是与锚框A_i对应的真实值目标框的坐标，

是目标是否存在的对数损失，

是目标框回归的Smooth L1损失，

为softmax层参数，

为约束softmax层参数的L1正则项，N_cls为训练批次的数量，N_reg为锚框数量，λ₁和λ₂是平衡权重；

4.3d)利用区域候选损失函数，通过反向传播算法更新softmax层和目标框回归层参数，直到区域候选损失函数收敛，得到训练后的softmax层和目标框回归层；

4.4)对每一个锚框在I^(t)帧的中间层特征图F^”(t)上，用训练后的softmax层计算锚框含有目标的概率p，并将该概率与设定的阈值q进行比较：

若p＞q，则锚框含有目标，再用训练后的目标框回归层对锚框坐标进行微调，得到I^(t)帧的若干候选目标区域，执行步骤5；

若p≤q，则锚框不含有目标，并将锚框丢弃。

步骤5，对每个候选目标区域提取大小统一的候选区域特征。

在视频帧I^(t)的修正特征图F^'(t)上，对每个候选目标区域用感兴趣区域池化提取其大小统一的候选区域特征，即先将每个候选目标区域在修正特征图F^'(t)上划分为w_r×h_r个网格，再在每个网格里进行最大池化操作，得到大小统一为w_r×h_r的候选区域特征。

步骤6，用各个候选区域特征得到视频帧的目标类别和目标框位置。

6.1)训练分类和回归网络：

6.1a)随机初始化分类和回归网络的参数；

6.1b)对每一个候选区域特征，用初始化后分类网络计算候选区域属于各个类别的概率，再用初始化后的回归网络计算候选区域的参数化坐标；

6.1c)构造目标检测损失函数

其中，z是第i个候选区域的真实类别，

是第i个候选区域属于z类的概率，γ是专注参数，

是目标分类的focal loss损失；o_i是第i个候选区域的参数化坐标，

是与第i个候选区域对应的真实目标框的坐标向量，

是目标框的SmoothL1回归损失，λ是平衡权重；

6.1d)利用目标检测损失函数，通过反向传播算法更新分类和回归网络参数，直到目标检测损失函数收敛，得到训练后的分类和回归网络；

6.2)将视频帧I^(t)的各个候选区域特征输入到训练后的分类和回归网络，分别得到视频帧I^(t)的目标类别和目标框位置。

本发明的效果可通过以下仿真进一步说明：

1.仿真条件

使用带有RTX 2080TI显卡的工作站，使用PyTorch软件框架。

选用目标为飞机的画面较为模糊的连续四帧图像作为第一组被检测的视频序列，如图 4(a)-4(d)；

选用目标为狗的目标快速运动的连续四帧图像作为第二组被检测的视频序列，如图 5(a)-5(d)。

2.仿真内容

仿真1，用本发明的方法对第一组被检测的视频序列进行视频目标检测，得到的第四帧的检测结果，如图4(d)。

仿真2，用本发明的方法对第二组被检测的视频序列进行视频目标检测，得到的第四帧的检测结果，如图5(d)。

3.仿真结果分析

从图4(d)可以看出在画面较为模糊的情况下，本发明能准确检测出视频中目标的类别和位置，从图5(d)可以看出在高速剧烈的动作下，本发明能准确检测出视频中形态变化较大的目标。

Claims

(1)分别对视频V中第t帧视频帧I^(t)与其前k帧I^(t-k),...,I^(t-1)，通过ResNet网络，得到I^(t)的特征图F^(t)和I^(t-k),...,I^(t-1)的特征图F^(t-k),...,F^(t-1)；

(3)基于时序信息计算视频帧I^(t)的修正特征图F'^(t)：

(3.1)对局部特征哈希相似性得分s^(t,t-k),...,s^(t,t-1)在各个空间位置上分别进行softmax操作，得到特征图F^(t-k),...,F^(t-1)对应的权重α^(t-k),...,α^(t-1)；

(3.2)对特征图F^(t-k),...,F^(t-1)和对应权重α^(t-k),...,α^(t-1)在各个空间位置加权求和，并与F^(t)相加，得到视频帧I^(t)的修正特征图F'^(t)；

(4)用视频帧I^(t)的修正特征图F'^(t)选择视频帧I^(t)的候选目标区域：

(4.1)对I^(t)帧的修正特征图F'^(t)，将其依次通过大小为3×3和1×1的卷积核，得到I^(t)帧的中间层特征图F”^(t)；

(4.4)对每一个锚框在I^(t)帧的中间层特征图F”^(t)上，用训练后的softmax层判断是否含有目标：

若不含有目标，则将锚框丢弃；

(5)在视频帧I^(t)的修正特征图F'^(t)上，对每个候选目标区域用感兴趣区域池化提取其大小统一的候选区域特征；

(6.1)训练分类和回归网络，得到训练后的分类和回归网络：

2.根据权利要求1所述的方法，其特征在于，(2)中计算F^(t)与F^(t-k),...,F^(t-1)的局部特征哈希相似性得分s^(t,t-k),...,s^(t,t-1)，实现如下：

对

中的所有值求平均，得到位置(i,j)处的特征平均值

对

中的所有值求平均，得到位置(i,j)处的特征平均值

(2.1c)将第t帧I^(t)的邻域特征块

中每个值与其平均值

比较，并将

中大于或等于均值

处的哈希值设为1，将

中小于均值

处的哈希值设为0，得到由0和1组成的

哈希表示

(2.1d)将第t-k帧I^(t-k)的邻域特征块

中每个值与其平均值

比较，并将

中大于或等于均值

处的哈希值设为1，将

中小于均值

处的哈希值设为0，得到由0和1组成的

哈希表示

(2.1e)计算

哈希表示

和

哈希表示

的汉明距离

(2.1f)用邻域特征块

所包含值的个数减去汉明距离

得到第t帧的特征图和第t-k帧的特征图在位置(i,j)上的哈希相似性得分

(2.2)重复(2.1)，分别计算F^(t)与F^(t-k+1),...,F^(t-1)的局部特征哈希相似性得分s^(t ^,t-k+1),...,s^(t,t-1)，从而得到第t帧视频帧与其前k帧的的局部特征哈希相似性得分s^(t ^,t-k),...,s^(t,t-1)。

3.根据权利要求1所述的方法，其特征在于，(1)中的ResNet网络是由1个7×7卷积层、1个3×3最大池化层、16个残差块组成的特征提取网络，其中每个残差块分别由1个1×1卷积层、1个3×3卷积层、1个1×1卷积层和恒等映射组合而成。

4.根据权利要求1所述的方法，其特征在于，(4.3)所述的训练softmax层和目标框回归层参数，实现如下：

(4.3a)随机初始化softmax层和目标框回归层参数；

(4.3b)对每一锚框，用初始化后的softmax层计算锚框含有目标的概率，用初始化后的目标框回归计算锚框的参数化坐标；

(4.3c)用约束softmax层参数的L1正则项构造区域候选损失函数

其中，e_i为softmax层计算的第i个锚框A_i含有目标的概率，

是与锚框A_i对应的真实值目标框的坐标，

是目标是否存在的对数损失，

是目标框回归的Smooth L1损失，

为softmax层参数，

(4.3d)利用区域候选损失函数，通过反向传播算法更新softmax层和目标框回归层参数，直到区域候选损失函数收敛，得到训练后的softmax层和目标框回归层。

5.根据权利要求1所述的方法，其特征在于，(4.4)中用训练后的softmax层判断锚框是否含有目标，是用训练后的softmax层计算锚框含有目标的概率p，并将该概率与设定的阈值q进行比较：

若p＞q，则锚框含有目标；

若p≤q，则锚框不含有目标。

6.根据权利要求1所述的方法，其特征在于，(6.1)所述的训练分类和回归网络，实现如下：

(6.1a)随机初始化分类和回归网络的参数；

(6.1b)对每一个候选区域特征，用初始化后分类网络计算候选区域属于各个类别的概率，再用初始化后的回归网络计算候选区域的参数化坐标；

(6.1c)构造目标检测损失函数

其中，z是第i个候选区域的真实类别，

是第i个候选区域属于z类的概率，γ是专注参数，

是与第i个候选区域对应的真实目标框的坐标向量，

是目标框的Smooth L1回归损失，λ是平衡权重；

(6.1d)利用目标检测损失函数，通过反向传播算法更新分类和回归网络参数，直到目标检测损失函数收敛，得到训练后的分类和回归网络。