CN112434618A

CN112434618A - 基于稀疏前景先验的视频目标检测方法、存储介质及设备

Info

Publication number: CN112434618A
Application number: CN202011357082.7A
Authority: CN
Inventors: 古晶; 巨小杰; 马文萍; 孙新凯; 刘芳; 杨淑媛; 焦李成; 冯婕
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-02
Anticipated expiration: 2040-11-26
Also published as: CN112434618B

Abstract

本发明公开了一种基于稀疏前景先验的视频目标检测方法、存储介质及设备，采用基于正交子空间学习的前景提取方法计算得到视频中每一帧对应的稀疏前景先验图；利用ResNet特征提取网络和特征金字塔结构得到视频帧及其稀疏前景图的语义增强特征图；将稀疏前景先验图的语义增强特征图与当前帧的语义增强特征图级联后，经卷积融合操作得到当前帧的前景先验融合特征；在前景先验融合特征图的每个像素上映射生成候选锚框；将前景先验融合特征和所有锚框输入到训练好的分类和回归子网络，得到目标物体的类别和位置坐标。本发明充分挖掘了视频数据的稀疏前景先验，提高了目标检测准确率。

Description

基于稀疏前景先验的视频目标检测方法、存储介质及设备

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于稀疏前景先验的视频目标检测方法、存储介质及设备。

背景技术

计算机视觉是人工智能的一个重要领域，它通过训练计算机来学习和理解现实视觉。借助图片和视频以及深度学习模型，可以做到准确地分类和识别所关注的目标，进而做出进一步的判断处理。计算机视觉一般分为图像识别、目标检测、实例分割等主要任务。其中，分类任务一般给出的是整张图片的内容描述，而检测任务则更关注特定的感兴趣物体目标，要求同时获得感兴趣目标的识别结果和定位结果。相比于分类任务，检测是对图片前景和背景的理解，同时还需要从背景中分离出感兴趣的目标，并确定感兴趣目标的识别和位置信息。

目标检测是计算机视觉研究领域的一个热门方向，广泛应用于机器人导航、视频监控、工业检测、人脸识别等诸多领域。图像目标检测任务在过去几年的时间取得了巨大的进展，检测性能得到明显提升。然而在视频监控、车辆辅助驾驶等领域，基于视频的目标检测有着更为广泛的需求。但是，要将图像检测技术直接用到视频检测任务会面临新的挑战。第一，把图像目标检测网络直接应用到视频中的每一帧进行检测会带来巨大的计算成本；第二，传统图像目标检测方法不能有效利用视频数据时序连续性和稀疏前景的先验，较难挖掘视频数据中的时序特性。

视频是由图像组成的，视频目标检测与图像目标检测存在着紧密的联系。为了提高视频检测准确率，通常在图像目标检测对每一帧进行检测之后，利用视频特有的时序特性对检测结果做进一步处理。为了利用视频数据在时序上的连续性和冗余性，最近的一些方法采用光流、注意力机制及序列模型等来挖掘视频的时序特性。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于稀疏前景先验的视频目标检测方法、存储介质及设备，提高视频目标检测的检测性能。

本发明采用以下技术方案：

基于稀疏前景先验的视频目标检测方法，包括以下步骤：

S1、将视频V分成m个视频片段C_i，i＝1,2,…,m，对每个视频片段C_i采用基于正交子空间学习的前景提取算法得到视频片段内第t帧视频帧I^(t)的稀疏前景图E^(t)；

S2、分别将视频帧I^(t)与稀疏前景图E^(t)输入ResNet特征提取网络，ResNet特征提取网络的每一层分别输出对应层的特征图F^(t)和稀疏前景先验特征图

计算视频帧I^(t)的特征图F^(t)及其稀疏前景图E^(t)的稀疏前景先验特征图

S3、通过特征金字塔结构，将视频帧I^(t)的每一层特征F^(t)和对应稀疏前景先验特征

分别与更高层上采样得到的特征组合，计算视频帧I^(t)的语义增强特征

和前景语义增强特征

S4、将视频帧I^(t)的语义增强特征

和对应前景语义增强特征

进行融合，得到视频帧I^(t)的前景先验融合特征图

S5、在视频帧I^(t)的前景先验融合特征图

中生成锚框；

S6、将视频帧I^(t)的前景先验融合特征图

及所有锚框输入到训练好的分类和回归网络，分别得到视频帧I^(t)中所有目标的分类和定位结果，完成目标检测。

具体的，步骤S1中，将视频片段C_i内的每一帧图像I^(t)灰度化后转化为列向量，将这些列向量组合成二维矩阵X，根据目标函数计算得到视频片段C_i中所有帧的稀疏前景先验E，再将E按列拆分，还原得到每一帧I^(t)的对应稀疏前景图E^(t)，目标函数计算如下：

其中，D为正交子空间，θ为正交子空间系数，α、β为调节参数，||·||_row,1表示矩阵行的1范数，I_k为阶数为k的单位矩阵。

进一步的，采用交替方向法求解目标函数，使用块坐标下降法求解D和θ，定义残差项

并利用残差项求解更新D和θ；利用求解得到的D和θ更新

收缩函数

·为逐元素相乘，sign()为符号函数，迭代更新直至达到收敛条件，达到最大迭代次数后，得到视频片段C_i中所有帧的稀疏前景先验E。

具体的，步骤S3中，在视频帧I^(t)和稀疏前景图E^(t)经过ResNet特征提取网络得到特征图F^(t)和稀疏前景先验特征图

的过程中，从ResNet特征提取网络的中间层抽出5个不同尺度的特征，尺度大小分别为最低层特征的

倍，将5个不同尺度的特征构成特征金字塔，特征金字塔的底部是高分辨率的特征图，顶部特征图是低分辨率特征图；把特征金字塔高层的的强语义特征进行最近邻上采样，再与低一层的特征相加，经过3×3卷积核之后，输出具有语义信息的特征

和前景先验特征

具体的，步骤S4中，将视频帧I^(t)的语义增强特征

和对应前景语义增强特征

级联，再通过1×1的卷积操作，得到前景先验融合特征图

具体的，步骤S5中，在前景先验融合特征图

中每一层的每个像素上设置一个尺寸为16×16的基锚框，在保持面积不变的前提下，使长宽比分别为0.5,1,2，再对三个不同长宽比的锚框分别放大8,16,32个尺度，对于前景先验融合特征图

中每一层特征图上的每个像素一共生成9个锚框。

具体的，步骤S6中，训练分类和回归子网络具体为：

S6011、随机初始化分类和回归网络的权重参数；

S6012、对每一个候选区域，用初始化后的分类网络计算候选区域属于各个类别的概率，再用初始化后的回归网络计算候选区域的位置坐标；

S6013、构造目标检测损失函数L；

S6014、利用目标检测损失函数L，通过反向传播迭代更新学习分类和回归网络参数，直到网络收敛，得到训练后的分类和回归子网络。

进一步的，步骤S6013中，损失函数L：

其中，z是第i个候选区域的真实标签，

是第i个候选区域属于z类目标的概率，γ是专注参数，

是用于目标分类的focal loss损失；a_i是第i个候选区域的位置坐标，

是与第i个候选区域对应的真实目标框的坐标向量，

是目标框的Smooth L1回归损失，ω是平衡权重。

本发明的另一个技术方案是，一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

本发明的另一个技术方案是，一种计算设备，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于稀疏前景先验的视频目标检测方法，在图像目标检测方法的基础上，利用前景的稀疏先验与视频数据的时空连续性先验提取出运动前景先验图，进而得到前景语义增强特征图，并与当前帧语义增强特征级联得到当前帧的前景先验融合特征，可对存在运动模糊、物体遮挡、尺寸变化较大的视频帧进行前景先验特征融合后检测，提高了检测准确率；充分利用相邻帧特征之间的关系，无需在每一帧检测之后再对检测结果做进一步处理。与现有基于对图像目标检测结果进行后处理的视频目标检测方法相比，提高了检测速度。

进一步的，采用基于正交子空间学习的前景提取算法可以得到更感兴趣的运动前景目标，其中将视频片段内所有视频帧作为一个整体，用正交子空间学习算法得到所有帧的前景图，更好地利用视频数据的前景稀疏先验。

进一步的，采用交替方向法求解目标函数，其中无约束优化的部分用块坐标下降法来分别优化，将大的全局优化问题分解为多个容易求解的子问题，并通过求解多个子问题而得到全局优化问题的解。

进一步的，将ResNet网络中提取的特征构造成特征金字塔，通过特征金字塔结构得到视频帧及前景先验图的多尺度特征，其中利用特征金字塔中低分辨、具有丰富语义信息的高层特征对低层特征进行增强，从而使得到的语义增强特征的语义信息更加丰富。

进一步的，通过将前景图的语义增强特征与当前视频帧的语义增强特征进行级联卷积融合，得到前景先验增强的特征图，在视频帧上前景目标的检测过程中加入前景稀疏先验信息，加强前景目标的特征信息，进一步增强检测性能。

进一步的，通过在特征图上生成锚框，并对每一个锚框进行分类，进而对判别为正样本的锚框进行回归，得到准确的目标位置。在特征图上生成锚框可以将候选区域的数量限制在可控范围内，很大程度上减少了计算量。

进一步的，通过构建分类子网络和回归子网络来完成对视频数据的训练，其中分类子网络可以得到精细的目标分类结果，回归子网络可以进一步校正目标的定位结果，使得最终得到的视频帧中不同目标的识别结果和位置更加准确。

进一步的，设置损失函数L主要是为了解决一阶段目标检测任务中正负样本比例失衡的问题。该损失函数降低了大量冗余的负样本在训练过程中所占的比重。

综上所述，本发明针对视频数据中存在的运动模糊、物体遮挡、尺寸变化较大等现象，充分利用前景的稀疏先验及相邻帧特征之间的关系，使得本发明可以有效检测出视频数据中不同尺度及模糊的目标，提高了检测准确率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的实现流程图；

图2为本发明进行视频目标检测的一种效果图，其中，(a)为目标为船的视频序列其中一帧的检测结果，(b)为目标为船的视频序列中另外一帧的检测结果；

图3为本发明进行视频目标检测的第二种效果图，其中，(a)为目标为狗的视频序列其中一帧的检测结果，(b)为目标为狗的视频序列中另外一帧的检测结果；

图4为本发明进行视频目标检测的第三种效果图，其中，(a)为目标为大象，汽车的视频序列其中一帧的检测结果，(b)为目标为大象，汽车的的视频序列中另外一帧的检测结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于稀疏前景先验的视频目标检测方法，先利用基于正交子空间学习的前景提取方法得到视频每一帧的运动稀疏前景先验图；再使用ResNet特征提取网络和特征金字塔结构提取视频帧和其稀疏前景图的多尺度语义增强特征；将前景语义增强特征和当前帧的语义增强特征进行级联融合，得到前景先验融合特征；再在前景先验融合特征图上的每个像素上生成锚框；随后通过分类和回归网络得到所有目标的类别和位置坐标；充分挖掘了视频数据的稀疏前景先验，提高了目标检测准确率。

请参阅图1，本发明一种基于稀疏前景先验的视频目标检测方法，分为训练和测试两部分，训练过程中通过计算网络模型的损失函数，进而利用反向传播更新网络参数；测试过程中使用训练好的网络参数，将当前帧的语义增强特征与前景语义增强特征进行融合，得到视频帧的前景先验融合特征，再基于前景先验融合特征得到视频帧中感兴趣目标的类别和位置；具体步骤如下：

将视频片段C_i内的每一帧图像I^(t)灰度化后转化为列向量，将这些列向量组合成二维矩阵X，根据目标函数计算得到所有帧对应前景先验E。

目标函数计算如下：

具体实现时，对于上述目标函数可通过不精确的交替方向法求解上述函数，反复执行以下步骤：

S101、使用块坐标下降法求解D和θ，定义残差项

并利用残差项求解更新D和θ：

其中

S102、利用求解得到的D和θ更新

其中收缩函数

“·”表示逐元素相乘，“sign()”为符号函数，具体形式为

迭代更新直至达到收敛条件，即达到最大迭代次数后，得到视频片段C_i中所有帧的稀疏前景先验E，再将E按列拆分，还原得到每一帧I^(t)的对应稀疏前景图E^(t)。

S2、计算视频帧I^(t)的特征图F^(t)及其稀疏前景图E^(t)的稀疏前景先验特征图

分别将视频帧I^(t)与其稀疏前景图E^(t)输入ResNet特征提取网络，ResNet特征提取网络的每一层分别输出该层的特征图F^(t)和稀疏前景先验特征图

ResNet特征提取网络是由1个7×7卷积层、1个最大池化层、16个残差块组成的特征提取网络，其中网络中每个残差块分别由1个1×1卷积层、1个3×3卷积层、1个1×1卷积层，批标准化层和激活函数层组合而成。将16个残差块分为5个阶段。每个阶段的输出作为输入图像在不同语义等级下的特征。

S3、计算视频帧I^(t)的语义增强特征

和前景语义增强特征

通过特征金字塔结构，将视频帧I^(t)的每一层特征F^(t)和对应稀疏前景先验特征

分别与其更高层上采样得到的特征组合起来，得到具有丰富语义信息的语义增强特征

和前景语义增强特征

在视频帧I^(t)和稀疏前景图E^(t)经过ResNet特征提取网络得到特征图F^(t)和稀疏前景先验特征图

的过程中，从ResNet中间层抽出5个不同尺度的特征，尺度大小分别为最低层特征的

倍，由这5个不同尺度的特征构成特征金字塔。特征金字塔的底部是高分辨率的特征图，而顶部特征图是低分辨率特征图，层级越高，则特征图越小，分辨率越低。

把特征金字塔高层的低分辨、具有抽象信息的强语义特征进行最近邻上采样，再与低一层特征相加，经过3×3卷积核之后，输出具有丰富语义信息的特征

和前景先验特征

S4、计算视频帧I^(t)的前景先验融合特征图

将视频帧I^(t)的语义增强特征

和对应前景语义增强特征

级联，再通过1×1的卷积操作，得到前景先验融合特征图

S5、在视频帧I^(t)的前景先验融合特征图

生成锚框；

在前景先验融合特征图

中每一层的每个像素上设置一个尺寸为16×16的基锚框，在保持面积不变的前提下，使其长宽比分别为0.5,1,2，再对这三个不同长宽比的锚框分别放大8,16,32个尺度，从而对于前景先验融合特征图

中每一层特征图上的每个像素，一共生成9个锚框。

S6、将视频帧I^(t)的前景先验融合特征图

及所有锚框输入到训练好的分类和回归网络，分别得到视频帧I^(t)中所有目标的分类和定位结果。

S601、训练分类和回归子网络：

S6011、随机初始化分类和回归网络的权重参数；

S6013、构造目标检测损失函数L：

其中，z是第i个候选区域的真实标签，

是第i个候选区域属于z类目标的概率，γ是专注参数，

是与第i个候选区域对应的真实目标框的坐标向量，

是目标框的Smooth L1回归损失，ω是平衡权重；

S6014、利用目标检测损失函数L，通过反向传播迭代更新学习分类和回归网络参数，直到网络收敛，得到训练后的分类和回归子网络；

S602、将视频帧I^(t)的前景先验融合特征图

及所有锚框输入到训练好的分类和回归网络，分别得到视频帧I^(t)的目标类别和目标框位置。

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于稀疏前景先验的视频目标检测的操作，包括：将视频V分成m个视频片段C_i，i＝1,2,…,m，对每个视频片段C_i采用基于正交子空间学习的前景提取算法得到视频片段内第t帧视频帧I^(t)的稀疏前景图E^(t)；分别将视频帧I^(t)与稀疏前景图E^(t)输入ResNet特征提取网络，ResNet特征提取网络的每一层分别输出对应层的特征图F^(t)和稀疏前景先验特征图

和前景语义增强特征

将视频帧I^(t)的语义增强特征

和对应前景语义增强特征

进行融合，得到视频帧I^(t)的前景先验融合特征图

在视频帧I^(t)的前景先验融合特征图

中生成锚框；将视频帧I^(t)的前景先验融合特征图

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作***。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关电网中长期检修计划的校核方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：将视频V分成m个视频片段C_i，i＝1,2,…,m，对每个视频片段C_i采用基于正交子空间学习的前景提取算法得到视频片段内第t帧视频帧I^(t)的稀疏前景图E^(t)；分别将视频帧I^(t)与稀疏前景图E^(t)输入ResNet特征提取网络，ResNet特征提取网络的每一层分别输出对应层的特征图F^(t)和稀疏前景先验特征图

和前景语义增强特征

将视频帧I^(t)的语义增强特征

和对应前景语义增强特征

进行融合，得到视频帧I^(t)的前景先验融合特征图

在视频帧I^(t)的前景先验融合特征图

中生成锚框；将视频帧I^(t)的前景先验融合特征图

本发明的效果可通过以下仿真进一步说明：

1.仿真条件

使用配有RTX 2080TI显卡的工作站，软件框架为PyTorch。

选用目标为船，尺度差别较大的视频序列作为第一组被检测的视频序列，如图2所示；

选用目标为狗，姿态差异大的视频序列作为第二组被检测的视频序列，如图3所示；

选用目标为大象和汽车两种目标，存在物体遮挡的视频序列作为第三组被检测的视频序列，如图4所示。

2.仿真内容

仿真1，用本发明的方法对第一组被检测的视频序列进行视频目标检测，得到的其中两帧的检测结果，如图2所示。

仿真2，用本发明的方法对第二组被检测的视频序列进行视频目标检测，得到的其中两帧的检测结果，如图3所示。

仿真3，用本发明的方法对第三组被检测的视频序列进行视频目标检测，得到的其中两帧的检测结果，如图4所示。

3.仿真结果分析

图2(a)是目标为船的视频序列的其中一帧检测结果，图2(b)是目标为船的视频序列的另外一帧检测结果，可以看出在目标尺寸差别较大的情况下，本发明能准确检测出视频中不同尺寸目标的类别和位置；图3(a)是目标为狗的视频序列其中一帧的检测结果，图3(b)是目标为狗的视频序列中另外一帧的检测结果，可以看出在画面较为模糊、姿态差异大的情况下，本发明能准确检测出视频中目标的类别和位置；图4(a)是目标包括大象和汽车的视频序列其中一帧的检测结果，图4(b)是目标包括大象和汽车的的视频序列中另外一帧的检测结果，可以看出在不同种类目标存在遮挡的情况下，尤其是图4(b)中左侧大象基本被完全遮挡时，本发明能准确检测出视频中被遮挡目标的类别和位置。

综上所述，本发明一种基于稀疏前景先验的视频目标检测方法，对存在不同尺度的目标，运动模糊及遮挡现象的视频序列均能有效检测出目标的类别和位置。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书保护范围之内。

Claims

1.基于稀疏前景先验的视频目标检测方法，其特征在于，包括以下步骤：

和前景语义增强特征

S4、将视频帧I^(t)的语义增强特征

和对应前景语义增强特征

进行融合，得到视频帧I^(t)的前景先验融合特征图

S5、在视频帧I^(t)的前景先验融合特征图

中生成锚框；

S6、将视频帧I^(t)的前景先验融合特征图

2.根据权利要求1所述的基于稀疏前景先验的视频目标检测方法，其特征在于，步骤S1中，将视频片段C_i内的每一帧图像I^(t)灰度化后转化为列向量，将这些列向量组合成二维矩阵X，根据目标函数计算得到视频片段C_i中所有帧的稀疏前景先验E，再将E按列拆分，还原得到每一帧I^(t)的对应稀疏前景图E^(t)，目标函数计算如下：