CN112036300B

CN112036300B - 一种基于多尺度时空传播层的运动目标检测方法

Info

Publication number: CN112036300B
Application number: CN202010895232.3A
Authority: CN
Inventors: 杨依忠; 阮嘉濠; 党政; 解光军; 程心; 张章
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-08-05
Anticipated expiration: 2040-08-31
Also published as: CN112036300A

Abstract

本发明公开了一种基于多尺度时空传播层的运动目标检测方法，其步骤如下：1获取具有像素级标签的视频数据集；2构建搭载多尺度时空传播层的网络模型；3训练多尺度时空传播层的网络模型；4利用训练好的模型进行预测，以确认其性能能达到运动目标检测的要求。本发明能为解决现有的运动目标检测对时空特征提取方法的单一、鲁棒性差、只注重局部信息等问题，从而能快速准确检测在不同挑战场景下的前景目标，并加强对前景检测的效果，进而为运动目标检测提供了一种新的解决方法。

Description

一种基于多尺度时空传播层的运动目标检测方法

技术领域

本发明应用于计算机视觉技术领域，是一种基于多尺度时空传播层的运动目标检测方法。

背景技术

运动目标检测是一种二分类任务，把视频的每一帧图像的每个像素点分为前景或背景。它是视觉应用的基础，在交通分析、拥挤度分析、物体追踪、自动驾驶和异常情况检测等视频监测任务中都起到十分重要的作用。运动目标检测需要克服多种不同噪声对视频的影响，如光线差异、动态背景、物体阴影、相机抖动、物体不规则运动等。目前，运动目标检测算法主要分成两类，一类是对背景进行建模的传统算法，另一类则是利用神经网络自主学习进行前景识别的深度学习算法。

传统算法常对视频背景进行建模以实现运动目标检测。通常会通过利用如颜色、像素点强度、梯度、历史像素点分布等低级特征对背景模型进行更新与维护。然而，由于低级特征易受到噪声影响，因此传统算法只适用于简单场景。另外，传统算法通常依赖人工调优，需要人为的持续干预以保证效果，因此无法具有较好的泛用性。

凭借深度学习对高级特征强大的提取能力与其较少人工干预的特性，基于深度学习的运动目标检测的鲁棒性通常更高，效果更好。且基于深度学习的算法可实现端对端的效果，因此不需要后续的建模过程与后处理。但是，目前基于深度学习的运动目标检测大都依赖神经网络已有的网络层，对时间特征提取手段较为单一，缺乏灵活性。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于多尺度时空传播层的运动目标检测方法，以期能为解决现有的运动目标检测对时空特征提取方法的单一、鲁棒性差、只注重局部信息等问题，从而能快速准确检测在不同挑战场景下的前景目标，并加强对前景检测的效果，进而为运动目标检测提供了一种新的解决方法。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于多尺度时空传播层的运动目标检测方法的特点包括如下步骤：

步骤1、获取视频数据集以及像素级标签；

步骤1.1、选取带有像素级标签的视频图像数据，并分成N段多帧的短视频序列，并对N段多帧的短视频序列中所有像素点进行归一化，得到归一化后的训练样本集，记为S＝{S₁,S₂,...,S_o,...,S_N},S_o表示第o段归一化后的短视频序列，且S_o＝{F_o1,F_o2,...,F_on}，F_on为第i段归一化后的短视频序列中第n帧图像；o∈[1,N]；

步骤2、建立搭载多尺度时空传播层的网络模型，所述网络模型由空间特征提取模块、时空特征融合模块、特征解码模块以及一个类Unet模型组成；

步骤2.1、初始化权重值：对网络模型的卷积层及BatchNormalization层进行参数初始化；

步骤2.2、所述空间特征提取模块由VGG模型的前13层，且每层各连接一个BatchNormalization层所组成；

依次输入第i段归一化后的短视频序列S_o中的图像，并自经过所述空间特征提取模块分别得到分辨率为输入短视频序列S_o的1/2的第一空间尺度时空体H¹＝{h₁ ¹,h₂ ¹,...,h_n ¹}，分辨率为输入短视频序列S_o的1/4的第二空间尺度时空体H²＝{h₁ ²,h₂ ²,...,h_n ²}，分辨率为输入短视频序列S_o的1/8的第三空间尺度时空体H³＝{h₁ ³,h₂ ³,...,h_n ³}；其中，h_n ¹表示输入视频序列S_o中第n帧对应的第一空间尺度特征图，h_n ²表示输入视频序列S_o中第n帧对应的第二空间尺度特征图，h_n ³表示输入视频序列S_o中第n帧对应的第三空间尺度特征图；

步骤2.3、将所述第o段归一化后的短视频序列S_o中的中间帧图像F_mid作为所述类Unet模型的输入，经过所述类Unet模型的处理后，输出所述时空特征融合模块的参数矩阵W＝{W₁,W₂,...,W_z,...,W_M}；W_z表示第z个子矩阵；1＜z≤M；

步骤2.4、所述时空特征融合模块根据所述类Unet模型提供的参数矩阵W，分别对空间特征提取模块所构建的三个时空体H¹、H²、和H³进行时空特征融合，相应得到的融合后的第一时空体R¹，融合后的第二时空体R²和到融合后的时空体R³；

步骤2.4.1、记任意融合后的第q个时空体为R^q，q＝1,2,3，记第q个时空体R^q的宽度为U，高度为M，时间维度为T；将第q个时空体R^q在宽度U上分成若干片，其中第S个分片记为

将第S个分片

中第i行第j帧的时空点记为

并利用式(1)得到融合后的第q个时空体R^q在宽度U上第S个分片

中第i行第j帧的时空点

式(1)中，

表示第q个时空体H^q在宽度U上第S个分片中第i行第j帧的时空点；w_i(j,j+m)表示第i个子矩阵W_i中第j行第j+m列的参数；

表示融合后的第q个时空体R^q宽度U上第S个分片

中第i-1行第j+m帧的时空点；λ_i(j,j)表示与第i个子矩阵W_i中第j行所对应的归一化限定参数，并有：

步骤2.4.2、根据步骤2.4.1的过程，分别得到第q个时空体R^q在宽度U上、高度M和时间维度T上每个分片中的每个时空点；

步骤2.4.3、把融合后的第一时空体R¹，融合后的第二时空体R²和到融合后的时空体R³按照时间维度划分n片，从而得到划分后的第一时空体R¹＝{r₁ ¹,r₂ ¹,...,r_n ¹}，第一时空体R²＝{r₁ ²,r₂ ²,...,r_n ²}，第一时空体R³＝{r₁ ³,r₂ ³,...,r_n ³}；其中，r_n ¹表示第一时空体R¹的第n个特征片，r_n ²表示第二时空体R²的第n个特征片，r_n ³表示第三时空体R³的第n个特征片；

步骤2.5、所述特征解码模块将融合后的第三空间尺度时空体R³中的第(1+n)/2片特征片r³ _(1+n)/2经过反卷积层放大至其分辨率的两倍处理后，再与融合后的第二空间尺度时空体R²中的第(1+n)/2片特征片r² _(1+n)/2相加，得到第一融合特征，然后经过另一个反卷积层的放大至当前分辨率的两倍处理后，再与融合后的第一空间尺度时空体R¹中的第(1+n)/2特征片r¹ _(1+n)/2相加，得到第二融合特征，并经过一个输出通道数为2的卷积层后输出最终的特征图；最后对最终的特征图输入激活层中，从而得到概率图P；

步骤3、权值的更新：

建立概率图P与像素级标签之间的损失函数FL(p)，再使用自适应优化算法以固定的学习率更新多尺度时空传播层的网络模型里的每一个权值，使得所述损失函数FL(p)趋于稳定，从而得到训练好的网络模型；

步骤4、利用训练好的网络模型对任一短视频序列进行预测，得到对应短视频序列的前景概率图；

设置一阈值，并对所述前景目标概率图进行二值化分割，将分割后的概率图中概率值小于阈值的像素点设置为背景像素点，大于或等于阈值的像素点设置成前景像素点，从而得到最终分割结果。

与现有技术相比，本发明的有益效果在于：

1、本发明通过类Unet网络所生成的参数，构建四个方向异性的关联矩阵，并以迭代的方式模拟关联矩阵与输入特征向量时间体的相乘，从而能有效地提取半全局时空信息，因此不必加入更多的卷积层以增大视野域，进而加强了其提取效率与准确度。

2、本发明打破了以往只能使用3d卷积层或卷积长短期记忆层提取时间特征的惯例，使用了三种不同尺度的时空传播层，提取不同尺度的时间体的半全局时空信息，这意味着该时空传播层不受尺寸影响，可用作端对端训练，使得本网络层可准确分割出时空特征间的共性，有利于增加运动目标检测的鲁棒性与准确性。

3、本发明为深度学习体系中的对时空信息提取方式做出补充，并证明是有效且能融入深度学习体系。使得基于深度学习的运动目标检测有更多的时空特征提取手段，有利于增加网络结构的多样性，自由度，使检测效率增加。

4、本发明解决了现有监督算法对时间特征提取手段较少的缺点，提出一种可用于对时空特征进行提取的多尺度时空传播层的网络模型，其对运动目标检测的速度和精确度优于3D卷积层和卷积长短期记忆层等常见算法，可精准检测不同尺寸、不同运动速率的运动目标，为实现快速高效的时间特征提取提供了一种新方案。

附图说明

图1为本发明的方法流程示意图；

图2为本发明多尺度时空神经网络的结构图；

图3为本发明时空传播层的传播过程图；

图4a为本发明测试集中部分短视频序列中中间帧的图像；

图4b为本发明测试集中部分短视频序列中中间帧的图像所对应的Ground truth图像；

图4c为本发明使用多尺度时空网络得到的二值化分割图像。

具体实施方式

本实施例中，一种基于多尺度时空传播层的运动目标检测方法，主要使用卷积神经网络和时空传播层提取视频序列中的多尺度时空特性，并融合多尺度时空特征图以生产前景概率图。如图1所示，具体步骤如下：

步骤1、获取视频数据集以及像素级标签；

步骤1.1、选取带有像素级标签的视频图像数据，并分成N段多帧的短视频序列，并对N段多帧的短视频序列中所有像素点进行归一化，得到归一化后的训练样本集，记为S＝{S₁,S₂,...,S_o,...,S_N},S_o表示第o段归一化后的短视频序列，且S_o＝{F_o1,F_o2,...,F_on}，F_on为第i段归一化后的短视频序列中第n帧图像，本实施例中，由于3帧连续帧已经足够描述时间连续性信息，n设置为3，使用公开的视频数据集CDnet2014。此数据集包含多种具有挑战性的场景，包含：动态背景，恶劣天气，低帧率视频，相机抖动，物体不规律运动，阴影影响；

步骤2、建立搭载多尺度时空传播层的网络模型，如图2所示，网络模型由空间特征提取模块、时空特征融合模块、特征解码模块以及一个类Unet模型组成；

步骤2.1、初始化权重值：本实施例的卷积层均采取何凯明初始化方法进行权值初始；Batch Normalization层的权值均置1，偏置值归0；

步骤2.2、空间特征提取模块由VGG模型的前13层，且每层各连接一个BatchNormalization层所组成，依次包含：一级卷积层1号、Batch Normalization层1号、一级池化层、二级卷积层1号、Batch Normalization层2号、二级卷积层2号、Batch Normalization层3号、二级池化层、三级卷积层1号、Batch Normalization层4号、三级卷积层2号、BatchNormalization层5号、三级卷积层3号、Batch Normalization层6号、三级池化层、四级卷积层1号、Batch Normalization层7号、四级卷积层2号、Batch Normalization层8号、四级卷积层3号、Batch Normalization层9号；

依次输入第i段归一化后的短视频序列S_o中的图像，并自经过空间特征提取模块分别得到分辨率为输入短视频序列S_o的1/2的第一空间尺度时空体H¹＝{h₁ ¹,h₂ ¹,...,h_n ¹}，分辨率为输入短视频序列S_o的1/4的第二空间尺度时空体H²＝{h₁ ²,h₂ ²,...,h_n ²}，分辨率为输入短视频序列S_o的1/8的第三空间尺度时空体H³＝{h₁ ³,h₂ ³,...,h_n ³}；其中，h_n ¹表示输入视频序列中第n帧对应的第一空间尺度特征图，h_n ²表示输入视频序列中第n帧对应的第二空间尺度特征图，h_n ³表示输入视频序列中第n帧对应的第三空间尺度特征图。本实施例中，n为3；

步骤2.3、将第o段归一化后的短视频序列S_o中的中间帧图像F_mid作为类Unet模型的输入，经过类Unet模型的处理后，输出时空特征融合模块的参数矩阵W＝{W₂,...,W_z,...,W_M}；W_z表示第z个子矩阵；1＜z≤M。类Unet模型依次由卷积层1号、Batch Normalization层1号、二级卷积层2号、Batch Normalization层2号、卷积层3号、Batch Normalization层3号、反卷积层1号、Batch Normalization层4号、反卷积层2号、Batch Normalization层5号、反卷积层3号、Batch Normalization层6号所组成；

步骤2.4、时空特征融合模块根据类Unet模型提供的参数矩阵W，分别对空间特征提取模块所构建的三个时空体H¹、H²、和H³进行时空特征融合，相应得到的融合后的第一时空体R¹，融合后的第二时空体R²和到融合后的时空体R³。直观的融合形式如图3所示，浅灰色像素点往深色像素点线性传播；

将第S个分片

中第i行第j帧的时空点记为

并利用式(3)得到融合后的第q个时空体R^q在宽度U上第S个分片

中第i行第j帧的时空点

式(3)中，

表示融合后的第q个时空体R^q宽度U上第S个分片

步骤2.4.2、根据步骤2.4.1，从而分别得到第q个时空体R^q在宽度U上、高度M和时间维度T上每个分片中的每个时空点；

步骤2.4.3、把融合后的第一时空体R¹，融合后的第二时空体R²和到融合后的时空体R³延时间维度划分3片，使得R¹＝{r₁ ¹,r₂ ¹,r₃ ¹}，R²＝{r₁ ²,r₂ ²,r₃ ²}，R³＝{r₁ ³,r₂ ³,r₃ ³}；其中，r_n ¹表示第一时空体R¹的第n个特征片，r_n ²表示第二时空体R²的第n个特征片，r_n ³表示第三时空体R³的第n个特征片；

步骤2.5、特征解码模块将融合后的第三空间尺度时空体R³中的第2片特征片r³ ₂经过反卷积层放大至其分辨率的两倍处理后，再与融合后的第二空间尺度时空体R²中的第2片特征片r² ₂相加，得到第一融合特征，然后经过另一个反卷积层的放大至当前分辨率的两倍处理后，再与融合后的第一空间尺度时空体R¹中的第2片特征片r¹ ₂相加，得到第二融合特征，并经过一个输出通道数为2的卷积层后输出最终的特征图；最后对最终的特征图输入激活层sigmoid层中，从而得到概率图P，本例中反卷积层尺寸均为4*4；输出通道数为2的卷积层尺寸为3*3；

步骤3、权值的更新：采用式(6)以计算概率图P与像素级标签y之间的损失函数FL(p)，使用自适应优化算法adam以固定的学习率0.01更新网络里的每一个权值，待损失函数FL(p)所得值趋于稳定时，停止训练；

式(6)中，i用以区分背景和前景目标，当i＝0为背景，当i＝1为前景；p₀表示概率图中像素点为背景的概率，p₁表示概率图中像素点为前景的概率，y₀表示标签图中像素点为背景的概率，y₁表示标签图中像素点为前景的概率，α_i表示事前设置好的权重因子；γ表示可调的焦距参，由于概率图和标签的参数均为0到1之间，本实施例中，α₀为0.25，α₁为0.75，γ为2；

设置一阈值，并对前景目标概率图进行二值化分割，将分割后的概率图中概率值小于阈值的像素点设置为背景像素点，大于或等于阈值的像素点设置成前景像素点，从而得到最终分割结果。

本实施例中设置阈值为0.6。图4b为图4a的标签图像，如结果图4c所示，本发明所预测出的分割结果，与图4b相比较，十分接近，没有丢失过多细节。

Claims

1.一种基于多尺度时空传播层的运动目标检测方法，其特征包括如下步骤：

步骤1、获取视频数据集以及像素级标签；

步骤1.1、选取带有像素级标签的视频图像数据，并分成N段多帧的短视频序列，并对N段多帧的短视频序列中所有像素点进行归一化，得到归一化后的训练样本集，记为S＝{S₁,S₂,...,S_o,...,S_N},S_o表示第o段归一化后的短视频序列，且S_o＝{F_o1,F_o2,...,F_on}，F_on为第o段归一化后的短视频序列中第n帧图像；o∈[1,N]；

依次输入第o段归一化后的短视频序列S_o中的图像，并自经过所述空间特征提取模块分别得到分辨率为输入短视频序列S_o的1/2的第一空间尺度时空体H¹＝{h₁ ¹,h₂ ¹,...,h_n ¹}，分辨率为输入短视频序列S_o的1/4的第二空间尺度时空体H²＝{h₁ ²,h₂ ²,...,h_n ²}，分辨率为输入短视频序列S_o的1/8的第三空间尺度时空体H³＝{h₁ ³,h₂ ³,...,h_n ³}；其中，h_n ¹表示输入视频序列S_o中第n帧对应的第一空间尺度特征图，h_n ²表示输入视频序列S_o中第n帧对应的第二空间尺度特征图，h_n ³表示输入视频序列S_o中第n帧对应的第三空间尺度特征图；

步骤2.3、将所述第o段归一化后的短视频序列S_o中的中间帧图像F_mid作为所述类Unet模型的输入，经过所述类Unet模型的处理后，输出所述时空特征融合模块的参数矩阵W＝{W₁,W₂,...,W_z,...,W_M′}；W_z表示第z个子矩阵；1＜z≤M′；

步骤2.4、所述时空特征融合模块根据所述类Unet模型提供的参数矩阵W，分别对空间特征提取模块所构建的三个时空体H¹、H²、和H³进行时空特征融合，相应得到的融合后的第一时空体R¹，融合后的第二时空体R²和融合后的第三时空体R³；

将第S个分片

中第i行第j帧的时空点记为

并利用式(1)得到融合后的第q个时空体R^q在宽度U上第S个分片

中第i行第j帧的时空点

式(1)中，

表示融合后的第q个时空体R^q宽度U上第S个分片

步骤2.4.3、把融合后的第一时空体R¹，融合后的第二时空体R²和融合后的第三时空体R³按照时间维度划分n片，从而得到划分后的第一时空体R¹＝{r₁ ¹,r₂ ¹,...,r_n ¹}，第二时空体R²＝{r₁ ²,r₂ ²,...,r_n ²}，第三时空体R³＝{r₁ ³,r₂ ³,...,r_n ³}；其中，r_n ¹表示第一时空体R¹的第n个特征片，r_n ²表示第二时空体R²的第n个特征片，r_n ³表示第三时空体R³的第n个特征片；

步骤2.5、所述特征解码模块将融合后的第三时空体R³中的第(1+n)/2片特征片r³ _(1+n)/2经过反卷积层放大至其分辨率的两倍处理后，再与融合后的第二时空体R²中的第(1+n)/2片特征片r² _(1+n)/2相加，得到第一融合特征，然后经过另一个反卷积层的放大至当前分辨率的两倍处理后，再与融合后的第一时空体R¹中的第(1+n)/2特征片r¹ _(1+n)/2相加，得到第二融合特征，并经过一个输出通道数为2的卷积层后输出最终的特征图；最后对最终的特征图输入激活层中，从而得到概率图P；

步骤3、权值的更新：