CN107967695A

CN107967695A - 一种基于深度光流和形态学方法的运动目标检测方法

Info

Publication number: CN107967695A
Application number: CN201711422448.2A
Authority: CN
Inventors: 张弘; 张磊; 李军伟; 杨帆; 杨一帆
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-04-27
Anticipated expiration: 2037-12-25
Also published as: CN107967695B

Abstract

本发明公开了一种基于深度光流和形态学方法的运动目标检测方法，包括以下步骤：(1)收集视频数据，标注样本视频，并随机分成训练集和测试集，对已经处理好的训练集和测试集在做均值计算，形成训练集均值文件和测试集均值文件，完成对训练集和测试集的预处理；(2)构建全卷积神经网络架构，由编码和解码两部分构成，利用训练集和测试集，通过自适应学习率调整算法进行训练，得到训练好的模型参数；(3)将需要进行检测的图像数据输入到训练好的全卷积神经网络中，得到对应的深度光流图；(4)运用大津阈值自适应阈值分割方法处理得到的深度光流图；(5)对阈值分割后的数据进行形态学处理，去除孤立点和缝隙，最终得到检测到的运动目标区域。

Description

一种基于深度光流和形态学方法的运动目标检测方法

技术领域

本发明涉及视频图像处理领域，具体涉及一种运动目标检测的方法。

背景技术

运动目标检测是视频图像处理领域的关键技术。运动目标检测就是通过一定的方法将视频或图像序列中的运动目标和背景区分开，从而达到从视频或图像序列中提取出运动目标的目的。运动目标检测在军事目标检测跟踪、智能人机交互、智能交通以及机器人中得到了广泛地应用。

根据相机的运动与否，可以将运动目标检测的情景分成：相机静止的情况和相机是运动的情况两种。相机静止的情况，即在图像的背景是不运动的；而在相机运动的情况中，一般相机是固定在伺服***中或者某些运动的，如汽车或飞机等工具上，此时图像的背景会发生运动。目前常用的运动目标检测有三种方法：帧差法、背景相减法以及光流法。帧差法是指将相邻的几帧的图像相减，从而得到运动区域。此算法简单，实时性强，自适应性强，但易出现“双影”和“空洞”，并且对于相机快速运动的场景或出现运动模糊的场景，效果很差。背景相减法是将当前帧图像与一帧没有移动目标的背景相减，从而得到运动目标区域，此种情况下，没有移动目标的背景图像是预先存储好的。这种算法简单，实时性强，尤其适用于背景固定的场景，能获得较完整的特征数据，但易受光线、天气等外界条件变化的影响。帧差法和背景相减法被广泛应用于相机是静止的情况中，尤其是监控***等。但是对于相机是运动的情况下，此两种方法的效果很难令人满意。光流法主要通过对序列图像光流场的分析，计算出运动场后，对场景进行分割，从而检测出运动目标。简单来说，是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。传统的光流法通过搜索相邻帧中和当前像素的匹配点进行匹配，有一定的计算量。由于背景的运动场和运动目标的运动场有所区别，从而根据这种差异把运动目标提取出来。该方法的检测精度相对较高，并且也试用于相机运动的情况。但此种方法对噪声比较敏感、抗噪声性能差并且提取的运动目标边缘也极容易模糊不清或不完整。

近些年来，一些研究人员将深度学习应用到静态图像的目标检测上，得到了较好的效果。例如2016年被提出的SSD算法和Faster-RCNN算法，分别大大提高了静态图像的目标的检测的速度和精度。此类方法一般先选出可能是目标的区域，然后依次对其分类。虽然此类方法对静态图像的目标精度较高，但是忽略了目标与背景的运动信息，无法保持目标运动的一致性，并不适合直接应用于运动目标检测的应用场景中。

专利《一种基于深度学习的运动目标检测方法》(公开号：CN107123131)也提出了一种基于深度学习的方法。然而该方法中，需要实现存储应用场景的背景图片，这就限制了其应用场景。并且其运动区域提取部分仍应用直方图等低级特征，如果运动区域提取的并不可靠，则会直接限制了算法的表现性能。最终的判断是否为目标的部分应用了深度学习的方法，而此时的目标检测已经完全忽略了目标与背景的运动信息，同样也无法保持目标运动的一致性。

发明内容

本发明要解决的技术问题：克服现有技术的检测精度低，检测目标形状不完整的问题，提供一种基于深度光流的运动目标检测方法，采用深度学习的方法学习得出运动光流，然后用形态学方法优化检测结果，从而提高运动目标检测的精度和鲁棒性。

本发明技术解决方案：一种基于深度光流和形态学方法的运动目标检测方法，采用深度学习中的全卷积神经网络的方法来提取深度光流特征，然后结合该特征进行运动目标有效检测的方法。全卷积网络由编码和解码两部分构成。其中编码部分负责提出深层光流特征，解码部分负责对提取到的特征进一步细化提高空间精度。在使用中，先将图像输入到全卷积网络中提出深度光流特征，这样可以得到目标和背景的所有运动信息。然后利用自适应阈值分割方法进行处理，最后利用形态学算法对结果进行细化处理，舍弃结果中面积较小的部分。

本发明包括以下步骤：

(1)将标注好的视频图像帧序列，划分训练集和测试集，并对训练集和测试集进行预处理；

(2)构建卷积神经网络，利用训练集处理得到的深度光流图，通过自适应学习率调整算法对所述卷积神经网络进行训练，得到训练好的卷积神经网络的模型参数；

(3)将待检测的视频图像输入到训练好的卷积神经网络中，得到深度光流图；

(4)采用自适应阈值分割方法处理深度光流图，得到处理后的深度光流图；

(5)对处理后的深度光流图进行形态学处理，检测得到运动目标区域。

所述步骤(2)中，卷积神经网络由20层构成，分为编码和解码两部分，其中编码部分由第1～11层组成，负责提取深层光流图的特征，解码部分由第12～20层组成，负责对提取的特征进一步细化提高空间精度，得到鲁棒的并且精细的深度光流图，提高运动目标检测的精度。

所述编码部分由第一层的输入层，第二、四、六、八、十层的卷积层和第三、五、七、九、十一层的下采样层组成。

所述解码部分由第十二、十四、十六、十八层的卷积层，第十三、十五、十七层的下采样层和第十九、二十层的输出层组成。

所述卷积神经网络的编码部分具体包括如下：

(1)第一层为输入层，负责对输入图像去均值，送入第二层；

(2)第二层为卷积层，使用卷积核，激活函数为Relu函数，输出多个特征图，送入第三层；

(3)第三层为下采样层，将上一层输出的每个特征图经过一个下采样进行降维，之后输入到第四层；

(4)第四层为卷积层，使用与第二层双倍的卷积核，激活函数为Relu函数，输出特征图，送入第五层；

(5)第五层为下采样层，将上一层输出的每个特征图经过下采样进行降维，之后输入到第六层；

(6)第六层为卷积层，使用与第四层双倍个卷积核，激活函数为Relu函数，输出特征图，送入第七层；

(7)第七层为下采样层，将上一层输出的每个特征图经过下采样进行降维，之后输入到第八层；

(8)第八层为卷积层，使用与第六层相同个卷积核，激活函数为Relu函数，输出特征图，送入第九层；

(9)第九层为下采样层，将上一层输出的每个特征图经过下采样进行降维，之后输入到第十层；

(10)第十层为卷积层，使用与第八层相同个卷积核，激活函数为Relu函数，输出特征图，送入第十一层；

(11)第十一层为下采样层，将上一层输出的每个特征图经过下采样进行降维，之后输入到第十二层；

卷积神经网络的解码部分具体包括如下：

(1)第十二层为卷积层，使用与所述第八层相同的卷积核，激活函数为Relu函数，输出特征图，送入第十三层；

(2)第十三层为上采样层，将上一层输出的每个特征图经过一个上采样进行升维，将升维后的特征图输入到第十四层；

(3)第十四层为卷积层，使用与第十二层相同的卷积核，激活函数为Relu函数，输出特征图，送入第十五层；

(4)第十五层为上采样层，将上一层输出的每个特征图经过一个上采样进行升维，将升维后的特征图输入到第十六层；

(5)第十六层为卷积层，使用与第十四层双倍的卷积核，激活函数为Relu函数，输出特征图，送入第十七层；

(6)第十七层为上采样层，将上一层输出的每个特征图经过一个上采样进行升维，将升维后的特征图输入到第十八层；

(7)第十八层为卷积层，使用2个卷积核，激活函数为Relu函数，输出2个特征图，送入第十九层；

(8)第十九层为输出尺寸调整层，将根据输入图像尺寸对上一层输出的分辨率进行调整；

(9)第二十层为输出光流调整层，将根据输入图像尺寸对光流的数据进行一定的比例调整。

所述步骤(1)中，自适应学习率调整算法采用带mini-batch的随机梯度下降法，采用损失函数为二阶均方差函数：

其中，M和N分别为输入图像的长和宽，代表计算得出的光流值，表示光流的真值，||.||₂表示二范数。

所述步骤(4)中，自适应阈值分割方法采用大津阈值分割方法，具体如下：

对于大小为M×N待分割图像,p₀和p₁分别是一个像素可能属于前景或背景的概率,

则有：

p₀＝W₀/(M×N) (1)

p₁＝W₁/(M×N) (2)

W₀+W₁＝M×N (3)

其中，W₀和W₁分别为这两类的各自的像素个数。

又因为：

p₀+p₁＝1 (4)

u＝p₀u₀+p₁u₁ (5)

其中，u₀和u₁分别为这两类的各自的平均值；

两类的类间方差g表示如下：

g＝p₀(u₀-u)²+p₁(u₁-u)² (6)

其中u为图像的总平均灰度。

将式(5)代入式(6),经过化简可得到：

g＝p₀p₁(u₀-u₁)² (7)

大津阈值的算法是求可以使得类间方差最大的阈值的算法。遍历所有灰阶的值，得到使类间方差最大的阈值T,即为所求。

所述步骤(5)中，形态学处理具体过程包括：(1)膨胀处理与腐蚀处理；(2)去除孤立点和缝隙。

所述步骤(1)预处理为：对已经处理好的训练集和测试集在做均值计算，形成训练集均值文件和测试集均值文件，完成对训练集和测试集的预处理。

本发明与现有技术相比的优点在于：

(1)本发明提出了一种采用深度学习当中的卷积神经网络来提取深度光流，结合形态学方法对运动目标检测的方法，这种卷积神经网络能准确的提取到目标的运动信息，真实的运动目标和背景不同的独特信息，克服了采用图像处理技术对运动目标进行处理的现有技术的算法比较单一，没有充分利用运动目标的数据信息来与当前比较流行的图像处理和模式识别技术进行很好的结合，导致提取的光流信息效果差；

(2)本发明的卷积网络分为编码和解码两个部分。编码部分负责提出深层光流特征，“解码”部分负责对提取到的特征进一步细化提高空间精度。

(3)不同于利用卷积网络检测目标的方法。本发明利用卷积网络得到相比于传统的光流更加精确，鲁棒的光流结果。在得到目标以及背景的深度光流特征后，可以得到精确到像素级别的运动检测结果。

(4)本发明在输入图像的不同条件下光流计算效果好，对运动目标检测鲁棒性好，学习能力较强，具有相当的可行性和实用价值。

附图说明

图1为本发明方法的流程示意图；

图2为本发明方法的在视频中的效果图，a为视频中的原图，b为本发明在视频中的深度光流效果图，c为本发明的在视频中的检测结果图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

本发明中运动目标检测模型构想的实现和验证，是以GPU(GTX1080)作为计算平台，采用GPU并行计算框架，选取Caffe作为CNN(卷积网络)框架。

如图1所示，本发明步骤为：(1)收集视频数据，标注样本视频，并随机分成训练集和测试集，对已经处理好的训练集和测试集在做均值计算，形成训练集均值文件和测试集均值文件，完成对训练集和测试集的预处理；(2)构建全卷积神经网络架构，由编码和解码两部分构成，利用训练集和测试集，通过自适应学习率调整算法进行训练，得到训练好的模型参数；(3)将需要进行检测的图像数据输入到训练好的全卷积神经网络中，得到对应的深度光流图；(4)运用大津阈值自适应阈值分割方法处理得到的深度光流图；(5)对阈值分割后的数据进行形态学处理，去除孤立点和缝隙，最终得到检测到的运动目标区域。

具体实现步骤如下：

步骤1：视频数据的预处理

本发明需要的视频数据需要以“一帧一图”的形式进行拆分和保存，并要求每帧图片的尺寸必须一致。当前有许多开放的视频数据集供选择，根据具体任务选择一种或多种。其次要对数据集中的每一帧进行光流计算，获得每帧图片对应光流图，整理并保存形成光流图数据集。随机分成训练集和测试集。训练集用来对卷积神经网络中的参数进行训练；测试集合用来在训练过程中对参数进行交叉验证，以防止训练过程中过拟合的情况出现。对已经处理好的训练集和测试集在做均值计算，形成训练集均值文件和测试集均值文件，至此完成对训练集和测试集的预处理；

步骤2：构建卷积神经网络，卷积神经网络由编码和解码两部分组成。编码部分主要包括卷积层和最大池化层组成，负责提取光流特征并进行下采样处理；解码部分由上采样层和卷积层组成，负责上采样并细化光流特征；输出层负责把图像缩放到原来输入的分辨率尺度，并将计算得到的光流值配合分辨率变化进行调整。

编码具体的构建方法为：

第一层为输入层，负责对输入图像去均值，并调整尺寸到384×512，得到相邻两帧图像后，送入第二层；

第二层为卷积层，使用64个卷积核，卷积核窗口大小为7×7，步长为1，扩展为3，激活函数为Relu函数，输出64个特征图，送入第三层；

第三层为下采样层，将上一层输出的每个特征图经过一个2×2的最大池化下采样进行降维，步长为2个像素，之后输入到第四层；

第四层为卷积层，使用128个卷积核，卷积核窗口大小为5×5，步长为1，扩展为2，激活函数为Relu函数，输出128个特征图，送入第五层；

第五层为下采样层，将上一层输出的每个特征图经过一个2×2的最大池化下采样进行降维，步长为2个像素，之后输入到第六层；

第六层为卷积层，使用256个卷积核，卷积核窗口为3×3个像素，步长为1，扩展为1，激活函数为Relu函数，输出256个特征图，送入第七层；

第七层为下采样层，将上一层输出的每个特征图经过一个2×2的最大池化下采样进行降维，步长为2个像素，之后输入到第八层；

第八层为卷积层，使用256个卷积核，卷积核窗口为3×3个像素，步长为1，扩展为1，激活函数为Relu函数，输出256个特征图，送入第九层；

第九层为下采样层，将上一层输出的每个特征图经过一个2×2的最大池化下采样进行降维，步长为2个像素，之后输入到第十层；；

第十层为卷积层，使用256个卷积核，卷积核窗口为3×3个像素，步长为1，扩展为1，激活函数为Relu函数，输出256个特征图，送入第十一层；

第十一层为下采样层，将上一层输出的每个特征图经过一个2×2的最大池化下采样进行降维，步长为2个像素，之后输入到第十二层；

解码部分从第十二层开始。具体的构建方法为：

第十二层为卷积层，使用256个卷积核，卷积核窗口为3×3个像素，步长为1，扩展为1，激活函数为Relu函数，输出256个特征图，送入第十三层；

第十三层为上采样层，将上一层输出的每个特征图经过一个上采样进行升维，核窗口大小为2×2个像素，扩展为2个像素，将升维后的特征图输入到第十四层；

第十四层为卷积层，使用256个卷积核，卷积核窗口为3×3个像素，步长为1，扩展为1，激活函数为Relu函数，输出256个特征图，送入第十五层；

第十五层为上采样层，将上一层输出的每个特征图经过一个上采样进行升维，核窗口大小为2×2个像素，扩展为2个像素，将升维后的特征图输入到第十六层；

第十六层为卷积层，使用512个卷积核，卷积核窗口为3×3个像素，步长为1，扩展为1，激活函数为Relu函数，输出512个特征图，送入第十七层；

第十七层为上采样层，将上一层输出的每个特征图经过一个上采样进行升维，核窗口大小为2×2个像素，扩展为2个像素，将升维后的特征图输入到第十八层；

第十八层为卷积层，使用2个卷积核，卷积核窗口为1×1个像素，步长为1，扩展为0，激活函数为Relu函数，输出2个特征图，送入第十九层；

第十九层为输出尺寸调整层，将根据输入图像尺寸对上一层输出的分辨率进行调整；

第二十层为输出光流调整层，将根据输入图像尺寸对光流的数据进行一定的比例调整。

步骤3：将训练数据输入到卷积神经网络中进行训练，损失函数为二阶均方差函数：

其中，M和N分别为输入图像的长和宽，代表计算得出的光流值，表示光流的真值，||.||₂表示二范数。优化算法为带mini-batch的随机梯度下降法；

步骤4：将得到的光流图，运用大津阈值对其进行阈值分割；

对于大小为M×N待分割图像,p₀和p₁分别是一个像素可能属于前景或背景的概率。

则有：

p₀＝W₀/(M×N) (1)

p₁＝W₁/(M×N) (2)

W₀+W₁＝M×N (3)

其中，W₀和W₁分别为这两类的各自的像素个数。

又因为：

p₀+p₁＝1 (4)

u＝p₀u₀+p₁u₁ (5)

其中，u₀和u₁分别为这两类的各自的平均值。

两类的类间方差g表示如下：

g＝p₀(u₀-u)²+p₁(u₁-u)² (6)

其中u为图像的总平均灰度。

将式(5)代入式(6),经过化简可得到：

g＝p₀p₁(u₀-u₁)² (7)

步骤5：步骤4的结果进行形态学处理，去除孤立点和缝隙，先膨胀处理，膨胀处理的定义为：

其中A为输入图像，B为模板，∪为并操作，∈为属于,b为B中的元素。膨胀系数为8个像素，然后在进行腐蚀处理：

其中A为输入图像，B为模板，AΘB表示将B平移x但仍包含在A内的所有的点x组成。保留的连通域的最小值为80个像素,得到检测的运动目标。

上述本发明实施例中，GPU、Relu激活函数是本技术领域公知的。

如图2所示，a为输入视频中的原始图像，其中视频中的人做跳跃运动，b为输入图像经过本发明中的深度光流网络处理后的深度光流效果图，c为经过本发明方法的最终检测结果图。经过本发明中的方法的处理，深度光流效果图已经根据运动信息成功的标记出了背景和前景，并且并没有收到图像中复杂纹理的影响，前景和背景区域平滑且相对一致。最终的分割结果中，成功的提取出了视频中的运动目标以及目标的形状信息，分割结果形状完整并且没有出现传统光流方法经常会出现的空洞区域。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于深度光流和形态学方法的运动目标检测方法，其特征在于：步骤如下：

2.根据权利要求1所述的基于深度光流和形态学方法的运动目标检测方法，其特征在于：所述步骤(2)中，卷积神经网络由20层构成，分为编码和解码两部分，其中编码部分由第1～11层组成，负责提取深层光流图的特征，解码部分由第12～20层组成，负责对提取的特征进一步细化提高空间精度，得到鲁棒的并且精细的深度光流图，提高运动目标检测的精度。

3.根据权利要求2所述的基于深度光流和形态学方法的运动目标检测方法，其特征在于：所述编码部分由第一层的输入层，第二、四、六、八、十层的卷积层和第三、五、七、九、十一层的下采样层组成。

4.根据权利要求2所述的基于深度光流和形态学方法的运动目标检测方法，其特征在于：所述解码部分由第十二、十四、十六、十八层的卷积层，第十三、十五、十七层的下采样层和第十九、二十层的输出层组成。

5.根据权利要求3所述的基于深度光流和形态学方法的运动目标检测方法，其特征在于：所述卷积神经网络的编码部分具体包括如下：

(1)第一层为输入层，负责对输入图像去均值，送入第二层；

(11)第十一层为下采样层，将上一层输出的每个特征图经过下采样进行降维，之后输入到第十二层。

6.根据权利要求4所述的基于深度光流和形态学方法的运动目标检测方法，其特征在于：卷积神经网络的解码部分具体包括如下：

7.根据权利要求1所述的基于深度光流和形态学方法的运动目标检测方法，其特征在于：所述步骤(2)中，构建卷积神经网络时，把卷积训练网络看作最优化求解问题，得到损失函数最小的一组作为模型参数，所述损失函数为二阶均方差函数：

其中，M和N分别为输入图像的长和宽，代表计算得出的光流值，表示光流的真值，||·||₂表示二范数，求解的方法为随机梯度下降法。

8.根据权利要求1所述的基于深度光流和形态学方法的运动目标检测方法，其特征在于：所述步骤(4)中，自适应阈值分割方法采用大津阈值分割方法如下：

则有：

p₀＝W₀/(M×N) (1)

p₁＝W₁/(M×N) (2)

W₀+W₁＝M×N (3)

其中，W₀和W₁分别为这两类的各自的像素个数。

又因为：

p₀+p₁＝1 (4)

u＝p₀u₀+p₁u₁ (5)

其中，u₀和u₁分别为这两类的各自的平均值；

两类的类间方差g表示如下：

g＝p₀(u₀-u)²+p₁(u₁-u)² (6)

其中u为图像的总平均灰度；

将式(5)代入式(6),经过化简可得到：

g＝p₀p₁(u₀-u₁)² (7)

9.根据权利要求1所述的基于深度光流和形态学方法的运动目标检测方法，其特征在于：所述步骤(5)中，形态学处理具体过程包括：(1)膨胀处理与腐蚀处理；(2)去除孤立点和缝隙。

10.根据权利要求1所述的基于深度光流和形态学方法的运动目标检测方法，其特征在于：所述步骤(1)预处理为：对已经处理好的训练集和测试集在做均值计算，形成训练集均值文件和测试集均值文件，完成对训练集和测试集的预处理。