CN113689472A

CN113689472A - 一种运动目标检测方法、装置及应用

Info

Publication number: CN113689472A
Application number: CN202111244922.3A
Authority: CN
Inventors: 朱淑敏; 王国梁; 毛云青; 葛俊; 金仁杰
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2021-11-23

Abstract

本申请提出了一种运动目标检测方法、装置及应用，利用改进的轻量级目标检测模型检测可疑目标，利用改进的混合高斯模型获取前景目标，求取前景目标和可疑目标的集合以最终得到运动目标的技术方案，在实现时，通过将监控视频输入改进的轻量级目标检测模型中输出可疑目标集合，将监控视频输入混合高斯模型中获取前景目标集合，遍历所述前景目标集合中的前景目标和所述可疑目标集合中的可疑目标的重叠率，选择重叠率高的可疑目标作为运动目标，并可针对运动目标再做后续的处理。

Description

一种运动目标检测方法、装置及应用

技术领域

本申请涉及目标检测领域，特别是涉及一种运动目标检测方法、装置及应用。

背景技术

运动目标检测指的是利用目标检测技术从视频图像中提取到运动目标并获取运动目标的特征信息，由于运动目标只有在连续的图像序列中才能体现出来运动的特征，故在检测时也需要在连续的图像序列中寻找运动目标和背景目标的差异特征，才能准确地获取运动目标。

运动目标检测技术在实际生活中有着非常广泛的应用，特别的，在城管领域运动目标检测可替代人工完成很多违规事件的检测，比如运动目标检测技术可被应用于检测路面上行驶的非机动车。目前运动目标检测的常见做法有：连续帧间差分法，利用不同帧对应的像素点相减的灰度差进行运动目标的判断，然而该方案难以检测到细微变动的运动目标，导致运动目标检测结果失真；背景差分法，通过输入图像和背景图像进行比较进而分割出运动目标，然而该方案对背景图像检测的要求较高，需要排除光线、飘动的云朵等的客观因素的影响。另外，由于运动目标检测方法需要对多帧连续图像均进行处理和运算，进而导致模型的检测和训练压力都很大，并且存在检测效率低下的问题。

发明内容

本申请实施例提供了一种运动目标检测方法、装置及应用，利用改进的轻量级目标检测模型结合改进的混合高斯模型，精准且快速地识别运动目标，在提高运动目标检测速度的同时提高运动目标的识别精度。

第一方面，本申请实施例提供了一种运动目标检测方法，所述方法包括：获取连续多帧视频图像以及背景均值，其中所述背景均值为对应所述视频图像所在场景的背景像素均值；将每帧所述视频图像输入第一目标检测模型的特征提取层中提取不同下采样倍数的至少两第一特征图，所述第一特征图输入特征融合层中互相融合得到至少两第二特征图；所述第二特征图输入检测头部中使用共享权重的同一组卷积进行预测，得到由至少一所述可疑目标组成的可疑目标集合；将所述连续多帧视频图像和所述背景均值进行比较处理，得到由至少一前景目标组成的前景目标集合，其中所述前景目标为所述连续多帧视频图像中相对背景处于运动状态的目标；获取所述可疑目标集合和所述前景目标集合中的交集，以得到由至少一运动目标组成的运动目标集合。

第二方面，本申请实施例提供了一种运动目标检测装置，包括：数据获取单元，用于获取连续多帧视频图像以及背景均值，其中所述背景均值为对应所述视频图像所在场景的背景像素均值；可疑目标获取单元，用于将将每帧所述视频图像输入第一目标检测模型的特征提取层中提取不同下采样倍数的至少两第一特征图，所述第一特征图输入特征融合层中互相融合得到至少两第二特征图；所述第二特征图输入检测头部中使用共享权重的同一组卷积进行预测，得到由至少一所述可疑目标组成的可疑目标集合；前景目标获取单元，用于将连续多帧视频图像和所述背景均值进行比较处理，得到由至少一前景目标组成的前景目标集合，其中所述前景目标为所述连续多帧视频图像中相对背景处于运动状态的物体；运动目标获取单元，用于获取所述可疑目标集合和所述前景目标集合中的交集，以得到由至少一运动目标组成的运动目标集合。

第三方面，本申请实施例提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一所述的运动目标检测方法。

第四方面，本申请实施例提供了一种计算机程序产品，包括软件代码部分，当所述计算机程序产品在计算机上被运行时，所述代码软件部分用于执行任一所述的运动目标检测方法。

第五方面，本申请实施例提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据上述所述的运动目标检测方法。

本发明的主要贡献和创新点如下：本方案利用改进的轻量级目标检测模型获取视频图像中所有的可疑目标，利用改进的混合高斯模型进行背景建模获取视频图像中的背景均值，基于背景均值获取所述视频图像中的前景目标，获取可疑目标和前景目标的重叠集合得到运动目标。本方案利用设定规格的图像训练轻量级目标检测模型，且优化改进轻量级目标检测模型的特征融合层以及卷积设置，极大程度地减少模型的计算量以提高运算速度,能实现视频下超过实时速度(FPS>30)的高速检测；且本方案利用拼接小目标图像的方式训练轻量级目标检测模型，以此方式提高目标检测的精度，使得该轻量级目标检测模型可兼顾检测效率和质量。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例的运动目标检测方法的流程图；

图2是根据本申请第二实施例的运动目标检测方法应用于非机动车头盔检测的逻辑图；

图3是根据本申请实施例的运动目标检测模型的结构框图；

图4是根据本申请实施例的运动目标检测装置的结构框图；

图5是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本申请旨在提出一种利用改进的轻量级目标检测模型检测可疑目标，利用改进的混合高斯模型检测前景目标，求取前景目标和可疑目标的集合以最终得到运动目标的技术方案，在实现时，通过将监控视频图像输入改进的轻量级目标检测模型中输出可疑目标集合，将监控视频图像和混合高斯模型得到的背景均值进行比较以获取前景目标集合，遍历所述前景目标集合中的前景目标和所述可疑目标集合中的可疑目标的重叠率，选择重叠率高的可疑目标作为运动目标，并可针对运动目标再做后续的处理。

本申请实施例提供了一种运动目标检测方法，可以实现快速精准地获取视频图像中的运动目标的目的，具体地，参考图1，所述方法包括：

获取连续多帧视频图像以及背景均值，其中所述背景均值为对应所述视频图像所在场景的背景像素均值；

将每帧所述视频图像输入第一目标检测模型的特征提取层中提取不同下采样倍数的至少两第一特征图，所述第一特征图输入特征融合层中互相融合得到至少两第二特征图；所述第二特征图输入检测头部中使用共享权重的同一组卷积进行预测，得到由至少一所述可疑目标组成的可疑目标集合；

将所述连续多帧视频图像和所述背景均值进行比较处理，得到由至少一前景目标组成的前景目标集合，其中所述前景目标为所述连续多帧视频图像中相对背景处于运动状态的目标；

获取所述可疑目标集合和所述前景目标集合中的交集，以得到由至少一运动目标组成的运动目标集合。

不同于直接利用运动目标检测模型进行一次性的运动目标检测的方案，本方案是通过进行独立的可疑目标检测以确定目标类型，进行独立的前景目标检测以确定运动属性，再结合运动属性和目标类型的这两大特征最终确定运动目标，这样的好处在于可大大地减少运动目标检测模型的训练压力和模型计算量，并且可提高运动目标的识别精度。换言之，由于运动目标需要在连续的视频图像中进行检测，这就意味着若是通过统一的运动目标检测模型进行运动目标检测的话，需要用非常庞大的视频流对模型进行训练，同时运动目标检测模型本身的计算量也会非常大，且难以保证识别结果的准确率。

然而本方案基于待检测运动目标的两大特征：目标类型以及运动属性，利用优化的轻量级神经网络模型对运动目标进行检测，提高检测准确率的同时提高检测速度。值得说明的是，由于目标检测需要在每帧视频图像中都单独实施一次，故必须保证目标检测的速率远高于视频的帧率才能做到不遗漏每帧视频图像中的目标的效果，故此本方案提出的轻量级神经网络模型具有非常大的意义，本方案提供的轻量级神经网络模型能够实现视频下超过实时速度(FPS>30)的高速检测，本方案的第一目标检测模型就是基于轻量级神经网络模型训练得到。

本方案的第一目标检测模型的轻量级体现在诸多方面，首先本方案的第一目标检测模型是对小尺寸的视频图像进行检测，这样的话可极大程度地减少计算量；其次本方案的第一目标检测模型本身的网络框架进行了优化，这样的话提高计算速度的同时不牺牲识别精确率。

对应的，在“将每帧所述视频图像输入第一目标检测模型的特征提取层中提取不同下采样倍数的至少两第一特征图”之前包括步骤：预处理每帧所述视频图像得到归一化视频图像，所述归一化视频图像输入所述第一目标检测模型中输出预测目标，处理所述预测目标的位置坐标得到所述可疑目标。

在本方案中为了优化所述第一目标检测模型的计算速度，首先对所述视频图像进行规格和像素的归一化处理，将相对原始视频图像的内存占比更小的归一化视频图像输入所述第一目标检测模型中进行计算处理，得到预测目标的位置坐标，并放大处理所述预测目标的位置坐标以获取原始视频图像中的可疑目标，这样的话可极大程度地节约了第一目标检测模型的计算资源。

对应的，“预处理每帧所述视频图像得到归一化视频图像”包括步骤：以缩放比例缩放每帧所述视频图像的规格尺寸并进行图像像素归一化处理，得到所述归一化视频图像。此时，在“处理得到的预测目标的位置坐标得到所述可疑目标”包括步骤：以缩放比例反向放大得到的预测目标的位置坐标。也就是说，所述第一目标检测模型对小尺寸的归一化视频图像进行检测，检测到的结果再放大到原始视频图像中以得到所述可疑目标。示例性的，本方案可将每帧所述视频图像缩放到416*416的规格尺寸。

不仅如此，本方案还对第一目标检测模型进行结构的优化，参考图3，第一目标检测模型的网络结构如下：

第一目标检测模型的特征提取层采用ShuffleNetV2作为骨干网络，并抽取ShuffleNetV2的最后一层卷积层，抽取8、16、32倍下采样的特征输入特征融合层进行多尺度的特征融合；特征融合层采用了PAN(Path Aggregation Network)来提高小目标检测的精度，且为了轻量化的需求，完全去掉PAN的所有卷积层，只保留从骨干网络特征提取后的1x1卷积来进行特征通道维度的对齐，上采样和下采样均使用插值来完成；检测头部使用共享权重的检测头，其对特征融合层出来的多尺度特征图使用同一组卷积预测检测框，然后每一层使用一个可学习的Scale值作为系数，对预测出来的框进行缩放，这么做的好处是能够将检测头的参数量降低为不共享权重状态下的1/3。

也就是说，本方案的第一目标检测模型本身针对轻量化做了很多的优化：首先在特征提取层中抽取多余的卷积层，仅保留8、16、32倍下采样的特征；其次在特征融合层也抽取所有的卷积层，利用插值法来完成上采样和下采样的融合；最后在检测头部利用共享权重的检测头对多个多尺度检测图使用同一组卷积进行预测，且缩放预测框。这样的第一目标检测模型可极大程度地减少计算量，提高运算速度，以实现视频下超过实时速度(FPS>30)的高速检测。值得说明的是，文中提到的同一组是指横向的三个卷积函数,他们之间共享参数，而这样的堆叠一共两层。

当然，特征提取层还可以选用其他骨干网络，本方案之所以优选ShuffleNetV2作为骨干网络是因为相对来说ShuffleNetV2是在精度相同的情况下参数量较小的，而且对CPU推理也比较友好。特征融合层中采用的PAN简单理解就是FPN多了一条Bottom-up pathaugmentation,FPN是从上向下，PAN包含了从上向下和从下向上的路径。

在本方案中，所述特征提取层选择ShuffleNetV2作为骨干网络，且剔除ShuffleNetV2的最后一层卷积层，仅保留ShuffleNetV2的8、16、32倍下采样卷积层；所述特征融合层采用PAN，且剔除PAN所有的卷积层，仅保留从骨干网络特征提取后的1x1卷积来进行特征通道维度的对齐，所述特征融合层的上采样和下采样均采用插值完成。所述检测头部模仿FCOS系列使用了共享权重的检测头，对所述第二特征图使用同一组卷积得到预测框，且每一层使用一个可学习的Scale值作为系数，对预测出来的框进行缩放。

该第一目标检测模型的训练方法如下：获取训练样本：搭建如上所述的第一目标检测模型的网络框架，利用训练样本对其进行训练。

在本方案的实施例中为了优化对小目标识别的效果，采用多张样本拼接成一张大图作为训练样本的方式来训练第一目标检测模型的网络框架，这样的训练方法相当于将大目标和中目标缩小为小目标来识别,提高小目标样本在整体训练样本中的占比,从而提高小目标的识别率。

值得说明的是，使用不同训练样本对第一目标检测模型进行训练即可获取针对不同目标类型的第一目标检测模型。在本方案中，若第一目标检测模型适用于对非机动车进行检测的话，则可采集一批电动车样本数据，让第一目标检测模型去检测这一批数据，将检测结果划分为两大类有框图像和无框图像，有框图像又分为真正目标图像和误报目标图像，无框图像又可分为未检测目标的图像和图像中本来就没有目标的图像，其中将误报目标图像作为负样本，将含有电动自行车目标但未检测到的图像作为训练正样本，对那些没检测到电动车图像进行数据标注和数据增强，然后在原有第一目标检测模型的基础上在训练出一个新的模型，测试第一目标检测模型的效果检查精度是否达标，如果新的第一目标检测模型未达标加入新的数据并对网络调整参数训练，如果第一目标检测模型的精度已经达到要求并且在目前训练数据下最优时停止训练，循环这个步骤以达到模型适合实际环境中样本的复杂度，以此方式得到适用于检测电动自动车的第一目标检测模型。相同的，若第一目标检测模型适用于对头盔进行检测的话，则可采集一批头盔样本数据，依据上述方法进行训练。

对应的，在“将每帧所述视频图像输入第一目标检测模型的特征提取层中提取不同下采样倍数的至少两第一特征图”之前包括步骤：预处理每帧所述视频图像得到归一化视频图像，将所述归一化视频图像输入第一目标检测模型的特征提取层中提取不同下采样倍数的至少两第一特征图；所述第一特征图输入特征融合层中互相融合得到至少两第二特征图；所述第二特征图输入检测头部中使用共享权重的同一组卷积进行预测得到预测框，所述预测框为预测目标，处理所述预测目标的位置坐标得到所述可疑目标。

另外，本方案还对混合高斯模型的结构进行改进优化，本方案的混合高斯模型是用于区分所述视频图像中的背景目标和前景目标

将连续多帧视频图像和混合高斯模型得到的背景均值比较，以得到由至少一前景目标组成的前景目标集合，前景目标是指在假设背景为静止的情况下任何有意义的运动物体。

以下简要介绍混合高斯模型的基本构思，混合高斯模型依据连续多帧视频图像的像素值在时间轴上服从高斯分布的原理，用多个高斯分布对每个像素值进行背景建模，并通过对混合高斯模型的参数的更新来适应背景的变化，进而得到清楚准确的背景像素的方法。

混合高斯模型的基本过程如下：

假定在t时刻，像素值j取值为X _j的概率为：

其中, K是混合高斯模型的个数，它的大小可以根据计算机的处理能力来决定，一般取3-5,

表示在时刻t像素j的混合髙斯模型中第i个髙斯成分的权重,

及

分别表示第i个髙斯成分的均值及协方差, 表示标准差,I 表示单位矩阵,η表示髙斯概率密度函数，其中

其中d 为x _i的维数；

背景模型初始化时将读取的第一帧图像的像素值作为均值，方差取一个较大的值，权重取一个较小的值，随着场景的变化，每个像素的混合髙斯模型都需要被不断地学习更新，用像素的当前值x _i与其混合髙斯模型中的K个髙斯成分逐一比较, 若x _i与第i个髙斯成分的均值

之间的差小于δ倍的该髙斯成分的标准差

, 则该髙斯成分被x _i更新, 其余髙斯成分保持不变，即：

(通常δ设为2.5-3.5)

如果满足条件,则更新高斯成分的

以及

参数

参数 (采用一定的学习率)。

如果没有任何模型匹配，则权重最小的高斯成分被替换,该模式的均值为当前像素值, 方差取一个较大的值，权重取一个较小的值

将混合髙斯模型中的K 个髙斯成分按照

/

由大到小排序, 然后

T是阈值,表示背景所占的比例，在进行前景检测时，如果所检测的像素点X，与描述背景的B 个高斯模型中的任意一个相匹配，则该像素点属于背景，否则属于前景。通过上述混合高斯模型作为背景模型，所述视频图像输入所述混合高斯模型中区分前景目标和背景目标。

然而传统的混合高斯模型每一个像素点都是由多个高斯模型共同描述，这样就导致模型在读取像素进行匹配更新操作时过于频繁，导致当场景发生突变时，背景模型不能及时做出相应的改变。然而考虑到连续多帧视频图像的背景也是相对稳定的，一般只会出现局部细微的变化，而其他大部分区域是保持不变的。背景中很多相邻的像素点可能具有相同的像素值，通过高斯模型对这些点建模的时候，它们的模型参数应该相同或者相近，因此本方案对混合高斯模型进行优化改进：本方案对每帧视频图像的像素进行分块处理，分成多个包括多个像素点的像素块，并利用像素块的像素均值替代该像素块内所有的像素值，对应的，在混合高斯模型的建立和匹配过程中都以像素块为单位进行计算，这样的方式也可大大地节省了计算时间和***的存储空间。

对应的，在“将连续多帧视频图像和所述背景均值进行比较处理，得到由至少一前景目标组成的前景目标集合”中包括：分块每帧所述视频图像的像素得到至少一由多个像素组成的像素块，其中所述像素块包括至少两像素，将同一所述视频图像的所有所述像素块和所述背景均值进行比较，得到由至少一前景目标组成的前景目标集合。

值得说明的是，所述背景均值是将所述视频图像所在的相同场景的图像输入所述混合高斯模型中建立得到的，所述背景均值为对应所述视频图像所在场景的背景像素均值。也就是说，将同一场景的视频图像输入所述混合高斯模型中得到所述背景均值，关于混合高斯模型的运算和建立逻辑如前所述，不同的是，本方案在建立所述混合高斯模型时也是以视频图像的像素块为单位。

在本方案中所述混合高斯模型以像素块为单位进行建立和匹配，每帧所述视频图像被处理得到多个均一的像素块，也就是说，每个所述像素块内的像素数量均一。在本方案的实施例中，所述像素块包括10*10像素。

具体的，“将同一所述视频图像的所有所述像素块和所述背景均值进行比较，得到由至少一前景目标组成的前景目标集合”包括步骤：获取同一所述视频图像的每个所述像素块和所述背景均值的比较值，选定所述比较值大于设定值的所述像素块组成像素块集合，连通所述像素块集合中的所述像素块得到所述前景目标。

在本方案中可将所述视频图像作为第一画面，所述第一画面输入所述混合高斯模型中，将所述第一画面中的每个像素块和所述混合高斯模型的背景均值进行比较得到比较值，若所述比较值大于一定的阈值则认为是前景，否者是背景，将所述比较值大于设定值的所述像素块都赋值为1，其余像素块赋值为0，得到二值化的第二画面，在所述第二画面中使用外接轮廓的判断方法得到每一个连通物体，对于超过一定大小的连通物体,使用矩形框对这些连通物体的轮廓进行外接矩形计算(得到x,y坐标的最大值和最小值,外接矩形就是由(xmin,ymin)(xmax,ymax)两个对角坐标顶点围成的矩形,所有的矩形对象作为前景目标。

对应的，“选定所述比较值大于设定值的所述像素块组成像素块集合，连通所述像素块集合中的所述像素块得到所述前景目标”中，将所述比较值大于设定值的所述像素块赋值为1，其余所述像素块赋值为0得到二值图，连通所述二值图中的连通物体得到所述前景目标。

且在一些实施例中，使用矩形框处理所述联通物体得到所述前景目标。具体的，对于超过一定大小的连通物体,使用矩形框对这些连通物体的轮廓进行外接矩形计算(得到x,y坐标的最大值和最小值,外接矩形就是由(xmin,ymin)(xmax,ymax)两个对角坐标顶点围成的矩形，得到矩形框，所述矩形框作为所述前景目标。

“获取所述可疑目标集合和所述前景目标集合中的交集，以得到由至少一运动目标组成的运动目标集合”包括步骤：对于所述可疑目标集合中的每一所述可疑目标，计算所述可疑目标和所述前景目标集合中的所有所述前景目标的重叠率，若所述重叠率大于设定阈值则确定所述可疑目标为所述运动目标。

在一些实施例中，可以基于矩形框的位置坐标获取所述前景目标集合中和所述可疑目标重合的所述前景目标，此时仅比对所述可疑目标和与所述可疑目标重合的前景目标的重叠率即可。

在本方案重叠率通过IOU计算获取，具体的计算方式如下：

，其中F是IOU计算函数,Ri是所述前景目标集合中的每个前景目标，O为可疑目标。在一些实施例中，设定阈值可以是0.5。

值得一提的是，本方案提供的运动目标检测方法可用于检测路面上的非机动车，此时，本申请实施例的运动目标检测方法中的第一目标检测模型用于检测非机动车，所述运动目标为运动的非机动车，且所述连续多帧视频图像可选自从交通部门,公安部门,城市管理部门接入的监控摄像头视频数据。

另外，本方案提供的运动目标检测方法还可用于检测非机动车驾驶员不戴头盔的现场，此时，参考图2，所述运动目标检测方法包括步骤：所述方法包括：

获取所述可疑目标集合和所述前景目标集合中的交集，以得到由至少一运动目标组成的运动目标集合；

将所述运动目标集合输入第二目标检测模型中输出目标物。

在本方案的实施例中，所述第一目标检测模型和所述第二目标检测模型的模型架构相同，不同之处在于所述第一目标检测模型用于检测非机动车，所述第二目标检测模型用于检测头盔，对应的，所述可疑目标为非机动车，所述目标物为头盔。由于所述第二目标检测模型的模型架构完全同于所述第一目标检测模型，唯一不同之处在于训练样本的目标类型不同，故此不再对第二目标检测模型展开重复的描述。在本方案的实施例中，若所述运动目标集合输入所述第二目标检测模型中输出头盔，则表示此时运动的非机动车上带有头盔，在管控时往往需要获取非机动车上未带头盔的情况，故该方法进一步包括：

筛选未检测出所述目标物的所述运动目标作为违规目标。此时，违规目标指的是：在行驶的非机动车上未带头盔驾驶的目标。在获取所述违规目标后可再结合人脸识别技术对违规人员进行人脸识别等后续操作。

实施例二

基于相同的构思，参考图4，本申请还提出了一种运动目标检测装置，包括：

数据获取单元301，用于获取连续多帧视频图像以及背景均值，其中所述背景均值为对应所述视频图像所在场景的背景像素均值；

可疑目标获取单元302，用于将将每帧所述视频图像输入第一目标检测模型的特征提取层中提取不同下采样倍数的至少两第一特征图，所述第一特征图输入特征融合层中互相融合得到至少两第二特征图；所述第二特征图输入检测头部中使用共享权重的同一组卷积进行预测，得到由至少一所述可疑目标组成的可疑目标集合；

前景目标获取单元303，用于将连续多帧视频图像和所述背景均值进行比较处理，得到由至少一前景目标组成的前景目标集合，其中所述前景目标为所述连续多帧视频图像中相对背景处于运动状态的物体；

运动目标获取单元304，用于获取所述可疑目标集合和所述前景目标集合中的交集，以得到由至少一运动目标组成的运动目标集合。

关于该运动目标检测装置的运行逻辑和方法内容同于实施例一所述的运动目标检测方法，故在此不进行累赘说明。

实施例三

本实施例还提供了一种电子装置，参考图5，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项运动目标检测方法实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种运动目标检测方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是监控各类场景的视频流，输出的信息可以是视频流中的运动目标、运动目标上的特定目标物等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

S101、获取连续多帧视频图像以及背景均值，其中所述背景均值为对应所述视频图像所在场景的背景像素均值；

S201、将每帧所述视频图像输入第一目标检测模型的特征提取层中提取不同下采样倍数的至少两第一特征图，所述第一特征图输入特征融合层中互相融合得到至少两第二特征图；所述第二特征图输入检测头部中使用共享权重的同一组卷积进行预测，得到由至少一所述可疑目标组成的可疑目标集合；

S203、将所述连续多帧视频图像和所述背景均值进行比较处理，得到由至少一前景目标组成的前景目标集合，其中所述前景目标为所述连续多帧视频图像中相对背景处于运动状态的目标；

S204、获取所述可疑目标集合和所述前景目标集合中的交集，以得到由至少一运动目标组成的运动目标集合。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、***、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种运动目标检测方法，其特征在于，包括步骤：

2.根据权利要求1所述的运动目标检测方法，其特征在于，在“将每帧所述视频图像输入第一目标检测模型的特征提取层中提取不同下采样倍数的至少两第一特征图”之前包括步骤：预处理每帧所述视频图像得到归一化视频图像，所述归一化视频图像输入所述第一目标检测模型。

3.根据权利要求1所述的运动目标检测方法，其特征在于，在“将每帧所述视频图像输入第一目标检测模型的特征提取层中提取不同下采样倍数的至少两第一特征图”之前包括步骤：以缩放比例缩放每帧所述视频图像的规格尺寸并进行图像像素归一化处理，得到归一化视频图像，所述归一化视频图像输入所述第一目标检测模型中；在“所述第二特征图输入检测头部中使用共享权重的同一组卷积进行预测”之后包括步骤：以缩放比例反向放大预测得到预测目标的位置坐标得到所述可疑目标。

4.根据权利要求1所述的运动目标检测方法，其特征在于，所述特征提取层选择ShuffleNetV2作为骨干网络，且剔除ShuffleNetV2的最后一层卷积层；所述特征融合层采用PAN，且剔除PAN所有的卷积层，仅保留从所述骨干网络特征提取后的1x1卷积来进行特征通道维度的对齐，所述特征融合层的上采样和下采样均采用插值完成。

5.根据权利要求1所述的运动目标检测方法，其特征在于，“将连续多帧视频图像和所述背景均值进行比较处理，得到由至少一前景目标组成的前景目标集合”中包括：分块每帧所述视频图像的像素得到至少一由多个像素组成的像素块，将同一所述视频图像的所有所述像素块和所述背景均值进行比较，得到由至少一前景目标组成的前景目标集合。

6.根据权利要求1所述的运动目标检测方法，其特征在于，“将连续多帧视频图像和所述背景均值进行比较处理，得到由至少一前景目标组成的前景目标集合”中包括：分块每帧所述视频图像的像素得到至少一由多个像素组成的像素块，获取同一所述视频图像的每个所述像素块和所述背景均值的比较值，选定所述比较值大于设定值的所述像素块组成像素块集合，连通所述像素块集合中的所述像素块得到所述前景目标。

7.根据权利要求6所述的运动目标检测方法，其特征在于，“选定所述比较值大于设定值的所述像素块组成像素块集合，连通所述像素块集合中的所述像素块得到所述前景目标”包括：将所述比较值大于设定值的所述像素块赋值为1，其余所述像素块赋值为0得到二值图，连通所述二值图中的连通物体得到所述前景目标。

8.根据权利要求1所述的运动目标检测方法，其特征在于，“获取所述可疑目标集合和所述前景目标集合中的交集，以得到由至少一运动目标组成的运动目标集合”包括步骤：对于所述可疑目标集合中的每一所述可疑目标，计算所述可疑目标和所述前景目标集合中的所有所述前景目标的重叠率，若所述重叠率大于设定阈值则确定所述可疑目标为所述运动目标。

9.根据权利要求1所述的运动目标检测方法，其特征在于，包括：将所述运动目标集合输入第二目标检测模型中输出目标物。

10.根据权利要求9所述的运动目标检测方法，其特征在于，所述可疑目标为非机动车，所述目标物为头盔。

11.一种运动目标检测装置，其特征在于，包括：

数据获取单元，用于获取连续多帧视频图像以及背景均值，其中所述背景均值为对应所述视频图像所在场景的背景像素均值；

可疑目标获取单元，用于将将每帧所述视频图像输入第一目标检测模型的特征提取层中提取不同下采样倍数的至少两第一特征图，所述第一特征图输入特征融合层中互相融合得到至少两第二特征图；所述第二特征图输入检测头部中使用共享权重的同一组卷积进行预测，得到由至少一所述可疑目标组成的可疑目标集合；

前景目标获取单元，用于将连续多帧视频图像和所述背景均值进行比较处理，得到由至少一前景目标组成的前景目标集合，其中所述前景目标为所述连续多帧视频图像中相对背景处于运动状态的物体；

运动目标获取单元，用于获取所述可疑目标集合和所述前景目标集合中的交集，以得到由至少一运动目标组成的运动目标集合。

12.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1到10任一所述的运动目标检测方法。

13.一种计算机程序产品，其特征在于，包括软件代码部分，当所述计算机程序产品在计算机上被运行时，所述代码软件部分用于执行根据权利要求1-10任一项所述的运动目标检测方法。

14.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1至10任一项所述的运动目标检测方法。