CN111709407B

CN111709407B - 监控边缘计算中提升视频目标检测性能的方法及装置

Info

Publication number: CN111709407B
Application number: CN202010828519.4A
Authority: CN
Inventors: 韦虎; 涂治国
Original assignee: Mouxin Technology Shanghai Co ltd
Current assignee: Mouxin Technology Shanghai Co ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-11-13
Anticipated expiration: 2040-08-18
Also published as: WO2022037087A1; US20230196705A1; CN111709407A

Abstract

本发明公开了监控边缘计算中提升视频目标检测性能的方法及装置，涉及数字图像处理技术领域。所述方法包括步骤：根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸，矩形滑动窗能够按照预设的扫描规则按帧在原始输入图像上移动到不同的位置；每帧检测时，将原始输入图像和各矩形滑动窗中的滑动窗子图进行缩放处理，处理后原始输入图像的分辨率低于滑动窗子图的分辨率；将缩放处理后的各图像组合拼接成矩形输入图像并作为检测输入图像；通过对应输入尺度的目标检测神经网络算法对检测输入图像进行检测。本发明降低了监控边缘计算设备上目标检测算法的算力和带宽需求，优化了目标检测距离。

Description

监控边缘计算中提升视频目标检测性能的方法及装置

技术领域

本发明涉及数字图像处理技术领域，尤其涉及一种监控边缘计算中提升视频目标检测性能的方法及装置。

背景技术

随着人工智能和深度学习技术的快速发展，在监控领域，基于卷积神经网络（CNN）算法的目标检测方法得到了广泛应用，常用的目标检测流程是从左到右、从上到下滑动窗口，利用分类识别目标。为了在不同观察距离处检测不同的目标类型，我们可以使用不同大小和宽高比的窗口（滑动窗）。目标检测算法中，常用的比如RCNN、Fast RCNN和Faster RCNN等是基于候选区域和深度学习分类的方法，从 RCNN 到 Fast RCNN，再到 Faster RCNN，不断刷新 mAP（mean Average Precision）；而YOLO、SSD、DenseBox 等方法是基于深度学习的回归方法，将性能提高到一个非常高的帧率。在监控的边缘计算应用场景，如IPC、NVR、DVR等设备上，当前设备的算力和带宽都非常有限。为了满足实时目标检测的帧率要求，在这些设备上往往采用了算力要求较低的SSD、YOLO、MobileNet_SSD、MTCNN、DensNet等神经网络算法。然而，即使是这些相对低复杂度的算法，在常用的视频图像分辨率下（如1080P），其实时检测算力和带宽的要求仍然超过了当前大部分硬件的能力。

一方面，为了解决算力和带宽不足的技术问题，现有技术中提供了以下几种方法：第一种方法，也是最常见的方法，是对算法采用的神经网络进行简化（剪枝和低比特量化）。然而，由于剪枝和低比特量化后的神经网络其目标检测的准确率往往有显著下降，漏检误检率明显上升，并且低比特量化还受限于硬件对量化比特（bit）的支持程度。第二种方法，是降低目标检测的实际帧率，只检测关键帧，在非关键帧则采用低复杂度的目标跟踪算法来弥补检测帧率不够的问题。但是，这种方法碰到物体运动较快时，可能会碰到漏检和跟踪出错的问题。第三种方法，是牺牲算法的检测距离。比如删去SSD等网络的最后的小尺度特征卷积层，这样算力和带宽需求能减小，但会降低能检出目标的最大尺度，使得贴近摄像头的人脸或人形就无法检出。第四种方法，是对输入图像进行缩小，采用小输入尺寸的神经网络算法。但这样会导致输入图像的分辨率下降，限制了能检出目标的最小尺度，使得远处的人脸和人形等因为像素过少而无法检出。

另一方面，为了检测不同距离的目标，现有技术中常用的方法是：对原始输入图像进行多尺度缩放，生成多尺度金字塔图像组，然后对不同尺度的输入图分别检测。检测近处大尺寸目标时，在缩小的图像上检测；检测远处目标时，在高分辨率的大尺寸图像上检测。然而，上述方法设计复杂，需要为每级图像尺度设计训练神经网络，对设备的算力和带宽提出了较高需求。

综上所述，已有的低复杂度优化方法，都无法在检测准确率、帧率、最远和最近检测距离等方面实现面面俱到，只适合特定的应用场景。而实际的监控应用场景复杂，监控设备既需要满足较高的目标检测准确率，又需要足够的帧率以检测快速经过的目标，还需要对近处的大尺度目标和远处的小尺度目标都能被检测到（在目标贴近摄像头或在远处经过时都能被检测到）。如何提升监控边缘计算设备上目标检测功能的准确率、检测远近距离、帧率性能等要求是当前亟需解决的技术问题。

发明内容

本发明的目的在于：克服现有技术的不足，提供了一种监控边缘计算中提升视频目标检测性能的方法及装置。本发明利用监控视频图像中检测目标在远处和近处的运动向量的大小不同的特点，将远处小目标低帧率检测和近处目标高帧率检测相结合，并利用拼接图像适配固定输入尺度的检测神经网络的特点，降低了监控边缘计算设备上目标检测算法的算力和带宽需求，优化了目标检测距离。

为实现上述目标，本发明提供了如下技术方案：

一种监控边缘计算中提升视频目标检测性能的方法，包括步骤：

根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸，所述矩形滑动窗能够按照预设的扫描规则按帧在原始输入图像上移动到不同的位置；

每帧检测时，将原始输入图像和各矩形滑动窗中的滑动窗子图分别按不同比例进行缩放处理，处理后的原始输入图像的分辨率低于滑动窗子图的分辨率；

将缩放处理后的各图像组合拼接成矩形输入图像并作为检测输入图像；

通过对应输入尺度的目标检测神经网络算法对前述检测输入图像进行检测。

进一步，还包括步骤：将各滑动窗子图的检测结果合并映射到原始输入图像上。

进一步，根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸的步骤为：

步骤110，根据当前设备算力确定所采用的目标检测神经网络算法的输入尺寸，以及对应输入尺寸下算法能检测到目标的最小检测尺寸和最大检测尺寸；

步骤120，按照前述输入尺寸，将检测神经网络算法输入矩形分割成多个矩形子图区，每个矩形子图区大于等于算法能检测的最小检测尺寸；所述矩形子图区包括全图映射子图区和滑动窗映射子图区，所述全图映射子图区的长宽比与原始输入图像的长宽比相同用于显示缩小到低分辨率的原始输入图像，所述滑动窗映射子图区用于显示对应的滑动窗子图；

其中，各矩形子图区的分割步骤如下，

步骤121，在检测神经网络算法输入矩形上确定所述全图映射子图区的大小：根据最近检测距离L0的目标在原始输入图像上的大小，选择一个初始缩放比例，使得所述原始输入图像上的最近目标缩放后小于等于算法能检测的最大检测尺寸，以便在全图映射子图区上检测到最近距离目标，同时给各滑动窗映射子图区留下足够空间，所述原始输入图像到全图映射子图区的缩放比例确定后，也确定了全图映射子图区上能检测到的最远检测距离L1；

步骤122，在剩下的空间上，选择一个矩形大小区域作为一个滑动窗映射子图区，使得所述原始输入图像上距离L1的目标缩小后能够落在所述滑动窗映射子图区内，并且能够被检测算法检测到；调整缩放比例，使得原始输入图像上最远检测距离L2的目标能被检测到；

步骤123，重复步骤122以确定其他滑动窗映射子图区的大小，将最远检测距离逐步扩大，直到没有合适的空间用来设置为滑动窗映射子图区；

步骤124，重复执行步骤121至步骤123以调整各矩形子图区大小和对应的缩放比例，使得检测距离最远。

进一步，步骤122中，原始输入图像上最远检测距离L2的目标在原始输入图像上停留所用时间长于滑动窗的一轮扫描时间。

进一步，所述多个矩形滑动窗的大小和/或长宽比不同；

所述预设的扫描规则为从左往右从上往下顺序匀速扫描全图，或者按照随机移动规则扫描全图，或者按照用户制定的顺序扫描全图。

进一步，获取各滑动窗子图的检测结果，根据前述检测结果自适应调整矩形滑动窗扫描时的移动速度和/或停留时间。

本发明还提供了一种监控边缘计算中提升视频目标检测性能的装置，包括如下结构：

滑动窗设置模块，用于根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸，所述矩形滑动窗能够按照预设的扫描规则按帧在原始输入图像上移动到不同的位置；

图像预处理模块，与滑动窗设置模块连接，用于在每帧检测时，将原始输入图像和各矩形滑动窗中的滑动窗子图分别按不同比例进行缩放处理，处理后的原始输入图像的分辨率低于滑动窗子图的分辨率；以及，将缩放处理后的各图像组合拼接成矩形输入图像并作为检测输入图像；

目标检测模块，与滑动窗设置模块和图像预处理模块连接，用于采用对应输入尺度的目标检测神经网络算法对前述检测输入图像进行检测。

进一步，还包括结果显示模块，用于将各滑动窗子图的检测结果合并映射到原始输入图像上显示输出。

进一步，所述滑动窗设置模块包括输入尺寸确定单元和矩形子图区分割单元；

所述输入尺寸确定单元被配置为：根据当前设备算力确定所采用的目标检测神经网络算法的输入尺寸，以及对应输入尺寸下算法能检测到目标的最小检测尺寸和最大检测尺寸；

所述矩形子图区分割单元被配置为：按照前述输入尺寸，将检测神经网络算法输入矩形分割成多个矩形子图区，每个矩形子图区大于等于算法能检测的最小检测尺寸；所述矩形子图区包括全图映射子图区和滑动窗映射子图区，所述全图映射子图区的长宽比与原始输入图像的长宽比相同用于显示缩小到低分辨率的原始输入图像，所述滑动窗映射子图区用于显示对应的滑动窗子图；

其中，各矩形子图区的分割步骤如下，

进一步，所述多个矩形滑动窗的大小和/或长宽比不同；

本发明由于采用以上技术方案，与现有技术相比，作为举例，具有以下的优点和积极效果：利用监控视频图像中检测目标在远处和近处的运动向量的大小不同的特点，将远处小目标低帧率检测和近处目标高帧率检测相结合，通过低分辨率图像和高分辨率图像拼接构造拼接图像，能够保证近处目标的检测，同时也能扫描检测到远处小目标；并利用拼接图像适配固定输入尺度的检测神经网络可以简化算法设计复杂度和提升有效算力的特点，降低了监控边缘计算设备上目标检测算法的算力和带宽需求，优化了目标检测距离。

相比于现有的多尺度目标检测方法，一方面，多尺度目标检测方法往往需要检测从高到低多级分辨率的输入图，计算所需的算力和带宽都较大，而本发明可以仅采用于小输入尺寸目标检测算法而达到近似的检测距离，尤其适合于算力和带宽受限制的监控边缘计算应用场景。另一方面，常用的基于神经网络的多尺度检测方法需要为每个输入尺度设计相应的网络，设计和训练网络的复杂度更大，而本发明可仅采用固定的输入尺度，显著简化了神经网络训练和设计复杂度；再一方面，当原始输入图像和神经网络输入尺寸长宽比不一致时，现有的添加黑边的方法会浪费算力和带宽，而本发明提出的方法可以充分利用硬件性能，在提升目标检测设备的检测能力的同时提高了设备算力的利用效率。

附图说明

图1为本发明提供的目标在输入图像上的尺寸与距离的关系示例图。

图2为现有技术提供的对检测算法输入图像补黑边的示例图。

图3为本发明实施例提供的监控边缘计算中提升视频目标检测性能的方法的流程图。

图4为本发明实施例提供的原始输入图像和滑动窗经缩放拼接生成检测输入图像的操作示例图。

附图标记说明：

大尺寸人脸10，中等尺寸人脸20，小尺寸人脸30；

原始输入图像100，检测输入图像200，黑边300。

具体实施方式

以下结合附图和具体实施例对本发明公开的监控边缘计算中提升视频目标检测性能的方法及装置作进一步详细说明。应当注意的是，下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。在下述实施例的附图中，各附图所出现的相同标号代表相同的特征或者部件，可应用于不同实施例中。因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

需说明的是，本说明书所附图中所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定发明可实施的限定条件，任何结构的修饰、比例关系的改变或大小的调整，在不影响发明所能产生的功效及所能达成的目的下，均应落在发明所揭示的技术内容所能涵盖的范围内。本发明的优选实施方式的范围包括另外的实现，其中可以不按所述的或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

实施例

根据监控摄像头的光学原理，同一被摄物体在摄像机ccd（charge coupleddevice，电荷耦合器件）靶面上成像的尺度（长/宽)和被摄物体至镜头的距离成反比，即其在被拍摄的视频画面中的大小，以及在视频画面中的平面移动速度（即运动向量），都遵循与物体至镜头的距离成反比的原理。因此，如果同一检测目标以相同速度运动，在拍摄视频中会表现为在近处的运动向量相对较大（体现在在画面上的移动速度较快），远处目标的运动向量相对较小（体现在在画面上的移动速度较慢）的特点。这种“近大远小”、“近快远慢”的现象是摄像机的内在原理。参见图1所示，在监控视频中，处于近处的检测目标尺寸较大，在视频中其运动向量也相对较大，目标在画面上移动速度较快，需要较高的检测帧率才能避免漏检；而远处的检测目标在图像中尺寸相对较小，在视频中其运动向量也相对较小，目标在画面上移动速度较慢，可以采用较低的检测帧率进行检测。

需要说明的是，视频图像中检测目标在远处和近处的运动向量大小不同，是基于上述摄像时“近大远小”、“近快远慢”的客观规律，目标在近处的运动向量大是相对于其在远处的运动向量小而言，具体的运动向量的大小的值不应作为对本发明的限制。

所述检测目标，作为举例而非限制，可以是人脸、人形、车型等。图1中示例了采用人脸作为检测目标的方式，在监控输入图像中显示有3个检测目标，分别为距离为L0的大尺寸近处人脸，距离为L1的中等尺寸远处人脸和距离为L2的小尺寸更远处人脸，三者距离摄像头的距离依次增大。

另一方面，基于神经网络的检测算法，其参数、网络结构常常对应指定的输入尺寸，检测输入图像尺寸不能随意调整，每改变一次输入尺寸都可能需要重新进行网络设计和训练。而大多数情况下，原始输入图像和检测输入尺寸并不匹配，如果强行改变图像的长宽比进行缩放可能会降低目标检测的准确率，因此这时候往往需要将原始输入图像扩展黑边生成检测输入图（也可称为检测算法输入图），以适配检测网络的输入长宽比尺寸要求，参见图2所示，图2中原始输入图像100的尺寸为1920*1080（长*宽），检测输入图像200的尺寸为320*240（长*宽），所述检测输入图像200的下方为黑边300。这些黑边区图像参与计算实际浪费了算力和带宽，如果将黑边区用图像内容替代，可以充分利用算力提高检测性能。

基于以上原理，本发明提供了一种监控边缘计算中提升视频目标检测性能的方法。参见图3所示，所述方法包括如下步骤：

S100，根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸，所述矩形滑动窗能够按照预设的扫描规则按帧在原始输入图像上移动到不同的位置。

S200，每帧检测时，将原始输入图像和各矩形滑动窗中的滑动窗子图分别按不同比例进行缩放处理，处理后的原始输入图像的分辨率低于滑动窗子图的分辨率。

S300，将缩放处理后的各图像组合拼接成矩形输入图像并作为检测输入图像。

S400，通过前述目标检测神经网络算法对前述检测输入图像进行检测。

所述S400之后还可以包括步骤：将各滑动窗子图的检测结果合并映射到原始输入图像上进行显示输出。

本发明提供的上述技术方案，通过预先设定多种不同大小或长宽比的矩形滑动窗，所述矩形滑动窗能够按照设定的规则按帧在原始输入图像上移动到不同的位置。对每帧图像进行检测时，先将原始输入图像和各矩形滑动窗中的滑动窗子图分别进行不同比例的缩放，原始输入图像缩小成较低分辨率，而滑动窗子图保持较高分辨率，然后再将缩放后的各图像组合拼接成一张尺寸小于原始输入图像的矩形输入图像后作为检测输入图像；最后，采用对应输入尺度的神经网络目标检测算法对检测输入图像进行检测，并将各子图检测结果合并映射到原始输入图上。上述技术方案中，作为检测输入图像的拼接图像中包含了低分辨率全画面子图和高分辨率滑动窗子图。检测时，低分辨率全画面子图每帧都会被检测，所以检测帧率高，在所述较低分辨率全画面子图上可以搜到近处的目标；而高分辨率滑动窗子图，每帧只检测整张高分辨率图像的一个局部，每帧滑动窗移动，需要若干帧完成一轮扫描，即同一局部区域要等若干帧后才能在高分辨率子图上再次检测，因此滑动窗子图检测是低帧率的，这种子图分辨率高可以用来检测远处目标。由于远处目标在图像中尺寸小，运动慢，即使检测窗口不大，检测帧率低，也不容易漏检。多个滑动窗组合，每个滑动窗可以对应不同的分辨率和扫描周期，对应不同的检测距离，这样可以实现将远处小目标低帧率检测和近处目标高帧率检测相结合，如此，能够保证近处目标的检测，同时也能扫描检测到远处小目标；同时，利用拼接图像适配固定输入尺度的检测神经网络可以简化算法设计复杂度和提升有效算力的特点，使得采用较小输入尺寸的检测神经网络算法，也能实现对监控极远和极近目标的实时检测，从而提升监控边缘计算设备上目标检测功能的准确率、检测远近距离、帧率性能等要求，降低漏检和误检率。

本实施例中，优选的，根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸的步骤为：

步骤110，根据当前设备算力确定所采用的目标检测神经网络算法的输入尺寸，以及对应输入尺寸下算法能检测到目标的最小检测尺寸和最大检测尺寸。

步骤120，按照前述输入尺寸，将检测神经网络算法输入矩形分割成多个矩形子图区，每个矩形子图区大于等于算法能检测的最小检测尺寸。所述矩形子图区包括全图映射子图区和滑动窗映射子图区。所述全图映射子图区的长宽比与原始输入图像的长宽比相同，其用于显示缩小到低分辨率的原始输入图像（即全图映射子图），所述滑动窗映射子图区用于显示对应的滑动窗子图。

其中，各矩形子图区的分割步骤如下：

步骤121，在检测神经网络算法输入矩形上确定所述全图映射子图区的大小：根据最近检测距离L0的目标在原始输入图像上的大小，选择一个初始缩放比例，使得所述原始输入图像上的最近目标缩放后小于等于算法能检测的最大检测尺寸，以便在全图映射子图区上检测到最近距离目标，同时给各滑动窗映射子图区留下足够空间，所述原始输入图像到全图映射子图区的缩放比例确定后，也确定了全图映射子图区上能检测到的最远检测距离L1。

步骤122，在剩下的空间上，选择一个矩形大小区域作为一个滑动窗映射子图区，使得所述原始输入图像上距离L1的目标缩小后能够落在所述滑动窗映射子图区内，并且能够被检测算法检测到；调整缩放比例，使得原始输入图像上最远检测距离L2的目标能被检测到。其中，原始输入图像上最远检测距离L2的目标在原始输入图像上停留所用时间长于滑动窗的一轮扫描时间。

步骤123，重复步骤122以确定其他滑动窗映射子图区的大小，将最远检测距离逐步扩大，直到没有合适的空间用来设置为滑动窗映射子图区。

本发明提出的矩形子图区分割方法，由近至远，根据原始输入图像上目标大小和距离的对应关系，以及目标在图像内停留时间与滑动窗扫描周期的制约关系，逐步确定各段距离范围内目标对应的子图大小和缩放比例。

本实施例中，所述多个矩形滑动窗的大小和/或长宽比可以不同。

扫描规则可以由***默认设置，也可以由用户根据需要个性化设置。

优选的，所述预设的扫描规则为：从左往右从上往下顺序匀速扫描全图，或者按照随机移动规则扫描全图，或者按照用户制定的顺序扫描全图。进一步，还可以获取各滑动窗子图的检测结果，根据前述检测结果自适应调整矩形滑动窗扫描时的移动速度和/或停留时间。

下面以设置2个矩形滑动窗为例，结合图4详细描述本发明的实施步骤。

步骤1，根据当前设备算力确定所采用的目标检测神经网络算法的输入尺寸，以及对应输入尺寸下算法能检测到目标的最小检测尺寸和最大检测尺寸。

步骤2，按给定检测神经网络的输入尺寸，将检测网络输入矩形分割成若干矩形子图区，参见图4所示，示例了分成3个矩形子图区，每个矩形子图区都应大于等于算法能检测的最小检测尺寸。其中1个子图区的长宽比保持与原始输入图像的长宽比相同，为全图映射子图区，用于显示全图映射子图；剩下的2个矩形子图区称为滑动窗映射子图区，用于显示滑动窗子图。

所述全图映射子图区的大小，对应原始输入图像的某一缩小比例。因此全图映射子图区的大小对应了原始输入图像上目标能被检测到的某一大小范围，也就是对应了离摄像头某段距离范围的目标。

其中，对各矩形子图区的分割步骤如下：

步骤21，先在检测算法输入矩形上确定全图映射子图区的大小。根据最近检测距离L0的目标在原始输入图像上的大小，选择一个合适的初始缩放比例，使得原始输入图像上的最近目标缩放后小于等于算法能检测的最大目标尺寸，以便在全图映射子图区上检测到最近距离目标，同时给各滑动窗映射子图区留下足够空间。原始输入图像到全图映射子图区的缩放比例确定后，同时也确定了全图映射子图区上能检测到的最远检测距离L1，即全图映射子图区上最小检测尺寸在原始输入图像上对应的目标大小。

步骤22，接着，在剩下的空间上，选择一个合适的矩形大小区域分割为一个滑动窗映射子图区，使原始输入图像上距离L1的目标缩小后，可以落在滑动窗映射子图区内，并且能够被检测算法检测到，即大于等于最小检测尺寸。按照缩放比例，这一滑动窗映射子图区对应原始输入图像上一定大小的滑动窗区域。滑动窗每帧按照设定的规则移动，在一定周期内扫描完原始输入图像全图。调整缩放比例，使得原始输入图像上最远检测距离L2的目标能被检测到，即距离L2的目标缩小后大于等于最小检测尺寸，并且距离L2的目标在原始输入图像上停留所用时间长于滑动窗的一轮扫描时间。

滑动窗移动的规则（即扫描规则），可以是从左往右从上往下顺序匀速扫描全图，也可以按照特定的顺序扫描全图，也可以是按随机移动规则扫描全图。进一步，还可以根据检测结果自适应调整滑动窗移动速度或停留时间。

步骤23，依次确定其他滑动窗映射子图区大小。重复前述步骤22，将最远检测距离逐步扩展，直到没有合适空间用来设置为滑动窗映射子图区。

步骤24，调整各子图区大小和对应缩放比例，使得检测距离最远。回归步骤21至步骤23的过程，调整各子图区的大小和缩放比例，使得检测距离最远。

步骤3，每帧检测时，将原始输入图像和各滑动窗位置子图分别按比例缩放，再将缩放后的各图像组合拼接成矩形输入图像，作为检测输入图像，参见图4所示。

步骤4，最后，采用对应神经网络目标检测算法对检测输入图像进行检测，并将各子图检测结果合并映射到原始输入图上。

上述方法使得原始输入图像缩小成较低分辨率的全图映射子图，采用高帧率来检测近处目标，而各滑动窗子图保持了较高分辨率，采用较低帧率来检测远处目标。从而使得监控边缘计算设备在使用小输入尺寸的神经网络目标检测算法时，能尽可能的检测到近处和远处的目标。

本发明提供的通过全图映射子图和滑动窗子图拼接形成矩形输入图像作为检测输入图像送目标检测神经网络算法进行检测的方法，还能够显著提升不同景深模糊程度下的目标检测性能。

本发明的另一实施例，还提供了一种监控边缘计算中提升视频目标检测性能的装置。

所述装置包括滑动窗设置模块，图像预处理模块和目标检测模块。

所述滑动窗设置模块，用于根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸，所述矩形滑动窗能够按照预设的扫描规则按帧在原始输入图像上移动到不同的位置。

所述图像预处理模块，与滑动窗设置模块连接，用于在每帧检测时，将原始输入图像和各矩形滑动窗中的滑动窗子图分别按不同比例进行缩放处理，处理后的原始输入图像的分辨率低于滑动窗子图的分辨率；以及，将缩放处理后的各图像组合拼接成矩形输入图像并作为检测输入图像。

所述目标检测模块，与滑动窗设置模块和图像预处理模块连接，用于采用对应输入尺度的目标检测神经网络算法对前述检测输入图像进行检测。

所述装置还可以包括结果显示模块，通过所述结果显示模块可以将各滑动窗子图的检测结果合并映射到原始输入图像上显示输出。

本实施例中，所述滑动窗设置模块具体可以包括输入尺寸确定单元和矩形子图区分割单元。

所述输入尺寸确定单元被配置为：根据当前设备算力确定所采用的目标检测神经网络算法的输入尺寸，以及对应输入尺寸下算法能检测到目标的最小检测尺寸和最大检测尺寸。

所述矩形子图区分割单元被配置为：按照前述输入尺寸，将检测神经网络算法输入矩形分割成多个矩形子图区，每个矩形子图区大于等于算法能检测的最小检测尺寸。所述矩形子图区包括全图映射子图区和滑动窗映射子图区，所述全图映射子图区的长宽比与原始输入图像的长宽比相同用于显示缩小到低分辨率的原始输入图像，所述滑动窗映射子图区用于显示对应的滑动窗子图。

优选的，矩形子图区分割单元进行各矩形子图区的分割步骤如下：

步骤122，在剩下的空间上，选择一个矩形大小区域作为一个滑动窗映射子图区，使得所述原始输入图像上距离L1的目标缩小后能够落在所述滑动窗映射子图区内，并且能够被检测算法检测到；调整缩放比例，使得原始输入图像上最远检测距离L2的目标能被检测到。

本实施例中，所述多个矩形滑动窗的大小和/或长宽比不同。

所述预设的扫描规则可以为从左往右从上往下顺序匀速扫描全图，或者按照随机移动规则扫描全图，或者按照用户制定的顺序扫描全图。

其它技术特征参见在前实施例的描述，在此不再赘述。

在上面的描述中，本发明的公开内容并不旨在将其自身限于这些方面。而是，在本公开内容的目标保护范围内，各组件可以以任意数目选择性地且操作性地进行合并。另外，像“包括”、“囊括”以及“具有”的术语应当默认被解释为包括性的或开放性的，而不是排他性的或封闭性，除非其被明确限定为相反的含义。所有技术、科技或其他方面的术语都符合本领域技术人员所理解的含义，除非其被限定为相反的含义。在词典里找到的公共术语应当在相关技术文档的背景下不被太理想化或太不实际地解释，除非本公开内容明确将其限定成那样。本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

Claims

1.一种监控边缘计算中提升视频目标检测性能的方法，其特征在于包括步骤：

通过对应输入尺度的目标检测神经网络算法对前述检测输入图像进行检测；

其中，根据目标检测神经网络算法的输入尺寸和原始输入图像尺寸确定扫描用的多个矩形滑动窗的尺寸的步骤为，

步骤120，按照前述输入尺寸，将检测神经网络算法输入矩形分割成多个矩形子图区，每个矩形子图区大于等于算法能检测的最小检测尺寸；所述矩形子图区包括全图映射子图区和滑动窗映射子图区，所述全图映射子图区的长宽比与原始输入图像的长宽比相同，用于显示缩小到低分辨率的原始输入图像，所述滑动窗映射子图区用于显示对应的滑动窗子图；

其中，各矩形子图区的分割步骤如下，

2.根据权利要求1所述的方法，其特征在于还包括步骤：将各滑动窗子图的检测结果合并映射到原始输入图像上。

3.根据权利要求1所述的方法，其特征在于：步骤122中，原始输入图像上最远检测距离L2的目标在原始图像上停留所用时间长于滑动窗的一轮扫描时间。

4.根据权利要求1所述的方法，其特征在于：所述多个矩形滑动窗的大小和/或长宽比不同；

5.根据权利要求4所述的方法，其特征在于：获取各滑动窗子图的检测结果，根据前述检测结果自适应调整矩形滑动窗扫描时的移动速度和/或停留时间。

6.一种监控边缘计算中提升视频目标检测性能的装置，其特征在于包括：

目标检测模块，与滑动窗设置模块和图像预处理模块连接，用于采用对应输入尺度的目标检测神经网络算法对前述检测输入图像进行检测；

其中，所述滑动窗设置模块包括输入尺寸确定单元和矩形子图区分割单元；

所述矩形子图区分割单元被配置为：按照前述输入尺寸，将检测神经网络算法输入矩形分割成多个矩形子图区，每个矩形子图区大于等于算法能检测的最小检测尺寸；所述矩形子图区包括全图映射子图区和滑动窗映射子图区，所述全图映射子图区的长宽比与原始输入图像的长宽比相同，用于显示缩小到低分辨率的原始输入图像，所述滑动窗映射子图区用于显示对应的滑动窗子图；

其中，各矩形子图区的分割步骤如下，

7.根据权利要求6所述的装置，其特征在于：还包括结果显示模块，用于将各滑动窗子图的检测结果合并映射到原始输入图像上显示输出。

8.根据权利要求6所述的装置，其特征在于：所述多个矩形滑动窗的大小和/或长宽比不同；