CN109344899B

CN109344899B - 多目标检测方法、装置和电子设备

Info

Publication number: CN109344899B
Application number: CN201811158003.2A
Authority: CN
Inventors: 邱鑫; 李国洪; 张柳清
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2022-05-17
Anticipated expiration: 2038-09-30
Also published as: CN109344899A

Abstract

本申请提出一种多目标检测方法、装置和电子设备，其中，多目标检测方法包括：根据目标生成多个检测框；获取所述多个检测框的分类概率；根据所述多个检测框的分类概率分别生成所述多个检测框的置信度，并获取所述多个检测框的稳定度；以及根据所述多个检测框的置信度和稳定度对所述多个检测框进行筛选。该方法能够有效利用电子设备的计算资源，通过检测框实时且稳定地检测出有意义的目标，从而可以降低服务器侧的资源占用，降低用户的流量消耗，提升用户在相关应用场景的使用体验。

Description

多目标检测方法、装置和电子设备

技术领域

本申请涉及电子设备技术领域，尤其涉及一种多目标检测方法、装置和电子设备。

背景技术

目前，为了保证目标检测的准确性，通过在服务器侧部署复杂的目标检测模型，当用户使用电子设备拍摄图片或者视频后，可以通过远程访问服务器侧的检测服务，获取检测结果，该检测结果包括拍摄图片或者视频帧中包括的各目标。

但是，实际应用时，申请人发现，上述获取检测结果的方式存在如下技术问题：

其一，由于电子设备需要不断地向服务器侧上传图像，以获取检测结果，因此，检测结果的获取极大地依赖于网络的实时性，在网络故障、延时等情况下，用户获取的检测结果存在明显的滞后性，并且，耗费用户大量的网络流量；

其二，增加服务器侧的资源占用，在用户拍摄视频等场景下，服务器侧需要对视频帧进行连续检测，给服务器侧带来较大的服务请求压力。

发明内容

本申请提出一种多目标检测方法、装置和电子设备，以实现有效利用电子设备的计算资源，通过检测框实时且稳定地检测出有意义的目标，从而可以降低服务器侧的资源占用，降低用户的流量消耗，提升用户在相关应用场景的使用体验，用于解决现有技术中通过远程访问服务器侧的检测服务，获取检测结果存在滞后性、耗费用户大量的网络流量，且增加服务器侧的资源占用的技术问题。

本申请一方面实施例提出了一种多目标检测方法，包括：

根据目标生成多个检测框；

获取所述多个检测框的分类概率；

根据所述多个检测框的分类概率分别生成所述多个检测框的置信度，并获取所述多个检测框的稳定度；以及

根据所述多个检测框的置信度和稳定度对所述多个检测框进行筛选。

本申请实施例提出的多目标检测方法，通过根据目标生成多个检测框，而后，获取多个检测框的分类概率，接着，根据多个检测框的分类概率分别生成多个检测框的置信度，并获取多个检测框的稳定度，最后，根据多个检测框的置信度和稳定度对多个检测框进行筛选。由此，可以有效利用电子设备的计算资源，通过检测框实时且稳定地检测出有意义的目标，从而可以降低服务器侧的资源占用，降低用户的流量消耗，提升用户在相关应用场景的使用体验。

本申请又一方面实施例提出了一种多目标检测装置，包括：

第一生成模块，用于根据目标生成多个检测框；

第一获取模块，用于获取所述多个检测框的分类概率；

第二生成模块，用于根据所述多个检测框的分类概率分别生成所述多个检测框的置信度；

第二获取模块，用于获取所述多个检测框的稳定度；以及

筛选模块，用于根据所述多个检测框的置信度和稳定度对所述多个检测框进行筛选。

本申请实施例提出的多目标检测装置，通过根据目标生成多个检测框，而后，获取多个检测框的分类概率，接着，根据多个检测框的分类概率分别生成多个检测框的置信度，并获取多个检测框的稳定度，最后，根据多个检测框的置信度和稳定度对多个检测框进行筛选。由此，可以有效利用电子设备的计算资源，通过检测框实时且稳定地检测出有意义的目标，从而可以降低服务器侧的资源占用，降低用户的流量消耗，提升用户在相关应用场景的使用体验。

本申请又一方面实施例提出了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本申请前述实施例提出的多目标检测方法。

本申请又一方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本申请前述实施例提出的多目标检测方法。

本申请又一方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如本申请前述实施例提出的多目标检测方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提出的多目标检测方法的流程示意图；

图2为本申请实施例中检测模型的训练过程示意图；

图3为本申请实施例二所提供的多目标检测方法的流程示意图；

图4为本申请实施三所提供的多目标检测方法的流程示意图；

图5为本申请实施例四所提供的多目标检测方法的流程示意图；

图6是本申请实施例五所提供的多目标检测装置的结构示意图；

图7是本申请实施例六所提供的多目标检测装置的结构示意图；

图8示出了适于用来实现本申请实施方式的示例性电子设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

本申请主要针对现有技术中通过远程访问服务器侧的检测服务，获取检测结果存在滞后性、耗费用户大量的网络流量，且增加服务器侧的资源占用的技术问题，提出一种多目标检测方法。

本申请实施例的多目标检测方法，通过根据目标生成多个检测框，而后，获取多个检测框的分类概率，接着，根据多个检测框的分类概率分别生成多个检测框的置信度，并获取多个检测框的稳定度，最后，根据多个检测框的置信度和稳定度对多个检测框进行筛选。由此，可以有效利用电子设备的计算资源，通过检测框实时且稳定地检测出有意义的目标，从而可以降低服务器侧的资源占用，降低用户的流量消耗，提升用户在相关应用场景的使用体验。

下面参考附图描述本申请实施例的多目标检测方法、装置和电子设备。在具体描述本发明实施例之前，为了便于理解，首先对常用技术词进行介绍：

VOC，视觉目标分类(Visual Object Classes)。VOC数据集应用于深度学习图像领域，是一个可以用来进行图像识别的数据集。

COCO，上下文中的公共对象(Common Objects in COntext)。COCO数据集应用于深度学习图像领域，是一个可以用来进行图像识别的数据集。

Imagenet数据集，应用于深度学习图像领域，其使用非常方便，几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。基于Imagenet数据集，可以实现图像分类、定位、检测等功能。

YOLOV2模型，你只看一眼(You Only Look Once，简称YOLO)模型的V2版本，其为单一网络目标检测模型。

MDL，百度移动端深度学习平台(Mobile deep learning，现升级为Paddle-mobile)。

MobileNet模型，用于移动设备和嵌入式设备的视觉应用，实现目标检测，细粒度识别，人脸属性提取，以及大规模地理定位等功能。

图1为本申请实施例一所提出的多目标检测方法的流程示意图。

本申请实施例的执行主体为多目标检测装置，该多目标检测装置可以被配置在任意一个电子设备中，以使该电子设备可以执行多目标检测功能。其中，电子设备可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作***、触摸屏和/或显示屏的硬件设备。

如图1所示，该多目标检测方法包括：

步骤101，根据目标生成多个检测框。

本申请实施例中，目标为需要对其进行检测的目标，例如可以为人、人脸、动物、物体、景物、风景名胜等等。

本申请实施例中，当用户通过电子设备拍摄图片或者视频时，可以通过预先训练的检测模型，对图片或者视频帧中的目标进行检测，确定图片或者视频帧中的各目标。并且，在用户连续拍摄多帧图片或者拍摄视频时，为了实现对连续拍摄的多帧图片或视频帧中的目标进行实时地检测和追踪，可以根据检测的目标生成多个检测框。其中，在生成多个检测框的同时，可以给每个检测框进行编号，指定对应的ID号，以对每个检测框的身份进行标识。

具体地，可以获取大量的训练数据，其中，已预先对训练数据中的目标进行标注，从而可以利用标注后的训练数据对初始的深度学习模型进行训练，得到检测模型。例如，可以使用大量的公开数据集，比如ImageNet数据集、COCO数据集、VOC数据集等，对初始的深度学习模型进行训练，和/或，在线或离线采集不同类别的训练数据，利用采集的训练数据，对初始的深度学习模型进行训练，得到检测模型。

可以理解的是，在训练得到检测模型后，可以将图片或者视频帧(本申请中记为检测画面)输入至该检测模型，确定检测画面中的各目标，以及各目标对应的分类概率。在确定各目标后，可以根据检测的每个目标生成多个检测框，并给每个检测框进行编号。

作为一种示例，参见图2，图2为本申请实施例中检测模型的训练过程示意图。具体地，可以通过ImageNet数据集、COCO数据集、VOC数据集等，对初始的深度学习模型进行训练，在训练的过程中，可以通过更该损失函数(比如增加了帧间误差、中心位移误差等)、训练策略等方式，提升检测模型精度，并通过使用不同类别的训练数据，对初始的深度学习模型进行分类训练，得到检测模型。

进一步地，在保证检测模型精度的情况下，可以提高模型的检测速度，降低电子设备的功耗，本申请中，可以对检测模型进行裁剪压缩处理。作为一种示例，检测模型可以为MobileNet+YOLOV2模型，可以在运行库，例如MDL库上运行裁剪压缩处理后的MobileNet+YOLOV2模型，将检测画面输入至该MobileNet+YOLOV2模型，可以确定检测画面中的各目标。

步骤102，获取多个检测框的分类概率。

本申请实施例中，可以利用训练后的检测模型，确定多个检测框的分类概率，具体地，可以将包含目标和多个检测框的检测画面输入至检测模型，确定多个检测框的分类概率。或者，还可以基于相关技术中的预设算法，确定分类概率，对此不做限制。

步骤103，根据多个检测框的分类概率分别生成多个检测框的置信度。

本申请实施例中，置信度可以分为三个等级，分别为高置信度、中置信度以及低置信度。

具体地，可以根据预设的阈值参数以及多个检测框的分类概率，确定多个检测框的置信度。例如，当检测框的分类概率高于第一阈值参数时，确定该检测框的置信度为高置信度，当检测框的分类概率高于第二阈值参数，且不高于第一阈值参数时，确定该检测框的置信度为中置信度，当检测框的分类概率不高于第二阈值参数时，可以确定该检测框的置信度为低置信度。其中，第一阈值参数和第二阈值参数可以根据具体的应用场景和检测模型确定，当应用场景和/或检测模型不同时，或者，当检测模型相同，但是模型参数不同时，第一阈值参数和第二阈值参数可以不同。

举例而言，当第一阈值参数为0.5，第二阈值参数为0.3时，当检测框的分类概率位于(0.5,1]之间时，可以确定该检测框的置信度为高置信度，当检测框的分类概率位于(0.3,0.5]之间时，可以确定该检测框的置信度为中置信度，当检测框的分类概率位于[0,0.3]之间时，可以确定该检测框的置信度为低置信度。

需要说明的是，本申请实施例中仅以置信度分为三个等级示例，实际应用时，还可以将置信度进行细粒度的划分为四个等级、五个等级等等，对此不作限制。

步骤104，获取多个检测框的稳定度。

本申请实施例中，稳定度分为稳定和不稳定。

可以理解的是，当用户通过电子设备连续拍摄多帧图片时，或者，当用户拍摄视频时，连续拍摄的多帧图片或者连续的多帧视频帧之间的相似性较高，因此，多帧图片或者多帧视频帧中的目标以及目标的位置不应发生较大的变化。

因此，作为本申请实施例的一种可能的实现方式，可以通过获取检测框历史检测数据，而后将多个检测框与检测框历史检测数据进行比对，以确定多个检测框的稳定度。

例如，针对每个检测框，可以根据该检测框的位置，在检测框历史检测数据中进行查询，确定是否存在与该检测框的面积重合比例超过预设占比的历史检测框，如果存在与该检测框的面积重合比例超过预设占比的历史检测框，则判断该检测框的稳定度为稳定，如果不存在与该检测框的面积重合比例超过预设占比的历史检测框，则判断该检测框的稳定度为不稳定。其中，预设占比可以为电子设备的内置程序预先设置的，或者，还可以由用户进行设置，对此不作限制。比如，预设占比可以为40％。

或者，针对每个检测框，可以将该检测框与检测框历史检测数据进行比对，判断该检测框与检测框历史检测数据的重复数是否大于预设阈值，如果大于或等于预设阈值，则判断稳定度为稳定，如果小于预设阈值，则判断稳定度为不稳定。其中，预设阈值可以为电子设备的内置程序预先设置的，或者，还可以由用户进行设置，对此不作限制。也就是说，通过判断检测框历史检测数据中是否存在与该检测框相同的历史检测框，若存在，则判断稳定度为稳定，若不存在，则判断稳定度为不稳定。

步骤105，根据多个检测框的置信度和稳定度对多个检测框进行筛选。

具体地，在确定每个检测框的置信度和稳定度后，可以根据多个检测框的置信度和稳定度对多个检测框进行筛选。例如，可以保留高置信度且稳定的检测框，而对高置信度且不稳定、中置信度且稳定、中置信度且不稳定、低置信度且稳定、低置信度且不稳定的检测框进行抑制，或者，可以同时保留高置信度且稳定的检测框和中置信度且稳定的检测框，而对高置信度且不稳定、中置信度且不稳定、低置信度且稳定、低置信度且不稳定的检测框进行抑制，对此不作限制。

为了清楚地说明上述实施例，本申请还提出一种多目标检测方法。参见图3，图3为本申请实施例二所提供的多目标检测方法的流程示意图。

如图3所示，该多目标检测方法可以包括以下步骤：

步骤201，根据目标生成多个检测框。

步骤202，获取多个检测框的分类概率。

步骤201至202的执行过程可以参见上述实施例中步骤101至102的执行过程，在此不做赘述。

步骤203，对多个检测框进行非极大值抑制。

可以理解的是，当针对每个目标，生成多个检测框后，由于检测画面的检测框较多，检测画面较为混乱，因此，为了简化检测画面，可以对多个检测框进行非极大值抑制(Non-Maximum Suppression，简称NMS)，去除冗余的检测框。具体地，可以预先设定非极大值抑制阈值，比如为0.5，当多个检测框重叠面积占据最大检测框面积的比例超过非极大值抑制阈值时，只保留分类概率高于预设的第三阈值参数的检测框。其中，预设的第三阈值参数可以为电子设备的内置程序预先设置的，或者，可以由用户进行设置，对此不作限制。

进一步的，当对多个检测框进行非极大值抑制后，可以将保留的检测框存入至检测框历史检测数据中。

步骤204，根据多个检测框的分类概率分别生成多个检测框的置信度，并获取多个检测框的稳定度。

步骤204的执行过程可以参见上述实施例中步骤103至104的执行过程，在此不做赘述。

步骤205，获取检测框的面积和/或边界距离。

本申请实施例中，边界距离为检测框距离检测画面边界的距离，包括：检测框距离检测画面上边界的距离、检测框距离检测画面下边界的距离、检测框距离检测画面左边界的距离、和/或、检测框距离检测画面右边界的距离。

具体地，在生成每个检测框后，可以确定每个检测框的位置、大小等信息，从而可以根据各检测框的位置、大小等信息，确定检测框的面积，以及边界距离。

步骤206，根据检测框的面积和/或边界距离对多个检测框进行抑制。

具体地，面积较小和/或距离检测画面较远的目标，对于用户来说意义不大，因此，本申请中，可以将面积较小和/或距离检测画面边界较近的检测框进行抑制。具体地，针对每个检测框，可以将检测框的面积除以检测画面的面积，得到检测框与检测画面的面积占比，对面积占比低于预设的第四阈值参数的检测框进行抑制，和/或，对边界距离小于预设的第五阈值参数的检测框进行抑制。其中，第四阈值参数和第五预设阈值均为预先设置的，例如第四阈值参数可以为25分之一，第五阈值参数可以为12分之一。

需要说明的是，由于边界距离包括：检测框距离检测画面上边界的距离、检测框距离检测画面下边界的距离、检测框距离检测画面左边界的距离、和/或、检测框距离检测画面右边界的距离，因此，只要检测框距离检测画面上边界的距离、检测框距离检测画面下边界的距离、检测框距离检测画面左边界的距离、检测框距离检测画面右边界的距离中的其中一个小于预设的第五阈值参数时，就对该检测框进行抑制。

可以理解的是，如果目标间常出现嵌套的话，若保留所有的检测框，则会使得检测画面看起来较为混乱。因此，本申请中，还可以对嵌套的检测框进行抑制，以简化检测画面。具体地，可以确定多个检测框的中心位置点，确定相邻两个检测框的中心位置点的距离是否低于预设的第六阈值参数，若是，则表明相邻两个检测框距离较近，此时，可以选择保留较大的检测框或者较小的检测框。

步骤207，对置信度低于置信度阈值，且稳定度为不稳定的检测框进行抑制。

本申请实施例中，置信度阈值可以根据电子设备本地缓存的历史图片帧数量确定。具体地，每当对一个检测画面中的检测框进行筛选后，可以将筛选后的检测画面，存入至历史图片帧中。

当缓存的历史图片帧数量较多时，比如超过3帧时，说明具有足够的检测框历史检测数据，此时，可以保留高置信度且稳定的检测框和中置信度且稳定的检测框，而对高置信度且不稳定、中置信度且不稳定、低置信度且稳定、低置信度且不稳定的检测框进行抑制。而当缓存的历史图片帧数量较少时，比如低于3帧时，则可以保留高置信度且稳定的检测框，而对高置信度且不稳定、中置信度且稳定、中置信度且不稳定、低置信度且稳定、低置信度且不稳定的检测框进行抑制。

进一步地，还可以根据检测框的相互覆盖比例，对置信度较低的检测框进行抑制，以进一步简化检测画面。例如，当筛选后的检测框有两个，分别为检测框A和B，且检测框A和B的面积占比超过预设的第七阈值参数时，假设检测框A的置信度为0.8，而检测框B的置信度为0.6，则可以对检测框B进行抑制，而最终的检测结果只保留检测框A。

作为一种可能的实现方式，在图1和图3所示实施例的基础上，该多目标检测方法还可以包括：获取上一帧的追踪框，根据上一帧的追踪框对多个检测框进行抑制。

具体地，可以计算上一帧的追踪框与多个检测框的面积重合比例，对面积重合比例高于预设的第八阈值参数的检测框进行抑制。

可以理解的是，假设根据上一帧的追踪框，确定上一帧检测画面中有意义的目标为目标A和目标B，如果当前帧中出现了新的目标，则新的目标不会与目标A和目标B完全重合，因此，可以根据上一帧的追踪框与多个检测框的面积重合比例，确定当前帧中是否出现了新的目标，如果未出现新的目标，则对检测框进行抑制，从而进一步精简检测结果，简化检测画面。

例如，上一帧的追踪框的编号为：Track002，当前帧确定的检测框的编号为：Det010，假设第八阈值参数为40％，如果Track002和Det010的面积重合比例为60％，则对当前帧确定的检测框进行抑制。

作为一种可能的实现方式，参见图4，在上述实施例的基础上，该多目标检测方法还可以包括：

步骤301，根据目标生成多个追踪框。

本申请实施例中，可以根据检测的目标生成多个追踪框。其中，在生成多个追踪框的同时，可以给每个追踪框进行编号，指定对应的ID号，以对每个追踪框的身份进行标识。

根据追踪框的编号，可以确定追踪框的历史信息，例如历史位置、被抑制的次数、被匹配的次数等信息，其中，历史位置和被匹配的次数被用来记录日志，以用于调试使用，被抑制的次数用于提升检测结果的稳定性，具体地，只有连续多次一直被抑制的追踪框才会被删除。

步骤302，根据多个检测框对多个追踪框进行抑制。

在实际应用场景中，对于快速位移、形状变化的目标，追踪算法效果较差，可能出现无效的追踪框。因此，本申请中，可以根据多个检测框对追踪框进行校验，以确定追踪框是否无效。具体地，针对每个追踪框，可以确定是否存在与之大面积重合的检测框，若是，则保留该追踪框，并将该追踪框对应的抑制次数置零，若否，则对该追踪框进行抑制，同时将该追踪框的抑制次数加一。而后，确定该追踪框的抑制次数是否超过了最大抑制次数，若是，则删除该追踪框，从而可以避免无效的追踪框。

同样地，可以根据追踪框的面积和/或边界距离对多个追踪框进行抑制。具体地，针对每个追踪框，可以将追踪框的面积除以检测画面的面积，得到追踪框和检测画面的面积占比，对面积占比低于预设的第四阈值参数的追踪框进行抑制，和/或，对边界距离小于预设的第五阈值参数的追踪框进行抑制。当对某个追踪框进行抑制时，需要将该追踪框的抑制次数加一。而后，针对每个追踪框，可以确定该追踪框的抑制次数是否超过了最大抑制次数，若是，则删除该追踪框。

同样地，可以对多个追踪框进行非极大值抑制，以进一步简化检测画面。

最后，可以将筛选后的检测框和追踪框进行输出，以确定检测画面中的各目标。

需要说明的是，还可以通过LSTM模型，将上一次的检测特征传递到后续检测步骤中，以实现对检测画面中的目标进行检测，但是，该方法的计算量较大、速度较慢、功耗较大，且难以在电子设备侧实现。并且，基于LSTM模型对检测画面中的目标进行检测，需要使用标注后的连续帧作为训练数据，增加了检测模型的训练成本。

作为一种应用场景，当用户连续拍摄多帧图片或者拍摄视频时，可以通过检测模型确定第一张图片或视频帧中的目标，或者，通过检测模型确定某一张图片或视频帧中的目标，而后，可以通过检测框和追踪框，对后续拍摄的视频帧或图片中的目标进行检测和追踪。

作为一种示例，参见图5，图5为本申请实施例四所提供的多目标检测方法的流程示意图。

追踪框生成后，可以进行：

1、追踪框的信息初始化。具体地，可以检查追踪框的ID编号，根据编号查找追踪框的历史信息：如历史位置、被匹配次数、被抑制的次数等。

2、判断追踪框是否被检测框匹配，若是，则将抑制次数置零，若否，则抑制次数加一，并判断抑制次数是否超过最大抑制次数，若是，则删除追踪框。

3、删除无用的追踪框，例如，删除较小和处于边缘的追踪框，并将抑制次数加一。

4、对追踪框进行非极大值抑制、抑制次数加一。

检测框生成后，可以进行：

S1、检测框的信息初始化。具体地，可以给检测框编号，指定ID，计算分类概率等。

S2、对检测框进行非极大值抑制。

S3、生成检测框的置信度，如高、中、低置信度等。

S4、抑制无用的检测框，例如，删除较小和处于边缘的检测框。

S5、对嵌套的检测框进行抑制，保留较大的检测框或者较小的检测框。

S6、检查缓存的历史图片帧数量，当缓存的历史图片帧数量较多时，保留高置信度且稳定的检测框和中置信度且稳定的检测框；当缓存的历史图片帧数量较少时，保留高置信度且稳定的检测框。

S7，根据检测框的相互覆盖比例，对置信度较低的检测框进行抑制。

S8、根据上一帧的追踪框对检测框进行抑制。

最后，可以将筛选后的检测框和追踪框进行输出，以确定检测画面中的各目标。同时，可以将检测框作为上一帧追踪框，以进行下一帧检测画面的识别。

图6是本申请实施例五所提供的多目标检测装置的结构示意图。该多目标检测装置100可以通过软件、硬件或者两者的结合实现，该多目标检测装置100可以包括：第一生成模块101、第一获取模块102、第二生成模块103、第二获取模块104，以及筛选模块105。

其中，第一生成模块101，用于根据目标生成多个检测框。

第一获取模块102，用于获取多个检测框的分类概率。

第二生成模块103，用于根据多个检测框的分类概率分别生成多个检测框的置信度。

第二获取模块104，用于获取多个检测框的稳定度。

作为一种可能的实现方式，第二获取模块104，具体用于获取检测框历史检测数据；判断生成的多个检测框与检测框历史检测数据的重复数是否大于预设阈值；如果大于或等于预设阈值，则判断稳定度为稳定；如果小于预设阈值，则判断稳定度为不稳定。

筛选模块105，用于根据多个检测框的置信度和稳定度对多个检测框进行筛选。

作为一种可能的实现方式，筛选模块105，具体用于：对置信度低于置信度阈值，且稳定度为不稳定的检测框进行抑制。

进一步地，作为本申请实施例的一种可能的实现方式，参见图7，在图6所示实施例的基础上，该多目标检测装置100还可以包括：

抑制模块106，用于在获取多个检测框的分类概率之后，对多个检测框进行非极大值抑制。

第三获取模块107，用于在根据多个检测框的置信度和稳定度对多个检测框进行筛选之前，获取检测框的面积和/或边界距离。

抑制模块106，还用于根据检测框的面积和/或边界距离对多个检测框进行抑制。

第四获取模块108，用于获取上一帧的追踪框。

抑制模块106，还用于根据上一帧的追踪框对多个检测框进行抑制。

第三生成模块109，用于根据目标生成多个追踪框。

抑制模块106，还用于根据多个检测框对多个追踪框进行抑制。

需要说明的是，前述图1-图5实施例中对多目标检测方法实施例的解释说明也适用于该实施例的多目标检测装置100，其实现原理类似，此处不再赘述。

本申请实施例的多目标检测装置，通过根据目标生成多个检测框，而后，获取多个检测框的分类概率，接着，根据多个检测框的分类概率分别生成多个检测框的置信度，并获取多个检测框的稳定度，最后，根据多个检测框的置信度和稳定度对多个检测框进行筛选。由此，可以有效利用电子设备的计算资源，通过检测框实时且稳定地检测出有意义的目标，从而可以降低服务器侧的资源占用，降低用户的流量消耗，提升用户在相关应用场景的使用体验。

为了实现上述实施例，本申请还提出一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现如本申请前述实施例提出的多目标检测方法。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本申请前述实施例提出的多目标检测方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，当计算机程序产品中的指令由处理器执行时，执行本申请前述实施例提出的多目标检测方法。

图8示出了适于用来实现本申请实施方式的示例性电子设备的框图。图8显示的电子设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

电子设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的多目标检测方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种多目标检测方法，应用于电子设备，其特征在于，包括：

根据目标生成多个检测框；

获取所述多个检测框的分类概率；

根据所述多个检测框的置信度和稳定度对所述多个检测框进行筛选，包括：

对所述置信度低于置信度阈值，且所述稳定度为不稳定的检测框进行抑制；

所述获取所述多个检测框的稳定度，包括：

获取检测框历史检测数据；

判断生成的所述多个检测框与所述检测框历史检测数据的重复数是否大于预设阈值；

如果大于或等于所述预设阈值，则判断所述稳定度为稳定；

如果小于所述预设阈值，则判断所述稳定度为不稳定。

2.如权利要求1所述的多目标检测方法，其特征在于，在所述获取所述多个检测框的分类概率之后，还包括：

对所述多个检测框进行非极大值抑制。

3.如权利要求1所述的多目标检测方法，其特征在于，在所述根据所述多个检测框的置信度和稳定度对所述多个检测框进行筛选之前，还包括：

获取所述检测框的面积和/或边界距离；

根据所述检测框的面积和/或边界距离对所述多个检测框进行抑制。

4.如权利要求1所述的多目标检测方法，其特征在于，还包括：

获取上一帧的追踪框；

根据所述上一帧的追踪框对所述多个检测框进行抑制。

5.如权利要求1所述的多目标检测方法，其特征在于，还包括：

根据目标生成多个追踪框；

根据所述多个检测框对所述多个追踪框进行抑制。

6.一种多目标检测装置，应用于电子设备，其特征在于，包括：