CN113095434B

CN113095434B - 目标检测方法及装置、电子设备、存储介质

Info

Publication number: CN113095434B
Application number: CN202110462394.2A
Authority: CN
Inventors: 李搏; 窦浩轩; 甘伟豪
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2024-06-11
Anticipated expiration: 2041-04-27
Also published as: CN113095434A

Abstract

本公开实施例公开了一种目标检测方法及装置、电子设备、存储介质。方法包括：采用更新后的目标检测模型，检测获得的待检测图像，得到目标检测结果；更新后的目标检测模型是采用与结果预测图像对应的、经过人工标注处理的场景图像对目标检测模型训练获得；目标检测模型是基于预设训练集对初始检测模型训练获得，结果预测图像是经由目标检测模型检测后、且包括预测标注数据的场景图像；预设训练集为从数据集中选出的预设类别的多张样本图像；数据集是多张标注出目标对象的图像，且多张图像中预设数量图像的目标对象之间属于不同类别。通过本公开，能够提高目标检测结果的准确性。

Description

目标检测方法及装置、电子设备、存储介质

技术领域

本公开涉及图像处理技术，尤其涉及一种目标检测方法及装置、电子设备、存储介质。

背景技术

大规模的城市级猫、狗检测在智慧城市等方面中有着非常重要的作用，相比于常规的人/车检测，由于猫、狗都比较小，且猫、狗的样本比较难收集，所以猫、狗的检测具有更多的挑战。

相关技术中对猫、狗检测的检测模型的精度不高，使得检测效果较差。

发明内容

本公开实施例提供一种目标检测方法及装置、电子设备、存储介质，能够提高目标检测结果的准确性。

本公开实施例的技术方案是这样实现的：

本公开实施例提供一种目标检测方法，包括：获取待检测图像；采用更新后的目标检测模型，对所述待检测图像进行目标检测，得到目标检测结果；所述更新后的目标检测模型是采用与结果预测图像对应的、且经过人工标注处理的场景图像对目标检测模型训练获得；其中，所述目标检测模型是基于预设训练集对初始检测模型训练获得的，所述结果预测图像是经由所述目标检测模型检测后的、且包括预测标注数据的场景图像；所述人工标注处理用于对所述预测标注数据进行校验，并根据校验结果在与所述结果预测图像对应的场景图像中进行目标对象的正确标注；所述预设训练集为从数据集中选出的属于预设类别的多张样本图像；所述数据集是多张标注出了目标对象的图像，且所述多张图像中预设数量图像的目标对象之间属于不同类别。

上述方法中，在所述采用更新后的目标检测模型，对所述待检测图像进行目标检测，得到目标检测结果之前，还包括：采用目标检测模型，对多张场景图像进行目标检测，得到所述结果预测图像；获取所述与所述结果预测图像对应的、且经过人工标注处理的场景图像；将所述经过人工标注处理的场景图像作为训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型。

上述方法中，所述经过人工标注处理的场景图像包括：带有目标标注数据的场景图像和未带有目标标注数据的场景图像。

上述方法中，所述将所述经过人工标注处理的场景图像作为训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型，包括：将带有目标标注数据的场景图像确定为正样本，以及将未带有目标标注数据的场景图像确定为负样本，所述正样本和所述负样本为所述训练样本；根据所述训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型。

上述方法中，所述将所述经过人工标注处理的场景图像作为训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型，包括：在所述经过人工标注处理的场景图像的数量大于或等于预设阈值的情况下，将所述经过人工标注处理的场景图像作为训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型。

上述方法中，在所述采用目标检测模型，对多张场景图像进行目标检测，得到所述结果预测图像之前，还包括：根据视频帧的属性参数，以预设时间间隔截取场景视频流中的视频帧，得到预设数量的视频帧；将所述预设数量的视频帧确定为所述多张场景图像。

上述方法中，所述带有目标标注数据的场景图像为，标注出猫和狗中的至少一种的场景图像；所述未带有目标标注数据的场景图像为，未包含所述猫和狗中的至少一种的场景图像。

上述方法中，所述预设类别包括：猫和狗中的至少一种。

上述方法中，所述待检测图像包括：多张待检测子图像；所述目标对象包括：猫和狗中的至少一种；所述目标检测结果包括：标注出所述猫和狗中的至少一种的位置区域的第一结果图像，或未标注出所述猫和狗中的至少一种的位置区域的第二结果图像；所述采用更新后的目标检测模型，对所述待检测图像进行目标检测，得到目标检测结果，包括：采用所述更新后的目标检测模型，对每张待检测子图像进行目标检测，得到所述每张待检测子图像的至少一个感兴趣区域，以及所述至少一个感兴趣区域中每个感兴趣区域对应的后验概率；在所述至少一个感兴趣区域中任意一个感兴趣区域对应的后验概率大于或等于预设值的情况下，在所述每张待检测子图像中，标注出所述猫和狗中的至少一种的位置区域，得到所述第一结果图像；在所述至少一个感兴趣区域所对应的后验概率均小于所述预设值的情况下，在所述每张待检测子图像中不标注所述猫和狗中的至少一种的位置区域，得到所述第二结果图像。

上述方法中，所述目标检测模型包括：卷积层、区域生成网络、池化层、全连接层和归一化指数层；所述采用所述更新后的目标检测模型，对所述每张待检测子图像进行目标检测，得到所述每张待检测子图像的至少一个感兴趣区域，以及所述至少一个感兴趣区域中每个感兴趣区域对应的后验概率，包括：采用所述卷积层对所述每张待检测子图像进行卷积处理，得到所述每张待检测子图像对应的特征图；采用所述区域生成网络，对所述特征图进行感兴趣区域的识别，得到所述特征图的所述至少一个感兴趣区域；采用所述池化层将所述至少一个感兴趣区域中每个感兴趣区域进行池化处理，得到对应的特征向量；采用所述全连接层将所述特征向量转换为对应的二维向量；采用所述归一化指数层对所述二维向量进行归一化处理，得到所述每个感兴趣区域的后验概率。

本公开实施例提供一种目标检测装置，包括：图像获取模块，用于获取待检测图像；目标检测模块，用于采用更新后的目标检测模型，对所述待检测图像进行目标检测，得到目标检测结果；所述更新后的目标检测模型是采用与结果预测图像对应的、且经过人工标注处理的场景图像对目标检测模型训练获得；其中，所述目标检测模型是基于预设训练集对初始检测模型训练获得的，所述结果预测图像是经由所述目标检测模型检测后的、且包括预测标注数据的场景图像；所述人工标注处理用于对所述预测标注数据进行校验，并根据校验结果在与所述结果预测图像对应的场景图像中进行目标对象的正确标注；所述预设训练集为从数据集中选出的属于预设类别的多张样本图像；所述数据集是多张标注出了目标对象的图像，且所述多张图像中预设数量图像的目标对象之间属于不同类别。

上述装置还包括：检测模块，用于在所述采用更新后的目标检测模型，对所述待检测图像进行目标检测，得到目标检测结果之前，采用所述目标检测模型，对多张场景图像进行目标检测，得到所述结果预测图像；样本获取模块，用于获取所述与结果预测图像对应的、且经过人工标注处理的场景图像；更新模块，用于将所述经过人工标注处理的场景图像作为训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型。

上述装置中，所述经过人工标注处理的场景图像包括：带有目标标注数据的场景图像和未带有目标标注数据的场景图像。

上述装置中，所述更新模块，还用于将带有目标标注数据的场景图像确定为正样本，以及将未带有目标标注数据的场景图像确定为负样本，所述正样本和所述负样本为所述训练样本；根据所述训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型。

上述装置中，所述更新模块，还用于在所述经过人工标注处理的场景图像的数量大于或等于预设阈值的情况下，将所述经过人工标注处理的场景图像作为训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型。

上述装置中，所述检测模块，还用于在所述采用目标检测模型，对多张场景图像进行目标检测，得到所述结果预测图像之前，根据视频帧的属性参数，以预设时间间隔截取场景视频流中的视频帧，得到预设数量的视频帧；将所述预设数量的视频帧确定为所述多张场景图像。

上述装置中，所述带有目标标注数据的场景图像为，标注出猫和狗中的至少一种的场景图像；所述未带有目标标注数据的场景图像为，未包含所述猫和狗中的至少一种的场景图像。

上述装置中，所述预设类别包括：猫和狗中的至少一种。

上述装置中，所述待检测图像包括：多张待检测子图像；所述目标对象包括：猫和狗中的至少一种；所述目标检测结果包括：标注出所述猫和狗中的至少一种的位置区域的第一结果图像，或未标注出所述猫和狗中的至少一种的位置区域的第二结果图像；所述目标检测模块，还用于采用所述更新后的目标检测模型，对每张待检测子图像进行目标检测，得到所述每张待检测子图像的至少一个感兴趣区域，以及所述至少一个感兴趣区域中每个感兴趣区域对应的后验概率；在所述至少一个感兴趣区域中任意一个感兴趣区域对应的后验概率大于或等于预设值的情况下，在所述每张待检测子图像中，标注出所述猫和狗中的至少一种的位置区域，得到所述第一结果图像；在所述至少一个感兴趣区域所对应的后验概率均小于所述预设值的情况下，在所述每张待检测子图像中不标注所述猫和狗中的至少一种的位置区域，得到所述第二结果图像。

上述装置中，所述目标检测模型包括：卷积层、区域生成网络、池化层、全连接层和归一化指数层；所述目标检测模块，还用于采用所述卷积层对所述每张待检测子图像进行卷积处理，得到所述每张待检测子图像对应的特征图；采用所述区域生成网络，对所述特征图进行感兴趣区域的识别，得到所述特征图的所述至少一个感兴趣区域；采用所述池化层将所述至少一个感兴趣区域中每个感兴趣区域进行池化处理，得到对应的特征向量；采用所述全连接层将所述特征向量转换为对应的二维向量；采用所述归一化指数层对所述二维向量进行归一化处理，得到所述每个感兴趣区域的后验概率。

本公开实施例提供一种电子设备，包括：存储器，用于存储可执行计算机程序；处理器，用于执行所述存储器中存储的可执行计算机程序时，实现上述的目标检测方法。

本公开实施例提供一种计算机可读存储介质，存储有计算机程序，用于引起处理器执行时，实现上述的目标检测方法。

采用上述技术实施方案，由于在采用更新后的目标检测模型，对待检测图像进行目标检测之前，使用从预设的数据集中选出的属于预设类别的样本图像，训练出目标检测模型，之后，还通过目标检测模型对场景图像进行了挖掘，得到了带有预测标注数据的场景图像，根据获取到的带有预测标注数据的场景图像所对应的带有正确的人工标注数据的原始场景图像，对训练出的目标检测模型继续训练，从而得到了更新后的目标检测模型，所以得到的更新后的目标检测模型更加适应实际应用中的检测场景，从而使得更新后的目标检测模型的精度更高，从而在使用更新后的目标检测模型进行目标检测的情况下，得到的目标检测结果更准确，提高了目标检测结果的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1为本公开实施例提供的目标检测***的一个可选的架构示意图；

图2A为本公开实施例提供的第一终端的结构示意图；

图2B为本公开实施例提供的第二终端的结构示意图；

图3为本公开实施例提供的电子设备的结构示意图；

图4为本公开实施例提供的目标检测方法的一个可选的流程示意图；

图5为本公开实施例提供的目标检测方法的一个可选的流程示意图；

图6是本公开实施例提供的示例性的目标检测模型对场景图像进行目标检测时的流程示意图；

图7为本公开实施例提供的目标检测方法的一个可选的流程示意图；

图8A为本公开实施例提供的示例性的带有目标标注数据的场景图像；

图8B为本公开实施例提供的示例性的未带有目标标注数据的场景图像；

图9为本公开实施例提供的目标检测方法的一个可选的流程示意图；

图10为本公开实施例提供的目标检测方法的一个应用场景的流程示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，所描述的实施例不应视为对本公开的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的，不是旨在限制本公开。

对本公开实施例进行进一步详细说明之前，对本公开实施例中涉及的名词和术语进行说明，本公开实施例中涉及的名词和术语适用于如下的解释。

1)目标检测：目标检测通常需要通过目标检测网络对图片进行特征提取，再对提取的特征进行前景和背景的识别，分类出正确的前景作为目标对象；目标检测关注特定的物体目标，要求同时获得这一目标对象的类别信息和位置信息。

2)训练样本：目标检测网络通过对训练样本中针对目标对象的正样本和负样本的学习，提取目标对象对应的特征，并正确分类出目标对象的前景和背景，从而实现目标检测。

目前，大规模的城市级猫狗检测在智慧城市和安防场景中有着非常重要的作用，相比于常规的人/车检测，猫狗检测具有更多的挑战。经过研究发现，猫狗检测的难点在于：(1)和大多数室外检测难点相同，猫狗都比较小，检测对于小样本(目标所占据的图像区域的面积在整个图像面积中较小)的效果都比较差；(2)除此之外，室外的猫狗较少，样本比较难收集。所以采用与其他检测任务一样的方法，如采集猫狗数据→送标→训练，所得到的模型的精度较低，检测效果会很难满足需求。

本公开实施例提供一种目标检测方法及装置、电子设备、存储介质，能够提高目标检测结果的准确性。下面说明本公开实施例提供的目标检测设备的示例性应用，本公开实施例提供的设备可以实施为带有图像采集设备的笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端。下面，将说明设备实施为终端时的示例性应用。

参见图1，图1是本公开实施例提供的目标检测***100的一个可选的架构示意图，目标检测***100中包括第一终端(模型训练设备)400-1和第二终端(目标检测设备)400-2；为实现支撑一个目标检测应用，第一终端400-1和第二终端400-2通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

第一终端400-1用于采用目标检测模型，对多张场景图像进行目标检测，得到结果预测图像；目标检测模型是基于预设训练集对初始检测模型训练获得的；预设训练集为从数据集中选出的属于预设类别的多张样本图像；数据集是多张标注出了目标对象的图像，且多张图像中预设数量图像的目标对象之间属于不同类别；结果预测图像包括：预测标注数据；以及，用于获取与结果预测图像对应的、且经过人工标注处理的场景图像；人工标注处理用于对预测标注数据进行校验，并根据校验结果在与结果预测图像对应的场景图像中进行目标对象的正确标注；以及，将经过人工标注处理的场景图像作为训练样本，对目标检测模型进行训练，得到更新后的目标检测模型，更新后的目标检测模型用于对待检测图像进行目标检测时使用；并将得到的更新后的目标检测模型发送至服务器200，通过服务器200转发至第二终端400-2。第二终端400-2用于获取待检测图像；采用第一终端400-1得到的更新后的目标检测模型，对待检测图像进行目标检测，得到目标检测结果，并将目标检测结果在图形界面4001显示，以及，将检测结果发送至服务器200，服务器200将检测结果存储至数据库500中；以及数据库500还用于存储第一终端400-1用于对目标检测模型训练的预设训练集。

根据上述可知，上述目标检测***100中，在第一终端和第二终端设置于不同的电子设备的情况下，第二终端所在的电子设备可以采用第一终端所在的电子设备所训练得到的更新后的目标检测模型，来对待检测图像进行目标检测，从而得待目标检测结果。

在本公开的一些实施例中，上述第一终端和第二终端还可以设置于同一电子设备，也就是说，目标检测模型的训练和在线上场景中的使用，可以由同一电子设备执行。在此种实施方式下，电子设备可以不需要与服务器200交互，从而在通过训练得到更新后的目标检测模型之后，便可采用更新后的目标检测模型对待检测图像进行目标检测。

示例性的，在智慧城市的应用场景中，数据库500中保存有针对各种目标对象的预设训练集，例如，烟花、横幅、猫、狗等。在需要检测城市中的猫、狗，或者，同时检测猫和狗的情况下，第一终端400-1可以通过服务器200从数据库500中获取猫、狗的预设训练集，基于预设训练集训练目标检测网络，得到目标检测模型。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本公开实施例中不做限制。

图2A和图2B是本公开实施例提供的在第一终端和第二终端属于不同电子设备的情况下，第一终端和第二终端各自的结构示意图；图3是本公开实施例提供的在第一终端和第二终端属于同一电子设备的情况下，该电子设备的结构示意图。

参见图2A，图2A是本公开实施例提供的第一终端400-1的结构示意图，图2A所示的第一终端400-1包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。第一终端400-1中的各个组件通过总线***440耦合在一起。可理解，总线***440用于实现这些组件之间的连接通信。总线***440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2A中将各种总线都标为总线***440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本公开实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***451，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本公开实施例提供的装置可以采用软件方式实现，图2A示出了存储在存储器450中的模型训练装置455，其可以是程序和插件等形式的软件，包括以下软件模块：检测模块4551、样本获取模块4552和更新模块4553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

参见图2B，图2B是本公开实施例提供的第二终端400-2的结构示意图，图2B所示的第二终端400-2包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。第二终端400-2中的各个组件通过总线***540耦合在一起。可理解，总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2B中将各种总线都标为总线***540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器，易失性存储器可以是随机存取存储器。本公开实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***551，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证、和通用串行总线等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本公开实施例提供的装置可以采用软件方式实现，图2B示出了存储在存储器550中的检测装置555，其可以是程序和插件等形式的软件，包括以下软件模块：图像获取模块5551和目标检测模块5552，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

参见图3，图3是本公开实施例提供的电子设备600的结构示意图，图3所示的电子设备600包括：至少一个处理器610、存储器650、至少一个网络接口620和用户接口630。电子设备600中的各个组件通过总线***640耦合在一起。可理解，总线***640用于实现这些组件之间的连接通信。总线***640除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线***640。

处理器610可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口630包括使得能够呈现媒体内容的一个或多个输出装置631，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口630还包括一个或多个输入装置632，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器650可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器650可选地包括在物理位置上远离处理器610的一个或多个存储设备。

存储器650包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器，易失性存储器可以是随机存取存储器。本公开实施例描述的存储器650旨在包括任意适合类型的存储器。

在一些实施例中，存储器650能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***651，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块652，用于经由一个或多个(有线或无线)网络接口620到达其他计算设备，示例性的网络接口620包括：蓝牙、无线相容性认证、和通用串行总线等；

呈现模块653，用于经由一个或多个与用户接口630相关联的输出装置631(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块654，用于对一个或多个来自一个或多个输入装置632之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本公开实施例提供的装置可以采用软件方式实现，图3示出了存储在存储器650中的目标检测装置655，其可以是程序和插件等形式的软件，包括以下软件模块：图像获取模块6551、目标检测模块6552、检测模块6553、样本获取模块6554和更新模块6555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本公开实施例提供的模型训练装置、检测装置和目标检测装置可以采用硬件方式实现，作为示例，本公开实施例提供的模型训练装置和目标检测装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本公开实施例提供的图像处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

以下，将结合本公开实施例提供的上述电子设备600的示例性应用和实施，说明本公开实施例提供的目标检测方法。

图4是本公开实施例提供的目标检测方法的一个可选的流程示意图；如图4所示，所述方法包括：

S101、获取待检测图像。

待检测图像可以是针对特定环境而直接采集到的图像，也可以是针对特定环境进行实时视频采集得到的视频流经过分帧处理，而得到的每一帧图像；例如，在针对某个场景中的猫或狗进行检测时，待检测图像可以是以预设频率抓拍的该场景的图像，也可以是实时采集到的该场景的视频流经过分帧处理而得到的每一帧的图像。

待检测图像中可以包含目标对象，目标对象指在特定环境下要检测的对象，比如上述的某个场景下的猫或狗，或者某个交通路口的行人等；待检测图像也可以不包含目标对象。

待检测图像可以是电子设备通过自身的图像采集装置，例如，摄像头而采集到的图像，也可以是由外部的图像采集装置输入到电子设备中的图像，本公开实施例对此不作限定。

S102、采用更新后的目标检测模型，对待检测图像进行目标检测，得到目标检测结果；更新后的目标检测模型是采用与结果预测图像对应的、且经过人工标注处理的场景图像对目标检测模型训练获得；其中，目标检测模型是基于预设训练集对初始检测模型训练获得的，结果预测图像是经由目标检测模型检测后的、且包括预测标注数据的场景图像；人工标注处理用于对预测标注数据进行校验，并根据校验结果在与结果预测图像对应的场景图像中进行目标对象的正确标注；预设训练集为从数据集中选出的属于预设类别的多张样本图像；数据集是多张标注出了目标对象的图像，且多张图像中预设数量图像的目标对象之间属于不同类别。

电子设备可以采用训练获得的更新后的目标检测模型，对待检测图像进行目标检测，以得到采用边界框标注出目标对象的图像，以及该目标对象所对应的类别。

这里，数据集由多张标注出了目标对象的图像组成，且所述多张图像中预设数量图像的目标对象之间属于不同类别；示例性的，数据集可以是学术集，其中包括标注出了目标对象的多张不同类别的样本图像。这里，预测标注数据可以是标注出目标对象在图像中的所在位置的边界框的区域，或是为不包含任何边界框的区域，对应地，结果预测图像可以是采用边界框标注出目标对象的场景图像，或可以是未采用边界框标注出任何目标对象的场景图像。在一些实施例中，从数据集中选取的属于预设类别的多张样本图像的数量可以是200张，也可以是500张等，本公开实施例对此不作限定。

在一些实施例中，预设类别为行驶者，例如，可以包括猫和狗中的至少一种。电子设备可以预先从学术集中选取预设数量的标注了猫或狗，或者，同时标注了猫和狗的样本图像加入到预设训练集中，形成用于对初始检测模型进行训练的训练集；对应的，结果预测图像可以为针对猫和狗中的至少一种的预测图像。这里，对于在视频场景中较为少见的属于预设类别的待识别目标对象，从学术集选取多张标注出该待识别目标对象的图像作为样本图像，可以丰富用于训练对应初始检测模型的训练数据，以便可以利用丰富后的训练数据快速训练获得所需的冷启动模型，而无需进行大量的训练样本的收集，从而提高了对模型训练的效率。

在一些实施例中，预设训练集中除了包括从学术集中选择出的属于预设类别的图像之外，还可以包括预先采集的属于预设类别的场景图像。

在一些实施例中，场景图像可以是预先获得的多张视频场景图像，例如，可以是电子设备采用图像获取装置以预设频率对某一场景所拍摄的图像；也可以是电子设备对某些场景的场景视频流进行截帧操作而获得的多张视频帧。在另一些实施例中，场景图像也可以是电子设备从其他装置处获得的，本公开实施例对此不作限定。需要说明的是，某些场景可以是城市室内场景，也可以是城市室外场景等，本公开实施例对此不做限定。

需要说明的是，以下单独出现的“目标检测模型”指上述的基于预设训练集对初始检测模型训练所获得的模型；单独出现的“更新后的目标检测模型”指采用与结果预测图像对应的、且经过人工标注处理的场景图像对该目标检测模型训练获得的模型。

图5是本公开实施例提供的目标检测方法的一个可选的流程示意图，如图5所示，图4中的S102可以通过S1021-S1023实现，将结合图5示出的步骤进行说明。

S1021、采用更新后的目标检测模型，对每张待检测子图像进行目标检测，得到每张待检测子图像的至少一个感兴趣区域，以及至少一个感兴趣区域中每个感兴趣区域对应的后验概率；待检测图像包括：多张待检测子图像；目标对象包括：猫和狗中的至少一种；目标检测结果包括：标注出猫和狗中的至少一种的位置区域的第一结果图像，或未标注出猫和狗中的至少一种的位置区域的第二结果图像。

电子设备可以采用更新后的目标检测模型，对获得的待检测子图像进行目标检测，对于每张待检测子图像而言，可以获得至少一个感兴趣区域(region of interest，RoI)，以及至少一个感兴趣区域中每个感兴趣区域对应的后验概率。需要说明的是，目标检测模型可以是任意一个可以进行目标检测的网络模型，本公开实施例对此不做限定。

在本公开的一些实施例中，多张待检测子图像可以是多张连续的图像，电子设备可以根据多张连续图像的顺序，对每张图像进行目标检测；在本公开的另一些实施例中，多张待检测子图像也可以是多张不连续的图像。需要说明的是，本公开的实施例中，目标检测模型可以一次检测一张图像，也可以一次检测多张图像，本公开实施例对此不作限定。

在本公开的实施例中，一张待检测子图像可以是包含猫的图像或包含狗的图像，还可以是同时包含猫和狗的图像；相应地，需要从每张待检测子图像中检测出的目标对象则是猫或狗，或者是猫与狗。

在本公开的实施例中，由于输入的每张待检测子图像可以是包含了猫和狗中的至少一种的图像，也可以是既不包含猫也不包含狗的图像，因而，对于一张待检测子图像而言，采用更新后的目标检测模型进行目标检测后，所得到的目标检测结果可以包括：标注出猫和狗中的至少一种的位置区域的第一结果图像，以及处于该位置区域的目标对象的类别；也可以是未标注出猫和狗中的至少一种的位置区域的第二结果图像。例如，在需要检测的目标对象是猫，且输入的一张待检测子图像B中包含猫的情况下，更新后的目标检测模型所输出的目标检测结果则是带有边界框的待检测子图像B(第一结果图像)，且该边界框标注出了猫在待检测子图像B中的位置区域，以及，所标注出的目标对象的类别：“猫”；而在输入的一张待检测子图像B中不包含猫的情况下，更新后的目标检测模型所输出的目标检测结果则是不带任何标注的待检测子图像B(第二结果图像)。

S1022、在至少一个感兴趣区域中任意一个感兴趣区域对应的后验概率大于或等于预设值的情况下，在每张待检测子图像中，标注出猫和狗中的至少一种的位置区域，得到第一结果图像。

S1023、在至少一个感兴趣区域所对应的后验概率均小于预设值的情况下，在每张待检测子图像中不标注猫和狗中的至少一种的位置区域，得到第二结果图像。

电子设备通过目标检测模型，可以采用边界框，将后验概率大于或等于预设值的感兴趣区域在对应的待检测子图像上进行标注，并输出带有边界框的第一结果图像；对于所有感兴趣区域的后验概率均小于预设值的待检测子图像，目标检测模型不会在该待检测子图像上进行标注，并会输出未带有任何边界框的第二结果图像。

这里，预设值可以根据需要任意设定，其中，在将预设值设定的较低的情况下，可以获得模糊或者暗光等特点的困难样本，或未训练过的新样本等；在将预设值设定较高的情况下，可以获得不同大小尺度、姿态，以及，光照与环境等不同的正样本，本公开实施例对预设值的具体数值不做限定。

在一些实施例中，目标检测模型可以是基于区域的全卷积网络(Region-basedFully Convolutional Network，RFCN)下的目标检测模型；目标检测模型可以包括：卷积层、区域生成网络(Region Proposal Network，RPN)、池化层、全连接层和归一化指数层。

本公开实施例中，由于在得到目标检测模型后，电子设备还通过目标检测模型对场景图像进行了挖掘，得到了带有预测标注数据的场景图像，根据获取到的带有预测标注数据的场景图像所对应的带有正确的人工标注数据的原始场景图像，对训练出的目标检测模型继续训练，从而得到了更新后的目标检测模型，所以得到的更新后的目标检测模型更加适应实际应用中的检测场景，从而使得更新后的目标检测模型的精度更高，使得在使用更新后的目标检测模型对每张待检测子图像进行目标检测时，所得到的第一结果图像或第二结果图像更准确，从而提高了目标检测结果的准确性。

在本公开的实施例中，上述S1021可以通过S11-S15实现：

S11、采用卷积层对每张待检测子图像进行卷积处理，得到每张待检测子图像对应的特征图。

对于每一张待检测子图像而言，电子设备可以通过卷积层对该待检测子图像进行特征提取，得到该待检测子图像所对应的特征图(feature map)；例如，卷积层可以由两个普通卷积层和两个稠密卷积层组成，电子设备可以通过这两个普通卷积层和两个稠密卷积层，进行该待检测子图像的特征提取，从而得到该待检测子图像的特征图。

S12、采用区域生成网络，对特征图进行感兴趣区域的识别，得到特征图的至少一个感兴趣区域。

电子设备可以采用RPN网络对特征图进行感兴趣区域的识别，对于该待检测子图像而言，得到与该待检测子图像对应的至少一个感兴趣区域。需要说明的是，确定出的感兴趣区域表征可能是目标对象的区域，电子设备后续可以通过比较每个感兴趣区域的后验概率与概率阈值之间的大小，可以获知每个感兴趣区域是否为目标对象所在的区域。

S13、采用池化层将至少一个感兴趣区域中每个感兴趣区域进行池化处理，得到对应的特征向量。

电子设备可以采用池化层，对每个感兴趣区域进行池化处理(pool)，得到每个感兴趣区域的特征向量。示例性的，电子设备可以对每个感兴趣区域进行平均池化处理，从而得到每个感兴趣区域对应的特征向量。

S14、采用全连接层将特征向量转换为对应的二维向量。

S15、采用归一化指数层对二维向量进行归一化处理，得到每个感兴趣区域的后验概率。

在得到每个感兴趣区域的特征向量后，电子设备可以采用全连接层，将每个特征向量转换为对应的二维向量，并采用归一化指数层对每个特征向量进行归一化处理(softmax)，从而得到每个感兴趣区域的后验概率。这里，每个感兴趣区域的后验概率为0到1之间的分数值，在一个感兴趣区域的后验概率为0的情况下，表征该感兴趣区域不是目标对象所在的区域，在一个感兴趣区域的后验概率为1的情况下，表征该感兴趣区域是目标对象所在的区域。

示例性的，图6是本公开实施例提供的示例性的目标检测模型对场景图像进行目标检测时的流程示意图。如图6所示，待检测子图像A经过卷积层的卷积处理后，得到对应的特征图，特征图经过RPN网络(图6中未示出)后，得到多个RoIs，池化层、全连接层和归一化指数层对于每一个RoI进行池化处理得到对应的特征向量，将每个特征向量转换为对应的二维向量，并将每个二维向量进行归一化处理，得到每个RoI的后验概率。

本公开实施例中，对于每张待检测子图像而言，采用上述方法可以得到张待检测子图像的所有感兴趣区域，以及所有感兴趣区域中每个感兴趣区域的后验概率，使得电子设备后续可以通过判断该张待检测子图像的每个感兴趣区域的后验概率与预设值之间的大小关系，便可确定出该张待检测子图像中是否存在目标对象，以得到目标检测结果，从而提高了目标检测效率。

图7是本公开实施例提供的目标检测方法的一个可选的流程示意图，如图7所示，在图4中的S102之前，还可以包括S201-S203，将结合图7示出的步骤进行说明。

S201、采用目标检测模型，对多张场景图像进行目标检测，得到结果预测图像。

电子设备可以先采用包括了从数据集中选出的属于预设类别的多张样本图像的预设训练集(冷启动数据集)，对初始检测模型进行训练，得到目标检测模型(冷启动模型)，再采用该目标检测模型对多张场景图像进行目标检测，从而得到多张包括了预测标注数据的结果预测图像。

S202、获取与结果预测图像对应的、且经过人工标注处理的场景图像。

这里，在得到每个结果预测图像之后，电子设备可以获得与每张结果预测图像对应的，并且经过人工标注处理后的场景图像。这里，经过人工标注处理后的场景图像即可以携带人工标注，也可以不携带人工标注。人工标注处理是对目标检测模型输出的结果预测图像中标注出的目标区域进行检查确认，在确认结果预测图像中标注出的目标区域为需要检测出的目标对象的情况下，在相应的原始场景图像上对目标对象进行人工标注(得到正样本图像)，在确认结果预测图像中标注出的目标区域为不需要检测出的目标对象(即误检出的物体)的情况下，在相应的原始场景图像上不作任何的人工标注(得到负样本图像)，从而得到经过人工标注处理的场景图像；以及，将对目标检测模型输出的未携带标注数据的结果预测图像也进行检查确认，在确认结果预测图像中实际包含需要检测出的目标对象的情况下，在相应的原始场景图像上对目标对象进行人工标注(得到正样本图像)，在确认结果预测图像中不包含任何需要检测出的目标对象的情况下，在相应的原始场景图像上不作任何的人工标注(得到负样本图像)，从而得到经过人工标注处理的场景图像。

在一些实施例中，经过人工标注处理后的场景图像可以包括：带有目标标注数据的场景图像和未带有目标标注数据的场景图像；示例性的，图8A是本公开实施例提供的示例性的带有目标标注数据的场景图像；对于图8A而言，在需要检测的目标对象是猫的情况下，经过人工标注处理后的带有标注数据的场景图像则是采用标注框标注出猫的位置区域的场景图像；未带有标注数据的场景图像，则是不包含猫的场景图像，例如，狗的图像或车的图像等。示例性的，图8B是本公开实施例提供的示例性的未带有目标标注数据的场景图像；对于图8B而言，在需要检测的目标对象是狗的情况下，经过人工标注处理后的未带有标注数据的场景图像，则是不包含狗的场景图像，例如，图8B所示的猫的图像，或车的图像等；经过人工标注处理后的带有标注数据的场景图像则是采用标注框标注出狗的位置区域的场景图像。如此，可以获得正确的、且用于对目标检测模型进行训练的负样本和正样本，提高了获取的正、负样本的准确性。

在另一些实施例中，经过人工标注处理后的场景图像也可以仅包括带有目标标注数据的场景图像，如此，可以获得正确标注的正样本；或者，经过人工标注处理后的场景图像也可以仅包括未带有目标标注数据的场景图像，如此，可以获得正确标注的负样本。

在一些实施例中，由于获取的人工标注处理后的场景图像中既包括带有目标标注数据的场景图像，又包括未带有目标标注数据的场景图像，所以，可以获得正确的正样本和负样本，从而在电子设备采用获取的正确的正、负样本对目标检测模型进行训练的过程中，既可以通过负样本优化目标检测模型在真实室外场景下对误报的抑制，又可以通过正样本使目标检测模型快速适应场景图像中的目标对象的大小尺度或姿态，以及光照与环境等其他因素，从而使得更新后的目标检测模型在实际场景中的精度更高，提高了采用更新后的目标检测模型进行目标检测时，所获得的检测结果的准确性。

在本公开的一些实施例中，在需要检测的目标对象是猫和狗中的至少一种的情况下，带有目标标注数据的场景图像为，标注出猫和狗中的至少一种的场景图像；未带有目标标注数据的场景图像为，未包含所述猫和狗中的至少一种的场景图像。

S203、将经过人工标注处理的场景图像作为训练样本，对目标检测模型进行训练，得到更新后的目标检测模型。

电子设备在得到经过人工标注处理的场景图像后，可以将带有目标标注数据的场景图像确定为正样本，同时，将未带有目标标注数据的场景图像确定为负样本，以将正样本和负样本作为训练样本，根据训练样本，对目标检测模型进行训练，得到更新后的目标检测模型。

本公开实施例中，将带有目标标注数据的场景图像确定为正样本，同时，将未带有目标标注数据的场景图像确定为负样本，以将正样本和负样本作为训练样本，并对目标检测模型进行训练，使得电子设备在采用获取的正、负样本对目标检测模型进行训练的过程中，既可以通过负样本优化目标检测模型在真实室外场景下对误报的抑制，又可以通过正样本使目标检测模型快速适应场景图像中的目标对象的大小尺度或姿态，以及光照与环境等其他因素，从而使得更新后的目标检测模型在实际场景中的精度更高，提高了采用更新后的目标检测模型进行目标检测时，所获得的检测结果的准确性。

在一些实施例中，为了进一步提高目标检测模型的精度，电子设备在得到更新后的目标检测模型后，或者采用经过人工标注处理后的场景图像对目标检测模型进行训练的过程中，可以继续对新获得的场景图像进行目标检测，得到新的结果预测图像，以根据新的结果预测图像得到新的经过人工标注处理后的场景图像，从而再次对更新后的目标检测模型继续进行训练更新，得到新的更新后的目标检测模型，直至得到所需的目标检测模型。

由于从数据集中选取的样本图像，与真实场景中的场景图像之间存在差异，所以采用从数据集中选取的样本图像对目标检测模型进行训练可能会存在检测效果不优的问题，因而，将挖掘出的待人工标注的场景图像(即结果预测图像)所对应的原始场景图像经过人工标注处理后作为样本图像，对目标检测模型进行训练，可以使训练出的模型更适应实际场景，从而提高了对于小样本进行目标检测时，获得的检测结果的准确性。

在一些实施例中，在S201或S102之前，本公开实施例提供的方法还包括S21-S22：

S21、根据视频帧的属性参数，以预设时间间隔截取场景视频流中的视频帧，得到预设数量的视频帧。

视频帧的属性参数可以是视频帧的采集参数，例如，白天或夜晚，以及采集的时间段等，也可以是视频帧的环境参数，例如，具体的位置、场景等，本公开实施例对此不做限定。预设时间间隔可以根据实际需要进行设置，例如，可以是5秒，或10秒等，本公开实施例同样对此不做限定。

S22、将预设数量的视频帧确定为多张场景图像。

电子设备可以根据视频帧的属性参数，以预设时间间隔从某些监测场景的场景视频流中截取视频帧，经过一段时间后，得到预设数量的视频帧；例如，电子设备可以每隔5秒，截取一张视频帧，经过24小时后，得到多张视频帧，从而可以根据得到的视频帧，进行目标检测，以得到结果预测图像。

本公开实施例中，采用上述场景图像获取方式，可以获得各种不同属性参数的场景图像，提高了所获取的场景图像的多样性。

在本公开的一些实施例中，图7中的S201可以通过S31-S33实现：

S31、采用目标检测模型，对多张场景图像中的每张场景图像进行目标检测，得到每张场景图像的至少一个感兴趣区域，以及至少一个感兴趣区域中每个感兴趣区域对应的后验概率。

电子设备可以采用目标检测模型，对获得的每张场景图像进行目标检测，对于每张场景图像而言，获得至少一个感兴趣区域，以及每个感兴趣区域对应的后验概率。需要说明的是，目标检测模型可以是任意一个可以进行目标检测的网络模型，本公开实施例对此不做限定。

S32、在一个场景图像的至少一个感兴趣区域中任意一个感兴趣区域对应的后验概率大于或等于预设值的情况下，在该场景图像中标注出目标对象的位置区域，得到第一结果预测图像；结果预测图像包括：第一结果预测图像和第二结果预测图像。

S33、在一个场景图像的至少一个感兴趣区域对应的后验概率均小于预设值的情况下，在该场景图像中不标注出目标对象的位置区域，得到第二结果预测图像。

电子设备通过目标检测模型，可以采用边界框，将后验概率大于或等于预设值的感兴趣区域在对应的场景图像上进行标注，并输出带有边界框的第一结果预测图像；对于所有感兴趣区域的后验概率均小于预设值的场景图像，目标检测模型不会在对应的场景图像上进行标注，并会输出未带有任何边界框的第二结果预测图像。

示例性的，上述S31可以通过S301-S305实现：

S301、采用卷积层对每张场景图像进行卷积处理，得到每张场景图像对应的特征图。

电子设备可以通过卷积层对每张场景图像进行特征提取，得到每张场景图像对应的特征图；例如，卷积层可以由两个普通卷积层和两个稠密卷积层组成，电子设备可以通过这两个普通卷积层和两个稠密卷积层，进行每张场景图像的特征提取，从而得到每张场景图像的特征图。

S302、采用区域生成网络，对特征图进行感兴趣区域的识别，得到特征图的至少一个感兴趣区域。

电子设备可以采RPN网络对特征图进行感兴趣区域的识别，对于每张场景图像，得到至少一个感兴趣区域。

S303、采用池化层将至少一个感兴趣区域中每个感兴趣区域进行池化处理，得到对应的特征向量。

电子设备可以采用池化层，对每个感兴趣区域进行池化处理，得到每个感兴趣区域的特征向量。示例性的，电子设备可以对每个感兴趣区域进行平均池化处理。

S304、采用全连接层将特征向量转换为对应的二维向量。

S305、采用归一化指数层对二维向量进行归一化处理，得到每个感兴趣区域的后验概率。

在得到每个感兴趣区域的特征向量后，电子设备可以采用全连接层，将每个特征向量转换为对应的二维向量，并采用归一化指数层对每个特征向量进行归一化处理，从而得到每个感兴趣区域的后验概率。这里，每个感兴趣区域的后验概率为0到1之间的分数值，在一个感兴趣区域的后验概率为0的情况下，说明该感兴趣区域不是目标对象所在的区域，在一个感兴趣区域的后验概率为1的情况下，说明该感兴趣区域是目标对象所在的区域。

示例性的，在将上述图6中的待检测子图像A替换为场景图像A的情况下，如上述图6所示，场景图像A经过卷积层的卷积处理后，得到对应的特征图，特征图经过RPN网络(图6中未示出)后，得到多个RoIs，池化层、全连接层和归一化指数层对于每一个RoI进行池化处理得到对应的特征向量，将每个特征向量转换为对应的二维向量，并将每个二维向量进行归一化处理，得到每个RoI的后验概率。

在一些实施例中，上述S203可以通过S2031实现：

S2031、在经过人工标注处理的场景图像的数量大于或等于预设阈值的情况下，将经过人工标注处理的场景图像作为训练样本，对目标检测模型进行训练，得到更新后的目标检测模型。

电子设备可以在获取了足够数量的经过人工标注处理的场景图像的情况下，将获得的经过人工标注处理的场景图像作为训练样本，开始对目标检测模型进行训练，以训练得到更新后的目标检测模型；如此，可以提高每次训练的效率，还可以既获得高精度的目标检测模型，又减少模型的训练次数。

在一些实施例中，图9是本公开实施例提供的目标检测方法的一个可选的流程示意图；其中，上述S203可以通过S401-S402实现，将结合图9示出的步骤进行说明。

S401、将经过人工标注处理的场景图像加入预设训练集，得到更新后的预设训练集。

电子设备在获得经过人工标注处理的场景图像后，可以将经过人工标注处理的场景图像加入到预设训练集中，得到新的预设训练集，如此，可以丰富预设训练集中的正、负样本的数量，可以得到种类更加多样的训练集。

S402、根据更新后的预设训练集，对目标检测模型进行训练，得到更新后的目标检测模型。

采用加入了经过人工标注处理的预设训练集对目标检测模型进行训练，由于训练集的样本种类更加多样，且包括了在实际场景中的样本图像，所以，可以使训练出的目标检测模型快速适应实际场景，且训练出的目标检测模型的检测精度更高。

图10是本公开实施例提供的目标检测方法的一个应用场景的流程示意图；如图10所示，冷启动环节：采用包括了从学术集中选择出的多张属于猫的样本图像、狗的样本图像，或者同时包含了猫和狗的样本图像的冷启动数据集(预设训练集)，对初始检测模型进行训练，得到目标检测模型(冷启动模型)；数据挖掘环节：对城市场景视频流进行截帧操作，并将截取的视频帧输入目标检测模型中，对视频帧进行挖掘，并获得挖掘数据(结果预测图像)；冷启动数据集更新环节：获得带有人工标注的挖掘数据(经过人工标注处理的结果预测图像)，并将带有人工标注的挖掘数据合并到冷启动数据集中，得到更新后的冷启动数据集；模型训练更新环节：采用更新后的冷启动数据集继续对目标检测模型进行训练，得到更新后的目标检测模型；重复执行数据挖掘环节、冷启动数据集更新环节和模型训练更新环节预设次数，直至获得所需的目标检测模型。

下面继续说明本公开实施例提供的模型训练装置455、检测装置555和目标检测装置655均实施为软件模块的示例性结构，在一些实施例中，如图2A所示，存储在存储器450的模型训练装置455中的软件模块可以包括：检测模块4551、样本获取模块4552和更新模块4553；如图2B所述，存储在存储器550的检测装置555中的软件模块可以包括：图像获取模块5551和目标检测模块5552；如图3所示，存储在存储器650的目标检测装置655中的软件模块可以包括：图像获取模块6551、目标检测模块6552、检测模块6553、样本获取模块6554和更新模块6555。

需要说明的是，检测模块4551与检测模块6553、样本获取模块4552与样本获取模块6554、更新模块4553与更新模块6555、图像获取模块5551与图像获取模块6551，以及目标检测模块5552与目标检测模块6552的功能对应相同。以下将对图像获取模块6551、目标检测模块6552、检测模块6553、样本获取模块6554和更新模块6555进行具体说明：

所述图像获取模块6551，用于获取待检测图像；

所述目标检测模块6552，用于采用更新后的目标检测模型，对所述待检测图像进行目标检测，得到目标检测结果；所述更新后的目标检测模型是采用与结果预测图像对应的、且经过人工标注处理的场景图像对目标检测模型训练获得；其中，所述目标检测模型是基于预设训练集对初始检测模型训练获得的，所述结果预测图像是经由所述目标检测模型检测后的、且包括预测标注数据的场景图像；所述人工标注处理用于对所述预测标注数据进行校验，并根据校验结果在与所述结果预测图像对应的场景图像中进行目标对象的正确标注；所述预设训练集为从数据集中选出的属于预设类别的多张样本图像；所述数据集是多张标注出了目标对象的图像，且所述多张图像中预设数量图像的目标对象之间属于不同类别。

在本公开的一些实施例中，所述检测模块6553，用于在所述采用更新后的目标检测模型，对所述待检测图像进行目标检测，得到目标检测结果之前，采用所述目标检测模型，对多张场景图像进行目标检测，得到所述结果预测图像；所述样本获取模块6554，用于获取所述与结果预测图像对应的、且经过人工标注处理的场景图像；所述更新模块6555，用于将所述经过人工标注处理的场景图像作为训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型。

在本公开的一些实施例中，所述更新模块6555，还用于将所述经过人工标注处理的场景图像加入所述预设训练集，得到更新后的预设训练集；根据所述更新后的预设训练集，对所述目标检测模型进行训练，得到所述更新后的目标检测模型。

在本公开的一些实施例中，所述经过人工标注处理的场景图像包括：带有目标标注数据的场景图像和未带有目标标注数据的场景图像。

在本公开的一些实施例中，所述更新模块6555，还用于将带有目标标注数据的场景图像确定为正样本，以及将未带有目标标注数据的场景图像确定为负样本，所述正样本和所述负样本为所述训练样本；根据所述训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型。

在本公开的一些实施例中，所述更新模块6555，还用于在所述经过人工标注处理的场景图像的数量大于或等于预设阈值的情况下，将所述经过人工标注处理的场景图像作为训练样本，对所述目标检测模型进行训练，得到更新后的目标检测模型。

在本公开的一些实施例中，所述检测模块6553，还用于在所述采用目标检测模型，对多张场景图像进行目标检测，得到所述结果预测图像之前，根据视频帧的属性参数，以预设时间间隔截取场景视频流中的视频帧，得到预设数量的视频帧；将所述预设数量的视频帧确定为所述多张场景图像。

在本公开的一些实施例中，所述带有目标标注数据的场景图像为，标注出猫和狗中的至少一种的场景图像；所述未带有目标标注数据的场景图像为，未包含所述猫和狗中的至少一种的场景图像。

在本公开的一些实施例中，所述待检测图像包括：多张待检测子图像；所述目标对象包括：猫和狗中的至少一种；所述目标检测结果包括：标注出所述猫和狗中的至少一种的位置区域的第一结果图像，或未标注出所述猫和狗中的至少一种的位置区域的第二结果图像；所述目标检测模块6552，还用于采用所述更新后的目标检测模型，对每张待检测子图像进行目标检测，得到所述每张待检测子图像的至少一个感兴趣区域，以及至少一个感兴趣区域中每个感兴趣区域对应的后验概率；在至少一个感兴趣区域中任意一个感兴趣区域对应的后验概率大于或等于预设值的情况下，在所述每张待检测子图像中，标注出所述猫和狗中的至少一种的位置区域，得到所述第一结果图像；在所述至少一个感兴趣区域所对应的后验概率均小于所述预设值的情况下，在所述每张待检测子图像中不标注所述猫和狗中的至少一种的位置区域，得到所述第二结果图像。

在本公开的一些实施例中，所述目标检测模型包括：卷积层、区域生成网络、池化层、全连接层和归一化指数层；所述目标检测模块6552，还用于采用所述卷积层对所述每张待检测子图像进行卷积处理，得到所述每张待检测子图像对应的特征图；采用所述区域生成网络，对所述特征图进行感兴趣区域的识别，得到所述特征图的至少一个感兴趣区域；采用所述池化层将所述至少一个感兴趣区域中每个感兴趣区域进行池化处理，得到对应的特征向量；采用所述全连接层将所述特征向量转换为对应的二维向量；采用所述归一化指数层对所述二维向量进行归一化处理，得到所述每个感兴趣区域的后验概率。

在本公开的一些实施例中，所述预设类别包括：猫和狗中的至少一种。

本公开实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的第处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本公开实施例上述的目标检测方法。

本公开实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本公开实施例提供的方法，例如，如图4、5、7、9、10示出的方法。

在一些实施例中，计算机可读存储介质(上述的存储介质)可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-RO M等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，采用本技术实现方案，既可以丰富用于模型训练的样本图像，又可以通过负样本优化目标检测模型在真实室外场景下对误报的抑制，通过正样本帮助目标检测模型快速适应场景图像中的目标对象的大小尺度或姿态，以及光照与环境等其他因素，从而使得采用该经过人工正确标注处理过的场景图像所训练出的目标检测模型快速适应实际应用中的场景，从而使得训练出的目标检测模型的精度更高。

本技术实现方案，从现有学术集以及实际场景视频流中，挖掘模型难以检测识别的困难样本，以及其他类型的样本，并合并到冷启动数据集中进行检测模型训练，一方面可以通过从学术集中挖掘出的数据(从学术集中选出的属于预设类别的样本图像)快速训练得到一个检测模型，另一方面，通过从实际场景视频流中挖掘出的数据，可以快速迭代出一个能够适应实际场景的检测模型。

本技术实现方案，利用学术数据集中现有的标注数据，直接获取目标类别的训练样本(冷启动数据)，可以快速得到冷启动模型，不再需要大量收集冷启动样本，减少了收集大量的冷启动样本过程中所耗费的成本。

本技术实现方案，利用主动学习方法，可在巨量的未标注的场景图像中挖掘对于模型提升有帮助的潜在高价值样本(例如，模型难以检测识别的困难样本，新样本，以及其他类型的样本等)，可在有限的标注与计算资源环境下有效提升模型性能，大量节省深度学习模型应用新的业务上所需的人力以及计算成本。

本技术实现方案，可以在线上对于智能视频分析或者智能场景中潜在的目标检测模型进行快速迭代提升，从而可以用较小的人力和计算成本快速达到所需的模型检测精度，并能在之后继续持续提升模型性能。

以上所述，仅为本公开的实施例而已，并非用于限定本公开的保护范围。凡在本公开的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本公开的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，包括：

获取待检测图像；

采用更新后的目标检测模型，对所述待检测图像进行目标检测，得到目标检测结果；所述更新后的目标检测模型是采用与结果预测图像对应的、且经过人工标注处理的场景图像对目标检测模型训练获得，所述经过人工标注处理的场景图像包括：带有目标标注数据的场景图像和/或未带有目标标注数据的场景图像；

其中，所述目标检测模型是基于预设训练集对初始检测模型训练获得的，所述结果预测图像是经由所述目标检测模型检测后的、且包括预测标注数据的场景图像；所述人工标注处理用于对所述预测标注数据进行校验，并根据校验结果在与所述结果预测图像对应的场景图像中进行目标对象的正确标注；所述预设训练集为从数据集中选出的属于预设类别的多张样本图像；所述数据集是多张标注出了目标对象的图像，且所述多张图像中预设数量图像的目标对象之间属于不同类别。

2.根据权利要求1所述的目标检测方法，其特征在于，在所述采用更新后的目标检测模型，对所述待检测图像进行目标检测，得到目标检测结果之前，所述方法还包括：

采用所述目标检测模型，对多张场景图像进行目标检测，得到所述结果预测图像；

获取所述与结果预测图像对应的、且经过人工标注处理的场景图像；

将所述经过人工标注处理的场景图像作为训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型。

3.根据权利要求2所述的目标检测方法，其特征在于，所述将所述经过人工标注处理的场景图像作为训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型，包括：

将带有目标标注数据的场景图像确定为正样本，以及将未带有目标标注数据的场景图像确定为负样本，所述正样本和所述负样本为所述训练样本；

根据所述训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型。

4.根据权利要求2所述的目标检测方法，其特征在于，所述将所述经过人工标注处理的场景图像作为训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型，包括：

在所述经过人工标注处理的场景图像的数量大于或等于预设阈值的情况下，将所述经过人工标注处理的场景图像作为训练样本，对所述目标检测模型进行训练，得到所述更新后的目标检测模型。

5.根据权利要求2所述的目标检测方法，其特征在于，在所述采用目标检测模型，对多张场景图像进行目标检测，得到所述结果预测图像之前，所述方法还包括：

根据视频帧的属性参数，以预设时间间隔截取场景视频流中的视频帧，得到预设数量的视频帧；

将所述预设数量的视频帧确定为所述多张场景图像。

6.根据权利要求4所述的目标检测方法，其特征在于，所述带有目标标注数据的场景图像为，标注出猫和狗中的至少一种的场景图像；所述未带有目标标注数据的场景图像为，未包含所述猫和狗中的至少一种的场景图像。

7.根据权利要求1所述的目标检测方法，其特征在于，所述预设类别包括：猫和狗中的至少一种。

8.根据权利要求1-7中任一项所述的目标检测方法，其特征在于，所述待检测图像包括：多张待检测子图像；所述目标对象包括：猫和狗中的至少一种；所述目标检测结果包括：标注出所述猫和狗中的至少一种的位置区域的第一结果图像，或未标注出所述猫和狗中的至少一种的位置区域的第二结果图像；

所述采用更新后的目标检测模型，对所述待检测图像进行目标检测，得到目标检测结果，包括：

采用所述更新后的目标检测模型，对每张待检测子图像进行目标检测，得到所述每张待检测子图像的至少一个感兴趣区域，以及所述至少一个感兴趣区域中每个感兴趣区域对应的后验概率；

在所述至少一个感兴趣区域中任意一个感兴趣区域对应的后验概率大于或等于预设值的情况下，在所述每张待检测子图像中，标注出所述猫和狗中的至少一种的位置区域，得到所述第一结果图像；

在所述至少一个感兴趣区域所对应的后验概率均小于所述预设值的情况下，在所述每张待检测子图像中不标注所述猫和狗中的至少一种的位置区域，得到所述第二结果图像。

9.根据权利要求8所述的目标检测方法，其特征在于，所述目标检测模型包括：卷积层、区域生成网络、池化层、全连接层和归一化指数层；

所述采用所述更新后的目标检测模型，对所述每张待检测子图像进行目标检测，得到所述每张待检测子图像的至少一个感兴趣区域，以及所述至少一个感兴趣区域中每个感兴趣区域对应的后验概率，包括：

采用所述卷积层对所述每张待检测子图像进行卷积处理，得到所述每张待检测子图像对应的特征图；

采用所述区域生成网络，对所述特征图进行感兴趣区域的识别，得到所述特征图的所述至少一个感兴趣区域；

采用所述池化层将所述至少一个感兴趣区域中每个感兴趣区域进行池化处理，得到对应的特征向量；

采用所述全连接层将所述特征向量转换为对应的二维向量；

采用所述归一化指数层对所述二维向量进行归一化处理，得到所述每个感兴趣区域的后验概率。

10.一种目标检测装置，其特征在于，包括：

图像获取模块，用于获取待检测图像；

目标检测模块，用于采用更新后的目标检测模型，对所述待检测图像进行目标检测，得到目标检测结果；所述更新后的目标检测模型是采用与结果预测图像对应的、且经过人工标注处理的场景图像对目标检测模型训练获得，所述经过人工标注处理的场景图像包括：带有目标标注数据的场景图像和/或未带有目标标注数据的场景图像；

其中，所述目标检测模型是基于预设训练集对初始检测模型训练获得的，所述结果预测图像是经由所述目标检测模型检测后的、且包括预测标注数据的场景图像；所述人工标注处理用于对所述预测标注数据进行校验，并根据校验结果在与对所述结果预测图像对应的场景图像中进行目标对象的正确标注；所述预设训练集为从数据集中选出的属于预设类别的多张样本图像；所述数据集是多张标注出了目标对象的图像，且所述多张图像中预设数量图像的目标对象之间属于不同类别。

11.一种电子设备，其特征在于，包括：

存储器，用于存储可执行计算机程序；

处理器，用于执行所述存储器中存储的可执行计算机程序时，实现权利要求1至9中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，存储有计算机程序，用于引起处理器执行时，实现权利要求1至9中任一项所述的方法。