CN112101360B

CN112101360B - 一种目标检测方法、装置以及计算机可读存储介质

Info

Publication number: CN112101360B
Application number: CN202011285823.5A
Authority: CN
Inventors: 胡来丰
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-04-27
Anticipated expiration: 2040-11-17
Also published as: EP4229540A4; CN112101360A; EP4229540A1; WO2022105197A1

Abstract

本申请公开了一种目标检测方法、装置以及计算机可读存储介质，该目标检测方法包括：获取待检测图像，并获取待检测图像中目标的框特征；从预存的框缓存特征中提取与目标的类型对应的框缓存特征，其中，框缓存特征标识预测点与真实目标边框的距离信息；基于目标的框特征以及框缓存特征计算目标最终目标框的位置和大小。上述方案，能够提高目标检测的准确性。

Description

一种目标检测方法、装置以及计算机可读存储介质

技术领域

本申请涉及图像处理与人工智能技术领域，特别是涉及一种目标检测方法、装置以及计算机可读存储介质。

背景技术

随着CNN的发展，出现了许多目标检测算法。这些基于CNN的目标检测算法虽然能够达到很高的检测精度，但都需要依靠大量物体级标记(对每个目标画出目标框)的样本进行训练上的支持。并且，对于不同的检测任务，需要构建完全不同的数据库进行训练。在实际应用中，获取大量的训练样本有时需要耗费大量的人力和时间成本，有时则是完全无法达到的。这已经成了应用基于CNN的目标检测算法的瓶颈。

为了解决物体级标记难以获得的问题，基于弱监督学习的目标检测算法应运而生。这类算法同样基于CNN，但不同的是在训练过程中不再使用物体级的标签，而是使用图像级标签(只对图像内是否存在目标进行标注)。一方面，在进行人工标注时，进行图像级标注的难度远远低于物体级标注，能够以更高的效率构建训练数据集。另一方面，由于搜索引擎的存在，人们甚至可以轻而易举地通过网络获取带有特定图像级标注的样本，进一步削减了构建数据集的工作量。

然而，在现有的深度学习目标检测技术下，其首先需要在大量的人工精细标注（类别及位置）的数据上进行神经网络的训练才能得到更高精度的网络模型，人工标注费耗人力，怎么样在稀疏的标注下得到更优的网络模型成为技术瓶颈。

发明内容

本申请至少提供一种目标检测方法、装置以及计算机可读存储介质。

本申请第一方面提供了一种目标检测方法，所述目标检测方法包括：

获取待检测图像，并获取所述待检测图像中目标的框特征；

从预存的框缓存特征中提取与所述目标的类型对应的框缓存特征，其中，所述框缓存特征标识预测点与真实目标边框的距离信息；

基于所述目标的框特征以及所述框缓存特征计算所述目标最终目标框的位置和大小。

其中，所述方法还包括：

获取多张待训练图像，将多张所述待训练图像输入预设神经网络进行训练，得到所述待训练图像的预测点；

基于所述预测点以及标注的真实目标边框，得到框特征；

对多张所述待训练图像的框特征进行更新，得到所述框缓存特征。

其中，所述对多张所述待训练图像的框特征进行更新，得到框缓存特征的步骤，包括：

获取上一张待训练图像的框特征，以及当前张待训练图像的框特征；

将所述上一张待训练图像的框特征和所述当前张待训练图像的框特征按照第一预设更新权重叠加，得到所述框缓存特征。

其中，所述从预存的框缓存特征中提取与所述目标的类型对应的框缓存特征之前，所述方法还包括：

基于预存的类缓存特征、所述目标的类特征以及所述目标的第一分类置信度计算所述目标的第二分类置信度；

基于所述第二分类置信度确定所述目标的类型。

其中，所述方法还包括：

基于所述目标的框特征计算所述目标的中心度；

获取所述目标参考所述中心度后的分类置信度作为所述第一分类置信度。

其中，所述基于预存的类缓存特征、所述目标的类特征以及所述目标的第一分类置信度计算所述目标的第二分类置信度之前，所述方法还包括：

获取多张待训练图像，将多张所述待训练图像输入预设神经网络进行训练，得到所述待训练图像的特征图；

基于所述特征图提取与标注的目标对应的的类特征；

对多张所述待训练图像的类特征进行更新，得到所述类缓存特征。

其中，所述对多张所述待训练图像的类特征进行更新，得到类缓存特征的步骤，包括：

获取上一张待训练图像的类特征，以及当前张待训练图像的类特征；

将所述上一张待训练图像的类特征和所述当前张待训练图像的类特征按照第二预设更新权重叠加，得到所述类缓存特征。

其中，所述获取待检测图像的步骤之后，所述目标检测方法还包括：

将所述待检测图像经过归一化处理以及按照固定尺寸缩放处理；

获取处理后的所述待检测图像的框特征。

其中，所述获取所述待检测图像中目标的框特征的步骤，包括：

将所述待检测图像输入主干网络，获取所述主干网络输出的预测点；

回归出所述预测点与标注的真实目标边框的距离，得到所述框特征；

其中，所述主干网络为ResNet50、VGG16、ResNext34中的一种神经网络。

本申请第二方面提供了一种目标检测装置，所述目标检测装置包括：

获取模块，用于获取待检测图像，并获取所述待检测图像中目标的框特征；

特征提取模块，用于从预存的框缓存特征中提取与所述目标的类型对应的框缓存特征，其中，所述框缓存特征标识预测点与真实目标边框的距离信息；

目标检测模块，用于基于所述目标的框特征以及所述框缓存特征计算所述目标最终目标框的位置和大小。

本申请第三方面提供了一种目标检测装置，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述第一方面中的目标检测方法。

本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述第一方面中的目标检测方法。

本申请中，目标检测装置获取待检测图像，并获取待检测图像中目标的框特征；从预存的框缓存特征中提取与目标的类型对应的框缓存特征，其中，框缓存特征标识预测点与真实目标边框的距离信息；基于目标的框特征以及框缓存特征计算目标最终目标框的位置和大小。上述方案，能够提高目标检测的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请提供的目标检测方法第一实施例的流程示意图；

图2是本申请提供的类别与框特征缓存图；

图3是本申请提供的目标检测方法第二实施例的流程示意图；

图4是本申请提供的目标检测方法第三实施例的流程示意图；

图5是本申请提供的目标检测装置一实施例的框架示意图；

图6是本申请提供的目标检测装置另一实施例的框架示意图；

图7是本申请提供的计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

请参阅图1，图1是本申请提供的目标检测方法第一实施例的流程示意图。

本申请的目标检测方法的执行主体可以是一种目标检测装置，例如，目标检测方法可以由终端设备或服务器或其它处理设备执行，其中，目标检测装置可以为用户设备（User Equipment，UE）、移动设备、用户终端、终端、蜂窝电话、无线电话、个人数字处理（Personal Digital Assistant，PDA）、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该目标检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

具体而言，本公开实施例的目标检测方法可以包括以下步骤：

步骤S11：获取待检测图像，并获取待检测图像中目标的框特征。

其中，目标检测装置获取待检测图像，待检测图像可以为RGB图像，也可以为YUV图像。目标检测装置进一步将待检测图像归一化处理后缩放到预设的固定尺寸，然后将处理后的待检测图像输入主干网络，以获取主干网络输出的特征图像和预测点，特征图像的维度为B×N×H×W，记为F。其中，B表示输入待检测图像的数量，N表示特征图像的通道数量，H表示特征图像的高度，W表示特征图像的宽度。

主干网络可以为现有成熟的图像特征提取网络，包括但不限于：ResNet50、VGG16、ResNext34等常见的网络结构。

目标检测装置进一步获取标注的真实目标边框，然后利用主干网络输出的预测点回归出预测点与标注的真实目标边框的距离，得到框特征。具体请参阅图2，图2是本申请提供的类别与框特征缓存图。图2左侧待检测图像中的圆圈“○”即生成的预测点，包含预测点的框即对应标注的真实目标边框Fp。预测点与真实目标边框的距离可以表示为（l，r，t，b），即为框特征。

步骤S12：从预存的框缓存特征中提取与目标的类型对应的框缓存特征，其中，框缓存特征标识预测点与真实目标边框的距离信息。

其中，目标检测装置基于主干网络输出的特征图像分析出目标的类型。具体地，目标检测装置可以通过利用SoftMax分类方法将上述获取的待检测图像的特征向量划分为若干类别，如分成n类，其维度为B×H×W×n，记为S。

进一步地，目标检测装置基于目标的分类结果，从预存的框缓存特征中提取出与目标的类型对应的框缓存特征，其中，框缓存特征标识预测点与真实目标边框的距离信息。

其中，预存的框缓存特征是通过多张待训练图像训练得到，通过分别获取待训练图像的框特征，然后根据多张待训练图像的框特征不断更新，形成框缓存特征，记为图2中的BR_buffer，各类别框缓存特征的维度为n×4，n表示类别数，特征向量长度为4。

步骤S13：基于目标的框特征以及框缓存特征计算目标最终目标框的位置和大小。

其中，目标检测装置基于目标的框特征以及预存的框缓存特征计算最终的目标预测框，通过最终的目标预测框解码出最终目标的位置以及大小，即预测点位置（x，y），框宽高为（l*+r*，t*+b*）具体计算公式如下：

（l*，t*，r*，b*）=k×（l，t，r，b）+（1-k）×BR_buffer

其中，（l，t，r，b）为目标的框特征，BR_buffer为预存的框缓存特征，（l*，t*，r*，b*）为最终目标预测框的框特征。

在本公开实施例中，目标检测装置获取待检测图像，并获取待检测图像中目标的框特征；从预存的框缓存特征中提取与目标的类型对应的框缓存特征，其中，框缓存特征标识预测点与真实目标边框的距离信息；基于目标的框特征以及框缓存特征计算目标最终目标框的位置和大小。上述方案，能够提高目标检测的准确性。

在上述实施例中，目标检测装置利用预存的框缓存特征与目标的框特征融合得到最终的目标预测框，其中，预存的框缓存特征的生成方式具体请继续参阅图3，图3是本申请提供的目标检测方法第二实施例的流程示意图。具体而言，本公开实施例的目标检测方法可以包括以下步骤：

步骤S21：获取多张待训练图像，将多张待训练图像输入预设神经网络进行训练，得到待训练图像的预测点。

其中，目标检测装置获取多张待训练图像，待训练图像可以为RGB图像，也可以为YUV图像。目标检测装置进一步将待训练图像归一化处理后缩放到预设的固定尺寸，然后将处理后的待训练图像输入主干网络，以获取主干网络输出的特征图像和预测点。

步骤S22：基于预测点以及标注的真实目标边框，得到框特征。

其中，目标检测装置进一步获取标注的真实目标边框，然后利用主干网络输出的预测点回归出预测点与标注的真实目标边框的距离，得到框特征。

步骤S23：对多张待训练图像的框特征进行更新，得到框缓存特征。

其中，目标检测装置分别获取多张待训练图像的框特征，并按照获取顺序不断对当前张待训练图像的框特征进行更新，从而得到最终的框缓存特征。

具体地，更新框特征的步骤可以如下：获取上一张待训练图像的框特征，以及当前张待训练图像的框特征；将上一张待训练图像的框特征和当前张待训练图像的框特征按照第一预设更新权重叠加，得到框缓存特征。遍历所有待训练图像，循环执行上述更新框特征的步骤，直至得到最终的框缓存特征。

例如，假设标注的目标类别为L，通过训练对BR_buffer中的f_br_L进行更新，得到更新的框缓存特征，具体公式如下：

f_br_L=βf_br_L+(1-β) Fbr

其中，f_br_L表示图2中右下角BR_buffer中L类别的框特征，Fbr表示本轮训练中从特征层得到的类别L的框特征，β为更新权重。

在上述实施例中，目标检测装置从预存的框缓存特征中提取与目标的类型对应的框缓存特征，其中，目标的类别一方面可以根据softmax的原始输出确定，具体地，目标检测装置获取softmax神经网络输出目标分别属于不同类别的概率值，然后将概率值最高的类别作为检测目标的分类；另一方面可以根据参考中心度之后的输出确定，具体请继续参阅图4，图4是本申请提供的目标检测方法第三实施例的流程示意图。具体而言，本公开实施例的目标检测方法包括以下步骤：

步骤S31：基于目标的框特征计算目标的中心度。

其中，目标检测装置通过目标的框特征衡量目标的中心度，具体地，中心度的具体计算公式如下：

其中，centerness表示目标的中心度，其维度为B×H×W×1。

步骤S32：获取目标参考中心度后的分类置信度作为第一分类置信度。

步骤S33：基于预存的类缓存特征、目标的类特征以及目标的第一分类置信度计算目标的第二分类置信度。

其中，目标检测装置获取目标的框特征后，还可以计算目标的分类置信度。具体计算方式如下：目标检测装置基于预存的类缓存特征、目标的类特征以及目标的第一分类置信度计算目标的第二分类置信度，第一分类置信度和第二分类置信度的具体计算公式如下：

Score=m×S’+（1-m）×F×CF_buffer^T

S’=S×centerness

其中，S为目标的类特征，CF_buffer为预存的类缓存特征，S’为第一分类置信度，score为第二分类置信度。

第二分类置信度score的计算方式避免了图2中虚线部分Fq（未人工标注）的漏检，由于是真实目标但漏缺标注，传统的目标检测方法会认为是背景造成漏检，在本公开实施例中将该特征与类别缓存特征相乘求相似度，其值越高，与该类别的特征向量越相似，最后与第一分类置信度S’相加成为最终的第二分类置信度score。

其中，对于预存的类缓存特征的获取步骤与预存的框缓存特征的获取步骤基本相同。

具体地，目标检测装置获取多张待训练图像，并将待训练图像归一化处理后缩放到预设的固定尺寸，然后将处理后的待训练图像输入主干网络，以获取主干网络输出的特征图。目标检测装置根据特征图提取与标注的目标对应的类特征。

目标检测装置分别获取多张待训练图像的类特征，并按照获取顺序不断对当前张待训练图像的类特征进行更新，从而得到最终的类缓存特征，如图2右上角所示，记为CF_buffer。各类别缓存特征的维度为n×N，n表示类别数，N表示特征向量长度，特征向量记为f_i,i=1,2…,n。

具体地，更新类特征的步骤可以如下：获取上一张待训练图像的类特征，以及当前张待训练图像的类特征；将上一张待训练图像的类特征和当前张待训练图像的类特征按照第二预设更新权重叠加，得到类缓存特征。遍历所有待训练图像，循环执行上述更新类特征的步骤，直至得到最终的类缓存特征。

例如，假设标注的目标类别为L，如图2中的实体框，其特征向量记为Fp，通过训练对CF_buffer中的f_L进行更新，得到类缓存特征，具体计算公式如下：

f_L=λf_L+（1-λ）Fp

其中，λ表示更新权重。

步骤S34：基于第二分类置信度确定目标的类型。

其中，目标检测装置基于第二分类置信度确定目标的类型，具体地，目标检测装置将多个类别对应的第二分类置信度进行比较，将最大值的第二分类置信度对应的类别作为目标的类型。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

请继续参阅图5，图5是本申请提供的目标检测装置一实施例的框架示意图。目标检测装置40包括：

获取模块41，用于获取待检测图像，并获取待检测图像中目标的框特征。

特征提取模块42，用于从预存的框缓存特征中提取与目标的类型对应的框缓存特征，其中，框缓存特征标识预测点与真实目标边框的距离信息。

目标检测模块43，用于基于目标的框特征以及框缓存特征计算目标最终目标框的位置和大小。

请参阅图6，图6是本申请提供的目标检测装置另一实施例的框架示意图。目标检测装置50包括相互耦接的存储器51和处理器52，处理器52用于执行存储器51中存储的程序指令，以实现上述任一目标检测方法实施例中的步骤。在一个具体的实施场景中，目标检测装置50可以包括但不限于：微型计算机、服务器，此外，目标检测装置50还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器52用于控制其自身以及存储器51以实现上述任一目标检测方法实施例中的步骤。处理器52还可以称为CPU（Central Processing Unit，中央处理单元）。处理器52可能是一种集成电路芯片，具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器（Digital Signal Processor, DSP）、专用集成电路（Application SpecificIntegrated Circuit, ASIC）、现场可编程门阵列（Field-Programmable Gate Array,FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器52可以由集成电路芯片共同实现。

请参阅图7，图7是本申请提供的计算机可读存储介质一实施例的框架示意图。计算机可读存储介质60存储有能够被处理器运行的程序指令601，程序指令601用于实现上述任一目标检测方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种目标检测方法，其特征在于，所述目标检测方法包括：

获取待检测图像，并获取所述待检测图像中目标的框特征；其中，所述获取所述待检测图像中目标的框特征的步骤，包括：将所述待检测图像输入主干网络，获取所述主干网络输出的预测点；回归出所述预测点与标注的真实目标边框的距离，得到所述框特征；

基于所述目标的框特征以及所述框缓存特征计算所述目标最终目标框的位置和大小；

其中，所述方法还包括：获取多张待训练图像，将多张所述待训练图像输入预设神经网络进行训练，得到所述待训练图像的预测点；基于所述预测点以及标注的真实目标边框，得到框特征；对多张所述待训练图像的框特征进行更新，得到所述框缓存特征。

2.根据权利要求1所述的目标检测方法，其特征在于，

所述对多张所述待训练图像的框特征进行更新，得到框缓存特征的步骤，包括：

3.根据权利要求1所述的目标检测方法，其特征在于，

所述从预存的框缓存特征中提取与所述目标的类型对应的框缓存特征之前，所述方法还包括：

基于所述第二分类置信度确定所述目标的类型；

其中，所述方法还包括：基于所述目标的框特征计算所述目标的中心度；获取所述目标参考所述中心度后的分类置信度作为所述第一分类置信度；

其中，所述基于预存的类缓存特征、所述目标的类特征以及所述目标的第一分类置信度计算所述目标的第二分类置信度之前，所述方法还包括：获取多张待训练图像，将多张所述待训练图像输入预设神经网络进行训练，得到所述待训练图像的特征图；基于所述特征图提取与标注的目标对应的类特征；对多张所述待训练图像的类特征进行更新，得到所述类缓存特征；

其中，所述第二分类置信度的具体计算公式如下：

score＝m×S′+(1-m)×F×CF_buffer^T

S′＝S×centerness

其中，S为所述目标的类特征，CF_buffer^T为所述预存的类缓存特征，S’为所述第一分类置信度，score为所述第二分类置信度，centerness表示目标的中心度，F为特征图像的维度B×N×H×W，其中，B表示输入所述待检测图像的数量，N表示所述特征图像的通道数量，H表示所述特征图像的高度，W表示所述特征图像的宽度。

4.根据权利要求3所述的目标检测方法，其特征在于，

所述对多张所述待训练图像的类特征进行更新，得到类缓存特征的步骤，包括：

5.根据权利要求1所述的目标检测方法，其特征在于，

所述获取待检测图像的步骤之后，所述目标检测方法还包括：

获取处理后的所述待检测图像的框特征。

6.根据权利要求1所述的目标检测方法，其特征在于，

所述主干网络为ResNet50、VGG16、ResNext34中的一种神经网络。

7.一种目标检测装置，其特征在于，所述目标检测装置包括：

获取模块，用于获取待检测图像，并获取所述待检测图像中目标的框特征；其中，所述获取模块具体用于将所述待检测图像输入主干网络，获取所述主干网络输出的预测点；回归出所述预测点与标注的真实目标边框的距离，得到所述框特征；

目标检测模块，用于基于所述目标的框特征以及所述框缓存特征计算所述目标最终目标框的位置和大小；

其中，所述特征提取模块还用于获取多张待训练图像，将多张所述待训练图像输入预设神经网络进行训练，得到所述待训练图像的预测点；基于所述预测点以及标注的真实目标边框，得到框特征；对多张所述待训练图像的框特征进行更新，得到所述框缓存特征。

8.一种目标检测装置，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至6任一项所述的目标检测方法。

9.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至6任一项所述的目标检测方法。