CN112101360B - 一种目标检测方法、装置以及计算机可读存储介质 - Google Patents

一种目标检测方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN112101360B
CN112101360B CN202011285823.5A CN202011285823A CN112101360B CN 112101360 B CN112101360 B CN 112101360B CN 202011285823 A CN202011285823 A CN 202011285823A CN 112101360 B CN112101360 B CN 112101360B
Authority
CN
China
Prior art keywords
frame
target
trained
image
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011285823.5A
Other languages
English (en)
Other versions
CN112101360A (zh
Inventor
胡来丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202011285823.5A priority Critical patent/CN112101360B/zh
Publication of CN112101360A publication Critical patent/CN112101360A/zh
Application granted granted Critical
Publication of CN112101360B publication Critical patent/CN112101360B/zh
Priority to PCT/CN2021/098637 priority patent/WO2022105197A1/en
Priority to EP21893351.3A priority patent/EP4229540A4/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种目标检测方法、装置以及计算机可读存储介质,该目标检测方法包括:获取待检测图像,并获取待检测图像中目标的框特征;从预存的框缓存特征中提取与目标的类型对应的框缓存特征,其中,框缓存特征标识预测点与真实目标边框的距离信息;基于目标的框特征以及框缓存特征计算目标最终目标框的位置和大小。上述方案,能够提高目标检测的准确性。

Description

一种目标检测方法、装置以及计算机可读存储介质
技术领域
本申请涉及图像处理与人工智能技术领域,特别是涉及一种目标检测方法、装置以及计算机可读存储介质。
背景技术
随着CNN的发展,出现了许多目标检测算法。这些基于CNN的目标检测算法虽然能够达到很高的检测精度,但都需要依靠大量物体级标记(对每个目标画出目标框)的样本进行训练上的支持。并且,对于不同的检测任务,需要构建完全不同的数据库进行训练。在实际应用中,获取大量的训练样本有时需要耗费大量的人力和时间成本,有时则是完全无法达到的。这已经成了应用基于CNN的目标检测算法的瓶颈。
为了解决物体级标记难以获得的问题,基于弱监督学习的目标检测算法应运而生。这类算法同样基于CNN,但不同的是在训练过程中不再使用物体级的标签,而是使用图像级标签(只对图像内是否存在目标进行标注)。一方面,在进行人工标注时,进行图像级标注的难度远远低于物体级标注,能够以更高的效率构建训练数据集。另一方面,由于搜索引擎的存在,人们甚至可以轻而易举地通过网络获取带有特定图像级标注的样本,进一步削减了构建数据集的工作量。
然而,在现有的深度学习目标检测技术下,其首先需要在大量的人工精细标注(类别及位置)的数据上进行神经网络的训练才能得到更高精度的网络模型,人工标注费耗人力,怎么样在稀疏的标注下得到更优的网络模型成为技术瓶颈。
发明内容
本申请至少提供一种目标检测方法、装置以及计算机可读存储介质。
本申请第一方面提供了一种目标检测方法,所述目标检测方法包括:
获取待检测图像,并获取所述待检测图像中目标的框特征;
从预存的框缓存特征中提取与所述目标的类型对应的框缓存特征,其中,所述框缓存特征标识预测点与真实目标边框的距离信息;
基于所述目标的框特征以及所述框缓存特征计算所述目标最终目标框的位置和大小。
其中,所述方法还包括:
获取多张待训练图像,将多张所述待训练图像输入预设神经网络进行训练,得到所述待训练图像的预测点;
基于所述预测点以及标注的真实目标边框,得到框特征;
对多张所述待训练图像的框特征进行更新,得到所述框缓存特征。
其中,所述对多张所述待训练图像的框特征进行更新,得到框缓存特征的步骤,包括:
获取上一张待训练图像的框特征,以及当前张待训练图像的框特征;
将所述上一张待训练图像的框特征和所述当前张待训练图像的框特征按照第一预设更新权重叠加,得到所述框缓存特征。
其中,所述从预存的框缓存特征中提取与所述目标的类型对应的框缓存特征之前,所述方法还包括:
基于预存的类缓存特征、所述目标的类特征以及所述目标的第一分类置信度计算所述目标的第二分类置信度;
基于所述第二分类置信度确定所述目标的类型。
其中,所述方法还包括:
基于所述目标的框特征计算所述目标的中心度;
获取所述目标参考所述中心度后的分类置信度作为所述第一分类置信度。
其中,所述基于预存的类缓存特征、所述目标的类特征以及所述目标的第一分类置信度计算所述目标的第二分类置信度之前,所述方法还包括:
获取多张待训练图像,将多张所述待训练图像输入预设神经网络进行训练,得到所述待训练图像的特征图;
基于所述特征图提取与标注的目标对应的的类特征;
对多张所述待训练图像的类特征进行更新,得到所述类缓存特征。
其中,所述对多张所述待训练图像的类特征进行更新,得到类缓存特征的步骤,包括:
获取上一张待训练图像的类特征,以及当前张待训练图像的类特征;
将所述上一张待训练图像的类特征和所述当前张待训练图像的类特征按照第二预设更新权重叠加,得到所述类缓存特征。
其中,所述获取待检测图像的步骤之后,所述目标检测方法还包括:
将所述待检测图像经过归一化处理以及按照固定尺寸缩放处理;
获取处理后的所述待检测图像的框特征。
其中,所述获取所述待检测图像中目标的框特征的步骤,包括:
将所述待检测图像输入主干网络,获取所述主干网络输出的预测点;
回归出所述预测点与标注的真实目标边框的距离,得到所述框特征;
其中,所述主干网络为ResNet50、VGG16、ResNext34中的一种神经网络。
本申请第二方面提供了一种目标检测装置,所述目标检测装置包括:
获取模块,用于获取待检测图像,并获取所述待检测图像中目标的框特征;
特征提取模块,用于从预存的框缓存特征中提取与所述目标的类型对应的框缓存特征,其中,所述框缓存特征标识预测点与真实目标边框的距离信息;
目标检测模块,用于基于所述目标的框特征以及所述框缓存特征计算所述目标最终目标框的位置和大小。
本申请第三方面提供了一种目标检测装置,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的目标检测方法。
本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的目标检测方法。
本申请中,目标检测装置获取待检测图像,并获取待检测图像中目标的框特征;从预存的框缓存特征中提取与目标的类型对应的框缓存特征,其中,框缓存特征标识预测点与真实目标边框的距离信息;基于目标的框特征以及框缓存特征计算目标最终目标框的位置和大小。上述方案,能够提高目标检测的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1是本申请提供的目标检测方法第一实施例的流程示意图;
图2是本申请提供的类别与框特征缓存图;
图3是本申请提供的目标检测方法第二实施例的流程示意图;
图4是本申请提供的目标检测方法第三实施例的流程示意图;
图5是本申请提供的目标检测装置一实施例的框架示意图;
图6是本申请提供的目标检测装置另一实施例的框架示意图;
图7是本申请提供的计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
请参阅图1,图1是本申请提供的目标检测方法第一实施例的流程示意图。
本申请的目标检测方法的执行主体可以是一种目标检测装置,例如,目标检测方法可以由终端设备或服务器或其它处理设备执行,其中,目标检测装置可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无线电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该目标检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
具体而言,本公开实施例的目标检测方法可以包括以下步骤:
步骤S11:获取待检测图像,并获取待检测图像中目标的框特征。
其中,目标检测装置获取待检测图像,待检测图像可以为RGB图像,也可以为YUV图像。目标检测装置进一步将待检测图像归一化处理后缩放到预设的固定尺寸,然后将处理后的待检测图像输入主干网络,以获取主干网络输出的特征图像和预测点,特征图像的维度为B×N×H×W,记为F。其中,B表示输入待检测图像的数量,N表示特征图像的通道数量,H表示特征图像的高度,W表示特征图像的宽度。
主干网络可以为现有成熟的图像特征提取网络,包括但不限于:ResNet50、VGG16、ResNext34等常见的网络结构。
目标检测装置进一步获取标注的真实目标边框,然后利用主干网络输出的预测点回归出预测点与标注的真实目标边框的距离,得到框特征。具体请参阅图2,图2是本申请提供的类别与框特征缓存图。图2左侧待检测图像中的圆圈“○”即生成的预测点,包含预测点的框即对应标注的真实目标边框Fp。预测点与真实目标边框的距离可以表示为(l,r,t,b),即为框特征。
步骤S12:从预存的框缓存特征中提取与目标的类型对应的框缓存特征,其中,框缓存特征标识预测点与真实目标边框的距离信息。
其中,目标检测装置基于主干网络输出的特征图像分析出目标的类型。具体地,目标检测装置可以通过利用SoftMax分类方法将上述获取的待检测图像的特征向量划分为若干类别,如分成n类,其维度为B×H×W×n,记为S。
进一步地,目标检测装置基于目标的分类结果,从预存的框缓存特征中提取出与目标的类型对应的框缓存特征,其中,框缓存特征标识预测点与真实目标边框的距离信息。
其中,预存的框缓存特征是通过多张待训练图像训练得到,通过分别获取待训练图像的框特征,然后根据多张待训练图像的框特征不断更新,形成框缓存特征,记为图2中的BR_buffer,各类别框缓存特征的维度为n×4,n表示类别数,特征向量长度为4。
步骤S13:基于目标的框特征以及框缓存特征计算目标最终目标框的位置和大小。
其中,目标检测装置基于目标的框特征以及预存的框缓存特征计算最终的目标预测框,通过最终的目标预测框解码出最终目标的位置以及大小,即预测点位置(x,y),框宽高为(l*+r*,t*+b*)具体计算公式如下:
(l*,t*,r*,b*)=k×(l,t,r,b)+(1-k)×BR_buffer
其中,(l,t,r,b)为目标的框特征,BR_buffer为预存的框缓存特征,(l*,t*,r*,b*)为最终目标预测框的框特征。
在本公开实施例中,目标检测装置获取待检测图像,并获取待检测图像中目标的框特征;从预存的框缓存特征中提取与目标的类型对应的框缓存特征,其中,框缓存特征标识预测点与真实目标边框的距离信息;基于目标的框特征以及框缓存特征计算目标最终目标框的位置和大小。上述方案,能够提高目标检测的准确性。
在上述实施例中,目标检测装置利用预存的框缓存特征与目标的框特征融合得到最终的目标预测框,其中,预存的框缓存特征的生成方式具体请继续参阅图3,图3是本申请提供的目标检测方法第二实施例的流程示意图。具体而言,本公开实施例的目标检测方法可以包括以下步骤:
步骤S21:获取多张待训练图像,将多张待训练图像输入预设神经网络进行训练,得到待训练图像的预测点。
其中,目标检测装置获取多张待训练图像,待训练图像可以为RGB图像,也可以为YUV图像。目标检测装置进一步将待训练图像归一化处理后缩放到预设的固定尺寸,然后将处理后的待训练图像输入主干网络,以获取主干网络输出的特征图像和预测点。
步骤S22:基于预测点以及标注的真实目标边框,得到框特征。
其中,目标检测装置进一步获取标注的真实目标边框,然后利用主干网络输出的预测点回归出预测点与标注的真实目标边框的距离,得到框特征。
步骤S23:对多张待训练图像的框特征进行更新,得到框缓存特征。
其中,目标检测装置分别获取多张待训练图像的框特征,并按照获取顺序不断对当前张待训练图像的框特征进行更新,从而得到最终的框缓存特征。
具体地,更新框特征的步骤可以如下:获取上一张待训练图像的框特征,以及当前张待训练图像的框特征;将上一张待训练图像的框特征和当前张待训练图像的框特征按照第一预设更新权重叠加,得到框缓存特征。遍历所有待训练图像,循环执行上述更新框特征的步骤,直至得到最终的框缓存特征。
例如,假设标注的目标类别为L,通过训练对BR_buffer中的f_brL进行更新,得到更新的框缓存特征,具体公式如下:
f_brL=βf_brL+(1-β) Fbr
其中,f_brL表示图2中右下角BR_buffer中L类别的框特征,Fbr表示本轮训练中从特征层得到的类别L的框特征,β为更新权重。
在上述实施例中,目标检测装置从预存的框缓存特征中提取与目标的类型对应的框缓存特征,其中,目标的类别一方面可以根据softmax的原始输出确定,具体地,目标检测装置获取softmax神经网络输出目标分别属于不同类别的概率值,然后将概率值最高的类别作为检测目标的分类;另一方面可以根据参考中心度之后的输出确定,具体请继续参阅图4,图4是本申请提供的目标检测方法第三实施例的流程示意图。具体而言,本公开实施例的目标检测方法包括以下步骤:
步骤S31:基于目标的框特征计算目标的中心度。
其中,目标检测装置通过目标的框特征衡量目标的中心度,具体地,中心度的具体计算公式如下:
Figure DEST_PATH_IMAGE001
其中,centerness表示目标的中心度,其维度为B×H×W×1。
步骤S32:获取目标参考中心度后的分类置信度作为第一分类置信度。
步骤S33:基于预存的类缓存特征、目标的类特征以及目标的第一分类置信度计算目标的第二分类置信度。
其中,目标检测装置获取目标的框特征后,还可以计算目标的分类置信度。具体计算方式如下:目标检测装置基于预存的类缓存特征、目标的类特征以及目标的第一分类置信度计算目标的第二分类置信度,第一分类置信度和第二分类置信度的具体计算公式如下:
Score=m×S’+(1-m)×F×CF_bufferT
S’=S×centerness
其中,S为目标的类特征,CF_buffer为预存的类缓存特征,S’为第一分类置信度,score为第二分类置信度。
第二分类置信度score的计算方式避免了图2中虚线部分Fq(未人工标注)的漏检,由于是真实目标但漏缺标注,传统的目标检测方法会认为是背景造成漏检,在本公开实施例中将该特征与类别缓存特征相乘求相似度,其值越高,与该类别的特征向量越相似,最后与第一分类置信度S’相加成为最终的第二分类置信度score。
其中,对于预存的类缓存特征的获取步骤与预存的框缓存特征的获取步骤基本相同。
具体地,目标检测装置获取多张待训练图像,并将待训练图像归一化处理后缩放到预设的固定尺寸,然后将处理后的待训练图像输入主干网络,以获取主干网络输出的特征图。目标检测装置根据特征图提取与标注的目标对应的类特征。
目标检测装置分别获取多张待训练图像的类特征,并按照获取顺序不断对当前张待训练图像的类特征进行更新,从而得到最终的类缓存特征,如图2右上角所示,记为CF_buffer。各类别缓存特征的维度为n×N,n表示类别数,N表示特征向量长度,特征向量记为fi,i=1,2…,n。
具体地,更新类特征的步骤可以如下:获取上一张待训练图像的类特征,以及当前张待训练图像的类特征;将上一张待训练图像的类特征和当前张待训练图像的类特征按照第二预设更新权重叠加,得到类缓存特征。遍历所有待训练图像,循环执行上述更新类特征的步骤,直至得到最终的类缓存特征。
例如,假设标注的目标类别为L,如图2中的实体框,其特征向量记为Fp,通过训练对CF_buffer中的fL进行更新,得到类缓存特征,具体计算公式如下:
fL=λfL+(1-λ)Fp
其中,λ表示更新权重。
步骤S34:基于第二分类置信度确定目标的类型。
其中,目标检测装置基于第二分类置信度确定目标的类型,具体地,目标检测装置将多个类别对应的第二分类置信度进行比较,将最大值的第二分类置信度对应的类别作为目标的类型。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
请继续参阅图5,图5是本申请提供的目标检测装置一实施例的框架示意图。目标检测装置40包括:
获取模块41,用于获取待检测图像,并获取待检测图像中目标的框特征。
特征提取模块42,用于从预存的框缓存特征中提取与目标的类型对应的框缓存特征,其中,框缓存特征标识预测点与真实目标边框的距离信息。
目标检测模块43,用于基于目标的框特征以及框缓存特征计算目标最终目标框的位置和大小。
请参阅图6,图6是本申请提供的目标检测装置另一实施例的框架示意图。目标检测装置50包括相互耦接的存储器51和处理器52,处理器52用于执行存储器51中存储的程序指令,以实现上述任一目标检测方法实施例中的步骤。在一个具体的实施场景中,目标检测装置50可以包括但不限于:微型计算机、服务器,此外,目标检测装置50还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器52用于控制其自身以及存储器51以实现上述任一目标检测方法实施例中的步骤。处理器52还可以称为CPU(Central Processing Unit,中央处理单元)。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application SpecificIntegrated Circuit, ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器52可以由集成电路芯片共同实现。
请参阅图7,图7是本申请提供的计算机可读存储介质一实施例的框架示意图。计算机可读存储介质60存储有能够被处理器运行的程序指令601,程序指令601用于实现上述任一目标检测方法实施例中的步骤。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (9)

1.一种目标检测方法,其特征在于,所述目标检测方法包括:
获取待检测图像,并获取所述待检测图像中目标的框特征;其中,所述获取所述待检测图像中目标的框特征的步骤,包括:将所述待检测图像输入主干网络,获取所述主干网络输出的预测点;回归出所述预测点与标注的真实目标边框的距离,得到所述框特征;
从预存的框缓存特征中提取与所述目标的类型对应的框缓存特征,其中,所述框缓存特征标识预测点与真实目标边框的距离信息;
基于所述目标的框特征以及所述框缓存特征计算所述目标最终目标框的位置和大小;
其中,所述方法还包括:获取多张待训练图像,将多张所述待训练图像输入预设神经网络进行训练,得到所述待训练图像的预测点;基于所述预测点以及标注的真实目标边框,得到框特征;对多张所述待训练图像的框特征进行更新,得到所述框缓存特征。
2.根据权利要求1所述的目标检测方法,其特征在于,
所述对多张所述待训练图像的框特征进行更新,得到框缓存特征的步骤,包括:
获取上一张待训练图像的框特征,以及当前张待训练图像的框特征;
将所述上一张待训练图像的框特征和所述当前张待训练图像的框特征按照第一预设更新权重叠加,得到所述框缓存特征。
3.根据权利要求1所述的目标检测方法,其特征在于,
所述从预存的框缓存特征中提取与所述目标的类型对应的框缓存特征之前,所述方法还包括:
基于预存的类缓存特征、所述目标的类特征以及所述目标的第一分类置信度计算所述目标的第二分类置信度;
基于所述第二分类置信度确定所述目标的类型;
其中,所述方法还包括:基于所述目标的框特征计算所述目标的中心度;获取所述目标参考所述中心度后的分类置信度作为所述第一分类置信度;
其中,所述基于预存的类缓存特征、所述目标的类特征以及所述目标的第一分类置信度计算所述目标的第二分类置信度之前,所述方法还包括:获取多张待训练图像,将多张所述待训练图像输入预设神经网络进行训练,得到所述待训练图像的特征图;基于所述特征图提取与标注的目标对应的类特征;对多张所述待训练图像的类特征进行更新,得到所述类缓存特征;
其中,所述第二分类置信度的具体计算公式如下:
score=m×S′+(1-m)×F×CF_bufferT
S′=S×centerness
其中,S为所述目标的类特征,CF_bufferT为所述预存的类缓存特征,S’为所述第一分类置信度,score为所述第二分类置信度,centerness表示目标的中心度,F为特征图像的维度B×N×H×W,其中,B表示输入所述待检测图像的数量,N表示所述特征图像的通道数量,H表示所述特征图像的高度,W表示所述特征图像的宽度。
4.根据权利要求3所述的目标检测方法,其特征在于,
所述对多张所述待训练图像的类特征进行更新,得到类缓存特征的步骤,包括:
获取上一张待训练图像的类特征,以及当前张待训练图像的类特征;
将所述上一张待训练图像的类特征和所述当前张待训练图像的类特征按照第二预设更新权重叠加,得到所述类缓存特征。
5.根据权利要求1所述的目标检测方法,其特征在于,
所述获取待检测图像的步骤之后,所述目标检测方法还包括:
将所述待检测图像经过归一化处理以及按照固定尺寸缩放处理;
获取处理后的所述待检测图像的框特征。
6.根据权利要求1所述的目标检测方法,其特征在于,
所述主干网络为ResNet50、VGG16、ResNext34中的一种神经网络。
7.一种目标检测装置,其特征在于,所述目标检测装置包括:
获取模块,用于获取待检测图像,并获取所述待检测图像中目标的框特征;其中,所述获取模块具体用于将所述待检测图像输入主干网络,获取所述主干网络输出的预测点;回归出所述预测点与标注的真实目标边框的距离,得到所述框特征;
特征提取模块,用于从预存的框缓存特征中提取与所述目标的类型对应的框缓存特征,其中,所述框缓存特征标识预测点与真实目标边框的距离信息;
目标检测模块,用于基于所述目标的框特征以及所述框缓存特征计算所述目标最终目标框的位置和大小;
其中,所述特征提取模块还用于获取多张待训练图像,将多张所述待训练图像输入预设神经网络进行训练,得到所述待训练图像的预测点;基于所述预测点以及标注的真实目标边框,得到框特征;对多张所述待训练图像的框特征进行更新,得到所述框缓存特征。
8.一种目标检测装置,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至6任一项所述的目标检测方法。
9.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至6任一项所述的目标检测方法。
CN202011285823.5A 2020-11-17 2020-11-17 一种目标检测方法、装置以及计算机可读存储介质 Active CN112101360B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011285823.5A CN112101360B (zh) 2020-11-17 2020-11-17 一种目标检测方法、装置以及计算机可读存储介质
PCT/CN2021/098637 WO2022105197A1 (en) 2020-11-17 2021-06-07 Systems and methods for image detection
EP21893351.3A EP4229540A4 (en) 2020-11-17 2021-06-07 IMAGE DETECTION SYSTEMS AND METHODS

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011285823.5A CN112101360B (zh) 2020-11-17 2020-11-17 一种目标检测方法、装置以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112101360A CN112101360A (zh) 2020-12-18
CN112101360B true CN112101360B (zh) 2021-04-27

Family

ID=73785566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011285823.5A Active CN112101360B (zh) 2020-11-17 2020-11-17 一种目标检测方法、装置以及计算机可读存储介质

Country Status (3)

Country Link
EP (1) EP4229540A4 (zh)
CN (1) CN112101360B (zh)
WO (1) WO2022105197A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101360B (zh) * 2020-11-17 2021-04-27 浙江大华技术股份有限公司 一种目标检测方法、装置以及计算机可读存储介质
CN112507983B (zh) * 2021-02-03 2021-11-16 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN114972710B (zh) * 2022-07-27 2022-10-28 深圳爱莫科技有限公司 一种在图像中实现多形状目标检测的方法及***
CN115294396B (zh) * 2022-08-12 2024-04-23 北京百度网讯科技有限公司 骨干网络的训练方法以及图像分类方法
CN117292179A (zh) * 2023-09-14 2023-12-26 博瀚智能(深圳)有限公司 基于质检场景的难例筛选方法、***、设备及存储介质
CN117576108B (zh) * 2024-01-17 2024-05-28 杭州广立微电子股份有限公司 晶圆缺陷检测的可视化优化方法、装置和计算机设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048322A (ja) * 2004-08-04 2006-02-16 Seiko Epson Corp オブジェクト画像検出装置、顔画像検出プログラムおよび顔画像検出方法
JP4507129B2 (ja) * 2008-06-06 2010-07-21 ソニー株式会社 追尾点検出装置および方法、プログラム、並びに記録媒体
CN105528610B (zh) * 2014-09-30 2019-05-07 阿里巴巴集团控股有限公司 文字识别方法和装置
CN106295678B (zh) * 2016-07-27 2020-03-06 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
CN107145855B (zh) * 2017-04-28 2020-10-09 努比亚技术有限公司 一种参考质量模糊图像预测方法、终端及存储介质
CN109271967B (zh) * 2018-10-16 2022-08-26 腾讯科技(深圳)有限公司 图像中文本的识别方法及装置、电子设备、存储介质
CN110070107B (zh) * 2019-03-26 2020-12-25 华为技术有限公司 物体识别方法及装置
CN110688905B (zh) * 2019-08-30 2023-04-18 中山大学 一种基于关键帧的三维物体检测与跟踪方法
CN110781956A (zh) * 2019-10-24 2020-02-11 精硕科技(北京)股份有限公司 一种目标检测的方法、装置、电子设备及可读存储介质
CN111401376B (zh) * 2020-03-12 2023-06-30 腾讯科技(深圳)有限公司 目标检测方法、装置、电子设备以及存储介质
CN112101360B (zh) * 2020-11-17 2021-04-27 浙江大华技术股份有限公司 一种目标检测方法、装置以及计算机可读存储介质

Also Published As

Publication number Publication date
EP4229540A4 (en) 2024-01-24
CN112101360A (zh) 2020-12-18
EP4229540A1 (en) 2023-08-23
WO2022105197A1 (en) 2022-05-27

Similar Documents

Publication Publication Date Title
CN112101360B (zh) 一种目标检测方法、装置以及计算机可读存储介质
CN110175595B (zh) 人体属性识别方法、识别模型训练方法及装置
TWI736230B (zh) 圖像處理方法、電子設備和儲存媒體
TWI770507B (zh) 圖片檢索方法、裝置及電腦可讀儲存介質
CN112101437B (zh) 基于图像检测的细粒度分类模型处理方法、及其相关设备
US11417095B2 (en) Image recognition method and apparatus, electronic device, and readable storage medium using an update on body extraction parameter and alignment parameter
CN108875487B (zh) 行人重识别网络的训练及基于其的行人重识别
TWI769775B (zh) 目標重識別方法、電子設備和電腦可讀儲存介質
JP2022512065A (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
CN111881849A (zh) 图像场景检测方法、装置、电子设备及存储介质
CN112348081A (zh) 用于图像分类的迁移学习方法、相关装置及存储介质
CN111401521A (zh) 神经网络模型训练方法及装置、图像识别方法及装置
CN113837257B (zh) 一种目标检测方法及装置
CN111507285A (zh) 人脸属性识别方法、装置、计算机设备和存储介质
CN110633717A (zh) 一种目标检测模型的训练方法和装置
CN112364916A (zh) 基于迁移学习的图像分类方法、相关设备及存储介质
CN113127667A (zh) 图像处理方法及装置、图像分类方法及装置
CN111476144B (zh) 行人属性识别模型确定方法、装置及计算机可读存储介质
CN110413869B (zh) 用于推送信息的方法和装置
CN111291611A (zh) 一种基于贝叶斯查询扩展的行人重识别方法及装置
WO2022252519A1 (zh) 图像处理方法、装置、终端、介质和程序
CN115761332A (zh) 烟雾和火焰检测方法、装置、设备及存储介质
CN111968030B (zh) 信息生成方法、装置、电子设备和计算机可读介质
CN112749702B (zh) 一种图像识别方法、装置、终端及存储介质
Zhang et al. Visual tracking with randomly projected ferns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20201218

Assignee: ZHEJIANG DAHUA TECHNOLOGY Co.,Ltd.

Assignor: ZHEJIANG DAHUA TECHNOLOGY Co.,Ltd.

Contract record no.: X2021330000117

Denomination of invention: The invention relates to a target detection method, a device and a computer-readable storage medium

Granted publication date: 20210427

License type: Common License

Record date: 20210823

EE01 Entry into force of recordation of patent licensing contract