CN115100419B - 目标检测方法、装置、电子设备及存储介质 - Google Patents

目标检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115100419B
CN115100419B CN202210851147.6A CN202210851147A CN115100419B CN 115100419 B CN115100419 B CN 115100419B CN 202210851147 A CN202210851147 A CN 202210851147A CN 115100419 B CN115100419 B CN 115100419B
Authority
CN
China
Prior art keywords
target
target object
image
sample
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210851147.6A
Other languages
English (en)
Other versions
CN115100419A (zh
Inventor
朱优松
陈志扬
赵朝阳
李朝闻
王金桥
唐明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210851147.6A priority Critical patent/CN115100419B/zh
Publication of CN115100419A publication Critical patent/CN115100419A/zh
Application granted granted Critical
Publication of CN115100419B publication Critical patent/CN115100419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种目标检测方法、装置、电子设备及存储介质,涉及计算机视觉技术领域,包括:确定待检测图像和目标物体类别集,目标物体类别集用于表征需要从待检测图像中检测的不同目标物体类别;将目标物体类别集和待检测图像输入至目标检测模型,获取目标检测结果;目标检测结果包括待检测图像中与目标物体类别集对应的目标物体的目标类别和目标位置;目标检测模型是基于样本物体类别集、样本图像,以及样本图像中样本物体类别标签和样本物***置标签训练得到的,样本物体类别集用于表征需要从样本图像中检测的不同样本物体类别。本发明方法结合额外输入的目标物体类别集,灵活控制所需检测的目标物体,能够更好地适配多样化的目标检测定制需求。

Description

目标检测方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种目标检测方法、装置、电子设备及存储介质。
背景技术
目标检测是计算机视觉的主要任务之一,用于找出图像中所有感兴趣的物体,并确定每个物体的类别和位置。因此,目标检测技术可广泛应用于智能化交通领域、智能监控领域、无人机识别领域等。
相关技术中的目标检测方法,通常以物体为单位设置一组针对多个预设物体的物体特征向量,再基于物体特征向量,对待检测图像进行物体检测,输出待检测图像中对应预设物体的位置信息与类别信息。
然而,由于相关技术以物体为单位进行目标检测时,只能针对固定类别的物体进行检测,并不适用于物体类别较多的图像进行检测,从而导致目标检测的灵活性和适用性不高。
发明内容
本发明实施例提供一种目标检测方法、装置、电子设备及存储介质,用以解决现有技术中只能针对固定类别的物体进行目标检测的缺陷,实现针对不同物体类别且物体类别较多的图像进行目标检测的目的,大幅提升了目标检测的灵活可靠性和广泛适用性。
本发明实施例提供一种目标检测方法,包括:
确定待检测图像和目标物体类别集,所述目标物体类别集用于表征需要从所述待检测图像中检测的不同目标物体类别;
将所述目标物体类别集和所述待检测图像输入至目标检测模型,获取目标检测结果;所述目标检测结果包括所述待检测图像中与所述目标物体类别集对应的目标物体的目标类别和目标位置;
其中,所述目标检测模型是基于样本物体类别集、样本图像,以及所述样本图像中样本物体类别标签和所述样本物***置标签训练得到的,所述样本物体类别集用于表征需要从所述样本图像中检测的不同样本物体类别。
根据本发明实施例提供的一种目标检测方法,所述目标检测模型包括目标特征粗提取网络、目标物体特征生成网络、目标特征精提取网络和目标物体检测网络,所述将所述目标物体类别集和所述待检测图像输入至目标检测模型,获取目标检测结果,包括:
将所述待检测图像输入至目标特征粗提取网络,获取所述待检测图像的目标特征图像;
将所述目标物体类别集和所述目标特征图像输入至所述目标物体特征生成网络,获取第一目标物体类别的第一目标物体特征;所述第一目标物体类别为所述目标物体类别集中的部分目标物体类别;
将所述第一目标物体特征和所述目标特征图像输入至所述目标特征精提取网络,获取第二目标物体类别的第二目标物体特征;所述第二目标物体类别为所述第一目标物体类别中的部分目标物体类别;
将所述第二目标物体特征输入至所述目标物体检测网络,获取所述目标物体检测网络输出的目标检测结果。
根据本发明实施例提供的一种目标检测方法,所述将所述目标物体类别集和所述目标特征图像输入至所述目标物体特征生成网络,获取第一目标物体类别的第一目标物体特征,包括:
将所述目标物体类别集和所述目标特征图像输入至所述目标物体特征生成网络中,由所述目标物体特征生成网络对所述目标物体类别集和所述目标特征图像进行互注意力和全连接处理,确定用于描述所述待检测图像的物体类别向量;并基于所述物体类别向量,确定第一目标物体类别及所述第一目标物体类别的第一目标物体特征。
根据本发明实施例提供的一种目标检测方法,所述基于所述物体类别向量,确定第一目标物体类别及所述第一目标物体类别的第一目标物体特征,包括:
针对所述物体类别向量中物体类别,获取物体参考位置;
确定所述物体类别的置信度;
基于所述置信度,从所述物体类别向量中确定第一目标物体类别;
基于所述物体参考位置,确定所述第一目标物体类别的第一目标物体特征;所述第一目标物体特征用于表征所述第一目标物体类别存在于所述待检测图像中时属于所述第一目标物体类别的第一目标物体的目标位置。
根据本发明实施例提供的一种目标检测方法,所述将所述第一目标物体特征和所述目标特征图像输入至所述目标特征精提取网络,获取第二目标物体类别的第二目标物体特征,包括:
将所述第一目标物体特征和所述目标特征图像输入至所述目标特征精提取网络中,由所述目标特征精提取网络对所述第一目标物体特征和所述目标特征图像进行互注意力解码处理,确定第二目标物体类别的第二目标物体特征。
根据本发明实施例提供的一种目标检测方法,所述将所述第二目标物体特征输入至所述目标物体检测网络,获取所述目标物体检测网络输出的目标检测结果,包括:
将所述第二目标物体特征输入至所述目标物体检测网络中,由所述目标物体检测网络确定所述第二目标物体类别中存在于所述待检测图像中的最终目标物体,并基于所述最终目标物体的目标类别和目标位置,输出目标检测结果。
根据本发明实施例提供的一种目标检测方法,所述目标检测模型的训练过程,包括:
获取样本物体类别集和样本图像集,所述样本图像集中每个样本图像含有样本物体类别标签和所述样本物***置标签,所述样本物体类别集用于表征需要检测的每类样本物体;
使用所述样本物体类别集和所述样本图像集对初始检测模型进行训练,确定目标检测模型。
根据本发明实施例提供的一种目标检测方法,所述使用所述样本物体类别集和所述样本图像集对初始检测模型进行训练,确定目标检测模型,包括:
根据所述样本物体类别集和所述样本图像集中样本图像对初始检测模型进行迭代训练,获取迭代训练后的中间检测模型的损失函数的值;
基于所述中间检测模型的损失函数的值,获取参数更新后的中间检测模型;
根据所述样本物体类别集和所述样本图像集中剩余样本图像,对所述参数更新后的中间检测模型进行迭代训练,确定目标检测模型。
本发明还提供一种目标检测装置,包括:
确定模块,用于确定待检测图像和目标物体类别集,所述目标物体类别集用于表征需要从所述待检测图像中检测的不同目标物体类别;
检测模块,用于将所述目标物体类别集和所述待检测图像输入至目标检测模型,获取目标检测结果;所述目标检测结果包括所述待检测图像中与所述目标物体类别集对应的目标物体的目标类别和目标位置;
其中,所述目标检测模型是基于样本物体类别集、样本图像,以及所述样本图像中样本物体类别标签和所述样本物***置标签训练得到的,所述样本物体类别集用于表征需要从所述样本图像中检测的不同样本物体类别。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述目标检测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述目标检测方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述目标检测方法。
本发明实施例提供的目标检测方法、装置、电子设备及存储介质,其中目标检测方法,通过将表征需要从待检测图像中检测不同目标物体类别的目标物体类别集和待检测图像输入至目标检测模型的方式,获取待检测图像中与目标物体类别集对应的目标物体的目标类别和目标位置,以此结合额外输入所需检测的目标物体类别集,灵活控制所需检测的目标物体,从而使得目标检测方法能够更好地适配多样化的目标检测定制需求。进一步的,由于目标检测模型是基于样本物体类别集、样本图像,以及样本图像中样本物体的类别标签和样本物体的位置标签训练得到的,样本物体类别集用于表征需要从样本图像中检测的不同样本物体类别,因此能够结合模型训练的方式,实现提高目标检测的精准度的目的,从而确保针对不同物体类别且物体类别较多的图像进行目标检测的同时,也能大幅提升目标检测的灵活可靠性和广泛适用性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的目标检测方法的流程示意图;
图2是本发明实施例提供的目标检测方法的整体结构图;
图3是本发明实施例提供的目标物体特征生成网络的结构示意图;
图4是本发明实施例提供的目标检测装置的结构示意图;
图5是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目标检测是计算机视觉领域中一个新兴的应用方向,并通常使用目标检测器实现目标检测,当给定一幅图像和一个标签集合时,目标检测器旨在从图像中找到所有属于该标签集合的物体,并给出每个物体的类别和位置,位置使用物体的外接矩形框表示。传统的目标检测器主要分为两类,一类为一阶段目标检测器,通过在整幅图像上滑窗处理的方式,密集地预测滑窗所对应的每个框中是否存在目标物体;另一类为二阶段目标检测器,首先从密集的滑窗中选取可能性较高的区域,并对所选取的区域进行重点检测;由此可知,传统的两类检测器均以区域为单位进行目标检测时存在两个问题:第一,区域的产生和预测的过程相对于目标检测器而言是固定的,一旦训练完成,目标检测器每次前向都会输出相同的物体集合,如果需要目标检测器输出关注其它不同的标签集合,则需要重新训练检测器,大幅提升了目标检测器的定制与应用成本;第二,以区域为单位的目标检测器会导致多个区域预测出同一物体,从而需要非极大值抑制等技术进行冗余,这也导致目标检测器的前向过程变得更加复杂。
相关技术中提出了一种基于自注意力变换器的目标检测方法是以物体为单位进行检测,并且具体检测时,通常以物体为单位先设置一组针对多个预设物体的物体特征向量,再基于物体特征向量,对待检测图像进行物体检测,输出待检测图像中对应预设物体的位置信息与类别信息。虽然相关技术所提出的以物体为单位的检测方法可以保证图像中每一目标物体均有且仅有一个预设物体与之对应,避免了冗余目标出现,但是,由于预先设置的物体特征向量是固定且缺乏解释的,在实际使用中既也无法修改,也无法干涉目标检测器所需关注和检测的标签类别,因此只能针对固定类别的物体进行检测,并不适用于物体类别较多的图像进行检测,从而导致目标检测的灵活性和适用性不高。
基于此,本发明实施例提供一种目标检测方法、装置、电子设备及存储介质,用于解决上述问题。下面结合图1-图5描述本发明的目标检测方法、装置、电子设备及存储介质,其中目标检测方法的执行主体可以为终端设备或者服务器,终端设备或者服务器至少具备数据处理功能和模型训练功能;终端设备可以为个人计算机(Personal Computer,PC)、便携式设备、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等其它电子设备,服务器可以使用独立的服务器或者多个服务器组成的服务器集群。本发明对终端设备的具体形式不做限定,也不具体限定服务器的具体形式。
需要说明的是,下述方法实施例以执行主体为终端设备为例进行说明,并且下述方法实施例的执行主体可以是终端设备的部分或全部。
图1为本发明实施例提供的目标检测方法的流程示意图,如图1所示,该目标检测方法,包括以下步骤:
步骤110、确定待检测图像和目标物体类别集,目标物体类别集用于表征需要从待检测图像中检测的不同目标物体类别。
其中,目标物体类别集中可以包括人类、动物、车辆等,待检测图像可以为包括不同目标物体的图像。
具体的,当本发明方法应用于各种不同领域时,对应待检测图像也会不同。比如,在汽车无人驾驶领域时,待检测图像可以为汽车周围图像,且包括的目标物体可以是人、汽车和自行车等;在安防监控领域时,待检测图像可以为监控图像,且包括的目标物体可以是人、小狗和高楼等。
可以理解的是,待检测图像还可以为直接从云端已有图像中选取的图像,比如待 检测图像为含有行人、马匹、小狗等目标物体的图像。本发明对待检测图像的具体确定过程 不作具体限定。并且,目标物体类别集可以表示为
Figure 458821DEST_PATH_IMAGE001
,目标物体类别集
Figure 777938DEST_PATH_IMAGE002
是由
Figure 790893DEST_PATH_IMAGE003
个目标物体 类别组成,每个目标物体类别分别对应一个目标物体类别向量,从而得到由
Figure 784650DEST_PATH_IMAGE003
个目标物体 类别向量组成的集合
Figure 605976DEST_PATH_IMAGE004
,其中,第k个目标物体类别向量
Figure 79682DEST_PATH_IMAGE005
Figure 127404DEST_PATH_IMAGE006
Figure 610338DEST_PATH_IMAGE007
表示实数范围,d表示目标检测模型的特征维度。
步骤120、将目标物体类别集和待检测图像输入至目标检测模型,获取目标检测结果;目标检测结果包括待检测图像中与目标物体类别集对应的目标物体的目标类别和目标位置。
其中,目标检测模型是基于样本物体类别集、样本图像,以及样本图像中样本物体的类别标签和样本物体的位置标签训练得到的,样本物体类别集用于表征需要从样本图像中检测的不同样本物体类别。
具体的,为了使输出的目标检测结果包括预先定制的不同目标类别对应的不同目标物体的目标位置,相比于传统以特定类别的物体为单位进行目标检测的方式,本发明实施例中的目标检测模型允许接收待检测图像的同时,还允许额外提供所需检测到的目标物体类别集,从而使得目标检测模型能够更好地针对目标物体类别集中的每个目标物体类别,对待检测图像进行推理,从而获得定制化的目标检测结果,使得当目标物体类别集中的目标物体类别存在于待检测图像中时,可以输出对应目标物体的目标类别和目标位置。
本发明实施例提供的目标检测方法,通过将表征需要从待检测图像中检测不同目标物体类别的目标物体类别集和待检测图像输入至目标检测模型的方式,获取待检测图像中与目标物体类别集对应的目标物体的目标类别和目标位置,以此结合额外输入所需检测的目标物体类别集,灵活控制所需检测的目标物体,从而使得目标检测方法能够更好地适配多样化的目标检测定制需求。进一步的,由于目标检测模型是基于样本物体类别集、样本图像,以及样本图像中样本物体的类别标签和样本物体的位置标签训练得到的,样本物体类别集用于表征需要从样本图像中检测的不同样本物体类别,因此能够结合模型训练的方式,实现提高目标检测的精准度的目的,从而确保针对不同物体类别且物体类别较多的图像进行目标检测的同时,也能大幅提升目标检测的灵活可靠性和广泛适用性。
可选的,当目标检测模型包括目标特征粗提取网络、目标物体特征生成网络、目标特征精提取网络和目标物体检测网络时,步骤120的实现过程可以包括:
首先,将待检测图像输入至目标特征粗提取网络,获取待检测图像的目标特征图像;其次,将目标物体类别集和目标特征图像输入至目标物体特征生成网络,获取第一目标物体类别的第一目标物体特征;第一目标物体类别为目标物体类别集中的部分目标物体类别;再进一步将第一目标物体特征和目标特征图像输入至目标特征精提取网络,获取第二目标物体类别的第二目标物体特征;第二目标物体类别为第一目标物体类别中的部分目标物体类别;最后,将第二目标物体特征输入至目标物体检测网络,获取目标物体检测网络输出的目标检测结果。
具体的,目标检测模型是对初始检测模型进行训练后得到的模型,且初始检测模 型包括初始特征粗提取网络、初始物体特征生成网络、初始特征精提取网络和初始物体检 测网络,初始特征粗提取网络可以是由ResNet主干网络和至少一层可变形自注意力编码器 组成的网络,初始特征精提取网络可以是由至少一层可变形互注意力解码器组成的网络, 初始物体特征生成网络可以是由两个初始指令网络构成,每个初始指令网络包括初始互注 意力网络、第一初始处理网络、初始全连接网络、第二初始处理网络,第一初始处理网络和 第二初始处理网络均用于进行相加及归一化处理;初始物体检测网络可以是由线性层和全 连接层构成的网络。当初始检测模型被训练为目标检测模型时,初始特征粗提取网络被训 练为目标特征粗提取网络
Figure 551749DEST_PATH_IMAGE008
,初始物体特征生成网络被训练为目标物体特征生成网络
Figure 507942DEST_PATH_IMAGE009
,初 始特征精提取网络被训练为目标特征精提取网络
Figure 229910DEST_PATH_IMAGE010
,初始物体检测网络被训练为目标物体 检测网络
Figure 188639DEST_PATH_IMAGE011
基于此,将待检测图像
Figure 63185DEST_PATH_IMAGE012
输入至目标特征粗提取网络
Figure 206590DEST_PATH_IMAGE013
,获取待检测图像
Figure 822379DEST_PATH_IMAGE014
的目标 特征图像
Figure 164892DEST_PATH_IMAGE015
,目标特征图像
Figure 939950DEST_PATH_IMAGE016
用于描述待检测图像中的所有物体及背景;将目标物体类别 集
Figure 942673DEST_PATH_IMAGE017
和目标特征图像
Figure 576916DEST_PATH_IMAGE018
输入至目标物体特征生成网络
Figure 939764DEST_PATH_IMAGE019
,目标物体特征生成网络
Figure 84176DEST_PATH_IMAGE020
针对
Figure 507067DEST_PATH_IMAGE003
个目标类别向量和目标特征图像
Figure 363027DEST_PATH_IMAGE021
进行初步分析,初步确定存在于待检测图像
Figure 77037DEST_PATH_IMAGE022
中第一目 标物体类别的第一目标物体特征
Figure 29949DEST_PATH_IMAGE023
,第一目标物体特征
Figure 561425DEST_PATH_IMAGE024
包括
Figure 219195DEST_PATH_IMAGE025
个目标物体特征,其 中第
Figure 986163DEST_PATH_IMAGE026
个目标物体类别中第
Figure 544315DEST_PATH_IMAGE027
个目标物体特征为
Figure 981112DEST_PATH_IMAGE028
,且用于表征第
Figure 936299DEST_PATH_IMAGE029
个目标物体的目标 位置以及外接矩阵框的长度和宽度;
Figure 693908DEST_PATH_IMAGE030
个目标物体特征组成
Figure 559096DEST_PATH_IMAGE031
Figure 494691DEST_PATH_IMAGE032
表示目标物体特征生成网络
Figure 156747DEST_PATH_IMAGE033
Figure 406463DEST_PATH_IMAGE003
个目标物体类别中选取的目标物体类别个数,
Figure 188474DEST_PATH_IMAGE034
Figure 597766DEST_PATH_IMAGE032
Figure 199649DEST_PATH_IMAGE035
Figure 721897DEST_PATH_IMAGE036
均为正整数;再进一步将第一目标物体特征
Figure 171464DEST_PATH_IMAGE037
和目标特征图像
Figure 448861DEST_PATH_IMAGE038
输入 至目标特征精提取网络
Figure 741303DEST_PATH_IMAGE039
,由目标特征精提取网络
Figure 378826DEST_PATH_IMAGE040
针对第一目标物体特征
Figure 932167DEST_PATH_IMAGE041
和目标特 征图像
Figure 318149DEST_PATH_IMAGE038
进行精确分析,确定第二目标物体类别的第二目标物体特征
Figure 645356DEST_PATH_IMAGE042
;第二目标物体类 别为第一目标物体类别中的部分目标物体类别;最后,将第二目标物体特征
Figure 634041DEST_PATH_IMAGE043
输入至目标 物体检测网络
Figure 182834DEST_PATH_IMAGE044
,目标物体检测网络
Figure 54232DEST_PATH_IMAGE044
结合第二目标物体特征
Figure 180319DEST_PATH_IMAGE042
进行辅助分析,以将第二 目标物体类别中真实存在于待检测图像中的目标物体进行目标位置的标注及目标类别的 标注,从而输出目标检测结果。
需要说明的是,对于目标特征精提取网络
Figure 848061DEST_PATH_IMAGE010
而言,结合目标特征图像
Figure 64410DEST_PATH_IMAGE045
对第一目 标物体特征
Figure 916828DEST_PATH_IMAGE023
进行深度分析,进一步从
Figure 717163DEST_PATH_IMAGE046
个目标物体类别中,确定存在于待检测图像中的 第二目标物体类别,第二目标物体类别含有的目标物体类别的个数小于
Figure 188596DEST_PATH_IMAGE047
需要说明的是,目标特征粗提取网络
Figure 571035DEST_PATH_IMAGE013
可以是由训练好的ResNet主干网络和六层 可变形自注意力编码器组成的网络,并且每层可变形自注意力编码器均针对待检测图像, 均只在同一目标物体类别对应的目标物体之间计算自注意力,以此实现对待检测图像的粗 略特征提取,并输出目标特征图像
Figure 282771DEST_PATH_IMAGE048
示例性的,如图2所示,设定目标物体类别集
Figure 258817DEST_PATH_IMAGE001
包括行人、马匹和小狗这三个目标 物体类别时,将行人、马匹和小狗以及经由目标特征粗提取网络提取的目标特征图像
Figure 392995DEST_PATH_IMAGE048
输 入至目标物体特征生成网络,输出第一目标物体类别的第一目标物体特征
Figure 819822DEST_PATH_IMAGE049
,第一目标物 体类别包括行人和马匹这两个目标物体类别,行人类别对应的行人特征用黑色实心框表 示,马匹类别对应的马匹特征使用灰色实心框表示,然后将第一目标物体特征
Figure 154988DEST_PATH_IMAGE049
和目标特 征图像
Figure 415068DEST_PATH_IMAGE045
输入至目标特征精提取网络,输出第二目标物体类别的第二目标物体特征
Figure 103669DEST_PATH_IMAGE050
,第 二目标物体特征
Figure 70488DEST_PATH_IMAGE051
包括一个行人特征和一个马匹特征,最后将第二目标物体特征
Figure 638873DEST_PATH_IMAGE042
输入 至目标物体检测网络,输出一个行人的目标位置和一个马匹的目标位置。
本发明实施例提供的目标检测方法,先提取待检测图像中的目标特征图像、再结合目标物体类别集和目标特征图像初步确定存在于待检测图像中的第一目标物体类别的第一目标物体特征、进一步结合第一目标物体特征和目标特征图像精确确定存在于待检测图像中的第二目标物体类别的第二目标物体特征,最后通过对第二目标物体特征的辅助分析,确定目标检测结果,以此通过额外输入定制化待检测物体类别的方式,精准针对待检测图像获取所需检测的物体,不仅提高了目标检测的准确性和可靠性,也能够灵活控制所需检测的目标物体,从而使得目标检测模型能够更好地适配多样化的目标检测定制需求。
可选的,将目标物体类别集和目标特征图像输入至目标物体特征生成网络,获取第一目标物体类别的第一目标物体特征,其过程可以包括:
将目标物体类别集和目标特征图像输入至目标物体特征生成网络中,由目标物体特征生成网络对目标物体类别集和目标特征图像进行互注意力和全连接处理,确定用于描述待检测图像的物体类别向量;并基于物体类别向量,确定第一目标物体类别及第一目标物体类别的第一目标物体特征。
具体的,参照图3所示的目标物体特征生成网络的结构示意图,目标物体特征生成 网络包括两个目标指令网络,每个目标指令网络包括目标互注意力网络、第一目标处理网 络、目标全连接网络、第二目标处理网络,第一目标处理网络和第二目标处理网络均用于进 行相加及归一化处理。如图3所示,当目标物体类别集
Figure 697834DEST_PATH_IMAGE002
和目标特征图像
Figure 49181DEST_PATH_IMAGE052
进入目标物体 特征生成网络
Figure 198402DEST_PATH_IMAGE053
时,每个目标指令网络对目标物体类别集
Figure 750737DEST_PATH_IMAGE054
和目标特征图像
Figure 985410DEST_PATH_IMAGE055
使用互注意 力机制进行处理后进行相加和归一化,然后进行全连接处理后再进行相加和归一化,如此 完成两次目标指令处理后,输出用于描述待检测图像的物体类别向量
Figure 140447DEST_PATH_IMAGE056
Figure 458690DEST_PATH_IMAGE057
,其中用于描述待检测图像的第k个物体类别为
Figure 368877DEST_PATH_IMAGE058
Figure 28528DEST_PATH_IMAGE059
然后将物体类别向量
Figure 800306DEST_PATH_IMAGE060
Figure 986437DEST_PATH_IMAGE061
个目标物体类别向量组成的集合
Figure 51214DEST_PATH_IMAGE062
对齐后进行相似性分析,并确定相似性最高的前
Figure 932582DEST_PATH_IMAGE063
个目标物体类别为第一目标物体类别, 并确定第一目标物体类别的第一目标物体特征
Figure 819636DEST_PATH_IMAGE037
本发明实施例提供的目标检测方法,通过目标物体特征生成网络先结合目标物体类别集和目标特征图像生成待检测图像的物体类别向量、后基于物体类别向量确定第一目标物体类别及第一目标物体类别的第一目标物体特征的方式,实现了针对定制化的目标物体类别进行待检测图像中对应目标物体的特征转化目的,为后续精确检测目标提供有力保障。
可选的,基于物体类别向量,确定第一目标物体类别及第一目标物体类别的第一目标物体特征,其过程可以包括:
首先,针对物体类别向量中物体类别,获取物体参考位置;再进一步确定物体类别向量中每个物体类别的置信度;然后,基于所确定的置信度,从物体类别向量中确定第一目标物体类别;最后,基于物体参考位置,确定第一目标物体类别的第一目标物体特征,第一目标物体特征用于表征第一目标物体类别存在于待检测图像中时属于第一目标类别的第一目标物体的目标位置。
具体的,针对物体类别向量中物体类别,获取物体参考位置,此处物体类别包括的物体数量与物体参考位置的数量相同,每个物体参考位置均为对应物体的外接矩形框,也即,某一物体类别含有N个物体时,则该物体类别的物体参考位置也为N个,物体参考位置用于区分同一类别物体的不同物体。
此外,确定物体类别向量中每个物体类别的置信度,以此确定
Figure 548688DEST_PATH_IMAGE064
个物体类别的置 信度,对
Figure 738361DEST_PATH_IMAGE065
个物体类别的置信度进行从大到小排序,并选取前
Figure 169343DEST_PATH_IMAGE046
个置信度对应的
Figure 858424DEST_PATH_IMAGE063
个物体 类别为
Figure 628934DEST_PATH_IMAGE032
个目标物体类别,
Figure 51825DEST_PATH_IMAGE066
个目标物体类别也为第一目标物体类别。其中,
Figure 783151DEST_PATH_IMAGE061
个物体类 别中每个物体类别的置信度的计算公式为:
Figure 949691DEST_PATH_IMAGE067
其中,
Figure 574707DEST_PATH_IMAGE068
表示第k个物体类别
Figure 480084DEST_PATH_IMAGE069
的置信度,
Figure 885657DEST_PATH_IMAGE070
表示物体类别向量
Figure 527991DEST_PATH_IMAGE071
中用于描 述待检测图像的第k个物体类别,d表示目标检测模型的特征维度,
Figure 882880DEST_PATH_IMAGE072
表示第k个目标物体 类别向量,上标T表示转置操作,
Figure 647574DEST_PATH_IMAGE073
表示激活函数,
Figure 478127DEST_PATH_IMAGE074
表示对齐类别操作的线性层。
此时,针对确定的
Figure 35403DEST_PATH_IMAGE063
个目标物体类别,当每个目标物体类别包括
Figure 697329DEST_PATH_IMAGE075
个物体参考位 置,可以通过
Figure 570607DEST_PATH_IMAGE076
个目标物体类别与
Figure 701505DEST_PATH_IMAGE077
个物体参考位置计算集合的笛卡尔积的方式,确定第 一目标物体类别的第一目标物体特征
Figure 810276DEST_PATH_IMAGE023
。比如,当第一目标物体类别为“人”且第一目标特 征
Figure 264391DEST_PATH_IMAGE078
包括两个时可以为待检测图像中左上角位置的人物和右上角位置的人物;第一目标 物体特征
Figure 620155DEST_PATH_IMAGE023
包括
Figure 549933DEST_PATH_IMAGE079
个目标物体特征,其中第
Figure 150810DEST_PATH_IMAGE066
个目标物体类别中第
Figure 459432DEST_PATH_IMAGE080
个目标物体特征 为
Figure 799146DEST_PATH_IMAGE081
,且用于表征第
Figure 406101DEST_PATH_IMAGE080
个目标物体的目标位置以及外接矩阵框的长度和宽度;
Figure 732040DEST_PATH_IMAGE082
个目 标物体特征组成
Figure 19802DEST_PATH_IMAGE083
Figure 484413DEST_PATH_IMAGE046
表示目标物体特征生成网络
Figure 998571DEST_PATH_IMAGE053
Figure 190518DEST_PATH_IMAGE003
个目标物体类别中选取的目标物体类别个数。
本发明实施例提供的目标检测方法,通过目标物体特征生成网络针对物体类别向量先计算每个物体类别的置信度、后选取第一目标物体类别,再进一步基于物体参考位置,确定第一目标物体类别的第一目标物体特征,以此提高了目标物体特征生成网络的可靠性和准确性,并且由于第一目标物体特征表征第一目标物体类别存在于待检测图像中时属于第一目标物体类别的第一目标物体的目标位置,因此也能为后续进行特征精确提取奠定基础,从而提高了目标检测的精准度。
可选的,将第一目标物体特征和特征图像输入至目标特征精提取网络,获取第二目标物体类别的第二目标物体特征,其实现过程包括:
将第一目标物体特征和目标特征图像输入至目标特征精提取网络中,由目标特征精提取网络对第一目标物体特征和目标特征图像进行互注意力解码处理,确定第二目标物体类别的第二目标物体特征。
具体的,由于目标特征精提取网络是由训练好的至少一层可变形互注意力解码器 组成的网络,因此第一目标物体特征
Figure 847633DEST_PATH_IMAGE023
和目标特征图像
Figure 404516DEST_PATH_IMAGE018
输入至目标特征精提取网络
Figure 468287DEST_PATH_IMAGE039
中时,目标特征精提取网络
Figure 276974DEST_PATH_IMAGE039
中的每层训练好的互注意力解码器针对第一目标物体特征
Figure 414694DEST_PATH_IMAGE084
和目标特征图像
Figure 204796DEST_PATH_IMAGE085
进行可变形的互注意力解码处理,以此使得精确化输出存在于待检 测图像中的第二目标物体类别,第二目标物体类别含有的目标物体类别的个数小于
Figure 70377DEST_PATH_IMAGE086
。第 二目标物体特征用于表征第二目标物体类别存在于待检测图像中时属于第二目标物体类 别的第二目标物体的目标位置。示例性的,目标特征精提取网络是由训练好的四层可变形 互注意力解码器组成的网络。
本发明实施例提供的目标检测方法,通过目标特征精提取网络对第一目标物体特征和目标特征图像进行互注意力解码处理的方式,确定第二目标物体类别的第二目标物体特征,进一步提高了特征精提取的准确性和可靠性,同时也能确保后续目标检测的精准度。
可选的,将第二目标物体特征输入至目标物体检测网络,获取目标物体检测网络输出的目标检测结果,其实现过程可以包括:
将第二目标物体特征输入至目标物体检测网络中,由目标物体检测网络确定第二目标物体类别中存在于待检测图像中的最终目标物体,并基于最终目标物体的目标类别和目标位置,输出目标检测结果。
具体的,目标物体检测网络的目的是确定第二目标物体类别中每个第二目标物体 的得分值及位置坐标,第二目标物体类别中第
Figure 604127DEST_PATH_IMAGE087
个目标物体类别中第i个第二目标物体的 得分值的计算公式为:
Figure 596353DEST_PATH_IMAGE088
其中,
Figure 635985DEST_PATH_IMAGE089
表示第二目标物体类别中第
Figure 674348DEST_PATH_IMAGE090
个目标物体类别中第i个第二目标物 体的得分值,
Figure 418313DEST_PATH_IMAGE091
表示第二目标物体类别中第
Figure 170106DEST_PATH_IMAGE092
个目标物体类别的得分值,
Figure 302010DEST_PATH_IMAGE093
表示用于 对齐物体类别与物体类别特征的线性层,d表示目标检测模型的特征维度,上标T表示转置 操作,
Figure 765353DEST_PATH_IMAGE094
表示激活函数,
Figure 188375DEST_PATH_IMAGE095
表示第
Figure 483090DEST_PATH_IMAGE096
个目标物体类别中第i个第二目标物体特 征,
Figure 989158DEST_PATH_IMAGE097
表示第
Figure 977012DEST_PATH_IMAGE090
个目标物体类别的第二目标物体特征,
Figure 452993DEST_PATH_IMAGE098
Figure 539898DEST_PATH_IMAGE099
表示第二目 标物体类别中含有的目标物体类别的个数。
基于此,将计算出的第二目标物体类别中每个目标物体类别中每个第二目标物体 的得分值,与预设得分阈值进行比较,并将大于预设得分阈值的第二目标物体均确定为最 终目标物体,并确定每个最终目标物体的目标类别,目标类别属于目标物体类别集。然后, 针对每个最终目标物体的位置坐标确定,通过目标物体检测网络中的3层全连接层进行位 置预测,其中前两层保持维度d,最后一层直接输出每个最终目标物体的目标位置,目标位 置可表示为外接矩形框坐标
Figure 29916DEST_PATH_IMAGE100
Figure 61326DEST_PATH_IMAGE101
为对应最终目标物体的外接矩形框的中心 点坐标,
Figure 216364DEST_PATH_IMAGE102
为对应最终目标物体的外接矩形框的尺寸。
本发明实施例提供的目标检测方法,通过目标物体检测网络针对第二目标物体特征确定第二目标物体类别中存在于待检测图像中的最终目标物体,并基于最终目标物体的目标类别和目标位置,输出目标检测结果,以此结合计算每个第二目标物体的得分值辅助确定最终目标物体以及结合全连接层技术预测最终目标物体的目标位置,有效提高了目标检测准确性和可靠性。
可选的,目标检测模型的训练过程,包括:
首先,获取样本物体类别集和样本图像集,样本图像集中每个样本图像含有样本物体类别标签和样本物***置标签,样本物体类别集用于表征需要检测的每类样本物体;然后,使用样本物体类别集和样本图像集对初始检测模型进行训练,确定目标检测模型。
具体的,样本物***置标签表征对应样本图像中每个样本物体的外接矩形框的中心点坐标及外接矩形框的尺寸;样本图像集中包括大量样本图像,每个样本图像含有样本物体类别标签和样本物***置标签,以此表明每个样本图像中含有哪些类别的样本物体以及每个样本物体的具***置,样本物体可以为行人、小猫、小狗等;初始检测模型包括初始特征粗提取网络、初始物体特征生成网络、初始特征精提取网络和初始物体检测网络。然后使用样本物体类别集和样本图像集对初始检测模型进行训练,比如可以设定针对部分样本图像进行训练的训练次数,通过使用样本物体类别集和部分样本图像对初始检测模型进行训练次数的训练后,可以将当前训练后的输出结果发送至客户端,以通过客户端对应用户确定输出结果是否满足实际需求。
当终端设备接收到客户端反馈的包括输出结果满足实际需求的第一反馈信息时,可以将输出结果对应的中间模型确定为目标检测模型;反之,当终端设备接收到客户端反馈的包括输出结果不满足实际需求的第二反馈信息时,可以使用样本图像集中未经过训练的样本图像更新部分样本图像,将输出结果对应的中间模型作为新的检测模型,然后使用更新后的部分样本图像和样本物体类别集对新的检测模型进行训练次数的训练。直至接收到客户端反馈的第一反馈信息。
本发明实施例提供的目标检测方法,通过样本物体类别集和样本图像集对初始检测模型进行训练的过程得到目标检测模型,以此实现根据样本物体类别集和样本图像集训练模型的目的,提高了训练过程的稳定性和可靠性。
可选的,使用样本物体类别集和样本图像集对初始检测模型进行训练,确定目标检测模型,其实现过程可以包括:
首先,根据样本物体类别集和样本图像集中样本图像对初始检测模型进行迭代训练,获取迭代训练后的中间检测模型的损失函数的值;然后,基于中间检测模型的损失函数的值,获取参数更新后的中间检测模型;进一步根据样本物体类别集和样本图像集中剩余样本图像,对参数更新后的中间检测模型进行迭代训练,确定目标检测模型。
具体的,设定样本图像集中包括P幅样本图像,使用第q幅样本图像和样本物体类别集对初始检测模型进行第1次训练,获取第1次训练所得中间检测模型的损失函数的值,然后基于第1次训练所得中间检测模型的损失函数的值,获取第1次模型参数更新后的中间检测模型,以使得下次训练所得模型的损失比当前模型的损失小。再使用第q幅样本图像和样本物体类别集对第1次模型参数更新后的中间检测模型进行第2次训练,获取第2次训练所得中间检测模型的损失函数的值,然后基于第2次训练所得中间检测模型的损失函数的值,获取第2次模型参数更新后的中间检测模型,再使用第q幅样本图像和样本物体类别集对第2次模型参数更新后的中间检测模型进行第3次训练;直至使用第q幅样本图像和样本物体类别集对第M-1次模型参数更新后的中间检测模型进行第M次训练。以此完成针对第q幅样本图像的M次训练,q的值从1遍历至P,训练次数从1至M,M和P均为正整数。示例性的,M的取值可以为50,P的取值可以为11万。
当P幅样本图像均被训练M次后,即可停止模型训练,并确定模型训练停止时对应的中间检测模型为目标检测模型。
可以理解的是,针对每幅样本图像进行每次训练,获取对应中间检测模型的损失 函数的值
Figure 734939DEST_PATH_IMAGE103
,其计算公式为:
Figure 441863DEST_PATH_IMAGE104
其中,
Figure 101515DEST_PATH_IMAGE105
表示焦点损失,
Figure 873293DEST_PATH_IMAGE106
表示第
Figure 793844DEST_PATH_IMAGE063
个目标物体类别的损失,
Figure 547037DEST_PATH_IMAGE107
表示第
Figure 8498DEST_PATH_IMAGE046
个目标物体类别中第
Figure 895552DEST_PATH_IMAGE080
个目标物体的损失,
Figure 545976DEST_PATH_IMAGE108
表示第
Figure 283119DEST_PATH_IMAGE109
个目标物体类别中第
Figure 41997DEST_PATH_IMAGE110
个目标物 体;
Figure 654112DEST_PATH_IMAGE111
表示第
Figure 424622DEST_PATH_IMAGE046
个目标物体类别中第
Figure 644251DEST_PATH_IMAGE110
个目标物体理论上可预测到待检测图像中的 真实目标物体,也即第
Figure 578840DEST_PATH_IMAGE080
个目标物体所对应待检测图像中的真实标注物体;
Figure 683062DEST_PATH_IMAGE112
表 示
Figure 167133DEST_PATH_IMAGE113
满足时值为1、不满足时值为0,也即第
Figure 13123DEST_PATH_IMAGE114
个目标物体所对应待检测图像中的 真实标注物体时值为1、第
Figure 356380DEST_PATH_IMAGE115
个目标物体没有对应到待检测图像中的真实标注物体时值为0;
Figure 326610DEST_PATH_IMAGE116
表示
Figure 681499DEST_PATH_IMAGE117
Figure 383875DEST_PATH_IMAGE118
之间差值的绝对值,
Figure 276745DEST_PATH_IMAGE119
表示
Figure 831092DEST_PATH_IMAGE120
Figure 430701DEST_PATH_IMAGE121
的交集面积除以
Figure 366296DEST_PATH_IMAGE122
Figure 559511DEST_PATH_IMAGE123
的并集面积所得的商值。
本发明实施例提供的目标检测方法,通过根据样本物体类别集和样本图像集中样本图像对初始检测模型进行迭代训练所获取的迭代训练后的中间检测模型的损失函数的值,进一步获取参数更新后的中间检测模型,再使用样本物体类别集和样本图像集中剩余样本图像针对参数更新后的中间检测模型进行迭代训练的方式,实现模型训练的目的,以此结合每次训练所得损失函数的值更新模型参数以及对每幅样本图像都进行预设次数的训练,有效提高了训练初始检测模型的训练精度和准确度。
下面对本发明实施例提供的目标检测装置进行描述,下文描述的目标检测装置与上文描述的目标检测方法可相互对应参照。
参照图4,为本发明实施例提供的目标检测装置的结构示意图,如图4所示,该目标检测装置400,可以包括:
确定模块410,用于确定待检测图像和目标物体类别集,目标物体类别集用于表征需要从待检测图像中检测的不同目标物体类别;
检测模块420,用于将目标物体类别集和待检测图像输入至目标检测模型,获取目标检测结果;目标检测结果包括待检测图像中与所述目标物体类别集对应的目标物体的目标类别和目标位置;
其中,目标检测模型是基于样本物体类别集、样本图像,以及样本图像中样本物体类别标签和样本物***置标签训练得到的,样本物体类别集用于表征需要从样本图像中检测的不同样本物体类别。
可选的,检测模块420,具体可以用于将待检测图像输入至目标特征粗提取网络,获取待检测图像的目标特征图像;将目标物体类别集和目标特征图像输入至目标物体特征生成网络,获取第一目标物体类别的第一目标物体特征;第一目标物体类别为目标物体类别集中的部分目标物体类别;将第一目标物体特征和目标特征图像输入至目标特征精提取网络,获取第二目标物体类别的第二目标物体特征;第二目标物体类别为第一目标物体类别中的部分目标物体类别;将第二目标物体特征输入至目标物体检测网络,获取目标物体检测网络输出的目标检测结果。
可选的,检测模块420,具体还可以用于将目标物体类别集和目标特征图像输入至目标物体特征生成网络中,由目标物体特征生成网络对目标物体类别集和目标特征图像进行互注意力和全连接处理,确定用于描述待检测图像的物体类别向量;并基于物体类别向量,确定第一目标物体类别及第一目标物体类别的第一目标物体特征。
可选的,检测模块420,具体还可以用于针对物体类别向量中物体类别,获取物体参考位置;确定物体类别的置信度;基于置信度,从物体类别向量中确定第一目标物体类别;基于物体参考位置,确定第一目标物体类别的第一目标物体特征;第一目标物体特征用于表征第一目标物体类别存在于待检测图像中时属于第一目标物体类别的第一目标物体的目标位置。
可选的,检测模块420,具体还可以用于将第一目标物体特征和目标特征图像输入至目标特征精提取网络中,由目标特征精提取网络对第一目标物体特征和目标特征图像进行互注意力解码处理,确定第二目标物体类别的第二目标物体特征。
可选的,检测模块420,具体还可以用于将第二目标物体特征输入至目标物体检测网络中,由目标物体检测网络确定第二目标物体类别中存在于待检测图像中的最终目标物体,并基于最终目标物体的目标类别和目标位置,输出目标检测结果。
可选的,所述装置还可以包括训练模块,用于获取样本物体类别集和样本图像集,样本图像集中每个样本图像含有样本物体类别标签和样本物***置标签,样本物体类别集用于表征需要检测的每类样本物体;使用样本物体类别集和样本图像集对初始检测模型进行训练,确定目标检测模型。
可选的,训练模块,具体还可以用于根据样本物体类别集和样本图像集中样本图像对初始检测模型进行迭代训练,获取迭代训练后的中间检测模型的损失函数的值;基于中间检测模型的损失函数的值,获取参数更新后的中间检测模型;根据样本物体类别集和样本图像集中剩余样本图像,对参数更新后的中间检测模型进行迭代训练,确定目标检测模型。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备500可以包括:处理器(processor)510、通信接口(CommunicationsInterface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行目标检测方法,该方法包括:
确定待检测图像和目标物体类别集,所述目标物体类别集用于表征需要从所述待检测图像中检测的不同目标物体类别;
将所述目标物体类别集和所述待检测图像输入至目标检测模型,获取目标检测结果;所述目标检测结果包括所述待检测图像中与所述目标物体类别集对应的目标物体的目标类别和目标位置;
其中,所述目标检测模型是基于样本物体类别集、样本图像,以及所述样本图像中样本物体类别标签和所述样本物***置标签训练得到的,所述样本物体类别集用于表征需要从所述样本图像中检测的不同样本物体类别。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的目标检测方法,该方法包括:
确定待检测图像和目标物体类别集,所述目标物体类别集用于表征需要从所述待检测图像中检测的不同目标物体类别;
将所述目标物体类别集和所述待检测图像输入至目标检测模型,获取目标检测结果;所述目标检测结果包括所述待检测图像中与所述目标物体类别集对应的目标物体的目标类别和目标位置;
其中,所述目标检测模型是基于样本物体类别集、样本图像,以及所述样本图像中样本物体类别标签和所述样本物***置标签训练得到的,所述样本物体类别集用于表征需要从所述样本图像中检测的不同样本物体类别。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的目标检测方法,该方法包括:
确定待检测图像和目标物体类别集,所述目标物体类别集用于表征需要从所述待检测图像中检测的不同目标物体类别;
将所述目标物体类别集和所述待检测图像输入至目标检测模型,获取目标检测结果;所述目标检测结果包括所述待检测图像中与所述目标物体类别集对应的目标物体的目标类别和目标位置;
其中,所述目标检测模型是基于样本物体类别集、样本图像,以及所述样本图像中样本物体类别标签和所述样本物***置标签训练得到的,所述样本物体类别集用于表征需要从所述样本图像中检测的不同样本物体类别。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种目标检测方法,其特征在于,包括:
确定待检测图像和目标物体类别集,所述目标物体类别集用于表征需要从所述待检测图像中检测的不同目标物体类别;
将所述目标物体类别集和所述待检测图像输入至目标检测模型,获取目标检测结果;所述目标检测结果包括所述待检测图像中与所述目标物体类别集对应的目标物体的目标类别和目标位置;
其中,所述目标检测模型是基于样本物体类别集、样本图像,以及所述样本图像中样本物体类别标签和所述样本物***置标签训练得到的,所述样本物体类别集用于表征需要从所述样本图像中检测的不同样本物体类别;所述目标检测模型包括目标特征粗提取网络、目标物体特征生成网络、目标特征精提取网络和目标物体检测网络,所述将所述目标物体类别集和所述待检测图像输入至目标检测模型,获取目标检测结果,包括:
将所述待检测图像输入至目标特征粗提取网络,获取所述待检测图像的目标特征图像;
将所述目标物体类别集和所述目标特征图像输入至所述目标物体特征生成网络,获取第一目标物体类别的第一目标物体特征;所述第一目标物体类别为所述目标物体类别集中的部分目标物体类别;
将所述第一目标物体特征和所述目标特征图像输入至所述目标特征精提取网络,获取第二目标物体类别的第二目标物体特征;所述第二目标物体类别为所述第一目标物体类别中的部分目标物体类别;
将所述第二目标物体特征输入至所述目标物体检测网络,获取所述目标物体检测网络输出的目标检测结果。
2.根据权利要求1所述的目标检测方法,其特征在于,所述将所述目标物体类别集和所述目标特征图像输入至所述目标物体特征生成网络,获取第一目标物体类别的第一目标物体特征,包括:
将所述目标物体类别集和所述目标特征图像输入至所述目标物体特征生成网络中,由所述目标物体特征生成网络对所述目标物体类别集和所述目标特征图像进行互注意力和全连接处理,确定用于描述所述待检测图像的物体类别向量;并基于所述物体类别向量,确定第一目标物体类别及所述第一目标物体类别的第一目标物体特征。
3.根据权利要求2所述的目标检测方法,其特征在于,所述基于所述物体类别向量,确定第一目标物体类别及所述第一目标物体类别的第一目标物体特征,包括:
针对所述物体类别向量中物体类别,获取物体参考位置;
确定所述物体类别的置信度;
基于所述置信度,从所述物体类别向量中确定第一目标物体类别;
基于所述物体参考位置,确定所述第一目标物体类别的第一目标物体特征;所述第一目标物体特征用于表征所述第一目标物体类别存在于所述待检测图像中时属于所述第一目标物体类别的第一目标物体的目标位置。
4.根据权利要求1所述的目标检测方法,其特征在于,所述将所述第一目标物体特征和所述目标特征图像输入至所述目标特征精提取网络,获取第二目标物体类别的第二目标物体特征,包括:
将所述第一目标物体特征和所述目标特征图像输入至所述目标特征精提取网络中,由所述目标特征精提取网络对所述第一目标物体特征和所述目标特征图像进行互注意力解码处理,确定第二目标物体类别的第二目标物体特征。
5.根据权利要求1所述的目标检测方法,其特征在于,所述将所述第二目标物体特征输入至所述目标物体检测网络,获取所述目标物体检测网络输出的目标检测结果,包括:
将所述第二目标物体特征输入至所述目标物体检测网络中,由所述目标物体检测网络确定所述第二目标物体类别中存在于所述待检测图像中的最终目标物体,并基于所述最终目标物体的目标类别和目标位置,输出目标检测结果。
6.根据权利要求1至5任一项所述的目标检测方法,其特征在于,所述目标检测模型的训练过程,包括:
获取样本物体类别集和样本图像集,所述样本图像集中每个样本图像含有样本物体类别标签和所述样本物***置标签,所述样本物体类别集用于表征需要检测的每类样本物体;
使用所述样本物体类别集和所述样本图像集对初始检测模型进行训练,确定目标检测模型。
7.根据权利要求6所述的目标检测方法,其特征在于,所述使用所述样本物体类别集和所述样本图像集对初始检测模型进行训练,确定目标检测模型,包括:
根据所述样本物体类别集和所述样本图像集中样本图像对初始检测模型进行迭代训练,获取迭代训练后的中间检测模型的损失函数的值;
基于所述中间检测模型的损失函数的值,获取参数更新后的中间检测模型;
根据所述样本物体类别集和所述样本图像集中剩余样本图像,对所述参数更新后的中间检测模型进行迭代训练,确定目标检测模型。
8.一种目标检测装置,其特征在于,包括:
确定模块,用于确定待检测图像和目标物体类别集,所述目标物体类别集用于表征需要从所述待检测图像中检测的不同目标物体类别;
检测模块,用于将所述目标物体类别集和所述待检测图像输入至目标检测模型,获取目标检测结果;所述目标检测结果包括所述待检测图像中与所述目标物体类别集对应的目标物体的目标类别和目标位置;
其中,所述目标检测模型是基于样本物体类别集、样本图像,以及所述样本图像中样本物体类别标签和所述样本物***置标签训练得到的,所述样本物体类别集用于表征需要从所述样本图像中检测的不同样本物体类别;所述目标检测模型包括目标特征粗提取网络、目标物体特征生成网络、目标特征精提取网络和目标物体检测网络,所述将所述目标物体类别集和所述待检测图像输入至目标检测模型,获取目标检测结果,包括:
将所述待检测图像输入至目标特征粗提取网络,获取所述待检测图像的目标特征图像;
将所述目标物体类别集和所述目标特征图像输入至所述目标物体特征生成网络,获取第一目标物体类别的第一目标物体特征;所述第一目标物体类别为所述目标物体类别集中的部分目标物体类别;
将所述第一目标物体特征和所述目标特征图像输入至所述目标特征精提取网络,获取第二目标物体类别的第二目标物体特征;所述第二目标物体类别为所述第一目标物体类别中的部分目标物体类别;
将所述第二目标物体特征输入至所述目标物体检测网络,获取所述目标物体检测网络输出的目标检测结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述目标检测方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述目标检测方法。
CN202210851147.6A 2022-07-20 2022-07-20 目标检测方法、装置、电子设备及存储介质 Active CN115100419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210851147.6A CN115100419B (zh) 2022-07-20 2022-07-20 目标检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210851147.6A CN115100419B (zh) 2022-07-20 2022-07-20 目标检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115100419A CN115100419A (zh) 2022-09-23
CN115100419B true CN115100419B (zh) 2023-02-21

Family

ID=83299471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210851147.6A Active CN115100419B (zh) 2022-07-20 2022-07-20 目标检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115100419B (zh)

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286723A1 (en) * 2014-04-07 2015-10-08 Microsoft Corporation Identifying dominant entity categories
CN109977978B (zh) * 2017-12-28 2023-07-18 中兴通讯股份有限公司 一种多目标检测方法、装置及存储介质
CN108804658B (zh) * 2018-06-08 2022-06-10 Oppo广东移动通信有限公司 图像处理方法和装置、存储介质、电子设备
CN108764208B (zh) * 2018-06-08 2021-06-08 Oppo广东移动通信有限公司 图像处理方法和装置、存储介质、电子设备
CN110826572B (zh) * 2018-08-09 2023-04-21 京东方科技集团股份有限公司 多目标检测的非极大值抑制方法、装置及设备
CN110163197B (zh) * 2018-08-24 2023-03-10 腾讯科技(深圳)有限公司 目标检测方法、装置、计算机可读存储介质及计算机设备
CN110148196B (zh) * 2018-09-12 2022-03-25 腾讯大地通途(北京)科技有限公司 一种图像处理方法、装置以及相关设备
CN109325538B (zh) * 2018-09-29 2020-12-22 北京京东尚科信息技术有限公司 目标检测方法、装置和计算机可读存储介质
CN110110652B (zh) * 2019-05-05 2021-10-22 达闼科技(北京)有限公司 一种目标检测方法、电子设备及存储介质
WO2021114031A1 (zh) * 2019-12-09 2021-06-17 深圳市大疆创新科技有限公司 一种目标检测方法和装置
CN111160434B (zh) * 2019-12-19 2024-06-07 中国平安人寿保险股份有限公司 目标检测模型的训练方法、装置及计算机可读存储介质
CN111401215B (zh) * 2020-03-12 2023-10-31 杭州涂鸦信息技术有限公司 一种多类别目标检测的方法及***
CN111444828B (zh) * 2020-03-25 2023-06-20 腾讯科技(深圳)有限公司 一种模型训练的方法、目标检测的方法、装置及存储介质
CN111783590A (zh) * 2020-06-24 2020-10-16 西北工业大学 一种基于度量学习的多类别小目标检测方法
CN111881956B (zh) * 2020-07-15 2023-05-12 北京市商汤科技开发有限公司 网络训练方法及装置、目标检测方法及装置和电子设备
CN111898676B (zh) * 2020-07-30 2022-09-20 深圳市商汤科技有限公司 目标检测方法及装置、电子设备和存储介质
CN114519793A (zh) * 2020-11-16 2022-05-20 顺丰科技有限公司 目标物体检测方法、装置、电子设备及存储介质
CN113516144A (zh) * 2020-12-01 2021-10-19 阿里巴巴集团控股有限公司 目标检测方法及装置、计算设备
CN112784691B (zh) * 2020-12-31 2023-06-02 杭州海康威视数字技术股份有限公司 一种目标检测模型训练方法、目标检测方法和装置
CN113239982A (zh) * 2021-04-23 2021-08-10 北京旷视科技有限公司 检测模型的训练方法、目标检测方法、装置和电子***
CN113807361B (zh) * 2021-08-11 2023-04-18 华为技术有限公司 神经网络、目标检测方法、神经网络训练方法及相关产品
CN114332444B (zh) * 2021-12-27 2023-06-16 中国科学院光电技术研究所 一种基于增量漂移聚类的复杂星空背景目标识别方法
CN114529791A (zh) * 2022-01-12 2022-05-24 科大讯飞股份有限公司 目标检测方法及相关装置、电子设备、存储介质
CN114708539A (zh) * 2022-04-19 2022-07-05 广州欢聚时代信息科技有限公司 图像类型识别方法及其装置、设备、介质、产品

Also Published As

Publication number Publication date
CN115100419A (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
EP4198820A1 (en) Training method for semi-supervised learning model, image processing method, and device
CN111797893B (zh) 一种神经网络的训练方法、图像分类***及相关设备
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN110598603A (zh) 人脸识别模型获取方法、装置、设备和介质
CN113516227B (zh) 一种基于联邦学习的神经网络训练方法及设备
WO2024060684A1 (zh) 模型训练方法、图像处理方法、设备及存储介质
CN117079299B (zh) 数据处理方法、装置、电子设备及存储介质
CN114565812A (zh) 语义分割模型的训练方法、装置和图像的语义分割方法
CN116311214B (zh) 车牌识别方法和装置
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN114429566A (zh) 一种图像语义理解方法、装置、设备及存储介质
CN116994021A (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN115100419B (zh) 目标检测方法、装置、电子设备及存储介质
CN113989569B (zh) 图像处理方法、装置、电子设备和存储介质
CN114120074B (zh) 基于语义增强的图像识别模型的训练方法和训练装置
CN116306663A (zh) 语义角色标注方法、装置、设备以及介质
CN115205975A (zh) 行为识别方法、装置、电子设备和计算机可读存储介质
CN111291748B (zh) 一种级联分布式的人工智能箱号识别***
CN114676705A (zh) 一种对话关系处理方法、计算机及可读存储介质
CN115797655B (zh) 一种人物交互检测模型、方法、***及装置
CN111402012B (zh) 一种基于迁移学习的电商缺陷产品识别方法
CN113590770B (zh) 一种基于点云数据的应答方法、装置、设备及存储介质
CN114359999A (zh) 人脸识别模型的构建方法、装置、设备及可读存储介质
CN114494774A (zh) 一种图像分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant