CN115100419B

CN115100419B - 目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN115100419B
Application number: CN202210851147.6A
Authority: CN
Inventors: 朱优松; 陈志扬; 赵朝阳; 李朝闻; 王金桥; 唐明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2023-02-21
Anticipated expiration: 2042-07-20
Also published as: CN115100419A

Abstract

本发明提供一种目标检测方法、装置、电子设备及存储介质，涉及计算机视觉技术领域，包括：确定待检测图像和目标物体类别集，目标物体类别集用于表征需要从待检测图像中检测的不同目标物体类别；将目标物体类别集和待检测图像输入至目标检测模型，获取目标检测结果；目标检测结果包括待检测图像中与目标物体类别集对应的目标物体的目标类别和目标位置；目标检测模型是基于样本物体类别集、样本图像，以及样本图像中样本物体类别标签和样本物***置标签训练得到的，样本物体类别集用于表征需要从样本图像中检测的不同样本物体类别。本发明方法结合额外输入的目标物体类别集，灵活控制所需检测的目标物体，能够更好地适配多样化的目标检测定制需求。

Description

目标检测方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种目标检测方法、装置、电子设备及存储介质。

背景技术

目标检测是计算机视觉的主要任务之一，用于找出图像中所有感兴趣的物体，并确定每个物体的类别和位置。因此，目标检测技术可广泛应用于智能化交通领域、智能监控领域、无人机识别领域等。

相关技术中的目标检测方法，通常以物体为单位设置一组针对多个预设物体的物体特征向量，再基于物体特征向量，对待检测图像进行物体检测，输出待检测图像中对应预设物体的位置信息与类别信息。

然而，由于相关技术以物体为单位进行目标检测时，只能针对固定类别的物体进行检测，并不适用于物体类别较多的图像进行检测，从而导致目标检测的灵活性和适用性不高。

发明内容

本发明实施例提供一种目标检测方法、装置、电子设备及存储介质，用以解决现有技术中只能针对固定类别的物体进行目标检测的缺陷，实现针对不同物体类别且物体类别较多的图像进行目标检测的目的，大幅提升了目标检测的灵活可靠性和广泛适用性。

本发明实施例提供一种目标检测方法，包括：

确定待检测图像和目标物体类别集，所述目标物体类别集用于表征需要从所述待检测图像中检测的不同目标物体类别；

将所述目标物体类别集和所述待检测图像输入至目标检测模型，获取目标检测结果；所述目标检测结果包括所述待检测图像中与所述目标物体类别集对应的目标物体的目标类别和目标位置；

其中，所述目标检测模型是基于样本物体类别集、样本图像，以及所述样本图像中样本物体类别标签和所述样本物***置标签训练得到的，所述样本物体类别集用于表征需要从所述样本图像中检测的不同样本物体类别。

根据本发明实施例提供的一种目标检测方法，所述目标检测模型包括目标特征粗提取网络、目标物体特征生成网络、目标特征精提取网络和目标物体检测网络，所述将所述目标物体类别集和所述待检测图像输入至目标检测模型，获取目标检测结果，包括：

将所述待检测图像输入至目标特征粗提取网络，获取所述待检测图像的目标特征图像；

将所述目标物体类别集和所述目标特征图像输入至所述目标物体特征生成网络，获取第一目标物体类别的第一目标物体特征；所述第一目标物体类别为所述目标物体类别集中的部分目标物体类别；

将所述第一目标物体特征和所述目标特征图像输入至所述目标特征精提取网络，获取第二目标物体类别的第二目标物体特征；所述第二目标物体类别为所述第一目标物体类别中的部分目标物体类别；

将所述第二目标物体特征输入至所述目标物体检测网络，获取所述目标物体检测网络输出的目标检测结果。

根据本发明实施例提供的一种目标检测方法，所述将所述目标物体类别集和所述目标特征图像输入至所述目标物体特征生成网络，获取第一目标物体类别的第一目标物体特征，包括：

将所述目标物体类别集和所述目标特征图像输入至所述目标物体特征生成网络中，由所述目标物体特征生成网络对所述目标物体类别集和所述目标特征图像进行互注意力和全连接处理，确定用于描述所述待检测图像的物体类别向量；并基于所述物体类别向量，确定第一目标物体类别及所述第一目标物体类别的第一目标物体特征。

根据本发明实施例提供的一种目标检测方法，所述基于所述物体类别向量，确定第一目标物体类别及所述第一目标物体类别的第一目标物体特征，包括：

针对所述物体类别向量中物体类别，获取物体参考位置；

确定所述物体类别的置信度；

基于所述置信度，从所述物体类别向量中确定第一目标物体类别；

基于所述物体参考位置，确定所述第一目标物体类别的第一目标物体特征；所述第一目标物体特征用于表征所述第一目标物体类别存在于所述待检测图像中时属于所述第一目标物体类别的第一目标物体的目标位置。

根据本发明实施例提供的一种目标检测方法，所述将所述第一目标物体特征和所述目标特征图像输入至所述目标特征精提取网络，获取第二目标物体类别的第二目标物体特征，包括：

将所述第一目标物体特征和所述目标特征图像输入至所述目标特征精提取网络中，由所述目标特征精提取网络对所述第一目标物体特征和所述目标特征图像进行互注意力解码处理，确定第二目标物体类别的第二目标物体特征。

根据本发明实施例提供的一种目标检测方法，所述将所述第二目标物体特征输入至所述目标物体检测网络，获取所述目标物体检测网络输出的目标检测结果，包括：

将所述第二目标物体特征输入至所述目标物体检测网络中，由所述目标物体检测网络确定所述第二目标物体类别中存在于所述待检测图像中的最终目标物体，并基于所述最终目标物体的目标类别和目标位置，输出目标检测结果。

根据本发明实施例提供的一种目标检测方法，所述目标检测模型的训练过程，包括：

获取样本物体类别集和样本图像集，所述样本图像集中每个样本图像含有样本物体类别标签和所述样本物***置标签，所述样本物体类别集用于表征需要检测的每类样本物体；

使用所述样本物体类别集和所述样本图像集对初始检测模型进行训练，确定目标检测模型。

根据本发明实施例提供的一种目标检测方法，所述使用所述样本物体类别集和所述样本图像集对初始检测模型进行训练，确定目标检测模型，包括：

根据所述样本物体类别集和所述样本图像集中样本图像对初始检测模型进行迭代训练，获取迭代训练后的中间检测模型的损失函数的值；

基于所述中间检测模型的损失函数的值，获取参数更新后的中间检测模型；

根据所述样本物体类别集和所述样本图像集中剩余样本图像，对所述参数更新后的中间检测模型进行迭代训练，确定目标检测模型。

本发明还提供一种目标检测装置，包括：

确定模块，用于确定待检测图像和目标物体类别集，所述目标物体类别集用于表征需要从所述待检测图像中检测的不同目标物体类别；

检测模块，用于将所述目标物体类别集和所述待检测图像输入至目标检测模型，获取目标检测结果；所述目标检测结果包括所述待检测图像中与所述目标物体类别集对应的目标物体的目标类别和目标位置；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述目标检测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述目标检测方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述目标检测方法。

本发明实施例提供的目标检测方法、装置、电子设备及存储介质，其中目标检测方法，通过将表征需要从待检测图像中检测不同目标物体类别的目标物体类别集和待检测图像输入至目标检测模型的方式，获取待检测图像中与目标物体类别集对应的目标物体的目标类别和目标位置，以此结合额外输入所需检测的目标物体类别集，灵活控制所需检测的目标物体，从而使得目标检测方法能够更好地适配多样化的目标检测定制需求。进一步的，由于目标检测模型是基于样本物体类别集、样本图像，以及样本图像中样本物体的类别标签和样本物体的位置标签训练得到的，样本物体类别集用于表征需要从样本图像中检测的不同样本物体类别，因此能够结合模型训练的方式，实现提高目标检测的精准度的目的，从而确保针对不同物体类别且物体类别较多的图像进行目标检测的同时，也能大幅提升目标检测的灵活可靠性和广泛适用性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的目标检测方法的流程示意图；

图2是本发明实施例提供的目标检测方法的整体结构图；

图3是本发明实施例提供的目标物体特征生成网络的结构示意图；

图4是本发明实施例提供的目标检测装置的结构示意图；

图5是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目标检测是计算机视觉领域中一个新兴的应用方向，并通常使用目标检测器实现目标检测，当给定一幅图像和一个标签集合时，目标检测器旨在从图像中找到所有属于该标签集合的物体，并给出每个物体的类别和位置，位置使用物体的外接矩形框表示。传统的目标检测器主要分为两类，一类为一阶段目标检测器，通过在整幅图像上滑窗处理的方式，密集地预测滑窗所对应的每个框中是否存在目标物体；另一类为二阶段目标检测器，首先从密集的滑窗中选取可能性较高的区域，并对所选取的区域进行重点检测；由此可知，传统的两类检测器均以区域为单位进行目标检测时存在两个问题：第一，区域的产生和预测的过程相对于目标检测器而言是固定的，一旦训练完成，目标检测器每次前向都会输出相同的物体集合，如果需要目标检测器输出关注其它不同的标签集合，则需要重新训练检测器，大幅提升了目标检测器的定制与应用成本；第二，以区域为单位的目标检测器会导致多个区域预测出同一物体，从而需要非极大值抑制等技术进行冗余，这也导致目标检测器的前向过程变得更加复杂。

相关技术中提出了一种基于自注意力变换器的目标检测方法是以物体为单位进行检测，并且具体检测时，通常以物体为单位先设置一组针对多个预设物体的物体特征向量，再基于物体特征向量，对待检测图像进行物体检测，输出待检测图像中对应预设物体的位置信息与类别信息。虽然相关技术所提出的以物体为单位的检测方法可以保证图像中每一目标物体均有且仅有一个预设物体与之对应，避免了冗余目标出现，但是，由于预先设置的物体特征向量是固定且缺乏解释的，在实际使用中既也无法修改，也无法干涉目标检测器所需关注和检测的标签类别，因此只能针对固定类别的物体进行检测，并不适用于物体类别较多的图像进行检测，从而导致目标检测的灵活性和适用性不高。

基于此，本发明实施例提供一种目标检测方法、装置、电子设备及存储介质，用于解决上述问题。下面结合图1-图5描述本发明的目标检测方法、装置、电子设备及存储介质，其中目标检测方法的执行主体可以为终端设备或者服务器，终端设备或者服务器至少具备数据处理功能和模型训练功能；终端设备可以为个人计算机（Personal Computer，PC）、便携式设备、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等其它电子设备，服务器可以使用独立的服务器或者多个服务器组成的服务器集群。本发明对终端设备的具体形式不做限定，也不具体限定服务器的具体形式。

需要说明的是，下述方法实施例以执行主体为终端设备为例进行说明，并且下述方法实施例的执行主体可以是终端设备的部分或全部。

图1为本发明实施例提供的目标检测方法的流程示意图，如图1所示，该目标检测方法，包括以下步骤：

步骤110、确定待检测图像和目标物体类别集，目标物体类别集用于表征需要从待检测图像中检测的不同目标物体类别。

其中，目标物体类别集中可以包括人类、动物、车辆等，待检测图像可以为包括不同目标物体的图像。

具体的，当本发明方法应用于各种不同领域时，对应待检测图像也会不同。比如，在汽车无人驾驶领域时，待检测图像可以为汽车周围图像，且包括的目标物体可以是人、汽车和自行车等；在安防监控领域时，待检测图像可以为监控图像，且包括的目标物体可以是人、小狗和高楼等。

可以理解的是，待检测图像还可以为直接从云端已有图像中选取的图像，比如待检测图像为含有行人、马匹、小狗等目标物体的图像。本发明对待检测图像的具体确定过程不作具体限定。并且，目标物体类别集可以表示为

，目标物体类别集

是由

个目标物体类别组成，每个目标物体类别分别对应一个目标物体类别向量，从而得到由

个目标物体类别向量组成的集合

，其中，第k个目标物体类别向量

，

，

表示实数范围，d表示目标检测模型的特征维度。

步骤120、将目标物体类别集和待检测图像输入至目标检测模型，获取目标检测结果；目标检测结果包括待检测图像中与目标物体类别集对应的目标物体的目标类别和目标位置。

其中，目标检测模型是基于样本物体类别集、样本图像，以及样本图像中样本物体的类别标签和样本物体的位置标签训练得到的，样本物体类别集用于表征需要从样本图像中检测的不同样本物体类别。

具体的，为了使输出的目标检测结果包括预先定制的不同目标类别对应的不同目标物体的目标位置，相比于传统以特定类别的物体为单位进行目标检测的方式，本发明实施例中的目标检测模型允许接收待检测图像的同时，还允许额外提供所需检测到的目标物体类别集，从而使得目标检测模型能够更好地针对目标物体类别集中的每个目标物体类别，对待检测图像进行推理，从而获得定制化的目标检测结果，使得当目标物体类别集中的目标物体类别存在于待检测图像中时，可以输出对应目标物体的目标类别和目标位置。

本发明实施例提供的目标检测方法，通过将表征需要从待检测图像中检测不同目标物体类别的目标物体类别集和待检测图像输入至目标检测模型的方式，获取待检测图像中与目标物体类别集对应的目标物体的目标类别和目标位置，以此结合额外输入所需检测的目标物体类别集，灵活控制所需检测的目标物体，从而使得目标检测方法能够更好地适配多样化的目标检测定制需求。进一步的，由于目标检测模型是基于样本物体类别集、样本图像，以及样本图像中样本物体的类别标签和样本物体的位置标签训练得到的，样本物体类别集用于表征需要从样本图像中检测的不同样本物体类别，因此能够结合模型训练的方式，实现提高目标检测的精准度的目的，从而确保针对不同物体类别且物体类别较多的图像进行目标检测的同时，也能大幅提升目标检测的灵活可靠性和广泛适用性。

可选的，当目标检测模型包括目标特征粗提取网络、目标物体特征生成网络、目标特征精提取网络和目标物体检测网络时，步骤120的实现过程可以包括：

首先，将待检测图像输入至目标特征粗提取网络，获取待检测图像的目标特征图像；其次，将目标物体类别集和目标特征图像输入至目标物体特征生成网络，获取第一目标物体类别的第一目标物体特征；第一目标物体类别为目标物体类别集中的部分目标物体类别；再进一步将第一目标物体特征和目标特征图像输入至目标特征精提取网络，获取第二目标物体类别的第二目标物体特征；第二目标物体类别为第一目标物体类别中的部分目标物体类别；最后，将第二目标物体特征输入至目标物体检测网络，获取目标物体检测网络输出的目标检测结果。

具体的，目标检测模型是对初始检测模型进行训练后得到的模型，且初始检测模型包括初始特征粗提取网络、初始物体特征生成网络、初始特征精提取网络和初始物体检测网络，初始特征粗提取网络可以是由ResNet主干网络和至少一层可变形自注意力编码器组成的网络，初始特征精提取网络可以是由至少一层可变形互注意力解码器组成的网络，初始物体特征生成网络可以是由两个初始指令网络构成，每个初始指令网络包括初始互注意力网络、第一初始处理网络、初始全连接网络、第二初始处理网络，第一初始处理网络和第二初始处理网络均用于进行相加及归一化处理；初始物体检测网络可以是由线性层和全连接层构成的网络。当初始检测模型被训练为目标检测模型时，初始特征粗提取网络被训练为目标特征粗提取网络

，初始物体特征生成网络被训练为目标物体特征生成网络

，初始特征精提取网络被训练为目标特征精提取网络

，初始物体检测网络被训练为目标物体检测网络

。

基于此，将待检测图像

输入至目标特征粗提取网络

，获取待检测图像

的目标特征图像

，目标特征图像

用于描述待检测图像中的所有物体及背景；将目标物体类别集

和目标特征图像

输入至目标物体特征生成网络

，目标物体特征生成网络

针对

个目标类别向量和目标特征图像

进行初步分析，初步确定存在于待检测图像

中第一目标物体类别的第一目标物体特征

，第一目标物体特征

包括

个目标物体特征，其中第

个目标物体类别中第

个目标物体特征为

，且用于表征第

个目标物体的目标位置以及外接矩阵框的长度和宽度；

个目标物体特征组成

，

表示目标物体特征生成网络

从

个目标物体类别中选取的目标物体类别个数，

，

、

和

均为正整数；再进一步将第一目标物体特征

和目标特征图像

输入至目标特征精提取网络

，由目标特征精提取网络

针对第一目标物体特征

和目标特征图像

进行精确分析，确定第二目标物体类别的第二目标物体特征

；第二目标物体类别为第一目标物体类别中的部分目标物体类别；最后，将第二目标物体特征

输入至目标物体检测网络

，目标物体检测网络

结合第二目标物体特征

进行辅助分析，以将第二目标物体类别中真实存在于待检测图像中的目标物体进行目标位置的标注及目标类别的标注，从而输出目标检测结果。

需要说明的是，对于目标特征精提取网络

而言，结合目标特征图像

对第一目标物体特征

进行深度分析，进一步从

个目标物体类别中，确定存在于待检测图像中的第二目标物体类别，第二目标物体类别含有的目标物体类别的个数小于

。

需要说明的是，目标特征粗提取网络

可以是由训练好的ResNet主干网络和六层可变形自注意力编码器组成的网络，并且每层可变形自注意力编码器均针对待检测图像，均只在同一目标物体类别对应的目标物体之间计算自注意力，以此实现对待检测图像的粗略特征提取，并输出目标特征图像

。

示例性的，如图2所示，设定目标物体类别集

包括行人、马匹和小狗这三个目标物体类别时，将行人、马匹和小狗以及经由目标特征粗提取网络提取的目标特征图像

输入至目标物体特征生成网络，输出第一目标物体类别的第一目标物体特征

，第一目标物体类别包括行人和马匹这两个目标物体类别，行人类别对应的行人特征用黑色实心框表示，马匹类别对应的马匹特征使用灰色实心框表示，然后将第一目标物体特征

和目标特征图像

输入至目标特征精提取网络，输出第二目标物体类别的第二目标物体特征

，第二目标物体特征

包括一个行人特征和一个马匹特征，最后将第二目标物体特征

输入至目标物体检测网络，输出一个行人的目标位置和一个马匹的目标位置。

本发明实施例提供的目标检测方法，先提取待检测图像中的目标特征图像、再结合目标物体类别集和目标特征图像初步确定存在于待检测图像中的第一目标物体类别的第一目标物体特征、进一步结合第一目标物体特征和目标特征图像精确确定存在于待检测图像中的第二目标物体类别的第二目标物体特征，最后通过对第二目标物体特征的辅助分析，确定目标检测结果，以此通过额外输入定制化待检测物体类别的方式，精准针对待检测图像获取所需检测的物体，不仅提高了目标检测的准确性和可靠性，也能够灵活控制所需检测的目标物体，从而使得目标检测模型能够更好地适配多样化的目标检测定制需求。

可选的，将目标物体类别集和目标特征图像输入至目标物体特征生成网络，获取第一目标物体类别的第一目标物体特征，其过程可以包括：

将目标物体类别集和目标特征图像输入至目标物体特征生成网络中，由目标物体特征生成网络对目标物体类别集和目标特征图像进行互注意力和全连接处理，确定用于描述待检测图像的物体类别向量；并基于物体类别向量，确定第一目标物体类别及第一目标物体类别的第一目标物体特征。

具体的，参照图3所示的目标物体特征生成网络的结构示意图，目标物体特征生成网络包括两个目标指令网络，每个目标指令网络包括目标互注意力网络、第一目标处理网络、目标全连接网络、第二目标处理网络，第一目标处理网络和第二目标处理网络均用于进行相加及归一化处理。如图3所示，当目标物体类别集

和目标特征图像

进入目标物体特征生成网络

时，每个目标指令网络对目标物体类别集

和目标特征图像

使用互注意力机制进行处理后进行相加和归一化，然后进行全连接处理后再进行相加和归一化，如此完成两次目标指令处理后，输出用于描述待检测图像的物体类别向量

，

，其中用于描述待检测图像的第k个物体类别为

，

。

然后将物体类别向量

与

个目标物体类别向量组成的集合

对齐后进行相似性分析，并确定相似性最高的前

个目标物体类别为第一目标物体类别，并确定第一目标物体类别的第一目标物体特征

。

本发明实施例提供的目标检测方法，通过目标物体特征生成网络先结合目标物体类别集和目标特征图像生成待检测图像的物体类别向量、后基于物体类别向量确定第一目标物体类别及第一目标物体类别的第一目标物体特征的方式，实现了针对定制化的目标物体类别进行待检测图像中对应目标物体的特征转化目的，为后续精确检测目标提供有力保障。

可选的，基于物体类别向量，确定第一目标物体类别及第一目标物体类别的第一目标物体特征，其过程可以包括：

首先，针对物体类别向量中物体类别，获取物体参考位置；再进一步确定物体类别向量中每个物体类别的置信度；然后，基于所确定的置信度，从物体类别向量中确定第一目标物体类别；最后，基于物体参考位置，确定第一目标物体类别的第一目标物体特征，第一目标物体特征用于表征第一目标物体类别存在于待检测图像中时属于第一目标类别的第一目标物体的目标位置。

具体的，针对物体类别向量中物体类别，获取物体参考位置，此处物体类别包括的物体数量与物体参考位置的数量相同，每个物体参考位置均为对应物体的外接矩形框，也即，某一物体类别含有N个物体时，则该物体类别的物体参考位置也为N个，物体参考位置用于区分同一类别物体的不同物体。

此外，确定物体类别向量中每个物体类别的置信度，以此确定

个物体类别的置信度，对

个物体类别的置信度进行从大到小排序，并选取前

个置信度对应的

个物体类别为

个目标物体类别，

个目标物体类别也为第一目标物体类别。其中，

个物体类别中每个物体类别的置信度的计算公式为：

其中，

表示第k个物体类别

的置信度，

表示物体类别向量

中用于描述待检测图像的第k个物体类别，d表示目标检测模型的特征维度，

表示第k个目标物体类别向量，上标T表示转置操作，

表示激活函数，

表示对齐类别操作的线性层。

此时，针对确定的

个目标物体类别，当每个目标物体类别包括

个物体参考位置，可以通过

个目标物体类别与

个物体参考位置计算集合的笛卡尔积的方式，确定第一目标物体类别的第一目标物体特征

。比如，当第一目标物体类别为“人”且第一目标特征

包括两个时可以为待检测图像中左上角位置的人物和右上角位置的人物；第一目标物体特征

包括

个目标物体特征，其中第

个目标物体类别中第

个目标物体特征为

，且用于表征第

个目标物体的目标位置以及外接矩阵框的长度和宽度；

个目标物体特征组成

，

表示目标物体特征生成网络

从

个目标物体类别中选取的目标物体类别个数。

本发明实施例提供的目标检测方法，通过目标物体特征生成网络针对物体类别向量先计算每个物体类别的置信度、后选取第一目标物体类别，再进一步基于物体参考位置，确定第一目标物体类别的第一目标物体特征，以此提高了目标物体特征生成网络的可靠性和准确性，并且由于第一目标物体特征表征第一目标物体类别存在于待检测图像中时属于第一目标物体类别的第一目标物体的目标位置，因此也能为后续进行特征精确提取奠定基础，从而提高了目标检测的精准度。

可选的，将第一目标物体特征和特征图像输入至目标特征精提取网络，获取第二目标物体类别的第二目标物体特征，其实现过程包括：

将第一目标物体特征和目标特征图像输入至目标特征精提取网络中，由目标特征精提取网络对第一目标物体特征和目标特征图像进行互注意力解码处理，确定第二目标物体类别的第二目标物体特征。

具体的，由于目标特征精提取网络是由训练好的至少一层可变形互注意力解码器组成的网络，因此第一目标物体特征

和目标特征图像

输入至目标特征精提取网络

中时，目标特征精提取网络

中的每层训练好的互注意力解码器针对第一目标物体特征

和目标特征图像

进行可变形的互注意力解码处理，以此使得精确化输出存在于待检测图像中的第二目标物体类别，第二目标物体类别含有的目标物体类别的个数小于

。第二目标物体特征用于表征第二目标物体类别存在于待检测图像中时属于第二目标物体类别的第二目标物体的目标位置。示例性的，目标特征精提取网络是由训练好的四层可变形互注意力解码器组成的网络。

本发明实施例提供的目标检测方法，通过目标特征精提取网络对第一目标物体特征和目标特征图像进行互注意力解码处理的方式，确定第二目标物体类别的第二目标物体特征，进一步提高了特征精提取的准确性和可靠性，同时也能确保后续目标检测的精准度。

可选的，将第二目标物体特征输入至目标物体检测网络，获取目标物体检测网络输出的目标检测结果，其实现过程可以包括：

将第二目标物体特征输入至目标物体检测网络中，由目标物体检测网络确定第二目标物体类别中存在于待检测图像中的最终目标物体，并基于最终目标物体的目标类别和目标位置，输出目标检测结果。

具体的，目标物体检测网络的目的是确定第二目标物体类别中每个第二目标物体的得分值及位置坐标，第二目标物体类别中第

个目标物体类别中第i个第二目标物体的得分值的计算公式为：

其中，

表示第二目标物体类别中第

个目标物体类别中第i个第二目标物体的得分值，

表示第二目标物体类别中第

个目标物体类别的得分值，

表示用于对齐物体类别与物体类别特征的线性层，d表示目标检测模型的特征维度，上标T表示转置操作，

表示激活函数，

表示第

个目标物体类别中第i个第二目标物体特征，

表示第

个目标物体类别的第二目标物体特征，

，

表示第二目标物体类别中含有的目标物体类别的个数。

基于此，将计算出的第二目标物体类别中每个目标物体类别中每个第二目标物体的得分值，与预设得分阈值进行比较，并将大于预设得分阈值的第二目标物体均确定为最终目标物体，并确定每个最终目标物体的目标类别，目标类别属于目标物体类别集。然后，针对每个最终目标物体的位置坐标确定，通过目标物体检测网络中的3层全连接层进行位置预测，其中前两层保持维度d，最后一层直接输出每个最终目标物体的目标位置，目标位置可表示为外接矩形框坐标

，

为对应最终目标物体的外接矩形框的中心点坐标，

为对应最终目标物体的外接矩形框的尺寸。

本发明实施例提供的目标检测方法，通过目标物体检测网络针对第二目标物体特征确定第二目标物体类别中存在于待检测图像中的最终目标物体，并基于最终目标物体的目标类别和目标位置，输出目标检测结果，以此结合计算每个第二目标物体的得分值辅助确定最终目标物体以及结合全连接层技术预测最终目标物体的目标位置，有效提高了目标检测准确性和可靠性。

可选的，目标检测模型的训练过程，包括：

首先，获取样本物体类别集和样本图像集，样本图像集中每个样本图像含有样本物体类别标签和样本物***置标签，样本物体类别集用于表征需要检测的每类样本物体；然后，使用样本物体类别集和样本图像集对初始检测模型进行训练，确定目标检测模型。

具体的，样本物***置标签表征对应样本图像中每个样本物体的外接矩形框的中心点坐标及外接矩形框的尺寸；样本图像集中包括大量样本图像，每个样本图像含有样本物体类别标签和样本物***置标签，以此表明每个样本图像中含有哪些类别的样本物体以及每个样本物体的具***置，样本物体可以为行人、小猫、小狗等；初始检测模型包括初始特征粗提取网络、初始物体特征生成网络、初始特征精提取网络和初始物体检测网络。然后使用样本物体类别集和样本图像集对初始检测模型进行训练，比如可以设定针对部分样本图像进行训练的训练次数，通过使用样本物体类别集和部分样本图像对初始检测模型进行训练次数的训练后，可以将当前训练后的输出结果发送至客户端，以通过客户端对应用户确定输出结果是否满足实际需求。

当终端设备接收到客户端反馈的包括输出结果满足实际需求的第一反馈信息时，可以将输出结果对应的中间模型确定为目标检测模型；反之，当终端设备接收到客户端反馈的包括输出结果不满足实际需求的第二反馈信息时，可以使用样本图像集中未经过训练的样本图像更新部分样本图像，将输出结果对应的中间模型作为新的检测模型，然后使用更新后的部分样本图像和样本物体类别集对新的检测模型进行训练次数的训练。直至接收到客户端反馈的第一反馈信息。

本发明实施例提供的目标检测方法，通过样本物体类别集和样本图像集对初始检测模型进行训练的过程得到目标检测模型，以此实现根据样本物体类别集和样本图像集训练模型的目的，提高了训练过程的稳定性和可靠性。

可选的，使用样本物体类别集和样本图像集对初始检测模型进行训练，确定目标检测模型，其实现过程可以包括：

首先，根据样本物体类别集和样本图像集中样本图像对初始检测模型进行迭代训练，获取迭代训练后的中间检测模型的损失函数的值；然后，基于中间检测模型的损失函数的值，获取参数更新后的中间检测模型；进一步根据样本物体类别集和样本图像集中剩余样本图像，对参数更新后的中间检测模型进行迭代训练，确定目标检测模型。

具体的，设定样本图像集中包括P幅样本图像，使用第q幅样本图像和样本物体类别集对初始检测模型进行第1次训练，获取第1次训练所得中间检测模型的损失函数的值，然后基于第1次训练所得中间检测模型的损失函数的值，获取第1次模型参数更新后的中间检测模型，以使得下次训练所得模型的损失比当前模型的损失小。再使用第q幅样本图像和样本物体类别集对第1次模型参数更新后的中间检测模型进行第2次训练，获取第2次训练所得中间检测模型的损失函数的值，然后基于第2次训练所得中间检测模型的损失函数的值，获取第2次模型参数更新后的中间检测模型，再使用第q幅样本图像和样本物体类别集对第2次模型参数更新后的中间检测模型进行第3次训练；直至使用第q幅样本图像和样本物体类别集对第M-1次模型参数更新后的中间检测模型进行第M次训练。以此完成针对第q幅样本图像的M次训练，q的值从1遍历至P，训练次数从1至M，M和P均为正整数。示例性的，M的取值可以为50，P的取值可以为11万。

当P幅样本图像均被训练M次后，即可停止模型训练，并确定模型训练停止时对应的中间检测模型为目标检测模型。

可以理解的是，针对每幅样本图像进行每次训练，获取对应中间检测模型的损失函数的值

，其计算公式为：

其中，

表示焦点损失，

表示第

个目标物体类别的损失，

表示第

个目标物体类别中第

个目标物体的损失，

表示第

个目标物体类别中第

个目标物体；

表示第

个目标物体类别中第

个目标物体理论上可预测到待检测图像中的真实目标物体，也即第

个目标物体所对应待检测图像中的真实标注物体；

表示

满足时值为1、不满足时值为0，也即第

个目标物体所对应待检测图像中的真实标注物体时值为1、第

个目标物体没有对应到待检测图像中的真实标注物体时值为0；

表示

与

之间差值的绝对值，

表示

和

的交集面积除以

和

的并集面积所得的商值。

本发明实施例提供的目标检测方法，通过根据样本物体类别集和样本图像集中样本图像对初始检测模型进行迭代训练所获取的迭代训练后的中间检测模型的损失函数的值，进一步获取参数更新后的中间检测模型，再使用样本物体类别集和样本图像集中剩余样本图像针对参数更新后的中间检测模型进行迭代训练的方式，实现模型训练的目的，以此结合每次训练所得损失函数的值更新模型参数以及对每幅样本图像都进行预设次数的训练，有效提高了训练初始检测模型的训练精度和准确度。

下面对本发明实施例提供的目标检测装置进行描述，下文描述的目标检测装置与上文描述的目标检测方法可相互对应参照。

参照图4，为本发明实施例提供的目标检测装置的结构示意图，如图4所示，该目标检测装置400，可以包括：

确定模块410，用于确定待检测图像和目标物体类别集，目标物体类别集用于表征需要从待检测图像中检测的不同目标物体类别；

检测模块420，用于将目标物体类别集和待检测图像输入至目标检测模型，获取目标检测结果；目标检测结果包括待检测图像中与所述目标物体类别集对应的目标物体的目标类别和目标位置；

其中，目标检测模型是基于样本物体类别集、样本图像，以及样本图像中样本物体类别标签和样本物***置标签训练得到的，样本物体类别集用于表征需要从样本图像中检测的不同样本物体类别。

可选的，检测模块420，具体可以用于将待检测图像输入至目标特征粗提取网络，获取待检测图像的目标特征图像；将目标物体类别集和目标特征图像输入至目标物体特征生成网络，获取第一目标物体类别的第一目标物体特征；第一目标物体类别为目标物体类别集中的部分目标物体类别；将第一目标物体特征和目标特征图像输入至目标特征精提取网络，获取第二目标物体类别的第二目标物体特征；第二目标物体类别为第一目标物体类别中的部分目标物体类别；将第二目标物体特征输入至目标物体检测网络，获取目标物体检测网络输出的目标检测结果。

可选的，检测模块420，具体还可以用于将目标物体类别集和目标特征图像输入至目标物体特征生成网络中，由目标物体特征生成网络对目标物体类别集和目标特征图像进行互注意力和全连接处理，确定用于描述待检测图像的物体类别向量；并基于物体类别向量，确定第一目标物体类别及第一目标物体类别的第一目标物体特征。

可选的，检测模块420，具体还可以用于针对物体类别向量中物体类别，获取物体参考位置；确定物体类别的置信度；基于置信度，从物体类别向量中确定第一目标物体类别；基于物体参考位置，确定第一目标物体类别的第一目标物体特征；第一目标物体特征用于表征第一目标物体类别存在于待检测图像中时属于第一目标物体类别的第一目标物体的目标位置。

可选的，检测模块420，具体还可以用于将第一目标物体特征和目标特征图像输入至目标特征精提取网络中，由目标特征精提取网络对第一目标物体特征和目标特征图像进行互注意力解码处理，确定第二目标物体类别的第二目标物体特征。

可选的，检测模块420，具体还可以用于将第二目标物体特征输入至目标物体检测网络中，由目标物体检测网络确定第二目标物体类别中存在于待检测图像中的最终目标物体，并基于最终目标物体的目标类别和目标位置，输出目标检测结果。

可选的，所述装置还可以包括训练模块，用于获取样本物体类别集和样本图像集，样本图像集中每个样本图像含有样本物体类别标签和样本物***置标签，样本物体类别集用于表征需要检测的每类样本物体；使用样本物体类别集和样本图像集对初始检测模型进行训练，确定目标检测模型。

可选的，训练模块，具体还可以用于根据样本物体类别集和样本图像集中样本图像对初始检测模型进行迭代训练，获取迭代训练后的中间检测模型的损失函数的值；基于中间检测模型的损失函数的值，获取参数更新后的中间检测模型；根据样本物体类别集和样本图像集中剩余样本图像，对参数更新后的中间检测模型进行迭代训练，确定目标检测模型。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备500可以包括：处理器(processor)510、通信接口(CommunicationsInterface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行目标检测方法，该方法包括：

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的目标检测方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的目标检测方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标检测方法，其特征在于，包括：

其中，所述目标检测模型是基于样本物体类别集、样本图像，以及所述样本图像中样本物体类别标签和所述样本物***置标签训练得到的，所述样本物体类别集用于表征需要从所述样本图像中检测的不同样本物体类别；所述目标检测模型包括目标特征粗提取网络、目标物体特征生成网络、目标特征精提取网络和目标物体检测网络，所述将所述目标物体类别集和所述待检测图像输入至目标检测模型，获取目标检测结果，包括：

2.根据权利要求1所述的目标检测方法，其特征在于，所述将所述目标物体类别集和所述目标特征图像输入至所述目标物体特征生成网络，获取第一目标物体类别的第一目标物体特征，包括：

3.根据权利要求2所述的目标检测方法，其特征在于，所述基于所述物体类别向量，确定第一目标物体类别及所述第一目标物体类别的第一目标物体特征，包括：

针对所述物体类别向量中物体类别，获取物体参考位置；

确定所述物体类别的置信度；

4.根据权利要求1所述的目标检测方法，其特征在于，所述将所述第一目标物体特征和所述目标特征图像输入至所述目标特征精提取网络，获取第二目标物体类别的第二目标物体特征，包括：

5.根据权利要求1所述的目标检测方法，其特征在于，所述将所述第二目标物体特征输入至所述目标物体检测网络，获取所述目标物体检测网络输出的目标检测结果，包括：

6.根据权利要求1至5任一项所述的目标检测方法，其特征在于，所述目标检测模型的训练过程，包括：

7.根据权利要求6所述的目标检测方法，其特征在于，所述使用所述样本物体类别集和所述样本图像集对初始检测模型进行训练，确定目标检测模型，包括：

8.一种目标检测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述目标检测方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述目标检测方法。