CN114387496A

CN114387496A - 一种目标检测方法和电子设备

Info

Publication number: CN114387496A
Application number: CN202111658895.4A
Authority: CN
Inventors: 赵博睿; 陈钊民; 金鑫
Original assignee: Shenzhen Kuangshi Jinzhi Technology Co ltd; Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Shenzhen Kuangshi Jinzhi Technology Co ltd; Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-22

Abstract

本申请提供一种目标检测方法，该方法包括：对待检测图像进行特征提取，得到待检测图像的多个不同尺度的图像特征；基于多个不同尺度的图像特征确定待检测图像的感兴趣区域ROI特征，以及，基于多个不同尺度的图像特征确定待检测图像的上下文特征；基于多个不同尺度的图像特征和ROI特征进行融合处理，获得融合特征；根据上下文特征、ROI特征和融合特征对待检测图像中的目标对象进行预测，得到预测结果；其中，预测结果包括目标对象的类别和目标对象所对应的边界框。

Description

一种目标检测方法和电子设备

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种目标检测方法和电子设备。

背景技术

目标检测(Object Detection)，又被称为定位检测或者目标提取，是一种基于目标几何和统计特征的图像理解算法，目标检测是将目标的定位和识别合二为一，具体例如：基于计算机视觉算法，检测出图像中感兴趣的目标，即以矩形框标示出目标的位置，并识别出目标的类别。目标检测的目的是将图像中所有感兴趣的物体用矩形框框出来，并且对这些框出的物体做正确的分类。由于图像中往往包含多个物体，而且每张图像的物体数量也是不固定的，这些因素都使得目标检测问题极具研究意义。

目前，进行目标检测的主流方法是基于深度学习的方法，即利用单阶段检测模型或者两阶段检测模型进行检测；其中，可以使用的单阶段检测模型具体例如：特征融合单点多盒检测器(Feature Fusion Single Shot multi-box Detector，FSSD)和YOLO等网络模型；可以使用的两阶段检测模型具体例如：RCNN、fast RCNN和faster RCNN系列的网络模型。然而，在利用现有方法进行目标检测时假阳性(False Positive，简称FP)问题和错误分类问题比较严重，其中，假阳性可以简单地理解为检出不存在物体的错误。

发明内容

本申请实施例的目的在于提供一种目标检测方法和电子设备，用于改善上述技术问题。

本申请实施例提供了一种目标检测方法，包括：对待检测图像进行特征提取，得到待检测图像的多个不同尺度的图像特征；基于多个不同尺度的图像特征确定待检测图像的感兴趣区域ROI特征，以及，基于多个不同尺度的图像特征确定待检测图像的上下文特征；基于多个不同尺度的图像特征和ROI特征进行融合处理，获得融合特征；根据上下文特征、ROI特征和融合特征对待检测图像中的目标对象进行预测，得到预测结果；其中，预测结果包括目标对象的类别和目标对象所对应的边界框。

在上述的实现过程中，通过基于多个不同尺度的图像特征确定待检测图像的上下文特征，该特征具有待检测图像的上下文信息，且具有某种程度上的全局性(或者说具有较大的感受野)，该上下文特征可以帮助目标检测模型更好地使用全图中的上下文信息，然后，把具有上下文信息的互文特征更好地融入目标检测模型中，有效地提高获得的目标检测结果的精度，从而抑制了目标检测时的假阳性和错误分类问题。

可选地，在本申请实施例中，根据上下文特征、ROI特征和融合特征对待检测图像中的目标对象进行预测，得到预测结果，包括：基于上下文特征和ROI特征，确定待检测图像的互文特征；其中，互文特征为表征具有上下文信息的兴趣特征；基于互文特征和融合特征对待检测图像中的目标对象进行预测，得到预测结果。

在上述的实现过程中，通过基于上下文特征和ROI特征确定待检测图像的互文特征，该特征具有某种程度上的全局性(或者说具有较大的感受野)，具有上下文信息的互文特征可以帮助目标检测模型更好地使用全图中的上下文信息，然后，把具有上下文信息的互文特征更好地融入目标检测模型中，有效地提高获得的目标检测结果的精度，从而抑制了目标检测时的假阳性和错误分类问题。

可选地，在本申请实施例中，基于多个不同尺度的图像特征确定待检测图像的上下文特征，包括：对多个不同尺度的图像特征进行下采样处理，获得下采样特征；对下采样特征和多个不同尺度的图像特征中的至少一个尺度的图像特征进行融合处理，获得尺度融合特征；对尺度融合特征进行卷积运算，获得第一卷积特征，以及，对尺度融合特征进行注意力运算，获得第一注意力特征；将第一卷积特征和第一注意力特征进行融合处理，获得上下文特征。

在上述的实现过程中，可以对尺度融合特征进行注意力运算，获得第一注意力特征，并将第一卷积特征和第一注意力特征进行融合处理，可以获得具有上下文信息的上下文特征，该上下文特征可以表征通过图像级别的标签学习到具有各个层级的上下文语义信息。

可选地，在本申请实施例中，基于上下文特征和ROI特征，确定待检测图像的互文特征，包括：对上下文特征和ROI特征进行局部融合处理，获得局部特征；对上下文特征进行全局融合，获得全局特征；对局部特征和全局特征进行注意力运算，获得第二注意力特征；对第二注意力特征进行卷积运算，获得互文特征。

在上述的实现过程中，通过对局部特征和全局特征进行注意力运算，获得第二注意力特征，即使用Transformer特征方式处理局部特征和全局特征，用全局特征对局部特征做注意力(Attention)操作；然后，对第二注意力特征进行卷积运算，获得互文特征，从而使得目标检测模型能够充分地利用上下文信息，并降低实际有效感受野较小带来的影响。

可选地，在本申请实施例中，基于互文特征和融合特征对待检测图像中的目标对象进行预测，得到预测结果，包括：对互文特征和融合特征进行融合处理，获得交叉注意力特征；根据交叉注意力特征对待检测图像中的目标对象进行预测，得到预测结果。

可选地，在本申请实施例中，对互文特征和融合特征进行融合处理，包括：对互文特征和融合特征进行连接融合处理；或者，对互文特征和融合特征进行注意力融合处理；或者，对互文特征和融合特征进行注意力融合处理，获得第三注意力特征，并对第三注意力特征、互文特征和融合特征进行连接融合处理。

在上述的实现过程中，对互文特征和融合特征进行连接融合或者注意力融合的作用是，将生成的具有上下文信息的互文特征更好地融入目标检测模型中，有效地提高目标检测模型的分类能力，从而改善目标检测效果，抑制假阳性和错误分类问题的发生。

可选地，在本申请实施例中，对第三注意力特征、互文特征和融合特征进行连接融合处理，包括：对第三注意力特征、互文特征和融合特征进行连接，获得交叉连接特征；对交叉连接特征进行剔除处理，获得交叉注意力特征。

在上述的实现过程中，通过对交叉连接特征进行剔除处理，从而避免了目标检测模型中的参数发生梯度消失或者梯度***的问题，有效地提高了目标检测模型的训练效果。

可选地，在本申请实施例中，还包括：获取多个样本图像和每个样本图像对应的样本标签，样本标签包括：类别标签表和标注边界框；类别标签表包括目标对象的多类别标签，标注边界框表征目标对象在样本图像中的位置区域；以多个样本图像为训练数据，以多个样本图像中的每个样本图像对应的样本标签为训练标签，对目标检测神经网络进行训练，获得目标检测模型。

在上述的实现过程中，对目标检测神经网络进行训练，可以使得目标检测神经网络在训练过程中通过图像级别的标签学习到具有各个层级的上下文语义信息，然后，把具有上下文信息的互文特征更好地融入目标检测神经网络中，获得具有更好分类能力的目标检测模型，从而抑制了目标检测时的假阳性和错误分类问题。

可选地，在本申请实施例中，对目标检测神经网络进行训练，包括：使用目标检测神经网络对样本图像中的目标对象的位置边界框和标签表进行预测，获得预测标签表和预测边界框；计算预测标签表与类别标签表之间的第一损失值，第一损失值表征目标对象的多个类别中每个类别之间的标签损失；计算预测边界框与标注边界框之间的第二损失值，第二损失值表征目标对象在样本图像中位置区域的回归损失；根据第一损失值和第二损失值对目标检测神经网络进行训练。

本申请实施例还提供了一种计算机程序产品，包括计算机程序指令，计算机程序指令被处理器读取并运行时，执行如上面描述的方法。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请实施例的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的电子设备的示例结构图；

图2示出的本申请实施例提供的目标检测方法的流程示意图；

图3示出的本申请实施例提供的目标检测模型的网络结构示意图；

图4示出的本申请实施例提供的第一transformer模块的网络结构示意图；

图5示出的本申请实施例提供的第二transformer模块的网络结构示意图；

图6示出的本申请实施例提供的交叉特征注意力模块的网络结构示意图；

图7示出的本申请实施例提供的模型训练方法的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用***的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

首先，参照图1示出的本申请实施例提供的电子设备的示例结构图，下面使用图1来描述用于实现本申请实施例的目标检测方法的示例电子设备100。如图1所示，电子设备100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、图像采集装置107以及输出装置108，这些组件通过总线***109和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备也可以具有其他组件和结构。

处理设备102可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制电子设备100中的其它组件以执行期望的功能。

存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行程序指令，以实现下文的本申请实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

示例性地，用于实现根据本申请实施例的目标检测方法的示例电子设备可以被实现为诸如智能手机、个人电脑、个人数字助理、移动上网设备或者平板电脑等移动终端上，上述的电子设备也可以被实现为诸如x86服务器以及非x86服务器上，非x86服务器包括：大型机、小型机和UNIX服务器等等。

本申请实施例中，提取待检测图像的具有上下文信息的上下文特征，这些特征具有某种程度上的全局性(或者说具有较大的感受野)，具有上下文信息的上下文特征可以帮助更好地使用全图中的上下文信息，有效地提高获得的目标检测结果的精度，从而抑制了目标检测时的假阳性和错误分类问题。下面将结合具体的实施例对图像处理方法进行详细的介绍。

根据本申请实施例，提供了一种目标检测方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在具体的实践过程中发现，在利用传统的网络架构(如Faster R-CNN、Mask R-CNN等)进行目标检测时存在比较严重的假阳性和分类错误问题。

所谓假阳性，可以理解为在本来不应当检测到目标的地方检测到目标(即错误地检出不存在的物体)。例如，由于外形上的相似性，在一些情况下，可能将摩托车后视镜背面的亮条被检测为勺子等。

所谓分类错误，也是类似的道理，可以理解为虽然在本来应当检测到目标的地方检测到了目标，但对目标的类别判断错误。假设男性青年手中拿着的滑板由于是侧面对着镜头，所以被错误地判断为网球拍，其正确的分类结果应该是滑板。

经过长期研究后认为，这两类问题与神经网络提取到的特征中上下文信息的缺失密切相关。对于图像中的目标而言，上下文可以理解为目标所处的环境，上下文信息对于正确地检测目标有很重要的作用。例如，摩托车后视镜背面中的亮条从形状到材质可能都与勺子相似，但如果考虑到亮条所处的位置在摩托车的后视镜上，则不会将其判断为一个独立的目标。

进一步地，从理论层面来说，该问题是由于卷积神经网络的实际有效感受野远小于理论感受野造成的，感受野可以理解为神经网络输出的特征图中的每个像素点在输入图像中对应的区域的大小，感受野较小，意味着特征的局部性比较强，或者说未能充分地表达输入图像中的上下文信息。反之，感受野较大，意味着特征的全局性比较强，或者说能够充分地表达输入图像中的上下文信息。

基于上面的研究结论，本申请实施例提供一种目标检测方法，通过提取具有上下文信息的上下文特征，这些特征具有某种程度上的全局性(或者说具有较大的感受野)，具有上下文信息的上下文特征可以帮助目标检测模型更好地使用全图中的上下文信息，然后，把具有上下文信息的上下文特征更好地融入目标检测模型中，有效地提高获得的目标检测结果的精度，从而改善目标检测效果，抑制假阳性和错误分类问题的发生。

需要指出，除了本申请实施例新提出的技术方案以外，针对假阳性和错误分类问题所得到的研究结论，也应视为本申请实施例对现有技术的贡献，而不应视为现有技术中业已存在的内容。

下面介绍该目标检测方法适用的应用场景，这里的应用场景包括但不限于：安防场景、违法识别抓拍等等应用场景；此处以安防场景为例进行说明，具体例如：使用摄像头进行拍摄，获得待检测图像，然后可以使用该目标检测方法对待检测图像进行目标检测，从而获得待检测图像中的目标对象的类别和位置边界框等，以提高获得的目标检测结果的精度，从而抑制了目标检测时的假阳性和错误分类问题。

请参见图2示出的本申请实施例提供的目标检测方法的流程示意图；上述的目标检测方法具体可以包括：

步骤S110：对待检测图像进行特征提取，得到待检测图像的多个不同尺度的图像特征。

步骤S120：基于多个不同尺度的图像特征确定待检测图像的感兴趣区域ROI特征，以及，基于多个不同尺度的图像特征确定待检测图像的上下文特征。

步骤S130：对多个不同尺度的图像特征和ROI特征进行融合处理，获得融合特征。

感兴趣区域(Region of interest，ROI)是指在机器视觉、图像处理中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域。

上述步骤S130的实施方式例如：使用目标检测模型中的感兴趣区域ROI池化层对多个不同尺度的图像特征和ROI特征进行融合处理，获得融合特征；其中，此处的感兴趣区域ROI池化层可以采用RoI Pooling或RoI Align，两者相比较而言，RoI Pooling在计算上要简单一些，RoI Align在计算精度上则要高一些。

步骤S140：根据上下文特征、ROI特征和融合特征对待检测图像中的目标对象进行预测，得到预测结果；其中，预测结果包括目标对象的类别和目标对象所对应的边界框。

上述的步骤S110的实施方式有很多种，包括但不限于如下几种：

第一种实施方式，使用传统的机器学习算法对待检测图像进行特征提取，具体例如：将待检测图像按照多个不同尺度构建不同的图像金字塔(图像金字塔中包括不同尺度的图像)，然后，使用传统的机器学习算法对图像金字塔中不同尺度的图像进行特征提取，获得待检测图像的多个不同尺度的图像特征。上述传统的机器学习算法包括但不限于：决策树、贝叶斯学习、基于实例的学习、遗传算法、规则学习、基于解释的学习和方向梯度直方图特征提取算法等。

第二种实施方式，可以采用目标检测模型对待检测图像进行处理，该实施方式可以包括：

步骤S111：获取待检测图像。

上述步骤S111中的待检测图像的获取方式可以包括：第一种获得方式，使用摄像机、录像机或彩色照相机等终端设备对目标对象进行拍摄，获得待检测图像；然后该终端设备向电子设备发送待检测图像，然后电子设备接收终端设备发送的待检测图像，电子设备可以将待检测图像存储至文件***、数据库或移动存储设备中；第二种获得方式，获取预先存储的待检测图像，具体例如：从文件***、数据库或移动存储设备中获取待检测图像；第三种图像获取方式，上述的电子设备也可以是具备图像采集功能的终端设备，此时可以直接由电子设备采集图像。当然，此处只是示例性的列举几种待检测图像的可能的获取方式，并不构成对本申请实施例的限定，本申请实施例并不对待检测图像的获取方式进行限定。

步骤S112：使用目标检测模型中的特征金字塔网络对待检测图像进行特征提取，获得多个不同尺度的图像特征。

请参见图3示出的本申请实施例提供的目标检测模型的网络结构示意图；上述步骤S112的实施方式例如：在具体的实施过程中，可以采用目标检测模型对待检测图像进行处理(例如特征检测、特征融合和类别预测等等)；其中，该目标检测模型可以包括：特征金字塔网络(Feature Pyramid Network，FPN)、区域候选网络(Region Proposal Network，RPN)、多个transformer模块、交叉特征注意力模块、感兴趣区域ROI池化层和全连接层等等；上述各个网络结构之间的连接如图所示。使用目标检测模型中的特征金字塔网络对待检测图像进行特征提取，获得多个不同尺度的图像特征。

可选地，上述步骤120中：基于多个不同尺度的图像特征确定待检测图像的感兴趣区域ROI特征的实施方式例如：使用目标检测模型中的区域候选网络(RPN)对多个不同尺度的图像特征进行特征提取，获得感兴趣区域ROI特征；其中，可以直接采用Fast RCNN或者Faster RCNN中的区域候选网络(RPN)，当然也可以通过其他方式构建获得区域候选网络(RPN)。

可选的，上述步骤120中，基于多个不同尺度的图像特征确定待检测图像的上下文特征，包括如下步骤：

对多个不同尺度的图像特征进行下采样处理，获得下采样特征；对下采样特征和多个不同尺度的图像特征中的至少一个尺度的图像特征进行融合处理，获得尺度融合特征；对尺度融合特征进行卷积运算，获得第一卷积特征，以及，对尺度融合特征进行注意力运算，获得第一注意力特征；将第一卷积特征和第一注意力特征进行融合处理，获得上下文特征。

可选的，在一种实现方式中，上述目标检测模型包括两个transformer模块，分别记为第一transformer模块和第二transformer模块。请参见图4示出的本申请实施例提供的第一transformer模块的网络结构示意图；上述的第一transformer模块包括：下采样层、第一融合层、第一卷积层和第一注意力层；其中，上述各个网络层之间的连接如图所示。第一transformer模块又被称为多尺度输入的图像级多分类模块(Multi-Stage Image-LevelCategorical Transformer)，第一transformer模块的主要作用是利用图像级别的标签来产生具有上下文信息的上下文特征，该特征可以帮助检测器在判断目标类别时更好地关注全图的信息。

下述将结合图4所示的网络结构示意图，详细介绍上述上下文特征的具体确定过程。

具体的，可以使用至少一个下采样层对多个不同尺度的图像特征进行下采样处理，获得下采样特征，具体例如：使用第一下采样层(downsample x4)和第二下采样层(downsample x2)对多个不同尺度的图像特征进行下采样处理，获得下采样特征。

使用第一融合层对下采样特征和多个不同尺度的图像特征中的至少一个尺度的图像特征进行融合，获得尺度融合特征；其中，此处的融合可以采用加法、拼接(Concat)、加权求和、乘法和外积等方式进行融合。

使用第一卷积层对尺度融合特征进行卷积运算，获得第一卷积特征，并使用第一注意力层对尺度融合特征进行自注意力(Self-Attention)运算，获得第一注意力特征。然后，将第一卷积特征和第一注意力特征进行融合，获得上下文特征；其中，此处的融合可以采用加法、拼接(Concat)、加权求和、乘法和外积等方式进行融合。

可选地，第一transformer模块还可以包括全连接层，该全连接层是在训练时针对上下文特征进行多标签预测，以多标签损失(Multi-Label Loss)来训练该第一transformer模块。在具体的实践过程中，此处的全连接层在实际模型推断(又称模型应用)时裁剪，裁剪后的目标检测模型体积更小，运算相对较快；当然也可以保留该全连接层，保留的目标检测模型体积更大，运算相对较慢。

在上述的实现过程中，由于第一transformer模块的注意力机制在训练过程中，通过图像级别的多标签损失的方式学习到具有各个层级的上下文语义信息，因此，可以使用第一transformer模块基于注意力机制对多个不同尺度的图像特征进行计算，能够获得上下文信息的上下文特征。

上述步骤S140中的根据上下文特征、ROI特征和融合特征对待检测图像中的目标对象进行预测的实施方式具体可以包括：

步骤S141：基于上下文特征和ROI特征，确定待检测图像的互文特征。

步骤S142：基于互文特征和融合特征对待检测图像中的目标对象进行预测，得到预测结果。

其中，上述互文特征为表征具有上下文信息的兴趣特征。

请参见图5示出的本申请实施例提供的第二transformer模块的网络结构示意图；上述的第二transformer模块包括：局部ROI池化层、全局ROI池化层、第二注意力层和第二卷积层；其中，上述各个网络层之间的连接如图所示。此处的第二transformer模块又被称为具有上下文信息的兴趣特征模块(Hierarchical Contextual Transformer)，该模块的作用主要是利用具有上下文信息的特征来产生具有上下文信息的区域兴趣特征(也即上述互文特征)，显式地赋予目标检测模型具有利用上下文信息的能力。上述步骤S141的实施方式具体可以包括如下步骤：

步骤S141a：对上下文特征和ROI特征进行局部融合处理，获得局部特征。

步骤S141b：对上下文特征进行全局融合，获得全局特征。

步骤S141c：对局部特征和全局特征进行注意力运算，获得第二注意力特征。

步骤S141d：对第二注意力特征进行卷积运算，获得互文特征。

下述将结合图5介绍上述各个步骤的具体实现过程。

上述步骤S141a的实施方式例如：使用局部ROI池化层对上下文特征和ROI特征进行局部对齐(Local ROI Align)或者局部池化(Local ROI Pooling)，获得局部特征。两者相比较而言，局部池化(Local ROI Pooling)在计算上要简单一些，局部对齐(Local ROIAlign)在计算精度上则要高一些。

上述步骤S141b的实施方式例如：使用全局ROI池化层对上下文特征进行全局对齐(Global ROI Align)或者全局池化(Global ROI Pooling)，获得全局特征。同上，两者相比较而言，全局池化(Global ROI Pooling)在计算上要简单一些，全局对齐(Global ROIAlign)在计算精度上则要高一些。

上述步骤S141c至步骤S141d的实施方式例如：使用第二注意力层对局部特征和全局特征进行注意力运算，获得第二注意力特征，并使用第二卷积层对第二注意力特征进行卷积运算，获得互文特征，其中，互文特征为表征具有上下文信息的兴趣特征。上述的池化操作具体可以采用全局平均池化(Global Average Pooling，GAP)或者全局最大池化(Global Max Pooling，GMP)等等操作。

在上述的实现过程中，通过使用第二注意力层对局部特征和全局特征进行注意力运算，获得第二注意力特征，即使用Transformer特征方式处理局部特征和全局特征，用全局特征对局部特征做注意力(Attention)操作；然后，使用第二卷积层对第二注意力特征进行卷积运算，获得互文特征，从而使得目标检测模型能够充分地利用上下文信息，并降低实际有效感受野小带来的影响。

上述步骤S142的实施方式可以包括如下步骤：

步骤S142a：对互文特征和融合特征进行融合处理，获得交叉注意力特征；

步骤S142b：根据交叉注意力特征对待检测图像中的目标对象进行预测，得到预测结果。

请参见图6示出的本申请实施例提供的交叉特征注意力模块的网络结构示意图；可以理解的是，上面的目标检测模型还可以包括：交叉特征注意力模块，该交叉特征注意力模块还可以包括：第二融合层和剔除(DropOut)层。

上述步骤S142a的实施方式有很多种，包括但不限于如下几种：

第一种实施方式，连接融合处理的方式，具体例如：使用交叉特征注意力模块中的第二融合层对互文特征和融合特征进行连接(Concat)融合处理，获得连接融合特征，并使用剔除(DropOut)层对交叉连接特征进行剔除处理，获得交叉注意力特征。

第二种实施方式，注意力融合处理的方式，具体例如：使用交叉特征注意力模块中的第二融合层对互文特征和融合特征进行注意力(Attention)融合处理，获得注意力融合特征，并使用剔除(DropOut)层对交叉连接特征进行剔除处理，获得交叉注意力特征。

第三种实施方式，注意力融合和连接融合处理的方式，具体例如：使用交叉特征注意力模块中的第二融合层对互文特征和融合特征进行注意力(Attention)融合处理，获得第三注意力特征，并对第三注意力特征、互文特征和融合特征进行连接(Concat)融合处理，获得交叉注意力特征。上述获得交叉注意力特征的具体过程例如：使用第二融合层对第三注意力特征、互文特征和融合特征进行连接(Concat)，获得第一交叉连接特征，并使用剔除(DropOut)层对第一交叉连接特征进行剔除(DropOut)处理，获得交叉注意力特征。

第四种实施方式，连接融合处理和注意力融合的方式，具体例如：使用交叉特征注意力模块中的第二融合层对互文特征和融合特征进行连接(Concat)融合处理，获得第四注意力特征，并对第四注意力特征、互文特征和融合特征进行注意力(Attention)融合处理，获得交叉注意力特征。上述获得交叉注意力特征的具体过程例如：使用第二融合层对第四注意力特征、互文特征和融合特征进行注意力(Attention)处理，获得第二交叉连接特征，并使用剔除(DropOut)层对第二交叉连接特征进行剔除(DropOut)处理，获得交叉注意力特征。在上述的第一种实施方式至第四种实施方式实现过程中，通过使用剔除层对交叉连接特征进行剔除处理，从而避免了目标检测模型中的参数发生梯度消失或者梯度***的问题，有效地提高了目标检测模型的训练效果。

在上述的实现过程中，上述的交叉特征注意力模块又被称为全局和局部特征的交叉特征注意力(Cross Feature Attention)模块，该交叉特征注意力模块的作用是将生成的具有上下文信息的互文特征更好地融入目标检测模型中，有效地提高目标检测模型的分类能力，从而改善目标检测效果，抑制假阳性和错误分类问题的发生。

上述步骤S142b的实施方式有很多种，包括但不限于如下几种：

第一种实施方式，具体可以采用归一化指数函数层进行目标检测，获得待检测图像中的目标对象的类别(Class，简称CLS)和位置边界框(简称BOX)，其中，归一化指数函数(Softmax)层又被称为softmax分类器、softmax层或Softmax函数等等。

第二种实施方式，具体可以使用全连接层对交叉注意力特征进行目标检测，获得待检测图像中的目标对象的类别(Class，简称CLS)和位置边界框(简称BOX)，其中，此处的全连接层可以使用两个全连接层组(Two Fully-Connected Layers)。

在上述的实现过程中，通过目标检测模型中的多个transformer模块来提取具有上下文信息的上下文特征，该特征具有某种程度上的全局性(或者说具有较大的感受野)，具有上下文信息的上下文特征可以帮助目标检测模型更好地使用全图中的上下文信息，然后，把具有上下文信息的上下文特征更好地融入目标检测模型中，有效地提高获得的目标检测结果的精度，从而抑制了目标检测时的假阳性和错误分类问题。

请参见图7示出的本申请实施例提供的模型训练方法的流程示意图。本申请实施例还提供了一种模型训练方法，包括：

步骤S210：获取多个样本图像和每个样本图像对应的样本标签，样本标签包括：类别标签表和标注边界框；类别标签表包括目标对象的多类别标签，标注边界框表征目标对象在样本图像中的位置区域。

步骤S220：以多个样本图像为训练数据，以多个样本图像中的每个样本图像对应的样本标签为训练标签，对目标检测神经网络进行训练，获得如上面描述的目标检测模型。

在上述的实现过程中，对目标检测神经网络进行训练，可以使得目标检测神经网络在训练过程中通过图像级别的标签学习到具有各个层级的上下文语义信息，然后，把具有上下文信息的上下文特征更好地融入目标检测神经网络中，获得具有更好分类能力的目标检测模型，从而抑制了目标检测时的假阳性和错误分类问题。

上述步骤S220的实施方式具体可以包括：使用目标检测神经网络对样本图像中的目标对象的位置边界框和标签表进行预测，获得预测标签表和预测边界框。计算预测标签表与类别标签表之间的第一损失值，第一损失值表征目标对象的多个类别中每个类别之间的标签损失。计算预测边界框与标注边界框之间的第二损失值，第二损失值表征目标对象在样本图像中位置区域的回归损失。根据第一损失值和第二损失值对目标检测神经网络进行训练。

在上述的实现过程中，通过根据每个类别之间的标签损失的第一损失值和样本图像中位置区域的回归损失的第二损失值，来对目标检测神经网络进行训练，从而减少了目标检测模型的训练时长。

本申请实施例还提供了一种计算机程序产品，包括计算机程序指令，计算机程序指令被处理器读取并运行时，执行如上面描述的方法。应理解的是，该计算机程序产品与上述的目标检测方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该计算机程序产品具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该计算机程序产品包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在计算机程序产品的操作***(operating system，OS)中的软件功能模块。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上的方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上的方法。

其中，计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Read-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例提供的几个实施例中，应该理解到，所揭露的程序产品和方法，也可以通过其他的方式实现。以上所描述的程序产品实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的程序产品、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，包括：

对待检测图像进行特征提取，得到所述待检测图像的多个不同尺度的图像特征；

基于所述多个不同尺度的图像特征确定所述待检测图像的感兴趣区域ROI特征，以及，基于所述多个不同尺度的图像特征确定所述待检测图像的上下文特征；

基于所述多个不同尺度的图像特征和所述ROI特征进行融合处理，获得融合特征；

根据所述上下文特征、所述ROI特征和所述融合特征对所述待检测图像中的目标对象进行预测，得到预测结果；其中，所述预测结果包括所述目标对象的类别和所述目标对象所对应的边界框。

2.根据权利要求1所述的方法，其特征在于，所述根据所述上下文特征、所述ROI特征和所述融合特征对所述待检测图像中的目标对象进行预测，得到预测结果，包括：

基于所述上下文特征和所述ROI特征，确定所述待检测图像的互文特征；其中，所述互文特征为表征具有上下文信息的兴趣特征；

基于所述互文特征和所述融合特征对所述待检测图像中的目标对象进行预测，得到所述预测结果。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述多个不同尺度的图像特征确定所述待检测图像的上下文特征，包括：

对所述多个不同尺度的图像特征进行下采样处理，获得下采样特征；

对所述下采样特征和所述多个不同尺度的图像特征中的至少一个尺度的图像特征进行融合处理，获得尺度融合特征；

对所述尺度融合特征进行卷积运算，获得第一卷积特征，以及，对所述尺度融合特征进行注意力运算，获得第一注意力特征；

将所述第一卷积特征和所述第一注意力特征进行融合处理，获得所述上下文特征。

4.根据权利要求2所述的方法，其特征在于，所述基于所述上下文特征和所述ROI特征，确定所述待检测图像的互文特征，包括：

对所述上下文特征和所述ROI特征进行局部融合处理，获得局部特征；

对所述上下文特征进行全局融合，获得全局特征；

对所述局部特征和所述全局特征进行注意力运算，获得第二注意力特征；

对所述第二注意力特征进行卷积运算，获得所述互文特征。

5.根据权利要求2-4任一项所述的方法，其特征在于，所述基于所述互文特征和所述融合特征对所述待检测图像中的目标对象进行预测，得到所述预测结果，包括：

对所述互文特征和所述融合特征进行融合处理，获得交叉注意力特征；

根据所述交叉注意力特征对所述待检测图像中的目标对象进行预测，得到预测结果。

6.根据权利要求5所述的方法，其特征在于，所述对所述互文特征和所述融合特征进行融合处理，包括：

对所述互文特征和所述融合特征进行连接融合处理；

或者，对所述互文特征和所述融合特征进行注意力融合处理；

或者，对所述互文特征和所述融合特征进行注意力融合处理，获得第三注意力特征，并对所述第三注意力特征、所述互文特征和所述融合特征进行连接融合处理。

7.根据权利要求6所述的方法，其特征在于，所述对所述第三注意力特征、所述互文特征和所述融合特征进行连接融合处理，包括：

对所述第三注意力特征、所述互文特征和所述融合特征进行连接，获得交叉连接特征；

对所述交叉连接特征进行剔除处理，获得所述交叉注意力特征。

8.一种计算机程序产品，其特征在于，包括计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行如权利要求1-7中任一项所述的方法。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一项所述的方法。