CN116993996B

CN116993996B - 对图像中的对象进行检测的方法及装置

Info

Publication number: CN116993996B
Application number: CN202311152480.9A
Authority: CN
Inventors: 李嘉麟; 付威福; 林愉欢; 刘永; 汪铖杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2024-01-12
Anticipated expiration: 2043-09-08
Also published as: CN116993996A

Abstract

本公开的实施例提供了一种对图像中的对象进行检测的方法、装置、计算机程序产品和存储介质，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。所述方法包括：利用图像特征提取网络获取图像的特征；获取第一查询特征；基于所述图像的特征和所述第一查询特征，利用全局定位网络获取所述图像中的关注区域及第二查询特征，其中，所述第二查询特征为经优化后的第一查询特征；以及基于所述第二查询特征以及图像中的关注区域，利用局部检测网络获取所述对象的检测结果。本公开的方法无需人工设计的模块、只需全局定位及局部监测两个阶段就实现了对图像中的对象进行检测，有效简化了模型结构，并且能够同时兼顾目标检测的效率和准确性。

Description

对图像中的对象进行检测的方法及装置

技术领域

本公开涉及人工智能领域，更具体地，涉及对图像中的对象进行检测的方法、装置、计算机程序产品和存储介质，以及训练神经网络模型的方法、装置、计算机程序产品和存储介质。

背景技术

图像作为人类获取信息最重要的来源之一在各种信息库中占有极大比重。随着计算机技术的快速发展，图像处理已经广泛应用到了人类社会生活的各个方面，如：工业检测、医学、智能机器人等。图像以其生动性和直观性常被应用于各领域来描述和表达事物的特性与逻辑关系，应用范围广泛，因此，图像处理技术的发展及对各领域的信息处理都极为重要。

图像处理技术是用计算机对图像信息进行处理的技术。主要包括图像目标检测、图像增强和复原、图像数据编码、图像分割和图像识别等。其中，图像目标检测技术广泛用于安全监测、自动驾驶、交通状况监测、无人机场景分析、机器人视觉等应用场景中。随着人工智能技术的发展以及处理器计算能力的提升，深度学习模型已广泛应用于计算机视觉的整个领域，包括通用目标检测和特定领域目标检测等等。大多数目标检测器利用深度学习网络作为其骨干网络和检测网络，以从输入图像（或视频）中提取特征，并进一步进行目标分类和定位。目标检测是一种与计算机视觉和图像处理相关的计算机技术，用于检测数字图像和视频中某一类语义对象（如人、建筑物或汽车）。目标检测的研究领域包括多类别检测、边缘检测、突出目标检测、姿势检测、场景文本检测、人脸检测、行人检测等。目标检测作为场景理解的重要组成部分，广泛应用于现代生活的许多领域，如安全领域、交通领域、医疗领域和生活领域。

随着目标检测应用场景的越来越复杂，目标检测数据量越来越大，如何同时提升目标检测的效率及准确性，是目前亟待解决的问题。

发明内容

为了在简化了模型结构的情况下保证目标检测的效率及准确性，本公开提供了一种对图像中的对象进行检测的方法，包括：利用图像特征提取网络获取图像的特征；获取第一查询特征；基于所述图像的特征和所述第一查询特征，利用全局定位网络获取所述图像中的关注区域及第二查询特征，其中，所述第二查询特征为经优化后的第一查询特征；以及基于所述第二查询特征以及图像中的关注区域，利用局部检测网络获取所述对象的检测结果。

本公开的实施例还提供了一种训练神经网络模型的方法，包括：利用图像特征提取网络获取图像的特征；获取第一查询特征，所述查询特征用于与所述图像的特征共同确定所述图像中的关注区域；基于所述图像的特征和所述第一查询特征，利用全局检测网络获取所述对象所在的区域及第二查询特征，其中，所述第二查询特征为经优化后的第一查询特征；以及基于所述对象所在的区域以及所述第二查询特征，利用局部检测网络获取所述对象的检测结果；获取对象检测的标签；基于所述对象的检测结果和所述对象检测的标签对所述神经网络模型进行训练以更新所述神经网络模型的参数，其中，所述神经网络模型包括所述图像特征提取网络，所述全局检测网络以及所述局部检测网络。

本公开的实施例还提供了一种对图像中的对象进行检测的装置，包括：图像特征获取模块，被配置为：利用图像特征提取网络获取图像的特征；查询特征获取模块，被配置为：获取第一查询特征，其中，所述查询特征用于与所述图像的特征共同确定所述图像中的关注区域；全局检测网络模型，被配置为：基于所述图像的特征和所述第一查询特征，获取所述对象所在的区域及第二查询特征，其中，所述第二查询特征为经优化后的第一查询特征；以及局部检测网络模型，被配置为：基于所述对象所在的区域以及所述第二查询特征，获取所述对象的检测结果。

本公开的实施例还提供了一种训练神经网络模型的装置，包括：图像特征获取模块，被配置为：利用图像特征提取网络获取图像的特征；查询特征获取模块，被配置为：获取第一查询特征，所述查询特征用于与所述图像的特征共同确定所述图像中的关注区域；全局检测网络模型，被配置为：基于所述图像的特征和所述第一查询特征，利用全局检测网络获取所述对象所在的区域及第二查询特征，其中，所述第二查询特征为经优化后的第一查询特征；局部检测网络模型，被配置为：基于所述对象所在的区域以及所述第二查询特征，利用局部检测网络获取所述对象的检测结果；标签获取模块，被配置为：获取对象检测的标签；训练模块，被配置为：基于所述对象的检测结果和所述对象检测的标签对所述神经网络模型进行训练以更新所述神经网络模型的参数，其中，所述神经网络模型包括所述图像特征提取网络，所述全局检测网络以及所述局部检测网络。

本公开的实施例还提供了一种计算机程序产品，计算机程序产品包括计算机软件代码，计算机软件代码在被处理器运行时，提供上述方法。

本公开的实施例还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，指令在被处理器执行时，提供上述方法。

本公开的方法是基于查询特征来检测目标对象的方法，与基于深度学习的目标检测方法相比，本公开的方法无需人工设计的模块，完全依赖机器学习来改善模型参数，从而有效节省了人力，同时能够不受人的局限性影响，更准确地对目标对象进行检测。

此外，现有的基于查询特征来检测目标对象的方法往往需要经过多级检测器的处理才能够保证检测准确度，而本公开的方法仅通过全局定位及局部监测两个阶段就实现了对图像中的对象进行检测，有效简化了模型结构，并且能够同时兼顾目标检测的效率和准确性。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本公开的一些示例性实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

在此，附图中：

图1示出了根据本公开实施例的应用场景的示意图；

图2是示出根据本公开实施例的基于用于对象检测的神经网络模型进行对象检测和训练的场景的示例示意图；

图3是示出根据本公开的实施例的对图像中的对象进行检测的方法的示意性流程图；

图4是示出根据本公开的实施例的图像特征获取过程的示意图；

图5是示出根据本公开的实施例的对图像中的对象进行检测的过程的示意图；

图6A是示出根据本公开的实施例的基于全局检测网络的处理过程的示意图；

图6B是示出根据本公开的实施例的基于局部检测网络的处理过程的示意图；

图7是示出根据本公开的实施例的训练神经网络模型的方法的示意性流程图；

图8是示出根据本公开的实施例的对图像中的对象进行检测的装置的组成示意图；

图9是示出根据本公开的实施例的训练神经网络模型的装置的组成示意图；以及

图10是示出根据本公开的实施例的计算设备的架构。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参考附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

此外，在本说明书和附图中，具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示，且对这些步骤和元素的重复描述将被省略。

此外，在本说明书和附图中，根据实施例，元素以单数或复数的形式来描述。然而，单数和复数形式被适当地选择用于所提出的情况仅仅是为了方便解释而无意将本公开限制于此。因此，单数形式可以包括复数形式，并且复数形式也可以包括单数形式，除非上下文另有明确说明。

在本说明书和附图中，具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示，且对这些步骤和元素的重复描述将被省略。同时，在本公开的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性或排序。

为便于描述本公开，以下介绍与本公开有关的概念。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究涉及机器人控制，自然语言处理，计算机视觉，决策与推理，人机交互，信息推荐与搜索等等。

神经网络（Neural Network，NN）作为人工智能的重要分支，是一种模仿动物神经网络行为特征进行信息处理的网络结构。神经网络的结构由大量的节点（或称神经元）相互联接构成，基于特定运算模型通过对输入信息进行学习和训练达到处理信息的目的。一个神经网络包括输入层、隐藏层及输出层，输入层负责接收输入信号，输出层负责输出神经网络的计算结果，隐藏层负责学习、训练等计算过程，是网络的记忆单元，隐藏层的记忆功能由权重矩阵来表征，通常每个神经元对应一个权重系数。

检测变换器（DETR，DEtection TRansformer）模型是一种基于变换器（Transformer）的端到端目标检测网络。DETR模型的输入为一张图像，通过一个卷积神经网络（CNN）编码图像特征，然后将这些特征作为序列输入到Transformer中。在Transformer中，DETR采用了编码器-解码器结构，其中编码器用于对图像特征进行语义编码，解码器用于生成目标检测结果。DETR的优点在于它能够实现端到端的目标检测，不需要使用传统的候选框生成和筛选方法，减少了模型复杂性和计算量。此外，DETR还可以处理图像中多个目标的检测，并且在一些数据集上取得了与传统目标检测模型相媲美的性能。

Query-based object detector（基于查询特征的目标检测器）：DETR提出基于查询特征（Query based）的端到端物体检测算法，该方法摆脱了之前物体预测总是基于固定空间位置的锚框/锚点（anchor based/keypoint based），转而依赖于可学习的向量进行预测。训练过程中，预测的结果与实际的真实值之间进行一一匹配，匹配的结果确定了预测损失的计算。这种一一匹配的方式有效地避免了网络产生重复冗余的预测，从而在推理阶段中可以不依赖于非极大值抑制等后处理算法，实现了端到端的目标检测。

注意力（Attention）机制：注意力机制是一种计算机模型或算法，用于模拟人类注意力的工作方式。它模拟了人类在进行任务时，通过选择性地关注和集中注意力来处理特定的信息。注意力机制通常由以下几个步骤组成：计算注意力权重：根据输入的特征（查询特征，Query）和模型的当前状态（键特征，Key），计算每个输入的注意力权重。这可以通过计算输入与当前状态之间的相似度或相关性来实现。加权求和：将输入表示（值特征，Value）与对应的注意力权重相乘，并将它们加权求和，以得到一个加权的输入表示。这可以将注意力集中在与任务相关的输入上。更新模型状态：根据加权的输入表示，更新模型的状态，以便进一步处理任务。上述过程可以是一个循环过程，其通过不断迭代计算注意力权重和更新模型状态来实现。

下文中的可用于本公开实施例的各种神经网络（或神经网络模型）都可以是人工智能模型，尤其是基于人工智能的神经网络模型。通常，基于人工智能的神经网络模型被实现为无环图，其中神经元布置在不同的层中。通常，神经网络模型包括输入层和输出层，输入层和输出层通过至少一个隐藏层分开。隐藏层将由输入层接收到的输入变换为对在输出层中生成输出有用的表示。网络节点（也即神经元）经由边全连接至相邻层中的节点，并且每个层内的节点之间不存在边。在神经网络的输入层的节点处接收的数据经由隐藏层、激活层、池化层、卷积层等中的任意一项被传播至输出层的节点。神经网络模型的输入输出可以采用各种形式，本公开对此不作限制。

综上所述，本公开涉及人工智能、图像检测等技术。下面将结合附图对本公开的实施例进行进一步地描述。

首先参照图1描述根据本公开实施例的方法以及相应的装置等的应用场景。图1示出了根据本公开实施例的应用场景100的示意图，其中示意性地示出了服务器110和多个终端120。

本公开实施例的用于对象检测的神经网络模型具体可以集成在对图像中的对象进行检测的装置中，并且位于各种电子设备中，例如，图1中的服务器110和多个终端120中的任意电子设备。比如，用于对象检测的神经网络模型可以集成在终端120中。终端120包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端。又比如，用于对象检测的神经网络模型还可以集成在服务器110。服务器110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

可以理解的是，应用本公开实施例的对图像中的对象进行检测的装置既可以是终端，也可以是服务器，还可以是由终端和服务器组成的***。应用本公开实施例的对图像中的对象进行检测的方法可以是在终端上执行的，也可以是在服务器上执行的，还可以是由终端和服务器共同执行的。

本公开实施例提供的用于对象检测的神经网络模型可以用于执行各种对象检对图像中的对象进行检测的任务。例如，基于医学图像的肿瘤检测，交通影像中的车辆检测，人脸检测、工业缺陷检测等等。

本公开实施例提供的用于对象检测的神经网络模型还可以涉及云技术领域中的人工智能云服务。其中，云技术（Cloud technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台***进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的***后盾支撑，只能通过云计算来实现。

其中，人工智能云服务，一般也被称作是AIaaS（AI as a Service，中文为“AI即服务”）。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过应用程序接口（API，Application ProgrammingInterface）的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维专属的云人工智能服务。

图2是示出根据本公开实施例的基于用于对象检测的神经网络模型进行对象检测和训练的场景200的示例示意图。

在训练阶段，服务器110可以基于图像训练样本对用于对象检测的神经网络模型进行训练。训练完成后，服务器可以将完成训练的用于对象检测的神经网络模型部署到一个或多个服务器（或云服务上），以提供与对图像中的对象进行检测有关的人工智能服务。

值得注意的是，本公开中所使用的所有图像均符合法律法规规定的合法性、道德性和隐私性。具体地，所有图像的来源均是合法的，并且在采集过程中已经得到了用户的明示许可。此外，本公开中所使用的所有图像均遵守隐私保护原则，这些图像已经经过严格的筛选和清洗，并且不会泄露给任何未经明确授权的第三方。

在基于用于对象检测的神经网络模型对图像中的对象进行检测的阶段，假设进行对象检测的的用户终端120上已经安装有与用于对象检测的服务器110交互的客户端或应用（即，各种图像检测（例如：人物检测、车辆检测等）应用）。用户终端120可以通过网络向该应用对应的服务器110发送对图像中的对象进行检测的请求，以请求部署在服务器110上的用于对象检测的神经网络对图像中的对象进行检测。例如，在服务器110接收到对图像中的对象进行检测的请求后，利用完成训练的用于对象检测的神经网络模型响应于该请求对图像中的对象进行检测，并向用户终端120反馈对象检测结果。用户终端120可以接收对象检测结果。之后，用户终端120可以基于该对象检测结果进行进一步的分析或处理。

值得注意的是，图2中所示的图像训练样本数据也可以是实时更新的。例如，用户可以对对象检测的结果进行打分。例如，如果用户认为对象检测结果的合理性和准确性都较高，则用户可以对该对象检测结果给出较高的评分，而服务器110可以将该对象检测结果作为用于实时训练用于对象检测的神经网络模型的正样本。如果用户对该对象检测的结果给出较低的评分，则服务器110可以将该对象检测结果作为负样本。

图2中所示的图像训练样本集也可以是提前设置的。例如，参照图2，服务器可以从数据库中获取训练数据（例如，图像训练样本），然后生成用于对象检测的神经网络模型的图像训练样本集。当然本公开并不以此为限。

图3是示出根据本公开的实施例的对图像中的对象进行检测的方法300的示意性流程图。

在步骤S310中，利用图像特征提取网络获取图像的特征。

应当理解，本公开的图像特征提取网络可以为各种结构的图像特征提取网络。例如，卷积神经网络（Convolutional Neural Network，CNN）、残差网络（Residual Network，ResNet）、Inception网络、VGG网络、特征金字塔网络（Feature Pyramid Network，FPN）、空洞卷积网络（Dilated Convolutional Network, DilatedNet）等等。可选地，根据需要，本公开的图像特征提取网络可以包括上述一种神经网络结构，上述多种神经网络结构的组合。

应当理解，为了使图像的特征所包含的信息更丰富、全面，可以利用图像特征提取网络获取所述图像在不同特征层上的不同尺寸的特征；并将所述不同特征层上的不同尺寸的特征进行融合，以得到所述图像的特征。

根据本公开的实施例，所述不同尺寸的特征中的每个特征可以包括数量相同的多个子特征，可以将所述不同特征层中对应的子特征进行融合，以得到所述图像的特征。

可选地，为了使图像的特征尽可能包含重要的信息，可以将所述不同尺寸的特征进行融合以得到第一图像特征；接着对所述第一图像特征进行上采样以得到第二图像特征；然后对所述第二图像特征进行下采样以得到第三图像特征，并将所述第三图像特征作为所述图像的特征。

应当理解，所述第三图像特征的尺寸可以与所述第一图像特征的尺寸相同，也可以与所述第一图像特征的尺寸不同。例如，所述第三图像特征的尺寸可以小于所述第一图像特征的尺寸，从而减少计算机要处理的数据量。

在步骤S320中，获取第一查询特征，其中，所述查询特征用于与所述图像的特征共同确定所述图像中的关注区域。

根据本公开的实施例，为了使所述查询特征能够更准确地根据对象的特征确定出图像中的关注区域（即，对象的区域），本公开对查询特征的确定方式提出了改进。

具体地，可以根据所述对象的多个属性确定多个属性特征，其中，每个属性特征指示对象的颜色、形状、大小、方向中的至少一者；接着可以基于各属性特征对应的权重，对所述多个属性特征进行加权，以得到所述第一查询特征。通过这种方式，查询特征受对象的颜色、形状、大小、方向等属性的约束，能够与所述图像的特征共同更准确地确定出所述图像中的关注区域。

应当理解，所述属性特征可以不仅对应于对象的一种属性，而是可以对应于对象的多种属性。例如，属性特征可以指示对象为黄色的圆形、属性特征可以指示对象为绿色的小物体等等。

在步骤S330中，基于所述图像的特征和所述第一查询特征，利用全局检测网络获取所述对象所在的区域及第二查询特征，其中，所述第二查询特征为经优化后的第一查询特征。

根据本公开的一实施例，所述全局检测网络可以包括：交叉注意力网络和第一自注意力网络。在此情况下，可以先基于所述图像的特征和所述第一查询特征，利用所述交叉注意力网络获取第三查询特征，其中，所述第三查询特征为经优化后的第一查询特征；再基于所述第三查询特征，利用所述第一自注意力网络获取第四查询特征，其中，所述第四查询特征为经优化后的第三查询特征；接着将所述第四查询特征作为所述第二查询特征；并且基于所述第二查询特征获取所述对象所在的区域。

根据本公开的另一实施例，所述全局检测网络可以包括：交叉注意力网络、第一自注意力网络和第一点特征采样网络。在此情况下，可以先基于所述图像的特征和所述第一查询特征，利用所述交叉注意力网络获取第三查询特征，其中，所述第三查询特征为经优化后的第一查询特征；再基于所述第三查询特征，利用所述第一自注意力网络获取第四查询特征，其中，所述第四查询特征为经优化后的第三查询特征；接着基于所述第四查询特征和所述图像的特征，利用所述第一点特征采样网络获取所述第二查询特征，其中，所述第二查询特征为经优化后的第四查询特征；然后基于所述第二查询特征获取所述对象所在的区域。

根据本公开的实施例，利用所述第一点特征采样网络获取所述第二查询特征可以包括：对于所述图像中的每一点，基于该点在各特征层上的点采样特征及所述点采样特征对应的权重得到该点的采样特征，基于所述图像中各点的采样特征得到所述图像的采样特征，并将所述图像的采样特征作为所述第二查询特征。通过这种方式，所述第一点特征采样网络能够使对象不同方向上的点对应不同尺寸的特征图上的特征。因此可以充分利用不同特征层的优势，从而使得最终得到的所述第二查询特征更好地反映图像中的对象的特点。

举例来说，小尺寸的特征图能够更好地反映图像的抽象语义特征，大尺寸的特征图能够更好地反映图像的细节特征。在图像中待检测的对象为细长的物体（即，物体的长L远大于物体的宽W）的情况下，只基于一个特征图上的采样特征并不能够较好地反映物体在长L和宽W两个维度上的特征，本公开的方法能够利用大尺寸的特征图来获得物体在长L维度上的特征，利用小尺寸的特征图来获得物体在宽W维度上的特征，从而得到更准确的对象检测结果。

在步骤S340中，基于所述对象所在的区域以及所述第二查询特征，利用局部检测网络获取所述对象的检测结果。

根据本公开的一实施例，所述局部检测网络可以包括区域特征融合网络和第二自注意力网络。在此情况下，可以先基于所述对象所在的区域的特征以及所述第二查询特征，利用区域特征融合网络融合所述对象所在的区域的特征以及所述第二查询特征，以得到第五查询特征；再基于所述第五查询特征，利用所述第二自注意力网络获取第六查询特征，其中，所述第六查询特征为经优化后的第五查询特征；接着利用所述第六查询特征以及所述对象所在的区域的特征获得所述对象的检测结果，其中，所述对象的检测结果包括所述对象的预测类别以及所述对象的预测位置。

根据本公开的实施例，为了得到第五查询特征，可以将所述对象所在的区域的特征基于所述第二查询特征进行变换，以得到第一变换特征，将所述对象所在的区域的特征进行线性变换得到第二变换特征，将所述第二查询特征、所述第一变换特征和所述第二变换特征进行融合，以得到所述第五查询特征，其中，所述第一变换特征和所述第二变换特征的尺寸与所述第二查询特征的尺寸相同。

根据本公开的实施例，为了得到第一变换特征，可以对所述对象所在的区域的特征进行上采样以得到第四图像特征；然后对所述第四图像特征进行下采样以得到第五图像特征，并将所述第五图像特征与所述第二查询特征相加以得到所述第一变换特征，其中，第五图像特征的尺寸与所述第二查询特征的尺寸相同。

根据本公开的另一实施例，所述局部检测网络可以包括：区域特征融合网络、第二自注意力网络和第二点特征采样网络。在此情况下，可以先基于所述对象所在的区域的特征以及所述第二查询特征，利用区域特征融合网络融合所述对象所在的区域的特征以及所述第二查询特征，以得到第五查询特征；再基于所述第五查询特征，利用所述第二自注意力网络获取所述第六查询特征，其中，所述第六查询特征为经优化后的第五查询特征；接着基于所述第六查询特征和所述对象所在的区域的特征，利用所述第二点特征采样网络获取所述第七查询特征，其中，所述第七查询特征为经优化后的第六查询特征；然后基于所述第七查询特征获得所述对象的检测结果，其中，所述对象的检测结果包括所述对象的预测类别以及所述对象的预测位置（例如，可以以对象所在位置处的框来体现）。

根据本公开的实施例，利用所述第二点特征采样网络获取所述第七查询特征可以包括：对于所述对象所在的区域中的每一点，基于该点在各特征层上的点采样特征及所述点采样特征对应的权重得到该点的采样特征，基于所述对象所在的区域中各点的采样特征得到所述对象所在的区域的采样特征，并将所述对象所在的区域的采样特征作为所述第七查询特征。

与全局检测网络的第一点特征采样网络的作用类似，利用所述第二点特征采样网络，能够使对象不同方向上的点对应不同尺寸的特征图上的特征。因此可以充分利用不同特征层的优势，从而使得最终得到的所述第七查询特征更好地反映图像中的对象的特点，从而得到更准确的检测结果。

应当理解，根据本公开的实施例，所述局部检测网络的数目可以为一个或多个。多个所述局部检测网络的结构可以相同，也可以不同（例如，第一局部检测网络包括区域特征融合网络和第二自注意力网络，而第二局部检测网络包括区域特征融合网络、第二自注意力网络和第二点特征采样网络）。

本公开的对图像中的对象进行检测的方法300既可以用于对图像中的一种对象进行检测，也可以用于对图像中的多种图像同时进行检测。在对图像中的对象进行检测的方法300用于人脸识别的情况下，可以仅对图像中的人脸部分进行检测，在对图像中的对象进行检测的方法300用于识别动物的情况下，可以对图像中的狗、猫、马等多种动物同时进行检测。

通过上述针对对图像中的对象进行检测的方法300的描述可以看出，本公开仅通过全局定位及局部监测两个阶段就实现了对图像中的对象进行检测，有效简化了模型结构。

与基于深度学习的目标检测方法相比，本公开基于查询特征来检测目标对象，通过这种方式能够有效地避免网络产生重复冗余的预测，从而在推理阶段中可以不依赖于非极大值抑制等后处理算法，实现了端到端的目标检测。

图4是示出根据本公开的实施例的图像特征获取过程的示意图。

如图4所示，为了使图像的特征所包含的信息更丰富、全面，可以利用图像特征提取网络获取所述图像在不同特征层上的不同尺寸的特征；并将所述不同特征层上的不同尺寸的特征进行融合，以得到所述图像的特征。

例如，可以以特征金字塔网络（FPN）作为图像特征提取网络，以提取出图像在不同特征层上的不同尺寸的特征。可选地，FPN可以提取出5个不同特征层上的特征，以得到特征图F1至特征图F5共5个大小不同的特征图，其中，特征图F2的大小可以为特征图F1的4倍（即，特征图F2的长为特征图F1的长的2倍，特征图F2的宽为特征图F1的宽的2倍），特征图F3的大小可以为特征图F2的4倍……特征图F5的大小可以为特征图F4的4倍。

可以从特征图F1至特征图F5中选取特征图F2、特征图F3、特征图F4和特征图F5进行进一步的特征融合。具体地，可以将特征图F2至特征图F5中的每个特征图划分为数量相同的多个子特征。例如，特征图F2可以包括a个大小相同的子特征图A1，特征图F3可以包括a个大小相同的子特征图A2，特征图F4可以包括a个大小相同的子特征图A3，特征图F5可以包括a个大小相同的子特征图A4，a为正整数。如图4中各特征图的阴影部分所示，可以将各特征图中对应位置的子特征进行融合。例如，将对应的A1子特征图，A2子特征图，A3子特征图和A4子特征图融合。

假设A1子特征图所对应的特征为A1-1，A2子特征图所对应的特征为A2-1，A3子特征图所对应的特征为A3-1，A4子特征图所对应的特征为A4-1。因此，特征A1-1的大小可以表示为（c，1），其中c是通道的数量，通常为256，特征A2-1的大小可以表示为（c，4），A3-1的大小可以表示为（c，16），A4-1的大小可以表示为（c，64）。因此，将特征A1-1、A2-1、A2-1和A2-1进行融合（例如，通过拼接操作），可以得到大小为（c，85）的第一图像特征，并且可以将所述第一图像特征作为图像的特征。

为了使图像的特征尽可能包含重要的信息，还可以将对所述第一图像特征先进行上采样以得到第二图像特征；然后对所述第二图像特征进行下采样以得到第三图像特征，并将所述第三图像特征作为所述图像的特征。该上采样和下采样过程可以通过线性变换层来实现。

例如，可以通过前馈网络（FFN）先对大小为（c，85）的第一图像特征进行上采样以得到大小为（c，256）的第二图像特征；然后对所述大小为（c，256）的第二图像特征进行下采样以得到大小为（c，k _mff）的第三图像特征，并将所述大小为（c，k _mff）的第三图像特征作为图像的特征，k _mff表示特征图上相同位置输出的核的数量，可选地，k _mff 可以为64。

因此，通过特征融合，对于每个图像，最终会得到大小为（h _s，w _s，c，k _mff）的特征，h _s和w _s是最小特征图（即，此处的特征图F2）的高度和宽度。

通过上述处理式，能够使图像的特征能够包含不同特征层上的上下文信息，从而在图像的特征用于对象检测的情况下，增强对对象的辨别能力。

图5是示出根据本公开的实施例的对图像中的对象进行检测的过程的示意图。

如图5所示，初始的第一查询特征为q _g，图像的特征为f，经过全局检测网络处理后可以得到经优化后的第二查询特征q _l及图像中的关注区域RoI。可选地，全局检测网络可以包括线性层和前馈网络（FFN），通过线性层的处理后，全局检测网络输出经优化后的第二查询特征q _l，通过前馈网络（FFN）的处理后，全局检测网络输出图像中的关注区域RoI。图像中的关注区域RoI可以包括关注区域的位置（例如，可以以位置框的形式来表示）以及关注区域所对应的分数。

以第二查询特征q _l和图像中的关注区域RoI作为局部检测网络的输入，经局部检测网络处理后可以得到检测对象的类别以及检测对象的位置（例如，可以以位置框的形式来表示）。

查询特征反映对象的多种属性（例如，对象的基本视觉特征：颜色、形状、大小、方向等）的组合，对于不同对象来说，其属性的组合不同，即，查询特征不同。因此，可以用m个可学习的维度为d（默认设置m=256，d=256）的属性特征来表示对象的基本视觉特征，使用表示所有n个对象的查询特征，每个查询特征/>可以为m个属性特征m的线性组合，即，可以用公式（1）来表示：

（1）

其中是分配给第i个查询特征的第j个属性特征的权重。属性特征m和权重/>在训练期间是可学习的。

通过这种查询特征确定方式，查询特征受对象的颜色、形状、大小、方向等属性的约束，能够与所述图像的特征共同更准确地确定出所述图像中的关注区域。

应当理解，图5示出了基于神经网络模型对图像中的对象进行检测的正向过程（即，神经网络模型的使用过程）。在对神经网络模型进行训练的情况下，还可以额外获取对象检测的标签（可以包括对象的位置标签和对象的类别标签），以对所述神经网络模型进行有监督训练。

例如，可以基于对象的位置标签和全局检测网络所预测的对象的位置（即，RoI）对全局检测网络的参数进行优化，基于对象的位置标签和局部检测网络所预测的对象的位置对局部检测网络的参数进行优化，以及基于对象的类别标签和局部检测网络所预测的对象的类别对局部检测网络的参数进行优化。

根据本公开的实施例，用于训练神经网络模型的损失函数可以由两部分组成：对象分类的损失和对象位置的损失。

其中，对象分类的损失是预测的对象的类别与对象的类别标签（即，真实对象类别）之间的交叉熵损失。假设有N个预测对象和M个真实对象，具体可以定义对象分类的损失如公式（2）所示：

（2）

其中是真实对象j与预测对象i之间的匹配指示符，在二者匹配的情况下，/>=1，否则为0，/>是预测对象i属于类别j的概率。

对象位置的损失是预测边界框（即，对象所在位置的框）与真实边界框（即，对象的位置标签）之间的差异。可选地，对象位置的损失可以为Generalized Intersection overUnion (GIoU)损失。GIoU损失考虑了预测边界框与真实边界框之间的交集和并集，以及它们之间的最小包围矩形。GIoU损失的计算公式如公式（3）所示：

（3）

其中IoU表示预测边界框与真实边界框之间的交集与并集之比，C表示最小包围矩形的面积，U表示预测边界框与真实边界框的并集面积。

最终，如公式（4）所示，损失函数是对象分类的损失和对象位置的损失的加权和：

（4）

其中λ是一个权重系数，用于平衡对象分类的损失和对象位置的损失的贡献。

神经网络训练的过程中，通过最小化损失函数的值可以使得神经网络模型有效地检测对象的类别并预测对象的的边界框。

应当理解，这里以公式（2）所表示的对象分类的损失和公式（3）所表示的对象位置的损失/>作为示例进行说明，而非限制。可选地，对象分类的损失/>还可以利用公式（5）进行计算：

（5）

作为示例，对象位置的损失还可以利用公式（6）进行计算：

（6）

其中，中B表示预测边界框，表示真实边界框。

为了更清楚地对图5中的全局检测网络和局部检测网络的处理过程进行说明。以下结合图6A和图6B进行进一步的介绍。

图6A是示出根据本公开的实施例的基于全局检测网络的处理过程的示意图。

图6A以全局检测网络可以包括：交叉注意力网络、第一自注意力网络和第一点特征采样网络的示例进行说明。可选地，全局检测网络也可以包括：交叉注意力网络和第一自注意力网络。

如图6A所示，所述全局检测网络可以包括：交叉注意力网络、第一自注意力网络和第一点特征采样网络。

基于图像的特征可以分别得到图像的键（Key）特征k和值（Value）特征v其中，键特征k和值特征v基于相同的位置编码。k和v是通过对图4所示的过程中得到的融合的图像特征的最后一个维度应用线性变换得到/>，然后将Y的两个维度分离得到的。其中，k和v的尺寸都为/>。

所述交叉注意力网络可以包括多头注意力网络和Add&Norm（残差连接和层归一化）层。将图像的特征（k和v）和第一查询特征q _g作为所述交叉注意力网络的输入，可以获取第三查询特征q _g3，其中，所述第三查询特征q _g3为基于注意力机制优化后的第一查询特征。

基于查询特征q和来自图像的特征k和v来实现交叉注意力操作的过程可以基于以下公式（7）实现：

（7）

其中，为k的维度大小。该注意力机制通常由以下几个步骤组成：计算注意力权重：根据查询特征q和图像的键特征k，计算每个查询特征q的注意力权重。这可以通过计算查询特征q与键特征k之间的相似度或相关性来实现。加权求和：图像的值特征v与对应的注意力权重相乘，并将它们加权求和，以得到一个加权的输入表示。这可以将注意力集中在与任务相关的输入查询特征q上。更新模型状态：根据加权的输入表示，更新模型的状态，以便进一步处理任务。上述过程可以是一个循环过程，其通过不断迭代计算注意力权重和更新模型状态来实现。

所述第一注意力网络的结构与所述交叉注意力网络类似，也可以包括多头注意力网络和Add&Norm（残差连接和层归一化）层。将第三查询特征q _g3作为所述第一自注意力网络的输入，可以获取第四查询特征q _g4，其中，所述第四查询特征q _g4为基于注意力机制优化后的第三查询特征。自注意这使得各查询特征能够互相交换信息，以使得每个查询特征能够确定最佳匹配并做出分类决定。

基于第三查询特征q _g3实现自注意力操作的过程类似公式（7）。与之不同的是，交叉注意力网络基于查询特征和图像特征实现注意力操作，两者为不同域的特征；而第一自注意力网络基于每个查询特征和其它查询特征实现注意力操作，两者为相同域的特征。

应当理解，本公开的交叉注意力网络和自注意力网络可以是标准的注意力网络（例如，基于多头注意力（Multi-head Attention，MHA）机制），也可以是各种注意力网络的变种（例如，基于多查询注意力（Multi-Query Attention，MQA）机制，或者基于分组查询注意力（Grouped-Query Attention，GQA）机制等）。

交叉注意和自我注意机制的集成为查询特征提供了定位和分类的必要信息，使其能够更有效地关注输入的相关区域。为了进一步增强查询特征提取和表示信息的能力，本公开还设计了点特征采样网络。这允许每个查询特征从整个图像中提取特征，并将它们与自己的特征融合，从而提高定位和前景/背景区分的准确性。

第一点特征采样网络可以包括点特征采样层、前馈网络（FFN）和Add&Norm（残差连接和层归一化）层。第一点特征采样网络可以基于所述第四查询特征和所述图像的特征f ₁（所述图像的特征f ₁既可以为图4所述的大小为（c，85）的第一图像特征，也可以是大小为（h _s，w _s，c，k _mff）的特征X _mff，在此不做限制），获取所述第二查询特征q _l，其中，所述第二查询特征q _l为经优化后的第四查询特征q _g4。此外，通过两个不同的前馈网络（FFN）分别对所述第二查询特征q _l进行处理可以分别得到图像中的关注区域RoI的位置（例如，可以以位置框的形式来表示）以及关注区域所对应的分数（即，关注区域的准确度）。

第一点特征采样网络的处理过程如下：对于所述图像中的每一点，可以基于该点在各特征层上的点采样特征及所述点采样特征对应的权重得到该点的采样特征，基于所述图像中各点的采样特征得到所述图像的采样特征，并将所述图像的采样特征作为所述第二查询特征q _l。

通过这种方式，所述第一点特征采样网络能够使对象不同方向上的点对应不同尺寸的特征图上的特征。因此可以充分利用不同特征层的优势，从而使得最终得到的所述第二查询特征更好地反映图像中的对象的特点。

假设检测对象的边界框具有宽度和高度，如果/>和/>尺度显著不同，例如当时。在这种情况下，为了更好的反映对象的特征，应该在w和h方向上选择不同特征图上的特征。因此，本公开提出利用点特征采样网络来对不同方向上的特征进行采样。具体来说，本公开将特征图的z轴坐标表示为/>，其中/>是第j个特征图的下采样步长。/>为查询特征q的u个线性变换之一，其中/>和/>是要被查询特征采样的点的平面坐标，/>和/>分别是该被查询特征采样的点在z轴方向上相对于w和h方向的坐标，/>和/>为第j个特征图在z轴方向上相对于w和h方向的坐标，u是被采样的点数。点特征采样过程如下面的公式（8）所示：

（8）

其中，是分配给第j个特征图的权重，其可以通过下面的公式（9）计算：

（9）

为加权的采样特征，是第j个特征图中的点/>处的特征值，n是使用的特征图的数量（例如，对于图4所示的示例，如果使用从特征图F2到特征图F5的四个层，n=4）。通过使用这种点特征采样方法，所获得的采样特征/>更适合查询特征q。/>

图6B是示出根据本公开的实施例的基于局部检测网络的处理过程的示意图。

所述局部检测网络可以包括：区域特征融合网络、第二自注意力网络和第二点特征采样网络。

区域特征融合网络可以包括动态卷积层、Add&Norm（残差连接和层归一化）层、Norm（归一化）层以及线性层。区域特征融合网络可以基于所述对象所在的区域的特征以及所述第二查询特征，融合所述对象所在的区域的特征f _l以及所述第二查询特征q _l，以得到第五查询特征q _l5。

利用动态卷积层可以获得q _l和f _l之间的动态实例交互表示（即，下面的所述第一变换特征）。该计算过程可以通过下面的公式（10）表示：

（10）

其中，表示对所述对象所在的区域的特征f _l进行上采样以得到第四图像特征；然后对所述第四图像特征进行下采样以得到第五图像特征，并将所述第五图像特征与所述第二查询特征q _l相加以得到所述第一变换特征，其中，第五图像特征的尺寸与所述第二查询特征的尺寸相同。

如公式（11）所示，对f _l应用两个线性变换可以得到r _l：

（11）

其中，W ₁和W ₂为两个线性变换，LN表示归一化层，ReLU表示修正线性单元。

关注区域的融合查询特征即，第五查询特征q _l5）可以通过下面的公式（12）计算：

（12）

其中，、/>和/>三者的尺寸相同。

所述第二注意力网络的结构与图6A中的交叉注意力网络类似，也可以包括多头注意力网络和Add&Norm（残差连接和层归一化）层。第二注意力网络的处理过程与第一注意力网络类似。具体地，将第五查询特征q _l5作为所述第二自注意力网络的输入，可以获取第六查询特征q _l6，其中，所述第六查询特征q _l6为基于注意力机制优化后的第五查询特征（该过程类似图6A中第四查询特征q _g4的获得过程，在此不再赘述）。自注意这使得各查询特征能够互相交换信息，以使得每个查询特征能够确定最佳匹配并做出分类决定。

与图6A中的第一点特征采样网络类似，第二点特征采样网络可以包括点特征采样层、前馈网络（FFN）和Add&Norm（残差连接和层归一化）层。第二点特征采样网络的处理过程与第一点特征采样网络类似。具体地，第二点特征采样网络可以基于所述第六查询特征q _l6和关注区域RoI的图像特征f ₂，获得经优化的第七查询特征q _l7（该过程类似图6A中第六查询特征q _l的获得过程，在此不再赘述）。此外，通过两个不同的前馈网络（FFN）分别对所述第七查询特征q _l7进行处理可以分别得到图像中对象的预测类别以及所述对象的预测位置（例如，可以以对象所在位置处的框来体现）。

类似于全局检测网络的处理过程，局部检测网络的处理过程中，查询特征通过自注意机制来交换信息，以提高分类性能。随后，通过第一点特征采样网络加强查询特征中包含的信息。最后，分别获得对象的预测类别以及所述对象的预测位置。

图7是示出根据本公开的实施例的训练神经网络模型的方法700的示意性流程图。

在步骤S710中，利用图像特征提取网络获取图像的特征。

应当理解，此处的图像为用于训练的图像样本。该图像样本可以来源于现有的图像数据库。例如，图像对象检测领域常用的MS COCO数据库等。

需要说明的是，所述图像特征提取网络可以为经过预训练优化的神经网络模型。在训练神经网络模型的过程中，可以对所述图像特征提取网络的网络参数进行进一步的优化。

在步骤S720中，获取第一查询特征，所述查询特征用于与所述图像的特征共同确定所述图像中的关注区域。

基于所述查询特征与所述图像的特征共同确定所述图像中的关注区域的过程可以基于注意力机制来实现。例如，可以根据输入的特征（查询特征，Query）和模型的当前状态（键特征，Key），计算每个输入的注意力权重。然后将输入表示（值特征，Value）与对应的注意力权重相乘，并将它们加权求和，以得到一个加权的输入表示，该加权的输入表示用于将神经网络注意力集中在图像中所关注的区域。

在步骤S730中，基于所述图像的特征和所述第一查询特征，利用全局检测网络获取所述对象所在的区域及第二查询特征，其中，所述第二查询特征为经优化后的第一查询特征。

步骤S730用于初步定位对象所在的区域，并优化查询特征。

在步骤S740中，基于所述对象所在的区域以及所述第二查询特征，利用局部检测网络获取所述对象的检测结果。

步骤S740用于在步骤S730的基础上进行更细致的分析，从而得到更准确的检测结果。

需要说明的是，步骤S710至步骤S740的处理过程与上述对图像中的对象进行检测的方法300中的步骤S310至步骤S340的处理过程类似，上述针对步骤S310至步骤S340的描述同样适用于步骤S710至步骤S740，在此不再赘述。

在步骤S750中，获取对象检测的标签。

根据本公开的实施例，所述对象的检测结果可以包括：所述对象的预测类别以及所述对象的预测位置（例如，可以以对象所在位置处的框来体现）。与之对应的，所述对象检测的标签可以包括：所述对象的类别标签以及所述对象的位置标签。对象检测的标签可以是人工标注确定的，可以来自现有的已标注的图像数据库，也可以是基于其它已训练好的、精度较高的神经网络对图像中的对象进行检测确定的。

在训练过程中，可以利用对象检测的标签和全局检测网络所预测的对象的位置对全局检测网络的参数进行优化，利用对象检测的标签和局部检测网络所预测的对象的位置对局部检测网络的参数进行优化。

在步骤S760中，基于所述对象的检测结果和所述对象检测的标签对所述神经网络模型进行训练以更新所述神经网络模型的参数，其中，所述神经网络模型包括所述图像特征提取网络，所述全局检测网络以及所述局部检测网络。

根据本公开的实施例，可以根据所述对象的多个属性确定多个属性特征，其中，每个属性特征指示对象的颜色、形状、大小、方向中的至少一者；然后基于各属性特征对应的权重，对所述多个属性特征进行加权，以得到所述第一查询特征。在此情况下，每次训练过程中还可以对每个属性特征及其对应的权重进行更新。

根据本公开的实施例，训练过程中可以基于损失函数对所述神经网络模型进行训练。可选地，基于所述损失函数能够对所述神经网络模型的参数进行优化及更新，从而使所述神经网络模型用于对象检测时，对象分类的准确度和对象所在位置的准确度两者都得到提升。例如，可以基于所述对象的预测类别以及所述对象的类别标签确定分类损失函数；基于所述对象的预测位置以及所述对象的位置标签确定位置损失函数；基于所述分类损失函数和所述位置损失函数确定联合损失函数；然后利用所述联合损失函数对所述神经网络模型进行训练。

应当理解，分类损失函数和位置损失函数的形式有多种，在此不作限制。

为了验证本公开的对图像中的对象进行检测的方法的检测效果，本公开基于MSCOCO数据集进行了实验，以下用于对比的所有模型都在COCO 2017分割训练集上进行训练，在COCO 2017测试集上进行测试。训练过程中，以残差网络（ResNet）作为图像特征提取网络。

为了确保不同检测器之间的公平比较，在进行实验时，利用本公开的方法设计了包括两个解码器的模型1（即，仅包括1个全局检测网络和1个局部检测网络）以与现有的单阶段或两阶段对象检测模型进行比较；利用本公开的方法设计了包括三个解码器的模型2（即，包括1个全局检测网络和2个局部检测网络）以与现有的多阶段模型进行比较。其中，下述目标检测指标中，AP代表平均精度（Average Precision），AP ₅₀指使用0.5作为交并比（IoU，Intersection over Union）的阈值计算的平均精度（AP），AP ₇₅指使用0.75作为IoU的阈值计算的AP，AP _s指小目标的AP，AP _m指中等目标的AP，AP _l指大目标的AP，FPS代表每秒传输帧数（Frames Per Second）。

表1示出了利用本公开的方法设计的模型与现有的单阶段或两阶段对象检测模型的比较结果。通过下表1可以看出，利用本公开的思路设计的模型1与RetinaNet模型和Faster R-CNN模型相比，目标检测准确率高，检测速度快。

表2示出了利用本公开的方法设计的模型与现有的多阶段对象检测模型的比较结果。通过下表2可以看出，利用本公开的思路设计的模型2虽然只有三个阶段，但是与四个阶段解码器的Cascade R-CNN模型，六个阶段解码器的DETR模型、Deformable DETR模型、Sparse R-CNN模型和Adamixer模型相比，性能仅有略微下降。

表3示出了改变查询特征的数量对本公开的方法设计的模型的影响。此处基于模型1进行实验。通过下表3可以看出，增加查询特征的数量能够提升用于对象检测的神经网络模型的性能，但是训练时间会增加，在查询特征的数量到达一定数目后，增加查询特征的数量不再显著提升模型性能。为了在模型训练速度和性能之间进行平衡，可以选择合适的查询特征的数量，例如，300。

表4示出了改变局部检测网络的数量对本公开的方法设计的模型的影响。通过下表4可以看出，仅使用一个局部检测网络就能够获得良好的模型性能，增加局部检测网络的数量能够进一步提升模型的性能，但模型性能提升效果并不显著。在资源有限的情况下，可以减少局部检测网络的数量。

/>

表5示出了在以下各对象检测模型的解码器数量都为2的情况下的实验结果。通过下表5可以看出，当解码器级数限制为2级时，利用本公开的思路设计的模型1具有最佳的模型性能。

基于模型1，表6示出了使用交叉注意力网络（表6中以CA表示）和利用属性特征来确定查询特征（表6中以Mata Init表示）对实验结果的影响。表6中的对号表示存在该模块。通过下表6可以看出，使用交叉注意力网络及利用属性特征来确定查询特征都能够使用于对象检测的模型性能得到提升。

基于模型1，表7示出了使用点特征采样网络（其中，全局检测网络中的点特征采样网络为第一点特征采样网络，局部检测网络中的点特征采样网络为第二点特征采样网络）对实验结果的影响。表7中的对号表示存在该模块。通过下表7可以看出，通过在全局检测网络及局部检测网络分别采用点特征采样网络，都能够使用于对象检测的模型性能得到提升。

通过上述表1-表7的实验结果可以看出，本公开的方法仅通过全局定位及局部监测两个阶段就实现了对图像中的对象进行检测，有效简化了模型结构，并且能够同时兼顾目标检测的效率和准确性。使用交叉注意力网络、利用属性特征来确定查询特征、使用点特征采样网络均能够使用于对象检测的模型性能得到提升，本申请的设计是有效可行的。

图8是示出根据本公开的实施例的对图像中的对象进行检测的装置800的组成示意图。

根据本公开的实施例，对图像中的对象进行检测的装置800可以包括：图像特征获取模块810、查询特征获取模块820、全局检测网络模型830和局部检测网络模型840。

对图像中的对象进行检测的装置800可以集成有用于对图像中的对象进行检测的神经网络模型，所述用于对图像中的对象进行检测的神经网络模型可以包括：图像特征提取网络、全局检测网络模型和局部检测网络模型。

具体地，图像特征获取模块810可以被配置为：利用图像特征提取网络获取图像的特征。

所述图像特征提取网络可以为各种结构的图像特征提取网络。可选地，可以利用图像特征提取网络获取所述图像在不同特征层上的不同尺寸的特征；并将所述不同特征层上的不同尺寸的特征进行融合，以得到所述图像的特征。

查询特征获取模块820可以被配置为：获取第一查询特征，其中，所述查询特征用于与所述图像的特征共同确定所述图像中的关注区域。

可选地，所述全局检测网络可以包括：交叉注意力网络和第一自注意力网络。为了提升检测的准确度，所述全局检测网络可以包括：交叉注意力网络、第一自注意力网络和第一点特征采样网络。其中，所述第一点特征采样网络用于使对象不同方向上的点对应不同尺寸的特征图上的特征。

全局检测网络模型830可以被配置为：基于所述图像的特征和所述第一查询特征，利用全局检测网络获取所述对象所在的区域及第二查询特征，其中，所述第二查询特征为经优化后的第一查询特征。

可选地，所述局部检测网络可以包括区域特征融合网络和第二自注意力网络。为了提升检测的准确度，所述局部检测网络可以包括：区域特征融合网络、第二自注意力网络和第二点特征采样网络。其中，所述第二点特征采样网络用于使对象不同方向上的点对应不同尺寸的特征图上的特征。

查询特征获取模块820和全局检测网络模型830基于查询特征来进行图像中的对象检测，可以实现的端到端的对象检测。即，输入图像至神经网络模型直接得到图形中目标对象的类别和位置，即，不是先生成多个候选位置框再从中选择较优的位置框。

局部检测网络模型840可以被配置为：基于所述对象所在的区域以及所述第二查询特征，利用局部检测网络获取所述对象的检测结果。

所述对象的检测结果可以包括所述对象的预测类别以及所述对象的预测位置框。可以将该结果输出至用户终端上，以供用户参考。

本公开的对图像中的对象进行检测的装置800可以用于各种图像检测场景。诸如，基于医学图像的肿瘤检测，交通影像中的车辆检测，人脸检测、工业缺陷检测等等。例如，将待检测图片输入对图像中的对象进行检测的装置800中，从而输出检测到的目标对象的类别及表示目标对象所在位置的框。

应当理解，图8所示的对图像中的对象进行检测的装置800可以实现如针对图3所描述的各种对图像中的对象进行检测的方法。图8的实施例中所使用的神经网络模型可以是通过如图7所述的方法700训练得到的。

对图像中的对象进行检测的装置800既可以位于图1所示的服务器110上，也可以位于图1所示的终端120上。

图9是示出根据本公开的实施例的训练神经网络模型的装置900的组成示意图。

根据本公开的实施例，训练神经网络模型的装置900可以包括：图像特征获取模块910、查询特征获取模块920、全局检测网络模型930、局部检测网络模型940、标签获取模块950和训练模块960。

其中，图像特征获取模块910可以被配置为：利用图像特征提取网络获取图像的特征。

应当理解，此处的图像为用于训练的图像样本。该图像样本可以来源于现有的图像数据库。

查询特征获取模块920可以被配置为：获取第一查询特征，其中，所述查询特征用于与所述图像的特征共同确定所述图像中的关注区域。

基于所述查询特征与所述图像的特征共同确定所述图像中的关注区域的过程可以基于注意力机制来实现。

全局检测网络模型930可以被配置为：基于所述图像的特征和所述第一查询特征，利用全局检测网络获取所述对象所在的区域及第二查询特征，其中，所述第二查询特征为经优化后的第一查询特征。

全局检测网络模型930可以用于初步定位对象所在的区域，并优化查询特征。

局部检测网络模型940可以被配置为：基于所述对象所在的区域以及所述第二查询特征，利用局部检测网络获取所述对象的检测结果。

局部检测网络模型940可以用于对初步定位的对象所在的区域进行更细致的分析，从而得到更准确的检测结果。

应当理解，图9中的图像特征获取模块910、查询特征获取模块920、全局检测网络模型930、局部检测网络模型940，与图8中的图像特征获取模块810、查询特征获取模块820、全局检测网络模型830和局部检测网络模型840对图像的处理过程分别对应，在此不再赘述。

标签获取模块950可以被配置为：获取对象检测的标签。

所述对象的检测结果可以包括：所述对象的预测类别以及所述对象的预测位置。

训练模块960可以被配置为：基于所述对象的检测结果和所述对象检测的标签对所述神经网络模型进行训练以更新所述神经网络模型的参数，其中，所述神经网络模型包括所述图像特征提取网络，所述全局检测网络以及所述局部检测网络。

训练过程中训练模块960可以基于损失函数对所述神经网络模型进行训练，以对所述神经网络模型的参数进行优化及更新，从而使所述神经网络模型用于对象检测时的准确度得到提升。

应当理解，图9所示的训练神经网络模型的装置900可以实现如针对图7所描述的各种训练神经网络模型的方法。图9中的神经网络经训练后即可得到图8中用于对图像中的对象进行检测的神经网络模型。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、***、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

例如，根据本公开的实施例的方法或装置也可以借助于图10所示的计算设备3000的架构来实现。如图10所示，计算设备3000可以包括总线3010、一个或多个CPU 3020、只读存储器（ROM）3030、随机存取存储器（RAM）3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备，例如ROM 3030或硬盘3070可以存储本公开提供的方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备3000还可以包括用户界面3080。当然，图10所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图10示出的计算设备中的一个或多个组件。

根据本公开的又一方面，还提供了一种计算机可读存储介质。计算机存储介质上存储有计算机可读指令。当计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本公开的实施例的方法。本公开的实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM）、可编程只读存储器（PROM）、可擦除可编程只读存储器（EPROM）、电可擦除可编程只读存储器（EEPROM）或闪存。易失性存储器可以是随机存取存储器（RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、同步动态随机存取存储器（SDRAM）、双倍数据速率同步动态随机存取存储器（DDRSDRAM）、增强型同步动态随机存取存储器（ESDRAM）、同步连接动态随机存取存储器（SLDRAM）和直接内存总线随机存取存储器（DR RAM）。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本公开的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行根据本公开的实施例的方法。

综上所述，本公开的实施例提供了一种对图像中的对象进行检测的方法，包括：利用图像特征提取网络获取图像的特征；获取第一查询特征；基于所述图像的特征和所述第一查询特征，利用全局定位网络获取所述图像中的关注区域及第二查询特征，其中，所述第二查询特征为经优化后的第一查询特征；以及基于所述第二查询特征以及图像中的关注区域，利用局部检测网络获取所述对象的检测结果。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本公开使用了特定词语来描述本公开的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本公开至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本公开的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

除非另有定义，这里使用的所有术语（包括技术和科学术语）具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种对图像中的对象进行检测的方法，包括：

利用图像特征提取网络获取图像的特征；

获取第一查询特征，其中，基于各属性特征对应的权重，对多个属性特征进行加权，以得到所述第一查询特征，其中，所述属性特征指示所述图像中待检测的对象的属性，所述第一查询特征用于与所述图像的特征共同确定所述图像中的关注区域；

基于所述图像的特征和所述第一查询特征，利用全局检测网络获取所述对象所在的区域及第二查询特征，其中，所述第二查询特征为经优化后的第一查询特征；以及

基于所述对象所在的区域以及所述第二查询特征，利用局部检测网络获取所述对象的检测结果。

2.如权利要求1所述的方法，其中，利用图像特征提取网络获取图像的特征包括：

利用图像特征提取网络获取所述图像在不同特征层上的不同尺寸的特征；以及

将所述不同特征层上的不同尺寸的特征进行融合，以得到所述图像的特征。

3.如权利要求2所述的方法，其中，所述不同尺寸的特征中的每个特征包括数量相同的多个子特征，

将所述不同特征层上的不同尺寸的特征进行融合包括：

将所述不同特征层中对应的子特征进行融合。

4.如权利要求3所述的方法，其中，将所述不同尺寸的特征进行融合，以得到所述图像的特征还包括：

将所述不同尺寸的特征进行融合以得到第一图像特征；以及

对所述第一图像特征进行上采样以得到第二图像特征；

对所述第二图像特征进行下采样以得到第三图像特征，并将所述第三图像特征作为所述图像的特征。

5.如权利要求1所述的方法，其中，

每个所述属性特征指示所述待检测的对象的颜色、形状、大小、方向中的至少一者。

6.如权利要求1所述的方法，其中，所述全局检测网络包括：交叉注意力网络和第一自注意力网络，

基于所述图像的特征和所述第一查询特征，利用全局检测网络获取所述对象所在的区域及第二查询特征包括：

基于所述图像的特征和所述第一查询特征，利用所述交叉注意力网络获取第三查询特征，其中，所述第三查询特征为经优化后的第一查询特征；

基于所述第三查询特征，利用所述第一自注意力网络获取第四查询特征，其中，所述第四查询特征为经优化后的第三查询特征；

将所述第四查询特征作为所述第二查询特征；以及

基于所述第二查询特征获取所述对象所在的区域。

7.如权利要求2所述的方法，其中，所述全局检测网络包括：交叉注意力网络、第一自注意力网络和第一点特征采样网络，

基于所述第四查询特征和所述图像的特征，利用所述第一点特征采样网络获取所述第二查询特征，其中，所述第二查询特征为经优化后的第四查询特征；以及

基于所述第二查询特征获取所述对象所在的区域。

8.如权利要求7所述的方法，其中，利用所述第一点特征采样网络获取所述第二查询特征包括：

对于所述图像中的每一点，基于该点在各特征层上的点采样特征及所述点采样特征对应的权重得到该点的采样特征，

基于所述图像中各点的采样特征得到所述图像的采样特征，并将所述图像的采样特征作为所述第二查询特征。

9.如权利要求1所述的方法，其中，所述局部检测网络的数目为一个或多个，其中，每个所述局部检测网络包括：区域特征融合网络和第二自注意力网络，

基于所述对象所在的区域以及所述第二查询特征，利用局部检测网络获取所述对象的检测结果包括：

基于所述对象所在的区域的特征以及所述第二查询特征，利用区域特征融合网络融合所述对象所在的区域的特征以及所述第二查询特征，以得到第五查询特征；

基于所述第五查询特征，利用所述第二自注意力网络获取第六查询特征，其中，所述第六查询特征为经优化后的第五查询特征；

利用所述第六查询特征以及所述对象所在的区域的特征获得所述对象的检测结果，其中，所述对象的检测结果包括所述对象的预测类别以及所述对象的预测位置。

10.如权利要求9所述的方法，其中，利用区域特征融合网络融合所述对象所在的区域的特征以及所述第二查询特征，以得到第五查询特征包括：

将所述对象所在的区域的特征基于所述第二查询特征进行变换，以得到第一变换特征，

将所述对象所在的区域的特征进行线性变换得到第二变换特征，

将所述第二查询特征、所述第一变换特征和所述第二变换特征进行融合，以得到所述第五查询特征，其中，所述第一变换特征和所述第二变换特征的尺寸与所述第二查询特征的尺寸相同。

11.如权利要求10所述的方法，其中，将所述对象所在的区域的特征基于所述第二查询特征进行变换，以得到第一变换特征包括：

对所述对象所在的区域的特征进行上采样以得到第四图像特征；

对所述第四图像特征进行下采样以得到第五图像特征，并将所述第五图像特征与所述第二查询特征相加以得到所述第一变换特征，其中，第五图像特征的尺寸与所述第二查询特征的尺寸相同。

12.如权利要求2所述的方法，其中，所述局部检测网络包括：区域特征融合网络、第二自注意力网络和第二点特征采样网络，

基于所述第六查询特征和所述对象所在的区域的特征，利用所述第二点特征采样网络获取第七查询特征，其中，所述第七查询特征为经优化后的第六查询特征；以及

基于所述第七查询特征获得所述对象的检测结果，其中，所述对象的检测结果包括所述对象的预测类别以及所述对象的预测位置。

13.如权利要求12所述的方法，其中，利用所述第二点特征采样网络获取所述第七查询特征包括：

对于所述对象所在的区域中的每一点，基于该点在各特征层上的点采样特征及所述点采样特征对应的权重得到该点的采样特征，

基于所述对象所在的区域中各点的采样特征得到所述对象所在的区域的采样特征，并将所述对象所在的区域的采样特征作为所述第七查询特征。

14.一种训练神经网络模型的方法，包括：

利用图像特征提取网络获取图像的特征；

基于所述图像的特征和所述第一查询特征，利用全局检测网络获取所述对象所在的区域及第二查询特征，其中，所述第二查询特征为经优化后的第一查询特征；

基于所述对象所在的区域以及所述第二查询特征，利用局部检测网络获取所述对象的检测结果；

获取对象检测的标签；以及

基于所述对象的检测结果和所述对象检测的标签对所述神经网络模型进行训练以更新所述神经网络模型的参数，其中，所述神经网络模型包括所述图像特征提取网络，所述全局检测网络以及所述局部检测网络。

15.如权利要求14所述的方法，其中，

16.如权利要求15所述的方法，其中，基于所述对象的检测结果和所述对象检测的标签对所述神经网络模型进行训练以更新所述神经网络模型的参数还包括：

对每个属性特征及其对应的权重进行更新。

17.如权利要求14所述的方法，其中，

所述对象的检测结果包括：所述对象的预测类别以及所述对象的预测位置，所述对象检测的标签包括：所述对象的类别标签以及所述对象的位置标签，

基于所述对象的检测结果和所述对象检测的标签对所述神经网络模型进行训练包括：

基于所述对象的预测类别以及所述对象的类别标签确定分类损失函数；

基于所述对象的预测位置以及所述对象的位置标签确定位置损失函数；

基于所述分类损失函数和所述位置损失函数确定联合损失函数；以及

利用所述联合损失函数对所述神经网络模型进行训练。

18.一种对图像中的对象进行检测的装置，包括：

图像特征获取模块，被配置为：利用图像特征提取网络获取图像的特征；

查询特征获取模块，被配置为：获取第一查询特征，其中，基于各属性特征对应的权重，对多个属性特征进行加权，以得到所述第一查询特征，其中，所述属性特征指示所述图像中待检测的对象的属性，所述第一查询特征用于与所述图像的特征共同确定所述图像中的关注区域；

全局检测网络模型，被配置为：基于所述图像的特征和所述第一查询特征，获取所述对象所在的区域及第二查询特征，其中，所述第二查询特征为经优化后的第一查询特征；以及

局部检测网络模型，被配置为：基于所述对象所在的区域以及所述第二查询特征，获取所述对象的检测结果。

19.一种计算机可读存储介质，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如权利要求1-17中任一项所述的方法。