CN113869138A

CN113869138A - 多尺度目标检测方法、装置及计算机可读存储介质

Info

Publication number: CN113869138A
Application number: CN202111038815.5A
Authority: CN
Inventors: 陈海波; 高春洋
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-12-31

Abstract

本申请提供了一种多尺度目标检测方法、装置、电子设备及计算机可读存储介质，所述方法包括：获取包括自然场景的多个图像并对多个图像进行数据处理，以生成训练样本集合；建立并使用训练样本集合训练多尺度特征提取模型，使得训练完成的多尺度特征提取模型能够识别所述图像中不同空间和不同尺度的多个特征；建立并使用训练样本集合训练detr检测模型，使得训练完成的detr检测模型能够识别图像中的多个特征；对多尺度特征提取模型和detr检测模型进行模型融合以获取融合模型，并且训练所述融合模型；以及使用训练完成的融合模型进行目标检测。解决本地操作无法掌握尺度多变的情况；提供更强大的特征提取能力和更快速的目标检测功能。

Description

多尺度目标检测方法、装置及计算机可读存储介质

技术领域

本申请涉及计算机视觉技术和目标检测技术领域，尤其涉及一种多尺度的识别方法、装置、电子设备及计算机可读存储介质。

背景技术

机器视觉检测技术作为当今工业中的一项重要技术，被广泛应用于基于内容的图像检索、汽车安全、视频监控和机器人技术等各大领域，并且随着技术的发展，机器视觉检测技术被应用于越来越多的领域，以满足不断提升的市场需求。

计算机视觉对于目标运动的分析可以大致分为三个层次：运动分割，目标检测；目标跟踪；动作识别，行为描述。其中，目标检测既是计算机视觉领域要解决的基础任务之一，同时它也是视频监控技术的基本任务。由于视频中的目标具有不同姿态且经常出现遮挡、其运动具有不规则性，同时考虑到监控视频的景深、分辨率、天气、光照等条件和场景的多样性，而且目标检测算法的结果将直接影响后续的跟踪、动作识别和行为描述的效果。故即使在技术发展的今天，目标检测这一基本任务仍然是非常具有挑战性的课题，存在很大的提升潜力和空间。。

发明内容

本申请的目的在于提供更加稳定、准确率更高的目标检测方法、装置、电子设备及计算机可读存储介质，其基于深度学习的方法，应用广泛。

本申请的目的采用以下技术方案实现：

第一方面，本申请提供了一种多尺度目标检测方法，所述方法包括：获取包括自然场景的多个图像并对所述多个图像进行数据处理，以生成训练样本集合；建立并使用所述训练样本集合训练多尺度特征提取模型，使得训练完成的所述多尺度特征提取模型能够识别所述图像中不同空间和不同尺度的多个特征；建立并使用所述训练样本集合训练detr检测模型，使得训练完成的所述detr检测模型能够识别所述图像中的多个特征；对所述多尺度特征提取模型和所述detr检测模型进行模型融合以获取融合模型，并且训练所述融合模型；以及使用训练完成的所述融合模型进行目标检测。

该技术方案的有益效果在于，在特征金字塔网络中加入了多尺度识别模块来解决本地操作无法掌握尺度多变的情况，为多有的特征层带去更丰富的信息。而且，通过进行特征强融合，在一阶段的情况下，提供更强大的特征提取能力和更快速的目标检测功能。

在一些可选的实施例中，所述多尺度目标检测方法，包括：所述数据处理包括：使得获得的所述多个图像的大小符合所述特征提取模型和所述注意力机制模型的输入需求；对所述多个图像进行对比度增强处理；以及以对所述多个图像进行多样性扩展的方式扩展所述多个图像的数量。该技术方案的有益效果在于，通过对图像进行各种处理，能够丰富数据集的信息，从而更全面地对构建的模型进行训练，使得训练后的模型能够更准确地进行目标识别。

在一些可选的实施例中，在所述方法种，所述多个图像进行对比度增强处理具体包括：以RGB图像的格式使用所述多个图像以对所述多尺度特征提取模型和所述detr检测模型进行训练，并且根据训练结果对所述多个图像进行RGB归一化。该技术方案的有益效果在于，使得训练后的模型能够不受图像中光照变化和阴影的影响，提高对目标的检测准确度。

在一些可选的实施例中，在所述方法中，对所述多个图像进行多样性扩展具体包括：对所述图像进行镜像翻转；对所述图像进行随机剪裁；以及所述多个图像彼此之间的拼贴。该技术方案的有益效果在于，对图像数据进行了数据增强，使得能够丰富训练样本，从而更好地训练模型。

在一些可选的实施例中，在所述方法中，建立所述多尺度特征提取模型具体包括：利用CNN网络构建特征金字塔；对所述特征金字塔进行同层级non-local交互，以捕获同一层级的特征图上的共现的目标特征；对所述特征金字塔进行自上向下的跨层级non-local交互，以将高层级特征图中的概念融进低层级的像素中；以及对所述特征金字塔进行自下向上的跨层级non-local交互，以合并所述低层级中的视觉属性来呈现高层级的概念。该技术方案的有益效果在于，通过以同层级交互、自上向下的跨层级交互以及自下向上的跨层级交互这三种跨空间、跨尺度的交互方式对特征金字塔进行转换，使得转换后得到的特征金字塔大小不变但带有更丰富的上下文信息，实现对自然场景中的目标的多尺度目标检测。

在一些可选的实施例中，所述方法还包括：在约束的区域内对所述特征金字塔进行自上向下的跨层级交互。该技术方案的有益效果在于，缩小了语义分割的范围，避免进行不必要的跨尺度交互，提高交互效率。

在一些可选的实施例中，在所述方法中，建立的所述detr检测模型具体包括：特征提取网络，用于提取图像中的特征；编码器，用于对图像进行编码以得到多个物体编码后的特征；解码器，用于并行解码所述多个物体；以及匹配器，使用二元匹配将真实框与解码后得到的预测框进行匹配，以得到识别结果。该技术方案的有益效果在于，采用基于transformer的编码-解码器的架构和进行二元匹配的集合损失函数实现对模型的端对端训练，以使得模型能够一次地直接预测多个检测目标，从而大大提高检测速度。

在一些可选的实施例中，所述方法还包括：在训练所述融合模型的过程中，随机扩张所述图片的大小。该技术方案的有益效果在于，能够丰富训练样本，提高模型检测能力。

第二方面，本申请提供了一种多尺度目标检测装置，所述装置包括：数据处理模块，用于获取包括自然场景的多个图像并对所述多个图像进行数据处理，以生成训练样本集合；多尺度特征提取模块，建立并使用所述训练样本集合训练多尺度特征提取模型，使得训练完成的所述多尺度特征提取模型能够识别所述图像中不同空间和不同尺度的多个特征；detr检测模块，建立并使用所述训练样本集合训练detr检测模型，使得训练完成的所述detr检测模型能够识别所述图像中的多个特征；模型融合模块，用于对所述多尺度特征提取模型和所述detr检测模型进行模型融合以获取融合模型，并且训练所述融合模型；以及目标检测模块，用于使用训练完成的所述融合模型进行目标检测。

在一些可选的实施例中，所述数据处理模块包括：图像尺寸处理模块，用于使得获得的所述多个图像的大小符合所述特征提取模型和所述注意力机制模型的输入需求；对比度处理模块，用于对所述多个图像进行对比度增强处理；以及多样性扩展模块，用于对所述多个图像进行多样性扩展的方式扩展所述多个图像的数量。

在一些可选的实施例中，在所述对比度处理模块中，以RGB图像的格式使用所述多个图像以对所述多尺度特征提取模型和所述detr检测模型进行训练，并且根据训练结果对所述多个图像进行RGB归一化。

在一些可选的实施例中，在所述多样性扩展模块中能够实现如下操作：对所述图像进行镜像翻转；对所述图像进行随机剪裁；以及所述多个图像彼此之间的拼贴。

在一些可选的实施例中，所述多尺度特征提取模块包括：利用CNN网络构建的特征金字塔，用于对图像进行特征提取；同层级交互模块，用于对所述特征金字塔进行同层级non-local交互，以捕获同一层级的特征图上的共现的目标特征；低层级增强模块，用于对所述特征金字塔进行自上向下的跨层级non-local交互，以将高层级特征图中的概念融进低层级的像素中；以及高层级渲染模块，用于对所述特征金字塔进行自下向上的跨层级non-local交互，以合并所述低层级中的视觉属性来呈现高层级的概念。

在一些可选的实施例中，在所述低层级增强模块中，在约束的区域内对所述特征金字塔进行自上向下的跨层级交互

在一些可选的实施例中，所述detr检测模块包括：特征提取网络，用于提取图像中的特征；编码器，用于对图像进行编码以得到多个物体编码后的特征；解码器，用于并行解码所述多个物体；以及匹配器，使用二元匹配将真实框与解码后得到的预测框进行匹配，以得到识别结果。

在一些可选的实施例中，所述模型融合模块包括训练模块，该训练模块随机扩张所述图片的大小来训练融合的模型。

第三方面，本申请提供了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项方法的步骤。

附图说明

下面结合附图和实施例对本申请进一步说明。

图1是本申请实施例提供的一种多尺度目标检测方法的流程图；

图2是本申请实施例提供的一种图像数据处理的流程图；

图3是本申请实施例提供的一种建立多尺度特征提取模型的流程图；

图4是本申请实施例提供的一种建立多尺度特征提取模型的流程示意图；

图5是用于说明建立多尺度特征提取模型的过程示意图；

图6是本申请实施例提供的一种单层detr监测模型的结构图；

图7是本申请实施例提供的一种多尺度目标检测装置的结构示意图；

图8是本申请实施例提供的一种多尺度目标检测装置的数据处理模块的结构示意图；

图9是本申请实施例提供的一种电子设备的结构示意图；

图10是本申请实施例提供的一种用于实现多尺度目标检测方法的程序产品的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

参见图1，本申请实施例提供了一种多尺度目标检测方法，所述方法包括步骤S1～S5。

步骤S1：获取包括自然场景的多个图像并对所述多个图像进行数据处理，以生成训练样本集合。具体地，例如基于COCO视频数据获取包括自然场景的数据，即多个图像。

在具体实施中，参见图2，所述步骤S1可以包括步骤S101～S103。

步骤S101：使得获得的所述多个图像的大小符合所述特征提取模型和所述注意力机制模型的输入需求。例如根据模型输入需求将图像处理为最大边不超过1400，最短边不超过800，并且在训练过程中可以随机改变图片的大小。

步骤S102：对所述多个图像进行对比度增强处理。例如，对于后文所述的两种模型，采用RGB图进行训练实验，对RGB图像进行归一化，并进一步作对比度增强处理。

步骤S103：以对所述多个图像进行多样性扩展的方式扩展所述多个图像的数量。增强方式例如包括将整个图像进行镜像翻转，对整个图像在每一帧随机剪裁部分图像，以及图像数据之间的复制粘贴操作等。

由此，通过对图像进行各种处理，能够丰富数据集的信息，从而更全面地对构建的模型进行训练，使得训练后的模型能够更准确地进行目标识别。

步骤S2：建立并使用所述训练样本集合训练多尺度特征提取模型，使得训练完成的所述多尺度特征提取模型能够识别所述图像中不同空间和不同尺度的多个特征。具体过程如下所述。

如图3所示，步骤S2包括步骤S201～S204，其中，S201：利用CNN网络构建特征金字塔。

如图4所示，利用CNN网络可以构建一个特征金字塔(图4中的(a))，其中细粒度/粗粒度特征图分别处于低层级(图中c层)/高层级(图中a层)，图中“Conv”表示3×3卷积。后文中，低层级的细粒度特征图用X^f表示，高层级的粗粒度特征图用X^c表示。然后，对各层级的特征图进行non-local(非局部)操作并且输出尺度相同的转换后的各层级特征图，以实现远程交互。

经典的non-local交互是对单个特征图X的queries(Q)、keys(K)和values(V)进行操作，输出尺度相同的转换后的X’。Non-local交互可用如下公式(1)表示：

输入：q_i，k_j，v_j

相似度：s_i，j＝F_sim(q_i，k_j)

权重：ω_i，j＝F_nom(s_i，j)

输出：X′_i＝F_mul(ω_i，j，v_j) (1)

其中，q_i＝f_q(X_i)∈Q是第i个query，k_j＝f_k(Xj)∈K和v_j＝f_v(X_j)∈V是第j个key/value，f_q()、f_k()和f_v()是query、key和value的转换函数。X_i和X_j是X中第i个和第j个特征位置。F_sim是相似度函数(点积或高斯嵌入)，F_nom是归一化函数(默认为softmax)，F_mul是权重聚合函数(默认为矩阵相乘)，X’_i是转换后的特征图X’的第i个位置。

S202：利用同层级转换器(Self-Transformer，见图5(a))对所述特征金字塔进行同层级non-local交互，以捕获同一层级的特征图上的共现的目标特征。

Self-Transformer(后文有时简称“ST”)的目的是捕获在一个特征图上共现的目标特征。ST是一种改进的non-local，输出特征图X’与输入X的尺度相同。和原本不同的是，其中部署了一个混合softmaxes(MoS)作为归一化函数F_mos，这比标准的Softmax在图像上更有效。并且其中将q_i和k_j分为N块，然后计算每一块的相似度分数sⁿ _i，j，基于MoS的归一化函数F_mos如下公式2所示：

Sⁿ _i，j是第n块的相似度分数。π_n是第n个聚合权重，等于Softmax(w^T _nk)，w_n是一个可学***均数。基于F_mos，公式1可以重新表示为：

输入：

相似度：

权重：

输出：X′_i＝F_mul(w_i，j，v_j)， (3)

S203：利用低层级增强交换器(Grounding-Transformer，后文有时简称为“GT”)对所述特征金字塔进行自上向下的跨层级non-local交互，以将高层级特征图中的概念融进低层级的像素中

GT是一种自上而下的non-local交互，将高层特征图X^c中的概念融进低层级X^f的像素中。输出X^’f和X^f的尺度相同。通常不同尺度的图像特征会提取出不同的语义或上下文信息，或者两者都是。并且当两个特征图的语义信息不同时，欧氏距离的负值F_eud在计算相似度时会比点积更有效。所以在本实施例中，使用F_eud作为相似度函数，表示为：

F_eud(q_i，k_j)＝-||q_i-k_j||² (4)

其中

是X^f中的第i个特征位置，

是X^c中的第j个位置，作者即将相似度函数替换为F_eud，式子又变为：

输入：

相似度：

权重：

输出：

其中，

是X^’f的第i个转换后的特征位置。根据上式，每一对q_i和k_j距离越近，其权重越大，与点积的结果相比，使用F_eud在自上而下的交互中带来了明显的改进。

在特征金字塔中，高/低层级的特征图包含了大量的全局/局部图像信息。而对跨尺度特征交互的语义分割，是无需使用全局信息对图像中的两个目标进行分割的。Query位置附近的局部区域内的上下文会包含更多的信息。如图5(b)所示，它们本质上是隐式的局部模式。因此当前默认的GT是全局交互。

因此，在优选的实施例中引入了一个GT的位置约束版本，称为位置约束GT(LGT，见图5(c))，用于语义分割，这是一个显式的局部特征交互。如图5(d)所示，每个q_i(即底层特征图上的网格)与一部分在中心坐标与q_i相同、边长为正方形的局部正方形区域内的k_j和v_j交互(高层级特征图上的网格)。对于超出索引的k_j和v_j位置，记为0值。

S204：使用高层级渲染转换器(Rendering-Transformer，后文有时称为“RT”)对所述特征金字塔进行自下向上的跨层级non-local交互，以合并所述低层级中的视觉属性来呈现高层级的概念。

RT以自下而上的方式工作，通过合并低层级中的视觉属性来呈现高层级的概念，如图5(d)所示，RT是一种局部交互，有考虑到用来自另一个遥远对象的特性或属性来呈现一个对象是没有意义的。

在本实施例中，RT不是按像素进行的，而是对于整个特征图。例如，将高层级的特征图定义为Q；将低层级特征图定义为K和V。为了突出显示渲染目标，Q和K之间的交互逐通道进行。K首先通过全局平均池化(GAP)计算Q的权重w。然后，加权后的Q(即Q_att)经3×3卷积进行细化，V经一个3×3卷积减小特征图大小(图5(d)中的中间正方形)。最后将精细化的Q_att和下采样的V(即V_dow)求和，并通过另一个3×3卷积进行处理以进行渲染。提出的RT可以如下表示：

输入：Q，K，V

权重：w＝GAP(K)

权重Query：Q_att＝F_att(Q，w)

下采样Value：V_dow＝F_sconv(V)

输出：X^′c＝F_add(F_conv(Q_att)，V_dow) (6)

其中，F_att()是一个外积函数，F_sconv()是一个3×3的步长卷积，当Q和V的尺度相等时步长为1，F_conv()是一个用于精细化的3×3卷积，F_add()是带着一个3×3卷积的求和函数，X^’c表示RT的输出特征图。

以上，建立了多尺度的特征提取模型。

下面描述一阶段的注意力机制模型Detr的设计。

步骤S3：建立并使用所述训练样本集合训练detr金字塔检测模型，使得训练完成的所述detr检测模型能够识别所述图像中的多个特征。Detr金字塔模型结构如图6所示。

步骤S3具体包括步骤S301～S304。

S301：利用CNN建立特征提取网络，用于提取图像中的特征。例如使用CNN主干网络(ResNet)提取一些特征。

S302：建立编码器，用于对图像进行编码以得到多个物体编码后的特征。具体地，将提取的特征降维到d×HW。特征降维之后与空间位置编码相加，然后被送到编码器里。

为了体现图像在x和y维度上的信息，分别计算两个维度的位置编码，然后Cat(结合)到一起，代码如下：

pos_x＝torch.stack((pos_x[:,:,:,0::2].sin(),pos_x[:,:,:,1::2].cos()),dim＝4).flatten(3)

pos_y＝torch.stack((pos_y[:,:,:,0::2].sin(),pos_y[:,:,:,1::2].cos()),dim＝4).flatten(3)

pos＝torch.cat((pos_y,pos_x),dim＝3).permute(0,3,1,2)

Encoder最后得到对N个物体编码后的特征。

S303：建立解码器，用于并行解码所述多个物体。Detr解码器的结构与Transformer类似，区别在于解码器并行解码N个物体。每个解码器有两个输入：一路是物体Query(或者是上一个解码器的输出)，另一路是编码器的结果。其中物体Query是一组模型学到的参数的权重。

S304：建立匹配器，使用二元匹配(Bipartite Matching)将真实框与解码后得到的预测框进行匹配，以得到识别结果。

以上完成了Detr检测模型的构建。

随后，步骤S4：对所述多尺度特征提取模型和所述detr检测模型进行模型融合以获取融合模型，并且训练所述融合模型，并使用训练完成的所述融合模型进行目标检测。其中，在训练过程中可随机地改变图像的大小。

由此，在特征金字塔网络中加入了多尺度识别模块来解决本地操作无法掌握尺度多变的情况，为多有的特征层带去更丰富的信息。而且，通过进行特征强融合，在一阶段的情况下，提供更强大的特征提取能力和更快速的目标检测功能。

参见图7，本申请实施例还提供了一种多尺度目标检测装置，其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

所述装置包括：数据处理模块101，用于获取包括自然场景的多个图像并对多个图像进行数据处理，以生成训练样本集合；多尺度特征提取模块102，建立并使用训练样本集合训练多尺度特征提取模型，使得训练完成的多尺度特征提取模型能够识别图像中不同空间和不同尺度的多个特征；detr检测模块103，建立并使用所述训练样本集合训练一阶段的注意力机制模型detr，使得训练完成的detr检测模型能够识别图像中的多个特征；模型融合模块104，用于对多尺度特征提取模型和detr检测模型进行模型融合以获取融合模型，并且训练融合模型；以及目标检测模块105，用于使用训练完成的融合模型进行目标检测。

参见图8，在具体实施中，所述数据处理模块101可以包括：图像尺寸处理模块，用于使得获得的多个图像的大小符合特征提取模型和detr检测模型的输入需求；对比度处理模块，用于对所述多个图像进行对比度增强处理；以及多样性扩展模块，用于对多个图像进行多样性扩展的方式扩展多个图像的数量。

在一优选实施例中，在对比度处理模块中，以RGB图像的格式使用多个图像以对多尺度特征提取模型和detr检测模型进行训练，并且根据训练结果对多个图像进行RGB归一化。

在一优选实施例中，在多样性扩展模块中能够实现如下操作：对图像进行镜像翻转；对图像进行随机剪裁；以及多个图像彼此之间的拼贴。

在一优选实施例中，多尺度特征提取模块102包括：利用CNN网络构建的特征金字塔FPN，用于对图像进行特征提取；同层级交互模块Self-Transformer，用于对特征金字塔进行同层级non-local交互，以捕获同一层级的特征图上的共现的目标特征；低层级增强模块Grounding-Transformer，用于对特征金字塔进行自上向下的跨层级non-local交互，以将高层级特征图中的概念融进低层级的像素中；以及高层级渲染模块Rendering-Transformer，用于对特征金字塔进行自下向上的跨层级non-local交互，以合并所述低层级中的视觉属性来呈现高层级的概念。

在一优选实施例中，在低层级增强模块中，在约束的区域内对所述特征金字塔进行自上向下的跨层级交互。

在一优选实施例中，detr检测模块包括103：特征提取网络，用于提取图像中的特征；编码器，用于对图像进行编码以得到多个物体编码后的特征；解码器，用于并行解码多个物体；以及匹配器，使用二元匹配将真实框与解码后得到的预测框进行匹配，以得到识别结果。

在一优选实施例中，所述模型融合模块104包括训练模块，该训练模块随机扩张所述图片的大小来训练融合的模型，使得训练后的模型能够识别包括自然场景的图像中的所有物体及它们之间的关系。

以上说明了根据本发明的多尺度目标检测装置。

参见图9，本申请实施例还提供了一种电子设备200，电子设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台***的总线230。

存储器210可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)211和/或高速缓存存储器212，还可以进一步包括只读存储器(ROM)213。

其中，存储器210还存储有计算机程序，计算机程序可以被处理器220执行，使得处理器220执行本申请实施例中上述任一项方法的步骤，其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。存储器210还可以包括具有一组(至少一个)程序模块215的程序/实用工具214，这样的程序模块包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器220可以执行上述计算机程序，以及可以执行程序/实用工具214。

总线230可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、***总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储平台等。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，所述计算机程序被执行时实现本申请实施例中上述任一项方法的步骤，其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。图10示出了本实施例提供的用于实现上述方法的程序产品300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品300不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，其设置有的实用进步性，已符合专利法所强调的功能增进及使用要件，本申请以上的说明及附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。

Claims

1.一种多尺度目标检测方法，其特征在于，所述方法包括：

获取包括自然场景的多个图像并对所述多个图像进行数据处理，以生成训练样本集合；

建立并使用所述训练样本集合训练多尺度特征提取模型，使得训练完成的所述多尺度特征提取模型能够识别所述图像中不同空间和不同尺度的多个特征；

建立并使用所述训练样本集合训练detr检测模型，使得训练完成的所述det r检测模型能够识别所述图像中的多个特征；

对所述多尺度特征提取模型和所述detr检测模型进行模型融合以获取融合模型，并且训练所述融合模型；以及

使用训练完成的所述融合模型进行目标检测。

2.根据权利要求1所述的多尺度目标检测方法，其特征在于，

所述数据处理包括：

使得获得的所述多个图像的大小符合所述特征提取模型和所述注意力机制模型的输入需求；

对所述多个图像进行对比度增强处理；以及

以对所述多个图像进行多样性扩展的方式扩展所述多个图像的数量。

3.根据权利要求2所述的多尺度目标检测方法，其特征在于，

对所述多个图像进行对比度增强处理具体包括：

以RGB图像的格式使用所述多个图像以对所述多尺度特征提取模型和所述detr检测模型进行训练，并且

根据训练结果对所述多个图像进行RGB归一化。

4.根据权利要求2所述的多尺度目标检测方法，其特征在于，

对所述多个图像进行多样性扩展具体包括：

对所述图像进行镜像翻转；

对所述图像进行随机剪裁；以及

所述多个图像彼此之间的拼贴。

5.根据权利要求1至4的任意一项所述的多尺度目标检测方法，其特征在于，

建立所述多尺度特征提取模型具体包括：

利用CNN网络构建特征金字塔；

对所述特征金字塔进行同层级non-local交互，以捕获同一层级的特征图上的共现的目标特征；

对所述特征金字塔进行自上向下的跨层级non-local交互，以将高层级特征图中的概念融进低层级的像素中；以及

对所述特征金字塔进行自下向上的跨层级non-local交互，以合并所述低层级中的视觉属性来呈现高层级的概念。

6.根据权利要求5所述的多尺度目标检测方法，其特征在于，

在约束的区域内对所述特征金字塔进行自上向下的跨层级交互。

7.根据权利要求1至4的任意一项所述的多尺度目标检测方法，其特征在于，

建立所述detr检测模型具体包括：

建立特征提取网络，用于提取图像中的特征；

建立编码器，用于对图像进行编码以得到多个物体编码后的特征；

建立解码器，用于并行解码所述多个物体；以及

建立匹配器，使用二元匹配将真实框与解码后得到的预测框进行匹配，以得到识别结果。

8.根据权利要求1至4的任意一项所述的多尺度目标检测方法，其特征在于，

在训练所述融合模型的过程中，随机扩张所述图片的大小。

9.一种多尺度目标检测装置，其特征在于，所述装置包括：

数据处理模块，用于获取包括自然场景的多个图像并对所述多个图像进行数据处理，以生成训练样本集合；

多尺度特征提取模块，建立并使用所述训练样本集合训练多尺度特征提取模型，使得训练完成的所述多尺度特征提取模型能够识别所述图像中不同空间和不同尺度的多个特征；

detr检测模块，建立并使用所述训练样本集合训练detr检测模型，使得训练完成的所述detr检测模型能够识别所述图像中的多个特征；

模型融合模块，用于对所述多尺度特征提取模型和所述detr检测模型进行模型融合以获取融合模型，并且训练所述融合模型；以及

目标检测模块，用于使用训练完成的所述融合模型进行目标检测。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。