CN114241274B

CN114241274B - 一种基于超分辨率多尺度特征融合的小目标检测方法

Info

Publication number: CN114241274B
Application number: CN202111473712.1A
Authority: CN
Inventors: 徐洁; 叶娅兰; 刘紫奇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2023-04-07
Anticipated expiration: 2041-11-30
Also published as: CN114241274A

Abstract

本发明公开了一种基于超分辨率多尺度特征融合的小目标检测方法，属于图像处理技术领域。本发明将待识别的低分辨率图像输入特征提取器获取第一特征图，对低分辨率图像进行数据增强处理再与噪声扰动叠加后输入生成器得到叠加量；第一特征图和叠加量的叠加结果作为第一重构特征并输入解码器获取不同尺寸的第二重构特征并输入特征融合网络；特征融合网络将所有第二重构特征上采样到相同的尺寸进行叠加，得到第三重构特征并输入图像目标检测网络；基于图像目标检测网络的输出得到小目标的类别及其检测框位置。本发明在进行小目标检测的同时达到训练时间短、快速推理快和精度高的效果，并且具有行业领先的小目标检测效果。

Description

一种基于超分辨率多尺度特征融合的小目标检测方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于超分辨率多尺度特征融合的小目标检测方法。

背景技术

目标检测是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域。在各领域趋向智能化的今天，实现目标检测对人力资本消耗的减少具有重要的现实意义。其中，小目标检测是目标检测下游任务中至关重要的环节。例如，在汽车的高分辨率场景照片中检测小目标或远处的物体，是安全地部署自动行驶的必要条件；又比如在卫星图像分析中，有效地注释诸如汽车、船舶和房屋之类的物体十分重要。因此小目标检测受到了越来越多的关注。

随着深度学***均精度。

为了提升小目标检测的精度，研究者首先尝试调整一般检测器的特征提取环节，希望解决小目标特征分辨率低的问题。例如，一些方法降低了图像数据处理的压缩比，希望小目标能够在提取出的特征中具有更高的分辨率。然而，这些方法没有考虑到，许多目标检测数据本身的分辨率并不高，小目标特征在提取之前就已经存在了分辨率低、信息太少的问题。

近年来，一些研究者选择了设计专门针对小目标物体的检测器。研究者发现浅层特征更有利于分辨小目标物体，选择了直接从浅层卷积中提取特征来提高对于小目标物体的检测精度。这种方法一定程度上缓解了小目标特征信息不足的问题。然而，这种检测器对于图像的语义信息具有较多的丢失，在包含中大尺寸物体的通用目标检测中泛化能力差。

此外，现有多数小目标检测器使用一般的目标检测数据集。这些数据集大部分数据是中型和大型对象，只有少数图像包含小目标对象，导致检测模型有一半的时间都无法学***衡性，导致专门的小目标检测器仍然更加关注中大尺寸的物体。

发明内容

本发明提供了一种基于超分辨率多尺度特征融合的小目标检测方法，用于解决小目标物体的低分辨率问题，以提升图像目标检测处理时针对小目标的检测性能。

本发明采用的技术方案为：

一种基于超分辨率多尺度特征融合的小目标检测方法，包括下列步骤：

网络模型配置及训练步骤：

采集高低分辨率图像对作为训练图像，得到训练图像集；

配置网络模型，包括：用于高分辨图像的编码器-解码器网络、低分辨率图像的特征提取器G_L、生成器G、特征融合网络和图像目标检测网络；

所述编码器-解码器网络中的编码器部分记为编码器G_H，解码器部分记为解码器D_H，所述编码器G_H包括多个卷积层和池化层，为卷积层和池化层的交替结构；所述解码器D_H包括多个反卷积层，所述反卷积层与编码器G_H的卷积层数量对应且特征维度和尺寸对应；

将高低分辨率图像对中的低分辨率图LR像输入特征提取器G_L，基于特征提取器G_L的输出得到特征f_L；并将高低分辨率图像对中的高分辨率图像HR输入编码器G_H，基于其输出得到特征f_H；所述编码器-解码器网络训练时采用的损失函数为：

其中，HR′表示解码器D_H的输出；

所述特征提取器G_L包括多层特征提取块，所述特征提取块由多尺度特征融合网络和局部残差学习组成；

所述生成器G的输入为：对低分辨率图像LR进行数据增强处理得到图像LR′，将图像LR′与随机生成的噪声扰动

的叠加作为生成器G的输入；所述生成器G的输出记为叠加量p，且所述生成器G训练时采用的损失函数为：L_p＝||p||；

所述生成器G的输出与特征提取器GL的输出叠加后得到第一重构特征并输入解码器D_H，解码器D_H的各反卷积层的输出作为特征融合网络的输入，所述特征融合网络用于将输入的不同尺寸的特征图上采样到相同的尺寸并叠加，再将叠加结果输入图像目标检测网络；

所述图像目标检测网络包括分类分支和定位分支，且所述图像目标检测网络的分类分支在进行目标分类处理时，基于注意力机制进行目标分类；

所配置的网络模型训练时采用的总损失为：L＝λL_r+μL_loc+ηL_reg，其中，L_r表示超分辨重构损失，且L_r＝L_rc1+L_rc2+L_p，L_rc2表示第一重构损失，为：

L_loc、L_reg分别表示图像目标检测网络的分类分支的分类损失和定位分支的定位损失(即回归损失)，λ、μ、η分别为损失L_r、L_loc和L_reg的权重因子；

待识别的低分辨率图像的检测步骤：

将待识别的低分辨率图像输入特征提取器GL，基于特征提取器GL的输出得到待识别的低分辨率图像的第一特征图；

对低分辨率图像进行数据增强处理后，再与随机生成的噪声扰动叠加后输入生成器G，基于生成器G的输出得到叠加量；将第一特征图和叠加量的叠加结果作为待识别的低分辨率图像的第一重构特征；

将第一重构特征输入解码器D_H，基于解码器D_H的每一反卷积层的输出生成不同尺寸的第二重构特征并输入特征融合网络；

所述特征融合网络将所有第二重构特征上采样到相同的尺寸进行叠加，得到第三重构特征并输入图像目标检测网络；

基于图像目标检测网络的输出得到小目标的类别及其检测框位置。

本发明提供的技术方案至少带来如下有益效果：

本发明旨在解决小目标物体的低分辨率问题，提出了一种超分辨特征融合的新方法，与以前的小目标检测方式相比，本发明的检测方法对小目标物体的检测在满足训练时间、推理时间和检测精度均衡的情况下，同时保持了最先进的实时检测性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种基于超分辨率多尺度特征融合的小目标检测方法的流程图；

图2是本发明实施例提供的一种基于超分辨率多尺度特征融合的小目标检测方法的网络的总体结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为了解决小目标(待检测图像中的检测目标小于指定尺寸)检测器特征不足导致精度不足的问题，本发明实施例提出了特征层次上的超分辨率技术，结合特征融合技术提升深层特征的语义信息，利用注意力机制提升目标检测的检测性能。

参见图1和图2，本发明实施例提供的基于超分辨率多尺度特征融合的小目标检测方法包括：

将待识别的低分辨率图像输入配置的特征提取器GL中，基于特征提取器GL的输出得到待识别的低分辨率图像的第一特征图；对低分辨率图像进行数据增强处理后，再与随机生成的噪声扰动叠加后输入配置的生成器G中，基于生成器G的输出得到叠加量；将第一特征图和叠加量的叠加结果作为待识别的低分辨率图像的第一重构特征；

将第一重构特征输入配置的解码器D_H，依次生成不同尺寸的第二重构特征，并将所有第二重构特征上采样到相同的尺寸进行叠加，得到第三重构特征；该解码器D_H包括多层反卷积层，每一层反卷积层输出一个尺寸的第二重构特征；

将所述第三重构特征输入配置的图像目标检测网络中对小目标进行目标检测处理，所述图像目标检测网络包括分类分支和定位分支，基于所述图像目标检测网络的输出得到小目标的类别及其检测框位置，其中，所述图像目标检测网络的分类分支在进行目标分类处理时，基于注意力机制实现目标分类。

其中，解码器D_H、特征提取器G_L、生成器G、第三重构特征，以及图像目标检测网络的具体实现包括

(1)实现图像由低分辨率到高分辨率的转换以增强后续低分辨率输入的语义信息。将高低分辨率图像对LR和HR分别作为网络输入，通过不同的特征提取器G_L和G_H获得对应的特征f_L和f_H；通过生成器G得到由低分辨率图像特征f_L转换为高分辨率图像特征f_H的叠加量p，实现特征层面上的超分辨技术；高分辨率图像的深层特征f_H会通过解码器恢复到原始高分辨图像，以确保深层特征语义信息的有效性。

(1-1)：将高分辨率图像HR作为网络中编码器-解码器部分的输入，其中G_H即为编码器部分，将解码器记为D_H，进行多次卷积池化，得到深层特征f_H。

本发明实施例中，编码器-解码器可采用任一惯用的网络结构，具体地，可将编码器G_H的特征层数设置为7层，采用7×7、5×5和3×3三种卷积核和2×2池化核进行卷积池化得到f_H。例如每一次卷积池化处理时，首先经过三个卷积层(通常可包括卷积运算、批归一化处理和激活函数映射)，再经过一个池化层。

(1-2)：解码器D_H由多个反卷积层组成，将深层特征f_H作为解码器的输入，反卷积层与卷积层数量对应且特征维度和尺寸对应，对f_H进行升维得到输出HR′；其中，HR′与HR具有相同的分辨率大小和通道数；即编码器G_H的作用是产生有语义信息的特征图像，进而通过解码器D_H将编码器G_H输出的低分辨率特征图像映射回输入图像的尺寸

(1-3)：将L2距离作为HR与HR′的重构损失，优化L2损失(L2范数损失函数)让HR′与HR更加接近，让解码器部分拥有从深层特征f_H重构原始图像的能力，只有深层特征f_H包含必要的语义信息，才能保证从f_H恢复到原始图像。

具体地，重构损失如下式：

(1-4)：将低分辨率图像LR作为特征提取器G_L的输入，通过多尺度特征融合和局部残差学习得到特征f_L；

具体地，特征提取器G_L的特征层数设置为5，每层由多尺度特征融合和局部残差学习组成，可以获取不同尺度的图像特征，从而充分提取图片特征。

在第n层中，将M_i-1作为下一个多尺度残差块的输入，得到其输出M_i，重复此步骤，直到得到M_n，本发明实施例中，每层中包含三个卷积层。

M_i-1作为第一个卷积层的输入，分别通过3×3和5×5的卷积，并通过ReLU函数得到输出S₁、P₁。将S₁和P1串联起来作为第二个卷积层的输入，分别通过3×3和5×5的卷积，并通过ReLU函数得到输出S₂、P₂。将S₂和P₂串联起来作为第三个卷积层的输入，通过1×1的卷积得到输出S′。将M_i-1残差连接到输出，与S′结合得到最终输出M_i。

将M₀到M_n所有输出作为分级特征融合结构的输入，得到提取到的特征M₅；

将分级特征融合结构的所有输入进行串联，并使用1×1卷积将融合到的特征通道压缩到想要的通道数量，得到提取到的特征M₅，即特征f_L；

(1-5)：对LR数据增强处理得到LR′，同时随机生成噪声扰动

将LR′和

的叠加作为生成器G的输入，得到叠加量p，计算关于p的L1正则项以保证p的稀疏性；

具体地，数据增强一般通过调节或变动图像的幅度值来改善量化过粗图像的显示质量。利用抖动技术可以消除一部分由于灰度级数过少而产生的虚假轮廓，所叠加的抖动值越大，效果越明显。但抖动值的叠加也给图像带来了噪声，抖动值越大噪声影响也越大。抖动一般通过对原始图像f(x，y)加一个随机的小噪声d(x，y)，即将两者相加来实现，d(x，y)的值一般与f(x，y)没有任何有规律的联系。通过色彩抖动、添加噪声数据从而提高训练出的模型的泛化能力和鲁棒性。

正则项如下式：

L_p＝||p||

(1-6)：将f_L和p的叠加结果

作为重构特征，计算

和f_H的L2距离作为重构损失，使G_L和G拥有在特征层面上提升图像分辨率的能力。

具体地，重构损失如下式：

实现特征层面超分辨部分的整体损失如下式。

L_r＝L_rc1+L_rc2+L_p

(2)：由重构特征

和解码器D_H生成不同尺度的深度特征，通过多尺度特征融合保留不同特征层中小目标的语义信息。生成类别相关的特征图

利用注意力机制提升感兴趣目标的损失比重，以提升目标检测的性能。

具体地，

其中C、H、W、r分别表示类别数、输入图像的高度和宽度以及输出步幅；

(2-1)：将

输入到解码器D_H进行升采样，依次生成不同尺寸的重构特征d₁、d₂、d₃、d₄、d₅，由于D_H最终会将特征恢复为原始图像，因此可将生成的特征看作超分辨图像的深度特征，即重构特征比低分辨率图像特征f_L包含了更多的语义信息。

(2-2)：将重构特征d₁、d₂、d₃、d₄、d₅全部上采样到相同尺寸进行叠加。一般而言，小目标在浅层特征中保留较多语义信息，但随着网络的深入，小目标的语义信息会逐渐丢失，而大目标的语义信息则会逐渐抽象化以适应网络的应用需求。因此通过不同层次下特征的融合可以保证在得到大目标抽象语义信息的同时保留小目标的语义信息。将最终的特征叠加结果记为d；

具体地，特征叠加是一种结合多层级特征来解决多尺度问题的特征金字塔模型，整个结构由一个自底向上的下采样，一个自顶向下的上采样以及一个横向连接结构构成。例如对低分辨率的特征图d₁做2倍上采样得到d′₁，将两者相加，即将上采样映射与相应的特征自底而上映射合并得到中间特征d_t，如下式。

d_1t＝d₁+d′₁

这个过程是迭代的，直到生成最终的分辨率图d。

(2-3)：特征d通过卷积层得到类别相关的特征图

其包含C个通道，对应到待识别目标类别数目，每个通道作用在于提取对应类别物体的特征，忽略其他类别的特征。利用软注意力机制生成通道权重W_c，进一步提升待识别类别的损失占比。

具体地，注意力机制是在通道维度上做加权操作，这种注意力机制让模型可以更加关注信息量最大的通道特征，即更加关注待识别目标的类别而不是其他类别。首先对卷积得到的特征d进行压缩操作，得到通道层次的全局特征d′，通道数C等同于待识别的类别数量，然后利用全局特征学习各个通道间的关系，得到不同通道的权重W_c，最后乘以原来的特征d′得到最终类别相关的特征图

如下式。

其次，将每个通道的特征分类视为一个二分类问题，即所提取的特征是否属于待识别的类别，对每个通道计算一个二分类交叉熵损失，通过注意力机制的权重来平衡每个通道损失的占比，最终网络倾向于特定的通道提取特征类别物体的特征，优化目标如下式。

(2-4)：类似地，特征d通过卷积层得到特征图

其包含4个通道，用于后续目标尺寸回归任务。

具体地，

其中H、W、r分别表示类别数、输入图像的高度和宽度以及输出步幅；

(3)：使用二维高斯核和带标记的训练数据产生热力图H进行监督训练，特征

用于中心定位任务。目标中心作为正样本，其他像素点作为负样本，通过Focal Loss解决正负样本数量不均衡的问题，得到损失L_loc；

网络的总体结构如图2所示，利用提取的特征进行中心定位任务。特征金字塔结构将不同深度的特征图放大到最后一层的大小直接相加，可以保留浅层特征的高分辨率信息和深层特征的语义信息，增强目标检测效果，有研究显示浅层特征更适合小目标检测。提取出的特征为

用于中心定位任务。其中C、H、W、r是类别数、输入图像的高度和宽度以及输出步幅。本实施例中，设置C＝80和r＝4，高斯核用于中心定位和检测框回归两者，分别定义了标量α和β来控制核的大小；

给定属于C_m类的第m个标注框，首先将其线性映射到特征图的比例。然后，采用2维高斯核

来产生

其中

最后，通过应用H_m中元素的最大值来更新H中的C_m通道。产生的H_m由参数α决定，m标注框的中心为(x₀，y₀)_m，标注框大小为(h，w)_m。用

来保证中心位于像素中。在网络的设置中，可以令α＝0.54。

高斯分布的峰值，也就是盒子中心的像素，被视为正样本，而任何其他像素被视为负样本。采用Focal Loss解决正负样本数量不均衡的问题。

给定预测值

和定位目标H，如下式，

其中，α_f和β_f分别是超参数，M代表标注框的数量，本实施例中，设定α_f＝2，β_f＝4。

表示特征图

(预测值)的元素，c表示通道编号，i，j表示空间位置，H_ijc表示定位目标H的元素，即对应的标签值。

(4)：热力图H和特征

用于尺寸回归任务，利用预测框和真实框的位置重叠计算预测框的有效性，得到损失L_reg；

对于尺寸回归，给定特征图比例上的第m个标注框，另一个高斯核被用来产生

内核大小由参数β决定。注意，当α和β相同时，可以使用相同的内核来节省计算。S_m中的非零部分被命名为高斯区域A_m。由于A_m始终位于m标注框内，因此在本本发明实施例的其余部分中，它也被命名为子区域。

在子区域中的每一个像素点都被看作回归样本。给定区域A_m中的像素点(i，j)和输出步幅r，回归目标被定义为从(ir，jr)到第m个框四边的距离，表示为四维向量

即，w_l、w_r分别表示左右边的距离，h_t、h_b表示上下边的距离，在像素点(i，j)的预测框可以被表示为

其中，s是一个固定标量，用于放大预测结果，以便于优化。在本发明实施例中设置s＝16。注意，预测框

处于图像比例而不是特征图比例，即预测框通常基于矩形的对角线上的两个顶点定位，

分别表示w_l、w_r的预测值，

分别表示h_t、h_b的预测值。

如果一个像素点没有被任何子区域包含，它会在训练期间被忽略。如果一个像素点被多个子区域包含，则为不明确的样本，它的训练目标被设为面积较小的目标。

给定预测值

和回归目标S，从S中收集训练目标

从

收集对应的预测结果

其中N_reg表示回归样本的数量。对于所有的样本，如上式般对样本的预测框和相应标注框进行解码，用预测框与真实框的位置重叠GIoU作为优化目标，如下式。

其中，

代表解码框

是图像比例上对应的第m个标注框。W_ii是样本权值，用来平衡每个样本造成的损失。

由于目标的大小尺度变化，大目标(尺寸大于指定尺寸)可能会生成数千个样本，而小目标可能只生成少量样本。在对所有样本分配的损失进行归一化后，小目标造成的损失甚至可以忽略不计，这将损害小目标的检测性能。因此，样本权重W_ij在平衡损失方面起着重要作用。假设(i，j)在第m个注释框的子区域A_m内，有：

其中，G_m(i，j)是在(i，j)处的高斯概率，G_m(x，y)则表示在(x，y)处的高斯概率，a_m是第m个检测框的面积。该处理方式可以充分利用大目标中包含的更多注释信息，并保留小目标的注释信息。它还可以强调目标中心附近的这些样本，减少模糊和低质量样本的影响。

最后，将重构损失L_rc1、L_rc2，正则项L_p，中心定位损失L_loc和尺寸回归损失L_reg作为输入，计算小目标检测的总损失L，根据总损失L对网络权重进行优化，在优化完成后实现速度与精度平衡的小目标检测方法；

具体地，总损失L的公式为：

L＝λL_r+μL_loc+ηL_reg

其中，λ、μ、η分别为超分辨重构损失、中心定位损失和尺寸回归损失的权重因子。

即本发明实施例针对当前大多数检测器的小目标检测特征不足导致精度不足的问题，提出了一种基于超分辨率多尺度特征融合的小目标检测方法，其首先利用编解码器对高低分辨率图片进行处理，通过对高分辨率图像特征的学习，实现特征层面上的图像超分辨技术，增加图像细节，使低分辨率图像中小目标物体包含更多信息。然后借助特征金字塔结构实现多尺度图像特征融合，避免小目标物体的语义信息丢失。利用注意力机制使特征提取器专注于提取带识别物体所属类别的特征。最后利用提取出的特征进行中心定位和尺寸回归，从而达到目标检测的效果。本发明在进行小目标检测的同时达到训练时间短、快速推理快和精度高的效果，并且具有行业领先的小目标检测效果。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于超分辨率多尺度特征融合的小目标检测方法，其特征在于，包括下列步骤：

网络模型配置及训练步骤：

采集高低分辨率图像对作为训练图像，得到训练图像集；

将高低分辨率图像对中的低分辨率图像LR输入特征提取器G_L，基于特征提取器G_L的输出得到特征f_L；并将高低分辨率图像对中的高分辨率图像HR输入编码器G_H，基于其输出得到特征f_H；所述编码器-解码器网络训练时采用的损失函数为：其中，HR′表示解码器D_H的输出；

所述生成器G的输入为：对低分辨率图像LR进行数据增强处理得到图像LR′，将图像LR′与随机生成的噪声扰动的叠加作为生成器G的输入；所述生成器G的输出记为叠加量p，且所述生成器G训练时采用的损失函数为：L_p＝||p||；

所述生成器G的输出与特征提取器G_L的输出叠加后得到第一重构特征并输入解码器D_H，解码器D_H的各反卷积层的输出作为特征融合网络的输入，所述特征融合网络用于将输入的不同尺寸的特征图上采样到相同的尺寸并叠加，再将叠加结果输入图像目标检测网络；

所配置的网络模型训练时采用的总损失为：L＝λL_r+μL_loc+ηL_reg，其中，L_r表示超分辨重构损失，且L_r＝L_rc1+L_rc2+L_p，L_rc2表示第一重构损失，为：L_loc、L_reg分别表示图像目标检测网络的分类分支的分类损失和定位分支的定位损失，λ、μ、η分别为损失L_r、L_loc和L_reg的权重因子；

待识别的低分辨率图像的检测步骤：

将待识别的低分辨率图像输入特征提取器G_L，基于特征提取器G_L的输出得到待识别的低分辨率图像的第一特征图；

2.如权利要求1所述的方法，其特征在于，所述特征提取器G_L的特征提取块的网络结构包括两条并行的支路，其中一条支路包括依次连接的两层第一卷积块，所述第一卷积块包括依次连接的卷积核为5×5的卷积层和ReLU层，另一条支路包括依次连接的两层第二卷积块，所述第二卷积块包括依次连接的卷积核为3×3的卷积层和ReLU层，且第一个第一卷积块的输出还接入第二个第二卷积块；第一个第二卷积块的输出还接入第二个第一卷积块，两条支路的输出并入卷积核为1×1的卷积层。

3.如权利要求2所述的方法，其特征在于，所述特征提取块的层数为5。

4.如权利要求1所述的方法，其特征在于，所述图像目标检测网络的分类分支基于注意力机制进行目标分类时，首先对特征融合网络输出的叠加结果进行压缩操作，得到通道层次的全局特征d′，通道数C等同于待识别的类别数量，再基于不同通道的权重W_c得到最终类别相关的特征图

5.如权利要求4所述的方法，其特征在于，训练时，将分类分支的每个通道的特征分类视为一个二分类问题，对每个通道计算一个二分类交叉熵损失。

6.如权利要求1所述的方法，其特征在于，采用预测框和真实框的位置重叠计算预测框的有效性，得到损失L_reg：

其中，其中N_reg表示定位分支的样本的数量，表示定位分支输出的预测框，B_m表示图像比例上对应的第m个标注框，(i，j)表示像素点空间位置，A_m表示给定的第m个注释框的子区域，W_ij表示样本权值：其中，G_m(i，j)表示在(i，j)处的高斯概率，G_m(x，y)表示在(x，y)处的高斯概率，a_m表示第m个注释框的面积。