CN115527133A

CN115527133A - 一种基于目标密度信息的高分图像背景优化方法

Info

Publication number: CN115527133A
Application number: CN202211282570.5A
Authority: CN
Inventors: 陈琛; 肖华欣; 刘煜; 张茂军; 马屹钦
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2022-12-27

Abstract

本发明公开了一种基于目标密度信息的高分图像背景优化方法，方法包括步骤：获取高分辨率图像；预测每张输入图像对应的稀疏密度图；对预测生成的稀疏密度图，使用聚类方法计算行人密集区域；得到行人密集区域后得到不同的簇，统计该区域内样本的人群数量N,若N大于给定的阈值T，按照一定的膨胀稀疏方法扩张该区域，得到背景优化子图的掩模，按照该掩模对原始图像进行背景优化，生成子图训练集；根据原始图像和子图两部分的预测结果，融合生成最终的预测结果，输出多张含有行人的子图。本发明显著提高低空俯拍场景下检测任务的精度。

Description

一种基于目标密度信息的高分图像背景优化方法

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于目标密度信息的高分图像背景优化方法。

背景技术

行人作为真实场景下生产生活的主要对象，是各种应用最重要的的出发点和关注点之一，与此密切相关的行人检测技术也取得了长足进展。无人机具有快速灵活的特点，结合行人检测技术，将会提高其在智能安防、军事等领域的应用价值。本发明将无人机从低空中拍摄的图像称为低空俯拍场景。对于行人检测任务来说，该场景面临着内容复杂、光照变化、视角变化等独特的挑战，同时误检和漏检始终是行人检测研究的阻碍，如何提高该场景下行人检测算法的稳定性和实时性仍是一个难题。基于深度学习开展专门研究，提高行人检测性能，减少漏检和误检，压缩模型尺寸，是低空俯拍图像下行人检测以及无人机应用智能化的当务之急。

低空俯拍场景和一般场景下目标尺寸分布的巨大差异，给传统的基于卷积神经网络的检测器带来了巨大的挑战。总体来说，航拍图像中目标的尺度分布范围广且不均，需要检测器能更好的提取多尺度的信息，提高不同尺度下的检测能力对锚点的设计提出了更高的要求。此外，大量背景区域和小尺寸目标导致影响了特征提取，模型获得的有效特征信息较为稀疏，对人群密集区域检测能力下降整体召回偏低。早期的研究工作主要将重心放在如何提升检测器在对小目标的检测的性能。在低空图像的检测任务中，一种朴素且能显著提升检测器性能的技术路线是：将输入的高分辨率图像等分地拆分成低分辨率的子图，分别针对原始图像和子图训练不同的检测器，再将两种检测器的结果融合输入最终的预测结果。由于小像素行人在背景优化后的子图中像素占比显著高于其在原始图像中的占比，因此这种简单的策略在大部分情况下能提升检测器性能。尽管这种策略能在一定程度上缓解尺度问题和小目标问题，但是这种方式忽略了图像中包含的目标密度分布信息，需要消耗大量的计算资源在具有稀疏行人或者根本不含有行人的子图中，并且部分像素占比较大的行人实例在背景优化过程中容易被粗暴的切分如何更合理地背景优化出只含有行人的子图是亟待解决的问题。

与一般场景下的静态图像相比，航拍图像本身分辨率更高，图像中行人外观多样性更高，图像中的目标尺寸分布范围和目标数量相对更大、小尺寸目标数量占比更多，并且目标有集中区域分布的倾向，类内遮挡比一般密集场景下更为严重。在低空俯拍场景中，行人的位置分布是非常重要的指导信息，行人的聚集主要包括广场中心、马路两侧的人行道、公园球场等利于大量行人活动的区域。因此在许多低空俯拍的数据集中，由于飞行采集视角和场景几何空间的限制，大部分行人只集中在图像中的特定区域内。然而目前的研究中却很少提出有效的图像背景优化策略，主要包括以下难点：首先，行人聚集场景的形态是不固定的，会随着无人机拍摄的角度发生变化；其次，在多样的低空俯拍图像中，如果使用手工特征或引入先验知识等方法覆盖的场景类别有限，估计聚集场景的可靠性较低；最后，基于深度的语义分割的方法虽然能有效地自动分割行人与背景，但是会引入更大的计算开销。

低空俯拍场景下主要面临着两大挑战：1)图像中行人分布不均匀，大量冗余的背景区域影响模型的检测精度与速度；2)飞行器拍摄位置不固定，图像中待检目标的尺度、视角、形状变化剧烈。常见的解决方案是将大尺寸的输入图像按照一定的策略背景优化成小片子图，在原始图像和子图中分别进行行人检测。

发明内容

有鉴于此，本发明提出了一种基于目标密度信息的高分(高分辨率)图像背景优化方法。本发明围绕低空俯拍场景行人检测的挑战性问题展开研究工作。低空俯拍图像的分辨率通常较高，行人在图像中分布的位置不均衡，直接在高分图像上进行行人检测会导致大量计算资源被浪费在无行人的背景区域，严重影响检测的性能与效率，因此本发明提出了一种基于行人密度分布的图像背景优化策略。低空俯拍图像中行人数量较多，遮挡问题严重，本发明研究并提出一种联合行人检测与语义分割的双任务网络。对遮挡场景进一步地研究发现，行人头部是一种可靠稳定的引导线索，研究基于人体可见信息的行人检测方法，提出基于头部区域与行人身体区域一一匹配的约束条件，过滤因遮挡问题导致的误检结果。直接在无人机端进行行人检测能有效扩展行人检测技术的应用范围，本发明基于现有框架研究了行人检测模型在低功耗设备上的优化方式，提出了一种极小化的行人检测器，在保证精度的前提下，大幅度降低了模型占用的资源。

针对上述问题，本发明提出一种基于密度图的行人检测网络(Density-AwareDetection Network,DANet)，将高分低空俯拍图像拆分成多张含有行人的子图。在DANet中，首先利用密度感知组件(Density-Aware Module， DAM)来指示目标存在区域以及区域内的对象密度。密度感知组件能优化背景优化过程，剔除不包含待检目标的背景区域，极大地缩减了计算开销并提升了检测效率。受人群计数任务的启发，本发明采用了一种基于贝叶斯分布的人群计数网络来预测稀疏的密度图再引入聚类的思想统计出人群密度高的区域，该方法对真值的处理少，不需要引入额外的监督。在对原始图像进行分块后，本发明分别以原始图像为数据集、背景优化后子图为数据集，训练两个带有特征金字塔的FasterRCNN结构作为全局检测器和子检测器。在对输入图像进行推理时，首先用DAM对输入图像进行拆分，在两个检测器上分别进行预测，最后将子检测器的结果映射到原始图像中，利用NMS(Non Maximum Suppression，非极大值抑制)后处理后输入最终的检测结果。

具体的，本发明公开的一种基于目标密度信息的高分图像背景优化方法，包括以下步骤：

获取包含行人的高分辨率图像；

预测每张输入图像对应的稀疏密度图；

对预测生成的稀疏密度图，使用聚类方法计算行人密集区域；

得到行人密集区域后得到不同的簇，统计该区域内样本的人群数量N,若 N大于给定的阈值T，按照膨胀区域方法扩张该区域，得到背景优化子图的掩模，按照该掩模对原始图像进行背景优化，生成子图训练集；

根据原始图像和子图两部分的预测结果，融合生成最终的预测结果，输出多张含有行人的子图。

进一步的，所述稀疏密度图利用密度感知组件来指示目标存在区域以及区域内的对象密度，剔除不包含待检目标的背景区域。

进一步的，所述密度感知组件基于贝叶斯分布的人群计数网络来预测稀疏的密度图，再根据聚类方法统计出人群密度高的区域，将图像分块。

进一步的，对原始图像进行分块后，分别以原始图像为数据集、背景优化后子图为数据集，训练两个带有特征金字塔的Faster RCNN结构作为全局检测器和子检测器，在对输入图像进行推理时，用密度感知组件对输入图像进行拆分，在两个检测器上分别进行预测，将子检测器的结果映射到原始图像中，利用非极大值抑制方法后处理后输入最终的检测结果。

进一步的，用多项加权损失函数来衡量真值点图的矢量二值图密度函数和网络预测的矢量化的密度图密度函数之间的差异，具体公式如下：

其中

为真值点图的矢量二值图，

为预测的矢量化的密度图，λ₁和λ₂为加权系数，z和

为非正则化的密度函数，

为计数损失，用于衡量密度图与真值图之间人群数量统计之间的误差，

为改进的最优运输损失函数，

为全变分损失函数。

进一步的，所述计数损失定义如下：

其中

记为矢量的L₁范数，计数损失使得||z||₁和

之间的差异尽可能地小；

将||z||₁和

两个非正则化的密度函数，除以它们各自的总和，将它们转变成概率密度函数，并采用最优运输损失函数来度量两个概率分布的差异，所述最优运输损失函数如下：

其中α^*和β^*为采用逐像素的平均绝对误差来训练网络得到的解，采用平方转移损失

其中

和

分别为位置i 和j的二维坐标；添加一个极小正数来确保分母不为零，此时

的梯度为：

所述全变分损失函数定义如下：

所述全变分损失函数梯度记为：

其中

Sign(.)为向量的的符号函数。

进一步的，所述聚类方法为均值漂移方法，在处理生成的稀疏密度图时，结合均值漂移方法以及区域膨胀策略来估计行人密集区域。

进一步的，采用基于均值漂移的聚类方法，其中均值漂移指偏移的均值向量，根据样本点计算样本点的概率密度分布区间，将密度图中的点聚为不同的簇，统计这些簇里目标实例的计数，大于阈值的保留，小于阈值的抛弃；

假设在d维空间

中，有n个离散的样本x＝x_i(i＝1,2,...,n)，均值漂移中的均值向量定义如下：

其中，S_h为半径为h的高维球区域，对于图像数据，其表示一个半径为h的圆形区域，该区域为满足如下式关系点的集合：

S_h(x)＝{y:(y-x)^T(y-x)<＝h²}

均值向量M_h(x)是落入S_h中k个样本的平均值，总指向概率密度的梯度方向；考虑到不同距离的点应带有不同的权重，引入核函数K(x),此时用下式表示概率密度函数f(x):

其中K为核函数，定义如下：

K(x)＝c_k,dk(||x||²)

正则化系数c用来保证概率密度的积分为1，对概率密度函数f(x)求偏导数的零点可计算其极值点。

进一步的，通过均值漂移法对密度图中的点聚类之后，得到不同的簇Sn；统计该区域内样本的人群数量N,若N大于给定的阈值T，则对该簇进行背景优化；对簇S’_n用给定的T过滤后，得到准确指示密集人群区域的候选簇S’_n；

根据候选簇S’_n进行背景优化包括以下步骤：为了尽可能的包含所有标注框，在训练过程中，统计中心点落在簇中区域所有的标注框的位置，根据给定的标注框的大小扩张簇的边界，避免背景优化操作将像素占比大的物体切分；在推理过程中，由于无法知道真值框的信息，采用一种膨胀区域的方法进行预测。

进一步的，所述区域膨胀策略步骤如下：

对于输入图像I＝(W,H)，簇集S＝{s|s_i＝(x_i,y_i),i＝1,…,n}

S11：初始化S

S12：如果i<n，迭代执行S13-S18步骤；

S13：分别找到簇s_i中点的横纵坐标的最大值(x_max，y_max)和最小值(x_min，y_min)；

S14：如果(x_min-λ_x×(x_max-x_min))>0那么topx_j＝x_min-λ_x×(x_max-x_min)，否则

topx_j＝0；

S15：如果(y_min-λ_y×(y_max–y_min))>0那么topy_j＝y_min-λ_y×(y_max-y_min)，否则

topy_j＝0；

S16：如果(x_max+λ_x×(x_max-x_min))<W th那么w_j＝(1+2×λ_x)(x_max-x_min)，否则

w_j＝W-x_min；

S17：如果(y_max+λ_y×(y_max-y_min))<H那么h_j＝(1+2×λ_y)(y_max–y_min)，否则

h_j＝H-y_min；

S18：i＝i+1，返回S12步骤；

S19：输出背景优化区域集合C＝{c|cj＝(topx_j,topy_j,w_j,h_j)}

其中λ_x和λ_y是一个与数据集相关的膨胀系数。

本发明有益效果如下：

针对无人机拍摄的低空俯拍场景，本发明提出的基于密度感知的图像背景优化策略，引入输入图像中待检行人密度分布的稀疏热力图，该热力图的像素值能反应图像中行人分布的稀疏程度。再根据聚类策略提取出人群聚集的子图进行背景优化，并提出了一种区域膨胀策略，避免在背景优化过程中分割像素面积较大的行人。在公开数据集上的实验证明，提出的方法能显著提升在低空俯拍场景下的行人检测性能。

附图说明

图1本发明基于目标密度信息的高分图像背景优化方法流程框架图；

图2为输入的高分低拍图像；

图3为本发明预测的人群分布图；

图4为基于MCNN方法预测的人群分布图；

图5为本发明的检测结果图；

图6为基于Faster RCNN检测结果图；

图7为采用ResNeXT-101为主干网络时本发明在V1sDrone数据集上的可视化检测结果；

图8为原始图像；

图9为采用等分背景优化方法后生成的子图示意图；

图10为采用随机背景优化方法后生成的子图示意图；

图11为采用本发明的密度背景优化方法后生成的子图示意图；

图12为VisDrone数据集中一组测试样本；

图13为本发明模型基于图12生成的密度图；

图14为VisDrone数据集中另一组测试样本；

图15为本发明模型基于图14生成的密度图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

图1展示了本发明提出的密度感知行人检测网络框架，主要包括全局检测网络密度感知的背景优化模块和结果融合模块。具体来说，我们首先训练一个基于CNN(卷积神经网络)的密度感知网络，预测每张输入图像对应的稀疏密度图；对预测生成的密度图，用聚类的方法计算出像素总值高的区域，即行人密集区域；得到行人密集区域后按照一定的膨胀稀疏略微扩张该区域，得到背景优化子图的掩模，按照该掩模对原始进行背景优化，生成子图训练集；最后根据原始图像和子图两部分的预测结果，融合生成最终的预测结果。

如图2-图4所示，图2为输入的高分低空俯拍图像，图3为本发明使用的方法预测的人群分布，图4为基于MCNN方法预测的人群分布，可以直观的感受到本发明采用的方法预测的行人分为更为清晰可靠。

密度感知组件

密度图估计最早主要应用于行人计数任务当中，即给定包含大量人体/人头的图像，通过基于视觉的方法计算出图中人的数量。一般来说，图像中包含大量重叠的行人实例，基于目标检测方法的逐实例算法在该场景下几乎失效，更难以统计图像中人体数量。因此，相关数据集会在人体头部或前额出给出一个标记点通过统计点的总数得到行人的总数。由于密度图能反应人体头部位置并提供空间密度分布，目前人群计数的技术路线是从一张输入图片中生成密度图，通过积分统计出密度图中的人数，即给出带点注释的训练图像，训练密度图估计网络相当于优化网络的参数，令真值点图和预测的密度图之间差异最小。然而人群计数提供的标签离散的二值掩模，在稀疏的二进制矩阵中，重建损失在正样本(被标记为头部的点)和负样本(背景像素)之间严重不平衡。鉴为了使训练过程更易于训练，需要让这些真值标签更均衡的分布在图像中。常用的方式是在真值图中标记有效点的位置处，施加一个高斯卷积核，从而生成更平滑的密度图。此类方法一般采用逐像素的平均绝对误差(Mean Absolute Error,MAE)来训练网络，具体表达式如式1所示：

其中x_i为目标实例，

为高斯卷积核，其大小由K个最临近点的平局距离决定。对真值图中所有标注点出施加对应的高斯卷积后，可以有效减缓真值点图的稀疏性。但是此类方法的效果严重依赖处理过后“伪真值”的质量。由于在密集人群中，图像包含的人体及头部的尺度和形状变化剧烈，如何设定高斯模糊核的大小非常困难。

本发明将给定的真值点图和预测的密度图视为两个密度分布，通过缩小两个密度分布之间的差异来获得可靠的密度图预测，引入一个基于 Monge-Kantarovich最优运输(Optimal Transport，OT)的损失函数来改变网络训练目标，最优运输参见非专利文献“Optimal Transport:old and new[J].2009”。最优运输问题本质上是求解从一种概率分布转换到另一种概率分布的最小代价。假设给定两个d维向量空间的点集

和

其对应的概率测度记为μ和v。其中，

且

将

记为从点X转移到Y的代价，则C_ij＝c(X_i,Y_j)为两个点集之间的n×n维代价矩阵。将Γ记为将概率质量从X 转移到Y所有解的集合:

在μ和v之间的Monge-Kantarovich OT的代价可以定义为：

若将概率分布μ、v分别视为在X、Y上带有噪声的单位量，OT代价亦可以被视为从一个概率分布转移到另一个概率分布的最小代价。OT成本能量量化两个概率分布之间的差异，同时也考虑到噪声位置之间的距离。最终OT 损失可以记为形如式3的另一种表达方式：

本发明中将密度估计视为一个不同分布之间互相匹配的问题。与之前需要高斯模糊核处理真值图的相比，本发明的优势在于不需要刻意选择高斯核对真值进行预处理。令

记为真值点图的矢量二值图，

为网络预测的矢量化的密度图。将z和

视为非正则化的密度函数，如式4所示，用一个多项加权损失函数来衡量两者之间的差异：

其中第一项为计数损失，该损失用于衡量密度图与真值图之间人群数量统计之间的误差。令

记为矢量的L₁范数，人群计数的首要任务是使得 ||z||₁和

之间的差异尽可能的小，因此计数损失可以定义为形如式5 的绝对误差：

式4中第二项为一个改进的OT损失函数。注意到||z||₁和

是两个非正则化的密度函数，除以它们各自的总和，将它们转变成概率密度函数(Probability DensityFunctions，PDFs)。虽然KL散度(Kullback-Leibler divergence)和JS散度(Jensen-Shannon divergence)也可以衡量两个概率密度函数之间的差异，但是这些方法在源分布与目标分布不重叠的时候，无法提供有效的梯度，因此不能用于训练神经网络。因此，本发明采用OT损失函数来度量两个概率分布的差异，该项损失函数具体表达形式可记为式6:

其中α^*和β^*为式1的解，可采用平方转移损失

其中

和

分别为位置i和j的二维坐标。添加一个极小正数来确保分母不为零，此时式1中

的梯度为：

在迭代训练过程中，采用Sinkhorn algorithm来近似求解OT Loss。但在实际训练过程中，目标函数在开始时会快速下降但是会逐渐缓慢收敛到目标函数附近。由于设定了最大迭代次数，求解需要的次数往往大于实际迭代次数，这时只会返回一个近似的解。最终导致用Sinkhorn algorithm算法求解OT Loss时，网络只能预测一个与真值图近似的密度图，具体体现在：OT Loss 在人群密集的区域的表现良好，而在人群密度较低的地方效果会显著下降。因此本发明引入一个额外的全变分损失函数(Total Variation，TV)来解决这个问题，其定义如式8所示：

TV Loss损失函数不仅能解决低密度区域效果不佳的问题，同时也会增强网络训练的稳定性。用Sinkhorn algorithm优化OT Loss时，网络的训练过程与生成对抗网络Generative Adversarial Network，GAN)训练过程类似，是一个最小鞍点优化过程。通过增加额外的重构损失函数，能显著增强GAN网络训练的稳定性。这里的TV Loss就充当了重构损失函数的作用，其梯度可以定义记为：

其中

Sign(.)为向量的的符号函数。

基于Meanshift的密度信息的背景优化掩模

DAnet的核心思想是利用密度图提供的上下文信息将大尺度输入图像合理地背景优化为小尺度子图。在密度图中，相对于人群密度较低的区域，密度较高的区域中预测的点更多，像素值更大。一种朴素的思想是利用聚类的方法，将密度图中的点聚为不同的簇，统计这些簇里目标实例的计数，大于阈值的进行保留，小于阈值的则抛弃。过滤之后保留下来的簇自然而然的就是需要寻找的密集区域。

本发明采用了基于均值漂移(Meanshift)的聚类方法，其中均值漂移指的是偏移的均值向量。该算法是一种基于概率密度的无参聚类方法，可以不预先知道样本数据的概率密度分布函数，根据样本点计算样本点的概率密度分布区间。假设在d维空间

中，有n个离散的样本x＝x_i(i＝1,2,...,n)。均值漂移中的均值向量如式10定义：

其中，S_h为半径为h的高维球区域，而在针对图像数据时候，用其表示一个半径为h的圆形区域，该区域为满足如式11关系点的集合:

S_h(x)＝{y:(y-x)^T(y-x)<＝h²} (11)

均值向量M_h(x)是落入S_h中k个样本的平均值，总指向概率密度的梯度方向。考虑到不同距离的点应带有不同的权重，引入核函数K(x),此时用式12 表示概率密度函数f(x):

其中K为核函数，定义如下：

K(x)＝c_k,dk(||x||²) (13)

正则化系数c用来保证概率密度的积分为1。对概率密度函数f(x)求偏导数的零点可计算其极值点。均值漂移算法本质上是一种自适应递增迭代搜索数据分布概率密度分布梯度峰值的运算。具体的，算法1中给出了均值漂移算法的详细流程。

算法1均值漂移算法流程

输入：迭代次数t,搜索空间S_h，初始点x,阈值o

输出：样本集S，聚类中心C

1:初始化t，Sh

2:while mh(x^t)<o do

3:计算概率密度梯度m_h(x^t)

4:更新搜索空间S_h，x^t+1＝x^t+m_h(x^t)

5:end while

6：返回样本集S和聚类中心C

通过均值漂移法对密度图中的点聚类之后，得到不同的簇Sn。统计该区域内样本的人群数量N,若N大于给定的阈值T，则对该簇进行背景优化。总体来说，我们希望背景优化出的子图上人群密度高，令子检测器更关注密集区域的特征提取，提升在密集区域的检测效果。可以发现，背景优化后生成的子图数量与T相关，若T过小，生成的子图中会包含太多稀疏的人群和冗余的背景，若T过小，则会过滤掉太多的簇，生成的子图数量不够，导致子训练器的样本太少。在本发明试验中，取T＝3.7。因此，对簇S’_n用给定的T 过滤后，得到能较为准确指示密集人群区域的候选簇S’_n。而根据候选簇S’_n进行背景优化的技术路线多种多样。一种直观的方法是计算每个候选簇的最小外接矩形，按照该矩形的形状在原图上背景优化出子图。这种背景优化方法能最大限度的包含所有的标注框，但是生成的图像容易包含过多的背景冗余区域。为了尽可能的包含所有标注框，在训练过程中，可以统计中心点落在簇中区域所有的标注框的位置，根据给定的标注框的大小扩张簇的边界，避免背景优化操作将像素占比大的物体切分。而在推理过程中，由于无法知道真值框的信息,因此采用一种膨胀区域的方法进行预测。算法2中给了详细过程。其中λ_x和λ_y是一个与数据集相关的膨胀系数，在VisDrone数据集上分别设为0.015和0.009。

算法2膨胀区域算法流程

实验及分析

由于目前只针对行人检测任务的航空俯拍公开数据集较少，本发明主要在包含行人类别的VisDrone数据集进行对比实验。作为主要为面向目标检测的数据集包含行人在内的十种目标检测对象，因此这里采用为目标检测任务中更常用的指标平均准确率(AP)作为判断各种方法优劣的依据。首先通过 VisDrone数据集与其他先进的目标检测方法进行对比，证明了提出的DANet 的优越性，然后再在VisDrone数据集中行人类别上进行了丰富的消融实验，以判断提出的各模块的有效性。

在训练密度感知网络时，考虑到该数据集没有提供类似人群计数任务中的点标注，我们对数据集进行了简单的预处理，即将标注框的中心替换为人群计数任务中的点标注。DAM网络采用的VGG-19作为特征提取的主干网络。为了使其更符合任务需求，移除了VGG-19网络中最后池化层及其之后的全连接层。通过双线插值，主干网络的输出被放大到输入图像尺寸的1/8。在主干网络之后添加1x1的卷积层及两个3x3的卷积层，通道数分别为256,256 和128。由于VisDrone数据集中的图像尺寸较大，在进入网络之前将图像尺寸统一缩放到512x512。密度感知网络采用Adam作为优化器，初始学习率设置为10^-5,权重衰退率为0.0001,批尺寸大小设置为8,总共进行70k轮的训练。图像增强策略只使用随机背景优化，背景优化区域的尺寸为256x256。

全局检测器和子检测器均采用带有特征金字塔网络的FasterRCNN框架。对于全局检测器，输入图像的尺寸被缩放到1000×600,采用随机梯度下降法作为优化器，动量设置为0.9，权重衰减设置为0.005。模型的初始学习率设为10^-4，在90k次迭代训练后学习率下调至10^-5，在130k次迭代训练后学习率下调至 10^-6,共计进行150k轮迭代训练作为；对于子检测器，输入图像的尺寸为 256×256。

数据增强方法包括水平翻转、随机缩放和颜色抖动。特别的，在训练全局检测器时，额外使用了随机背景优化数据增强方法；在训练子检测器时，额外引用了Mosaic数据增强方法。

VisDrone数据集的评价指标与MS COCO数据集—致，根据与真值之间的 IoU面积设置不同的阈值，共采用了三种阈值的AP评价指标：AP、AP50、 AP75、APs、APm、AP1。各种AP的定义如表1所示，不同的AP评价方式分别从对应侧重点考察检测器的性能。

表2显示了本发明提出的DANet方法在VisDrone数据集上的验证结果，对比的方法包括：ClusDet、DMNet、AMRNet。本发明在ResNet50、ResNet101、 ResNeXt101三种性能依次增强的主干网络下进行实验。观察表2可知，在不同的主干网络下，本发明提出的DANet能稳定超出其他高性能方法约1-5个百分点。进一步地，在AP75的评价指标上，DANet较同样考虑到物体密度分布的ClusDet高出近7个百分点、比DMnet高出约3个百分点，证明本发明提出的方法在更高的IoU阈值下有更好的鲁棒性。同时本发明提出的方法在APs和APm两个评价指标上超越AMRNet约2个百分点，证明了本发明提出的基于密度感知的方法能显著提高网络在对小目标检测时性能。

表1不同AP的定义方式

表2 VisDrone数据集上与其他先进方法的对比

方法	主干网络	AP	AP50	AP75	APs	APm	APl
								ClusDet[73]	ResNet50	26.7	50.6	24.7	17.6	38.9	51.4
ClusDet[73]	ResNet101	26.7	50.4	25.2	17.2	39.3	54.9
								ClusDet[73]	ResNeXt101	28.4	53.2	26.4	19.1	40.8	54.4
DMNet[74]	ResNet50	28.2	47.6	28.9	19.9	39.6	55.8
								DMNet[74]	ResNet101	28.5	48.1	29.4	20.0	39.7	57.1
DMNet[74]	ResNeXt101	29.4	49.3	30.6	21.6	41.0	56.9
								AMRNet[76]	ResNet50	31.7	52.7	33.1	23.0	43.4	58.1
AMRNet[76]	ResNet101	31.7	52.6	33.0	22.9	43.4	59.5
								AMRNet[76]	ResNeXt101	32.1	53.0	33.2	23.2	43.9	60.5
DANet	ResNet50	33.4	55.2	31.6	24.4	45.4	59.2
								DANet	ResNet101	33.5	55.7	31.2	24.3	45.6	59.9
DANet	ResNeXt101	34.9	56.0	32.3	26.6	46.9	61.7

图5和图6展示了在VisDrone数据集上DANet与Faster RCNN方法检测结果的对比，在图像上方给出了不同颜色的预测框对应的类别。观察原始图像可以直观的感受到本发明提出的DANet在召回率要显著高于Faster RCNN方法。实验中标记了部分背景优化区域放大进行进一步观察，可以发现本发明提出DANet对于在聚集区域的小目标检测效果有明显提升。图7给出了采用ResNeXT-101为主干网络时DANet在V1sDrone数据集上的可视化检测结果。综合所有对比实验表明，本发明提出的DANet对于低空俯拍图像上进行的检测任务有显著提升作用，证明了在不依赖对真值进行过度预处理的情况下，基于图像中物体密度分割子图的方法能更有效的体现图像中密集区域。

消融实验

在本部分，我们设计了一系列的消融实验，分析DANet中基于密度信息的背景优化策略、聚类策略、膨胀策略等组件对模型性能做出的贡献。

基于密度信息的背景优化策略

为了验证基于密度信息的背景优化策略的有效性，我们选择与无背景优化策略、等分背景优化策略与随机背景优化策略进行对比实验。其中等分背景优化策略是指将图像均等分为3x3块子图，子图的尺寸约为666x500。随机背景优化策略是随机选择两组数值，将图像裁剪为3x3块子图，随机数的取值范围为[0.1,0.7]。图8-图11展示了对于VisDrone数据集中一张图像样本和三种不同策略获得的部分子图。表3中展示了针对VisDrone数据集中行人类别，三种不同背景优化策略后训练的模型的效果如图9-图11所示。

表3不同背景优化策略下模型的性能对比

方法	主干网络	AP	APs	APm	APl
						无背景优化	ResNet50	34.7	22.4	37.1	60.4
等分背景优化	ResNet50	40.1	32.9	45.6	58.8
						随机背景优化	ResNet50	38.4	31.8	42.5	59.1
密度背景优化	ResNet50	44.8	38.2	51.7	67.9

低空俯拍图像中存在着大量的小像素行人，若能有效提升在该行人的检测效果，则能从整体上大幅度提高模型的性能。从表3中观察可知在不使用背景优化策略时，模型应对小目标行人的检测效果不理想，整体的AP及APs 均偏低。而在引入背景优化策略后，模型的性能得到大幅度提高，一是受益于背景优化的子图相当于注意力线索，能指导子模型对小目标行人进行有针对性的学习；另一方面是引入背景优化策略的同时引入了子检测器，融合全局检测器与子检测器的效果亦能提高模型的性能。进一步观察表3可知，等分背景优化和随机背景优化较无背景优化策略模型在APs上有较大提升，但是两种背景优化方法均有将大型行人裁开的风险，这一点也体现在两种方法在APl上还下降了约1.5个百分点。值得注意的是在VisDrone数据集里，行人类别下大像素目标占比较少，在某种程度上弥补了等分背景优化和随机背景优化的不足。而本发明提出的基于密度信息背景优化的策略，不仅能有效提升模型的总体性能，同时也缓解了背景优化时将大型目标割裂的问题，可以证明其在解决低空俯拍场景中目标尺度变化剧烈的问题。

表4在VisDrone数据集下不同聚类策略下的对比

方法	主干网络	训练样本数量	测试样本数量	AP
					K-means	ResNet50	36154	2641	23.5
K-means++	ResNet50	35902	2715	24.9
					DBSACAN	ResNet50	37078	2883	27.2
Meanshift	ResNet50	34276	2639	30.8

表5在VisDrone数据集中行人类别下不同聚类策略下的对比

方法	主干网络	训练样本数量	测试样本数量	AP
					K-means	ResNet50	9842	1127	46.2
K-means++	ResNet50	9693	945	48.1
					DBSACAN	ResNet50	10004	1036	50.5
Meanshift	ResNet50	9957	991	51.6

通过DAM生成输入图像的密度图之后，选择合适的点聚类方法，对模型最后背景优化的子图具有较大影响。图12和14展示了VisDrone数据集中两组测试样本，图13和图15为本发明模型生成的密度图。可以直观的发现，不同图像中行人目标分布的稀疏程度、位置、簇的数量均有很大不同。为了证明本发明提出的基于均值漂移背景优化策略的有效性,我们选择了3种经典的聚类算法作为对比：K-means、K-means++及DBSCAN。其中K-means和 K-means++算法为基于划分策略的聚类方法，需要预先给出聚类后簇的数量 K，即划后分子图的数量，在实验中将K设为6。表4和5中分别列举了在VisDrone数据集、VisDrone数据集行人类别上，应用不同方法获得的子图数量，用该子集作为训练数据训练模型后得到的AP。

观察表4和5可以发现，基于这两类方法的生成的子图数量大致相同，但是基于这两种方法训练的模型效果并不理想，这是因为这两种策略需要提前划分子集数量，而在某些初始图像中待检目标的数量少于预先设定的K值，此时这两种方法划分效果不理想，会产生类似于噪声般过大尺寸的子图。若进一步降低K值，生成的子图数量则会显著下降，且子图中包含待检目标的密度等级分布非常不均匀。DBSCAN和Meanshift方法则不需要预先设定划分聚类的个数，但是DBSCAN算法存在两点比较明显的不足：一是该方法对聚类的密度非常敏感，对于稀疏程度变化大的图像效果不佳；另一种则是它聚类的形状没有偏倚，这本是该算法的优点，但是应用在本发明场景中，容易生成“环”状簇，对切分子图不够友好。综上所述，我们选择了Meanshift作为聚类策略。实验中也发现，虽然基于Meanshift聚类策略生成的子图数量并不是最多的，但是根据该方法生成训练子图的效果最佳。

进一步地，为了验证提出的区域膨胀策略对模型性能的影响，本发明采用Meanshift为聚类方法为基础，同样在VisDrone数据集、VisDrone数据集行人类别上进行了对比实验，基准方法记为“Meanshift”，引入膨胀策略后的方法记为“Meanshift+膨胀”。实验结果如表6和7所示：

表6在VisDrone数据集下膨胀策略有效性的消融实验

方法	主干网络	AP	APs	APm	APl
						Meanshift	ResNet50	30.8	23.8	42.1	48.9
Meanshift+膨胀	ResNet50	31.9	23.2	44.7	53.0

表7在VisDrone数据集行人类别下膨胀策略有效性的消融实验

从表6可以看到，在VisDrone数据集下膨胀策略能将整体的AP从30.8％提升到31.9％，特别是对在APi指标下，模型的性能从48.9％提升到53.0％。而在VisDrone数据集行人类别下膨胀策略对AP的提升程度为0.6个百分点，相比之下稍弱。这是因为在VisDrone数据集中包含卡车、公交车等大型目标，采用膨胀策略后，会显著减少在推理阶段时切分大型目标的现象。行人目标所占绝对像素值较小，切分目标的现象较少，因此对于总体性能的提升不如 VisDrone数据集上显著。但总的来说，本发明提出的膨胀策略能有助于提升检测模型的精度，特别对于大型目标效果更为明显。

本发明针对低空俯拍情况下的行人检测中问题进行了研究，该场景下的挑战主要包括：输入图像尺寸较大，而待检测目标在原始图像中像素占总体偏小；待检目标在图像中的尺寸、姿态变化剧烈；待检目标在图像中分布不均，过多背景区域会影响检测结果并造成计算资源的浪费。针对以上问题，本发明采用分而治之的技术路线，先将图像按照基于待检目标密度分布的策略背景优化为多张子图，再在原始图像和子图上分别训练检测器，融合两种检测器输出最终的检测结果。受人群计数任务的启发，提出了一种密度感知网络，与之前的方法相比，能生成稀疏的密度响应，在提供待检目标的密度分布的同时反应一定程度上的位置信息。在处理生成的密度图时，基于Meanshift聚类方法以及区域膨胀策略，这两种方法能结合后能更好的统计待检目标密集区域。最后在VisDrone数据集上进行了大量的对比实验，证明了本发明提出方法的有效性。在VisDrone数据集及其行人类别上分别进行了丰富的消融实验，证明了本发明提出的密度感知网络能在尽可能少的处理真值的前提下，能稳定生成高质量的子图；相比其它聚类方法，基于Meanshift的聚类方法能在复杂的密度区间上取得良好的效果，区域膨胀策略能缓解网络在推理过程中对目标切割的问题，尤其是对大型目标效果更为明显。大量的实验结果表明，本发明提出的方法能显著提高低空俯拍场景下检测任务的精度。

上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于目标密度信息的高分图像背景优化方法，其特征在于，包括以下步骤：

获取包含行人的高分辨率图像；

预测每张输入图像对应的稀疏密度图；

得到行人密集区域后得到不同的簇，统计该区域内样本的人群数量N,若N大于给定的阈值T，按照膨胀区域方法扩张该区域，得到背景优化子图的掩模，按照该掩模对原始图像进行背景优化，生成子图训练集；

2.根据权利要求1所述的基于目标密度信息的高分图像背景优化方法，其特征在于，所述稀疏密度图利用密度感知组件来指示目标存在区域以及区域内的对象密度，剔除不包含待检目标的背景区域。

3.根据权利要求2所述的基于目标密度信息的高分图像背景优化方法，其特征在于，所述密度感知组件基于贝叶斯分布的人群计数网络来预测稀疏的密度图，再根据聚类方法统计出人群密度高的区域，将图像分块。

4.根据权利要求1所述的基于目标密度信息的高分图像背景优化方法，其特征在于，对原始图像进行分块后，分别以原始图像为数据集、背景优化后子图为数据集，训练两个带有特征金字塔的Faster RCNN结构作为全局检测器和子检测器，在对输入图像进行推理时，用密度感知组件对输入图像进行拆分，在两个检测器上分别进行预测，将子检测器的结果映射到原始图像中，利用非极大值抑制方法后处理后输入最终的检测结果。

5.根据权利要求1所述的基于目标密度信息的高分图像背景优化方法，其特征在于，用多项加权损失函数来衡量真值点图的矢量二值图密度函数和网络预测的矢量化的密度图密度函数之间的差异，具体公式如下：