CN108460403A

CN108460403A - 一种图像中多尺度特征融合的目标检测方法与***

Info

Publication number: CN108460403A
Application number: CN201810065807.1A
Authority: CN
Inventors: 张重阳; 程浩; 刘泽祥
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2018-08-28

Abstract

本发明公开了一种图像中多尺度特征融合的目标检测方法与***，所述方法包括：第一步，利用待检测图片进行不同尺度的缩放，构造图像金字塔；第二步，利用统计学聚类方法获取一组覆盖大多数样本尺度的多尺度检测模板；第三步，基于多尺度检测模板，进行尺度自适应的目标上下文构建；第四步，多尺度深度特征融合；第五步，基于软判决的非极大值抑制。本发明通过构造图像多分辨率稀疏金字塔、多尺度检测模版、模版尺度自适应上下文、多尺度深度特征融合等一系列方法，实现深度特征的充分挖掘和融合利用，能够提升目标检测性能。

Description

一种图像中多尺度特征融合的目标检测方法与***

技术领域

本发明涉及的是一种图像中目标检测领域的方法，具体是一种图像中多特征融合的目标检测方法与***。

背景技术

图像中的目标检测识别，在诸如智能视频监控等应用场合，具有广泛的实用需求，也是计算机视觉领域较为热门的研究方向。现有的图像目标检测方法，因为尚存如下困难和挑战，检测结果还有待提升：(1)同类目标之间，颜色纹理形状等表观特征存在较大的多样性、差异性。(2)同类目标存在姿态的多样性，导致类内样本的结构特征存在较大变化。如现实中目标具有直立、卧倒、倾斜等姿态，不同的姿态的同类目标会呈现不同的轮廓、形状等结构特征；(3)同类目标高度、宽度等尺寸大小和比例变化区间大。一方面目标物理高度则会有较大的分布区间，另一方面由于拍摄距离的不同目标在图像中也会呈现不同的大小、比例等尺度变化。(4)目标的遮挡会影响检测结果。目标被遮挡后其部分信息是缺失的，增加了检测难度。(5)目标所处环境背景和光照的多样性导致误检增加。目标出现在为室外时，如城市道路、出入口等，其背景往往较为复杂，且一些复杂的背景如树木、路灯会与目标产生混淆、导致误检。

目前，较为成熟的目标检测方法基本可以分为两类：(1)基于背景建模。该方法主要用于视频中检测运动目标：即将输入的静态图像进行场景分割，利用混合高斯模型(GMM)或运动检测等方法，分割出其前景与背景，再在前景中提取特定运动目标。这类方法需要连续的图像序列来实现建模，不适合于单幅图像中的目标检测。(2)基于统计学习。即将所有已知属于某一类目标的图像收集起来形成训练集，基于一个人工设计的方法(如HOG、Harr等)对训练集图像提取特征。提取的特征一般为目标的灰度、纹理、梯度直方图、边缘等信息。继而根据大量的训练样本的特征库来构建行人检测分类器。分类器一般可用SVM，Adaboost及神经网络等模型。

综合而言近年来基于统计学习的目标检测方法表现较优，基于统计学习的目标检测方法可以分为传统人工特征目标检测方法以及深度特征机器学习目标检测方法。

传统人工特征目标检测方法主要是指其利用人工设计的特征，来进行目标目标的建模。近年来表现优秀的人工设计的特征方法主要包括：2010年Pedro F.Felzenszwalb等提出的DPM(Deformable Part Model)方法(Object detection with discriminativelytrained part-based models)。Piotr Dollár等2009年提出的ICF(Integral ChannelFeatures)、2014年提出的ACF方法(Fast Feature Pyramids for Object Detection)。2014年Shanshan Zhang等提出的Informed Harr方法(Informed Haar-like FeaturesImprove Pedestrian Detection)，致力于提取更加具有表征信息的Harr特征来进行训练。这些人工设计的特征虽然取得了一定的效果，但因为人工特征表征能力不足，仍存在检测精度不高问题。由于深度卷积神经网络模型所具有的更强大的特征学习与表达能力，在图像目标分类检测方面得到越来越广泛和成功的应用。基础的目标检测算子是R-CNN(Region-Convolutional Neural Network)模型。2014年Girshick等人提出RCNN用于通用目标的检测，之后又是提出了fast-rcnn和faster-rcnn，提高了基于深度学习目标检测方法的精度和速度。2016年提出的Yolo和SSD等方法，则通过Anchor等思想实现单一阶段的快速目标检测。这些基于深度学习技术的目标检测，大都是基于单一尺度、固定大小上下文的深度特征，仍存在深度特征利用不充分的问题，检测性能有待进一步提高。

发明内容

针对基于深度模型的目标检测方法存在的不足，本发明提出一种图像中多尺度特征融合的目标检测方法与***，通过构造图像多分辨率稀疏金字塔、多尺度检测模版、模版尺度自适应上下文、多尺度深度特征融合等一系列创造性方法，实现深度特征的充分挖掘和融合利用，提升目标检测性能。

根据本发明的第一方面，提供一种图像中多尺度特征融合的目标检测方法，包括：

S1：利用待检测图片进行不同尺度的缩放，构造一个图像金字塔；

S2：基于所述图像金字塔得到的训练图像，利用统计学聚类方法获取一组覆盖大多数样本尺度的多尺度检测模板；

S3：在上述多尺度检测模板的基础上，进行尺度自适应的目标上下文构建；

S4：根据目标上下文构建的结果，进行多尺度深度特征融合，得到多尺度特征图；

S5：根据上述多尺度特征图，进行基于软判决的非极大值抑制，实现图像中多尺度特征融合的目标检测。

优选地，所述S1中：为了使得检测网络利用一个或几个有限大小的检测框，能够对图像中不同大小的目标都能完整紧凑地进行框选采样，需要对原始图像进行多尺度缩放、使得原始目标经过多次缩放增加其被检测框完整紧凑框选的概率，将待训练图片通过按比例缩放成L个不同分辨率大小的图片，从而构造一个分辨率由高到低的图像金字塔。具体的，在训练的时候，对于每个原始的训练图像，进行多个尺度的缩放，得到不同尺度下的L个图像用于训练。在测试的时候，对于每个待检测的图像，同样进行多个尺度的缩放，得到不同尺度下的L个图像用于检测，并对这L个图像的检测结果，进行融合判决，得到最终的检测结果。

优选地，所述利用统计学聚类方法获取一组覆盖大多数样本尺度的多尺度检测模板，是指：基于K-medoids聚类方法，并利用杰卡德距离(Jaccard distance)作为聚类评价指标，对训练数据集中目标按不同的宽高值及宽高比进行聚类，形成一组K个聚类中心的宽高比，作为覆盖绝大部分宽高比例的目标模板。

优选地，所述进行尺度自适应的目标上下文构建，是指：将CNN网络卷积层输出的特征图上每个点的感受野，作为候选目标框；感受野相对于模板框多出的部分，即作为目标框的上下文，用来辅助目标的检测识别。

更优选地，所述进行尺度自适应的目标上下文构建，最终得到一个上下文信息随目标尺度变化而变化的检测模型，即：小尺度目标将获得更大的上下文信息，而大尺度目标的上下文信息较少，从而满足不同尺度的目标对上下文信息的不同需求。

优选地，所述进行多尺度深度特征融合，是指：将CNN不同卷积层输出的特征图，选出M层进行融合，用于构造多尺度特征金字塔。

更优选地，所述进行多尺度深度特征融合，具体为：对于M个选出的卷积层中处于CNN网络最后一层，将其输出的特征图利用反卷积对其做上采样，使其扩大到与上一层特征图同样分辨率大小后，与上一层特征图做逐像素相加，得到融合相邻两层的多尺度特征图；再以此类推，反卷积扩大、与更上一层特征图融合，直到完成选出的所有M层特征图的融合。

优选地，所述基于软判决的非极大值抑制，是指：

先选出来置信概率最大的检测框，通过其他的检测框与置信概率最大的检测框计算IOU(intersection over union)，超过某一阈值则将其置信概率降低；

将此置信概率最大的检测框去掉后，再选出剩下检测框中置信概率最大的检测框，并将其余的检测框与置信概率最大的检测框计算IOU，超过某一阈值则将其置信概率降低；

通过以上不断迭代，得到最后的筛选后的检测框。

根据本发明的第二方面，提供一种图像中多尺度特征融合的目标检测***，包括：

图像金字塔构建模块：利用待检测图片进行不同尺度的缩放，构造一个图像金字塔；

多尺度检测模板构建模块：基于图像金字塔构建模块的所述图像金字塔得到的训练图像，利用统计学聚类方法获取一组覆盖大多数样本尺度的多尺度检测模板；

目标上下文构建模块：在上述多尺度检测模板构建模块得到的多尺度检测模板的基础上，进行尺度自适应的目标上下文构建；

多尺度深度特征融模块：根据目标上下文构建模块的结果，进行多尺度深度特征融合，得到多尺度特征图；

目标检测模块：根据上述多尺度深度特征融模块的多尺度特征图，进行基于软判决的非极大值抑制，实现图像中多尺度特征融合的目标检测。

优选地，所述图像金字塔构建模块，在训练的时候，对于每个原始的训练图像，进行多个尺度的缩放，得到不同尺度下的L个图像用于训练。在测试的时候，对于每个待检测的图像，同样进行多个尺度的缩放，得到不同尺度下的L个图像用于检测，并对这L个图像的检测结果，进行融合判决，得到最终的检测结果。

优选地，所述多尺度检测模板构建模块，该模块基于K-medoids聚类方法，并利用杰卡德距离(Jaccard distance)作为聚类评价指标，对训练数据集中目标按不同的宽高值及宽高比进行聚类，形成一组K个聚类中心的宽高比，作为覆盖绝大部分宽高比例的目标模板。

优选地，所述目标上下文构建模块，该模块将CNN网络卷积层输出的特征图上每个点的感受野，作为候选目标框；感受野相对于模板框多出的部分，即作为目标框的上下文，用来辅助目标的检测识别。

优选地，所述多尺度深度特征融模块，该模块将CNN不同卷积层输出的特征图，选出M层进行融合，用于构造多尺度特征金字塔。

更优选地，所述多尺度深度特征融模块，该模块对于M个选出的卷积层中处于CNN网络最后一层，将其输出的特征图利用反卷积对其做上采样，使其扩大到与上一层特征图同样分辨率大小后，与上一层特征图做逐像素相加，得到融合相邻两层的多尺度特征图；再以此类推，反卷积扩大、与更上一层特征图融合，直到完成选出的所有M层特征图的融合。

优选地，所述目标检测模块，其先选出来置信概率最大的检测框，通过其他的检测框与置信概率最大的检测框计算IOU(intersection over union)，超过某一阈值则将其置信概率降低；

通过以上不断迭代，得到最后的筛选后的检测框。

与现有技术相比，本发明具有以下有益效果：

本发明中根据不同尺度的目标识别对上下文信息需求的不同，结合CNN的结构特点和感受野的概念，采用尺度自适应的上下文信息建模，用于辅助目标识别。

本发明中利用K-medoids聚类方法优化模板的选取方式，满足不同模板对目标检测模型检测效果。

本发明中图像金字塔解决训练图片需要固定尺度的问题，设计利用crop的方法得到固定大小的图片用于训练。

本发明中充分的利用CNN不同层的特征，通过深层特征和浅层特征融合,能够同时利用深层特征的表征能力和浅层特征的细节信息，提升小尺度目标的检测精度。

本发明中建立多尺度特征检测机制，将特征组合之后再进行融合，然后再进行检测，最后将检测的结果融合，实现多尺度特征检测。

本发明中利用了基于软判决的非极大值抑制，提升了融合效果。

综上，本发明通过综合利用多分辨率金字塔、多尺度模板聚类、尺度自适应上下文信息、多尺度深度特征融合、软判决非极大值抑制等技术，增强图像目标的特征学习与表示能力，有效提升行人等目标检测的精度，同时较好地解决了现有技术中目标在小尺度、远距离时，密集目标检测等问题。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1a、图1b为本发明一实施例中图像金字塔构建流程图；

图2为本发明一实施例中多尺度模板获取流程图；

图3为本发明一实施例中多尺度特征融合实现流程图；

图4为本发明一实施例中软判决的非极大值抑制实现流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

现有的目标检测方法，对于某些尺寸较大的目标可以很好地识别，但是尺寸较大的目标在现实生活中只占很小的一部分，对于距离较远的目标，检测结果并不是很好。目标检测有以下特点，以行人目标为例：

特点一、尺度的多样性。一方面行人中有老人、中年人、孩童，其物理身高则会有较大的分布区间。另一方面由于拍摄距离的不同，对于同一个行人而言，越高、距离越远的拍摄点拍摄到行人其像素越低，高度越低；而越低、越近的拍摄点拍摄到的行人像素越高，高度越接近其真实身高。现有的方法对于高度大于100像素的行人检测效果较好，但是对于远距离，高度低的行人检测效果不好。行人检测应用在车辆辅助驾驶***中时，往往都是需要***检测远距离处出现的行人来提醒驾驶员，因此解决检测远距离的行人问题也是一个迫切的需求。

特点二、遮挡。现实中拍摄到的行人会存在遮挡情况，一方面会存在人群簇拥的情况。当多个人走在一起时，从各个角度看过去总会有人被挡住身体的一部分；另一方面行人可能会被环境中的物体，如数目、车辆、房屋遮挡住身体的一部分。此时行人被遮挡后其身体部分信息是缺失的，对于基于人体完整轮廓特征的检测器则会导致漏检的结果。

本发明提出图像中基于多特征融合的目标检测方法，从上述问题出发，较好地解决了目标在小尺度、远距离时，密集目标检测等问题。本发明基于现实中存在的目标检测困难，提出了基于金字塔对于多尺度目标自适应检测，以及利用多层感受野不同进行融合，并采用软判决非极大值抑制针对密集目标检测进而提升目标检测的效果。其中：

第一步，利用待检测图片进行不同尺度的缩放，构造包含从大小多个分辨率的图像金字塔；

第二步，利用统计学聚类方法，按照训练样本宽高大小对样本进行聚类，通过聚类形成K个聚类中心、每个聚类中心形成一个以该中心宽高均值为尺度的检测模板；K个聚类即形成一组K个不同尺度的模板组，作为检测器目标模板组；

第三步，尺度自适应的目标上下文构建。

对各个尺度的检测模板框，都沿上下左右方向均匀扩展，扩展到同卷积神经网络(CNN，Convolutional Neural Network)最后输出的特征图每个点的感受野大小相同，扩展部分即形成包含目标的上下文信息，且包含的上下文大小同模板尺寸自适应。

第四步，多尺度特征融合。

通过将CNN多个卷积层特征图在同一分辨率上进行逐像素相加融合，形成目标检测识别所需的多尺度深度特征。

第五步，基于软判决的非极大值抑制。

通过降低检测框的置信度代替直接删除检测框，再通过不断迭代对检测框进行筛选。

同时，本发明通过集成上述方法步骤构造一个图像目标检测***，该***综合利用多分辨率金字塔、多尺度模板聚类、尺度自适应上下文信息、多尺度深度特征融合、软判决非极大值抑制等方法，增强图像目标的特征学习与表示能力，有效提升行人等目标检测的精度。

具体的，一种图像中基于多特征融合的目标检测***，包括：

以下以行人检测为例对本发明上述方法和***进行详细的说明，尤其是上述的五个步骤/模块中涉及的实施。

一、利用待检测图片进行不同尺度的缩放构造图像金字塔。

为了使得检测网络利用一个或几个有限大小的检测框，能够对图像中不同大小的目标都能完整紧凑地进行框选采样，需要对原始图像进行多尺度缩放、使得原始目标经过多次缩放增加其被检测框完整紧凑框选的概率。将待训练图片通过按比例缩放成L个不同分辨率大小的图片，从而构造一个分辨率由高到低的图像金字塔。

在行人检测模型训练和测试的时候，利用图像金字塔的原理对原始数据进行缩放处理，如附图1a、1b所示。

具体来说就是在训练的时候，对于待训练的每一个图像，进行0.5X、1X和2X的缩放，得到不同尺度下的图像用于训练，如附图1a所示。在测试的时候，对于每个待检测的图像，进行0.5X、1X和2X的缩放，得到不同尺度下的图像用于检测，并对三个尺度图像的检测结果，进行融合判决，得到最终的检测结果，如附图1b所示。

在本实施例中，为了方便计算反向传播的梯度，所以输入的图片需要固定的尺度，例如Caltech中所有图片的大小都是640*480像素。在经随机缩放后，训练图片尺度发生了变化，640*480大小的图片经过0.5X缩放之后变成了320*240，而经过2X缩放之后尺度则变为1280*960。为了获得统一尺度的训练图片，在训练的时候，从经过缩放的图片中裁剪出尺度为640*480的图片，具体操作流程如图1a所示。即对于大小为320*240的图片，用图像填充至640*480，而对于大小为1280*960的图片，则从中随机裁剪出640*480的小图，然后将这三种图片同时用于训练，如附图1a所示。这种做法能有效增加训练样本数量，提升深度学习等数据驱动方法的性能。

二、利用统计学聚类方法获取最佳的检测器模板组。

本发明利用统计学聚类方法获取最佳的检测器模板组，提取训练图像中已标定的目标矩形框，将框进行K-medoids聚类方法得到不同一组(K个)多尺度模板。这里的尺度是指目标框的大小(长和宽)和比例(宽高比)。利用统计学的方法获取K个多尺度模板，使其既能覆盖绝大多数训练样本尺度又兼顾类内样本尺度的差异化。在选取模板的时候即要考虑样本尺度的差异化，避免仅用单一或少数尺度模板造成匹配模板过少、难以满足多尺度目标与模板精准匹配识别问题，而是统计数据集中目标样本宽高及比例的分布情况，通过聚类形成多个聚类中心、每个聚类中心形成一个尺度(平均宽高比但不限于此)模板，从而根据样本尺度分布来形成一组多尺度模板；同时，通过限定聚类中心的数量，来避免中心过多导致某一尺度的模板训练样本太少、检测器得不到充分训练问题。聚类方法可采用K-medoids等，实现对数据集中的样本宽高及宽高比进行聚类和多尺度模板选取。

具体操作时，可以先定义模板的尺度，覆盖不同尺度的行人目标。通常直立行人的宽高比一般为1:3，根据这个经验并结合Caltech数据集中行人目标的大致高度分布，可以手动的去选择典型的模板尺度，如30*90、50*150等，但是这种手工选取的方式不仅不具备通用性，并且很大概率不能选取最合适的模板。这是因为：

首先，在不同的数据集中，由于图片分辨率和监控视角的差异，行人高度的分布是不一样的，这种手工选取模板的方法不具备通用性；

其次，在真实的监控场景中，由于行人姿态、摄像头角度、遮挡信息等情况的出现，导致行人的宽高比发生较大变化，导致选取的模板不具备典型性。同时，在选取模板的时候要考虑数据集中目标高度的分布情况，如果某一尺度的模板对应的训练样本太少，会导致这个模板对应的检测器得不到充分的训练。

因此，本实施例中提出通过K-medoids聚类的方法对行人数据集中的样本的宽高进行聚类，利用统计学的方法获取K个多尺度模板(本实施例K＝32，当然，在其他实施例中也可以是其他数目)。

如图2所示，基于K-medoids聚类方法，对训练数据集中行人高度和宽度进行聚类。利用杰卡德距离(Jaccard distance)作为K-medoids的聚类评价指标，即：

d(s_i,s_j)＝1-J(s_i,s_j)

其中，s_i＝(h_i,w_i)；s_j＝(h_j,w_j)表示数据集中两个不同的行人框，h,w分别表示行人框的高度与宽度，J表示标准的杰卡德相似度(Jaccard similarity coefficient)，

三、尺度自适应的目标上下文构建。

本发明采用尺度自适应的目标上下文构建，一方面，小尺度目标因为有用信息较少、往往需要更多的上下文信息来辅助识别；而大尺度目标则往往不需要大量的上下文。另一方面，由于CNN全连接层每个特征点对应原图中一个尺度固定的感受野，可以基于感受野来构造不同模板的上下文。

具体的，对K-medoids聚类法回归出的K个不同尺度的模板框，沿上下左右进行扩展、并均扩展到与CNN全连接层每个点的感受野大小一致。因为感受野大小固定，则小尺度的模板框需做较大尺度的扩展，因而可以获得较大尺度的上下文；而大尺度模板则相反，获得的上下文较小。基于该方法，可获得与模板框尺度自适应的上下文信息，用于辅助目标识别。

四、多尺度深度特征融合。

考虑到CNN每一个卷积层输出的特征图，都含有不同尺度上的有用特征，浅层的输出往往包含更多的局部细节特征，而高层的特征往往包含更多的全局性和语义性信息。对这些不同层得到的不同尺度的特征，进行融合利用即可获得更丰富的特征表达。基于该思想本发明设计了一种多尺度融合方法：

如图3所示，对于CNN的M个主要卷积层(往往是CNN网络中最后面的M个层，本实施例为3)输出的特征图，从深至浅，先各自利用反卷积对最深层的特征图进行反卷积上采样，使其变换到同上一层输出特征图同一个分辨率尺度上，然后将这两层同一尺度的特征图做逐像素相加，得到融合后的多尺度特征图；再据此类推，实现所有M层的融合，得到融合M层特征的多尺度特征图。例如输入图片经过Resnet网络之后，将res5层的输出结果反卷积一次得到和res4相同的分辨率，并和res4的结果相加，再将其反卷积一次得到和res3相同的分辨率并和res3的结果相加进行特征融合得到最终结果进行测试。

五、软判决的非极大值抑制。

在以前的方法中，用非极大值抑制方法融合检测框得到最终的检测结果。传统的非极大值抑制方法是一种基于贪心的硬判卷方法，在融合的过程中可能会导致正确的检测框被抑制，尤其是当IOU(Intersection of Units，两个矩形框之间的重叠区域与合并区域的比值)阈值选择不恰当的时候。

如图4所示，本发明中软判决的非极大值抑制整体思路就是：通过降低检测框的置信度代替直接删除检测框。

本实施例中，具体操作为：先选出来置信概率最大的检测框，然后通过其他的检测框与最大置信概率的框计算IOU，超过某一阈值则将其置信概率降低。然后将此最大框去掉后在选出剩下检测框中最大置信概率框，并将其余的检测框与最大置信概率的框计算IOU，超过某一阈值则将其置信概率降低，通过不断迭代，得到最后的筛选后的检测框。

本实施例中可以采用线性加权的方式，根据iou的值来降低检测框的得分：

该公式中，M表示置信概率最大的检测框，b_i表示第i个检测框，N_i表示IOU阈值(可为经验值或预设值)，iou(M，b_i)表示M与b_i的IOU值。

因此，本发明软判决对于密集人群检测效果更好。

以上通过行人检测为例对本发明具体实现的一些细节和优选技术特征进行了详细描述。本发明也可以应用于其他图像中目标检测，并不限于行人检测，其他目标检测的操作与上述实施例类似，在此不再另行举例。

综上，本发明通过构造图像多分辨率稀疏金字塔、基于聚类优化的多尺度检测模版、模版尺度自适应上下文、多尺度深度特征融合等一系列创造性方法，实现深度特征的充分挖掘和融合利用，取得目标检测性能的提升。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种图像中多尺度特征融合的目标检测方法，其特征在于，包括：

2.根据权利要求1所述的图像中多尺度特征融合的目标检测方法，其特征在于，所述S1中：为了使得检测网络利用一个或几个有限大小的检测框，能够对图像中不同大小的目标都能完整紧凑地进行框选采样，需要对原始图像进行多尺度缩放、使得原始目标经过多次缩放增加其被检测框完整紧凑框选的概率，将原始图片通过按比例缩放成L个不同分辨率大小的图片，从而构造一个分辨率由高到低的图像金字塔。

3.根据权利要求1所述的图像中多尺度特征融合的目标检测方法，其特征在于，所述利用统计学聚类方法获取一组覆盖大多数样本尺度的多尺度检测模板，是指：基于K-medoids聚类方法，并利用杰卡德距离作为聚类评价指标，对训练数据集中目标按不同的宽高值及宽高比进行聚类，形成一组K个聚类中心的宽高比，作为覆盖绝大部分宽高比例的目标模板。

4.根据权利要求1所述的图像中多尺度特征融合的目标检测方法，其特征在于，所述进行尺度自适应的目标上下文构建，是指：将CNN网络卷积层输出的特征图上每个点的感受野，作为候选目标框；感受野相对于模板框多出的部分，即作为目标框的上下文，用来辅助目标的检测识别。

5.根据权利要求4所述的图像中多尺度特征融合的目标检测方法，其特征在于，所述进行尺度自适应的目标上下文构建，最终得到一个上下文信息随目标尺度变化而变化的检测模型，即：小尺度目标将获得更大的上下文信息，而大尺度目标的上下文信息较少，从而满足不同尺度的目标对上下文信息的不同需求。

6.根据权利要求1所述的图像中多尺度特征融合的目标检测方法，其特征在于，所述进行多尺度深度特征融合，是指：将CNN不同卷积层输出的特征图，选出M层进行融合，用于构造多尺度特征金字塔。

7.根据权利要求6所述的图像中多尺度特征融合的目标检测方法，其特征在于，所述进行多尺度深度特征融合，具体为：对于M个选出的卷积层中处于CNN网络最后一层，将其输出的特征图利用反卷积对其做上采样，使其扩大到与上一层特征图同样分辨率大小后，与上一层特征图做逐像素相加，得到融合相邻两层的多尺度特征图；再以此类推，反卷积扩大、与更上一层特征图融合，直到完成选出的所有M层特征图的融合。

8.根据权利要求1-7任一项所述的图像中多尺度特征融合的目标检测方法，其特征在于，所述基于软判决的非极大值抑制，是指：

先选出来置信概率最大的检测框，通过其他的检测框与置信概率最大的检测框计算IOU，超过某一阈值则将其置信概率降低；

通过以上不断迭代，得到最后的筛选后的检测框。

9.一种图像中多尺度特征融合的目标检测***，其特征在于，包括：

图像金字塔构建模块：利用待检测图片进行不同尺度的缩放，构造一个图像金字塔多尺度检测模板构建模块：基于图像金字塔构建模块的所述图像金字塔得到的训练图像，利用统计学聚类方法获取一组覆盖大多数样本尺度的多尺度检测模板；

10.根据权利要求9所述的一种图像中多尺度特征融合的目标检测***，其特征在于，所述多尺度检测模板构建模块，该模块基于K-medoids聚类方法，并利用杰卡德距离作为聚类评价指标，对训练数据集中目标按不同的宽高值及宽高比进行聚类，形成一组K个聚类中心的宽高比，作为覆盖绝大部分宽高比例的目标模板。

11.根据权利要求9所述的一种图像中多尺度特征融合的目标检测***，其特征在于，所述目标上下文构建模块，该模块将CNN网络卷积层输出的特征图上每个点的感受野，作为候选目标框；感受野相对于模板框多出的部分，即作为目标框的上下文，用来辅助目标的检测识别。

12.根据权利要求9所述的一种图像中多尺度特征融合的目标检测***，其特征在于，所述多尺度深度特征融模块，该模块将CNN不同卷积层输出的特征图，选出M层进行融合，用于构造多尺度特征金字塔。

13.根据权利要求12所述的图像中多尺度特征融合的目标检测方法，其特征在于，所述多尺度深度特征融模块，该模块对于M个选出的卷积层中处于CNN网络最后一层，将其输出的特征图利用反卷积对其做上采样，使其扩大到与上一层特征图同样分辨率大小后，与上一层特征图做逐像素相加，得到融合相邻两层的多尺度特征图；再以此类推，反卷积扩大、与更上一层特征图融合，直到完成选出的所有M层特征图的融合。

14.根据权利要求9-13任一项所述的一种图像中多尺度特征融合的目标检测***，其特征在于，所述目标检测模块，其先选出来置信概率最大的检测框，通过其他的检测框与置信概率最大的检测框计算IOU，超过某一阈值则将其置信概率降低；

通过以上不断迭代，得到最后的筛选后的检测框。