CN111461002B

CN111461002B - 一种面向热成像行人检测的样本处理方法

Info

Publication number: CN111461002B
Application number: CN202010246545.6A
Authority: CN
Inventors: 吴琨; 刘琼
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-05-26
Anticipated expiration: 2040-03-31
Also published as: CN111461002A

Abstract

本发明公开了一种面向热成像行人检测的样本处理方法。所述方法包括以下步骤：对初始数据集划分训练集和测试集，训练初始主干网络，从初始训练集中依据尺寸和遮挡情况筛选获得标注行人样本集合，使用初始主干网络提取集合中样本特征；对行人特征聚类，生成行人样本的子类别标签；基于行人子类别标签统计行人类内分布，对行人子类别中少数类进行迭代增强，平衡行人样本的类内分布，生成平衡训练集；统计设计平衡损失函数，利用平衡训练集训练神经网络模型。本发明能够在不增加***计算量的情况下优化行人检测数据集数据分布，提升所训练神经网络模型检测精度。

Description

一种面向热成像行人检测的样本处理方法

技术领域

本发明涉及行人检测领域，更具体地，涉及一种面向热成像行人检测的样本处理方法。

背景技术

红外行人检测技术在各类光照不足的场景下应用广泛。相比于可见光下的行人检测，红外条件下人体由于体温高于环境温度而显得更为突出。红外行人检测技术的发展对车辆防碰撞、安防监控等领域有重要意义。

深度学习方法在主流的可见光目标检测任务中都有着卓越的表现，而迁移到红外场景时效果却并不尽如人意，红外场景中的行人虽然有着比背景更高的亮度，但由于人体的体表温度恒定，容易在图像中形成一片均质化区域，缺少内部纹理，这种现象在中小尺寸行人样本中常常出现，加上缺少颜色通道。现有的红外行人检测方法在数据集上的检测率相比可见光行人检测方法仍有差距。

统计在SCUT数据集中测试的漏检行人，其分布与行人姿态有着很大的关联：侧向和骑车行人在其中的占比在80％以上。而在训练集中也存在着相似的规律，适当的平衡分类器对不同姿态行人的识别能力是很有必要的。

由于红外图像存在上述的缺乏颜色通道和行人灰度分布均质化，事实上神经网络更关注于行人的轮廓。不同姿态的行人的差异主要集中在其下半部，对漏检样本的统计证明腿部的跨度和车辆纹理的引入都会造成现有检测器检测率的下降。这说明模型在训练中没有学***衡。而行人的姿态在数据集中的不平衡分布并不奇怪，车载摄像头采集到的马路上的行人大多是靠路边行走，其行进方向与车辆的行进方向是平行的，侧向的行人基本只在弯道和路口出现，骑车人则更少。因此行人的姿态分布不平衡在不同的行人检测数据集中都会出现。

综上，为了改善训练数据中行人姿态分布的不平衡来提高模型对不同姿态行人的表达能力。本发明提出面向车载热成像行人检测的样本处理方法，获取训练样本的细分类别，以此各类别在训练数据中所占比例为依据进行数据增强操作。

本发明涉及到以下现有技术：

现有文献1：Wanli Ouyang,et al."Factors in Finetuning Deep Model forObject Detction with Long-tail Distribution"The IEEE Conference on ComputerVision and Pattern Recognition(CVPR),2016,pp.864-873

现有文献2：Qixiang Ye,et al."Pedestrian Detection in Video Images viaError Correcting Output Code Classification of Manifold Subclasses"IEEETransactions on Intelligent Transportation Systems,vol.13,Issue.1,2012

现有文献1中提出对目标检测数据集中不同类别样本使用层次聚类方法获得聚类树，并逐层训练深度模型。其目的在于削弱由于不同类别样本数量不平衡造成的多数类特征对少数类特征的覆盖。现有文献2中介绍了将多视角、多姿态行人检测问题转化为流形分类问题。首先利用流形学习将行人样本聚类到几个子类，使用ECOC对流形学习得到的相邻子类之间的关系进行编码。使用基分类器对一个或多个子类以及负类进行建模，并通过ECOC编码集成所有基分类器来执行最终的非线性分类。

发明内容

本发明旨在改善现有热成像行人检测数据集中存在的行人姿态不平衡问题，提升模型检测效果，达到更高的检测率。为了达到上述目的，根据本发明提供一种面向车载热成像行人检测的样本处理方法,对行人样本在主干网络生成特征池化至7x7x512维度，将降维数据聚类到4个细分类别，并进行迭代增强以平衡各行人子类别的分布，并通过改进模型训练的损失函数来平衡行人子类的学习权重。

本发明的目的至少通过如下技术方案之一实现。

一种面向热成像行人检测的样本处理方法，包括以下步骤：

S1、使用初始数据集划分训练集和测试集，训练初始主干网络模型；

S2、从初始训练集S_ori中选取行人样本构成标注样本集合I，使用初始模型主干网络提取I中所有样本特征；

S3、利用K-means算法对特征进行聚类，获取行人子类别，生成子类别标签；

S4、离线统计训练集中行人类内分布，获取平衡性判别指标，平衡训练集中行人的类内分布，得到平衡训练集S_equ；

S5、以平衡训练集S_equ为训练数据，配合类平衡损失函数训练新的卷积神经网络模型，完成面向热成像行人检测的样本处理。

进一步地，步骤S1中，所述初始主干网络为五阶段串联的50层残差网络，每阶段由一个下采样模块和两个残差块组成，其中下采样模块用于缩减特征图的尺寸并增加其深度，而残差块的输入特征图与输出特征图的尺寸一致；由主干网络最后一层隐藏层输出特征图。

进一步地，步骤S2中，所述标注样本集合的构建，以像素高度大于40像素且不被遮挡为筛选条件对初始训练集中行人标注逐个筛选，获取所有符合条件的标注构成标注样本集合I；样本集合I中每个标注样本表示为其对应图像ID及其在该图像中的位置和尺寸参数x,y,w,h，其中，(x,y)为标注框左上角点的横、纵坐标，w,h则为标注框的宽和高。

进一步地，步骤S2中，所述样本特征是通过初始主干网络处理得到；对于I中每一个样本x_i，将其对应图像输入初始主干网络，从初始主干网络提取全图特征图；根据样本标注中位置和尺寸信息从特征图中截取样本特征，池化后统一映射到7x7x512维度；使用PCA降维后截取前40维作为样本特征向量。

进一步地，步骤S3中，使用K-means算法对特征进行聚类：

以I中所有样本的特征向量作为K-means算法的输入，聚类簇中心数K设置为4，聚类生成4个行人子类别，输出I中每个样本对应细分类标签。

进一步地，步骤S3中，所述子类别标签生成，是以K-means算法输出的行人细分类别为依据，对初始训练集S_ori中所有行人样本分配标签c，c＝1,2,3,4,5；其中，I中每个样本获得其子类别标签c＝1,2,3,4，不属于I集合中的样本定义其子类别标签c＝5。

进一步地，步骤S4中，所述平衡性判别指标，计算算式为：

其中，N_c为初始训练集S_ori中标签为c的的行人标注数量，c＝1,2,3,4；

为初始训练集S_ori中各行人子类别标注数量的均值。

进一步地，步骤S4中，所述平衡训练集中行人的类内分布，得到平衡训练集S_equ包括如下步骤：

S4.1、选择当前训练集中标注样本数量最少的类别c，从训练集中筛选符合式(2)的图像：

其中，N_equ为上一轮平衡训练集中标注行人样本的数量，N_c为上一轮平衡训练集中类别为c的标注行人总数量，N_P为图像P中包含的标注行人样本总数,

为图像P中包含的类别为c的行人标注数量，c＝1,2,3,4；

S4.2、对符合条件的图像，随机进行镜像翻转或裁切，生成新的图片和样本标注；当最少类样本数量达到原有数量的1.5倍时停止，得到本轮平衡训练集；

S4.3、计算增强后的平衡性判别指标；当平衡性判别指标B<0或迭代满20轮时迭代中止，得到平衡训练集S_equ，否则跳至步骤S4.1。

进一步地，步骤S5中，平衡分布损失函数的算式为：

其中，γ为超参数，用于定义不同类别样本在学习中的损失权重，其取值范围为0≤γ≤1；n_c为类别c在训练集中的样本数量，x为训练中模型输出的概率得分，x＝[x₁,x₂,x₃,x₄,x₅]^T，x_c为样本为类别c的概率。

进一步地，所述参数γ与其对应的类别c有关，对任意行人子类别c，γ的值为其对应的类别与其他类别间相似度的平均值；计算不同类别间的相似度的算式为：

其中，<>代表取内积，

为c₁类别第i个行人样本的特征向量，/>

为c₂类别第j个行人样本的特征向量，N_c为训练集S_equ中c类样本总数量，c₁,c₂＝1,2,3,4。

相比于现有技术，本发明的优点在于：

本发明通过改善行人数据集中样本的分布平衡性和多样性以优化分类模型所能学习到的特征，而不需要增加检测所需的计算开销。

附图说明

图1为本发明实施例中一种面向热成像行人检测的样本处理方法的流程图；

图2为本发明实施例中样本特征提取的流程图；

图3a为本发明实施例中样本聚类后生成的骑车人子类的部分样本；

图3b为本发明实施例中样本聚类后生成的侧向行人子类的部分样本；

图3c为本发明实施例中样本聚类后生成的背向行人子类的部分样本；

图3d为本发明实施例中样本聚类后生成的正向行人子类的部分样本。

具体实施方式

提供以下参照附图的描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体的细节来帮助理解，但是这些被认为仅仅是示例性的。因此，本领域的普通技术人员将认识到，在不脱离本公开的范围和精神的情况下，可以对本文描述的各种实施例进行各种改变和修改。另外，为了清楚和简明，可以省略对公知功能和结构的描述。

在下面的描述和权利要求中使用的术语和词语不限于书面含义，而是仅由发明人使用使得能够清楚和一致地理解本公开。因此，本领域技术人员应该清楚，提供本公开的各种实施例的以下描述仅用于说明的目的，而不是为了限制由所附权利要求及其等同物限定的本公开。

实施例：

一种面向热成像行人检测的样本处理方法，如图1所示，包括以下步骤：

行人样本的类内差异来源于其身体姿态及拍摄角度的变化，要获取合适的行人子类别，使用的聚类信息非常重要。在红外图像中，行人由于自身恒定且高于环境温度的体表温度，会在画面中形成高亮的区域，类似于行人外轮廓的剪影，这样的特点导致红外图像中的行人虽然显眼，但可见光图像相比纹理会更少，也就更容易与场景中其他的高亮物体如车轮、车辆侧部件混淆。而对这些图像进行聚类时，算法的结果也会更倾向于将外轮廓相似的行人样本分配到同一个子类别，这一结果也是本方法所需要的。

S1、使用初始数据集划分训练集和测试集，训练初始的卷积网络模型；

本实施例中，划分训练集和测试集的划分比例为8：2。所述初始主干网络为五阶段串联的50层残差网络，每阶段由一个下采样模块和两个残差块组成，其中下采样模块用于缩减特征图的尺寸并增加其深度，而残差块的输入特征图与输出特征图的尺寸一致；由主干网络最后一层隐藏层输出特征图，主干网络的结构如图2所示，使用交叉熵损失通过随机梯度下降方法训练至收敛。

所述标注样本集合的构建，以像素高度大于40像素且不被遮挡为筛选条件对初始训练集中行人标注逐个筛选，获取所有符合条件的标注构成标注样本集合I；样本集合I中每个标注样本表示为其对应图像ID及其在该图像中的位置和尺寸参数x,y,w,h，其中，(x,y)为标注框左上角点的横、纵坐标，w,h则为标注框的宽和高。

所述样本特征是通过初始主干网络处理得到，其流程如图2所示；对于I中每一个样本x_i，将其对应图像输入初始主干网络，从初始主干网络提取全图特征图，提取特征图为初始主干网络最后一层隐藏层的输出；根据样本标注中位置和尺寸信息从特征图中截取样本特征，池化后统一映射到7x7x512维度；本实施例中，使用PCA将特征维度降至100维后截取前40维作为样本特征向量。

使用K-means算法对特征进行聚类：

以I中所有样本的特征向量作为K-means算法的输入，聚类簇中心数K设置为4，迭代至200轮后终止，聚类生成4个行人子类别，输出I中每个样本对应细分类标签；K-means算法的输出I中每个样本对应细分类标签，并记录每个细分类别聚类中心处样本。聚类算法输出每个特征对应的子类别标签，因此I中每个样本都能得到一个子类别标签，而对于训练集中不属于I的其他样本，对其单独分配为一个行人子类。

所述子类别标签生成，是以K-means算法输出的行人细分类别为依据，对初始训练集S_ori中所有行人样本分配标签c，c＝1,2,3,4,5；其中，I中每个样本获得其子类别标签c＝1,2,3,4，不属于I集合中的样本定义其子类别标签c＝5。

聚类算法将训练集中的行人分为4个子类别，各行人子类包含的行人样本如图3所示，其明显的根据行人姿势和角度聚类为骑车行人(图3a)、侧向行人(图3b)、背向行人(图3c)、正向行人(图3d)，说明主干网络在训练中已经学***衡操作，让神经网络平等的关注不同姿态行人，产生更具鲁棒性的特征表示。

所述平衡性判别指标，计算算式为：

为初始训练集S_ori中各行人子类别标注数量的均值。

所述平衡训练集中行人的类内分布，得到平衡训练集S_equ包括如下步骤：

为图像P中包含的类别为c的行人标注数量，c＝1,2,3,4；

通过行人类内细分以及类内平衡，得到平衡数据集，而当用此数据集进行深度神经网络模型训练时，对于行人的细分类别，单纯的平衡其数量是不足的，事实证明即使将不同子类别调整到数量上的接近，训练得到的模型在检测时仍会出现对部分姿态的更多的漏检，为了达到更好的检测效果，进一步的将训练过程中的训练数据进行分解。

S5、以平衡训练集S_equ为训练数据，配合类平衡损失函数训练新的卷积神经网络模型，完成面向热成像行人检测的样本处理；

对于不同的子类别，其在特征空间中的聚类中心与其他类别的距离是不等的，当类别间的样本数量差异消除后，这一部分的平衡能帮助模型更好的学习特征，对距离较远的难分类别给予更高的关注，为此在训练阶段改进损失函数来优化学习过程。

类平衡损失函数的算式为：

所述参数γ与其对应的类别c有关，对任意行人子类别c，γ的值为该类别与其他类别间相似度的平均值；计算不同类别间的相似度的算式为：

其中，<>代表取内积，

为c₁类别第i个行人样本的特征向量，/>

将平衡训练集训练得到的卷积神经网络模型与原数据集训练的卷积神经网络模型对比，其检测漏检率如下结果如下：

表1不同训练集所训练行人检测模型mAP对比

训练集	检测器结构	reasonable	all
				Set_ori	Faster_rcnn_resnet50_fpn	9.15	27.37
Set_equ	Faster_rcnn_resnet50_fpn	7.71	25.43
				Set_ori	Faster_rcnn_resnet101	8.24	27.47

测试结果表明，对红外行人数据集平衡操作后训练的模型有更高的精度。

下表为使用原训练集与平衡训练集分别训练的行人检测卷积网络模型在测试集中的漏检统计，漏检样本依据其角度和姿态分为四个类别，不能辨认的归为模糊类，其中reasonable表示所用标注数据滤除了高度小于50像素的样本。

表2不同训练集所训练行人检测模型漏检分布对比

/>

Claims

1.一种面向热成像行人检测的样本处理方法，其特征在于，包括以下步骤：

S2、从初始训练集S_ori中选取行人样本构成标注样本集合I，使用初始主干网络提取I中所有样本特征；

S4、离线统计训练集中行人类内分布，获取平衡性判别指标，平衡训练集中行人的类内分布，得到平衡训练集S_equ；所述平衡性判别指标，计算算式为：

其中，N_c为初始训练集S_ori中标签为c的行人标注数量，c＝1,2,3,4；

为初始训练集S_ori中各行人子类别标注数量的均值；所述平衡训练集中行人的类内分布，得到平衡训练集S_equ包括如下步骤：

为图像P中包含的类别为c的行人标注数量，c＝1,2,3,4；

S4.3、计算增强后的平衡性判别指标；当平衡性判别指标B<0或迭代满20轮时迭代中止，得到平衡训练集S_equ，否则跳至步骤S4.1；

2.根据权利要求1所述的一种面向热成像行人检测的样本处理方法，其特征在于，步骤S1中，所述初始主干网络为五阶段串联的50层残差网络，每阶段由一个下采样模块和两个残差块组成，其中下采样模块用于缩减特征图的尺寸并增加其深度，而残差块的输入特征图与输出特征图的尺寸一致；由主干网络最后一层隐藏层输出特征图。

3.根据权利要求1所述的一种面向热成像行人检测的样本处理方法，其特征在于，步骤S2中，所述标注样本集合的构建，以像素高度大于40像素且不被遮挡为筛选条件对初始训练集中行人标注逐个筛选，获取所有符合条件的标注构成标注样本集合I；样本集合I中每个标注样本表示为其对应图像ID及其在该图像中的位置和尺寸参数x,y,w,h，其中，(x,y)为标注框左上角点的横、纵坐标，w,h则为标注框的宽和高。

4.根据权利要求1所述的一种面向热成像行人检测的样本处理方法，其特征在于，步骤S2中，所述样本特征是通过初始主干网络处理得到；对于I中每一个样本x_i，将其对应图像输入初始主干网络，从初始主干网络提取全图特征图；根据样本标注中位置和尺寸信息从特征图中截取样本特征，池化后统一映射到7x7x512维度；使用PCA降维后截取前40维作为样本特征向量。

5.根据权利要求1所述的一种面向热成像行人检测的样本处理方法，其特征在于，步骤S3中，使用K-means算法对特征进行聚类：

6.根据权利要求1所述的一种面向热成像行人检测的样本处理方法，其特征在于，步骤S3中，所述子类别标签生成，是以K-means算法输出的行人细分类别为依据，对初始训练集S_ori中所有行人样本分配标签c，c＝1,2,3,4,5；其中，I中每个样本获得其子类别标签c＝1,2,3,4，不属于I集合中的样本定义其子类别标签c＝5。

7.根据权利要求1所述的一种面向热成像行人检测的样本处理方法，其特征在于，步骤S5中，类平衡损失函数的算式为：

其中，γ为超参数，用于定义不同类别样本在学习中的损失权重，其取值范围为0≤1；n_c为类别c在训练集中的样本数量，x为训练中模型输出的概率得分，x＝[x₁,x₂,x₃,x₄,x₅]^T，x_c为样本为类别c的概率。

8.根据权利要求7所述的一种面向热成像行人检测的样本处理方法，其特征在于，所述参数γ与其对应的类别c有关，对任意行人子类别c，γ的值为该类别与其他类别间相似度的平均值；计算不同类别间的相似度的算式为：

其中，<>代表取内积，

为c₁类别第i个行人样本的特征向量，/>

为c₂类别第j个行人样本的特征向量，N_c为训练集S_equ中c类样本总数量，c₁,c₂＝1,2,3,4。/>