CN113052136A

CN113052136A - 一种基于改进Faster RCNN的行人检测方法

Info

Publication number: CN113052136A
Application number: CN202110437461.5A
Authority: CN
Inventors: 卞海彤; 刘斌
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-06-29
Anticipated expiration: 2041-04-22
Also published as: CN113052136B

Abstract

本发明涉及一种基于Faster RCNN的行人检测方法，属于目标检测和计算机视觉技术领域。本发明针对在行人检测的实际应用中，类别之间的比例严重不平衡，导致预测结果将存在偏差这一问题，基于检测效果较好的Faster RCNN检测网络做出改进。本发明包括：将获取的行人检测数据集进行预处理；单独训练RPN网络，采用改进的K‑meansSMOTE算法平衡正负样本，使用RPN网络提取训练集上的候选区域作为Fast R‑CNN的训练样本；训练RPN网络和Fast R‑CNN网络，共享卷积层特征，获得训练好后的FasterRCNN行人检测模型；将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型，得到最终的检测结果。本发明方法降低了漏检率，提高了基于Faster RCNN的行人检测模型的检测性能。

Description

一种基于改进Faster RCNN的行人检测方法

技术领域

本发明属于人脸识别领域，尤其涉及一种基于改进Faster RCNN的行人检测方法。

背景技术

随着科学技术的不断提高和互联网应用的高速发展，人们的生活正发生着日新月异的变化，人脸识别、指纹解锁、语音助手等人工智能技术的应用也逐渐随处可见。计算机视觉作为人工智能技术的重要一环，通过计算机等设备代替人类的眼睛，让人们不再受制于视野的局限性，通过对视频或图片的处理，达到目标检测、目标追踪等目的，所以，计算机视觉技术具有广泛的应用场景。同时，计算机视觉也因为不断更新的计算机软硬件、图像采集和处理设备等后备保障而在飞速发展。而行人检测技术一直是计算机视觉研究中的热点和难点。

行人检测简单来说，就是判断视频或图像中是否存在行人并给出行人较为精确的位置信息。行人检测技术与行人重识别、行人跟踪等技术结合，有着很强的实用价值，被广泛应用于如智能交通***、智能监控***、机器人、人机交互***等领域。因此，行人检测越来越受到工业界和学术界研究者的重视。近年来，深度卷积神经网络在计算机视觉任务中取得了巨大的成功，采用深度学习方法的目标检测总是有较好的效果。因此，研究人员试图利用一些成功的深度学习技术来解决行人检测任务。在大多数行人检测技术的应用当中，行人检测算法不仅需要有较高的检测速度，同时，还需具备较高的检测精度，因此本专利对基于区域建议的Faster RCNN进行改进，来提高行人检测性能。

Faster RCNN是在R-CNN和Fast RCNN的基础上的改进，是一种基于区域建议的两阶段检测算法。传统的目标检测算法流程包括生成候选框、提取候选框特征、对候选框进行分类与回归，而Faster RCNN将这些步骤通过一个卷积神经网络来实现，这样既简化了传统的检测***，又在很大程度上提升了训练效率。Faster RCNN框架主要包含基础特征提取网络、区域建议网络和Fast RCNN这三个部分，其中区域建议网络和Fast RCNN共享卷积特征提取网络，可以大大减少计算时间。Faster RCNN整体检测流程如图1所示。

Faster RCNN算法的检测流程分为三个步骤：(1)将任意尺寸的图像缩放为网络预设的尺寸后，输入进一个基础CNN网络，在共享卷积层中，向前传播至检测网络的特有卷积层，提取目标图像的特征向量；(2)将特征图输入进RPN网络，生成候选区域与该区域属于目标行人的概率得分，采用非极大值抑制法，筛选出概率大的候选区域；(3)将生成的候选框经过感兴趣区域池化(Region of Interest Pooling,ROI Pooling)后，通过Fast RCNN进行分类与位置回归操作。经过这三个步骤，基本可以得到最终的检测结果。

Faster RCNN作为一个两阶段的检测算法亮点在于提出了RPN，RPN位于整个Faster RCNN框架的中间部分，用于提取候选框，耗时少，可以很容易与Fast R-CNN结合，成为一个整体。在RPN阶段会生成一些锚点，特征图的每个点都会以这个点为中心预测k个锚框，原始的Faster RCNN模型包含了3种尺度[8,16,32]和3种宽高比[1,0.5,2]共9种锚框，所有锚框是输入图像上对应的区域，在RPN阶段会生成大约20000个anchor，再使用非极大值抑制算法对整张图片产生的候选区域中的多余的候选区域进行剔除，用来预测目标的边界框。

RPN的损失函数形式如公式1所示。其中L_cls是分类损失函数，L_reg是回归损失函数，p_i是anchor[i]的预测概率。若anchor[i]为正样本，p_i ^*值为1；若anchor为负样本，p_i ^*值为0。t_i是anchor[i]预测的边界框的参数化坐标，

是anchor[i]的真实边界框的参数化坐标。这两部分由小批量的大小N_cls和anchor位置数量N_reg进行规范化，并通过一个平衡参数λ进行加权。

RPN通过反向传播和随机梯度下降进行端对端训练，在图像中随机采样256个锚点，计算一个小批量数据的损失函数，理想状态下，采样的正样本和负样本的比率为1:1。如果图像中的正样本少于128个，使用负样本进行补足。

Faster RCNN在RPN中第一次回归候选框时已经过滤了大部分无意义的负样本，这样最后回归检测框时能做到比大部分单阶段方法更为精确。

行人检测是对于给定的图片，选定的感兴趣区域，再根据区域包含的特征对它是否是要检测的对象做出判断，最终再判断是否为行人并得到它的位置。Faster RCNN网络在通用的目标检测领域表现优异，但是对于行人检测任务却表现不好，因为在行人检测实际应用中，可能会碰到一种比较头疼的问题，比如类别之间的比例严重不平衡，因为一张图片中行人往往也是占很少一部分。如果数据存在严重的不平衡，预测得出的结论往往也是有偏的，即分类结果会偏向于较多观测的类。Faster RCNN算法是先使用RPN生成候选区域，再对该区域进行分类与回归位置，是一种基于分类思想的目标检测算法，这样的算法往往存在样本不平衡的问题，会导致检测模型降低训练效率和检测精度。

发明内容

发明目的：为了解决样本不均衡情况下检测性能不佳的问题，提出一种基于改进Faster RCNN行人检测方法。

技术方案：本发明提出一种基于改进Faster RCNN的行人检测方法，该方法包括以下步骤：

步骤1：获取行人检测数据样本制作数据集，并进行预处理；

步骤2：单独训练RPN网络，采用K-means SMOTE算法平衡正负样本，使用RPN网络提取训练集上的候选区域作为Fast R-CNN的训练样本；

步骤3：训练RPN网络和Fast R-CNN网络，共享卷积层特征，获得训练好后的FasterRCNN行人检测模型；

步骤4：将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型，得到最终的检测结果。

进一步，步骤1所述数据集生成具体过程为：

步骤1.1：从Caltech数据集获取行人检测所需的用来训练和检测的数据样本。

步骤1.2：预处理将获取的数据样本转化为标准的VOC数据格式，再生成对应的带标注的文件。

进一步，步骤2所述训练RPN网络具体过程为：

步骤2.1：将训练样本输入到基础网络VGG-16，生成用于RPN网络训练的前景样本和背景样本，具体过程为：

步骤2.1.1：将训练集中的图片通过VGG-16进行特征提取；

步骤2.1.2：对于特征图的每一个点，输出3种尺度和3种长宽比的9个anchors；

步骤2.1.3：对于训练集中的每张图像，通过计算真值区域和anchors的重叠比例，与设置的阈值进行对比，大于阈值的为前景样本，则此anchor为正样本，其余为背景样本，则此anchor为负样本；

步骤2.2：训练RPN时每个mini-batch包含从一张图像中随机提取的256个anchors，此时正负样本不均衡，采用K-means SMOTE算法生成新的正样本来平衡正负样本的具体过程为：

步骤2.2.1：将抽取的256个anchors中心点向量作为一个数据集，将不均衡数据集分为正样本集和负样本集；

步骤2.2.2：对于负样本集Smax，负样本总数为S，通过k-means聚类，簇划分A＝{A₁，A₂，…，A_a}，划分后每个负样本子簇中心点向量：{μ₁，μ₂，…，μ_a}，每个负样本子簇的anchor样本数量：{m₁，m₂，…，m_a}，a为负样本通过聚类划分的聚类的个数；

步骤2.2.3：对于正样本集Smin，正样本总数为s，通过k-means聚类，簇划分B＝{B₁，B₂，…，B_b}，划分后每个正样本子簇中心点向量：{λ₁，λ₂，…，λ_b}，每个正样本子簇的anchor样本数量：{M₁，M₂，…，M_b}，b为正样本通过聚类划分的聚类的个数；

步骤2.2.4：对于每一个正样本子簇，找出所有有效正样本子簇，在这些有效正样本子簇中生成新的正样本，找出所有有效正样本子簇的具体过程为：

步骤2.2.4.1：设有效正样本子簇点数量至少为δ，遍历步骤2.2.3中划分的正样本子簇B_i，i＝1,2,...,b，如果M_i＜δ，则B_i不是有效正样本子簇，如果M_i≥δ，继续步骤2.2.4.2；

步骤2.2.4.2：设有效正样本子簇中心点与任意负样本子簇中心点的欧式距离不得低于ξ，对于符合步骤2.2.4.1的所有正样本子簇，计算它们的中心点向量λ_i与所有负样本子簇中心点向量μ_j欧氏距离，如果dist(λ_i,μ_j)＜ξ，则B_i不是有效正样本子簇；如果dist(λ_i,μ_j)≥ξ，则B_i是有效正样本子簇，j＝1,2,...,a；

步骤2.2.4.3：按照以上两个步骤得到k个有效正样本子簇C＝{C₁,C₂,...,C_k}，对应的每个有效正样本子簇的anchor样本数量：Mm＝{Mm₁,Mm₂,...,Mm_k}；

步骤2.2.5：根据不均衡数据集的正负样本比例，计算为了均衡样本所需添加的正样本的数量N，假设步骤2.2.4中得到的每一个有效正样本子簇C_q对应需要合成的正样本数为n_q，满足

则

q＝1,2,...k；

步骤2.2.6：在每个有效正样本子簇中，通过线性插值依次合成n_q个新样本，直到每个子簇都生成对应数量的新样本，合成新样本的具体过程为：

步骤2.2.6.1：对于有效正样本子簇C_q中的中心点x_q，以欧氏距离为标准计算x_q到C_q中所有正样本的距离，按距离由小到大的顺序从C_q中选择x_q的w个近邻样本；

步骤2.2.6.2：在w个近邻样本中随机选择n_q个样本，记为y_u，在x_q与y_u之间进行随机线性插值，构造新的正样本new_u＝x_q+rand(0，1)*(y_u-x_q)，u＝1,2,...,n_q；

步骤2.2.6.3：将每个有效正样本子簇中生成的新正样本组成一个新正样本集；

步骤2.2.7：将步骤2.2.6生成的新正样本集加入原来随机抽取的256个anchors样本集组成一个样本均衡的新训练集S_new；

步骤2.3：将平衡样本后的训练集用来训练RPN，利用训练好的RPN网络生成候选框。

进一步，步骤3所述训练Faster RCNN行人检测模型具体过程为：

步骤3.1：利用RPN网络生成的候选框去训练Fast RCNN网络参数；

步骤3.2：保持RPN网络和Fast RCNN网络共享的卷积层固定，调整Fast RCNN的全连接层，使两个网络共享相同的卷积层，构成一个统一的网络，得到训练好的Faster RCNN模型；

进一步，步骤4所述将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型，得到最终的检测结果，具体过程为：

步骤4.1：将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型；

步骤4.2：Faster RCNN行人检测模型使用已经训练好的网络，自动进行候选区域生成、特征提取、候选区域分类以及位置回归；

步骤4.3：输出行人检测结果。

有益效果：与现有技术相比，本发明的技术方案具有以下有益技术效果：

本发明在训练RPN网络时遇到正负样本不均衡的情况下，引入了改进的K-meansSMOTE算法，通过增加有效正样本的数量，来平衡训练集样本，训练出来的模型不再会偏向于负样本，降低了漏检率，提高了基于Faster RCNN的行人检测模型的检测性能。

附图说明

图1是本发明中加入K-means SMOTE算法改进后的Faster RCNN模型示意图。

图2是K-means SMOTE算法生成新的有效正样本流程图。

图3是本发明中K-means算法对原RPN训练集数据样本聚类示意图。

图4是本发明中线性插值算法示意图。

图5是本发明提出的改进Faster RCNN的行人检测模型示例对比图。

具体实施方式

本发明提出一种基于改进Faster RCNN的行人检测方法，该方法包括以下步骤：

步骤1：获取行人检测数据样本制作数据集，并进行预处理；

进一步，步骤1所述数据集生成具体过程为：

进一步，步骤2所述训练RPN网络具体过程为：

步骤2.1.1：将训练集中的图片通过VGG-16进行特征提取；

则

q＝1,2,...k；

进一步，步骤3所述训练Faster RCNN行人检测模型具体过程为：

步骤3.1：利用RPN网络生成的候选框去训练Fast RCNN网络参数；

步骤4.3：输出行人检测结果。

Claims

1.一种基于改进Faster RCNN的行人检测方法，其特征在于，该方法包括以下步骤：

步骤1：获取行人检测数据样本制作数据集，并进行预处理；

步骤2：训练RPN网络，采用K-means SMOTE算法平衡正负样本，使用RPN网络提取训练集上的候选区域作为Fast R-CNN的训练样本；

2.根据权利要求1所述的一种基于改进Faster RCNN的行人检测方法，其特征在于，步骤1的具体方法如下：

步骤1.1：从Caltech数据集获取行人检测所需的用来训练和检测的数据样本；

3.根据权利要求1或2所述的一种基于改进Faster RCNN的行人检测方法，其特征在于，步骤2的具体方法如下：

步骤2.1.1：将训练集中的图片通过VGG-16进行特征提取；

步骤2.2.2：对于负样本集Smax，负样本总数为S，通过k-means聚类，簇划分A＝{A₁，A₂，...，A_a}，划分后每个负样本子簇中心点向量：{μ₁，μ₂，...，μ_a}，每个负样本子簇的anchor样本数量：{m₁，m₂，...，m_a}，a为负样本通过聚类划分的聚类的个数；

步骤2.2.3：对于正样本集Smin，正样本总数为s，通过k-means聚类，簇划分B＝{B₁，B₂，...，B_b}，划分后每个正样本子簇中心点向量：{λ₁，λ₂，...，λ_b}，每个正样本子簇的anchor样本数量：{M₁，M₂，...，M_b}，b为正样本通过聚类划分的聚类的个数；

步骤2.2.4.1：设有效正样本子簇点数量至少为δ，遍历步骤2.2.3中划分的正样本子簇B_i，i＝1，2，...，b，如果M_i＜δ，则B_i不是有效正样本子簇，如果M_i≥δ，继续步骤2.2.4.2；

步骤2.2.4.2：设有效正样本子簇中心点与任意负样本子簇中心点的欧式距离不得低于ξ，对于符合步骤2.2.4.1的所有正样本子簇，计算它们的中心点向量λ_i与所有负样本子簇中心点向量μ_j欧氏距离，如果dist(λ_i，μ_j)＜ξ，则B_i不是有效正样本子簇；如果dist(λ_i，μ_j)≥ξ，则B_i是有效正样本子簇，j＝1，2，...，a；

步骤2.2.4.3：按照以上两个步骤得到k个有效正样本子簇C＝{C₁，C₂，...，C_k}，对应的每个有效正样本子簇的anchor样本数量：Mm＝{Mm₁，Mm₂，...，Mm_k}；

步骤2.2.5：假设步骤2.2.4中得到的每一个有效正样本子簇C_q对应需要合成的正样本数为n_q，满足

则

4.根据权利要求3所述的一种基于改进Faster RCNN的行人检测方法，其特征在于，步骤3中，训练Faster RCNN行人检测模型具体过程为：

步骤3.1：利用RPN网络生成的候选框去训练FastRCNN网络参数；

步骤3.2：保持RPN网络和Fast RCNN网络共享的卷积层固定，调整Fast RCNN的全连接层，使两个网络共享相同的卷积层，构成一个统一的网络，得到训练好的Faster RCNN模型。

5.根据权利要求1或4所述的一种基于改进Faster RCNN的行人检测方法，其特征在于，步骤4中，将待检测的行人图像输入到训练好后的Faster RCNN行人检测模型，得到最终的检测结果，具体过程为：

步骤4.3：输出行人检测结果。