CN109978035B

CN109978035B - 基于改进的k-means和损失函数的行人检测方法

Info

Publication number: CN109978035B
Application number: CN201910202078.4A
Authority: CN
Inventors: 郭杰; 郑佳卉; 吴宪云; 李云松; 解静; 邱尚锋; 林朋雨
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2021-04-02
Anticipated expiration: 2039-03-18
Also published as: CN109978035A

Abstract

本发明提出了一种基于改进的k‑means和损失函数的行人检测方法，用于对包含行人目标的视频或图像进行分类和识别，主要解决现有技术中聚类结果不准确和预测框不能根据自身尺寸特征学习损失的问题，实现步骤为：构建训练集和测试集；基于改进的k‑means算法对训练集进行聚类；对YOLOv3检测网络的损失函数进行改进；基于改进的损失函数对训练集进行训练；对测试集进行检测。本发明在聚类阶段筛除训练集标注信息中的无效数据，将得到的有效数据进行聚类，从而得到更精确的候选框初始化尺寸，还使不同预测框根据自身尺寸特征学习不同的预测损失，从而得到更准确的行人目标检测网络。

Description

基于改进的k-means和损失函数的行人检测方法

技术领域

本发明属于目标检测技术领域，涉及一种行人检测方法，具体涉及一种基于改进的k-means和改进的损失函数的行人检测方法，可用于对包含行人目标的视频或图像进行分类和识别。

背景技术

行人检测是指对视频或图像中行人的位置坐标和置信度进行检测，衡量检测结果的主要指标有检测精度和检测速度，其中最重要的衡量指标为检测精度，而检测精度往往受到行人特征和损失函数的影响。

目前，常用的行人检测方法依据对行人特征的提取方式不同可以分为基于传统算法的行人检测和基于深度学习的行人检测两类。

传统的行人检测方法主要有全局特征的检测方法、基于局部特征提取的检测方法和基于多特征的检测方法。基于全局特征的检测方法主要是通过整幅图的梯度方向直方图检测行人的轮廓从而找到行人的位置。基于局部特征提取的检测方法主要是提取输入图片的局部特征通过匹配行人特征进行检测。基于多特征的检测方法主要是对灰度，轮廓等多种类型特征进行提取检测并综合这些特征的检测结果。以上三种方法的共同优点是简单快速，但是由于行人特征对光照、背景和遮挡等因素比较敏感，在检测时容易引入背景噪声和光线干扰，因此传统的行人检测方法检测精度较低。

深度学习的发展为行人检测的研究带来了新的思路。基于深度学习的行人检测方法主要有基于候选框选取的检测方法和基于端到端的检测方法，基于候选框选取的检测方法主要是人工选取候选框再进行网络训练，尽管该方法具有良好的检测效果，但由于其事先选取候选框导致网络的检测效率很低。

近年来，基于端到端的检测方法由于其具有较好的检测精度和检测效率逐渐成为行人检测领域的主流方法，该方法以基于深度学习的目标检测网络为基础网络，利用聚类的方法对候选框的尺寸进行初始化，从而让候选框的初始尺寸接近行人特征的尺寸，使得网络更加容易收敛，然后利用损失函数对训练集进行训练，得到行人检测网络模型，最后使用行人检测网络模型对测试集图片进行检测得到所有行人目标的位置坐标和置信度。然而目前大多数行人检测算法所采用的基础网络检测精度仍不理想，如YOLOv1、YOLOv2等，因此这些行人目标检测算法的检测精度均较低。例如，申请公布号为CN 109325418A，名称为“基于改进YOLOv3的道路交通环境下行人识别方法”的专利申请，公开了一种通过改进的YOLOv3进行行人检测的方法。该方法以YOLOv3为基础网络，首先在使用k-means聚类的过程中增加了候选框的个数，从而增加了网络提取特征的能力，然后又在网络利用损失函数进行训练时，增大了损失函数中的坐标损失函数的权重，得到行人检测网络模型。但该方法在使用k-means进行聚类时没有考虑到训练集中标注信息无效的情况，使得聚类结果不准确；并且该方法在计算损失时没有考虑不同尺寸预测框对坐标损失函数中的坐标误差和宽高误差学习比重不同的问题，使得预测框不能根据自身尺寸特征学习损失。因此，如何筛选出训练集标注信息中的有效数据和计算更为准确的损失仍是该领域亟待解决的问题。

发明内容

本发明的目的在于针对上述已有的行人检测技术的不足，提出一种基于改进的k-means和损失函数的行人检测方法，旨在提高不同场景下行人目标的检测精度。

本发明的技术思路是：首先构建训练集和测试集，其次使用改进的k-means聚类算法对训练集的标注信息进行聚类，并将聚类结果作为YOLOv3网络候选框的尺寸初始化值，然后基于YOLOv3网络中改进的损失函数对训练集进行训练，最后利用训练好的行人检测网络模型对测试集进行检测。

根据上述技术思路，实现本发明目的采取的技术方案包括如下步骤：

(1)构建训练集和测试集：

(1a)将采集的任意场景下行人视频中连续或非连续的N帧图像以jpg图片的形式保存到JPEGImages文件夹中，并对各幅图片进行命名，N＞1000；

(1b)将JPEGImages文件夹中半数以上的图片作为训练图片集，其余图片作为测试图片集，并将训练图片集中所有图片的名称写入ImageSets/Main文件夹下的trainval.txt文件中，同时将测试图片集中所有图片的名称写入ImageSets/Main文件夹下的test.txt文件中；

(1c)对训练图片集和测试图片集中的每幅图片所包含的不同行人进行画框标注，并保存标注框的坐标数据，然后将标注框中所包含的行人目标的类别person以及每幅图片中包含的标注框的坐标数据保存到xml文件中，得到由多个xml文件组成的Annotations文件夹，其中每个xml文件的名称与其对应行人图片的名称相同；

(1d)将从Annotations文件夹中选取的与trainval.txt文件中图片名称相同的xml文件作为训练图片集的标注信息集，与test.txt文件中图片名称相同的xml文件作为测试图片集的标注信息集，并将训练图片集的标注信息集写入darknet文件夹下的train.txt文件中，将测试图片集的标注信息集写入darknet文件夹下的test.txt文件中，所述训练图片集和其对应的xml标注信息集构成训练集，测试图片集和其对应的xml标注信息集构成测试集；

(2)基于改进的k-means算法对训练集进行聚类：

(2a)对训练集中的标注信息进行筛选：

(2a1)将从训练集对应的xml标注文件中提取到的坐标数据写入长度为l的数组data_xml中，将从data_xml中读取的第一组坐标数据作为当前坐标数据，并初始化其在data_xml中的当前索引值q＝0；

(2a2)定义data_xml中q对应的坐标数据：将标注框左上角对应的x轴投影坐标定义为x_min，标注框左上角对应的y轴投影坐标定义为y_min，标注框右下角对应的x轴投影坐标定义为x_max，标注框右下角对应的y轴投影坐标定义为y_max；

(2a3)计算x_min与x_max的差值x_d，y_min与y_max的差值y_d，并判断x_d和y_d对应的data_xml中的数据是否为有效数据，若x_d＝0或y_d＝0，则x_d和y_d对应的data_xml中的数据为无效数据，删除该无效数据，l＝l-1，并执行步骤(2a2)；若x_d≠0且y_d≠0，则x_d和y_d对应的data_xml中的数据为有效数据，执行步骤(2a4)；

(2a4)计算x_d与y_d的商div，并根据div＞3是否成立判断div对应的data_xml中的数据的有效性，若是，则div对应的data_xml中的数据为无效数据，删除该无效数据，l＝l-1，并执行步骤(2a5)，否则，则div对应的data_xml中的数据为有效数据，令q＝q+1，并执行步骤(2a5)；

(2a5)重复执行步骤(2a2)～(2a4)直到q＝l，得到有效标注信息；

(2b)对有效标注信息进行聚类：

(2b1)设聚类中心的个数为k，k>0，构建以data_xml的长度l为行数，以k为列数的二维矩阵data_k，data_k的行表示data_xml中保存的有效标注信息，列表示聚类中心的值，并初始化data_k为0，；

(2b2)对k个聚类中心分别进行随机初始化；

(2b3)计算data_xml中l个有效标注信息与k个聚类中心的距离值，并将每个距离值写入data_k中有效标注信息对应的行和聚类中心对应的列所在的位置；

(2b4)将data_k中每一行对应的有效标注信息作为该每一行中最小距离值所在的列对应聚类中心的成员，并将每个聚类中心的数值更新为由该每个聚类中心成员宽和高的均值；

(2b5)重复步骤(2b3)和(2b4)，直到k个聚类中心的值不再变化为止，并将k个聚类中心的值作为聚类结果；

(3)对YOLOv3检测网络的损失函数进行改进：

将YOLOv3检测网络损失函数中的坐标损失函数修改为Loss'_coord：

t_i＝2-w_i×h_i

其中，λ_coord表示网络对预测框坐标的权重参数，l.w表示网络在图片宽上划分的尺寸，l.h表示网络在图片高上划分的尺寸，l.n表示网络中预测框的个数，i为对l.w×l.h迭代的变量，j为对l.n迭代的变量，w_i表示预测框的宽，

表示标注框的宽，h_i表示预测框的高，

表示标注框的高，x_i表示预测框的左上角坐标在x轴的投影，

表示x_min，y_i表示预测框的左上角坐标在y轴的投影，

表示y_min；

(4)基于改进的损失函数对训练集进行训练：

(4a)将聚类结果作为YOLOv3网络候选框的尺寸初始化值；

(4b)基于YOLOv3网络中改进的损失函数对训练集进行K次迭代训练，K＞10000，得到行人检测网络模型；

(5)对测试集进行检测：

将待检测的测试集输入到行人检测网络模型中进行检测，得到每个行人目标的位置坐标和置信度。

本发明与现有技术相比，具有如下优点：

本发明对YOLOv3中的损失函数进行改进，对小尺寸预测框加大了坐标损失函数中坐标误差的学习权重，避免了预测框不能根据自身尺寸特征学习损失的缺陷，同时，本发明对k-means聚类算法进行改进，对训练集中标注框的宽高大小及宽高比的值进行筛选，保留有效数据的同时去除无效数据，并对有效数据进行聚类，避免了无效标注信息使得聚类结果不准确而影响检测精度的缺陷，仿真结果表明，与现有技术相比本发明有效地提高了行人检测的检测精度。

附图说明

图1是本发明实现流程图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，本发明包括如下步骤：

步骤1)构建训练集和测试集：

步骤1a)将摄像机、无人机或手机拍摄的任意场景下行人的视频中连续或非连续的N帧图片每隔10帧提取一帧图片并保存到JPEGImages文件夹中，N＞10000，本实施例中采用的是手机拍摄的道路中行人视频中连续的12000帧图片，将各幅图片命名为不同的名字，其中视频的分辨率为1920×1080，JPEGImages文件夹中保存的图片的数量不少于1000幅；

步骤1b)将JPEGImages文件夹中半数以上的图片作为训练图片集，其余图片作为测试图片集，本实施例中使用7:3的比例划分训练图片集和测试图片集，并将训练图片集中所有图片的名称写入ImageSets/Main文件夹下的trainval.txt文件中，同时将测试图片集中所有图片的名称写入ImageSets/Main文件夹下的test.txt文件中，其中每幅图片的名称在trainval.txt文件和test.txt文件中作为一行；

步骤1c)对训练图片集和测试图片集中的每幅图片所包含的行人目标进行画框标注：

步骤1c1)对行人目标的类别及位置坐标(x_min,y_min,x_max,y_max)进行标注，其中每个行人目标的类别均为person，x_min为标注框左上角对应的x轴投影坐标，y_min为标注框左上角对应的y轴投影坐标，x_max为标注框右下角对应的x轴投影坐标，y_max为标注框右下角对应的y轴投影坐标；

步骤1c2)将训练图片集和测试图片集的每幅图片中所有行人目标的标注信息以xml格式进行保存，得到由多个xml格式文件组成的Annotations文件夹，其中每个xml格式文件的名称与其包含的标注信息所对应的图片名称相同，如图片000001.jpg所对应的标注信息文件名称为000001.xml，将JPEGImages文件夹、Annotations文件夹和ImageSets文件夹放入文件夹darknet中；

步骤1d)将从Annotations文件夹中选取的与trainval.txt文件中图片名称相同的xml文件作为训练图片集的标注信息集，与test.txt文件中图片名称相同的xml文件作为测试图片集的标注信息集，并将训练图片集的标注信息集写入darknet文件夹下的train.txt文件中，将测试图片集的标注信息集写入darknet文件夹下的test.txt文件中，所述训练图片集和其对应的xml标注信息集构成训练集，测试图片集和其对应的xml标注信息集构成测试集；

步骤2)基于改进的k-means算法对训练集进行聚类：

步骤2a)对训练集中的标注信息进行筛选：

步骤2a1)构建数组data_xml，使用python中的obj.findtext从所有训练集的xml文件中提取坐标数据，并将坐标数据依次写入data_xml中，其中data_xml的每一个成员都表示一组坐标数据，使用python中的len函数计算data_xml的长度l，读取data_xml中的第一组坐标数据，并初始化data_xml的当前索引值q＝0；

步骤2a2)定义data_xml中q对应的坐标数据：将标注框左上角对应的x轴投影坐标定义为x_min，标注框左上角对应的y轴投影坐标定义为y_min，标注框右下角对应的x轴投影坐标定义为x_max，标注框右下角对应的y轴投影坐标定义为y_max；

步骤2a3)计算x_min与x_max的差值x_d，y_min与y_max的差值y_d，其中x_min、x_max、y_min和y_max均为浮点型数，并判断x_d和y_d对应的data_xml中的数据是否为有效数据，若x_d＝0或y_d＝0，则x_d和y_d对应的data_xml中的数据为无效数据，使用python中的del函数在data_xml中删除这一组无效数据，l＝l-1，并执行步骤(2a2)；若x_d≠0且y_d≠0，则x_d和y_d对应的data_xml中的数据为有效数据，执行步骤(2a4)；

步骤2a4)计算x_d与y_d的商div，并根据div＞3是否成立判断div对应的data_xml中的数据的有效性，若是，则div对应的data_xml中的数据为无效数据，使用python中的del函数在data_xml中删除这一组无效数据，l＝l-1，并执行步骤(2a5)，否则，则div对应的data_xml中的数据为有效数据，令q＝q+1，并执行步骤(2a5)；

步骤2a5)重复执行步骤(2a2)～(2a4)直到q＝l，得到有效标注信息，即此时data_xml中的全部标注信息；

步骤2b)对有效标注信息进行聚类：

步骤2b1)人为设置聚类中心的个数为k，k>0，本实施例中k为9，构建二维矩阵data_k，其行数为此时data_xml的长度l，列数为k，data_k的行表示data_xml中保存的有效标注信息，列表示聚类中心的值，并使用python中的np.zeros初始化data_k为0，；

步骤2b2)使用python中的np.random.choice对k个聚类中心分别进行随机初始化，其中每个聚类中心为一组长度为2的浮点型数组，将聚类中心的值写入名为clusters的boxes中；

步骤2b3)计算data_xml中l个有效标注信息与k个聚类中心的距离值d(box,centroid)，计算表达式为：

d(box,centroid)＝1-IOU(box,centroid)

box＝x_d×y_d

其中centroid表示聚类中心中两个浮点型成员的乘积，box∩centorid表示box与centroid的交集，box∪centorid表示box与centroid的并集，然后将每个d(box,centroid)写入data_k中有效标注信息对应的行和聚类中心对应的列所在的位置；

步骤2b4)使用python中的np.argmin计算data_k每一行中最小距离值所在的列并记录到变量nearest_clusters中，在python中使用如下语句对每一个聚类中心进行更新：

clusters[cluster]＝dist(boxes[nearest_clusters＝＝cluster],axis＝0)

其中，cluster为聚类中心的索引，在python中每执行一次上述语句cluster加一，直到对所有聚类中心都更新完毕为止，更新后的聚类中心依然存放在名为clusters的boxes中；

步骤2b5)重复步骤(2b3)和(2b4)，直到k个聚类中心的值不再变化为止，并将k个聚类中心的值作为聚类结果；

步骤3)对YOLOv3检测网络的损失函数进行改进：

将darknet/src文件夹中region_layer.c文件的delta_region_box函数中的坐标损失函数修改为Loss'_coord：

t_i＝2-w_i×h_i

则YOLOv3中完整的改进损失函数Loss'为：

Loss'＝Loss_noobj+Loss_obj+Loss_class+Loss'_coord

其中，Loss_noobj表示不包含目标的预测框的置信度损失函数，Loss_obj表示包含目标的预测框的置信度损失函数，Loss_class表示类别损失函数，Loss'_coord表示改进的坐标损失函数，λ_coord表示网络对预测框坐标的权重参数，l.w表示网络在图片宽上划分的尺寸，l.h表示网络在图片高上划分的尺寸，l.n表示网络中预测框的个数，i为对l.w×l.h迭代的变量，j为对l.n迭代的变量，w_i表示预测框的宽，

表示标注框的宽，h_i表示预测框的高，

表示标注框的高，x_i表示预测框的左上角坐标在x轴的投影，

表示x_min，y_i表示预测框的左上角坐标在y轴的投影，

表示y_min，Loss_noobj表示不包含目标的预测框的置信度损失函数，Loss_obj为包含目标的预测框的置信度损失函数，Loss_class为类别损失函数，λ_noobj表示不包含目标的预测框对应的系数，

是表示该预测框是否不包含目标的参数，c_i为预测框置信度，

为标注框置信度，λ_obj表示包含目标的预测框对应的系数，

是表示该预测框是否包含目标的参数；λ_class表示包含目标类别的预测框对应的系数，c表示针对类别的迭代变量，class表示数据集中总的类别，p_i(c)表示预测框中含有c类别的概率，

表示标注框中含有c类别的概率；

步骤4)基于改进的损失函数对训练集进行训练：

步骤4a)对行人检测网络的训练参数进行初始化设置：

修改voc.data文件中训练集与测试集的路径，并将最大迭代次数max_batches设为50200次，图片批处理大小为64，初始学习率为10^-3，动量为0.9；

步骤4b)将聚类结果作为YOLOv3网络候选框的尺寸初始化值：

在yolov3-voc.cfg文件中的anchors中写入聚类结果；

步骤4c)基于YOLOv3网络中改进的损失函数对训练集进行K次迭代训练，K＞10000，本实施例中K为20000，得到行人检测网络模型；

步骤5)对测试集进行检测：

步骤5a)在darknet文件夹下输入shell命令：

./darknet detector test cfg/voc.data cfg/yolov3-voc.cfg yolov3-voc_20000.weights

步骤5b)行人检测网络模型依据输入的shell命令，通过改进的损失函数对读入的测试集图片进行前向计算，得到每个行人目标的位置坐标和置信度，并保存在data/out文件夹中。

以下结合仿真实验，对本发明的技术效果作进一步说明：

1.仿真条件和内容：

本发明的仿真实验是在Intel(R)Xeon(R)CPU E5-2650 [email protected]，GeForce GTX1080ti x4，32G内存的配置环境下实现的。实验中使用的行人视频数据来源于采用红米note7手机实际拍摄的西安电子科技大学校园内及附近道路的行人。

仿真实验：使用基于改进k-means和改进损失函数的行人检测方法与现有技术对行人检测的检测精度做对比仿真，根据本发明构建训练集和测试集后，首先对训练集的标注信息利用改进的k-means进行有效数据筛选，之后分别对训练集标注信息中的有效数据和全部数据进行聚类得到各自的聚类结果，将两个聚类结果分别作为基于改进损失函数的YOLOv3和现有技术中网络候选框的初始化尺寸，然后利用YOLOv3中改进的损失函数对训练集进行20000次训练的同时利用现有技术网络对训练集进行20000次训练，最终得到各自的行人检测网络模型，将测试集分别输入到两个行人检测网络模型中得到两个模型分别检测出的每个行人目标的位置坐标和置信度结果，并统计两种方法的检测精度，具体检测精度对比如下表所示。

2.仿真结果分析：

本发明所得到的行人检测结果与现有技术相比具有明显的优势，现有技术与本发明的检测精度如表1所示：

表1 检测精度对比表

评价指标	现有技术	本发明
			检测精度	87.3	89.0

从表中可以明显看出，本发明得到的检测精度更大，表明本发明对行人目标的检测效果强于现有技术。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制。对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于改进的k-means和损失函数的行人检测方法，其特征在于，包括如下步骤：

(1)构建训练集和测试集：

(1a)将采集的任意场景下行人视频中连续或非连续的N帧图像以jpg图片的形式保存到JPEGImages文件夹中，并对各幅图片进行命名，N＞10000；

(2)基于改进的k-means算法对训练集进行聚类：

(2a)对训练集中的标注信息进行筛选：

(2a5)重复执行步骤(2a2)～(2a4)直到q＝l，得到有效标注信息；

(2b)对有效标注信息进行聚类：

(2b1)设聚类中心的个数为k，k>0，构建以data_xml的长度l为行数，以k为列数的二维矩阵data_k，data_k的行表示data_xml中保存的有效标注信息，列表示聚类中心的值，并初始化data_k为0；

(2b2)对k个聚类中心分别进行随机初始化；

(3)对YOLOv3检测网络的损失函数进行改进：

t_i＝2-w_i×h_i

其中，λ_coord表示网络对预测框坐标的权重参数，l.w表示网络在图片宽上划分的尺寸，l.h表示网络在图片高上划分的尺寸，l.n表示网络中预测框的个数，i为对l.w×l.h迭代的变量，j为对l.n迭代的变量，

表示预测框是否包含目标的参数，w_i表示预测框的宽，

表示标注框的宽，h_i表示预测框的高，

表示标注框的高，x_i表示预测框的左上角坐标在x轴的投影，

表示x_min，y_i表示预测框的左上角坐标在y轴的投影，

表示y_min；

(4)基于改进的损失函数对训练集进行训练：

(4a)将聚类结果作为YOLOv3网络候选框的尺寸初始化值；

(5)对测试集进行检测：

2.根据权利要求1所述的基于改进的k-means和损失函数的行人检测方法，其特征在于，步骤(3)中所述的YOLOv3检测网络的损失函数，计算表达式为

Loss＝Loss_noobj+Loss_obj+Loss_class+Loss_coord

t_i＝2-w_i×h_i

其中，Loss表示损失函数，Loss_noobj表示不包含目标的预测框的置信度损失函数，Loss_obj表示包含目标的预测框的置信度损失函数，Loss_class表示类别损失函数，Loss_coord表示坐标损失函数，λ_noobj表示不包含目标的预测框对应的系数，l.w表示网络在图片宽方向上的划分尺寸，l.h表示网络在图片高方向上的划分尺寸，i,j分别为对应的迭代变量，

为标注框置信度；λ_obj表示包含目标的预测框对应的系数，

表示标注框中含有c类别的概率，λ_coord表示网络对预测框坐标的权重参数，w_i表示预测框的宽，

表示标注框的宽，h_i表示预测框的高，

表示标注框的高，x_i表示预测框的左上角坐标在x轴的投影，

表示x_min，y_i表示预测框的左上角坐标在y轴的投影，

表示y_min。