CN106845430A

CN106845430A - 基于加速区域卷积神经网络的行人检测与跟踪方法

Info

Publication number: CN106845430A
Application number: CN201710066312.6A
Authority: CN
Inventors: 叶国林; 孙韶媛; 高凯珺; 姚光顺
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2017-02-06
Filing date: 2017-02-06
Publication date: 2017-06-13

Abstract

本发明涉及一种基于加速区域卷积神经网络的行人识别与跟踪方法，首先通过载有红外摄像头的机器人在夜晚采集训练、测试数据集，对训练、测试数据集按要求预处理，然后对所有训练和测试图片进行真实目标位置标注并记录到样本文件中；再构建加速区域卷积神经网络，利用训练数据集训练加速区域卷积神经网络，对网络输出利用非极大值抑制算法求出最后的属于行人区域的概率以及区域的边界框；利用测试数据集测试网络的准确度，得到符合要求的网络模型；将夜间机器人采集的图片输入加速区域卷积神经网络模型，模型在线实时输出属于行人区域的概率以及区域的边界框。本发明能够有效地识别红外图像中的行人，对红外视频中的行人目标能够实时地进行跟踪。

Description

基于加速区域卷积神经网络的行人检测与跟踪方法

技术领域

本发明涉及一种基于加速区域卷积神经网络的夜间机器人行人检测与跟踪方法，该方法属于红外夜视图像处理领域，通过该方法可以实现机器人在夜间实时地检测和跟踪行人。

背景技术

随着机器人技术和红外成像技术的迅速发展，两者结合的应用领域也愈广泛。例如，夜间利用机器人进行行人检测与跟踪，达到侦探与监控的效果。作为机器人的更高实现，无人驾驶***在夜间行驶时，行人也是其检测的主要对象。但是红外图像本身是灰度图像，无色彩信息，纹理细节少，信噪比低的特点，所以红外图像中的行人检测与跟踪是很活跃的研究领域。

在行人跟踪研究上，Yasuno等人(M.Yasuno，S.Ryousuke，N.Yasuda，PedestrainDetection and Tacking in Far Infrared Images[C].In Proceedings of IEEEConference on Intelligent Transpotation Systems，2005：182-187.)，通过在跟踪区域内进行模版匹配来跟踪头部的位置。Dai等人(X.Dai，F.zheng，X.Liu.Layeredrepresentation for pedestrain detection and tracking in infrared imagery[J].IEEE Computer Society Conference on Computer Vision and Pattern Recognition，2005，3(1)：13-18.)认为人体在运动过程中四肢变形较大，影响了跟踪的性能。为了去除四肢的影响，因此只对头部与躯体进行跟踪。当前提出的红外行人跟踪算法，确切地说都是对人体某一或某几个部位进行跟踪，而不是对整个行人进行跟踪。

长期以来，行人检测最流行的方法是基于行人特征提取和机器学习的方法。王磊(王磊.红外图像中的行人检测算法研究[D].合肥工业大学，2015：26-44.)采用先提取正负样本的特征，这里的正负样本分别指的是包含行人的图片和不包含行人的图片，训练分类器，然后用滑动窗口法遍历一幅完整的图像，再利用训练好的分类器对窗口进行行人与非行人的分类判别，达到行人检测的目的。虽然这种方法能够得到较好的检测结果，但是由于这种方法对整幅图像进行行人检测时，利用的是多尺度的滑动窗口对整幅图像进行遍历，产生了大量的检测窗口，并且依次对所有的检测窗口进行特征提取，导致了计算量的剧增，速度极慢。

近几年，深度卷积神经网络迅速发展，在图像分类、自然语言处理以及目标检测等应用上均取得了巨大的成功。其优势在于提取图像的特征并进行分类，为了充分发挥其优势，Girshick等(IRSHICKR，DONAHUEJ，NAJMANETL，et al.Rich feature hierarchies foraccurate object detection and semantic segmentation[C].IEEE Conference onComputer Vision and Pattern Recognition，2014：580-587.)提出了区域卷积神经网络(R-CNN)框架将图像的目标检测问题转化为分类问题，取得了很好地检测效果。该方法的基本思想是先在图像中提取若干个候选目标矩形区域，再用深度卷积网络对每个候选区域提取目标特征，最后用支持向量机训练一个分类器，对候选目标区域进行分类。根据每个区域分类得分利用非极大值抑制算法优化出最终的目标边界。然而，其中的候选区域不是再用之前的多尺度滑动窗口获得，而是采用基于分层和多相似性测量的选择性搜索算法来生成约2000个多层次的候选框。

R-CNN提取特征的卷积网络和用于分类的分类器要分开训练，导致了训练过程要耗费大量的时间和存储空间；而且分类器的训练与特征提取网络不相关，这也是不合理的，影响了目标检测的准确率。因此Girshick(R.Girshick.Fast-RCNN.IEEE InternationalConference on Computer Vision，2015.)又提出了快速区域卷积神经网络Fast-RCNN模型，将特征提取和分类融合进一个分类框架，提高了训练模型的速度和目标检测的准确率。

虽然Fast-RCNN有了改进，但是由于使用选择性搜索算法单独生成候选区域却非常耗时，这是该算法无法达到实时的致命原因。

发明内容

本发明要解决的技术问题是如何在夜间利用机器人实现实时的行人检测与跟踪。

对于行人跟踪算法，即如果行人检测算法的识别率极高，那么检测出红外视频中每一帧的所有行人，给出整个行人的位置信息，而不是人体的一部分。此外，如果行人检测算法具有实时性，故而能够轻易地实现行人跟踪。所以，本发明的重点是如何实现高识别率、实时性的行人检测。只要实现了上述高效的行人检测，那么行人跟踪也水到渠成。

为了解决上述技术问题，本发明的技术方案是提供一种基于加速区域卷积神经网络的行人检测与跟踪方法，其特征在于，包括如下步骤：

步骤1：通过载有红外摄像头的机器人在夜晚采集两组红外图片，一组红外图片作为训练数据集，另一组红外图片作为测试数据集；对训练数据集和测试数据集的所有图片按规定进行命名，并制作训练数据集和测试数据集的图片名称列表；

步骤2：对训练数据集和测试数据集中的所有图片进行真实目标位置标注，即将所有图片中的所有行人目标用框标出，将图片中行人的数目以及行人的边界框的左上右下4个坐标信息记录到样本文件中；

步骤3：构建加速区域卷积神经网络，利用训练数据集的图片和样本文件训练加速区域卷积神经网络；加速区域卷积神经网络包括用于提取候选区域的区域建议网络和用于行人检测的卷积神经网络，通过区域建议网络选取出若干个候选区域，再将这些候选区域输入给卷积神经网络，卷积神经网络输出这些候选区域是行人的得分以及其边界框精修之后的坐标点；将卷积神经网络的输出利用非极大值抑制算法求出最后的属于行人区域的概率以及区域的边界框；

步骤4：利用测试数据集的图片和样本文件测试步骤3训练出的加速区域卷积神经网络，若不满足误差要求，则返回步骤3重新训练，直至满足误差要求为止；得到符合精度要求的加速区域卷积神经网络模型；

步骤5：将步骤4建立的加速区域卷积神经网络模型用于在线实时的夜间机器人行人检测与跟踪，即将夜间机器人采集的图片输入加速区域卷积神经网络模型，模型在线实时输出属于行人区域的概率以及区域的边界框。

优选地，所述加速区域卷积神经网络为一系列的卷积、激励、池化和全连接过程，采用ZF框架，该框架包括区域建议网络和目标识别网络，且区域建议网络和目标识别网络中的特征图提取部分采用参数共享机制。

本发明可用于机器人以及无人车在夜晚无光的情况下通过红外摄像头实行实时的行人检测以及跟踪。本发明将加速区域卷积神经网络应用于红外视频的实时行人检测与跟踪，无需提前采用其他方法生成候选区域，无需手工选取行人特征，通过端到端的训练，直接输入一张红外图片，输出图片中的行人位置。该发明保证了红外视频中行人检测和跟踪的正确性和实时性。

本发明提供的方法通过使用加速区域卷积神经网络，无需单独生成候选区域以及手工选取行人特征，将候选区域生成也通过卷积网络来实现，实现端到端的操作，该方法明显加快了行人识别的速度，提高了识别的正确性。

附图说明

图1为基于加速区域卷积神经网络的夜视图像行人识别流程图；

图2为加速区域卷积神经网络结构图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

一种基于加速区域卷积神经网络的夜间机器人行人检测与跟踪方法，包括如下步骤：

步骤1：构建夜视图像训练和测试数据集。采用实验室载有红外摄像头的机器人自行采集实验图片，2000张红外图片作为训练数据集，200张红外图片作为测试数据集，每张图片大小为720*576。对训练数据集和测试数据集的所有图片按规定重新命名，并制作训练数据集和测试数据集的图片名称列表。

步骤2：用Python编写标注程序，人工对所有训练和测试图片进行真实目标位置标注，即将所有图片中的所有行人目标用框标出，将图片中行人的数目以及行人的边界框的左上右下4个坐标记录到.xml中。

步骤3：构建加速区域卷积神经网络，迭代训练。利用步骤1和步骤2中做好的训练集训练加速区域卷积神经网络，其中加速区域卷积神经网络包括共享参数的卷积层、区域建议网络和卷积网络。共享参数的卷积层用于特征图的提取，该特征图同时被送入到区域建议网络中和卷积网络中。区域建议网络用于学习计算出候选区域，这些候选区域也输入到卷积网络中。最后的卷积网络用于预测输出这些候选区域是行人的得分以及其边界框精修(回归)之后的坐标点。

图1为基于加速区域卷积神经网络的夜视图像行人识别流程图。首先需要对红外图像中的真实的行人位置进行标记并记录到文本中。然后构建加速区域卷积神经网络，将训练的红外图片和每张图片对应的真实行人位置文件放入构建的网络中进行学习。迭代学习一定次数后，得到网络的模型参数。接着输入测试图像，加速区域卷积神经网络会根据前面训练得到的模型参数对测试图像进行行人识别，最终得到测试夜视图像中所有行人的边界框。

图2为加速区域卷积神经网络结构图；加速区域卷积神经网络主要包含三个部分：共享参数的卷积层、区域建议网络和卷积网络。共享参数的卷积层用于特征图的提取，该特征图同时被送入到区域建议网络中和卷积网络中。区域建议网络用于学习计算出候选区域，这些候选区域也输入到卷积网络中。最后的卷积网络用于预测出可能是行人位置的区域，并用实际行人位置计算输出损失，用于更新网络参数。

本发明采用的加速区域卷积神经网络为一系列的卷积、激励、池化和全连接等过程，采用ZF框架，该框架包括区域建议网络RPN和目标识别网络Fast-RCNN，且RPN和Fast-RCNN网络中的特征图提取部分采用参数共享机制的卷积层。

本发明中用于特征图提取的卷积层具有5个。假设卷积层为f，参数为θ，则f的数学表达式为：

f(X；θ)＝W_LH_L-1

其中，H_l为l层隐层单元的输出，b_l为l层的偏差值，W_l为l层的权值，且b_l和W_l组成可训练的参数θ，pool()表示池化操作，即将小邻域内的特征点整合得到新特征，使得特征减少，参数减少，且池化单元具有平移不变性。池化的方法主要包括平均-池化和最大值-池化，本发明主要采用最大值-池化操作。relu()表示对特征图作一个非线性变换，使得想要的信息通过而过滤掉不想要的信息。L为不小于1的整数。最后一个卷积层有256个卷积核，所以特征图有256个，特征维度为256维，每个特征图大小约为40*60，将这些特征图输入给区域建议网络和目标识别的卷积网络。特征图提取的卷积层参数配置如表1所示。

表1特征提取卷积层参数配置

在区域建议网络中，用3*3的滑窗滑动特征图，当滑窗滑到每个位置时，预测输入图像3种尺度(128，256，512)和3种长宽比(1∶1，1∶2，2∶1)的候选区域，所以每一个滑动位置就有9个候选区域，一幅图像会生成约2000(40*60*9)个候选区域。在卷积层后面接两个分支的全连接层，一个是分类层(cls-layer)输出2个得分，用于判定候选区域是目标还是背景，另一个是边界回归层(reg-layer)输出4个得分，用于对候选区域的边界进行微调，所以在一个位置上的9个候选区域，全连接层最终输出(2+4)*9个结果。虽然由区域建议网络选取的候选区域约有2000个，但是该发明根据候选区域的得分高低筛选了前300个输入到目标识别卷积网络，这样能够加快速度。

输入候选框到目标识别的卷积网络中，识别网络采用的是Fast-RCNN网络，除去参数共享的提取特征的卷积层之外，后面依次接上两个卷积核数为4096的全连接层和激励层，输出为2的分类层，输出为4的边界回归层以及损失层。

在训练区域建议网络时，给每个候选区域分配一个二进制标签，正标签可以分配给两类候选区域：(1)与某个真实目标(GT)边界框有最高的IoU(交集并集之比)重叠的候选区域(也许不到0.7)，(2)与任意GT边界框有大于0.7的IoU交叠的候选区域。一个GT边界框可能分配正标签给多个候选区域。而负标签则分配给与所有GT边界框的IoU比率都低于0.3的候选区域。非正非负的候选区域对训练目标没有任何作用。

与Fast R-CNN一样，区域建议网络训练时也遵循多任务损失，最小化目标函数。一个图像的损失函数定义为：

其中，i为一个训练批量(mini-batch)中候选区域的索引，p_i是第i个候选区域为目标的预测概率。如果候选区域为正，GT标签则为1，反之，为0。t_i是一个向量，即t_i＝(t_x，t_y，t_w，t_h)，表示预测的边界框的4个参数化坐标，是与正候选区域对应的GT边界框的坐标向量，即分类损失L_cls是两个类别(目标和非目标)的对数损失，其中，i为一个训练批量(mini-batch)中候选区域的索引，p_i是第i个候选区域为目标的预测概率。如果候选区域为正，GT标签则为1，反之，为0。λ为平衡权重，本发明中取为10，N_cls为mini-batch的大小，即256，N_reg为候选区域的数量，即大约2400。分类损失L_cls是两个类别(目标和非目标)的对数损失，即：对于回归损失L_reg，用来计算。R为具有鲁棒性的损失函数(smooth_L1)，定义为：

p_i*L_reg这一项意味着只有正候选区域才有回归损失，其他情况就没有

对于回归，本发明采用4个坐标：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，t_w＝log(w/w_a)，t_h＝log(h/h_a)，

其中(t_x，t_y，t_w，t_h)表示预测边界框的4个参数化坐标向量，表示与正候选区域对应的GT边界框的4个参数化坐标向量，上述两个向量用于计算损失。x，y，w，h分别指预测边界框的中心坐标(x，y)、宽和高；x_a，y_a，w_a，h_a分别指候选区域边界框的中心坐标(x_a，y_a)、宽和高；x^*，y^*，w^*，h^*分别指GT边界框的中心坐标(x^*，y^*)、宽和高。可以理解为从候选区域边界框到附近的GT边界框的边界框回归。

上述为区域建议网络的损失函数，而目标识别的卷积网络仍然采用Fast-RCNN它自身的损失函数。在训练整个网络时，本发明采用交替训练的方式，即：

(1)根据上述的区域建议网络，该网络用ImageNet预训练的模型初始化，并端到端微调区域建议网络参数用于候选框提取，该阶段迭代80000次。

(2)利用第一步的生成的候选区域，由Fast R-CNN训练一个单独的检测网络，FastR-CNN检测网络同样是由ImageNet预训练的模型初始化的，这时候两个网络还没有共享卷积层，该阶段迭代40000次。

(3)用检测网络Fast R-CNN再进行区域建议网络训练，但固定共享的卷积层，并且只微调区域建议网络独有的层，现在两个网络共享卷积层了，该阶段迭代80000次。

(4)保持共享的卷积层固定，微调Fast R-CNN的其它层。这样，两个网络共享相同的卷积层，构成一个统一的网络，该阶段迭代40000次。

经过上述迭代学习，即可得出网络参数。

根据上述训练好的模型参数，输入一张红外图片即可输出300张候选区域是目标的概率以及边界坐标，再利用非极大值抑制算法求出最后的属于行人区域的概率以及区域的边界框。

步骤4：利用测试数据集的图片和样本文件测试步骤3训练出的加速区域卷积神经网络，满足误差要求，得到符合精度要求的加速区域卷积神经网络模型；

试验表明，本发明中使用的加速区域卷积神经网络对夜视图像中行人识别有非常好的效果，识别率高，实时性好。

Claims

1.一种基于加速区域卷积神经网络的行人检测与跟踪方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于加速区域卷积神经网络的行人检测与跟踪方法，其特征在于：所述加速区域卷积神经网络为一系列的卷积、激励、池化和全连接过程，采用ZF框架，该框架包括区域建议网络和目标识别网络，且区域建议网络和目标识别网络中的特征图提取部分采用参数共享机制。