CN110188807A

CN110188807A - 基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法

Info

Publication number: CN110188807A
Application number: CN201910425679.1A
Authority: CN
Inventors: 赵敏; 孙棣华; 梅莹
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-08-30
Anticipated expiration: 2039-05-21
Also published as: CN110188807B

Abstract

本发明公开了一种基于级联超分辨率网络与改进Faster R‑CNN的隧道行人目标检测方法，包括以下步骤：步骤S1：训练超分辨率网络，得到SRCNN超分辨率网络模型；步骤S2：获取隧道行人训练样本并对行人进行标注；步骤S3：对标注框尺寸比例进行聚类，选取RPN网络中合适的锚边框尺寸；步骤S4：训练Faster R‑CNN网络，获取训练好的模型；步骤S5：采用训练好的模型对隧道行人目标进行检测，得到检测结果。该方法相较于原始Faster R‑CNN网络，具有更高的检测精度，可以有效应用于隧道环境下低分辨率行人目标检测问题。

Description

基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法

技术领域

本发明涉及交通数据分析处理领域，特别涉及一种基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法。

背景技术

随着人工智能的快速发展和进步，行人检测成为计算机视觉领域中的主要研究方向之一，在智能视频监控中也占据重要地位，世界相关学者对行人检测问题进行了广泛研究。根据交通规则，高速公路隧道仅能允许车辆通行，不允许行人进入，但仍然会有行人不遵守交通规则从高速公路隧道中穿行。隧道中，环境光线不足，司机视线受限，且在车辆进出隧道时，由于环境光照的突然变化，会导致司机短暂的失明。且高速公路上汽车行驶速度快，在隧道环境下，行车道数目较少，车流密集，高速公路隧道一旦发生交通事故，往往会导致严重的人员伤亡。行人违规进入高速公路隧道会给交通安全带来极大的安全隐患，因此隧道监控视频中的行人目标检测在保障隧道安全中起到重要作用。

目前大部分城市公路隧道都装有摄像头，但传统的视频监控***还是主要通过人眼观察来发现异常事件，工作劳动强度很大，要求监控员注意力十分集中，且要有极高的警惕性和对异常事件的快速反应能力。视频监控工作单一无趣，对监控人员的耐心是极大的挑战。且在摄像头集群较多的情况下，即使监控人员注意力高度集中全身心投入，也无法保证监控***的安全性和有效性。因此智能化的视频监控成为了监控领域的必然趋势。视频画面中的数据规模往往很大，智能视频技术可以结合计算机的高效数据处理能力来对其进行分析以实现目标的自动检测，发现异常情况，实现自动报警，从而更快速有效地提醒相关工作人员进行处理。且能24小时不间断地工作，大大节省了人力物力，更极大地提高了监控***的准确性与安全性。

现有行人检测技术中，传统的基于图像处理的行人检测方法主要通过人工构造行人特征，再通过分类器进行分类的方式进行检测。常用的行人特征有HOG特征，Haar-like特征，LBP特征等，此类特征主要根据人体的轮廓信息、纹理信息等来描述人体形状，特征表达能力不足，检测效果难以满足要求。如湖南创合制造有限公司申请的“基于视频监控的行人检测方法”(公开号：CN101887524)，利用扩展梯度直方图特征与Adaboost算法来检测行人，然后利用梯度直方图特征和支持向量机来进一步验证前面检测出来的行人。这种方式需要提取图像的梯度直方图特征，在隧道环境下图像分辨率不高、行人目标较小时，获取的特征不理想，导致检测效果不佳。深度学习在近年来发展迅速，在目标检测领域取得了巨大的成功，通过构建多层卷积神经网络，可以自动学习目标特征，并且可以将多种底层特征组合成表示能力更强、语义信息更丰富的高层特征。因此基于卷积神经网络的目标检测方法能获得更好的检测效果。如广州广电银通金融电子科技有限公司申请的“一种针对复杂场景下的小目标行人检测方法”，采用神经网络对行人样本进行训练，利用共享特征提取网络提取特征，得到特征图，利用分类特征提取网络对特征图提取分类特征，得到分类特征图，根据分类特征图和候选区域提取相应的分类特征进行是否是行人目标的分类。该发明可以有效解决复杂场景下小目标检测的误检率高问题。但是在隧道环境中，图像分辨率低，神经网络特征提取效果差，因此在实际隧道环境中检测效果不佳。

发明内容

有鉴于此，本发明的目的是提供一种基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法。本发明从高速公路隧道实际环境出发，针对Faster R-CNN在隧道环境下行人特征提取效果不佳的问题展开研究，设计了一种超分辨率网络与Faster R-CNN级联的行人目标检测网络。并针对原始Faster R-CNN网络中RPN网络中候选框的尺寸比例不适合隧道行人目标检测任务问题，采用K-Means算法对行人真实标注框进行聚类统计，以生成更高质量的候选窗口。该方法相较于原始Faster R-CNN网络，具有更高的检测精度。

第一方面，本发明提供了一种基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法，包括以下步骤：

步骤S1：训练超分辨率网络，得到SRCNN超分辨率网络模型；

步骤S2：获取隧道行人训练样本并对行人进行标注；

步骤S3：根据上一步标注信息得到训练样本中隧道行人的尺寸大小和长宽比例；然后采用K-Means聚类算法对上述步骤得到的行人尺寸大小和长宽比例进行聚类，得到最终适合隧道行人目标的锚边框尺寸比例；

步骤S4：训练Faster R-CNN网络，获取训练好的模型；

步骤S5：采用训练好的SRCNN模型和Faster R-CNN模型对隧道行人目标进行检测，得到检测结果。

特别地，所述步骤S1具体包括以下子步骤：

步骤S11:获取原始低分辨率图像，采用算法将低分辨率图像放大，得到超分辨率网络的训练样本；

步骤S22:根据训练样本对超分辨率网络进行训练，得到SRCNN超分辨率网络模型。

特别地，所述步骤S2中，是从隧道视频中抽取图像帧，组成训练样本，然后采用标注工具对图片中的行人进行标注。

特别地，所述步骤S4中包括以下步骤：

步骤S41：制作VOC格式数据集；

步骤S42：搭建训练网络；

步骤S43：对模型进行预训练；

步骤S44：使用步骤S43获取的预训练模型在训练样本上进行训练，得到最终训练好的Faster R-CNN模型。

特别地，所述步骤S5包括以下子步骤：

步骤S51：将待检测图片输入训练好的SRCNN超分辨率网络，得到分辨率放大的图片；

步骤S52：将上一步放大后的图片输入训练好的Faster R-CNN网络模型进行检测，得到最终的检测结果；

第二方面，本发明提供了一种基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测装置，包括：

超分辨率网络训练模块：采用算法将低分辨率图像放大，得到超分辨率网络的训练样本并根据训练样本对超分辨率网络进行训练，得到SRCNN超分辨率网络模型。

行人训练样本获取模块：用于从隧道视频中抽取图像帧，组成训练样本，然后采用标注工具对图片中的行人进行标注；

Faster R-CNN网络训练模块：首先获取预训练模型，并在训练样本上继续对预训练模型进行训练，得到最终训练好的检测模型；

检测模块：采用超分辨率网络训练模块和Faster R-CNN网络训练模块得到的训练好的模型对隧道行人目标进行检测，得到检测结果。

本发明的有益效果是：针对隧道环境特殊，光线变化频繁，隧道监控视频图像模糊，噪声多，行人目标分辨率低等问题，本发明以检测效果较好的Faster R-CNN检测网络为基础进行改进。首先针对Faster R-CNN网络在隧道环境下，对低分辨率行人目标提取的特征表达能力不足问题，本发明提出了级联超分辨率网络与Faster R-CNN的新的SR-CNN行人目标检测网络。基于超分辨率重建实现对图像高频信息的补充，增加图像细节信息，使Faster R-CNN生成语义信息更丰富的特征图，从而提升隧道环境下的行人目标检测精度。并针对Faster R-CNN中RPN网络提取候选区域时，采用的锚边框产生算法中Anchor候选框尺寸通过手工设计，没有利用行人的尺度先验信息，导致提取的候选窗口不够准确的问题，本发明采用K-Means聚类算法对行人真实标注框进行统计得到锚边框的尺度，以生成更高质量的候选窗口，提高预测框回归的准确性，从而提升检测精度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为基于级联超分辨率网络与Faster R-CNN的隧道行人检测方法流程示意图。

具体实施方式

以下将参照附图，对本发明的优选实施例进行详细的描述。应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

本发明的一种基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法，包括以下步骤：

步骤S1：训练超分辨率网络，主要包括以下具体步骤：

步骤S11：获取训练样本，训练样本包括低分辨率图片和对应的高分辨率图片。获取的原始图片一般为低分辨率图片，采用双三次插值对原始图片进行超分辨率处理，将图片长宽均放大两倍，即可得到对应的高分辨率训练样本；

步骤S12：选取SRCNN网络为基础超分辨率网络，SRCNN网络主要包含三个卷积层，分别是图像块的提取和特征表示，LR图像块和HR图像块之间的特征非线性映射以及HR图像块最终的重建。将训练样本输入SRCNN网络，训练后得到超分辨率网络模型；

步骤S2：获取隧道行人训练样本：

本实施例中，是从隧道安装的摄像头中获取大量不同场景的视频图像，然后每隔15帧保存一幅图像，去掉其中质量过差的图像，总共采集大约6000张图像作为训练集和测试集，二者的比例为4:1；

对获取的视频图像采用LabelImg工具进行人工标注，标注对象只包含行人类别，标注信息为图像中目标的类别和包围该目标边界框的坐标值；

步骤S3：选取RPN网络中合适的锚边框尺寸，包括以下具体步骤：

步骤S31：将上一步人工标注信息中的行人目标标注框的长宽尺寸信息提取出来，作为聚类的样本；

步骤S32:采用KMeans聚类算法对步骤S31提取的样本数据进行聚类，具体过程如下：

(1)从样本集中任意选择5个样本，将其作为初始聚类中心；

(2)计算样本集中剩下所有样本到这5个中心的距离，并将样本分配到距离其最近的簇，距离计算公式为：

d＝1-IOU(i,c)

式中，d表示样本到簇中心的距离，i表示第i个样本，c表示第c个簇中心，IOU表示样本与簇中心的面积的交并比；

(3)对每一个簇，计算簇中所有点的均值并将其作为新的簇中心值；

(4)计算新的簇中心值与原簇中心值之间的距离；

(5)判断中心值距离是否小于设置的阈值或是否达到最大迭代次数，如果满足条件则退出，否则重复执行步骤2～5。

通过上述聚类算法得到适合隧道行人目标检测的锚边框尺寸。

步骤S4：训练Faster R-CNN网络，包括以下具体步骤：

步骤S41:制作VOC格式数据集。本实施例中，是将图像数据和标注信息一起制作成PASCAL VOC格式的训练数据集，其主要包含三个文件夹，Annotations文件夹存放图片标注信息的xml文件，ImageSets存放的都是txt文件，txt文件中每一行包含一个图片的名称，这些txt文件将数据集的图片分成各种集合，如训练集、测试集等，JPEGImages包含所有的训练和测试验证图片；

步骤S42：搭建训练模型，本实施例中，是在CAFFE(Convolutional Architecturefor Fast Feature Embedding)深度学习框架中构建检测算法，以Faster R-CNN检测算法为基础，选取VGG16作为特征提取网络；

步骤S43：对模型间进行预训练；本实施例中，是使用ImageNet大规模分类数据集对网络进行预训练，预训练使用随机梯度下降法，初始学习率设为0.1，总迭代次数为100k，得到预训练模型；

步骤S44：使用步骤43)获取的预训练模型在训练样本上进行训练，获取训练好的模型。具体而言，本实施例中，是对原始Faster R-CNN模型参数进行修改，将RPN网络中锚边框尺寸比例改为上述聚类得到的实际尺寸比例，并将原始目标类别21改为2(原始FasterR-CNN网络需要检测20类目标，加上背景，因此类别为21，本发明用于隧道行人检测，仅一种类别，加上背景，因此为2)，再使用步骤3)获得的预训练模型在训练数据集上进行训练，获得最终的检测模型；

步骤S5：采用训练好的模型对隧道行人目标进行检测：具体而言，包括了以下步骤：

步骤S51：将隧道图像输入训练好的超分辨率网络，得到放大四倍(长宽均放大两倍)的高分辨率图像；

步骤S52：将上一步经过超分辨率处理的图片输入上述训练好的Faster R-CNN网络中进行检测，在给定置信度阈值(一般取0.5)下得到初步检测结果，初步检测结果包括目标类别及目标边界框坐标；然后使用非极大值抑制算法去除冗余的目标边界框，非极大值抑制算法具体流程如下：

(1)根据检测算法得到所有目标检测窗口及其得分S；

(2)按照检测窗口得分S从高到低对检测窗口进行排序；

(3)排序后分数最高的窗口M被选为抑制窗口；

(4)剩下得分比抑制窗口低的窗口则作为被抑制窗口B_i，计算被抑制窗口与抑制窗口的面积重叠率overlap,其计算方式如下：

(5)如果面积重合率高于设定阈值T，则对该窗口进行抑制，即将该窗口去除；

(6).当只剩一个检测窗口则结束，否则继续选择下一个分数最高的窗口作为抑制窗口，转到步骤4；

经过非极大值抑制后，可以得到最终的检测结果。

本发明首先训练了超分辨率网络，然后获取隧道行人目标检测的训练样本，再对标注的样本中行人目标标注框的尺寸比例信息进行聚类，得到适合隧道行人目标检测的锚边框尺寸。然后以Faster R-CNN检测算法为基础，根据上述聚类结果及行人目标检测任务修改网络参数，训练Faster R-CNN目标检测模型。最后将隧道待检测图片首先输入训练好的超分辨率网络，得到分辨率放大的图片，再将经过超分辨率处理的图片输入上述训练好的Faster R-CNN网络，并对初步检测结果采用非极大值抑制算法进行处理，得到最终的检测结果。本方法主要针对隧道环境恶劣、图像分辨率低导致隧道行人目标检测困难问题提出了解决方法，具有较高的实用价值。

综合上述改进，形成一种新的行人目标检测网络。经验证，本发明提出的新的行人目标检测方法，在隧道环境下行人目标检测问题中，能取得较好的检测效果。

基于上述方法的设计思想，本发明还提供了一种基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测装置，包括：

(1)超分辨率网络训练模块：采用算法将低分辨率图像放大，得到超分辨率网络的训练样本并根据训练样本对超分辨率网络进行训练，得到SRCNN超分辨率网络模型。

(2)行人训练样本获取模块：用于从隧道视频中抽取图像帧，组成训练样本，然后采用标注工具对图片中的行人进行标注；

(3)Faster R-CNN网络训练模块：首先获取预训练模型，并在训练样本上继续对预训练模型进行训练，得到最终训练好的检测模型；

(4)检测模块：采用超分辨率网络训练模块和Faster R-CNN网络训练模块得到的训练好的模型对隧道行人目标进行检测，得到检测结果。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机***通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机***的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的动态配置基于城市公共交通出行数据的社交推荐技术时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法，其特征在于：

步骤S1：训练超分辨率网络，得到SRCNN超分辨率网络模型；

步骤S2：获取隧道行人训练样本并对行人进行标注；

步骤S4：训练Faster R-CNN网络，获取训练好的模型；

2.根据权利要求1所述的基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法，其特征在于：所述步骤S1具体包括以下子步骤：

步骤S11:获取原始低分辨率图像，采用插值算法将低分辨率图像放大，得到超分辨率网络的训练样本；

步骤S12:构建SRCNN超分辨率网络，根据训练样本对超分辨率网络进行训练，得到SRCNN超分辨率网络模型。

3.根据权利要求1所述的基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法，其特征在于：所述步骤S2中，是从隧道视频中抽取图像帧，组成训练样本，然后采用标注工具对图片中的行人进行标注。

4.根据权利要求1所述的基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法，其特征在于：所述步骤S4中包括以下步骤：

步骤S41：制作VOC格式数据集；

步骤S42：搭建训练网络；

步骤S43：对模型进行预训练；

5.根据权利要求1所述的基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法，其特征在于：所述步骤S5包括以下子步骤：

步骤S52：将上一步放大后的图片输入训练好的Faster R-CNN网络模型进行检测，得到最终的检测结果。

6.基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测装置，其特征在于，包括：

7.一种电子设备，其特征在于，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1-5任一项所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1-5任一项所述的方法。