CN113505837A

CN113505837A - 一种基于Faster-RCNN的测量标志自动提取方法

Info

Publication number: CN113505837A
Application number: CN202110794715.9A
Authority: CN
Inventors: 陈鹏; 童小华; 汪本康; 谢欢; 冯永玖; 刘世杰; 金雁敏; 柳思聪; 许雄; 叶真; 王超
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-10-15

Abstract

本发明涉及一种基于Faster‑RCNN的测量标志自动提取方法，该方法采用Faster‑RCNN目标识别框架，对高速视频测量***中引入的人工标志点进行自动识别定位，所述方法包括如下步骤：步骤1：对含目标点的高速相机影像进行数据集整理，包括样本制作和样本增强，形成训练样本集；步骤2：采用基于Faster‑RCNN目标识别框架对分类模型进行训练；步骤3：利用训练后的分类模型对实验中的目标识别影像进行目标识别。与现有技术相比，本发明具有识别精度高、效率高等优点。

Description

一种基于Faster-RCNN的测量标志自动提取方法

技术领域

本发明涉及图像识别领域，尤其是涉及一种基于Faster-RCNN的测量标志自动提取方法。

背景技术

高速视频摄影测量方法通过非接触式测量的方式对具有高速运动特性的被测目标进行拍摄，通过对序列影像的动态分析，可以解析出被测目标在高速运动过程中的几何、运动和形变等参数。其中目标点的选择方式有两种，一种为直接选取影像中明显的特征点作为需要解析的目标点，该方式要求被测量对象纹理清晰，能够准确的提取出特征点的像平面坐标，因此具有一定的使用局限性且解算精度不高，而且在对序列影像处理时不利于目标点的跟踪；另一种方式是引入人工标志作为目标观测点，将其粘贴在被测物的关键节点上，用于精确获取人工标志的像平面坐标。人工标志的使用不仅能提高高速视频影像摄影测量的速度和精度，而且还能提高人工标志点的自动识别和匹配，提高测量的自动化程度。但是由于引入了人工目标点，在处理过程中使用现有的特征点提取算法无法准确的对目标点进行提取，所以传统的高速视频摄影测量算法通过使用目标点人工识别这一手动处理的方式，对目标点进行提取这种方式由于人工的干预，解算效率大大减小。

目前主流的目标检测算法主要是基于深度学习模型。Faster R-CNN针对R-CNN网络中对兴趣区特征提取时会有重复计算以及选择性搜索算法找出所有的候选框耗时长的缺点，进行了改进，使得其能够高效的进行目标定位与识别。

经过检索，中国专利CN202010579892.0公开了一种基于FPGA的faster-RCNN目标检测方法，该发明基于现有的深度学习网络和计算机视觉技术，使用FPGA根据faster-RCNN模型进行深度定制，对faster-RCNN模型并行计算，精确识别物体以及解决识别速度慢的问题。但是该发明重点在于使用FPGA对faster-RCNN目标进行加速检测，并没有就高速视频影像中的目标点识别进行分析考虑，此外该发明没有采用目标点人工识别，直接选取影像中明显的特征点作为需要解析的目标点，该方式要求被测量对象纹理清，具有一定的使用局限性，会对高速视频影像摄影测量精度产生不利影响。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于Faster-RCNN的测量标志自动提取方法。

本发明的目的可以通过以下技术方案来实现：

一种基于Faster-RCNN的测量标志自动提取方法，该方法采用Faster-RCNN目标识别框架，对高速视频测量***中引入的人工标志点进行自动识别定位，所述方法包括如下步骤：

步骤1：对含目标点的高速相机影像进行数据集整理，包括样本制作和样本增强，形成训练样本集；

步骤2：采用基于Faster-RCNN目标识别框架对分类模型进行训练；

步骤3：利用训练后的分类模型对实验中的目标识别影像进行目标识别。

优选地，所述目标点包括人工目标点。

优选地，所述人工标志点由白色圆和黑色背景组成。

优选地，所述样本增强过程包括对样本集进行扩充。

优选地，所述样本集进行扩充包括对影像进行整体的平移、旋转、缩放。

优选地，所述样本集进行扩充还包括根据平移距离、旋转角度、缩放尺度对目标点坐标进行相应变换。

优选地，所述步骤2具体包括如下步骤：

步骤2.1：通过区域建议网络RPN生成候选区域，经过ROI pooling层将候选框采样到同一的输入尺度；

步骤2.2：接着对生成的候选区域使用深度卷积神经网络提取特征；

步骤2.3：使用SVM分类器对提取到的特征进行分类，判断该区域的类别；

步骤2.4：对于每一个类别，使用一个回归器对候选框的位置进行定位回归，获得精确的目标位置，从而生成预测窗口的坐标。

优选地，所述区域建议网络RPN使用一个滑动窗口在卷积特征图上进行滑动卷积，所述深度卷积神经网络为Resnet卷积神经网络。

优选地，所述Faster-RCNN目标识别框架采用anchor机制，以每个滑动窗口为中心，生成三种不同长宽比的候选框，同时对应的生成三种不同尺寸的候选框，即特征图上每一个特征值生成九个不同尺寸不同长宽比的候选框；

优选地，所述模型的训练过程包括微调训练fine-turning，对网络前几层进行冻结，将其学习率设置为零。

与现有技术相比，本发明具有以下优点：

1)本发明提出的基于Faster-RCNN的测量标志自动提取方法，该方法凭借深度学习框架优秀的目标识别精度，对高速视频测量***中引入的人工标志点进行自动识别定位，识别精度高，效率高；

2)在技术构建过程中，对高速相机影像数据进行整理用于制作训练样本集，经过样本增强操作扩大训练样本集，减少过拟合的风险；

3)本发明采用的Faster-RCNN针对RCNN网络中对兴趣区特征提取时会有重复计算以及选择性搜索算法找出所有的候选框耗时长的缺点，提出了改进，使得其能够高效的进行目标定位与识别。

附图说明

图1为本发明的技术路线图；

图2为Faster-RCNN框架；

图3为人工标志点；

图4为残差块网络；

图5为Faster-RCNN识别结果1；

图6为Faster-RCNN识别结果2；

图7为Faster-RCNN识别结果3；

图8为Faster-RCNN识别结果4；

图9为Faster-RCNN识别结果5；

图10为Faster-RCNN识别结果6；

图11为Faster-RCNN识别结果7；

图12为Faster-RCNN识别结果8；

图13为Faster-RCNN识别结果9；

图14为Faster-RCNN识别结果10。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

如图1所示，本发明基于Faster-RCNN方法针对高速视频测量中的目标点特征训练了一个可对目标点进行识别定位的模型。本发明通过对以往拍摄的含有目标点的高速相机影像进行整理，制作出目标点训练样本集，并通过样本增强手段对样本集进行扩充，然后基于Faster-RCNN目标识别框架对定位模型进行训练，最后在测试集上对定位模型的效果进行检验。

Faster-RCNN目标识别框架

传统的目标识别算法主要特征的设计，随着卷积神经网络这一强大是特征学***移和形变等不变性，R-CNN(Regions with Convolutional Neural NetworkFeature)算法是卷积神经网络在物体检测的开山之作，其首先通过选择性搜索算法生成1k～2k个候选区域，接着对生成的候选区域使用深度卷积神经网络提取特征，然后使用SVM(support vector machine)分类器对提取到的特征进行分类，判断该区域的类别，最后对于每一个类别，使用一个回归器对候选框的位置进行定位回归，获得精确的目标位置，从而生成预测窗口的坐标。

Faster-RCNN针对RCNN网络中对兴趣区特征提取时会有重复计算以及选择性搜索算法找出所有的候选框耗时长的缺点，提出了改进，使得其能够高效的进行目标定位与识别，其预测模型如图2所示，具体包括：

1)卷积层

在特征提取上，具有权值共享特性的卷积神经网络具有降网络模型的复杂度，减少权值数量的优越性。此外，在对图像处理的过程中，图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。在Faster-RCNN框架下，可使用ZF，VGG，RESNET这些常用的卷积神经网络对特征进行提取。

2)区域建议网络RPN(Region Proposal Network)

Faster RCNN框架提出RPN网络来替代以往RCNN系列目标识别框架中所使用的选择性搜索算法(selective search)。该算法能够和卷积网络共享卷积特征，克服了选择性搜索算法的速度瓶颈，大大提高了目标识别的速度。

区域建议网络使用一个滑动窗口(3×3卷积核)在卷积特征图上进行滑动卷积，以VGG16网络模型为例，RPN以VGG16第五层卷积层得到的特征图作为输入进行滑动卷积，卷积完成后得到一个512维的向量，再将这一向量分别输入到分类全连接层和定位框回归全连接层以得到类别和位置信息。

在预测目标的过程中需要确定每个滑窗中心对应感受野内存在目标与否，但是由于目标大小和长宽比例不一，需要多个尺度的窗。Faster-RCNN框架提出了anchor机制，即以每个滑动窗口为中心，生成3种不同长宽比的候选框，同时对应的生成三种不同尺寸的候选框，即特征图上每一个特征值生成9个不同尺寸不同长宽比的候选框。所以定位回归有4×9个输出，表示每个候选框对应坐标信息，分类任务有2×9个输出，表示每个候选框属于前景或后景的概率。

3)目标识别

经过RPN网络生成候选区后，经过ROI pooling层将候选框采样到同一的输入尺度，这样经过采样后的候选区域可以继续被后几个网络层所利用。以VGG网络为例，将ROIpooling获得的7×7大小的候选区特征图通过全连接层与softmax计算出每个候选区域属于各个类别的概率，并且再次利用定位框回归得到更加精确的目标位置

目标识别模型训练

1)训练样本制作

在使用高速视频测量技术对高速运动的物体进行测量时，一般使用圆形标志，如图3所示，其由白色圆和黑色边界所组成，用于精确的点位三维量测。通过对高速相机所拍摄的目标点影像进行收集整理，制作训练样本集，对Faster-RCNN方法进行训练，使得模型能够对这种白色圆心黑色背景特征的目标点进识别。

由于Faster-RCNN将分类算法和定位算法集成到一个模型框架下，所以Faster-RCNN的训练样本与普通的分类样本存在一些不同，其需要先对影像中的目标进行框选，即先人工定位出目标点的位置，该位置坐标即可作为ground truth用于模型的训练。本文使用labelImg软件，对整理得到的103张影像进行人工标注，标注完成后对于每一张已标注的影像都会以对应的影像名生成一个XML文件。该文件为文本文件，其描述了对应影像上每个目标物的类别以及其左上角坐标和右下角坐标。

在样本制作的过程中Faster-RCNN样本面临着样本数不足的问题，无法完全对目标点的特征信息进行描述，使得整个模型的定位效果下降。本专利对目标点样本上采样以起到扩充训练样本的效果。增强过程中除对影像进行整体的平移、旋转、缩放等操作外，还需要根据平移距离、旋转角度、缩放尺度等参数对XML标注文件上目标点的坐标进行相应的变换。从而得到一个完整的增强后的数据样本集，最后将样本及扩充到800张影像数据及对应的标注文件。

2)模型训练

本实施例使用了目前识别效果最优的Resnet对高速相机影像中的目标点进行特征提取。Resnet是由微软研究院的何凯明等4名华人提出，其通过使用残差模块(图4)解决了网络退化问题，并成功训练出152层的深度神经网络，在ILSVRC2015比赛中获得了冠军，取得3.57％的top5错误率，同时参数量却比VGG低，效果非常突出。Resnet的结构可以极快地加速超深神经网络的训练，模型的准确率也有非常大的提升。

残差模块通过一个“捷径”将这个模块的输入和输出进行加叠，这一简单的加法并不会给网络增加额外的参数和计算量，同时却可以大大增加模型的训练速度、提高训练效果，并且当模型的层数加深时，这个简单的结构能够很好的解决退化问题。

同时在由于经过大量数据集训练出来的模型已经具有非常强大的泛化能力，并且经过对模型各层特征的可视化证明：一般网络模型的前几层所以提取出的特征都是一些如颜色、边缘等特征，只有后面几层所提取出的特征才是针对本次训练样本的特征。因此在训练过程中通过冻结前几层网络，将其学习率设为0，从而加快模型的训练过程，同时不会对模型的训练结果造成影响。

本实施例使用DELL T5610@Xeon GTX 1080Ti工作站上对训练样本进行训练，训练完成后，用10张未参与模型训练的高速相机影像(共含554个目标点)对模型的定位精度进行评定。其检测效果如图5和表1所示。

为评估算法在解决高速相机目标定自动识别问题的有效性，本方法使用召回率(Recall)和精确度(Precision)来衡量模型的性能，召回率用于评估模型是否能够对影像中的全部目标进行识别，精确度用于评估模型所定位出的目标是否为真实的目标，其计算公式如下。

其中FN(False Negative)：为被判定为负样本，但实际上是正样本(漏检)；FP(False Positive)：被判定为正样本，但实际上是负样本(误检)；TN(True Negative)：被判定为负样本，实际上也是负样本；TP(True Positive)：被判定为正样本，实际上也是正样本。

表1为测试集识别结果统计表。

表1测试集识别结果统计表

由测试集的识别结果显示目标识别框架的召回率和精准度分别达到了94.04％和98.30％，能够有效的识别出影像中绝大多数目标点。可将其应用于高速视频测量***便于其自动快速的对影像中的目标点进行精准定位。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于Faster-RCNN的测量标志自动提取方法，其特征在于，该方法采用Faster-RCNN目标识别框架，对高速视频测量***中引入的人工标志点进行自动识别定位，所述方法包括如下步骤：

2.根据权利要求1所述的一种基于Faster-RCNN的测量标志自动提取方法，其特征在于，所述目标点包括人工目标点。

3.根据权利要求2所述的一种基于Faster-RCNN的测量标志自动提取方法，其特征在于，所述人工标志点由白色圆和黑色背景组成。

4.根据权利要求1所述的一种基于Faster-RCNN的测量标志自动提取方法，其特征在于，所述样本增强过程包括对样本集进行扩充。

5.根据权利要求4所述的一种基于Faster-RCNN的测量标志自动提取方法，其特征在于，所述样本集进行扩充包括对影像进行整体的平移、旋转、缩放。

6.根据权利要求4所述的一种基于Faster-RCNN的测量标志自动提取方法，其特征在于，所述样本集进行扩充还包括根据平移距离、旋转角度、缩放尺度对目标点坐标进行相应变换。

7.根据权利要求1所述的一种基于Faster-RCNN的测量标志自动提取方法，其特征在于，所述步骤2具体包括如下步骤：

8.根据权利要求7所述的一种基于Faster-RCNN的测量标志自动提取方法，其特征在于，所述区域建议网络RPN使用一个滑动窗口在卷积特征图上进行滑动卷积，所述的深度卷积神经网络为Resnet卷积神经网络。

9.根据权利要求7所述的一种基于Faster-RCNN的测量标志自动提取方法，其特征在于，所述Faster-RCNN目标识别框架采用anchor机制，以每个滑动窗口为中心，生成三种不同长宽比的候选框，同时对应的生成三种不同尺寸的候选框，即特征图上每一个特征值生成九个不同尺寸不同长宽比的候选框。

10.根据权利要求7所述的一种基于Faster-RCNN的测量标志自动提取方法，其特征在于，所述模型的训练过程包括微调训练fine-turning，对网络前几层进行冻结，将其学习率设置为零。