CN110532937B

CN110532937B - 基于识别模型与分类模型进行列车前向目标精准识别的方法

Info

Publication number: CN110532937B
Application number: CN201910789757.6A
Authority: CN
Inventors: 徐国艳; 熊绎维
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2022-03-08
Anticipated expiration: 2039-08-26
Also published as: CN110532937A

Abstract

本发明公开了一种基于识别模型与分类模型进行列车前向目标精准识别的方法，包括有：由长、短焦距摄像头采集前向列车视频数据的步骤；对视频数据进行先识别后分类的模型处理步骤；最后将目标图像输出至无人驾驶操控***。经本发明方法处理后能够对前方列车和其他影响行车安全的障碍物进行有效识别，以提供制动防护控制，或为司机提供可靠的制动预警信息，从而有效避免因设备故障或人为失误造成的追尾、侧冲或闯信号等运行事故。

Description

基于识别模型与分类模型进行列车前向目标精准识别的方法

技术领域

本发明涉及无人驾驶***的图像识别技术领域，具体地，本发明涉及一种基于视觉的、基于识别模型与分类模型进行列车前向目标精准识别的方法。

背景技术

随着现代化建设快速发展，城市轨道交通技术也越趋成熟。现已发展出基于信号控制的城市轨道交通无人驾驶***。在***正常运行的情况下，即便是无人驾驶也可保证列车行驶的稳定安全。但若在信号***故障等应急场景下，仍旧需要人工介入处理，因此异常场景也是无人驾驶***列车运行事故的高发点。由于无人驾驶***在异常场景下的安全性、可靠性、可用性以及无人化水平尚存在很大的提升空间，目前急需一种技术手段增强列车对复杂周边运行环境的自主识别能力，使在信号***故障时，仍能在照明不良、视距受限的隧道、弯道、坡道等运行环境下，对前方列车和其他影响行车安全的障碍物进行有效识别，以提供制动防护控制，或为司机提供可靠的制动预警信息，从而有效避免因设备故障或人为失误造成的追尾、侧冲或闯信号等运行事故。

为提高无人驾驶***中列车对环境的自主识别能力，可在列车前方增设摄像头或雷达等设备，以获取列车的前向环境信息，参考图1所示。但由于列车运行场景较为特殊，多数情况下会在隧道或是封闭环境内运行，利用激光雷达或毫米波雷达难以识别列车的前向目标。因此选用视觉作为列车的前向目标识别手段是最为切实可行的方法。

传统的视觉处理手段十分有限，难以完成列车前向目标的精确识别，在实际应用中会大大降低列车运行效率，使得列车防撞预警或控制信息不够安全可靠。

发明内容

本发明提出了一种基于视觉的、采用识别模型与分类模型进行列车前向目标精准识别的方法。本发明方法通过将识别模型与分类模型相融合，可最大程度降低误识别率，实现列车前向目标的精准识别。在列车信息***失效的情况下，依然能为列车的防撞预警和决策控制提供有效可靠的信息，提高列车行驶安全。

本发明的基于识别模型与分类模型的列车前向目标精准识别的方法，该方法包括有下列步骤：

步骤一：在轨道列车头部上分别安装多个长焦摄像头和短焦摄像头，在列车实际运行时获取其前向环境的视频数据；执行步骤二；

在本发明中，安装在列车头部上的长焦摄像头和短焦摄像头至少为2个以上。采集的视频数据是按照采集的时间先后保存在工控机中的。

步骤二：处理列车前向环境的视频数据，截取视频中含有目标信息的图像，得到框选图像并保存；执行步骤三；

在本发明中，框选图像以行向尺寸、列向尺寸进行框。

步骤三：将框选图像在识别模型RMD中处理，得到识别图像；模型执行步骤四；

步骤四：将识别图像在分类模型CMD中处理，得到目标图像并保存，最后将目标图像输出给无人驾驶操控***。

本发明基于识别模型与分类模型进行列车前向目标精准识别的方法的优点在于：

①本发明方法与传统方法相比，传统的视觉处理手段十分有限，难以完成列车前向目标的精确识别。为将此类方法应用在实际运行场景中，必须提高其识别的准确度和稳定性。因此需要利用深度学习中的卷积神经网络，以完成该识别任务。但即使是当前精度最高的卷积神经网络目标识别算法，也存在大量误识别情况，这样提供的列车防撞预警或控制信息不够安全可靠，在实际应用中会大大降低列车运行效率。

②本发明采用列车前方视觉的目标精准识别，利用计算机视觉，基于卷积神经网路可以精准识别出列车的前向目标。在信号***失效时，可为列车防撞预警和决策控制提供有效可靠的信息。

③本发明方法，在原有的深度学习目标识别算法的基础上融合了多分类网络。这样可以有效去除误识别情况，大大提高了前向目标的识别准确度，使之提供的感知信息更加稳定可靠。

④本发明方法，其识别网络采用多特征图的方框预测，因此可识别多尺度的目标，有效增加了目标识别的适用范围，提高了识别精度。

⑤本发明方法，其分类网络采用轻量化处理，有效减少了计算参数和计算负荷，便于移植进移动硬件设备。为将卷积神经网络应用在实际场景提供可能。

⑥本发明方法，采集并处理了一套完整的列车行驶前向目标数据集，可为城市轨道交通的其他工作提供样本支持。

附图说明

图1为列车图像采集结构框图。

图2为本发明的一种基于识别模型与分类模型进行列车前向目标精准识别的方法流程示意图。

图3为视频图像的第一种框选示意图。

图4为视频图像的第二种框选示意图。

图5为视频图像的第三种框选示意图。

图6为视频图像的第四种框选示意图。

1.列车头

2.长焦距摄像头

3.短焦距摄像头

具体实施方式

下面将结合附图对本发明做进一步的详细说明。

参见图1、图3～图6所示的列车图像采集***中，列车运行时，长焦距摄像头2和短焦距摄像头3同时实时采集列车前向的视频数据，然后将采集到的所述视频数据传输至工控机，经工控机处理后传输至无人驾驶操控***，经无人驾驶操控***输出制动预警信息。

参见图2所示，是在列车的工控机中完成了本发明的基于识别模型与分类模型的列车前向目标精准识别的方法，该方法包括有下列步骤：

在本发明中，框选图像以行向尺寸、列向尺寸进行框。

识别模型RMD的处理

在本发明中的步骤三中，识别模型RMD是基于卷积神经网络方法的，因此，采用卷积神经网络方法的识别模型的步骤有：

识别模型的步骤A：获取轨道列车前向视频图像；

长焦距摄像头2的识别距离远，短焦距摄像头3的识别范围宽，两者结合可获取更丰富的列车前向图像信息(图3～图6)。因此在轨道列车上分别安装多个长焦距摄像头和短焦距摄像头，在列车实际运行时获取视频数据，并将视频数据文件保存到与摄像头相连的工控机上成为视频图像。

在本发明中，对轨道列车的工控机上保存的所有视频图像进行编号，记为视频图像集SP＝{sp₁,sp₂,…,sp_a,…,sp_A}；其中：

sp₁表示第一幅视频图像；

sp₂表示第二幅视频图像；

sp_a表示第a幅视频图像；

sp_A表示最后一幅视频图像，a为视频图像的标识号，A为视频图像的总数，a∈A。为了方便说明，sp_a也称为任意一幅视频图像。

在本发明中，每一个保存在工控机上的视频图像的尺寸，记为p×q像素，简称为原图尺寸，p为行向尺寸，q为列向尺寸。如480×360像素

识别模型的步骤B：截取视频图像中存在目标信息的帧数；

在本发明中，针对视频图像中的识别目标分为五类，具体包括有列车(train)、红灯(red light)、绿灯(green light)、行人(people)和背景(backdrop)。为了方便说明，将识别目标采用集合形式表示为DT＝{train,red_light,green_light,people,backdrop}。对于背景(backdrop)在进行框选时背景不选取，是将以选取的列车(train)、红灯(redlight)、绿灯(green light)、行人(people)以外，其余都保存在背景中。

首先采用图像标注软件将视频图像集SP＝{sp₁,sp₂,…,sp_a,…,sp_A}中含有识别目标DT＝{train,red_light,green_light,people,backdrop}的帧数进行框选截取，得到框选图像集

然后对所述

进行文件为xml格式的保存，得到框选文件信息FP＝{fp₁,fp₂,…,fp_a,…,fp_A}。

在本发明中，所述框选图像集

中：

表示含有识别目标DT的第一框选图像，且

表示属于第一幅视频图像sp₁中的列车框选，

表示属于第一幅视频图像sp₁中的红灯框选，

表示属于第一幅视频图像sp₁中的绿灯框选，

表示属于第一幅视频图像sp₁中的行人框选。

表示含有识别目标DT的第二框选图像，且

表示属于第二幅视频图像sp₂中的列车框选，

表示属于第二幅视频图像sp₂中的红灯框选，

表示属于第二幅视频图像sp₂中的绿灯框选，

表示属于第二幅视频图像sp₂中的行人框选。

表示含有识别目标DT的第a框选图像；，且

表示属于第a幅视频图像sp_a中的列车框选，

表示属于第a幅视频图像sp_a中的红灯框选，

表示属于第a幅视频图像sp_a中的绿灯框选，

表示属于第a幅视频图像sp_a中的行人框选。

表示含有识别目标DT的最后一框选图像，且

表示属于最后一幅视频图像sp_A中的列车框选，

表示属于最后一幅视频图像sp_A中的红灯框选，

表示属于最后一幅视频图像sp_A中的绿灯框选，

表示属于最后一幅视频图像sp_A中的行人框选。

在本发明中，所述框选文件信息FP＝{fp₁,fp₂,…,fp_a,…,fp_A}中：

fp₁表示第一幅框选图像

的文件信息；

fp₂表示在第二幅框选图像

的文件信息；

fp_a表示在第A幅框选图像

的文件信息；

fp_A表示在最后一幅框选图像

的文件信息。

在本发明中，图像标注软件可以是labelImg软件。

识别模型的步骤C：采用卷积神经网络方法对框选图像进行处理，得到识别图像；

将框选图像集

和框选文件信息FP＝{fp₁,fp₂,…,fp_a,…,fp_A}生成为mdb格式文件，将该文件作为输入层输入至卷积神经网络中进行训练。所述的卷积神经网络为VGG16架构，并将其初始特征层修改为w×l×h中，w表示矩阵行数，l表示矩阵列数，h表示矩阵深度。如w×l×h＝300×300×3的矩阵。上述的所述的卷积神经网络在VGG16架构的基础上，利用SSD(Single Shot MultiBox Detector)算法进行方框预测，并将全连接层输出定义为5，以对应上述所需的五个类别。对上述的卷积神经网络进行多次前、反向传播进行参数更新，完成识别模型RMD的图像识别。

在本发明中，运用的“VGG16架构”是包含13个卷积层，3个全连接层以及5个池化层。运用“SSD算法”能够将所提取出的特征层拆分为大小相同的n×m个网格，n表示行向网络数，m表示列向网络数，每个网格设定多个默认方框，并对每一个默认方框预测其位置偏移和类别置信度。选择与实际方框交并比最高的默认方框作为预测方框，并根据给出预测方框与实际方框类别和位置信息差值，计算出损失函数。运用“卷积神经网络(convolutional neural network，CNN)”是将前后帖的框选图像作为输入向量，并将其通过隐藏层转换，而每个隐层由一组图像分类信息的神经元组成，其中每个神经元和前一层神经元完全连接，在单层的神经元的功能完全独立并且不共享任何连接。

分类模型CMD的处理

在本发明的步骤四中，分类模型CMD的处理步骤有：

分类模型的步骤Ⅰ：感兴趣区域获取；

将识别模型RMD输出的识别图像和视频图像集SP＝{sp₁,sp₂,…,sp_a,…,sp_A}中的图像都在工控机中的图像处理软件进行对比。

采用预测方框大小x×y对输入的存在有识别目标DT的图像SP进行尺寸判断，得到感兴趣区域RSP＝{rsp₁,rsp₂,…,rsp_a,…,rsp_A}。

在本发明中，由于预测方框大小x×y常有超过输入的所述SP＝{sp₁,sp₂,…,sp_a,…,sp_A}的图像尺寸的现象，若所述SP＝{sp₁,sp₂,…,sp_a,…,sp_A}中存在有识别目标DT的情况，需要对预测方框大小x×y与原图尺寸p×q进行判断；

x为预测方框的行向尺寸。

y为预测方框的列向尺寸。

p为视频图像的行向尺寸。

q为视频图像的列向尺寸。

若x×y≤p×q，则保留预测方框内图像为感兴趣区域；即预测方框大小x×y是在输入图像的原图尺寸p×q之内。

若x×y＞p×q，则进行尺寸调整后得到感兴趣区域；所述尺寸调整是指若x超尺寸且y不超尺寸，则将x更新为0或480，y不变；若x不超尺寸且y超尺寸，则x不变，将y更新为0或360；若x与y超尺寸，则将x更新为0或480，将y更新为0或360。

例如，预测方框大小x×y小于等于sp₁图像的原图尺寸p×q(即x×y≤p×q)，则将保留预测方框内图像rsp₁；所述预测方框内图像rsp₁的长记为l_rsp₁、宽记为w_rsp₁。

例如，预测方框大小x×y中的x大于sp₂图像的原图尺寸p×q中的p(即x×y＞p×q)，则调整x＝p，然后保留预测方框内图像rsp₂；所述预测方框内图像rsp₂的长记为l_rsp₂、宽记为w_rsp₂。

例如，预测方框大小x×y小于等于sp₂图像的原图尺寸p×q(即x×y≤p×q)，则将保留预测方框内图像rsp₂；所述预测方框内图像rsp₂的长记为l_rsp₂、宽记为w_rsp₂。

例如，预测方框大小x×y小于等于sp_a图像的原图尺寸p×q(即x×y≤p×q)，则将保留预测方框内图像rsp_a；所述预测方框内图像rsp_a的长记为l_rsp_a、宽记为w_rsp_a。

在本发明中，输出预测方框的左上(记为tl)和右下(记为br)角坐标，若其x坐标在0～480之间，则保持不变，若超出范围，则更新为0或480；若其y坐标在0～360之间，则保持不变，若超出范围，则更新为0或360。判别方法的程序为：

tl.x＝max(tl.x,0)；

tl.x＝min(tl.x,480)；

tl.y＝max(tl.y,0)；

tl.y＝min(tl.y,360)；

br.x＝min(br.x,480)；

br.x＝max(br.x,0)；

br.y＝min(br.y,360)；

br.y＝max(br.y,0)。

分类模型的步骤Ⅱ：重复样本的相似度处理；

由于在列车实际运行时，经常出现感兴趣区域内的图像前后帧极其相似情况。如列车停车时，可能会在数百帧内识别同一个目标，这几百张相似的图像作为后续的分类样本数据集，代表性并不强。因此为减少分类样本重复度，需要作相似度判断。

步骤a，对感兴趣区域RSP＝{rsp₁,rsp₂,…,rsp_a,…,rsp_A}中连续的两幅图像进行长或宽尺寸的差值比较，若长大于6或宽大于6，保留后一张预测方框内图像；若长小于等于6或宽小于等于6，则执行步骤b；

在本发明中，预测方框内图像rsp₁与预测方框内图像rsp₂的长或宽尺寸比较，若|l_rsp₁-l_rsp₂|≤6或|w_rsp₁-w_rsp₂|≤6，则认为rsp₁与rsp₂的尺寸相近的连续图像，执行步骤b；

若|l_rsp₁-l_rsp₂|＞6或|w_rsp₁-w_rsp₂|＞6，则保留rsp₂。即认为前后帧图像并不相似且具有代表性，输出感兴趣区域内图像并保存。

在本发明中，预测方框内图像rsp_a-1与预测方框内图像rsp_a的长或宽尺寸比较，若|l_rsp_a-1-l_rsp_a|≤6或|w_rsp_a-1-w_rsp_a|≤6，则认为rsp_a-1与rsp_a的尺寸相近的连续图像，执行步骤b；

若|l_rsp_a-1-l_rsp_a|＞6或|w_rsp_a-1-w_rsp_a|＞6，则保留rsp_a。rsp_a-1为位于rsp_a之前的预测方框内图像。即认为前后帧图像并不相似且具有代表性，输出感兴趣区域内图像并保存。

在本发明中，预测方框内图像rsp_a与预测方框内图像rsp_a+1的长或宽尺寸比较，若|l_rsp_a-l_rsp_a+1|≤6或|w_rsp_a-w_rsp_a+1|≤6，则认为rsp_a与rsp_a+1的尺寸相近的连续图像，执行步骤b；

若|l_rsp_a-l_rsp_a+1|＞6或|w_rsp_a-w_rsp_a+1|＞6，则保留rsp_a+1。rsp_a+1为位于rsp_a之后的预测方框内图像。即认为前后帧图像并不相似且具有代表性，输出感兴趣区域内图像并保存。

步骤b，将感兴趣区域RSP＝{rsp₁,rsp₂,…,rsp_a,…,rsp_A}中的图像尺寸统一调整为50×50，得到RRSP＝{rrsp₁,rrsp₂,…,rrsp_a,…,rrsp_A}并将原有的RGB颜色模型转换为HSV颜色模型；分别计算连续的前后两帧图像的直方图H_a，H_a+1，并将其归一化到相同的尺度空间，利用巴氏距离法比较两者直方图的相似度，比较感兴趣区域函数d(H_a,H_a+1)如下：

其中，N为直方图中bin的个数，I为bin的排序数。

上式中，若前后帧图像完全不相似，则d(H_a,H_a+1)值为1，若完全相似则为0。本专利设置相似度的阈值为0.25。即若d(H_a,H_a+1)＞0.25，则认为前后帧图像并不相似。输出感兴趣区域内图像并保存到本地，以作为后续的分类模型数据集Op＝{Op₁,Op₂,…,Op_n,…,Op_N}。否则不保存图像。

例如，可获取的第一帧感兴趣区域图像为rsp₁，第二帧感兴趣区域图像为rsp₂。将rsp₁和rsp₂的尺寸统一调整为50×50，分别得到rrsp₁和rrsp₂。分别计算rrsp₁和rrsp₂的直方图为H₁和H₂。利用上述公式计算出d(H₁,H₂)大小，若d(H₁,H₂)>0.25，则认为rsp₁和rsp₂并不相似，即rsp₂具有较强代表性，输出并保存rsp₂到本地，作为后续的分类模型数据集，若d(H₁,H₂)<＝0.25。则认为rsp₁和rsp₂相似，不保存rsp₂。

例如，可获取的第二帧感兴趣区域图像为rsp₂，第三帧感兴趣区域图像为rsp₃。将rsp₂和rsp₃的尺寸统一调整为50×50，分别得到rrsp₂和rrsp₃。分别计算rrsp₂和rrsp₃的直方图为H₂和H₃。利用上述公式计算出d(H₂,H₃)大小，若d(H₂,H₃)>0.25，则认为rsp₂和rsp₃并不相似，即rsp₃具有较强代表性，输出并保存rsp₃到本地，作为后续的分类模型数据集，若d(H₂,H₃)<＝0.25。则认为rsp₂和rsp₃相似，不保存rsp₃。

例如，可获取的第a帧感兴趣区域图像为rsp_a，第a+1帧感兴趣区域图像为rsp_a+1。将rsp_a和rsp_a+1的尺寸统一调整为50×50，分别得到rrsp_a和rrsp_a+1。分别计算rrsp_a和rrsp_a+1的直方图为H_a和H_a+1。利用上述公式计算出d(H_a,H_a+1)大小，若d(H_a,H_a+1)>0.25，则认为rsp_a和rsp_a+1并不相似，即rsp_a+1具有较强代表性，输出并保存rsp_a+1到本地，作为后续的分类模型数据集，若d(H_a,H_a+1)<＝0.25。则认为rsp_a和rsp_a+1相似，不保存rsp_a+1。

分类模型的步骤Ⅲ：图像分类处理；

将步骤b中的输出图像数据集Op＝{Op₁,Op₂,…,Op_n,…,Op_N}整理为5个label类别：背景、列车、红灯、绿灯和行人。将Op＝{Op₁,Op₂,…,Op_n,…,Op_N}数据集以及其中每张图片对应的label作为输入层输入到分类网络中进行训练。并将该分类网络的全连接层输出为5，以对应上述五类图像。通过最后的softmax层，分别输出数据集中图片。

在本发明中，softmax层的输出对应的各类label的置信度，取置信度最高的一类为该图片的预测类别。通过将预测类别和实际类别比对来计算损失。多次梯度下降之后可完成图像信息的分类。

在本发明中，“分类网络”是将各个卷积层分为多个组，并利用1×1卷积核分别对各组进行卷积操作，这样可以减少网络整体计算量。在完成上述卷积操作完成后，该网络将各组特征信息打乱，并重新分组构成新的特征层。这样可以增加各组之间的信息交流，以提高识别精确度。

本发明是一种基于识别模型与分类模型进行列车前向目标精准识别的方法，所要解决的是如何提高列车对前向环境的自主识别能力的技术问题，该方法通过利用深度学习中的卷积神经网络，以完成该识别任务；然后利用分类模型将感兴趣区域图像分类为背景、列车、红灯、绿灯或是行人。若分类为背景，则识别结果不输出；若分类为其他类别，则正常输出识别结果。这样可以有效减少将背景误识别为其他目标的现象，以提高识别准确率。在列车信息***失效的情况下，依然能为列车的防撞预警和决策控制提供有效可靠的信息，提高列车行驶安全。

Claims

1.一种基于识别模型与分类模型进行列车前向目标精准识别的方法，是在列车工控机中完成的，具体步骤有：

安装在列车头部上的长焦摄像头和短焦摄像头至少为2个以上；

采集的视频数据是按照采集的时间先后保存在工控机中的；

框选图像以行向尺寸、列向尺寸进行框；

其特征在于：

在步骤一中，长焦距摄像头(2)的识别距离远，短焦距摄像头(3)的识别范围宽，两者采集的是在列车实际运行时的视频数据，并将视频数据文件保存到与摄像头相连的工控机上成为视频图像；

识别模型的步骤A：获取轨道列车前向视频图像；

对轨道列车的工控机上保存的所有视频图像进行编号，记为视频图像集SP＝{sp₁,sp₂,…,sp_a,…,sp_A}；其中：

sp₁表示第一幅视频图像；

sp₂表示第二幅视频图像；

sp_a表示第a幅视频图像；a为视频图像的标识号；

sp_A表示最后一幅视频图像，A为视频图像的总数，a∈A；

每一个保存在工控机上的视频图像的原图尺寸，记为p×q像素；

识别模型的步骤B：截取视频图像中存在目标信息的帧数；

然后对所述

进行文件为xml格式的保存，得到框选文件信息FP＝{fp₁,fp₂,…,fp_a,…,fp_A}；

所述DT＝{train,red_light,green_light,people,backdrop}中train为列车，red_light为红灯，green_light为绿灯，people为人，backdrop为背景；

所述框选图像集

中：

表示含有识别目标DT的第一框选图像，且

表示属于第一幅视频图像sp₁中的列车框选，

表示属于第一幅视频图像sp₁中的红灯框选，

表示属于第一幅视频图像sp₁中的绿灯框选，

表示属于第一幅视频图像sp₁中的行人框选；

表示含有识别目标DT的第二框选图像，且

表示属于第二幅视频图像sp₂中的列车框选，

表示属于第二幅视频图像sp₂中的红灯框选，

表示属于第二幅视频图像sp₂中的绿灯框选，

表示属于第二幅视频图像sp₂中的行人框选；

表示含有识别目标DT的第a框选图像；，且

表示属于第a幅视频图像sp_a中的列车框选，

表示属于第a幅视频图像sp_a中的红灯框选，

表示属于第a幅视频图像sp_a中的绿灯框选，

表示属于第a幅视频图像sp_a中的行人框选；

表示含有识别目标DT的最后一框选图像，且

表示属于最后一幅视频图像sp_A中的列车框选，

表示属于最后一幅视频图像sp_A中的红灯框选，

表示属于最后一幅视频图像sp_A中的绿灯框选，

表示属于最后一幅视频图像sp_A中的行人框选；

所述框选文件信息FP＝{fp₁,fp₂,…,fp_a,…,fp_A}中：

fp₁表示第一幅框选图像

的文件信息；

fp₂表示在第二幅框选图像

的文件信息；

fp_a表示在第A幅框选图像

的文件信息；

fp_A表示在最后一幅框选图像

的文件信息；

将框选图像集

和框选文件信息FP＝{fp₁,fp₂,…,fp_a,…,fp_A}生成为mdb格式文件，将该文件作为输入层输入至卷积神经网络中进行训练；所述的卷积神经网络为VGG16架构，并将其初始特征层修改为w×l×h中，w表示矩阵行数，l表示矩阵列数，h表示矩阵深度；如w×l×h＝300×300×3的矩阵；上述的所述的卷积神经网络在VGG16架构的基础上，利用SSD算法进行方框预测，并将全连接层输出定义为5，以对应所需的五个类别；对上述的卷积神经网络进行多次前、反向传播进行参数更新，完成识别模型RMD的图像识别；

运用的VGG16架构是包含13个卷积层，3个全连接层以及5个池化层；

步骤四：将识别图像在分类模型CMD中处理，得到目标图像并保存，最后将目标图像输出给无人驾驶操控***；

分类模型的步骤Ⅰ：感兴趣区域获取；

将识别模型RMD输出的识别图像和视频图像集SP＝{sp₁,sp₂,…,sp_a,…,sp_A}中的图像都在工控机中的图像处理软件进行对比；

采用预测方框大小x×y对输入的存在有识别目标DT的图像SP进行尺寸判断，得到感兴趣区域RSP＝{rsp₁,rsp₂,…,rsp_a,…,rsp_A}；

由于预测方框大小x×y常有超过输入的所述SP＝{sp₁,sp₂,…,sp_a,…,sp_A}的图像尺寸的现象，若所述SP＝{sp₁,sp₂,…,sp_a,…,sp_A}中存在有识别目标DT的情况，需要对预测方框大小x×y与原图尺寸p×q进行判断；

x为预测方框的行向尺寸；

y为预测方框的列向尺寸；

p为视频图像的行向尺寸；

q为视频图像的列向尺寸；

若x×y≤p×q，则保留预测方框内图像为感兴趣区域；即预测方框大小x×y是在输入图像的原图尺寸p×q之内；

若x×y＞p×q，则进行尺寸调整后得到感兴趣区域；所述尺寸调整是指若x超尺寸且y不超尺寸，则将x更新为0或480，y不变；若x不超尺寸且y超尺寸，则x不变，将y更新为0或360；若x与y超尺寸，则将x更新为0或480，将y更新为0或360；

分类模型的步骤Ⅱ：

预测方框内图像rsp_a-1与预测方框内图像rsp_a的长或宽尺寸比较，若|l_rsp_a-1-l_rsp_a|≤6或|w_rsp_a-1-w_rsp_a|≤6，则认为rsp_a-1与rsp_a的尺寸相近的连续图像，执行步骤b；

若|l_rsp_a-1-l_rsp_a|＞6或|w_rsp_a-1-w_rsp_a|＞6，则保留rsp_a；即认为前后帧图像并不相似且具有代表性，输出感兴趣区域内图像并保存；rsp_a-1为位于rsp_a之前的预测方框内图像；

其中，H_a为前帧图像的直方图，H_a+1为后帧图像的直方图，N为直方图中bin的个数，I为bin的排序数；

上式中，若前后帧图像完全不相似，则d(H_a,H_a+1)值为1，若完全相似则为0；设置相似度的阈值为0.25；即若d(H_a,H_a+1)＞0.25，则认为前后帧图像并不相似；输出感兴趣区域内图像并保存到本地，以作为后续的分类模型数据集Op＝{Op₁,Op₂,…,Op_n,…,Op_N}；否则不保存图像；

可获取的第a帧感兴趣区域图像为rsp_a，第a+1帧感兴趣区域图像为rsp_a+1；将rsp_a和rsp_a+1的尺寸统一调整为50×50，分别得到rrsp_a和rrsp_a+1；分别计算rrsp_a和rrsp_a+1的直方图为H_a和H_a+1；利用上述公式计算出d(H_a,H_a+1)大小，若d(H_a,H_a+1)>0.25，则认为rsp_a和rsp_a+1并不相似，即rsp_a+1具有较强代表性，输出并保存rsp_a+1到本地，作为后续的分类模型数据集，若d(H_a,H_a+1)<＝0.25；则认为rsp_a和rsp_a+1相似，不保存rsp_a+1；

分类模型的步骤Ⅲ：

将步骤b中的输出图像数据集Op＝{Op₁,Op₂,…,Op_n,…,Op_N}整理为5个label类别：背景、列车、红灯、绿灯和行人；将Op＝{Op₁,Op₂,…,Op_n,…,Op_N}数据集以及其中每张图片对应的label作为输入层输入到分类网络中；并将该分类网络的全连接层输出为5，以对应五类图像；通过最后的softmax层，分别输出分类图像。

2.根据权利要求1所述的基于识别模型与分类模型进行列车前向目标精准识别的方法，其特征在于：输出预测方框的左上记为tl和右下记为br角坐标，若其x坐标在0～480之间，则保持不变，若超出范围，则更新为0或480；若其y坐标在0～360之间，则保持不变，若超出范围，则更新为0或360；判别方法的程序为：

tl.x＝max(tl.x,0)；

tl.x＝min(tl.x,480)；

tl.y＝max(tl.y,0)；

tl.y＝min(tl.y,360)；

br.x＝min(br.x,480)；

br.x＝max(br.x,0)；

br.y＝min(br.y,360)；

br.y＝max(br.y,0)。