CN106599773B

CN106599773B - 用于智能驾驶的深度学习图像识别方法、***及终端设备

Info

Publication number: CN106599773B
Application number: CN201610929312.XA
Authority: CN
Inventors: 马惠敏; 陈晓智; 童仁玲; 唐锐
Original assignee: Tsinghua University; Zongmu Technology Shanghai Co Ltd
Current assignee: Tsinghua University; Zongmu Technology Shanghai Co Ltd
Priority date: 2016-10-31
Filing date: 2016-10-31
Publication date: 2019-12-24
Anticipated expiration: 2036-10-31
Also published as: CN106599773A

Abstract

本发明提供一种用于智能驾驶的深度学习图像检测识别方法、***及终端设备，该***包括：共享卷积网络，区域分割网络，目标识别网络；所述区域分割网络基于共享卷积网络提取的特征图进行区域分类处理，所述目标识别网络基于共享卷积网络提取的特征图进行目标识别定位处理；利用所述区域分割网络获得的区域分割结果和所述目标识别网络获得的目标识别结果监督所述共享卷积网络，完成所述区域分割网络和所述目标识别网络的共享学习。本发明在多任务学习上具有明显的速度优势，相对于单独学习两个独立的网络，具有耗时少，效率高的特点；此外，本发明还有效的规避了卷积层重复运算的问题，可以完成多任务的检测和识别。

Description

用于智能驾驶的深度学习图像识别方法、***及终端设备

技术领域

本发明属于图像处理领域，涉及一种图像检测识别方法，特别是涉及一种用于智能驾驶的深度学习图像识别方法、***及终端设备。

背景技术

在智能车辆领域，关于目标定位和识别，现有的方法主要有两种，一种是基于传统的神经网络训练分类器实现；另一种是基于人工提取灰度图像特征输入多类支持向量机的识别算法实现。传统的神经网络分类器在检测和识别两个任务上需要训练两个网络，计算成本高；而人工特征提取的方式局限性较大，其中决策参数的选取是一种启发式的方法，如果经验值的选择不合适，会直接影响识别结果；而且多类支持向量机的方法在参数选择上难以取到最优值，进行预测时计算量相对较大。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种用于智能驾驶的深度学习图像识别方法、***及终端设备，用于解决现有目标识别方法计算成本高、特征提取局限性大，或/和参数选取难以达到最优值影响识别结果的问题。

为实现上述目的及其他相关目的，本发明提供一种用于智能驾驶的深度学习图像识别方法，所述用于智能驾驶的深度学习图像识别方法包括：利用共享卷积网络基于N个预设卷积核对图像进行第一预设网络深度的卷积相关处理，提取出所述图像的N个共享特征图的共享特征提取步骤；N为大于或等于1的正整数；利用区域分割网络基于第二预设卷积核对每个所述共享特征图进行第二预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的M个第二特征图，并将所述M个第二特征图中的每个像素做softmax处理，选取M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签的区域分割步骤；M为大于1的正整数；M是区域分类的类别总数；利用目标识别网络基于第三预设卷积核对每个所述共享特征图进行第三预设网络深度的卷积处理，获得与每个所述共享特征图对应的2K个第三特征图，利用softmax处理方法从所述2K个第三特征图中选取分数靠前的L个第三特征图的前景目标选取步骤；K为大于1的正整数；L为小于K的正整数；利用所述目标识别网络基于第四预设卷积核对每个所述共享特征图进行第四预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的P个第四特征图，结合所述L个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图，并利用softmax处理方法获得所述共享特征图中的目标分类结果和目标精确定位的目标识别定位步骤；P为大于1的正整数；利用所述区域分割网络获得的区域分割结果和所述目标识别网络获得的目标识别结果监督所述共享卷积网络，完成所述区域分割网络和所述目标识别网络的共享学习的共享学习步骤。

于本发明的一实施例中，所述共享特征提取步骤中，所述第一预设网络深度为卷积相关处理的层数；第一预设网络深度的各所述卷积相关处理层均包括至少一卷积非线性组或/和至少一池化层；所述卷积非线性组包括一卷积层和一非线性层的联合；所述卷积层基于N个预设卷积核对图像进行卷积处理获得N个卷积特征图；所述非线性层对所述N个卷积特征图进行处理后获得N个非线性特征图；所述池化层对所述N个非线性特征图进行处理后获得N个池化特征图。

于本发明的一实施例中，所述区域分割步骤中，所述第二预设网络深度为卷积相关处理的层数；第二预设网络深度的卷积相关处理层包括至少一卷积非线性组和一softmax层；所述卷积非线性组包括一卷积层和一非线性层的联合；与所述softmax层直接相连的卷积非线性组中的卷积层基于M个预设卷积核对图像进行卷积处理获得M个卷积特征图；与所述softmax层直接相连的卷积非线性组中的非线性层对所述M个卷积特征图进行处理后获得M个非线性特征图；所述softmax层对M个非线性特征图进行softmax处理，获得M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签；所述区域分类为对图像中的物体的分类，包括天空，道路，植被，树木，红绿灯，或/和建筑物。

于本发明的一实施例中，所述前景目标选取步骤中，所述第三预设网络深度为卷积处理的层数；第三预设网络深度的卷积处理层包括至少一卷积层和一softmax层；所述至少一卷积层基于预设卷积核对图像进行卷积处理获得2K个卷积特征图；所述softmax层对所述2K个卷积特征图进行处理获得分数靠前的L个卷积特征图。

于本发明的一实施例中，所述目标识别定位步骤中，所述第四预设网络深度为卷积相关处理的层数；第四预设网络深度的卷积相关处理层包括至少一卷积层，2个池化层和2个softmax层；所述至少一卷积层基于预设卷积核对图像进行卷积处理获得P个卷积特征图；2个池化层分别对所述P个目标分类特征图和4P个坐标特征图进行处理获得P维分类向量和4P维坐标向量；2个softmax层分别对所述P维分类向量和4P维坐标向量进行处理获得最后的目标分类结果和目标精确定位；所述目标分类结果包括行人，骑手，汽车，巴士，卡车，火车，摩托车，或/和自行车。

于本发明的一实施例中，所述用于智能驾驶的深度学习图像识别方法还包括：在所述共享特征提取步骤前实施的图像数据增强步骤，具体包括：对输入的图像进行增强变换处理，增加输入图像数据的量；所述增强变换处理的方式包括对源图像进行一种或多种组合几何变换。

本发明还提供一种用于智能驾驶的深度学习图像识别***，所述用于智能驾驶的深度学习图像识别***包括：共享卷积网络，基于N个预设卷积核对图像进行第一预设网络深度的卷积相关处理，提取出所述图像的N个共享特征图；N为大于或等于1的正整数；区域分割网络，与所述共享卷积网络相连，基于第二预设卷积核对每个所述共享特征图进行第二预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的M个第二特征图，并将所述M个第二特征图中的每个像素做softmax处理，选取M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签的区域分割步骤；M为大于1的正整数；M是区域分类的类别总数；目标识别网络，与所述共享卷积网络相连，基于第三预设卷积核对每个所述共享特征图进行第三预设网络深度的卷积处理，获得与每个所述共享特征图对应的2K个第三特征图，利用softmax处理方法从所述2K个第三特征图中选取分数靠前的L个第三特征图；K为大于1的正整数；L为小于K的正整数；所述目标识别网络基于第四预设卷积核对每个所述共享特征图进行第四预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的P个第四特征图，结合所述L个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图，并利用softmax处理方法获得所述共享特征图中的目标分类结果和目标精确定位；P为大于1的正整数；利用所述区域分割网络获得的区域分割结果和所述目标识别网络获得的目标识别结果监督所述共享卷积网络，完成所述区域分割网络和所述目标识别网络的共享学习。

于本发明的一实施例中，所述共享卷积网络中的所述第一预设网络深度为卷积相关处理的层数；所述第一预设网络深度的各所述卷积相关处理层均包括至少一卷积非线性组或/和至少一池化层；所述卷积非线性组包括一卷积层和一非线性层的联合；所述卷积层基于N个预设卷积核对图像进行卷积处理获得N个卷积特征图；所述非线性层对所述N个卷积特征图进行处理后获得N个非线性特征图；所述池化层对所述N个非线性特征图进行处理后获得N个池化特征图。

于本发明的一实施例中，所述区域分割网络中的所述第二预设网络深度为卷积相关处理的层数；所述第二预设网络深度的卷积相关处理层包括至少一卷积非线性组和一softmax层；所述卷积非线性组包括一卷积层和一非线性层的联合；与所述softmax层直接相连的卷积非线性组中的卷积层基于M个预设卷积核对图像进行卷积处理获得M个卷积特征图；与所述softmax层直接相连的卷积非线性组中的非线性层对所述M个卷积特征图进行处理后获得M个非线性特征图；所述softmax层对M个非线性特征图进行softmax处理，获得M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签；所述区域分类为对图像中的物体的分类，包括天空，道路，植被，树木，红绿灯，或/和建筑物。

于本发明的一实施例中，所述目标识别网络中的所述第三预设网络深度为卷积处理的层数；所述第三预设网络深度的卷积处理层包括至少一卷积层和一softmax层；所述至少一卷积层基于预设卷积核对图像进行卷积处理获得2K个卷积特征图；所述softmax层对所述2K个卷积特征图进行处理获得分数靠前的L个卷积特征图；所述目标识别网络中的所述第四预设网络深度为卷积相关处理的层数；所述第四预设网络深度的卷积相关处理层包括至少一卷积层，2个池化层和2个softmax层；所述至少一卷积层基于预设卷积核对图像进行卷积处理获得P个卷积特征图；2个池化层分别对所述P个目标分类特征图和4P个坐标特征图进行处理获得P维分类向量和4P维坐标向量；2个softmax层分别对所述P维分类向量和4P维坐标向量进行处理获得最后的目标分类结果和目标精确定位；所述目标分类结果包括行人，骑手，汽车，巴士，卡车，火车，摩托车，或/和自行车。

本发明还提供一种终端设备，所述终端设备包括所述的用于智能驾驶的深度学习图像识别***训练生成的图像检测识别模型；所述图像检测识别模型包括：共享卷积网络，基于N个预设卷积核对图像进行第一预设网络深度的卷积相关处理，提取出所述图像的N个共享特征图；N为大于或等于1的正整数；区域分割网络，与所述共享卷积网络相连，基于第二预设卷积核对每个所述共享特征图进行第二预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的M个第二特征图，并将所述M个第二特征图中的每个像素做softmax处理，选取M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签的区域分割步骤；M为大于1的正整数；M是区域分类的类别总数；目标识别网络，与所述共享卷积网络相连，基于第三预设卷积核对每个所述共享特征图进行第三预设网络深度的卷积处理，获得与每个所述共享特征图对应的2K个第三特征图，利用softmax处理方法从所述2K个第三特征图中选取分数靠前的L个第三特征图；K为大于1的正整数；L为小于K的正整数；所述目标识别网络基于第四预设卷积核对每个所述共享特征图进行第四预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的P个第四特征图，结合所述L个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图，并利用softmax处理方法获得所述共享特征图中的目标分类结果和目标精确定位；P为大于1的正整数。

于本发明的一实施例中，所述终端设备包括车辆、飞行器、照相机、摄像机、或/和图像处理设备。

如上所述，本发明的用于智能驾驶的深度学习图像识别方法、***及终端设备，具有以下有益效果：

本发明将共享性深度学习网络作为一种提取特征的手段，在处理多任务学习时，它比传统的卷积神经网络具有更小更精的优势，它不仅继承了原有网络中的权值共享，同时还共享了部分网络结构和模型，不仅仅保留了单层网络的准确率，还大大减少了计算成本，在多任务学习上具有明显的速度优势，相对于单独学习两个独立的网络，具有耗时少，效率高的特点；此外，本发明还有效的规避了卷积层重复运算的问题，可以完成多任务的检测和识别。

附图说明

图1显示为本发明实施例所述的用于智能驾驶的深度学习图像识别方法的一种实现流程示意图。

图2显示为本发明实施例所述的共享卷积网络的一种实现结构示意图。

图3显示为本发明实施例所述的区域分割网络的一种实现结构示意图。

图4显示为本发明实施例所述的目标识别网络的一种实现结构示意图。

图5显示为本发明实施例所述的用于智能驾驶的深度学习图像识别***的一种实现结构示意图。

图6显示为本发明实施例所述的终端设备的一种实现结构示意图。

元件标号说明

500 用于智能驾驶的深度学习图像识别***

502 图像数据增强模块

504，604 共享卷积网络

506，606 区域分割网络

508，608 目标识别网络

600 图像检测识别模型

S102～S110 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

为了使本发明之叙述更加详尽与完备，可参照附图及以下所述之各种实施例。但所提供之实施例并非用以限制本发明所涵盖的范围；步骤的描述亦非用以限制其执行之顺序，任何由重新组合，所产生具有均等功效的装置，皆为本发明所涵盖的范围。

于实施方式与申请专利范围中，除非内文中对于冠词有所特别限定，否则「一」与「该」可泛指单一个或复数个。将进一步理解的是，本文中所使用的「包含」、「包括」、「具有」及相似词汇，指明其所记载的特征、区域、整数、步骤、操作、组件与/或组件，但不排除其所述或额外的其一个或多个其它特征、区域、整数、步骤、操作、组件、组件，与/或其中之群组。

关于本文中所使用的「网络」泛指具有结构关系、组成关系、连接关系、通信关系、运算关系、或逻辑关系的实体元件或抽象元件的关系组合，不局限于实际的通信网络。

本发明可应用于智能车辆领域中的制造行业，用于智能车辆采集的道路环境的自动定位和识别。道路坏境主要由背景、树木、可行驶路面、道路交通标线、车辆和行人组成。

本发明可以基于机器视觉的道路识别与目标检测为研究对象，采用图像识别技术，对采集的道路图像进行处理，自动识别出道路上的目标车辆行人及道路状况等信息。本发明可在车辆自动驾驶***中提供道路感知信息，在车辆道路安全防范及智能驾驶上起到很大的推进作用。

深度学习属于人工智能领域，是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本的检测分割及识别。

本发明提供一种用于智能驾驶的深度学习图像识别方法，其通过深度学习网络共享的方法，先对整张输入图像进行卷积计算，得到卷积网络特征图，然后根据检测和识别这两个不同的任务将计算得到的特征图分配到不同的浅层网络中，完成各自的学习任务。

请参阅图1，本发明实施例提供一种用于智能驾驶的深度学习图像识别方法，包括：

S102，对输入的图像进行增强变换处理，增加输入图像数据的量的图像数据增强步骤；所述增强变换处理的方式包括对源图像进行一种或多种组合几何变换。

数据增强变换是通过在源数据上做几何变换，使用一种或多种组合数据增强变换来增加输入数据的量。使得数据不同的任务背景下，更具有丰富性。典型的增强变换有：旋转，镜像，对比度变换，平移变换等等。在送入训练网络前，可以通过一系列变换操作达到预期的数据丰富目的，给网络提供更充足的可用样本。

S104，利用共享卷积网络基于N个预设卷积核对图像进行第一预设网络深度的卷积相关处理，提取出所述图像的N个共享特征图的共享特征提取步骤；N为大于或等于1的正整数。

进一步，在所述共享特征提取步骤S104中，所述第一预设网络深度为卷积相关处理的层数；第一预设网络深度的各所述卷积相关处理层均包括至少一卷积非线性组或/和至少一池化层；所述卷积非线性组包括一卷积层和一非线性层的联合；所述卷积层基于N个预设卷积核对大小为W×H的图像进行卷积处理获得N个大小为W×H的卷积特征图；所述非线性层对所述N个卷积特征图进行处理后获得N个大小为W×H的非线性特征图；所述池化层对所述N个非线性特征图进行处理后获得N个大小为W/2×H/2的池化特征图。

本发明中，当卷积或池化处理的步长为1时，对大小为W×H的图像卷积或池化处理后得到的图像大小仍为W×H；当卷积或池化处理的步长为2时，对大小为W×H的图像卷积或池化处理后得到的图像大小为W/2×H/2；以此类推；本发明的列举的实施例多数采用的步长为1，偶尔采用的步长为2，实际应用中可以采用任何合适长度的步长，本发明的保护范围不限于本发明实施例列举的步长的设置。

例如，参见图2所示，共享卷积网络由13个卷积层，13个非线性层，4个池化层组成。输入图片的大小为W×H×C，一般输入图像为RGB图像，即C＝3。其中，共享卷积网络具有5层卷积相关处理层；第一层卷积相关处理层包括：2个卷积非线性组(卷积层C1_1，非线性层R1_1，卷积层C1_2，非线性层R1_2)和1个池化层(P1)；第二层卷积相关处理层包括：2个卷积非线性组(卷积层C2_1，非线性层R2_1，卷积层C2_2，非线性层R2_2)和1个池化层(P2)；第三层卷积相关处理层包括：3个卷积非线性组(卷积层C3_1，非线性层R3_1，卷积层C3_2，非线性层R3_2，卷积层C3_3，非线性层R3_3)和1个池化层(P3)；第四层卷积相关处理层包括：3个卷积非线性组(卷积层C4_1，非线性层R4_1，卷积层C4_2，非线性层R4_2，卷积层C4_3，非线性层R4_3)和1个池化层(P4)；第五层卷积相关处理层包括：3个卷积非线性组(卷积层C5_1，非线性层R5_1，卷积层C5_2，非线性层R5_2，卷积层C5_3，非线性层R5_3)。图像通过第一个卷积层C1_1时，由N(可根据需要灵活设置)个3×3的卷积核进行卷积，滑动步长为1个像素，输出的特征图个数(N)为64；64张卷积特征图经过第一个非线性层R1_1(非线性层是将卷积特征图上所有小于0阈值的像素点置0，大于等于0的像素点不做处理，保证输出的特征图的像素值都是正值)，得到64张W×H大小的卷积特征图；再通过第二个卷积层C1_2时，由3×3的卷积核进行卷积，滑动步长为1个像素，输出的特征图个数(N)为64，64张卷积特征图经过第二个非线性层R1_2得到64张W×H大小的卷积特征图，再经过第一个池化层P1，以求最大值的方式池化，池化范围大小可以是3×3，滑动步长为2，输出的为64个(W/2)×(H/2)大小的特征图。以此类推，经过上述所有层的网络运算后获得512个(W/16)×(H/16)大小的特征图，作为共享卷积网络的最终输出结果。

S106，利用区域分割网络基于第二预设卷积核对每个所述共享特征图进行第二预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的M个第二特征图，并将所述M个第二特征图中的每个像素做softmax处理，选取M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签的区域分割步骤；M为大于1的正整数。M也是区域分类的类别总数。

进一步，在所述区域分割步骤S106中，所述第二预设网络深度为卷积相关处理的层数；第二预设网络深度的卷积相关处理层包括至少一卷积非线性组和一softmax层；所述卷积非线性组包括一卷积层和一非线性层的联合；与所述softmax层直接相连的卷积非线性组中的卷积层基于M个预设卷积核对大小为W×H的图像进行卷积处理获得M个大小为W×H的卷积特征图；与所述softmax层直接相连的卷积非线性组中的非线性层对所述M个卷积特征图进行处理后获得M个大小为W×H的非线性特征图；所述softmax层对M个非线性特征图进行softmax处理，获得M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签；所述区域分类为对图像中的物体的分类，包括天空，道路，植被，树木，红绿灯，或/和建筑物。

本发明中，M也是区域分类的类别总数。每一层的卷积非线性组中的卷积层所选取的卷积核数都可以根据实际需要进行设置，即各层的卷积非线性组中的卷积层所选取的卷积核数可以相同，也可以不同；但是，在进入softmax层之前的最后一层卷积非线性组中的卷积层所选取的卷积核数必须是M，即必须是区域分类的类别总数。其他步骤中的卷积层的卷积核数(即卷积核的个数)也是类似的设置原理。

例如，参见图3所示，区域分割网络由9个卷积层和9个非线性变换层和一个softmax层组成，每个卷积层后面跟着一个非线性变换层，可对1个共享特征图计算得到M个第二特征图，其中，M为第二预设卷积核的个数。将所述M个第二特征图中的每个像素做softmax处理，1个共享特征图中的每个像素的位置即可对应M个softmax值(又可称分数)，从M个softmax值中按排序法找到softmax值最高的像素所对应的区域分类ID作为该共享特征图当前像素的类别标签。至此，对整张共享特征图完成了图像的分割任务。其中，区域分割的类别包括天空，道路，植被，树木，红绿灯，或/和建筑物等物体的整体图像分割。

Softmax的处理的方式为：其中，j＝1,2,…M，i＝1,2,…M，M为区域分割的类别总数，为大于1的正整数；M个第二特征图中相同位置像素对应的特征值构成了M维特征向量Z_j＝{z₁,z₂,…,z_M}，z_i表示第i个第二特征图中相同位置像素对应的特征值；i＝1,2,…M；δ_j为某像素对应的第j个softmax值；

S108，利用目标识别网络基于第三预设卷积核对每个所述共享特征图进行第三预设网络深度的卷积处理，获得与每个所述共享特征图对应的2K个第三特征图，利用softmax处理方法从所述2K个第三特征图中选取分数靠前的L个第三特征图的前景目标选取步骤；K为大于1的正整数；L为小于K的正整数；

利用所述目标识别网络基于第四预设卷积核对每个所述共享特征图进行第四预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的P个第四特征图，结合所述L个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图，并利用softmax处理方法获得所述共享特征图中的目标分类结果和目标精确定位的目标识别定位步骤；P为大于1的正整数。

进一步，在所述前景目标选取步骤S108中，所述第三预设网络深度为卷积处理的层数；第三预设网络深度的卷积处理层包括至少一卷积层和一softmax层；所述至少一卷积层基于预设卷积核对大小为W×H的图像进行卷积处理获得2K个大小为W×H的卷积特征图；所述softmax层对所述2K个大小为W/2×H/2的卷积特征图进行处理获得分数靠前的L个卷积特征图。

所述第四预设网络深度为卷积相关处理的层数；第四预设网络深度的卷积相关处理层包括至少一卷积层，2个池化层和2个softmax层；所述至少一卷积层基于预设卷积核对大小为W×H的图像进行卷积处理获得P个大小为W×H的卷积特征图；2个池化层分别对所述P个目标分类特征图和4P个坐标特征图进行处理获得P维分类向量和4P维坐标向量；2个softmax层分别对所述P维分类向量和4P维坐标向量进行处理获得最后的目标分类结果和目标精确定位；所述目标分类包括行人，骑手，汽车，巴士，卡车，火车，摩托车，或/和自行车。

例如，参见图4所示，目标识别网络由背景/前景的提取和目标的分类、定位两个步骤完成，由6个卷积层，2个池化层和3个softmax层组成。其中，背景/前景的提取由目标识别网络的分支一(卷积层C6_1，卷积层C6_2，卷积层C6_3，softmax层S1)完成，目标的分类、定位由目标识别网络的分支二(卷积层C7_1，卷积层C7_2a，卷积层C7_2b，池化层P5，池化层P6，softmax层S2，softmax层S3)完成。目标识别网络首先将共享卷积网络输出的共享特征图作为该网络的输入，分别进入分支一和分支二，其中共享卷积网络的输出进入分支一后，经过3个卷积层C6_1，C6_2，C6_3获得待定候选框2K个(W/2)×(H/2)大小的特征图(即第三特征图)，这里的参数2指的是前景和背景，再通过softmax层S1获得分数(即softmax值)靠前的L个第三特征图(候选框)作为前景候选框等待下一步进行目标精确定位和类别识别。而共享卷积网络的输出进入分支二后，经过三个卷积层C7_1，C7_2a，C7_2b获得第四特征图，此时再结合上述L个第三特征图(候选框)的坐标信息获得P个目标分类特征图和4P个坐标特征图，将P个目标分类特征图经池化层P5处理后获得P维分类向量，将4P个坐标特征图经池化层P6处理后获得4P维坐标向量，再将P维分类向量送入softmax层S2进行处理获得目标分类结果，将4P维坐标向量送入softmax层S3进行处理获得目标精确定位。至此完成了目标的精确定位和识别。

S110，利用所述区域分割网络获得的区域分割结果和所述目标识别网络获得的目标识别结果监督所述共享卷积网络，完成所述区域分割网络和所述目标识别网络的共享学习的共享学习步骤。

本发明提出了基于网络共享的道路检测(区域分割)和目标识别综合应用的深度学习算法。在整个道路检测和目标识别过程中，深度学习网络根据最后的标注结果迭代训练出网络模型，在迭代训练的过程中，道路分割网络和目标检测识别网络会同时对它们共享的学习网络进行监督，保证两个学习任务的收敛和测试性能。

本发明请实施例可以使用现有的深度网络训练工具进行模型训练，例如：caffe(http://caffe.berkeleyvision.org/)，使用过程中可通过定义solver文件给出训练的策略参数。其中关键的参数包括，基础学习率(base_lr)，学习率衰减方式(lr_policy)，学习率变化的比率(gamma)等，基础学习率的范围可以为0.0001～0.1，经验值一般选取0.1，学习率衰减方式一般选取“step”，即每训练N批次全部训练样本，base_lr衰减一次，衰减的系数则为学习变化的比率gamma，学习变化的比率范围可以为0～1，经验值一般选取0.9。

本发明所述的用于智能驾驶的深度学习图像识别方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

本发明还提供一种用于智能驾驶的深度学习图像识别***，所述用于智能驾驶的深度学习图像识别***可以实现本发明所述的用于智能驾驶的深度学习图像识别方法，但本发明所述的用于智能驾驶的深度学习图像识别方法的实现装置包括但不限于本实施例列举的用于智能驾驶的深度学习图像识别***的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

参见图5所示，本发明实施例提供一种用于智能驾驶的深度学习图像识别***500，针对道路驾驶场景图像，包括：图像数据增强模块502，共享卷积网络504，区域分割网络506，或/和目标识别网络508，实现分割与识别的统一网络架构。

所述图像数据增强模块502对输入的图像进行增强变换处理，增加输入图像数据的量；所述增强变换处理的方式包括旋转、镜像、对比度变换、或/和平移变换等。

所述共享卷积网络504基于N个预设卷积核对图像进行第一预设网络深度的卷积相关处理，提取出所述图像的N个共享特征图；N为大于或等于1的正整数。

进一步，所述共享卷积网络504中的所述第一预设网络深度为卷积相关处理的层数；所述第一预设网络深度的各所述卷积相关处理层均包括至少一卷积非线性组或/和至少一池化层；所述卷积非线性组包括一卷积层和一非线性层的联合；所述卷积层基于N个预设卷积核对大小为W×H的图像进行卷积处理获得N个大小为W×H的卷积特征图；所述非线性层对所述N个卷积特征图进行处理后获得N个大小为W×H的非线性特征图；所述池化层对所述N个非线性特征图进行处理后获得N个大小为W/2×H/2的池化特征图。

所述区域分割网络506与所述共享卷积网络504相连，基于第二预设卷积核对每个所述共享特征图进行第二预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的M个第二特征图，并将所述M个第二特征图中的每个像素做softmax处理，选取M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签；M为大于1的正整数；M也是区域分类的类别总数。

进一步，所述区域分割网络506中的所述第二预设网络深度为卷积相关处理的层数；所述第二预设网络深度的卷积相关处理层包括至少一卷积非线性组和一softmax层；所述卷积非线性组包括一卷积层和一非线性层的联合；与所述softmax层直接相连的卷积非线性组中的卷积层基于M个预设卷积核对大小为W×H的图像进行卷积处理获得M个大小为W×H的卷积特征图；与所述softmax层直接相连的卷积非线性组中的非线性层对所述M个卷积特征图进行处理后获得M个大小为W×H的非线性特征图；所述softmax层对M个非线性特征图进行softmax处理，获得M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签；所述区域分类为对图像中的物体的分类，包括天空，道路，植被，树木，红绿灯，或/和建筑物。本发明中，M也是区域分类的类别总数。每一层的卷积非线性组中的卷积层所选取的卷积核数都可以根据实际需要进行设置，即各层的卷积非线性组中的卷积层所选取的卷积核数可以相同，也可以不同；但是，在进入softmax层之前的最后一层卷积非线性组中的卷积层所选取的卷积核数必须是M，即必须是区域分类的类别总数。其他步骤中的卷积层的卷积核数(即卷积核的个数)也是类似的设置原理。

所述目标识别网络508与所述共享卷积网络504相连，基于第三预设卷积核对每个所述共享特征图进行第三预设网络深度的卷积处理，获得与每个所述共享特征图对应的2K个第三特征图，利用softmax处理方法从所述2K个第三特征图中选取分数靠前的L个第三特征图；K为大于1的正整数；L为小于K的正整数。

所述目标识别网络508基于第四预设卷积核对每个所述共享特征图进行第四预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的P个第四特征图，结合所述L个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图，并利用softmax处理方法获得所述共享特征图中的目标分类结果和目标精确定位；P为大于1的正整数。

进一步，所述目标识别网络508中的所述第三预设网络深度为卷积处理的层数；所述第三预设网络深度的卷积处理层包括至少一卷积层和一softmax层；所述至少一卷积层基于预设卷积核对大小为W×H的图像进行卷积处理获得2K个大小为W×H的卷积特征图；所述softmax层对所述2K个大小为W×H的卷积特征图进行处理获得分数靠前的L个卷积特征图。

所述目标识别网络中的所述第四预设网络深度为卷积相关处理的层数；所述第四预设网络深度的卷积相关处理层包括至少一卷积层，2个池化层和2个softmax层；所述至少一卷积层基于预设卷积核对大小为W×H的图像进行卷积处理获得P个大小为W/2×H/2的卷积特征图；2个池化层分别对所述P个目标分类特征图和4P个坐标特征图进行处理获得P维分类向量和4P维坐标向量；2个softmax层分别对所述P维分类向量和4P维坐标向量进行处理获得最后的目标分类结果和目标精确定位；所述目标分类结果包括行人，骑手，汽车，巴士，卡车，火车，摩托车，或/和自行车。

利用所述区域分割网络获得的区域分割结果和所述目标识别网络获得的目标识别结果监督所述共享卷积网络，完成所述区域分割网络和所述目标识别网络在统一网络架构下的共享学习。本发明提出了基于网络共享的道路检测(区域分割)和目标识别综合应用的深度学习算法。在整个道路检测和目标识别过程中，深度学习网络根据最后的标注结果迭代训练出网络模型，在迭代训练的过程中，道路分割网络和目标检测识别网络会同时对它们共享的学习网络进行监督，保证两个学习任务的收敛和测试性能。

本发明将共享性深度学习网络作为一种提取特征的手段，在处理多任务学习时，它比传统的卷积神经网络具有更小更精的优势，它不仅继承了原有网络中的权值共享，同时还共享了部分网络结构和模型，不仅仅保留了单层网络的准确率，还大大减少了计算成本，在多任务学习上具有明显的速度优势，相对于单独学习两个独立的网络，具有耗时少，效率高的特点。本发明有效的规避了卷积层重复运算的问题，可以完成多任务的检测和识别。

参见图6所示，本发明实施例还提供一种终端设备，所述终端设备包括所述用于智能驾驶的深度学习图像识别***500(或用于智能驾驶的深度学习图像识别方法)训练生成的图像检测识别模型600。所述图像检测识别模型600包括：共享卷积网络604，区域分割网络606，或/和目标识别网络608。所述终端设备包括可用于智能驾驶的车辆、飞行器、照相机、摄像机、或/和图像处理设备等任意类型的需要加载使用所述图像检测识别模型600的设备。

所述共享卷积网络604基于N个预设卷积核对图像进行第一预设网络深度的卷积相关处理，提取出所述图像的N个共享特征图；N为大于或等于1的正整数。

进一步，所述共享卷积网络604中的所述第一预设网络深度为卷积相关处理的层数；所述第一预设网络深度的各所述卷积相关处理层均包括至少一卷积非线性组或/和至少一池化层；所述卷积非线性组包括一卷积层和一非线性层的联合；所述卷积层基于N个预设卷积核对大小为W×H的图像进行卷积处理获得N个大小为W×H的卷积特征图；所述非线性层对所述N个卷积特征图进行处理后获得N个大小为W×H的非线性特征图；所述池化层对所述N个非线性特征图进行处理后获得N个大小为W/2×H/2的池化特征图。

所述区域分割网络606与所述共享卷积网络604相连，基于第二预设卷积核对每个所述共享特征图进行第二预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的M个第二特征图，并将所述M个第二特征图中的每个像素做softmax处理，选取M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签；M为大于1的正整数。M也是区域分类的类别总数。

进一步，所述区域分割网络606中的所述第二预设网络深度为卷积相关处理的层数；所述第二预设网络深度的卷积相关处理层包括至少一卷积非线性组和一softmax层；所述卷积非线性组包括一卷积层和一非线性层的联合；与所述softmax层直接相连的卷积非线性组中的卷积层基于M个预设卷积核对大小为W×H的图像进行卷积处理获得M个大小为W×H的卷积特征图；与所述softmax层直接相连的卷积非线性组中的非线性层对所述M个卷积特征图进行处理后获得M个大小为W×H的非线性特征图；所述softmax层对M个非线性特征图进行softmax处理，获得M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签；所述区域分类为对图像中的物体的分类，包括天空，道路，植被，树木，红绿灯，或/和建筑物。

所述目标识别网络608与所述共享卷积网络604相连，基于第三预设卷积核对每个所述共享特征图进行第三预设网络深度的卷积处理，获得与每个所述共享特征图对应的2K个第三特征图，利用softmax处理方法从所述2K个第三特征图中选取分数靠前的L个第三特征图；K为大于1的正整数；L为小于K的正整数。

所述目标识别网络608基于第四预设卷积核对每个所述共享特征图进行第四预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的P个第四特征图，结合所述L个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图，并利用softmax处理方法获得所述共享特征图中的目标分类结果和目标精确定位；P为大于1的正整数。

进一步，所述目标识别网络608中的所述第三预设网络深度为卷积处理的层数；所述第三预设网络深度的卷积处理层包括至少一卷积层和一softmax层；所述至少一卷积层基于预设卷积核对大小为W×H的图像进行卷积处理获得2K个大小为W×H的卷积特征图；所述softmax层对所述2K个大小为W/2×H/2的卷积特征图进行处理获得分数靠前的L个卷积特征图。

所述目标识别网络中的所述第四预设网络深度为卷积相关处理的层数；所述第四预设网络深度的卷积相关处理层包括至少一卷积层，2个池化层和2个softmax层；所述至少一卷积层基于预设卷积核对大小为W×H的图像进行卷积处理获得P个大小为W×H的卷积特征图；2个池化层分别对所述P个目标分类特征图和4P个坐标特征图进行处理获得P维分类向量和4P维坐标向量；2个softmax层分别对所述P维分类向量和4P维坐标向量进行处理获得最后的目标分类结果和目标精确定位；所述目标分类结果包括行人，骑手，汽车，巴士，卡车，火车，摩托车，或/和自行车。

利用本发明对采集的道路进行处理，自动识别背景、树木、可行驶路面、道路交通标线、车辆和行人，经验证能够取得非常理想的检测识别准确率。

综上所述，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种用于智能驾驶的深度学习图像识别方法，其特征在于，所述用于智能驾驶的深度学习图像识别方法包括：

利用共享卷积网络基于N个预设卷积核对图像进行第一预设网络深度的卷积相关处理，提取出所述图像的N个共享特征图的共享特征提取步骤；N为大于或等于1的正整数；

利用区域分割网络基于第二预设卷积核对每个所述共享特征图进行第二预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的M个第二特征图，并将所述M个第二特征图中的每个像素做softmax处理，选取M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签的区域分割步骤；M为大于1的正整数；M是区域分类的类别总数；

利用目标识别网络基于第三预设卷积核对每个所述共享特征图进行第三预设网络深度的卷积处理，获得与每个所述共享特征图对应的2K个第三特征图，利用softmax处理方法从所述2K个第三特征图中选取分数靠前的L个第三特征图的前景目标选取步骤；K为大于1的正整数；L为小于K的正整数；

利用所述目标识别网络基于第四预设卷积核对每个所述共享特征图进行第四预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的P个第四特征图，结合所述L个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图，并利用softmax处理方法获得所述共享特征图中的目标分类结果和目标精确定位的目标识别定位步骤；P为大于1的正整数；所述目标识别定位步骤中，所述第四预设网络深度为卷积相关处理的层数；第四预设网络深度的卷积相关处理层包括至少一卷积层，2个池化层和2个softmax层；所述至少一卷积层基于预设卷积核对图像进行卷积处理获得P个卷积特征图；2个池化层分别对所述P个目标分类特征图和4P个坐标特征图进行处理获得P维分类向量和4P维坐标向量；2个softmax层分别对所述P维分类向量和4P维坐标向量进行处理获得最后的目标分类结果和目标精确定位；所述目标分类结果包括行人，骑手，汽车，巴士，卡车，火车，摩托车，或/和自行车；

利用所述区域分割网络获得的区域分割结果和所述目标识别网络获得的目标识别结果监督所述共享卷积网络，完成所述区域分割网络和所述目标识别网络的共享学习的共享学习步骤。

2.根据权利要求1所述的用于智能驾驶的深度学习图像识别方法，其特征在于：所述共享特征提取步骤中，所述第一预设网络深度为卷积相关处理的层数；第一预设网络深度的各所述卷积相关处理层均包括至少一卷积非线性组或/和至少一池化层；所述卷积非线性组包括一卷积层和一非线性层的联合；所述卷积层基于N个预设卷积核对图像进行卷积处理获得N个卷积特征图；所述非线性层对所述N个卷积特征图进行处理后获得N个非线性特征图；所述池化层对所述N个非线性特征图进行处理后获得N个池化特征图。

3.根据权利要求1所述的用于智能驾驶的深度学习图像识别方法，其特征在于：所述区域分割步骤中，所述第二预设网络深度为卷积相关处理的层数；第二预设网络深度的卷积相关处理层包括至少一卷积非线性组和一softmax层；所述卷积非线性组包括一卷积层和一非线性层的联合；与所述softmax层直接相连的卷积非线性组中的卷积层基于M个预设卷积核对图像进行卷积处理获得M个卷积特征图；与所述softmax层直接相连的卷积非线性组中的非线性层对所述M个卷积特征图进行处理后获得M个非线性特征图；所述softmax层对M个非线性特征图进行softmax处理，获得M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签；所述区域分类为对图像中的物体的分类，包括天空，道路，植被，树木，红绿灯，或/和建筑物。

4.根据权利要求1所述的用于智能驾驶的深度学习图像识别方法，其特征在于：所述前景目标选取步骤中，所述第三预设网络深度为卷积处理的层数；第三预设网络深度的卷积处理层包括至少一卷积层和一softmax层；所述至少一卷积层基于预设卷积核对图像进行卷积处理获得2K个卷积特征图；所述softmax层对所述2K个卷积特征图进行处理获得分数靠前的L个卷积特征图。

5.根据权利要求1所述的用于智能驾驶的深度学习图像识别方法，其特征在于，所述用于智能驾驶的深度学习图像检测识别方法还包括：

在所述共享特征提取步骤前实施的图像数据增强步骤，具体包括：对输入的图像进行增强变换处理，增加输入图像数据的量；所述增强变换处理的方式包括对源图像进行一种或多种组合几何变换。

6.一种用于智能驾驶的深度学习图像识别***，其特征在于，所述用于智能驾驶的深度学习图像识别***包括：

共享卷积网络，基于N个预设卷积核对图像进行第一预设网络深度的卷积相关处理，提取出所述图像的N个共享特征图；N为大于或等于1的正整数；

区域分割网络，与所述共享卷积网络相连，基于第二预设卷积核对每个所述共享特征图进行第二预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的M个第二特征图，并将所述M个第二特征图中的每个像素做softmax处理，选取M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签的区域分割步骤；M为大于1的正整数；M是区域分类的类别总数；

目标识别网络，与所述共享卷积网络相连，基于第三预设卷积核对每个所述共享特征图进行第三预设网络深度的卷积处理，获得与每个所述共享特征图对应的2K个第三特征图，利用softmax处理方法从所述2K个第三特征图中选取分数靠前的L个第三特征图；K为大于1的正整数；L为小于K的正整数；所述目标识别网络中的所述第三预设网络深度为卷积处理的层数；所述第三预设网络深度的卷积处理层包括至少一卷积层和一softmax层；所述至少一卷积层基于预设卷积核对图像进行卷积处理获得2K个卷积特征图；所述softmax层对所述2K个卷积特征图进行处理获得分数靠前的L个卷积特征图；

所述目标识别网络基于第四预设卷积核对每个所述共享特征图进行第四预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的P个第四特征图，结合所述L个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图，并利用softmax处理方法获得所述共享特征图中的目标分类结果和目标精确定位；P为大于1的正整数；所述目标识别网络中的所述第四预设网络深度为卷积相关处理的层数；所述第四预设网络深度的卷积相关处理层包括至少一卷积层，2个池化层和2个softmax层；所述至少一卷积层基于预设卷积核对图像进行卷积处理获得P个卷积特征图；2个池化层分别对所述P个目标分类特征图和4P个坐标特征图进行处理获得P维分类向量和4P维坐标向量；2个softmax层分别对所述P维分类向量和4P维坐标向量进行处理获得最后的目标分类结果和目标精确定位；所述目标分类结果包括行人，骑手，汽车，巴士，卡车，火车，摩托车，或/和自行车；

利用所述区域分割网络获得的区域分割结果和所述目标识别网络获得的目标识别结果监督所述共享卷积网络，完成所述区域分割网络和所述目标识别网络的共享学习。

7.根据权利要求6所述的用于智能驾驶的深度学习图像识别***，其特征在于：所述共享卷积网络中的所述第一预设网络深度为卷积相关处理的层数；所述第一预设网络深度的各所述卷积相关处理层均包括至少一卷积非线性组或/和至少一池化层；所述卷积非线性组包括一卷积层和一非线性层的联合；所述卷积层基于N个预设卷积核对图像进行卷积处理获得N个卷积特征图；所述非线性层对所述N个卷积特征图进行处理后获得N个非线性特征图；所述池化层对所述N个非线性特征图进行处理后获得N个池化特征图。

8.根据权利要求6所述的用于智能驾驶的深度学习图像识别***，其特征在于：所述区域分割网络中的所述第二预设网络深度为卷积相关处理的层数；所述第二预设网络深度的卷积相关处理层包括至少一卷积非线性组和一softmax层；所述卷积非线性组包括一卷积层和一非线性层的联合；与所述softmax层直接相连的卷积非线性组中的卷积层基于M个预设卷积核对图像进行卷积处理获得M个卷积特征图；与所述softmax层直接相连的卷积非线性组中的非线性层对所述M个卷积特征图进行处理后获得M个非线性特征图；所述softmax层对M个非线性特征图进行softmax处理，获得M个第二特征图中相同位置像素的分数最高像素的区域分类ID作为对应共享特征图的相同位置像素的类别标签；所述区域分类为对图像中的物体的分类，包括天空，道路，植被，树木，红绿灯，或/和建筑物。

9.一种终端设备，其特征在于，所述终端设备包括权利要求6至8任意一项所述的用于智能驾驶的深度学习图像识别***训练生成的图像检测识别模型；所述图像检测识别模型包括：

目标识别网络，与所述共享卷积网络相连，基于第三预设卷积核对每个所述共享特征图进行第三预设网络深度的卷积处理，获得与每个所述共享特征图对应的2K个第三特征图，利用softmax处理方法从所述2K个第三特征图中选取分数靠前的L个第三特征图；K为大于1的正整数；L为小于K的正整数；所述目标识别网络中的所述第三预设网络深度为卷积处理的层数；所述第三预设网络深度的卷积处理层包括至少一卷积层和一softmax层；所述至少一卷积层基于预设卷积核对图像进行卷积处理获得2K个卷积特征图；所述softmax层对所述2K个卷积特征图进行处理获得分数靠前的L个卷积特征图；所述目标识别网络基于第四预设卷积核对每个所述共享特征图进行第四预设网络深度的卷积相关处理，获得与每个所述共享特征图对应的P个第四特征图，结合所述L个第三特征图的坐标信息获得P个目标分类特征图和4P个坐标特征图，并利用softmax处理方法获得所述共享特征图中的目标分类结果和目标精确定位；P为大于1的正整数；所述目标识别网络中的所述第四预设网络深度为卷积相关处理的层数；所述第四预设网络深度的卷积相关处理层包括至少一卷积层，2个池化层和2个softmax层；所述至少一卷积层基于预设卷积核对图像进行卷积处理获得P个卷积特征图；2个池化层分别对所述P个目标分类特征图和4P个坐标特征图进行处理获得P维分类向量和4P维坐标向量；2个softmax层分别对所述P维分类向量和4P维坐标向量进行处理获得最后的目标分类结果和目标精确定位；所述目标分类结果包括行人，骑手，汽车，巴士，卡车，火车，摩托车，或/和自行车。

10.根据权利要求9所述的终端设备，其特征在于：所述终端设备为车辆、飞行器、照相机、摄像机或图像处理设备。