CN111241964A - 目标检测模型的训练方法、装置、电子设备和存储介质 - Google Patents

目标检测模型的训练方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111241964A
CN111241964A CN202010010252.8A CN202010010252A CN111241964A CN 111241964 A CN111241964 A CN 111241964A CN 202010010252 A CN202010010252 A CN 202010010252A CN 111241964 A CN111241964 A CN 111241964A
Authority
CN
China
Prior art keywords
network
training
point cloud
frame
cloud data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010010252.8A
Other languages
English (en)
Inventor
尹轩宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202010010252.8A priority Critical patent/CN111241964A/zh
Publication of CN111241964A publication Critical patent/CN111241964A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了目标检测模型的训练方法、装置、电子设备和存储介质。所述目标检测模型包括一阶段网络和二阶段网络,所述目标检测模型的训练方法包括:根据所述一阶段网络在三维点云数据中生成初步检测框;根据所述初步检测框对所述三维点云数据进行分类,根据分类结果生成训练数据;利用所述训练数据,迭代训练所述二阶段网络提取局部特征并根据局部特征生成精炼预测框。有益效果在于,采用双阶段网络设计,可以对一阶段网络的输出结果进行二次分类,以及在初步检测框结果的基础上,提取框内局部特征生成精炼预测框,从而可以改善样本不平衡问题,可以更好地提炼学习出目标的信息,从而进行预测框的精炼。

Description

目标检测模型的训练方法、装置、电子设备和存储介质
技术领域
本申请涉及目标检测领域,具体涉及目标检测模型的训练方法、装置、电子设备和存储介质。
背景技术
目标检测对于无人驾驶技术有着重要意义,而无人驾驶技术又可以应用到物流、外卖配送等领域中,具有极大的业务价值。目前针对目标检测可以通过融合激光雷达,相机,毫米波雷达等多种传感器的数据来获取目标的空间信息,然后采用深度学习的方式,如利用卷积神经网络来分析这些数据,提取特征,最终在数据中标记出目标以实现目标检测。但是以激光雷达采集的三维点云数据为例,三维点云本身有着不规则的特点,导致现有技术的目标检测识别效果不佳,不能很好的确保识别的精准度。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的目标检测模型的训练方法、装置、电子设备和存储介质。
依据本申请的一个方面,提供了一种目标检测模型的训练方法,所述目标为自动驾驶场景中的待关注对象,所述目标检测模型包括一阶段网络和二阶段网络,该方法包括:
根据所述一阶段网络在三维点云数据中生成初步检测框;
根据所述初步检测框对所述三维点云数据进行分类,根据分类结果生成训练数据;
利用所述训练数据,迭代训练所述二阶段网络提取局部特征并根据局部特征生成精炼预测框。
可选地,所述迭代训练所述二阶段网络提取局部特征并根据局部特征生成精炼预测框中的每个训练过程均包括:
将每个初步检测框对应的点云数据,通过体素化特征提取子网络提取出体素化特征;
利用深度卷积神经网络和所述体素化特征生成精炼预测框。
可选地,所述将每个初步检测框对应的点云数据,通过体素化特征提取子网络提取出体素化特征包括:
将每个初步检测框对应的点云数据分割为若干个体素;
对每个体素,通过体素化特征提取子网络中的若干个体素特征提取层提取出点链接特征,将所述点链接特征经过全连接神经网络层和区域最大池化层得到体素化特征。
可选地,所述利用深度卷积神经网络和所述体素化特征生成精炼预测框包括:
利用深度卷积神经网络对所述体素化特征依次进行卷积、最大池化、激活、归一化处理,最后通过两层全连接生成精炼预测框。
可选地,所述深度卷积神经网络包括分类网络和预测框回归网络,所述利用深度卷积神经网络和所述体素化特征生成精炼预测框包括:
使用softmax作为分类网络的激活函数,由分类网络输出精炼包围框对应的目标种类;由预测框回归网络输出精炼预测框的中心点坐标、长、宽、高和偏角。
可选地,所述分类网络使用Focal loss作为损失函数,所述预测框回归网络使用smooth L1 loss作为损失函数。
可选地,所述深度卷积神经网络在训练时利用预设训练周期数和停止阈值进行训练控制;
其中,当训练周期大于预设周期数,或一个训练周期对应的损失函数的变化量小于预设阈值时,停止训练。
依据本申请的另一个方面,提供了一种目标检测模型的训练装置,所述目标为自动驾驶场景中的待关注对象,所述目标检测模型包括一阶段网络和二阶段网络,该装置包括:
初检单元,用于根据所述一阶段网络在三维点云数据中生成初步检测框;
分类单元,用于根据所述初步检测框对所述三维点云数据进行分类,根据分类结果生成训练数据;
精炼单元,用于利用所述训练数据,迭代训练所述二阶段网络提取局部特征并根据局部特征生成精炼预测框。
可选地,所述精炼单元,用于将每个初步检测框对应的点云数据,通过体素化特征提取子网络提取出体素化特征;
利用深度卷积神经网络和所述体素化特征生成精炼预测框。
可选地,所述精炼单元,用于将每个初步检测框对应的点云数据分割为若干个体素;对每个体素,通过体素化特征提取子网络中的若干个体素特征提取层提取出点链接特征,将所述点链接特征经过全连接神经网络层和区域最大池化层得到体素化特征。
可选地,所述精炼单元,用于利用深度卷积神经网络对所述体素化特征依次进行卷积、最大池化、激活、归一化处理,最后通过两层全连接生成精炼预测框。
可选地,所述深度卷积神经网络包括分类网络和预测框回归网络,所述精炼单元,用于使用softmax作为分类网络的激活函数,由分类网络输出精炼包围框对应的目标种类;由预测框回归网络输出精炼预测框的中心点坐标、长、宽、高和偏角。
可选地,所述分类网络使用Focal loss作为损失函数,所述预测框回归网络使用smooth L1 loss作为损失函数。
可选地,所述精炼单元,用于在训练时利用预设训练周期数和停止阈值进行训练控制;其中,当训练周期大于预设周期数,或一个训练周期对应的损失函数的变化量小于预设阈值时,停止训练。
依据本申请的又一方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。
依据本申请的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。
由上述可知,本申请的技术方案,所述目标检测模型包括一阶段网络和二阶段网络,该方法包括:根据所述一阶段网络在三维点云数据中生成初步检测框;根据所述初步检测框对所述三维点云数据进行分类,根据分类结果生成训练数据;利用所述训练数据,迭代训练所述二阶段网络提取局部特征并根据局部特征生成精炼预测框。有益效果在于,采用双阶段网络设计,可以对一阶段网络的输出结果进行二次分类,以及在初步检测框结果的基础上,提取框内局部特征生成精炼预测框,从而可以改善样本不平衡问题,可以更好地提炼学习出目标的信息,从而进行预测框的精炼。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的目标检测模型的训练方法的流程示意图;
图2示出了根据本申请一个实施例的目标检测模型的训练装置的结构示意图;
图3示出了根据本申请一个实施例的电子设备的结构示意图;
图4示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
对于深度学习来说,卷积神经网络是最主要的解决方法。对于点云数据处理而言,不同的卷积核可以自动提取点的局部相关特征,但是卷积对点的顺序很敏感,和2D图像相比,3D点云的数据并非是在空间中规则排列的,所以直接卷积会失去点云的形状信息。所以基于深度学习的3D物体识别的主要挑战就是解决点云的无序性问题,还有点云的不规则的问题。
本申请的实施例中,目标检测模型中的目标为3D物体,相关的数据为三维点云数据,因此也要面对上述问题。具体来说,目标可以包含行人、自行车、汽车等道路上需要引起驾驶关注的多个类别,目标检测模型可以应用于无人驾驶技术,并进一步应用于物流、外卖配送等业务领域。
下面结合具体实施例进行介绍。
图1示出了根据本申请一个实施例的目标检测模型的训练方法的流程示意图,其中,目标为自动驾驶场景中的待关注对象。如图1所示,该方法包括:
步骤S110,根据一阶段网络在三维点云数据中生成初步检测框。
目标通常是3D物体,本申请对3D物体的识别主要采用深度学习的方法,利用卷积神经网络和目标检测模型技术实现。目标检测模型包括一阶段网络和二阶段网络。
之所以选择两阶段(two-stage)网络,是因为现有技术中的单阶段(one-stage)网络在提取目标的特征时,由于其采样机制实际中会产生很多框导致正负样本的失衡,所以定位精度并不高。并且,单阶段网络产生的检测框中还通常包含有除了目标外的其他物体,也就是检测框内,非目标的局部特征影响了检测框回归的精度。
其中,一阶段网络的基础网络可以利用现有技术实现,如可以采用PointCNN、PointNet(目前均无统一的中文名称)等提取点云数据中点顺序无关的局部信息或进行排序加权,得到初步检测框。优选地,可以使用体素特征提取网络VoxelNet作为实现一阶段网络的基础网络。
可以首先根据一阶段网络在三维点云数据中生成初步检测框,初步检测框可以实现对目标物的初步检测,每个初步检测框对应于一个目标的大致位置,为后续的精炼检测提供基础。
步骤S120,根据初步检测框对三维点云数据进行分类,根据分类结果生成训练数据。
在获取到一阶段网络在三维点云数据中生成的初步检测框后,可以根据初步检测框对三维点云数据进行分类,再根据分类结果生成训练数据。由此,采用二阶段分类的手法,对于一阶段的结果进行二次分类,改善了样本不平衡问题,让网络预测效果更好。具体的分类可以是将初步检测框按照检测出目标的类型进行分类,如分为行人、自行车、小轿车、背景等。
步骤S130,利用训练数据,迭代训练二阶段网络提取局部特征并根据局部特征生成精炼预测框。
二阶段网络可以在一次预测框结果的基础上,提取出三维点云数据局部特征,从而更好地学习物体信息,并根据训练数据进行迭代训练,可以根据局部特征生成精炼预测框,实现对三维点云数据进行预测框的精炼。
可见,如图1所示的方法,采用双阶段网络设计,可以对一阶段网络的输出结果进行二次分类,以及在初步检测框结果的基础上,提取框内局部特征生成精炼预测框,从而可以改善样本不平衡问题,可以更好地提炼学习出目标的信息,从而进行预测框的精炼。
在本申请的一个实施例中,上述方法中,迭代训练二阶段网络提取局部特征并根据局部特征生成精炼预测框中的每个训练过程均包括:将每个初步检测框对应的点云数据,通过体素化特征提取子网络提取出体素化特征;利用深度卷积神经网络和体素化特征生成精炼预测框。
体素化可以实现对模型的简化,从而得到均匀的网格。因此,可以利用体素化特征提取子网络对每个初步检测框对应的点云数据进行提取出体素化特征处理,将每个初步检测框对应的点云数据,通过体素化特征提取子网络提取出体素化特征。
卷积神经网络具有表征学***移不变分类,能够以较小的计算量对格点化特征,有稳定的效果且对数据没有额外的特征工程要求。因此,可以利用深度卷积神经网络和体素化特征生成精炼预测框。这样,就可以在每个训练过程中,迭代训练二阶段网络提取局部特征并根据局部特征生成精炼预测框。
当然,除了上面实施例示出的方式外,还可以有其他方式进行局部特征的提取,例如将初步预测框进行网格化,利用每个网格中是否有点云形成矩阵,如网格中有点云,则相应的矩阵元素为1;如果网格中没有点云,则相应的矩阵元素为0,等等,上面的实施例中,利用体素化特征作为局部特征是经验证效果较好的一个示例。
在本申请的一个实施例中,上述方法中,将每个初步检测框对应的点云数据,通过体素化特征提取子网络提取出体素化特征包括:将每个初步检测框对应的点云数据分割为若干个体素;对每个体素,通过体素化特征提取子网络中的若干个体素特征提取层提取出点链接特征,将点链接特征经过全连接神经网络层和区域最大池化层得到体素化特征。
在通过体素化特征提取子网络提取体素化特征时,可以将三维点云划分为一定数量的体素Voxel,将每个初步检测框对应的点云数据分割为若干个体素,并对每一个非空体素Voxel进行局部特征提取。体素Voxel是体积元素(Volume Pixel)的简称,包含体素的立体可以通过立体渲染或者提取给定阈值轮廓的多边形等值面表现出来。通过对每个体素通过体素化特征提取子网络中的若干个体素特征提取层提取出点链接特征,可以将点链接特征经过全连接神经网络层和区域最大池化层得到体素化特征。这样,就实现了更为精细的体素化特征。
例如,可以将三维点云划分为四个Voxel,对每个体素Voxel通过体素化特征提取子网络中的若干个体素特征提取层提取出点链接特征(Point-wise feature)。
具体地,每个体素特征提取层都可以进行如下的VFE(Voxel Feature Encoding,体素特征编码)操作:先使用FCN(Fully Connected Neural Net,全连接神经网络层)抽象出Point-wise feature,再通过区域最大池化(Element-wise maxpool)得到得到局部聚合特征(Locally Aggregated Feature),然后将这个局部聚合特征链接到每个Point-wisefeature上,得到串联的点链接特征(Point-wise concatenated feature)。
那么对于整个体素化特征提取子网络而言,可以经过多个VFE层,得到点链接特征,再将该点链接特征通过全连接神经网络层和区域最大池化层,最终得到体素化特征,以供后续进行卷积。优选地最终提取的体素化特征可以是128维特征。
在本申请的一个实施例中,上述方法中,利用深度卷积神经网络和体素化特征生成精炼预测框包括:利用深度卷积神经网络对体素化特征依次进行卷积、最大池化、激活、归一化处理,最后通过两层全连接生成精炼预测框。
例如,深度卷积神经网络可以采用六层,前四层分别对提取的128维特征进行卷积、最大池化、激活(具体可以适用激活函数relu函数进行激活)、归一化处理(Batchnormalization)等的操作,最后两层都是全连接层可以输出预测结果。
其中,通过卷积操作和最大池化操作可以取局部接受域中值最大的点,激活函数relu是为了增加神经网络模型的非线性因素,引入非线性因素之后神经网络可以任意逼近任何非线性函数,提升适用性。归一化处理可以大为加快模型的训练时间。
在本申请的一个实施例中,上述方法中,深度卷积神经网络包括分类网络和预测框回归网络,利用深度卷积神经网络和体素化特征生成精炼预测框包括:使用softmax作为分类网络的激活函数,由分类网络输出精炼包围框对应的目标种类;由预测框回归网络输出精炼预测框的中心点坐标、长、宽、高和偏角。
也就是说,该深度卷积神经网络包括分类任务和预测框回归任务这两个任务,也可以称为两个网络。分类网络是可以根据数据特征对数据进行分类的节点网络。预测框回归网络是预测框经过映射处理从而得到一个与真实框更接近的回归窗口的网络。
在利用深度卷积神经网络和体素化特征生成精炼预测框的过程中,可以使用激活函数softmax作为分类网络的激活函数,激活函数softmax可以用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类。这样,分类网络可以输出精炼包围框来实现对对应的目标种类的分类。而预测框回归网络可以输出精炼预测框的中心点坐标、长、宽、高和偏角等数据,这样就能确定精炼预测框的具***置。
在本申请的一个实施例中,上述方法中,分类网络使用Focal loss作为损失函数,预测框回归网络使用smooth L1 loss作为损失函数。
分类网络可以使用损失函数Focal loss作为损失函数,损失函数Focal loss主要是为了解决一阶段目标检测中在训练阶段前景类和背景类正负样本比例严重失衡的问题场景的损失函数,可以降低大量简单负样本在训练中所占的权重。预测框回归网络使用smooth L1 loss作为损失函数,smooth L1 loss能从两个方面限制梯度,即当预测框与真实有效值ground truth差别过大时,梯度值不至于过大;当预测框与真实值ground truth差别很小时,梯度值足够小。这样,就实现了对损失函数的确定。
预测框回归网络可以根据预测的初步预测框与真实值之间的残差,以及所述初步预测框的中心点坐标、长、宽、高和偏角,确定精炼预测框的中心点坐标、长、宽、高和偏角。这样在使用时,输入的三维点云先经过一阶段网络得到初步预测框,再通过二阶段网络预测该初步预测框与真实场景的偏差,进行校正后得到精炼预测框。
在本申请的一个实施例中,上述方法中,深度卷积神经网络在训练时利用预设训练周期数和停止阈值进行训练控制;其中,当训练周期大于预设周期数,或一个训练周期对应的损失函数的变化量小于预设阈值时,停止训练。
由于在使用两个损失函数时,可能会相互干扰导致过度训练,为了实现训练的控制,准确及时的把控模型训练的效果和进度,可以预设一定的训练周期数和停止阈值来对训练结果进行控制,当训练周期大于预设周期数时,或一个训练周期对应的损失函数的变化量小于预设阈值时,则说明已经满足预先设计的模型训练条件,可以停止训练。这样,就实现了度模型训练停止条件的控制,避免了过度训练。
图2示出了根据本申请一个实施例的目标检测模型的训练装置的结构示意图,其中,目标为自动驾驶场景中的待关注对象。如图2所示,目标检测模型的训练装置200包括:
初检单元210,用于根据一阶段网络在三维点云数据中生成初步检测框。
目标通常是3D物体,本申请对3D物体的识别主要采用深度学习的方法,利用卷积神经网络和目标检测模型技术实现。目标检测模型包括一阶段网络和二阶段网络。
之所以选择两阶段(two-stage)网络,是因为现有技术中的单阶段(one-stage)网络在提取目标的特征时,由于其采样机制实际中会产生很多框导致正负样本的失衡,所以定位精度并不高。并且,单阶段网络产生的检测框中还通常包含有除了目标外的其他物体,也就是检测框内,非目标的局部特征影响了检测框回归的精度。
其中,一阶段网络的基础网络可以利用现有技术实现,如可以采用PointCNN、PointNet(目前均无统一的中文名称)等提取点云数据中点顺序无关的局部信息或进行排序加权,得到初步检测框。优选地,可以使用体素特征提取网络VoxelNet作为实现一阶段网络的基础网络。
可以首先根据一阶段网络在三维点云数据中生成初步检测框,初步检测框可以实现对目标物的初步检测,每个初步检测框对应于一个目标的大致位置,为后续的精炼检测提供基础。
分类单元220,用于根据初步检测框对三维点云数据进行分类,根据分类结果生成训练数据。
在获取到一阶段网络在三维点云数据中生成的初步检测框后,可以根据初步检测框对三维点云数据进行分类,再根据分类结果生成训练数据。由此,采用二阶段分类的手法,对于一阶段的结果进行二次分类,改善了样本不平衡问题,让网络预测效果更好。具体的分类可以是将初步检测框按照检测出目标的类型进行分类,如分为行人、自行车、小轿车、背景等。
精炼单元230,用于利用训练数据,迭代训练二阶段网络提取局部特征并根据局部特征生成精炼预测框。
二阶段网络可以在一次预测框结果的基础上,提取出三维点云数据局部特征,从而更好地学习物体信息,并根据训练数据进行迭代训练,可以根据局部特征生成精炼预测框,实现对三维点云数据进行预测框的精炼。
可见,如图2所示的装置,采用双阶段网络设计,可以对一阶段网络的输出结果进行二次分类,以及在初步检测框结果的基础上,提取框内局部特征生成精炼预测框,从而可以改善样本不平衡问题,可以更好地提炼学习出目标的信息,从而进行预测框的精炼。
在本申请的一个实施例中,上述装置中,精炼单元230,用于将每个初步检测框对应的点云数据,通过体素化特征提取子网络提取出体素化特征;利用深度卷积神经网络和体素化特征生成精炼预测框。
在本申请的一个实施例中,上述装置中,精炼单元230,用于将每个初步检测框对应的点云数据分割为若干个体素;对每个体素,通过体素化特征提取子网络中的若干个体素特征提取层提取出点链接特征,将点链接特征经过全连接神经网络层和区域最大池化层得到体素化特征。
在本申请的一个实施例中,上述装置中,精炼单元230,用于利用深度卷积神经网络对体素化特征依次进行卷积、最大池化、激活、归一化处理,最后通过两层全连接生成精炼预测框。
在本申请的一个实施例中,上述装置中,深度卷积神经网络包括分类网络和预测框回归网络,精炼单元230,用于使用softmax作为分类网络的激活函数,由分类网络输出精炼包围框对应的目标种类;由预测框回归网络输出精炼预测框的中心点坐标、长、宽、高和偏角。
在本申请的一个实施例中,上述装置中,分类网络使用Focal loss作为损失函数,预测框回归网络使用smooth L1 loss作为损失函数。
在本申请的一个实施例中,上述装置中,精炼单元230,用于在训练时利用预设训练周期数和停止阈值进行训练控制;其中,当训练周期大于预设周期数,或一个训练周期对应的损失函数的变化量小于预设阈值时,停止训练。
需要说明的是,上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
综上所述,本申请的技术方案,所述目标检测模型包括一阶段网络和二阶段网络,该方法包括:根据所述一阶段网络在三维点云数据中生成初步检测框;根据所述初步检测框对所述三维点云数据进行分类,根据分类结果生成训练数据;利用所述训练数据,迭代训练所述二阶段网络提取局部特征并根据局部特征生成精炼预测框。有益效果在于,采用双阶段网络设计,可以对一阶段网络的输出结果进行二次分类,以及在初步检测框结果的基础上,提取框内局部特征生成精炼预测框,从而可以改善样本不平衡问题,可以更好地提炼学习出目标的信息,从而进行预测框的精炼。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的目标检测模型的训练装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图3示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备300包括处理器310和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器320。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码331的存储空间330。例如,用于存储计算机可读程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码331。计算机可读程序代码331可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图4所述的计算机可读存储介质。图4示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质400存储有用于执行根据本申请的方法步骤的计算机可读程序代码331,可以被电子设备300的处理器310读取,当计算机可读程序代码331由电子设备300运行时,导致该电子设备300执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码331可以执行上述任一实施例中示出的方法。计算机可读程序代码331可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种目标检测模型的训练方法,其特征在于,所述目标检测模型包括一阶段网络和二阶段网络,所述目标为自动驾驶场景中的待关注对象,该方法包括:
根据所述一阶段网络在三维点云数据中生成初步检测框;
根据所述初步检测框对所述三维点云数据进行分类,根据分类结果生成训练数据;
利用所述训练数据,迭代训练所述二阶段网络提取局部特征并根据局部特征生成精炼预测框。
2.如权利要求1所述的方法,其特征在于,所述迭代训练所述二阶段网络提取局部特征并根据局部特征生成精炼预测框中的每个训练过程均包括:
将每个初步检测框对应的点云数据,通过体素化特征提取子网络提取出体素化特征;
利用深度卷积神经网络和所述体素化特征生成精炼预测框。
3.如权利要求2所述的方法,其特征在于,所述将每个初步检测框对应的点云数据,通过体素化特征提取子网络提取出体素化特征包括:
将每个初步检测框对应的点云数据分割为若干个体素;
对每个体素,通过体素化特征提取子网络中的若干个体素特征提取层提取出点链接特征,将所述点链接特征经过全连接神经网络层和区域最大池化层得到体素化特征。
4.如权利要求2所述的方法,其特征在于,所述利用深度卷积神经网络和所述体素化特征生成精炼预测框包括:
利用深度卷积神经网络对所述体素化特征依次进行卷积、最大池化、激活、归一化处理,最后通过两层全连接生成精炼预测框。
5.如权利要求4所述的方法,其特征在于,所述深度卷积神经网络包括分类网络和预测框回归网络,所述利用深度卷积神经网络和所述体素化特征生成精炼预测框包括:
使用softmax作为分类网络的激活函数,由分类网络输出精炼包围框对应的目标种类;由预测框回归网络输出精炼预测框的中心点坐标、长、宽、高和偏角。
6.如权利要求5所述的方法,其特征在于,所述分类网络使用Focal loss作为损失函数,所述预测框回归网络使用smooth L1 loss作为损失函数。
7.如权利要求6所述的方法,其特征在于,所述深度卷积神经网络在训练时利用预设训练周期数和停止阈值进行训练控制;
其中,当训练周期大于预设周期数,或一个训练周期对应的损失函数的变化量小于预设阈值时,停止训练。
8.一种目标检测模型的训练装置,其特征在于,所述目标为自动驾驶场景中的待关注对象,所述目标检测模型包括一阶段网络和二阶段网络,该装置包括:
初检单元,用于根据所述一阶段网络在三维点云数据中生成初步检测框;
分类单元,用于根据所述初步检测框对所述三维点云数据进行分类,根据分类结果生成训练数据;
精炼单元,用于利用所述训练数据,迭代训练所述二阶段网络提取局部特征并根据局部特征生成精炼预测框。
9.一种电子设备,其中,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1-7中任一项所述的方法。
CN202010010252.8A 2020-01-06 2020-01-06 目标检测模型的训练方法、装置、电子设备和存储介质 Pending CN111241964A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010010252.8A CN111241964A (zh) 2020-01-06 2020-01-06 目标检测模型的训练方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010010252.8A CN111241964A (zh) 2020-01-06 2020-01-06 目标检测模型的训练方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN111241964A true CN111241964A (zh) 2020-06-05

Family

ID=70865861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010010252.8A Pending CN111241964A (zh) 2020-01-06 2020-01-06 目标检测模型的训练方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111241964A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797711A (zh) * 2020-06-15 2020-10-20 北京三快在线科技有限公司 一种模型训练的方法及装置
CN111860493A (zh) * 2020-06-12 2020-10-30 北京图森智途科技有限公司 一种基于点云数据的目标检测方法及装置
CN112419269A (zh) * 2020-11-23 2021-02-26 成都圭目机器人有限公司 一种提高道面病害分割效果的改进型Focal Loss函数的构建方法及应用
WO2022179164A1 (zh) * 2021-02-24 2022-09-01 华为技术有限公司 一种点云数据处理方法、训练数据处理方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512725A (zh) * 2015-12-14 2016-04-20 杭州朗和科技有限公司 一种神经网络的训练方法和设备
CN107871119A (zh) * 2017-11-01 2018-04-03 西安电子科技大学 一种基于目标空间知识和两阶段预测学习的目标检测方法
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN109241865A (zh) * 2018-08-14 2019-01-18 长安大学 一种弱对比度交通场景下的车辆检测分割算法
CN109598290A (zh) * 2018-11-22 2019-04-09 上海交通大学 一种基于两级检测相结合的图像小目标检测方法
CN109740676A (zh) * 2019-01-07 2019-05-10 电子科技大学 基于相似目标的物体检测迁移方法
CN109829476A (zh) * 2018-12-27 2019-05-31 青岛中科慧畅信息科技有限公司 基于yolo的端到端三维物体检测方法
US10311311B1 (en) * 2017-08-31 2019-06-04 Ambarella, Inc. Efficient two-stage object detection scheme for embedded device
CN110032935A (zh) * 2019-03-08 2019-07-19 北京联合大学 一种基于深度学习级联网络的交通信号标识检测识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512725A (zh) * 2015-12-14 2016-04-20 杭州朗和科技有限公司 一种神经网络的训练方法和设备
US10311311B1 (en) * 2017-08-31 2019-06-04 Ambarella, Inc. Efficient two-stage object detection scheme for embedded device
CN107871119A (zh) * 2017-11-01 2018-04-03 西安电子科技大学 一种基于目标空间知识和两阶段预测学习的目标检测方法
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN109241865A (zh) * 2018-08-14 2019-01-18 长安大学 一种弱对比度交通场景下的车辆检测分割算法
CN109598290A (zh) * 2018-11-22 2019-04-09 上海交通大学 一种基于两级检测相结合的图像小目标检测方法
CN109829476A (zh) * 2018-12-27 2019-05-31 青岛中科慧畅信息科技有限公司 基于yolo的端到端三维物体检测方法
CN109740676A (zh) * 2019-01-07 2019-05-10 电子科技大学 基于相似目标的物体检测迁移方法
CN110032935A (zh) * 2019-03-08 2019-07-19 北京联合大学 一种基于深度学习级联网络的交通信号标识检测识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860493A (zh) * 2020-06-12 2020-10-30 北京图森智途科技有限公司 一种基于点云数据的目标检测方法及装置
CN111860493B (zh) * 2020-06-12 2024-02-09 北京图森智途科技有限公司 一种基于点云数据的目标检测方法及装置
CN111797711A (zh) * 2020-06-15 2020-10-20 北京三快在线科技有限公司 一种模型训练的方法及装置
CN112419269A (zh) * 2020-11-23 2021-02-26 成都圭目机器人有限公司 一种提高道面病害分割效果的改进型Focal Loss函数的构建方法及应用
CN112419269B (zh) * 2020-11-23 2023-05-26 成都圭目机器人有限公司 一种道面病害分割的方法
WO2022179164A1 (zh) * 2021-02-24 2022-09-01 华为技术有限公司 一种点云数据处理方法、训练数据处理方法及装置

Similar Documents

Publication Publication Date Title
US10691952B2 (en) Adapting to appearance variations when tracking a target object in video sequence
US10510146B2 (en) Neural network for image processing
US10318848B2 (en) Methods for object localization and image classification
CN111241964A (zh) 目标检测模型的训练方法、装置、电子设备和存储介质
CN113420729B (zh) 多尺度目标检测方法、模型、电子设备及其应用
CN110263786B (zh) 一种基于特征维度融合的道路多目标识别***及方法
CN111310604A (zh) 一种物体检测方法、装置以及存储介质
CN111368972B (zh) 一种卷积层量化方法及其装置
Khalid et al. Automatic measurement of the traffic sign with digital segmentation and recognition<? show [AQ ID= Q1]?>
CN113822209B (zh) 高光谱图像识别方法、装置、电子设备及可读存储介质
Natarajan et al. Traffic sign recognition using weighted multi‐convolutional neural network
US11695898B2 (en) Video processing using a spectral decomposition layer
CN109034086A (zh) 车辆重识别方法、装置及***
CN112464930A (zh) 目标检测网络构建方法、目标检测方法、装置和存储介质
Sharma et al. Vehicle identification using modified region based convolution network for intelligent transportation system
Padmanabula et al. Object Detection Using Stacked YOLOv3.
CN111783754A (zh) 基于部位上下文的人体属性图像分类方法、***和装置
Cai et al. Vehicle Detection Based on Deep Dual‐Vehicle Deformable Part Models
Wang et al. Occluded vehicle detection with local connected deep model
Liang et al. Car detection and classification using cascade model
CN111738069A (zh) 人脸检测方法、装置、电子设备及存储介质
Smitha et al. Optimal feed forward neural network based automatic moving vehicle detection system in traffic surveillance system
Wu et al. Research on asphalt pavement disease detection based on improved YOLOv5s
CN111931680A (zh) 一种基于多尺度的车辆重识别方法及***
Hamzeh et al. Improving the performance of automotive vision‐based applications under rainy conditions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200605

WD01 Invention patent application deemed withdrawn after publication