WO2021129691A1

WO2021129691A1 - 一种对目标检测方法以及相应装置

Info

Publication number: WO2021129691A1
Application number: PCT/CN2020/138740
Authority: WO
Inventors: 谢伟; 黄倩倩; 连春燕; 胡荣东
Original assignee: 长沙智能驾驶研究院有限公司
Priority date: 2019-12-23
Filing date: 2020-12-23
Publication date: 2021-07-01
Also published as: CN110751134A; CN110751134B

Abstract

一种对目标检测方法和装置、一种计算机设备、一种智能驾驶设备以及一种计算机可读存储介质，该方法包括：获取原始图像多个层级的第一类图像特征（100）；对不同层级的第一类图像特征至少分别进行空洞卷积处理，相应产生不同层级的第二类图像特征，其中针对不同层级进行所述空洞卷积处理的膨胀率不同（200）；以及基于所述第二类图像特征，或者基于所述第一类图像特征以及第二类图像特征进行检测并通过回归操作确定目标框（400）。

Description

一种对目标检测方法以及相应装置

技术领域

本申请涉及图像处理技术领域，特别地涉及一种对目标检测方法以及相应装置。

背景技术

在获取图像时，例如捕捉驾驶场景中的图像，目标会呈现“近大远小”的特点。远处较小的目标对检测算法要求较高。通常情况下，驾驶场景对算法的及时性要求比较高，高分辨率的图像通常会压缩分辨率送入到神经网络中，远处的小目标在压缩的图像中会变得更小。同时，远处的目标检测对后期的预测有重要作用。YOLO,SSD等一阶段算法对小目标的效果仍然有限。二阶段网络应用于驾驶场景的耗时较长。RefineDet通过ARM模块提取初略的目标框，然后通过ODM模块精细化候选框，在一定程度上改善小目标的检测。由于RefineDet算法分为四个阶段，每个阶段的anchors大小设置不同。低层级的anchors尺寸较小，高层级的anchors尺寸较大。低层级的位置信息丰富，语义信息较弱，高层级的位置信息较弱，语义信息丰富。RefineDet的设计思路在于通过低层级的特征预测小目标，高层级主要负责其他目标。低层级的特征的感受野较小，会影响检测的精度。同时，RefineDet训练的时候选择正负样本的阈值是0.5，算法的代价函数用的是交叉熵，这样会导致模型推理的分类信息和位置信息不匹配。

发明内容

针对现有技术中存在的技术问题，本申请提出了一种对目标检测方法，其特征在于，包括：获取原始图像多个层级的第一类图像特征；对不同层级的第一类图像特征至少分别进行空洞卷积处理，相应产生不同层级的第二类图像特征，其中针对不同层级进行所述空洞卷积处理的膨胀率不同；以及基于所述第二类图像特征，或者基于所述第一类图像特征以及第二类图像特征进行检测并通过回归操作确定目标框。

特别的，其中所述多个层级的分辨率随着所述层级的升高而降低；所述空洞卷积处理的膨胀率随着所述层级的升高而降低。

特别的，其中所述多个层级包括卷积层和全局池化层，且全局池化层层级最高。

特别的，其中对不同层级的第一类图像特征至少分别进行空洞卷积处理，相应产生不同层级的第二类图像特征，包括：对所述第一类图像特征进行降维卷积处理，得到降维特征处理结果；对降维特征处理结果进行空洞卷积处理，得到空洞卷积处理结果；分别对所述空洞卷积处理结果进行第一分解卷积处理以及第二分解卷积处理，得到第一分解卷积处理结果以及第二分解卷积处理结果；对所述第一分解卷积处理结果以及所述第二分解卷积处理结果进行连接，得到连接处理结果；至少基于所述连接处理结果确定所述不同层级的第二类图像特征。

特别的，其中对不同层级的第一类图像特征至少分别进行空洞卷积处理，相应产生不同层级的第二类图像特征，还包括：至少根据所述降维特征处理结果以及所述连接处理结果进行残差处理，得到所述不同层级的第二类图像特征。

特别的，还包括，对不同层级的所述第二类图像特征进行融合；并且，基于经融合的所述第二类图像特征，或者基于所述第一类图像特征以及经融合的所述第二类图像特征进行检测并通过回归操作确定最终的目标框。

特别的，其中，对不同层级的第二类图像特征进行特征融合包括：针对每一层级，将本级以上所有层级的第二类图像特征经过上采样处理以后与本级的第二类图像特征融合。。

特别的，其中所述上采样处理包括反卷积处理或双线性插值处理。

特别的，还包括对网络模型进行训练时，基于所述第二类图像特征，或者基于所述第一类图像特征以及所述第二类图像特征进行检测并通过回归操作确定用于网络模型的卷积核以及标记框，该操作包括：至少基于候选框与实际框之间交并比得分获得交并比代价函数的值，并且至少基于所述交并比代价函数的值计算候选框与实际框之间的损失函数的值。

特别的，其中对网络模型进行训练时，基于所述第二类图像特征，或者基于所述第一类图像特征以及所述第二类图像特征进行检测并通过回归操作确定用于网络模型的卷积核以及标记框,该操作还包括：计算候选框与实际框之间损失函数的值还基于候选框置信度得分而获得的置信度分类代价函数的值，以及候选框与实际框获得坐标回归的代价函数的值。

特别的，其中基于所述第一类图像特征以及所述第二类图像特征进行检测并通过回归操作确定用于网络模型的卷积核以及标记框，包括：在第一阶段，至少基于所述原始图像以及预设的候选框和卷积核初始值计算所述交并比代价函数值以及所述候选框与实际框间的损失函数值，并经过回归操作后进行输出；以及在第二阶段，至少基于所述第二类图像特征以及所述第一阶段输出的候选框和卷积核核计算所述交并比代价函数值以及所述候选框与实际框间的损失函数值，并经过回归操作进行输出；至少基于所述第一阶段和第二阶段的输出进行拟合获得总损失函数值，并将所述总损失函数值最小时对应的候选框和卷积核作为最终输出。

本申请进一步包括一种对目标检测方法装置，包括：图像特征获取模块，配置为获取原始图像多个层级的第一类图像特征；空洞卷积模块，耦合至图像特征获取模块，配置为分别对不同层级的第一类图像特征进行空洞卷积处理，相应产生不同层级的第二类图像特征，其中针对不同层级进行所述空洞卷积处理的膨胀率不同；检测信息确定模块，耦合至层级融合模块，配置为基于融合后的第二类图像特征，或者基于所述第一类图像特征以及融合后的第二类图像特征进行检测并通过回归操作确定目标框。

特别的，进一步包括：层级融合模块，耦合至所述空洞卷积模块，配置为对不同层级的第二类图像特征进行融合；其中，所述检测信息确定模块进一步配置为基于经融合的所述第二类图像特征，或者基于所述第一类图像特征以及经融合的所述第二类图像特征进行检测并通过回归操作确定最终的目标框。

特别的，进一步包括：初始目标检测模块，耦合至图像特征获取模块和检测信息确定模块，配置为接收所述图像特征获取模块输出的第一类图像特征，并基于对第一类图像特征进行检测，将检测结果发至所述检测信息确定模块以优化所述检测信息确定模块的检测过程。

本申请进一步包括一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现前述方法的步骤。

本申请进一步包括一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现前述的方法的步骤。

本申请进一步包括一种智能驾驶设备，包括：处理器，以及与所述处理器耦合的存储器；以及传感单元，配置为获取原始图像；其中所述处理器配置为执行前述的方法。

附图说明

下面，将结合附图对本申请的优选实施方式进行进一步详细的说明，其中：

图1为根据本申请一个实施例中目标检测方法的流程示意图；

图2为根据本申请一个实施例中步骤100的具体流程示意图；

图3为根据本申请一个实施例中步骤200的具体流程示意图；

图4为根据本申请一个实施例中训练过程中确定卷积核和标记框的具体流程示意图；

图5为根据本申请一个实施例中用于进行目标检测的网络模型的结构示意图；

图6为根据本申请一个实施例中网络模型的空洞卷积层的示意图；

图7为根据本申请一个实施例中网络模型的特征融合层的示意图；

图8为根据本申请一个实施例中网络模型的目标检测单元的示意图；

图9为根据本申请一个实施例中目标检测装置的结构示意图；

图10为根据本申请一个实施例中计算机设备的内部结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的详细描述中，可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中，相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述，使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解，还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。

图1为根据本申请一个实施例中目标检测方法的流程示意图，如图1所示，该方法包括步骤100至步骤400：

步骤100，获取原始图像多个层级的第一类图像特征。

其中，原始图像是指需要进行目标检测的图像。在一些实施例中，原始图像可以是摄像头捕捉的图像，例如车载摄像头拍摄到的车辆行驶过程中的图像。多个层级的第一类图像特征是指，通过对输入的原始图像进行特征提取和卷积得到的多个层级各不相同的图像特征。越高的层分辨率越低，而最底层的分辨率最高更有利于小目标的识别。根据一个实施例，最高层可以是全局池化层。

步骤200，分别对不同层级的第一类图像特征至少进行空洞卷积处理，相应产生不同层级的第二类图像特征。当然，在这个步骤除了空洞卷积处理，为了提升处理效果还可以进行其他处理，将在后续的实施例中介绍。

在得到不同层级的第一类图像特征后，还包括对各第一类图像特征进行空洞卷积处理。所谓空洞是指在原图上做采样，采样的频率是根据膨胀率(rate)来设置的，当rate为1时候，原图不丢失任何信息采样，此时卷积处理就是标准的卷积处理，当rate>1，比如2的时候，在原图上每隔1(rate-1＝2-1＝1)个像素采样，通过对原图进行采样得到的图像。

在一些实施例中，针对不同层级进行所述空洞卷积处理的膨胀率不同。其中，多个层级的第一类图像特征分辨率随着所述层级的升高而降低；所述空洞卷积处理的膨胀率随着所述层级的升高而降低。低层级的空洞卷积的膨胀率越大，越能增强低层级目标的感受野，增强目标的上下文信息，提升检测效果。高层级的感受野随着层级的增加变大，所以可以设置相对小的膨胀率。

可选择的，在步骤300，对不同层级的第二类图像特征进行融合。这个融合的顺序可以是从分辨率低的层级逐层向下融合，也就是从最高层逐层向下融合。

具体地，对于不同层级的第二类图像特征，可以先按照预设规则进行特征融合，得到融合后的第二类图像特征。在一些实施例中，预设规则可以是按照分辨率从小到大的顺序，将本层级的第二类图像特征与经上采样后的本级以上所有层级的第二类图像特征相融合。对于最高层级例如全局池化层来说，由于其以上没有其他层级，因此最高层级的第二类图像特征可以被直接用于检测。在一些实施例中，融合后产生了融合前层级对应的融合层级，层级数不变。

通过进行图像特征融合，得到的融合特征可以认为是融合了多层级特征的第二类图像特征，即融合后特征更加丰富，从而可以提高目标检测的准确性。

在一些实施例中，步骤300不是必要的，可以直接跳转到步骤400进行检测。这种情况下，步骤400基于所述第二类图像特征，或者基于所述第一类图像特征以及第二类图像特征进行检测并通过回归操作确定目标框

步骤400，基于融合后的第二类图像特征，或者基于所述第一类图像特征以及融合后的第二类图像特征进行检测并通过回归操作确定最终的目标框。

在实际的检测过程中，实际框(ground truth bound)未知，通过利用经过训练的网络模型，在多个候选框之中确定目标框作为检测结果。这个检测可以是对第二类图像特征进行的单一阶段检测，也可以是对第一类图像特征先进行初步的检测，然后基于初步检测的结果再对第二类图像特征进行最终检测。在这种两个阶段的检测模式中，例如，初步检测结果中可以包括候选框的交并比(IOU)得分，并可以将该结果在最终检测中并作为选取候选框的正负样本时的标准。另外，在最终检测阶段，可以利用候选框的交并比得分进行排序，从而排除多余的候选框。

无论是哪种类型的检测，都会利用网络模型中提前训练好的卷积核以及标记框进行检测，并且根据实际情况对该标记框进行回归操作并确定目标框作为检测结果。

在一个实施例中，如图2所示，步骤100获取原始图像多个层级的第一类图像特征，包括步骤110至步骤120：

步骤110，根据原始图像得到原始图像特征。

步骤120，对原始图像特征进行卷积处理和/或全局池化处理，得到原始图像的不同层级的第一类图像特征。

其中，原始图像特征是指通过将原始图像输入特征提取基础网络而输出得到的图像特征。在一些实施例中，可以是通过Xception39作为基础网络对原始图像进行特征提取，得到原始图像特征。这样在能够有效提取特征的前提下，利用Xception39分组卷积结构对图像特征提取进行加速，保证原始图像特征提取的实时性。可选地，步骤110也可以是通过VGG(Visual Geometry Group Network)、ResNet或者SENet等可以进行特征提取的网络结构实现。

在一些实施例中，根据原始图像特征得到不同层级的第一类图像特征时，可以是采用多次卷积处理和/或全局池化处理。在一些实施例中，可以是在Xception39的基础上，从最低层级至最高层级(以5个层级为例)，添加4个额外卷积层(ExtrConv1,ExtrConv2,ExtrConv3,ExtrConv4)和1个全局池化层(Glob Pooling)。其中，4个额外卷积层采用步长为2的卷积运算，特征大小逐步减小；通过全局池化层可以有效获取图像的全局语义信息，从而增强目标检测的上下文信息。当然根据其他实施例，也可以不增加全局池化层。

如图3所示，步骤200分别对不同层级的第一类图像特征进行空洞卷积处理，相应产生不同层级的第二类图像特征，其中针对不同层级进行所述空洞卷积处理的膨胀率不同，可以包括：

可选择的，步骤210，对所述第一类图像特征进行降维卷积处理，得到降维特征处理结果。

在一些实施例中，预设步长的卷积处理是指利用较小的卷积核(例如1*1)对第一类图像特征进行降维，以减少计算量，得到降维特征处理结果，预设步长的取值可以是2或者其他值。

步骤220，对降维特征处理结果进行空洞卷积处理，得到空洞卷积处理结果。

在一些实施例中，在降维卷积之后，将得到的结果分别进行空洞卷积处理，以增大感受野，在对降维特征处理结果进行空洞卷积处理时，不同层级的图像特征对应的膨胀率不同。根据一个实施例，层级越低或者说分辨率越高的层级，膨胀率越高。

步骤230，分别对空洞卷积处理结果进行第一分解卷积处理以及第二分解卷积处理，得到第一分解卷积处理结果以及第二分解卷积处理结果。

在一些实施例中，对于采用大小为a*b的卷积核进行卷积的处理过程，可以分解为采用a*1与1*a和1*b与b*1两组卷积核进行卷积处理。具体地，可以使用大小为a*1与1*a的卷积核对空洞卷积处理结果进行第一卷积处理以得到第一卷积处理结果，以及使用大小为1*b与b*1的卷积核对空洞卷积处理结果进行第二卷积处理以得到第二卷积处理结果。其中，a和b都是大于1的整数。这样的安排相比于直接进行a*a或者b*b的卷积计算量要减小数倍。安排a和b两路并行的第一和第二分解卷积处理是为了提高特征融合的能力。

步骤240，对第一分解卷积处理结果以及第二分解卷积处理结果进行连接，得到连接处理结果。

在一些实施例中，对第一分解卷积处理结果以及第二分解卷积处理结果进行连接处理，就是concat处理。

步骤250，至少基于所述连接处理结果确定所述不同层级的第二类图像特征。

根据另一实施例，可以基于降维处理的结果与连接处理结果进行残差处理，从而确定第二类图像特征，可以防止网络难以收敛。

对于步骤300，对不同层级的第二类图像特征进行融合，可以包括：

首先可以接收与当前层级相邻的上一层级的第二类图像特征，或者经融合的上一层级的第二类图像特征。其次，对接收到的第二类图像特征进行上采样，使得上采样之后的高层级特征的矩阵维度与当前层级第二类图像特征的矩阵维度大小相同。再将上采样特征与当前层级第二类图像特征进行特征融合，从而可以使得得到的融合图像特征的信息更加丰富，提高目标检测结果的准确性。

在一个实施例中，上采样处理可以包括：包括反卷积处理(针对卷积层之间的融合)或双线性插值处理(针对全局池化层和卷积层的融合)。

在一个实施例中，反卷积处理可以认为是卷积处理的逆过程，从而实现图像的上采样处理。另外，对于全局池化处理图像，由于双线性插值处理可以实现任意图像大小变化，因此可以通过双线性插值处理进行上采样。本实施例通过对不同类型的图像采取不同的上采样处理策略，可以尽可能地保留上采样图形的图像特征，便于进行图像融合。

图4为根据本申请一个实施例中训练过程中确定卷积核和标记框的具体流程示意图。在训练的过程中实际框已知，可以利用多个候选框与实际框之间的损失函数，通过回归操作来确定用于网络模型的卷积核以及标记框。

步骤410，至少基于候选框与实际框之间的交并比(Intersection-over-Union，IOU)得分之差计算交并比代价函数的值。IOU得分L _iou代价函数如下所示：

t表示检测输入，

表示IOU得分，

表示IOU标签，即实际框的IOU得分。其定义为：

其中，smooth _L1表示L1SmoothLoss代价函数，O(x,anchors∈{x,y,w,h})表示检测输入和anchors的交集，U(x,anchors∈{x,y,w,h})表示检测输入和anchors的并集。N _pos表示候选框的正样本数量。cx,cy为候选框中心点坐标；w,h为候选框的宽和高。j表示第j个检测目标，j为大于等于1的整数。i表示第j个检测目标对应的多个候选框中第i个，i为大于等于1的整数。k为图像特征的层数序号，k为大于等于1的整数。

在现有的应用中，将IOU作为后面介绍的候选框分类操作中区分正负样本的标准，例如可以设置一个IOU的值作为阈值，大于该阈值的候选框作为正样本，否则作为负样本。

另一个对IOU的现有的应用是将其作为非极大抑制(NMS)的筛选手段，用来去除冗余的候选框。例如当多个候选框彼此之间的IOU值很高，则说明重合度很高，因此可以仅保留其中一个候选框。

但是，在本申请以前，并没有人将IOU的分数作为候选框的排序基础，或者说并没有人将IOU的代价函数值作为计算候选框与实际的之间的损失函数值的基础。这样做的优势在于可以降低仅仅依靠分类操作中的置信度得分进行排序而造成的将次优解保留而将最优解筛除的概率。

可选的，步骤420，至少基于候选框与是实际框之间的坐标之差计算坐标代价函数的值。

在一个实施例中，可以手动设置候选框和卷积核的起始值，另产生一个与目标图像完全匹配的矩形框，作为实际框(ground truth bound)。其中候选框的中心点为O1(x1,y1)，长为H1，宽为W1；实际框的中心点为O2(x2,y2)，长为H2，宽为W2，则候选框框对应的回归参数可以通过以下公式计算得到：

通过公式(3)计算得到的回归参数包括中心点O1与中心点O2的x坐标的差值△x以及y坐标的差值△y，候选框与实际框长的差值△H以及目标框的宽的差值△W。

坐标代价函数定义L _loc如下所示

其中，smooth _L1表示L1SmoothLoss代价函数，

候选框坐标，

为实际框的坐标。

可选的，步骤430，至少基于候选框的正、负样本的置信度得分计算置信度分类代价函数的值。

置信度代价函数L _conf可以表示为

其中

其中，

表示分类的标签。

步骤440，至少基于交并比代价函数，可选的还基于坐标代价函数和置信度代价函数来计算候选框与实际框之间的损失函数值。

损失函数LOSS可以表示为：

其中，N _pos表示候选框正样本数量。α，β表示坐标代价函数和交并比代价函数的权重系数，决定了这三个代价函数的影响因子。根据一个实施例可以设置α＝β＝1，当然也可以根据需要设为不同的值。

根据不同的实施例，上述方法可以应用于网络模型训练的两个阶段，在第一个阶段，可以将原始图像作为输入t，候选框的初始值和卷积核的初始值都可以手动设置，划分正负样本的IOU阈值也可以手动设置，然后通过多次的回归操作，得到使得损失函数Loss1最小时的候选框以及卷积核作为输出。

在第二个阶段，可以将经过融合的第二类图像特征作为输入t，将第一阶段的输出的候选框和卷积核作为第二阶段中候选框和卷积核的初始值。在经过多次回归后，可以将第二阶段的输出作为最终确定的候选框和卷积核。

当然根据其他实施例，也可以对第一阶段和第二阶段输出之和进行拟合，如下式，并将使得Loss值最小时的结果作为最终确定的候选框和卷积核：

LOSS＝LOSS ₁+λLOSS ₂ (7)

其中λ是平衡第一阶段检测结果和第二阶段检测结果的系数，根据一个实施例可以设置λ＝1，当然也可以将其设为其他值。

当然正如前面介绍的，也可以不进行第一阶段的检测，而直接对第二类图像特征进行检测。

本申请所公开的方法中将输入的原始图像根据分辨率的高低分为多个层，并针对不同的层进行膨胀率不同的空洞卷积操作，分辨率越高的底层的空洞卷积膨胀率越大，这样更有利于捕捉小目标图像特征。

此外，本申请公开的方法在网络模型训练阶段将IOU得分作为一个决定因素纳入了候选框与实际框之间损失函数的计算，用于避免传统的仅仅基于置信度得分排序而遗漏最优解的可能。

基于上述方法，下面提供一种目标检测方法的应用实例。本实施例主要是通过训练好的网络模型对输入图像进行目标检测。如图5所示，为本实施例中所使用的网络模型的结构示意图，该网络模型主要包括第一目标检测结构(第一次检测)、特征提取结构以及第二目标检测结构(第二次检测)。

本实施例中，原始输入图像尺寸为768x448x3，其中，768x448为分辨率大小，3为通道数(其他图像的图形尺寸含义对应相同)。通过基础网络Xception39提取的原始图像特征的尺寸为192x112x1024，本实施例对原始图像特征进行了4次卷积处理以及1次全局池化处理，通过额外卷积层1、2、3、4得到的图像特征的尺寸分别为96x56x512、48x28x512、24x14x512、12x7x512，通过全局池化层得到的图像特征的尺寸为1x1x512。通常来说，图像一般包括单通道以及3通道，而此时提取得到的特征的通道远远超过了3个，例如，原始图像特征的通道数为1024，不同分辨率的图像特征的通道数为512，严格意义上来讲，此时的特征不能再被称为图像了，因此称为图像特征。

如图5所示，经融合后的特征融合层是将本层级的空洞卷积层与经上采样的本层级以上的所有空洞卷积层融合在一起的层。例如特征融合层1是将空洞卷积层1的特征与分别经上采样的空洞卷积层2、3、4、5融合在一起的层。而空洞卷积层5，由于其以上并没有其他的空洞卷积层，因此其可以被直接提供给第二目标检测单元。

为了增强感受野，本实施例提出空洞卷积层(Multi Dilate Convolution，MDC)模型，空洞卷积层由多个卷积层和针对每层不同膨胀率的空洞卷积层组成，例如，具体可以是由1x1的卷积层、3x3的卷积层和不同膨胀率的空洞卷积层组成。

如图6所示，为空洞卷积层的一个示意图，空洞卷积层首先利用1x1的卷积层对图像特征进行降维处理，并将处理结果接入不同膨胀率的空洞卷积层。具体地，对于低层级的图像特征，可以采用膨胀率较大的空洞卷积层，随着层级的提高，膨胀率逐渐减小。例如，对于图5中的额外卷积层1，其对应的空洞卷积层1的膨胀率可以设为7；额外卷积层2、额外卷积层3、额外卷积层4以及全局池化层，其对应的膨胀率可以依次设为5、3、2、1。

另外，为了进一步扩大感受野，在空洞卷积层之后还可以包括例如由1x5,5x1组合而成的一维的分解卷积层，分解卷积层分别从两个维度(例如横向和纵向，即图中的两路)进行卷积操作，可以大量减少计算量，分解卷积层通过连接处理层，即concat层进行连接。当然，这里的1x5,5x1组合只是一个例子，也可以采用其他维度的卷积层。

图7为根据本申请一个实施例中特征层融合操作的示意图，如图7所示，经融合后的特征融合层是将本层级的空洞卷积层与经上采样的本层级以上的所有空洞卷积层融合在一起的层。，通过上采样处理以使得高层级的图像特征的矩阵维度与其低一级的层级图像特征大小相同。其中，空洞卷积层5对应的上采样方法为双线性插值处理，空洞卷积层4、3、2、1对应的上采样方法为反卷积处理。

图8为根据本申请一个实施例中目标检测单元的示意图，当为用于进行初步检测的第一目标检测单元时，对应的输入为第一类图像特征；当为用于进行最终检测的第二目标检测单元时，对应的输入为第二类图像特征特征。目标检测单元的输出包括置信度分数分支、位置参数分支、交并比分数分支，并且至少基于这三个分支的输出可以确定作为检测结果的目标框。

需要说明的是，通过第一检测结构中的各第一目标检测单元得到的各图像特征的第一次检测或者说初步检测结果，可以被提供到对应层级的图像特征进行第二次目标检测或者说最终检测的过程中。例如初步检测结果中的IOU分数可以用来在最终检测中用来作为区分候选框正负样本的标准。

在一个实施例中，对上述网络模型的训练过程进行解释说明。参考图6，可以理解，对网络模型的训练主要是对网络模型中第一检测结构以及第二检测结构以及MDC模块的参数的训练。

在构建好网络模型的基础架构后，可以使用带有标签(label)的样本图像对网络模型进行训练，标签包括实际框(ground truth)以及对应的目标分类信息和交并比分数。首先通过网络模型中的特征提取结构得到样本图像的不同层级的图像特征，然后按照本申请前实施例中描述的处理策略，对样本图像的不同层级的图像特征分别进行目标检测，继而根据各目标检测单元的输出结果以及对应的标签数据，对目标检测单元的参数进行优化，从而得到训练好的网络模型。可以理解，训练过程中的图像处理过程与本申请前实施例中所描述的过程相同，在此不再赘述。

图9所示为根据本申请一个实施例的一种对目标检测网络模型进行训练的装置，如图9所示，该目标检测装置包括以下模块：

图像特征获取模块10，配置为获取原始图像多个层级的第一类图像特征；

空洞卷积模块20，耦合至图像特征获取模块10，配置为分别对不同层级的第一类图像特征进行空洞卷积处理，相应产生不同层级的第二类图像特征，其中针对不同层级进行所述空洞卷积处理的膨胀率不同；

可选的，层级融合模块30，耦合至空洞卷积模块20，配置为对不同层级的第二类图像特征进行融合；

检测信息确定模块40，耦合至层级融合模块30，配置为基于第二类图像特征，或者基于所述第一类图像特征以及第二类图像特征进行检测并通过回归操作确定最终的卷积核以及候选框。

在一些实施例中，所述的装置，进一步包括：

初始目标检测模块50，耦合至图像特征获取模块10和检测信息确定模块40，配置为接收所述图像特征获取模块输出的第一类图像特征，并基于对第一类图像特征进行检测，将检测结果发至所述检测信息确定模块以优化所述检测信息确定模块的检测过程。

关于目标检测装置的具体限定可以参见上文中对于目标检测方法的限定，在此不再赘述。上述目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各实施例所描述的目标检测方法的处理步骤。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端(或服务器)。如图10所示，该计算机设备包括该计算机设备包括通过***总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现目标检测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行目标检测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本申请进一步包括一种智能驾驶设备，该设备包括：处理器，以及与所述处理器耦合的存储器；以及传感单元，配置为获取原始图像。

其中所述处理器配置为执行前述对目标检测网络模型进行训练的方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各实施例所描述的对目标检测网络模型进行训练的方法的处理步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在合理条件下应当理解，虽然前文各实施例涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

上述实施例仅供说明本申请之用，而并非是对本申请的限制，有关技术领域的普通技术人员，在不脱离本申请范围的情况下，还可以做出各种变化和变型，因此，所有等同的技术方案也应属于本申请公开的范畴。

Claims

一种对目标检测方法，其特征在于，包括：

获取原始图像多个层级的第一类图像特征；

对不同层级的第一类图像特征至少分别进行空洞卷积处理，相应产生不同层级的第二类图像特征，其中针对不同层级进行所述空洞卷积处理的膨胀率不同；以及

基于所述第二类图像特征，或者基于所述第一类图像特征以及第二类图像特征进行检测并通过回归操作确定目标框。
根据权利要求1所述的方法，其中所述多个层级的分辨率随着所述层级的升高而降低；所述空洞卷积处理的膨胀率随着所述层级的升高而降低。
根据权利要求1所述的方法，其中所述多个层级包括卷积层和全局池化层，且全局池化层层级最高。
根据权利要求1所述的方法，其中对不同层级的第一类图像特征至少分别进行空洞卷积处理，相应产生不同层级的第二类图像特征，包括：

对所述第一类图像特征进行降维卷积处理，得到降维特征处理结果；

对降维特征处理结果进行空洞卷积处理，得到空洞卷积处理结果；

分别对所述空洞卷积处理结果进行第一分解卷积处理以及第二分解卷积处理，得到第一分解卷积处理结果以及第二分解卷积处理结果；

对所述第一分解卷积处理结果以及所述第二分解卷积处理结果进行连接，得到连接处理结果；

至少基于所述连接处理结果确定所述不同层级的第二类图像特征。
根据权利要求4所述的方法，其中对不同层级的第一类图像特征至少分别进行空洞卷积处理，相应产生不同层级的第二类图像特征，还包括：

至少根据所述降维特征处理结果以及所述连接处理结果进行残差处理，得到所述不同层级的第二类图像特征。
根据权利要求1所述的方法，还包括，对不同层级的所述第二类图像特征进行融合；以及

基于经融合的所述第二类图像特征，或者基于所述第一类图像特征以及经融合的所述第二类图像特征进行检测并通过回归操作确定最终的目标框。
根据权利要求6所述的方法，其中，对不同层级的第二类图像特征进行特征融合包括：

针对每一层级，将本级以上所有层级的第二类图像特征经过上采样处理以后与本级的第二类图像特征融合。
根据权利要求7所述的方法，其中所述上采样处理包括反卷积处理或双线性插值处理。
根据权利要求1所述的方法，还包括对网络模型进行训练时，基于所述第二类图像特征，或者基于所述第一类图像特征以及所述第二类图像特征进行检测并通过回归操作确定用于网络模型的卷积核以及标记框，该操作包括：

至少基于候选框与实际框之间交并比得分获得交并比代价函数的值，并且至少基于所述交并比代价函数的值计算候选框与实际框之间的损失函数的值。
根据权利要求9所述的方法，其中对网络模型进行训练时，基于所述第二类图像特征，或者基于所述第一类图像特征以及所述第二类图像特征进行检测并通过回归操作确定用于网络模型的卷积核以及标记框,该操作还包括：

计算候选框与实际框之间损失函数的值还基于候选框置信度得分而获得的置信度分类代价函数的值，以及候选框与实际框获得坐标回归的代价函数的值。
根据权利要求9或10所述的方法，其中基于所述第一类图像特征以及所述第二类图像特征进行检测并通过回归操作确定用于网络模型的卷积核以及标记框，包括：

在第一阶段，至少基于所述原始图像以及预设的候选框和卷积核初始值计算所述交并比代价函数值以及所述候选框与实际框间的损失函数值，并经过回归操作后进行输出；以及

在第二阶段，至少基于所述第二类图像特征以及所述第一阶段输出的候选框和卷积核核计算所述交并比代价函数值以及所述候选框与实际框间的损失函数值，并经过回归操作进行输出；

至少基于所述第一阶段和第二阶段的输出进行拟合获得总损失函数值，并将所述总损失函数值最小时对应的候选框和卷积核作为最终输出。
一种对目标检测方法装置，包括：

图像特征获取模块，配置为获取原始图像多个层级的第一类图像特征；

空洞卷积模块，耦合至图像特征获取模块，配置为分别对不同层级的第一类图像特征进行空洞卷积处理，相应产生不同层级的第二类图像特征，其中针对不同层级进行所述空洞卷积处理的膨胀率不同；

检测信息确定模块，耦合至层级融合模块，配置为基于所述第二类图像特征，或者基于所述第一类图像特征以及第二类图像特征进行检测并通过回归操作确定目标框。
根据权利要求12所述的装置，进一步包括：

层级融合模块，耦合至所述空洞卷积模块，配置为对不同层级的第二类图像特征进行融合；

其中，所述检测信息确定模块进一步配置为基于所述第二类图像特征，或者基于所述第一类图像特征以及所述第二类图像特征进行检测并通过回归操作确定最终的目标框。
根据权利要求12所述的装置，进一步包括：

初始目标检测模块，耦合至图像特征获取模块和检测信息确定模块，配置为接收所述图像特征获取模块输出的第一类图像特征，并基于对第一类图像特征进行检测，将检测结果发至所述检测信息确定模块以优化所述检测信息确定模块的检测过程。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述方法的步骤。
一种智能驾驶设备，包括：

处理器，以及与所述处理器耦合的存储器；以及

传感单元，配置为获取所述原始图像；

其中所述处理器配置为执行权利要求1-11任一所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其中所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。