CN117237893A

CN117237893A - 基于实例自适应动态神经网络的自动驾驶多目标检测方法

Info

Publication number: CN117237893A
Application number: CN202311170353.1A
Authority: CN
Inventors: 白光伟; 王源一; 沈航; 王天荆
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2023-12-15

Abstract

针对自动驾驶中的多实例检测任务，本发明提出一种基于实例自适应动态神经网络的自动驾驶多目标检测方法，首先由车载设备捕获图像；然后由动态神经网络模型对作为实例的图像进行检测并识别其中目标。动态神经网络模型的构建过程为：首先，开发基于课程学习CL的策略网络训练框架，用于提取的任务特征并生成与任务属性相匹配的路由向量；然后，路由向量被映射到由多分支残差块组成的检测网络中，用于指导残差块的开启和关闭；最后，构建联合训练框架，策略网络生成的路由向量被用来调节检测网络路由、优化参数；检测网络的输出被反馈至策略网络，用以优化路由向量的生成。本方法以实例自适应的动态神经网络方法为核心，兼顾检测精度与推理速度。

Description

基于实例自适应动态神经网络的自动驾驶多目标检测方法

技术领域

本发明涉及可用于自动驾驶中的多实例检测任务的机器视觉技术，具体是一种基于实例自适应动态神经网络的自动驾驶多目标检测方法。

背景技术

随着车联网的快速发展，一系列涵盖信息服务、行驶安全和交通效率的车载应用将喷薄而生。自动驾驶汽车代表了未来智能交通的主流，预计到2035年将会占据路面上车辆75％左右。据估计，单台自动驾驶汽车每秒会产生1G左右的数据[31]，其中包含大量计算密集型和时延敏感型业务。然而，考虑到车载设备的处理能力有限，加之车载业务的低延迟需求，传统神经网络检测框架在实时性以及需求差异化方面便显得力不从心。

提升模型的推理速度主要有两种途径。一是通过模型剪枝[1-3]提高模型的紧凑性或通过知识蒸馏[4-6]生成紧凑的学生网络。二是利用权重量化[7]来提高推理响应速度。然而，这两类方法在处理多目标检测任务时存在一些固有缺陷。首先，它们永久性地去除活跃度较低的层和神经元来构建密集网络(dense network)，但是这些去除的神经元对于准确分类复杂的输入实例可能是十分重要的。虽然提高模型推理速度，但削弱了推理精度。其次，即使是活跃度较高的层和神经元，在处理一些不同类的输入实例时，对于提升检测效果的帮助也可能十分有限。例如，行人没有卡车的前灯，卡车没有行人的四肢，两者的特征重叠程度最小。因此，与卡车特征相关的卷积过滤器对于预测行人是可忽略的。最后，现实情况下，简单图像大多只需要浅嵌入就能满足分类精度的需求，只有少部分复杂图像分类依赖深度的网络嵌入。

动态神经网络(dynamic neural networks)[8]是一种有潜力的解决方案，它可以根据输入属性，选择性地执行精确分类所需的计算子集。以图1为例，动态神经网络主要包括策略网络和检测网络。面对不同实例，神经网络会自动调整网络结构，在不过多牺牲识别精度的情况下提高推理速度。与静态修剪永久地删除神经元不同，这种动态推理模式可以根据输入实例暂时抑制计算。由于在推理效率和表达能力上的优越性，动态神经网络为解决自动驾驶目标检测中的时效性和安全性问题开辟了新途径，但仍面临一些特殊的挑战，主要包括：

(1)兼顾策略网络的轻量化与高效性。检测网络通常由预设的若干模块组成，它的网络路由(即：块的开启与关闭)由策略网络推理[9-11]决定。遵循这种思路，Leroux等[12]采用参数共享和自适应计算时间(adaptive computation time，ACT)来减少参数量和自适应执行层。Odena等引入了基于强化学习的控制器，从子模块中自适应地构造计算图(computation graph)[13]，以检查过滤器激活。Liu等[14]改进了策略网络中的控制模块，并通过Q-learning选择性地激活特定模块实现动态路由。这些方法均采用强化学习训练策略网络，以实现预设模块的“动态开关”，但计算密集型的强化学习有可能抵消动态神经网络的优势。

(2)平衡推理速度与检测精度。动态神经网络推理速度由策略网络模型大小与检测网络深度共同决定。检测精度并不会随着检测网络深度增加而线性增长。fignov等[15]使用ACT实现了面向特定实例的动态Resnet网络，但它只允许连续使用浅层的Resnet预定义模块。在提取特征时，仅使用神经网络的浅层会减低检测精度[16]。融合浅层特征和深层特征[17,18]有助于减少精度损失，但计算成本更高。

(3)联调策略网络与检测网络。在策略网络的指导下对检测网络使用剪枝操作有助于减少推理代价。然而，特定实例与过滤器之间存在依赖关系，简单地剪裁特定过滤器必然导致策略网络与部分输入实例不匹配，进而降低检测精度。如何赋予神经网络细粒度的调节能力并实现实例自适应的神经网络动态路由值得进一步探索。

发明内容

针对自动驾驶中的多实例检测任务，本发明提出一种实例自适应的动态神经网络方法，根据策略网络提取的任务特征，动态地选取检测网络路由，兼顾检测精度与推理速度。本发明主要创新点包括：

第一、针对前述问题(1)，构建一种基于课程学习(curriculum learning，CL)的轻量化策略网络训练框架。不同于传统“一步一决策”的动态路由模式，该网络直接输出与任务属性相匹配的策略向量，同时降低了策略网络和检测网络的推理代价。

第二、针对前述问题(2)，开发一种由多分支残差块组成的检测网络，根据策略向量为任务定制路由，增强多目标检测网络架构灵活性和实例特征适应性。

第三、针对前述问题(3)，构建一种面向动态路由的联合训练框架，进一步提升检测精度和速度。策略网络生成的策略向量被用来调节检测网络架构、优化参数。同时，检测网络的输出被反馈至策略网络，用以优化路由选取。

在CIFAR和ImageNet数据集上的实验结果证实了所提方法的有效性和优越性。在推理代价相同时，所提方法的检测精度高于早退和随机深度。在精度水平一致时，所提方法相较于早退和剪枝减少了50％和59％的推理时延。相比单纯基于CL的路由生成，所提联合训练可以带来18％的精度和16％的速度提升。

附图说明

图1是动态神经网络面向简易和复杂实例的动态推理示意图。

图2是本发明的多分支残差网络动态路由联合训练框架示意图。

图3是本发明的策略网络的课程训练过程示意图。

图4是本发明的检测网络的多分支残差结构示意图。

图5(a)和图5(b)s是实验中，在不同数据集上各方法的检测精度与平均FLOPs，其中：

图5(a)是在CIFAR数据集上的检测精度与平均FLOPs；

图5(b)是在ImageNet数据集上的检测精度与平均FLOPs。

图6是实验中，路由长度的概率分布示意图。

图7(a)和图7(b)是实验中，低FLOPs和高FLOPs的代表性示例示意图，其中：

图7(a)是低FLOPs组；

图7(b)是高FLOPs组。

图8(a)和图8(b)是实验中，低FLOPs和高FLOPs图像的路由策略可视化示意图，其中：

图8(a)是低FLOPs组；

图8(b)是高FLOPs组。

具体实施方式

下面结合附图与具体实施方式对本发明进一步说明。

1概述

针对自动驾驶中的多实例检测任务，本发明提出一种实例自适应的动态神经网络方法，兼顾检测精度与推理速度。

首先，一种基于课程学习(curriculum learning，CL)的轻量化策略网络训练框架被开发，用于提取的任务特征，并生成与任务属性相匹配的路由向量。

然后，路由向量被映射到一种由多分支残差块组成的检测网络中，用于指导残差块的开启和关闭，以适应实例的多样性。

最后，在构建的联合训练框架下，策略网络生成的路由向量被用来调节检测网络路由、优化参数；检测网络的输出被反馈至策略网络，用以优化路由向量的生成。

在CIFAR和ImageNet数据集上的实验结果表明，相较于早退和剪枝，在精度水平一致的情况下，所提方法减少了50％和59％的推理时延。所提动态路由策略可以适应不同复杂度的图像，平衡检测精度和推理代价。

2设计方案

本节介绍实例自适应动态神经网络的设计思路与实现细节。如图2所示，所提动态推理框架由基于课程学习CL的策略网络和多分支残差检测网络构成。车载设备捕获的图像输入到策略网络和检测网络后的工作流包括：

·策略网络提取输入实例的特征并输出策略向量。

·在策略向量的指导下，多分支残差网络通过快捷连接动态跳转，形成检测网络路由。

·根据结果正确与否，检测网络生成奖励函数并反向传播给策略网络，优化策略网络，使其产生更合适的策略向量。

接下来分别阐述策略网络、多分支残差检测网络的设计以及面向动态路由的联合训练框架。

2.1基于CL的策略网络设计

策略网络帮助预训练检测网络寻找最佳的残差块组合，用最少的块实现准确分类。一个由k个残差块组成的检测网络存在2^k个块的开/关策略，即存在2^k-1条可选的路由。可见，策略搜索空间的维度随残差块个数呈指数增长。若在维度较大的情况下随机设定初始搜索策略，策略网络训练将变得极其困难，甚至无法收敛。

针对上述问题，设计一种基于CL的策略网络训练策略，采用渐进式地搜索模式逐步确定动作序列。在训练中，CL从全部k个残差块中选取h个进行训练。第一轮h为1，后续随着h的增加，逐渐关联和优化更多残差块的开关，直至h等于k时覆盖全部的块。策略网络在关联h个残差块时，保持前k-h个块打开，并只学习后h个块的开关策略，在加速模型收敛的同时减少训练代价。该方法根据输入特征优化每个块的“开和关”，以评估块的效用。面对不同的实例，经CL训练后的策略网络可以灵活地识别和跳过冗余残差块。

以图3为例说明CL的训练过程。CL让模型从容易的样本开始学习，逐渐进阶到复杂的样本和知识。根据复杂度，CL为训练样本分配不同的权重。初始训练阶段，简单样本被分配最高的权重，较难样本权重被逐渐调高。CL是一个优化序列，可被视为连续学习(continual learning)的一种特殊形式。对于训练样本，CL的每次优化都采用不同的权重进行加权。假设训练样本的原始分布为P(z)，第λ次优化时赋予每个样本的权重为0≤W_λ(z)≤1,其中0≤λ≤1且W₁(z)＝1。在第λ次优化时，样本分布表示为

其中∫Q_λ(z)dz＝1。当λ＝1时，Q₁(z)＝P(z)。不等式(2)用以保证Q_λ(z)的信息熵单调递增；

不等式(3)用以保证W_λ(z)单调非递减。

2.2多分支残差检测网络构建

作为检测网络的基础部件，多分支残差块[20]由残差连接和多分支结构组成。如图4所示，1×1卷积核被用来降维输入，多分支结构被用来提取数据特征。分支一和分支二分别采用大小为3×3和5×5的卷积核，分支三对接池化层。对各分支所得特征矩阵求和操作，残差块可以得到一个求和矩阵，然后继续使用1×1的卷积核变换求和矩阵的维度，接着，通过残差网络中的快捷连接(short path)，该矩阵与下采样后的原始特征被叠加，以获得多分支残差块的输出。当y_i被输入至第i个多分支残差块时，该残差块的输出为y_i+1＝F_i(y_i)+y_i，作为下一残差块的输入。

多分支残差检测网络由k个多分支残差块串联组成。多分支残差块的特征提取结合了卷积和池化操作，不仅保证了特征提取的高效性，又保留了数据的主要特征。这种设计减少了网络的参数量和模型推理代价。

对于一个残差网络，跳过一个残差块不会带来过多的精度损失。甚至在部分残差块被移除的情况下，低维特征信息仍能被部分保留[24]。相对于单路径静态网络(如：AlexNet[22]和VGGNet[23])，所提检测网络中存在许多可选路径。受此启发，本发明通过选取路径实现检测网络架构的调节。具体而言，在策略向量的指导下，多分支残差网络通过残差结构中的快捷连接实现动态路由。当残差模块接收到“跳过”指令时，残差块内的卷积核将不参与推理，相当于y_i+1＝y_i。

尽管如此，在推理过程中跳过较多的残差块必然会增加分类错误。因此，面对不同实例，如何选取最佳的残差块组合，网络路由选取是至关重要的，它同时决定了推理速度和检测精度。

2.3面向动态路由的联合训练

策略网络生成的向量决定检测网络路由；检测网络的分类效果又通过反向传播优化策略向量的生成。两个网络共同决定路由选取，这驱使本发明探索一种策略网络和检测网络的联合训练框架，以实现实例自适应的动态路由。

与随机深度[24]不同，联合训练框架中残差块的选取由策略网络控制，以增强策略网络和检测任务实例的匹配度。该框架中策略向量输出一串二进制决定变量用以表示保留/删除某个残差块，其中每个删除残差块的决策对应于从网络中删除一个路径。在联合训练过程中，根据残差块的使用情况和检测网络预测精度，在检测网络中运行策略向量指定的残差块来生成奖励。

策略网络一次性输出全部残差网络路由，即：预测检测网络的所有动作，本质上是一个给定输入状态的单步马尔可夫决策过程(Markov Decision Process)。给定图像x和一个预先训练的由K个多分支残差块构成的检测网络，选取残差块的策略被定义为K维伯努利分布，即

策略网络被描述为一个关于图像x和权重W的函数f(x；W)。图像x经激活函数σ(x)＝1/(1+e^-x)处理后的输出结果被表示为

s＝f(x；W) (5)

使用轻量化的Resnet-8模型构建策略网络。推理开销很大程度上由卷积核数量决定。由于卷积核数量较少，策略网络产生的推理开销占仅为8％。令s_k∈[0,1]为策略向量s中的第k个元素，它的值代表残差块k被开启的概率。策略网络根据s生成动作向量u，决定参与推理的块。0-1决定变量u_k对应u中的第k个元素，u_k＝1(u_k＝0)代表开启(关闭)第k个残差块。

本发明开发一种奖励函数，以量化动作向量u带来的收益并引导策略网络寻找到高精度和低代价的路由。具体而言，在训练过程中，本发明在保证预测结果与真实标签一致的基础上，尽可能减少检测网络路由的长度(块的使用)。奖励函数被形式化为

其中，代表被开启的残差块在整个检测网络中的占比；当结果被正确预测时，路由长度越短，给予的正向奖励越多，以鼓励策略网络跳过更多残差块。γ被用来惩罚错误的预测，平衡推理速度和检测精度。通常，被选取的残差块越多，检测精度越高，但会降低推理速度。本发明通过最大化奖励期望，即

来获得训练最佳策略网络参数。

综上，式(5)生成的路由策略决定检测网络中哪些块执行前向传播(forwardpropagation)，以生成预测结果。同时，策略网络根据预测正确与否和块的使用数量来计算奖励值。

策略梯度法[25]被用来搜索能最大化(7)的梯度。传统强化学习从多项分布中采样来获取策略梯度。与之不同，本发明从k维伯努利分布中采集训练策略样本(选取残差块的策略)。对于u_k∈{0,1}，策略梯度被计算为:

在小批量样本中，蒙特卡罗抽样被用于获取式(8)的期望梯度。这些梯度估计是无偏的。自我批判基线被用于式(8)以减少方差。据此，得到

其中，为当前策略下最有可能被选中的路由策略。当且仅当0.5<s_i<1时,u_i＝1，否则u_i＝0。

为了鼓励策略网络进一步探索，本发明引入权重因子α∈[0,1]，并将式(5)更新为

s＝α·s+(1-α)·(1-s) (10)

使得s_i∈[1-α,α]，以便于采样多样化的策略向量。

模型经CL训练后可以学习到多样化的路由策略，但检测精度相比执行完整的模型推理略有降低。对此，在CL训练结束后，通过对策略网络和多分支残差网络进行联合微调，以同时优化检测精度和推理速度。联合训练算法被归纳为算法1。策略网络将策略向量s中前K-h个变量设置为1，并逐渐增加h，开始CL训练(7-9行)。模型经CL训练后，探索到了多样化的路由策略(14行)。为进一步优化模型，联合训练策略网络和检测网络(15-17行)。

3实验设计与结果分析

为了评估所提方法的检测和推理性能，本实验选取了CIFAR-10[27]、CIFAR-100[27]和IMAGENET[28]这三个权威数据集。CIFAR数据集包含6万张32×32RGB图像，其中用于训练和测试的图像为5万和1万张。ImageNet数据集包含1000个类别的120万张训练图像，其中的50,000张作为验证集，被用于测试top-1准确率。

本实验在PyTorch平台下实现所提算法，并使用ADAM优化器训练模型。模型训练过程中，权重因子α(式(10)中)被设置为0.8，学习率为1×10^-4。在策略网络(CL)训练中，批次大小被设置为2048。在联合训练中，批次大小被调整为256，学习率被调整为1×10^-5。

本实验中，分别构建了与Resnet50[21]和Resnet110[21]卷积核数目接近的两种多分支残差检测网络，命名为Inception15和Inception54。作为基础性静态模型，他们分别由15和54个多分支残差块组成。本实验在此基础模型上生成动态路由，以证明本发明所提方案的有效性。

3.1路由策略有效性分析

第一组实验将所提动态路由与早退网络[15]和随机深度[24]进行对比。表1分别列出了Iception15、Iception54在CIFAR10和CIFAR100数据集上的结果。Acc代表模型检测精度；L代表模型平均残差块使用量。

假设所提方法输出的路由长度均值为L。早退网络模型和随机深度模型的残差块使用数量被设置为即L的上界，以保证基准模型检测能力的上限不弱于所提方法。当运行早退网络模型时，保持前/>个残差块开启。当运行随机深度模型时，随机选取/>个残差块并保持开启。

在CIFAR-10上，CL训练后的Inception15动态路由平均长度为9.4，实现了88.6％的平均准确率，相比早退机制和随机深度分别提升了72％和68.1％。值得注意的是，当运行Inception54时，有近15％的图像使用的块数小于10，其中有些甚至少于3个。这些结果证实了所提CL方法在提升检测准确率的同时明显降低了推理代价。无论是剪枝、蒸馏还是早退都无法实现细粒度的动态调整。接下来考察联合训练对于性能的提升效果。在CIFAR10数据集上，联合训练后的Inception15和Inception54模型相比只依赖CL的模型，不仅检测精度提高了2.7％和18.2％，而且路由长度平均减少了2.5和3.2，证明了联合训练的高效性和实用性。

所提策略网络每次输出完整的路由向量。模型推理过程无需参考中间输出结果，有助于减少策略执行代价。为了验证这一推论，本小节将所提路由生成策略与以下基准方法进行对比：采用传统强化学习的训练策略网络[15]，采用一步一决策的推理模式(命名为Single)。

为了保证公平性，所有方法均使用相同数量的残差块，以观察在检测能力相同(达到相同精度)情况下不同方法推理速度的差异性。

表2路由策略对推理速度的影响

表2归纳了在CIFAR-10数据上不同模型的平均推理延迟和加速效果。在Iception15达到相同检测精度的情况下，所提方案Proposed相比Full-Net提高了14.9％的检测速度。另一方面，Single相比Full-Net降低了28.7％的检测速度，这是由于Single采用一步一决策的推理方式，多步推理带来了额外的计算量，从而产生负加速。这些结果证实了所提策略网络一次性生成所有选取动作的对于模型推理速度有明显提升。

3.2动态推理模型加速性能

第二组实验通过调整R(u)中的参数γ来权衡路由长度和检测准确性，以观察不同检测需求下的最佳平衡点。图5(a)和图5(b)中曲线上的每个点代表一组给定γ下模型参数。测试集中图像分类所产生的平均FLOPs被用于评估模型复杂度。三种基准算法被选取以对比模型加速性能：

·ACT[15]：早退机制，当满足置信度需求时自动退出模型推理。

·SACT[15]：在ACT中增加了门控函数，对图像的不同区域(如：背景、轮廓等)采用不同的推理深度。

·PFEC[30]：模型剪枝，通过修剪静态网络来减少卷积层的参数。

图5(a)显示了不同方法在CIFAR数据集上的平均FLOPs和检测精度。与ResNet-110模型相比，所提方法的最佳模型(对应图中箭头指向的点)平均提升了0.4％的准确率(93.6％对93.2％)，平均减少了65％的FLOPs(1.73×10⁸对5.08×10⁸)。所提方法只需花费相当于ACT50％的FLOPs就可以达到与之相同的93.0％的检测精度。在同样为93.6％的检测精度下，所提方法比PFEC降低了59％的FLOPs。PFEC可以与本发明框架配合使用，以加速卷积操作。

图5(b)给出了不同方法在ImageNet数据集上的平均FLOPs和检测精度。所提方案的最佳模型在检测精度上优于ResNet-110(76.8％对76.4％)，速度提高了6％(1.47×10¹⁰对1.56×10¹⁰FLOPs)。略微降低检测精度后(见图中矩形方框位置)，动态推理框架的性能与完整的ResNet110相当，推理代价减少20％(1.25×10¹⁰对1.56×10¹⁰FLOPs)。不降低检测精度的情况下提速20％是相当可观的。例如，在每天接受10亿次API调用的高精度图像识别服务中，本发明所提方法使得在单个P6000GPU节省大约1000小时的计算(0.024秒/图像)。

3.3实例复杂度对FLOPs影响

由上述结果，本发明所提方案在分类不同复杂性的图像产生的计算代价大相径庭。特征明显的图像通常比复杂或非典型的图像需要更少的网络嵌入。本小节分析实例复杂度对路由长度的影响，以理解路由长度与图像复杂度之间的关联。为了便于观察动态推理，本组实验收集了10000张测试实例的FLOPs，并记录了每个测试实例所使用的路由长度。图6给出了路由长度的概率密度。在检测网络由15个多分支残差模块组成的情况下，测试实例平均使用6.8个多分支残差块。

以平均路由长度6.8为阈值，残差块使用低于7个的测试实例被选取为低FLOPs组，7个及以上选为高FLOPs组。如图7(a)和图7(b)所示，从低和高FLOPs组中分别选出8张有代表性图片，进行可视化分析。每张图片的下方为真实标签。这两组图片的视觉差异较为明显，低FLOPs图像特征更加清晰完整，图中的对象易于识别，而高FLOPs图像具有不完整轮廓和非典型特征，图中的对象难以区分。例如，高FLOPs组中的b不具备完整的汽车轮廓，只显示汽车尾部，c只显示汽车的后半部分。在高FLOPs组的其余例子中，图像的轮廓模糊，与背景的对比度较低，这增加了识别出错的概率。

接下来，对图7(a)和图7(b)中的两组图片生成的路由进行可视化分析。路由向量对应图8(a)和图8(b)，其中横轴代表残差模块编号，纵轴为图片编号。灰色和空白分别代表参与和未参与路由的残差块。可见，两组图片的路由策略呈现出不同的特征。首先，每组中相同类别实例路由策略较为相近，暗示同类别特征被储存在相近过滤器中。第二，低FLOPs组使用的平均残差模块数量低于高FLOPs组，这与所提推论一致，即图像复杂程度与路由长度呈正相关，复杂图像会产生更多推理开销。最后，容易区分或特征清晰的图像只需要较短的路由，而非典型或较模糊的图像依赖长路由。

4结论

本发明提出了基于CL的多分支残差网络动态路由检测框架。该结构可以扩展到多数现有的主流自动目标检测框架。这是一种通过输入实例动态选择多分支残差网络路由的方法。本发明训练一个策略网络来生成多分支残差网络路由策略，在保持检测的准确性的情况下大幅降低了网络推理代价。同时将策略网络与多分支残差网络联合微调，以提高路由策略的多样性，进一步提高模型的检测精度和推理速度。

参考文献

[1]Zhuang Liu,Jianguo Li,Zhiqiang Shen,Gao Huang,Shoumeng Yan,andChangshui Zhang.Learning efficient convolutional networks through networkslimming.ICCV,2017.

[2]Yang He,Guoliang Kang,Xuanyi Dong,Yanwei Fu,and Yi Yang.Softfilter pruning for accelerating deep convolutional neural networks.IJCAI,2018.

[3]Yihui He,Xiangyu Zhang,and Jian Sun.Channel pruning foraccelerating very deep neural networks.ICCV,2017.

[4]Jimmy Ba and Rich Caruana.Do deep nets really need to be deep？InNeurIPS,2014.

[5]Geoffrey E.Hinton,Oriol Vinyals,and Jeffrey Dean.Distilling theknowledge in a neural network.arXiv:1503.02531,2015.

[6]Adriana Romero,Nicolas Ballas,Samira Ebrahimi Kahou,AntoineChassang,Carlo Gatta,and Yoshua Bengio.Fitnets:Hints for thin deep nets.InICLR,2015.

[7]Benoit Jacob,Skirmantas Kligys,Bo Chen,Menglong Zhu,Matthew Tang,Andrew Howard,Hartwig Adam,and Dmitry Kalenichenko.Quantization and trainingof neural networks for efficient integer-arithmetic-only inference.In CVPR,2018.

[8]Yizeng Han,Gao Huang,Shiji Song,Le Yang,Honghui Wang,and Yulinwang.Dynamic Neural Networks:ASurvey.arXiv:2102.04906,2021.

[9]E.Bengio,P.-L.Bacon,J.Pineau,and D.Precup.Conditional computationin neural networks for faster models.In ICML Workshop on Abstraction inReinforcement Learning,2016.

[10]L.Liu and J.Deng.Dynamic deep neural networks:Optimizingaccuracy-efficiency trade-offs by selective execution.arXiv:1701.00299,2017.

[11]L.Denoyer and P.Gallinari.Deep sequential neural network.arXiv:1410.0510,2014.

[12]S.Leroux,P.Molchanov,P.Simoens,B.Dhoedt,T.Breuel,and J.Kautz,“IamNN:Iterative and adaptive mobile neural network for efficient imageclassification,”in Proc.ICLR Workshop,2018.

[13]A.Odena,D.Lawson,and C.Olah,“Changing model behavior at test-timeusing reinforcement learning,”in Proc.ICLR Workshop,2017.

[14]L.Liu and J.Deng,“Dynamic deep neural networks:Optimizingaccuracy-efficiency trade-offs by selective execution,”in Proc.AAAIConference on Artificial Intelligence,2018.

[15]M.Figurnov,M.D.Collins,Y.Zhu,L.Zhang,J.Huang,D.Vetrov,andR.Salakhutdinov.Spatially adaptive computation time for residual networks.InCVPR,2017.

[16]A.Veit,M.J.Wilber,and S.Belongie.Residual networks behave likeensembles of relatively shallow networks.In NIPS,2016.

[17]M.McGill and P.Perona.Deciding how to decide:Dynamic routing inartificial neural networks.In ICML,2017.

[18]G.Huang,D.Chen,T.Li,F.Wu,L.van der Maaten,andK.Q.Weinberger.Multi-scale dense convolutional networks for efficientprediction.arXiv preprint arXiv:1703.09844,2017.

[19]X.Gao,Y.Zhao,Dudziak,R.Mullins,and C.-Z.Xu,“Dynamic channelpruning:Feature boosting and suppression,”in Proc.International Conference onLearning Representations,2019.

[20]SU Tian-tian，WANG Hui-min，ZHANG Xiao-feng.Research on LightweightImage Classification Algorithm Based on Multi-Branch BottleneckStructure.Acta Electronica Sinica,2023

[21]HE K,ZHANG X,REN S,et al.Deep residual learning for imagerecognition.Proceedings of the IEEE Confer-ence on Computer Vision andPattern Recognition.Piscat-away:IEEE,2016.

[22]A.Krizhevsky,I.Sutskever,and G.E.Hinton.Imagenet classificationwith deep convolutional neural networks.In NIPS,2012.

[23]K.Simonyan and A.Zisserman.Very deep convolutional networks forlarge-scale image recognition.arXiv preprint arXiv:1409.1556,2014.

[24]G.Huang,Y.Sun,Z.Liu,D.Sedra,and K.Q.Weinberger.Deep networks withstochastic depth.In ECCV,2016.

[25]R.S.Sutton and A.G.Barto.Reinforcement learning:Anintroduction.MIT press Cambridge,1998.

[26]S.J.Rennie,E.Marcheret,Y.Mroueh,J.Ross,and V.Goel.Self-criticalsequence training for image captioning.In CVPR,2017.

[27]A.Krizhevsky and G.Hinton.Learning multiple layers of featuresfrom tiny images.2009.

[28]J.Deng,W.Dong,R.Socher,L.-J.Li,K.Li,and L.FeiFei.Imagenet:Alarge-scale hierarchical image database.In CVPR,2009.

[29]M.Figurnov,M.D.Collins,Y.Zhu,L.Zhang,J.Huang,D.Vetrov,andR.Salakhutdinov.Spatially adaptive computation time for residual networks.InCVPR,2017.

[30]H.Li,A.Kadav,I.Durdanovic,H.Samet,and H.P.Graf.Pruning filtersfor efficient convnets.In ICLR,2017.

[31]LIU Lei,CHEN Chen,FENG Jie,XIAO Ting-ting,Qing-qi,“A Survey ofComputation Offloading in Vehicular Edge Computing Networks,”in ACTAELECTRONICA SINICA,2021.

Claims

1.一种基于实例自适应动态神经网络的自动驾驶多目标检测方法，首先，由车载设备捕获图像；然后，由动态神经网络模型对作为实例的图像进行检测并识别其中目标；其特征是所述动态神经网络模型的构建过程为：

1)设计基于课程学习CL的轻量化策略网络，用于提取的任务特征，并生成与任务属性相匹配的路由向量；

2)路由向量被映射到由k个多分支残差块串联构成的检测网络中，用于指导各个多分支残差块的开启和关闭；“多分支残差块”简称为“块”；检测网络存在2^k种块的开/关策略，即存在2^k-1条可选的路由；

3)建立联合训练框架，在该联合训练框架下，策略网络生成的路由向量被用来调节检测网络路由、优化参数；检测网络的输出被反馈至策略网络，用以优化路由向量的生成；

步骤1)中，基于CL的策略网络设计：

策略网络是由神经网络模型构建；策略网络帮助预训练的检测网络寻找块的最佳组合；

采用CL方法训练策略网络：从检测网络的全部k个块中选取h个进行训练；第一轮h为1，后续随着h的增加，逐渐关联和优化更多块的开关，直至h等于k时覆盖全部的块；策略网络在关联h个残差块时，保持前k-h个块打开，并只学习后h个块的开关策略；

根据复杂度，为训练样本分配不同的权重：初始训练阶段，简单样本被分配最高的权重，按照从易到难，样本的权重被逐渐调高；对于训练样本，CL的每次优化都采用不同的权重进行加权；

假设训练样本的原始分布为P(z)，第λ次优化时赋予每个样本的权重为0≤W_λ(z)≤1,其中0≤λ≤1且W₁(z)＝1；在第λ次优化时，训练样本分布表示为：

其中∫Q_λ(z)dz＝1；当λ＝1时，Q₁(z)＝P(z)；

采用不等式(2)保证Q_λ(z)的信息熵H(Q_λ)单调递增；

采用不等式(3)保证W_λ(z)单调非递减；

步骤2)中，对于串联的k个块，y_i输入给第i个块得到F_i(y_i)，把y_i+1＝F_i(y_i)+y_i作为第i+1个块的输入；如果块被关闭，则检测网络的推理过程跳过该块，转到下一个开启的块，得到一条推理路由；

步骤3)中，采用联合训练框架联合训练策略网络和检测网络；

联合训练框架中块的选取由策略网络控制；策略向量输出一串二进制决定变量用以表示保留或删除某个块，其中每个删除块的决策对应于从检测网络中删除一个路径；在联合训练过程中，根据块的使用情况和检测网络预测精度，在检测网络中运行策略向量指定的块来生成奖励；

策略网络一次性输出检测网络的全部推理路由来预测检测网络的所有动作，视为一个给定输入状态的单步马尔可夫决策过程：

给定图像x和一个预先训练的由K个块构成的检测网络，选取块的策略被定义为K维伯努利分布，即

策略网络被描述为一个关于图像x和权重W的函数f(x；W)；图像x经激活函数σ(x)＝1/(1+e^-x)处理后的输出结果被表示为策略向量s

s＝f(x；W) (5)

令s_k∈[0,1]为策略向量s中的第k个元素，它的值代表第k个块被开启的概率；

策略网络根据s生成动作向量u，决定参与推理的块；

令0-1决定变量u_k对应u中的第k个元素，u_k＝1和u_k＝0分别代表第k个块的开启和关闭第k个块；

设计奖励函数来量化动作向量u带来的收益，并引导策略网络寻找到更优的推理路由，在保证预测结果与真实标签一致的基础上，尽可能减少检测网络路由的长度；奖励函数被形式化为

其中，表示被开启的块在整个检测网络中所有块的占比；则当预测结果正确时，路由长度越短，给予的正向奖励越多，以鼓励策略网络跳过更多块；γ被用来惩罚错误的预测；

通过最大化奖励期望来获得训练最佳策略网络参数，奖励期望表示为：

综上，式(5)生成的路由策略决定检测网络中哪些块执行前向传播，以生成预测结果；同时，策略网络根据预测正确与否和块的使用数量来计算奖励值；

采用策略梯度法搜索能使奖励期望最大化的梯度，对于u_k∈{0,1}，策略梯度被计算为：

蒙特卡罗抽样被用于获取式(8)的期望梯度，自我批判基线被用于式(8)以减少方差，则得到

其中，为当前策略下最有可能被选中的路由策略；当且仅当0.5<s_i<1时,u_i＝1，否则u_i＝0；

引入权重因子α∈[0,1]，并将式(5)更新为

s＝α·s+(1-α)·(1-s) (10)

使得s_i∈[1-α,α]，以采样多样化的策略向量；

以上式子中，下标i表示块的编号。

2.根据权利要求1所述的基于实例自适应动态神经网络的自动驾驶多目标检测方法，其特征是检测网络由多分支残差块构成，多分支残差块结构如下：

首先，采用1×1卷积核用来对输入进行降维；

然后，采用多分支结构提取前一步骤处理结果的数据特征；这些分支结构中有一个分支对接池化层，其余分支是卷积核；

接着，对各分支结构所得特征矩阵进行求和操作，得到一个求和矩阵；

然后，使用1×1的卷积核变换求和矩阵的维度；

最后，前一步骤所得矩阵与下采样后的原始特征经快捷连接short path叠加后输出。

3.根据权利要求1或2所述的基于实例自适应动态神经网络的自动驾驶多目标检测方法，其特征是策略网络是由Resnet-8构建。