CN113111877A

CN113111877A - 一种特征金字塔及其特征图像的提取方法

Info

Publication number: CN113111877A
Application number: CN202110468907.0A
Authority: CN
Inventors: 唐得志; 石先让; 肖飞; 韦圣兵; 王磊; 秦玉林
Original assignee: Chery Automobile Co Ltd
Current assignee: Chery Automobile Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-13

Abstract

本发明涉及车辆环境感知技术领域，提供了一种特征金字塔，P₂ ⁱⁿ,P₃ ⁱⁿ,P₄ ⁱⁿ,P₅ ⁱⁿ为特征金字塔各层的输入特征图，P₂ ^td,P₃ ^td,P₄ ^td表示各层自上向下的特征金字塔中间层融合特征图，P₂ ^out,P₃ ^out,P₄ ^out,P₅ ^out表示经过特征金字塔网络融合后的各层输出特征图，本发明除了增加自上向下的结构维度以外，还将底层的输出特征图自下向上进行特征融合，增强融合后高层特征图的分辨率信息，提高深度学习后续模块检测小目标的准确率。

Description

一种特征金字塔及其特征图像的提取方法

技术领域

本发明涉及到车辆环境感知技术领域，提供了一种特征金字塔及其特征图像的提取方法。

背景技术

目标检测是计算机视觉领域中一个重要的研究课题，目标检测被广泛应用于智能视频监控、自动驾驶、智能机器人等领域。目标检测的目的是在一张图像或者一段视频帧中，检测出目标的类型，位置等信息，对各类目标检测准确性和实时性是目标检测算法的一项重要评价指标。深度学习是目前目标检测领域的主流方法，深度学习通过卷积生成的特征图是影响目标检测结果是否准确的重要输入，传统的深度学习算法都是利用最后一层的特征图完成目标检测，很容易造成图片特征的丢失，尤其是小目标的检测准确度比较低，因此学术界提出了特征金字塔的多尺度特征融合结构，该结构利用底层特征图分辨率高的优点和高层特征图语义信息丰富的优点，将底层特征图和高层特征图都利用起来，通过算法输出分辨率和语义信息均较高的融合特征图。

现有特征金字塔网络结构有两点缺陷：(1)结构上只考虑自上往下，信息融合的维度有限，特征提取效果有待进一步提升；(2)传统特征金字塔网络在融合时是以相同的方式进行融合，而没有考虑到各级特征对融合结果贡献度的差异性，所以对小目标的检测效果不好。

发明内容

本发明提供了一种特征金字塔，旨在改善上述问题。

本发明是这样是实现的，一种特征金字塔，用于深度学习，所述特征金字塔包括：

第一层输入特征图P₂ ⁱⁿ与第一层中间特征图P₂ ^td、第一层输出特征图P₂ ^out连接，第一层中间特征图P₂ ^td与第一层输出特征图P₂ ^out连接；

第二层输入特征图P₃ ⁱⁿ与第二层中间特征图P₃ ^td、第二层输出特征图P₃ ^out及第一层中间特征图P₂ ^td连接，第二层中间特征图P₃ ^td与第二层输出特征图P₃ ^out、第一层输出特征图P₂ ^out连接；

第三层输入特征图P₄ ⁱⁿ与第三层中间特征图P₄ ^td、第三层输出特征图P₄ ^out连接，第三层中间特征图P₄ ^td与第二层中间特征图P₃ ^td、第三层输出特征图P₄ ^out连接，

第四层输入特征图P₅ ⁱⁿ与第三层中间特征图P₄ ^td、第四层输出特征图P₅ ^out连接，

第一层输出特征图P₂ ^out、第二层输出特征图P₃ ^out、第三层输出特征图P₄ ^out及第四层输出特征图P₅ ^out依次连接。

另一方面，本发明还提供了一种特征图像的提取方法，所述方法具体包括如下步骤：

S1、对输入帧图片利用3×3的卷积核和池化层进行下采样操作，下采样的倍数分别是2²,2³,2⁴,2⁵，获取四个特征图；

S2、将四个特征图分别输入权利要求1所述的特征金字塔，作为第一层输入特征图P₂ ⁱⁿ、第二层输入特征图P₃ ⁱⁿ、第三层输入特征图P₄ ⁱⁿ、第四层输入特征图P₅ ⁱⁿ；

S3、所述特征金字塔输出第一层输出特征图P₂ ^out、第二层输出特征图P₃ ^out、第三层输出特征图P₄ ^out及第四层输出特征图P₅ ^out。

进一步的，第一层中间特征图P₂ ^td和输出特征图P₂ ^out的计算公式具体如下：

w₂₁是第一层输入特征图P₂ ⁱⁿ到第一层中间特征图P₂ ^td的权重，w₂₂是第二层输入特征图P₃ ⁱⁿ到第一层中间特征图P₂ ^td的权重，w₂₁'是第一层输入特征图P₂ ⁱⁿ到第一层输出特征图P₂ ^out的权重，w₂₂'是第一层中间特征图P₂ ^td到第一层输出特征图P₂ ^out的权重，w₂₃'是第二层中间特征图P₃ ^td到第一层输出特征图P₂ ^out的权重，ε＝0.001，Conv是对结果特征图利用通用的3×3卷积核做卷积运算，Resize表示对特征图P₃ ⁱⁿ和P₃ ^td进行上采样操作。

进一步的，第二层中间特征图P₃ ^td和输出特征图P₃ ^out采用如下公式进行计算：

w₃₁是第二层输入特征图P₃ ⁱⁿ到第二层中间特征图P₃ ^td的权重，w₃₂是第三层中间特征图P₄ ^td到第二层中间特征图P₃ ^td的权重，w₃₁'是第二层输入特征图P₃ ⁱⁿ到第二层输出特征图P₃ ^out的权重，w₃₂'是第二层中间特征图P₃ ^td到第二层输出特征图P₃ ^out的权重，w₃₃'是第一层输出特征图P₂ ^out到第二层输出特征图P₃ ^out的权重，ε＝0.001，Conv是对结果特征图利用通用的3×3卷积核做卷积运算，Resize表示对特征图P₄ ^td进行上采样操作和对特征图P₂ ^out进行下采样操作。

进一步的，第三层中间特征图P₄ ^td和输出特征图P₄ ^out如式(5)和(6)所示：

w₄₁是第三层输入特征图P₄ ⁱⁿ到第三层中间特征图P₄ ^td的权重，w₄₂是第四层输入特征图P₅ ⁱⁿ到第三层中间特征图P₄ ^td的权重，w₄₁'是第三层输入特征图P₄ ⁱⁿ到第三层输出特征图P₄ ^out的权重，w₄₂'是第三层中间特征图P₄ ^td到第三层输出特征图P₄ ^out的权重，w₄₃'是第二层输出特征图P₃ ^out到第三层输出特征图P₄ ^out的权重，ε＝0.001，Conv是对结果特征图利用通用的3×3卷积核做卷积运算，Resize表示对特征图P₅ ⁱⁿ进行上采样操作和对特征图P₃ ^out进行下采样操作。

进一步的，第四层输出特征图P₅ ^out采用如下公式进行计算：

w₅₁是第四层输入特征图P₅ ⁱⁿ到第四层输出特征图P₅ ^out的权重，w₅₂是第三层输出特征图P₄ ^out到第四层输出特征图P₅ ^out的权重，ε＝0.001，Conv是对结果特征图利用通用的3×3卷积核做卷积运算，Resize表示对特征图P₄ ^out进行下采样操作。

另一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行时实现上述特征图像的提取方法步骤。

本发明除了增加自上向下的结构维度以外，还将底层的输出特征图自下向上进行特征融合，增强融合后高层特征图的分辨率信息，提高深度学习后续模块检测小目标的准确率。

附图说明

图1为深度学习的流程图；

图2为本发明实施例提供的特征金字塔的结构示意图；

图3为本发明实施例提供的基于特征金字塔的特征图像提取方法流程图。

具体实施方式

下面对照附图，通过对最优实施例的描述，对本发明的具体实施方式作进一步详细的说明。

输入学***均池化层降低数据维度后，送入全连接层进行处理后得到一系列目标框坐标和属性数据，并与图片目标框标注的真实数据进行损失函数的计算，并根据损失函数的负梯度方向(即损失函数减少的方向)调整卷积层的参数及特征金字塔中的权重值，循环学习后，当损失函数的阙值小于设定值时，深度学习结束，网络参数即可固定，此时已完成训练的深度学习网络就可以进行测试图片的目标检测，如图1所示；

图2为本发明实施例提供的特征金字塔的结构示意图，为了便于说明，仅示出与发明实施例相关的部分。

该特征金字塔包括：

具体结构介绍：第一层中间特征图P₂ ^td是第二层输入特征图P₃ ⁱⁿ自上向下和第一层输入特征图P₂ ⁱⁿ的权重融合特征图，第一层输出特征图P₂ ^out是第一层中间特征图P₂ ^td、第二层中间特征图P₃ ^td和第一层输入特征图P₂ ⁱⁿ的权重融合特征图；第二层中间特征图P₃ ^td是第二层输入特征图P₃ ⁱⁿ和第三层中间特征图P₄ ^td的权重融合特征图，第二层输出特征图P₃ ^out是第二层中间特征图P₃ ^td、第一层输出特征图P₂ ^out和第二层输入特征图P₃ ⁱⁿ的权重融合特征图；第三层中间特征图P₄ ^td是第三层输入特征图P₃ ⁱⁿ和第四层输入特征图P₅ ⁱⁿ的权重融合特征图，第三层输出特征图P₄ ^out是第三层中间特征图P₄ ^td、第二层输出特征图P₃ ^out和第三层输入特征图P₄ ⁱⁿ的权重融合特征图；第四层的输出特征图P₅ ^out是第四层的输入特征图P₅ ⁱⁿ和第三层的输出特征图P₄ ^out的权重融合特征图。

对输入的不同分辨率的特征图

采用如图1的结构，P₂ ⁱⁿ,P₃ ⁱⁿ,P₄ ⁱⁿ,P₅ ⁱⁿ表示特征金字塔各层的输入特征图，P₂ ^td,P₃ ^td,P₄ ^td表示各层自上向下的特征金字塔中间层融合特征图，P₂ ^out,P₃ ^out,P₄ ^out,P₅ ^out表示经过特征金字塔网络融合后的各层输出特征图，本发明除了增加自上向下的结构维度以外，还将底层的输出特征图自下向上进行特征融合，增强融合后高层特征图的分辨率信息，提高深度学习后续模块检测小目标的准确率。

图3为本发明实施例提供的基于特征金字塔的特征图像提取方法流程图，该方法具体包括如下步骤：

S1、对输入帧图片利用3×3的卷积核和池化层进行下采样操作，下采样的倍数分别是2²,2³,2⁴,2⁵，获取四个特征图P₂ ⁱⁿ,P₃ ⁱⁿ,P₄ ⁱⁿ,P₅ ⁱⁿ，这里的下标2、3、4、5表示输出特征图的长宽是原输入图像的

倍数；

S2、将四个特征图分别输入特征金字塔，作为第一层输入特征图P₂ ⁱⁿ、第二层输入特征图P₃ ⁱⁿ、第三层输入特征图P₄ ⁱⁿ、第四层输入特征图P₅ ⁱⁿ；

(1)第一层中间特征图P₂ ^td和输出特征图P₂ ^out如式(1)和(2)所示：

w₂₁是第一层输入特征图P₂ ⁱⁿ到第一层中间特征图P₂ ^td的权重，w₂₂是第二层输入特征图P₃ ⁱⁿ到第一层中间特征图P₂ ^td的权重，w₂₁'是第一层输入特征图P₂ ⁱⁿ到第一层输出特征图P₂ ^out的权重，w₂₂'是第一层中间特征图P₂ ^td到第一层输出特征图P₂ ^out的权重，w₂₃'是第二层中间特征图P₃ ^td到第一层输出特征图P₂ ^out的权重。

两组权重值w₂₂、w₂₁及w₂₁'、w₂₂'、w₂₃'都采用常用的均方差损失函数梯度下降法来迭代更新，设置ε＝0.001，避免分母为零的数值不稳定情况，Conv是对结果特征图利用通用的3×3卷积核做卷积运算，Resize表示对特征图P₃ ⁱⁿ和P₃ ^td进行上采样操作保证其与第一层输入特征图P₂ ⁱⁿ、第一层中间特征图P₂ ^td及第一层输出特征图P₂ ^out的分辨率相同，便于特征图求和操作。

(2)第二层中间特征图P₃ ^td和输出特征图P₃ ^out如式(3)和(4)所示

w₃₁是第二层输入特征图P₃ ⁱⁿ到第二层中间特征图P₃ ^td的权重，w₃₂是第三层中间特征图P₄ ^td到第二层中间特征图P₃ ^td的权重，w₃₁'是第二层输入特征图P₃ ⁱⁿ到第二层输出特征图P₃ ^out的权重，w₃₂'是第二层中间特征图P₃ ^td到第二层输出特征图P₃ ^out的权重，w₃₃'是第一层输出特征图P₂ ^out到第二层输出特征图P₃ ^out的权重。

两组权重值w₃₁、w₃₂和w₃₁'、w₃₂'、w₃₃'都采用常用的均方差损失函数梯度下降法来迭代更新，设置ε＝0.001，避免分母为零的数值不稳定情况，Conv是对结果特征图利用通用的3×3卷积核做卷积运算，Resize表示对特征图P₄ ^td进行上采样操作和对特征图P₂ ^out进行下采样操作保证其与第二层输入特征图P₃ ⁱⁿ、第二层中间特征图P₃ ^td及第二层输出特征图P₃ ^out的分辨率相同，便于特征图求和操作。

(3)第三层中间特征图P₄ ^td和输出特征图P₄ ^out如式(5)和(6)所示：

w₄₁是第三层输入特征图P₄ ⁱⁿ到第三层中间特征图P₄ ^td的权重，w₄₂是第四层输入特征图P₅ ⁱⁿ到第三层中间特征图P₄ ^td的权重，w₄₁'是第三层输入特征图P₄ ⁱⁿ到第三层输出特征图P₄ ^out的权重，w₄₂'是第三层中间特征图P₄ ^td到第三层输出特征图P₄ ^out的权重，w₄₃'是第二层输出特征图P₃ ^out到第三层输出特征图P₄ ^out的权重。

这两组权重值w₄₁、w₄₂及w₄₁'、w₄₂'、w₄₃'都采用常用的均方差损失函数梯度下降法来迭代更新，设置ε＝0.001，避免分母为零的数值不稳定情况，Conv是对结果特征图利用通用的3×3卷积核做卷积运算，Resize表示对特征图P₅ ⁱⁿ进行上采样操作和对特征图P₃ ^out进行下采样操作保证其第三层输入特征图P₄ ⁱⁿ、第三层中间特征图P₄ ^td及第三层输出特征图P₄ ^out的分辨率相同，便于特征图求和操作。

(4)第四层输出特征图P₅ ^out如式(7)所示：

w₅₁是第四层输入特征图P₅ ⁱⁿ到第四层输出特征图P₅ ^out的权重，w₅₂是第三层输出特征图P₄ ^out到第四层输出特征图P₅ ^out的权重；

w₅₁和w₅₂采用常用的均方差损失函数梯度下降法来迭代更新，设置ε＝0.001，避免分母为零的数值不稳定情况，Conv是对结果特征图利用通用的3×3卷积核做卷积运算，Resize表示对特征图P₄ ^out进行下采样操作保证其与第四层输入特征图P₅ ⁱⁿ及第四层输出特征图P₅ ^out的辨率相同，便于特征图求和操作。

相应的，本发明提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行时实现前述所述的基于特征金字塔的特征图像提取方法步骤。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参加即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参加方法实施例的部分说明即可。

本说明书实施例并不局限于必须是符合行业通信标准、标准计算机数据处理和数据存储规则或本说明书一个或多个实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例，仍然可以属于本说明书实施例的可选实施方案范围之内。另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤.

而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。