CN108764292B

CN108764292B - 基于弱监督信息的深度学习图像目标映射及定位方法

Info

Publication number: CN108764292B
Application number: CN201810390879.3A
Authority: CN
Inventors: 田永鸿; 李宗贤; 史业民; 曾炜; 王耀威
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2022-03-18
Anticipated expiration: 2038-04-27
Also published as: CN108764292A

Abstract

本发明提供了一种基于弱监督信息的深度学习图像目标映射及定位方法。该方法包括：使用带有类别标签的图像数据分别训练两个深度卷积神经网络框架，得到分类模型M1和分类模型M2，并获取全局带参可学习池化层参数；使用新的分类模型M2对测试图像进行特征提取，得到特征图，根据特征图通过特征类别映射及阈值法得到初步定位框；使用选择性搜索方法对测试图像进行候选区域提取，使用分类模型M1筛选类别出候选框集合；对初步定位框和候选框进行非极大值抑制处理，得到测试图像最终的目标定位框。本发明引入全局带参可学习池化层，能够学习得到关于目标类别j的更好的特征表达，并通过使用选择性特征类别映射的方式，有效得到图像中目标物体的位置信息。

Description

基于弱监督信息的深度学习图像目标映射及定位方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于弱监督信息的深度学习图像目标映射及定位方法。

背景技术

随着以深度卷积神经网络为代表的深度学习技术的发展，图像分类和图像目标识别领域取得了巨大的突破性进展，并且引发了很多影响力极大的学术研究和相关的产业应用。在2015年的全球大规模视觉识别竞赛(ILSVRC)中，微软亚洲研究院提出的深度残差模型以3.57％的识别错误率获得冠军，并且首次超过人类的识别准确率。

2014年提出的区域卷积神经网络(RCNN)，首次将深度卷积网络用于图像目标检测任务，性能较传统基于手工特征的图像目标检测方法提升明显。在此之后，各种基于卷积神经网络的目标检测方法，例如快速区域卷积神经网络、更快的区域卷积神经网络等等方法，使得通用目标检测的性能不断提升。但上述方法都依赖于大量的完备位置标注的标签信息来训练卷积网络和区域回归模型，即在训练过程中不仅在给定目标的类别信息，还需要额外提供目标在图像中的位置信息，这也就要求研究者在训练深度网络前，需要对数据进行位置信息的标注。在实际应用场景中，对于大量的图片进行手工位置标注，需要耗费大量的时间成本和人力成本。

如何在只使用弱监督的标注数据来学习目标定位和检测是计算机视觉领域极有研究和应用价值的问题。我们关注的弱监督问题，是指为实现某个计算机视觉任务，采用了比该任务更多的一种人工标注作为监督信息。一般来讲，这种弱监督的标注比原始的标注更容易获得。在深度学习技术兴起以前，这种基于弱监督学习的方法通常依赖于对图像不同目标的特征进行聚类。例如授权公告号为CN103336969B的发明专利，联合谱聚类与判别式聚类的双重聚类方法，对由过分割方法得到的图像子区域进行聚类，实现对图像进行语义标注。

在以深度卷积神经网络为代表的深度学***均池化或者全局最大值池化的方法，将卷积特征图直接映射到一个特征点，然后使用单层的全连接网络对特征点进行聚合分类。

上述现有技术中的图像映射方法的缺点为：这种使用计算全局平均值或者全局最大值的方法对特征图进行池化的方法，会导致池化后的特征点对原始特征的表征能力不够。

发明内容

本发明的实施例提供了一种基于弱监督信息的深度学习图像目标映射及定位方法，以解决现有技术的缺点。

为了实现上述目的，本发明采取了如下技术方案。一种基于弱监督信息的深度学习图像目标映射及定位方法，包括如下步骤：

S1，使用人工标注带有类别标签的图像数据训练深度卷积神经网络框架，得到分类模型M1；

S2，在所述深度神经网络框架中删去卷积层后所有的全连接层，并加入一个全局带参可学习池化层和最后的分类全连接层，得到新的深度卷积神经网络框架；

S3，使用人工标注带有类别信息标签的图像数据训练所述新的深度卷积神经网络框架，得到新的分类模型M2，并获取全局带参可学习池化层参数；

S4，对于新输入的测试图像，使用所述新的分类模型M2进行特征提取，得到最后一个卷积层后的特征图，对所述特征图与全局带参可学习池化层参数进行内积后求和、非线性函数激活和列向量相乘后求和操作，得到最终的特征映射图，根据所述最终的特征映射图通过阈值法得到初步定位框；

S5，对于所述新输入的测试图像，使用选择性搜索方法进行候选区域提取，再使用所述分类模型M1筛选出类别属于目标物体的置信度大于75％的候选框集合；

S6，对所述初步定位框和所述候选框进行非极大值抑制处理，得到所述测试图像最终的目标定位框。

进一步地，所述的S1中的使用人工标注带有类别标签的图像数据训练深度卷积神经网络框架，得到分类模型，包括：

设计深度卷积神经网络框架F1，其中F1由卷积层、池化层和全连接层组成，在最后一个卷积层Conv_last和网络尾部的分类全连接层之间由连续的全连接层组成，使用高斯参数对深度卷积神经网络框架F1中所有层的参数进行初始化设置；

使用人工标注好类别标签的图像数据作为训练样本(x_n,y_n)，其中n为训练样本数目，使用训练样本(x_n,y_n)训练所述深度神经网络框架F1得到分类模型，使用随机梯度下降法对分类模型进行优化，得到收敛后的分类模型M1。

进一步地，所述的S2中的在所述深度神经网络框架中删去卷积层后所有的全连接层，并加入一个全局带参可学习池化层和最后的分类全连接层，得到新的深度卷积神经网络框架；包括：

在深度卷积网络框架F1中，删除框架中最后一个卷积层Conv_last后的全连接层，重新设计最后的分类全连接层FC_cls，维度为m×c，其中c为类别数，获取深度卷积网络框架F1中Conv_last层后得到的卷积特征图F的尺寸w×w和数目m，随机生成m个相同大小为w×w的矩阵K，构成新的全局带参可学习池化层P_l，在Conv_last和FC_cls填入新生成的由m个w×w大小的矩阵组成的全局带参可学习池化层P_l，得到新的深度卷积神经网络框架F2；

使用所述分类模型M1的模型参数对所述新的深度卷积神经网络框架F2的前半部分卷积层的参数进行初始化。

进一步地，所述的S3中的使用人工标注带有类别信息标签的图像数据训练按照所述新的深度卷积神经网络框架，得到新的分类模型，并获取全局带参可学习池化层参数，包括：

使用带有人工标注类别信息的训练样本集(x_n,y_n)对所述新的深度卷积神经网络框架F2进行训练，训练优化算法使用随机梯度下降法，得到收敛后的新的分类模型M2，所述全局带参可学习池化层参数使用高斯参数进行初始化,训练完成后，获取网络全局带参可学习池化层参数及最后一个分类全连接层参数矩阵。

进一步地，所述的S4中的对于新输入的测试图像，使用所述新的分类模型进行特征提取，得到最后一个卷积层后的特征图，对所述特征图进行内积后求和、非线性函数激活和列向量相乘后求和操作，得到最终的特征映射图，根据所述最终的特征映射图通过阈值法得到初步定位框，包括：

获取所述分类模型M2的全局带参可学习池化层池化核矩阵P_i，其中i＝[0,m],其中参数在分类M2模型训练中学习得到，得到分类全连接层的参数矩阵W^m×c，其中c为训练的总类别数；

对于新输入的测试图像，使用分类模型M2进行特征提取，得到最后一个卷积层Conv_last后的特征图F_i，其中i＝[0,m]，对P_i和F_i对应做内积后求和，再经过一次非线性函数激活，得到池化后的值，再和参数矩阵W^m×c对应的列向量相乘后求和，得到最终的特征映射图F_L，使用阈值法根据特征映射图F_L的高相应区域获得a个定位框，将所有的定位框组成定位框集合L。

进一步地，所述的对于所述新输入的测试图像，使用选择性搜索方法进行候选区域提取，再使用所述分类模型M1筛选类别属于目标物体的置信度大于75％的候选框集合，包括：

对于所述测试图像，使用选择性搜索的方式在所述测试图像中获取一定数量个的候选框，使用训练好的所述分类模型M1对所有候选框进行类别判定，保留目标类别置信度高于75％的候选框，将所有保留的候选框组成候选框集合B。

进一步地，所述的对所述初步定位框和所述候选框进行非极大值抑制处理，得到所述测试图像最终的目标定位框，包括：

对于所述定位框集合L和所述候选框集合B使用非极大值抑制的方法进行筛选，消除交叉重复的位置框，得到最终的目标定位框。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例的方法通过引入全局带参可学习池化层，使得深度卷积网络的卷积特征图在参与分类的过程中，其包含的语义和空间信息不会遭到破坏，网络通过不断更新训练，能够学习得到关于目标类别j的更好的特征表达，使得有用的特征信息被加权，无用信息得以抑制。使得网络在只使用图像的类别标注信息作为训练标签信息的情况下，结合经过筛选的选择性搜索得到的置信度高的候选框，有效得到图像中目标物体的位置信息。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于弱监督信息的深度学习图像目标映射及定位方法的实现原理示意图；

图2为本发明实施例提供的一种前向运算及特征类别映射示意图；

图3为本发明实施例提供的一种全局带参可学习池化前向传播过程的示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提供了一种基于弱监督标注数据的深度神经网络学习方法，利用深度卷积网络提取到的特张图得到图像中的目标的位置信息。本发明在训练阶段只使用了目标的类别标签，在测试阶段对于完全陌生的图像，能够得到了图像中目标物体的位置信息。

本申请提供了一种基于深度神经网络的图像目标定位方法。该方法同样可以理解为一种基于深度网络的弱监督信息的映射和使用方法。除了以目标定位为例对本发明提出的方法进行结束，本领域技术人员可以理解的是，除了目标定位之外，本发明的弱监督学习及特征类别映射方法还能应用于很多其他的弱监督学习任务，不能以实施例中的样本限定本发明的保护范围和应用范围。

本发明实施例提供的一种基于弱监督信息的深度学习图像目标映射及定位方法的实现原理示意图如图1所示，包括如下的处理步骤：

步骤S110、使用人工标注带有类别标签的图像数据训练深度卷积神经网络框架F1，得到深度卷积神经网络的分类模型M1。

在该阶段，首先设计深度卷积神经网络框架F1，其中F1由卷积层、池化层和全连接层组成。最后一个卷积层Conv_last和网络尾部的分类全连接层之间由连续的全连接层组成，使用高斯参数对网络中所有层的参数进行初始化设置。使用人工标注好类别标签的图像数据作为训练样本(x_n,y_n)，其中n为训练样本数目，使用训练样本(x_n,y_n)训练深度神经网络框架F1得到分类模型，使用随机梯度下降法对分类模型进行优化，得到收敛后的分类模型M1。

步骤S120、在深度神经网络框架中删去卷积层后所有的全连接层，并加入一个全局带参可学习池化层和最后的分类全连接层，得到新的深度卷积神经网络框架，使用训练样本训练新的深度卷积神经网络框架，得到新的分类模型M2。

在深度卷积网络框架F1中，删除框架中最后一个卷积层Conv_last后的全连接层，在其中加入一个全局带参可学习池化层和最后的分类全连接层。重新设计最后的分类全连接层FC_cls，维度为m×c，其中c为类别数。在深度卷积网络训练好后，获取Conv_last层后得到的卷积特征图F的尺寸w×w和数目m，随机生成m个相同大小为w×w的矩阵K，构成新的全局带参可学习池化层P_l。在Conv_last和FC_cls填入新生成的由m个w×w大小的矩阵组成的全局带参可学习池化层P_l，得到新的深度卷积神经网络框架F2。

考虑到框架F1和框架F2在全局带参可学习池化层P_l之前的结果完全相同，并且分类模型M1中保存了训练网络中所有的层的大小、参数信息，使用所述分类模型M1中保存的参数对所述新的深度卷积神经网络框架F2中的卷积层参数进行初始化。使用预训练好的分类模型M1在P_l之前的层的参数对F2对应的层的参数进行初始化设置，对于P_l层中的m个大小为w×w的矩阵和最后分类层的m×c的参数矩阵，使用高斯方式进行初始化。

对于新的网络框架，再次使用带有人工标注类别信息的训练样本集(x_n,y_n)对框架F2进行训练，训练优化算法使用随机梯度下降法，得到收敛后的新的分类模型M2，并且通过前向运算过程获取全局带参可学习池化层参数及最后一个分类全连接层参数矩阵。

图2所示是本发明提出的全局带参可学习池化的前向运算过程。具体处理过程包括：在训练样本集(x_n,y_n)训练框架F2得到分类模型M2的过程中，对于新增入的P_l层，使用新的方法进行前向计算。在最后的卷积层Conv_last后，得到m个w×w大小的特征图F，对于每一个特征图Fⁱ，都有一个唯一的全局带参数可学习池化核与之对应Kⁱ。将Fⁱ和Kⁱ的对应元素进行相乘后求和，然后经过一次非线性函数Relu()进行激活，得到最后的池化值Pⁱ：

Relu(x)＝max(0,x)

在神经网络更新过程中，使用误差反向传播算法对该层参数进行更新。考虑最后一个卷积特征图Fⁱ和其对应的池化核Kⁱ中的同一位置的特征值

和池化核参数

将其对应元素相乘后的值定义为z_m,n，z_m,n计算方式如下：

其中b为偏置项。对于求得的z_m,n值，使用Relu()函数对其进行非线性变换，然后使用随机梯度下降法进行学习训练。

其中α为学习率，初始化为0.01，每经过100000次迭代，下降一个数量级，J为Softmax损失函数值，对整个网络学习情况进行评估。

步骤S130、选择性搜索框生成及筛选阶段：对于新输入的测试图像，使用新的分类模型M2进行特征提取，得到最后一个卷积层后的特征图，对特征图进行内积后求和、非线性函数激活和列向量相乘后求和操作，得到最终的特征映射图，根据所述最终的特征映射图通过阈值法得到初步定位框。

图3为本发明实施例提供的一种全局带参可学习池化前向传播过程的示意图。获取所述分类模型M2的全局带参可学习池化层池化核矩阵P_i，其中i＝[0,m]，其中参数在分类M2模型训练中学习得到，得到分类全连接层的参数矩阵W^m×c，其中c为训练的总类别数。

对于新输入的测试图像，使用分类模型M2进行特征提取，得到最后一个卷积层Conv_last后的特征图F_i，其中i＝[0,m]，对P_i和F_i对应做内积后求和，再经过一次非线性函数激活，得到池化后的值，再和参数矩阵W对应的列向量相乘后求和，得到最终的特征映射图F_L，使用阈值法根据特征映射图F_L的高相应区域获得a个定位框L。

在前向运算中，经过全局带参可学习池化后，能够得到m个经过全局带参可学习池化后的特征点，对于待分类的c个类别，最后的分类全连接层的参数可构成一个m×c的矩阵W,每个特征点都会被连接到每个分类点。对于一个特定类别j，定义

为第i个池化值和第j个分类点之间的连接权值，定义如下特征类别映射关系，获得最终的对于类别j的特征图M_j：

式中Relu()为非线性激活函数。

对于使用上述方法，得到对于某个特定类别j的融合特征图M_j，本发明使用最近邻插值法对特征图进行上采样，得到与原图尺寸大小相同的特征图

其实upsampling()为上采样函数，本发明中使用的最近邻插值函数方法。使用灰度图和阈值法确定融合特征图中的目标位置信息。将原图把白色与黑色之间按对数关系分为若干等级，形成256阶，得到灰度图，显示为从最暗黑色到最亮的白色的灰度。获取整个灰度图中值最高点的像素值Pixel_max，给定一个阈值系数ε，得到灰度阈值thresh：

thresh＝εPixel_max

本发明中阈值系数ε设置为0.8。然后对灰度图的每个像素进行判断，像素值大于thresh的设置为1，否则则设置为0，，其中像素值为1的区域定义为可能存在目标的区域。最后使用一个索引函数index()，得到值为1的的像素的坐标集合(X,Y)，然后生成相应的定位框L_box。

L_box＝{min(X),min(Y)；max(X),max(Y)}

步骤S140、对于所述新输入的测试图像，使用选择性搜索方法进行候选区域提取，再使用所述分类模型M1筛选类别属于目标物体的置信度大于75％的候选框集合。

在本阶段，首先使用选择性搜索算法对图像进行处理，得到2000个左右的大小不一的候选框，使用训练好的M1分类模型对所有的候选框进行类别判断，得到每个候选框对应于不同类别的置信度。此时我们只关心我们所需要定位的目标类别，目标类别置信度大于75％的候选框将会被保留，其他的候选框将被视为无用信息被丢弃。

步骤S150、非极大值抑制阶段.对所述初步定位框和所述候选框进行非极大值抑制处理，得到所述测试图像最终的目标定位框。

在得到了使用特征类别映射得到的定位框和经过筛选后的使用选择性搜索算法生成的候选框后，在该阶段，使用非极大值抑制算法，对所有的候选框进行融合，消除交叉重复的位置框，得到图像中最终的目标物体的位置信息。

综上所述，本发明实施例的方法通过引入全局带参可学习池化层，使得深度卷积网络的卷积特征图在参与分类的过程中，其包含的语义和空间信息不会遭到破坏，网络通过不断更新训练，能够学习得到关于目标类别j的更好的特征表达，使得有用的特征信息被加权，无用信息得以抑制。使得网络在只使用图像的类别标注信息作为训练标签信息的情况下，结合经过筛选的选择性搜索得到的置信度高的候选框，有效得到图像中目标物体的位置信息。

本发明实施例提出了使用卷积特征图和分类矩阵参数的类别特征映射，将最后一个卷积层的特征图和池化核以及最后的分类全连接层结合起来，得到融合后特征图上的高亮区域，即认为是所要定位的目标区域，通过和选择性搜索得到的候选框进行结合，得到最终的目标位置信息。本发明实施例通过对第一阶段特征类别映射生成的定位框和第二阶段选择性搜索经筛选后的候选框进行非极大值抑制，实现了在训练阶段不获取目标位置标签，只使用图像类别级别的标注信号，在弱监督信号的情况下完成神经网络训练，实现在测试阶段，从给定图像中得到指定类别目标的位置信息。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于弱监督信息的深度学习图像目标映射及定位方法，其特征在于，包括如下步骤：

S1，使用人工标注好类别标签的图像数据训练深度卷积神经网络框架，得到分类模型M1；

S2，在所述深度神经网络框架中删去卷积层后所有的全连接层，并加入一个全局带参可学习池化层和最后的分类全连接层，得到新的深度卷积神经网络框架；具体包括：

在深度卷积网络框架F1中，删除框架中最后一个卷积层Conv_last后的全连接层，重新设计最后的分类全连接层FC_cls，维度为m×c，其中c为类别数，获取深度卷积网络框架F1中Conv_last层后得到的卷积特征图F的尺寸w×w和数目m，随机生成m个相同大小为w×w的矩阵K，构成新的全局带参可学习池化层P_l，在Conv_last和FC_cls填入新生成的由m个w×w大小的矩阵组成的全局带参可学习池化层P_l，得到新的深度卷积神经网络框架F2；使用所述分类模型M1的模型参数对所述新的深度卷积神经网络框架F2的前半部分卷积层的参数进行初始化；

S3，使用人工标注好类别标签的图像数据训练所述新的深度卷积神经网络框架，得到新的分类模型M2，并获取全局带参可学习池化层参数；

S4，对于新输入的测试图像，使用所述新的分类模型M2进行特征提取，得到最后一个卷积层后的特征图，对所述特征图与全局带参可学习池化层参数进行内积后求和、非线性函数激活和列向量相乘后求和操作，得到最终的特征映射图，使得有用的特征信息被加权，根据所述最终的特征映射图通过阈值法得到初步定位框；

2.根据权利要求1所述方法，其特征在于：所述的S1中的使用人工标注好类别标签的图像数据训练深度卷积神经网络框架，得到分类模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述的S3中的使用人工标注带有类别信息标签的图像数据训练按照所述新的深度卷积神经网络框架，得到新的分类模型，并获取全局带参可学习池化层参数，包括：

4.根据权利要求3所述的方法，其特征在于，所述的S4中的对于新输入的测试图像，使用所述新的分类模型进行特征提取，得到最后一个卷积层后的特征图，对所述特征图进行内积后求和、非线性函数激活和列向量相乘后求和操作，得到最终的特征映射图，根据所述最终的特征映射图通过阈值法得到初步定位框，包括：

5.根据权利要求4所述的方法，其特征在于，所述的对于所述新输入的测试图像，使用选择性搜索方法进行候选区域提取，再使用所述分类模型M1筛选类别属于目标物体的置信度大于75％的候选框集合，包括：

6.根据权利要求5所述的方法，其特征在于，所述的对所述初步定位框和所述候选框进行非极大值抑制处理，得到所述测试图像最终的目标定位框，包括：