CN113221956B

CN113221956B - 基于改进的多尺度深度模型的目标识别方法及装置

Info

Publication number: CN113221956B
Application number: CN202110406883.6A
Authority: CN
Inventors: 向新宇; 焦建立; 薛阳; 叶晓康; 樊立波; 司为国; 罗少杰; 朱炯; 侯伟宏; 张帆; 孙智卿; 金文德; 冯华
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2024-02-02
Anticipated expiration: 2041-04-15
Also published as: CN113221956A

Abstract

本发明提出了一种基于改进的多尺度深度模型的目标识别方法及装置，包括：在图片上标记出目标，由标记后的图片组成图片训练集；构建多尺度深度模型，对目标的尺寸进行聚类，根据聚类结果确定多尺度深度模型的低层特征锚框；基于预设参数生成多尺度深度模型的高层特征锚框；将图片训练集输入多尺度深度模型，进行分类和回归训练；将待识别图片输入训练好的多尺度深度模型，通过高层特征锚框确定第一候选区域，通过低层特征锚框根据第一候选区域确定第二候选区域，根据第二候选区域输出目标识别结果。在多尺度深度模型中同时引入高层特征锚框、低层特征锚框对原始图片进行目标识别与检测，提高了对小目标的检测精度。

Description

基于改进的多尺度深度模型的目标识别方法及装置

技术领域

本发明属于图像目标识别领域，尤其涉及一种基于改进的多尺度深度模型的目标识别方法及装置。

背景技术

目标识别是利用图像处理算法对图像中特定的目标进行识别与检测的技术，其一般流程如下：获取图像数据，数据预处理后提取特征，根据特征进行匹配，最后输出识别结果。用于图像的目标识别方法一般是通过深度模型基于灰度和颜色的信息和利用边缘检测算法对图像进行分割，再结合数学形态学等算法对图像进行特征提取，或者基于人工设计特征结合分类器的方法对图像进行特征提取和识别。

传统的深度模型通常为一个多层的卷积神经网络，通过卷积神经网络提取特征后根据最后一层卷积神经网络输出的特征图进行目标识别，由于卷积神经网络提取的特征图的尺度相较于输入图片会缩小，就会忽略一些细节信息如纹理和边缘的信息，当目标区域非常小的时候，从仅有的像素中所能反应出来的信息是非常有限的，导致对尺寸较小的目标检测的精度不高。

发明内容

为了解决现有技术中存在的缺点和不足，本发明提出了一种基于改进的多尺度深度模型的目标识别方法，包括：

在图片上标记出目标，由标记后的图片组成图片训练集；

构建多尺度深度模型，对目标的尺寸进行聚类，根据聚类结果确定多尺度深度模型的低层特征锚框，基于预设参数生成多尺度深度模型的高层特征锚框；

将图片训练集输入多尺度深度模型，进行分类和回归训练；

将待识别图片输入训练好的多尺度深度模型，通过高层特征锚框确定第一候选区域，通过低层特征锚框根据第一候选区域确定第二候选区域，根据第二候选区域输出目标识别结果。

可选的，所述构建多尺度深度模型，对目标的尺寸进行聚类，根据聚类结果确定多尺度深度模型的低层特征锚框，基于预设参数生成多尺度深度模型的高层特征锚框，包括：

步骤一：获取目标的像素坐标，将根据像素坐标确定的目标尺寸作为样本；

步骤二：确定作为初始聚类中心的样本，将样本划分到距离最近的初始聚类中心的类中；

步骤三：重新计算每个类的聚类中心，将样本划分到距离最近的新的聚类中心的类中；

步骤四：重复步骤三，直至相邻两次计算的聚类中心的差值小于预设阈值，将最后一次计算划分出的类作为最终聚类结果；

步骤五：计算最终聚类结果的每个类中目标尺寸的平均值，根据计算结果生成低层特征锚框。

可选的，在步骤二中，所述确定作为初始聚类中心的样本，包括：

步骤一：随机选取一个样本作为一个初始聚类中心；

步骤二：分别计算其他样本与当前所有初始聚类中心的距离之和；

步骤三：选取计算结果最大的样本作为下一个初始聚类中心；

步骤四：重复步骤二和步骤三，直至初始聚类中心的数量达到预设值。

可选的，所述预设参数包括高层特征锚框的长宽比以及宽长。

可选的，所述多尺度深度模型包括卷积神经网络、RPN网络、ROI池化层、全连接层、分类层以及边界框回归层。

可选的，所述将图片训练集输入多尺度深度模型，进行分类和回归训练，包括：

采用梯度下降算法对分类层以及边界框回归层中的模型参数进行更新，直至损失函数L_reg({p_i},{t_i})小于预设阈值时结束训练；

所述损失函数L_reg({p_i},{t_i})为：

其中，为分类损失，/> 为回归损失，/>R为Smooth L1损失函数，N_els为分类层的输出，N_reg为边界框回归层的输出，i为边界框的索引，p_i表示分类层预测的边界框含有目标的概率，/>为边界框的真实标签，预测的边界框含有目标时为正样本，预测的边界框不含有目标时为负样本，正样本时/>负样本时/>t_i为表示边界框回归层预测的边界框的坐标参数，/>为真实边界框的坐标参数，λ为预设的平衡权重。

可选的，所述将待识别图片输入训练好的多尺度深度模型，通过高层特征锚框确定第一候选区域，通过低层特征锚框根据第一候选区域确定第二候选区域，根据第二候选区域输出目标识别结果，包括：

步骤一：通过卷积神经网络对待识别图片进行特征提取，得到特征图；

步骤二：将特征图输入RPN网络，通过高层特征锚框对特征图进行一次区域筛选，得到第一候选区域；

步骤三：将第一候选区域上的每一个点映射到待识别图片的对应区域；

步骤四：通过低层特征锚框对步骤三中所述的对应区域进行二次区域筛选，得到第二候选区域；

步骤五：将第二候选区域经ROI池化层、全连接层的处理后，分别输入分类层和边界框回归层进行目标识别，输出包含目标类别和目标边界框的目标识别结果。

可选的，所述边界框回归层中采用的算法为：

其中，t_x为边界框中心点横坐标的变换因子，t_y为边界框中心点纵坐标的变换因子，t_w为边界框宽的变换因子，t_h为边界框高的变换因子，x_a、y_a、w_a、h_a分别为输入边界框回归层的锚框的中心点横坐标、中心点纵坐标、框和高，x、y、w、h分别为边界框回归层输出的边界框的中心点横坐标、中心点纵坐标、框和高。

本发明还基于同样的思路提出了一种基于改进的多尺度深度模型的目标识别装置，其特征在于，所述目标识别装置包括：

标记单元：用于在图片上标记出目标，由标记后的图片组成图片训练集；

建模单元：用于构建多尺度深度模型，对目标的尺寸进行聚类，根据聚类结果确定多尺度深度模型的低层特征锚框，基于预设参数生成多尺度深度模型的高层特征锚框；

训练单元：用于将图片训练集输入多尺度深度模型，进行分类和回归训练；

目标识别单元：用于将待识别图片输入训练好的多尺度深度模型，通过高层特征锚框确定第一候选区域，通过低层特征锚框根据第一候选区域确定第二候选区域，根据第二候选区域输出目标识别结果。

可选的，所述目标识别单元具体用于：

步骤一：通过多尺度深度模型的卷积神经网络对待识别图片进行特征提取，得到特征图；

步骤二：将特征图输入多尺度深度模型的RPN网络，通过高层特征锚框对特征图进行一次区域筛选，得到第一候选区域；

步骤五：将第二候选区域经多尺度深度模型的ROI池化层、全连接层的处理后，分别输入多尺度深度模型的分类层和边界框回归层进行目标识别，输出包含目标类别和目标边界框的目标识别结果。

本发明提供的技术方案带来的有益效果是：

通过建模过程中同时引入用于识别高层和低层的特征的高层特征锚框、低层特征锚框，在进行目标识别与检测时，首先使用高层特征锚框确定目标的大致区域，再使用低层特征锚框在原始图片的基础上对上述大致区域进行进一步识别检测，避免遗漏图片中的细节信息，提高了对小目标的检测精度。

除此之外，本发明对原始的深度模型锚框生成方案进行了修改，通过聚类算法来确定低层锚框的设定值，提高了训练和检测的效率。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提出的基于改进的多尺度深度模型的目标识别方法的流程示意图；

图2为改进的多尺度深度模型的结构框图；

图3为每一种宽长分别取不同长宽比的高层特征锚框示意图；

图4为本发明提出的基于改进的多尺度深度模型的目标识别装置的结构框图。

具体实施方式

为使本发明的结构和优点更加清楚，下面将结合附图对本发明的结构作进一步地描述。

实施例一

如图1所示，本发明提出了一种基于改进的多尺度深度模型的目标识别方法，包括：

S1：在图片上标记出目标，由标记后的图片组成图片训练集；

S2：构建多尺度深度模型，对目标的尺寸进行聚类，根据聚类结果确定多尺度深度模型的低层特征锚框，基于预设参数生成多尺度深度模型的高层特征锚框；

S3：将图片训练集输入多尺度深度模型，进行分类和回归训练；

S4：将待识别图片输入训练好的多尺度深度模型，通过高层特征锚框确定第一候选区域，通过低层特征锚框根据第一候选区域确定第二候选区域，根据第二候选区域输出目标识别结果。

通过建模过程中同时引入用于识别高层和低层的特征的高层特征锚框、低层特征锚框，提高了对小目标的检测精度。对原始的深度模型锚框生成方案进行了修改，通过聚类算法来确定低层锚框的设定值，提高了训练和检测的效率。

在本实施例中，在图片上标记出目标包括标记目标的类型和真实边界框。

所述多尺度深度模型如图2所示，包括卷积神经网络(Convolutional NeuralNetworks，CNN)、RPN网络、全连接层、分类层以及边界框回归层。其中，卷积神经网络包括卷积层、激活函数层以及池化层，卷积层与激活函数层不会改变图像的大小，而池化层层则会缩小输入图像的尺寸。激活函数层采用ReLU函数，避免梯度消失和增加网络的稀疏性，以减少过拟合问题的发生。池化层采用Max pooling或Average pooling两种池化方式，每经过一次池化操作，输出层的特征图的大小为输入图的1/2，本实施例中卷积神经网络含有4个池化层那个，最后输出的特征图为原图的1/16。在本实施例中，输入图像到CNN中，图像的大小为M*N，将CNN进行特征提取得到特征图，再将特征图输入RPN网络通过锚框筛选候选区域，最后将候选区域依次经过ROI池化层、全连接层分别输入分类层和边界框回归层，本实施例中的全连接层共3个。

传统的深度模型用一个多层的卷积神经网络提取特征后将最后一层卷积层输出的特征图输入到RPN网络中，经过卷积神经网络提取的特征图的尺度相较于输入图片会缩小，就会忽略一些细节信息如纹理和边缘的信息，当目标区域非常小的时候，从仅有的像素中所能反应出来的语义信息是非常有限的。为了解决上述特征丢失的问题，在本实施例中同时获取到图片的高层特征和低层特征，需要分别生成高层特征锚框和低层特征锚框。

对于低层特征锚框，对目标的尺寸进行聚类，根据聚类结果确定多尺度深度模型的低层特征锚框，包括：

步骤三：重新计算每个类的聚类中心，将将样本划分到距离最近的新的聚类中心的类中；

通过聚类算法生成低层特征锚框，使低层特征锚框能够更适应识别小目标，提高了模型训练和检测的效率。

其中，在步骤二中，所述确定作为初始聚类中心的样本，包括：

步骤一：随机选取一个样本作为一个初始聚类中心；

例如：首先选取样本A作为第1个初始聚类中心，分别计算剩余样本与样本A的欧式距离，选取与样本A的欧式距离最大的样本B作为第2个初始聚类中心。再分别计算除样本A、样本B以外的剩余样本与样本A、样本B的距离之和，将距离之和最大的样本C作为第3个初始聚类中心，即样本C与样本A、样本B的距离的和最大。以此类推，直至选取出预设的k个初始聚类中心。

相比于常规的聚类算法，本实施例中首先根据各个样本成为聚类中心的概率对初始聚类中心进行初始化选取，相比于传统算法中的一次性随机选取一定数量的聚类中心的处理方法，能够尽最大限度保证初始选取的聚类中心相对分散，节省了后续重新调整聚类中心的迭代次数，提高了聚类算法的效率和准确性。

对于高层特征锚框，基于预设参数生成多尺度深度模型的高层特征锚框。其中，所述预设参数包括高层特征锚框的长宽比以及宽长，所述宽长包括256个单位长度、512个单位长度以及1024个单位长度三种，所述长宽比包括0.5、1以及2三种。本实施例中根据卷积神经网络输出的特征图的大小与原图片的大小之间的比例关系生成尺寸、长宽比不同的高层特征锚框。例如：卷积层输出的特征图尺寸大小为原图的1/16，说明输入RPN网络的特征图中每个像素点均对应原图中16×16像素的区域。每种宽长均对应长宽比分别为0.5、1、2的3种框，最终在每个锚点处生成9个不同形状和尺寸的锚框，如图3所示。

分别将低层特征锚框和高层特征锚框生成完毕后，将图片训练集输入多尺度深度模型，进行分类和回归训练，包括：

所述损失函数L_reg({p_i},{t_i})为：

本实施例中，Smooth L1函数为：

其中x为边界框回归层预测的边界框与真实边界框的误差。

在本实施例中，在模型训练的最后阶段，还包括对训练好的多尺度深度模型进行泛化能力检测，检测方法为用大量包含目标的未训练的图片输入到模型中，统计其识别和检测精确度，衡量指标采用“F-score”，F-score的计算方式为：

N_TP表示正确识别为目标区域的数量，N_FN表示原本是目标区域但未识别的数量，N_FP表示非目标区域但被识别为目标区域的数量。

在本实施例中，所述将待识别图片输入训练好的多尺度深度模型，通过高层特征锚框确定第一候选区域，通过低层特征锚框根据第一候选区域确定第二候选区域，根据第二候选区域输出目标识别结果，包括：

步骤四：再次输入RPN网络中，通过低层特征锚框对步骤三中所述的对应区域进行二次区域筛选，得到第二候选区域；

由于一次区域筛选时使用的时高层特征锚框，因此所述第一候选区域为判断目标所在区域的初步检测范围，而对于小目标则要使用低层特征锚框进行二次区域筛选，尽可能确保所有特征都能够检测到，从而识别出第二候选区域，提高小目标识别的精确度。

分类层的作用为识别出第二候选区域中目标的类型，本实施例中分类层所使用的为常规分类器，此处不再赘述。边界框回归层的作用为对目标的边界框进行回归计算，使识别结果尽可能贴近目标的实际边界。所述边界框回归层中采用的算法为：

实施例二

如图4所示，本发明提出了一种基于改进的多尺度深度模型的目标识别装置5，包括：

标记单元51：用于在图片上标记出目标，由标记后的图片组成图片训练集；

建模单元52：用于构建多尺度深度模型，对目标的尺寸进行聚类，根据聚类结果确定多尺度深度模型的低层特征锚框，基于预设参数生成多尺度深度模型的高层特征锚框；

训练单元53：用于将图片训练集输入多尺度深度模型，进行分类和回归训练；

目标识别单元54：用于将待识别图片输入训练好的多尺度深度模型，通过高层特征锚框确定第一候选区域，通过低层特征锚框根据第一候选区域确定第二候选区域，根据第二候选区域输出目标识别结果。

在本实施例中，标记单元51在图片上标记出目标包括标记目标的类型和真实边界框。

对于低层特征锚框，建模单元52具体用于：

步骤一：随机选取一个样本作为一个初始聚类中心；

对于高层特征锚框，建模单元52具体用于基于预设参数生成多尺度深度模型的高层特征锚框。其中，所述预设参数包括高层特征锚框的长宽比以及宽长，所述宽长包括256个单位长度、512个单位长度以及1024个单位长度三种，所述长宽比包括0.5、1以及2三种。本实施例中根据卷积神经网络输出的特征图的大小与原图片的大小之间的比例关系生成尺寸、长宽比不同的高层特征锚框。例如：卷积层输出的特征图尺寸大小为原图的1/16，说明输入RPN网络的特征图中每个像素点均对应原图中16×16像素的区域。每种宽长均对应长宽比分别为0.5、1、2的3种框，最终在每个锚点处生成9个不同形状和尺寸的锚框，如图3所示。

所述训练单元53具体用于：

所述损失函数L_reg({p_i},{t_i})为：

Smooth L1函数为：

其中x为边界框回归层预测的边界框与真实边界框的误差。

在本实施例中，在模型训练的最后阶段，训练单元53还用于对训练好的多尺度深度模型进行泛化能力检测，检测方法为用大量包含目标的未训练的图片输入到模型中，统计其识别和检测精确度，衡量指标采用“F-score”，F-score的计算方式为：

在本实施例中，目标识别单元54具体用于：

上述实施例中的各个序号仅仅为了描述，不代表各部件的组装或使用过程中的先后顺序。

以上所述仅为本发明的实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于改进的多尺度深度模型的目标识别方法，其特征在于，所述目标识别方法包括：

在图片上标记出目标，由标记后的图片组成图片训练集；

将图片训练集输入多尺度深度模型，进行分类和回归训练；

将待识别图片输入训练好的多尺度深度模型，通过高层特征锚框确定第一候选区域，通过低层特征锚框根据第一候选区域确定第二候选区域，根据第二候选区域输出目标识别结果；

所述构建多尺度深度模型，对目标的尺寸进行聚类，根据聚类结果确定多尺度深度模型的低层特征锚框，基于预设参数生成多尺度深度模型的高层特征锚框，包括：

步骤五：计算最终聚类结果的每个类中目标尺寸的平均值，根据计算结果生成低层特征锚框；

所述多尺度深度模型包括卷积神经网络、RPN网络、ROI池化层、全连接层、分类层以及边界框回归层；

所述将待识别图片输入训练好的多尺度深度模型，通过高层特征锚框确定第一候选区域，通过低层特征锚框根据第一候选区域确定第二候选区域，根据第二候选区域输出目标识别结果，包括：

步骤A1：通过卷积神经网络对待识别图片进行特征提取，得到特征图；

步骤A2：将特征图输入RPN网络，通过高层特征锚框对特征图进行一次区域筛选，得到第一候选区域；

步骤A3：将第一候选区域上的每一个点映射到待识别图片的对应区域；

步骤A4：通过低层特征锚框对步骤A3中所述的对应区域进行二次区域筛选，得到第二候选区域；

步骤A5：将第二候选区域经ROI池化层、全连接层的处理后，分别输入分类层和边界框回归层进行目标识别，输出包含目标类别和目标边界框的目标识别结果。

2.根据权利要求1所述的基于改进的多尺度深度模型的目标识别方法，其特征在于，在步骤二中，所述确定作为初始聚类中心的样本，包括：

步骤一：随机选取一个样本作为一个初始聚类中心；

3.根据权利要求1所述的基于改进的多尺度深度模型的目标识别方法，其特征在于，所述预设参数包括高层特征锚框的长宽比以及宽长。

4.根据权利要求1所述的基于改进的多尺度深度模型的目标识别方法，其特征在于，所述将图片训练集输入多尺度深度模型，进行分类和回归训练，包括：

所述损失函数L_reg({p_i},{t_i})为：

5.根据权利要求1所述的基于改进的多尺度深度模型的目标识别方法，其特征在于，所述边界框回归层中采用的算法为：

6.基于改进的多尺度深度模型的目标识别装置，其特征在于，用于执行如权利要求1所述的基于改进的多尺度深度模型的目标识别方法，所述目标识别装置包括：

7.根据权利要求6所述的基于改进的多尺度深度模型的目标识别装置，其特征在于，所述目标识别单元具体用于：