CN113221956B - 基于改进的多尺度深度模型的目标识别方法及装置 - Google Patents
基于改进的多尺度深度模型的目标识别方法及装置 Download PDFInfo
- Publication number
- CN113221956B CN113221956B CN202110406883.6A CN202110406883A CN113221956B CN 113221956 B CN113221956 B CN 113221956B CN 202110406883 A CN202110406883 A CN 202110406883A CN 113221956 B CN113221956 B CN 113221956B
- Authority
- CN
- China
- Prior art keywords
- layer
- depth model
- scale depth
- anchor frame
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000013527 convolutional neural network Methods 0.000 claims description 28
- 238000011176 pooling Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 abstract description 17
- 238000010586 diagram Methods 0.000 description 10
- 230000004913 activation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于改进的多尺度深度模型的目标识别方法及装置,包括:在图片上标记出目标,由标记后的图片组成图片训练集;构建多尺度深度模型,对目标的尺寸进行聚类,根据聚类结果确定多尺度深度模型的低层特征锚框;基于预设参数生成多尺度深度模型的高层特征锚框;将图片训练集输入多尺度深度模型,进行分类和回归训练;将待识别图片输入训练好的多尺度深度模型,通过高层特征锚框确定第一候选区域,通过低层特征锚框根据第一候选区域确定第二候选区域,根据第二候选区域输出目标识别结果。在多尺度深度模型中同时引入高层特征锚框、低层特征锚框对原始图片进行目标识别与检测,提高了对小目标的检测精度。
Description
技术领域
本发明属于图像目标识别领域,尤其涉及一种基于改进的多尺度深度模型的目标识别方法及装置。
背景技术
目标识别是利用图像处理算法对图像中特定的目标进行识别与检测的技术,其一般流程如下:获取图像数据,数据预处理后提取特征,根据特征进行匹配,最后输出识别结果。用于图像的目标识别方法一般是通过深度模型基于灰度和颜色的信息和利用边缘检测算法对图像进行分割,再结合数学形态学等算法对图像进行特征提取,或者基于人工设计特征结合分类器的方法对图像进行特征提取和识别。
传统的深度模型通常为一个多层的卷积神经网络,通过卷积神经网络提取特征后根据最后一层卷积神经网络输出的特征图进行目标识别,由于卷积神经网络提取的特征图的尺度相较于输入图片会缩小,就会忽略一些细节信息如纹理和边缘的信息,当目标区域非常小的时候,从仅有的像素中所能反应出来的信息是非常有限的,导致对尺寸较小的目标检测的精度不高。
发明内容
为了解决现有技术中存在的缺点和不足,本发明提出了一种基于改进的多尺度深度模型的目标识别方法,包括:
在图片上标记出目标,由标记后的图片组成图片训练集;
构建多尺度深度模型,对目标的尺寸进行聚类,根据聚类结果确定多尺度深度模型的低层特征锚框,基于预设参数生成多尺度深度模型的高层特征锚框;
将图片训练集输入多尺度深度模型,进行分类和回归训练;
将待识别图片输入训练好的多尺度深度模型,通过高层特征锚框确定第一候选区域,通过低层特征锚框根据第一候选区域确定第二候选区域,根据第二候选区域输出目标识别结果。
可选的,所述构建多尺度深度模型,对目标的尺寸进行聚类,根据聚类结果确定多尺度深度模型的低层特征锚框,基于预设参数生成多尺度深度模型的高层特征锚框,包括:
步骤一:获取目标的像素坐标,将根据像素坐标确定的目标尺寸作为样本;
步骤二:确定作为初始聚类中心的样本,将样本划分到距离最近的初始聚类中心的类中;
步骤三:重新计算每个类的聚类中心,将样本划分到距离最近的新的聚类中心的类中;
步骤四:重复步骤三,直至相邻两次计算的聚类中心的差值小于预设阈值,将最后一次计算划分出的类作为最终聚类结果;
步骤五:计算最终聚类结果的每个类中目标尺寸的平均值,根据计算结果生成低层特征锚框。
可选的,在步骤二中,所述确定作为初始聚类中心的样本,包括:
步骤一:随机选取一个样本作为一个初始聚类中心;
步骤二:分别计算其他样本与当前所有初始聚类中心的距离之和;
步骤三:选取计算结果最大的样本作为下一个初始聚类中心;
步骤四:重复步骤二和步骤三,直至初始聚类中心的数量达到预设值。
可选的,所述预设参数包括高层特征锚框的长宽比以及宽长。
可选的,所述多尺度深度模型包括卷积神经网络、RPN网络、ROI池化层、全连接层、分类层以及边界框回归层。
可选的,所述将图片训练集输入多尺度深度模型,进行分类和回归训练,包括:
采用梯度下降算法对分类层以及边界框回归层中的模型参数进行更新,直至损失函数Lreg({pi},{ti})小于预设阈值时结束训练;
所述损失函数Lreg({pi},{ti})为:
其中,为分类损失,/> 为回归损失,/>R为Smooth L1损失函数,Nels为分类层的输出,Nreg为边界框回归层的输出,i为边界框的索引,pi表示分类层预测的边界框含有目标的概率,/>为边界框的真实标签,预测的边界框含有目标时为正样本,预测的边界框不含有目标时为负样本,正样本时/>负样本时/>ti为表示边界框回归层预测的边界框的坐标参数,/>为真实边界框的坐标参数,λ为预设的平衡权重。
可选的,所述将待识别图片输入训练好的多尺度深度模型,通过高层特征锚框确定第一候选区域,通过低层特征锚框根据第一候选区域确定第二候选区域,根据第二候选区域输出目标识别结果,包括:
步骤一:通过卷积神经网络对待识别图片进行特征提取,得到特征图;
步骤二:将特征图输入RPN网络,通过高层特征锚框对特征图进行一次区域筛选,得到第一候选区域;
步骤三:将第一候选区域上的每一个点映射到待识别图片的对应区域;
步骤四:通过低层特征锚框对步骤三中所述的对应区域进行二次区域筛选,得到第二候选区域;
步骤五:将第二候选区域经ROI池化层、全连接层的处理后,分别输入分类层和边界框回归层进行目标识别,输出包含目标类别和目标边界框的目标识别结果。
可选的,所述边界框回归层中采用的算法为:
其中,tx为边界框中心点横坐标的变换因子,ty为边界框中心点纵坐标的变换因子,tw为边界框宽的变换因子,th为边界框高的变换因子,xa、ya、wa、ha分别为输入边界框回归层的锚框的中心点横坐标、中心点纵坐标、框和高,x、y、w、h分别为边界框回归层输出的边界框的中心点横坐标、中心点纵坐标、框和高。
本发明还基于同样的思路提出了一种基于改进的多尺度深度模型的目标识别装置,其特征在于,所述目标识别装置包括:
标记单元:用于在图片上标记出目标,由标记后的图片组成图片训练集;
建模单元:用于构建多尺度深度模型,对目标的尺寸进行聚类,根据聚类结果确定多尺度深度模型的低层特征锚框,基于预设参数生成多尺度深度模型的高层特征锚框;
训练单元:用于将图片训练集输入多尺度深度模型,进行分类和回归训练;
目标识别单元:用于将待识别图片输入训练好的多尺度深度模型,通过高层特征锚框确定第一候选区域,通过低层特征锚框根据第一候选区域确定第二候选区域,根据第二候选区域输出目标识别结果。
可选的,所述目标识别单元具体用于:
步骤一:通过多尺度深度模型的卷积神经网络对待识别图片进行特征提取,得到特征图;
步骤二:将特征图输入多尺度深度模型的RPN网络,通过高层特征锚框对特征图进行一次区域筛选,得到第一候选区域;
步骤三:将第一候选区域上的每一个点映射到待识别图片的对应区域;
步骤四:通过低层特征锚框对步骤三中所述的对应区域进行二次区域筛选,得到第二候选区域;
步骤五:将第二候选区域经多尺度深度模型的ROI池化层、全连接层的处理后,分别输入多尺度深度模型的分类层和边界框回归层进行目标识别,输出包含目标类别和目标边界框的目标识别结果。
本发明提供的技术方案带来的有益效果是:
通过建模过程中同时引入用于识别高层和低层的特征的高层特征锚框、低层特征锚框,在进行目标识别与检测时,首先使用高层特征锚框确定目标的大致区域,再使用低层特征锚框在原始图片的基础上对上述大致区域进行进一步识别检测,避免遗漏图片中的细节信息,提高了对小目标的检测精度。
除此之外,本发明对原始的深度模型锚框生成方案进行了修改,通过聚类算法来确定低层锚框的设定值,提高了训练和检测的效率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提出的基于改进的多尺度深度模型的目标识别方法的流程示意图;
图2为改进的多尺度深度模型的结构框图;
图3为每一种宽长分别取不同长宽比的高层特征锚框示意图;
图4为本发明提出的基于改进的多尺度深度模型的目标识别装置的结构框图。
具体实施方式
为使本发明的结构和优点更加清楚,下面将结合附图对本发明的结构作进一步地描述。
实施例一
如图1所示,本发明提出了一种基于改进的多尺度深度模型的目标识别方法,包括:
S1:在图片上标记出目标,由标记后的图片组成图片训练集;
S2:构建多尺度深度模型,对目标的尺寸进行聚类,根据聚类结果确定多尺度深度模型的低层特征锚框,基于预设参数生成多尺度深度模型的高层特征锚框;
S3:将图片训练集输入多尺度深度模型,进行分类和回归训练;
S4:将待识别图片输入训练好的多尺度深度模型,通过高层特征锚框确定第一候选区域,通过低层特征锚框根据第一候选区域确定第二候选区域,根据第二候选区域输出目标识别结果。
通过建模过程中同时引入用于识别高层和低层的特征的高层特征锚框、低层特征锚框,提高了对小目标的检测精度。对原始的深度模型锚框生成方案进行了修改,通过聚类算法来确定低层锚框的设定值,提高了训练和检测的效率。
在本实施例中,在图片上标记出目标包括标记目标的类型和真实边界框。
所述多尺度深度模型如图2所示,包括卷积神经网络(Convolutional NeuralNetworks,CNN)、RPN网络、全连接层、分类层以及边界框回归层。其中,卷积神经网络包括卷积层、激活函数层以及池化层,卷积层与激活函数层不会改变图像的大小,而池化层层则会缩小输入图像的尺寸。激活函数层采用ReLU函数,避免梯度消失和增加网络的稀疏性,以减少过拟合问题的发生。池化层采用Max pooling或Average pooling两种池化方式,每经过一次池化操作,输出层的特征图的大小为输入图的1/2,本实施例中卷积神经网络含有4个池化层那个,最后输出的特征图为原图的1/16。在本实施例中,输入图像到CNN中,图像的大小为M*N,将CNN进行特征提取得到特征图,再将特征图输入RPN网络通过锚框筛选候选区域,最后将候选区域依次经过ROI池化层、全连接层分别输入分类层和边界框回归层,本实施例中的全连接层共3个。
传统的深度模型用一个多层的卷积神经网络提取特征后将最后一层卷积层输出的特征图输入到RPN网络中,经过卷积神经网络提取的特征图的尺度相较于输入图片会缩小,就会忽略一些细节信息如纹理和边缘的信息,当目标区域非常小的时候,从仅有的像素中所能反应出来的语义信息是非常有限的。为了解决上述特征丢失的问题,在本实施例中同时获取到图片的高层特征和低层特征,需要分别生成高层特征锚框和低层特征锚框。
对于低层特征锚框,对目标的尺寸进行聚类,根据聚类结果确定多尺度深度模型的低层特征锚框,包括:
步骤一:获取目标的像素坐标,将根据像素坐标确定的目标尺寸作为样本;
步骤二:确定作为初始聚类中心的样本,将样本划分到距离最近的初始聚类中心的类中;
步骤三:重新计算每个类的聚类中心,将将样本划分到距离最近的新的聚类中心的类中;
步骤四:重复步骤三,直至相邻两次计算的聚类中心的差值小于预设阈值,将最后一次计算划分出的类作为最终聚类结果;
步骤五:计算最终聚类结果的每个类中目标尺寸的平均值,根据计算结果生成低层特征锚框。
通过聚类算法生成低层特征锚框,使低层特征锚框能够更适应识别小目标,提高了模型训练和检测的效率。
其中,在步骤二中,所述确定作为初始聚类中心的样本,包括:
步骤一:随机选取一个样本作为一个初始聚类中心;
步骤二:分别计算其他样本与当前所有初始聚类中心的距离之和;
步骤三:选取计算结果最大的样本作为下一个初始聚类中心;
步骤四:重复步骤二和步骤三,直至初始聚类中心的数量达到预设值。
例如:首先选取样本A作为第1个初始聚类中心,分别计算剩余样本与样本A的欧式距离,选取与样本A的欧式距离最大的样本B作为第2个初始聚类中心。再分别计算除样本A、样本B以外的剩余样本与样本A、样本B的距离之和,将距离之和最大的样本C作为第3个初始聚类中心,即样本C与样本A、样本B的距离的和最大。以此类推,直至选取出预设的k个初始聚类中心。
相比于常规的聚类算法,本实施例中首先根据各个样本成为聚类中心的概率对初始聚类中心进行初始化选取,相比于传统算法中的一次性随机选取一定数量的聚类中心的处理方法,能够尽最大限度保证初始选取的聚类中心相对分散,节省了后续重新调整聚类中心的迭代次数,提高了聚类算法的效率和准确性。
对于高层特征锚框,基于预设参数生成多尺度深度模型的高层特征锚框。其中,所述预设参数包括高层特征锚框的长宽比以及宽长,所述宽长包括256个单位长度、512个单位长度以及1024个单位长度三种,所述长宽比包括0.5、1以及2三种。本实施例中根据卷积神经网络输出的特征图的大小与原图片的大小之间的比例关系生成尺寸、长宽比不同的高层特征锚框。例如:卷积层输出的特征图尺寸大小为原图的1/16,说明输入RPN网络的特征图中每个像素点均对应原图中16×16像素的区域。每种宽长均对应长宽比分别为0.5、1、2的3种框,最终在每个锚点处生成9个不同形状和尺寸的锚框,如图3所示。
分别将低层特征锚框和高层特征锚框生成完毕后,将图片训练集输入多尺度深度模型,进行分类和回归训练,包括:
采用梯度下降算法对分类层以及边界框回归层中的模型参数进行更新,直至损失函数Lreg({pi},{ti})小于预设阈值时结束训练;
所述损失函数Lreg({pi},{ti})为:
其中,为分类损失,/> 为回归损失,/>R为Smooth L1损失函数,Nels为分类层的输出,Nreg为边界框回归层的输出,i为边界框的索引,pi表示分类层预测的边界框含有目标的概率,/>为边界框的真实标签,预测的边界框含有目标时为正样本,预测的边界框不含有目标时为负样本,正样本时/>负样本时/>ti为表示边界框回归层预测的边界框的坐标参数,/>为真实边界框的坐标参数,λ为预设的平衡权重。
本实施例中,Smooth L1函数为:
其中x为边界框回归层预测的边界框与真实边界框的误差。
在本实施例中,在模型训练的最后阶段,还包括对训练好的多尺度深度模型进行泛化能力检测,检测方法为用大量包含目标的未训练的图片输入到模型中,统计其识别和检测精确度,衡量指标采用“F-score”,F-score的计算方式为:
NTP表示正确识别为目标区域的数量,NFN表示原本是目标区域但未识别的数量,NFP表示非目标区域但被识别为目标区域的数量。
在本实施例中,所述将待识别图片输入训练好的多尺度深度模型,通过高层特征锚框确定第一候选区域,通过低层特征锚框根据第一候选区域确定第二候选区域,根据第二候选区域输出目标识别结果,包括:
步骤一:通过卷积神经网络对待识别图片进行特征提取,得到特征图;
步骤二:将特征图输入RPN网络,通过高层特征锚框对特征图进行一次区域筛选,得到第一候选区域;
步骤三:将第一候选区域上的每一个点映射到待识别图片的对应区域;
步骤四:再次输入RPN网络中,通过低层特征锚框对步骤三中所述的对应区域进行二次区域筛选,得到第二候选区域;
步骤五:将第二候选区域经ROI池化层、全连接层的处理后,分别输入分类层和边界框回归层进行目标识别,输出包含目标类别和目标边界框的目标识别结果。
由于一次区域筛选时使用的时高层特征锚框,因此所述第一候选区域为判断目标所在区域的初步检测范围,而对于小目标则要使用低层特征锚框进行二次区域筛选,尽可能确保所有特征都能够检测到,从而识别出第二候选区域,提高小目标识别的精确度。
分类层的作用为识别出第二候选区域中目标的类型,本实施例中分类层所使用的为常规分类器,此处不再赘述。边界框回归层的作用为对目标的边界框进行回归计算,使识别结果尽可能贴近目标的实际边界。所述边界框回归层中采用的算法为:
其中,tx为边界框中心点横坐标的变换因子,ty为边界框中心点纵坐标的变换因子,tw为边界框宽的变换因子,th为边界框高的变换因子,xa、ya、wa、ha分别为输入边界框回归层的锚框的中心点横坐标、中心点纵坐标、框和高,x、y、w、h分别为边界框回归层输出的边界框的中心点横坐标、中心点纵坐标、框和高。
实施例二
如图4所示,本发明提出了一种基于改进的多尺度深度模型的目标识别装置5,包括:
标记单元51:用于在图片上标记出目标,由标记后的图片组成图片训练集;
建模单元52:用于构建多尺度深度模型,对目标的尺寸进行聚类,根据聚类结果确定多尺度深度模型的低层特征锚框,基于预设参数生成多尺度深度模型的高层特征锚框;
训练单元53:用于将图片训练集输入多尺度深度模型,进行分类和回归训练;
目标识别单元54:用于将待识别图片输入训练好的多尺度深度模型,通过高层特征锚框确定第一候选区域,通过低层特征锚框根据第一候选区域确定第二候选区域,根据第二候选区域输出目标识别结果。
通过建模过程中同时引入用于识别高层和低层的特征的高层特征锚框、低层特征锚框,提高了对小目标的检测精度。对原始的深度模型锚框生成方案进行了修改,通过聚类算法来确定低层锚框的设定值,提高了训练和检测的效率。
在本实施例中,标记单元51在图片上标记出目标包括标记目标的类型和真实边界框。
所述多尺度深度模型如图2所示,包括卷积神经网络(Convolutional NeuralNetworks,CNN)、RPN网络、全连接层、分类层以及边界框回归层。其中,卷积神经网络包括卷积层、激活函数层以及池化层,卷积层与激活函数层不会改变图像的大小,而池化层层则会缩小输入图像的尺寸。激活函数层采用ReLU函数,避免梯度消失和增加网络的稀疏性,以减少过拟合问题的发生。池化层采用Max pooling或Average pooling两种池化方式,每经过一次池化操作,输出层的特征图的大小为输入图的1/2,本实施例中卷积神经网络含有4个池化层那个,最后输出的特征图为原图的1/16。在本实施例中,输入图像到CNN中,图像的大小为M*N,将CNN进行特征提取得到特征图,再将特征图输入RPN网络通过锚框筛选候选区域,最后将候选区域依次经过ROI池化层、全连接层分别输入分类层和边界框回归层,本实施例中的全连接层共3个。
传统的深度模型用一个多层的卷积神经网络提取特征后将最后一层卷积层输出的特征图输入到RPN网络中,经过卷积神经网络提取的特征图的尺度相较于输入图片会缩小,就会忽略一些细节信息如纹理和边缘的信息,当目标区域非常小的时候,从仅有的像素中所能反应出来的语义信息是非常有限的。为了解决上述特征丢失的问题,在本实施例中同时获取到图片的高层特征和低层特征,需要分别生成高层特征锚框和低层特征锚框。
对于低层特征锚框,建模单元52具体用于:
步骤一:获取目标的像素坐标,将根据像素坐标确定的目标尺寸作为样本;
步骤二:确定作为初始聚类中心的样本,将样本划分到距离最近的初始聚类中心的类中;
步骤三:重新计算每个类的聚类中心,将将样本划分到距离最近的新的聚类中心的类中;
步骤四:重复步骤三,直至相邻两次计算的聚类中心的差值小于预设阈值,将最后一次计算划分出的类作为最终聚类结果;
步骤五:计算最终聚类结果的每个类中目标尺寸的平均值,根据计算结果生成低层特征锚框。
通过聚类算法生成低层特征锚框,使低层特征锚框能够更适应识别小目标,提高了模型训练和检测的效率。
其中,在步骤二中,所述确定作为初始聚类中心的样本,包括:
步骤一:随机选取一个样本作为一个初始聚类中心;
步骤二:分别计算其他样本与当前所有初始聚类中心的距离之和;
步骤三:选取计算结果最大的样本作为下一个初始聚类中心;
步骤四:重复步骤二和步骤三,直至初始聚类中心的数量达到预设值。
例如:首先选取样本A作为第1个初始聚类中心,分别计算剩余样本与样本A的欧式距离,选取与样本A的欧式距离最大的样本B作为第2个初始聚类中心。再分别计算除样本A、样本B以外的剩余样本与样本A、样本B的距离之和,将距离之和最大的样本C作为第3个初始聚类中心,即样本C与样本A、样本B的距离的和最大。以此类推,直至选取出预设的k个初始聚类中心。
相比于常规的聚类算法,本实施例中首先根据各个样本成为聚类中心的概率对初始聚类中心进行初始化选取,相比于传统算法中的一次性随机选取一定数量的聚类中心的处理方法,能够尽最大限度保证初始选取的聚类中心相对分散,节省了后续重新调整聚类中心的迭代次数,提高了聚类算法的效率和准确性。
对于高层特征锚框,建模单元52具体用于基于预设参数生成多尺度深度模型的高层特征锚框。其中,所述预设参数包括高层特征锚框的长宽比以及宽长,所述宽长包括256个单位长度、512个单位长度以及1024个单位长度三种,所述长宽比包括0.5、1以及2三种。本实施例中根据卷积神经网络输出的特征图的大小与原图片的大小之间的比例关系生成尺寸、长宽比不同的高层特征锚框。例如:卷积层输出的特征图尺寸大小为原图的1/16,说明输入RPN网络的特征图中每个像素点均对应原图中16×16像素的区域。每种宽长均对应长宽比分别为0.5、1、2的3种框,最终在每个锚点处生成9个不同形状和尺寸的锚框,如图3所示。
所述训练单元53具体用于:
采用梯度下降算法对分类层以及边界框回归层中的模型参数进行更新,直至损失函数Lreg({pi},{ti})小于预设阈值时结束训练;
所述损失函数Lreg({pi},{ti})为:
其中,为分类损失,/> 为回归损失,/>R为Smooth L1损失函数,Nels为分类层的输出,Nreg为边界框回归层的输出,i为边界框的索引,pi表示分类层预测的边界框含有目标的概率,/>为边界框的真实标签,预测的边界框含有目标时为正样本,预测的边界框不含有目标时为负样本,正样本时/>负样本时/>ti为表示边界框回归层预测的边界框的坐标参数,/>为真实边界框的坐标参数,λ为预设的平衡权重。
Smooth L1函数为:
其中x为边界框回归层预测的边界框与真实边界框的误差。
在本实施例中,在模型训练的最后阶段,训练单元53还用于对训练好的多尺度深度模型进行泛化能力检测,检测方法为用大量包含目标的未训练的图片输入到模型中,统计其识别和检测精确度,衡量指标采用“F-score”,F-score的计算方式为:
NTP表示正确识别为目标区域的数量,NFN表示原本是目标区域但未识别的数量,NFP表示非目标区域但被识别为目标区域的数量。
在本实施例中,目标识别单元54具体用于:
步骤一:通过卷积神经网络对待识别图片进行特征提取,得到特征图;
步骤二:将特征图输入RPN网络,通过高层特征锚框对特征图进行一次区域筛选,得到第一候选区域;
步骤三:将第一候选区域上的每一个点映射到待识别图片的对应区域;
步骤四:再次输入RPN网络中,通过低层特征锚框对步骤三中所述的对应区域进行二次区域筛选,得到第二候选区域;
步骤五:将第二候选区域经ROI池化层、全连接层的处理后,分别输入分类层和边界框回归层进行目标识别,输出包含目标类别和目标边界框的目标识别结果。
由于一次区域筛选时使用的时高层特征锚框,因此所述第一候选区域为判断目标所在区域的初步检测范围,而对于小目标则要使用低层特征锚框进行二次区域筛选,尽可能确保所有特征都能够检测到,从而识别出第二候选区域,提高小目标识别的精确度。
分类层的作用为识别出第二候选区域中目标的类型,本实施例中分类层所使用的为常规分类器,此处不再赘述。边界框回归层的作用为对目标的边界框进行回归计算,使识别结果尽可能贴近目标的实际边界。所述边界框回归层中采用的算法为:
其中,tx为边界框中心点横坐标的变换因子,ty为边界框中心点纵坐标的变换因子,tw为边界框宽的变换因子,th为边界框高的变换因子,xa、ya、wa、ha分别为输入边界框回归层的锚框的中心点横坐标、中心点纵坐标、框和高,x、y、w、h分别为边界框回归层输出的边界框的中心点横坐标、中心点纵坐标、框和高。
上述实施例中的各个序号仅仅为了描述,不代表各部件的组装或使用过程中的先后顺序。
以上所述仅为本发明的实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.基于改进的多尺度深度模型的目标识别方法,其特征在于,所述目标识别方法包括:
在图片上标记出目标,由标记后的图片组成图片训练集;
构建多尺度深度模型,对目标的尺寸进行聚类,根据聚类结果确定多尺度深度模型的低层特征锚框,基于预设参数生成多尺度深度模型的高层特征锚框;
将图片训练集输入多尺度深度模型,进行分类和回归训练;
将待识别图片输入训练好的多尺度深度模型,通过高层特征锚框确定第一候选区域,通过低层特征锚框根据第一候选区域确定第二候选区域,根据第二候选区域输出目标识别结果;
所述构建多尺度深度模型,对目标的尺寸进行聚类,根据聚类结果确定多尺度深度模型的低层特征锚框,基于预设参数生成多尺度深度模型的高层特征锚框,包括:
步骤一:获取目标的像素坐标,将根据像素坐标确定的目标尺寸作为样本;
步骤二:确定作为初始聚类中心的样本,将样本划分到距离最近的初始聚类中心的类中;
步骤三:重新计算每个类的聚类中心,将样本划分到距离最近的新的聚类中心的类中;
步骤四:重复步骤三,直至相邻两次计算的聚类中心的差值小于预设阈值,将最后一次计算划分出的类作为最终聚类结果;
步骤五:计算最终聚类结果的每个类中目标尺寸的平均值,根据计算结果生成低层特征锚框;
所述多尺度深度模型包括卷积神经网络、RPN网络、ROI池化层、全连接层、分类层以及边界框回归层;
所述将待识别图片输入训练好的多尺度深度模型,通过高层特征锚框确定第一候选区域,通过低层特征锚框根据第一候选区域确定第二候选区域,根据第二候选区域输出目标识别结果,包括:
步骤A1:通过卷积神经网络对待识别图片进行特征提取,得到特征图;
步骤A2:将特征图输入RPN网络,通过高层特征锚框对特征图进行一次区域筛选,得到第一候选区域;
步骤A3:将第一候选区域上的每一个点映射到待识别图片的对应区域;
步骤A4:通过低层特征锚框对步骤A3中所述的对应区域进行二次区域筛选,得到第二候选区域;
步骤A5:将第二候选区域经ROI池化层、全连接层的处理后,分别输入分类层和边界框回归层进行目标识别,输出包含目标类别和目标边界框的目标识别结果。
2.根据权利要求1所述的基于改进的多尺度深度模型的目标识别方法,其特征在于,在步骤二中,所述确定作为初始聚类中心的样本,包括:
步骤一:随机选取一个样本作为一个初始聚类中心;
步骤二:分别计算其他样本与当前所有初始聚类中心的距离之和;
步骤三:选取计算结果最大的样本作为下一个初始聚类中心;
步骤四:重复步骤二和步骤三,直至初始聚类中心的数量达到预设值。
3.根据权利要求1所述的基于改进的多尺度深度模型的目标识别方法,其特征在于,所述预设参数包括高层特征锚框的长宽比以及宽长。
4.根据权利要求1所述的基于改进的多尺度深度模型的目标识别方法,其特征在于,所述将图片训练集输入多尺度深度模型,进行分类和回归训练,包括:
采用梯度下降算法对分类层以及边界框回归层中的模型参数进行更新,直至损失函数Lreg({pi},{ti})小于预设阈值时结束训练;
所述损失函数Lreg({pi},{ti})为:
其中,为分类损失,/> 为回归损失,/>R为Smooth L1损失函数,Nels为分类层的输出,Nreg为边界框回归层的输出,i为边界框的索引,pi表示分类层预测的边界框含有目标的概率,/>为边界框的真实标签,预测的边界框含有目标时为正样本,预测的边界框不含有目标时为负样本,正样本时/>负样本时/>ti为表示边界框回归层预测的边界框的坐标参数,/>为真实边界框的坐标参数,λ为预设的平衡权重。
5.根据权利要求1所述的基于改进的多尺度深度模型的目标识别方法,其特征在于,所述边界框回归层中采用的算法为:
其中,tx为边界框中心点横坐标的变换因子,ty为边界框中心点纵坐标的变换因子,tw为边界框宽的变换因子,th为边界框高的变换因子,xa、ya、wa、ha分别为输入边界框回归层的锚框的中心点横坐标、中心点纵坐标、框和高,x、y、w、h分别为边界框回归层输出的边界框的中心点横坐标、中心点纵坐标、框和高。
6.基于改进的多尺度深度模型的目标识别装置,其特征在于,用于执行如权利要求1所述的基于改进的多尺度深度模型的目标识别方法,所述目标识别装置包括:
标记单元:用于在图片上标记出目标,由标记后的图片组成图片训练集;
建模单元:用于构建多尺度深度模型,对目标的尺寸进行聚类,根据聚类结果确定多尺度深度模型的低层特征锚框,基于预设参数生成多尺度深度模型的高层特征锚框;
训练单元:用于将图片训练集输入多尺度深度模型,进行分类和回归训练;
目标识别单元:用于将待识别图片输入训练好的多尺度深度模型,通过高层特征锚框确定第一候选区域,通过低层特征锚框根据第一候选区域确定第二候选区域,根据第二候选区域输出目标识别结果。
7.根据权利要求6所述的基于改进的多尺度深度模型的目标识别装置,其特征在于,所述目标识别单元具体用于:
步骤一:通过多尺度深度模型的卷积神经网络对待识别图片进行特征提取,得到特征图;
步骤二:将特征图输入多尺度深度模型的RPN网络,通过高层特征锚框对特征图进行一次区域筛选,得到第一候选区域;
步骤三:将第一候选区域上的每一个点映射到待识别图片的对应区域;
步骤四:通过低层特征锚框对步骤三中所述的对应区域进行二次区域筛选,得到第二候选区域;
步骤五:将第二候选区域经多尺度深度模型的ROI池化层、全连接层的处理后,分别输入多尺度深度模型的分类层和边界框回归层进行目标识别,输出包含目标类别和目标边界框的目标识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110406883.6A CN113221956B (zh) | 2021-04-15 | 2021-04-15 | 基于改进的多尺度深度模型的目标识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110406883.6A CN113221956B (zh) | 2021-04-15 | 2021-04-15 | 基于改进的多尺度深度模型的目标识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221956A CN113221956A (zh) | 2021-08-06 |
CN113221956B true CN113221956B (zh) | 2024-02-02 |
Family
ID=77087445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110406883.6A Active CN113221956B (zh) | 2021-04-15 | 2021-04-15 | 基于改进的多尺度深度模型的目标识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221956B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113870263B (zh) * | 2021-12-02 | 2022-02-25 | 湖南大学 | 一种路面缺陷损伤实时监测方法及*** |
CN114913438A (zh) * | 2022-03-28 | 2022-08-16 | 南京邮电大学 | 一种基于锚框最优聚类的YOLOv5园林异常目标识别方法 |
CN115222727A (zh) * | 2022-08-15 | 2022-10-21 | 贵州电网有限责任公司 | 一种输电线路防外破目标识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263712A (zh) * | 2019-06-20 | 2019-09-20 | 江南大学 | 一种基于区域候选的粗精行人检测方法 |
CN110647906A (zh) * | 2019-08-02 | 2020-01-03 | 杭州电子科技大学 | 基于Faster R-CNN方法的服饰目标检测方法 |
CN112417981A (zh) * | 2020-10-28 | 2021-02-26 | 大连交通大学 | 基于改进FasterR-CNN的复杂战场环境目标高效识别方法 |
-
2021
- 2021-04-15 CN CN202110406883.6A patent/CN113221956B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263712A (zh) * | 2019-06-20 | 2019-09-20 | 江南大学 | 一种基于区域候选的粗精行人检测方法 |
CN110647906A (zh) * | 2019-08-02 | 2020-01-03 | 杭州电子科技大学 | 基于Faster R-CNN方法的服饰目标检测方法 |
CN112417981A (zh) * | 2020-10-28 | 2021-02-26 | 大连交通大学 | 基于改进FasterR-CNN的复杂战场环境目标高效识别方法 |
Non-Patent Citations (2)
Title |
---|
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks;Shaoqing Ren etl;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;第第39卷卷(第第6期期);第1137-1149页 * |
基于改进faster RCNN 的木材运输车辆检测;徐义鎏 等;《计算机应用》;第第40卷卷(第第S1期期);第209至214页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113221956A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348319B (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
CN113221956B (zh) | 基于改进的多尺度深度模型的目标识别方法及装置 | |
CN110334765B (zh) | 基于注意力机制多尺度深度学习的遥感影像分类方法 | |
CN108334881B (zh) | 一种基于深度学习的车牌识别方法 | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN111652317B (zh) | 基于贝叶斯深度学习的超参数图像分割方法 | |
CN110543906B (zh) | 基于Mask R-CNN模型的肤质自动识别方法 | |
CN109033978B (zh) | 一种基于纠错策略的cnn-svm混合模型手势识别方法 | |
CN109284779A (zh) | 基于深度全卷积网络的物体检测方法 | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN109165658B (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN111986125A (zh) | 一种用于多目标任务实例分割的方法 | |
CN106022254A (zh) | 图像识别技术 | |
CN112508857B (zh) | 基于改进型Cascade R-CNN的铝材表面缺陷检测方法 | |
CN111488911B (zh) | 基于Mask R-CNN与GAN的图像实体抽取方法 | |
CN111914902B (zh) | 一种基于深度神经网络的中药识别与表面缺陷检测方法 | |
CN114897816A (zh) | 基于改进掩膜的Mask R-CNN矿物颗粒识别以及粒度检测方法 | |
CN111898621A (zh) | 一种轮廓形状识别方法 | |
CN112861785B (zh) | 一种基于实例分割和图像修复的带遮挡行人重识别方法 | |
CN111652273A (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN116012291A (zh) | 工业零件图像缺陷检测方法及***、电子设备和存储介质 | |
CN117854072B (zh) | 一种工业视觉缺陷自动标注方法 | |
CN110472640B (zh) | 一种目标检测模型预测框处理方法及装置 | |
CN109615610B (zh) | 一种基于YOLO v2-tiny的医用创可贴瑕疵检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |