CN108564097B - 一种基于深度卷积神经网络的多尺度目标检测方法 - Google Patents
一种基于深度卷积神经网络的多尺度目标检测方法 Download PDFInfo
- Publication number
- CN108564097B CN108564097B CN201711267789.7A CN201711267789A CN108564097B CN 108564097 B CN108564097 B CN 108564097B CN 201711267789 A CN201711267789 A CN 201711267789A CN 108564097 B CN108564097 B CN 108564097B
- Authority
- CN
- China
- Prior art keywords
- network
- layer
- model
- classification
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度卷积神经网络的多尺度目标检测方法,包括步骤:1)数据获取;2)数据处理;3)模型构建;4)定义损失函数;5)模型训练;6)模型验证。本发明结合了深度卷积神经网络提取图像高层语义信息的能力,区域生成网络生成候选区域的能力,有内容感知能力的感兴趣区域池化层的修补和映射能力,以及多任务分类网络的精准分类能力,更准确高效地完成多尺度目标检测。
Description
技术领域
本发明涉及计算机图像处理的技术领域,尤其是指一种基于深度卷积神经网络的多尺度目标检测方法。
背景技术
目标检测与识别是计算机视觉计算领域的重要课题之一。随着人类科学技术的发展,目标检测这一重要技术不断地得到充分利用,人们把它运用到各种场景中,实现各种预期目标,如战场警戒、安全检测、交通管制、视频监控等都方面。
近些年,随着深度学习的快速发展,深度卷积神经网络在目标检测与识别技术上也有进一步的突破。利用深度卷积神经网络,可以提取到图片的高层语义特征信息,然后再利用这些高层语义信息进行目标的检测。神经网络越深,其所表达的特征信息就更具有代表性,但是其存在的问题是,对小尺度物体则表达的非常粗糙,甚至会使得小尺度物体的部分特征丢失,而且,神经网络对大小尺度非常敏感,不同大小尺度的物体经过神经网络所提取到的特征信息存在很大的差异性,导致小尺度物体检测的准确率低,从而大大降低了目标检测的鲁棒性和有效性。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种深度卷积神经网络的多尺度目标检测方法,该方法可以很好的将大小尺度的目标检测出来,突破了之前方法中无法很好检测出大小尺度差异很大的同类目标的限制。
为实现上述目的,本发明所提供的技术方案为:一种基于深度卷积神经网络的多尺度目标检测方法,包括以下步骤:
1)数据获取
训练深度卷积神经网络需要大量的训练数据,因此需要使用大规模的自然图像或视频图像数据,如果得到的图像数据没有标签数据则需要进行人工标注,然后划分为训练数据集以及验证数据集;
2)数据处理
将图像数据集的图像和标签数据通过预处理转化为训练深度卷积神经网络所需要的格式;
3)模型构建
根据训练目标以及模型的输入输出形式,构造出一个适用于多尺度目标检测问题的深度卷积神经网络;
4)定义损失函数
根据训练目标以及模型的架构,定义出所需的损失函数;
5)模型训练
初始化各层网络的参数,不断迭代输入训练样本,根据损失函数计算得到网络的损失值,再通过反向传播计算出各网络层参数的梯度,通过随机梯度下降法对各层网络的参数进行更新;
6)模型验证
使用验证数据集对训练得到的模型进行验证,测试其泛化性能。
所述步骤2)包括以下步骤:
2.1)将数据集中的图像缩放到长和宽为m×n像素大小,标签数据也根据相应的比例缩放到相应的大小;
2.2)在缩放后的图像,随机裁剪包含有标签的地方得到a×b像素大小的矩形图像,a<=m,b<=n;
2.3)以0.5的概率随机水平翻转裁剪后的图像;
2.4)将随机翻转后的图像从[0,255]转换到[-1,1]的范围内。
所述步骤3)包括以下步骤:
3.1)构造特征提取网络模型
特征提取网络相当于一个编码器,用于从输入的图像中提取出高层的语义信息并保存到一个低维的编码中,特征提取网络的输入为经过步骤2)处理的图像,小物体在越深层的编码中会丢失部分信息,因此为了减少保全更多的信息,输出低维和较低维的特征编码;为了实现从输入到一系列输出的转换,特征提取网络包含多个级联的下采样层,下采样层由串联的卷积层、批量正则化层、以及非线性激活函数层、池化层组成,其中卷积层步长为1,卷积核大小为3×3,提取出相应的特征图,批量正则化层通过归一化同一个批次的输入样本的均值和标准差,起到稳定和加速模型训练的作用,非线性激活函数层的加入防止模型退化为简单的线性模型,提高模型的描述能力,池化层的作用是缩小特征图的大小,这样能够增加卷积核的感受野;
3.2)构造区域生成网络模型
区域生成网络负责找到输入图中所有的物体和它们的位置;区域生成网络输入特征图,然后把这个特征图上的每一个点映射回原图,得到这些点的坐标,再在这些点周围取一些提前设定好的不同大小不同长宽比例的候选框,并计算出每个框是物体的概率分数;其中,区域生成网络的输入为步骤3.1)特征提取网络的输出,输出一系列候选框的坐标和一系列候选框是物体的概率分数;
为了实现从输入到输出的一系列转换,区域生成网络模型包括3个串联的功能结构,有卷积层、批量正则化层、非线性激活函数层,第一个功能结构是将输入进行3×3大小的特征融合,融合周边的信息,并分别作为第二和第三个功能结构的输入,第二个功能结构实现输出矩形框的坐标信息,第三个功能结构实现输出对应矩形框是物体的概率分数;
3.3)构造有内容感知能力的感兴趣区域池化层
有内容感知能力的感兴趣区域池化层的作用是实现从原图的目标区域映射到所述步骤3.1)得到的低维编码区域,再池化到固定大小的功能,而有内容感知能力则表现在以下两方面:
3.3.1)信息补全
信息补全是为了补全小目标在低维编码时丢失的信息,让小目标的检测更准确;针对从原图的目标区域映射到所述步骤3.1)的低维编码的特征图,若其长和宽其中一个大于z,z的取值根据网络需求而定,另一个小于z,则通过反卷积的方式将其放大到边长为max(长,宽)的正方形,再进行池化操作;若其长和宽都小于z,则长宽通过反卷积的方式放大到原来的2倍,再进行池化操作;若其长和宽都大于z,则直接进行后续的池化操作;
3.3.2)划分大小
对所述步骤3.2)输出原图的目标区域进行划分大小,根据准备的训练数据集中所有标签框的面积的均值,若所述步骤3.2)输出的矩形框的面积小于该均值,标记为小目标输出,而大于或等于该均值的,标记为大目标输出;
3.4)构造多任务分类网络
多任务分类网络是为了分别识别大尺度和小尺度的目标,防止大和小尺度的目标的低维编码不同导致的分类错误;根据步骤3.3)得到的大小两类矩形框,分别输入两个分类网络;分类网络输出类别的分数用以分类任务,以及精修选框的位置用于回归任务,为了完成分类和回归任务,该网络包含全连接层、非线性激活函数层、信号丢失层,全连接层起到将学到的“分布式特征表示”映射到样本标记空间的作用,非线性激活函数层的加入防止了模型退化为简单的线性模型,提高模型的描述能力,信号丢失层以0.5的概率让神经元不工作,让训练过程收敛更快,防止过拟合;
最后将大小分类网络的输出结果进行融合,作为最终输出;
所述步骤4)包括以下步骤:
4.1)定义区域生成网络的损失函数
区域生成网络用于在低维的编码中得到输入图感兴趣区域的坐标和该区域是否为前景的分数,即回归任务和分类任务,定义损失函数使输出的选框尽可能的接近标准参考框的位置;因此,回归任务的损失函数能够定义为平滑化曼哈顿距离损失损失(SmoothL1Loss),公式如下所示:
其中,Lreg为回归损失,v和t分别表示预测框的位置和其对应的标准参考框的位置,x和y表示左上角坐标值,w和h分别表示矩形框的宽和高;
分类任务的损失函数定义为柔性最大化损失(SoftmaxLoss),公式如下所示:
x'i=x'i-max(x'1,...,x'n)
Lcls=-logpi
其中,x'为网络的输出,n表示总类别数,p表示每一类的概率,Lcls为分类损失;
4.2)定义分类网络的损失函数
分类网络输出类别的分数用于分类任务,以及精修选框的位置用于回归任务,定义损失函数使其输出的类别尽可能的和标签数据一致,同时使其输出的选框位置尽可能的和标准参考框的位置一致;同样如步骤4.1),回归任务的损失函数能够定义为SmoothL1Loss,分类任务的损失函数定义为SoftmaxLoss;
4.3)定义总损失函数
步骤4.1)和步骤4.2)中定义的两个区域生成网络损失函数与两个分类网络损失函数能够通过加权的方式组合起来,使得网络可以完成图片中多尺度目标检测的任务;
所述步骤5)包括以下步骤:
5.1)初始化模型各层参数
各层参数的初始化采用的是传统的深度卷积神经网络中使用到的方法,对特征提取网络的卷积层参数利用在ImageNet预训练好的VGG16网络模型的卷积层参数值作为初始值,区域生成网络中的卷积层以及分类网络的全连接层,则采用均值为0,标准差为0.02的高斯分布进行初始化,而对所有的批量正则化层的参数采用均值为1,标准差为0.02的高斯分布进行初始化;
5.2)训练网络模型
随机输入经过步骤2)处理的原始图像,经过步骤3.1)的特征提取网络得到相应的低维编码特征,在经过步骤3.2)的区域生成网络生成一批选框的候选区域,并通过步骤4.1)计算相应的损失值,然后将这些区域经过步骤3.3)的有内容感知能力的感兴趣区域池化层得到固定大小的另一种低维编码特征,而后再经过步骤3.4)的分类网络得到目标的分类以及精修的选框位置,并通过步骤4.2)计算相应的损失值。最后将这两部分的损失值经过步骤4.3)的处理得到最终损失值,将该值通过反向传播能够得到步骤3)网络模型中的各层参数的梯度,再通过随机梯度下降算法使得到的梯度对各层参数进行优化,即可实现一轮网络模型的训练;
5.3)重复步骤5.2)直到网络关于多尺度目标检测的能力达到预期的目标为止。
所述步骤6)的具体做法如下:
随机从验证数据集中取出一些原始图像,经过步骤2)处理后,输入到步骤5)训练好的网络模型,让该网络模型去检测图中的目标的位置并预测其类别,通过输出的结果与对应的标签数据进行比对,从而判断该训练好的网络模型的多尺度目标检测能力。
本发明与现有技术相比,具有如下优点与有益效果:
1、提出了新的网络层--有内容感知能力的感兴趣区域池化层(CAROIPooling,Content-Aware ROIPooling layer),实现从原图区域映射到所低维编码区域再池化到固定大小的功能,尤其会对小尺度物体的地位编码特征图进行信息补全,达到更准确和更全面的低维编码特征图的目的,而且该网络层在其他目标检测网络中一样适用。
2、提出了一个多分支的目标检测网络,不同分支分别负责大尺度和小尺度的目标检测任务,从而更加准确的区分和检测出大尺度物体和小尺度物体,突破已有方法的限制。
附图说明
图1为本发明方法流程图。
图2为特征提取网络示意图。
图3为区域生成网络示意图。
图4为分类网络示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的基于深度卷积神经网络的多尺度目标检测方法,其具体情况如下:
步骤1,获取高速公路视频数据集,然后获取其视频帧,进行人工标注,并划分为训练数据集以及验证数据集。
步骤2,将图像数据集的图像和标签数据通过预处理转化为训练深度卷积神经网络所需要的格式,包括以下步骤:
步骤2.1,将数据集中的图像缩放到长和宽为768×1344像素大小,标签数据也根据相应的比例缩放到相应的大小。
步骤2.2,在缩放后的图像,随机裁剪其中包含有标签的地方得到768×768像素大小的正方形图像。
步骤2.3,以0.5的概率随机水平翻转裁剪后的图像。
步骤2.4,将随机翻转后的图像从[0,255]转换到[-1,1]的范围内。
步骤3,构建网络模型,包括特征提取网络、区域生成网络、多任务分类网络,包括以下步骤:
步骤3.1,构造特征提取网络。特征提取网络的输入为3×768×768的图像,输出为一系列低维编码特征图(512×48×48和512×24×24)。该网络包括多个级联的下采样层。下采样层由串联的卷积层、批量正则化层、以及非线性激活函数层、池化层组成。以下是一个特征提取网络模型的具体例子,如图2所示。
步骤3.2,构造区域生成网络。区域生成网络的输入为512×48×48/512×24×24的特征图,输出为36×48×48/36×24×24和18×48×48/18×24×24的矩阵信息。该网络包括3个串联的结构(卷积层、批量正则化层、非线性激活函数层)。以下是一个区域生成网络模型的具体例子,如图3所示。
步骤3.3,构造多任务分类网络。本例子用了两个分类网络,他们的输入都是长度为512×7×7的向量,输出长度为4的向量A和长度为4的向量B,其中向量A中的4个值分别表示背景、小车、公共汽车、火车的类别分数,向量B中的4个值表示了一个选框的位置(左上角点的坐标x和y,选框的宽和高w和h)。该网络包含了全连接层、非线性激活函数层,信息丢失层。以下是本例子多任务分类网络模型的具体例子,如图4所示。
步骤4,定义区域生成网络和分类网络的损失函数,包括以下步骤:
步骤4.1,定义区域生成网络的损失函数。定义损失函数使输出的选框尽可能的接近标准参考框的位置,此处用SmoothL1Loss定义损失函数使输出的选框的前景分数尽可能的与标签数据接近,此处用SoftmaxLoss。
步骤4.2,定义分类网络的损失函数。定义损失函数使输出的选框的前景分数尽可能的与标签数据接近,类别为4类。定义损失函数使输出的选框尽可能的接近标准参考框的位置。
步骤4.3,定义总损失函数。对以上4个损失进行加权求和。用公式表示如下:
Loss=(w1×Lcls+w2×Lreg)区域生成网络损失+(w1×Lcls+w2×Lreg)分类网络损失
其中,Loss为总损失值,w1、w2、w3、w4为权重,本例w1=w2=w3=w4=1,Lcls为分类损失值,Lreg为回归损失值。
步骤5,训练网络模型,包括以下步骤:
步骤5.1,初始化模型各层参数,特征提取网络的卷积层参数利用在一个大数据库ImageNet上预训练好的VGG16网络模型的卷积层参数值作为初始值,区域生成网络中的卷积层以及分类网络的全连接层,则采用均值为0,标准差为0.02的高斯分布进行初始化,而对所有的批量正则化层的参数采用均值为1,标准差为0.02的高斯分布进行初始化。
步骤5.2,训练网络模型随机输入经过步骤2处理的原始图像,输入步骤3的网络模型,输出类别信息和回归框的坐标信息,再经过步骤4计算得到最终损失值,将该值通过反向传播能够得到步骤3网络模型中的各层参数的梯度,再通过随机梯度下降算法使得到的梯度对各层参数进行优化,即可实现一轮网络模型的训练。
步骤5.3,持续迭代训练,即重复步骤5.2直到网络关于多尺度目标检测的能力达到预期的目标为止。
步骤6,使用验证数据集对训练得到的模型进行验证,测试其泛化性能。
具体做法是随机从验证数据集中取出一些原始图像,经过步骤2处理后,输入到步骤5训练好的网络模型,让该网络模型去检测图中的目标的位置并预测其类别。通过输出的结果与对应的标签数据进行比对,从而判断该训练好的网络模型的多尺度目标检测能力。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (3)
1.一种基于深度卷积神经网络的多尺度目标检测方法,其特征在于,包括以下步骤:
1)数据获取
训练深度卷积神经网络需要大量的训练数据,因此需要使用大规模的自然图像或视频图像数据,如果得到的图像数据没有标签数据则需要进行人工标注,然后划分为训练数据集以及验证数据集;
2)数据处理
将图像数据集的图像和标签数据通过预处理转化为训练深度卷积神经网络所需要的格式;
3)模型构建
根据训练目标以及模型的输入输出形式,构造出一个适用于多尺度目标检测问题的深度卷积神经网络,包括以下步骤:
3.1)构造特征提取网络模型
特征提取网络相当于一个编码器,用于从输入的图像中提取出高层的语义信息并保存到一个低维的编码中,特征提取网络的输入为经过步骤2)处理的图像,小物体在越深层的编码中会丢失部分信息,因此为了减少保全更多的信息,输出低维和较低维的特征编码;为了实现从输入到一系列输出的转换,特征提取网络包含多个级联的下采样层,下采样层由串联的卷积层、批量正则化层、以及非线性激活函数层、池化层组成,其中卷积层步长为1,卷积核大小为3×3,提取出相应的特征图,批量正则化层通过归一化同一个批次的输入样本的均值和标准差,起到稳定和加速模型训练的作用,非线性激活函数层的加入防止模型退化为简单的线性模型,提高模型的描述能力,池化层的作用是缩小特征图的大小,这样能够增加卷积核的感受野;
3.2)构造区域生成网络模型
区域生成网络负责找到输入图中所有的物体和它们的位置;区域生成网络输入特征图,然后把这个特征图上的每一个点映射回原图,得到这些点的坐标,再在这些点周围取一些提前设定好的不同大小不同长宽比例的候选框,并计算出每个框是物体的概率分数;其中,区域生成网络的输入为步骤3.1)特征提取网络的输出,输出一系列候选框的坐标和一系列候选框是物体的概率分数;
为了实现从输入到输出的一系列转换,区域生成网络模型包括3个串联的功能结构,有卷积层、批量正则化层、非线性激活函数层,第一个功能结构是将输入进行3×3大小的特征融合,融合周边的信息,并分别作为第二和第三个功能结构的输入,第二个功能结构实现输出矩形框的坐标信息,第三个功能结构实现输出对应矩形框是物体的概率分数;
3.3)构造有内容感知能力的感兴趣区域池化层
有内容感知能力的感兴趣区域池化层的作用是实现从原图的目标区域映射到所述步骤3.1)得到的低维编码区域,再池化到固定大小的功能,而有内容感知能力则表现在以下两方面:
3.3.1)信息补全
信息补全是为了补全小目标在低维编码时丢失的信息,让小目标的检测更准确;针对从原图的目标区域映射到所述步骤3.1)的低维编码的特征图,若其长和宽其中一个大于z,z的取值根据网络需求而定,另一个小于z,则通过反卷积的方式将其放大到边长为max(长,宽)的正方形,再进行池化操作;若其长和宽都小于z,则长宽通过反卷积的方式放大到原来的2倍,再进行池化操作;若其长和宽都大于z,则直接进行后续的池化操作;
3.3.2)划分大小
对所述步骤3.2)输出原图的目标区域进行划分大小,根据准备的训练数据集中所有标签框的面积的均值,若所述步骤3.2)输出的矩形框的面积小于该均值,标记为小目标输出,而大于或等于该均值的,标记为大目标输出;
3.4)构造多任务分类网络
多任务分类网络是为了分别识别大尺度和小尺度的目标,防止大和小尺度的目标的低维编码不同导致的分类错误;根据步骤3.3)得到的大小两类矩形框,分别输入两个分类网络;分类网络输出类别的分数用以分类任务,以及精修选框的位置用于回归任务,为了完成分类和回归任务,该网络包含全连接层、非线性激活函数层、信号丢失层,全连接层起到将学到的“分布式特征表示”映射到样本标记空间的作用,非线性激活函数层的加入防止了模型退化为简单的线性模型,提高模型的描述能力,信号丢失层以0.5的概率让神经元不工作,让训练过程收敛更快,防止过拟合;
最后将大小分类网络的输出结果进行融合,作为最终输出;
4)定义损失函数
根据训练目标以及模型的架构,定义出所需的损失函数,包括以下步骤:
4.1)定义区域生成网络的损失函数
区域生成网络用于在低维的编码中得到输入图感兴趣区域的坐标和该区域是否为前景的分数,即回归任务和分类任务,定义损失函数使输出的选框接近标准参考框的位置;因此,回归任务的损失函数能够定义为平滑化曼哈顿距离损失SmoothL1Loss,公式如下所示:
其中,Lreg为回归损失,v和t分别表示预测框的位置和其对应的标准参考框的位置,x和y表示左上角坐标值,w和h分别表示矩形框的宽和高;
分类任务的损失函数定义为柔性最大化损失SoftmaxLoss,公式如下所示:
x'i=x'i-max(x'1,...,x'n)
Lcls=-logpi
其中,x'为网络的输出,n表示总类别数,p表示每一类的概率,Lcls为分类损失;
4.2)定义分类网络的损失函数
分类网络输出类别的分数用于分类任务,以及精修选框的位置用于回归任务,定义损失函数使其输出的类别和标签数据一致,同时使其输出的选框位置和标准参考框的位置一致;同样如步骤4.1),回归任务的损失函数能够定义为SmoothL1Loss,分类任务的损失函数定义为SoftmaxLoss;
4.3)定义总损失函数
步骤4.1)和步骤4.2)中定义的两个区域生成网络损失函数与两个分类网络损失函数能够通过加权的方式组合起来,使得网络可以完成图片中多尺度目标检测的任务;
5)模型训练
初始化各层网络的参数,不断迭代输入训练样本,根据损失函数计算得到网络的损失值,再通过反向传播计算出各网络层参数的梯度,通过随机梯度下降法对各层网络的参数进行更新,包括以下步骤:
5.1)初始化模型各层参数
各层参数的初始化采用的是传统的深度卷积神经网络中使用到的方法,对特征提取网络的卷积层参数利用在ImageNet预训练好的VGG16网络模型的卷积层参数值作为初始值,区域生成网络中的卷积层以及分类网络的全连接层,则采用均值为0,标准差为0.02的高斯分布进行初始化,而对所有的批量正则化层的参数采用均值为1,标准差为0.02的高斯分布进行初始化;
5.2)训练网络模型
随机输入经过步骤2)处理的原始图像,经过步骤3.1)的特征提取网络得到相应的低维编码特征,在经过步骤3.2)的区域生成网络生成一批选框的候选区域,并通过步骤4.1)计算相应的损失值,然后将这些区域经过步骤3.3)的有内容感知能力的感兴趣区域池化层得到固定大小的另一种低维编码特征,而后再经过步骤3.4)的分类网络得到目标的分类以及精修的选框位置,并通过步骤4.2)计算相应的损失值;最后将这两部分的损失值经过步骤4.3)的处理得到最终损失值,将该值通过反向传播能够得到步骤3)网络模型中的各层参数的梯度,再通过随机梯度下降算法使得到的梯度对各层参数进行优化,即可实现一轮网络模型的训练;
5.3)重复步骤5.2)直到网络关于多尺度目标检测的能力达到预期的目标为止;
6)模型验证
使用验证数据集对训练得到的模型进行验证,测试其泛化性能。
2.根据权利要求1所述的一种基于深度卷积神经网络的多尺度目标检测方法,其特征在于,所述步骤2)包括以下步骤:
2.1)将数据集中的图像缩放到长和宽为m×n像素大小,标签数据也根据相应的比例缩放到相应的大小;
2.2)在缩放后的图像,随机裁剪包含有标签的地方得到a×b像素大小的矩形图像,a<=m,b<=n;
2.3)以0.5的概率随机水平翻转裁剪后的图像;
2.4)将随机翻转后的图像从[0,255]转换到[-1,1]的范围内。
3.根据权利要求1所述的一种基于深度卷积神经网络的多尺度目标检测方法,其特征在于,所述步骤6)的具体做法如下:
随机从验证数据集中取出一些原始图像,经过步骤2)处理后,输入到步骤5)训练好的网络模型,让该网络模型去检测图中的目标的位置并预测其类别,通过输出的结果与对应的标签数据进行比对,从而判断该训练好的网络模型的多尺度目标检测能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711267789.7A CN108564097B (zh) | 2017-12-05 | 2017-12-05 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711267789.7A CN108564097B (zh) | 2017-12-05 | 2017-12-05 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108564097A CN108564097A (zh) | 2018-09-21 |
CN108564097B true CN108564097B (zh) | 2020-09-22 |
Family
ID=63529242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711267789.7A Active CN108564097B (zh) | 2017-12-05 | 2017-12-05 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108564097B (zh) |
Families Citing this family (95)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109361617B (zh) * | 2018-09-26 | 2022-09-27 | 中国科学院计算机网络信息中心 | 一种基于网络包载荷的卷积神经网络流量分类方法及*** |
CN109446911B (zh) * | 2018-09-28 | 2021-08-06 | 北京陌上花科技有限公司 | 图像检测方法及*** |
CN109376619B (zh) * | 2018-09-30 | 2021-10-15 | 中国人民解放军陆军军医大学 | 一种细胞检测方法 |
CN109492636B (zh) * | 2018-09-30 | 2021-08-03 | 浙江工业大学 | 基于自适应感受野深度学习的目标检测方法 |
CN109525859B (zh) * | 2018-10-10 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 模型训练、图像发送、图像处理方法及相关装置设备 |
CN109558791B (zh) * | 2018-10-11 | 2020-12-01 | 浙江大学宁波理工学院 | 一种基于图像识别的寻笋装置及方法 |
CN109344806B (zh) * | 2018-10-31 | 2019-08-23 | 第四范式(北京)技术有限公司 | 利用多任务目标检测模型执行目标检测的方法和*** |
CN109634820A (zh) * | 2018-11-01 | 2019-04-16 | 华中科技大学 | 一种云端移动端协同的故障预警方法、相关设备及*** |
CN109583321A (zh) * | 2018-11-09 | 2019-04-05 | 同济大学 | 一种基于深度学习的结构化道路中小物体的检测方法 |
CN109523015B (zh) * | 2018-11-09 | 2021-10-22 | 上海海事大学 | 一种神经网络中图像处理方法 |
CN109583483B (zh) * | 2018-11-13 | 2020-12-11 | 中国科学院计算技术研究所 | 一种基于卷积神经网络的目标检测方法和*** |
CN111260536B (zh) * | 2018-12-03 | 2022-03-08 | 中国科学院沈阳自动化研究所 | 可变参数的数字图像多尺度卷积处理器及其实现方法 |
CN111310775B (zh) * | 2018-12-11 | 2023-08-25 | Tcl科技集团股份有限公司 | 数据训练方法、装置、终端设备及计算机可读存储介质 |
CN109753995B (zh) * | 2018-12-14 | 2021-01-01 | 中国科学院深圳先进技术研究院 | 一种基于PointNet++的3D点云目标分类和语义分割网络的优化方法 |
CN109753959B (zh) * | 2018-12-21 | 2022-05-13 | 西北工业大学 | 基于自适应多尺度特征融合的路面交通标志检测方法 |
CN109685066B (zh) * | 2018-12-24 | 2021-03-09 | 中国矿业大学(北京) | 一种基于深度卷积神经网络的矿井目标检测与识别方法 |
CN109766790B (zh) * | 2018-12-24 | 2022-08-23 | 重庆邮电大学 | 一种基于自适应特征通道的行人检测方法 |
CN110889425A (zh) * | 2018-12-29 | 2020-03-17 | 研祥智能科技股份有限公司 | 基于深度学习的目标检测方法 |
CN109741318B (zh) * | 2018-12-30 | 2022-03-29 | 北京工业大学 | 基于有效感受野的单阶段多尺度特定目标的实时检测方法 |
CN109726690B (zh) * | 2018-12-30 | 2023-04-18 | 陕西师范大学 | 基于DenseCap网络的学习者行为图像多区域描述方法 |
CN109753927A (zh) * | 2019-01-02 | 2019-05-14 | 腾讯科技(深圳)有限公司 | 一种人脸检测方法和装置 |
CN109784476B (zh) * | 2019-01-12 | 2022-08-16 | 福州大学 | 一种改进dsod网络的方法 |
CN109829421B (zh) * | 2019-01-29 | 2020-09-08 | 西安邮电大学 | 车辆检测的方法、装置及计算机可读存储介质 |
CN111523351A (zh) * | 2019-02-02 | 2020-08-11 | 北京地平线机器人技术研发有限公司 | 神经网络的训练方法、装置和电子设备 |
CN109977997B (zh) * | 2019-02-13 | 2021-02-02 | 中国科学院自动化研究所 | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 |
CN109919214B (zh) * | 2019-02-27 | 2023-07-21 | 南京地平线机器人技术有限公司 | 一种神经网络模型的训练方法及训练装置 |
CN109949229A (zh) * | 2019-03-01 | 2019-06-28 | 北京航空航天大学 | 一种多平台多视角下的目标协同检测方法 |
CN111695380B (zh) * | 2019-03-13 | 2023-09-26 | 杭州海康威视数字技术股份有限公司 | 目标检测方法及装置 |
CN110120047B (zh) * | 2019-04-04 | 2023-08-08 | 平安科技(深圳)有限公司 | 图像分割模型训练方法、图像分割方法、装置、设备及介质 |
CN109977918B (zh) * | 2019-04-09 | 2023-05-02 | 华南理工大学 | 一种基于无监督域适应的目标检测定位优化方法 |
CN110072119B (zh) * | 2019-04-11 | 2020-04-10 | 西安交通大学 | 一种基于深度学习网络的内容感知视频自适应传输方法 |
CN110070530B (zh) * | 2019-04-19 | 2020-04-10 | 山东大学 | 一种基于深度神经网络的输电线路覆冰检测方法 |
CN110084165B (zh) * | 2019-04-19 | 2020-02-07 | 山东大学 | 基于边缘计算的电力领域开放场景下异常事件的智能识别与预警方法 |
CN110135480A (zh) * | 2019-04-30 | 2019-08-16 | 南开大学 | 一种基于无监督物体检测消除偏差的网络数据学习方法 |
CN110215232A (zh) * | 2019-04-30 | 2019-09-10 | 南方医科大学南方医院 | 基于目标检测算法的冠状动脉血管内超声斑块分析方法 |
CN110929746A (zh) * | 2019-05-24 | 2020-03-27 | 南京大学 | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 |
CN110288082B (zh) * | 2019-06-05 | 2022-04-05 | 北京字节跳动网络技术有限公司 | 卷积神经网络模型训练方法、装置和计算机可读存储介质 |
CN110298266B (zh) * | 2019-06-10 | 2023-06-06 | 天津大学 | 基于多尺度感受野特征融合的深度神经网络目标检测方法 |
CN110298387A (zh) * | 2019-06-10 | 2019-10-01 | 天津大学 | 融入像素级attention机制的深度神经网络目标检测方法 |
CN110348437B (zh) * | 2019-06-27 | 2022-03-25 | 电子科技大学 | 一种基于弱监督学习与遮挡感知的目标检测方法 |
CN110288586A (zh) * | 2019-06-28 | 2019-09-27 | 昆明能讯科技有限责任公司 | 一种基于可见光图像数据的多尺度输电线路缺陷检测方法 |
CN110472483B (zh) * | 2019-07-02 | 2022-11-15 | 五邑大学 | 一种面向sar图像的小样本语义特征增强的方法及装置 |
CN110399884B (zh) * | 2019-07-10 | 2021-08-20 | 浙江理工大学 | 一种特征融合自适应锚框模型车辆检测方法 |
CN110349148A (zh) * | 2019-07-11 | 2019-10-18 | 电子科技大学 | 一种基于弱监督学习的图像目标检测方法 |
CN111027581A (zh) * | 2019-08-23 | 2020-04-17 | 中国地质大学(武汉) | 一种基于可学习编码的3d目标检测方法及*** |
CN110706205B (zh) * | 2019-09-07 | 2021-05-14 | 创新奇智(重庆)科技有限公司 | 一种使用计算机视觉技术检测布匹破洞缺陷的方法 |
CN110659724B (zh) * | 2019-09-12 | 2023-04-28 | 复旦大学 | 基于目标尺度的目标检测深度卷积神经网络构建方法 |
CN112712097B (zh) * | 2019-10-25 | 2024-01-05 | 杭州海康威视数字技术股份有限公司 | 一种基于开放平台的图像识别方法、装置及用户端 |
CN110991247B (zh) * | 2019-10-31 | 2023-08-11 | 厦门思泰克智能科技股份有限公司 | 一种基于深度学习与nca融合的电子元器件识别方法 |
CN110909623B (zh) * | 2019-10-31 | 2022-10-04 | 南京邮电大学 | 三维目标检测方法及三维目标检测器 |
CN111008656B (zh) * | 2019-11-29 | 2022-12-13 | 中国电子科技集团公司第二十研究所 | 一种基于预测框误差多阶段回环处理的目标检测方法 |
CN111222546B (zh) * | 2019-12-27 | 2023-04-07 | 中国科学院计算技术研究所 | 一种多尺度融合的食品图像分类模型训练及图像分类方法 |
CN111242897A (zh) * | 2019-12-31 | 2020-06-05 | 北京深睿博联科技有限责任公司 | 胸部x射线影像分析方法和装置 |
CN111178446B (zh) * | 2019-12-31 | 2023-08-04 | 歌尔股份有限公司 | 一种基于神经网络的目标分类模型的优化方法、装置 |
CN111241964A (zh) * | 2020-01-06 | 2020-06-05 | 北京三快在线科技有限公司 | 目标检测模型的训练方法、装置、电子设备和存储介质 |
CN111242037B (zh) * | 2020-01-15 | 2023-03-21 | 华南理工大学 | 基于结构信息的车道线检测方法 |
CN111275171B (zh) * | 2020-01-19 | 2023-07-04 | 合肥工业大学 | 一种基于参数共享的多尺度超分重建的小目标检测方法 |
CN111274981B (zh) * | 2020-02-03 | 2021-10-08 | 中国人民解放军国防科技大学 | 目标检测网络构建方法及装置、目标检测方法 |
CN111444939B (zh) * | 2020-02-19 | 2022-06-28 | 山东大学 | 电力领域开放场景下基于弱监督协同学习的小尺度设备部件检测方法 |
CN111340123A (zh) * | 2020-02-29 | 2020-06-26 | 韶鼎人工智能科技有限公司 | 一种基于深度卷积神经网络的图像分数标签预测方法 |
CN111445026B (zh) * | 2020-03-16 | 2023-08-22 | 东南大学 | 面向边缘智能应用的深度神经网络多路径推理加速方法 |
CN111461190B (zh) * | 2020-03-24 | 2023-03-28 | 华南理工大学 | 一种基于深度卷积神经网络的非均衡船舶分类方法 |
CN111257341B (zh) * | 2020-03-30 | 2023-06-16 | 河海大学常州校区 | 基于多尺度特征与堆叠式全卷积网络的水下建筑物裂缝检测方法 |
CN111611846A (zh) * | 2020-03-31 | 2020-09-01 | 北京迈格威科技有限公司 | 行人再识别方法、装置、电子设备及存储介质 |
CN111489332B (zh) * | 2020-03-31 | 2023-03-17 | 成都数之联科技股份有限公司 | 一种用于目标检测的多尺度iof随机裁剪的数据增强方法 |
CN111553397B (zh) * | 2020-04-21 | 2022-04-29 | 东南大学 | 基于区域全卷积网络和自适应的跨域目标检测方法 |
CN112016542A (zh) * | 2020-05-08 | 2020-12-01 | 珠海欧比特宇航科技股份有限公司 | 城市积涝智能检测方法及*** |
CN111597945B (zh) * | 2020-05-11 | 2023-08-18 | 济南博观智能科技有限公司 | 一种目标检测方法、装置、设备及介质 |
CN111931900B (zh) * | 2020-05-29 | 2023-09-19 | 西安电子科技大学 | 基于残差网络与多尺度特征融合的gis放电波形检测方法 |
CN111626373B (zh) * | 2020-06-01 | 2023-07-25 | 中国科学院自动化研究所 | 多尺度加宽残差网络、小目标识别检测网络及其优化方法 |
CN111783784A (zh) * | 2020-06-30 | 2020-10-16 | 创新奇智(合肥)科技有限公司 | 建筑的空洞检测方法及装置、电子设备、存储介质 |
CN111860264B (zh) * | 2020-07-10 | 2024-01-05 | 武汉理工大学 | 一种基于梯度均衡策略的多任务实例级道路场景理解算法 |
CN111986126B (zh) * | 2020-07-17 | 2022-05-24 | 浙江工业大学 | 一种基于改进vgg16网络的多目标检测方法 |
CN112288686B (zh) * | 2020-07-29 | 2023-12-19 | 深圳市智影医疗科技有限公司 | 一种模型训练方法、装置、电子设备和存储介质 |
CN112183579B (zh) * | 2020-09-01 | 2023-05-30 | 国网宁夏电力有限公司检修公司 | 一种微小目标检测方法、介质及*** |
CN112149521B (zh) * | 2020-09-03 | 2024-05-07 | 浙江工业大学 | 一种基于多任务卷积神经网络的掌纹roi提取与增强的方法 |
CN112116079A (zh) * | 2020-09-22 | 2020-12-22 | 视觉感知(北京)科技有限公司 | 一种神经网络间数据传输的解决方法 |
CN112132816B (zh) * | 2020-09-27 | 2022-12-30 | 北京理工大学 | 一种基于多任务与感兴趣区域分割引导的目标检测方法 |
CN112200089B (zh) * | 2020-10-12 | 2021-09-14 | 西南交通大学 | 一种基于车辆计数感知注意力的稠密车辆检测方法 |
CN112347967B (zh) * | 2020-11-18 | 2023-04-07 | 北京理工大学 | 一种复杂场景下融合运动信息的行人检测方法 |
CN112560627A (zh) * | 2020-12-09 | 2021-03-26 | 江苏集萃未来城市应用技术研究所有限公司 | 基于神经网的工地人员异常行为实时检测方法 |
CN112508016B (zh) * | 2020-12-15 | 2024-04-16 | 深圳万兴软件有限公司 | 一种图像处理方法、装置、计算机设备及存储介质 |
CN112712133A (zh) * | 2021-01-15 | 2021-04-27 | 北京华捷艾米科技有限公司 | 深度学习网络模型的训练方法、相关装置及存储介质 |
CN112836816B (zh) * | 2021-02-04 | 2024-02-09 | 南京大学 | 一种适用于光电存算一体处理单元串扰的训练方法 |
CN113269182A (zh) * | 2021-04-21 | 2021-08-17 | 山东师范大学 | 一种基于变体transformer对小区域敏感的目标果实检测方法及*** |
CN113326735B (zh) * | 2021-04-29 | 2023-11-28 | 南京大学 | 一种基于YOLOv5的多模态小目标检测方法 |
CN113239775B (zh) * | 2021-05-09 | 2023-05-02 | 西北工业大学 | 一种基于分层关注深度卷积神经网络的方位历程图中航迹检测与提取方法 |
CN112990444B (zh) * | 2021-05-13 | 2021-09-24 | 电子科技大学 | 一种混合式神经网络训练方法、***、设备及存储介质 |
CN113076962B (zh) * | 2021-05-14 | 2022-10-21 | 电子科技大学 | 一种基于可微神经网络搜索技术的多尺度目标检测方法 |
CN113762278B (zh) * | 2021-09-13 | 2023-11-17 | 中冶路桥建设有限公司 | 一种基于目标检测的沥青路面损坏识别方法 |
CN114048536A (zh) * | 2021-11-18 | 2022-02-15 | 重庆邮电大学 | 一种基于多任务神经网络的道路结构预测与目标检测方法 |
CN113902980B (zh) * | 2021-11-24 | 2024-02-20 | 河南大学 | 基于内容感知的遥感目标检测方法 |
CN114549958B (zh) * | 2022-02-24 | 2023-08-04 | 四川大学 | 基于上下文信息感知机理的夜间和伪装目标检测方法 |
CN114687012A (zh) * | 2022-02-25 | 2022-07-01 | 武汉智目智能技术合伙企业(有限合伙) | 一种针对高含杂量原棉的高效异纤清除装置以及清除方法 |
CN115049952B (zh) * | 2022-04-24 | 2023-04-07 | 南京农业大学 | 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320963A (zh) * | 2015-10-21 | 2016-02-10 | 哈尔滨工业大学 | 面向高分遥感图像的大尺度半监督特征选择方法 |
CN106250812A (zh) * | 2016-07-15 | 2016-12-21 | 汤平 | 一种基于快速r‑cnn深度神经网络的车型识别方法 |
CN106529402A (zh) * | 2016-09-27 | 2017-03-22 | 中国科学院自动化研究所 | 基于多任务学习的卷积神经网络的人脸属性分析方法 |
CN106845430A (zh) * | 2017-02-06 | 2017-06-13 | 东华大学 | 基于加速区域卷积神经网络的行人检测与跟踪方法 |
CN107103590A (zh) * | 2017-03-22 | 2017-08-29 | 华南理工大学 | 一种基于深度卷积对抗生成网络的图像反射去除方法 |
CN107341517A (zh) * | 2017-07-07 | 2017-11-10 | 哈尔滨工业大学 | 一种基于深度学习层级间特征融合的多尺度小物体检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150342560A1 (en) * | 2013-01-25 | 2015-12-03 | Ultrasafe Ultrasound Llc | Novel Algorithms for Feature Detection and Hiding from Ultrasound Images |
US10002313B2 (en) * | 2015-12-15 | 2018-06-19 | Sighthound, Inc. | Deeply learned convolutional neural networks (CNNS) for object localization and classification |
-
2017
- 2017-12-05 CN CN201711267789.7A patent/CN108564097B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320963A (zh) * | 2015-10-21 | 2016-02-10 | 哈尔滨工业大学 | 面向高分遥感图像的大尺度半监督特征选择方法 |
CN106250812A (zh) * | 2016-07-15 | 2016-12-21 | 汤平 | 一种基于快速r‑cnn深度神经网络的车型识别方法 |
CN106529402A (zh) * | 2016-09-27 | 2017-03-22 | 中国科学院自动化研究所 | 基于多任务学习的卷积神经网络的人脸属性分析方法 |
CN106845430A (zh) * | 2017-02-06 | 2017-06-13 | 东华大学 | 基于加速区域卷积神经网络的行人检测与跟踪方法 |
CN107103590A (zh) * | 2017-03-22 | 2017-08-29 | 华南理工大学 | 一种基于深度卷积对抗生成网络的图像反射去除方法 |
CN107341517A (zh) * | 2017-07-07 | 2017-11-10 | 哈尔滨工业大学 | 一种基于深度学习层级间特征融合的多尺度小物体检测方法 |
Non-Patent Citations (1)
Title |
---|
A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection;Zhaowei Cai.et.;《ECCV 2016》;20161231;第354-370页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108564097A (zh) | 2018-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564097B (zh) | 一种基于深度卷积神经网络的多尺度目标检测方法 | |
CN109977918B (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
CN109902677B (zh) | 一种基于深度学习的车辆检测方法 | |
Wang et al. | An improved light-weight traffic sign recognition algorithm based on YOLOv4-tiny | |
CN111126258B (zh) | 图像识别方法及相关装置 | |
CN107563372B (zh) | 一种基于深度学习ssd框架的车牌定位方法 | |
CN110532920B (zh) | 基于FaceNet方法的小数量数据集人脸识别方法 | |
CN110929577A (zh) | 一种基于YOLOv3的轻量级框架改进的目标识别方法 | |
CN114220035A (zh) | 一种基于改进yolo v4的快速害虫检测方法 | |
CN106845430A (zh) | 基于加速区域卷积神经网络的行人检测与跟踪方法 | |
CN109977997A (zh) | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 | |
CN112801236B (zh) | 图像识别模型的迁移方法、装置、设备及存储介质 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN111753682A (zh) | 一种基于目标检测算法的吊装区域动态监控方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN114821014A (zh) | 基于多模态与对抗学习的多任务目标检测识别方法及装置 | |
CN114821102A (zh) | 密集柑橘数量检测方法、设备、存储介质及装置 | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与*** | |
CN117422857A (zh) | 一种司法证据图像的目标检测方法 | |
CN113963333B (zh) | 一种基于改进yolof模型的交通标志牌检测方法 | |
CN110929726B (zh) | 一种铁路接触网支柱号牌识别方法及*** | |
CN109284752A (zh) | 一种车辆的快速检测方法 | |
CN116258931B (zh) | 基于ViT和滑窗注意力融合的视觉指代表达理解方法和*** | |
CN115953743A (zh) | 一种基于改进的yolo模型的车位状态识别方法 | |
Tewari et al. | Vehicle detection in aerial images using selective search with a simple deep learning based combination classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |