CN109522969A

CN109522969A - 基于深度学习的特定物品发现方法

Info

Publication number: CN109522969A
Application number: CN201811444686.8A
Authority: CN
Inventors: 凌志辉; 俞旸; 徐中恒
Original assignee: Nanjing Yun Si Powerise Mdt Infotech Ltd
Current assignee: Nanjing Yun Si Powerise Mdt Infotech Ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-03-26

Abstract

本发明公开了一套基于深度学习算法的方法用于物体发现任务，效果凌驾于图像分类算法。具体而言，本发明的基于深度学习的特定物品发现方法，它使用深度卷积神经网网络，并加入特定物体的位置信息，使用交叉熵(crossentropyloss)损失函数和欧式距离损失函数(12 loss)的和作为损失函数来训练深度神经网络而非图像分类算法里的交叉熵(crossentropy loss)损失函数。算法在开源数据集上的效果远远优于图像分类算法。

Description

基于深度学习的特定物品发现方法

技术领域

本发明涉及图片检索和判断领域，具体而言，是涉及从一种图片中判断特定物体是否存在的方法。

背景技术

特定物体发现是指在一张图片内判断特定物体是否存在的任务。特定物体发现的应用领域广泛，比如在安检图片中判断旅客行李中是否存在特定危险品，在捕鱼船的监控摄像头上判断捕到的鱼是否存在特定珍惜保护鱼类等。相较于图像分类算法，本方法能够在训练时更好地利用物***置信息来达到更高的识别准确率。

近年来深度学习的发展迅速，深度学习算法在图像分类，物体检测上都有很好的表现。物体发现任务与图像分类任务类似，两者都需判断图像中是否存在特定物体，不同之处在于图像分类任务的图片中的主物体为特定物体，而物体发现任务中的主物体可以不是特定物体。比比如，捕鱼船上的监控摄像头所生成的图片片在大多数情况下都很类似，仅在显示出鱼的地方不同。在使用图像分类算法解决物体发现任务时，效果不甚理想，因为图像分类算法适合对图像主物体进行判断，对不是主物体的特定物体无无法有效定位，并在此基础上进行判断。本发明提出一套基于深度学习算法的方法用于物体发现任务，效果凌驾于图像分类算法。

发明内容

针对现有技术中存在的问题，本发明目的是提出一套基于深度学习算法的方法用于物体发现任务，效果凌驾于图像分类算法。

为了实现上述发明目的，本发明采用的技术方案为：一种基于深度学习的特定物品发现方法，它使用深度卷积神经网网络，并加入特定物体的位置信息，使用交叉熵(crossentropyloss)损失函数和欧式距离损失函数(l2 loss)的和作为损失函数来训练深度神经网络而非图像分类算法里的交叉熵(crossentropy loss)损失函数。算法在开源数据集上的效果远远优于图像分类算法。

使用深度卷积网络在执行图像分类任务时，往往需要数以万计的高质量标注图片，且图片之间不能过于类似。这是因为深度卷积神经网络是对一张图片中的所有区域进行特征提取，类似的图片所提取得到的特征往往也十分类似。这样直接影响了算法的准确率。

本发明的技术方案是：由于图像之间的相似性较高，在学习图像分类的基础上再学习物体的位置信息，使得深度卷积神经网络借助人为标注的位置信息，将注意力集中在所标注的部分，从而更有目标地学习，提高深度卷积神经网络的识别准确率。具体步骤为：

步骤1：构建数据集中的类别信息，首先收集需要分类的图片，其次给每个图片标注其所属于的类别；

步骤2：构建数据集中的位置信息，在步骤1收集的数据集图片里，标注出物体所在的方框，给出方框的左上坐标(x，y)以及方框长宽w，h；

步骤3：构建深度卷积神经网络中的特征提取模块；

机器学习领域在这些年总结出了许多高效的网络架构做图像特征提取，这部分的神经网络例如VGG16里的叠加卷积池化部分，ResNet101中的残差块部分。

步骤4：构建深度卷积神经网络中的损失函数模块；

这里需要构建两个损失函数，损失函数1为计算交叉熵的图像分类损失函数，损失函数2为计算平均L2距离(Mean Squared Error)的图片位置信息损失函数。

步骤5：训练神经网络。以步骤4中的两个损失函数的和为目标使用反向传播训练深度卷积神经网络的参数，两个损失函数的值都参与网络参数的训练迭代。

步骤6：使用神经网络。用训练好的模型进行预测，输出目标的类别分布和位置信息，仅使用类别分布来输出预测的类别。

有益效果：

本发明的基于深度学习算法的方法用于物体发现任务，效果凌驾于图像分类算法，它使用深度卷积神经网网络，并加入特定物体的位置信息，使用交叉熵(crossentropyloss)损失函数和欧式距离损失函数(l2 loss)的和作为损失函数来训练深度神经网络而非图像分类算法里的交叉熵损失函数。算法在开源数据集上的效果远远优于图像分类算法。

现有技术中使用传统的深度卷积神经网络算法得到的结果，算法未能成功识别船上的鱼类(如图2中的左图所示)。图2中的右图为加入了位置信息的深度卷积神经网络算法所得到的结果，算法成功地识别到船上的鱼类并识别出了长鳍金枪鱼种类。

附图说明

图1为本发明实施例的基于深度学习的特定物品发现方法流程图。

图2为本发明实施例的实际使用中的效果图。

图3为本发明实施例的VGG16模型里的叠加卷积池化部分的架构图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。

在使用深度卷积网络在执行图像分类任务时，往往需要数以万计的高质量标注图片，且图片之间不能过于类似。这是因为深度卷积神经网络是对一张图片中的所有区域进行特征提取，类似的图片所提取得到的特征往往也十分类似。这样直接影响了算法的准确率。

本发明的主要思路是：由于图像之间的相似性较高，我们在学习图像分类的基础上再学习物体的位置信息，使得深度卷积神经网络借助人为标注的位置信息，将注意力集中在所标注的部分，从而更有目标地学习，提高深度卷积神经网络的识别准确率。

如图1所示，是本实施例的基于深度学习的特定物品发现方法流程图，具体步骤为：

步骤一：构建数据集中的类别信息。

本发明所述方法实施过程中的数据库来源于公开的自然保护深海鱼类数据集。该数据集共包含8个种类，一共有4140张不同大小的彩色图片。其中训练图片3500张，验证图片640张。

步骤二：构建数据集中的位置信息。

步骤一的数据集并不自带位置信息，因此我们用人力手工标注了全部3500张图片里物体的位置信息。标注过程为：使用开源软件labelimg，对每一张图片中出现的鱼类画框(bounding box)，框的大小完全包含鱼且不遗留过多空白。若图片中没有鱼则不画框。labelimg会自动将画出的框的左上角点(x，y)坐标，以及框的长(width)，宽(height)，图片名(filename)，图片种类(class)保存。我们将该信息整理为图片名(filename)对应左上角点(x，y)，长(width)，宽(height)的json格式。我们不使用图片种类。

步骤三：构建深度卷积神经网络的特征提取模块。

我们使用深度卷积神经网络VGG16模型里的叠加卷积池化部分作为特征提取模块。如图3所示，VGG16模型里的叠加卷积池化部分的架构图。

VGG16模型里的叠加卷积池化部分的架构是：

第一层：输入层，输入的参数大小为(224，224，3)；

第二层：卷积层，参数为过滤器(filters)＝64，跨度(stride)＝(1，1)，过滤器大小＝(3，3)；

第三层：卷积层，参数为过滤器(filters)＝64，跨度(stride)＝(1，1)过滤器大小＝(3，3)；

第四层：最大池化层，池化大小＝(2，2)，跨度(stride)＝(1，1)；

第五层：卷积层，参数为过滤器(filters)＝128，跨度(stride)＝(1，1)过滤器大小＝(3，3)；

第六层：卷积层，参数为过滤器(filters)＝128，跨度(stride)＝(1，1)过滤器大小＝(3，3)；

第七层：最大池化层，池化大小＝(2，2)，跨度(stride)＝(1，1)；

第八层：卷积层，参数为过滤器(filters)＝256，跨度(stride)＝(1，1)过滤器大小＝(3，3)；

第九层：卷积层，参数为过滤器(filters)＝256，跨度(stride)＝(1，1)过滤器大小＝(3，3)；

第十层：卷积层，参数为过滤器(filters)＝256，跨度(stride)＝(1，1)过滤器大小＝(3，3)；

第十一层：最大池化层，池化大小＝(2，2)，跨度(stride)＝(1，1)；

第十二层：卷积层，参数为过滤器(filters)＝512，跨度(stride)＝(1，1)过滤器大小＝(3，3)；

第十三层：卷积层，参数为过滤器(filters)＝512，跨度(stride)＝(1，1)过滤器大小＝(3，3)；

第十四层：卷积层，参数为过滤器(filters)＝512，跨度(stride)＝(1，1)过滤器大小＝(3，3)。

步骤四：构建深度卷积神经网络的损失函数模块。

本实施例中的损失函数为2个损失函数的和：

1.交叉熵损失函数：

2.L2损失函数：

步骤五：训练神经网络。

本实施例中的深度卷积神经网络的参数初始值由正态分布随机初始化，正态分布的参数为Mean＝0，Variance＝1。初始化的参数需依照Xavier方法乘以XavierInitialization系数。XavierInitialization系数：

之后，由随即梯度下降法(Stochastic Gradient Descent)根据步骤四中的损失函数更新整个网络的参数。随即梯度下降法的学习率是0.05；

步骤六：使用神经网络进行预测。

用训练好的模型进行预测，模型输出为长度为12的向量。向量里的1-8表示类别的概率分布，向量里的9-12表示(x，y)，长，宽信息。输出结果时仅使用1-8，概率分布中最大值所对应的类别就是输出类别。

以上所述，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，依据本发明的技术实质对以上实施例所作的任何非本质修改或等同变化，均仍属于本发明权利要求书的保护范围内。

Claims

1.一种基于深度学习的特定物品发现方法，其特征在于，它包括步骤：

步骤1:构建数据集中的类别信息，首先收集需要分类的图片，其次给每个图片标注其所属于的类别；

步骤2:构建数据集中的位置信息，在步骤1收集的数据集图片里，标注出物体所在的方框，给出方框的左上坐标(x,y)以及方框长宽w,h；

步骤3:构建深度卷积神经网络中的特征提取模块；

步骤4:构建深度卷积神经网络中的损失函数模块；

步骤5:训练神经网络，以步骤4中的两个损失函数的和为目标使用反向传播训练深度卷积神经网络的参数，两个损失函数的值都参与网络参数的训练迭代；

步骤6:使用神经网络，用训练好的模型进行预测，输出目标的类别分布和位置信息，仅使用类别分布来输出预测的类别。

2.根据权利要求1所述的基于深度学习的特定物品发现方法，其特征在于：所述步骤3中，使用深度卷积神经网络VGG16模型里的叠加卷积池化部分作为特征提取模块，VGG16模型里的叠加卷积池化部分的架构是：

第一层：输入层，输入的参数大小为(224,224,3)；

第二层：卷积层，参数为过滤器(filters)＝64，跨度(stride)＝(1,1)，过滤器大小＝(3,3)；

第三层：卷积层，参数为过滤器(filters)＝64，跨度(stride)＝(1,1)过滤器大小＝(3,3)；

第四层：最大池化层，池化大小＝(2,2)，跨度(stride)＝(1,1)；

第五层：卷积层，参数为过滤器(filters)＝128，跨度(stride)＝(1,1)过滤器大小＝(3,3)；

第六层：卷积层，参数为过滤器(filters)＝128，跨度(stride)＝(1,1)过滤器大小＝(3,3)；

第七层：最大池化层，池化大小＝(2,2)，跨度(stride)＝(1,1)；

第八层：卷积层，参数为过滤器(filters)＝256，跨度(stride)＝(1,1)过滤器大小＝(3,3)；

第九层：卷积层，参数为过滤器(filters)＝256，跨度(stride)＝(1,1)过滤器大小＝(3,3)；

第十层：卷积层，参数为过滤器(filters)＝256，跨度(stride)＝(1,1)过滤器大小＝(3,3)；

第十一层：最大池化层，池化大小＝(2,2)，跨度(stride)＝(1,1)；

第十二层：卷积层，参数为过滤器(filters)＝512，跨度(stride)＝(1,1)过滤器大小＝(3,3)；

第十三层：卷积层，参数为过滤器(filters)＝512，跨度(stride)＝(1,1)过滤器大小＝(3,3)；

第十四层：卷积层，参数为过滤器(filters)＝512，跨度(stride)＝(1,1)过滤器大小＝(3,3)。

3.根据权利要求1所述的基于深度学***均L2距离(Mean Squared Error)的图片位置信息损失函数，损失函数为2个损失函数的和：

1.交叉熵损失函数：

2.L2损失函数：

。

4.根据权利要求1所述的基于深度学习的特定物品发现方法，其特征在于：所述步骤5中，深度卷积神经网络的参数初始值由正态分布随机初始化，正态分布的参数为Mean＝0,Variance＝1；初始化的参数需依照Xavier方法乘以Xavier Initialization系数；XavierInitialization系数：

之后，由随即梯度下降法(Stochastic Gradient Descent)根据步骤4中的损失函数更新整个网络的参数，随即梯度下降法的学习率是0.05。

5.根据权利要求1所述的基于深度学习的特定物品发现方法，其特征在于：所述步骤6中，用训练好的模型进行预测，模型输出为长度为12的向量；向量里的1-8表示类别的概率分布，向量里的9-12表示(x,y)，长，宽信息；输出结果时仅使用1-8，概率分布中最大值所对应的类别就是输出类别。