CN109522969A - 基于深度学习的特定物品发现方法 - Google Patents
基于深度学习的特定物品发现方法 Download PDFInfo
- Publication number
- CN109522969A CN109522969A CN201811444686.8A CN201811444686A CN109522969A CN 109522969 A CN109522969 A CN 109522969A CN 201811444686 A CN201811444686 A CN 201811444686A CN 109522969 A CN109522969 A CN 109522969A
- Authority
- CN
- China
- Prior art keywords
- layer
- parameter
- filter
- stride
- span
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一套基于深度学习算法的方法用于物体发现任务,效果凌驾于图像分类算法。具体而言,本发明的基于深度学习的特定物品发现方法,它使用深度卷积神经网网络,并加入特定物体的位置信息,使用交叉熵(crossentropyloss)损失函数和欧式距离损失函数(12 loss)的和作为损失函数来训练深度神经网络而非图像分类算法里的交叉熵(crossentropy loss)损失函数。算法在开源数据集上的效果远远优于图像分类算法。
Description
技术领域
本发明涉及图片检索和判断领域,具体而言,是涉及从一种图片中判断特定物体是否存在的方法。
背景技术
特定物体发现是指在一张图片内判断特定物体是否存在的任务。特定物体发现的应用领域广泛,比如在安检图片中判断旅客行李中是否存在特定危险品,在捕鱼船的监控摄像头上判断捕到的鱼是否存在特定珍惜保护鱼类等。相较于图像分类算法,本方法能够在训练时更好地利用物***置信息来达到更高的识别准确率。
近年来深度学习的发展迅速,深度学习算法在图像分类,物体检测上都有很好的表现。物体发现任务与图像分类任务类似,两者都需判断图像中是否存在特定物体,不同之处在于图像分类任务的图片中的主物体为特定物体,而物体发现任务中的主物体可以不是特定物体。比比如,捕鱼船上的监控摄像头所生成的图片片在大多数情况下都很类似,仅在显示出鱼的地方不同。在使用图像分类算法解决物体发现任务时,效果不甚理想,因为图像分类算法适合对图像主物体进行判断,对不是主物体的特定物体无无法有效定位,并在此基础上进行判断。本发明提出一套基于深度学习算法的方法用于物体发现任务,效果凌驾于图像分类算法。
发明内容
针对现有技术中存在的问题,本发明目的是提出一套基于深度学习算法的方法用于物体发现任务,效果凌驾于图像分类算法。
为了实现上述发明目的,本发明采用的技术方案为:一种基于深度学习的特定物品发现方法,它使用深度卷积神经网网络,并加入特定物体的位置信息,使用交叉熵(crossentropyloss)损失函数和欧式距离损失函数(l2 loss)的和作为损失函数来训练深度神经网络而非图像分类算法里的交叉熵(crossentropy loss)损失函数。算法在开源数据集上的效果远远优于图像分类算法。
使用深度卷积网络在执行图像分类任务时,往往需要数以万计的高质量标注图片,且图片之间不能过于类似。这是因为深度卷积神经网络是对一张图片中的所有区域进行特征提取,类似的图片所提取得到的特征往往也十分类似。这样直接影响了算法的准确率。
本发明的技术方案是:由于图像之间的相似性较高,在学习图像分类的基础上再学习物体的位置信息,使得深度卷积神经网络借助人为标注的位置信息,将注意力集中在所标注的部分,从而更有目标地学习,提高深度卷积神经网络的识别准确率。具体步骤为:
步骤1:构建数据集中的类别信息,首先收集需要分类的图片,其次给每个图片标注其所属于的类别;
步骤2:构建数据集中的位置信息,在步骤1收集的数据集图片里,标注出物体所在的方框,给出方框的左上坐标(x,y)以及方框长宽w,h;
步骤3:构建深度卷积神经网络中的特征提取模块;
机器学习领域在这些年总结出了许多高效的网络架构做图像特征提取,这部分的神经网络例如VGG16里的叠加卷积池化部分,ResNet101中的残差块部分。
步骤4:构建深度卷积神经网络中的损失函数模块;
这里需要构建两个损失函数,损失函数1为计算交叉熵的图像分类损失函数,损失函数2为计算平均L2距离(Mean Squared Error)的图片位置信息损失函数。
步骤5:训练神经网络。以步骤4中的两个损失函数的和为目标使用反向传播训练深度卷积神经网络的参数,两个损失函数的值都参与网络参数的训练迭代。
步骤6:使用神经网络。用训练好的模型进行预测,输出目标的类别分布和位置信息,仅使用类别分布来输出预测的类别。
有益效果:
本发明的基于深度学习算法的方法用于物体发现任务,效果凌驾于图像分类算法,它使用深度卷积神经网网络,并加入特定物体的位置信息,使用交叉熵(crossentropyloss)损失函数和欧式距离损失函数(l2 loss)的和作为损失函数来训练深度神经网络而非图像分类算法里的交叉熵损失函数。算法在开源数据集上的效果远远优于图像分类算法。
现有技术中使用传统的深度卷积神经网络算法得到的结果,算法未能成功识别船上的鱼类(如图2中的左图所示)。图2中的右图为加入了位置信息的深度卷积神经网络算法所得到的结果,算法成功地识别到船上的鱼类并识别出了长鳍金枪鱼种类。
附图说明
图1为本发明实施例的基于深度学习的特定物品发现方法流程图。
图2为本发明实施例的实际使用中的效果图。
图3为本发明实施例的VGG16模型里的叠加卷积池化部分的架构图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。
在使用深度卷积网络在执行图像分类任务时,往往需要数以万计的高质量标注图片,且图片之间不能过于类似。这是因为深度卷积神经网络是对一张图片中的所有区域进行特征提取,类似的图片所提取得到的特征往往也十分类似。这样直接影响了算法的准确率。
本发明的主要思路是:由于图像之间的相似性较高,我们在学习图像分类的基础上再学习物体的位置信息,使得深度卷积神经网络借助人为标注的位置信息,将注意力集中在所标注的部分,从而更有目标地学习,提高深度卷积神经网络的识别准确率。
如图1所示,是本实施例的基于深度学习的特定物品发现方法流程图,具体步骤为:
步骤一:构建数据集中的类别信息。
本发明所述方法实施过程中的数据库来源于公开的自然保护深海鱼类数据集。该数据集共包含8个种类,一共有4140张不同大小的彩色图片。其中训练图片3500张,验证图片640张。
步骤二:构建数据集中的位置信息。
步骤一的数据集并不自带位置信息,因此我们用人力手工标注了全部3500张图片里物体的位置信息。标注过程为:使用开源软件labelimg,对每一张图片中出现的鱼类画框(bounding box),框的大小完全包含鱼且不遗留过多空白。若图片中没有鱼则不画框。labelimg会自动将画出的框的左上角点(x,y)坐标,以及框的长(width),宽(height),图片名(filename),图片种类(class)保存。我们将该信息整理为图片名(filename)对应左上角点(x,y),长(width),宽(height)的json格式。我们不使用图片种类。
步骤三:构建深度卷积神经网络的特征提取模块。
我们使用深度卷积神经网络VGG16模型里的叠加卷积池化部分作为特征提取模块。如图3所示,VGG16模型里的叠加卷积池化部分的架构图。
VGG16模型里的叠加卷积池化部分的架构是:
第一层:输入层,输入的参数大小为(224,224,3);
第二层:卷积层,参数为过滤器(filters)=64,跨度(stride)=(1,1),过滤器大小=(3,3);
第三层:卷积层,参数为过滤器(filters)=64,跨度(stride)=(1,1)过滤器大小=(3,3);
第四层:最大池化层,池化大小=(2,2),跨度(stride)=(1,1);
第五层:卷积层,参数为过滤器(filters)=128,跨度(stride)=(1,1)过滤器大小=(3,3);
第六层:卷积层,参数为过滤器(filters)=128,跨度(stride)=(1,1)过滤器大小=(3,3);
第七层:最大池化层,池化大小=(2,2),跨度(stride)=(1,1);
第八层:卷积层,参数为过滤器(filters)=256,跨度(stride)=(1,1)过滤器大小=(3,3);
第九层:卷积层,参数为过滤器(filters)=256,跨度(stride)=(1,1)过滤器大小=(3,3);
第十层:卷积层,参数为过滤器(filters)=256,跨度(stride)=(1,1)过滤器大小=(3,3);
第十一层:最大池化层,池化大小=(2,2),跨度(stride)=(1,1);
第十二层:卷积层,参数为过滤器(filters)=512,跨度(stride)=(1,1)过滤器大小=(3,3);
第十三层:卷积层,参数为过滤器(filters)=512,跨度(stride)=(1,1)过滤器大小=(3,3);
第十四层:卷积层,参数为过滤器(filters)=512,跨度(stride)=(1,1)过滤器大小=(3,3)。
步骤四:构建深度卷积神经网络的损失函数模块。
本实施例中的损失函数为2个损失函数的和:
1.交叉熵损失函数:
2.L2损失函数:
步骤五:训练神经网络。
本实施例中的深度卷积神经网络的参数初始值由正态分布随机初始化,正态分布的参数为Mean=0,Variance=1。初始化的参数需依照Xavier方法乘以XavierInitialization系数。XavierInitialization系数:
之后,由随即梯度下降法(Stochastic Gradient Descent)根据步骤四中的损失函数更新整个网络的参数。随即梯度下降法的学习率是0.05;
步骤六:使用神经网络进行预测。
用训练好的模型进行预测,模型输出为长度为12的向量。向量里的1-8表示类别的概率分布,向量里的9-12表示(x,y),长,宽信息。输出结果时仅使用1-8,概率分布中最大值所对应的类别就是输出类别。
以上所述,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,依据本发明的技术实质对以上实施例所作的任何非本质修改或等同变化,均仍属于本发明权利要求书的保护范围内。
Claims (5)
1.一种基于深度学习的特定物品发现方法,其特征在于,它包括步骤:
步骤1:构建数据集中的类别信息,首先收集需要分类的图片,其次给每个图片标注其所属于的类别;
步骤2:构建数据集中的位置信息,在步骤1收集的数据集图片里,标注出物体所在的方框,给出方框的左上坐标(x,y)以及方框长宽w,h;
步骤3:构建深度卷积神经网络中的特征提取模块;
步骤4:构建深度卷积神经网络中的损失函数模块;
步骤5:训练神经网络,以步骤4中的两个损失函数的和为目标使用反向传播训练深度卷积神经网络的参数,两个损失函数的值都参与网络参数的训练迭代;
步骤6:使用神经网络,用训练好的模型进行预测,输出目标的类别分布和位置信息,仅使用类别分布来输出预测的类别。
2.根据权利要求1所述的基于深度学习的特定物品发现方法,其特征在于:所述步骤3中,使用深度卷积神经网络VGG16模型里的叠加卷积池化部分作为特征提取模块,VGG16模型里的叠加卷积池化部分的架构是:
第一层:输入层,输入的参数大小为(224,224,3);
第二层:卷积层,参数为过滤器(filters)=64,跨度(stride)=(1,1),过滤器大小=(3,3);
第三层:卷积层,参数为过滤器(filters)=64,跨度(stride)=(1,1)过滤器大小=(3,3);
第四层:最大池化层,池化大小=(2,2),跨度(stride)=(1,1);
第五层:卷积层,参数为过滤器(filters)=128,跨度(stride)=(1,1)过滤器大小=(3,3);
第六层:卷积层,参数为过滤器(filters)=128,跨度(stride)=(1,1)过滤器大小=(3,3);
第七层:最大池化层,池化大小=(2,2),跨度(stride)=(1,1);
第八层:卷积层,参数为过滤器(filters)=256,跨度(stride)=(1,1)过滤器大小=(3,3);
第九层:卷积层,参数为过滤器(filters)=256,跨度(stride)=(1,1)过滤器大小=(3,3);
第十层:卷积层,参数为过滤器(filters)=256,跨度(stride)=(1,1)过滤器大小=(3,3);
第十一层:最大池化层,池化大小=(2,2),跨度(stride)=(1,1);
第十二层:卷积层,参数为过滤器(filters)=512,跨度(stride)=(1,1)过滤器大小=(3,3);
第十三层:卷积层,参数为过滤器(filters)=512,跨度(stride)=(1,1)过滤器大小=(3,3);
第十四层:卷积层,参数为过滤器(filters)=512,跨度(stride)=(1,1)过滤器大小=(3,3)。
3.根据权利要求1所述的基于深度学***均L2距离(Mean Squared Error)的图片位置信息损失函数,损失函数为2个损失函数的和:
1.交叉熵损失函数:
2.L2损失函数:
。
4.根据权利要求1所述的基于深度学习的特定物品发现方法,其特征在于:所述步骤5中,深度卷积神经网络的参数初始值由正态分布随机初始化,正态分布的参数为Mean=0,Variance=1;初始化的参数需依照Xavier方法乘以Xavier Initialization系数;XavierInitialization系数:
之后, 由随即梯度下降法(Stochastic Gradient Descent)根据步骤4中的损失函数更新整个网络的参数,随即梯度下降法的学习率是0.05。
5.根据权利要求1所述的基于深度学习的特定物品发现方法,其特征在于:所述步骤6中,用训练好的模型进行预测,模型输出为长度为12的向量;向量里的1-8表示类别的概率分布,向量里的9-12表示(x,y),长,宽信息;输出结果时仅使用1-8,概率分布中最大值所对应的类别就是输出类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811444686.8A CN109522969A (zh) | 2018-11-29 | 2018-11-29 | 基于深度学习的特定物品发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811444686.8A CN109522969A (zh) | 2018-11-29 | 2018-11-29 | 基于深度学习的特定物品发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109522969A true CN109522969A (zh) | 2019-03-26 |
Family
ID=65794783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811444686.8A Pending CN109522969A (zh) | 2018-11-29 | 2018-11-29 | 基于深度学习的特定物品发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522969A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334807A (zh) * | 2019-05-31 | 2019-10-15 | 北京奇艺世纪科技有限公司 | 深度学习网络的训练方法、装置、设备和存储介质 |
CN111523545A (zh) * | 2020-05-06 | 2020-08-11 | 青岛联合创智科技有限公司 | 一种结合深度信息的物品查找方法 |
CN112200123A (zh) * | 2020-10-24 | 2021-01-08 | 中国人民解放军国防科技大学 | 联合稠密连接网络和样本分布的高光谱开放集分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845471A (zh) * | 2017-02-20 | 2017-06-13 | 深圳市唯特视科技有限公司 | 一种基于生成对抗网络的视觉显著性预测方法 |
CN107169421A (zh) * | 2017-04-20 | 2017-09-15 | 华南理工大学 | 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法 |
CN108171748A (zh) * | 2018-01-23 | 2018-06-15 | 哈工大机器人(合肥)国际创新研究院 | 一种面向机器人智能抓取应用的视觉识别与定位方法 |
CN108830225A (zh) * | 2018-06-13 | 2018-11-16 | 广东工业大学 | 太赫兹图像中目标物体的检测方法、装置、设备及介质 |
-
2018
- 2018-11-29 CN CN201811444686.8A patent/CN109522969A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845471A (zh) * | 2017-02-20 | 2017-06-13 | 深圳市唯特视科技有限公司 | 一种基于生成对抗网络的视觉显著性预测方法 |
CN107169421A (zh) * | 2017-04-20 | 2017-09-15 | 华南理工大学 | 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法 |
CN108171748A (zh) * | 2018-01-23 | 2018-06-15 | 哈工大机器人(合肥)国际创新研究院 | 一种面向机器人智能抓取应用的视觉识别与定位方法 |
CN108830225A (zh) * | 2018-06-13 | 2018-11-16 | 广东工业大学 | 太赫兹图像中目标物体的检测方法、装置、设备及介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334807A (zh) * | 2019-05-31 | 2019-10-15 | 北京奇艺世纪科技有限公司 | 深度学习网络的训练方法、装置、设备和存储介质 |
CN110334807B (zh) * | 2019-05-31 | 2021-09-28 | 北京奇艺世纪科技有限公司 | 深度学习网络的训练方法、装置、设备和存储介质 |
CN111523545A (zh) * | 2020-05-06 | 2020-08-11 | 青岛联合创智科技有限公司 | 一种结合深度信息的物品查找方法 |
CN112200123A (zh) * | 2020-10-24 | 2021-01-08 | 中国人民解放军国防科技大学 | 联合稠密连接网络和样本分布的高光谱开放集分类方法 |
CN112200123B (zh) * | 2020-10-24 | 2022-04-05 | 中国人民解放军国防科技大学 | 联合稠密连接网络和样本分布的高光谱开放集分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tao et al. | Smoke detection based on deep convolutional neural networks | |
CN106845621B (zh) | 基于深度卷积神经网络的密集人群人数计数方法及*** | |
CN109214441A (zh) | 一种细粒度车型识别***及方法 | |
CN106682697A (zh) | 一种基于卷积神经网络的端到端物体检测方法 | |
CN103268495B (zh) | 计算机***中基于先验知识聚类的人体行为建模识别方法 | |
CN111723654A (zh) | 基于背景建模、YOLOv3与自优化的高空抛物检测方法及装置 | |
CN110930297B (zh) | 人脸图像的风格迁移方法、装置、电子设备及存储介质 | |
CN104036255B (zh) | 一种人脸表情识别方法 | |
CN107657249A (zh) | 多尺度特征行人重识别的方法、装置、存储介质及处理器 | |
CN108460356A (zh) | 一种基于监控***的人脸图像自动处理*** | |
CN112861635B (zh) | 一种基于深度学习的火灾及烟雾实时检测方法 | |
CN109522969A (zh) | 基于深度学习的特定物品发现方法 | |
CN114582030B (zh) | 一种基于服务机器人的行为识别方法 | |
CN110414400B (zh) | 一种施工现场安全帽穿戴自动检测方法及*** | |
CN110532850B (zh) | 一种基于视频关节点和混合分类器的跌倒检测方法 | |
CN107220603A (zh) | 基于深度学习的车辆检测方法及装置 | |
CN111709285A (zh) | 一种基于无人机的疫情防护监控方法、装置和存储介质 | |
CN107622261A (zh) | 基于深度学习的人脸年龄估计方法及装置 | |
CN109801260A (zh) | 牲畜个数的识别方法及装置 | |
CN110263728A (zh) | 基于改进的伪三维残差神经网络的异常行为检测方法 | |
CN110532970A (zh) | 人脸2d图像的年龄性别属性分析方法、***、设备和介质 | |
CN111898430A (zh) | 基于深度学习的电梯轿厢人员智能识别方法 | |
CN105956570B (zh) | 基于唇部特征和深度学习的笑脸识别方法 | |
CN109241814A (zh) | 基于yolo神经网络的行人检测方法 | |
CN107392251B (zh) | 一种使用分类图片提升目标检测网络性能的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |