CN111368637B - 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 - Google Patents

一种基于多掩模卷积神经网络的搬运机器人识别目标方法 Download PDF

Info

Publication number
CN111368637B
CN111368637B CN202010084190.5A CN202010084190A CN111368637B CN 111368637 B CN111368637 B CN 111368637B CN 202010084190 A CN202010084190 A CN 202010084190A CN 111368637 B CN111368637 B CN 111368637B
Authority
CN
China
Prior art keywords
convolution
convolution layer
mask
target
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010084190.5A
Other languages
English (en)
Other versions
CN111368637A (zh
Inventor
谢非
陆飞
杨继全
吴俊�
汪璠
吴启宇
茆国婷
陈书颖
刘益剑
章悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Intelligent High End Equipment Industry Research Institute Co ltd
Nanjing Normal University
Original Assignee
Nanjing Intelligent High End Equipment Industry Research Institute Co ltd
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Intelligent High End Equipment Industry Research Institute Co ltd, Nanjing Normal University filed Critical Nanjing Intelligent High End Equipment Industry Research Institute Co ltd
Priority to CN202010084190.5A priority Critical patent/CN111368637B/zh
Publication of CN111368637A publication Critical patent/CN111368637A/zh
Application granted granted Critical
Publication of CN111368637B publication Critical patent/CN111368637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于多掩模卷积神经网络的搬运机器人识别目标方法,包括:搭建多掩模卷积神经网络,并确定网络结构;选择网络优化器,使用PASCAL VOC数据集作为多掩模卷积神经网络的训练数据集,经过多掩模卷积神经网络模型充分训练,得到训练好的多掩模卷积神经网络;搬运机器人通过摄像头采集视频文件,然后将采集的视频文件逐帧转换为彩色图像,并对彩色图像统一尺寸大小;搬运机器人利用训练好的多掩模卷积神经网络对彩色图像中出现的目标生成目标的坐标位置和目标类别,同时生成实例掩模,从而完成目标的识别。本发明具有识别速度快、识别准确率高的优点。

Description

一种基于多掩模卷积神经网络的搬运机器人识别目标方法
技术领域
本发明涉及搬运机器人及深度学习的技术领域,尤其涉及一种基于多掩模卷积神经网络的搬运机器人识别目标方法。
背景技术
随着工业自动化技术的不断发展,搬运机器人在自动化生产中的应用领域也不断拓宽。可是目前部分搬运机器人仍存在识别目标不准确,识别速度慢的问题,为满足工业生产领域的搬运要求,研究快速准确识别目标的搬运机器人识别技术具有重要意义。
目前,搬运机器人识别目标主要有两种方法,一是通过模板匹配法,就是选取模板后,在待搜索图像中搜索出与模板匹配程度最高的子图,再进行模板和子图的相似度匹配完成识别,这种匹配方法计算量很大,难以应用在对目标识别速度要求较高的搬运机器人上。二是通过深度学习的方法,采用神经网络模型完成识别目标,但目前采用深度学习的方法进行目标识别,一种网络模型中使用ROIPooling层提高了识别的准确速度增加了识别目标的时间,另一种网络模型通过将图形分割成网格,对每个网格进行预测,提高了识别速度,却降低识别的精度。因此目前的网络无法同时具备识别速度高和识别精度高的优点。
发明内容
发明目的:为解决背景技术中存在的技术问题,本发明提出一种基于多掩模卷积神经网络的搬运机器人识别目标方法,包括如下步骤:
步骤1,搭建多掩模卷积神经网络,并确定网络结构;
步骤2,选择网络优化器,使用PASCAL VOC数据集【可参考卢健.基于深度学习的目标检测综述[J].电光与控制:1-11】作为多掩模卷积神经网络的训练数据集,经过多掩模卷积神经网络模型充分训练,得到训练好的多掩模卷积神经网络;
步骤3,搬运机器人通过摄像头采集视频文件,然后将采集的视频文件逐帧转换为彩色图像,并对彩色图像统一尺寸大小;
步骤4,搬运机器人利用训练好的多掩模卷积神经网络对彩色图像中出现的目标生成目标的坐标位置和目标类别,同时生成目标的实例掩模,从而完成目标的识别。
所述多掩模卷积神经网络包括五个部分,具体搭建方法如下:
第一部分包括一个输入层和三个卷积层,用于对数据进行卷积特征提取,第一部分的输入来自于PASCAL VOC数据集,PASCAL VOC数据集里的每一张图像大小为500*500,每一张图像送到输入层;输入层后面是第一部分的第一个卷积层,第一部分的第一个卷积层选用了16个3*3的卷积核,步长为1,填充数量为1,卷积层的输出尺寸计算公式如下所示:
其中,Z是卷积输出数据的长度,W是卷积输入数据的长度,P是填充数量,F是卷积核的长度,S表示步长;
对于第一部分的第一个卷积层,由卷积层的输出尺寸计算公式(1)计算得到第一部分的第一个卷积层的输出大小是500*500*16;
在第一部分的第一个卷积层后使用线性整流函数【可参考吴洋威.基于深度学习的图像去噪算法[D].上海交通大学,2015.】作为激活函数,将经过激活函数的数据送入第一部分的第二个卷积层,第一部分的第二个卷积层采用32个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第一部分第二个卷积层的输出大小是500*500*32;
第一部分的第二个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第三个卷积层,第一部分的第三个卷积层采用64个3*3卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第一部分的第三个卷积层的输出大小是250*250*64;
第二部分包括一个卷积层和两个全连接层;第一部分的第三个卷积层的输出用来输入到第二部分的第一个卷积层,第二部分的第一个卷积层采用128个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第二部分的第一个卷积层的输出大小是250*250*128;
第二部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第二部分的第一个全连接层,第二部分的第一个全连接层有N1(一般取值为1000)个神经元,对应N1个目标类别,第二部分的第一个全连接层后面使用softmax函数【可参考冉鹏,王灵,李昕,刘鹏伟.改进Softmax分类器的深度卷积神经网络及其在人脸识别中的应用[J].上海大学学报(自然科学版),2018,24(03):352-366.】,得到N1个目标类别的置信度系数,置信度系数指目标类别的概率;同时对经过激活函数的第二部分的第一个卷积层送入第二部分的第二个全连接层,第二部分的第二个全连接层有N2(取值一般为4000)个神经元,对应N1个目标类别的候选框位置,每个候选框位置由坐标(x,y,l,h)确定,x代表候选框左上角顶点在多掩模卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的水平距离,y代表候选框左上角顶点在多掩模卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的竖直距离,l代表候选框的长度,h代表候选框的高度。
第三部分包括三个卷积层,将由第一部分的第三个卷积层的输出送入第三部分的第一个卷积层,第三部分的第一个卷积层采用64个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式如下所示:
Z1=(W1-1)×S1-2×P1+F1 (2)
其中,Z1是卷积输出数据的长度,W1是卷积输入数据的长度,P1是填充数量,F1是卷积核的长度,S1表示步长;根据卷积层的输出尺寸计算公式(2),第三部分第一个卷积层的输出大小是250*250*64;第三部分的第一个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第二个卷积层,第三部分的第二个卷积层采用64个4*4卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(2),第三部分第二个卷积层的输出大小是500*500*64;第三部分的第二个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第三个卷积层,第三部分的第三个卷积层采用1000个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式(2),第三部分的第三个卷积层的输出大小是500*500*1000;
第四部分包括三个卷积层,第三部分的第三个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第四部分的第一个卷积层,第四部分的第一个卷积层采用4096个3*3卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第四部分的第一个卷积层的输出大小是250*250*4096;第四部分的第一个卷积层后也使用线性整流函数作为激活函数,送入第四部分的第二个卷积层,第四部分的第二个卷积层采用1000个3*3卷积核,步长为1,填充数量为0,则根据卷积层的输出尺寸计算公式(1),第四部分第二个卷积层的输出大小是125*125*1000,第四部分的第二个卷积层后也使用线性整流函数作为激活函数,送入第四部分的第三个卷积层,第四部分的第三个卷积层采用1000个5*5卷积核,步长为1,填充数量为0,则根据卷积层的输出尺寸计算公式(1),第四部分的第三个卷积层的输出大小是31*31*1000,生成目标的1000个掩模,掩模指对图像选定区域用颜色进行覆盖的区域。
第五部分包括一个卷积层和两个全连接层,第三部分的第三个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第五部分的卷积层,第五部分的卷积层采用1024个3*3卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第五部分的卷积层的输出大小是250*250*1024;第五部分的卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第五部分的第一个全连接层,第五部分的第一个全连接层有N3(取值一般为1024)个神经元,;同时对经过激活函数的第五部分的第一个全连接层送入第五部分的第二个全连接层,第五部分的第二个全连接层有N4(取值一般为1000)个神经元,对应目标的N1个掩模系数,掩模系数指对图像选定区域用颜色进行覆盖的区域的大小。
进一步地,所述步骤2,包括:
步骤2-1,任意选择PASCAL VOC数据集中里的D(一般取值为10000)张真实图片,并且将D张图片使用双线性插值法【可参考端木春江.基于边缘像素点分类和插值的图像放大新算法[J].计算机时代,2015,(04):1-2.】得到尺寸为500*500的图片;
步骤2-2,将D张图片按照4:1比例划分为训练集和测试集,在训练的过程中,将D张图片里的每D1(取值为100)张图片作为一个训练单元;
步骤2-3,损失函数使用交叉熵损失函数【可参考冉鹏,王灵,李昕,刘鹏伟.改进Softmax分类器的深度卷积神经网络及其在人脸识别中的应用[J].上海大学学报(自然科学版),2018,24(03):352-366.】,网络优化器采用亚当优化器【亚当优化器,英文名为AdamOptimizer,可参考杨观赐,杨静,李少波,胡建军.基于Dopout与ADAM优化器的改进CNN算法[J].华中科技大学学报(自然科学版),2018,46(07):122-127.】,对多掩模卷积神经网络进行充分训练,得到训练好的多掩模卷积神经网络模型;
进一步地,所述步骤3,包括:
步骤3-1,搬运机器人通过摄像头采集视频文件;
步骤3-2,将采集的视频文件每隔5帧截取一张图像;
步骤3-3,若截取的图像为灰度图像,采用灰度级-彩色变换法【可参考彭丽莎,王坤,刘欢,黄松岭漏磁图像的改进灰度级—彩色变换法[J].清华大学学报(自然科学版)2015,55(05):592-596】变成彩色图像;
步骤3-4,对彩色图像进行双线性插值法变成尺寸大小为500*500,得到统一尺寸大小的彩色图像。
进一步地,所述步骤4包括:
步骤4-1,将步骤3-4得到的统一尺寸大小的彩色图像输入多掩模卷积神经网络模型中进行识别目标;
步骤4-2,多掩模卷积神经网络模型对每个目标都会生成1000个候选框,每个候选框都有对应的坐标位置(x,y,l,h)和目标类别的置信度系数;
步骤4-3,多掩模卷积神经网络模型对每个目标生成1000个掩模和1000个掩模系数;
步骤4-4,使用非极大值快速抑制算法得到每个目标的实际位置和实际类别;
步骤4-5,对每个目标生成的1000个掩模和1000个掩模系数通过线性组合进行合成,再经过tanh非线性激活函数得到每个目标的实例掩模;
进一步地,所述步骤4-4,包括:
步骤4-4-1,对每个目标里的1000个候选框按照对应的置信度系数的大小情况,由大到小排序;
步骤4-4-2,选中最大置信度系数对应的候选框,计算剩余候选框与最大置信度系数对应的候选框之间的IOU值,IOU值计算公式如下:
IOU=C/Y (3)
其中,C表示两个候选框面积的交集,Y表示两个候选框面积的并集;
步骤4-4-3,设定一个阈值t,t一般取值为0.4,根据公式(4)计算新的置信度系数:
其中M为最大置信度系数对应的候选框,si为剩余候选框,IOU(M,si)为M与si的IOU值,G为最大置信度系数对应的候选框经过公式(4)计算得到的新的置信度系数。
如果G=0,则删除最大置信度系数对应的候选框;
步骤4-4-4,从剩余候选框中继续选取一个最大置信度系数对应的候选框,重复4-4-1~步骤4-4-3,直到只剩一个候选框,候选框的坐标位置(x,y,l,h)就是目标的实际位置,最大置信度系数对应的目标类别就是目标的实际类别。
进一步地,所述步骤4-5,包括
步骤4-5-1,每个目标生成的1000个掩模和1000个掩模系数通过线性组合进行合成得到合成掩模,线性组合公式(5)如下:
MU=PU*CU (5)
其中MU为合成掩模,PU为掩模的31*31*1000的矩阵,CU为掩模系数1000*1的矩阵;
步骤4-5-2,将每个目标的合成掩模通过非线性激活函数tanh函数进行激活得到每个目标的实例掩模,实例掩模指每个目标识别后所要产生的掩模,tanh函数公式如下所示:
其中e=2.71828,x0为步骤4-5-1中得到的合成掩模MU。
由以上技术方案可知,本发明提供了一种基于多掩模卷积神经网络的搬运机器人识别目标方法,包括:步骤1:搭建多掩模卷积神经网络,并确定网络结构;步骤2:选择网络优化器,使用PASCAL VOC数据集作为多掩模卷积神经网络的训练数据集,经过多掩模卷积神经网络模型充分训练,得到训练好的多掩模卷积神经网络;步骤3:搬运机器人通过摄像头采集视频文件,然后将采集的视频文件逐帧转换为彩色图像,并对彩色图像统一尺寸大小;步骤4:搬运机器人利用训练好的多掩模卷积神经网络对彩色图像中出现的目标生成目标的坐标位置和目标类别,同时生成目标的实例掩模,从而完成目标的识别;
本发明提供了一种基于多掩模卷积神经网络的搬运机器人识别目标方法,充分考虑搬运机器人快速准确识别目标的特点,设计了多掩模卷积神经网络。利用直接生成目标候选框和实例掩模来对目标进行识别。解决了目前搬运机器人识别目标准确率不高,识别速度慢等问题,并且具有很高的可移植性,应用前景广泛。
本发明针对目前搬运机器人对目标识别精度与速度不高的问题,提出基于多掩模卷积神经网络与搬运机器人结合的目标识别方法,设计了多掩模卷积神经网络模型与算法。提升了搬运机器人识别的快速性与准确性。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明实施例提供的一种基于多掩模卷积神经网络的搬运机器人识别目标方法的工作流程示意图;
图2是本发明实施例提供的一种多掩模卷积神经网络模型图;
图3是本发明实施例提供的一种搬运机器人截取的一张行李箱实物图;
图4是本发明实施例提供的一种搬运机器人识别目标的用时图;
图5是本发明实施例提供的一种基于多掩模卷积神经网络的搬运机器人识别目标效果图。
具体实施方式
本发明实施例公开了一种基于多掩模卷积神经网络的搬运机器人识别目标方法,在本发明实施例中,选用PASCAL VOC数据集经过预处理制成数据集,并划分训练集和测试集。构建多掩模卷积神经网络,使用预处理得到的数据集训练网络,使用得到的网络模型对搬运机器人要搬运的目标进行识别。本方法可应用于智能机器人等领域。
参照图1,为本发明实施例提供的一种基于多掩模卷积神经网络的搬运机器人识别目标方法,包括以下步骤:
步骤1,搭建多掩模卷积神经网络,并确定网络结构;
步骤2,选择网络优化器,使用PASCAL VOC数据集作为多掩模卷积神经网络的训练数据集,经过多掩模卷积神经网络模型充分训练,得到训练好的多掩模卷积神经网络;
步骤3,搬运机器人通过摄像头采集视频文件,然后将采集的视频文件逐帧转换为彩色图像,并对彩色图像统一尺寸大小;
步骤4,搬运机器人利用训练好的多掩模卷积神经网络对彩色图像中出现的目标生成目标的坐标位置和目标类别,同时生成目标的实例掩模,从而完成目标的识别。
下面结合附图和具体实施例对本发明作进一步说明。
如图2所示,是本发明实施例提供的一种多掩模卷积神经网络结构图。
所述步骤1包括:
所述多掩模卷积神经网络由五个部分组成,具体搭建方法如下:
第一部分由一个输入层、三个卷积层组成,用于对数据进行卷积特征提取,第一部分的输入来自于PASCAL VOC数据集,PASCAL VOC数据集里的每一张图像大小为500*500,每一张图像送到输入层;输入层后面是第一部分的第一个卷积层,第一部分的第一个卷积层选用了16个3*3的卷积核,步长为1,填充数量为1,卷积层的输出尺寸计算公式如下列公式(1)所示:
其中,Z是卷积输出数据的长度,W是卷积输入数据的长度,P是填充数量,F是卷积核的长度,S表示步长;对于第一部分的第一个卷积层,由卷积层的输出尺寸计算公式(1)计算得到第一部分的第一个卷积层的输出大小是500*500*16;在第一部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第二个卷积层,第一部分的第二个卷积层采用32个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第一部分第二个卷积层的输出大小是500*500*32;第一部分的第二个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第三个卷积层,第一部分的第三个卷积层采用64个3*3卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第一部分的第三个卷积层的输出大小是250*250*64;
第二部分由一个卷积层和两个全连接层组成。第一部分的第三个卷积层的输出用来输入到第二个部分的第一个卷积层,第二个的第一个卷积层采用128个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第二个部分的第一个卷积层的输出大小是250*250*128;第二部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第二部分的第一个全连接层,第二部分的第一个全连接层有1000个神经元,对应1000个目标类别,第二部分的第一个全连接层后面使用softmax函数,得到1000个目标类别的置信度系数,置信度系数指目标类别的概率;同时对经过激活函数的第二部分的第一个卷积层送入第二部分的第二个全连接层,第二部分的第二个全连接层有4000个神经元,对应1000个目标类别的候选框位置,每个候选框位置由坐标(x,y,l,h)确定,x代表候选框左上角顶点在多掩模卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的水平距离,y代表候选框左上角顶点在多掩模卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的竖直距离,l代表候选框的长度,h代表候选框的高度。
第三部分由三个卷积层组成,将由第一部分的第三个卷积层的输出送入第三部分的第一个卷积层,第三部分的第一个卷积层采用64个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式如下式(2)所示:
Z1=(W1-1)×S1-2×P1+F1 (2)
其中,Z1是卷积输出数据的长度,W1是卷积输入数据的长度,P1是填充数量,F1是卷积核的长度,S1表示步长;根据卷积层的输出尺寸计算公式(2),第三部分第一个卷积层的输出大小是250*250*64;第三部分的第一个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第二个卷积层,第三部分的第二个卷积层采用64个4*4卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(2),第三部分第二个卷积层的输出大小是500*500*64;第三部分的第二个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第三个卷积层,第三部分的第三个卷积层采用1000个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式(2),第三部分的第三个卷积层的输出大小是500*500*1000;
第四部分由三个卷积层组成。第三部分的第三个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第四部分的第一个卷积层,第四部分的第一个卷积层采用4096个3*3卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第四部分的第一个卷积层的输出大小是250*250*4096;第四部分的第一个卷积层后也使用线性整流函数作为激活函数,送入第四部分的第二个卷积层,第四部分的第二个卷积层采用1000个3*3卷积核,步长为1,填充数量为0,则根据卷积层的输出尺寸计算公式(1),第四部分第二个卷积层的输出大小是125*125*1000,第四部分的第二个卷积层后也使用线性整流函数作为激活函数,送入第四部分的第三个卷积层,第四部分的第三个卷积层采用1000个5*5卷积核,步长为1,填充数量为0,则根据卷积层的输出尺寸计算公式(1),第四部分的第三个卷积层的输出大小是31*31*1000,生成目标的1000个掩模,掩模指对图像选定区域用颜色进行覆盖的区域。
第五部分由一个卷积层和两个全连接层组成。第三部分的第三个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第五部分的卷积层,第五部分的卷积层采用1024个3*3卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第五部分的卷积层的输出大小是250*250*1024;第五部分的卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第五部分的第一个全连接层,第五部分的第一个全连接层有1024个神经元;同时对经过激活函数的第五部分的第一个全连接层送入第五部分的第二个全连接层,第五部分的第二个全连接层有1000个神经元,对应目标的1000个掩模系数,掩模系数指对图像选定区域用颜色进行覆盖的区域的大小。
在本发明实施例中,所述步骤2包括:
步骤2-1,任意选择PASCAL VOC数据集中里的10000张真实图片,并且将10000张图片使用双线性插值法得到尺寸为500*500的图片;
步骤2-2,将10000张图片按照4:1比例划分为训练集和测试集,在训练的过程中,将10000张图片里的每100张图片作为一个训练单元;
步骤2-3,损失函数使用交叉熵损失函数,网络优化器采用亚当优化器,对多掩模卷积神经网络进行充分训练,得到训练好的多掩模卷积神经网络模型;
在本发明实施例中,图3为搬运机器人截取的一张行李箱实物图像。
所述步骤3包括:
步骤3-1,搬运机器人通过摄像头采集视频文件;
步骤3-2,将采集的视频文件每隔5帧截取一张图片;
步骤3-3,若截取的图片为灰度图片,采用灰度级-彩色变换法变成彩色图像;对彩色图像进行双线性插值法变成尺寸大小为500*500,得到统一尺寸大小的彩色图像;
在本发明实施例中,所述步骤4包括:
步骤4-1,将步骤3-3得到的统一大小的彩色图像输入多掩模卷积神经网络模型中进行识别目标;
步骤4-2,多掩模卷积神经网络模型对每个目标都会生成1000个候选框,每个候选框都有对应的坐标位置(x,y,l,h)和目标类别的置信度系数;
步骤4-3,多掩模卷积神经网络模型对每个目标生成1000个掩模和1000个掩模系数;
步骤4-4,使用非极大值快速抑制算法得到每个目标的实际位置和实际类别;
步骤4-5,对每个目标生成的1000个掩模和1000个掩模系数通过线性组合进行合成,再经过tanh非线性激活函数得到每个目标的实例掩模;
所述步骤4-4包括:
步骤4-4-1,对每个目标里的1000个候选框按照对应的置信度系数的大小情况,由大到小排序;
步骤4-4-2,选中最大置信度系数对应的候选框,计算剩余候选框与最大置信度系数对应的候选框之间的IOU值,IOU值计算公式(3)如下:
IOU=C/Y (3)
其中,C表示两个候选框面积的交集,Y表示两个候选框面积的并集;
步骤4-4-3,设定一个阈值t,t一般取值为0.4,根据公式(4)计算新的置信度系数:
其中M为最大置信度系数对应的候选框,si为剩余候选框,IOU(M,si)为M与si的IOU值,G为最大置信度系数对应的候选框经过公式(4)计算得到的新的置信度系数。
步骤4-4-4,从剩余候选框中继续选取一个最大置信度系数对应的候选框,重复4-4-1~4-4-3的步骤,直到只剩一个候选框,候选框的坐标位置(x,y,l,h)就是目标的实际位置,最大置信度系数对应的目标类别就是目标的实际类别。
所述步骤4-5包括:
步骤4-5-1,每个目标生成的1000个掩模和1000个掩模系数通过线性组合进行合成得到合成掩模,线性组合公式(4)如下:
MU=PU*CU (5)
其中MU为合成掩模,PU为掩模的31*31*1000的矩阵,CU为掩模系数1000*1的矩阵;
步骤4-5-2,将每个目标的合成掩模通过非线性激活函数tanh函数进行激活得到每个目标的实例掩模,实例掩模指每个目标识别后所要产生的掩模,tanh函数公式如下图公式(5)所示:
其中e=2.71828,x0为步骤4-5-1中得到的合成掩模MU。
实例说明:图4是搬运机器人识别行李箱的用时,图4中第一行中文含义为***识别完成,图4第二行中文含义为***测试时间为0.02s,图4最后一行含义为测试进程结束,退出代码,用时0.02s说明基于多掩模卷积神经网络的搬运机器人识别目标用时短,速度快;图5是通过多掩模卷积神经网络识别的一张行李箱效果图,图5的左上角为原点,水平方向为横轴,竖直方向为纵轴,建立坐标系,多掩模卷积神经网络通过不同颜色的候选框获取图5中每个目标的坐标位置和类别,通过不同颜色覆盖图5的每个目标就是每个目标的实例掩模,图5中的suitcase中文含义为行李箱,每个suitcase旁边的数字表示***识别该物体为行李箱的概率,图5中显示了每个目标识别的类别为行李箱的概率,概率基本都在90%以上,说明识别目标的准确性高。
通过上述技术方案的实施,本发明的优点是:(1)搭建多掩模卷积神经网络,并确定网络结构。(2)提供了多掩模卷积神经网络训练方法。(3)基于多掩模卷积神经网络的搬运机器人识别目标方法。(4)对搬运机器人所要搬运的目标识别速度快,识别精度高。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的一种基于多掩模卷积神经网络的搬运机器人识别目标方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random accessmemory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明提供了一种基于多掩模卷积神经网络的搬运机器人识别目标方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (1)

1.一种基于多掩模卷积神经网络的搬运机器人识别目标方法,其特征在于,包括以下步骤:
步骤1,搭建多掩模卷积神经网络,并确定网络结构;
步骤2,选择网络优化器,使用PASCAL VOC数据集作为多掩模卷积神经网络的训练数据集,经过多掩模卷积神经网络模型充分训练,得到训练好的多掩模卷积神经网络;
步骤3,搬运机器人通过摄像头采集视频文件,然后将采集的视频文件逐帧转换为彩色图像,并对彩色图像统一尺寸大小;
步骤4,搬运机器人利用训练好的多掩模卷积神经网络对彩色图像中出现的目标生成目标的坐标位置和目标类别,同时生成目标的实例掩模,从而完成目标的识别;
步骤1包括:
所述多掩模卷积神经网络包括五个部分,具体搭建方法如下:
第一部分包括一个输入层和三个卷积层,用于对数据进行卷积特征提取,第一部分的输入来自于PASCAL VOC数据集,PASCAL VOC数据集里的每一张图像大小为500*500,每一张图像送到输入层;输入层后面是第一部分的第一个卷积层,第一部分的第一个卷积层选用了16个3*3的卷积核,步长为1,填充数量为1,卷积层的输出尺寸计算公式如下所示:
其中,Z是卷积输出数据的长度,W是卷积输入数据的长度,P是填充数量,F是卷积核的长度,S表示步长;
对于第一部分的第一个卷积层,由卷积层的输出尺寸计算公式(1)计算得到第一部分的第一个卷积层的输出大小是500*500*16;
在第一部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第二个卷积层,第一部分的第二个卷积层采用32个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第一部分第二个卷积层的输出大小是500*500*32;
第一部分的第二个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第三个卷积层,第一部分的第三个卷积层采用64个3*3卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第一部分的第三个卷积层的输出大小是250*250*64;
第二部分包括一个卷积层和两个全连接层;第一部分的第三个卷积层的输出用来输入到第二部分的第一个卷积层,第二部分的第一个卷积层采用128个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第二部分的第一个卷积层的输出大小是250*250*128;
第二部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第二部分的第一个全连接层,第二部分的第一个全连接层有N1个神经元,对应N1个目标类别,第二部分的第一个全连接层后面使用softmax函数,得到N1个目标类别的置信度系数,置信度系数指目标类别的概率;同时对经过激活函数的第二部分的第一个卷积层送入第二部分的第二个全连接层,第二部分的第二个全连接层有N2个神经元,对应N1个目标类别的候选框位置,每个候选框位置由坐标(x,y,l,h)确定,x代表候选框左上角顶点在多掩模卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的水平距离,y代表候选框左上角顶点在多掩模卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的竖直距离,1代表候选框的长度,h代表候选框的高度;
第三部分包括三个卷积层,将由第一部分的第三个卷积层的输出送入第三部分的第一个卷积层,第三部分的第一个卷积层采用64个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式如下所示:
Z1=(W1-1)×S1-2×P1+F1 (2)
其中,Z1是卷积输出数据的长度,W1是卷积输入数据的长度,P1是填充数量,F1是卷积核的长度,S1表示步长;根据卷积层的输出尺寸计算公式(2),第三部分第一个卷积层的输出大小是250*250*64;第三部分的第一个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第二个卷积层,第三部分的第二个卷积层采用64个4*4卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(2),第三部分第二个卷积层的输出大小是500*500*64;第三部分的第二个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第三个卷积层,第三部分的第三个卷积层采用1000个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式(2),第三部分的第三个卷积层的输出大小是500*500*1000;
第四部分包括三个卷积层,第三部分的第三个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第四部分的第一个卷积层,第四部分的第一个卷积层采用4096个3*3卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第四部分的第一个卷积层的输出大小是250*250*4096;第四部分的第一个卷积层后也使用线性整流函数作为激活函数,送入第四部分的第二个卷积层,第四部分的第二个卷积层采用1000个3*3卷积核,步长为1,填充数量为0,则根据卷积层的输出尺寸计算公式(1),第四部分第二个卷积层的输出大小是125*125*1000,第四部分的第二个卷积层后也使用线性整流函数作为激活函数,送入第四部分的第三个卷积层,第四部分的第三个卷积层采用1000个5*5卷积核,步长为1,填充数量为0,则根据卷积层的输出尺寸计算公式(1),第四部分的第三个卷积层的输出大小是31*31*1000,生成目标的1000个掩模,掩模指通过对图像选定区域用颜色进行覆盖的区域;
第五部分包括一个卷积层和两个全连接层,第三部分的第三个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第五部分的卷积层,第五部分的卷积层采用1024个3*3卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸计算公式(1),第五部分的卷积层的输出大小是250*250*1024;第五部分的卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第五部分的第一个全连接层,第五部分的第一个全连接层有N3个神经元;同时对经过激活函数的第五部分的第一个全连接层送入第五部分的第二个全连接层,第五部分的第二个全连接层有N4个神经元,对应目标的N1个掩模系数,掩模系数指对图像选定区域用颜色进行覆盖的区域的大小;
步骤2包括:
步骤2-1,任意选择PASCAL VOC数据集中里的D张真实图片,并且将D张图片使用双线性插值法得到尺寸为500*500的图片;
步骤2-2,将D张图片按照4:1比例划分为训练集和测试集,在训练的过程中,将D张图片里的每D1张图片作为一个训练单元;
步骤2-3,损失函数使用交叉熵损失函数,网络优化器采用亚当优化器,对多掩模卷积神经网络进行充分训练,得到训练好的多掩模卷积神经网络模型;
步骤3包括:
步骤3-1,搬运机器人通过摄像头采集视频文件;
步骤3-2,将采集的视频文件每隔5帧截取一张图像;
步骤3-3,若截取的图像为灰度图像,采用灰度级-彩色变换法变成彩色图像;
步骤3-4,对彩色图像进行双线性插值法变成尺寸大小为500*500,得到统一尺寸大小的彩色图像;
步骤4包括:
步骤4-1,将步骤3-4得到的统一尺寸大小的彩色图像输入多掩模卷积神经网络模型中进行识别目标;
步骤4-2,多掩模卷积神经网络模型对每个目标都会生成1000个候选框,每个候选框都有对应的坐标位置(x,y,l,h)和目标类别的置信度系数;
步骤4-3,多掩模卷积神经网络模型对每个目标生成1000个掩模和1000个掩模系数;
步骤4-4,使用非极大值快速抑制算法得到每个目标的实际位置和实际类别;
步骤4-5,对每个目标生成的1000个掩模和1000个掩模系数通过线性组合进行合成,再经过tanh非线性激活函数得到每个目标的实例掩模;
步骤4-4包括:
步骤4-4-1,对每个目标里的1000个候选框按照对应的置信度系数的大小情况,由大到小排序;
步骤4-4-2,选中最大置信度系数对应的候选框,计算剩余候选框与最大置信度系数对应的候选框之间的IOU值,IOU值计算公式如下:
IOU=C/Y (3)
其中,C表示两个候选框面积的交集,Y表示两个候选框面积的并集;
步骤4-4-3,设定一个阈值t,根据公式(4)计算新的置信度系数:
其中M为最大置信度系数对应的候选框,si为剩余候选框,IOU(M,si)为M与si的IOU值,G为最大置信度系数对应的候选框经过公式(4)计算得到的新的置信度系数;
如果G=0,则删除最大置信度系数对应的候选框;
步骤4-4-4,从剩余候选框中继续选取一个最大置信度系数对应的候选框,重复4-4-1~步骤4-4-3,直到只剩一个候选框,候选框的坐标位置(x,y,l,h)就是目标的实际位置,最大置信度系数对应的目标类别就是目标的实际类别;
步骤4-5包括:
步骤4-5-1,每个目标生成的1000个掩模和1000个掩模系数通过线性组合进行合成得到合成掩模,线性组合公式(5)如下:
MU=PU*CU (5)
其中MU为合成掩模,PU为掩模的31*31*1000的矩阵,CU为掩模系数1000*1的矩阵;
步骤4-5-2,将每个目标的合成掩模通过非线性激活函数tanh函数进行激活得到每个目标的实例掩模,实例掩模指每个目标识别后所要产生的掩模,tanh函数公式如下所示:
其中e=2.71828,x0为步骤4-5-1里得到的合成掩模MU。
CN202010084190.5A 2020-02-10 2020-02-10 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 Active CN111368637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010084190.5A CN111368637B (zh) 2020-02-10 2020-02-10 一种基于多掩模卷积神经网络的搬运机器人识别目标方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010084190.5A CN111368637B (zh) 2020-02-10 2020-02-10 一种基于多掩模卷积神经网络的搬运机器人识别目标方法

Publications (2)

Publication Number Publication Date
CN111368637A CN111368637A (zh) 2020-07-03
CN111368637B true CN111368637B (zh) 2023-08-11

Family

ID=71210024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010084190.5A Active CN111368637B (zh) 2020-02-10 2020-02-10 一种基于多掩模卷积神经网络的搬运机器人识别目标方法

Country Status (1)

Country Link
CN (1) CN111368637B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950451A (zh) * 2020-08-12 2020-11-17 南京师范大学 基于多尺度预测cnn及龙芯芯片的多类别目标识别方法
CN112070007A (zh) * 2020-09-08 2020-12-11 灵动科技(北京)有限公司 用于识别搬运机器人的工作台的占用状态的方法和设备
CN112818871B (zh) * 2021-02-04 2024-03-29 南京师范大学 一种基于半分组卷积的全融合神经网络的目标检测方法
CN113392702B (zh) * 2021-05-10 2024-06-11 南京师范大学 一种基于自适应图像增强的弱光照环境下目标识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146074A (zh) * 2017-06-28 2019-01-04 埃森哲环球解决方案有限公司 图像对象识别
CN110033007A (zh) * 2019-04-19 2019-07-19 福州大学 基于深度姿态预估和多特征融合的行人衣着属性识别方法
CN110516524A (zh) * 2019-06-26 2019-11-29 东南大学 一种交通场景中基于Mask R-CNN的车辆轴数识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection
US10885400B2 (en) * 2018-07-03 2021-01-05 General Electric Company Classification based on annotation information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146074A (zh) * 2017-06-28 2019-01-04 埃森哲环球解决方案有限公司 图像对象识别
CN110033007A (zh) * 2019-04-19 2019-07-19 福州大学 基于深度姿态预估和多特征融合的行人衣着属性识别方法
CN110516524A (zh) * 2019-06-26 2019-11-29 东南大学 一种交通场景中基于Mask R-CNN的车辆轴数识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石杰 等."基于改进Mask RCNN和Kinect的服务机器人物品识别***".《仪器仪表学报》.2019,第216-226页. *

Also Published As

Publication number Publication date
CN111368637A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN111259940B (zh) 一种基于空间注意力地图的目标检测方法
CN111738344B (zh) 一种基于多尺度融合的快速目标检测方法
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和***
CN110674741A (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN110610210B (zh) 一种多目标检测方法
CN110334584B (zh) 一种基于区域全卷积网络的手势识别方法
CN110751195B (zh) 一种基于改进YOLOv3的细粒度图像分类方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN110796018A (zh) 一种基于深度图像和彩色图像的手部运动识别方法
CN115147488B (zh) 一种基于密集预测的工件位姿估计方法与抓取***
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN110310305A (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、***、设备及存储介质
CN112926486A (zh) 一种舰船小目标的改进RFBnet目标检测算法
CN116977844A (zh) 一种轻量级水下目标实时检测方法
CN110992301A (zh) 一种气体轮廓识别方法
CN114241197A (zh) 一种基于图像的数显式仪表智能识别方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant