CN108305250A - 非结构化机器人视觉检测机械零件的同步识别与定位方法 - Google Patents
非结构化机器人视觉检测机械零件的同步识别与定位方法 Download PDFInfo
- Publication number
- CN108305250A CN108305250A CN201810087035.1A CN201810087035A CN108305250A CN 108305250 A CN108305250 A CN 108305250A CN 201810087035 A CN201810087035 A CN 201810087035A CN 108305250 A CN108305250 A CN 108305250A
- Authority
- CN
- China
- Prior art keywords
- machine components
- layer
- image
- unstructured
- convolutional layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 230000001360 synchronised effect Effects 0.000 title claims abstract description 16
- 230000004807 localization Effects 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 21
- 230000000007 visual effect Effects 0.000 claims abstract description 13
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 19
- 238000012795 verification Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 abstract description 12
- 238000012360 testing method Methods 0.000 description 17
- 230000033001 locomotion Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 239000002537 cosmetic Substances 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
- G06T2207/30164—Workpiece; Machine component
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开非结构化机器人视觉检测机械零件的同步识别与定位方法,包括读取一个安装于工业机器人手臂的视觉传感器获得的包含T帧视频图像的视频序列,将视频序列中的第I帧的图像数据表示为{I(x,y)} t T =1;应用最近邻插值法将上述的第I帧的图像尺寸缩小;将上述缩小尺寸的图像输入机械零件卷积神经网络模型,根据机械零件卷积神经网络模型训练所学习的模型参数M,输出图像I(x,y)每帧的估计预测p(x,y |M)给工业机器人控制***,实现输入图像与机械零件的位置和识别之间对应,以便工业机器人拾取零件。本发明可以处理周围环境的大动态变化、能够应对非结构化制造条件、在保证识别和定位精度的同时计算效率较高。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及具有轻量级架构、可处理周围环境的大动态变化、能够应对非结构化制造条件、在保证识别和定位精度的同时计算效率较高的非结构化机器人视觉检测机械零件的同步识别与定位方法。
背景技术
由于具有非接触性、高速和高精度检测的特点,机械与电子工程行业机器人对于不同类型的机械零部件进行可视化检测具有很高的吸引力。近年来,视觉检测已成为高科技工业机器人视觉领域的一个发展趋势和不可或缺的技术,以视觉装置和图像处理算法为技术手段,以视觉伺服定位为目的,对产品质量进行评估、鲁棒识别和精确定位以及在工业检测平台上对机械零部件进行本地化制造和熟练操作。
在实际工业检测领域中,高性能机械零件检测方法对机器人视觉检测算法的研究和开发提出了巨大的挑战。首先,工业CCD相机视场中的机械零件通常存在由制造现场照明变化而引起大动态的外观变化。机械零件的外观变化,诸如颜色、亮度漂移和对比度的降低,必然会对工业机器人的正常检测性能产生阻碍作用。其次,待检测的机械目标可能处于静止状态或运动状态,其移动速度通常在不同工作时刻发生变化。静态/运动状态的不确定性以及移动速度的变化导致机械零件在抓取操纵过程中定位精度受到限制。第三,因为机械零部件通常是以任意方式来放置,机器人有必要识别具有不同姿势的不同类型机械零部件。另外,在CCD相机的视场中,安装在末端执行器上的手持式CCD摄像机产生移动,姿势将不可避免地发生变化。目前,虽然也有针对周围环境的大动态变化的非结构化制造条件下的视觉同步识别与定位的方法,诸如基于重量层为21层的FCN-8s架构以及其它基于更复杂的深度学习算法的模型架构的同步识别与定位方法。但上述方法的模型架构却存在下述问题:第一是在智能制造过程中希望能够快速训练模型参数,上述模型架构组成的模型参数较多,难以实现快速训练;第二是需要完全提供真实标注的训练图像,特别是对于诸如齿轮等具有复杂形状的部件,注释真实标注图像较为耗时;第三是在上述模型架构下的视觉同步识别和定位的计算消耗较大。由于存在上述问题,现有技术中的非结构化制造条件下的视觉同步识别与定位的方法,可能会恶化工业机器人视觉***的检测性能。
发明内容
本发明的目的在于提供具有轻量级架构、可处理周围环境的大动态变化、能够应对非结构化制造条件、在保证识别和定位精度的同时计算效率较高的非结构化机器人视觉检测机械零件的同步识别与定位方法。
本发明目的是这样实现的,包括图像采集、图像预处理、识别与定位步骤,具体包括:
A、图像采集:读取一个安装于工业机器人手臂的视觉传感器获得的包含T帧视频图像的视频序列,将视频序列中的第I帧的图像数据表示为{I(x, y)} t T =1,其中:I(x, y) 表示在t时刻捕获的第I帧中位置(x, y) 处像素的RGB颜色矢量,t ∈ {1, . . . , T };
B、图像预处理:应用最近邻插值法将A步骤中的第I帧的图像尺寸缩小;
C、识别与定位:将B步骤预处理的图像输入机械零件卷积神经网络模型,根据机械零件卷积神经网络模型训练所学习的模型参数M,输出图像I(x,y)每帧对应的估计预测p(x, y| M)给工业机器人控制***,实现输入图像与机械零件的位置和识别预测之间所期望的端对端对应,以便工业机器人拾取待识别零件。
本发明与现有技术相比具有以下有益效果:
1、本发明可以处理周围环境的大动态变化以及能够应对非结构化制造条件,即机械零件的静态/运动状态、移动速度以及视觉传感器的姿态是不受约束的。
2、本发明的机械零件卷积神经网络(MPCNN)模型是一个鲁棒性的基于卷积神经网络(CNN)的13层分级深度学习体系轻量级架构,由于模型参数较少,可以实现快速训练;可以不一定完全提供真实标注的训练图像,能够有效减少注释真实标注图像的耗时;由于架构层级较少,在视觉同步识别和定位时计算效率较高,从而不会恶化工业机器人视觉***的检测性能;另外,MPCNN模型产生不同类型机械零件的多尺度表示,其中可以方便地调整待检测机械零件类型的数量,适应性和扩展性较强。
3、本发明的机械零件数据集的图像是在周边动态场景和工业机器人检测平台的非结构化制造条件下捕捉,并使用类别标签和每种特定类型的机械零件的精确总***置来标注机械零件数据集,从而形成大规模的标准库,能够促进机械零件检测机器智能方法的训练和验证。
4、本发明使MPCNN模型能够从机械零件数据集中的一组训练图像中自动学习多尺度特征图,对训练好的MPCNN模型用于同时识别和定位预定种类机械零件的准确性,将在机械零件数据集中对照测试图像的真实标注进行评估。
因此,本发明具有轻量级架构、可处理周围环境的大动态变化、能够应对非结构化制造条件、在保证识别和定位精度的同时计算效率较高的特点。
附图说明
图1为本发明流程示意图;
图2为本发明的MPCNN模型架构图;
图3为本发明的KUST-MPDS数据集建立流程示意图;
图4为本发明的MPCNN模型训练流程示意图;
图5为本发明的MPCNN模型验证流程示意图;
图6为实施例中训练子集从第1到第6个循环迭代周期的预测精度和softmax目标函数的变化;
图7为实施例中训练子集从第1到第6个循环迭代周期对数尺度的每个循环预测的相应准确度和客观值;
图8为实施例中验证子集从第1到第6个循环迭代周期的预测精度和softmax目标函数的变化;
图9为实施例中验证子集从第1到第6个循环迭代周期对数尺度的每个循环预测的相应准确度和客观值;
图10为实施例中在均匀背景下工业机器人检测平台传送带上捕获的测试图像预测结果的定性评估;
图11为实施例中在非结构化条件下捕获复杂背景的测试图像预测结果的定性评估;
图12为实施例中训练后的MPCNN对KUST-MPDS测试子集中所有202幅图像的定量预测结果;
图13为实施例中MPCNN模型对KUST-MPDS测试子集中所有202个图像所做的混淆矩阵;
图中:S100-图像采集,S200-图像预处理,S300-识别与定位,S400-建立KUST-MPDS数据集,S500-模型训练;
conv1-卷积层1,conv2-卷积层2,conv3-卷积层3,conv4-卷积层4,conv5-卷积层5,conv6-卷积层6,conv7-卷积层7,fc1-全连接层1,fc2-全连接层2,fc3-全连接层3,deconv1-去卷积层1,deconv2-去卷积层2,deconv3-去卷积层3;
pAcc为像素精度,mAcc为平均精度,mIU为平均交并比。
具体实施方式
下面结合附图与实施例对本发明作进一步的说明,但不以任何方式对本发明加以限制,依据本发明的教导所作的任何变更或替换,均属于本发明的保护范围。
本发明方法包括图像采集、图像预处理、识别与定位步骤,具体包括:
A、图像采集:读取一个安装于工业机器人手臂的视觉传感器获得的包含T帧视频图像的视频序列,将视频序列中的第I帧的图像数据表示为{I(x, y)} t T =1,其中:I(x, y) 表示在t时刻捕获的第I帧中位置(x, y) 处像素的RGB颜色矢量,t ∈ {1, . . . , T };
B、图像预处理:应用最近邻插值法将A步骤中的第I帧的图像尺寸缩小;
C、识别与定位:将B步骤预处理的图像输入机械零件卷积神经网络(MPCNN)模型,根据机械零件卷积神经网络(MPCNN)模型训练所学习的模型参数M,输出图像I(x,y)每帧对应的估计预测p(x, y|M)给工业机器人控制***,实现输入图像与机械零件的位置和识别预测之间所期望的端对端对应,以便工业机器人拾取待识别零件。
所述B步骤中应用最近邻插值法将A步骤中的第I帧的图像尺寸缩小1 ≤ x ≤256和1 ≤ y ≤ 320。
所述C步骤中机械零件卷积神经网络(MPCNN)模型架构依次包括卷积层1、卷积层2、卷积层3、卷积层4、卷积层5、卷积层6、卷积层7、全连接层1、 全连接层2、全连接层3、去卷积层1、去卷积层2、去卷积层3,所述各卷积层和各全连接层结构的构建源于VGG-16的模型架构,所述各去卷积层通过内插粗糙输出来获得密集预测。
所述C步骤中卷积层1、卷积层2、卷积层3、卷积层4的滤波器组的维数分别为:3×3×3×64、3×3×64×64、3×3×64×128、3×3×128×128,所述卷积层5、卷积层6、卷积层7的滤波器组的维数分别为:3×3×128×256、3×3×256×256、3×3×256×256,所述去全连接层1、全连接层2、全连接层3的滤波器组的维数分别为:7×7×256×1024、1×1×1024×1024、1×1×1024×6,所述各卷积层和全连接层都配备了称为整型线性单元ReLU(·) =max(0, ·)的非线性激活函数。
所述每个卷积层的填充大小固定为1个像素。
所述C步骤中去卷积层1、去卷积层2、去卷积层3的滤波器组的维度均固定为4×4×6×6,所述各去卷积层通过内插粗糙输出来获得密集预测是在各去卷积层中的每一个都利用双线性插值来执行2×上采样。
所述C步骤中模型训练是通过向机械零件卷积神经网络(MPCNN)模型输入机械零件数据集中图像数据的每帧图像,使用输入图像 I(x, y)的估计预测p(x, y|M) 和真实标注G(x, y)之间的损失函数来学习多级模型参数M。
所述模型参数M由滤波器和偏差项组成,其中机械零件卷积神经网络(MPCNN)模型架构中的每一层都有一个卷积滤波器且除去卷积层以外的每一层都有一个偏差项;所述模型参数M的最大索引读数为23,即 m ∈ M 和m = 1, . . . , 23,所述卷积层(m = 1, . .. , 14) 中的模型参数M初始化为与VGG-16相同的值,所述全连接层fc层(m = 15, . . ., 20)的卷积滤波器和偏置参数使用VGG-16的相应层中的裁剪值进行初始化,所述去卷积层(m = 21, 22, 23)中的模型参数M通过大小为4并且具有6组的平方双线性滤波器来初始化。
所述损失函数的损失目标被定义为一个对数函数softmax,并采用随机梯度下降算法(随机梯度下降算法是卷积神经网络中用来最小化损失目标函数)来最小化损失目标函数。
所述机械零件数据集图像数据是根据预视觉检测的机械零件类型,预先读取一个安装于工业机器人手臂的视觉传感器获得的相应机械零件类型的包含T帧视频图像的视频序列,经步骤A及步骤B处理;然后在相应的图像中人工注释个别机械零件的位置和类型以形成真实标注的灰度图像 G(x, y),其中将分类标签分别与待检测的相应机械零件连接,将位于背景区域的像素灰度值被标记为0,将位于机械零件对象边界上的像素灰度值标记为255;最后使用色彩映射将真实标注的灰度图像 G(x, y)映射回RGB彩色图像,分别形成训练子集及验证子集。
所述模型训练中将机械零件数据集图像数据作为机械零件卷积神经网络(MPCNN)模型的输入图像,每次将批量大小设置为8、子批次数固定为7的一批图像输入到13层的机械零件卷积神经网络(MPCNN)模型中,在训练期间参数的学习率被设置为0.001,并且设置每个循环对训练子集执行216个循环的梯度下降,对于验证子集执行37个循环的梯度下降。
实验例
1、图像采集
机器人控制***将视觉检测平台上由复杂照明条件引起的大动态外观变化、非结构化制造场景中拍摄的每秒210帧(fps)、每帧分辨率为488×648像素的图像数据存储在工业计算机的存储器单元中。然后将获取的图像数据表示为{I(x, y)}tT=1,其中I(x, y) 表示在t时刻,t ∈ {1, . . . , T },捕获的第I帧中位置(x, y) 处像素的RGB颜色矢量。
2、图像预处理
将图像采集得到的图像采用最近邻插值法将尺寸从488×648缩小到1 ≤ x ≤ 256和1 ≤ y ≤ 320。
3、机械零件数据集(KUST-MPDS)
3.1、检测目标为在非结构化工业机器人视觉检测现场捕获的五类常见机械零件,包括:轴承、螺丝刀、齿轮、钳子和扳手,将图像采集得到并符合上述五类要求的图像采用最近邻插值法将尺寸从488×648缩小到1 ≤ x ≤ 256和1 ≤ y ≤ 320。
3.2、将上述缩小后的图像中手工注释个别机械零件的位置和类型以形成真实标注的区间在[0,255]的灰度值图像 G(x, y),并在注释过程中将分类标签1、2、3、4、5分别与待检测的相应机械零件(即轴承,螺丝刀,齿轮,钳子和扳手)连接;其中在真实标注的灰度值图像中,位于背景区域的像素的灰度值被标记为0,对于位于机械零件对象边界上的像素灰度值被标记为255。
3.3、使用色彩映射将上述真实标注的灰度值图像映射回RGB彩色图像,其中每个灰度值对应于特定的RGB色彩矢量。
表 1 KUST-MPDS每个子集中五种机械零件图像的分布
4、识别与定位
4.1、MPCNN模型
如图2所示,MPCNN模型的输入变量是256×320×3机械零件图像I(x, y),有三个颜色通道 {I(x, y)} t T =1,其中T = 2248。该模型的输出变量是输入图像 I(x, y)的每一帧的估计预测p(x, y|M) ,根据所学习的模型参数M,估计预测的目标可以通过256×320×6的六通道模型输出实现。特别地,对于位于 (x, y)处的每个像素,模型输出这个像素属于五种机械零件中的每一个的概率估计是 p(x, y|M) ∈ R 6,其中第一通道对应于指示图像背景的类别标签为0,其余的五个通道对应于类别标签{1, . . . , 5}分别表示要识别的机械零件的类型:轴承,螺丝刀,齿轮,钳子和扳手。
MPCNN模型的架构由13层构成,包括7个卷积(conv)层、3个完全连接(fc)层和3个去卷积(deconv)层组成。 conv和fc层结构的构建源于VGG-16的模型架构(VGG-16是一个卷积神经网络结构,它的组成如下所述)。conv1和conv2的滤波器组的维数分别为:3×3×3×64、3×3×64×64, conv3和conv4的滤波器组的维数分别为:3×3×64×128、3×3×128×128,conv5、conv6和conv7的滤波器组的维数分别为:3×3×128×256、3×3×256×256、3×3×256×256。每个卷积层的填充大小固定为1个像素,以保持空间分辨率。在步长2的像素窗口上conv2,conv4和conv7的输出侧遵循最大汇集操作。对于完全连接的层fc1、fc2和fc3的滤波器组的维数分别为:7×7×256× 1024、1×1×1024×1024、1×1×1024×6。conv和fc层都配备了非线性激活函数,称为整型线性单元ReLU(·) = max(0, ·)。
最大池化单元输出变量空间维度减少一半。例如,全连接层fc3的输出变量尺寸减小到32×40×6。为了获得与输入图像具有相同分辨率的检测结果,添加三个去卷积层以提高空间分辨率。去卷积层通过内插粗糙输出来获得密集预测,三个去卷积单元中的每一个都利用双线性插值来执行2×上采样,并且滤波器组的维度固定为4×4×6×6。由此得到去卷积层deconv3输出端的密集预测变量p(x, y|M),其输入图像I(x, y)的空间维数为256×320。基于MPCNN模型的构造,因此可以实现输入图像与机械零件的位置和识别预测之间所期望的端对端对应。
4.2、模型训练
训练过程允许MPCNN模型使用输入图像 I(x, y)的预测p(x, y|M)和其真实标注G(x,y)之间的损失函数来学***方双线性滤波器来初始化。
损失函数的目标被定义为一个softmax逻辑函数,,并采用随机梯度下降(SGD)算法来最小化softmax目标函数。在训练过程中,将KUST-MPDS的两列(1752帧)和验证(294帧)子集中的图像作为MPCNN模型的输入图像。每次将一批图像输入到13层的MPCNN模型中,批量大小设置为8,子批次数固定为7。在训练期间,参数的学习率被设置为0.001,并且设置每个循环对训练子集执行216个循环的梯度下降,对于验证子集执行37个循环的梯度下降。
训练子集的循环1到循环6的训练过程如图6和图7所示。训练子集由1752帧图像组成,分别包括290、358、494、289和321帧的轴承、螺丝刀、齿轮、钳子、扳手,从KUST-MPDS随机选择的钳子和扳手零件。如图8和9中,训练子集包括294帧图像,分别包括20、33、41、90和110帧的轴承、螺丝刀、齿轮,以及从KUST-MPDS随机选择的钳子和扳手零件。同样,图8表明预测精度和softmax目标随迭代周期的变化,图9表示对数尺度的对应值。
在训练过程中,可以观察到训练和验证子集准确性和客观值的相似结果。首先,观察到从循环1到循环6,所有的定量准确性指标在pAcc(像素精度)、mAcc(平均精度)和mIU(平均交并比)方面都有所增加。显然,增加循环周期数可以显著提高平均精度度量,在超过3个循环周期后,像素精度和平均交并比倾向于饱和。对于训练子集,从循环1到循环6,pAcc、mAcc和mIU分别增加了5.24%、41.34%和12.04%,而对于验证子集,pAcc、mAcc和mIU分别增加了1.69%、18.75%和5.44%。其次,训练表明,当训练子集和验证子集的循环数都增加时,softmax目标函数稳定下降。更准确地说,训练子集减少了84.70%,目标损失从0.3236下降到0.0495,而训练过程中验证子集减少了43.88%,目标损失从0.1495下降到0.0839。这表明采用随机梯度下降和对于13层MPCNN模型的训练参数的设置是有效的。
5、模型验证
MPCNN模型完成6个循环周期的训练后,就可以使用训练的模型参数M进行测试。KUST-MPDS的测试子集中的所有202个图像被前馈到MPCNN以获得预测结果 p(x, y|M)。测试图像中5帧预测结果的定性评估如图10所示。注意,这些测试图像在具有结构化统一背景的工业机器人检测平台的传送带上被捕获。显然,经过训练的MPCNN可以为结构化传送带上的每种机械零件实现高质量的同时识别和定位。为了证明MPCNN在非结构化环境中的适用性,如图11所示为在非结构化条件下捕获复杂背景的测试图像的5帧预测。注意,这些图像包含位于任意环境中的机械部分,并且机器非常困难同时识别和定位前景机械零件。令人惊讶的是,观察到这五种机械零件的主体可以使用经过训练的MPCNN模型进行正确预测。此外,非结构复杂背景下的机械零件显然存在一些假阳性预测。例如,在第一行,齿轮区域的假阳性预测出现在承载图像的左上角。图12说明训练后的MPCNN对KUST-MPDS测试子集中所有202幅图像的定量预测结果。同样,采用像素精度(pAcc),平均精度(mAcc)和平均交并比(mIU)的准确性度量来定量评估每帧测试图像的模型测试结果,观察到MPCNN在每帧测试图像的像素精度方面实现了非常高的性能。与其它4种类型的机械零件相比,轴承部件的mAcc和mIu的预测精度相对较低,这归因于轴承子集包含较少数量的训练集(290帧)和验证集(20帧)。
在图13中,提出MPCNN模型对KUST-MPDS的测试子集中的所有202个图像所做的混淆矩阵。混淆矩阵的每个单元(i, j)表示类别i被预测为类别j的概率。观察到背景最有可能被正确地分类为自己,概率高达99.10%。对机械零件进行重新评估,正确的分类率依次为轴承、扳手、齿轮、螺丝刀和钳子,其概率分别为93.22%、86.64%、82.51%、69.16%和17.88%。钳子类别更可能被错误地归类为背景,概率为43.92%,归因于所提出的数据集中捕获的钳子的主体与背景传送带的外观相似,从而降低了识别性能。
将本发明的MPCNN模型得到的平均精度和计算成本与FCN-8s模型进行比较。表2中列出了MPCNN模型和FCN-8s模型获得的202个测试子集图像的同时识别和局部化的平均准确度。观察到,MPCNN模型的检测性能与FCN-8s在像素精度和平均IU度量方面的性能相当。就平均精度而言,与FCN-8s架构相比,同时识别和定位的改进显著。更准确地说,MPCNN模型比FCN-8s模型产生了8.06%的改进。值得注意的是,MPCNN模型包含较少的重量层(13层),相较重量层为21层FCN-8s的模型较为灵活。从表2中可以看出,与FCN-8s相比,MPCNN模型的训练时间每个时段减少0.2461h,验证时间减少了25.4024s,测试时间缩短了0.4003s。因此,本发明为非结构化工业机器人视觉检测环境中机械零件的同时识别和定位提供了灵活的训练和更高的性能。
表2 同步识别和定位精度与计算成本的比较
Claims (10)
1.非结构化机器人视觉检测机械零件的同步识别与定位方法,其特征在于包括图像采集、图像预处理、识别与定位步骤,具体包括:
A、图像采集:读取一个安装于工业机器人手臂的视觉传感器获得的包含T帧视频图像的视频序列,将视频序列中的第I帧的图像数据表示为{I(x, y)} t T =1,其中:I(x, y) 表示在t时刻捕获的第I帧中位置(x, y) 处像素的RGB颜色矢量,t ∈ {1, . . . , T };
B、图像预处理:应用最近邻插值法将A步骤中的第I帧的图像尺寸缩小;
C、识别与定位:将B步骤预处理的图像输入机械零件卷积神经网络模型,根据机械零件卷积神经网络模型训练所学习的模型参数M,输出图像I(x,y)每帧对应的估计预测p(x, y| M)给工业机器人控制***,实现输入图像与机械零件的位置和识别预测之间所期望的端对端对应,以便工业机器人拾取待识别零件。
2.根据权利要求1所述非结构化机器人视觉检测机械零件的同步识别与定位方法,其特征在于所述B步骤中应用最近邻插值法将A步骤中的第I帧的图像尺寸缩小1 ≤ x ≤256和1 ≤ y ≤ 320。
3.根据权利要求2所述非结构化机器人视觉检测机械零件的同步识别与定位方法,其特征在于所述C步骤中机械零件卷积神经网络模型架构依次包括卷积层1、卷积层2、卷积层3、卷积层4、卷积层5、卷积层6、卷积层7、全连接层1、 全连接层2、全连接层3、去卷积层1、去卷积层2、去卷积层3,所述各卷积层和各全连接层结构的构建源于VGG-16的模型架构,所述各去卷积层通过内插粗糙输出来获得密集预测。
4.根据权利要求3所述非结构化机器人视觉检测机械零件的同步识别与定位方法,其特征在于所述C步骤中卷积层1、卷积层2、卷积层3、卷积层4的滤波器组的维数分别为:3×3×3×64、3×3×64×64、3×3×64×128、3×3×128×128,所述卷积层5、卷积层6、卷积层7的滤波器组的维数分别为:3×3×128×256、3×3×256×256、3×3×256×256,所述去全连接层1、全连接层2、全连接层3的滤波器组的维数分别为:7×7×256×1024、1×1×1024×1024、1×1×1024×6,所述各卷积层和全连接层都配备了称为整型线性单元ReLU(·) =max(0, ·)的非线性激活函数。
5.根据权利要求3所述非结构化机器人视觉检测机械零件的同步识别与定位方法,其特征在于所述C步骤中去卷积层1、去卷积层2、去卷积层3的滤波器组的维度均固定为4×4×6×6,所述各去卷积层通过内插粗糙输出来获得密集预测是在各去卷积层中的每一个都利用双线性插值来执行2×上采样。
6.根据权利要求3、4或5所述非结构化机器人视觉检测机械零件的同步识别与定位方法,其特征在于所述C步骤中模型训练是通过向机械零件卷积神经网络模型输入机械零件数据集中图像数据的每帧图像,使用输入图像 I(x, y) 的估计预测p(x, y|M) 和真实标注G(x, y)之间的损失函数来学习多级模型参数M。
7.根据权利要求6所述非结构化机器人视觉检测机械零件的同步识别与定位方法,其特征在于所述模型参数M由滤波器和偏差项组成,其中机械零件卷积神经网络模型架构中的每一层都有一个卷积滤波器且除去卷积层以外的每一层都有一个偏差项;所述模型参数M的最大索引读数为23,即 m ∈ M 和m = 1, . . . , 23,所述卷积层(m = 1, . . . ,14) 中的模型参数M初始化为与VGG-16相同的值,所述全连接层fc层(m = 15, . . . ,20)的卷积滤波器和偏置参数使用VGG-16的相应层中的裁剪值进行初始化,所述去卷积层(m = 21, 22, 23)中的模型参数M通过大小为4并且具有6组的平方双线性滤波器来初始化。
8.根据权利要求7所述非结构化机器人视觉检测机械零件的同步识别与定位方法,其特征在于所述损失函数的损失目标被定义为一个对数函数softmax,并采用随机梯度下降算法来最小化损失目标函数。
9.根据权利要求8所述非结构化机器人视觉检测机械零件的同步识别与定位方法,其特征在于所述机械零件数据集图像数据是根据预视觉检测的机械零件类型,预先读取一个安装于工业机器人手臂的视觉传感器获得的相应机械零件类型的包含T帧视频图像的视频序列,经步骤A及步骤B处理;然后在相应的图像中人工注释个别机械零件的位置和类型以形成真实标注的灰度图像 G(x, y),其中将分类标签分别与待检测的相应机械零件连接,将位于背景区域的像素灰度值被标记为0,将位于机械零件对象边界上的像素灰度值标记为255;最后使用色彩映射将真实标注的灰度图像 G(x, y)映射回RGB彩色图像,分别形成训练子集及验证子集。
10.根据权利要求9所述非结构化机器人视觉检测机械零件的同步识别与定位方法,其特征在于所述模型训练中将机械零件数据集图像数据作为机械零件卷积神经网络模型的输入图像,每次将批量大小设置为8、子批次数固定为7的一批图像输入到13层的机械零件卷积神经网络模型中,在训练期间参数的学习率被设置为0.001,并且设置每个循环对训练子集执行216个循环的梯度下降,对于验证子集执行37个循环的梯度下降。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810087035.1A CN108305250A (zh) | 2018-01-30 | 2018-01-30 | 非结构化机器人视觉检测机械零件的同步识别与定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810087035.1A CN108305250A (zh) | 2018-01-30 | 2018-01-30 | 非结构化机器人视觉检测机械零件的同步识别与定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108305250A true CN108305250A (zh) | 2018-07-20 |
Family
ID=62866738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810087035.1A Pending CN108305250A (zh) | 2018-01-30 | 2018-01-30 | 非结构化机器人视觉检测机械零件的同步识别与定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108305250A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334642A (zh) * | 2019-07-01 | 2019-10-15 | 河南牧业经济学院 | 一种猪行为的机器视觉识别方法及*** |
CN111221318A (zh) * | 2019-12-11 | 2020-06-02 | 中山大学 | 一种基于模型预测控制算法的多机器人状态估计方法 |
CN111951263A (zh) * | 2020-08-26 | 2020-11-17 | 桂林电子科技大学 | 一种基于卷积神经网络的机械零件图纸检索方法 |
CN112906701A (zh) * | 2021-02-08 | 2021-06-04 | 重庆兆光科技股份有限公司 | 一种基于多注意力神经网络的细粒度图像识别方法及*** |
CN116401785A (zh) * | 2023-03-28 | 2023-07-07 | 广州中望龙腾软件股份有限公司 | 一种基于MLP-Mixer的装配数据管理方法及*** |
CN117115174A (zh) * | 2023-10-25 | 2023-11-24 | 张家港市金阳工具有限公司 | 一种钳子外形自动检测方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709909A (zh) * | 2016-12-13 | 2017-05-24 | 重庆理工大学 | 一种基于深度学习的柔性机器人视觉识别与定位*** |
CN107053168A (zh) * | 2016-12-09 | 2017-08-18 | 南京理工大学 | 一种基于深度学习网络的目标识别方法及带电作业机器人 |
CN107226087A (zh) * | 2017-05-26 | 2017-10-03 | 西安电子科技大学 | 一种结构化道路自动驾驶运输车及控制方法 |
CN107451601A (zh) * | 2017-07-04 | 2017-12-08 | 昆明理工大学 | 基于时空上下文全卷积网络的运动工件识别方法 |
-
2018
- 2018-01-30 CN CN201810087035.1A patent/CN108305250A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107053168A (zh) * | 2016-12-09 | 2017-08-18 | 南京理工大学 | 一种基于深度学习网络的目标识别方法及带电作业机器人 |
CN106709909A (zh) * | 2016-12-13 | 2017-05-24 | 重庆理工大学 | 一种基于深度学习的柔性机器人视觉识别与定位*** |
CN107226087A (zh) * | 2017-05-26 | 2017-10-03 | 西安电子科技大学 | 一种结构化道路自动驾驶运输车及控制方法 |
CN107451601A (zh) * | 2017-07-04 | 2017-12-08 | 昆明理工大学 | 基于时空上下文全卷积网络的运动工件识别方法 |
Non-Patent Citations (2)
Title |
---|
EVAN SHELHAMER 等: "Fully Convolutional Networks for Semantic Segmentation", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
徐风尧 等: "移动机器人导航中的楼道场景语义分割", 《计算机应用研究》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334642A (zh) * | 2019-07-01 | 2019-10-15 | 河南牧业经济学院 | 一种猪行为的机器视觉识别方法及*** |
CN111221318A (zh) * | 2019-12-11 | 2020-06-02 | 中山大学 | 一种基于模型预测控制算法的多机器人状态估计方法 |
CN111221318B (zh) * | 2019-12-11 | 2023-03-28 | 中山大学 | 一种基于模型预测控制算法的多机器人状态估计方法 |
CN111951263A (zh) * | 2020-08-26 | 2020-11-17 | 桂林电子科技大学 | 一种基于卷积神经网络的机械零件图纸检索方法 |
CN112906701A (zh) * | 2021-02-08 | 2021-06-04 | 重庆兆光科技股份有限公司 | 一种基于多注意力神经网络的细粒度图像识别方法及*** |
CN112906701B (zh) * | 2021-02-08 | 2023-07-14 | 重庆兆光科技股份有限公司 | 一种基于多注意力神经网络的细粒度图像识别方法及*** |
CN116401785A (zh) * | 2023-03-28 | 2023-07-07 | 广州中望龙腾软件股份有限公司 | 一种基于MLP-Mixer的装配数据管理方法及*** |
CN116401785B (zh) * | 2023-03-28 | 2023-12-08 | 广州中望龙腾软件股份有限公司 | 一种基于MLP-Mixer的装配数据管理方法及*** |
CN117115174A (zh) * | 2023-10-25 | 2023-11-24 | 张家港市金阳工具有限公司 | 一种钳子外形自动检测方法及*** |
CN117115174B (zh) * | 2023-10-25 | 2024-02-06 | 张家港市金阳工具有限公司 | 一种钳子外形自动检测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305250A (zh) | 非结构化机器人视觉检测机械零件的同步识别与定位方法 | |
CN107194559B (zh) | 一种基于三维卷积神经网络的工作流识别方法 | |
CN111368852A (zh) | 基于深度学习的物品识别预分拣***、方法及机器人 | |
CN107886069A (zh) | 一种多目标人体2d姿态实时检测***及检测方法 | |
CN105989608B (zh) | 一种面向智能机器人的视觉捕捉方法及装置 | |
CN107705293A (zh) | 一种基于ccd面阵相机视觉检测的五金零件尺寸测量方法 | |
WO2006115427A1 (en) | Three-dimensional road layout estimation from video sequences by tracking pedestrians | |
CN108126914B (zh) | 一种基于深度学习的料框内散乱多物体机器人分拣方法 | |
CN112534243B (zh) | 检查装置与方法及计算机能读取的非临时性的记录介质 | |
CN111369550A (zh) | 图像配准与缺陷检测方法、模型、训练方法、装置及设备 | |
CN110399866A (zh) | 基于ccd相机不同曝光时间交替的空间碎片观测方法 | |
Liu et al. | Using unsupervised deep learning technique for monocular visual odometry | |
CN110399908A (zh) | 基于事件型相机的分类方法和装置、存储介质、电子装置 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测*** | |
CN108748149A (zh) | 一种复杂环境下基于深度学习的无标定机械臂抓取方法 | |
CN106575363A (zh) | 用于追踪场景中的关键点的方法 | |
CN109284735A (zh) | 鼠情监控方法、装置、处理器及存储介质 | |
CN111429424A (zh) | 一种基于深度学习的加热炉入口异常识别方法 | |
CN115147488B (zh) | 一种基于密集预测的工件位姿估计方法与抓取*** | |
CN113688820B (zh) | 频闪条带信息识别方法、装置和电子设备 | |
CN110503647A (zh) | 基于深度学习图像分割的小麦植株实时计数方法 | |
CN117218633A (zh) | 一种物品检测方法、装置、设备及存储介质 | |
CN101561316A (zh) | 一种基于感兴趣区域(roi)的在线检测视觉数据处理*** | |
CN110751055B (zh) | 一种智能制造*** | |
CN112989881A (zh) | 一种无监督可迁移的3d视觉物体抓取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180720 |