CN111428813A

CN111428813A - 一种基于深度学习的面板数字识别与按取方法

Info

Publication number: CN111428813A
Application number: CN202010297742.0A
Authority: CN
Inventors: 王安勇; 裴亚东; 魏巍; 何性顺; 李楠; 张卫华; 李小虎; 田阳; 郭骏; 张震; 焦育东; 蔡建群
Original assignee: Xian Modern Chemistry Research Institute
Current assignee: Xian Modern Chemistry Research Institute
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2020-07-17

Abstract

本发明提出一种基于深度学习的面板数字识别与按取方法，把深度学习算法识别模型应用在机器人面板视频数字识别领域，提高了机器人工作效率与准确度。与常规方法模型相比，该方法识别准确率及效率较高，且不受光照强度、图像采集角度、数字本身的形状的影响，使得机器人对面板上的数字识别在不受光照强度等外界因素影响的同时，可以更加快速准确识别面板上的数字，进而高效采取其它相关动作。

Description

一种基于深度学习的面板数字识别与按取方法

技术领域

本发明属于图像处理和计算机视觉技术领域，具体涉及一种基于深度学习的面板数字识别与按取方法。

背景技术

目标检测与识别是计算机视觉的重要组成部分，也是其主要应用部分之一。随着人工智能技术的高速发展，计算机视觉也得到了迅速的发展，例如在人脸识别、工业智能检测、自动驾驶、图像识别行为分析等领域得到了很好的应用。在此背景下，机器人由于应用场景的不同也分化出了多个种类：机械臂、仿生机器人、服务机器人、物体抓取机器人、安保机器人等，特别在物体识别与抓取方面，为了提升机器人识别的效率与准确度，迫切需要把视觉检测与识别相关技术与机器人相结合。

在深度学习时代之前，早期的目标检测与识别流程主要分为三步：候选框生成、特征向量提取和区域分类。第一阶段，候选框生成阶段的主要思路是用滑动窗口扫描整幅图像，为了捕捉不同尺寸的对象信息，输入图像被重新分割为不同的尺寸，然后用不同尺寸的窗口滑动经过输入图像。第二阶段，特征向量提取阶段，即在图像的每一个位置上，利用滑动窗口获取固定长度的特征向量，进而捕捉该区域的判别语义信息。第三阶段，学习区域分类器，通常使用支持向量机为特定区域分配类别标签。

在目前的深度学习时代，在将深度卷积神经网络成功应用于图像分类后，基于深度学习技术的目标检测与识别也取得了巨大进步。基于深度学习的新算法显著优于传统的目标识别算法。

目前，基于深度学习的目标检测与识别框架可以分为两大类：二阶检测器(如基于区域的R-CNN及其变体)和一阶检测器(如YOLO及其变体)。二阶检测器首先使用候选框生成器生成稀疏的候选集，并从每个候选框中提取特征；然后使用区域分类器预测候选框区域的类别。而一阶检测器直接对特征图上每个位置的对象进行类别预测，不经过二阶中的区域分类步骤。一般来说，二阶检测器通常检测识别性能更优，而一阶检测器更省时，在实时目标检测识别方面具备更强的适用性。

因此，为了使机器人能够更快、更准确地识别面板视频中数字，进而高效的采取相应动作，本发明提出一种基于深度学习faster-RCNN与RegionProposalNetwork(RPN)联合训练的面板数字识别与按取方法。

发明内容

(一)要解决的技术问题

本发明提出一种基于深度学习的面板数字识别与按取方法，以解决视频中面板上的数字识别准确度受光照强度、图像采集角度、物体本身的形状等影响较大的技术问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种基于深度学习的面板数字识别与按取方法，该方法包括如下步骤：

S1、利用机器人摄像头采集面板上包含数字的视频，作为训练样本；

S2、利用faster-RCNN算法对训练样本训练出区域生成网络和识别网络，得到训练模型；

S3、训练完成后，视频中图像数字等时间隔上传***，实时采集面板视频中的数字，如果该上传图片被读取，则调用训练模型对视频中的数字进行检测与识别，输出图片中各个数字的位置及类别信息；如果该上传图片未被读取，则忽略该上传的图片，以此类推，完成数字识别；最后通过机器人手爪自动按动面板按钮，关闭数字识别模式，最终完成利用机器人基于深度学习方法对面板视频中数字的识别及采取相关动作的任务。

进一步地，步骤S1具体包括如下步骤：

S1-1、利用电脑控制机器人摄像头采集面板上包含若干数字的视频，并对视频进行反交错处理后按相等时间间隔上传一幅图片，以此制作训练样本；

S1-2、人工对采集的训练样本图片中的数字位置及类别标签进行标定；

S1-3、人为设计一些类似的不同面板数字图片，增加训练样本的同时提高模型的泛化性，将设计好的数字图片放到采集的训练样本中并进行数字位置与类别标签的自动标定。

进一步地，步骤S2中，区域生成网络和识别网络交替训练，共享提取视频图像深层次特征的前十多层卷积层。

(三)有益效果

本发明提出一种基于深度学习的面板数字识别与按取方法，包括利用机器人摄像头采集面板上包含数字的视频，作为训练样本；利用faster-RCNN算法对训练样本训练出区域生成网络和识别网络，得到训练模型；训练完成后，视频中图像数字等时间隔上传***，实时采集面板视频中的数字，如果该上传图片被读取，则调用训练模型对视频中的数字进行检测与识别，输出图片中各个数字的位置及类别信息；如果该上传图片未被读取，则忽略该上传的图片，以此类推，完成数字识别；最后通过机器人手爪自动按动面板按钮，关闭数字识别模式，完成最终利用机器人基于深度学习方法对面板视频中数字的识别及采取相关动作的任务。

本发明把深度学习算法识别模型应用在机器人面板视频数字识别领域，提高了机器人工作效率与准确度。与常规方法模型相比，本方法识别准确率及效率较高，且不受光照强度、图像采集角度、数字本身的形状的影响，使得机器人对面板上的数字识别在不受光照强度等外界因素影响的同时，可以更加快速准确识别面板上的数字，进而高效采取其它相关动作。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合实施例，对本发明的具体实施方式作进一步详细描述。

本实施例提出一种基于深度学习的面板数字识别与按取方法，该方法具体包括如下步骤：

S1、利用机器人摄像头采集面板上包含数字的视频，作为训练样本；具体包括：

S1-3、人为设计一些类似的不同面板数字图片，增加训练样本的同时提高模型的泛化性，将设计好的数字图片放到采集的训练样本中并进行数字位置与类别标签的自动标定；

S2、利用faster-RCNN算法对训练样本训练出区域生成网络和识别网络，得到训练模型；该两种网络交替训练，共享提取视频图像深层次特征的前十多层卷积层；其中，

关于本实施例中训练区域生成网络的一些主要设置说明如下：

训练RPN(区域生成网络)：先同步分配好正、负anchor，形成正负样本；然后把正负样本输入到模型中，得到一个输出，然后利用损失函数计算该输出和真正的标签值之间的损失。

正anchor分配方法

1、首先给每一个GroundTruth匹配一个anchorbox，取具有两者之间的最大IOU的anchorbox；

2、然后用剩下的anchorbox匹配所有GroundTruth，取IOU大于0.7的anchorbox；

3、将以上符合条件的anchorbox作为正anchor，并将objectness分数设置为1；

负anchor分配方法

1、用剩下的anchorbox匹配所有GroundTruth，取IOU小于0.3的anchorbox；

2、将以上符合条件的anchorbox作为负anchor，并将ojectness分数设置为0。其余anchor不参与训练。

计算类别损失函数

总体损失如下：

分类类别损失：

其中，i是一个mini-batch中anchor的索引，p_i是预测出的第i个anchor对应的边界框的objectness分数，p_i ^*是第i个anchor真正的objectness分数。L_cls是log损失函数

位置损失函数

其中，i是一个mini-batch中anchor的索引，t_i是一个参数化的向量，其值为第i个anchor预测出的边界框的坐标，t_i ^*是第i个正anchor与当前groundtruth的参数化向量。L_reg是smooth_L1损失函数

x＝t_i-t_i*

t_x＝(x-x_a)/w_a,t_y＝(y-y_a)/h_a,t_w＝log(w/w_a),t_h＝log(h/h_a),

t^* _x＝(x^*-x_a)/w_a,t^* _y＝(y^*-y_a)/h_a,t^* _w＝log(w^*/w_a),t^* _h＝log(h^*/h_a)

其中，x，y，w,h表示Bbox的坐标和宽高，x，x_a，x^*分别表示预测box，anchorbox，ground-truthbox的坐标，y，w，h类似；

t_i＝[t_x,t_y,t_w,t_h]

t_i ^*＝[t_x ^*,t_y ^*,t_w ^*,t_h ^*]

S3、训练完成后，视频中图像数字等时间隔上传***，实时采集面板视频中的数字，如果该上传图片被读取，则调用训练模型对视频中的数字进行检测与识别，输出图片中各个数字的位置及类别信息；如果该上传图片未被读取，则忽略该上传的图片，以此类推，完成数字识别；最后通过机器人手爪自动按动面板按钮，关闭数字识别模式，完成最终利用机器人基于深度学习方法对面板视频中数字的识别及采取相关动作的任务。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于深度学习的面板数字识别与按取方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的方法，其特征在于，所述步骤S1具体包括如下步骤：

3.如权利要求1所述的方法，其特征在于，所述步骤S2中，区域生成网络和识别网络交替训练，共享提取视频图像深层次特征的前十多层卷积层。