CN111428813A - 一种基于深度学习的面板数字识别与按取方法 - Google Patents
一种基于深度学习的面板数字识别与按取方法 Download PDFInfo
- Publication number
- CN111428813A CN111428813A CN202010297742.0A CN202010297742A CN111428813A CN 111428813 A CN111428813 A CN 111428813A CN 202010297742 A CN202010297742 A CN 202010297742A CN 111428813 A CN111428813 A CN 111428813A
- Authority
- CN
- China
- Prior art keywords
- panel
- video
- training
- numbers
- robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于深度学习的面板数字识别与按取方法,把深度学习算法识别模型应用在机器人面板视频数字识别领域,提高了机器人工作效率与准确度。与常规方法模型相比,该方法识别准确率及效率较高,且不受光照强度、图像采集角度、数字本身的形状的影响,使得机器人对面板上的数字识别在不受光照强度等外界因素影响的同时,可以更加快速准确识别面板上的数字,进而高效采取其它相关动作。
Description
技术领域
本发明属于图像处理和计算机视觉技术领域,具体涉及一种基于深度学习的面板数字识别与按取方法。
背景技术
目标检测与识别是计算机视觉的重要组成部分,也是其主要应用部分之一。随着人工智能技术的高速发展,计算机视觉也得到了迅速的发展,例如在人脸识别、工业智能检测、自动驾驶、图像识别行为分析等领域得到了很好的应用。在此背景下,机器人由于应用场景的不同也分化出了多个种类:机械臂、仿生机器人、服务机器人、物体抓取机器人、安保机器人等,特别在物体识别与抓取方面,为了提升机器人识别的效率与准确度,迫切需要把视觉检测与识别相关技术与机器人相结合。
在深度学习时代之前,早期的目标检测与识别流程主要分为三步:候选框生成、特征向量提取和区域分类。第一阶段,候选框生成阶段的主要思路是用滑动窗口扫描整幅图像,为了捕捉不同尺寸的对象信息,输入图像被重新分割为不同的尺寸,然后用不同尺寸的窗口滑动经过输入图像。第二阶段,特征向量提取阶段,即在图像的每一个位置上,利用滑动窗口获取固定长度的特征向量,进而捕捉该区域的判别语义信息。第三阶段,学习区域分类器,通常使用支持向量机为特定区域分配类别标签。
在目前的深度学习时代,在将深度卷积神经网络成功应用于图像分类后,基于深度学习技术的目标检测与识别也取得了巨大进步。基于深度学习的新算法显著优于传统的目标识别算法。
目前,基于深度学习的目标检测与识别框架可以分为两大类:二阶检测器(如基于区域的R-CNN及其变体)和一阶检测器(如YOLO及其变体)。二阶检测器首先使用候选框生成器生成稀疏的候选集,并从每个候选框中提取特征;然后使用区域分类器预测候选框区域的类别。而一阶检测器直接对特征图上每个位置的对象进行类别预测,不经过二阶中的区域分类步骤。一般来说,二阶检测器通常检测识别性能更优,而一阶检测器更省时,在实时目标检测识别方面具备更强的适用性。
因此,为了使机器人能够更快、更准确地识别面板视频中数字,进而高效的采取相应动作,本发明提出一种基于深度学习faster-RCNN与RegionProposalNetwork(RPN)联合训练的面板数字识别与按取方法。
发明内容
(一)要解决的技术问题
本发明提出一种基于深度学习的面板数字识别与按取方法,以解决视频中面板上的数字识别准确度受光照强度、图像采集角度、物体本身的形状等影响较大的技术问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种基于深度学习的面板数字识别与按取方法,该方法包括如下步骤:
S1、利用机器人摄像头采集面板上包含数字的视频,作为训练样本;
S2、利用faster-RCNN算法对训练样本训练出区域生成网络和识别网络,得到训练模型;
S3、训练完成后,视频中图像数字等时间隔上传***,实时采集面板视频中的数字,如果该上传图片被读取,则调用训练模型对视频中的数字进行检测与识别,输出图片中各个数字的位置及类别信息;如果该上传图片未被读取,则忽略该上传的图片,以此类推,完成数字识别;最后通过机器人手爪自动按动面板按钮,关闭数字识别模式,最终完成利用机器人基于深度学习方法对面板视频中数字的识别及采取相关动作的任务。
进一步地,步骤S1具体包括如下步骤:
S1-1、利用电脑控制机器人摄像头采集面板上包含若干数字的视频,并对视频进行反交错处理后按相等时间间隔上传一幅图片,以此制作训练样本;
S1-2、人工对采集的训练样本图片中的数字位置及类别标签进行标定;
S1-3、人为设计一些类似的不同面板数字图片,增加训练样本的同时提高模型的泛化性,将设计好的数字图片放到采集的训练样本中并进行数字位置与类别标签的自动标定。
进一步地,步骤S2中,区域生成网络和识别网络交替训练,共享提取视频图像深层次特征的前十多层卷积层。
(三)有益效果
本发明提出一种基于深度学习的面板数字识别与按取方法,包括利用机器人摄像头采集面板上包含数字的视频,作为训练样本;利用faster-RCNN算法对训练样本训练出区域生成网络和识别网络,得到训练模型;训练完成后,视频中图像数字等时间隔上传***,实时采集面板视频中的数字,如果该上传图片被读取,则调用训练模型对视频中的数字进行检测与识别,输出图片中各个数字的位置及类别信息;如果该上传图片未被读取,则忽略该上传的图片,以此类推,完成数字识别;最后通过机器人手爪自动按动面板按钮,关闭数字识别模式,完成最终利用机器人基于深度学习方法对面板视频中数字的识别及采取相关动作的任务。
本发明把深度学习算法识别模型应用在机器人面板视频数字识别领域,提高了机器人工作效率与准确度。与常规方法模型相比,本方法识别准确率及效率较高,且不受光照强度、图像采集角度、数字本身的形状的影响,使得机器人对面板上的数字识别在不受光照强度等外界因素影响的同时,可以更加快速准确识别面板上的数字,进而高效采取其它相关动作。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合实施例,对本发明的具体实施方式作进一步详细描述。
本实施例提出一种基于深度学习的面板数字识别与按取方法,该方法具体包括如下步骤:
S1、利用机器人摄像头采集面板上包含数字的视频,作为训练样本;具体包括:
S1-1、利用电脑控制机器人摄像头采集面板上包含若干数字的视频,并对视频进行反交错处理后按相等时间间隔上传一幅图片,以此制作训练样本;
S1-2、人工对采集的训练样本图片中的数字位置及类别标签进行标定;
S1-3、人为设计一些类似的不同面板数字图片,增加训练样本的同时提高模型的泛化性,将设计好的数字图片放到采集的训练样本中并进行数字位置与类别标签的自动标定;
S2、利用faster-RCNN算法对训练样本训练出区域生成网络和识别网络,得到训练模型;该两种网络交替训练,共享提取视频图像深层次特征的前十多层卷积层;其中,
关于本实施例中训练区域生成网络的一些主要设置说明如下:
训练RPN(区域生成网络):先同步分配好正、负anchor,形成正负样本;然后把正负样本输入到模型中,得到一个输出,然后利用损失函数计算该输出和真正的标签值之间的损失。
正anchor分配方法
1、首先给每一个GroundTruth匹配一个anchorbox,取具有两者之间的最大IOU的anchorbox;
2、然后用剩下的anchorbox匹配所有GroundTruth,取IOU大于0.7的anchorbox;
3、将以上符合条件的anchorbox作为正anchor,并将objectness分数设置为1;
负anchor分配方法
1、用剩下的anchorbox匹配所有GroundTruth,取IOU小于0.3的anchorbox;
2、将以上符合条件的anchorbox作为负anchor,并将ojectness分数设置为0。其余anchor不参与训练。
计算类别损失函数
总体损失如下:
分类类别损失:
其中,i是一个mini-batch中anchor的索引,pi是预测出的第i个anchor对应的边界框的objectness分数,pi *是第i个anchor真正的objectness分数。Lcls是log损失函数
位置损失函数
其中,i是一个mini-batch中anchor的索引,ti是一个参数化的向量,其值为第i个anchor预测出的边界框的坐标,ti *是第i个正anchor与当前groundtruth的参数化向量。Lreg是smoothL1损失函数
x=ti-ti*
tx=(x-xa)/wa,ty=(y-ya)/ha,tw=log(w/wa),th=log(h/ha),
t* x=(x*-xa)/wa,t* y=(y*-ya)/ha,t* w=log(w*/wa),t* h=log(h*/ha)
其中,x,y,w,h表示Bbox的坐标和宽高,x,xa,x*分别表示预测box,anchorbox,ground-truthbox的坐标,y,w,h类似;
ti=[tx,ty,tw,th]
ti *=[tx *,ty *,tw *,th *]
S3、训练完成后,视频中图像数字等时间隔上传***,实时采集面板视频中的数字,如果该上传图片被读取,则调用训练模型对视频中的数字进行检测与识别,输出图片中各个数字的位置及类别信息;如果该上传图片未被读取,则忽略该上传的图片,以此类推,完成数字识别;最后通过机器人手爪自动按动面板按钮,关闭数字识别模式,完成最终利用机器人基于深度学习方法对面板视频中数字的识别及采取相关动作的任务。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (3)
1.一种基于深度学习的面板数字识别与按取方法,其特征在于,所述方法包括如下步骤:
S1、利用机器人摄像头采集面板上包含数字的视频,作为训练样本;
S2、利用faster-RCNN算法对训练样本训练出区域生成网络和识别网络,得到训练模型;
S3、训练完成后,视频中图像数字等时间隔上传***,实时采集面板视频中的数字,如果该上传图片被读取,则调用训练模型对视频中的数字进行检测与识别,输出图片中各个数字的位置及类别信息;如果该上传图片未被读取,则忽略该上传的图片,以此类推,完成数字识别;最后通过机器人手爪自动按动面板按钮,关闭数字识别模式,最终完成利用机器人基于深度学习方法对面板视频中数字的识别及采取相关动作的任务。
2.如权利要求1所述的方法,其特征在于,所述步骤S1具体包括如下步骤:
S1-1、利用电脑控制机器人摄像头采集面板上包含若干数字的视频,并对视频进行反交错处理后按相等时间间隔上传一幅图片,以此制作训练样本;
S1-2、人工对采集的训练样本图片中的数字位置及类别标签进行标定;
S1-3、人为设计一些类似的不同面板数字图片,增加训练样本的同时提高模型的泛化性,将设计好的数字图片放到采集的训练样本中并进行数字位置与类别标签的自动标定。
3.如权利要求1所述的方法,其特征在于,所述步骤S2中,区域生成网络和识别网络交替训练,共享提取视频图像深层次特征的前十多层卷积层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010297742.0A CN111428813A (zh) | 2020-04-16 | 2020-04-16 | 一种基于深度学习的面板数字识别与按取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010297742.0A CN111428813A (zh) | 2020-04-16 | 2020-04-16 | 一种基于深度学习的面板数字识别与按取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111428813A true CN111428813A (zh) | 2020-07-17 |
Family
ID=71557945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010297742.0A Pending CN111428813A (zh) | 2020-04-16 | 2020-04-16 | 一种基于深度学习的面板数字识别与按取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428813A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464899A (zh) * | 2020-12-16 | 2021-03-09 | 航天科工智能机器人有限责任公司 | 一种面板数字识别与按取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451607A (zh) * | 2017-07-13 | 2017-12-08 | 山东中磁视讯股份有限公司 | 一种基于深度学习的典型人物的身份识别方法 |
CN108182413A (zh) * | 2017-12-29 | 2018-06-19 | 中国矿业大学(北京) | 一种矿井移动目标检测与跟踪识别方法 |
CN108564077A (zh) * | 2018-04-03 | 2018-09-21 | 哈尔滨哈船智控科技有限责任公司 | 一种基于深度学习对视频或图片中数字的检测和识别方法 |
-
2020
- 2020-04-16 CN CN202010297742.0A patent/CN111428813A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451607A (zh) * | 2017-07-13 | 2017-12-08 | 山东中磁视讯股份有限公司 | 一种基于深度学习的典型人物的身份识别方法 |
CN108182413A (zh) * | 2017-12-29 | 2018-06-19 | 中国矿业大学(北京) | 一种矿井移动目标检测与跟踪识别方法 |
CN108564077A (zh) * | 2018-04-03 | 2018-09-21 | 哈尔滨哈船智控科技有限责任公司 | 一种基于深度学习对视频或图片中数字的检测和识别方法 |
Non-Patent Citations (1)
Title |
---|
黄心汉: "《微装配机器人》", 国防工业出版社, pages: 114 - 115 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464899A (zh) * | 2020-12-16 | 2021-03-09 | 航天科工智能机器人有限责任公司 | 一种面板数字识别与按取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107194559B (zh) | 一种基于三维卷积神经网络的工作流识别方法 | |
CN108960245B (zh) | 轮胎模具字符的检测与识别方法、装置、设备及存储介质 | |
Abu-Jassar et al. | Some Features of Classifiers Implementation for Object Recognition in Specialized Computer systems. | |
CN111667455B (zh) | 一种刷具多种缺陷的ai检测方法 | |
Sánchez-Nielsen et al. | Hand gesture recognition for human-machine interaction | |
CN107463888B (zh) | 基于多任务学习与深度学习的人脸情绪分析方法及*** | |
CN108596102B (zh) | 基于rgb-d的室内场景物体分割分类器构造方法 | |
Aung et al. | Face detection in real time live video using yolo algorithm based on Vgg16 convolutional neural network | |
Dutta et al. | Predicting human actions taking into account object affordances | |
CN110796018A (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
CN111368637B (zh) | 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 | |
CN114155610B (zh) | 基于上半身姿态估计的面板装配关键动作识别方法 | |
CN114821014A (zh) | 基于多模态与对抗学习的多任务目标检测识别方法及装置 | |
CN108345835B (zh) | 一种基于仿复眼感知的目标识别方法 | |
CN114972246A (zh) | 一种基于深度学习的模切产品表面缺陷检测方法 | |
CN111428813A (zh) | 一种基于深度学习的面板数字识别与按取方法 | |
CN111738264A (zh) | 一种机房设备显示面板数据的智能采集方法 | |
CN113343773B (zh) | 基于浅层卷积神经网络的人脸表情识别*** | |
CN111191575B (zh) | 一种基于火苗跳动建模的明火检测方法及*** | |
Zarkasi et al. | Weightless Neural Networks Face Recognition Learning Process for Binary Facial Pattern | |
Yuliza et al. | Fast Human Recognition System on Real-Time Camera | |
Chen et al. | EEE-Net: Efficient edge enhanced network for surface defect detection of glass | |
CN106530300A (zh) | 一种低秩分析的火焰识别算法 | |
CN111860229A (zh) | 异常行为智能识别方法及其装置和存储介质 | |
CN104866825B (zh) | 一种基于Hu矩的手语视频帧序列分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |