CN110147788A - 一种基于特征增强crnn的金属板带产品标签文字识别方法 - Google Patents
一种基于特征增强crnn的金属板带产品标签文字识别方法 Download PDFInfo
- Publication number
- CN110147788A CN110147788A CN201910448218.6A CN201910448218A CN110147788A CN 110147788 A CN110147788 A CN 110147788A CN 201910448218 A CN201910448218 A CN 201910448218A CN 110147788 A CN110147788 A CN 110147788A
- Authority
- CN
- China
- Prior art keywords
- convolution
- feature
- neural network
- metal plate
- kernel size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于特征增强CRNN的金属板带产品标签文字识别方法,包括以下步骤:准备图片数据库;准备识别字典;进行预处理并扩充训练库;针对钢铁工业应用中金属板带产品标签文字设计并建立一种特征增强的深度卷积循环神经网络;针对所述特征增强的深度卷积循环神经网络,采用所述训练库中的训练范例图片进行多次训练;基于得到的训练后的深度卷积循环神经网络模型中最后一级神经网络架构的输出值对钢铁工业应用中金属板带产品标签上的文字进行识别。本发明通过对钢铁工业现场中拍摄的大量的金属板带产品标签的分析,从实际出发将原始的文字识别网络CRNN通过特征增强实现了更为精准的特征学习,在现实场景中的识别结果有了非常高的可靠度。
Description
技术领域
本发明涉及图像处理与深度学习技术领域,具体涉及一种基于特征增强CRNN的金属板带产品标签文字识别方法。
背景技术
钢铁工业应用相比于一般传统的应用存在严重的工业现场环境的影响,而文字的识别对于外界环境的影响非常敏感,面对工业场景下拍摄的产品标签图片所具有的复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本复杂版式等情况时,文字识别的准确性的效果非常难以达到应用的期望。基于深度学习的文字识别技术的出现使得工业应用中的文字识别有了新的契机,但是并没有针对金属板带产品标签这一特定背景的文字识别方法。由于金属板带产品标签上存在严重的质量问题,如字母挨的太紧,字符模糊,数字“1”、小写英文字母“l”以及大写的英文字母“I”之间存在极差的辨识度等问题,导致现存的文字识别技术很难实现预测与区分,使得识别精度低下,缺乏可靠性;故而在现有方法表现不佳以及未普及的情况下,亟需新的技术填补这一片的空白。
发明内容
根据现有技术存在的问题,本发明公开了一种基于特征增强CRNN的金属板带产品标签文字识别方法。本发明采用的技术手段如下:
一种基于特征增强CRNN的金属板带产品标签文字识别方法,包括以下步骤:
S1、准备图片数据库,所述图片数据库中的图片来源于工业现场拍摄的金属板带产品标签图片;
将所拍摄的金属板带产品标签图片有文字的区域进行切割,获得若干张小图片,每一个小图片中的文字行方向均为水平方向;
每一张小图片对应着一个具有相同名称的txt文件,用来存储该小图片中的文字信息;
每一张小图片和对应的txt文件称为一个训练数据,得到所有训练数据组成数据库;
S2、准备识别字典,遍历所述数据库中的每一个txt文件中的每一个字符,将其添加至原始识别字典中,确保每一个训练数据中的每一个字符均可以被识别,经去重处理后,得到识别字典;
原始识别字典大小为1050字符,主要涉及英文字母,中英文符号以及一些常见的中文字符。
S3、对所述数据库中每一个小图片进行预处理,得到训练范例图片构成训练库;
在预处理之后,将每张训练范例图片经过变换对比度、亮度以及长度拉伸等处理扩充训练库;
所述预处理具有如下步骤:
将所述数据库中每一个小图片处理为单通道灰度图;
将单通道灰度图的高强制缩放到32个像素大小,宽度按照高度的缩放比例进行自由缩放;
S4、针对钢铁工业应用中金属板带产品标签文字设计并建立一种特征增强的深度卷积循环神经网络(CRNN);所述特征增强的深度卷积循环神经网络包括多级神经网络架构,多级神经网络架构中具有两种特殊神经网络架构,以实现了多尺度的特征增强;
S5:针对所述特征增强的深度卷积循环神经网络,采用所述训练库中的训练范例图片进行多次训练,训练时按照设定的学习率调整所述多级神经网络架构的参数,从而得到针对钢铁工业应用中金属板带产品标签文字进行文字识别的深度卷积循环神经网络模型;
S6:基于步骤S5得到的训练后的深度卷积循环神经网络模型中最后一级神经网络架构的输出值对钢铁工业应用中金属板带产品标签上的文字进行识别。
所述多级神经网络架构包括10个模块:第1到第7模块是常规卷积模块,分别在第1、2、4以及第6模块中加入最大池化(MaxPool)操作,且分别在第3、5以及第7模块中加入批归一化(BN)操作;
所述两种特殊神经网络架构为第8和第9模块,第8和第9模块为区域特征增强的卷积模块(Regional feature enhancement module,EFEM),分别称为EFEM_a模块和EFEM_b模块;
第10模块为结果输出层,由双向循环神经网络组成。
EFEM_a模块由可变形卷积层、卷积层、Relu激活层以及最大池化层组成,对于上一层传递而来的特征在所述EFEM_a模块下的卷积过程为:
上一层传递而来的特征首先经过大小为3×3的可变形卷积核进行特征提取,随后将输出的值输入到4个并行分支和一个残差分支中进行再学习;
所述4个并行分支中的第一个分支由卷积核大小为1×1和3×3的卷积层组成;第二个分支由卷积核大小为1×1和3×1的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成;第三个分支由卷积核大小为1×1和1×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成;第四个分支由卷积核大小为1×1、1×3和3×1的卷积层以及扩张率为5且卷积核大小为3×3的扩张卷积组成;将所述4个并行分支的输出进行拼接后输入到卷积核大小为3×3的卷积层中进行特征的细化处理,随后输出到卷积核大小为3×3的可变形卷积和卷积核大小为1×1卷积层输出结果为x0;
所述残差分支使用了卷积核大小为1×1的卷积层,其输出的结果为x1;最后将所述4个并行分支的输出结果x0和所述残差分支的输出结果x1按照scale1的比例进行加和,得x,x满足以下公式:
x=x0·scale1+x1;
x再经过卷积核大小为1×1的卷积层、Relu激活层和最大池化层进行特征提取。
EFEM_b模块由卷积层、Relu激活层以及最大池化层组成,对于上一层传递而来的特征在所述EFEM_b模块下的卷积过程为:
上一层传递而来的特征作为所述EFEM_b模块的输入被送入到3个并行的分支和一个残差分支中进行再学习;
所述3个并行分支中的第一个分支由卷积核大小为1×1和3×3的卷积层组成;第二个分支由卷积核大小为1×1和3×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成;第三个分支由卷积核大小为1×1和2个卷积核大小为3×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成;将所述3个分支的输出进行拼接后输入到卷积核大小为1×1的卷积层中进行特征的细化处理输出结果为x2;
所述残差分支使用了卷积核大小为1×1的卷积层,其输出的结果为x3;最后将所述3个并行分支的输出结果x2和所述残差分支的输出结果x3按照scale2的比例进行加和,得x,x满足以下公式:
x=x2·scale2+x3,x再经过Relu激活层和最大池化层进行特征提取。
所述步骤S5中,在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构时,使用联接时间分类(Connectionist temporal classification,CTC)作为损失函数,使用Adam算法作为学习算法。
所述步骤S5中,在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构时,每次训练的学习率小于或等于前一次训练的学习率。
所述步骤S5中,在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构时,采用“Xavier”方法来初始化所述特征增强的深度卷积循环神经网络的权重,同时将其所有的可变形卷积层的offset偏置层的值全部初始化为0。
所述步骤S5中,在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构时,所述特征增强的深度卷积循环神经网络中的每一个卷积层的输出均经过ReLu激活函数运算后再传入下一层神经元。
所述识别字典中每个字符在训练范例照片库中出现时概率相等,在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构中按照9:1的比例分配到所述特征增强的深度卷积循环神经网络的训练集和验证集。
与现有技术相比,本发明的有益效果:
本发明通过对钢铁工业现场中拍摄的大量的金属板带产品标签的分析,从实际出发将原始的文字识别网络CRNN通过特征增强实现了更为精准的特征学习,对于紧挨的字符、较为模糊的字符以及字符相似度高等辨识度极差的字符有了非常优秀的预测能力,在现实场景中的识别结果有了非常高的可靠度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的具体实施方式中基于特征增强CRNN的金属板带产品标签文字识别方法的流程图;
图2为本发明的具体实施方式中文字区域切割前原始金属板带产品标签示意图;
图3为本发明的具体实施方式中切割后小图片及对应txt文件中的文字信息的示意图;
图4为本发明的具体实施方式中小图片预处理前后对比示意图;
图5为本发明的具体实施方式中EFEM_a模块结构示意图;
图6为本发明的具体实施方式中EFEM_b模块结构示意图;
图7为本发明的具体实施方式中使用的特征增强的深度卷积循环神经网络结构示意图;
图8为本发明的具体实施方式中训练过程损失与精度示意图;
图9为本发明的具体实施方式中辨识度不高字符识别效果对比示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于特征增强CRNN的金属板带产品标签文字识别方法,该识别方法的核心在于:针对工业环境中的实际情况准备大量的产品标签训练图片;建立特征增强CRNN神经网络;基于准备的大量图片进行神经网络的训练;使用训练的特征增强CRNN模型进行文字识别;
所述识别方法,包括以下步骤:
S1、准备图片数据库,所述图片数据库中的图片来源于工业现场拍摄的金属板带产品标签图片;
将所拍摄的金属板带产品标签图片(如图2所示)有文字的区域进行切割,获得若干张小图片,每一个小图片中的文字行方向均为水平方向;
每一张小图片对应着一个具有相同名称的txt文件,用来存储该小图片中的文字信息;
每一张小图片和对应的txt文件称为一个训练数据(如图3所示),得到所有训练数据组成数据库,最终共获得17386个训练数据的数据库;
S2、准备识别字典,遍历所述数据库中的每一个txt文件中的每一个字符,将其添加至原始识别字典中,经去重处理后,得到识别字典;
原始识别字典大小为1050字符,主要涉及英文字母,中英文符号以及一些常见的中文字符;
S3、对所述数据库中每一个小图片进行预处理,得到训练范例图片构成训练库;
在预处理之后,将每张训练范例图片经过变换对比度、亮度以及长度拉伸等处理扩充训练库,按照9:1的比例分配到所述特征增强的深度卷积循环神经网络的训练集和验证集;
所述预处理具有如下步骤:
将所述数据库中每一个小图片处理为单通道灰度图;
将单通道灰度图的高强制缩放到32个像素大小,宽度按照高度的缩放比例进行自由缩放,如图4所示;
S4、针对钢铁工业应用中金属板带产品标签文字设计并建立一种特征增强的深度卷积循环神经网络(CRNN);所述特征增强的深度卷积循环神经网络包括多级神经网络架构,鉴于钢铁工业应用中打印的表单所存在的字符紧挨以及实际环境下所拍摄图片质量等问题,在一般的特征提取操作中加入了特殊的卷积模块进行特征增强,即多级神经网络架构中具有两种特殊神经网络架构,以实现了多尺度的特征增强;
两种特殊神经网络架构(EFEM_a和EFEM_b)的特征增强方式:
EFEM_a模块:输入该模块的值首先会经过卷积核大小为3×3的可变形卷积核进行特征提取,随后将输出的值输入到4个并行分支和一个残差分支中进行再学习;所述4个并行分支中的第一个分支由卷积核大小为1×1和3×3的卷积层组成;第二个分支由卷积核大小为1×1和3×1的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成;第三个分支由卷积核大小为1×1和1×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成;第四个分支由卷积核大小为1×1、1×3和3×1的卷积层以及扩张率为5且卷积核大小为3×3的扩张卷积组成;将所述4个并行分支的输出进行拼接后输入到卷积核大小为3×3的卷积层中进行特征的细化处理,随后输出到卷积核大小为3×3的可变形卷积和卷积核大小为1×1的卷积层输出结果为x0;所述残差分支使用了卷积核大小为1×1的卷积层,其输出的结果为x1;最后将所述4个并行分支的输出结果x0和所述残差分支的输出结果x1按照scale1=0.3的比例进行加和得x(x=x0·scale1+x1),再经过卷积核大小为1×1的卷积层、Relu激活层和最大池化层。如图5为EFEM_a模块结构示意图。
EFEM_b模块:输入到该模块的值将被送入到3个并行分支和一个残差分支中进行再学习;所述3个并行分支中的第一个分支由卷积核大小为1×1和3×3的卷积层组成;第二个分支由卷积核大小为1×1和3×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成;第三个分支由卷积核大小为1×1和2个卷积核大小为3×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成;将所述3个分支的输出进行拼接后输入到卷积核大小为1×1的卷积层中进行特征的细化处理输出结果为x2;所述残差分支使用了大小为1×1的卷积层,其输出的结果为x3;最后将所述3个并行分支的输出结果x2和残差分支的输出结果x3按照scale2=0.3的比例进行加和得x(x=x2·scale2+x3),再经过Relu激活层和最大池化进行特征提取。如图6为EFEM_b模块结构示意图。
如图7所示,下面介绍所使用的特征增强CRNN的网络结构:
对于输入的一张具有固定高度32像素数大小的灰度图片,首先经过卷积核大小为3×3的卷积核,输出的通道数为64,随后经过Relu激活进入最大池化层,得到的结果分为两个分支,第一个分支被送入到第一个区域特征增强模块EFEM_a得到特征图x4,第二个分支进入卷积核大小为3×3的卷积层,得到128通道的特征图并激活进入最大池化层,而后得到的特征图再次分为两个分支进行特征提取,其中的第一个分支送入第二个区域特征增强模块EFEM_b得到特征图x5,第二个分支进入卷积核大小为3×3的卷积层,得到256通道的特征图,在激活后进行批归一化(BN)得到特征图x6,随后以比例scale3进行特征的加和,即x=x4·scale3+x6,随后将加和的特征送入卷积核大小为3×3的卷积层,输出的通道数为256,随后经过Relu激活进入最大池化层得到特征图x7,随后以比例scale4进行特征的加和,即x=x6·scale4+x7,将本次得到的加和特征图依次经过3个512通道的卷积核大小为3×3的卷积层后得到特征序列,再经过两次的双循环神经网络层实现对特征序列每帧中对应文字的预测。
S5:针对所述特征增强CRNN的网络结构,采用所述训练库中的训练范例图片进行多次训练,本实例中对于特征增强CRNN的网络结构的训练共分为三个阶段,每个阶段对学习率的设置均不一样,直到损失和精度保持不变。训练特征增强CRNN的各级神经网络架构时采用以下的方式:
A.使用联接时间分类CTC作为损失函数;
B.使用Adam算法作为模型的优化算法;
C.第一个阶段使用0.001的学习率调整多级神经网络架构的参数,Adam优化器的方差设置为[0.9,0.99],scale1、scale2、scale3和scale4均设置为0.1训练至网络的损失和验证集的精度保持不变;第二阶段采用0.0001的学习率调整多级神经网络架构的参数,此时Adam优化器的方差设置为[0.89,0.99],scale1和scale2保持不变,scale3和scale4均增大到0.4,同样训练之至网络的损失和验证集的精度保持不变,经过此步骤,验证集的精度会有很大的提升,且训练的损失较之间有较大下降;第三阶段采用0.00001的学习率对多级神经网络架构进行微调,此时Adam的方差设置范围为[0.88,0.99],scale1和scale2增大到0.3,scale3和scale4均增大到0.6迭代若干次后得到最终的模型。
D.在第3、5以及第7卷积层后利用批归一化(BN)对卷积输出的值进行归一化处理,减小过拟合的风险以及加快网络训练的速度;
E.采用“Xavier”方法来初始化特征增强的深度卷积循环神经网络的权重,该方法来源于2010年的一篇论文《Understanding the difficulty of training deepfeedforward neural networks》,这种权重初始化方法有利于加快网络训练的收敛,同时对所有可变形卷积的offset偏置层的值全部初始化为0;
通过以上训练过程,得到针对钢铁工业应用中金属板带产品标签文字进行文字识别的深度卷积循环神经网络模型;
S6:基于步骤S5得到的训练后的深度卷积循环神经网络模型中最后一级神经网络架构的输出值对钢铁工业应用中金属板带产品标签上的文字进行识别,如图8所示。
上述方案提出了一种由数据驱动的基于特征增强CRNN的金属板带产品标签文字的识别方法,它通过Xavier初始化权重,采用CTC损失函数,Adam优化算法,使用现场拍摄的金属板带产品标签图片处理得到的数据库作为训练集训练的最终模型,可通过获取更多训练数据进一步通过训练来提高准确率。
本方法通过深度学习,在每一步的迭代中网络参数进行自动更新,实现从训练数据中自主学习所需特征并完成文字识别的目的,其准确性可以随着训练数据量的增长不断提高,极大的提高了在工业应用场景中的识别准确性与可靠度。在测试中发现,模型在1500张图片的识别准确率能到达95%左右,相比之前的识别网络约有10%的增幅,特别的,模型对于紧挨的字符、较为模糊的字符以及字符相似度高等辨识度不高的字符有很好的支撑性(如图9所示)。采用以上基于深度学习的文字识别方法能够快速而准确地完成钢铁工业中金属板带产品标签文字的识别,可以应用于钢铁工业领域甚至更广的范围。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种基于特征增强CRNN的金属板带产品标签文字识别方法,其特征在于,包括以下步骤:
S1、准备图片数据库,所述图片数据库中的图片来源于工业现场拍摄的金属板带产品标签图片;
将所拍摄的金属板带产品标签图片有文字的区域进行切割,获得若干张小图片,每一个小图片中的文字行方向均为水平方向;
每一张小图片对应着一个具有相同名称的txt文件,用来存储该小图片中的文字信息;
每一张小图片和对应的txt文件称为一个训练数据,得到所有训练数据组成数据库;
S2、准备识别字典,遍历所述数据库中的每一个txt文件中的每一个字符,将其添加至原始识别字典中,经去重处理后,得到识别字典;
S3、对所述数据库中每一个小图片进行预处理,得到训练范例图片构成训练库;
在预处理之后,将每张训练范例图片经过变换对比度、亮度以及长度拉伸等处理扩充训练库;
所述预处理具有如下步骤:
将所述数据库中每一个小图片处理为单通道灰度图;
将单通道灰度图的高强制缩放到32个像素大小,宽度按照高度的缩放比例进行自由缩放;
S4、针对钢铁工业应用中金属板带产品标签文字设计并建立一种特征增强的深度卷积循环神经网络;所述特征增强的深度卷积循环神经网络包括多级神经网络架构,多级神经网络架构中具有两种特殊神经网络架构,以实现了多尺度的特征增强;
S5:针对所述特征增强的深度卷积循环神经网络,采用所述训练库中的训练范例图片进行多次训练,训练时按照设定的学习率调整所述多级神经网络架构的参数,从而得到针对钢铁工业应用中金属板带产品标签文字进行文字识别的深度卷积循环神经网络模型;
S6:基于步骤S5得到的训练后的深度卷积循环神经网络模型中最后一级神经网络架构的输出值对钢铁工业应用中金属板带产品标签上的文字进行识别。
2.根据权利要求1所述的基于特征增强CRNN的金属板带产品标签文字识别方法,其特征在于,
所述多级神经网络架构包括10个模块:第1到第7模块是常规卷积模块,分别在第1、2、4以及第6模块中加入最大池化操作,且分别在第3、5以及第7模块中加入批归一化操作;
所述两种特殊神经网络架构为第8和第9模块,第8和第9模块为区域特征增强的卷积模块,分别称为EFEM_a模块和EFEM_b模块;
第10模块为结果输出层,由双向循环神经网络组成。
3.根据权利要求2所述的基于特征增强CRNN的金属板带产品标签文字识别方法,其特征在于,
EFEM_a模块由可变形卷积层、卷积层、Relu激活层以及最大池化层组成,对于上一层传递而来的特征在所述EFEM_a模块下的卷积过程为:
上一层传递而来的特征首先经过大小为3×3的可变形卷积核进行特征提取,随后将输出的值输入到4个并行分支和一个残差分支中进行再学习;
所述4个并行分支中的第一个分支由卷积核大小为1×1和3×3的卷积层组成;第二个分支由卷积核大小为1×1和3×1的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成;第三个分支由卷积核大小为1×1和1×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成;第四个分支由卷积核大小为1×1、1×3和3×1的卷积层以及扩张率为5且卷积核大小为3×3的扩张卷积组成;将所述4个并行分支的输出进行拼接后输入到卷积核大小为3×3的卷积层中进行特征的细化处理,随后输出到卷积核大小为3×3的可变形卷积和卷积核大小为1×1卷积层输出结果为x0;
所述残差分支使用了卷积核大小为1×1的卷积层,其输出的结果为x1;最后将所述4个并行分支的输出结果x0和所述残差分支的输出结果x1按照scale1的比例进行加和,得x,x满足以下公式:
x=x0·scale1+x1;
x再经过卷积核大小为1×1的卷积层、Relu激活层和最大池化层进行特征提取。
4.根据权利要求3所述的基于特征增强CRNN的金属板带产品标签文字识别方法,其特征在于,
EFEM_b模块由卷积层、Relu激活层以及最大池化层组成,对于上一层传递而来的特征在所述EFEM_b模块下的卷积过程为:
上一层传递而来的特征作为所述EFEM_b模块的输入被送入到3个并行的分支和一个残差分支中进行再学习;
所述3个并行分支中的第一个分支由卷积核大小为1×1和3×3的卷积层组成;第二个分支由卷积核大小为1×1和3×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成;第三个分支由卷积核大小为1×1和2个卷积核大小为3×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成;将所述3个分支的输出进行拼接后输入到卷积核大小为1×1的卷积层中进行特征的细化处理输出结果为x2;
所述残差分支使用了卷积核大小为1×1的卷积层,其输出的结果为x3;最后将所述3个并行分支的输出结果x2和所述残差分支的输出结果x3按照scale2的比例进行加和,得x,x满足以下公式:
x=x2·scale2+x3,x再经过Relu激活层和最大池化层进行特征提取。
5.根据权利要求4所述的基于特征增强CRNN的金属板带产品标签文字识别方法,其特征在于,
所述步骤S5中,在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构时,使用联接时间分类作为损失函数,使用Adam算法作为学习算法。
6.根据权利要求4所述的基于特征增强CRNN的金属板带产品标签文字识别方法,其特征在于,
所述步骤S5中,在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构时,每次训练的学习率小于或等于前一次训练的学习率。
7.根据权利要求4所述的基于特征增强CRNN的金属板带产品标签文字识别方法,其特征在于,
所述步骤S5中,在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构时,采用“Xavier”方法来初始化所述特征增强的深度卷积循环神经网络的权重,同时将其所有的可变形卷积层的offset偏置层的值全部初始化为0。
8.根据权利要求4所述的基于特征增强CRNN的金属板带产品标签文字识别方法,其特征在于,
所述步骤S5中,在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构时,所述特征增强的深度卷积循环神经网络中的每一个卷积层的输出均经过ReLu激活函数运算后再传入下一层神经元。
9.根据权利要求4所述的基于特征增强CRNN的金属板带产品标签文字识别方法,其特征在于,
所述识别字典中每个字符在训练范例照片库中出现时概率相等,在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构中按照9:1的比例分配到所述特征增强的深度卷积循环神经网络的训练集和验证集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910448218.6A CN110147788B (zh) | 2019-05-27 | 2019-05-27 | 一种基于特征增强crnn的金属板带产品标签文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910448218.6A CN110147788B (zh) | 2019-05-27 | 2019-05-27 | 一种基于特征增强crnn的金属板带产品标签文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110147788A true CN110147788A (zh) | 2019-08-20 |
CN110147788B CN110147788B (zh) | 2021-09-21 |
Family
ID=67593348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910448218.6A Active CN110147788B (zh) | 2019-05-27 | 2019-05-27 | 一种基于特征增强crnn的金属板带产品标签文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147788B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027562A (zh) * | 2019-12-06 | 2020-04-17 | 中电健康云科技有限公司 | 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法 |
CN111414908A (zh) * | 2020-03-16 | 2020-07-14 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频中字幕字符的识别方法及装置 |
CN111414906A (zh) * | 2020-03-05 | 2020-07-14 | 北京交通大学 | 纸质票据图片的数据合成与文本识别方法 |
CN111652108A (zh) * | 2020-05-28 | 2020-09-11 | 中国人民解放军32802部队 | 抗干扰的信号识别方法、装置、计算机设备和存储介质 |
CN112464845A (zh) * | 2020-12-04 | 2021-03-09 | 山东产研鲲云人工智能研究院有限公司 | 票据识别方法、设备及计算机存储介质 |
CN112744439A (zh) * | 2021-01-15 | 2021-05-04 | 湖南镭目科技有限公司 | 一种基于深度学习技术的废钢远程监控*** |
TWI786946B (zh) * | 2021-11-15 | 2022-12-11 | 國立雲林科技大學 | 金屬製品表面之文字辨識方法 |
CN115661828A (zh) * | 2022-12-08 | 2023-01-31 | 中化现代农业有限公司 | 一种基于动态分层嵌套残差网络的文字方向识别方法 |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739829A (zh) * | 2009-12-03 | 2010-06-16 | 北京中星微电子有限公司 | 一种基于视频的车辆超速监控方法及*** |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及*** |
CN104966517A (zh) * | 2015-06-02 | 2015-10-07 | 华为技术有限公司 | 一种音频信号增强方法和装置 |
CN105005764A (zh) * | 2015-06-29 | 2015-10-28 | 东南大学 | 自然场景多方向文本检测方法 |
CN105956469A (zh) * | 2016-04-27 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 文件安全性识别方法和装置 |
CN107292291A (zh) * | 2017-07-19 | 2017-10-24 | 北京智芯原动科技有限公司 | 一种车辆识别方法和*** |
US20180096226A1 (en) * | 2016-10-04 | 2018-04-05 | Magic Leap, Inc. | Efficient data layouts for convolutional neural networks |
CN107886967A (zh) * | 2017-11-18 | 2018-04-06 | 中国人民解放军陆军工程大学 | 一种深度双向门递归神经网络的骨导语音增强方法 |
US20180211157A1 (en) * | 2017-01-25 | 2018-07-26 | Boe Technology Group Co., Ltd. | Image processing method and device |
CN108510502A (zh) * | 2018-03-08 | 2018-09-07 | 华南理工大学 | 基于深度神经网络的黑色素瘤图片组织分割方法和*** |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108648748A (zh) * | 2018-03-30 | 2018-10-12 | 沈阳工业大学 | 医院噪声环境下的声学事件检测方法 |
CN108664996A (zh) * | 2018-04-19 | 2018-10-16 | 厦门大学 | 一种基于深度学习的古文字识别方法及*** |
US10163022B1 (en) * | 2017-06-22 | 2018-12-25 | StradVision, Inc. | Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same |
CN109086700A (zh) * | 2018-07-20 | 2018-12-25 | 杭州电子科技大学 | 基于深度卷积神经网络的雷达一维距离像目标识别方法 |
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109214250A (zh) * | 2017-07-05 | 2019-01-15 | 中南大学 | 一种基于多尺度卷积神经网络的静态手势识别方法 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别***及方法 |
CN109413411A (zh) * | 2018-09-06 | 2019-03-01 | 腾讯数码(天津)有限公司 | 一种监控线路的黑屏识别方法、装置及服务器 |
CN109460761A (zh) * | 2018-10-17 | 2019-03-12 | 福州大学 | 基于维度聚类和多尺度预测的银行卡***检测与识别方法 |
CN109508655A (zh) * | 2018-10-28 | 2019-03-22 | 北京化工大学 | 基于孪生网络的不完备训练集的sar目标识别方法 |
-
2019
- 2019-05-27 CN CN201910448218.6A patent/CN110147788B/zh active Active
Patent Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739829A (zh) * | 2009-12-03 | 2010-06-16 | 北京中星微电子有限公司 | 一种基于视频的车辆超速监控方法及*** |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及*** |
CN104966517A (zh) * | 2015-06-02 | 2015-10-07 | 华为技术有限公司 | 一种音频信号增强方法和装置 |
CN105005764A (zh) * | 2015-06-29 | 2015-10-28 | 东南大学 | 自然场景多方向文本检测方法 |
CN105956469A (zh) * | 2016-04-27 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 文件安全性识别方法和装置 |
US20180096226A1 (en) * | 2016-10-04 | 2018-04-05 | Magic Leap, Inc. | Efficient data layouts for convolutional neural networks |
US20180211157A1 (en) * | 2017-01-25 | 2018-07-26 | Boe Technology Group Co., Ltd. | Image processing method and device |
US10163022B1 (en) * | 2017-06-22 | 2018-12-25 | StradVision, Inc. | Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same |
US20180373947A1 (en) * | 2017-06-22 | 2018-12-27 | StradVision, Inc. | Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same |
CN109214250A (zh) * | 2017-07-05 | 2019-01-15 | 中南大学 | 一种基于多尺度卷积神经网络的静态手势识别方法 |
CN107292291A (zh) * | 2017-07-19 | 2017-10-24 | 北京智芯原动科技有限公司 | 一种车辆识别方法和*** |
CN107886967A (zh) * | 2017-11-18 | 2018-04-06 | 中国人民解放军陆军工程大学 | 一种深度双向门递归神经网络的骨导语音增强方法 |
CN108510502A (zh) * | 2018-03-08 | 2018-09-07 | 华南理工大学 | 基于深度神经网络的黑色素瘤图片组织分割方法和*** |
CN108648748A (zh) * | 2018-03-30 | 2018-10-12 | 沈阳工业大学 | 医院噪声环境下的声学事件检测方法 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108664996A (zh) * | 2018-04-19 | 2018-10-16 | 厦门大学 | 一种基于深度学习的古文字识别方法及*** |
CN109086700A (zh) * | 2018-07-20 | 2018-12-25 | 杭州电子科技大学 | 基于深度卷积神经网络的雷达一维距离像目标识别方法 |
CN109413411A (zh) * | 2018-09-06 | 2019-03-01 | 腾讯数码(天津)有限公司 | 一种监控线路的黑屏识别方法、装置及服务器 |
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109460761A (zh) * | 2018-10-17 | 2019-03-12 | 福州大学 | 基于维度聚类和多尺度预测的银行卡***检测与识别方法 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别***及方法 |
CN109508655A (zh) * | 2018-10-28 | 2019-03-22 | 北京化工大学 | 基于孪生网络的不完备训练集的sar目标识别方法 |
Non-Patent Citations (3)
Title |
---|
SHI B等: "An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
张恒: "基于卷积神经网络的自然场景文本定位与识别算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈大力: "数字图像处理中去噪算法的研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027562A (zh) * | 2019-12-06 | 2020-04-17 | 中电健康云科技有限公司 | 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法 |
CN111414906A (zh) * | 2020-03-05 | 2020-07-14 | 北京交通大学 | 纸质票据图片的数据合成与文本识别方法 |
CN111414906B (zh) * | 2020-03-05 | 2024-05-24 | 北京交通大学 | 纸质票据图片的数据合成与文本识别方法 |
CN111414908A (zh) * | 2020-03-16 | 2020-07-14 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频中字幕字符的识别方法及装置 |
CN111414908B (zh) * | 2020-03-16 | 2023-08-29 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频中字幕字符的识别方法及装置 |
CN111652108A (zh) * | 2020-05-28 | 2020-09-11 | 中国人民解放军32802部队 | 抗干扰的信号识别方法、装置、计算机设备和存储介质 |
CN112464845A (zh) * | 2020-12-04 | 2021-03-09 | 山东产研鲲云人工智能研究院有限公司 | 票据识别方法、设备及计算机存储介质 |
CN112464845B (zh) * | 2020-12-04 | 2022-09-16 | 山东产研鲲云人工智能研究院有限公司 | 票据识别方法、设备及计算机存储介质 |
CN112744439A (zh) * | 2021-01-15 | 2021-05-04 | 湖南镭目科技有限公司 | 一种基于深度学习技术的废钢远程监控*** |
TWI786946B (zh) * | 2021-11-15 | 2022-12-11 | 國立雲林科技大學 | 金屬製品表面之文字辨識方法 |
CN115661828A (zh) * | 2022-12-08 | 2023-01-31 | 中化现代农业有限公司 | 一种基于动态分层嵌套残差网络的文字方向识别方法 |
CN115661828B (zh) * | 2022-12-08 | 2023-10-20 | 中化现代农业有限公司 | 一种基于动态分层嵌套残差网络的文字方向识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110147788B (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147788A (zh) | 一种基于特征增强crnn的金属板带产品标签文字识别方法 | |
CN107292333B (zh) | 一种基于深度学习的快速图像分类方法 | |
CN106650721B (zh) | 一种基于卷积神经网络的工业字符识别方法 | |
CN104850845B (zh) | 一种基于非对称卷积神经网络的交通标志识别方法 | |
CN107368831A (zh) | 一种自然场景图像中的英文文字和数字识别方法 | |
EP3261017A1 (en) | Image processing system to detect objects of interest | |
CN108388896A (zh) | 一种基于动态时序卷积神经网络的车牌识别方法 | |
CN109993164A (zh) | 一种基于rcrnn神经网络的自然场景文字识别方法 | |
CN106446927A (zh) | 一种自步增强图像分类方法及*** | |
CN106339984A (zh) | 基于k均值驱动卷积神经网络的分布式图像超分辨方法 | |
CN109376625A (zh) | 一种基于卷积神经网络的面部表情识别方法 | |
CN112070768A (zh) | 基于Anchor-Free的实时实例分割方法 | |
CN108416270A (zh) | 一种基于多属性联合特征的交通标志识别方法 | |
Hossain et al. | Recognition and solution for handwritten equation using convolutional neural network | |
CN114549507B (zh) | 改进Scaled-YOLOv4的织物瑕疵检测方法 | |
CN112364883A (zh) | 一种基于单阶段目标检测和deeptext识别网络的美式车牌识别方法 | |
CN109816002A (zh) | 基于特征自迁移的单一稀疏自编码器弱小目标检测方法 | |
CN114898472A (zh) | 基于孪生视觉Transformer网络的签名鉴定方法和*** | |
Bouchain | Character recognition using convolutional neural networks | |
Fardous et al. | Handwritten isolated Bangla compound character recognition | |
CN109508640A (zh) | 一种人群情感分析方法、装置和存储介质 | |
Ahmed et al. | Design and implementation of a neural network for real-time object tracking | |
US11132572B2 (en) | Method and system for splicing and restoring shredded paper based on extreme learning machine | |
CN110738213A (zh) | 一种包括周边环境的图像识别方法及装置 | |
Ashiquzzaman et al. | Applying data augmentation to handwritten arabic numeral recognition using deep learning neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |