CN110147788A

CN110147788A - 一种基于特征增强crnn的金属板带产品标签文字识别方法

Info

Publication number: CN110147788A
Application number: CN201910448218.6A
Authority: CN
Inventors: 刘士新; 郭文瑞; 陈大力; 赖峰
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-08-20
Anticipated expiration: 2039-05-27
Also published as: CN110147788B

Abstract

本发明公开了一种基于特征增强CRNN的金属板带产品标签文字识别方法，包括以下步骤：准备图片数据库；准备识别字典；进行预处理并扩充训练库；针对钢铁工业应用中金属板带产品标签文字设计并建立一种特征增强的深度卷积循环神经网络；针对所述特征增强的深度卷积循环神经网络，采用所述训练库中的训练范例图片进行多次训练；基于得到的训练后的深度卷积循环神经网络模型中最后一级神经网络架构的输出值对钢铁工业应用中金属板带产品标签上的文字进行识别。本发明通过对钢铁工业现场中拍摄的大量的金属板带产品标签的分析，从实际出发将原始的文字识别网络CRNN通过特征增强实现了更为精准的特征学习，在现实场景中的识别结果有了非常高的可靠度。

Description

一种基于特征增强CRNN的金属板带产品标签文字识别方法

技术领域

本发明涉及图像处理与深度学习技术领域，具体涉及一种基于特征增强CRNN的金属板带产品标签文字识别方法。

背景技术

钢铁工业应用相比于一般传统的应用存在严重的工业现场环境的影响，而文字的识别对于外界环境的影响非常敏感，面对工业场景下拍摄的产品标签图片所具有的复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本复杂版式等情况时，文字识别的准确性的效果非常难以达到应用的期望。基于深度学习的文字识别技术的出现使得工业应用中的文字识别有了新的契机，但是并没有针对金属板带产品标签这一特定背景的文字识别方法。由于金属板带产品标签上存在严重的质量问题，如字母挨的太紧，字符模糊，数字“1”、小写英文字母“l”以及大写的英文字母“I”之间存在极差的辨识度等问题，导致现存的文字识别技术很难实现预测与区分，使得识别精度低下，缺乏可靠性；故而在现有方法表现不佳以及未普及的情况下，亟需新的技术填补这一片的空白。

发明内容

根据现有技术存在的问题，本发明公开了一种基于特征增强CRNN的金属板带产品标签文字识别方法。本发明采用的技术手段如下：

一种基于特征增强CRNN的金属板带产品标签文字识别方法，包括以下步骤：

S1、准备图片数据库，所述图片数据库中的图片来源于工业现场拍摄的金属板带产品标签图片；

将所拍摄的金属板带产品标签图片有文字的区域进行切割，获得若干张小图片，每一个小图片中的文字行方向均为水平方向；

每一张小图片对应着一个具有相同名称的txt文件，用来存储该小图片中的文字信息；

每一张小图片和对应的txt文件称为一个训练数据，得到所有训练数据组成数据库；

S2、准备识别字典，遍历所述数据库中的每一个txt文件中的每一个字符，将其添加至原始识别字典中，确保每一个训练数据中的每一个字符均可以被识别，经去重处理后，得到识别字典；

原始识别字典大小为1050字符，主要涉及英文字母，中英文符号以及一些常见的中文字符。

S3、对所述数据库中每一个小图片进行预处理，得到训练范例图片构成训练库；

在预处理之后，将每张训练范例图片经过变换对比度、亮度以及长度拉伸等处理扩充训练库；

所述预处理具有如下步骤：

将所述数据库中每一个小图片处理为单通道灰度图；

将单通道灰度图的高强制缩放到32个像素大小，宽度按照高度的缩放比例进行自由缩放；

S4、针对钢铁工业应用中金属板带产品标签文字设计并建立一种特征增强的深度卷积循环神经网络(CRNN)；所述特征增强的深度卷积循环神经网络包括多级神经网络架构，多级神经网络架构中具有两种特殊神经网络架构，以实现了多尺度的特征增强；

S5：针对所述特征增强的深度卷积循环神经网络，采用所述训练库中的训练范例图片进行多次训练，训练时按照设定的学习率调整所述多级神经网络架构的参数，从而得到针对钢铁工业应用中金属板带产品标签文字进行文字识别的深度卷积循环神经网络模型；

S6：基于步骤S5得到的训练后的深度卷积循环神经网络模型中最后一级神经网络架构的输出值对钢铁工业应用中金属板带产品标签上的文字进行识别。

所述多级神经网络架构包括10个模块：第1到第7模块是常规卷积模块，分别在第1、2、4以及第6模块中加入最大池化(MaxPool)操作，且分别在第3、5以及第7模块中加入批归一化(BN)操作；

所述两种特殊神经网络架构为第8和第9模块，第8和第9模块为区域特征增强的卷积模块(Regional feature enhancement module，EFEM)，分别称为EFEM_a模块和EFEM_b模块；

第10模块为结果输出层，由双向循环神经网络组成。

EFEM_a模块由可变形卷积层、卷积层、Relu激活层以及最大池化层组成，对于上一层传递而来的特征在所述EFEM_a模块下的卷积过程为：

上一层传递而来的特征首先经过大小为3×3的可变形卷积核进行特征提取，随后将输出的值输入到4个并行分支和一个残差分支中进行再学习；

所述4个并行分支中的第一个分支由卷积核大小为1×1和3×3的卷积层组成；第二个分支由卷积核大小为1×1和3×1的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成；第三个分支由卷积核大小为1×1和1×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成；第四个分支由卷积核大小为1×1、1×3和3×1的卷积层以及扩张率为5且卷积核大小为3×3的扩张卷积组成；将所述4个并行分支的输出进行拼接后输入到卷积核大小为3×3的卷积层中进行特征的细化处理，随后输出到卷积核大小为3×3的可变形卷积和卷积核大小为1×1卷积层输出结果为x₀；

所述残差分支使用了卷积核大小为1×1的卷积层，其输出的结果为x₁；最后将所述4个并行分支的输出结果x₀和所述残差分支的输出结果x₁按照scale₁的比例进行加和，得x，x满足以下公式：

x＝x₀·scale₁+x₁；

x再经过卷积核大小为1×1的卷积层、Relu激活层和最大池化层进行特征提取。

EFEM_b模块由卷积层、Relu激活层以及最大池化层组成，对于上一层传递而来的特征在所述EFEM_b模块下的卷积过程为：

上一层传递而来的特征作为所述EFEM_b模块的输入被送入到3个并行的分支和一个残差分支中进行再学习；

所述3个并行分支中的第一个分支由卷积核大小为1×1和3×3的卷积层组成；第二个分支由卷积核大小为1×1和3×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成；第三个分支由卷积核大小为1×1和2个卷积核大小为3×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成；将所述3个分支的输出进行拼接后输入到卷积核大小为1×1的卷积层中进行特征的细化处理输出结果为x₂；

所述残差分支使用了卷积核大小为1×1的卷积层，其输出的结果为x₃；最后将所述3个并行分支的输出结果x₂和所述残差分支的输出结果x₃按照scale₂的比例进行加和，得x，x满足以下公式：

x＝x₂·scale₂+x₃，x再经过Relu激活层和最大池化层进行特征提取。

所述步骤S5中，在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构时，使用联接时间分类(Connectionist temporal classification，CTC)作为损失函数，使用Adam算法作为学习算法。

所述步骤S5中，在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构时，每次训练的学习率小于或等于前一次训练的学习率。

所述步骤S5中，在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构时，采用“Xavier”方法来初始化所述特征增强的深度卷积循环神经网络的权重，同时将其所有的可变形卷积层的offset偏置层的值全部初始化为0。

所述步骤S5中，在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构时，所述特征增强的深度卷积循环神经网络中的每一个卷积层的输出均经过ReLu激活函数运算后再传入下一层神经元。

所述识别字典中每个字符在训练范例照片库中出现时概率相等，在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构中按照9：1的比例分配到所述特征增强的深度卷积循环神经网络的训练集和验证集。

与现有技术相比，本发明的有益效果：

本发明通过对钢铁工业现场中拍摄的大量的金属板带产品标签的分析，从实际出发将原始的文字识别网络CRNN通过特征增强实现了更为精准的特征学习，对于紧挨的字符、较为模糊的字符以及字符相似度高等辨识度极差的字符有了非常优秀的预测能力，在现实场景中的识别结果有了非常高的可靠度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的具体实施方式中基于特征增强CRNN的金属板带产品标签文字识别方法的流程图；

图2为本发明的具体实施方式中文字区域切割前原始金属板带产品标签示意图；

图3为本发明的具体实施方式中切割后小图片及对应txt文件中的文字信息的示意图；

图4为本发明的具体实施方式中小图片预处理前后对比示意图；

图5为本发明的具体实施方式中EFEM_a模块结构示意图；

图6为本发明的具体实施方式中EFEM_b模块结构示意图；

图7为本发明的具体实施方式中使用的特征增强的深度卷积循环神经网络结构示意图；

图8为本发明的具体实施方式中训练过程损失与精度示意图；

图9为本发明的具体实施方式中辨识度不高字符识别效果对比示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于特征增强CRNN的金属板带产品标签文字识别方法，该识别方法的核心在于：针对工业环境中的实际情况准备大量的产品标签训练图片；建立特征增强CRNN神经网络；基于准备的大量图片进行神经网络的训练；使用训练的特征增强CRNN模型进行文字识别；

所述识别方法，包括以下步骤：

将所拍摄的金属板带产品标签图片(如图2所示)有文字的区域进行切割，获得若干张小图片，每一个小图片中的文字行方向均为水平方向；

每一张小图片和对应的txt文件称为一个训练数据(如图3所示)，得到所有训练数据组成数据库，最终共获得17386个训练数据的数据库；

S2、准备识别字典，遍历所述数据库中的每一个txt文件中的每一个字符，将其添加至原始识别字典中，经去重处理后，得到识别字典；

原始识别字典大小为1050字符，主要涉及英文字母，中英文符号以及一些常见的中文字符；

在预处理之后，将每张训练范例图片经过变换对比度、亮度以及长度拉伸等处理扩充训练库，按照9：1的比例分配到所述特征增强的深度卷积循环神经网络的训练集和验证集；

所述预处理具有如下步骤：

将所述数据库中每一个小图片处理为单通道灰度图；

将单通道灰度图的高强制缩放到32个像素大小，宽度按照高度的缩放比例进行自由缩放，如图4所示；

S4、针对钢铁工业应用中金属板带产品标签文字设计并建立一种特征增强的深度卷积循环神经网络(CRNN)；所述特征增强的深度卷积循环神经网络包括多级神经网络架构，鉴于钢铁工业应用中打印的表单所存在的字符紧挨以及实际环境下所拍摄图片质量等问题，在一般的特征提取操作中加入了特殊的卷积模块进行特征增强，即多级神经网络架构中具有两种特殊神经网络架构，以实现了多尺度的特征增强；

两种特殊神经网络架构(EFEM_a和EFEM_b)的特征增强方式：

EFEM_a模块：输入该模块的值首先会经过卷积核大小为3×3的可变形卷积核进行特征提取，随后将输出的值输入到4个并行分支和一个残差分支中进行再学习；所述4个并行分支中的第一个分支由卷积核大小为1×1和3×3的卷积层组成；第二个分支由卷积核大小为1×1和3×1的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成；第三个分支由卷积核大小为1×1和1×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成；第四个分支由卷积核大小为1×1、1×3和3×1的卷积层以及扩张率为5且卷积核大小为3×3的扩张卷积组成；将所述4个并行分支的输出进行拼接后输入到卷积核大小为3×3的卷积层中进行特征的细化处理，随后输出到卷积核大小为3×3的可变形卷积和卷积核大小为1×1的卷积层输出结果为x₀；所述残差分支使用了卷积核大小为1×1的卷积层，其输出的结果为x₁；最后将所述4个并行分支的输出结果x₀和所述残差分支的输出结果x₁按照scale₁＝0.3的比例进行加和得x(x＝x₀·scale₁+x₁)，再经过卷积核大小为1×1的卷积层、Relu激活层和最大池化层。如图5为EFEM_a模块结构示意图。

EFEM_b模块：输入到该模块的值将被送入到3个并行分支和一个残差分支中进行再学习；所述3个并行分支中的第一个分支由卷积核大小为1×1和3×3的卷积层组成；第二个分支由卷积核大小为1×1和3×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成；第三个分支由卷积核大小为1×1和2个卷积核大小为3×3的卷积层以及扩张率为3且卷积核大小为3×3的扩张卷积组成；将所述3个分支的输出进行拼接后输入到卷积核大小为1×1的卷积层中进行特征的细化处理输出结果为x₂；所述残差分支使用了大小为1×1的卷积层，其输出的结果为x₃；最后将所述3个并行分支的输出结果x₂和残差分支的输出结果x₃按照scale₂＝0.3的比例进行加和得x(x＝x₂·scale₂+x₃)，再经过Relu激活层和最大池化进行特征提取。如图6为EFEM_b模块结构示意图。

如图7所示，下面介绍所使用的特征增强CRNN的网络结构：

对于输入的一张具有固定高度32像素数大小的灰度图片，首先经过卷积核大小为3×3的卷积核，输出的通道数为64，随后经过Relu激活进入最大池化层，得到的结果分为两个分支，第一个分支被送入到第一个区域特征增强模块EFEM_a得到特征图x₄，第二个分支进入卷积核大小为3×3的卷积层，得到128通道的特征图并激活进入最大池化层，而后得到的特征图再次分为两个分支进行特征提取，其中的第一个分支送入第二个区域特征增强模块EFEM_b得到特征图x₅，第二个分支进入卷积核大小为3×3的卷积层，得到256通道的特征图，在激活后进行批归一化(BN)得到特征图x₆，随后以比例scale₃进行特征的加和，即x＝x₄·scale₃+x₆，随后将加和的特征送入卷积核大小为3×3的卷积层，输出的通道数为256，随后经过Relu激活进入最大池化层得到特征图x₇，随后以比例scale₄进行特征的加和，即x＝x₆·scale₄+x₇，将本次得到的加和特征图依次经过3个512通道的卷积核大小为3×3的卷积层后得到特征序列，再经过两次的双循环神经网络层实现对特征序列每帧中对应文字的预测。

S5：针对所述特征增强CRNN的网络结构，采用所述训练库中的训练范例图片进行多次训练，本实例中对于特征增强CRNN的网络结构的训练共分为三个阶段，每个阶段对学习率的设置均不一样，直到损失和精度保持不变。训练特征增强CRNN的各级神经网络架构时采用以下的方式：

A.使用联接时间分类CTC作为损失函数；

B.使用Adam算法作为模型的优化算法；

C.第一个阶段使用0.001的学习率调整多级神经网络架构的参数，Adam优化器的方差设置为[0.9,0.99]，scale₁、scale₂、scale₃和scale₄均设置为0.1训练至网络的损失和验证集的精度保持不变；第二阶段采用0.0001的学习率调整多级神经网络架构的参数，此时Adam优化器的方差设置为[0.89,0.99]，scale₁和scale₂保持不变，scale₃和scale₄均增大到0.4，同样训练之至网络的损失和验证集的精度保持不变，经过此步骤，验证集的精度会有很大的提升，且训练的损失较之间有较大下降；第三阶段采用0.00001的学习率对多级神经网络架构进行微调，此时Adam的方差设置范围为[0.88,0.99]，scale₁和scale₂增大到0.3，scale₃和scale₄均增大到0.6迭代若干次后得到最终的模型。

D.在第3、5以及第7卷积层后利用批归一化(BN)对卷积输出的值进行归一化处理，减小过拟合的风险以及加快网络训练的速度；

E.采用“Xavier”方法来初始化特征增强的深度卷积循环神经网络的权重，该方法来源于2010年的一篇论文《Understanding the difficulty of training deepfeedforward neural networks》，这种权重初始化方法有利于加快网络训练的收敛，同时对所有可变形卷积的offset偏置层的值全部初始化为0；

通过以上训练过程，得到针对钢铁工业应用中金属板带产品标签文字进行文字识别的深度卷积循环神经网络模型；

S6：基于步骤S5得到的训练后的深度卷积循环神经网络模型中最后一级神经网络架构的输出值对钢铁工业应用中金属板带产品标签上的文字进行识别，如图8所示。

上述方案提出了一种由数据驱动的基于特征增强CRNN的金属板带产品标签文字的识别方法，它通过Xavier初始化权重，采用CTC损失函数，Adam优化算法，使用现场拍摄的金属板带产品标签图片处理得到的数据库作为训练集训练的最终模型，可通过获取更多训练数据进一步通过训练来提高准确率。

本方法通过深度学习，在每一步的迭代中网络参数进行自动更新，实现从训练数据中自主学习所需特征并完成文字识别的目的，其准确性可以随着训练数据量的增长不断提高，极大的提高了在工业应用场景中的识别准确性与可靠度。在测试中发现，模型在1500张图片的识别准确率能到达95％左右，相比之前的识别网络约有10％的增幅，特别的，模型对于紧挨的字符、较为模糊的字符以及字符相似度高等辨识度不高的字符有很好的支撑性(如图9所示)。采用以上基于深度学习的文字识别方法能够快速而准确地完成钢铁工业中金属板带产品标签文字的识别，可以应用于钢铁工业领域甚至更广的范围。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于特征增强CRNN的金属板带产品标签文字识别方法，其特征在于，包括以下步骤：

所述预处理具有如下步骤：

将所述数据库中每一个小图片处理为单通道灰度图；

S4、针对钢铁工业应用中金属板带产品标签文字设计并建立一种特征增强的深度卷积循环神经网络；所述特征增强的深度卷积循环神经网络包括多级神经网络架构，多级神经网络架构中具有两种特殊神经网络架构，以实现了多尺度的特征增强；

2.根据权利要求1所述的基于特征增强CRNN的金属板带产品标签文字识别方法，其特征在于，

所述多级神经网络架构包括10个模块：第1到第7模块是常规卷积模块，分别在第1、2、4以及第6模块中加入最大池化操作，且分别在第3、5以及第7模块中加入批归一化操作；

所述两种特殊神经网络架构为第8和第9模块，第8和第9模块为区域特征增强的卷积模块，分别称为EFEM_a模块和EFEM_b模块；

第10模块为结果输出层，由双向循环神经网络组成。

3.根据权利要求2所述的基于特征增强CRNN的金属板带产品标签文字识别方法，其特征在于，

x＝x₀·scale₁+x₁；

4.根据权利要求3所述的基于特征增强CRNN的金属板带产品标签文字识别方法，其特征在于，

5.根据权利要求4所述的基于特征增强CRNN的金属板带产品标签文字识别方法，其特征在于，

所述步骤S5中，在训练所述特征增强的深度卷积循环神经网络的多级神经网络架构时，使用联接时间分类作为损失函数，使用Adam算法作为学习算法。

6.根据权利要求4所述的基于特征增强CRNN的金属板带产品标签文字识别方法，其特征在于，

7.根据权利要求4所述的基于特征增强CRNN的金属板带产品标签文字识别方法，其特征在于，

8.根据权利要求4所述的基于特征增强CRNN的金属板带产品标签文字识别方法，其特征在于，

9.根据权利要求4所述的基于特征增强CRNN的金属板带产品标签文字识别方法，其特征在于，