CN109977950A

CN109977950A - 一种基于混合cnn-lstm网络的文字识别方法

Info

Publication number: CN109977950A
Application number: CN201910222217.XA
Authority: CN
Inventors: 袁三男; 沈兆轩; 刘虹; 孙哲; 刘志超
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power; University of Shanghai for Science and Technology
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2019-07-05

Abstract

本发明涉及一种基于混合CNN‑LSTM网络的文字识别方法，包括步骤：1)获取包含文本的图片，将图片灰度化、归一化；2)将图片分为训练样本和测试样本两部分，将训练样本图片对应的文本根据字典转码成二值向量序列作为标签；3)将处理过的训练样本的图片与标签输入混合CNN‑LSTM网络中进行数据训练，获取识别模型；4)将处理后的图像和标签输入识别模型，输出特征矩阵；5)将特征矩阵采用梯度下降法进行CTC_loss计算，获取损失函数结果；6)重复1)～3)，直至损失函数结果最小，获取其对应的文本标签序列作为预测数据；7)将预测数据根据字典再次反转码得到文本，获取文字识别结果。与现有技术相比，本发明具有简化运算、增强识别效果等优点。

Description

一种基于混合CNN-LSTM网络的文字识别方法

技术领域

本发明涉及深度学习领域和文字识别领域，尤其是涉及一种基于混合CNN-LSTM网络的文字识别方法。

背景技术

近年来随着深度学习领域飞速发展，其在语音识别、文字识别等多个领域取得了优异的成果。现有技术中较为流行的用于文本识别和语音识别的神经网络设计方法通常层数较浅，无法更好的提取高维特征，导致识别效果较差，且使用基于深度学习的神经网络结构的运算过程通常需要巨量的运算资源，不利于移动端的开发。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于混合CNN-LSTM网络的文字识别方法。

本发明的目的可以通过以下技术方案来实现：

一种基于混合CNN-LSTM网络的文字识别方法，该方法包括下列步骤：

S1：获取包含文本的图片，将图片灰度化、归一化；

S2：将图片分为训练样本和测试样本两部分，并将训练样本图片对应的文本根据字典转码成二值向量序列作为标签；

S3：将步骤S2中处理过的训练样本的图片与标签输入混合CNN-LSTM网络中进行数据训练，训练完成后获取识别模型；

混合CNN-LSTM网络为包含卷积神经网络和卷积LSTM(Long Short-Term Memory，长短期记忆)网络的深度结构的神经网络，卷积神经网络用以提取高维特征，卷积LSTM网络用以将提取到的高维特征继续通过卷积来提取特征和长期信息。其中，卷积LSTM网络为卷积长短期循环网络与旁路所构成的神经网络结构。

混合CNN-LSTM网络的具体结构包括依次设置的卷积块、轻量块、轻量块、卷积长短期块、轻量块、卷积块、卷积长短期块、卷积块、轻量块、卷积块。所述的轻量块为宽卷积、深度可分离卷积、逐点卷积连接形成的轻量化结构。

S4：将步骤S1、S2处理后的图像和标签输入步骤S3中的识别模型，输出特征矩阵；

S5：将步骤S4中的特征矩阵采用梯度下降法进行CTC_loss(ConnectionistTemporal Classification loss，联结主义时间分类损失)计算，获取损失函数结果；优选地，采用Adma梯度下降算法进行CTC_loss计算，获取损失函数结果。

S6：重复步骤S1至步骤S3，直至步骤S5中的损失函数结果最小，获取的最小的损失函数对应的文本标签序列作为预测数据；预测数据为0，1二值矩阵，矩阵中1的位置为字典中文字的位置。

S7：将预测数据根据字典再次反转码得到文本，获取测试样本的文字识别结果。具体内容为：

采用CTC解码器对最终得到的特征矩阵进行解码，特征矩阵中1的位置为文字在字典的位置，查找字典后输出具体的文字识别结果。

与现有技术相比，本发明具有以下优点：

1)本发明中轻量结构块中深度可分离卷积的使用减少了程序运算所需参数，简化了运算，轻量化的网络可用于移动端开发；

2)本发明将卷积长短期结构与轻量结构块结合使用，可以构造更深层的网络结构来提取高维度特征，增强识别效果；

3)本发明将CNN和卷积LSTM网络结构混合使用，这种设计方案在有效的提取数据特征的同时可有效分析待识别单词或句子的长期依赖性，对长、难词组和句子的识别更有效。

附图说明

图1为本发明方法中的卷积长短期结构块的流程示意图；

图2为本发明方法中的轻量块结构的流程示意图；

图3为本发明方法中CNN-LSTM神经网络总结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本发明涉及一种基于混合CNN-LSTM网络的文字识别方法，其实现的具体步骤包括：

步骤一、输入包含文本的图片，将图片灰度化、大小归一化为(100，32，1)。将图片分为训练样本和测试样本两部分，并将训练样本图片对应的文本根据字典转码成二值向量序列作为标签。

步骤二、将灰度化、归一化后的训练样本的图片和标签输入混合CNN-LSTM网络，图片进入第1个卷积层进行卷积计算和非线性映射，初步提取特征并降低图像矩阵大小得到大小为(50，16，32)的三维矩阵。

步骤三、将步骤二中的矩阵送入第一个轻量块进行计算，此时的宽卷积的系数为1，因此进行不对图像通道升维，只进行分通道卷积计算和逐点卷积计算来提取特征并降低矩阵大小为(25，8，16)。

步骤四、将步骤三中的矩阵送入第二个轻量块中，进行升维—卷积—压缩操作，宽卷积系数为6，因此首先将矩阵通道维度提升6倍，然后在不同的通道的空间内进行卷积计算，最后在使用逐点卷积将矩阵大小压缩。矩阵大小变化为(25，8，24)→(25，8，144)→(25，8，24)。

步骤五、将步骤四中的矩阵送到卷积长短期块中提取时间依赖性特征，矩阵大小不变。

步骤六、将步骤五中的矩阵送到第三个轻量块，进行升维—卷积—压缩操作，宽卷积系数为6，矩阵大小变化为(25，8，32)→(25，8，192)→(25，8，32)。

步骤七、将步骤六中的矩阵送到卷积层进行卷积计算和非线性映射，同时减小矩阵大小，矩阵大小变为(25，4，128)。

步骤八、将步骤七中的矩阵送到卷积长短期块中提取时间依赖性特征，矩阵大小不变。

步骤九、将步骤八中的矩阵送到卷积层计算，矩阵大小变为(25，2，256)。

步骤十、将步骤九中的矩阵送到轻量块中计算，矩阵大小变为(25，2，192)。

步骤十一、将步骤十中的矩阵送到卷积块中计算，矩阵大小为(25，1，512)。

步骤十二、将步骤十一中的矩阵使用梯度下降法进行CTC_loss计算，得出结果损失函数结果。优选地，采用Adma梯度下降算法进行CTC_loss计算，获取损失函数结果。

步骤十三、重复步骤一到步骤十二，直到步骤十二中的损失函数结果最小，结束训练。

步骤十四、训练结束后开始识别，将步骤十一中得到的矩阵送入CTC解码器中，进行解码，得到结果。步骤十一中得到的矩阵得到的特征为0、1二值矩阵，矩阵使用CTC解码器解码，矩阵中1的位置就是文字在字典的位置，查找字典后可以输出具体的文字识别结果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于混合CNN-LSTM网络的文字识别方法，其特征在于，该方法包括以下步骤：

1)获取包含文本的图片(w，h，n)，将图片灰度化、归一化；

2)将图片分为训练样本和测试样本两部分，并将训练样本图片对应的文本根据字典转码成二值向量序列作为标签；

3)将步骤2)中处理过的训练样本的图片与标签输入混合CNN-LSTM网络中进行数据训练，训练完成后获取识别模型；

4)将步骤1)、2)处理后的图像和标签输入步骤3)中的识别模型，输出特征矩阵；

5)将步骤4)中的特征矩阵采用梯度下降法进行CTC_loss计算，获取损失函数结果；

6)重复步骤1)至步骤3)，直至步骤5)中的损失函数结果最小，获取的最小的损失函数对应的文本标签序列作为预测数据；

7)将预测数据根据字典再次反转码得到文本，获取测试样本的文字识别结果。

2.根据权利要求1所述的一种基于混合CNN-LSTM网络的文字识别方法，其特征在于，所述的混合CNN-LSTM网络包括用以提取高维特征的卷积神经网络及用以将提取到的高维特征继续通过卷积来提取特征和长期信息的卷积LSTM块。

3.根据权利要求2所述的一种基于混合CNN-LSTM网络的文字识别方法，其特征在于，所述的卷积LSTM块为卷积长短期循环网络与旁路所构成的神经网络结构。

4.根据权利要求3所述的一种基于混合CNN-LSTM网络的文字识别方法，其特征在于，所述的混合CNN-LSTM网络为依次设置卷积块、轻量块、轻量块、卷积长短期块、轻量块、卷积块、卷积长短期块、卷积块、轻量块、卷积块的深度结构的神经网络。

5.根据权利要求4所述的一种基于混合CNN-LSTM网络的文字识别方法，其特征在于，所述的轻量块为宽卷积、深度可分离卷积、逐点卷积连接形成的轻量化结构。

6.根据权利要求1所述的一种基于混合CNN-LSTM网络的文字识别方法，其特征在于，所述的预测数据为0，1二值矩阵，矩阵中1的位置为字典中文字的位置。

7.根据权利要求6所述的一种基于混合CNN-LSTM网络的文字识别方法，其特征在于，步骤7)的具体内容为：

8.根据权利要求1所述的一种基于CNN-LSTM神经网络的文字识别方法，其特征在于，采用Adma梯度下降算法进行CTC_loss计算，获取损失函数结果。