CN110674777A

CN110674777A - 一种专利文本场景下的光学字符识别方法

Info

Publication number: CN110674777A
Application number: CN201910940612.1A
Authority: CN
Inventors: 饶云波; 郭毅; 程亦茗; 张孟涵; 王艺霖
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-10

Abstract

本发明属于计算机视觉、图像处理、卷积神经网络技术领域，特别涉及一种专利文本场景下的光学字符识别方法。本发明将CNN和LSTM相结合，同时具备两者的优点，解决了CNN对序列相关性处理弱的问题，以及LSTM对图像特征提取不足的缺陷。本发明结合了新的损失函数计算方法CTC以一种不需要对齐的方式，解决了文本识别过程中难以对齐样本数据的问题。

Description

一种专利文本场景下的光学字符识别方法

技术领域

本发明属于计算机视觉、图像处理、卷积神经网络技术领域，特别涉及一种专利文本场景下的光学字符识别方法。

背景技术

随着计算机硬件，软件的不断更新，以及人工智能(Artificial Intelligence,AI)的逐步成熟化，将深度学习应用在光学字符识别领域具有十分现实的意义。光学字符识别是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使计算机识别的信息。因为其中影响因素太多，包括书写者的习惯，文件印刷品质、扫描仪的扫描品质、识别方法、学习及测试的样本等，都会影响其正确率。从影像到结果输出，须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将识别错误的文字更正，最终将结果输出。

OCR技术具有广阔的应用前景，目前文本识别的算法在工业界已经开始应用，市场上有不少针对光学字符识别的软件，充分说明光学字符领域具有较大的应用价值。

目前的OCR技术按照特征提取方法可以分为两类：

(1)传统方法：首先使用基于连通域分析的方法定位图片中文本位置，然后通过二值化、行列投影分析及规则进行行、列分割，最后通过语义纠错得到输出。存在的缺点主要有：(1)需要花费大量时间做特征提取，通常采用人工设计的特征(例如方向梯度直方图等)来训练字符识别模型，此类单一的特征在字体变化时泛化能力迅速下降。(2)过度依赖字符切分的结果，在有重叠、噪声干扰的情况下精度下降严重。(3)通常只能在简单场景下才能获得较好效果，在复杂场景下效果较差。

(2)基于深度学习的光学字符识别：字符识别引擎的训练是一个典型的图像分类问题。当前基于深度学习的方法，利用CNN在提取图像的高层语义方面的优势，以及LSTM在处理时间序列上的优势，舍弃手工设计特征和设计模板匹配的方式，通过神经网络进行一个端到端(End to End)的识别网络模型，其识别效果在简单场景下的识别效果通常能达到90％以上，在复杂场景下文本识别的效果相比于传统方法，提升更加显著。但是，由于参数太多，计算量太大，而且常常需要构建更深的网络结构来实现准确的特征提取，而且过深的网络结构存在梯度消失的问题。由于文本信息通常具有前后序列相关性，CNN在提取序列相关性特征上较弱，远不如LSTM。LSTM可以处理已有时间序列的特征提取,然而，传统的LSTM只能处理短时记忆，因为太长序列会导致梯度的消失。

发明内容

本发明的目的，主要基于深度学习，充分利用LSTM(RNN的一种)在处理和预测存在时间序列的事件上的有效性和CNN在提取深层语义上的优势，实现专利场景下的文本的高效精确识别，提高专利录入的自动化程度。

本发明的技术方案主要分为两部分，第一步是进行网络模型搭建和训练，整个网络模型分为文本检测网络和文本识别网络，第二步为是利用网络模型进行识别，总体算法框架图如附图1所示。具体由以下步骤实现：

样本集准备，采用tif格式的专利文本图片作为样本集，其中涵盖了中文、英文、数字、标点，同时通过拉伸、模糊、随机裁剪、透视变换、反色等图像处理方法进行数据增强，获得样本集。

搭建深度神经网络模型，整个网络模型由CNN和Bi-LSTM(长短期记忆神经网络)搭建，先生成文本区域再生成检测结果，网络结构如附图2所示。

文本检测网络模型，用3个卷积层和3个压缩激励模块(Sequeeze-and-Excitation,SE block)搭建全新的基础架构网络，每个压缩激励模块包括两个输出分支，一个分支不做任何处理，另一个分支一次经过池化层，全连接层，Relu激励层，全连接层，sigmoid激励层，最后将两个分支结果相加再进行输出。新的网络在计算时，给每个通道的特征赋予不同的权值，使得特征提取更加符合实际场景应用。基础架构网络如附图3所示。

文本检测网络，是一个目标检测领域的问题。较低层的网络能够更好的感受到小目标，较高层的网络能更高的感受到大目标，包括上下文。所以特征提取网络在设计时考虑到了多个特征输出，形成多尺度的特征提取网络。在实际问题中，不同通道所提取的特征不应该具有相同的权重，所以在网络提取过程中，我们把不同通道的特征设置不同的权重输出。

文本识别网络模型，使用Bi-LSTM和CNN搭建，使用CTC算法，取代传统的smothLoss损失函数。使用4个深度可分离模块和1个Bi-LSTM模块搭建网络。输入数据是文本检测网络输出的文本序列图片，首先经过深度可分离模块进行特征提取，将特征序列输入Bi-LSTM进行每一帧序列预测，然后通过CTC进行翻译，最后进行输出。文本识别网络模型结构如附图4所示。

使用数据集训练网络模型，迭代更新网络参数，得到最优模型。

模型训练包括两部分，文本检测网络的训练和文本识别网络的训练。

文本检测网络训练：

1.通过前向传播，利用卷积模块充分提取文本图片特征信息，经过基础网络模块提出的特征图大小为W，H，C。W为特征图宽度，H为特征图高度，C为输出的通道数。

2.经过C个3×3的卷积核，然后输入Bi-LSTM网络得到W×256维的输出。然后经过一个512维的全连接层。进行输出，输出层分为2个部分，第一部分用512×(4+10)进行坐标回归，512表示每个点有512中特征数，10表示每个点有10种预测框尺寸，生成10个不同尺度的候选框，4表示一个预测框尺度由一个四元组描述，分别是(xmin，xmax，ymin，ymax)，代表两点的坐标。第二部分使用512×(2+10)进行类别预测，512和10的含义与第一部分相同，2表示是背景，或不是背景两种情况。

3.每张图片一共会生成W×H×10个预测框，使用NMS(极大值抑制)方法对框进行删选，阈值设置为0.7。

4.计算每个候选框中相对于真实框的偏移量，用于预测框回归。

5.根据类别得分和坐标，得到最终的预测框；总的损失函数由分类损失函数和回归预测函数相加组成，

代表分类损失函数，

代表回归损失函数，第一部分

使用softmax函数对anchor进行监督学习是否包含文本信息，s_i代表第i个类别的得分，s^*＝{0,1}表示是否为真实值；第二部分

为L1smooth函数，用于学习包含文本的anchor在y方向的偏置回归，其中v_j为第j个有文本的预测框尺寸，β表示任务权重，N_s和N_v是是归一化参数，表示对应任务的样本数量；公式如下：

6.将得到的预测框用文本线构造方法进行合并。递归的将两个框合并成一个组直到不能合并为止。合并条件为：1)离目标框最近且该距离小于50个像素；2)交并比大于0.7。

7.根据损失函数通过反向传播来更新各个网络层的权值参数。

至此，文本检测网络训练完成。

文本识别网络训练：

1.通过前向传播，输入图片大小为1×W×32，经过四个深度可分离卷积模块提取文本图片特征信息，最终输出大小为

2.由于CNN提取的特征无法直接输出给Bi-LSTM，需要提取特征向量序列，每一个特征向量在特征图上按行从左往右生成，每一列含有512个特征，每个特征向量为512维，这里一共得到

个特征向量。

3.然后经过1个隐藏结点为256的Bi-LSTM模块，在Bi-LSTM中每一个时间步传入一个特征向量，一共有

个，最终得到字符的softmax概率分布，形成一个

×字符类别数的后验概率矩阵，作为CTC算法的输入。

4.通过CTC算法，找到具有最高概率组合的标签序列，进行输出。

5.损失函数O公式如下所示，其中X为输入序列，Y为输出序列，p(l|x)表示在x字符下，输出序列l的概率。

6.同样，根据损失函数进行反向传播，更新网络权值参数。

本发明的有益效果为，不同于传统的方法，本发明通过使用Bi-LSTM和CNN进行特征训练，结合CNN和LSTM两种网络，提出新的网络结构模型，在字符输出的最后阶段使用CTC算法进行概率预测，最后通过传统方法对图像进行处理，使得最终专利场景下的光学字符的识别效果将会得到很大程度的提高。随着人工智能等技术的发展，将深度学习等方法从学术界引入工业界具有较强的现实意义。由于硬件和算法的进步，当前对于识别精度和自动化程度的需求也在逐步的增加。

本发明将CNN和LSTM相结合，同时具备两者的优点，解决了CNN对序列相关性处理弱的问题，以及LSTM对图像特征提取不足的缺陷。本发明结合了新的损失函数计算方法CTC以一种不需要对齐的方式，解决了文本识别过程中难以对齐样本数据的问题。针对专利场景下的光学字符识别问题，引入传统方法进行预处理以及特征区域进行拆分，当前多数OCR应用并没有对不规则图片进行背景检测，文字方向调整等操作，缺乏对专利图片光学字符识别的优化。由之前的示图可以看出，有无针对性处理，对最终效果影响很大。本发明所展现的应用前景广阔，基于深度学习的方法针对特定场景下的OCR应用和研究具有较好的实际价值和研究意义。

附图说明

图1是本发明的算法框架图；

图2是本发明的神经网络模型图；

图3是基础网络结构图；

图4是文本识别网络结构图；

图5是数据集和标签图，(a)是数据标签图，(b)是数据展示图；

图6是Train算法流程图；

图7是网络运行结果图；

图8是特征区域分割图；

图9是Excel类截图；

图10是写入模块效果展示图；

图11是测试图1，(a)是原始输入图，(b)是模型测试结果图；

图12是测试图2，(a)是原始输入图，(b)是模型测试结果图；

图13是模型效果对比图，(a)是原始输入图，(b)是使用预处理方法的模型测试结果图，(c)是未使用预处理方法的模型测试结果图。

具体实施方式

下面结合仿真示例说明本发明的实用性。

定义训练环境：

CPU-i7 8700k、GPU NVIDIA GeForce 2080Ti、OS ubuntu 16.0.4。

数据验证环境：

CPU 2.7GHz Intel Core i5、GPU Intel Iris Graphics 6100、Mac OS X10.14.6。

开发语言使用python3.5，使用开源框架Keras，Tensorflow作为后端，引入了Opencv，Numpy等第三方库。

1、数据集准备

采用tif格式的专利文本图片，数据集包括50万张原始图片，其中涵盖了中文、英文、数字、标点，同时通过拉伸、模糊、随机裁剪、透视变换、反色等图像处理方法进行数据增强，最终数据集共约300万张图片。数据集按照99:1的比例划分训练集和验证集，通过工具text_render制作数据标签，生成标注文件train.txt和图片数据，如附图5所示。

2、开始训练

将迭代次数epoch设置为4,batch-size设置为16，图片长宽分别限制为280×32。学习率lr根据epoch动态变化,具体公式如下。

lr＝0.0006×0.3^epoch

运行train.py文件后，首先创建一个session，然后载入网络结构、数据集路径，训练算法流程图如附图6所示。运行结果截图如附图7所示。

训练完成后得到weight.h5文件，然后进行专利文本字符的识别写入步骤。

3、将专利图片进行版面预处理，然后进行识别。

1)首先把输入的图片缩放裁剪成标准的224*224大小的图片。这一步是防止有不规范的图片导致精度的缺失。

2)将不规则图片使用滤波器去除图片噪声，进行二值化、旋转等，凸出光学字符的特征。

3)以左上角为原点建立坐标系，提取所需要识别内容所在区域的坐标。将对应区域进行裁剪，生成中间图片，这样放大了特征区域如附图8所示，减少了大量无关的信息。

4)写入excel文档，使用python包openpyxl进行Excel文档读写。需要写入的数据类如附图9所示。首先通过compare_excel(self,sheet)->bool函数判断是新建文档还是追加文档。由于专利图片类型较多，数据可能需要写入已经存在的一行或者新建一行，本发明通过关键字专利号，资料名称等集合进行多重判定。最后将数据写入Excel文档，如附图10。

经过一系列图像处理之后再使用网络模型进行识别，测试效果良好，如附图11，附图12所示。

由以上示图可见，本发明在识别精度上提升明显，算法识别结果将会作为中间输出流显示出来，可以进行人为修改，最终结果将会自动保存到Excel表格里面。最终的识别精度很高，基本可以进行工业部署应用。

本发明提出了新型的网络结构和算法模型：Bi-LSTM+CNN+CTC算法。文本检测网络采用SE-block结构，构建新的基础网络结构，用于特征提取，该模块在特征提取中充分考虑到不同通道维度对于特征的影响，相对于其他特征提取网络模型，在特征提取效果更好。文本识别网络使用新的depth-Conv模块构建CNN模块，损失函数计算使用全新的CTC算法取代smothLoss函数就算字符概率。在保持模型精度的情况下，大幅度减少了模型参数，减少了计算量。

本发明在识别阶段先对图片进行预处理，统一图片尺寸大小，然后识别特征区域和裁剪，使用训练好的网络模型进行识别，生成中间结果。由于光学字符识别目前没有办法做到百分之百的正确率，所以人工审核依然是必要的。若不经过图像预处理直接输入网络模型进行识别，效果较差，通过图13可以看出图像预处理对最终结果的重要性，经过图像预处理比不进行预处理直接进行识别的准确度得到了质的提升。

Claims

1.一种专利文本场景下的光学字符识别方法，其特征在于，包括以下步骤：

S1、获取tif格式的专利文本图片，经过预处理后作为样本集；

S2、建立深度神经网络模型，包括文本检测网络模型和文本识别网络模型；

所述文本检测网络模型由3个卷积层、3个压缩激励模块和1个Bi-LSTM构成，一个卷积层连接一个压缩激励模块；每个压缩激励模块包括两个输出分支，一个分支不做任何处理，另一个分支依次经过池化层、全连接层、Relu激励层、全连接层和sigmoid激励层，最后将两个分支结果相加再进行输出；最后一个压缩激励模块经过3×3的卷积核之后，连接Bi-LSTM，最后经过全连接层进行输出；

所述文本识别网络模型由Bi-LSTM和CNN构成，该网络模型首先经过一个由CNN构成的深度可分离模块，该模块包括和输入通道数相同的3×3卷积层，叠加之后进行批量归一化，然后经过一个1×1卷积层，最后经过批量归一化、激活函数后和最大池化层后，输出给深度可分离模块；最后一个深度可分离模块连接Bi-LSTM模块，最后连接序列翻译模块；

S3、使用步骤S1获得的样本集对步骤S2的深度神经网络模型进行训练，获得训练好的神经网络模型，具体包括：

文本检测网络模型的训练：通过前向传播，利用卷积模块提取文本图片特征信息，经过基础网络模块提出的特征图大小为W，H，C；W为特征图宽度，H为特征图高度，C为输出的通道数；

经过C个3×3的卷积核和预先设定的预选框尺寸提取目标候选区域特征，然后输入Bi-LSTM网络得到W×256维的输出，然后经过一个512维的全连接层进行输出，输出层分为2个部分，第一部分用512×(4+10)进行坐标回归，512表示每个点有512种特征数，10表示每个点有10组预选框尺寸，4表示预选框尺寸的组成是(xmin，xmax，ymin，ymax)，代表两点的坐标；第二部分使用512×(2+10)进行类别预测，512和10的含义与第一部分相同，2表示是背景或不是背景两种情况；

每张图片一共会生成W×H×10个不同的预选框，使用极大值抑制方法对框进行删选，阈值设置为0.7；

计算每个候选框中相对于真实框的偏移量，用于预测框回归；

根据类别得分和坐标，得到最终的预测框；总的损失函数由分类损失函数和回归预测函数相加组成，