CN111079511A

CN111079511A - 基于深度学习的文档自动归类及光学字符识别方法及***

Info

Publication number: CN111079511A
Application number: CN201911025558.4A
Authority: CN
Inventors: 张晓东; 张力飞; 陈关州; 朱坤; 廖溥昀; 谭效良; 王铜
Original assignee: Hubei Furuier Technology Co Ltd
Current assignee: Hubei Furuier Technology Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-04-28

Abstract

本发明提供了一种基于深度学习的文档自动归类及光学字符识别方法及***，其方法包括：首先对待扫描的文档进行扫描，得到扫描图片，并对所述扫描图片进行预处理，得到预处理后的扫描图片；然后采用卷积神经网络对所述预处理后的扫描图片进行特征提取和分类，得到所述扫描图片的图片特征，并根据所述图片特征对所述扫描图片进行分类，以实现待扫描文档的自动归类；最后利用OCR引擎对所述扫描图片中的关键信息进行提取，以实现扫描图片的光学字符识别。本发明的有益效果是：利用卷积神经网络结合光学字符识别技术，实现扫描文档图片分类整理以及文件夹命名自动化、智能化处理的工作。

Description

基于深度学习的文档自动归类及光学字符识别方法及***

技术领域

本发明涉及扫描文档图片信息处理、信息提取及图片模式识别技术领域，尤其涉及一种基于深度学习的文档自动归类及光学字符识别方法及***。

背景技术

光学字符识别(Optical Character Recognition，OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术；而扫描文档图片是利用电子扫描技术对文档进行扫描成像，获得文档的扫描图片。扫描文档图片较为色彩单调，一般是白纸黑字形式。因此在生产生活中为了对文档进行快速的存储备份，一般会进行电子扫描存档。

对于扫描的文档图片一般需要进行归档分类整理，现在采用的方法多是利用人工识别分类整理。人工识别整理的方法不仅费时费力，同时效率较低。无法满足生产生活的需求。

近年来，在人工智能(AI)领域兴起的深度学***。深度学习方法包含多种学习模型，其中卷积神经网络(CNN)在图像处理应用中表现最为出色^[1-2]。卷积神经网络由输入层、卷积层、池化层、全连接层和输出层组成，通过对多层卷积核(特征提取器)的训练，实现影像解译功能。利用卷积神经网络能够学习到更加抽象、稳定的特征，这些高级特征对噪声及影像局部变化具有低敏感性，如果使用这些高层次特征进行分类任务，有助于提高分类精度。此外，与基于提取人工规则特征的分类方法相比，卷积神经网络将卷积层和全连接层相结合，能够同时实现影像对象的特征提取和分类，减少了人工干预过程，提高网络模型的识别能力。但目前主要将深度学习的方法应用到自然影像或遥感影像的分类任务中，还没有将深度学习的技术应用于扫描文档图片分类的应用。

发明内容

为了解决上述问题，本发明提供了一种基于深度学习的文档自动归类及光学字符识别方法及***；

一种基于深度学习的文档自动归类及光学字符识别方法，主要包括以下步骤：

S101：对待扫描的文档进行扫描，得到扫描图片，并对所述扫描图片进行预处理，得到预处理后的扫描图片；

S102：采用卷积神经网络对所述预处理后的扫描图片进行特征提取和分类，得到所述扫描图片的图片特征，并根据所述图片特征对所述扫描图片进行分类，以实现待扫描文档的自动归类；

S103：利用OCR引擎对所述扫描图片中的关键信息进行提取，以实现扫描图片的光学字符识别。

进一步地，步骤S101中，对所述扫描图片进行预处理，具体为：将所述扫描图片缩放至预设尺寸大小，以便于后续使用。

进一步地，步骤S102中，所述卷积神经网络为Resnet18，采用监督学习的方法，利用随机梯度下降优化器事先在ImageNet上预训练权重。

进一步地，采用Mxnet框架实现卷积神经网络的搭建和监督学习，损失函数采用的是交叉熵损失函数。

进一步地，步骤S103中，使用Tesseract OCR的python接口实现扫描图片中的字符识别，实现关键信息的提取工作；所述关键信息包括待修改的文字、待搜索的特征或者待删除的文字。

进一步地，一种基于深度学习的文档自动归类及光学字符识别***，其特征在于：包括以下模块：

文档扫描与预处理模块，用于对待扫描的文档进行扫描，得到扫描图片，并对所述扫描图片进行预处理，得到预处理后的扫描图片；

分类模块，用于采用卷积神经网络对所述预处理后的扫描图片进行特征提取和分类，得到所述扫描图片的图片特征，并根据所述图片特征对所述扫描图片进行分类，以实现待扫描文档的自动归类；

识别模块，用于利用OCR引擎对所述扫描图片中的关键信息进行提取，以实现扫描图片的光学字符识别。

进一步地，文档扫描与预处理模块中，对所述扫描图片进行预处理，具体为：将所述扫描图片缩放至预设尺寸大小，以便于后续使用。

进一步地，分类模块中，所述卷积神经网络为Resnet18，采用监督学习的方法，利用随机梯度下降优化器事先在ImageNet上预训练权重。

本发明提供的技术方案带来的有益效果是：本发明所提出的技术方案具备以下技术效果：

(1)利用卷积神经网络实现扫描文档图片的归类；

(2)利用光学字符识别技术实现扫描文档图片中关键信息的提取；

(3)利用卷积神经网络结合光学字符识别技术，实现扫描文档图片分类整理以及文件夹命名自动化、智能化处理的工作。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例中一种基于深度学习的文档自动归类及光学字符识别方法的流程图；

图2是本发明实施例中卷积操作示意图；

图3是本发明实施例中池化操作示意图；

图4是本发明实施例中全连接层示意图；

图5是本发明实施例中扫描文档图片归档处理结果示意图；

图6是本发明实施例中OCR户名提取实现文件夹重命名结果示意图；

图7是本发明实施例中，一种基于深度学习的文档自动归类及光学字符识别***的模块组成示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明的实施例提供了一种基于深度学习的文档自动归类及光学字符识别方法及***。

请参考图1，图1是本发明实施例中一种基于深度学习的文档自动归类及光学字符识别方法的流程图，具体包括如下步骤：

步骤S101中，对所述扫描图片进行预处理，具体为：将所述扫描图片缩放至预设尺寸大小，以便于后续使用；所述预设尺寸根据实际需求进行设置，在本发明实施例中，统一将图片缩放至256×256的大小。

步骤S102中，所述卷积神经网络为Resnet18，采用监督学习的方法，利用随机梯度下降优化器事先在ImageNet上预训练权重。

采用Mxnet框架实现卷积神经网络的搭建和监督学习，损失函数采用的是交叉熵损失函数，如下式所示：

上式中，

表示真实的第i个样本在各个类别上的概率分布，p_i表示对应的在各个类别上的概率分布预测；利用随机梯度下降优化器使得上述损失函数的值越来越小，从而使得模型得到优化训练；初始学习率为0.001，训练100轮后获得相应的模型。

在本发明实施例中，卷积神经网络主要由卷积层(Convolutional Layer)、池化层(Pooling Layer)以及全连接层(Fully Connected Layer)组成，相应介绍如下：

1)卷积层

卷积层通过一个固定大小的窗口(卷积核)在输入的图像或特征图上进行滑动卷积，得到关于输入的输出，这个输出称为特征图。输入卷积层是一个形如(r,m,n)的三维数组，r表示输入图像通道数或特征图的个数，m、n表示图像或特征图的大小。其基本原理如下图2所示：

图2中输入图像或特征图中红色框区域即为当前正在进行卷积操作的图像区域，对应区域的像素值矩阵为

绿色表示卷积核，为

计算结果为对应位置值的乘积之和，作为输出特征图对应位置的值，即为1。神经网络中的卷积核中的参数为待学习的参数，是通过训练自动学习到的，不需要人为的设置。此外卷积层可以对图像的特征进行提取，获取有利于完成任务的图像特征。

2)池化层

池化层为卷积神经网络另一个重要的基本组成单元，池化操作与卷积操作类似，只是池化函数一般为取最大值函数或取平均值函数，即对特征图上指定大小窗口的像素组成的矩阵进行取极大值或取平均值操作，从而获取池化后特征图对应位置的值。池化层采用的池化函数为取极值或取平均操作，没有需要学***均池化和全局平均池化基本原理如图3所示：

图3中池化区域为2×2，移动步长为2,图中a,b,c分别表示对特征图进行最大池化、平均池化和全局池化后的输出结果。其中a,b网格颜色对应于特征图中进行池化操作的区域。由于全局池化对一张特征图只有一个输出，因此c中只有一个对输入特征图全局平均的输出值。

3)全连接层

经过卷积层和池化层提取的特征为二维特征，通过相关操作转化为一维特征后，输入全连接层，从而对最终的特征进行组合，使之有利于最终的任务完成。全连接层的基本结构如图4所示，其中，x1、x2、x3为全连接层的输入，a1、a2、a3为输出，其公式为：

上式中，中W矩阵和偏差矩阵b中的元素即为网络学习的参数。

步骤S103中，使用Tesseract OCR的python接口实现扫描图片中的字符识别，实现关键信息的提取工作；所述关键信息包括待修改的文字、待搜索的特征或者待删除的文字。

本发明实施例中，以地籍地块调查扫描文档图片归类和户主姓名提取为例。在地籍地块调查任务中会对每户的地籍地块进行相关信息的记录，按照内容的不同，需要将记录的文档扫描图进行相应的归类整理，形成相应的文件夹。主要包括以下几个文件夹：承包方(cbf)文件夹、登记簿(djb)文件夹、地块调查(dkdc)文件夹、归户表(ghb)文件夹、合同书(hts)文件夹、授权书(sqs)文件夹、指界通知(zjtz)文件夹等。同时需要在扫描的文档图片中提取出该户的户主姓名，并将文件夹的名称修改为户主名。利用本方法，可以实现扫描文档图片的自动归类以及自动识别户名并修改文件夹的名称；具体步骤如下:

1)扫描文档图片预处理：

对于扫描文档图片，统一进行了强制缩放处理，将扫描文档图片缩放至256×256的大小。

2)卷积神经网络设计及训练：

利用Resnet18作为扫描文档图片的特征提取网络，全连接层利用提取的特征进行分类。采用Mxnet框架实现网络结构的搭建和监督学习。损失函数采用的是交叉熵损失函数。

3)光学字符识别：

利用Tesseract OCR的python接口，从地籍地块调查扫描文档图片中提取出户主名称。(Tesseract OCR，这是一款由HP实验室开发由Google维护的开源OCR(OpticalCharacter Recognition,光学字符识别)引擎)；

实验结果图如图5和图6所示。

请参阅图7，图7是本发明实施例中，一种基于深度学习的文档自动归类及光学字符识别***的模块组成示意图；包括顺次连接的：文档扫描与预处理模块11、分类模块12和识别模块13；

文档扫描与预处理模块11，用于对待扫描的文档进行扫描，得到扫描图片，并对所述扫描图片进行预处理，得到预处理后的扫描图片；

分类模块12，用于采用卷积神经网络对所述预处理后的扫描图片进行特征提取和分类，得到所述扫描图片的图片特征，并根据所述图片特征对所述扫描图片进行分类，以实现待扫描文档的自动归类；

识别模块13，用于利用OCR引擎对所述扫描图片中的关键信息进行提取，以实现扫描图片的光学字符识别。

文档扫描与预处理模块11中，对所述扫描图片进行预处理，具体为：将所述扫描图片缩放至预设尺寸大小，以便于后续使用。

分类模块12中，所述卷积神经网络为Resnet18，采用监督学习的方法，利用随机梯度下降优化器事先在ImageNet上预训练权重。

采用Mxnet框架实现卷积神经网络的搭建和监督学习，损失函数采用的是交叉熵损失函数。

本发明的有益效果是：本发明所提出的技术方案具备以下技术效果：

(1)利用卷积神经网络实现扫描文档图片的归类；

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的文档自动归类及光学字符识别方法，其特征在于：包括以下步骤：

2.如权利要求1所述的一种基于深度学习的文档自动归类及光学字符识别方法，其特征在于：步骤S101中，对所述扫描图片进行预处理，具体为：将所述扫描图片缩放至预设尺寸大小，以便于后续使用。

3.如权利要求1所述的一种基于深度学习的文档自动归类及光学字符识别方法，其特征在于：步骤S102中，所述卷积神经网络为Resnet18，采用监督学习的方法，利用随机梯度下降优化器事先在ImageNet上预训练权重。

4.如权利要求3所述的一种基于深度学习的文档自动归类及光学字符识别方法，其特征在于：采用Mxnet框架实现卷积神经网络的搭建和监督学习，损失函数采用的是交叉熵损失函数。

5.如权利要求1所述的一种基于深度学习的文档自动归类及光学字符识别方法，其特征在于：步骤S103中，使用Tesseract OCR的python接口实现扫描图片中的字符识别，实现关键信息的提取工作。

6.如权利要求5所述的一种基于深度学习的文档自动归类及光学字符识别方法，其特征在于：所述关键信息包括待修改的文字、待搜索的特征或者待删除的文字。

7.一种基于深度学习的文档自动归类及光学字符识别***，其特征在于：包括以下模块：

8.如权利要求7所述的一种基于深度学习的文档自动归类及光学字符识别方法，其特征在于：文档扫描与预处理模块中，对所述扫描图片进行预处理，具体为：将所述扫描图片缩放至预设尺寸大小，以便于后续使用。

9.如权利要求7所述的一种基于深度学习的文档自动归类及光学字符识别方法，其特征在于：分类模块中，所述卷积神经网络为Resnet18，采用监督学习的方法，利用随机梯度下降优化器事先在ImageNet上预训练权重。

10.如权利要求9所述的一种基于深度学习的文档自动归类及光学字符识别方法，其特征在于：采用Mxnet框架实现卷积神经网络的搭建和监督学习，损失函数采用的是交叉熵损失函数。