CN110210413A

CN110210413A - 一种基于深度学习的多学科试卷内容检测与识别***及方法

Info

Publication number: CN110210413A
Application number: CN201910483395.8A
Authority: CN
Inventors: 苏统华; 杨超杰; 王忠杰; 涂志莹; 徐晓飞
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2019-09-06
Anticipated expiration: 2039-06-04
Also published as: CN110210413B

Abstract

本发明公开了一种基于深度学习的多学科试卷内容检测与识别***及方法，所述***包括数据预处理模块、数据粗粒度分类模块、小题细粒度分类模块、字符识别模块，其中：数据预处理模块对由纸质的试卷扫描成的数字图像进行处理；数据粗粒度分类模块使用Faster RCNN算法对输入图像进行试卷的整体结构分析，将图像分为不同类别的小题；小题细粒度分类模块采用Mask RCNN算法对数据粗粒度分类模块分完类的各小题进行内部字符的细粒度分类；字符识别模块将小题细粒度分类模块中的字符根据其类型调用相应的识别API来识别。本发明对于多学科试卷的复杂版面都有通用性；试卷中印刷体中文的识别率为99％，达到实用程度。

Description

一种基于深度学习的多学科试卷内容检测与识别***及方法

技术领域

本发明涉及一种数字图像处理、深度学习、光学字符识别(OCR)***及方法，尤其涉及一种印刷图文的检测与识别***及方法。

背景技术

随着社交网络的发展，人们在上面获取的信息主要就是视觉媒介，即视频和照片。由于近几年上传到社交网络上的视觉媒介的数量呈指数级别的增长，每天可达数亿张，故处理越来越多的视觉方面的信息就成为了一个技术上的挑战。图像理解的挑战之一就是从图像中检索文本的信息，表示将包含有各种文本的图像转换为机器编码文本的过程。从各种包含文本的图像中获取文本信息很重要，促进了图像搜索和推荐图像等不同的应用。目前图像的文本检测与识别在图像的快速文档化、车牌的识别、工业流水线等方面的应用日益增多。但是由于图像本身存在的一些背景复杂、光照条件及拍摄时的角度问题，还有图像文本中语言种类的多样、文本的不同尺度等因素，导致了检测与识别时的精度达不到可以直接应用的地步。在识别图像中的字符的过程中，相对于人工来说，计算机在处理这种简单而且重复的工作具有很大的优势。当手动地完成这些任务时，工作人员不可避免地会受到本人情绪和疲劳程度的影响，而计算机不会出现这种问题的。

OCR(Optical Character Recognition，光学字符识别)传统上是指对于输入的扫描文档图像进行分析处理，识别出图像中的文字信息。OCR现在主要是应用于文档识别和证件识别，文档识别可以将文档数字化来获取文档中的文字信息，证件识别是将身份证等证件的复印件数字化来提高整体的工作效率。OCR一般分为两个步骤：图像处理以及文字识别。在识别图像中的文字前，需要对于输入的图片进行预处理，以便后续的特征提取和学习。在这个过程中通常包含：灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤。对一个文字图像来说，提取出特征，让分类器进行分类，得出这个特征该识别为哪个文字。分类器的设计方法一般有：模板匹配法、基于规则推理法、神经网络分类法等。整体上来看，OCR技术的步骤繁多，涉及的算法复杂，针对每一个步骤，每一个算法都有许多单独的研究。

与传统的OCR相比，基于深度学习的OCR在识别的准确度上面有了很大的提升。Faster R-CNN，Yolo等方法的提出，可以快速地对于图像中的文字区域定位及识别，以此为基础并加以改进并提出很多对于不同场景的文字检测与识别方法，也达到了较好的效果。但是在特定的一些应用场景之下(身份证、银行卡、菜单等)的准确率还有很大的进步空间，一方面是需要融合基于深度学习的文字检测与传统的版面分析技术以进一步地提升特定场景下的检测性能，另一方面需要丰富真实训练数据和语言模型，来提升文字识别的准确率。上述的方法的实用性差一些，工业上对于在特定场景下的文本检测与识别这项任务来说，对于文字识别的准确率要求非常高，便于生产化推进，结果越稳定越好。

在教学工作中，教师对于各种纸质试题的保存和管理耗费了大量的时间和精力。纸质试题书的电子化可以解决纸质试题丢失的问题，也可以提高对于各种试题书的管理效率，有效地减轻教师的压力。在多学科试卷的特定场景下，试卷不仅包含文本内容，还有各种类型的图表(如数学试卷中的几何图形、英语试卷中的表格图案等)，比纯文本内容试卷的场景更加复杂。虽然试卷的学科不同，但是试卷的各个题型结构还是有共同之处的，像填空题中的下划线、选择题中的A、B、C、D等，与学科并没有多大的关系，是可以将各种题型给区别出来。图像的背景十分干净，字体非常规整，布局较为平整统一，颜色也是单调的。

李宏峰发表了一种基于OCR的试卷版面理解的方法：基于OCR的试卷版面理解。该方法将常用的版面分析方法与OCR字符识别技术相结合，对以文本为主的试卷的图像版面进行分割及理解。该方法主要是对试卷版面进行分析，首先采用常规的版面分析方法进行试卷分割，其次用字符识别技术来校验版面分析的结果，最后对分析的结果进行管理。该方法存在以下缺点：

(1)仅对主观题、客观题进行区分，版面分析的粒度比较粗，无法满足实际试卷中包含细粒度分析的需求。

(2)上述方法仅适用于纯文本类试卷，不适用于图、文混排的多学科试卷版面，而且版面分析的范围仅限于单学科试卷，扩展到其他学科上的效果很差，具有局限性。如何得到具有一定程度上的通用性的版面分析算法，这将值得进一步研究。

(3)上述方法的字符识别精度低，边界点数量的大小影响傅立叶边界描述子的识别和检索的精度，达不到实际应用的标准。

发明内容

为了解决上述方法存在的缺点，本发明提供了一种基于深度学习的多学科试卷内容检测与识别***及方法。

本发明的目的是通过以下技术方案实现的：

一种基于深度学习的多学科试卷内容检测与识别***，包括数据预处理模块、数据粗粒度分类模块、小题细粒度分类模块、字符识别模块，其中：

所述数据预处理模块对由纸质的试卷扫描成的数字图像进行处理；

所述数据粗粒度分类模块使用Faster RCNN算法对输入图像进行试卷的整体结构分析，将图像分为不同类别的小题；

所述小题细粒度分类模块采用Mask RCNN算法对数据粗粒度分类模块分完类的各小题进行内部字符的细粒度分类；

所述字符识别模块将小题细粒度分类模块中的字符根据其类型调用相应的识别API来识别。

一种利用上述***实现基于深度学习的多学科试卷内容检测与识别的方法，包括数据预处理、数据粗粒度分类、小题细粒度分类、字符识别四个步骤，具体步骤如下：

第一步、数据预处理

(1)采用均值滤波方法去除输入图像中的随机噪声；

(2)采用Hough变换方法进行图像的倾斜矫正；

第二步、数据粗粒度分类

采用FasterRCNN算法对预处理后的数据进行粗粒度分类，即进行各种小题的切分，将小题的类别分为M种类型；

第三步、小题细粒度分类

对于第二步中所生成的各种类型的小题，采用Mask RCNN算法再针对小题进行细粒度分类，将小题中各种字符分为N种类型；

第四步、字符识别

由小题的细粒度分类得到了各种类别的字符，然后将公式与中文两种字符分别调用相应的模型进行字符识别，其他的字符如图表等无需识别。

相比于现有技术，本发明具有如下优点：

1、预处理部分对于图像部分区域过亮或过暗以及倾斜、弯曲的图像具有很高的鲁棒性，能够很好地将噪声去除，最大限度地减少对之后处理的影响；

2、本发明对于多学科试卷的复杂版面都有通用性；

3、试卷中印刷体中文的识别率为99％，达到实用程度；

4、在多学科试卷多粒度版面分析中，将试卷中的题编号和题的类型信息都进行了分析，后续可根据此信息直接可以解析出试卷的试题结构，进一步地，可以直接生成对应的答题卡。

附图说明

图1是本发明所应用的试卷图像样例(以英语试卷为例)；

图2是识别试卷图像中文本过程的流程图；

图3是数据粗粒度分类的数据标注样例；

图4是Faster RCNN的测试效果图；

图5是小题细粒度分类的数据标注样例；

图6是Mask RCNN的测试效果图；

图7是试卷最终的识别效果图1；

图8是试卷最终的识别效果图2；

图9是试卷最终的识别效果图3。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明提供的基于深度学习的多学科试卷内容检测与识别***由数据预处理模块、数据粗粒度分类模块、小题细粒度分类模块、字符识别模块组成，其中：

所述数据预处理模块对由纸质的试卷扫描成的数字图像进行处理，在扫描过程中会出现图像的部分过亮或过暗，以及图像倾斜或弯曲的问题，采用均值滤波来去除输入图像中的随机噪声，采用Hough变换来进行图像的倾斜矫正；

所述数据粗粒度分类模块使用Faster RCNN算法对输入图像进行试卷的整体结构分析，将图像分为不同类别的小题，此处需要对于不同学科的试卷小题进行细致地分类，对于特殊类型的题型(如语文的田字格题、语文英语的作文等)进行单独分类，粗粒度分类的类型有M种，这种分类更有通用性，版面分析的粒度更加细，可以解决现有方法存在的版面分析粒度粗的问题和无法扩展到多个学科的问题；

所述小题细粒度分类模块采用Mask RCNN算法对数据粗粒度分类模块分完类的各小题进行内部字符的细粒度分类，像中文、公式、题号、图表的分类，细粒度分类类别有N种，将图像、表格等特殊的版面元素分割出来，且这些版面元素仍属于当前的小题，解决了现有方法存在的图文混排的问题；

所述字符识别模块将小题细粒度分类模块中的字符根据其类型调用相应的识别API来识别，模型不会受到不同类别字符的干扰，可以更好地训练，可以有效地提高字符的准确率，可以解决现有方法存在的字符识别精度低缺点。

第一步、数据预处理

(1)采用现有均值滤波方法去除输入图像中的随机噪声。

均值滤波(线性滤波)采用的主要方法是邻域平均法，基本原理是用均值来代替图像中的各个像素值。对于图像中的像素中心点(x,y)，选择一个邻域，该邻域由该像素中心点附近的几个像素点组成(不包括该像素中心点)，求出该邻域中所有像素的均值，再把均值赋予该像素中心点(x,y)，使用公式(1)计算：

式中，N代表的是该邻域中像素的个数，f_ij为邻域中像素的平均值，g_xy是生成新的图像。

这样可以平滑图像，减弱噪声，算法简单，速度较快。

(2)采用现有Hough变换方法来进行图像的倾斜矫正。

由于纸质试卷大多是装订成册的，会出现一定程度的弯曲和褶皱，也存在纸质试卷本身印刷时就是倾斜的情况，还有扫描操作不规范出现的情况，进一步地导致了扫描成了文本倾斜的图像。倾斜的图像对于后续的检测与识别是十分影响效果的，故需要进行倾斜矫正。本发明采用Hough变换来进行图像的倾斜矫正。

Hough变换可以有效地发现图像中的直线，而且有着非常好的抗噪声性能。它是先将直角坐标系下的目标点映射到极坐标系下进行的累积，也就是先将直角坐标系下的任意一条直线上的所有点都映射到极坐标系下的某个点上，然后在上面寻找累积点集的峰值，即寻找直线的特征。

选用下面的极坐标来表示：

ρ＝x′cos(θ)+y′sin(θ)＝Asin(θ+α) (2)；

式中，(x′,y′)为目标点的坐标，θ表示的是直线与x轴之间的角度(即(x′,y′)所对应的极角)，ρ表示的是该直线与原点(0,0)之间的距离，根据辅助角公式，

由于待处理图像中的中文、图表等字符都有着很容易被提取出的横线或竖线，会影响提取的倾斜角度θ。所以可以采用阈值法来对于提取的直线来控制。根据不同的图像选取不同的阈值，只选择在阈值之内的倾斜角度。对于选择出在阈值内的倾斜角度，采用最小二乘法可以获得比较合适的倾斜角度。

第二步、数据粗粒度分类

对于数据进行粗粒度分类，即进行各种小题的切分，采用的是Faster RCNN算法，数据集是采用标注工具labelimg标注的，生成相应的xml标注文件。小题的类别分为M种类型。FasterRCNN算法通过以下方式来进行检测分类的：

(1)采用基于ResNet的结构来卷积生成一个特征图；

(2)使用区域建议网络(RPN)，输入特征图，生成K个候选区域的参考框以及相对应的置信度分数；

(3)从每个候选框对应的特征图中提取特征，然后使用一个分类器来识别分类，为了选择出K个最合适的候选框，先按照置信度分数进行排序，使用非极大值抑制(NMS)来选择最有可能性的候选框；

(4)通过候选框回归来提高所生成边界框的准确度。

第三步、小题细粒度分类

对于第二步中所生成的各种类型的小题，再针对小题进行细粒度分类，采用的是Mask RCNN算法，数据集是采用标注工具labelme标注的，生成相应的json标注文件，类别共有N种。Mask RCNN通过以下方式来检测分类的：

(1)将处理好的图片输入到预训练好的神经网络中(本发明采用的是ResNet网络)，生成对应的特征图；

(2)然后对于特征图中的每一点都提前设置多个候选框，获得多个候选框；

(3)将生成的候选框输入到RPN网络中进行分类(此处是前景和背景的二分类)和边界框的回归，然后剔除一部分候选框；

(4)对剩下的候选框进行ROIAlign操作，就是将输入的原图与特征图对应起来，然后将特征图与固定的特征再对应起来；

(5)最后，再对候选框进行多分类(此处是N-1类)，边界框的回归以及MASK的生成(进行FCN操作)。

第四步、字符识别

由小题的细粒度分类得到了各种类别的字符，然后将不同种类的字符分别使用相应的模型进行识别，在这里，只需要识别公式与中文两种字符。本发明依照不同类型分别调用现有的识别API。

针对公式字符来说，本发明采用的是MathFoR公式识别方法，对于待识别的字符进行结构分析，这种方法假定原始的数据表示为其在抽象文档中的标识和空间位置的信息的节点元素，然后使用布局分析器来获取节点的列表，并根据其空间关系来构建表示数学表达式的结构化树。MathFoR在XML的配置文件中定义符号以及其关系，包括三个部分，符号类，方向以及符号本身。

识别算法使用的是最小生成树(MST)构造的，使用在配置文件中的符号作为完全连接图的节点，并结合符号有关的典型用法的信息。输出的是一个结构树，以及表示为XML文档形式的结构树，允许使用XSLT将树转换为自定义格式。

针对中文字符来说，由于切割出的字符是背景很干净的，识别难度较低，故为了提高准确率，采用的是百度AI的通用文字识别API，在检测结果中几乎没有错字。

实施例：

为使本发明的目的、技术解决方案、优点更加清晰，下面将结合具体的试卷图像对本发明的一个实施例做详细说明。

本实施例中处理的试卷图像如图1所示。识别程序的开发平台为linux，识别程序用python编写，使用PyTorch框架。

采集的试卷图像需要具备以下特征：

1、图像分辨率为300dpi以上的纯黑白模式的图像；

2、图像应包含完整的试题区域，倾斜小于±10°。

如果输入的试卷图像没有达到上述标准可能会降低识别率。

在具体的实施过程中，按照图2所示的流程对多学科试卷图像进行处理，具体过程如下：

第一步、图像预处理

(1)采用均值滤波来去除输入图像中的随机噪声；

(2)通过二值化得到二值图；

(3)通过Hough变换检测文本区域边缘，并进行倾斜矫正，根据不同的图像选取不同的阈值，只选择在阈值之内的倾斜角度。对于选择出在阈值内的倾斜角度，采用最小二乘法可以获得比较合适的倾斜角度。

第二步、数据粗粒度分类

(1)数据的标注，采用labelimg标注工具来标注数据，全学科试卷数据的分类为：xuanze(选择)、tiankong(填空)、drawing(图片)、question(问答)、qwenda(低一级的问答)、qtiankong(低一级的填空)、qxuanze(低一级的选择)、answer(答案)、panduan(判断)、jisuan(计算)、sjisuan(低一级的计算)、other(小学奇怪的题型以及语文的田字格填空)、experiment(理化生的复杂实验题)、reading(英语和语文阅读题型)、wanxing(英语完形填空和听力填表格)、writing_en(英文作文)、writing_cn(中文作文)共17种，见图3所示。

(2)把上述标注好的数据输入到Faster RCNN网络中进行训练，anchors比例设置为[0.5,1.0,2.0,5.0,10.0]，优化器使用的是SGD，学习率为0.02，分类的损失函数为CrossEntropyLoss，边界框回归的损失函数为SmoothL1loss，训练轮数为120轮，最后把原图切分为各种小题的图，图4中为网络的测试效果图。

第三步、小题细粒度分类

(1)数据的标注，使用labelme标注工具来标注，全学科试卷小题数据分类为：chinese(中文)、character(英文和公式)、option(选项)、number(大题号，如1.)、snumber(小题号，如(1))、drawing(图形加表格)、blank(空格)、bracket(圆括号)、handwriting(手写部分)共9类，如图5所示。

(2)把上述标注好的数据输入到Mask RCNN网络中进行训练，anchors比例设置为[0.5,1.0,2.0,5.0]，优化器使用的是SGD，学习率为0.02，分类的损失函数为CrossEntropyLoss，边界框回归的损失函数为SmoothL1loss，训练轮数为80轮，图6中为网络的测试效果图。

第四步、字符识别

将上一步中得到的各类字符分别输入到相应的模型中进行识别，得出最终的识别效果图，如图7-9所示。

本发明涉及的技术方案以全学科试卷的数据为例予以说明和验证，上述***目前在10000张全学科试卷图像上进行实验，其中应用场景涵盖了小学、初中、高中各学科的试卷,对于各种学科复杂版面的试卷，本发明都具有通用性。中文的识别率为99％，可见本发明对于符合条件的全学科试卷图像具有较高的识别率，具有很高的实用性。而且在识别过程中能够获取到试卷的题号与题型的信息，根据此信息可以直接生成对应的试卷结构，更进一步地可以生成相对应的答题卡，这样可以提高教学效率。

Claims

1.一种基于深度学习的多学科试卷内容检测与识别***，其特征在于所述***包括数据预处理模块、数据粗粒度分类模块、小题细粒度分类模块、字符识别模块，其中：

2.一种利用权利要求1所述***实现基于深度学习的多学科试卷内容检测与识别的方法，其特征在于所述方法包括数据预处理、数据粗粒度分类、小题细粒度分类、字符识别四个步骤，具体步骤如下：

第一步、数据预处理

(1)采用均值滤波方法去除输入图像中的随机噪声；

(2)采用Hough变换方法进行图像的倾斜矫正；

第二步、数据粗粒度分类

第三步、小题细粒度分类

第四步、字符识别

由小题的细粒度分类得到了各种类别的字符，然后公式与中文两种字符分别调用相应的模型进行字符识别，其他的字符无需识别。

3.根据权利要求2所述的基于深度学习的多学科试卷内容检测与识别方法，其特征在于所述Faster RCNN算法通过以下方式来进行检测分类的：

(1)采用基于ResNet的结构来卷积生成一个特征图；

(2)使用区域建议网络，输入特征图，生成K个候选区域的参考框以及相对应的置信度分数；

(3)从每个候选框对应的特征图中提取特征，然后使用一个分类器来识别分类，为了选择出K个最合适的候选框，先按照置信度分数进行排序，使用非极大值抑制来选择最有可能性的候选框；

(4)通过候选框回归来提高所生成边界框的准确度。

4.根据权利要求2所述的基于深度学习的多学科试卷内容检测与识别方法，其特征在于所述Mask RCNN通过以下方式来检测分类的：

(1)将处理好的图片输入到预训练好的神经网络中，生成对应的特征图；

(3)将生成的候选框输入到RPN网络中进行分类和边界框的回归，然后剔除一部分候选框；

(5)最后，再对候选框进行多分类、边界框的回归以及MASK的生成。

5.根据权利要求4所述的基于深度学习的多学科试卷内容检测与识别方法，其特征在于所述预训练神经网络是ResNet网络。

6.根据权利要求2所述的基于深度学习的多学科试卷内容检测与识别方法，其特征在于所述步骤四中，针对细粒度类型中的公式与中文两种字符分别调用MathFoR识别公式字符、调用百度通用文字识别API识别中文字符。