CN110781648A

CN110781648A - 一种基于深度学习的试卷自动转录***及方法

Info

Publication number: CN110781648A
Application number: CN201910970234.1A
Authority: CN
Inventors: 严军峰; 侯冲; 陈家海; 叶家鸣; 吴波
Original assignee: Anhui Seven Days Education Technology Co Ltd
Current assignee: Anhui Seven Days Education Technology Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-02-11

Abstract

本发明涉及图像目标检测与识别技术领域，且公开了一种试卷自动转录***及方法，该***基于多种深度学习技术，方法主要包含数据自动化生成、图表检测、文字行检测、公式检测、OCR识别和后处理等步骤；该***提出一种针对试卷的试卷图像自动转录方法，本方法主要针对包含数学、语文、英语等常用试卷在内的拍照及扫描试卷图像数据，实现试卷内容从图像到Word之间的自动转录。本发明所述试卷自动转录是指，通过本方法，对扫描或拍摄等方式获取的试卷图像数据，将试卷内容自动转为Word版本的过程，从而实现试卷图片内容从图片到电子版之间的转换。

Description

一种基于深度学习的试卷自动转录***及方法

技术领域

本发明涉及图像目标检测与识别技术领域，具体为一种基于深度学习的试卷自动转录***及方法。

背景技术

近年来，以卷积神经网络为基础的深度学习技术在计算机视觉领域取得突破性进展，极大提升了图像处理领域应用研究，尤其以目标检测和OCR(光学字符识别)为代表的技术在智能交通、视频监控、无人驾驶、AI教育等领域得到广泛应用。同时，深度学习技术在教育领域的应用也越来越多，如人脸识别、手写识别、拍图搜题等。

目前，深度学习技术在试卷文档分析中的应用并不多，其主要侧重于试卷文档分析、试卷图文分离、试卷笔迹鉴定等场景。而将试卷内容从图片自动转录为Word版本的电子版格式需求成为当前教师出题中的热点需求，实现一份拍照试卷的自动转录将有利于教师出题过程对题目重组与修改，极大节省教师出题时间，并提高工作效率。而在当前教学工作中，试卷转录工作依然需要人工干预，转录过程耗时、效率低下。基于以上现状，本方法借助深度学习技术实现试卷自动转录，提出一种基于深度学习的试卷自动转录***及方法。

本方法根据试卷版面特点，集成多种现有深度学习技术来综合实现试卷自动转录任务，通过本方法可以方便的将以拍照或扫描等形式获取的试卷图片数据自动转录为Word格式，为后续教师出题、相似题目推荐和知识点判定提供支撑。

发明内容

(一)解决的技术问题

针对当前试卷转录存在的问题，本发明提供了一种基于深度学习的试卷自动转录方法，通过将深度学习技术引入到试卷转录中，实现了试卷转录从手动到自动化的过程，解决了试卷图片文档信息提取耗时问题，极大提高了试卷转录效率。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种基于深度学习的试卷自动转录的方法，其特征在于：该***基于深度学习技术，主要包含数据自动化生成、图表检测、文字行检测、公式检测、OCR识别和后处理等步骤。

优选的，所述主要特征具体描述为：使用仿真程序自动化生成文字行检测、图表检测和OCR等算法需要的训练数据，图表检测负责将试卷中图片与文字区域分离，文字行和公式检测负责对试卷中所有文字行(公式)进行检测，OCR识别负责对检测到的文字行和公式进行识别，后处理过程将识别与检测结果重新排版并按试卷原样格式输出Word格式。

优选的，所述数据自动化生成具体描述为：使用程序设计语言自动生成和真实样本高度相似的训练数据，通过程序控制，在仿真数据过程中，随机生成指定数量的包含图表、文字行、公式等在内的各种版面试卷图片及label数据。

优选的，所述图表检测具体描述为：使用轻量级的SSD-Mobilenetv2网络作为图表检测网络，输入图像大小为224x224，使用Mobilenetv2作为主干网络提取特征，基于SSD的多层特征分别对图像中的图表区域进行检测，从而得到图表区域位置坐标信息。

优选的，所述文字行检测具体描述为：使用自然场景下的文字行检测算法AdvanceEAST作为文字行检测网络，试卷图片在拍摄或扫描过程可能存在摆放位置倾斜等情况，此时如果使用基于两点定位的算法则会出现对文字行定位不准的情况，因此本方法中对文字行定位使用四点定位算法，当图片存在倾斜时，对文字行四点坐标进行透视变换即可将文字行区域摆正。本方法使用1280x192大小分辨率图像作为输入，对图像中所有文字行定位，从而得到试卷图像中文字行位置坐标信息，并将该坐标还原到原始图像区域进行透视变换。考虑到文字行中公式高度大于文字行高度问题，对文字行坐标进行5个像素点的外扩，从而保证从原始图像截取出来的每行文字中包括完整公式区域。

优选的，所述公式检测具体描述为：该步骤使用CTPN算法作为公式检测网络，以文字行检测结果输出为输入，从而对每个文字行中是否存在公式进行检测，从而区分出当前输入文字行中文字区域和公式区域位置坐标。

优选的，所述OCR识别具体描述为：此处OCR识别分为文字识别和公式识别两种，经过文字行检测和公式检测可以得到文字行中文字区域和公式区域位置坐标，并根据坐标从原图将相应区域单***剪，文字区域输入到文字识别引擎识别，公式区域输入到公式引擎识别，通过单独的两个分支实现试卷中所有字符与公式识别。

优选的，所述后处理具体描述为：根据图表检测、文字识别和公式识别等结果，对识别结果重新排版并按照原始试卷版面输出Word版本转录结果。

优选的，包括以下具体步骤：

步骤一、仿真训练数据：本方法面向试卷自动转录过程涉及的所有检测与识别模型，本方法需要单独训练5种不同模型，每种模型都需要大量训练数据作为支撑，手动标注较为耗时，因此通过本方法中数据自动生成程序可以方便的仿真5种模型需要的批量训练数据。

数据生成过程按照图表检测、文字行检测、公式检测、文字识别和公式识别的顺序依次仿真，检测数据label信息为图表或文字行的坐标信息，OCR相关识别的label信息为图片上对应的文字字符串在字典中的索引。仿真程序中自带了部分数据增强功能，包括模糊化处理和添加噪音数据等过程，仿真过程只需指定样本总量并运行对应的仿真程序即可生成批量训练数据。

步骤二、数据预处理：结合常用试卷板式，本次训练数据中，图表检测输入图像大小为224x224，文字行检测输入图像大小为1280x192，OCR识别输入图像高度为32像素，并将图像归一化到-1到1之间，训练过程以batchsize为基本输入，每个batchsize随机从原始图片中选择，并随机添加高斯模糊化、对比度、明亮度和试卷裁剪等数据增强操作；

步骤三、训练神经网络：按照上述步骤，依次训练图表检测、文字行检测、公式检测和OCR识别模型，该步骤整体采用端到端的训练模式，网络超参数设置如下：

(1)、学习率：初始学习率设置为0.01，每训练10轮减小10％；

(2)、优化器：adam或sgd优化器(实施过程根据模型训练情况决定)；

(3)、其它：批处理大小设置为8，根据显存大小不同而不同；总共训练轮数为200；

步骤四、后处理：将上述模型转为pb文件，并按顺序依次拼接，将前一步模型输出作为下一步模型输入，最后将识别结果重新排版并输出word格式。

(三)有益效果

本发明提供了一种基于深度学习的试卷自动转录方法，具备以下有益效果：

(1)、本发明针对以上现状，提出一种基于深度学习的试卷自动转录的方法，本方法主要针对包含数学、语文、英语等常用试卷在内的试卷自动转录，本发明所述试卷自动转录是指，通过本方法将从扫描或拍摄等方式获取的试卷图像数据中，将试卷内容自动转为Word版本的过程，从而实现将试卷内容从图片到电子版之间的转换。通过将深度学习技术引入到试卷转录中，实现了试卷转录从手动到自动化的过程，解决了试卷图片文档信息提取耗时问题，极大提高了试卷转录效率。

(2)、本发明通过设置将深度学习技术引入到试卷转录中，从而实现试卷文档内容转录的自动化，针对试卷转录特点，通过对现有深度学习技术中的目标检测和OCR识别方法的整体集成，创造性提出基于多种深度学习技术方法的试卷自动化转录整体流程，能够完成对包括数学等试卷在内的多种复杂试卷的自动转录，极大提高试卷转录效率。

附图说明

图1为本发明的整体实施流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

如图1所示，本发明提供一种技术方案：一种基于深度学习的试卷自动转录方法，包括数据自动化生成、图表检测、文字行检测、公式检测、OCR识别和后处理部分组成：

数据自动化生成部分：主要描述本方法中5种深度学习模型训练数据的自动化生成，本方法涉及多种网络结构，每种网络都需要独立的训练数据，手动标注耗时耗力，因此本方法中数据自动化生成部分可以为每种网络分别生成对应的训练数据。检测模型：图表检测、文字行检测和公式检测模型使用相似的仿真程序，仿真数据过程先随机选取一张纯白色背景图片和一段随机长度的语料信息，并将语料信息随机添加到背景图片中，并在对应的txt文件中记录语料坐标位置信息。本次检测主要面向试卷，因此语料信息以收集的Word版类型试卷为主，数据生成过程程序会自动按照一定概率仿真部分选择题样式文本，如果是针对图表检测模型的训练数据，则程序会给每张仿真数据添加位置不固定的图表，并记录对应位置信息。通过本方法中的仿真程序，可以在短时间内生成大量不同训练数据，便于模型及时训练与部署。

图表检测部分：主要描述如何检测试卷中的图表，图表检测网络使用SSD-Mobilenetv2，本次方法中将试卷图像resize到224x224分辨率大小，用轻量级的Mobilenetv2提取试卷特征，并根据SSD分层预测思想，从多个不同大小尺度分别单独预测图表区域，从而实现对试卷中大小不同的图表目标的检测，最后全局NMS即可得到最终图表区域位置。

文字行检测部分：主要描述如何从试卷图像中检测所有的文字行，本方法中文字行检测使用Advance EAST算法。试卷文字行检测较为复杂，一段文字行中可能存在多种不同类型公式或者数学集合等元素符号，这些公式的高度往往比文字行高度要高若干个像素，如果直接按照文字行区域检测，则可能出现公式部分检测不完整的情况。因此在上述数据自动化生成阶段，训练数据均以同行中公式高度作为标准标签label，从而保证检测算法可以最大程度将文字行中的公式完整检测。Advance EAST是自然场景下的文字行检测算法，可以对检测目标进行四点定位，从而解决了待检测目标倾斜不规范等问题下的检测。本次文字行检测输入试卷图像大小为1280x192(输入图像长宽必须为32的整数倍)，算法主干网络使用VGG提取特征，提取到多个特征后，对特征图依次进行1x1和3x3大小卷积，并上采样到与前一特征图相同尺度并拼接。网络最后得到融合后的特征图，在此基础上进行三次1x1卷积，输出三个通道数分别为1，2和4的特征图，分别代表像素点score值、像素点为文本区域或非文本区域的概率值以及像素点与周围四个方向的连接预测。

公式检测部分：主要描述如何从上述检测到的文字行中检测是否存在公式，从而将公式部分单***剪并单独识别。本方法中公式检测使用CTPN网络，该网络从Faster R-CNN改进而来，能够有效检测复杂场景横向分别文字，本方法将其用于检测横向分布的公式，本方法中，公式单独检测的目标是将文字区域与公式区域分离，因为文字与公式识别方法不同，公式较为复杂，需要分离并单独识别。该方法用VGG16的前5个Conv stage得到特征图，在Conv5的特征图的每个位置取3x3xC的窗口特征，这些特征主要用于预测当前位置k个anchor对应的类别信息和位置信息。将每行所有窗口对应3x3xC的特征输入到RNN，得到W*256的输出向量，并将RNN的W*256输入到512维度的全连接层。Fc层特征输入到三个分类或者回归层中，第二个2k scores表示的是k个anchor的类别信息(是字符或不是字符)。第一个2k vertical coordinate和第三个k side-refinement是用来回归k个anchor的位置信息。最后用检测的文本线构造算法将分类得到的文字的proposal合并成文本线即为公式检测输出。

OCR识别部分：主要描述如何识别文字区域和公式区域字符，此处包含两种识别引擎，一种是传统的OCR识别算法，识别文字和数字等，一种为专门识别公式的算法，两者都采用CNN+LSTM的基本架构，公式识别额外使用Attention机制，字符识别算法使用CTC计算loss Function。本方法中，字符识别模型输入文字行高度为32x280大小，字符长度在5-15个字符之间。公式识别输入公式检测后的图像大小不固定，公式图像高度比文字行高度较高，公式识别结果输出为latex格式，需要经后处理部分才能显示为图像数据。

后处理部分：主要描述如何将上述检测与识别结果进行重组，并原样输出Word版格式结果，本方法目标是实现试卷自动转录，不仅将试卷图像内容转录为Word版本，还需要将转录结果按照原始图像原样布局输出，因此后处理过程将按照图表检测、文字行检测、公式检测和OCR识别结果，根据检测目标的坐标位置信息，按照先Y后X坐标排序，最后将公式识别结果按照公式坐标在文字行中位置添加到对应位置并全局优化处理。

一种基于深度学习的试卷自动转录方法，包括以下步骤：

步骤一、制作训练数据：深度学习模型训练需要大量数据作为支撑，本方法针对的试卷自动转录共有5种深度学习模型，需要大量不同模型对应的试卷数据作为训练数据，因此利用本方法中的数据仿真程序，通过指定总样本量、试卷数据类型、仿真数据形式等参数可快速生成大量训练数据，仿真程序会生成.jpg格式图片和对应的txt文件，txt文件中存放了[xmin，ymin，xmax，ymax]格式的试卷文字行或图表、公式区域坐标信息，jpg格式图片中有N个文字行、公式或图表时，对应的txt中会存在N行类似的坐标信息；

步骤二、数据预处理：根据5种不同模型训练数据格式，本次训练数据中，文字行检测数据统一resize到1280x190大小，图表检测数据统一resize到224x224大小，输入为RGB图片，并且将图片归一化到-1到1之间，OCR字符识别输入图像高度为32像素，输入灰度图。训练过程以batchsize为基本输入，每个batchsize随机从原始图片中选择，并随机添加高斯模糊化、对比度、明亮度和试卷裁剪等数据增强操作；

步骤三、训练神经网络：整体采用端到端的网络结构进行模型训练，超参数的设置如下：

(1)、学习率：检测模型初始学习率设置为0.01，每训练10轮减小10％，识别模型初始学习率为0.0001，每10个epoch减少10％；

本发明针对试卷图像，通过深度学习的方法，实现试卷文档内容自动转录，将图像类型试卷数据通过本方法自动转录为Word版本，为大规模试卷数据库建设奠定了基础。

综上可得，本发明针对以上现状，提出一种基于深度学习的试卷自动转录方法，本方法主要针对包含数学、语文、英语等常用试卷在内的试卷进行自动化转录，本发明所述试卷自动转录是指，通过本方法将从扫描或拍摄等方式获取的试卷图像数据中，将试卷内容自动转为Word版本的过程，从而实现将试卷内容从图片到电子版之间的转换。针对试卷自动转录流程特点，本方法使用多种基于深度学习的图像处理技术，提出检测加识别的一体化整套流程解决方案，实现试卷图像内容一站式自动化转录新方法。本方法针对不同类型的题目，尤其在试卷题目中含有图表、公式等场景中能够对试卷很好转录。本方法通过将深度学习技术引入到试卷转录中，实现了试卷转录从手动到自动化的过程，解决了试卷图片文档信息提取耗时问题，实现了试卷文本信息提取从手动到自动化的过程，极大提高了试卷转录效率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度学习的试卷自动转录***及方法，其特征在于：该***基于深度学习技术，主要包含数据自动化生成、图表检测、文字行检测、公式检测、OCR识别和后处理等步骤。

2.根据权利要求1所述的一种基于深度学习的试卷自动转录的方法，其特征在于：所述主要特征具体描述为：使用仿真程序自动化生成文字行检测、图表检测和OCR等算法需要的训练数据，图表检测负责将试卷中图片与文字区域分离，文字行和公式检测负责对试卷中所有文字行(公式)进行检测，OCR识别负责对检测到的文字行和公式进行识别，后处理过程将识别与检测结果重新排版，并按试卷原样格式输出Word格式。

3.根据权利要求1所述的一种基于深度学习的试卷自动转录的方法，其特征在于：所述数据自动化生成具体描述为：使用程序设计语言自动生成和真实样本高度相似的训练数据，通过程序控制，在仿真数据过程中，随机生成指定数量的包含图表、文字行、公式等在内的各种版面试卷图片及label数据。

4.根据权利要求1所述的一种基于深度学习的试卷自动转录的方法，其特征在于：所述图表检测具体描述为：使用轻量级的SSD-Mobilenetv2网络作为图表检测网络，输入图像大小为224x224，使用Mobilenetv2作为主干网络提取特征，基于SSD的多层特征分别对图像中的图表区域进行检测，从而得到图表区域位置坐标信息。

5.根据权利要求1所述的一种基于深度学习的试卷自动转录的方法，其特征在于：所述文字行检测具体描述为：使用自然场景下的文字行检测算法Advance EAST作为文字行检测网络，试卷图片在拍摄或扫描过程可能存在摆放位置倾斜等情况，此时如果使用基于两点定位的算法则会出现对文字行定位不准的情况，因此本方法中对文字行定位使用四点定位算法，当图片存在倾斜时，对文字行四点坐标进行透视变换即可将文字行区域摆正；本方法使用1280x192大小分辨率图像作为输入，对图像中所有文字行定位，从而得到试卷图像中文字行位置坐标信息，并将该坐标还原到原始图像区域进行透视变换。考虑到文字行中公式高度大于文字行高度问题，对文字行坐标进行5个像素点的外扩，从而保证从原始图像截取出来的每行文字中包括完整公式区域。

6.根据权利要求1所述的一种基于深度学习的试卷自动转录的方法，其特征在于：所述公式检测具体描述为：该步骤使用CTPN算法作为公式检测网络，以文字行检测结果输出为输入，从而对每个文字行中是否存在公式进行检测，从而区分出当前输入文字行中文字区域和公式区域位置坐标。

7.根据权利要求1所述的一种基于深度学习的试卷自动转录的方法，其特征在于：所述OCR识别具体描述为：此处OCR识别分为文字识别和公式识别两种，经过文字行检测和公式检测可以得到文字行中文字区域和公式区域位置坐标，并根据坐标从原图将相应区域单***剪，文字区域输入到文字识别引擎识别，公式区域输入到公式引擎识别，通过单独的两个分支实现试卷中所有字符与公式识别。

8.根据权利要求1所述的一种基于深度学习的试卷自动转录的方法，其特征在于：所述后处理具体描述为：根据图表检测、文字识别和公式识别等结果，对识别结果重新排版并按照原始试卷版面输出Word版本转录结果。包括以下具体步骤：

步骤一、仿真训练数据：本方法面向试卷自动转录过程涉及的所有检测与识别模型，本方法需要单独训练5种不同模型，每种模型都需要大量训练数据作为支撑，手动标注较为耗时，因此通过本方法中数据自动生成程序可以方便的仿真5种模型需要的批量训练数据；

数据生成过程按照图表检测、文字行检测、公式检测、文字识别和公式识别的顺序依次仿真，检测数据label信息为图表或文字行的坐标信息，OCR相关识别的label信息为图片上对应的文字字符串在字典中的索引。仿真程序中自带了部分数据增强功能，包括模糊化处理和添加噪音数据等过程，仿真过程只需指定样本总量并运行对应的仿真程序即可生成批量训练数据；

(1)、学习率：初始学习率设置为0.01，每训练10轮减小10％；