CN114241486A

CN114241486A - 一种提高识别试卷学生信息准确率的方法

Info

Publication number: CN114241486A
Application number: CN202111594271.0A
Authority: CN
Inventors: 李栋良; 王钰; 钱锟
Original assignee: Zhongjiao Yunzhi Digital Technology Co ltd
Current assignee: Zhongjiao Yunzhi Digital Technology Co ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-03-25

Abstract

本申请公开了一种提高识别试卷学生信息准确率的方法，包括对页面进行矫正：在页面上的不同位置设置若干个标识符，通过对标识符的矫正的矫正，即可将页面进行矫正；获得整块包含学生信息的截图：截取矫正后图片上的固定区域获得整块包含学生信息的图片；字符序列切割；通过图像处理技术，将包含字符序列的图分割成多个包含单字符的图片，并且记录输出图片的顺序信息；识别单字符图片：将单字符图片输入模式识别模块即可得到图片中包含的字符；输出识别结果：将单字符图片的识别结果进行组合拼接，能够得到完整的学生学号信息。本方案提高了识别手写的序列字符的准确性。

Description

一种提高识别试卷学生信息准确率的方法

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种提高识别试卷学生信息准确率的方法。

背景技术

随着智能化的普及，教师迫不及待希望拥有一个能够提高批改作业效率、协助分析学情的强大工具。同时还需要照顾到学生、教师多年行为习惯，这样的工具才能更广泛认可并且被推广使用。在学生的日常考试中，会在试卷上填写自己的姓名、学号等个人信息，使用符号序列识别技术准确地识别出试卷包含的个人信息是必要的。

现有技术中，识别手写的串联字符有以下难题：手写字符识别准确率不能让人满意，影响识别准确率的因素有：风格多样，对于印刷体一种字体我们可以把它看作是一种风格，印刷体的字体种类是有限的，但是对于手写体，一个人的字体就可以看作是一种风格，所以这里字体的种类是无限的；笔画连接、字体连接干扰，印刷体由于是机器创造的非常的有规则整齐，然而手写的字体存在很多由人为造成的不确定成分。

发明内容

本申请的主要目的在于提供一种提高识别试卷学生信息准确率的方法，以改善相关技术中手写字符识别准确率低的问题。

为了实现上述目的，本申请提供了一种提高识别试卷学生信息准确率的方法，包括：

对页面进行矫正：在页面上的不同位置设置若干个标识符，通过对标识符的矫正的矫正，即可将页面进行矫正；

获得整块包含学生信息的截图：截取矫正后图片上的固定区域获得整块包含学生信息的图片；

字符序列切割；通过图像处理技术，将包含字符序列的图分割成多个包含单字符的图片，并且记录输出图片的顺序信息；

识别单字符图片：将单字符图片输入模式识别模块即可得到图片中包含的字符；

输出识别结果：将单字符图片的识别结果进行组合拼接，能够得到完整的学生学号信息。

在本申请的一种实施例中，在页面的四个角放置四个正方形标识符，其中左上、右上、左下角的标识符都是黑色实心的，右下角的标识符是空心。

在本申请的一种实施例中，对页面的矫正算法如下：

步骤一，计算关键常量，先利用计算公式

获得s1，其中w为矫正图片的宽度，再利用公式s2＝s1*(4/9)²获得s2；

步骤二，将图片灰度处理、自适应的二值化，利用opencv的findContours函数来做轮廓检测，利用opencv的contourArea函数计算每一个轮廓的面积s，我们利用s2＜s＜s1这个条件来过滤轮廓；

步骤三，计算所有符合面积要求的轮廓的中心点，并且两点组合计算他们之间的欧式距离，按照两点之间的距离我们从大到小排序，设计的四个标识符坐标就在第一名和第二名这两组点对中；

步骤四，把右下角标识符设计为空心的，所以在第一组和第二组的四个点中，一定会存在唯一顶点的对应的像素值是白色的。此时就确定了右下角，再根据右下角和其他顶点的距离关系，我们就能确定剩下三个顶点的坐标了，最后利用opencv的getPerspectiveTransform函数获得完成透视变化所需要的矩阵，其中左上角对应的目标坐标为(52，50)、右上角对应目标坐标(1192，52)，左下角对应的目标坐标(52，1702)，右下角对应的目标坐标为(1192，1702)，完成透视变换后，图片的矫正完成。

在本申请的一种实施例中，在字符序列切割过程中，利用opencv图像处理库，以“灰度模式”读取图片，然后使用自适应阈值化的方法获得白背景黑笔迹的二值化图片。

在本申请的一种实施例中，在字符序列切割过程中，需要识别并消除下划线，步骤如下：

找出下划线：首先获得水平投影，水平投影的视觉意义是每行的黑色像素总数，如果某一行的黑色像素值大于图片的宽度一半，则认为这行就是设计的多段下划线；

对相交处进行补偿：虽然设计的多段下划线的位置找到了，但是如果直接把整行置为白色，那么有些字符的笔迹也可能被消除，于是需要检测位置坐标的下一行是不是白色像素，如果不是白色而是黑色的像素，那么这意味着字符笔画与下划线相交，那么这一行的对应的位置就要保留原图片的像素，而不能置为白色像素。

在本申请的一种实施例中，在识别和消除下划线时，对黑色像素进行排列，检测是否呈现严格的一次函数，即是否完全为直线排列，对于黑色像素数量达到预定长度的直线排列的黑色像素，则认为这就是设计的多段下滑线，可进行消除。

在本申请的一种实施例中，在字符序列切割的过程中，将字符序列切割成单个字符的方法如下：

通过垂直投影获得了在垂直方向上，每一列有多少黑色像素，认为如果连续的两个及其以上像素的黑色像素个数为0，那么这段连续的0就是对应白色间隔的位置，通过间隔的位置信息就可以将单个字符切割出来。

在本申请的一种实施例中，在识别单字符图片时，利用深度学习的技术，利用深度学习框架pytorch进行深度学习。

在本申请的一种实施例中，深度学习的方法如下：

S1、选择深度学习模型：于深度学习计算机视觉领域的目标检测、实例分割、人体姿态估计等任务相比，模式识别是简单的任务，为了保证模型的推理速度要尽可能的快，选择模型参数量少推理速递快的shufflenetv2作为主干网路；

S2、建立数据集：为了实现了数字0-9的识别，建立训练用的数据集；使用的训练数据包含Mnist60000张训练数据、计算机合成数据30000张、人工标注了30000张真实数据，共计12万的训练数据。其中人工标注的数据还剩余4022张这作为测试数据；

S3、对图片预处理：对图片预处理工作就是使用自适应二值化，将图片变化为黑色背景白色笔迹的二值化图片。在训练时使用数据增强技术可以极大的增加训练数据的数量，训练时使用到的数据增强技术有水平和垂直方向的随机填充和平移、添加高斯噪声、添加高斯模糊；

S4、得到训练结果：使用shufflenetv2经过20个epoch的训练，得到训练结果，在测试数据上的准确率达到了97.36％。

在本申请的一种实施例中，在选择深度学习模型时，利用空间注意力机制来提高模型的健壮性和泛化能力，空间注意力机制将输入的图片进行仿射、透视、薄板样条变换，通过不断地训练，空间注意力机制会将输入的原图片变化成主干模型“喜欢”的形式。

与现有技术相比，本申请的有益效果是：将字符序列识别任务转化为多个单字符识别问题，为数字化教育流程中捕获学生个人信息场景提供了新的解决思路，降低了完成场景任务的难度，从而保障了捕获学生个人信息的准确性和健壮性；

通过将字符序列识别问题转化成为了多个单字符的识别问题，这种设计不仅降低了识别难度，也避免了手写字体连接问题，还最大限度的保留了学生填写个人信息的习惯。

附图说明

图1为根据本申请实施例提供的提高识别试卷学生信息准确率的方法的流程框图；

图2为根据本申请实施例提供的提高识别试卷学生信息准确率的方法的页面矫正的流程框图；

图3为根据本申请实施例提供的提高识别试卷学生信息准确率的方法的深度学习的流程框图；

图4为根据本申请实施例提供的提高识别试卷学生信息准确率的方法的设计表的流程框图；

图5为根据本申请实施例提供的提高识别试卷学生信息准确率的方法的整块包含学生信息的图片；

图6为根据本申请实施例提供的提高识别试卷学生信息准确率的方法的字符序列切割模块输出的单字符图片；

图7为根据本申请实施例提供的提高识别试卷学生信息准确率的方法的shufflenetv2的结构和不同的配置方案列表。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

另外，术语“多个”的含义应为两个以及两个以上。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例1

请参阅图1-图7，本申请提供了一种提高识别试卷学生信息准确率的方法，请参阅图1，包括：

优选的，请参阅图4，在对页面进行矫正时，在页面的四个角放置四个正方形标识符，其中左上、右上、左下角的标识符都是黑色实心的，右下角的标识符是空心。

进一步的，请参阅图2，对页面的矫正算法如下：

步骤一，计算关键常量，先利用计算公式

步骤四，把右下角标识符设计为空心的，所以在第一组和第二组的四个点中，一定会存在唯一顶点的对应的像素值是白色的。此时就确定了右下角，再根据右下角和其他顶点的距离关系，我们就能确定剩下三个顶点的坐标了，最后利用opencv的getPerspectiveTransform函数获得完成透视变化所需要的矩阵，其中左上角对应的目标坐标为(52，50)、右上角对应目标坐标(1192，52)，左下角对应的目标坐标(52，1702)，右下角对应的目标坐标为(1192，1702)。完成透视变换后，图片的矫正完成。

进一步的，在字符序列切割过程中，利用opencv图像处理库，以“灰度模式”读取图片，然后使用自适应阈值化的方法获得白背景黑笔迹的二值化图片。

进一步的，在字符序列切割过程中，需要识别并消除下划线，步骤如下：

示例性的，请参阅图5和图6，在识别和消除下划线时，对黑色像素进行排列，检测是否呈现严格的一次函数，即是否完全为直线排列，对于黑色像素数量达到预定长度的直线排列的黑色像素，则认为这就是设计的多段下滑线，可进行消除。

进一步的，在字符序列切割的过程中，将字符序列切割成单个字符的方法如下：通过垂直投影获得了在垂直方向上，每一列有多少黑色像素，认为如果连续的两个及其以上像素的黑色像素个数为0，那么这段连续的0就是对应白色间隔的位置，通过间隔的位置信息就可以将单个字符切割出来。

进一步的，在识别单字符图片时，利用深度学习的技术，利用深度学习框架pytorch进行深度学习。

进一步的，请参阅图3，深度学习的方法如下：

S1、选择深度学习模型：于深度学习计算机视觉领域的目标检测、实例分割、人体姿态估计等任务相比，模式识别是简单的任务，为了保证模型的推理速度要尽可能的快，选择模型参数量少推理速递快的shufflenetv2作为主干网路。Shufflenetv2是由《ShuffleNet V2：Practical Guidelines for Efficient CNN Architecture Design》论文提出的，图7展示了shufflenetv2的结构和不同的配置方案，选择了0.5x的配置方案作为实际使用时的模型结构。

在选择深度学习模型时，利用空间注意力机制来提高模型的健壮性和泛化能力，空间注意力机制将输入的图片进行仿射、透视、薄板样条变换，通过不断地训练，空间注意力机制会将输入的原图片变化成主干模型“喜欢”的形式，举个例子对于一张被旋转了90°的图片，通过空间注意力机制将会自动帮我们将图片旋转到正确的角度。实践中我们使用的是薄板样条变换的空间注意力机制，薄板样条变换可以实现图片的局部“扭曲”很适合用来捕捉字体风格多样的手写字符中的统一性。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种提高识别试卷学生信息准确率的方法，其特征在于，包括：

2.如权利要求1所述的一种提高识别试卷学生信息准确率的方法，其特征在于，在页面的四个角放置四个正方形标识符，其中左上、右上、左下角的标识符都是黑色实心的，右下角的标识符是空心。

3.如权利要求2所述的一种提高识别试卷学生信息准确率的方法，其特征在于，对页面的矫正算法如下：

步骤一，计算关键常量，先利用计算公式

步骤四，把右下角标识符设计为空心的，所以在第一组和第二组的四个点中，一定会存在唯一顶点的对应的像素值是白色的，此时就确定了右下角，再根据右下角和其他顶点的距离关系确定剩下三个顶点的坐标，最后利用opencv的getPerspectiveTransform函数获得完成透视变化所需要的矩阵，完成透视变换后，图片的矫正完成。

4.如权利要求1所述的一种提高识别试卷学生信息准确率的方法，其特征在于，在字符序列切割过程中，利用opencv图像处理库，以“灰度模式”读取图片，然后使用自适应阈值化的方法获得白背景黑笔迹的二值化图片。

5.如权利要求1所述的一种提高识别试卷学生信息准确率的方法，其特征在于，在字符序列切割过程中，需要识别并消除下划线，步骤如下：

对相交处进行补偿：检测位置坐标的下一行是不是白色像素，如果不是白色而是黑色的像素，那么这意味着字符笔画与下划线相交，那么这一行的对应的位置就要保留原图片的像素，而不能置为白色像素。

6.如权利要求1所述的一种提高识别试卷学生信息准确率的方法，其特征在于，在识别和消除下划线时，对黑色像素进行排列，检测是否呈现严格的一次函数，即是否完全为直线排列，对于黑色像素数量达到预定长度的直线排列的黑色像素，则认为这就是设计的多段下滑线，可进行消除。

7.如权利要求1所述的一种提高识别试卷学生信息准确率的方法，其特征在于，在字符序列切割的过程中，将字符序列切割成单个字符的方法如下：

8.如权利要求1所述的一种提高识别试卷学生信息准确率的方法，其特征在于，在识别单字符图片时，利用深度学习的技术，利用深度学习框架pytorch进行深度学习。

9.如权利要求8所述的一种提高识别试卷学生信息准确率的方法，其特征在于，深度学习的方法如下：

S1、选择深度学习模型：为了保证模型的推理速度要尽可能的快，选择模型参数量少推理速递快的shufflenetv2作为主干网路；

S2、建立数据集：为了实现了数字0-9的识别，建立训练用的数据集；

S3、对图片预处理：使用自适应二值化，将图片变化为黑色背景白色笔迹的二值化图片，在训练时使用数据增强技术可以极大的增加训练数据的数量，训练时使用到的数据增强技术有水平和垂直方向的随机填充和平移、添加高斯噪声、添加高斯模糊；

S4、得到训练结果：使用shufflenetv2经过20个epoch的训练，得到训练结果。

10.如权利要求9所述的一种提高识别试卷学生信息准确率的方法，其特征在于，在选择深度学习模型时，利用空间注意力机制来提高模型的健壮性和泛化能力，空间注意力机制将输入的图片进行仿射、透视、薄板样条变换，通过不断地训练，空间注意力机制会将输入的原图片变化成主干模型“喜欢”的形式。