CN114550181B

CN114550181B - 一种小题识别方法、装置及介质

Info

Publication number: CN114550181B
Application number: CN202210126218.6A
Authority: CN
Inventors: 秦曙光
Original assignee: Zhuhai Readboy Software Technology Co Ltd
Current assignee: Zhuhai Readboy Software Technology Co Ltd
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2023-01-10
Anticipated expiration: 2042-02-10
Also published as: CN114550181A

Abstract

本发明提供了一种基于机器学习的小题识别方法，其通过机器学习的方式识别出试卷中的所有试题区域以及批改痕迹，并进一步的对所述试题是否存在小题进行识别，并根据是否存在小题以及批改痕迹进一步确定每一个小题以及答题的批改结果，可以更准确的识别试卷的批改结果。

Description

一种小题识别方法、装置及介质

技术领域

本发明涉及教育技术领域，具体来说，涉及一种小题识别方法、装置及介质。

背景技术

当前智慧课堂快速发展，试卷、教辅等统分功能已经出现，但是对于试卷及教辅等的批改功能还有待完善，目前的识别***基本只能做到大题识别，但是大题识别不利于教师统分也不利于后续的根据精细化知识点推荐题目。

小题识别主要面临如下问题：1)教师习惯对一个大题中所有做对或做错的题目只进行一个批改符号的批改，如对一个大题中的几个小题，只画一个勾或叉表示所有小题为正确或错误。2)一个大题对应的小题可能有对也有错，教师也可能分别对每个小题进行单独批改。3)小题分布可能为纵向，也可能为横向，在一个批改痕迹的情况下，不利于准确的获取小题信息。

本文提供的背景描述用于总体上呈现本公开的上下文的目的。除非本文另外指示，在该章节中描述的资料不是该申请的权利要求的现有技术并且不要通过包括在该章节内来承认其成为现有技术。

发明内容

针对相关技术中的上述技术问题，本发明提出一种基于机器学习的小题识别方法，其包括如下步骤：

S1、获取待识别目标的模板数据，根据所述模板数据对所述待识别目标进行图像分割，依次对分割的图像进行批改痕迹提取；并使用预设的识别模型识别所述批改痕迹的结果；

S2、获取所述分割图像内的有效批改痕迹个数，若有效批改痕迹个数为一个，则该分割图像的批改结果为所述批改痕迹的识别结果；

S3、若所述批改痕迹个数不为一个，则进一步获取所有批改痕迹中，批改痕迹所占区域最大的痕迹，将该批改痕迹识别的结果做为该题默认的批改结果，记为默认值；

S4、获取该分割区域各个小题对应的区域，若不存在小题，则判断该题范围内，是否存在结果为错误的批改痕迹，若存在错误的批改痕迹，则该题整体的批改结果为错误；

S5、若存在小题则依次遍历所有小题对应的区域，判断该小题范围内是否存在批改痕迹。若存在批改痕迹，则以该该批痕迹的结果做为该小题的识别结果，若不存在批改痕迹，则采用默认值为批改结果。

具体的，步骤S3中批改痕迹默认值判断方法可进一步对最大的批改痕迹进行二次校验，所述二次校验步骤进一步包括：

S31、判断判断该题是否存在小题，不存在小题，则无需二次校验，若存在小题，则进一步识别小题的分布方式；

S32、若小题为纵向分布，则进一步计算该最大批改痕迹的纵向上所占高度为该题整体纵向上高度的比例值，若该比例值超过预设阈值，则可将该最大批改痕迹的结果做为默认值；

S33、若小题为横向分布，则进一步计算该最大批改痕迹的横向上所占长度为该题整体横向上长度的比例值，若该比例值超过预设阈值，则可将该最大批改痕迹的结果做为默认值；

S34、若小题为纵横分布，则进一步可以根据纵向高度与横向长度的大小或比例关系，判断该题整体更偏向于纵向分布还是横向分布，再根据该整体偏向的分布结构进行识别。

具体的，步骤S5中的批改痕迹进行二次校验，当且仅当批改痕迹再小题区域所占比例大于预设阈值时，该批改痕迹才认为为有效批改痕迹。

具体的，所述模板数据包括页面数据及题目数据。

具体的，所述页面数据包括页面的宽高数据或/和页码；所述题目数据包括题目的坐标数据。

第二方面，本发明的另一个实施例公开了一种机器学习的小题识别装置，其包括如下单元：

批改痕迹识别单元、用于获取待识别目标的模板数据，根据所述模板数据对所述待识别目标进行图像分割，依次对分割的图像进行批改痕迹提取；并使用预设的识别模型识别所述批改痕迹的结果；

有效批改痕迹判断单元、用于获取所述分割图像内的有效批改痕迹个数，若有效批改痕迹个数为一个，则该分割图像的批改结果为所述批改痕迹的识别结果；

最大批改痕迹判断单元，用于若所述批改痕迹个数不为一个，则进一步获取所有批改痕迹中，批改痕迹所占区域最大的痕迹，将该批改痕迹识别的结果做为该题默认的批改结果，记为默认值；

小题判断单元、用于获取该分割区域各个小题对应的区域，若不存在小题，则判断该题范围内，是否存在结果为错误的批改痕迹，若存在错误的批改痕迹，则该题整体的批改结果为错误；

批改结果确定单元、用于若存在小题则依次遍历所有小题对应的区域，判断该小题范围内是否存在批改痕迹；若存在批改痕迹，则以该该批痕迹的结果做为该小题的识别结果，若不存在批改痕迹，则采用默认值为批改结果。

具体的，最大痕迹判断单元进一步包括：

二次校验单元：所述最大痕迹判断单元中的批改痕迹默认值判断方法可进一步使用二次校验单元对最大的批改痕迹进行二次校验，所述二次校验单元进一步包括：

第二小题判断单元、用于判断判断该题是否存在小题，不存在小题，则无需二次校验，若存在小题，则进一步识别小题的分布方式；

第一小题方向处理单元、用于若小题为纵向分布，则进一步计算该最大批改痕迹的纵向上所占高度为该题整体纵向上高度的比例值，若该比例值超过预设阈值，则可将该最大批改痕迹的结果做为默认值；

第二小题方向处理单元、用于若小题为横向分布，则进一步计算该最大批改痕迹的横向上所占长度为该题整体横向上长度的比例值，若该比例值超过预设阈值，则可将该最大批改痕迹的结果做为默认值；

第三小题方向处理单元、用于若小题为纵横分布，则进一步可以根据纵向高度与横向长度的大小或比例关系，判断该题整体更偏向于纵向分布还是横向分布，再根据该整体偏向的分布结构进行识别。

具体的，小题判断单元中的批改痕迹进行二次校验，当且仅当批改痕迹再小题区域所占比例大于预设阈值时，该批改痕迹才认为为有效批改痕迹。

具体的，所述模板数据包括页面数据及题目数据；所述页面数据包括页面的宽高数据或/和页码；所述题目数据包括题目的坐标数据。

第三方面，本发明的另一实施例公开了一种非易失性存储器，所述非易失性存储器存储有指令，所述指令在被处理器执行时，用于实现上述的基于机器学习的小题识别方法。

本发明通过机器学习的方式识别出试卷中的所有试题区域以及批改痕迹，并进一步的对所述试题是否存在小题进行识别，并根据是否存在小题以及批改痕迹进一步确定每一个小题以及答题的批改结果，可以更准确的识别试卷的批改结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的；

图2是本发明实施例提供的示意图；

图3是本发明实施例提供的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参考图1，本实施例公开了一种小题识别方法，其包括如下步骤：

所述待识别目标为试卷，具体试卷可以是纸质试卷，所述纸质试卷可以通过扫描仪来获取。

具体的，待识别目标的模板数据，可以是预先建立对应于待识别目标的的模板。

所述模板数据至少包括页面数据及题目数据，还可以进一步包括待识别目标的标题、对应年级、班级、科目、章节、小节等数据中的一个或多个。

所述页面数据至少包括页面的宽高数据，还可进一步包括页码等数据。

所述题目数据至少包括题目的坐标数据，还可以进一步包括题目对应坐标区域的分值数据、答案数据、解析数据、微课链接数据、知识点数据、同类题型数据等中的一种或几种的组合数据。

优选的，在获取所述题目的坐标数据时，先确定题目的结构类型，若题目为仅有大题，则只获取大题坐标数据即可，若题目为大题及大题对应小题的结构，则进一步记录所述题目每一层级的坐标数据，如一个大题包括三个小题，第一小题还包括两个小小题，则大题整体坐标区域、各小题坐标区域、各小小题坐标区域均需要记录。

所述题目坐标数据进一步是指该题最小外接矩形的坐标数据信息，所述数据信息存储方式不做具体限制，可以为所述矩形左上角坐标信息及右下坐标信息共同构成，也可以为左上角坐标信息及矩形宽高数据信息共同构成。本实施例根据获取的坐标数据，对题目进行裁剪，从而将页面内的题目分别裁剪出来。

具体的，在获取待识别目标后，根据待识别目标的模板数据中的坐标信息，对待识别目标进行裁剪，从而获取待识别目标的题目。

本实施例的图像分割，是指对目标内的各个大题的矩形区域为单位进行分割。

本实施例的，批改痕迹提取进一步是指限定批改痕迹的HSV色值范围，每种颜色会对应一个hsv色值空间，所以指定批改的笔的颜色，即可对颜色进行提取，从而提取出批改痕迹。

将所有提取出来的批改痕迹按照其最小外接矩形提取出来，并记录每个矩形图片在图像中的坐标位置。

优选的，按照最小外接矩形提取提取批改痕迹时可进一步设置冗余值，从而可以是的提取的矩形面积比批改痕迹稍大一点进行容错。

优选的，批改痕迹提取过程中，可进一步根据批改痕迹的大小进行初步过滤，删除掉多余的噪点。所述过滤方法不做具体限制，具体可以为筛选出批改痕迹小于原图预设最小痕迹比例值大小的噪点，例如若批改痕迹的面积小于整个图像面积的0.4％，则可认为这个痕迹太小，从而判断其只是干扰因素，而不是真的批改痕迹。

具体的，本实施例的识别模型是用机器学习来识别，其通过机器学习来训练所述识别模型。具体的所述机器学习包括但不限于神经网络模型。

所述机器学习训练出的识别模型的具体训练算法并不做具体限制，所述识别模型的训练过程进一步包括：

确定训练的标签种类，本实施例根据教师的通用批改习惯，设置为四种标签，分别为勾代表正确、斜线、叉、代表错误，圈代表半对。

采集大量对应标签种类的样本，按照预设算法进行训练归类，生成识别模型，根据识别模型，可以进一步预测提取出来的批改痕迹对应的批改结果。

优选的，在根据识别模型中进行识别之前可进一步增设判断提取的批改痕迹是否为合规批改痕迹的识别，其判断依据也是根据大量样本进行训练，得出判断是否为合规批改痕迹的模型，根据该模型即可进行初步筛选，提高识别精确率。

S3、若所述批改痕迹个数不为一个，则进一步获取所有批改痕迹中，批改痕迹所占区域最大的痕迹，将该批改痕迹识别的结果做为该题默认的批改结果，记为默认值。

S4、获取该分割区域各个小题对应的区域，若不存在小题，则判断该题范围内，是否存在结果为错误的批改痕迹，若存在错误的批改痕迹，则该题整体的批改结果为错误。

S31、判断判断该题是否存在小题，不存在小题，则无需二次校验，若存在小题，则进一步识别小题的分布方式。

S32、若小题为纵向分布，则进一步计算该最大批改痕迹的纵向上所占高度为该题整体纵向上高度的比例值，若该比例值超过预设阈值，则可将该最大批改痕迹的结果做为默认值(一个题目在纵向上有多个小题，教师若要批改为全对，那么这个批改痕迹肯定在纵向上要很高)。

S33、若小题为横向分布，则进一步计算该最大批改痕迹的横向上所占长度为该题整体横向上长度的比例值，若该比例值超过预设阈值，则可将该最大批改痕迹的结果做为默认值(一个题目在横向上有多个小题，教师若要批改为全对，那么这个批改痕迹肯定在横向上要足够长)。

具体的，如最大批改痕迹不能满足二次校验条件，则默认值为识别错误；实际情况中，很多学生有些题目不会做就直接空着，老师也不对该题进行批改，从而没做的题目，应当默认为错题。

具体的，步骤S5中的批改痕迹也可进行二次校验，当且仅当批改痕迹再小题区域所占比例大于预设阈值时，该批改痕迹才认为为有效批改痕迹。

本实施例通过机器学习的方式识别出试卷中的所有试题区域以及批改痕迹，并进一步的对所述试题是否存在小题进行识别，并根据是否存在小题以及批改痕迹进一步确定每一个小题以及答题的批改结果，可以更准确的识别试卷的批改结果。

实施例二

参考图2，本实施例公开了一种机器学习的小题识别装置，其包括如下单元：

最大痕迹判断单元进一步包括：

实施例三

参考图3，图3是本实施例的一种基于机器学习的小题识别设备的结构示意图。该实施例的基于机器学习的小题识别设备20包括处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述方法实施例中的步骤。或者，所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述基于机器学习的小题识别设备20中的执行过程。例如，所述计算机程序可以被分割成实施例二中的各个模块,各模块具体功能请参考上述实施例所述的装置的工作过程，在此不再赘述。

所述基于机器学习的小题识别设备20可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是基于机器学习的小题识别设备20的示例，并不构成对基于机器学习的小题识别设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于机器学习的小题识别设备20还可以包括输入输出设备、网络接入设备、总线等。

所述处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器21是所述基于机器学习的小题识别设备20的控制中心，利用各种接口和线路连接整个基于机器学习的小题识别设备20的各个部分。

所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述基于机器学习的小题识别设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述基于机器学习的小题识别设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器21执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的小题识别方法，其特征在于：包括如下步骤：

S3、若所述批改痕迹个数不为一个，则进一步获取所有批改痕迹中，批改痕迹所占区域最大的痕迹，将该批改痕迹识别的结果做为题目默认的批改结果，记为默认值；

S4、获取分割区域各个小题对应的区域，若不存在小题，则判断该题目范围内，是否存在结果为错误的批改痕迹，若存在错误的批改痕迹，则该题目整体的批改结果为错误；

S5、若存在小题则依次遍历所有小题对应的区域，判断该小题范围内是否存在批改痕迹；若存在批改痕迹，则以该批改痕迹的结果做为该小题的识别结果，若不存在批改痕迹，则采用默认值为批改结果。

2.根据权利要求1所述的方法，其特征在于：步骤S3中批改痕迹默认值判断方法进一步对最大的批改痕迹进行二次校验，所述二次校验步骤进一步包括：

S31、判断该题目是否存在小题，不存在小题，则无需二次校验，若存在小题，则进一步识别小题的分布方式；

S32、若小题为纵向分布，则进一步计算该最大批改痕迹的纵向上所占高度为该题目整体纵向上高度的比例值，若该比例值超过预设阈值，则将该最大批改痕迹的结果做为默认值；

S33、若小题为横向分布，则进一步计算该最大批改痕迹的横向上所占长度为该题目整体横向上长度的比例值，若该比例值超过预设阈值，则将该最大批改痕迹的结果做为默认值；

S34、若小题为纵横分布，则进一步根据纵向高度与横向长度的大小或比例关系，判断该题目整体更偏向于纵向分布还是横向分布，再根据整体偏向的分布结构进行识别。

3.根据权利要求2所述的方法，其特征在于：步骤S5中的批改痕迹进行二次校验，当且仅当批改痕迹在小题区域所占比例大于预设阈值时，该批改痕迹才认为为有效批改痕迹。

4.根据权利要求3所述的方法，其特征在于：所述模板数据包括页面数据及题目数据。

5.根据权利要求4所述的方法，其特征在于：所述页面数据包括页面的宽高数据或/和页码；所述题目数据包括题目的坐标数据。

6.一种机器学习的小题识别装置，其特征在于：其包括如下单元：

最大批改痕迹判断单元、用于若所述批改痕迹个数不为一个，则进一步获取所有批改痕迹中，批改痕迹所占区域最大的痕迹，将该批改痕迹识别的结果做为题目默认的批改结果，记为默认值；

小题判断单元、用于获取分割区域各个小题对应的区域，若不存在小题，则判断该题目范围内，是否存在结果为错误的批改痕迹，若存在错误的批改痕迹，则该题目整体的批改结果为错误；

批改结果确定单元、用于若存在小题则依次遍历所有小题对应的区域，判断该小题范围内是否存在批改痕迹；若存在批改痕迹，则以该批改痕迹的结果做为该小题的识别结果，若不存在批改痕迹，则采用默认值为批改结果。

7.根据权利要求6所述的装置，其特征在于：最大痕迹判断单元进一步包括：

二次校验单元：所述最大痕迹判断单元中的批改痕迹默认值判断方法进一步使用二次校验单元对最大的批改痕迹进行二次校验，所述二次校验单元进一步包括：

第二小题判断单元、用于判断该题目是否存在小题，不存在小题，则无需二次校验，若存在小题，则进一步识别小题的分布方式；

第一小题方向处理单元、用于若小题为纵向分布，则进一步计算该最大批改痕迹的纵向上所占高度为该题目整体纵向上高度的比例值，若该比例值超过预设阈值，则将该最大批改痕迹的结果做为默认值；

第二小题方向处理单元、用于若小题为横向分布，则进一步计算该最大批改痕迹的横向上所占长度为该题目整体横向上长度的比例值，若该比例值超过预设阈值，则将该最大批改痕迹的结果做为默认值；

第三小题方向处理单元、用于若小题为纵横分布，则进一步根据纵向高度与横向长度的大小或比例关系，判断该题目整体更偏向于纵向分布还是横向分布，再根据整体偏向的分布结构进行识别。

8.根据权利要求7所述的装置，其特征在于：小题判断单元中的批改痕迹进行二次校验，当且仅当批改痕迹在小题区域所占比例大于预设阈值时，该批改痕迹才认为为有效批改痕迹。

9.根据权利要求8所述的装置，其特征在于：所述模板数据包括页面数据及题目数据；所述页面数据包括页面的宽高数据或/和页码；所述题目数据包括题目的坐标数据。

10.一种非易失性存储器，所述非易失性存储器存储有指令，所述指令在被处理器执行时，其特征在于：用于实现如权利要求1-5中任一项的所述基于机器学习的小题识别方法。