CN114550181B - 一种小题识别方法、装置及介质 - Google Patents

一种小题识别方法、装置及介质 Download PDF

Info

Publication number
CN114550181B
CN114550181B CN202210126218.6A CN202210126218A CN114550181B CN 114550181 B CN114550181 B CN 114550181B CN 202210126218 A CN202210126218 A CN 202210126218A CN 114550181 B CN114550181 B CN 114550181B
Authority
CN
China
Prior art keywords
correction
trace
result
question
traces
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210126218.6A
Other languages
English (en)
Other versions
CN114550181A (zh
Inventor
秦曙光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Readboy Software Technology Co Ltd
Original Assignee
Zhuhai Readboy Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Readboy Software Technology Co Ltd filed Critical Zhuhai Readboy Software Technology Co Ltd
Priority to CN202210126218.6A priority Critical patent/CN114550181B/zh
Publication of CN114550181A publication Critical patent/CN114550181A/zh
Application granted granted Critical
Publication of CN114550181B publication Critical patent/CN114550181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于机器学习的小题识别方法,其通过机器学习的方式识别出试卷中的所有试题区域以及批改痕迹,并进一步的对所述试题是否存在小题进行识别,并根据是否存在小题以及批改痕迹进一步确定每一个小题以及答题的批改结果,可以更准确的识别试卷的批改结果。

Description

一种小题识别方法、装置及介质
技术领域
本发明涉及教育技术领域,具体来说,涉及一种小题识别方法、装置及介质。
背景技术
当前智慧课堂快速发展,试卷、教辅等统分功能已经出现,但是对于试卷及教辅等的批改功能还有待完善,目前的识别***基本只能做到大题识别,但是大题识别不利于教师统分也不利于后续的根据精细化知识点推荐题目。
小题识别主要面临如下问题:1)教师习惯对一个大题中所有做对或做错的题目只进行一个批改符号的批改,如对一个大题中的几个小题,只画一个勾或叉表示所有小题为正确或错误。2)一个大题对应的小题可能有对也有错,教师也可能分别对每个小题进行单独批改。3)小题分布可能为纵向,也可能为横向,在一个批改痕迹的情况下,不利于准确的获取小题信息。
本文提供的背景描述用于总体上呈现本公开的上下文的目的。除非本文另外指示,在该章节中描述的资料不是该申请的权利要求的现有技术并且不要通过包括在该章节内来承认其成为现有技术。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于机器学习的小题识别方法,其包括如下步骤:
S1、获取待识别目标的模板数据,根据所述模板数据对所述待识别目标进行图像分割,依次对分割的图像进行批改痕迹提取;并使用预设的识别模型识别所述批改痕迹的结果;
S2、获取所述分割图像内的有效批改痕迹个数,若有效批改痕迹个数为一个,则该分割图像的批改结果为所述批改痕迹的识别结果;
S3、若所述批改痕迹个数不为一个,则进一步获取所有批改痕迹中,批改痕迹所占区域最大的痕迹,将该批改痕迹识别的结果做为该题默认的批改结果,记为默认值;
S4、获取该分割区域各个小题对应的区域,若不存在小题,则判断该题范围内,是否存在结果为错误的批改痕迹,若存在错误的批改痕迹,则该题整体的批改结果为错误;
S5、若存在小题则依次遍历所有小题对应的区域,判断该小题范围内是否存在批改痕迹。若存在批改痕迹,则以该该批痕迹的结果做为该小题的识别结果,若不存在批改痕迹,则采用默认值为批改结果。
具体的,步骤S3中批改痕迹默认值判断方法可进一步对最大的批改痕迹进行二次校验,所述二次校验步骤进一步包括:
S31、判断判断该题是否存在小题,不存在小题,则无需二次校验,若存在小题,则进一步识别小题的分布方式;
S32、若小题为纵向分布,则进一步计算该最大批改痕迹的纵向上所占高度为该题整体纵向上高度的比例值,若该比例值超过预设阈值,则可将该最大批改痕迹的结果做为默认值;
S33、若小题为横向分布,则进一步计算该最大批改痕迹的横向上所占长度为该题整体横向上长度的比例值,若该比例值超过预设阈值,则可将该最大批改痕迹的结果做为默认值;
S34、若小题为纵横分布,则进一步可以根据纵向高度与横向长度的大小或比例关系,判断该题整体更偏向于纵向分布还是横向分布,再根据该整体偏向的分布结构进行识别。
具体的,步骤S5中的批改痕迹进行二次校验,当且仅当批改痕迹再小题区域所占比例大于预设阈值时,该批改痕迹才认为为有效批改痕迹。
具体的,所述模板数据包括页面数据及题目数据。
具体的,所述页面数据包括页面的宽高数据或/和页码;所述题目数据包括题目的坐标数据。
第二方面,本发明的另一个实施例公开了一种机器学习的小题识别装置,其包括如下单元:
批改痕迹识别单元、用于获取待识别目标的模板数据,根据所述模板数据对所述待识别目标进行图像分割,依次对分割的图像进行批改痕迹提取;并使用预设的识别模型识别所述批改痕迹的结果;
有效批改痕迹判断单元、用于获取所述分割图像内的有效批改痕迹个数,若有效批改痕迹个数为一个,则该分割图像的批改结果为所述批改痕迹的识别结果;
最大批改痕迹判断单元,用于若所述批改痕迹个数不为一个,则进一步获取所有批改痕迹中,批改痕迹所占区域最大的痕迹,将该批改痕迹识别的结果做为该题默认的批改结果,记为默认值;
小题判断单元、用于获取该分割区域各个小题对应的区域,若不存在小题,则判断该题范围内,是否存在结果为错误的批改痕迹,若存在错误的批改痕迹,则该题整体的批改结果为错误;
批改结果确定单元、用于若存在小题则依次遍历所有小题对应的区域,判断该小题范围内是否存在批改痕迹;若存在批改痕迹,则以该该批痕迹的结果做为该小题的识别结果,若不存在批改痕迹,则采用默认值为批改结果。
具体的,最大痕迹判断单元进一步包括:
二次校验单元:所述最大痕迹判断单元中的批改痕迹默认值判断方法可进一步使用二次校验单元对最大的批改痕迹进行二次校验,所述二次校验单元进一步包括:
第二小题判断单元、用于判断判断该题是否存在小题,不存在小题,则无需二次校验,若存在小题,则进一步识别小题的分布方式;
第一小题方向处理单元、用于若小题为纵向分布,则进一步计算该最大批改痕迹的纵向上所占高度为该题整体纵向上高度的比例值,若该比例值超过预设阈值,则可将该最大批改痕迹的结果做为默认值;
第二小题方向处理单元、用于若小题为横向分布,则进一步计算该最大批改痕迹的横向上所占长度为该题整体横向上长度的比例值,若该比例值超过预设阈值,则可将该最大批改痕迹的结果做为默认值;
第三小题方向处理单元、用于若小题为纵横分布,则进一步可以根据纵向高度与横向长度的大小或比例关系,判断该题整体更偏向于纵向分布还是横向分布,再根据该整体偏向的分布结构进行识别。
具体的,小题判断单元中的批改痕迹进行二次校验,当且仅当批改痕迹再小题区域所占比例大于预设阈值时,该批改痕迹才认为为有效批改痕迹。
具体的,所述模板数据包括页面数据及题目数据;所述页面数据包括页面的宽高数据或/和页码;所述题目数据包括题目的坐标数据。
第三方面,本发明的另一实施例公开了一种非易失性存储器,所述非易失性存储器存储有指令,所述指令在被处理器执行时,用于实现上述的基于机器学习的小题识别方法。
本发明通过机器学习的方式识别出试卷中的所有试题区域以及批改痕迹,并进一步的对所述试题是否存在小题进行识别,并根据是否存在小题以及批改痕迹进一步确定每一个小题以及答题的批改结果,可以更准确的识别试卷的批改结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的;
图2是本发明实施例提供的示意图;
图3是本发明实施例提供的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参考图1,本实施例公开了一种小题识别方法,其包括如下步骤:
S1、获取待识别目标的模板数据,根据所述模板数据对所述待识别目标进行图像分割,依次对分割的图像进行批改痕迹提取;并使用预设的识别模型识别所述批改痕迹的结果;
所述待识别目标为试卷,具体试卷可以是纸质试卷,所述纸质试卷可以通过扫描仪来获取。
具体的,待识别目标的模板数据,可以是预先建立对应于待识别目标的的模板。
所述模板数据至少包括页面数据及题目数据,还可以进一步包括待识别目标的标题、对应年级、班级、科目、章节、小节等数据中的一个或多个。
所述页面数据至少包括页面的宽高数据,还可进一步包括页码等数据。
所述题目数据至少包括题目的坐标数据,还可以进一步包括题目对应坐标区域的分值数据、答案数据、解析数据、微课链接数据、知识点数据、同类题型数据等中的一种或几种的组合数据。
优选的,在获取所述题目的坐标数据时,先确定题目的结构类型,若题目为仅有大题,则只获取大题坐标数据即可,若题目为大题及大题对应小题的结构,则进一步记录所述题目每一层级的坐标数据,如一个大题包括三个小题,第一小题还包括两个小小题,则大题整体坐标区域、各小题坐标区域、各小小题坐标区域均需要记录。
所述题目坐标数据进一步是指该题最小外接矩形的坐标数据信息,所述数据信息存储方式不做具体限制,可以为所述矩形左上角坐标信息及右下坐标信息共同构成,也可以为左上角坐标信息及矩形宽高数据信息共同构成。本实施例根据获取的坐标数据,对题目进行裁剪,从而将页面内的题目分别裁剪出来。
具体的,在获取待识别目标后,根据待识别目标的模板数据中的坐标信息,对待识别目标进行裁剪,从而获取待识别目标的题目。
本实施例的图像分割,是指对目标内的各个大题的矩形区域为单位进行分割。
本实施例的,批改痕迹提取进一步是指限定批改痕迹的HSV色值范围,每种颜色会对应一个hsv色值空间,所以指定批改的笔的颜色,即可对颜色进行提取,从而提取出批改痕迹。
将所有提取出来的批改痕迹按照其最小外接矩形提取出来,并记录每个矩形图片在图像中的坐标位置。
优选的,按照最小外接矩形提取提取批改痕迹时可进一步设置冗余值,从而可以是的提取的矩形面积比批改痕迹稍大一点进行容错。
优选的,批改痕迹提取过程中,可进一步根据批改痕迹的大小进行初步过滤,删除掉多余的噪点。所述过滤方法不做具体限制,具体可以为筛选出批改痕迹小于原图预设最小痕迹比例值大小的噪点,例如若批改痕迹的面积小于整个图像面积的0.4%,则可认为这个痕迹太小,从而判断其只是干扰因素,而不是真的批改痕迹。
具体的,本实施例的识别模型是用机器学习来识别,其通过机器学习来训练所述识别模型。具体的所述机器学习包括但不限于神经网络模型。
所述机器学习训练出的识别模型的具体训练算法并不做具体限制,所述识别模型的训练过程进一步包括:
确定训练的标签种类,本实施例根据教师的通用批改习惯,设置为四种标签,分别为勾代表正确、斜线、叉、代表错误,圈代表半对。
采集大量对应标签种类的样本,按照预设算法进行训练归类,生成识别模型,根据识别模型,可以进一步预测提取出来的批改痕迹对应的批改结果。
优选的,在根据识别模型中进行识别之前可进一步增设判断提取的批改痕迹是否为合规批改痕迹的识别,其判断依据也是根据大量样本进行训练,得出判断是否为合规批改痕迹的模型,根据该模型即可进行初步筛选,提高识别精确率。
S2、获取所述分割图像内的有效批改痕迹个数,若有效批改痕迹个数为一个,则该分割图像的批改结果为所述批改痕迹的识别结果;
S3、若所述批改痕迹个数不为一个,则进一步获取所有批改痕迹中,批改痕迹所占区域最大的痕迹,将该批改痕迹识别的结果做为该题默认的批改结果,记为默认值。
S4、获取该分割区域各个小题对应的区域,若不存在小题,则判断该题范围内,是否存在结果为错误的批改痕迹,若存在错误的批改痕迹,则该题整体的批改结果为错误。
S5、若存在小题则依次遍历所有小题对应的区域,判断该小题范围内是否存在批改痕迹。若存在批改痕迹,则以该该批痕迹的结果做为该小题的识别结果,若不存在批改痕迹,则采用默认值为批改结果。
具体的,步骤S3中批改痕迹默认值判断方法可进一步对最大的批改痕迹进行二次校验,所述二次校验步骤进一步包括:
S31、判断判断该题是否存在小题,不存在小题,则无需二次校验,若存在小题,则进一步识别小题的分布方式。
S32、若小题为纵向分布,则进一步计算该最大批改痕迹的纵向上所占高度为该题整体纵向上高度的比例值,若该比例值超过预设阈值,则可将该最大批改痕迹的结果做为默认值(一个题目在纵向上有多个小题,教师若要批改为全对,那么这个批改痕迹肯定在纵向上要很高)。
S33、若小题为横向分布,则进一步计算该最大批改痕迹的横向上所占长度为该题整体横向上长度的比例值,若该比例值超过预设阈值,则可将该最大批改痕迹的结果做为默认值(一个题目在横向上有多个小题,教师若要批改为全对,那么这个批改痕迹肯定在横向上要足够长)。
S34、若小题为纵横分布,则进一步可以根据纵向高度与横向长度的大小或比例关系,判断该题整体更偏向于纵向分布还是横向分布,再根据该整体偏向的分布结构进行识别。
具体的,如最大批改痕迹不能满足二次校验条件,则默认值为识别错误;实际情况中,很多学生有些题目不会做就直接空着,老师也不对该题进行批改,从而没做的题目,应当默认为错题。
具体的,步骤S5中的批改痕迹也可进行二次校验,当且仅当批改痕迹再小题区域所占比例大于预设阈值时,该批改痕迹才认为为有效批改痕迹。
本实施例通过机器学习的方式识别出试卷中的所有试题区域以及批改痕迹,并进一步的对所述试题是否存在小题进行识别,并根据是否存在小题以及批改痕迹进一步确定每一个小题以及答题的批改结果,可以更准确的识别试卷的批改结果。
实施例二
参考图2,本实施例公开了一种机器学习的小题识别装置,其包括如下单元:
批改痕迹识别单元、用于获取待识别目标的模板数据,根据所述模板数据对所述待识别目标进行图像分割,依次对分割的图像进行批改痕迹提取;并使用预设的识别模型识别所述批改痕迹的结果;
所述待识别目标为试卷,具体试卷可以是纸质试卷,所述纸质试卷可以通过扫描仪来获取。
具体的,待识别目标的模板数据,可以是预先建立对应于待识别目标的的模板。
所述模板数据至少包括页面数据及题目数据,还可以进一步包括待识别目标的标题、对应年级、班级、科目、章节、小节等数据中的一个或多个。
所述页面数据至少包括页面的宽高数据,还可进一步包括页码等数据。
所述题目数据至少包括题目的坐标数据,还可以进一步包括题目对应坐标区域的分值数据、答案数据、解析数据、微课链接数据、知识点数据、同类题型数据等中的一种或几种的组合数据。
优选的,在获取所述题目的坐标数据时,先确定题目的结构类型,若题目为仅有大题,则只获取大题坐标数据即可,若题目为大题及大题对应小题的结构,则进一步记录所述题目每一层级的坐标数据,如一个大题包括三个小题,第一小题还包括两个小小题,则大题整体坐标区域、各小题坐标区域、各小小题坐标区域均需要记录。
所述题目坐标数据进一步是指该题最小外接矩形的坐标数据信息,所述数据信息存储方式不做具体限制,可以为所述矩形左上角坐标信息及右下坐标信息共同构成,也可以为左上角坐标信息及矩形宽高数据信息共同构成。本实施例根据获取的坐标数据,对题目进行裁剪,从而将页面内的题目分别裁剪出来。
具体的,在获取待识别目标后,根据待识别目标的模板数据中的坐标信息,对待识别目标进行裁剪,从而获取待识别目标的题目。
本实施例的图像分割,是指对目标内的各个大题的矩形区域为单位进行分割。
本实施例的,批改痕迹提取进一步是指限定批改痕迹的HSV色值范围,每种颜色会对应一个hsv色值空间,所以指定批改的笔的颜色,即可对颜色进行提取,从而提取出批改痕迹。
将所有提取出来的批改痕迹按照其最小外接矩形提取出来,并记录每个矩形图片在图像中的坐标位置。
优选的,按照最小外接矩形提取提取批改痕迹时可进一步设置冗余值,从而可以是的提取的矩形面积比批改痕迹稍大一点进行容错。
优选的,批改痕迹提取过程中,可进一步根据批改痕迹的大小进行初步过滤,删除掉多余的噪点。所述过滤方法不做具体限制,具体可以为筛选出批改痕迹小于原图预设最小痕迹比例值大小的噪点,例如若批改痕迹的面积小于整个图像面积的0.4%,则可认为这个痕迹太小,从而判断其只是干扰因素,而不是真的批改痕迹。
具体的,本实施例的识别模型是用机器学习来识别,其通过机器学习来训练所述识别模型。具体的所述机器学习包括但不限于神经网络模型。
所述机器学习训练出的识别模型的具体训练算法并不做具体限制,所述识别模型的训练过程进一步包括:
确定训练的标签种类,本实施例根据教师的通用批改习惯,设置为四种标签,分别为勾代表正确、斜线、叉、代表错误,圈代表半对。
采集大量对应标签种类的样本,按照预设算法进行训练归类,生成识别模型,根据识别模型,可以进一步预测提取出来的批改痕迹对应的批改结果。
优选的,在根据识别模型中进行识别之前可进一步增设判断提取的批改痕迹是否为合规批改痕迹的识别,其判断依据也是根据大量样本进行训练,得出判断是否为合规批改痕迹的模型,根据该模型即可进行初步筛选,提高识别精确率。
有效批改痕迹判断单元、用于获取所述分割图像内的有效批改痕迹个数,若有效批改痕迹个数为一个,则该分割图像的批改结果为所述批改痕迹的识别结果;
最大批改痕迹判断单元,用于若所述批改痕迹个数不为一个,则进一步获取所有批改痕迹中,批改痕迹所占区域最大的痕迹,将该批改痕迹识别的结果做为该题默认的批改结果,记为默认值;
小题判断单元、用于获取该分割区域各个小题对应的区域,若不存在小题,则判断该题范围内,是否存在结果为错误的批改痕迹,若存在错误的批改痕迹,则该题整体的批改结果为错误;
批改结果确定单元、用于若存在小题则依次遍历所有小题对应的区域,判断该小题范围内是否存在批改痕迹;若存在批改痕迹,则以该该批痕迹的结果做为该小题的识别结果,若不存在批改痕迹,则采用默认值为批改结果。
最大痕迹判断单元进一步包括:
二次校验单元:所述最大痕迹判断单元中的批改痕迹默认值判断方法可进一步使用二次校验单元对最大的批改痕迹进行二次校验,所述二次校验单元进一步包括:
第二小题判断单元、用于判断判断该题是否存在小题,不存在小题,则无需二次校验,若存在小题,则进一步识别小题的分布方式;
第一小题方向处理单元、用于若小题为纵向分布,则进一步计算该最大批改痕迹的纵向上所占高度为该题整体纵向上高度的比例值,若该比例值超过预设阈值,则可将该最大批改痕迹的结果做为默认值;
第二小题方向处理单元、用于若小题为横向分布,则进一步计算该最大批改痕迹的横向上所占长度为该题整体横向上长度的比例值,若该比例值超过预设阈值,则可将该最大批改痕迹的结果做为默认值;
第三小题方向处理单元、用于若小题为纵横分布,则进一步可以根据纵向高度与横向长度的大小或比例关系,判断该题整体更偏向于纵向分布还是横向分布,再根据该整体偏向的分布结构进行识别。
具体的,小题判断单元中的批改痕迹进行二次校验,当且仅当批改痕迹再小题区域所占比例大于预设阈值时,该批改痕迹才认为为有效批改痕迹。
本实施例通过机器学习的方式识别出试卷中的所有试题区域以及批改痕迹,并进一步的对所述试题是否存在小题进行识别,并根据是否存在小题以及批改痕迹进一步确定每一个小题以及答题的批改结果,可以更准确的识别试卷的批改结果。
实施例三
参考图3,图3是本实施例的一种基于机器学习的小题识别设备的结构示意图。该实施例的基于机器学习的小题识别设备20包括处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述方法实施例中的步骤。或者,所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器22中,并由所述处理器21执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述基于机器学习的小题识别设备20中的执行过程。例如,所述计算机程序可以被分割成实施例二中的各个模块,各模块具体功能请参考上述实施例所述的装置的工作过程,在此不再赘述。
所述基于机器学习的小题识别设备20可包括,但不仅限于,处理器21、存储器22。本领域技术人员可以理解,所述示意图仅仅是基于机器学习的小题识别设备20的示例,并不构成对基于机器学习的小题识别设备20的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述基于机器学习的小题识别设备20还可以包括输入输出设备、网络接入设备、总线等。
所述处理器21可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器21是所述基于机器学习的小题识别设备20的控制中心,利用各种接口和线路连接整个基于机器学习的小题识别设备20的各个部分。
所述存储器22可用于存储所述计算机程序和/或模块,所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块,以及调用存储在存储器22内的数据,实现所述基于机器学习的小题识别设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述基于机器学习的小题识别设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器21执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于机器学习的小题识别方法,其特征在于:包括如下步骤:
S1、获取待识别目标的模板数据,根据所述模板数据对所述待识别目标进行图像分割,依次对分割的图像进行批改痕迹提取;并使用预设的识别模型识别所述批改痕迹的结果;
S2、获取所述分割图像内的有效批改痕迹个数,若有效批改痕迹个数为一个,则该分割图像的批改结果为所述批改痕迹的识别结果;
S3、若所述批改痕迹个数不为一个,则进一步获取所有批改痕迹中,批改痕迹所占区域最大的痕迹,将该批改痕迹识别的结果做为题目默认的批改结果,记为默认值;
S4、获取分割区域各个小题对应的区域,若不存在小题,则判断该题目范围内,是否存在结果为错误的批改痕迹,若存在错误的批改痕迹,则该题目整体的批改结果为错误;
S5、若存在小题则依次遍历所有小题对应的区域,判断该小题范围内是否存在批改痕迹;若存在批改痕迹,则以该批改痕迹的结果做为该小题的识别结果,若不存在批改痕迹,则采用默认值为批改结果。
2.根据权利要求1所述的方法,其特征在于:步骤S3中批改痕迹默认值判断方法进一步对最大的批改痕迹进行二次校验,所述二次校验步骤进一步包括:
S31、判断该题目是否存在小题,不存在小题,则无需二次校验,若存在小题,则进一步识别小题的分布方式;
S32、若小题为纵向分布,则进一步计算该最大批改痕迹的纵向上所占高度为该题目整体纵向上高度的比例值,若该比例值超过预设阈值,则将该最大批改痕迹的结果做为默认值;
S33、若小题为横向分布,则进一步计算该最大批改痕迹的横向上所占长度为该题目整体横向上长度的比例值,若该比例值超过预设阈值,则将该最大批改痕迹的结果做为默认值;
S34、若小题为纵横分布,则进一步根据纵向高度与横向长度的大小或比例关系,判断该题目整体更偏向于纵向分布还是横向分布,再根据整体偏向的分布结构进行识别。
3.根据权利要求2所述的方法,其特征在于:步骤S5中的批改痕迹进行二次校验,当且仅当批改痕迹在小题区域所占比例大于预设阈值时,该批改痕迹才认为为有效批改痕迹。
4.根据权利要求3所述的方法,其特征在于:所述模板数据包括页面数据及题目数据。
5.根据权利要求4所述的方法,其特征在于:所述页面数据包括页面的宽高数据或/和页码;所述题目数据包括题目的坐标数据。
6.一种机器学习的小题识别装置,其特征在于:其包括如下单元:
批改痕迹识别单元、用于获取待识别目标的模板数据,根据所述模板数据对所述待识别目标进行图像分割,依次对分割的图像进行批改痕迹提取;并使用预设的识别模型识别所述批改痕迹的结果;
有效批改痕迹判断单元、用于获取所述分割图像内的有效批改痕迹个数,若有效批改痕迹个数为一个,则该分割图像的批改结果为所述批改痕迹的识别结果;
最大批改痕迹判断单元、用于若所述批改痕迹个数不为一个,则进一步获取所有批改痕迹中,批改痕迹所占区域最大的痕迹,将该批改痕迹识别的结果做为题目默认的批改结果,记为默认值;
小题判断单元、用于获取分割区域各个小题对应的区域,若不存在小题,则判断该题目范围内,是否存在结果为错误的批改痕迹,若存在错误的批改痕迹,则该题目整体的批改结果为错误;
批改结果确定单元、用于若存在小题则依次遍历所有小题对应的区域,判断该小题范围内是否存在批改痕迹;若存在批改痕迹,则以该批改痕迹的结果做为该小题的识别结果,若不存在批改痕迹,则采用默认值为批改结果。
7.根据权利要求6所述的装置,其特征在于:最大痕迹判断单元进一步包括:
二次校验单元:所述最大痕迹判断单元中的批改痕迹默认值判断方法进一步使用二次校验单元对最大的批改痕迹进行二次校验,所述二次校验单元进一步包括:
第二小题判断单元、用于判断该题目是否存在小题,不存在小题,则无需二次校验,若存在小题,则进一步识别小题的分布方式;
第一小题方向处理单元、用于若小题为纵向分布,则进一步计算该最大批改痕迹的纵向上所占高度为该题目整体纵向上高度的比例值,若该比例值超过预设阈值,则将该最大批改痕迹的结果做为默认值;
第二小题方向处理单元、用于若小题为横向分布,则进一步计算该最大批改痕迹的横向上所占长度为该题目整体横向上长度的比例值,若该比例值超过预设阈值,则将该最大批改痕迹的结果做为默认值;
第三小题方向处理单元、用于若小题为纵横分布,则进一步根据纵向高度与横向长度的大小或比例关系,判断该题目整体更偏向于纵向分布还是横向分布,再根据整体偏向的分布结构进行识别。
8.根据权利要求7所述的装置,其特征在于:小题判断单元中的批改痕迹进行二次校验,当且仅当批改痕迹在小题区域所占比例大于预设阈值时,该批改痕迹才认为为有效批改痕迹。
9.根据权利要求8所述的装置,其特征在于:所述模板数据包括页面数据及题目数据;所述页面数据包括页面的宽高数据或/和页码;所述题目数据包括题目的坐标数据。
10.一种非易失性存储器,所述非易失性存储器存储有指令,所述指令在被处理器执行时,其特征在于:用于实现如权利要求1-5中任一项的所述基于机器学习的小题识别方法。
CN202210126218.6A 2022-02-10 2022-02-10 一种小题识别方法、装置及介质 Active CN114550181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210126218.6A CN114550181B (zh) 2022-02-10 2022-02-10 一种小题识别方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210126218.6A CN114550181B (zh) 2022-02-10 2022-02-10 一种小题识别方法、装置及介质

Publications (2)

Publication Number Publication Date
CN114550181A CN114550181A (zh) 2022-05-27
CN114550181B true CN114550181B (zh) 2023-01-10

Family

ID=81674185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210126218.6A Active CN114550181B (zh) 2022-02-10 2022-02-10 一种小题识别方法、装置及介质

Country Status (1)

Country Link
CN (1) CN114550181B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012181653A (ja) * 2011-03-01 2012-09-20 Tokyo Univ Of Agriculture & Technology 採点方法、採点方法のプログラム及び採点システム
JP2014071489A (ja) * 2012-09-27 2014-04-21 Fujitsu Ltd 採点結果取得方法、プログラム、及び装置
CN106846961A (zh) * 2017-01-25 2017-06-13 华中师范大学 电子试卷的处理方法和装置
CN107977637A (zh) * 2017-12-11 2018-05-01 上海启思教育科技服务有限公司 一种多题型的智能阅卷***
CN109697905A (zh) * 2017-10-20 2019-04-30 深圳市鹰硕技术有限公司 一种试卷批阅***
CN110210309A (zh) * 2019-04-30 2019-09-06 宜春宜联科技有限公司 错题识别方法、***、可读存储介质及设备
CN110348444A (zh) * 2019-05-31 2019-10-18 浙江米猪控股有限公司 基于深度学习的错题收集方法、装置及设备
WO2020259060A1 (zh) * 2019-06-26 2020-12-30 深圳中兴网信科技有限公司 试卷信息提取方法、***及计算机可读存储介质
CN112200058A (zh) * 2020-09-30 2021-01-08 珠海读书郎网络教育有限公司 一种教辅资料智能批改的***及方法
CN112215192A (zh) * 2020-10-22 2021-01-12 常州大学 一种基于机器视觉技术的快速录入试卷成绩的试卷及方法
CN113407676A (zh) * 2021-06-24 2021-09-17 作业帮教育科技(北京)有限公司 题目批改方法和***、电子设备和计算机可读介质
CN113505787A (zh) * 2021-06-24 2021-10-15 作业帮教育科技(北京)有限公司 题目批改方法及***、采用的电子设备及计算机可读介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101481498B1 (ko) * 2014-05-07 2015-01-13 오종현 시험지의 자동채점 및 오답데이터 관리 시스템
CN108133167B (zh) * 2016-12-01 2021-02-05 北京新唐思创教育科技有限公司 一种选择与填空题目答案的自动判定方法及其装置
JP6355279B2 (ja) * 2016-12-12 2018-07-11 株式会社日能研 答案の採点を支援するコンピュータシステムおよびプログラム
JP6828915B1 (ja) * 2019-09-10 2021-02-10 株式会社教育同人社 採点集計支援システム及び採点集計支援プログラム
CN113435440A (zh) * 2021-07-19 2021-09-24 深圳市亚太未来教育科技发展有限公司 一种基于图像识别的智能阅卷复习方法及***

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012181653A (ja) * 2011-03-01 2012-09-20 Tokyo Univ Of Agriculture & Technology 採点方法、採点方法のプログラム及び採点システム
JP2014071489A (ja) * 2012-09-27 2014-04-21 Fujitsu Ltd 採点結果取得方法、プログラム、及び装置
CN106846961A (zh) * 2017-01-25 2017-06-13 华中师范大学 电子试卷的处理方法和装置
CN109697905A (zh) * 2017-10-20 2019-04-30 深圳市鹰硕技术有限公司 一种试卷批阅***
CN107977637A (zh) * 2017-12-11 2018-05-01 上海启思教育科技服务有限公司 一种多题型的智能阅卷***
CN110210309A (zh) * 2019-04-30 2019-09-06 宜春宜联科技有限公司 错题识别方法、***、可读存储介质及设备
CN110348444A (zh) * 2019-05-31 2019-10-18 浙江米猪控股有限公司 基于深度学习的错题收集方法、装置及设备
WO2020259060A1 (zh) * 2019-06-26 2020-12-30 深圳中兴网信科技有限公司 试卷信息提取方法、***及计算机可读存储介质
CN112200058A (zh) * 2020-09-30 2021-01-08 珠海读书郎网络教育有限公司 一种教辅资料智能批改的***及方法
CN112215192A (zh) * 2020-10-22 2021-01-12 常州大学 一种基于机器视觉技术的快速录入试卷成绩的试卷及方法
CN113407676A (zh) * 2021-06-24 2021-09-17 作业帮教育科技(北京)有限公司 题目批改方法和***、电子设备和计算机可读介质
CN113505787A (zh) * 2021-06-24 2021-10-15 作业帮教育科技(北京)有限公司 题目批改方法及***、采用的电子设备及计算机可读介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Research on Test Paper Auto-generating Based on Improved Particle Swarm Optimization;Chong Zhang等;《2015 Seventh International Symposium on Parallel Architectures, Algorithms and Programming (PAAP)》;20160121;92-96 *
基于机器视觉的电子作业批改***的研究与设计;朱然;《中国优秀硕士学位论文全文数据库信息科技辑》;20180215(第(2018)02期);I138-1702 *
智能批改***的研究与设计;贾硕;《中国优秀硕士学位论文全文数据库信息科技辑》;20081015(第(2008)10期);I138-82 *
机械类课程自动组卷与批改***的研究与开发;陶翠;《中国优秀硕士学位论文全文数据库信息科技辑》;20151215(第(2015)12期);I138-231 *
自动化扫描阅卷***的研究与实现;宋峥峥;《中国优秀硕士学位论文全文数据库信息科技辑》;20090215(第(2009)02期);I138-550 *

Also Published As

Publication number Publication date
CN114550181A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN108932508B (zh) 一种题目智能识别、批改的方法和***
CN107506762B (zh) 一种基于图像分析的成绩自动录入方法
CN108171297A (zh) 一种答题卡识别方法及装置
CN109858542B (zh) 一种字符识别方法和装置
CN108509988B (zh) 一种试卷分数自动统计方法、装置、电子设备及存储介质
CN111144191A (zh) 字体识别方法、装置、电子设备及存储介质
CN110879965A (zh) 试卷客观题的自动批阅方法、电子装置、设备及存储介质
WO2021232670A1 (zh) 一种pcb元件识别方法及装置
CN110135225A (zh) 样本标注方法及计算机存储介质
CN112347997A (zh) 一种试题检测识别方法、装置、电子设备及介质
CN113762274B (zh) 一种答题卡目标区域检测方法、***、存储介质及设备
CN111008594A (zh) 改错题评阅方法、相关设备及可读存储介质
CN114550181B (zh) 一种小题识别方法、装置及介质
CN112434585A (zh) 一种车道线的虚实识别方法、***、电子设备及存储介质
CN115482535A (zh) 一种试卷自动批改方法、存储介质及设备
CN115601768A (zh) 书写文字的判断方法、装置、设备及存储介质
CN113033480A (zh) 基于答题卡的客观题批阅方法、装置、设备及存储介质
CN114254605A (zh) 答题卡模板生成方法、答题卡识别方法、装置和电子设备
CN114663891A (zh) 基于配置答题卡的日常作业错题本生成方法和***
US20060188863A1 (en) Material processing apparatus, material processing method, and material processing program product
CN114241503B (zh) 一种错题原因采集方法、***、可读存储介质及设备
CN113962347B (zh) 基于纸质教辅的错题采集方法、***、存储介质及设备
CN112907705B (zh) 涂改图像生成方法、装置、设备及存储介质
CN113128486B (zh) 手写数学公式样本库的构建方法、装置及终端设备
CN117894217B (zh) 一种用于在线学习***的数学题目导学***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant