CN112347997A - 一种试题检测识别方法、装置、电子设备及介质 - Google Patents
一种试题检测识别方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN112347997A CN112347997A CN202011385886.8A CN202011385886A CN112347997A CN 112347997 A CN112347997 A CN 112347997A CN 202011385886 A CN202011385886 A CN 202011385886A CN 112347997 A CN112347997 A CN 112347997A
- Authority
- CN
- China
- Prior art keywords
- detection
- result
- formula
- model
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种试题检测识别方法、装置、电子设备及介质,属于网络智能教育技术领域。试题检测识别方法包括以下步骤:获取目标图像;通过模型检测算法,生成第一检测结果,第一检测结果包括题目信息检测结果和答案信息检测结果;利用OCR模型识别第一检测结果,得到第一识别结果,第一识别结果包括文字行识别结果和公式识别结果;将第一识别结果与数据库中预设的试题模板数据进行匹配,根据相似度输出批改结果。本发明针对目标图像采用模型检测算法,生成题目信息检测结果和答案信息检测结果,分别对两个检测结果进行OCR模型识别,识别出文字行识别结果和公式识别结果,提高对试题题目和答案中图表、公式的检测识别效率,进而提高批改效率。
Description
技术领域
本发明属于网络智能教育技术领域,尤其涉及一种试题检测识别方法、装置、电子设备及介质。
背景技术
随着计算机技术的发展,线上教学得到了快速的发展,相应的一些教学工具类产品也应运而生,为学生、老师、家长提供教育辅导上的技术支持和帮助,很多教学工具类产品都能提供将题目拍照或者截图进行批改的功能。
拍照或者截图批改最重要的就是识别过程,目前的批改工具产品无法直接处理如小学低年级图形类、初中公式类题目的批改,对图形类、公式类的题目批改大多是通过以图搜图的方式来解决,但是以图搜图的方法只有当题库中有对应的题目和题解时,才能进行题目的批改;而图形类的题型通常数量庞大,类别复杂,当题库中的题目数量较少时,搜索检测结果不佳,无法得到准确的答案;当题库中的题目数量较多时,通常会带来搜索检测效率低下,搜索检测耗时长等问题,因此题库搜索的方式非常依赖题库的指令和以图搜图算法的优劣,批改效率低。
发明内容
本发明的目的在于克服上述现有技术存在的不足,提供一种试题检测识别方法、装置、电子设备及介质,解决了现有技术中在批改具有图形和/或公式的题目时批改效率低下的问题,克服了必须以扩大题库存储数据的方式才能进行批注的技术瓶颈。
为了实现上述目的,第一方面,本发明提供一种试题检测识别方法,包括以下步骤:
步骤S1:获取目标图像;
步骤S2:通过模型检测算法,生成第一检测结果,所述第一检测结果包括题目信息检测结果和答案信息检测结果;
步骤S3:利用OCR模型识别所述第一检测结果,得到第一识别结果,所述第一识别结果包括文字行识别结果和公式识别结果;
步骤S4:将所述第一识别结果与数据库中预设的试题模板数据进行匹配,根据相似度输出批改结果。
进一步地,在步骤S2和S3中,基于深度学习方法,使用仿真程序自动化生成预设模型,所述预设模型包括文字行检测模型、公式检测模型、图表检测模型和文字行识别模型、公式识别模型;
其中,根据文字行检测模型、公式检测模型、图表检测模型对所述目标图像执行第一动作,并生成第一检测结果,所述第一动作包括对目标图像进行目标区域的分离提取;
根据文字行识别模型、公式识别模型对第一检测结果执行第二动作,并得到第一识别结果,所述第二动作包括对包含相应目标区域的题目信息检测结果和答案信息检测结果进行字符识别。
进一步地,在使用仿真程序自动化生成预设模型过程中,自动生成训练数据,所述训练数据与真实样本数据高度相似,所述训练数据包括图表数据、文字行数据、公式数据及label数据,所述训练数据通过随机模式生成。
进一步地,在步骤S2中,在生成题目信息检测结果和/或答案信息检测结果过程中,包括利用图表检测模型对所述目标图像进行图表区域的分离提取,包括:使用轻量级的SSD-Mobilenetv2网络作为图表检测网络,输入图像大小为224X224,使用Mobilenetv2作为主干网络提取特征,基于SSD的多层特征分别对所述目标图像中的图表区域进行检测,得到所述图表区域对应的位置坐标信息。
进一步地,在步骤S2中,在生成题目信息检测结果和/或答案信息检测结果过程中,包括利用文字行检测模型对所述目标图像进行文本区域的分离提取,包括:基于分割场景文本的检测方法,将所产生的热力图转化为边界框和文字区域,其中包含二值化的后处理过程,所述二值化的后处理过程通过将二值化操作***到分割网络中进行组合优化,使热力图各处阈值自适应,得到所述文本区域对应的位置坐标信息。
进一步地,在步骤S2中,在生成题目信息检测结果和/或答案信息检测结果过程中,包括利用公式检测模型对所述文本区域进行文字区域和公式区域的分离提取,包括:使用CTPN算法作为公式检测网络,获取所述文本区域,对所述文本区域进行公式检测,得到文本区域中文字区域对应的位置坐标信息和公式区域对应的位置坐标信息。
进一步地,根据所述文字区域对应的位置坐标信息和公式区域对应的位置坐标信息,分别单独分隔提取出所述文字区域和公式区域,将所述文字区域输入至文字识别引擎进行识别,并得到文字行识别结果;将所述公式区域输入至公式识别引擎进行识别,并得到公式识别结果。
进一步地,在使用仿真程序自动化生成预设模型过程中,按图表检测、文字行检测、公式检测、文字识别和公式识别的顺序依次仿真,所述label数据包括检测label数据和识别label数据,所述检测label数据为所述图表区域对应的位置坐标信息、文本区域对应的位置坐标信息、文字区域对应的位置坐标信息和公式区域对应的位置坐标信息中的至少一种,所述识别label数据为所述文字区域和/或公式区域中对应的文字字符串在字典中的索引。
进一步地,所述仿真程序还包括数据增强功能,所述数据增强功能包括模糊化处理步骤和添加噪音数据步骤。
进一步地,在使用仿真程序自动化生成预设模型过程中,对训练数据进行预处理:结合电子作业板式,图表检测输入图像大小为224X224,文字行检测输入图像大小为1280X192,OCR识别输入图像高度为32像素,将图像归一化到-1到1之间,仿真训练过程以batchsize为基本输入,每个所述batchsize随机从原始图片中选择,并随机执行数据增强功能,所述执行数据增强功能包括添加高斯模糊化、对比度、明亮度和试卷裁剪数据增强操作。
进一步地,在对训练数据进行预处理后,进行训练神经网络:依次训练图表检测、文字行检测、公式检测和OCR识别模型,所述训练神经网络采用端到端的训练模式。
进一步地,在将所述第一识别结果与数据库中预设的试题模板数据进行匹配过程中,得到相似度结果,将相似度结果与预设阈值进行比较,若所述相似度结果大于或等于预设阈值时,输出正确的批改结果;若所述相似度结果小于预设阈值时,输出错误的批改结果,并将所述正确和/或错误的批改结果反馈至智能终端,所述正确和/或错误的批改结果包括得/失分数、试题解析、批改标记中的至少一种。
第二方面,本发明还提供了一种应用于上述的试题检测识别方法的装置,包括:
获取单元,所述获取单元被配置为获取目标图像;
检测单元,所述检测单元被配置为通过模型检测算法生成第一检测结果,所述第一检测结果包括题目信息检测结果和答案信息检测结果;
识别单元,所述识别单元被配置为利用OCR模型识别所述第一检测结果、并得到第一识别结果,所述第一识别结果包括文字行识别结果和公式识别结果;
批改单元,所述批改单元被配置为将所述第一识别结果与数据库中预设的试题模板数据进行匹配,根据相似度输出批改结果。
第三方面,本发明还提供一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如上述的试题检测识别方法。
第四方面,本发明还一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现如上述的试题检测识别方法的步骤。
本发明的有益效果:
1、本发明针对目标图像采用模型检测算法,生成题目信息检测结果和答案信息检测结果,分别对两个检测结果进行OCR模型识别,识别出文字行识别结果和公式识别结果,提高对试题题目和答案中图表、公式的检测识别效率,进而提高批改效率。
2、本发明基于深度学习方法,使用仿真程序自动化生成预设模型,进而提高文字行检测模型、公式检测模型、图表检测模型和文字行识别模型、公式识别模型的完善度和真实度,解决了需要向数据库里补充大量试题类型和数量的问题,使检测识别过程更方便快捷。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本实施例1提供的一种试题检测识别方法的流程框架示意图。
图2是本实施例1提供的一种试题检测识别方法中仿真训练中的流程框架示意图。
图3是本实施例2提供的一种试题检测识别装置的框架示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
实施例1:
参照图1,本实施例提供一种试题检测识别方法,包括以下步骤:
步骤S1:获取目标图像;
步骤S2:通过模型检测算法,生成第一检测结果,所述第一检测结果包括题目信息检测结果和答案信息检测结果;
步骤S3:利用OCR模型识别所述第一检测结果,得到第一识别结果,所述第一识别结果包括文字行识别结果和公式识别结果;
步骤S4:将所述第一识别结果与数据库中预设的试题模板数据进行匹配,根据相似度输出批改结果。
需要说明的是,在通过拍照或者截图等方式,确定了目标图像,此目标图像中包括有若干个题目及对应的答案,在此状态下是无法辨别哪个区域图像是代表题目、哪个区域图像是代表答案的;在获取了此包含所有信息的目标图像之后,再通过模型检测算法,根据模型检测算法中所设置的预设模型,代入到目标图像中,按照图表、文字、公式的模型类别,辨别出哪个区域是代表题目信息的、哪个区域是代表答案信息的,进而实现不同功能区域的划分,此结果为第一检测结果;针对第一检测结果,利用OCR模型进行识别,包括对文字行和公式进行识别,其中,题目信息检测结果和答案信息检测结果均需分别进行文字行和公式的识别,因为不管在题目还是答案中,都会出现文字和公式,因此针对题目信息检测结果有其对应的文字行识别结果和公式识别结果,针对答案信息检测结果也有其对应的文字行识别结果和公式识别结果;在获取到包含文字行识别结果和公式识别结果的第一识别结果后,再将此第一识别结果与数据库中预设的试题模板数据进行匹配,获得相似度结果,并由此相似度结果判断得出批改结果。可见,通过此方法,针对包含有图表、公式的题目和答案的目标图像,可迅速精准地实现不同区域的分离,并分区识别匹配,提高批改效率。
另外地,此目标图像中还可包括姓名、年级、班别、科目、时间等信息,只要是跟试题相关的信息,均可加入至此检测识别步骤中,原理一样,在此不一一赘述。
参照图2,在本实施例中,在步骤S2和S3中,基于深度学习方法,使用仿真程序自动化生成预设模型,所述预设模型包括文字行检测模型、公式检测模型、图表检测模型和文字行识别模型、公式识别模型;
其中,根据文字行检测模型、公式检测模型、图表检测模型对所述目标图像执行第一动作,并生成第一检测结果,所述第一动作包括对目标图像进行目标区域的分离提取;更具体地,将文字行检测模型代入目标图像中,可分离出试题中的文字区域和答案中的文字区域;将公式检测模型代入目标图像中,可分离出试题中的公式区域和答案中的公式区域;将图表检测模型代入目标图像中,可分离出试题中的图表区域和答案中的图表区域;
根据文字行识别模型、公式识别模型对第一检测结果执行第二动作,并得到第一识别结果,所述第二动作包括对包含相应目标区域的题目信息检测结果和答案信息检测结果进行字符识别;更具体地,将文字行识别模型代入第一检测结果中,可识别出试题文字区域中的字符和答案文字区域中的字符;将公式行识别模型代入第一检测结果中,可识别出试题公式区域中的字符和答案公式区域中的字符。
作为一种优选方案,在使用仿真程序自动化生成预设模型过程中,使用程序设计语言,自动生成训练数据,所述训练数据与真实样本数据高度相似,保证数据真实性,所述训练数据包括图表数据、文字行数据、公式数据及label数据、试卷版面数据等,所述训练数据通过随机模式生成,且可设定生成指定数量的训练数据,此随机生成的训练数据,用以进行文字行检测、公式检测、图表检测和OCR模型等算法的训练仿真。
在本实施例中,在步骤S2中,在生成题目信息检测结果和/或答案信息检测结果过程中,包括利用图表检测模型对所述目标图像进行图表区域的分离提取,具体包括以下步骤:使用轻量级的SSD-Mobilenetv2网络作为图表检测网络,输入图像大小为224X224,使用Mobilenetv2作为主干网络提取特征,基于SSD的多层特征分别对所述目标图像中的图表区域进行检测,得到所述图表区域对应的位置坐标信息;至此,可根据此位置坐标信息即分离出其所代表的图表区域。
在本实施例中,在步骤S2中,在生成题目信息检测结果和/或答案信息检测结果过程中,包括利用文字行检测模型对所述目标图像进行文本区域的分离提取,包括:基于分割场景文本的检测方法,将所产生的热力图转化为边界框和文字区域,其中包含二值化的后处理过程,所述二值化的后处理过程通过将二值化操作***到分割网络中进行组合优化,使热力图各处阈值自适应,得到所述文本区域对应的位置坐标信息;需要说明的是,基于分割场景文本的检测方法可对包括弯曲、竖直或多方向在内的各种形状的场景文本进行检测,最终,可根据此位置坐标信息即分离出其所代表的文本区域。
在本实施例中,在步骤S2中,在生成题目信息检测结果和/或答案信息检测结果过程中,包括利用公式检测模型对所述文本区域进行文字区域和公式区域的分离提取,包括:使用CTPN算法作为公式检测网络,获取所述文本区域,上述所得的文本区域即为此步骤中的输入,对所述文本区域进行公式检测,得到文本区域中文字区域对应的位置坐标信息和公式区域对应的位置坐标信息;至此,将文字区域和公式区域也分离开,并设有独立对应的位置坐标信息。
在本实施例中,根据所述文字区域对应的位置坐标信息和公式区域对应的位置坐标信息,分别单独分隔提取出所述文字区域和公式区域,裁剪出相互独立的文字区域和公式区域后,将所述文字区域输入至文字识别引擎进行识别,并得到文字行识别结果;将所述公式区域输入至公式识别引擎进行识别,并得到公式识别结果,通过单独的两个分支实现试题中所有字符与公式识别。
参照图2,作为一种优选方式,在使用仿真程序自动化生成预设模型过程中,先要进行仿真训练数据,按图表检测、文字行检测、公式检测、文字识别和公式识别的顺序依次仿真,单独训练五种不同的模型;另外地,所述label数据包括检测label数据和识别label数据,所述检测label数据为所述图表区域对应的位置坐标信息、文本区域对应的位置坐标信息、文字区域对应的位置坐标信息和公式区域对应的位置坐标信息中的至少一种,所述识别label数据为所述文字区域和/或公式区域中对应的文字字符串在字典中的索引;以上五种模型的建立和完善,都需要大量的训练数据作为支撑,通过仿真程序自动化生成的方法,可方便快捷地进行批量的训练。
另外地,所述仿真程序还包括数据增强功能,所述数据增强功能包括模糊化处理步骤和添加噪音数据步骤,可在仿真过程中随机加入数据增强功能,只需设定生成指定数量的训练数据,对应的仿真程序即可生成批量训练数据。
在本实施例中,在使用仿真程序自动化生成预设模型过程中,对训练数据进行预处理:结合电子作业板式,图表检测输入图像大小为224X224,文字行检测输入图像大小为1280X192,OCR识别输入图像高度为32像素,将图像归一化到-1到1之间,仿真训练过程以batchsize为基本输入,每个所述batchsize随机从原始图片中选择,并随机执行数据增强功能,所述执行数据增强功能包括添加高斯模糊化、对比度、明亮度和试卷裁剪数据增强操作。
更进一步地,在对训练数据进行预处理后,进行训练神经网络:依次训练图表检测、文字行检测、公式检测和OCR识别模型,所述训练神经网络采用端到端的训练模式,其中网络超参数设置如下:
(1)学习率:初始学习率设置为0.01,每训练10轮减小10%;
(2)优化器:adam或sgd优化器(实施过程根据模型训练情况决定);
(3)其它:批处理大小设置为8,根据显存大小不同而不同;总共训练轮数为200。
在本实施例中,在将所述第一识别结果与数据库中预设的试题模板数据进行匹配过程中,得到相似度结果,将相似度结果与预设阈值进行比较,若所述相似度结果大于或等于预设阈值时,输出正确的批改结果;若所述相似度结果小于预设阈值时,输出错误的批改结果,并将所述正确和/或错误的批改结果反馈至智能终端,所述正确和/或错误的批改结果包括得/失分数、试题解析、批改标记中的至少一种;最终可在目标图像上对应的题目和答案区域内,进行打勾或者打叉,并且标明得/失分数,并把目标图像发送至智能终端;或者直接向智能终端发送批改结果,除了可以观察整体的错对情况,还能查看对应的试题解析,方便及时进行解析参考。
实施例2:
参照图3,本实施例2提供一种应用于实施例1中的试题检测识别方法的装置,包括:
获取单元,所述获取单元被配置为获取目标图像;
检测单元,所述检测单元被配置为通过模型检测算法生成第一检测结果,所述第一检测结果包括题目信息检测结果和答案信息检测结果;
识别单元,所述识别单元被配置为利用OCR模型识别所述第一检测结果、并得到第一识别结果,所述第一识别结果包括文字行识别结果和公式识别结果;
批改单元,所述批改单元被配置为将所述第一识别结果与数据库中预设的试题模板数据进行匹配,根据相似度输出批改结果。
需要说明的是,利用获取单元获得目标图像,进而检测单元将含有图表、公式、文字等信息的题目信息检测结果和答案信息检测结果分离出来,然后使用识别单元分别对其进行文字行识别结果和公式识别结果,利用所得到的第一识别结果,通过批改单元在数据库中预设的试题模板数据里进行匹配,并最后得出批改结果。
实施例3:
本实施例3提供一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如实施例1中的试题检测识别方法。
实施例4:
本实施例4提供还一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现如实施例1中试题检测识别方法的步骤。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
相对于现有技术,本发明针对目标图像采用模型检测算法,生成题目信息检测结果和答案信息检测结果,分别对两个检测结果进行OCR模型识别,识别出文字行识别结果和公式识别结果,提高对试题题目和答案中图表、公式的检测识别效率,进而提高批改效率。
本发明基于深度学习方法,使用仿真程序自动化生成预设模型,进而提高文字行检测模型、公式检测模型、图表检测模型和文字行识别模型、公式识别模型的完善度和真实度,解决了需要向数据库里补充大量试题类型和数量的问题,使检测识别过程更方便快捷。
最后需要强调的是,本发明不限于上述实施方式,以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (15)
1.一种试题检测识别方法,其特征在于,包括以下步骤:
步骤S1:获取目标图像;
步骤S2:通过模型检测算法,生成第一检测结果,所述第一检测结果包括题目信息检测结果和答案信息检测结果;
步骤S3:利用OCR模型识别所述第一检测结果,得到第一识别结果,所述第一识别结果包括文字行识别结果和公式识别结果;
步骤S4:将所述第一识别结果与数据库中预设的试题模板数据进行匹配,根据相似度输出批改结果。
2.如权利要求1所述的试题检测识别方法,其特征在于,在步骤S2和S3中,基于深度学习方法,使用仿真程序自动化生成预设模型,所述预设模型包括文字行检测模型、公式检测模型、图表检测模型和文字行识别模型、公式识别模型;
其中,根据文字行检测模型、公式检测模型、图表检测模型对所述目标图像执行第一动作,并生成第一检测结果,所述第一动作包括对目标图像进行目标区域的分离提取;
根据文字行识别模型、公式识别模型对第一检测结果执行第二动作,并得到第一识别结果,所述第二动作包括对包含相应目标区域的题目信息检测结果和答案信息检测结果进行字符识别。
3.如权利要求2所述的试题检测识别方法,其特征在于,在使用仿真程序自动化生成预设模型过程中,自动生成训练数据,所述训练数据与真实样本数据高度相似,所述训练数据包括图表数据、文字行数据、公式数据及label数据,所述训练数据通过随机模式生成。
4.如权利要求2至3任一项所述的试题检测识别方法,其特征在于,在步骤S2中,在生成题目信息检测结果和/或答案信息检测结果过程中,包括利用图表检测模型对所述目标图像进行图表区域的分离提取,包括:使用轻量级的SSD-Mobilenetv2网络作为图表检测网络,输入图像大小为224X224,使用Mobilenetv2作为主干网络提取特征,基于SSD的多层特征分别对所述目标图像中的图表区域进行检测,得到所述图表区域对应的位置坐标信息。
5.如权利要求4所述的试题检测识别方法,其特征在于,在步骤S2中,在生成题目信息检测结果和/或答案信息检测结果过程中,包括利用文字行检测模型对所述目标图像进行文本区域的分离提取,包括:基于分割场景文本的检测方法,将所产生的热力图转化为边界框和文字区域,其中包含二值化的后处理过程,所述二值化的后处理过程通过将二值化操作***到分割网络中进行组合优化,使热力图各处阈值自适应,得到所述文本区域对应的位置坐标信息。
6.如权利要求5所述的试题检测识别方法,其特征在于,在步骤S2中,在生成题目信息检测结果和/或答案信息检测结果过程中,包括利用公式检测模型对所述文本区域进行文字区域和公式区域的分离提取,包括:使用CTPN算法作为公式检测网络,获取所述文本区域,对所述文本区域进行公式检测,得到文本区域中文字区域对应的位置坐标信息和公式区域对应的位置坐标信息。
7.如权利要求6所述的试题检测识别方法,其特征在于,根据所述文字区域对应的位置坐标信息和公式区域对应的位置坐标信息,分别单独分隔提取出所述文字区域和公式区域,将所述文字区域输入至文字识别引擎进行识别,并得到文字行识别结果;将所述公式区域输入至公式识别引擎进行识别,并得到公式识别结果。
8.如权利要求7所述的试题检测识别方法,其特征在于,在使用仿真程序自动化生成预设模型过程中,按图表检测、文字行检测、公式检测、文字识别和公式识别的顺序依次仿真,所述label数据包括检测label数据和识别label数据,所述检测label数据为所述图表区域对应的位置坐标信息、文本区域对应的位置坐标信息、文字区域对应的位置坐标信息和公式区域对应的位置坐标信息中的至少一种,所述识别label数据为所述文字区域和/或公式区域中对应的文字字符串在字典中的索引。
9.如权利要求8所述的试题检测识别方法,其特征在于,所述仿真程序还包括数据增强功能,所述数据增强功能包括模糊化处理步骤和添加噪音数据步骤。
10.如权利要求9所述的试题检测识别方法,其特征在于,在使用仿真程序自动化生成预设模型过程中,对训练数据进行预处理:结合电子作业板式,图表检测输入图像大小为224X224,文字行检测输入图像大小为1280X192,OCR识别输入图像高度为32像素,将图像归一化到-1到1之间,仿真训练过程以batchsize为基本输入,每个所述batchsize随机从原始图片中选择,并随机执行数据增强功能,所述执行数据增强功能包括添加高斯模糊化、对比度、明亮度和试卷裁剪数据增强操作。
11.如权利要求10所述的试题检测识别方法,其特征在于,在对训练数据进行预处理后,进行训练神经网络:依次训练图表检测、文字行检测、公式检测和OCR识别模型,所述训练神经网络采用端到端的训练模式。
12.如权利要求5至11任一项所述的试题检测识别方法,其特征在于,在将所述第一识别结果与数据库中预设的试题模板数据进行匹配过程中,得到相似度结果,将相似度结果与预设阈值进行比较,若所述相似度结果大于或等于预设阈值时,输出正确的批改结果;若所述相似度结果小于预设阈值时,输出错误的批改结果,并将所述正确和/或错误的批改结果反馈至智能终端,所述正确和/或错误的批改结果包括得/失分数、试题解析、批改标记中的至少一种。
13.一种应用于如权利要求1至12任一项所述的试题检测识别方法的装置,其特征在于,包括:
获取单元,所述获取单元被配置为获取目标图像;
检测单元,所述检测单元被配置为通过模型检测算法生成第一检测结果,所述第一检测结果包括题目信息检测结果和答案信息检测结果;
识别单元,所述识别单元被配置为利用OCR模型识别所述第一检测结果、并得到第一识别结果,所述第一识别结果包括文字行识别结果和公式识别结果;
批改单元,所述批改单元被配置为将所述第一识别结果与数据库中预设的试题模板数据进行匹配,根据相似度输出批改结果。
14.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一项所述的试题检测识别方法。
15.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1至12中任一项所述的试题检测识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011385886.8A CN112347997A (zh) | 2020-11-30 | 2020-11-30 | 一种试题检测识别方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011385886.8A CN112347997A (zh) | 2020-11-30 | 2020-11-30 | 一种试题检测识别方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112347997A true CN112347997A (zh) | 2021-02-09 |
Family
ID=74427354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011385886.8A Pending CN112347997A (zh) | 2020-11-30 | 2020-11-30 | 一种试题检测识别方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347997A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111713A (zh) * | 2021-03-12 | 2021-07-13 | 北京达佳互联信息技术有限公司 | 一种图像检测方法、装置、电子设备及存储介质 |
CN113537201A (zh) * | 2021-09-16 | 2021-10-22 | 江西风向标教育科技有限公司 | 多维度混合ocr识别方法、装置、设备及存储介质 |
CN115841670A (zh) * | 2023-02-13 | 2023-03-24 | 福建鹿鸣教育科技有限公司 | 一种基于图像识别的作业错题收集*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765907A (zh) * | 2019-10-12 | 2020-02-07 | 安徽七天教育科技有限公司 | 一种基于深度学习的视频中试卷纸质文档信息提取***及方法 |
CN110781648A (zh) * | 2019-10-12 | 2020-02-11 | 安徽七天教育科技有限公司 | 一种基于深度学习的试卷自动转录***及方法 |
CN111753767A (zh) * | 2020-06-29 | 2020-10-09 | 广东小天才科技有限公司 | 一种作业自动批改的方法、装置、电子设备和存储介质 |
-
2020
- 2020-11-30 CN CN202011385886.8A patent/CN112347997A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765907A (zh) * | 2019-10-12 | 2020-02-07 | 安徽七天教育科技有限公司 | 一种基于深度学习的视频中试卷纸质文档信息提取***及方法 |
CN110781648A (zh) * | 2019-10-12 | 2020-02-11 | 安徽七天教育科技有限公司 | 一种基于深度学习的试卷自动转录***及方法 |
CN111753767A (zh) * | 2020-06-29 | 2020-10-09 | 广东小天才科技有限公司 | 一种作业自动批改的方法、装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
MINGHUI LIAO ET AL.: "Real-Time Scene Text Detection with Differentiable Binarization", 《THE THIRTY-FOURTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, vol. 34, no. 7, pages 11474 - 11481 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111713A (zh) * | 2021-03-12 | 2021-07-13 | 北京达佳互联信息技术有限公司 | 一种图像检测方法、装置、电子设备及存储介质 |
CN113111713B (zh) * | 2021-03-12 | 2024-02-27 | 北京达佳互联信息技术有限公司 | 一种图像检测方法、装置、电子设备及存储介质 |
CN113537201A (zh) * | 2021-09-16 | 2021-10-22 | 江西风向标教育科技有限公司 | 多维度混合ocr识别方法、装置、设备及存储介质 |
CN115841670A (zh) * | 2023-02-13 | 2023-03-24 | 福建鹿鸣教育科技有限公司 | 一种基于图像识别的作业错题收集*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11790641B2 (en) | Answer evaluation method, answer evaluation system, electronic device, and medium | |
US11508251B2 (en) | Method and system for intelligent identification and correction of questions | |
CN109271401B (zh) | 一种题目搜索、批改方法、装置、电子设备和存储介质 | |
CN111753767B (zh) | 一种作业自动批改的方法、装置、电子设备和存储介质 | |
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
CN109583429B (zh) | 一种批改试卷中应用题的方法及装置 | |
CN109284355B (zh) | 一种批改试卷中口算题的方法及装置 | |
CN111597908A (zh) | 试卷批改方法和试卷批改装置 | |
CN112347997A (zh) | 一种试题检测识别方法、装置、电子设备及介质 | |
CN110765907A (zh) | 一种基于深度学习的视频中试卷纸质文档信息提取***及方法 | |
RU2760471C1 (ru) | Способы и системы идентификации полей в документе | |
CN110956138B (zh) | 一种基于家教设备的辅助学习方法及家教设备 | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
CN111767883B (zh) | 一种题目批改方法及装置 | |
CN110175609B (zh) | 界面元素检测方法、装置及设备 | |
CN109189895B (zh) | 一种针对口算题的题目批改方法及装置 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
JP7293658B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
WO2023024898A1 (zh) | 题目辅助方法、题目辅助装置和题目辅助*** | |
CN113111869B (zh) | 提取文字图片及其描述的方法和*** | |
CN111832550B (zh) | 数据集制作方法、装置、电子设备及存储介质 | |
CN115050025A (zh) | 基于公式识别的知识点抽取方法及装置 | |
CN113569112A (zh) | 基于题目的辅导策略提供方法、***、装置及介质 | |
CN113934922A (zh) | 一种智能推荐的方法、装置、设备及计算机存储介质 | |
CN108021918B (zh) | 文字识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |