CN113822907B

CN113822907B - 图像处理方法及装置

Info

Publication number: CN113822907B
Application number: CN202111211204.6A
Authority: CN
Inventors: 于仲海; 许丽星; 王凯欣
Original assignee: Hisense Group Holding Co Ltd
Current assignee: Hisense Group Holding Co Ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2024-03-26
Anticipated expiration: 2041-10-18
Also published as: CN113822907A

Abstract

本申请实施例公开了一种图像处理方法及装置，属于人工智能技术领域。所述方法包括：在学生答复目标作业的过程中，可以获取学生答复该目标作业过程中的实时图像以及针对目标作业的原始图像，通过对实时图像和原始图像的处理，确定学生答复各题所使用的时长，以基于学生答复各个题目所使用的时长对该学生的知识点掌握情况进行评价。如此后续在评价学生的知识点掌握情况时，会结合学生答复各题所使用的时长来综合评价，而不是直接根据各题的答复正确情况简单进行评价，从而使得本申请实施例在评价学生知识点掌握情况时能够更加客观具体。

Description

图像处理方法及装置

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种图像处理方法及装置。

背景技术

随着互联网技术的发展，越来越多的家长或老师在检查学生作业时，选择将学生作业拍成图像后将图像上传至云服务器，由云服务器自动对图像进行处理以实现作业批改，以便家长或老师根据批改结果评价学生的知识点掌握情况。

相关技术中云服务器对图像进行处理后识别作业中各题的正确情况，然后将各题的正确情况反馈给家长或老师，家长或老师根据各题的正确情况去评价学生的知识点掌握情况。但是这种方式的评价不够精确，使得家长或老师在评价学生的知识点掌握情况时有失偏驳。

发明内容

本申请实施例提供了一种图像处理方法及装置，可以在评价学生的知识点掌握情况时更加具体和客观。所述技术方案如下：

一方面，提供了一种图像处理方法，所述方法包括：

获取图像采集设备针对目标作业采集的原始图像，所述原始图像中不包括用户的答复笔迹；

基于边缘检测算法和光学字符识别OCR算法对所述原始图像进行处理，以获取所述目标作业中各个题目的答题区域，所述答题区域指示相应题目在所述目标作业中所处的位置；

获取所述图像采集设备采集的多帧实时图像，所述多帧实时图像为用户在答复所述目标作业的过程中针对所述目标作业采集得到的；

基于所述多帧实时图像中每帧实时图像的色调饱和度明度HSV信息，识别所述多帧实时图像中每帧实时图像中出现的所述用户的答复笔迹；

基于所述多帧实时图像中每帧实时图像中出现的所述用户的答复笔迹和所述目标作业中各个题目的答题区域，确定所述用户答复所述各个题目中每个题目所使用的时长。

可选地，所述基于边缘检测算法和光学字符识别OCR算法对所述原始图像进行处理，以获取所述目标作业中各个题目的答题区域，包括：

基于所述边缘检测算法确定所述原始图像中各个局部图形的外接区域，得到多个矩形区域，每个矩形区域指示所述目标作业中的一段文字；

基于所述OCR算法确定所述多个矩形区域中每个矩形区域中的文字信息；

基于每个矩形区域中的文字信息，将包括相同题号的矩形区域合并，得到与所述目标作业中各个题号分别对应的矩形区域；

基于各个题号分别对应的矩形区域，确定所述目标作业中各个题目的答题区域。

可选地，在每个局部图形指示所述目标作业中的一行文字的情况下，所述基于边缘检测算法确定所述原始图像中各个局部图形的外接区域之后，所述方法还包括：

按照各个局部图形的外接矩形区域在所述原始图像中的位置接近程度，将所述多个局部图形中各个局部图形的外接矩形区域进行合并，得到所述多个矩形区域。

可选地，所述基于各个题号分别对应的矩形区域，确定所述目标作业中各个题目的答题区域，包括：

将与所述目标作业中各个题号分别对应的矩形区域的下边缘拉伸，得到所述目标作业中各个题目的答题区域，

其中，拉伸后的第一题号对应的矩形区域的下边缘和第二题号对应的矩形区域的上边缘接触，所述第二题号为所述第一题号之后且相邻的题号。

可选地，所述基于所述多帧实时图像中每帧实时图像中出现的所述用户的答复笔迹和所述目标作业中各个题目的答题区域，确定所述用户答复所述各个题目中每个题目所使用的时长，包括：

按照所述多帧实时图像的采集时间从早到晚的顺序对所述多帧实时图像进行排序；

对于排序后的第一实时图像，如果所述第一实时图像之前的实时图像中所述用户的答复笔迹没有位于第一题目的答复区域中，但是所述第一实时图像中所述用户的答复笔迹位于所述第一题目的答复区域中，则将所述第一实时图像的采集时间作为所述第一题目的答复开始时间，所述第一实时图像为所述多个图像中一个图像；

对于所述第一实时图像之后的每帧实时图像依次执行下述操作：

判断每帧实时图像中所述用户的答复笔迹是否还位于所述第一题目的答复区域中，如果所述用户的答复笔迹还位于所述第一题目的答复区域中，则继续判断下一帧实时图像，直至出现第二实时图像满足如下条件：所述第二实时图像中所述用户的答复笔迹出现在第二题目的答复区域中，且在所述第二实时图像之前的图像中没有答复笔迹出现在所述在第二题目的答复区域中，则将所述第二实时图像的采集时间作为所述第一题目的答复结束时间；

根据所述第一题目的答复开始时间和所述第一题目的答复结束时间，确定用户答复所述第一题目所使用的时长。

对于所述多帧实时图像中的任意相邻两帧实时图像，确定所述相邻两帧实时图像中后一帧实时图像相对于前一帧实时图像中多出的答复笔迹，在确定所述多出的答复笔迹位于目标题目的答复区域内时，将所述相邻两帧实时图像的采集时间之间的差值作为所述目标题目对应的时长，所述目标题目为所述各个题目中任一个；

将确定出的多个与所述目标题目对应的时长相加，得到所述用户答复所述目标题目所使用的时长。

可选地，所述基于所述多帧实时图像中每帧实时图像的色调饱和度明度HSV信息，识别所述多帧实时图像中每帧实时图像中出现的所述用户的答复笔迹，包括：

对于所述多帧实时图像中任一帧实时图像，确定所述实时图像的色调饱和度明度HSV信息；

基于所述HSV信息提取所述实时图像中颜色不同于打印文本的颜色的像素点，得到所述用户的答复笔迹。

另一方面，提供了一种图像处理装置，所述装置包括：

获取模块，用于获取图像采集设备针对目标作业采集的原始图像，所述原始图像中不包括用户的答复笔迹；

所述获取模块，还用于基于边缘检测算法和光学字符识别OCR算法对所述原始图像进行处理，以获取所述目标作业中各个题目的答题区域，所述答题区域指示相应题目在所述目标作业中所处的位置；

所述获取模块，还用于获取所述图像采集设备采集的多帧实时图像，所述多帧实时图像为用户在答复所述目标作业的过程中针对所述目标作业采集得到的；

识别模块，用于基于所述多帧实时图像中每帧实时图像的色调饱和度明度HSV信息，识别所述多帧实时图像中每帧实时图像中出现的所述用户的答复笔迹；

确定模块，用于基于所述多帧实时图像中每帧实时图像中出现的所述用户的答复笔迹和所述目标作业中各个题目的答题区域，确定所述用户答复所述各个题目中每个题目所使用的时长。

可选地，所述获取模块，用于：

可选地，在每个局部图形指示所述目标作业中的一行文字的情况下，所述获取模块用于：

可选地，所述获取模块用于：

可选地，所述确定模块用于：

可选地，所述识别模块用于：

另一方面，提供了一种图像处理装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述图像处理方法中的任一步骤。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述图像处理方法中的任一步骤。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述图像处理方法中任一步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，在学生答复目标作业的过程中，可以获取学生答复该目标作业过程中的实时图像以及针对目标作业的原始图像，通过对实时图像和原始图像的处理，确定学生答复各题所使用的时长，以基于学生答复各个题目所使用的时长对该学生的知识点掌握情况进行评价。如此，后续在评价学生的知识点掌握情况时，会结合学生答复各题所使用的时长来综合评价，而不是直接根据各题的答复正确情况简单进行评价，从而使得本申请实施例在评价学生知识点掌握情况时能够更加客观具体。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理***架构示意图；

图2是本申请实施例提供的一种图像处理方法流程图；

图3是本申请实施例提供的一种各个题目的答复区域的示意图；

图4是本申请实施例提供的一种答复目标作业的示意图；

图5是本申请实施例提供的一种针对单个学生的知识点掌握情况进行评价的流程示意图；

图6是本申请实施例提供的一种针对一个班级的学生的知识点掌握情况进行评价的流程示意图；

图7是本申请实施例提供的一种确定学生答复正确情况的流程示意图；

图8是本申请实施例提供的一种评价用户知识点掌握情况的装置的结构示意图；

图9是本申请实施例提供的一种终端的结构框图；

图10是本申请实施例提供的一种服务器结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行详细解释说明之前，先对本申请实施例涉及的应用场景进行解释说明。

近年来，随着生活水平的提高，人们对学生教育问题越来越关注。国内外对学生学情精准分析方法的研究也日益增多。因此，如何对学生知识点掌握情况进行精准分析，以此为老师和家长提供针对性教学的依据，是目前智能教育研究领域的一个重要研究方向。

目前已出现多种题目识别与批改的方法，该类方法主要提供基于拍照的相关功能。一是拍照搜题，即学生可以使用手机或平板相机拍摄题目图片，之后进行根据图片的内容在题库中搜索到题目信息，包括题目类型、知识点、正确答案等，以供学生查询不会的题目。还有一种是智能批改功能，即学生拍照输入题目作答信息，主要题型包括选择题、口算题、作文等，根据图片的内容识别出题目信息和解答信息，由此判断学生的作答是否正确。

对于上述后者功能，在学生做题过程中，除了最后结果的正确与否，做题的时间也应该是需要考量的。比如，考试的时间有限，如果学生在一道题上浪费过多时间，即使是答案正确，也会造成其他答题时间不够从而影响考试成绩。又比如，部分学生在一道题上做题时间较高，说明这些学生对这道题所对应的知识点掌握不足，但是如果一个班的学生在某道题上花费的时间较高，说明该班级学生对这个知识点的掌握都不是很好。由此可见，对学生做题或做作业的具体过程进行监控，可以对其知识掌握程度有更详细的了解，有利于老师和家长准确掌握学生学习情况。

基于上述需求，本申请实施例提供了一种图像处理方法，该图像处理方法能够实现基于OCR(optical character recognition，光学字符识别)识别技术监测做题效率、并进行综合评判。也即是，该方法能够为学生用户提供更符合实际需求的答题监控方法，使得对学生的知识点掌握情况的评判更准确和更合理。

下面对本申请实施例涉及的***架构进行解释说明。

图1是本申请实施例提供的一种图像处理***架构示意图。如图1所示，该图像处理***100包括用户端101和后台102。

其中，用户端101和后台102之间通过有线或无线方式连接以进行通信。用户端101可以是用户所持的手机、平板电脑或台式电脑等终端设备。后台102可以是服务器等设备，该服务器可以为独立式服务器，也可以为集群式服务器。

具体地，用户端101用于获取用户作答的目标作业的图像，为了后续便于说明，将该图像称为原始图像。该原始图像可以为直接针对目标作业采集所得的图像。可选地，原始图像也可以为对前述采集的图像剪裁得到。比如，将采集的纸质文件的图像剪裁掉周边的非纸质区域，从而得到原始图像。

此外，用户端101还用于获取用户作答目标作业的过程中针对目标作业采集的实时图像。基于这些实时图像能够确定用户答复每个题目所使用的时长。具体实现方式将在后续实施例中说明，在此先不展开说明。

示例地，可以在用户端101上配置摄像头，以基于该摄像头采集用户作答的目标作业的图像，进而得到前述原始图像和实时图像。可选地，用户端101还可以接收其他终端发送的用户作答的目标作业的图像，进而得到前述原始图像和实时图像。本申请实施例并不限定用户端101如何获取到前述原始图像和实时图像。

用户端101在获取到前述原始图像和实时图像后，便可将前述原始图像和实时图像发送至后台102。后台102便可基于本申请实施例提供的方法对用户作答的目标作业的结果进行综合评价。

需要说明的是，图1所示的***架构是以用户端101和后台102为相互独立的设备为例进行说明。可选地，本申请实施例提供的方法也可以应用在集中式的一个终端设备上，该终端设备同时具有上述用户端101和后台102的功能，本申请实施例对此不做限定。

此外，图1所示的后台还可以称为云平台、云服务器、云、服务器等等。

下面对本申请实施例提供的图像处理方法进行详细解释说明。

图2是本申请实施例提供的一种图像处理方法流程图。需要说明的是，如图1所示的***架构可知，图2所示的方法可以应用在后台中，可选地，也可以应用在集中式的一个终端设备上。图2以应用在后台为例进行说明。该方法可以包括如下几个步骤。

步骤201：获取图像采集设备针对目标作业采集的原始图像，原始图像中不包括用户的答复笔迹。

上述获取目标作业的原始图像，可以是在用户答复目标作业前针对目标作业采集得到。也可以是在用户答复目标作业的过程中，针对一张空白的目标作业采集得到。比如，在学生答复作业的过程中，家长或老师针对空白的目标作业拍照得到。

步骤202：基于边缘检测算法和OCR算法对原始图像进行处理，以获取目标作业中各个题目的答题区域，答题区域指示相应题目在目标作业中所处的位置。

在确定答题区域之后，便可后续根据用户在该目标作业上的答复笔迹来确定用户答复各个题目所使用的时长。

上述在得到原始图像之后，是基于边缘检测算法和OCR(optical characterrecognition，光学字符识别)算法得到各个题目的答题区域的。在一些实施例中，步骤202的实现过程可以为：基于边缘检测算法确定原始图像中各个局部图形的外接区域，得到多个矩形区域，每个矩形区域指示目标作业中的一段文字；基于OCR算法确定多个矩形区域中每个矩形区域中的文字信息；基于每个矩形区域中的文字信息，将包括相同题号的矩形区域合并，得到与目标作业中各个题号分别对应的矩形区域；基于各个题号分别对应的矩形区域，确定目标作业中各个题目的答题区域。

由于目标作业中显示的基本是文字信息，且不同题目之间间距通常也比较大，如此原始图像中显示的是一个个的局部图形，每个局部图形可以是指一段或一行文字所显示的图形。基于上述原理，可以通过边缘检测算法先确定这一个一个的局部图形。

其中，边缘检测算法具体是指：识别出数字图像中那些颜色变化或者亮度变化明显的像素点，这些像素点的显著性变化往往代表图像的这部分属性发生了重要变化，其中包括了深度上的不连续、方向上的不连续及亮度上的不连续等。边缘检测算法在对图像的边缘进行检测时，先大概检测出图像轮廓的一些像素点，然后通过一些连接规则将这些像素点连接起来，最后再检测并连接一些之前未被识别的边界点、去除检测到的虚假的像素点和边界点并形成一个整体的边缘。

需要说明的是，是基于边缘检测算法识别时，由于行距大小的不同，在行距较大的情况下，边缘检测算法可能会将每行文字单独作为一个局部图形。在每个局部图形指示目标作业中的一行文字的情况下，后台按照各个局部图形的外接矩形区域在原始图像中的位置接近程度，将多个局部图形中各个局部图形的外接矩形区域进行合并，得到多个矩形区域。

示例地，如果两个局部图形的外接矩形区域在原始图像中的位置距离较近，则将这两个局部图形的外接矩形区域合并为一个外接矩形区域。位置距离较近具体是指，其中一个外接矩形区域的下边缘和另一个外接矩形区域的上边缘之间的距离低于参考距离。该参考距离为预先设置的距离，且该参考距离稍微大于大部分打印文本中两行文字之间的行距。

在合并得到一个外接矩形区域时，需要继续比较该外接矩形区域和其他外接矩形区域之间的距离，重复上述操作，直至合并后的任意相邻的外接矩形区域中一个外接矩形区域的下边缘和另一个外接矩形区域的上边缘之间的距离超过参考距离。从而将合并后的各个外接矩形区域作为前述多个矩形区域。

而在行距较小的情况下，边缘检测算法可能会将一段文字直接作为一个局部图形。这种情况下，可以直接将各个局部图形的外接区域作为前述的多个矩形区域。

在通过上述方法得到多个矩形区域后，便可基于OCR算法确定多个矩形区域中每个矩形区域中的文字信息，以便基于文字信息对各个矩形区域进一步处理。

其中，OCR具体是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。亦即将图像中的文字进行识别，并以文本的形式返回。因此，基于OCR后台可以识别各个矩形区域的中的文本。

此外，将属于相同题号的文字信息对应的矩形区域合并具体是指：基于OCR识别得到每个矩形区域中的文字信息，根据每个矩形区域中的文字信息，选择有题号的矩形区域。然后将有两个相邻题号的矩形区域之间的矩形区域合并到题号较小的矩形区域中，从而得到与各个题号对应的矩形区域。

在一些实施例中，基于各个题号分别对应的矩形区域，确定目标作业中各个题目的答题区域的实现过程可以为：将与目标作业中各个题号分别对应的矩形区域的下边缘拉伸，得到目标作业中各个题目的答题区域，其中，拉伸后的第一题号对应的矩形区域的下边缘和第二题号对应的矩形区域的上边缘接触，第二题号为第一题号之后且相邻的题号。

其中，第一题号对应的矩形区域的下边缘和第二题号对应的矩形区域的上边缘接触具体可以是指：第一题号对应的矩形区域的下边缘和第二题号对应的矩形区域的上边缘之间的距离小于一定的距离。比如，该距离可以设置为0.5厘米等等。

图3是本申请实施例提供的一种各个题目的答复区域的示意图。如图3所示，学生在开始做题前(也即是答复目标作业前)，首先通过摄像头拍摄目标作业的原始图片，针对拍摄的原始图片采用边缘检测算法和OCR算法进行试题的拆解和识别，可以获得各题目的位置和作答范围(也即是各个题目的答复区域)、以及各个题目所涉及的知识点等相关信息。

另外，在得到各个题目的答复区域外，为了便于确定用户针对各个题目所涉及的知识点的掌握情况，还可以进一步确定目标作业中各个题目所涉及的知识点。其中，后台可以通过数据库确定各个题目所涉及的知识点。具体地，后台在基于OCR识别得到各个题目的文本之后，可以基于各个题目的文本在数据库中查找该题目所涉及的知识点，本申请实施例不限定后台如何基于数据库得到各个题目所涉及的知识点的具体实现方式。

可选地，目标作业中各个题目所涉及的知识点也可以直接由其他用户输入得到。其中，在答复目标作业的用户为学生的场景中，该其他用户可以为老师或家长等。

需要说明的是，本申请实施例涉及的用户可以为学生等需要作答目标作业的对象，也可以为其他需要作答目标作业的对象。比如，用户还可以为填写调查问卷的对象等。

步骤203：后台获取图像采集设备采集的多帧实时图像，多帧实时图像为用户在答复目标作业的过程中针对目标作业采集得到的。

在学生在家做作业的场景中，可以在学生的房间部署摄像头，比如，可以在家里学生的书桌上部署一个摄像头，该摄像头用于采集该学生作答目标作业的过程中的实时图像。在学生在教室做作业的场景中，可以在教室部署摄像头，比如，可以在教室每个学生的书桌上部署一个摄像头，该摄像头用于采集该学生作答目标作业的过程中的实时图像。

对于上述任一场景，摄像头可以周期性向后台发送采集的实时图像。比如，在学生作答目标作业的过程中，摄像头可以每隔1秒采集并向后台发送一帧实时图像。

步骤204：基于多帧实时图像中每帧实时图像的HSV信息，识别多帧实时图像中每帧实时图像中出现的用户的答复笔迹。

后台在获取到实时图像时，便可先基于每帧实时图像的HSV(Hue-Saturation-Value，色调饱和度明度)信息，识别每帧实时图像中出现的用户的答复笔迹，以便于后续基于答复笔迹确定用户答复各个题目中每个题目所使用的时长。

其中，在HSV信息中，饱和度表示颜色接近光谱色的程度。饱和度越高，说明颜色越深，越接近光谱色；饱和度越低，说明颜色越浅，越接近白色。饱和度为0表示纯白色。明度，决定颜色空间中颜色的明暗程度，明度越高，表示颜色越明亮，明度为0表示纯黑色(此时颜色最暗)。换句话说，在色调一定的情况下，饱和度减小，就是往光谱色中添加白色，光谱色所占的比例也在减小，饱和度减为0，表示光谱色所占的比例为零，导致整个颜色呈现白色。明度减小，就是往光谱色中添加黑色，光谱色所占的比例也在减小，明度减为0，表示光谱色所占的比例为零，导致整个颜色呈现黑色。

由于目标作业上试题的颜色是通常的打印文本所显示的颜色，而用户的答复笔迹显示的颜色通常和打印文本所显示的颜色不同，基于该原理，因此可以从实时图像的HSV信息中，区分出目标作业和用户的答复笔迹。

也即是，上述步骤204的实现方式可以为：对于多帧实时图像中任一帧实时图像，确定该实时图像的HSV信息，基于HSV信息提取实时图像中颜色不同于打印文本的颜色的像素点，得到用户的答复笔迹。

步骤205：基于多帧实时图像中每帧实时图像中出现的用户的答复笔迹和目标作业中各个题目的答题区域，确定用户答复各个题目中每个题目所使用的时长。

在一种可能的实现方式中，步骤205的实现过程可以为：按照多帧实时图像的采集时间从早到晚的顺序对多帧实时图像进行排序；对于排序后的第一实时图像，如果第一实时图像之前的实时图像中用户的答复笔迹没有位于第一题目的答复区域中，但是第一实时图像中用户的答复笔迹位于第一题目的答复区域中，则将第一实时图像的采集时间作为第一题目的答复开始时间，第一实时图像为多个图像中一个图像；对于第一实时图像之后的每帧实时图像依次执行下述操作：判断每帧实时图像中用户的答复笔迹是否还位于第一题目的答复区域中，如果用户的答复笔迹还位于第一题目的答复区域中，则继续判断下一帧实时图像，直至出现第二实时图像满足如下条件：第二实时图像中用户的答复笔迹出现在第二题目的答复区域中，且在第二实时图像之前的图像中没有答复笔迹出现在在第二题目的答复区域中，则将第二实时图像的采集时间作为第一题目的答复结束时间；根据第一题目的答复开始时间和第一题目的答复结束时间，确定用户答复第一题目所使用的时长。

在将各帧实时图像排序后，如果第一实时图像之前的实时图像中用户的答复笔迹没有位于第一题目的答复区域中，但是第一实时图像中用户的答复笔迹位于第一题目的答复区域中，表明采集第一实时图像时，用户开始答复第一题目。相应地，如果第二实时图像中用户的答复笔迹出现在第二题目的答复区域中，且在第二实时图像之前的图像中没有答复笔迹出现在在第二题目的答复区域中，则表明当前用户已经结束答复第一题目，开始答复第二题目了。因此，可以根据第一图像的采集时间和第二图像的采集时间，确定出第一题目的答复时长，该答复时长也即是用户作答第一题目所使用的时长。

上述实现方式适应于这样的场景：用户是一个题目一个题目依次作答的，换句话说，用户在作答完一个题目之后才会去作答另一个题目。如此，便可根据各个题目的答复区域中首次出现的答复笔迹确定出各个题目的开始答复的时间以及相应上一个作答题目的结束答复的时间。

图4是本申请实施例提供的一种答复目标作业的示意图。如图4所示，在学生作答过程中，实时拍摄学生的答题图像(也即是实时图像)，以一秒钟为采集频率，不断获取学生答题的图片信息。采用OCR识别的方式，结合上一步得到的题目位置，可知道学生当前具体在作答哪一道题目。当学生作答题目由当前题来到下一道题，视为该题目已经回答完毕，并且视为下一道题回答开始。由此可以得到学生一道题目的回答时间。

在用户作答目标作业的过程中，用户可能在答复一个题目一半之后，去答复另一个题目了，而在答复完另一个题目后，又重新来答复之前的这个题目。这种场景下，上述实现方式可能就不适用了。

因此，在另一种可能的实现方式中，步骤205的实现过程可以为：按照多帧实时图像的采集时间从早到晚的顺序对多帧实时图像进行排序；对于多帧实时图像中的任意相邻两帧实时图像，确定相邻两帧实时图像中后一帧实时图像相对于前一帧实时图像中多出的答复笔迹，在确定多出的答复笔迹位于目标题目的答复区域内时，将相邻两帧实时图像的采集时间之间的差值作为目标题目对应的时长，目标题目为各个题目中任一个；将确定出的多个与目标题目对应的时长相加，得到用户答复目标题目所使用的时长。

在这种实现方式中，只需要根据各相邻帧中新出现的答复笔迹，便可确定各个题目的答复时长。通过第二种实现方式确定的答复时长较为精确。

需要说明的是，上述两种实现方式用于示例说明步骤205的实现过程。可选地，还可以通过其他实现方式来确定步骤205。比如，在按照多帧实时图像的采集时间从早到晚的顺序对多帧实时图像进行排序后，可以基于相邻两帧实时图像中多出的答复笔迹，对这多帧实时图像进行聚类，分类之后的每一类实时图像满足这样的条件：该类实时图像是排序上依次相邻的几个图像，且该类实时图像中相邻两帧实时图像中多出的答复笔迹不同的次数小于参考次数。本申请实施例对此不做限定。

在基于步骤205确定出用户答复各个题目中每个题目所使用的时长后，后台还可以基于用户答复各个题目中每个题目所使用的时长对用户的知识点掌握情况进行评价。

本申请实施例提供的评价方法适用于对单个学生的作业答复情况进行评价，也适用于对多个学生比如一个班级的学生的作业答复情况进行评价。

在一种可能的实现方式中，在用户为一个用户的情况下，基于用户答复各个题目中每个题目所使用的时长对用户的知识点掌握情况进行评价的实现过程为：对于各个题目中的目标题目，确定目标题目的答复正确情况，目标题目为各个题目中任一个；如果目标题目答复正确，且用户答复目标题目所使用的时长低于第一参考时长，则确定用户针对目标题目所涉及的知识点的掌握情况达到第一参考要求。相应地，如果目标题目答复错误，和/或，用户答复目标题目所使用的时长超过第一参考时长，则确定用户针对目标题目所涉及的知识点的掌握情况未达到第一参考要求。

上述第一参考时长可以为预先配置的时长。比如，该第一参考时长可以是老师或家长预先配置的一个时长，如果学生答复该目标题目的答复时长超过该时长，则认为学生在该目标题目上花费了过多的时间，相应地，该学生对该目标题目所涉及的知识点的掌握程度就不够。

另外，上述的第一参考要求可以为预先配置的标准。如果用户针对目标题目所涉及的知识点的掌握情况达到第一参考要求，表明用户针对目标题目所涉及的知识点的掌握情况良好。相应地，如果用户针对目标题目所涉及的知识点的掌握情况没有达到第一参考要求，表明用户针对目标题目所涉及的知识点的掌握情况不足。

图5是本申请实施例提供的一种针对单个学生的知识点掌握情况进行评价的流程示意图。如图5所示，对于学生个人而言，针对任一题目，会对该题目作答的正确与否以及答题时间进行分析。将做题时间与同班级学生的正常水平(也即是第一参考时长)进行比较，判断学生的做题时间是否处于班级内的正常水平。如果做题所需时间位于班级内正常水平，则认为做题效率正常，反之则认为做题效率不足。以此为依据，根据该题目所涉及的具体知识点，分析该学生该知识点的掌握情况，只有学生正确作答并且做题效率正常情况下，才认为学生对该知识点的掌握比较好。否则，则认为该学生对该知识点掌握不足。

在另一种可能的实现方式中，在用户的数量为多个的情况下，基于用户答复各个题目中每个题目所使用的时长对用户的知识点掌握情况进行评价的实现过程为：对于各个题目中的目标题目，基于多个用户答复中每个用户目标题目所使用的时长，确定目标题目的平均答复时长，目标题目为各个题目中任一个；基于多个用户答复中每个用户目标题目的答复正确情况，则确定目标题目的答复正确率；如果平均答复时长低于第二参考时长，且平均答复正确率超过参考正确率，则确定多个用户针对目标题目所涉及的知识点的掌握情况达到第二参考要求。相应地，如果平均答复时长超过第二参考时长，和/或，平均答复正确率低于参考正确率，则确定多个用户针对目标题目所涉及的知识点的掌握情况未达到第二参考要求。

上述第二参考时长可以为预先配置的时长。比如，该第二参考时长可以是老师预先配置的一个时长，如果一个班级内的各个学生答复该目标题目的平均答复时长超过该时长，则认为该班级学生在该目标题目上花费了过多的时间，相应地，该班级学生整体对该目标题目所涉及的知识点的掌握程度就不够。

另外，上述的第二参考要求可以为预先配置的标准。如果一个班级的学生针对目标题目所涉及的知识点的掌握情况达到第二参考要求，表明该班级学生针对目标题目所涉及的知识点的掌握情况良好。相应地，如果一个班级学生针对目标题目所涉及的知识点的掌握情况没有达到第二参考要求，表明该班级学生针对目标题目所涉及的知识点的掌握情况不足。

图6是本申请实施例提供的一种针对一个班级的学生的知识点掌握情况进行评价的流程示意图。如图6所示，对于班级整体而言，会对班级所有学生各题目的做题时间和正确与否进行统计。对于任一题目，得到班级内该题目的平均做题时间与平均正确率，将这两个指标在同年级内进行比较，如果平均做题时间与正确率都处于年级内正常水平，则认为该班级对题目所体现的知识点掌握不错，反之则认为知识点掌握不足。

上述是以一个班级学生为例说明多个用户的情况，可选地，该多个用户也可以为一个年级的学生或一个区的学生等，本申请实施例对此不再一一举例说明。

此外，上述的第二参考时长和前述的第一参考时长可以为相同时长，也可以为不同时长，二者相互独立，没有对应关系。上述的第二参考要求和前述的第一参考要求可以为相同的要求，也可以为不同的要求，二者同样相互独立，没有对应关系。

需要说明的是，上述目标题目的答复正确情况，可以是一个简单的正确和不正确的区别。可选地，该目标题目的答复正确情况也可以是配置一个等级，也即是达到一个等级认为该目标题目答复正确，没有达到该等级认为该目标题目答复错误。

其中，对于各个题目中的目标题目，确定目标题目的答复正确情况的实现过程可以为：在针对目标题目配置有参***的情况下，将用户针对目标题目的答复结果和参***进行对比，得到目标题目的答复正确情况；在针对目标题目没有配置参***的情况下，显示用户针对目标题目的答复结果，获取针对答复结果的批改结果，批改结果指示目标题目的答复正确情况。

也即是，如果配置有参***，则可实现自动批改。该参***可以是从网络中搜索得到，也可以是预先由老师或家长输入至后台的。如果没有配置参***，则可以通过老师或家长基于人机交互方式来实现对目标作业的批改。上述显示用户针对目标题目的答复结果是为了老师或家长能够对目标题目的答复内容进行批改，以在批改后输入针对该目标题目的批改结果。

图7是本申请实施例提供的一种确定学生答复正确情况的流程示意图。如图7所示，可以在学生答完全部题目后，再次对目标作业进行拍照，然后对每道题目在题库中进行搜索并批改，但由于部分主观题目与解答题难以进行自动化批改，因此对能够得到批改结果的题目可以直接得到批改结果，无法自动批改的题目会发送给老师进行批改，在老师批改完成后，反馈批改结果。

综上，在本申请实施例中，在学生答复目标作业的过程中，可以获取学生答复该目标作业过程中的实时图像以及针对目标作业的原始图像，通过对实时图像和原始图像的处理，确定学生答复各题所使用的时长，以基于学生答复各个题目所使用的时长对该学生的知识点掌握情况进行评价。如此，后续在评价学生的知识点掌握情况时，会结合学生答复各题所使用的时长来综合评价，而不是直接根据各题的答复正确情况简单进行评价，从而使得本申请实施例在评价学生知识点掌握情况时能够更加客观具体。

上述所有可选技术方案，均可按照任意结合形成本申请的可选实施例，本申请实施例对此不再一一赘述。

图8是本申请实施例提供的一种图像处理装置的结构示意图，该装置可以由软件、硬件或者两者的结合实现。如图8所示，该装置800可以包括如下几个模块。

获取模块801，用于获取图像采集设备针对目标作业采集的原始图像，原始图像中不包括用户的答复笔迹；

获取模块801，还用于基于边缘检测算法和光学字符识别OCR算法对原始图像进行处理，以获取目标作业中各个题目的答题区域，答题区域指示相应题目在目标作业中所处的位置；

获取模块801，还用于获取图像采集设备采集的多帧实时图像，多帧实时图像为用户在答复目标作业的过程中针对目标作业采集得到的；

识别模块802，用于基于多帧实时图像中每帧实时图像的色调饱和度明度HSV信息，识别多帧实时图像中每帧实时图像中出现的用户的答复笔迹；

确定模块803，用于基于多帧实时图像中每帧实时图像中出现的用户的答复笔迹和目标作业中各个题目的答题区域，确定用户答复各个题目中每个题目所使用的时长。

可选地，获取模块，用于：

基于边缘检测算法确定原始图像中各个局部图形的外接区域，得到多个矩形区域，每个矩形区域指示目标作业中的一段文字；

基于OCR算法确定多个矩形区域中每个矩形区域中的文字信息；

基于每个矩形区域中的文字信息，将包括相同题号的矩形区域合并，得到与目标作业中各个题号分别对应的矩形区域；

基于各个题号分别对应的矩形区域，确定目标作业中各个题目的答题区域。

可选地，在每个局部图形指示目标作业中的一行文字的情况下，获取模块用于：

按照各个局部图形的外接矩形区域在原始图像中的位置接近程度，将多个局部图形中各个局部图形的外接矩形区域进行合并，得到多个矩形区域。

可选地，获取模块用于：

将与目标作业中各个题号分别对应的矩形区域的下边缘拉伸，得到目标作业中各个题目的答题区域，

其中，拉伸后的第一题号对应的矩形区域的下边缘和第二题号对应的矩形区域的上边缘接触，第二题号为第一题号之后且相邻的题号。

可选地，确定模块用于：

按照多帧实时图像的采集时间从早到晚的顺序对多帧实时图像进行排序；

对于排序后的第一实时图像，如果第一实时图像之前的实时图像中用户的答复笔迹没有位于第一题目的答复区域中，但是第一实时图像中用户的答复笔迹位于第一题目的答复区域中，则将第一实时图像的采集时间作为第一题目的答复开始时间，第一实时图像为多个图像中一个图像；

对于第一实时图像之后的每帧实时图像依次执行下述操作：

判断每帧实时图像中用户的答复笔迹是否还位于第一题目的答复区域中，如果用户的答复笔迹还位于第一题目的答复区域中，则继续判断下一帧实时图像，直至出现第二实时图像满足如下条件：第二实时图像中用户的答复笔迹出现在第二题目的答复区域中，且在第二实时图像之前的图像中没有答复笔迹出现在在第二题目的答复区域中，则将第二实时图像的采集时间作为第一题目的答复结束时间；

根据第一题目的答复开始时间和第一题目的答复结束时间，确定用户答复第一题目所使用的时长。

可选地，确定模块用于：

对于多帧实时图像中的任意相邻两帧实时图像，确定相邻两帧实时图像中后一帧实时图像相对于前一帧实时图像中多出的答复笔迹，在确定多出的答复笔迹位于目标题目的答复区域内时，将相邻两帧实时图像的采集时间之间的差值作为目标题目对应的时长，目标题目为各个题目中任一个；

将确定出的多个与目标题目对应的时长相加，得到用户答复目标题目所使用的时长。

可选地，识别模块用于：

对于多帧实时图像中任一帧实时图像，确定实时图像的色调饱和度明度HSV信息；

基于HSV信息提取实时图像中颜色不同于打印文本的颜色的像素点，得到用户的答复笔迹。

综上所述，在本申请实施例中，在学生答复目标作业的过程中，可以获取学生答复该目标作业过程中的实时图像以及针对目标作业的原始图像，通过对实时图像和原始图像的处理，确定学生答复各题所使用的时长，以基于学生答复各个题目所使用的时长对该学生的知识点掌握情况进行评价。如此，后续在评价学生的知识点掌握情况时，会结合学生答复各题所使用的时长来综合评价，而不是直接根据各题的答复正确情况简单进行评价，从而使得本申请实施例在评价学生知识点掌握情况时能够更加客观具体。

需要说明的是：上述实施例提供的图像处理装置在评价用户知识点掌握情况时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本申请实施例提供的一种终端900的结构框图。前述的用户端可以通过图9所示的终端实现。该终端900可以是：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的评价用户知识点掌握情况的方法。

在一些实施例中，终端900还可选包括有：***设备接口903和至少一个***设备。处理器901、存储器902和***设备接口903之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口903相连。具体地，***设备包括：射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行上实施例提供的评价用户知识点掌握情况的法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在终端上运行时，使得终端执行上述实施例提供的评价用户知识点掌握情况的方法。

图10是本申请实施例提供的一种服务器结构示意图。该服务器可以是后台服务器集群中的服务器。具体来讲：

服务器1000包括中央处理单元(CPU)1001、包括随机存取存储器(RAM)1002和只读存储器(ROM)1003的***存储器1004，以及连接***存储器1004和中央处理单元1001的***总线1005。服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)1006，和用于存储操作***1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

基本输入/输出***1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到***总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出***1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1007通过连接到***总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说，大容量存储设备1007可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器1004和大容量存储设备1007可以统称为存储器。

根据本申请的各种实施例，服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在***总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机***(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的评价用户知识点掌握情况的方法。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述实施例提供的评价用户知识点掌握情况的方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在服务器上运行时，使得服务器执行上述实施例提供的评价用户知识点掌握情况的方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的较佳实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

基于所述多帧实时图像中每帧实时图像中出现的所述用户的答复笔迹和所述目标作业中各个题目的答题区域，确定所述用户答复所述各个题目中每个题目所使用的时长；

其中，所述基于所述多帧实时图像中每帧实时图像中出现的所述用户的答复笔迹和所述目标作业中各个题目的答题区域，确定所述用户答复所述各个题目中每个题目所使用的时长，包括：

对于排序后的第一实时图像，如果所述第一实时图像之前的实时图像中所述用户的答复笔迹没有位于第一题目的答复区域中，但是所述第一实时图像中所述用户的答复笔迹位于所述第一题目的答复区域中，则将所述第一实时图像的采集时间作为所述第一题目的答复开始时间，所述第一实时图像为所述多帧实时图像中一个图像；

根据所述第一题目的答复开始时间和所述第一题目的答复结束时间，确定用户答复所述第一题目所使用的时长；

或者，所述基于所述多帧实时图像中每帧实时图像中出现的所述用户的答复笔迹和所述目标作业中各个题目的答题区域，确定所述用户答复所述各个题目中每个题目所使用的时长，包括：

2.如权利要求1所述的方法，其特征在于，所述基于边缘检测算法和光学字符识别OCR算法对所述原始图像进行处理，以获取所述目标作业中各个题目的答题区域，包括：

基于每个矩形区域中的文字信息，将属于相同题号的文字信息对应的矩形区域合并，得到与所述目标作业中各个题号分别对应的矩形区域；

3.如权利要求2所述的方法，其特征在于，在每个局部图形指示所述目标作业中的一行文字的情况下，所述基于边缘检测算法确定所述原始图像中各个局部图形的外接区域之后，所述方法还包括：

4.如权利要求2所述的方法，其特征在于，所述基于各个题号分别对应的矩形区域，确定所述目标作业中各个题目的答题区域，包括：

将与所述目标作业中各个题号分别对应的矩形区域的下边缘拉伸，得到所述目标作业中各个题目的答题区域；

5.如权利要求1所述的方法，其特征在于，所述基于所述多帧实时图像中每帧实时图像的色调饱和度明度HSV信息，识别所述多帧实时图像中每帧实时图像中出现的所述用户的答复笔迹，包括：

6.一种图像处理装置，其特征在于，所述装置包括处理器；

所述处理器用于：

其中，所述处理器用于：

或者，所述处理器用于：

7.如权利要求6所述的图像处理装置，其特征在于，所述处理器用于：

基于所述识别OCR算法确定所述多个矩形区域中每个矩形区域中的文字信息；