CN114581934A - 试卷图像的处理方法、装置及设备 - Google Patents

试卷图像的处理方法、装置及设备 Download PDF

Info

Publication number
CN114581934A
CN114581934A CN202210158414.1A CN202210158414A CN114581934A CN 114581934 A CN114581934 A CN 114581934A CN 202210158414 A CN202210158414 A CN 202210158414A CN 114581934 A CN114581934 A CN 114581934A
Authority
CN
China
Prior art keywords
test paper
question
image
text box
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210158414.1A
Other languages
English (en)
Inventor
何鑫
韩文源
张帅一
汪昆
杨扬
蒋冠军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210158414.1A priority Critical patent/CN114581934A/zh
Publication of CN114581934A publication Critical patent/CN114581934A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书一个或多个实施例提供一种试卷图像的处理方法、装置及设备,包括:获取试卷对应的试卷图像集合;对所述试卷图像集合中的各试卷图像分别进行结构化分析,得到各试卷图像包含的题目集合;按照各试卷图像对应的页码的页码顺序,对各试卷图像对应的题目集合进行整合,以生成与所述试卷对应的电子试卷文档。

Description

试卷图像的处理方法、装置及设备
技术领域
本说明书一个或多个实施例涉及图像处理领域,尤其涉及试卷图像的处理方法、装置及设备。
背景技术
在相关技术中,随着网络的普及和互联网技术的日益发展,涌现了各种在线教育平台。在线教育由于不受时间地点限制等优点而变得越来越普遍。在在线教育场景中,除了在线授课外,针对试卷的业务处理也是非常重要的组成部分。例如,用户向在线教育平台上传与试卷图像,在线教育平台对图像进行图像处理,获取图像中的题目,并基于获取的题目进行后续的业务处理。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种试卷图像的处理方法、装置及设备
为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
根据本说明书一个或多个实施例的第一方面,提出了一种试卷图像的处理方法,包括:
获取试卷对应的试卷图像集合;
对所述试卷图像集合中的各试卷图像分别进行结构化分析,得到各试卷图像包含的题目集合;
按照各试卷图像对应的页码的页码顺序,对各试卷图像对应的题目集合进行整合,以生成与所述试卷对应的电子试卷文档。
根据本说明书一个或多个实施例的第二方面,提出了一种试卷图像的处理装置,包括:
获取模块,用于获取试卷对应的试卷图像集合;
分析模块,用于对所述试卷图像集合中的各试卷图像分别进行结构化分析,得到各试卷图像包含的题目集合;
生成模块,用于按照各试卷图像对应的页码的页码顺序,对各试卷图像对应的题目集合进行整合,以生成与所述试卷对应的电子试卷文档。
根据本说明书一个或多个实施例的第三方面,提出了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现上述试卷图像的处理方法。
根据本说明书一个或多个实施例的第四方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述试卷图像的处理方法。
在本说明书中,在线教育平台获取试卷对应的试卷图像集合,并对所述试卷图像集合中的各试卷图像分别进行结构化分析,得到各试卷图像包含的题目集合。在线教育平台按照各试卷图像对应的页码的页码顺序,对各试卷图像对应的题目集合进行整合,以生成与所述试卷对应的电子试卷文档
由于在线教育平台是先对单页试卷图像进行结构化分析,得到单页试卷图像对应的题目集合,再对多页试卷图像对应的题目集合进行整合,所以本说明书的在线教育平台提供了以试卷粒度进行分析的方法。以试卷为粒度可以考虑题目之间的上下文关系,考虑试卷题目整体内容,从而使得识别出的题目集合更为准确。
附图说明
图1是本说明书一示例性实施例示出的一种在线教育***的组网架构图;
图2是本说明书一示例性实施例示出的一种试卷图像的处理方法的流程图;
图3是本说明书一示例性实施例示出的一种试卷图像的示意图;
图4是本说明书一示例性实施例示出的另一种试卷图像的示意图;
图5是本说明书一示例性实施例示出的一种试卷标题和题目的结构化属性的示意图;
图6是本说明书一示例性实施例示出的一种设备的硬件结构图;
图7是本说明书一示例性实施例示出的一种试卷图像的处理装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
传统的在线教育平台通常是以题目粒度进行分析,所以在线教育平台通常支持题目图像的相关处理业务。比如,用户拍照搜题等。
一方面,以题目为粒度的分析可以得到用户、题目的关系链,这样的关系链不能完整准确地描述和刻画用户。
另一方面,随着在线教育的高速发展,出现了针对试卷整体内容的业务需求。比如,基于用户上传的试卷图像生成电子试卷。对电子试卷进行多种分析(比如试卷难度、学科学段分析等)等。在这种需求下,以题目为例粒度的分析方法并不再适用。
有鉴于此,本说明书提出一种试卷图像的处理方法。在本说明书中,在线教育平台获取试卷对应的试卷图像集合,并对所述试卷图像集合中的各试卷图像分别进行结构化分析,得到各试卷图像包含的题目集合。在线教育平台按照各试卷图像对应的页码的页码顺序,对各试卷图像对应的题目集合进行整合,以生成与所述试卷对应的电子试卷文档
由于在线教育平台是先对单页试卷图像进行结构化分析,得到单页试卷图像对应的题目集合,再对多页试卷图像对应的题目集合进行整合,所以本说明书的在线教育平台提供了以试卷粒度进行分析的方法。一方面,以试卷粒度进行分析可以得到用户、试卷、题目这一更为完整的关系链,从而更能帮助在线教育平台描述和刻画用户。另一方面,以试卷为粒度可以考虑题目之间的上下文关系,考虑试卷题目整体内容,从而使得识别出的题目集合更为准确,更适应针对试卷整体内容的业务需求。
参见图1,图1是本说明书一示例性实施例示出的一种在线教育***的组网架构图。
如图1所示,在线教育***包括:在线教育平台和若干电子设备。
其中,在线教育平台是进行在线教育业务处理的平台,是在线教育业务的后端。该在线教育平台可以是由具有计算能力的设备搭建的。比如,该具有计算能力的设备可以是包含一独立主机的物理服务器、也可以是虚拟服务器、服务器集群、数据中心、计算机等。这里对在线教育平台进行示例性地说明,不对其进行具体地限定。
若干电子设备是在线教育业务的前端,比如电子设备可以是指安装有在线教育客户端或者登录在线教育网页的用户终端。其中,用户终端包括:手机、平板设备、笔记本电脑、掌上电脑(PDAs,Personal Digital Assistants)、可穿戴设备(如智能眼镜、智能手表等)等。这里只是对用户终端进行示例性地说明,不对其进行具体地限定。
在该在线教育***中,电子设备可向在线教育平台发送图像。在线教育平台可获取试卷对应的试卷图像集合,并对所述试卷图像集合中的各试卷图像分别进行结构化分析,得到各试卷图像包含的题目集合。在线教育平台可按照各试卷图像对应的页码的页码顺序,对各试卷图像对应的题目集合进行整合,以生成与所述试卷对应的电子试卷文档。
参见图2,图2是本说明书一示例性实施例示出的一种试卷图像的处理方法的流程图。该方法可应用在上述在线教育***中的在线教育平台上,可包括如下所示步骤。
步骤202:获取试卷对应的试卷图像集合。
在一种可选的实现方式中,在实际应用中,由于用户误上传等操作,用户上传的图像并不一定都是包含试卷题目的试卷图像。比如用户会将与试卷完全无关的图像、答题卡等非试卷图像上传至在线教育平台。
因此,在本说明书实施例中,在线教育平台需要从用户上传的图像中筛选出试卷图像组成试卷图像集合,再基于试卷图像集合进行后续的处理。
在实现时,在线教育平台可获取用户终端上传的至少一个图像,并从所述至少一个图像中提取识别特征,并基于提取出的所述识别特征识别所述至少一个图像中的试卷图像,并基于识别出的所述试卷图像创建试卷图像集合。
在一种可选的实现方式中,为了使得试卷图像的识别更为准确,上述识别特征包括:图像特征和文本特征。当然上述识别特征也可以包括图像特征或文本特征,仅通过图像特征或者文本特征中的一种,从用户上传的至少一个图像中识别出试卷图像。
下面以识别特征为图像特征和文本特征为例,通过步骤A1至步骤A2对“从所述至少一个图像中提取识别特征,并基于提取出的所述识别特征识别所述至少一个图像中的试卷图像”进行详细地描述。
步骤A1:从所述至少一个图像中提取图像特征,并基于所述图像特征识别出所述至少一个图像中与试卷相关的候选图像。
在实现时,针对至少一个图像中的每一个图像,在线教育平台可基于图像特征提取模型提取该图像的图像特征。然后将该图像的图像特征输入至已训练的第一分类模型,第一分类模型会输出该图像是与试卷相关的候选图像的概率、以及该图像是与试卷无关的非候选图像的概率。当该图像是候选图像的概率大于预设阈值时,在线教育平台将该图像确定为候选图像。
其中,与试卷相关的候选图像是指与试卷相关的候选图像,比如试卷图像、答题卡图像等。这里只是对于试卷相关的候选图像进行示例性地说明,不对其进行具体地限定。
其中,第一分类模型是通过两种样本标签对训练得到的。其中一种样本标签对中的样本为与试卷相关的图像的图像特征、标签为候选图像,另一种样本标签对中的样本为与试卷无关的图像的图像特征、标签为非试卷图像。
上述图像特征提取模型可以是指可以提取图像特征的模型。比如该图像特征提取模型可以是卷积神经网络、也可以是ResNet(残差神经网络)等,这里只是对图像特征提取模型进行示例性地说明,不对其进行具体地限定。
此外,在实际应用中,在线教育平台也可以通过特征比对的方式来进行候选图像的确定,这里只是对“基于所述图像特征识别出所述至少一个图像中与试卷相关的候选图像”进行示例性地说明,不对其进行具体地限定。
步骤A2:对所述候选图像进行光学字符识别,得到与所述候选图像对应的若干文本框,并从所述文本框中提取文本特征,并基于从所述候选图像中提取出的图像特征和所述文本特征,从所述候选图像中进一步识别出试卷图像。
在实现时,针对每一候选图像,在线教育平台可对该候选图像进行OCR(OpticalCharacter Recognition,光学字符识别)识别,得到与该候选图像对应的若干文本框。比如,如图3所示,图3中的实线框即为对候选图像进行OCR识别得到的若干文本框。
然后,在线教育平台可从文本框中提取文本特征。在线教育平台可将该候选图像的文本特征和图像特征进行拼接,并将拼接结果输入至已训练的第二分类模型。第二分类模型可输出该候选图像是试卷图像的概率,以及该候选图像是答题卡的概率。当该候选图像是试卷图像的概率大于预设阈值时,在线教育平台可将该候选图像确定为试卷图像。
其中,第二分类模型是通过两种样本标签对训练得到的。其中一种样本标签对中的样本为试卷图像的图像特征、标签为试卷,另一种样本标签对中的样本为答题卡图像的图像特征、标签为答题卡。
当然,在实际应用中,在线教育平台依据候选图像的图像特征和文本特征,通过特征匹配的方式来确定该候选图像是否为试卷图像,这里只是示例性地说明,不对其进行具体地限定。
在本说明书实施例中,步骤A2主要是为了区分试卷图像和答题卡,所以上述文本特征是用于区分试卷图像和答题卡的文本特征。比如试卷图像和答题卡上的文本信息、文本信息的位置不同。再比如试卷图像和答题卡上的印刷体和手写体数量和分布不同,比如试卷图像上的印刷体文本较多,而答题卡上的手写体文本较多。
基于试卷图像和答题卡的区别,本说明书设置的文本特征可包括以下示出的任一或者多个的组合:图像中包含的文本信息、各文本信息在图像中的位置、图像中手写体文本和印刷体文本的占比、印刷体文本在图像中的位置分布。
此外,还需要说明的是,在从用户上传的至少一个试卷图像中筛选出试卷图像时,一方面,本说明书采用了图像特征和文本特征结合的方式来过滤与试卷无关的图像和答题卡,筛选出试卷图像,由于本说明书采用了多个维度的特征描述图像,所以从用户上传的至少一个图像中筛选出的试卷图像的准确率更高。另一方面,相比对基于图像的图像特征和文本特征,直接从至少一个图像中筛选出试卷图像来说,本说明书先通过图像的图像特征,从至少一个图像中筛选出候选图像,再对候选图像进行OCR识别,基于文本特征和图像特征从候选图像中筛选出试卷图像。这样二次筛选的方式,可以剔除掉对大部分非候选图像的文本特征的提取、非候选图像的文本特征和图像特征的拼接等工作量,可以有效地降低在线教育平台的计算量。
需要说明的是,这里只是示出的一种试卷图像集合的获取方式,当然在实际应用中,也可以是用户终端在用户每次上传图像前,用户终端提示用户上传试卷图像。或者用户终端可以先对用户待上传的图像进行检测,当检测到用户待上传的图像是试卷图像后,用户终端才将试卷图像发送给在线教育平台。在这种情况下,由于用户终端向在线教育平台上传的均是试卷图像,所以在线教育平台可以接收用户终端上传的试卷图像,组成试卷图像集合。这里只是对获取试卷对应的试卷图像集合进行示例性地说明,不对其进行具体地限定。
步骤204:对所述试卷图像集合中的各试卷图像分别进行结构化分析,得到各试卷图像包含的题目集合。
其中,结构化分析是指对各试卷图像包含的文本进行识别和纠正,并基于纠正的结果对试卷进行结构化表示。
在实现时,在线教育平台针对每一试卷图像对应的若干文本框中识别出关键文本框,通过关键文本框对试卷图像进行分区,以得到包含至少一个题目的试题区域。然后,在线教育平台再从试题区域中提取出各题目,组成该试卷图像对应的题目集合。
下面通过步骤B1至步骤B4对步骤204进行详细地说明。
步骤B1:针对每一试卷图像,从对该试卷图像进行OCR识别得到的若干文本框中确定关键文本框,并依据所述关键文本框从该试卷图像中定位出试题区域。
下面通过步骤B11至步骤B12对步骤B1进行详细地说明。
步骤B11:针对每一试卷图像,从对该试卷图像进行OCR识别得到的若干文本框中确定关键文本框。
在步骤202中,在线教育平台会对各候选图像进行OCR识别,得到各候选图像对应的若干文本框,即每个候选图像对应至少一个文本框。由此可见,当候选图像被确定为试卷图像时,该候选图像对应的若干文本框就是该试卷图像对应的若干文本框。
针对每一试卷图像,从该试卷图像对应的若干文本框中,确定出关键文本框。
在本说明书中,关键文本框包括多类文本框。比如,本说明书的关键文本框可包括:试卷标题文本框、题目类型文本框、以及页脚文本框。
其中,题目标题文本框是指包含有题目标题的文本框。例如,如图3所示,该试卷的题目标题为“周礼中学高级第四次月考高一数学试卷”,则将包含有“周礼中学高级第四次月考”的文本框、和包含有“高一数学试卷”的文本框确定为试卷标题文本框。
题目类型文本框,是指包含题目类型的文本框。其中,题目类型可包括:选择题、非选择题、解答题等。这里只是对题目类型进行示例性地说明,不对其进行具体地限定。如图3所示,题目类型文本框为包含有“一、选择题:本大题共12小题……”的文本框即为题目类型文本框。
页脚文本框是指包含有页码的文本框。比如,如图3所示,页脚文本框可以是图3中的包含有“第1页共6页”的文本框。
在本说明书实施例中,可以通过特征比对的方式从该试卷图像对应的若干文本框中,确定出关键文本框。
比如,关键文本框包含多种关键文本框,则为每种关键文本框设置该种文本框对应的文本框特征。在线教育平台可建立针对每种关键文本框的标准文本框特征库。在建立时,在线教育平台可将样本中的标准试卷中的不同关键文本框对应的特征作为标准文本框特征。然后,在线教育平台针对该试卷图像对应的每一文本框,提取该文本框的文本框特征,将文本框特征与标准文本框特征进行相似度计算,当相似度大于预设阈值时,确定该文本框为该种关键文本框。
比如,关键文本框包括试卷标题文本框、题目类型文本框和页脚文本框。
以页脚文本框为例,可为页脚文本框设置与其匹配的文本框特征。比如页脚文本框的文本框特征为:用于表示文本包含“第XX页共XX页”的指定字符的特征,用于表示文本框在试卷图像中下端位置的特征,用于表示文本框高度与试卷图像高度的百分比的特征,用于表示文本框宽度与试卷宽度的百分比的特征。
在线教育平台可从样本中的标准试卷中的页脚文本框中提取上述文本框特征,将提取到的文本框特征作为标准文本框特征,形成标准文本框特征库。然后,在线教育平台针对用户上传的试卷图像中的每一文本框,提取上述文本框特征,然后将提取到的文本框特征与标准文本框特征进行相似度计算,在相似度计算大于预设阈值时,将该文本框确定为页脚文本框。
同理,在线教育平台还可为试卷标题文本框设置与其对应的文本框特征,为题目类型文本框设置与之对应的文本框特征,通过上述特征比对的方式来确定这两类文本框。
当然,在实际应用中,还可预先训练分类模型,将试卷图像对应的任一文本框的文本框特征输入至分类模型后,分类模型可输出该文本框属于各种关键文本框的概率值,当属于某种关键文本框的概率值大于预设阈值时,确定该文本框属于该种类型的关键文本框。比如,分类模型输出该文本框属于试题标题文本框的概率为80%,属于页脚本文框的概率为5%,属于题目类型的文本框的概率为5%,预设阈值为70%,则确定该文本框属于试题标题文本框。
步骤B12:依据所述关键文本框从该试卷图像中定位出试题区域。
其中,试题区域是指包含若干题目的区域。
在实现时,在线教育平台可将两个相邻的题目类型文本框之间的区域确定为试题区域,和/或在线教育平台可将题目类型文本框和页脚文本框之间的区域为试题区域。
例如,如图3所示,在线教育平台可将题目类型文本框(即包含“选择题:本大题共12小题……”的文本框)与页脚文本框(即“第1页共6页”的文本框)之间的区域作为试题区域。该试题区域图3点划线所圈出的区域。
步骤B2:提取与所述试题区域所包含的至少一个文本框对应的形位特征;以及,所述至少一个文本框包含的文本对应的语义特征,并基于所述形位特征和所述语义特征,从所述至少一个文本框中识别出作为题目分割点的基准文本框。
在本说明书实施例中,由于基准文本框是表示题目分割点的文本框,所以基准文本框需要具有题目分割点的特性。在线教育平台可以提取反映该题目分割点特性的特征,来从试卷图像对应的若干文本框中确定出基准文本框。再以基准文本框作为题目的分割点,将试题区域划分为若干题目区域。
其中,基准文本框可以是表示一道题目开始的文本框、也可以是表示一道题目结束的文本框。
比如,如图3所示,文本框“2、不等式
Figure BDA0003513638480000071
的解集为()”表示一道题目开始的文本框,该类文本框可以作为基准文本框。
再比如,如图3所示,包含有“C、[0,1)∪(1,+∞)D、(-∞,0]∪[1,+∞)”的文本框表示一道题目结束的文本框,该类文本框也可以作为基准文本框。
这里只是对基准文本框进行示例性地说明,不对其进行具体地限定。
下面通过步骤B21至步骤B22对步骤B2进行详细地介绍。
步骤B21:提取与所述试题区域所包含的至少一个文本框对应的形位特征;以及,所述至少一个文本框包含的文本对应的语义特征。
由于形位特征和语义特征是用来确定作为题目分割点的基准文本框的,所以形位特征和语音特征可以表达出题目分割点的特征。
其中,形位特征,是指文本框的形状特征和位置特征。
其中,形状特征包括:表征各文本框的尺寸与试卷图像尺寸关系的尺寸特征。比如,该尺寸特征包括,该文本框的高与试卷图像高的比值等。这里只是示例性地说明,不进行具体地限定。
位置特征包括如下一个或多个的组合:
表征各文本框彼此之间位置关系的位置特征。
表征各文本框在其所在试卷图像中的位置特征;
表征各文本框与该试卷图像上被标记为关键文本框的位置关系的位置特征;
其中,各文本框彼此之间位置关系的位置特征包括:表征当前文本框与上一个文本框是否在一行的特征、表征当前文本框是新的一行的开始的文本框、表征当前文本框与上一个文本框之间的距离的特征等。这里只是示例性地说明,不进行具体地限定。
上述表征各文本框与该试卷图像上被标记为关键文本框的位置关系的位置特征包括:表征当前文本框与上一个题目类型文本框的位置关系的特征,表征当前文本框与下一个题目类型文本框的位置关系的特征。这里只是示例性地说明,不对其进行具体地限定。
上述语义特征包括如下一种或多种的组合:表示文本框是否包含指定字符的特征以及指定字符的位置特征;表示文本框中的文本信息与上一个文本框中的文本信息语义是否连续的特征。
其中,指定字符比如可以是题号、选项符号(比如A、B、C、D),答题点(比如在选择题中,答题点为“()”。再比如,在填空题中答题点为“--”)。这里只是对指定字符进行示例性地说明,不对其进行具体地限定。
需要说明的是,比如基准文本框是题目开始文本框,则该文本框中包含题号,并且该文本框中的文本与上一个文本框中的文本语义不连续。再比如,基准文本框是题目结束文本框,则该文本框中包含D选项,并且该文本框与上一个文本框的语义连续。
步骤B22:基于所述形位特征和所述语义特征,从所述至少一个文本框中识别出作为题目分割点的基准文本框。
在实现时,在线教育平台可将每个文本框的形位特征和语义特征输入至第三分类模型,第三分类模型可输出该文本框是基准文本框的概率值,当该概率值大于预设阈值时,在线教育平台可将该文本框作为基准文本框。
步骤B3:基于所述基准文本框确定与所述试题区域中包含的各题目对应的文本框集合,并对所述文本框集合中的各文本框进行合并,得到与所述试题区域中包含的各题目对应题目区域。
在实现时,在线教育平台可将位于两个基准文本框之间的文本框,和两个基准文本框中的一个文本框作为一个题目对应的文本框集合。
在线教育平台将每一题目对应的文本框集合进行合并,得到该题目对应的题目区域。
例如,当基准文本框是题目开始文本框时,在线教育平台可以将位于两个题目开始文本框之间的文本框、两个题目开始文本框中位于前面位置的题目开始文本框,作为一个题目对应的文本框集合。然后,在线教育平台将该题目对应的文本框集合中的文本框进行合并,得到该题目的题目区域。
如图3所示,假设两个题目开始文本框分别为文本框1,文本框2。
文本框1为“2、不等式
Figure BDA0003513638480000091
的解集为()”。
文本框2为“3、集合A={0,1,2},若
Figure BDA0003513638480000092
则符合条件的集合B个数为()”的逆否命题为()”
在线教育平台可将文本框1和文本框2之间包含的文本框(即包含有“A、(-∞,0]∪(1,+∞)B、[0,+∞)”的文本框、以及包含有“C、[0,1)∪(1,+∞)D、(-∞,0]∪[1,+∞)”的文本框)、和两个题目开始文本框中位于前位的文本框(即文本框1),作为第2题的文本框集合。
然后,在线教育平台将第2题的文本框集合中的文本框合并,得到第2题的题目区域。比如,图3中第2题所在的虚线区域为题目区域。
再例如,该基准文本框是题目结束文本框,则在线教育平台可以将位于两个题目结束文本框之间的文本框、两个题目结束文本框中位于后面位置的题目结束文本框,作为一个题目对应的文本框集合。然后,在线教育平台将该题目对应的文本框集合中的文本框进行合并,得到该题目的试题区域。
如图3所示,假设两个题目结束文本框分别为文本框3和文本框4。
假设文本框3为包含有“A.{0}B.{-3,-4}C.{-1,-2}D.
Figure BDA0003513638480000095
”的文本框;
文本框4为包含有“C、[0,1)∪(1,+∞)D、(-∞,0]∪[1,+∞)”的文本框。在线教育平台可将文本框3和文本框4之间包含的文本框(即包含有“2、不等式
Figure BDA0003513638480000093
Figure BDA0003513638480000094
的解集为()”的文本框,以及包含有“A、(-∞,0]∪(1,+∞)B、[0,+∞)”的文本框)、和两个题目结束文本框中位于后面位置的文本框(即包含“C、[0,1)∪(1,+∞)D、(-∞,0]∪[1,+∞)”的文本框),作为第2题的文本框集合。
然后,在线教育平台将第2题的文本框集合中的文本框合并,得到第2题的题目区域。比如,图3中第2题所在的虚线区域为题目区域。
步骤B4:从与所述试题区域中包含的各题目对应题目区域中,分别提取题目,并基于各题目区域在所述试题区域中的位置顺序,对提取到的各题目进行排序,以得到该试卷图像包含的题目集合。
在实现时,在线教育平台针对试题区域中的每一题目区域,从该题目区域中提取出题目。该题目可包括题号和题目内容。
在实际应用中,由于试卷图像上会有用户的书写痕迹,所以有些题目的题号是很难识别出的,这就会对基于题号进行题目排序造成困难。因此,在本说明书中,在线教育平台可依据题目区域在试题区域中的位置顺序对提取到的各题目进行排序。比如,在线教育平台可按照题目区域在试题区域中的从上向下的顺序,对从题目区域中提取的题目进行排序,得到试卷图像包含的题目集合。
如图3所示,图3所示的试卷图像中包含6个虚线框,在线教育平台可以按照6个虚线框从上向下的位置顺序,将从这6个虚线框中的题目排序,生成该试卷图像的题目集合。
当然,在实际应用中,在线教育平台也可以按照试卷图像中各题目的题号对各题目进行排序,这里对排序方式进行示例性地说明,不对其进行具体地限定。
步骤206:按照各试卷图像对应的页码的页码顺序,对各试卷图像对应的题目集合进行整合,以生成与所述试卷对应的电子试卷文档。
在实现时,在线教育平台可以从各试卷图像中的页脚文本框中识别该试卷图像对应的页码。
若识别出了所有试卷图像的页码,在线教育平台可按照各试卷图像对应的页码的页码顺序,将各试卷图像对应的题目集合进行排序生成所述试卷对应的题目序列,并依据所述题目序列生成电子试卷文档;
在本说明书实施例中,在一套试卷中,题号是不断增大的。换句话来说,页码越大的试卷图像的题号的平均值越大。基于这一特性,在本说明书中,若识别出了部分试卷图像的页码,在线教育平台可依据各试卷图像上的题目集合中题号平均值的顺序,将各试卷图像对应的题目集合进行排序生成所述试卷对应的题目序列,并依据所述题目序列生成电子试卷文档。
例如,假设有3张试卷图像,分别是试卷图像1、试卷图像2和试卷图像3。假设从试卷图像1中识别出页码为第1页,从试卷图像2和试卷图像3中未识别出页码。在线教育平台可计算试卷图像1、2和3上的题号的平均值,按照平均值进行排序。
假设试卷图像1包括题1至题4,题号平均值为(1+2+3+4)/4=2.5。
试卷图像2包括题15至题21,题号平均值为(15+16+17+18+19+20+21)/7=18。
试卷图像3包括题5至题14,题号平均值为(5+6+7+8+9+10+11+12+13+14)/10=9.5。
由此可见,题号平均值排序为2.5<9.5<18,所以,可以按照试卷图像1的题目集合、试卷图像3的题目集合和试卷图像2的题目集合这样的顺序,对这三张试卷图像的题目集合进行排序,得到试卷的题目序列。
然而,在实际应用中,在将各试卷图像对应的题目集合进行排序,得到试卷的题目序列后,试卷的题目序列可能会出现错误。比如,有些试题的题号缺失,题号重复等问题。为了得到更为准确的题目序列,在线教育平台可以依据题目序列中题目的题号,对题目序列进行校正,并依据校正后的题目序列生成电子试卷文档。
下面详细介绍下“依据题目序列中题目的题号,对题目序列进行校正”。
情况1:针对所述题目序列中已识别出题号的题目,在任意相邻的两个题目的题号不连续时,依据所述任意相邻的两个题目的题号,对所述题目序列进行校正
在实现时,若所述两个题目的题号相同,在线教育平台则将两个题目合并。
需要说明的是,若针对所述题目序列中已识别出题号的题目,任意相邻的两个题目的题号不连续,且两个题目的题号相同,则表明这两个题目是同一题目,只不过被误拆分。所以,在这种情况下,可以将两个题目合并。
例如,当上一页最后一题与下一页第一题为同一题时,将两页的题目集合排序后,得到的题目序列中为[q1,q2,q2,q3]。其中,q1,q2和q3表示题目序列中题目的题号。
由该题目序列可以看出,题号序列中的第二个题号和第三个题号相同,此时可以将两个q2所表示的题目合并,得到题目序列[q1,q2,q3]。
在本说明书实施例中,若所述两个题目题号不同,在线教育平台则重新对两个题目中位置位于前位的目标题目进行分割,并将分割形成的多个题目替换所述目标题目。
在实现时,若所述两个题目的题号不连续,且两个题目的题号不同,则表明发生了漏切题错误,即两个题目中位于前位的题目合并了多道题目,需要对位于前位的题目重新进行分割。
在分割时,在线教育平台可获取位于前位的题目对应的题目区域中的文本框,然后获取第三分类模型输出的各个文本框的概率值,将第三分类模型对应的预设阈值降低。针对每一文本框,若该文本框的概率值大于降低后的预设阈值,则确定该文本框为作为题目分割点的基准文本框。
然后,在线教育平台重新基于基准文本框,重新将题目区域进行划分,得到若干新的题目区域,然后从新的题目区域中提取题目,将提取到的题目替换题目序列中的位于前位的题目。
例如,假设题目序列为[q1,q2,q4,q5],由该题目序列可以看出,第二个题目和第三个题目的题号不连续,且这两个题目的题号不同。此时可以对q2题目进行重新分割。
假设,如图4所示,q2题目对应的题目区域如图4虚线框圈出的区域。该题目区域包括5个文本框,分别为文本框401、文本框402、文本框403,文本框404,文本框405。
在线教育平台可获取第三分类模型输出的文本框401是基准文本框的概率值、文本框402是基准文本框的概率值、文本框403是基准文本框的概率值,文本框404是基准文本框的概率值,文本框405是基准文本框的概率值。
然后,在线教育平台可将第三分类模型对应的预设阈值降低。假设文本框401和文本框404的概率值大于降低后的预设阈值,则将文本框401和文本框404作为基准文本框。
然后,在线教育平台可将文本框401至文本框403合并,生成q2题目对应的题目区域,并从该题目区域中提取出题目q2。
在线教育平台可将文本框404至文本框405合并,生成q3题目对应的题目区域,并从该题目区域中提取出题目q3。
然后,在线教育平台可利用q2,q3替换上述题目序列中的q2,得到校正后的题目序列[q1,q2,q3,q4,q5]。
情况2:针对题目序列中题号缺失的题目,依据已有题目题号的连续性,对题号缺失的题目进行校正。
在一种可选的实现方式中,若确定与题号缺失题目相邻的题目题号不连续,依据与所述题号缺失的题目相邻的题目题号补全该缺失题号的题目的题号。
在实现时,若确定与题号缺失题目相邻的题目题号不连续,则表明出现题号漏识别的错误,在这种情况下,可以依据与所述题号缺失的题目相邻的题目题号补全该缺失题号的题目的题号。
例如,题目序列为[q1,q2,q?,q4,q5,q6],其中,q?表示题号缺失的题目。在本例中,与题号缺失的题目相邻的题目是q2和q4。q2和q4题目的题号不连续,因此可以依据q2和q4来补全题号缺失的题目的题号。在本例中,由于q?在q2和q4之间,所以q?为q3,题号补全后的题目序列为[q1,q2,q3,q4,q5,q6]。
在另一种可选的实现方式中,若确定与所述题号缺失的题目相邻的题目题号连续时,将题号缺失题目与所述相邻的题目中位于前位的题目合并。
在实现时,若确定与所述题号缺失的题目相邻的题目题号连续时,则表明存在误切题错误,即将原本为同一题目的切成了两个题目。在这种情况下,在线教育平台可将题号缺失题目与所述相邻的题目中位于前位的题目合并。
例如,题目序列为[q1,q2,q?,q3,q4],中,q?表示题号缺失的题目。在本例中,与题号缺失的题目相邻的题目是q2和q3。q2和q3题目的题号连续,表明q2和q?原本为同一题目,但被误切为两个,此时可以将q2和q?合并,得到校正后的题目序列[q1,(q2+q?),q2,q3]。
在实际应用中,还可以采用其他方式对题目序列进行校正,这里只是示例性地说明,不对其进行具体地限定。
需要说明的是,现有以题目粒度进行结构化分析,由于只关注单一题目,而没有考虑不同题目之间的关联关系,所以识别出的题目会出现一些问题(比如误切题,漏切题等)。而本说明书以试卷粒度进行结构化分析,依据试卷题目序列中题目之间的关联关系,对题目序列进行校正,所以本说明书以试卷粒度进行的结构化分析得到的更为准确的题目序列。
此外,在本说明书实施例中,除了可以得到上述题目序列外,在线教育平台还可以对已得到的题目序列进行分析,得到试卷的属性信息,并对试卷的属性信息进行统计,并通过可视化元素统计展示结果,使得用户可以清楚明了地获取到试卷的属性信息。
下面通过步骤C1至步骤C3对这部分内容进行详细地说明。
步骤C1:对生成的电子试卷文档中的各题目进行多维度分类,得到每一题目在至少一种预设题目属性下的属性值。
在实现时,在线教育平台可以通过自然语言处理技术对电子试卷文档中的每一题目进行多维度的分类,得到每一题目在至少一种预设题目属性下的属性值。其中每一分类维度与每一预设题目属性对应。
其中,预设题目属性包括如下一个或多个:学科学段、知识点、难度、解题方法、题目类型等。
举例来说,假设预设题目属性包括:学科学段、难度。
针对每一题目,在线教育平台可在学科学段这一维度,对题目进行分类。假设对该题目的分类结果是该题目属于高二数学,则该题目对应的题目属性及其属性值为“学科学段=高二数学”,其中“学科学段”为预设题目属性,“高二数学”为属性值。
此外,在线教育平台还可在难度这一维度对该题目进行分类。假设对该题目的分类结果是该题目属于二类难度,则该题目对应的题目属性及其属性值为“难度=二类难度”,其中“难度”为预设题目属性,“二类难度”为属性值。
此外,在本说明书实施例中,在得到每一题目在至少一种预设题目属性下的属性值后,在线教育平台为了保证属性值的准确性,在线教育平台还可以对题目的属性值进行校正。
在实现时,预先在至少一个题目属性中指定出了指定题目属性,也就是说指定题目属性是预设题目属性下一种或多种。比如,预设题目属性包括:学科学段、难度。预先指定学科学段是指定题目属性。
针对指定题目属性,在线教育平台可统计该指定题目属性下的多种属性值的数量,然后将数量最大的属性值作为标准属性值,并依据标准属性值对若干题目在该指定属性下的属性值进行校正。
例如,假设指定题目属性是学科学段,假设写入电子试卷文档中的题目共有15道题目,其中,第1题至第10题、第14题、第15题在学科学段下的属性值均为高二数学,第11题至第13题在学科学段下的属性值为高一数学。
在线教育平台可统计高二数学这一属性值的数量(即12),以及统计高一数学这一属性值的数量(即3)。由于高二数学这一属性值的数量最大,所以将高二数学作为标准属性值。然后,将第11题至第13题在学科学段下的属性值由高一数学修改为高二数学。
需要说明的是,本说明书以试卷粒度进行分析,通过考虑题目之间的上下文关系,可以有效地对题目的属性值进行修正,使得在线教育平台识别出的各题目的属性值更为准确。
步骤C2:从所述试卷集合中的任意试卷图像中识别出试卷标题,并从试卷标题中识别出在预设标题属性下的属性值
在实现时,在线教育平台可以从任意试卷图像的试卷标题文本框中的文本信息中,识别出试卷标题,并从试卷标题中识别出在预设标题属性下的属性值。
其中,预设标题属性,是指用于描述试卷标题的信息。例如,预设标题属性可包括如下中的一个或多个:年份、学期、学科学段和试卷类型。
例如,假设识别出的试卷标题是:大同四中联盟学校2020—2021学年第二学期5月月考试题高二文数。
假设预设标题属性包括:年份、学期、学科学段和试卷类型。则从试卷标题中识别出的预设题目属性及其属性值如表1所示:
预设标题属性 属性值
年份 2020-2021
学期 第二学期
学科学段 高二文数
试卷类型 月考
表1
步骤C3:将各题目的属性值和试卷标题的属性值写入至所述电子试卷文档
在实现时,电子设备可以将试卷标题在各标题属性下的属性值写入至电子试卷文档。比如将表1所示的内容写入至电子试卷文档。
此外,电子设备每一题目在各预设题目属性下的属性值写入至电子试卷文档。比如,将“第一题:学科学段为高二文数、难度为二类难度、知识点为解析几何、题目类型为解答题”写入电子试卷文档中。
当然,在实际应用中,在线教育平台还可向用户展示该试卷的相关统计信息,以使得用户可以更加直观地了解试卷情况。
在实现时,电子设备针对每一题目属性,对该题目属性下出现的属性值的数量进行统计,并依据可视化显示元素展示统计结果。
其中,可视化显示元素是指可以直观显示统计结果的元素、包括图形元素(比如扇形图、柱形图等),表格等。这里只是对可视化显示元素进行示例性地说明,不对其进行具体地限定。
比如,题目属性是题目类型,该题目属性下的属性值为单选题、解答题和其他,则统计属性值为单选题的题目数量(假设为12题),统计属性值为解答题的题目数量(假设为6题),统计属性值为其他类型的题目数量(假设为4题)。如图5所示,在线教育平台可通过表格的形式显示题目类型及其各属性值的统计结果。
比如,题目属性是难度,该属性下的属性值为一类难度、二类难度和三类难度,假设试卷有20道题,20道题中的15道题为二类难度,2道题为一类难度,3道题为三类难度,则一类难度的题目占比为10%,二类难度的题目占比为75%,三类难度的题目占比为15%。然后,在线教育平台可按照如图5所示的扇形显示这一统计结果。
此外,在实际应用中,用户可能会将非同一套试卷的试卷图像上传至在线教育平台。因此,在向用户终端返回电子试卷文档前,在线教育平台还可依据从试卷图像集合中的各图像中识别出的信息,判断试卷图像集合中的试卷图像是否为同一试卷。
在实现时,在向用户终端返回电子试卷文档前,在线教育平台可检测所述试卷图像集合中的试卷图像是否满足表征同一套试卷的预设条件。
其中,预设条件包括如下一个或多个的组合:
至少一个试卷图像中的一个试卷图像包含试卷标题;
从各题目识别出的在指定题目属性下的标准属性值、与从试卷标题中识别出的在指定标题属性下属性值一致;其中,所述指定题目属性与指定标题属性相同;
重复题号的数量小于预设阈值。
下面解释下“从各题目识别出的在指定题目属性下的标准属性值、与从试卷标题中识别出的在指定标题属性下属性值一致”。
例如,指定题目属性为学科学段,指定标题属性也为学科学段。
假设,试卷标题为“大同四中联盟学校2020—2021学年第二学期5月月考试题高二文数”则从该试卷标题中识别出的学科学段为高二文数。
假设该试卷有15道题,第1题至第10题、第14题、第15题在学科学段下的属性值均为高二文学,第11题至第13题在学科学段下的属性值为高一文学。在线教育平台可统计各属性值的数量,然后选择数量最大的属性值作为标准属性值。在本例中,在线教育平台统计属性值为高二文数的题目数量为12题,属性值为高一文数的题目数量为3题,则在线教育平台可将高二文数确定为标准属性值。
然后,在线教育平台可检测从题目识别出在学科学段这一指定题目属性下的标准属性值(即高二文数)和从试卷标题识别出的在指定标题属性下的属性值(即高二文数)是否一致,在本例中,从题目识别出在学科学段这一指定题目属性下的标准属性值(即高二文数)和从试卷标题识别出的在指定标题属性下的属性值(即高二文数)一致,所以符合上述预设条件中的第二个条件。
在本说明书实施例中,若试卷图像集合中的试卷图像是否满足表征同一套试卷的预设条件,则将所述电子试卷文档返回给用户终端。
若试卷图像集合中的试卷图像不满足表征同一套试卷的预设条件,则修正所述电子试卷文档,并将修正后的电子试卷文档返回给用户终端。例如,试卷集合中有两个试卷图像包含有试卷标题,则将电子试卷文档切割成两个电子试卷文档,每个电子试卷文档对应一套卷子。在线教育平台将两个电子试卷文档返回给用户终端。
由上述描述可知,由于在线教育平台是先对单页试卷图像进行结构化分析,得到单页试卷图像对应的题目集合,再对多页试卷图像对应的题目集合进行整合,所以本说明书的在线教育平台提供了以试卷粒度进行分析的方法。
一方面,以试卷粒度进行分析可以得到用户、试卷、题目这一更为完整的关系链,从而更能帮助在线教育平台描述和刻画用户。
另一方面,以试卷为粒度可以依据题目之间的上下文关系,考虑试卷题目整体内容,从而可以对多页试卷图像对应的题目进行整合后得到的题目序列、以及各题目的题目属性进行修正,从而使得得到的题目序列、题目属性值更为准确。
图6是一示例性实施例提供的一种在线教育平台的示意结构图。请参考图6,在硬件层面,该设备包括处理器602、内部总线604、网络接口606、内存608以及非易失性存储器610,当然还可能包括其他业务所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现,比如由处理器602从非易失性存储器610中读取对应的计算机程序到内存608中然后运行。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图7,试卷图像处理的装置可以应用于如图6所示的设备中,以实现本说明书的技术方案。其中,该试卷图像处理的装置可以包括:
获取模块701,用于获取试卷对应的试卷图像集合;
分析模块702,用于对所述试卷图像集合中的各试卷图像分别进行结构化分析,得到各试卷图像包含的题目集合;
生成模块703,用于按照各试卷图像对应的页码的页码顺序,对各试卷图像对应的题目集合进行整合,以生成与所述试卷对应的电子试卷文档。
可选的,所述获取模块701,在获取试卷对应的试卷图像集合时,用于获取用户终端上传的至少一个图像;从所述至少一个图像中提取识别特征,并基于提取出的所述识别特征识别所述至少一个图像中的试卷图像,并基于识别出的所述试卷图像创建试卷图像集合。
可选的,所述识别特征包括图像特征和文本特征;
所述获取模块701,在从所述至少一个图像中提取识别特征,并基于提取出的所述识别特征识别所述至少一个图像中的试卷图像时,用于从所述至少一个图像中提取图像特征,并基于所述图像特征识别出所述至少一个图像中与试卷相关的候选图像;对所述候选图像进行光学字符识别,得到与所述候选图像对应的若干文本框,并从所述文本框中提取文本特征,并基于从所述候选图像中提取出的图像特征和所述文本特征,从所述候选图像中进一步识别出试卷图像。
可选的,所述文本特征包括以下示出的任一或者多个的组合:
图像中包含的文本信息、各文本信息在图像中的位置、图像中手写体文本和印刷体文本的占比、印刷体文本在图像中的位置分布。
可选的,所述分析模块702,在对所述试卷图像集合中的各试卷图像分别进行结构化分析,得到各试卷图像包含的题目集合时,用于针对每一试卷图像,从对该试卷图像进行光学字符识别得到的若干文本框中确定关键文本框,并依据所述关键文本框从该试卷图像中定位出试题区域;提取所述试题区域所包含的至少一个文本框对应的形位特征;以及,所述至少一个文本框包含的文本对应的语义特征,并基于所述形位特征和所述语义特征,从所述至少一个文本框中识别出作为题目分割点的基准文本框;基于所述基准文本框确定与所述试题区域中包含的各题目对应的文本框集合,并对所述文本框集合中的各文本框进行合并,得到与所述试题区域中包含的各题目对应题目区域;从与所述试题区域中包含的各题目对应题目区域中,分别提取题目,并基于各题目区域在所述试题区域中的位置顺序,对提取到的各题目进行排序,以得到该试卷图像包含的题目集合。
可选的,所述关键文本框包括:题目类型文本框,页码文本框;
所述分析模块702,在依据所述关键文本框从该试卷图像中定位出试题区域时,用于将两个位置相邻的题目类型文本框之间的区域、和/或题目类型文本框和页码文本框之间的区域作为试题区域。
可选的,所述形位特征包括以下示出的任一或者多个的组合:
表征各文本框彼此之间位置关系的位置特征;
表征各文本框在其所在试卷图像中的位置特征;
表征各文本框的尺寸与试卷图像尺寸关系的尺寸特征;
表征各文本框与该试卷图像上被标记为关键文本框的位置关系的位置特征;
所述语义特征包括以下示出的任一或者多个的组合:
表征文本框是否包含指定字符的特征;
表征文本框中的指定字符的位置特征;
表征文本框中的文本信息与上一个文本框中的文本信息语义是否连续的特征。
可选的,所述关键文本框包括页码文本框;所述试卷图像对应的题目集合中的题目包括:题目内容及其题号;
所述生成模块703,在按照各试卷图像对应的页码的页码顺序,对各试卷图像对应的题目集合进行整合,以生成所述试卷的电子试卷文档时,用于从各试卷图像的页码文本框的文本信息中识别各试卷图像对应的页码;若识别出了所有试卷图像对应的页码,则按照各试卷图像对应的页码的页码顺序,将各试卷图像对应的题目集合进行排序生成所述试卷对应的题目序列,并依据所述题目序列生成电子试卷文档;若识别出了部分试卷图像对应的页码,则依据各试卷图像上的题目集合中题号平均值的顺序,将各试卷图像对应的题目集合进行排序生成所述试卷对应的题目序列,并依据所述题目序列生成电子试卷文档。
可选的,所述生成模块703,在依据所述题目序列生成电子试卷文档时,用于依据所述题目序列中的题目的题号,对所述题目序列进行校正,并依据校正后的题目序列生成电子试卷文档。
可选的,所述生成模块703,在依据所述题目序列中的各题目的题号,对题目序列进行校正时,用于针对所述题目序列中已识别出题号的题目,在任意相邻的两个题目的题号不连续时,依据所述任意相邻的两个题目的题号,对所述题目序列进行校正。针对所述题目序列中题号缺失的题目,依据已有题目题号的连续性,对题号缺失的题目进行校正。
可选的,所述生成模块703,在依据所述任意相邻的两个题目的题号,对所述题目序列进行校正时,用于若所述两个题目的题号相同,则将两个题目合并;若所述两个题目题号不同,则重新对两个题目中位置位于前位的目标题目进行分割,并将分割形成的多个题目替换所述目标题目。
可选的,所述生成模块703,在依据已有题目题号的连续性,对题号缺失的题目进行校正时,用于若确定与题号缺失的题目相邻的题目题号不连续,则依据与所述题号缺失的题目相邻的题目题号补全该缺失题号的题目的题号;若确定与所述题号缺失的题目相邻的题目题号连续时,则将题号缺失题目与所述相邻的题目中位于前位的题目合并。
可选的,所述生成模块703,还用于对生成的电子试卷文档中的各题目进行多维度分类,得到每一题目在至少一种预设题目属性下的属性值;以及,从所述试卷集合中的任意试卷图像中识别出试卷标题,并从试卷标题中识别出在预设标题属性下的属性值;将各题目的属性值和试卷标题的属性值写入至所述电子试卷文档。
可选的,所述生成模块703,在将各题目的属性值和试卷标题的属性值写入至所述电子试卷文档之前,还用于统计指定题目属性下的出现的多种属性值的数量;将数量最大的属性值作为标准属性值,依据标准属性值对若干题目在该指定题目属性下的属性值进行校正。
可选的,所述预设标题属性包括如下一个或多个:年份,学期,学科学段,试卷类型;
所述预设题目属性包括如下一个或多个:学科学段、知识点、难度、解题方法、题目类型。
可选的,所述生成模块703,还用于针对每一题目属性,对该题目属性下出现的属性值的数量进行统计,并依据可视化显示元素展示统计结果
可选的,所述生成模块703,还用于检测所述试卷图像集合中的试卷图像是否满足表征同一套试卷的预设条件,若满足,则将所述电子试卷文档返回给用户终端,若不满足,则修正所述电子试卷文档,并将修正后的电子试卷文档返回给用户终端。
可选的,所述预设条件包括以下一个或多个的组合:
试卷图像集合中的一个试卷图像包含试卷标题;
从各题目识别出的在指定题目属性下的标准属性值、与从试卷标题中识别出的在指定标题属性下的属性值一致;其中,所述指定题目属性与指定标题属性相同;
重复题号的数量小于预设阈值。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (38)

1.一种试卷图像的处理方法,包括:
获取试卷对应的试卷图像集合;
对所述试卷图像集合中的各试卷图像分别进行结构化分析,得到各试卷图像包含的题目集合;
按照各试卷图像对应的页码的页码顺序,对各试卷图像对应的题目集合进行整合,以生成与所述试卷对应的电子试卷文档。
2.根据权利要求1所述的方法,所述获取试卷对应的试卷图像集合,包括:
获取用户终端上传的至少一个图像;
从所述至少一个图像中提取识别特征,并基于提取出的所述识别特征识别所述至少一个图像中的试卷图像,并基于识别出的所述试卷图像创建试卷图像集合。
3.根据权利要求2所述的方法,所述识别特征包括图像特征和文本特征;
所述从所述至少一个图像中提取识别特征,并基于提取出的所述识别特征识别所述至少一个图像中的试卷图像,包括:
从所述至少一个图像中提取图像特征,并基于所述图像特征识别出所述至少一个图像中与试卷相关的候选图像;
对所述候选图像进行光学字符识别,得到与所述候选图像对应的若干文本框,并从所述文本框中提取文本特征,并基于从所述候选图像中提取出的图像特征和所述文本特征,从所述候选图像中进一步识别出试卷图像。
4.根据权利要求3所述的方法,所述文本特征包括以下示出的任一或者多个的组合:
图像中包含的文本信息、各文本信息在图像中的位置、图像中手写体文本和印刷体文本的占比、印刷体文本在图像中的位置分布。
5.根据权利要求1所述的方法,所述对所述试卷图像集合中的各试卷图像分别进行结构化分析,得到各试卷图像包含的题目集合,包括:
针对每一试卷图像,从对该试卷图像进行光学字符识别得到的若干文本框中确定关键文本框,并依据所述关键文本框从该试卷图像中定位出试题区域;
提取所述试题区域所包含的至少一个文本框对应的形位特征;以及,所述至少一个文本框包含的文本对应的语义特征,并基于所述形位特征和所述语义特征,从所述至少一个文本框中识别出作为题目分割点的基准文本框;
基于所述基准文本框确定与所述试题区域中包含的各题目对应的文本框集合,并对所述文本框集合中的各文本框进行合并,得到与所述试题区域中包含的各题目对应题目区域;
从与所述试题区域中包含的各题目对应题目区域中,分别提取题目,并基于各题目区域在所述试题区域中的位置顺序,对提取到的各题目进行排序,以得到该试卷图像包含的题目集合。
6.根据权利要求5所述的方法,所述关键文本框包括:题目类型文本框,页码文本框;
所述依据所述关键文本框从该试卷图像中定位出试题区域,包括:
将两个位置相邻的题目类型文本框之间的区域、和/或题目类型文本框和页码文本框之间的区域作为试题区域。
7.根据权利要求5所述的方法,所述形位特征包括以下示出的任一或者多个的组合:
表征各文本框彼此之间位置关系的位置特征;
表征各文本框在其所在试卷图像中的位置特征;
表征各文本框的尺寸与试卷图像尺寸关系的尺寸特征;
表征各文本框与该试卷图像上被标记为关键文本框的位置关系的位置特征;
所述语义特征包括以下示出的任一或者多个的组合:
表征文本框是否包含指定字符的特征;
表征文本框中的指定字符的位置特征;
表征文本框中的文本信息与上一个文本框中的文本信息语义是否连续的特征。
8.根据权利要求5所述的方法,所述关键文本框包括页码文本框;所述试卷图像对应的题目集合中的题目包括:题目内容及其题号;
所述按照各试卷图像对应的页码的页码顺序,对各试卷图像对应的题目集合进行整合,以生成所述试卷的电子试卷文档,包括:
从各试卷图像的页码文本框的文本信息中识别各试卷图像对应的页码;
若识别出了所有试卷图像对应的页码,则按照各试卷图像对应的页码的页码顺序,将各试卷图像对应的题目集合进行排序生成所述试卷对应的题目序列,并依据所述题目序列生成电子试卷文档;
若识别出了部分试卷图像对应的页码,则依据各试卷图像上的题目集合中题号平均值的顺序,将各试卷图像对应的题目集合进行排序生成所述试卷对应的题目序列,并依据所述题目序列生成电子试卷文档。
9.根据权利要求8所述的方法,所述依据所述题目序列生成电子试卷文档,包括:
依据所述题目序列中的题目的题号,对所述题目序列进行校正,并依据校正后的题目序列生成电子试卷文档。
10.根据权利要求9所述的方法,所述依据所述题目序列中的各题目的题号,对题目序列进行校正,包括:
针对所述题目序列中已识别出题号的题目,在任意相邻的两个题目的题号不连续时,依据所述任意相邻的两个题目的题号,对所述题目序列进行校正;
针对所述题目序列中题号缺失的题目,依据已有题目题号的连续性,对题号缺失的题目进行校正。
11.根据权利要求10所述的方法,所述依据所述任意相邻的两个题目的题号,对所述题目序列进行校正,包括:
若所述两个题目的题号相同,则将两个题目合并;
若所述两个题目题号不同,则重新对两个题目中位置位于前位的目标题目进行分割,并将分割形成的多个题目替换所述目标题目。
12.根据权利要求10所述的方法,所述依据已有题目题号的连续性,对题号缺失的题目进行校正,包括:
若确定与题号缺失的题目相邻的题目题号不连续,则依据与所述题号缺失的题目相邻的题目题号补全该缺失题号的题目的题号;
若确定与所述题号缺失的题目相邻的题目题号连续时,则将题号缺失题目与所述相邻的题目中位于前位的题目合并。
13.根据权利要求1所述的方法,所述方法还包括:
对生成的电子试卷文档中的各题目进行多维度分类,得到每一题目在至少一种预设题目属性下的属性值;以及,
从所述试卷集合中的任意试卷图像中识别出试卷标题,并从试卷标题中识别出在预设标题属性下的属性值;
将各题目的属性值和试卷标题的属性值写入至所述电子试卷文档。
14.根据权利要求13所述的方法,在所述将各题目的属性值和试卷标题的属性值写入至所述电子试卷文档之前,所述方法还包括:
统计指定题目属性下的出现的多种属性值的数量;
将数量最大的属性值作为标准属性值,依据标准属性值对若干题目在该指定题目属性下的属性值进行校正。
15.根据权利要求13所述的方法,所述预设标题属性包括如下一个或多个:年份,学期,学科学段,试卷类型;
所述预设题目属性包括如下一个或多个:学科学段、知识点、难度、解题方法、题目类型。
16.根据权利要求13所述的方法,所述方法还包括:
针对每一题目属性,对该题目属性下出现的属性值的数量进行统计,并依据可视化显示元素展示统计结果。
17.根据权利要求14所述的方法,所述方法还包括:
检测所述试卷图像集合中的试卷图像是否满足表征同一套试卷的预设条件,若满足,则将所述电子试卷文档返回给用户终端,若不满足,则修正所述电子试卷文档,并将修正后的电子试卷文档返回给用户终端。
18.根据权利要求17所述的方法,所述预设条件包括以下一个或多个的组合:
试卷图像集合中的一个试卷图像包含试卷标题;
从各题目识别出的在指定题目属性下的标准属性值、与从试卷标题中识别出的在指定标题属性下的属性值一致;其中,所述指定题目属性与指定标题属性相同;
重复题号的数量小于预设阈值。
19.一种试卷图像的处理装置,包括:
获取模块,用于获取试卷对应的试卷图像集合;
分析模块,用于对所述试卷图像集合中的各试卷图像分别进行结构化分析,得到各试卷图像包含的题目集合;
生成模块,用于按照各试卷图像对应的页码的页码顺序,对各试卷图像对应的题目集合进行整合,以生成与所述试卷对应的电子试卷文档。
20.根据权利要求19所述的装置,所述获取模块,在获取试卷对应的试卷图像集合时,用于获取用户终端上传的至少一个图像;从所述至少一个图像中提取识别特征,并基于提取出的所述识别特征识别所述至少一个图像中的试卷图像,并基于识别出的所述试卷图像创建试卷图像集合。
21.根据权利要求20所述的装置,所述识别特征包括图像特征和文本特征;
所述获取模块,在从所述至少一个图像中提取识别特征,并基于提取出的所述识别特征识别所述至少一个图像中的试卷图像时,用于从所述至少一个图像中提取图像特征,并基于所述图像特征识别出所述至少一个图像中与试卷相关的候选图像;对所述候选图像进行光学字符识别,得到与所述候选图像对应的若干文本框,并从所述文本框中提取文本特征,并基于从所述候选图像中提取出的图像特征和所述文本特征,从所述候选图像中进一步识别出试卷图像。
22.根据权利要求21所述的装置,所述文本特征包括以下示出的任一或者多个的组合:
图像中包含的文本信息、各文本信息在图像中的位置、图像中手写体文本和印刷体文本的占比、印刷体文本在图像中的位置分布。
23.根据权利要求19所述的装置,所述分析模块,在对所述试卷图像集合中的各试卷图像分别进行结构化分析,得到各试卷图像包含的题目集合时,用于针对每一试卷图像,从对该试卷图像进行光学字符识别得到的若干文本框中确定关键文本框,并依据所述关键文本框从该试卷图像中定位出试题区域;提取所述试题区域所包含的至少一个文本框对应的形位特征;以及,所述至少一个文本框包含的文本对应的语义特征,并基于所述形位特征和所述语义特征,从所述至少一个文本框中识别出作为题目分割点的基准文本框;基于所述基准文本框确定与所述试题区域中包含的各题目对应的文本框集合,并对所述文本框集合中的各文本框进行合并,得到与所述试题区域中包含的各题目对应题目区域;从与所述试题区域中包含的各题目对应题目区域中,分别提取题目,并基于各题目区域在所述试题区域中的位置顺序,对提取到的各题目进行排序,以得到该试卷图像包含的题目集合。
24.根据权利要求23所述的装置,所述关键文本框包括:题目类型文本框,页码文本框;
所述分析模块,在依据所述关键文本框从该试卷图像中定位出试题区域时,用于将两个位置相邻的题目类型文本框之间的区域、和/或题目类型文本框和页码文本框之间的区域作为试题区域。
25.根据权利要求23所述的装置,所述形位特征包括以下示出的任一或者多个的组合:
表征各文本框彼此之间位置关系的位置特征;
表征各文本框在其所在试卷图像中的位置特征;
表征各文本框的尺寸与试卷图像尺寸关系的尺寸特征;
表征各文本框与该试卷图像上被标记为关键文本框的位置关系的位置特征;
所述语义特征包括以下示出的任一或者多个的组合:
表征文本框是否包含指定字符的特征;
表征文本框中的指定字符的位置特征;
表征文本框中的文本信息与上一个文本框中的文本信息语义是否连续的特征。
26.根据权利要求23所述的装置,所述关键文本框包括页码文本框;所述试卷图像对应的题目集合中的题目包括:题目内容及其题号;
所述生成模块,在按照各试卷图像对应的页码的页码顺序,对各试卷图像对应的题目集合进行整合,以生成所述试卷的电子试卷文档时,用于从各试卷图像的页码文本框的文本信息中识别各试卷图像对应的页码;若识别出了所有试卷图像对应的页码,则按照各试卷图像对应的页码的页码顺序,将各试卷图像对应的题目集合进行排序生成所述试卷对应的题目序列,并依据所述题目序列生成电子试卷文档;若识别出了部分试卷图像对应的页码,则依据各试卷图像上的题目集合中题号平均值的顺序,将各试卷图像对应的题目集合进行排序生成所述试卷对应的题目序列,并依据所述题目序列生成电子试卷文档。
27.根据权利要求26所述的装置,所述生成模块,在依据所述题目序列生成电子试卷文档时,用于依据所述题目序列中的题目的题号,对所述题目序列进行校正,并依据校正后的题目序列生成电子试卷文档。
28.根据权利要求27所述的装置,所述生成模块,在依据所述题目序列中的各题目的题号,对题目序列进行校正时,用于针对所述题目序列中已识别出题号的题目,在任意相邻的两个题目的题号不连续时,依据所述任意相邻的两个题目的题号,对所述题目序列进行校正;针对所述题目序列中题号缺失的题目,依据已有题目题号的连续性,对题号缺失的题目进行校正。
29.根据权利要求28所述的装置,所述生成模块,在依据所述任意相邻的两个题目的题号,对所述题目序列进行校正时,用于若所述两个题目的题号相同,则将两个题目合并;若所述两个题目题号不同,则重新对两个题目中位置位于前位的目标题目进行分割,并将分割形成的多个题目替换所述目标题目。
30.根据权利要求28所述的装置,所述生成模块,在依据已有题目题号的连续性,对题号缺失的题目进行校正时,用于若确定与题号缺失的题目相邻的题目题号不连续,则依据与所述题号缺失的题目相邻的题目题号补全该缺失题号的题目的题号;若确定与所述题号缺失的题目相邻的题目题号连续时,则将题号缺失题目与所述相邻的题目中位于前位的题目合并。
31.根据权利要求19所述的装置,所述生成模块,还用于对生成的电子试卷文档中的各题目进行多维度分类,得到每一题目在至少一种预设题目属性下的属性值;以及,从所述试卷集合中的任意试卷图像中识别出试卷标题,并从试卷标题中识别出在预设标题属性下的属性值;将各题目的属性值和试卷标题的属性值写入至所述电子试卷文档。
32.根据权利要求31所述的装置,所述生成模块,在将各题目的属性值和试卷标题的属性值写入至所述电子试卷文档之前,还用于统计指定题目属性下的出现的多种属性值的数量;将数量最大的属性值作为标准属性值,依据标准属性值对若干题目在该指定题目属性下的属性值进行校正。
33.根据权利要求31所述的装置,所述预设标题属性包括如下一个或多个:年份,学期,学科学段,试卷类型;
所述预设题目属性包括如下一个或多个:学科学段、知识点、难度、解题方法、题目类型。
34.根据权利要求31所述的装置,所述生成模块,还用于针对每一题目属性,对该题目属性下出现的属性值的数量进行统计,并依据可视化显示元素展示统计结果。
35.根据权利要求32所述的装置,所述生成模块,还用于检测所述试卷图像集合中的试卷图像是否满足表征同一套试卷的预设条件,若满足,则将所述电子试卷文档返回给用户终端,若不满足,则修正所述电子试卷文档,并将修正后的电子试卷文档返回给用户终端。
36.根据权利要求35所述的装置,所述预设条件包括以下一个或多个的组合:
试卷图像集合中的一个试卷图像包含试卷标题;
从各题目识别出的在指定题目属性下的标准属性值、与从试卷标题中识别出的在指定标题属性下的属性值一致;其中,所述指定题目属性与指定标题属性相同;
重复题号的数量小于预设阈值。
37.一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-18中任一项所述的方法。
38.一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1-18中任一项所述方法的步骤。
CN202210158414.1A 2022-02-21 2022-02-21 试卷图像的处理方法、装置及设备 Pending CN114581934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210158414.1A CN114581934A (zh) 2022-02-21 2022-02-21 试卷图像的处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210158414.1A CN114581934A (zh) 2022-02-21 2022-02-21 试卷图像的处理方法、装置及设备

Publications (1)

Publication Number Publication Date
CN114581934A true CN114581934A (zh) 2022-06-03

Family

ID=81774672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210158414.1A Pending CN114581934A (zh) 2022-02-21 2022-02-21 试卷图像的处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114581934A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI821081B (zh) * 2022-12-22 2023-11-01 倍利科技股份有限公司 醫學影像定頁系統

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI821081B (zh) * 2022-12-22 2023-11-01 倍利科技股份有限公司 醫學影像定頁系統

Similar Documents

Publication Publication Date Title
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
US10943105B2 (en) Document field detection and parsing
KR101312770B1 (ko) 정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템
CN110175609B (zh) 界面元素检测方法、装置及设备
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
CN112800848A (zh) 票据识别后信息结构化提取方法、装置和设备
CN111507330B (zh) 习题识别方法、装置、电子设备及存储介质
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
CN111274239A (zh) 试卷结构化处理方法、装置和设备
Stover et al. The authorship of the historia augusta: two new computational studies
US11295175B1 (en) Automatic document separation
CN112149680A (zh) 错字检测识别方法、装置、电子设备及存储介质
WO2023038722A1 (en) Entry detection and recognition for custom forms
CN113762100B (zh) 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
CN110990539A (zh) 稿件内部查重方法、装置、存储介质及电子设备
CN114581934A (zh) 试卷图像的处理方法、装置及设备
CN113807158A (zh) 一种pdf内容提取方法、装置及设备
Déjean et al. On tables of contents and how to recognize them
Kamola et al. Image-based logical document structure recognition
CN115759039A (zh) 文档处理方法、装置、电子设备和存储介质
Lin et al. Multilingual corpus construction based on printed and handwritten character separation
CN112560849B (zh) 基于神经网络算法的文理分割方法及***
CN111611394B (zh) 一种文本分类方法、装置、电子设备及可读存储介质
Kodirov et al. Music with harmony: chord separation and recognition in printed music score images
CN115359495B (zh) 试卷信息处理方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination