CN117935269A - 题目录入方法、装置、设备及介质 - Google Patents

题目录入方法、装置、设备及介质 Download PDF

Info

Publication number
CN117935269A
CN117935269A CN202410093124.2A CN202410093124A CN117935269A CN 117935269 A CN117935269 A CN 117935269A CN 202410093124 A CN202410093124 A CN 202410093124A CN 117935269 A CN117935269 A CN 117935269A
Authority
CN
China
Prior art keywords
frame
content
frames
determining
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410093124.2A
Other languages
English (en)
Inventor
刘军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xingtong Technology Co ltd
Original Assignee
Shenzhen Xingtong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xingtong Technology Co ltd filed Critical Shenzhen Xingtong Technology Co ltd
Priority to CN202410093124.2A priority Critical patent/CN117935269A/zh
Publication of CN117935269A publication Critical patent/CN117935269A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供一种题目录入方法、装置、设备及介质,其中该题目录入方法包括:获取待处理图像,其中,待处理图像包括待录入题目;对待处理图像进行内容检测,确定多个内容框以及每个内容框的位置信息;基于每个内容框的位置信息,确定多个内容框的位置结构关系;基于每个内容框的位置信息和位置结构关系,确定多个内容框的相对位置关系;基于位置结构关系和相对位置关系对每个内容框进行内容还原,得到待录入题目,并将待录入题目存储至题库。本公开可以从位置结构以及相对位置等多个维度对图像中的内容框的位置进行表征,能够更准确的确定图像中内容框的位置,基于此也提高了基于图像进行待录入题目的还原的准确性。

Description

题目录入方法、装置、设备及介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种题目录入方法、装置、设备及介质。
背景技术
在教育场景中,题库是指为教育领域的学生、教师、家长等提供的一种学习资源,其中包含了各种学科的试题、习题、练习题、考试题等。题库中的题目通常通过购买或人工标注两种方式获得,但是这种方式成本较高,效率较低,为了解决问题相关技术中可以通过自动化方式实现题目录入,但是依然存在准确性较低的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种题目录入方法、装置及设备。
根据本公开的一方面,提供了一种题目录入方法,包括:
获取待处理图像,其中,所述待处理图像包括待录入题目;
对所述待处理图像进行内容检测,确定多个内容框以及每个内容框的位置信息;
基于每个内容框的位置信息,确定所述多个内容框的位置结构关系;
基于每个内容框的位置信息和所述位置结构关系,确定所述多个内容框的相对位置关系;
基于所述位置结构关系和所述相对位置关系对每个内容框进行内容还原,得到所述待录入题目,并将所述待录入题目存储至题库。
根据本公开的另一方面,提供了一种题目录入装置,包括:
图像获取模块,用于获取待处理图像,其中,所述待处理图像包括待录入题目;
内容检测模块,用于对所述待处理图像进行内容检测,确定多个内容框以及每个内容框的位置信息;
位置结构关系确定模块,用于基于每个内容框的位置信息,确定所述多个内容框的位置结构关系;
相对位置关系确定模块,用于基于每个内容框的位置信息和所述位置结构关系,确定所述多个内容框的相对位置关系;
题目还原模块,用于基于所述位置结构关系和所述相对位置关系对每个内容框进行内容还原,得到所述待录入题目,并将所述待录入题目存储至题库。
根据本公开的另一方面,提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述题目录入方法。
根据本公开的另一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述题目录入方法。
本公开实施例中提供的上述题目录入方法及装置,获取待处理图像,其中,待处理图像包括待录入题目;对待处理图像进行内容检测,确定多个内容框以及每个内容框的位置信息;基于每个内容框的位置信息,确定多个内容框的位置结构关系;基于每个内容框的位置信息和位置结构关系,确定多个内容框的相对位置关系;基于位置结构关系和相对位置关系对每个内容框进行内容还原,得到待录入题目,并将待录入题目存储至题库。在上述方式中,在确定图像中内容框的位置信息的基础上,确定了能够表征内容框的位置结构的位置结构关系,以及能够表征内容框之间的相对位置的相对位置关系,进一步根据该位置结构关系和相对位置关系进行内容还原得到待录入题目,从位置结构以及相对位置等多个维度对图像中的内容框的位置进行表征,能够更准确的确定图像中内容框的位置,基于此也提高了基于图像进行待录入题目的还原的准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种题目录入方法的流程示意图;
图2为本公开实施例提供的一种内容框的示意图;
图3为本公开实施例提供的另一种题目录入方法的流程示意图;
图4为本公开实施例提供的又一种题目录入方法的流程示意图;
图5为本公开实施例提供的一种根据指尖位置对内容框进行调整的示意图;
图6为本公开实施例提供的一种根据指尖位置对内容框进行调整的结果的示意图;
图7为本公开实施例提供的再一种题目录入方法的流程示意图;
图8为本公开实施例提供的一种题目录入装置的结构示意图;
图9为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本公开使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在教育场景中,题库是指为教育领域的学生、教师、家长等提供的一种学习资源,其中包含了各种学科的试题、习题、练习题、考试题等。通过题库中的题目可以帮助学生巩固知识、提高能力等。也可以帮助教师对学生的学习情况进行评估,并为教师的教学提供参考。
题库中的题目的获得方式有多种,一种可以为购买已有的题库,另一种可以为人工录入和标注。但是上述方式的成本较高,效率较低,为了解决问题相关技术中可以通过自动化方式实现题目录入,但是依然存在准确率较低的问题。
为了改善以上至少一种问题,本公开实施例提供了一种题目录入方法、装置及设备,为便于理解,以下进行阐述说明。
图1为本公开实施例提供的一种题目录入方法的流程示意图,该方法可以由题目录入装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图1所示,该方法主要包括如下步骤101~步骤105:
步骤101,获取待处理图像,其中,待处理图像包括待录入题目。
其中,待处理图像可以为待进行题目录入的图像。该待处理图像的类型有多种,本实施例不作限制,例如,该待处理图像可以为试卷图像、书本图像等。可选的,该待处理图像可以为图像畸变矫正处理之后得到的图像。
待录入题目可以为待处理图像上记录待录入至题库的题目。本实施例对该待录入题目的学科不做限制,例如,该待录入题目的学科可以包括语文、数学、英语中的任一种。本实施例对该待录入题目的学段不做限制,例如,该待录入题目的学段可以包括初中、高中、大学中的任一种。本实施例对该待录入题目对应的考试类型不做限制。例如,该考试类型可以包括雅思、托福中的任一种。
在本公开实施例中,题目录入装置可以配置有摄像头,用户将记录有待录入题目的纸质材料放置至摄像头的取景区域内,并进行拍照操作。题目录入装置响应于该拍照操作,获取摄像头采集的待处理图像,纸质材料上记录的待录入题目映射为待处理图像中记录的待录入题目。或者,待处理图像可以为预先生成的记录有待录入题目的电子图像,用户将该待处理图像输入题目录入装置,题目录入装置接收该待处理图像。
一种可选的实施方式中,题目录入装置在获取待处理图像之后,检测该待处理图像是否为封面图像,若是,则对该待处理图像进行文字识别,得到封面文字,并将该封面文字存储至题库,以后续基于该封面文字生成相应的待录入题目的封面。若待处理图像不为封面图像,则对该待处理图像进行内容检测。其中,封面图像的检测可以基于预先设置的封面检测模型实现。
步骤102,对待处理图像进行内容检测,确定多个内容框以及每个内容框的位置信息。
其中,内容框又称目标检测框,内容框可以为对待处理图像进行目标检测确定的框,一个内容框中的内容可以为属于相同内容类别的内容,例如,一个内容框中的内容可以为一个大题包括的内容,或者一个内容框中的内容可以为一个页面栏包括的内容。位置信息可以为记录内容框位置的信息。该位置信息的类型有多种,本实施例不做限制。一种可选的实施方式中,该位置信息可以包括内容框左上角顶点的坐标,以及内容框的长和宽。例如,位置信息可以为(top_x,top_y,w,h),其中,top_x为内容框左上角顶点的横坐标,top_y为内容框左上角顶点的纵坐标,w为内容框的宽,h为内容框的长。
在本公开实施例中,题目录入装置可以通过预先设置的神经网络模型对待处理图像进行目标检测,得到多个内容框。并且,针对每个内容框,根据该内容框的左上角顶点的坐标、该内容框的宽和长,确定该内容框的位置信息。
在本公开一些实施例中,对待处理图像进行内容检测,确定多个内容框以及每个内容框的位置信息,包括:通过版面检测模型、文本行检测模型和图标检测模型分别对待处理图像进行检测,确定多个内容框以及每个内容框的位置信息。
其中,版面检测模型、文本行检测模型、图标检测模型均可以为已经完成训练并且具备相应功能的神经网络模型。版面检测模型可以为用于在版面布局维度进行目标检测的神经网络模型,通过该版面检测模型能够识别待处理图像中的页面栏、大题、小题等,本实施例对该版面检测模型的模型类型不做限制,例如,该版面检测模型可以为无锚框的目标检测(CenterNet)模型。
文本行检测模型可以为用于在文本维度进行目标检测的神经网络模型,通过该文本行检测模型能够识别待处理图像中的文本行,本实施例对该文本行检测模型的模型类型不做限制,例如,该文本行检测模型可以为无锚框的目标检测模型。一种可选的实施方式中,文本行检测模型可以包括印刷体识别子模型、手写体识别子模型、公式识别子模型中的一个或多个。印刷体识别子模型可以为用于在印刷体文本维度进行目标检测的神经网络子模型,手写体识别子模型可以为用于在手写体文本维度进行目标检测的神经网络子模型、公式识别子模型可以为用于在公式维度进行目标检测的神经网络子模型。本实施例对上述三个子模型的模型类型不做限制。例如,印刷体识别子模型和手写体识别子模型可以为卷积循环神经网络(Convolutional Recurrent Neural Network)模型,公式识别模型可以为注意力(Attention)模型。
图标检测模型可以为用于在图案和/或表格维度进行目标检测的神经网络模型,通过该图标检测模型能够识别待处理图像中的图案和/或表格等,本实施例对该图标检测模型的模型类型不做限制,例如,该图标检测模型可以为YOLO(You Only Look Once)v5模型。
在本公开一些实施例中,内容框包括基础框和元素框,基础框包括页面栏框、大题框、小题框,元素框包括文本行框、图案框,以及表格框
基础框可以为通过版面检测模型确定的内容框,该基础框可以为版面布局维度的内容框。页面栏框可以为框有分栏的内容框,图2为本公开实施例提供的一种内容框的示意图,如图2所示,框201和框202为页面栏框。可以理解的,若待处理图像的页面不存在分栏,也即该待处理图像为一个整体的页面栏,则该页面栏框可以框有待处理图像的整体页面。小题可以为题目的基础单元,该小题可以为不能再细分的题目。大题可以为包含多个在页面上连续分布的小题的题目,和/或大题可以为包含多个具备题目内容关联关系的小题的题目。大题框可以为框有大题的内容框,如图2所示,框203、204、205为大题框。小题框可以为框有小题的内容框,如图2所示,框206至212为小题框。
元素框可以为通过文本行检测模型或图标检测模型确定的内容框,该元素框可以为框有待处理图像的基础组成元素的内容框,该基础组成元素可以包括文本行、图案、表格中的至少一个。文本行框可以为框有文本行的内容框,如图2所示,框216、217为文本行框。图案框可以为框有插图、几何图形、连线题、二维码中的任一个的内容框,如图2所示,框有二维码图案的框213和框214为图案框。表格框可以为框有表格的内容框,如图2所示,框215可以为表格框。
在本公开实施例中,题目录入装置在获取待处理图像之后,通过版面检测模型对待处理图像进行版面检测,确定待处理图像中包括的页面栏框、大题框、小题框等内容框。并且,通过文本行检测模型对待处理图像进行文本行检测,确定待处理图像中的文本行框。具体地,文本行检测模型中的印刷体识别子模型可以确定待处理图像中的印刷体文本框,文本行检测模型中的手写体识别子模型可以确定待处理图像中的手写体文本框,文本行检测模型中的公式识别子模型识可以确定待处理图像中的公式框。进一步地,使用预设成行算法将同一行中包括的印刷体文本框、手写体文本框、公式框中的一个或多个进行拼接,生成相应的文本行框。其中,预设成行算法可以为预先设置的对处于同一行的文本框进行拼接的算法。一种可选的实施方式中,若印刷体文本中包含手写体文本,该手写体文本可以被识别为待替换字符,后续用户可以基于待替换字符进行相应的印刷体文本的补充或者进行填空区域的设置。
进一步地,题目录入装置通过图标检测模型对待处理图像进行图标检测,得到待处理图像对应的图案框或表格框。一种可选的实施方式中,若图案框中的内容为连线题,则通过图像分割模型(例如,UNet)剔除连线题中的手写笔迹。若表格框中的内容为表格,则通过预先设置的表格格式转换模型,将该表格转换为拉泰赫(LaTeX)格式。
上述方案中,通过采用不同类型的检测模型对待处理图像进行检测,得到了不同类型的内容框,提高了确定各类型的内容框的准确性。
步骤103,基于每个内容框的位置信息,确定多个内容框的位置结构关系。
其中,位置结构关系可以为待处理图像的多个内容框之间的层级架构关系,该位置结构关系也可以理解为内容框之间的包含关系或位置隶属关系。以图2为例,该位置结构关系可以记录有框201至217之间的层级架构关系。
在本实施例中,题目录入装置可以根据内容框的位置信息,确定具备包含关系的内容框,并根据具备包含关系的内容框建立位置结构关系。
步骤104,基于每个内容框的位置信息和位置结构关系,确定多个内容框的相对位置关系。
其中,相对位置关系可以为具备位置结构关系中记录的两个内容框中,一个内容框以另一个内容框为参照点确定的位置关系。以位置结构关系中记录的第一内容框和第二内容框为例,相对位置关系可以为第一内容框相对于第二内容框的位置关系。
在本公开一些实施中,基于每个内容框的位置信息和位置结构关系,确定多个内容框的相对位置关系,包括:
基于位置结构关系,确定具有隶属关系的多个内容框集合,其中,每个内容框集合包括第一内容框和第二内容框,第一内容框隶属于第二内容框;基于每个内容框的位置信息中的左顶点坐标,确定每个内容框集合中第一内容框相对于第二内容框的相对位置,以得到多个内容框的相对位置关系。
内容框集合可以为包括具备隶属关系的两个内容框的集合。该隶属关系可以为直接隶属关系,也即具备隶属关系的第一内容框和第二内容框中,第二内容框直接包含第一内容框。也即,不存在其他内容框,使得第二内容框包含该其他内容框,且该其他内容框包含第一内容框。第一内容框相对于第二内容框的相对位置可以为以第二内容框的位置为参照点确定的第一内容框的位置。左顶点可以为位于内容框左侧的顶点,该左顶点可以为内容框的左上顶点或左下顶点。
在本公开实施例中,题目录入装置可以对位置结构关系进行解析,确定该位置结构关系中具有隶属关系的多对第一内容框和第二内容框,并确定包括具有隶属关系的第一内容框和第二内容框的内容框集合,得到多个内容框集合。
进一步地,针对每个内容框集合,确定该内容框集合中第一内容框的左顶点坐标,得到第一左顶点坐标。并且确定该内容框集合中第二内容框的左顶点坐标,得到第二左顶点坐标。计算第一左顶点坐标相对于第二左顶点坐标的相对位置,将该相对位置作为该内容框集合对应的相对位置关系。得到多个内容框集合对应的多个相对位置关系。
上述方案中,根据位置结构关系确定了位置隶属关系,进而确定了具备隶属关系的两两内容框,并确定了该两两内容框之间的相对位置关系,明确记录了两两内容框之间的位置关系,为后续的题目之间的位置的还原创造了基础。
步骤105,基于位置结构关系和相对位置关系对每个内容框进行内容还原,得到待录入题目,并将待录入题目存储至题库。
其中,题库可以为题目的集合。
在本实施例中,题目录入装置可以确定位于位置结构关系最顶层的顶层内容框,该顶层内容框为不隶属于其他内容框的内容框,将该顶层内容框确定为待处理内容框,并根据位置结构关系确定隶属于该待处理内容框的至少一个中间内容框,根据各中间内容框与该待处理内容框的相对位置关系,对该中间内容框中包括的内容进行还原。进一步的,将中间内容框作为新的待处理内容框,返回根据位置结构关系确定新的中间内容框,直至在结构位置关系中,不存在隶属于该新的中间内容框的其他内容框。进而完成了待处理图像中各内容框的内容还原,得到了相应的待录入题目。进一步地,将各待录入题目录入至题库。
本公开实施例提供的上述题目录入方法,获取待处理图像,其中,待处理图像包括待录入题目;对待处理图像进行内容检测,确定多个内容框以及每个内容框的位置信息;基于每个内容框的位置信息,确定多个内容框的位置结构关系;基于每个内容框的位置信息和位置结构关系,确定多个内容框的相对位置关系;基于位置结构关系和相对位置关系对每个内容框进行内容还原,得到待录入题目,并将待录入题目存储至题库。在上述方案中,在确定图像中内容框的位置信息的基础上,确定了能够表征内容框的位置结构的位置结构关系,以及能够表征内容框之间的相对位置的相对位置关系,进一步根据该位置结构关系和相对位置关系进行内容还原得到待录入题目,从位置结构以及相对位置等多个维度对图像中的内容框的位置进行表征,能够更准确的确定图像中内容框的位置,基于此也提高了基于图像进行待录入题目的还原的准确性。
图3为本公开实施例提供的另一种题目录入方法的流程示意图,如图3所示,在本公开一些实施例中,基于每个内容框的位置信息,确定多个内容框的位置结构关系,包括:
步骤301,基于每个内容框的位置信息,确定每个内容框的面积。
在本实施例中,题目录入装置可以根据每个内容框对应的位置信息确定每个内容框的长和宽,并根据每个内容框的长和宽计算每个内容框的面积。
步骤302,基于每个基础框的面积,利用面积交并比算法对两两基础框进行计算,确定各基础框之间的第一位置隶属关系。
其中,第一位置隶属关系可以为基础框之间的位置隶属关系,该第一隶属关系可以为位置结构关系包括的部分分支。
交并比算法可以为基于面积比值确定内容框之间位置隶属关系的算法。在本实施例中,该交并比算法有多种,本实施例不做限制,示例说明如下:一种可选的实施方式中,面积交并比等于基础框的面积交集除以基础框的面积合集。基础框的面积交集可以为对两个基础框进行图像交计算得到的相交部分的面积,相交部分可以为两个基础框均包括的部分。基础框的面积合集又称基础框的面积并集,基础框的面积合集可以为对两个基础框进行图像并计算得到的相并部分的面积,相并部分可以为至少一个基础框包括的部分。该交并比可以为相交部分的面积除以相并部分的面积。另一种可选的实施方式中,面积交并比等于面积交集除以两个内容框之间的较小面积。较小面积可以为两个内容框面积的最小值。也即,该交并比可以为相交部分的面积除以两个内容框的面积最小值。上述方案中,基于较小面积确定了面积交并比,基于该面积交并比得到的内容框之间的第一隶属关系的准确更高。
在本实施例中,针对多个基础框,题目录入装置可以将该多个基础框进行两两配对,针对每对基础框,通过面积交并比算法确定对应的面积交并比,并基于该面积交并比确定基础框之间的第一位置隶属关系。
在本公开一些实施例中,基于每个基础框的面积,利用面积交并比算法对两两基础框进行计算,确定各基础框之间的第一位置隶属关系,包括:
基于每个基础框的面积,分别计算大题框、页面栏框之间的第一面积交并比以及小题框、大题框之间的第二面积交并比;在第一面积交并比与第二面积交并比中确定大于预设值的第一目标面积交并比,并确定第一目标面积交并比对应的大题框和页面栏框、小题库和大题库之间具有隶属关系,进而得到第一位置隶属关系。
其中,第一面积交并比可以为基于大题框和页面栏框计算的面积交并比。第二面积交并比可以为基于小题框和大题框计算的面积交并比。预设值可以为预先设置的判断基础框之间是否具备隶属关系的阈值,该预设值可以根据用户需求等进行设置,本实施例不做限制。第一目标交并比可以为第一面积交并比和第二面积交并比中大于预设值的面积交并比,该第一目标交并比可以包括第一面积交并比和/或第二面积交并比。
在页面布局中,大题常常布置在页面栏中,小题常常布置在大题中。因而,在本公开实施例中,题目录入装置可以计算大题框和页面栏框之间的面积交并比,得到第一面积交并比。并将大于预设值的第一面积交并比确定为第一目标面积交并比。确定该第一目标面积交并比对应的大题框和页面栏框之间具有隶属关系。
并且,计算小题框和大题框之间的面积交并比,得到第二面积交并比,并将该第二面积交并比中大于预设值的第二面积交并比确定为第一目标面积交并比。确定该第一目标面积交并比对应的小题框和大题框之间具有隶属关系。进而,对题框和页面栏框之间的隶属关系,以及小题框和大题框之间的隶属关系进行综合处理,得到基础框之间的第一位置隶属关系。
上述方案中,基于页面布局规律,按照基础框的类别进行面积交并比的计算,降低了面积交并比的计算数量,节省了算力。
步骤303,基于每个内容框的面积,利用面积交并比算法对元素框与基础框进行计算,确定各元素框在一个基础框的第二位置隶属关系。
其中,第二位置隶属关系可以为元素框与基础框之间的隶属关系,该第二隶属关系可以为位置结构关系包括的部分分支。
在本实施例中,题目录入装置可以将该多个元素框与多个基础框进行两两配对,针对每对元素框与基础框,通过面积交并比算法确定对应的面积交并比,并基于该面积交并比确定基础框和元素框之间的第二位置隶属关系。
在本公开一些实施例中,基于每个内容框的面积,利用面积交并比算法对元素框与基础框进行计算,确定各元素框在一个基础框的第二位置隶属关系,包括:
按照各基础框的面积从小到大的顺序,分别计算每个元素框与各基础框之间的第三面积交并比,在第三面积交并比中确定大于预设值的第二目标面积交并比。确定第二目标面积交并比对应的一个元素框和一个基础框之间具有隶属关系,进而得到第二位置隶属关系。
其中,第三面积交并比可以为基于元素框和基础框计算的面积交并比。第二目标交并比可以为第三面积交并比中大于预设值的面积交并比。
在页面布局中,元素常常布置在页面栏、大题、小题等基础布局中。为了确定包含该元素框的最小基础框,在本实施例中,题目录入装置可以将各基础框按照面积由小至大进行排序,针对每个元素框,将排序最靠前的基础框确定为待处理基础框,确定该元素框与待处理基础框的面积交并比,得到第三面积交并比。若该第三面积交并比大于预设值,则将该第三面积交并比确定为第二目标面积交并比,并确定该第二目标面积交并比对应的元素框和基础框之间具有隶属关系。
若该第三面积交并比不大于预设值,则将排在待处理基础框的下一个基础框确定为新的待处理基础框,并返回确定新的第三面积交并比。直至该新的第三面积交并比大于预设值,则将该新的第三面积交并比确定为第二目标面积交并比,并确定该第二目标面积交并比对应的元素框和基础框之间具有隶属关系。或者,直至遍历全部基础框,说明该元素框和全部基础框均不存在隶属关系。进而,对各元素框和基础框之间的隶属关系进行综合,得到第二位置隶属关系。
上述方案中,基于页面布局规律,将元素框关联至基础框,实现了元素框的定位。并且,按照基础框面积由小至大的顺序与元素框进行关系的确定,将元素框优先与面积较小的基础框进行关联,提高了进行内容还原时元素框的准确性,并且避免了一个面积较大的基础框与过多的元素框建立隶属关系,提高了数据的解耦性。
步骤304,将第一位置隶属关系与第二位置隶属关系确定为位置结构关系。
在本实施例中,在确定第一位置隶属关系和第二位置隶属关系之后,将第一位置隶属关系和第二位置隶属关系进行综合,得到位置结构关系。
上述方案中,根据面积交并比算法确定了具备隶属关系的两两基础框,以及具备隶属关系的基础框与元素框,为后续的相对位置关系的确定以及待录入题目的内容还原创造了基础。
在本公开一些实施例中,该题目录入方法还包括:基于每个内容框的位置信息和位置隶属关系对各基础框进行排序标记,得到排序标记结果。可选的,该步骤可以在步骤105之前进行。相应的,基于位置结构关系和相对位置关系对每个内容框进行内容还原,得到待录入题目,包括:基于位置隶属关系、相对位置关系以及排序标记结果对每个内容框进行内容还原,得到待录入题目。
其中,排序标记结果可以为对基础框按照位置进行顺序的结果。该排序标记结果可以为表征基础框所隶属的基础框以及该基础框在其所隶属的基础框中的位置的数据。
在本实施例中,题目录入装置可以根据位置结构关系确定排序标记结果的层级部分,并根据内容框的位置信息确定排序标记结果的位置部分。进而,根据该层级部分和位置部分确定排序标记结果。其中,层级部分可以记录基础框之间的层级关系,例如,隶属于相同的页面栏框的大题框的层级部分可以相同,隶属于相同大题框的小题框的层级部分可以相同。位置部分可以记录内容框的位置顺序,例如,同一页面栏框中的大题框的排序标记结果的位置部分可以为按照预设顺序依次递增,该预设顺序可以包括:顺时针顺序、从上至下、从左到右中的任一个。
图4为本公开实施例提供的又一种题目录入方法的流程示意图,如图4所示,在本公开一些实施例中,排序标记结果包括第一排序标记结果、第二排序标记结果、第三排序标记结果,基于每个内容框的位置信息和位置结构关系对各基础框进行排序标记,得到排序标记结果,包括:
步骤401,按照中心点的横坐标对页面栏框进行排序标记,得到第一排序标记结果。
其中,中心点可以为位于基础框中心的点。第一排序标记结果可以为记录页面栏框之间的位置顺序的数据。
在本实施例中,题目录入装置获取各页面栏框的位置信息,并根据各位置信息计算各页面栏框的中心点,根据该中心点按照横向顺序对页面栏框进行排序标记。该横向顺序可以为从左至右或从右至左。举例而言,若对图2中的框201和框202进行递增的排序标记,且横向顺序为从左至右,则框201的第一排序结果可以为1,框202的第一排序结果可以为2。
步骤402,基于位置结构关系确定隶属于页面栏框的大题框,并按照中心点的横坐标和/或纵坐标对隶属于页面栏框中的大题框进行排序标记,得到第二排序标记结果,其中,第二排序标记结果中包括第一排序标记结果。
其中,第二排序标记结果可以为记录大题框隶属的页面栏框,以及大题框在其隶属的页面栏框中的位置顺序的数据。
在本实施例中,针对每个页面栏框,题目录入装置分别确定隶属于该页面栏框的目标大题框,获取各目标大题框的位置信息,并根据各位置信息计算各目标大题框的中心点,根据中心点按照预设顺序对目标大题框进行排序标记。进而,在该页面栏框的第一排序标记结果的基础上生成第二排序标记结果。
举例而言,若预设顺序为从上至下,则按照中心点的纵坐标对目标大题框进行排序标记;预设顺序为从左至右,则按照中心点的横坐标对目标大题框进行排序标记。
如图2所示,若框202的第一排序结果为2,对框204和框205进行递增的排序标记,且预设顺序为从上至下,则框204的第二排序结果可以为2-1,框202的第二排序结果可以为2-2。
步骤403,基于位置结构关系确定隶属于大题框的小题框,并按照中心点的横坐标和/或纵坐标对隶属于大题框的小题框进行排序标记,得到第三排序标记结果,其中,第三排序标记结果中包括第二排序标记结果。
其中,第三排序标记结果可以为记录小题框隶属的大题框,以及小题框在其隶属的大题框中的位置顺序的数据。
在本实施例中,针对每个大题框,题目录入装置分别确定隶属于该大题框的目标小题框,获取各目标小题框的位置信息,并根据各位置信息计算各目标小题框的中心点,根据中心点按照预设顺序对目标小题框进行排序标记。进而,在该大题框的第二排序标记结果的基础上生成第三排序标记结果。
举例而言,若预设顺序为从上至下,则按照中心点坐标的纵坐标对目标小题框进行排序标记;预设顺序为从左至右,则按照中心点坐标的横坐标对目标小题框进行排序标记。
如图2所示,若对框204的第二排序结果为2-1,对框209和框210进行递增的排序标记,且预设顺序为从上至下,则框209的第三排序结果可以为2-1-1,框210的第二排序结果可以为2-1-2。
上述方案中,通过第一排序标记结果记录了页面栏框之间的排序,通过第二排序标记结果记录了隶属同一页面栏框的大题框之间的排序,通过第三排序标记结果记录了隶属同一大题框的小题框之间的排序。进而基于排序标记结果,具有层级的记录了基础框的排序,为后续的内容还原创造了基础。
在本公开一些实施例中,在得到排序标记结果之后,基于位置结构关系和相对位置关系对每个内容框进行内容还原,得到待录入题目,包括:基于位置结构关系、相对位置关系以及排序标记结果对每个内容框进行内容还原,得到待录入题目。
在本实施例,位置结构关系记录了基础框之间的隶属关系以及基础框和元素框之间的隶属关系;相对位置关系记录了具备隶属关系的内容框之间的相对位置,排序标记结果记录了内容框的排序。进而,题目录入装置可以根据位置结构关系、相对位置关系对各内容框中的内容进行还原,并且将各内容框的排序标记结果与各内容框中的内容进行关联记载,以便于后续可以基于该排序记录结构可以确定各内容所属的位置是否正确。在完成各内容框中内容的还原之后,得到待录入题目,后续将该待录入题目存储至题库。
上述方案中,通过排序标记结果记录了内容框之间的排序,通过该排序标记结果进一步提高了内容还原的准确性。
在本公开一些实施例中,对待处理图像进行内容检测,确定多个内容框以及每个内容框的位置信息之后,该题目录入方法还包括:
对待处理图像进行检测,响应于在预设时间段内检测到多个手指尖位置,基于多个手指尖位置对多个内容框进行调整。
其中,预设时间段可以为确定内容框之后的一个时间段,该预设时间段可以理解为手指尖位置的采样窗口,本实施例对该预设时间段的长度不做限制,例如,该预设时间段可以为5秒。手指尖位置可以为检测到的表征手指尖的位置的数据。
在本公开实施例中,用户可以将记录有题目的纸质材料放置到摄像头的取景区域内,进行题目录入,并且在屏幕中看到取景区域内的图像。在题目录入装置确定内容框之后,将该内容框展示在屏幕中。用户根据自身的需求,在取景区域内,通过手指尖对内容框进行调整。题目录入装置可以获取预设时间段内取景区域内的待处理图像,并通过手关键点检测模型对待处理图像进行指尖识别,得到多个手指尖位置。其中,本实施例对该手关键点检测模型不做限制,例如,该手关键点检测模型可以为高分辨率网络(High-ResolutionNet,HRNet)模型。或者,若待处理图像为预先生成的电子图像,用户可以在展示有内容框的触摸屏上进行触控操作,题目录入装置响应于该触控操作,生成相应的手指尖位置。
在本实施例中,确定预设时间段内的多个手指尖位置之后,题目录入装置可以根据该手指尖位置对内容框进行调整。在本公开一些实施例中,基于多个手指尖位置对多个内容框进行调整,包括如下至少一项:
响应于确定多个手指尖位置分布在两个内容框,将这两个内容框进行关联。
在本示例中,若在预设时间段内,手指尖位置分别出现在两个内容框,则将该两个内容框进行关联。图5为本公开实施例提供的一种根据指尖位置对内容框进行调整的示意图,如图5所示,该待处理图像包括两个页面栏框,单选选择题4跨越了两个页面栏框,分别识别为框501和框502,若检测到手指尖位置分布在该框501和框502,则将框501和框502进行关联。上述方案中,通过将内容框相关联,实现了对将一个内容框误分为多个内容框的错误的校正。
响应于确定多个手指尖位置分布在同一内容框,则将该内容框划分为左右两个子内容框或上下两个子内容框。
其中,子内容框可以为对内容框进行分割得到的内容框。
在本示例中,若检测到手指尖位置在同一个内容框中出现两次,若两个手指尖位置满足水平条件,说明用户在内容框内部的左右分别点击,则确定位于两个手指尖位置之间的纵向划分线,将该内容框划分为左右两个内容框。若两个手指尖位置满足竖直条件,说明用户在内容框内部的上下分别点击,则确定位于两个手指尖位置之间的横向划分线,将该内容框划分为上下两个内容框。从而,将被误检测为一个内容框的校正为多个内容框,提高了内容框正确性。其中,水平条件可以为用于判断多个手指尖位置是否水平分布的条件。纵向划分线可以为方向为纵向的内容框划分线。竖直条件可以为用于判断多个手指尖位置是否竖直分布的条件。横向划分线可以为方向为横向的内容框划分线。
举例而言,如图5所示,由于填空题中的习题1和习题2均包含较多的图片,习题1与习题2之间的边界较为模糊。进行内容检测之后,未能将习题1和习题2区分,生成的框503中框有习题1的内容和习题2的内容。用户可以在框503的左右两部分进行点击,题目录入装置将该框503分为左右两个新的内容框。图6为本公开实施例提供的一种根据指尖位置对内容框进行调整的结果的示意图,如图6所示,调整之后的框503可以被分为框603和框604。上述方案中,通过将内容框划分为子内容框,实现了对未将内容框进行划分的错误的校正。
一种可选的实施方式中,在确定同一内容框内分布有多个手指尖位置之后,题目录入装置可以对该多个手指尖位置进行拟合,得到内容框内的多个拟合图形,并判断该拟合图形是否属于预设图形,若是,则将该内容框划分为左右两个子内容框或上下两个子内容框。其中,预设图形有多种,本实施例不做限制,例如,该预设图形可以为椭圆形。上述方案中,通过将手指尖位置拟合为拟合图形,并且判断拟合图形是否属于预设图形,降低了对内容框进行划分的误操作的可能性。
响应于确定多个手指尖位置位于一个内容框的顶点区域,基于多个手指尖位置的滑动方向调整所述内容框的大小。
其中,顶点可以为内容框的边线的交点,该顶点可以为内容框的任一个顶点。顶点区域可以为距离顶点在预设识别距离内的区域,预设识别距离可以根据用户需求等进行设置,本实施例不做限制。通过设置顶点区域扩大了调整操作的识别范围,提高了内容框调整操作的便捷性。
在本示例中,若检测到多个手指尖位置在一个内容框的顶点区域并发生滑动位置,则按照手指位置的滑动方向调整内容框的大小,直至手指尖位置停止移动。举例而言,如图5所示,若在框504的右下顶点的顶点区域检测到手指尖位置,则按照手指尖位置将框504缩小。如图6所示,缩小之后的框504可以为框605。从而,调整内容框的大小,使得该内容框的大小与其中的内容更为匹配,提高了内容框正确性。
接下来通过一个具体的示例对本公开实施例中的题目录入方法,进行进一步说明。图7为本公开实施例提供的再一种题目录入方法的流程示意图,如图7所示,该题目录入方法包括:
步骤701,获取待处理图像并对待处理图像进行矫正。
具体地,题目录入装置可以设置于学习机中,用户可以将纸质材料放置于学习机的前置反光镜下,进行录入,题目录入装置获取待处理图像之后,对待处理图像进行校正处理,并基于校正处理之后的待处理图像进行后续的图像处理。
步骤702,判断待处理图像是否为封面。若是,执行步骤703;否则,分别执行步骤704-707。
步骤703,识别封面文字,并标注为封面存储至题库。
具体地,对待处理图像进行文本检测,识别封面文字,并将该封面文字存储至题库。
步骤704,通过文本行检测模型确定文本行框。
具体地,文本行检测模型可以包括印刷体识别子模型、手写体识别子模型、公式识别子模型。本实施例对上述三个子模型的类型不做限制。例如,印刷体识别子模型和手写体识别子模型可以为卷积循环神经网络(Convolutional Recurrent Neural Network)模型,公式识别模型可以为注意力(Attention)模型。
通过印刷体识别子模型识别出待处理图像中的印刷体文本框,通过手写体识别子模型识别出待处理图像中的手写体文本框,通过公式识别子模型识别出待处理图像中的公式框。并且,使用成行算法将一行中包括的印刷体文本框、手写体文本框、公式框中的一个或多个进行拼接,得到文本行框。其中,若印刷体文本中包含手写体文本,该手写体文本可以被识别为待替换字符。
步骤705,通过图标检测模型确定图案框。
具体地,若该图案框中的内容为连线题,则通过图像分割模型去除连线题中的手写笔迹,若图案框中的内容为表格,则通过表格格式转换模型,将该表格转换为拉泰赫格式。
步骤706,通过对错判断模型检测待处理图像批改的判断框。
其中,对错判断模型可以为无锚框的目标检测模型。判断框内可以存在表征对的标识或者表征错的标识。
步骤707,通过版面检测模型确定基础框及其位置信息。
具体地,通过版面检测模型可以检测页面栏框、大题框、小题框等基础框。
步骤708,根据位置信息确定基础框的位置结构关系。
具体地,计算页面栏框与大题框之间的面积交并比,确定隶属于该页面栏框的目标大题框,计算大题框与小题框之间的面积交并比,确定隶属于该大题框的小题框,根据基础框之间的隶属关系,确定基础框的位置结构关系。
步骤709,确定文本行框和基础框之间的位置隶属关系。
具体地,在确定文本行框和基础框之后,针对各文本行框,按照小题框、大题框、页面栏框的顺序,依次确定该文本行框和基础框的第三面积交并比,若第三面积交并比大于预设值,则将该第三面积交并比确定为第二目标面积交并比,该第二目标面积交并比对应的文本行框和基础框之间具有隶属关系。
步骤710,基于手指尖位置微调内容框。
具体地,如果页面栏框的数量为多个,存在题目跨域了两个页面栏框,用户可以手指点击这两个页面栏框,将该两个页面栏框建立关联。在多图题中,图像较多,题与题之间没有明显的边界,较为容易将两个题目识别在同一个大题框内,用户可以手指点击该大题框的两侧,响应于该点击操作,题目录入装置将该大题框分为两个大题框。在内容框过大的情况下,用户可以将手指放在在纸质材料中该内容框对应的顶点并滑动,响应于该滑动操作,题目录入装置调整内容框的大小。
步骤711,确定相对位置关系,并基于内容框的位置结构关系和相对位置关系对基础框进行排序,得到排序标记结果。
获取各基础框的位置信息,针对页面栏框,根据位置信息从左至右进行排序,
具体地,根据页面栏框的中心点坐标,确定页面栏框的第一排序标记结果,该第一排序标记结果按照从左至右,依次递增。确定隶属于同一页面栏框的目标大题框,根据目标大题框的中心点坐标,确定目标大题框的第二排序标记结果,该第二排序标记结果从左至右或者从上至下依次递增。确定隶属于同一大题框的目标小题框,根据目标小题框的中心点坐标,确定目标小题框的第三排序标记结果,该第三排序标记结果从左至右或者从上至下依次递增。
可选的,上述基础框中,针对属于同一行的基础框的中心点坐标,纵坐标调整为相同;针对属于同一列的基础框的中心点坐标,横坐标调整为相同。从而使得内容还原之后得到的待录入题目的排布更加整齐。
步骤712,确定图案框和基础框之间的位置隶属关系。
具体地,在确定图案框和基础框之后,针对各图案框,按照小题框、大题框、页面栏框的顺序,依次确定该图案框和基础框的第三面积交并比,若第三面积交并比大于预设值,则将该第三面积交并比确定为第二目标面积交并比,该第二目标面积交并比对应的图案框和基础框之间具有隶属关系。
步骤713,确定判断框和的基础框之间的位置隶属关系。
具体地,在确定判断框和基础框之后,针对各判断框,按照小题框、大题框、页面栏框的顺序,依次确定该判断框和基础框的面积交并比,若面积交并比大于预设值,则将该面积交并比确定为目标面积交并比,该目标面积交并比对应的判断框和基础框之间具有隶属关系。
步骤714,根据位置结构关系、相对位置关系进行内容还原。
具体地,根据位置结构关系,相对位置关系,将各内容框中的内容进行还原,得到电子版数据,并将识别到的手写体文本作为解析答案进行记录。
步骤715,若题库中不存在该待录入题目,则将该待录入题目存储至题库。
具体地,判断题库中是否存在该待录入题目。若是,则执行步骤716。否则,将该待录入题目录入题库。
步骤716,若发生翻页事件,则返回步骤702。
具体地,题目录入装置通过结构相似性(Structural Similarity,SSIM)算法,周期性的对获取的待处理图像进行比对,计算相似性,若相邻的相似相的差值大于预设差值阈值,则判断发生翻页事件,返回判断新的待处理图像是否为封面。
可选的,在预设数量的待处理图像完成录入之后,可以对题目进行分析,统计各级知识点的对错情况,确定易错知识点,并从数据库中确定易错知识点的关联题目,向用户展示该关联题目。并且该待处理图像可以为批改之后的纸质材料。
上述方案中,提高了自动录入的准确性,并且通过手势对内容框进行调整,进一步提高了内容框的准确性。
对应于前述题目录入方法,本公开实施例还提供了一种题目录入装置,图8为本公开实施例提供的一种题目录入装置的结构示意图,该装置可由软件和/或硬件实现,一般可集成在电子设备中。如图8所示,题目录入装置800包括:
图像获取模块801,用于获取待处理图像,其中,所述待处理图像包括待录入题目;
内容检测模块802,用于对所述待处理图像进行内容检测,确定多个内容框以及每个内容框的位置信息;
位置结构关系确定模块803,用于基于每个内容框的位置信息,确定所述多个内容框的位置结构关系;
相对位置关系确定模块804,用于基于每个内容框的位置信息和所述位置结构关系,确定所述多个内容框的相对位置关系;
题目还原模块805,用于基于所述位置结构关系和所述相对位置关系对每个内容框进行内容还原,得到所述待录入题目,并将所述待录入题目存储至题库。
在一些实施方式中,所述内容框包括基础框和元素框,所述基础框包括页面栏框、大题框、小题框,所述元素框包括文本行框、图案框,以及表格框。
在一些实施方式中,位置结构关系确定模块803,包括:
面积确定子模块,用于基于每个内容框的位置信息,确定每个内容框的面积;
第一关系确定子模块,用于基于每个基础框的面积,利用面积交并比算法对两两基础框进行计算,确定各基础框之间的第一位置隶属关系;
第二关系确定子模块,用于基于每个内容框的面积,利用面积交并比算法对元素框与基础框进行计算,确定各元素框在一个基础框的第二位置隶属关系;
第三关系确定子模块,用于将所述第一位置隶属关系与所述第二位置隶属关系确定为所述位置结构关系。
在一些实施方式中,第一关系确定子模块,用于:
基于每个基础框的面积,分别计算所述大题框、所述页面栏框之间的第一面积交并比以及所述小题框、所述大题框之间的第二面积交并比;
在所述第一面积交并比与所述第二面积交并比中确定大于预设值的第一目标面积交并比,并确定所述第一目标面积交并比对应的大题框和页面栏框、小题库和大题库之间具有隶属关系,进而得到第一位置隶属关系。
在一些实施方式中,第二关系确定子模块,用于:
按照各基础框的面积从小到大的顺序,分别计算每个元素框与各基础框之间的第三面积交并比;
在所述第三面积交并比中确定大于预设值的第二目标面积交并比,确定所述第二目标面积交并比对应的一个元素框和一个基础框之间具有隶属关系,进而得到第二位置隶属关系。
在一些实施方式中,相对位置关系确定模块804,用于:
基于所述位置结构关系,确定具有隶属关系的多个内容框集合,其中,每个内容框集合包括第一内容框和第二内容框,所述第一内容框隶属于所述第二内容框;
基于每个内容框的位置信息中的左顶点坐标,确定每个内容框集合中第一内容框相对于第二内容框的相对位置,以得到所述多个内容框的相对位置关系。
在一些实施方式中,所述题目录入装置800还包括:
排序模块,用于基于每个内容框的位置信息和所述位置结构关系对各基础框进行排序标记,得到排序标记结果;
其中,题目还原模块805,用于;
基于所述位置结构关系、所述相对位置关系以及所述排序标记结果对每个内容框进行内容还原,得到所述待录入题目。
在一些实施方式中,排序模块,用于:
按照中心点的横坐标对所述页面栏框进行排序标记,得到所述第一排序标记结果;
基于所述位置结构关系确定隶属于所述页面栏框的大题框,并按照中心点的横坐标和/或纵坐标对隶属于所述页面栏框中的大题框进行排序标记,得到所述第二排序标记结果,其中,所述第二排序标记结果中包括所述第一排序标记结果;
基于所述位置结构关系确定隶属于所述大题框的小题框,并按照中心点的横坐标和/或纵坐标对隶属于所述大题框的小题框进行排序标记,得到所述第三排序标记结果,其中,所述第三排序标记结果中包括所述第二排序标记结果。
在一些实施方式中,所述题目录入装置800还包括:
调整模块,用于在对所述待处理图像进行内容检测,确定多个内容框以及每个内容框的位置信息之后,对所述待处理图像进行检测,响应于在预设时间段内检测到多个手指尖位置,基于所述多个手指尖位置对所述多个内容框进行调整。
在一些实施方式中,调整模块,用于;
响应于确定多个手指尖位置分布在两个内容框,将这两个内容框进行关联;
响应于确定多个手指尖位置分布在同一内容框,则将该内容框划分为左右两个子内容框或上下两个子内容框;
响应于确定多个手指尖位置位于一个内容框的顶点区域,基于所述多个手指尖位置的滑动方向调整所述内容框的大小。
本公开实施例所提供的题目录入装置可执行本公开任意实施例所提供的题目录入方法,具备执行方法相应的功能模块和有益效果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置实施例的具体工作过程,可以参考方法实施例中的对应过程,在此不再赘述。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的XYZ方法。所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
参考图9,现将描述可以作为本公开的服务器或客户端的电子设备900的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,电子设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
电子设备900中的多个部件连接至I/O接口905,包括:输入单元906、输出单元907、存储单元908以及通信单元909。输入单元906可以是能向电子设备900输入信息的任何类型的设备,输入单元906可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元907可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元908可以包括但不限于磁盘、光盘。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理。例如,在一些实施例中,题目录入方法均可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM902和/或通信单元909而被载入和/或安装到电子设备900上。在一些实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行题目录入方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种题目录入方法,包括:
获取待处理图像,其中,所述待处理图像包括待录入题目;
对所述待处理图像进行内容检测,确定多个内容框以及每个内容框的位置信息;
基于每个内容框的位置信息,确定所述多个内容框的位置结构关系;
基于每个内容框的位置信息和所述位置结构关系,确定所述多个内容框的相对位置关系;
基于所述位置结构关系和所述相对位置关系对每个内容框进行内容还原,得到所述待录入题目,并将所述待录入题目存储至题库。
2.如权利要求1所述的题目录入方法,其中,所述内容框包括基础框和元素框,所述基础框包括页面栏框、大题框、小题框,所述元素框包括文本行框、图案框,以及表格框。
3.如权利要求2所述的题目录入方法,其中,基于每个内容框的位置信息,确定所述多个内容框的位置结构关系,包括:
基于每个内容框的位置信息,确定每个内容框的面积;
基于每个基础框的面积,利用面积交并比算法对两两基础框进行计算,确定各基础框之间的第一位置隶属关系;
基于每个内容框的面积,利用面积交并比算法对元素框与基础框进行计算,确定各元素框在一个基础框的第二位置隶属关系;
将所述第一位置隶属关系与所述第二位置隶属关系确定为所述位置结构关系。
4.如权利要求3所述的题目录入方法,其中,基于每个基础框的面积,利用面积交并比算法对两两基础框进行计算,确定各基础框之间的第一位置隶属关系,包括:
基于每个基础框的面积,分别计算所述大题框、所述页面栏框之间的第一面积交并比以及所述小题框、所述大题框之间的第二面积交并比;
在所述第一面积交并比与所述第二面积交并比中确定大于预设值的第一目标面积交并比,并确定所述第一目标面积交并比对应的大题框和页面栏框、小题库和大题库之间具有隶属关系,进而得到第一位置隶属关系。
5.如权利要求3所述的题目录入方法,其中,基于每个内容框的面积,利用面积交并比算法对元素框与基础框进行计算,确定各元素框在一个基础框的第二位置隶属关系,包括:
按照各基础框的面积从小到大的顺序,分别计算每个元素框与各基础框之间的第三面积交并比;
在所述第三面积交并比中确定大于预设值的第二目标面积交并比,确定所述第二目标面积交并比对应的一个元素框和一个基础框之间具有隶属关系,进而得到第二位置隶属关系。
6.如权利要求1所述的题目录入方法,其中,基于每个内容框的位置信息和所述位置结构关系,确定所述多个内容框的相对位置关系,包括:
基于所述位置结构关系,确定具有隶属关系的多个内容框集合,其中,每个内容框集合包括第一内容框和第二内容框,所述第一内容框隶属于所述第二内容框;
基于每个内容框的位置信息中的左顶点坐标,确定每个内容框集合中第一内容框相对于第二内容框的相对位置,以得到所述多个内容框的相对位置关系。
7.如权利要求2所述的题目录入方法,其中,所述方法还包括:
基于每个内容框的位置信息和所述位置结构关系对各基础框进行排序标记,得到排序标记结果;
其中,基于所述位置结构关系和所述相对位置关系对每个内容框进行内容还原,得到所述待录入题目,包括:
基于所述位置结构关系、所述相对位置关系以及所述排序标记结果对每个内容框进行内容还原,得到所述待录入题目。
8.如权利要求7所述的题目录入方法,其中,所述排序标记结果包括第一排序标记结果、第二排序标记结果、第三排序标记结果,基于每个内容框的位置信息和所述位置结构关系对各基础框进行排序标记,得到排序标记结果,包括:
按照中心点的横坐标对所述页面栏框进行排序标记,得到所述第一排序标记结果;
基于所述位置结构关系确定隶属于所述页面栏框的大题框,并按照中心点的横坐标和/或纵坐标对隶属于所述页面栏框中的大题框进行排序标记,得到所述第二排序标记结果,其中,所述第二排序标记结果中包括所述第一排序标记结果;
基于所述位置结构关系确定隶属于所述大题框的小题框,并按照中心点的横坐标和/或纵坐标对隶属于所述大题框的小题框进行排序标记,得到所述第三排序标记结果,其中,所述第三排序标记结果中包括所述第二排序标记结果。
9.如权利要求1所述的题目录入方法,其中,对所述待处理图像进行内容检测,确定多个内容框以及每个内容框的位置信息之后,所述方法还包括:
对所述待处理图像进行检测,响应于在预设时间段内检测到多个手指尖位置,基于所述多个手指尖位置对所述多个内容框进行调整。
10.如权利要求9所述的题目录入方法,其中,基于所述多个手指尖位置对所述多个内容框进行调整,包括:
响应于确定多个手指尖位置分布在两个内容框,将这两个内容框进行关联;
响应于确定多个手指尖位置分布在同一内容框,将该内容框划分为左右两个子内容框或上下两个子内容框;
响应于确定多个手指尖位置位于一个内容框的顶点区域,基于所述多个手指尖位置的滑动方向调整所述内容框的大小。
11.一种题目录入装置,包括:
图像获取模块,用于获取待处理图像,其中,所述待处理图像包括待录入题目;
内容检测模块,用于对所述待处理图像进行内容检测,确定多个内容框以及每个内容框的位置信息;
位置结构关系确定模块,用于基于每个内容框的位置信息,确定所述多个内容框的位置结构关系;
相对位置关系确定模块,用于基于每个内容框的位置信息和所述位置结构关系,确定所述多个内容框的相对位置关系;
题目还原模块,用于基于所述位置结构关系和所述相对位置关系对每个内容框进行内容还原,得到所述待录入题目,并将所述待录入题目存储至题库。
12.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-10中任一项所述的题目录入方法。
13.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-10中任一项所述的题目录入方法。
CN202410093124.2A 2024-01-22 2024-01-22 题目录入方法、装置、设备及介质 Pending CN117935269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410093124.2A CN117935269A (zh) 2024-01-22 2024-01-22 题目录入方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410093124.2A CN117935269A (zh) 2024-01-22 2024-01-22 题目录入方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN117935269A true CN117935269A (zh) 2024-04-26

Family

ID=90753464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410093124.2A Pending CN117935269A (zh) 2024-01-22 2024-01-22 题目录入方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117935269A (zh)

Similar Documents

Publication Publication Date Title
US20200286402A1 (en) Method and system for assisting with math problem
CN111144215B (zh) 图像处理方法、装置、电子设备及存储介质
CN105631393A (zh) 信息识别方法及装置
CN109598185B (zh) 图像识别翻译方法、装置、设备及可读存储介质
US11341319B2 (en) Visual data mapping
CN112580503A (zh) 一种作业批改方法、装置、设备及存储介质
CN113420727B (zh) 表格检测模型的训练方法、装置及表格检测方法、装置
US8750571B2 (en) Methods of object search and recognition
CN110889406B (zh) 一种习题数据卡的信息采集方法、***及终端
CN112015634A (zh) 页面结构信息生成方法、装置和电子设备
CN117935269A (zh) 题目录入方法、装置、设备及介质
CN110852131A (zh) 一种考试卡的信息采集方法、***及终端
CN113850239B (zh) 多文档检测方法、装置、电子设备及存储介质
CN113486171B (zh) 一种图像处理方法及装置、电子设备
JPWO2019225229A1 (ja) 採点装置、採点方法、記録媒体
CN115294573A (zh) 作业批改方法、装置、设备及介质
CN111062377B (zh) 一种题号检测方法、***、存储介质及电子设备
CN111563497A (zh) 基于移动轨迹的框题方法、装置、电子设备及存储介质
CN112686253A (zh) 一种用于电子白板的屏幕文字提取***及方法
CN110852229A (zh) 图像中文本区域的位置确定方法、装置、设备及存储介质
JP6155565B2 (ja) 学習支援装置、学習支援プログラム及び学習支援方法
TW201822132A (zh) 基於試卷圖像的試題生成系統及其方法
CN113705736A (zh) 一种答案确定方法、判题方法及装置和电子设备
Zhang et al. Automatic Reading Order Detection of Comic Panels
CN114627471A (zh) 科目的识别方法、装置、终端设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination