CN111652140A - 基于深度学习的题目精准分割方法、装置、设备和介质 - Google Patents

基于深度学习的题目精准分割方法、装置、设备和介质 Download PDF

Info

Publication number
CN111652140A
CN111652140A CN202010495964.3A CN202010495964A CN111652140A CN 111652140 A CN111652140 A CN 111652140A CN 202010495964 A CN202010495964 A CN 202010495964A CN 111652140 A CN111652140 A CN 111652140A
Authority
CN
China
Prior art keywords
initial
frame
segmentation
network
bounding box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010495964.3A
Other languages
English (en)
Inventor
邓小兵
张亚龙
张春雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN202010495964.3A priority Critical patent/CN111652140A/zh
Publication of CN111652140A publication Critical patent/CN111652140A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例涉及题目检测技术领域,公开了一种基于深度学习的题目精准分割方法、装置、设备和介质。该方法包括:创建并训练基于深度学习的实例分割模型,所述实例分割模型包括特征提取网络、区域候选网络、回归网络以及分割网络;获取输入图像,并对所述输入图像进行切分,形成目标图片;将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标,通过非极大值抑制算法利用初始多边形框面积的IOU对所述初始多边形框进行过滤,得到最终多边形框坐标。实施本发明实施例,可以通过将深度学习中的实例分割算法引入到题目分割的应用中,而且使用目标轮廓计算IOU,而不是矩形框计算IOU,提高题目分割的准确率。

Description

基于深度学习的题目精准分割方法、装置、设备和介质
技术领域
本发明涉及题目检测技术领域,具体涉及一种基于深度学习的题目精准分割方法、装置、电子设备和存储介质。
背景技术
目前针对文档(练习册、书本、试卷等等)题目的检测方案不多,主要有以下2种:
基于矩形框的目标检测类算法,在文档图片十分标准(尤其是扫描件)的情况下,一定程度上可以满足需求。但目前移动端(手机、平板)的产生的图片数据数量已经占据主流,通过手机或者平板拍照获取的文档图片普遍有不同程度的倾斜、扭曲、拱起、模糊等等,此时使用矩形框检测效果大打折扣,不光准确率容易受影响,而且分割出的题目容易带进干扰内容;
基于题号检测和OCR文本行检测相结合并融入规则的方法,使用题号确定题目上下范围,OCR检测得到的文本行确定左右边界,然后基于一定的规则确定目标题目范围。这样得到的题目轮廓比较粗略,当不存在题号或者题号漏检时,准确率非常低。
发明内容
针对所述缺陷,本发明实施例公开了一种基于深度学习的题目精准分割方法、装置、电子设备和存储介质,其可以自主适应各种文档的排版,良好地分割题目。
本发明实施例第一方面公开一种基于深度学习的题目精准分割方法,所述方法包括:
创建并训练基于深度学习的实例分割模型,所述实例分割模型包括特征提取网络、区域候选网络、回归网络以及分割网络;
获取输入图像,并对所述输入图像进行切分,形成目标图片;
将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标,其包括:
利用所述特征提取网络提取所述目标图片的特征图;
将所述特征图输入区域候选网络,生成候选边界框;
利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框;
将所述初始预测边界框输入分割网络中,输出每个初始预测边界框对应的初始多边形框坐标;
通过非极大值抑制算法利用初始多边形框面积的IOU对所述初始多边形框进行过滤,得到最终多边形框坐标。
作为一种可选的实施方式,在本发明实施例第一方面中,创建并训练基于深度学习的实例分割模型,包括:
创建基于深度学习的实例分割初始模型;
确定样本集并对所述样本集中每个样本图像绘制多边形包围框,每个多边形包围框包裹一个题目;
将每个样本图像分别输入所述实例分割初始模型中,通过反向传播算法对所述实例分割初始模型进行迭代训练,以调整实例分割初始模型的模型参数使得损失函数趋于收敛或小于第一预设阈值,最终得到训练后的实例分割模型。
作为一种可选的实施方式,在本发明实施例第一方面中,所述将所述特征图输入区域候选网络,生成候选边界框,包括:
利用设定大小的矩形框,采用所述矩形框不同的设定长宽比缩放滑动窗口,滑动窗口在所述特征图上滑动,对边界框进行预测,并将预测的矩形框映射到目标图片中,形成所述候选边界框;
利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框,包括:
利用回归网络中的分类分支预测所述候选边界框的分类得分,并滤除所述分类得分小于第二预设阈值的候选边界框;
利用回归网络的回归分支对保留的候选边界框进行平移变换或/和尺度缩放变换,得到初始预测边界框。
作为一种可选的实施方式,在本发明实施例第一方面中,通过非极大值抑制算法利用初始多边形框面积的IOU对所述初始多边形框进行过滤,得到最终多边形框坐标,包括:
获取每个初始多边形框的分类得分以及面积;
将所有初始多边形框的分类得分降序排列;
选取最高分类得分对应的初始多边形框,计算其与目标初始多边形框的面积IOU,若面积IOU大于给定阈值,将目标初始多边形框舍弃,保留最高分类得分对应的初始多边形框,再使用相同的方法遍历剩余初始多边形框;所述面积IOU为C/(A+B-C),其中,C为二个初始多边形框的交集面积,A和B分别为二个初始多边形框的面积;
确定最后保留的所有初始多边形框,作为最终多边形框,确定所述最终多边形框的坐标。
作为一种可选的实施方式,在本发明实施例第一方面中,获取每个初始多边形框的面积,包括:
确定每个初始多边形框以及其包围的像素点数,将所述初始多边形框坐标点的数量以及其包围的像素点数作为所述初始多边形框的面积。
作为一种可选的实施方式,在本发明实施例第一方面中,所述对所述输入图像进行切分,形成目标图片,包括:
识别输入图像中长和高的像素点数;
根据所述像素点数和预设规则对所述输入图像进行切分,得到一个或多个目标图片。
本发明实施例第二方面公开一种基于深度学习的题目精准分割装置,所述装置包括:
创建单元,用于创建并训练基于深度学习的实例分割模型,所述实例分割模型包括特征提取网络、区域候选网络、回归网络以及分割网络;
切分单元,用于获取输入图像,并对所述输入图像进行切分,形成目标图片;
识别单元,用于将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标;
所述识别单元,包括:
特征提取子单元,用于利用所述特征提取网络提取所述目标图片的特征图;
候选区域子单元,用于将所述特征图输入区域候选网络,生成候选边界框;
回归子单元,用于利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框;
输出子单元,用于将所述初始预测边界框输入分割网络中,输出每个初始预测边界框对应的初始多边形框坐标;
过滤子单元,用于通过非极大值抑制算法利用初始多边形框面积的IOU对所述初始多边形框进行过滤,得到最终多边形框坐标。
作为一种可选的实施方式,在本发明实施例第二方面中,所述创建单元,包括:
构建子单元,用于创建基于深度学习的实例分割初始模型;
样本子单元,用于确定样本集并对所述样本集中每个样本图像绘制多边形包围框,每个多边形包围框包裹一个题目;
训练子单元,用于将每个样本图像分别输入所述实例分割初始模型中,通过反向传播算法对所述实例分割初始模型进行迭代训练,以调整实例分割初始模型的模型参数使得损失函数趋于收敛或小于第一预设阈值,最终得到训练后的实例分割模型。
作为一种可选的实施方式,在本发明实施例第二方面中,所述候选区域子单元,包括:
滑动孙单元,用于利用设定大小的矩形框,采用所述矩形框不同的设定长宽比缩放滑动窗口,滑动窗口在所述特征图上滑动,对边界框进行预测,并将预测的矩形框映射到目标图片中,形成所述候选边界框;
所述回归子单元,包括:
分类孙单元,用于利用回归网络中的分类分支预测所述候选边界框的分类得分,并滤除所述分类得分小于第二预设阈值的候选边界框;
边框回归孙单元,用于利用回归网络的回归分支对保留的候选边界框进行平移变换或/和尺度缩放变换,得到初始预测边界框。
作为一种可选的实施方式,在本发明实施例第二方面中,所述过滤子单元,包括:
面积确定孙单元,用于获取每个初始多边形框的分类得分以及面积;
排序孙单元,用于将所有初始多边形框的分类得分降序排列;
计算孙单元,用于选取最高分类得分对应的初始多边形框,计算其与目标初始多边形框的面积IOU,若面积IOU大于给定阈值,将目标初始多边形框舍弃,保留最高分类得分对应的初始多边形框,再使用相同的方法遍历剩余初始多边形框;所述面积IOU为C/(A+B-C),其中,C为二个初始多边形框的交集面积,A和B分别为二个初始多边形框的面积;
保留确定孙单元,用于确定最后保留的所有初始多边形框,作为最终多边形框,确定所述最终多边形框的坐标。
作为一种可选的实施方式,在本发明实施例第二方面中,所述面积确定孙单元,包括:确定每个初始多边形框以及其包围的像素点数,将所述初始多边形框坐标点的数量以及其包围的像素点数作为所述初始多边形框的面积。
作为一种可选的实施方式,在本发明实施例第二方面中,所述切分单元,包括:
像素识别子单元,用于识别输入图像中长和高的像素点数;
目标图片获取子单元,用于根据所述像素点数和预设规则对所述输入图像进行切分,得到一个或多个目标图片。
本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的一种基于深度学习的题目精准分割方法的部分或全部步骤。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种基于深度学习的题目精准分割方法的部分或全部步骤。
本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种基于深度学习的题目精准分割方法的部分或全部步骤。
本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种基于深度学习的题目精准分割方法的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,创建并训练基于深度学习的实例分割模型,所述实例分割模型包括特征提取网络、区域候选网络、回归网络以及分割网络;获取输入图像,并对所述输入图像进行切分,形成目标图片;将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标,其包括:利用所述特征提取网络提取所述目标图片的特征图;将所述特征图输入区域候选网络,生成候选边界框;利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框;将所述初始预测边界框输入分割网络中,输出每个初始预测边界框对应的初始多边形框坐标;通过非极大值抑制算法利用初始多边形框面积的IOU对所述初始多边形框进行过滤,得到最终多边形框坐标。可见,实施本发明实施例,可以通过将深度学习中的实例分割算法引入到题目分割的应用中,可以适应多种非标准场景的题目分割任务,而且使用目标轮廓计算IOU,而不是矩形框计算IOU,明显地减少分割正确的题目被错误过滤掉情况,提高题目分割的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于深度学习的题目精准分割方法的流程示意图;
图2是本发明实施例公开的一种基于深度学习的题目精准分割装置的结构示意图;
图3是本发明实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种基于深度学习的题目精准分割方法、装置、电子设备和存储介质,可以通过将深度学习中的实例分割算法引入到题目分割的应用中,可以适应多种非标准场景的题目分割任务,题目分割效果得到了极大的提高,显著提高了版面分析的效率和准确率,以下结合附图进行详细描述。
实施例一
请参阅图1,图1是本发明实施例公开的一种题目精准分割方法的流程示意图。如图1所示,该题目精准分割方法包括以下步骤:
110、创建并训练基于深度学习的实例分割模型。
实例分割模型可以采用基于深度学习的实例分割网络搭建,例如可以采用MaskR-CNN实例分割网络。Mask R-CNN实例分割网络采用灵活、通用的目标实例分割框架,能够同时检测目标并进行实例分割,在原Faster R-CNN的基础上添加了object mask网络,速度大约为5FPS。
首先创建基于深度学习的实例分割初始模型,并对实例分割初始模型的网络参数随机初始化。实例分割初始模型包括特征提取网络、区域候选网络、回归网络以及分割网络。
确定样本集并对所述样本集中每个样本图像绘制多边形包围框,每个多边形包围框包裹一个题目。多边形包围框可以是人工绘制,也可以是通过标注工具例如VGG ImageAnnotator(VIA)自动标注。样本图像中至少包括一道或多道题目,每一道题目绘制一个多边形包围框,绘制的多边形包围框能够完全包裹题目且多边形包围框的面积最小,后续反向传播调整模式参数时会更准确。
将每个样本图像分别输入所述实例分割初始模型中,通过反向传播算法对所述实例分割初始模型进行迭代训练,以调整实例分割初始模型的模型参数使得损失函数趋于收敛或小于第一预设阈值,最终得到训练后的实例分割模型。损失函数包括为三部分损失函数之和,分别为分类分支损失函数、回归分支损失函数和分割分支的损失函数。每个样本图像的迭代次数不易过多,如果过多,则对其他样本图像的适应性较差,也不易过少如果次数过少,则最终的损失函数可能达不到要求,每个样本图像的迭代次数可以设置为3次,或者根据使用训练样本图像的总数和迭代总次数进行设定每个样本图像的迭代次数,例如,如果迭代总次数设置为1000,训练样本图像总数为200个,则每个样本图像的迭代次数为5次。
将每个样本图像分别输入所述实例分割初始模型中,对实例分割初始模型的训练过程是:
利用所述特征提取网络提取所述样本图像的特征图;将所述特征图输入区域候选网络,生成候选边界框;利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框;通过非极大值抑制算法对所述初始预测边界框进行过滤,得到最终预测边界框;将所述最终预测边界框输入分割网络中,输出每个最终预测边界框对应的多边形框坐标。
120、获取输入图像,并对所述输入图像进行切分,形成目标图片。
输入图像为用户输入的图像,示例性地,输入图像可以是用户通过图像采集装置对文档进行拍照后传送至智能设备的图像,也是用户从互联网下载的图像。因为输入到实例分割模型的图像尺寸会被实例分割模型进行规整化尺度处理,这种情况下,得到调整的图片是一些细节可能会被切除。实例分割模型设定的图像尺寸为短边不超过600像素点,长边不超过1000像素点,并且优先考虑长边尺寸。
因此,在本发明较佳的实施例中,在输入到实例分割模型前,先对输入图像进行分割,以适应实例分割模型的输入,同时还能保留输入图像最大限度的细节,即优选切分时不会把一道题目被切分到不同的目标图片中。
示例性地,可以检测输入图像的像素点数,先检测输入图像的水平像素点数,可以根据OCR检测的输入图像的文字行方向确定与其平行或接***行的输入图像的边缘,当水平像素点数小于等于600时,可以设置第一预设矩形框,该第一预设矩形框的短边为600像素点,长边为1000像素点数,将输入图像的上边缘与第一预设矩形框的短边边缘对齐后进行切分一个或多个目标图片(如果输入图像的竖向像素点数小于或等于1000,则切分一个目标图片,反之,则切分成多个目标图片);当水平像素点数大于600小于1000时,将输入图像的上边缘与第一预设矩形框的长边边缘对齐后进行切分一个或多个目标图片。如果水平像素点数大于1000时,通过OCR确定文字行中左边界横坐标最小的点,以及右边界中横坐标最大的点,将两个横坐标相减的像素点小于1000,左边界点和右边界点所在的竖向线段与第一预设矩形框的两个短边平行且位于两个短边之间,将输入图像的上边缘与第一预设矩形框的长边边缘对齐。如果水平像素点数大于1000且上述两个横坐标相减的像素点也大于1000,且判断输入图像的版面数,可以通过左边界点坐标的聚类确定,如果聚类结果为1类,则为一个版面,这种情况下,不易分割,可以在不改变分辨率的情况下改变输入图像的尺寸,如果为多个版面,则可以针对每个版面进行一次切分,然后判断每个版面的左右边界的横坐标相减的像素点数与600和1000的关系,按照上述方式针对每个版面再进行切分。
130、将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标。
以Mask R-CNN实例分割网络为例:请参照图2所示,实例分割模型识别多边形框坐标的方法包括以下步骤:
131、利用所述特征提取网络提取所述目标图片的特征图。
特征提取网络可以采用深度残差网络(ResNet101)和特征金字塔网络(FPN)的结合,将目标图片输入该特征提取网络中,输出多张尺寸不同的特征图。
132、将所述特征图输入区域候选网络,生成候选边界框。
区域候选网络和步骤133的回归网络为Faster R-CNN的核心,可以采用RPN网络,其中,区域候选网络主要应用RPN网络的全卷积网络,采用多种不同大小矩形框Anchor(例如3种,分别为128×64,256×128,512×256),用3种长宽比1:1,1:2,2:1(共9个类型的Anchor)进行缩放滑动窗口,将9个类型的Anchor在各特征图上滑动,以滑动窗口的中心位置为核心,对题目候选区域进行预测,在各层特征图上生成长宽比不同的候选边界框;通过各特征图与原图之间的映射关系,将候选边界框映射回原图。
133、利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框。
回归网络采用RPN网络的两个全连接层,分别为分类分支层和回归分支层。利用分类分支层预测所述候选边界框的分类得分,并滤除所述分类得分小于第二预设阈值的候选边界框(训练时,滤除候选边框与标注边界框IOU小于第三预设阈值的候选边界框);利用回归分支层对保留的候选边界框进行平移变换或/和尺度缩放变换,得到初始预测边界框,使得初始预测边界框尽可能接近真实的边界框。
134、将所述初始预测边界框输入分割网络中,输出每个初始预测边界框对应的初始多边形框坐标。
将所述初始预测边界框输入分割网络中,输出每个初始预测边界框对应的多边形框坐标。
分割网络可以采用全卷积网络,对每个初始预测边界框内的各个像素进行二值化掩码,即预测初始预测边界框内的各个像素属于该个类别的概率,如果概率大于第四预设阈值(例如0.5),则将这些像素点置于1,反之,将这些像素点置于0,然后通过连通域算法得到二值化掩码,统计并输出这些置于1的最外侧的像素点坐标(临近点搜索,如果搜到的临近点的为0,则为外侧像素点,记录其坐标),这些像素点坐标构成了初始多边形框坐标。
135、通过非极大值抑制算法利用初始多边形框面积的IOU对所述初始多边形框进行过滤,得到最终多边形框坐标。
目前实例分割算法生成一定数量的候选框后,还是使用和目标检测一样的NMS后处理流程来去除多余的框,这种后处理方式一般含有一个隐含假设,就是目标长宽比例在[0.5,2]这个范围附近,或者说目标的平均形状接近于正方形,对于标准文档图片是可以的,但是对于目前手机或者平板拍摄的文档图片(由于拍摄角度或者文档摆放方式导致倾斜、扭曲等等)以及特殊题目形状(例如宽高比例在[6,2]之间,与常规目标检测中的目标形状差异明显)来说,存在一定的问题,它可能会将正确的框或者实例抑制掉。
因此,在本发明实施例中,使用目标轮廓计算IOU,而不是矩形框计算IOU,明显地减少分割正确的题目被错误过滤掉情况,提高题目分割的准确率。
具体地,获取每个初始多边形框的分类得分以及面积;
将所有初始多边形框的分类得分降序排列;
选取最高分类得分对应的初始多边形框,计算其与目标初始多边形框的面积IOU,若面积IOU大于给定阈值,将目标初始多边形框舍弃,保留最高分类得分对应的初始多边形框,再使用相同的方法遍历剩余初始多边形框;所述面积IOU为C/(A+B-C),其中,C为二个初始多边形框的交集面积,A和B分别为二个初始多边形框的面积;
确定最后保留的所有初始多边形框,作为最终多边形框,确定所述最终多边形框的坐标。
示例性地,初始多边形框的面积可以是所述初始多边形框坐标点数以及其包围的像素点数的总和。
140、基于多边形框坐标对目标图片中的各个题目进行分割,得到各个题目子图片;或者将该多边形框坐标呈现于目标图片中,并将多边形框坐标围成的区域内填充一定的颜色,以使用户看到的目标页面在视觉上更加友好,不同多边形框轮廓填充不同的颜色。
实施本发明实施例,通过将深度学习中的实例分割算法引入到题目分割的应用中,可以适应多种非标准场景的题目分割任务,不引入额外的内容,不依赖题号,使用目标轮廓计算IOU,而不是矩形框计算IOU,明显地减少分割正确的题目被错误过滤掉情况,提高题目分割的准确率。
实施例二
请参阅图2,图2是本发明实施例公开的一种题目精准分割装置的结构示意图。如图2所示,该题目精准分割装置可以包括:
创建单元210,用于创建并训练基于深度学习的实例分割模型,所述实例分割模型包括特征提取网络、区域候选网络、回归网络以及分割网络;
切分单元220,用于获取输入图像,并对所述输入图像进行切分,形成目标图片;
识别单元230,用于将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标;
所述识别单元230,包括:
特征提取子单元231,用于利用所述特征提取网络提取所述目标图片的特征图;
候选区域子单元232,用于将所述特征图输入区域候选网络,生成候选边界框;
回归子单元233,用于利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框;
输出子单元234,用于将所述初始预测边界框输入分割网络中,输出每个初始预测边界框对应的初始多边形框坐标;
过滤子单元235,用于通过非极大值抑制算法利用初始多边形框面积的IOU对所述初始多边形框进行过滤,得到最终多边形框坐标。
作为一种可选的实施方式,所述创建单元210,可以包括:
构建子单元211,用于创建基于深度学习的实例分割初始模型;
样本子单元212,用于确定样本集并对所述样本集中每个样本图像绘制多边形包围框,每个多边形包围框包裹一个题目;
训练子单元213,用于将每个样本图像分别输入所述实例分割初始模型中,通过反向传播算法对所述实例分割初始模型进行迭代训练,以调整实例分割初始模型的模型参数使得损失函数趋于收敛或小于第一预设阈值,最终得到训练后的实例分割模型。
作为一种可选的实施方式,所述候选区域子单元232,可以包括:
滑动孙单元2321,用于利用设定大小的矩形框,采用所述矩形框不同的设定长宽比缩放滑动窗口,滑动窗口在所述特征图上滑动,对边界框进行预测,并将预测的矩形框映射到目标图片中,形成所述候选边界框;
所述回归子单元233,包括:
分类孙单元2331,用于利用回归网络中的分类分支预测所述候选边界框的分类得分,并滤除所述分类得分小于第二预设阈值的候选边界框;
边框回归孙单元2332,用于利用回归网络的回归分支对保留的候选边界框进行平移变换或/和尺度缩放变换,得到初始预测边界框。
作为一种可选的实施方式,所述过滤子单元235,包括:
面积确定孙单元2351,用于获取每个初始多边形框的分类得分以及面积;
排序孙单元2352,用于将所有初始多边形框的分类得分降序排列;
计算孙单元2353,用于选取最高分类得分对应的初始多边形框,计算其与目标初始多边形框的面积IOU,若面积IOU大于给定阈值,将目标初始多边形框舍弃,保留最高分类得分对应的初始多边形框,再使用相同的方法遍历剩余初始多边形框;所述面积IOU为C/(A+B-C),其中,C为二个初始多边形框的交集面积,A和B分别为二个初始多边形框的面积;
保留确定孙单元2354,用于确定最后保留的所有初始多边形框,作为最终多边形框,确定所述最终多边形框的坐标。
作为一种可选的实施方式,所述面积确定孙单元2351,可以包括:确定每个初始多边形框以及其包围的像素点数,将所述初始多边形框坐标点的数量以及其包围的像素点数作为所述初始多边形框的面积。
作为一种可选的实施方式,所述切分单元220,可以包括:
像素识别子单元221,用于识别输入图像中长和高的像素点数;
目标图片获取子单元222,用于根据所述像素点数和预设规则对所述输入图像进行切分,得到一个或多个目标图片。
图2所示的题目精准分割装置,通过将深度学习中的实例分割算法引入到题目分割的应用中,可以适应多种非标准场景的题目分割任务,不引入额外的内容,不依赖题号,使用目标轮廓计算IOU,而不是矩形框计算IOU,明显地减少分割正确的题目被错误过滤掉情况,提高题目分割的准确率。
实施例三
请参阅图3,图3是本发明实施例公开的一种电子设备的结构示意图。如图3所示,该电子设备可以包括:
存储有可执行程序代码的存储器310;
与存储器310耦合的处理器320;
其中,处理器320调用存储器310中存储的可执行程序代码,执行实施例一的基于深度学习的题目精准分割方法中的部分或全部步骤。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行实施例一的基于深度学习的题目精准分割方法中的部分或全部步骤。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一的基于深度学习的题目精准分割方法中的部分或全部步骤。
本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一的基于深度学习的题目精准分割方法中的部分或全部步骤。
在本发明的各种实施例中,应理解,所述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种基于深度学习的题目精准分割方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种基于深度学习的题目精准分割方法,其特征在于,包括:
创建并训练基于深度学习的实例分割模型,所述实例分割模型包括特征提取网络、区域候选网络、回归网络以及分割网络;
获取输入图像,并对所述输入图像进行切分,形成目标图片;
将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标,其包括:
利用所述特征提取网络提取所述目标图片的特征图;
将所述特征图输入区域候选网络,生成候选边界框;
利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框;
将所述初始预测边界框输入分割网络中,输出每个初始预测边界框对应的初始多边形框坐标;
通过非极大值抑制算法利用初始多边形框面积的IOU对所述初始多边形框进行过滤,得到最终多边形框坐标。
2.根据权利要求1所述的题目精准分割方法,其特征在于,创建并训练基于深度学习的实例分割模型,包括:
创建基于深度学习的实例分割初始模型;
确定样本集并对所述样本集中每个样本图像绘制多边形包围框,每个多边形包围框包裹一个题目;
将每个样本图像分别输入所述实例分割初始模型中,通过反向传播算法对所述实例分割初始模型进行迭代训练,以调整实例分割初始模型的模型参数使得损失函数趋于收敛或小于第一预设阈值,最终得到训练后的实例分割模型。
3.根据权利要求1所述的题目精准分割方法,其特征在于,所述将所述特征图输入区域候选网络,生成候选边界框,包括:
利用设定大小的矩形框,采用所述矩形框不同的设定长宽比缩放滑动窗口,滑动窗口在所述特征图上滑动,对边界框进行预测,并将预测的矩形框映射到目标图片中,形成所述候选边界框;
利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框,包括:
利用回归网络中的分类分支预测所述候选边界框的分类得分,并滤除所述分类得分小于第二预设阈值的候选边界框;
利用回归网络的回归分支对保留的候选边界框进行平移变换或/和尺度缩放变换,得到初始预测边界框。
4.根据权利要求1-3任一项所述的题目精准分割方法,其特征在于,通过非极大值抑制算法利用初始多边形框面积的IOU对所述初始多边形框进行过滤,得到最终多边形框坐标,包括:
获取每个初始多边形框的分类得分以及面积;
将所有初始多边形框的分类得分降序排列;
选取最高分类得分对应的初始多边形框,计算其与目标初始多边形框的面积IOU,若面积IOU大于给定阈值,将目标初始多边形框舍弃,保留最高分类得分对应的初始多边形框,再使用相同的方法遍历剩余初始多边形框;所述面积IOU为C/(A+B-C),其中,C为二个初始多边形框坐标的交集面积,A和B分别为二个初始多边形框坐标的面积;
确定最后保留的所有初始多边形框,作为最终多边形框,确定所述最终多边形框的坐标。
5.根据权利要求4所述的题目精准分割方法,其特征在于,获取每个初始多边形框的面积,包括:
确定每个初始多边形框以及其包围的像素点数,将所述初始多边形框坐标点的数量以及其包围的像素点数作为所述初始多边形框的面积。
6.根据权利要求1所述的题目精准分割方法,其特征在于,所述对所述输入图像进行切分,形成目标图片,包括:
识别输入图像中长和高的像素点数;
根据所述像素点数和预设规则对所述输入图像进行切分,得到一个或多个目标图片。
7.一种基于深度学习的题目精准分割装置,其特征在于,包括:
创建单元,用于创建并训练基于深度学习的实例分割模型,所述实例分割模型包括特征提取网络、区域候选网络、回归网络以及分割网络;
切分单元,用于获取输入图像,并对所述输入图像进行切分,形成目标图片;
识别单元,用于将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标;
所述识别单元,包括:
特征提取子单元,用于利用所述特征提取网络提取所述目标图片的特征图;
候选区域子单元,用于将所述特征图输入区域候选网络,生成候选边界框;
回归子单元,用于利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框;
输出子单元,用于将所述初始预测边界框输入分割网络中,输出每个初始预测边界框对应的初始多边形框坐标;
过滤子单元,用于通过非极大值抑制算法利用初始多边形框面积的IOU对所述初始多边形框进行过滤,得到最终多边形框坐标。
8.根据权利要求7所述的题目精准分割装置,其特征在于,所述创建单元,包括:
构建子单元,用于创建基于深度学习的实例分割初始模型;
样本子单元,用于确定样本集并对所述样本集中每个样本图像绘制多边形包围框,每个多边形包围框包裹一个题目;
训练子单元,用于将每个样本图像分别输入所述实例分割初始模型中,通过反向传播算法对所述实例分割初始模型进行迭代训练,以调整实例分割初始模型的模型参数使得损失函数趋于收敛或小于第一预设阈值,最终得到训练后的实例分割模型。
9.根据权利要求7所述的题目精准分割装置,其特征在于,所述候选区域子单元,包括:
滑动孙单元,用于利用设定大小的矩形框,采用所述矩形框不同的设定长宽比缩放滑动窗口,滑动窗口在所述特征图上滑动,对边界框进行预测,并将预测的矩形框映射到目标图片中,形成所述候选边界框;
所述回归子单元,包括:
分类孙单元,用于利用回归网络中的分类分支预测所述候选边界框的分类得分,并滤除所述分类得分小于第二预设阈值的候选边界框;
边框回归孙单元,用于利用回归网络的回归分支对保留的候选边界框进行平移变换或/和尺度缩放变换,得到初始预测边界框。
10.根据权利要求7-9任一项所述的题目精准分割装置,其特征在于,所述过滤子单元,包括:
面积确定孙单元,用于获取每个初始多边形框的分类得分以及面积;
排序孙单元,用于将所有初始多边形框的分类得分降序排列;
计算孙单元,用于选取最高分类得分对应的初始多边形框,计算其与目标初始多边形框的面积IOU,若面积IOU大于给定阈值,将目标初始多边形框舍弃,保留最高分类得分对应的初始多边形框,再使用相同的方法遍历剩余初始多边形框;所述面积IOU为C/(A+B-C),其中,C为二个初始多边形框坐标的交集面积,A和B分别为二个初始多边形框坐标的面积;
保留确定孙单元,用于确定最后保留的所有初始多边形框,作为最终多边形框,确定所述最终多边形框的坐标。
11.根据权利要求10所述的题目精准分割装置,其特征在于,所述面积确定孙单元,包括:确定每个初始多边形框以及其包围的像素点数,将所述初始多边形框坐标点的数量以及其包围的像素点数作为所述初始多边形框的面积。
12.根据权利要求7所述的题目精准分割装置,其特征在于,所述切分单元,包括:
像素识别子单元,用于识别输入图像中长和高的像素点数;
目标图片获取子单元,用于根据所述像素点数和预设规则对所述输入图像进行切分,得到一个或多个目标图片。
13.一种电子设备,其特征在于,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至6任一项所述的基于深度学习的题目精准分割方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至6任一项所述的基于深度学习的题目精准分割方法。
CN202010495964.3A 2020-06-03 2020-06-03 基于深度学习的题目精准分割方法、装置、设备和介质 Pending CN111652140A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010495964.3A CN111652140A (zh) 2020-06-03 2020-06-03 基于深度学习的题目精准分割方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010495964.3A CN111652140A (zh) 2020-06-03 2020-06-03 基于深度学习的题目精准分割方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN111652140A true CN111652140A (zh) 2020-09-11

Family

ID=72347079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010495964.3A Pending CN111652140A (zh) 2020-06-03 2020-06-03 基于深度学习的题目精准分割方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN111652140A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149683A (zh) * 2020-09-30 2020-12-29 华宇金信(北京)软件有限公司 夜视环境下活物检测方法及装置
CN112183461A (zh) * 2020-10-21 2021-01-05 广州市晶华精密光学股份有限公司 一种车辆内部监控方法、装置、设备及存储介质
CN112634174A (zh) * 2020-12-31 2021-04-09 上海明略人工智能(集团)有限公司 一种图像表示学习方法及***
WO2023060637A1 (zh) * 2021-10-11 2023-04-20 深圳硅基智能科技有限公司 基于紧框标的深度学习的测量方法及测量装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785337A (zh) * 2018-12-25 2019-05-21 哈尔滨工程大学 一种基于实例分割算法的栏内哺乳动物清点方法
US20190266731A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Image segmentation method and device
CN110837856A (zh) * 2019-10-31 2020-02-25 深圳市商汤科技有限公司 神经网络训练及目标检测方法、装置、设备和存储介质
CN111160120A (zh) * 2019-12-11 2020-05-15 重庆邮电大学 基于迁移学习的Faster R-CNN物品检测方法
CN111652142A (zh) * 2020-06-03 2020-09-11 广东小天才科技有限公司 基于深度学习的题目分割方法、装置、设备和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190266731A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Image segmentation method and device
CN109785337A (zh) * 2018-12-25 2019-05-21 哈尔滨工程大学 一种基于实例分割算法的栏内哺乳动物清点方法
CN110837856A (zh) * 2019-10-31 2020-02-25 深圳市商汤科技有限公司 神经网络训练及目标检测方法、装置、设备和存储介质
CN111160120A (zh) * 2019-12-11 2020-05-15 重庆邮电大学 基于迁移学习的Faster R-CNN物品检测方法
CN111652142A (zh) * 2020-06-03 2020-09-11 广东小天才科技有限公司 基于深度学习的题目分割方法、装置、设备和介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149683A (zh) * 2020-09-30 2020-12-29 华宇金信(北京)软件有限公司 夜视环境下活物检测方法及装置
CN112183461A (zh) * 2020-10-21 2021-01-05 广州市晶华精密光学股份有限公司 一种车辆内部监控方法、装置、设备及存储介质
CN112634174A (zh) * 2020-12-31 2021-04-09 上海明略人工智能(集团)有限公司 一种图像表示学习方法及***
CN112634174B (zh) * 2020-12-31 2023-12-12 上海明略人工智能(集团)有限公司 一种图像表示学习方法及***
WO2023060637A1 (zh) * 2021-10-11 2023-04-20 深圳硅基智能科技有限公司 基于紧框标的深度学习的测量方法及测量装置

Similar Documents

Publication Publication Date Title
CN110163198B (zh) 一种表格识别重建方法、装置和存储介质
WO2020221298A1 (zh) 文本检测模型训练方法、文本区域、内容确定方法和装置
US10896349B2 (en) Text detection method and apparatus, and storage medium
CN111652140A (zh) 基于深度学习的题目精准分割方法、装置、设备和介质
US9235759B2 (en) Detecting text using stroke width based text detection
CN111652142A (zh) 基于深度学习的题目分割方法、装置、设备和介质
CN108805116B (zh) 图像文本检测方法及其***
RU2697649C1 (ru) Способы и системы сегментации документа
CN104573675B (zh) 作业图像的展示方法和装置
CN110909724B (zh) 一种多目标图像的缩略图生成方法
CN113313083B (zh) 文本检测方法及装置
CN109508716B (zh) 一种图像文字的定位方法及装置
CN110443235B (zh) 一种智能纸质试卷总分识别方法及***
CN112949649B (zh) 一种文本图像的识别方法、装置及计算设备
CN111652144A (zh) 基于目标区域融合的题目分割方法、装置、设备和介质
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法
CN113112511B (zh) 试卷批改的方法、装置、存储介质及电子设备
CN113963149A (zh) 一种医疗票据图片的模糊判断方法、***、设备及介质
CN112132750B (zh) 一种视频处理方法与装置
CN113011409A (zh) 一种图像识别方法、装置、电子设备及存储介质
CN117541546A (zh) 图像裁剪效果的确定方法和装置、存储介质及电子设备
CN109685079B (zh) 一种特征图像类别信息的生成方法和装置
CN103295004B (zh) 确定区域结构复杂度、定位文字区域的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination