CN114330234A - 版面结构分析方法、装置、电子设备和存储介质 - Google Patents

版面结构分析方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114330234A
CN114330234A CN202111656131.1A CN202111656131A CN114330234A CN 114330234 A CN114330234 A CN 114330234A CN 202111656131 A CN202111656131 A CN 202111656131A CN 114330234 A CN114330234 A CN 114330234A
Authority
CN
China
Prior art keywords
layout
image
elements
position information
layout image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111656131.1A
Other languages
English (en)
Inventor
董健
吴嘉嘉
张银田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202111656131.1A priority Critical patent/CN114330234A/zh
Publication of CN114330234A publication Critical patent/CN114330234A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种版面结构分析方法、装置、电子设备和存储介质,其中方法包括:提取待分析的版面图像的图像特征;基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各要素的位置信息和要素类别;基于所述图像特征,对所述版面图像进行文本行分割,得到所述版面图像中各文本行的位置信息;基于所述版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对所述版面图像进行版面结构分析。本发明提供的版面结构分析方法、装置、电子设备和存储介质,能够同时对版面图像的逻辑结构和布局结构进行全面、准确的分析,特别是针对版面结构复杂场景下的版面结构分析。

Description

版面结构分析方法、装置、电子设备和存储介质
技术领域
本发明涉及计算机视觉和自然语言理解技术领域,尤其涉及一种版面结构分析方法、装置、电子设备和存储介质。
背景技术
通过对教辅书和试卷的版面结构分析,可以快速完成教育图文数据的加工,从而获得大量高质量标注数据。
现有的一些版面结构分析方法,使用传统的图像处理技术,仍需要用户手动操作才能准确分析出图文内的结构信息,达不到自动化智能化的程度。
还有一些图文版面分析方法,虽然使用了机器学习技术来实现,但多测重于单一能力,不具备全面的版面分析能力,易用性不好,使得使用场景受限。
发明内容
本发明提供一种版面结构分析方法、装置、电子设备和存储介质,用以解决现有技术中多测重于单一能力,不具备全面的版面分析能力的缺陷。
本发明提供一种版面结构分析方法,包括:
提取待分析的版面图像的图像特征;
基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各要素的位置信息和要素类别;
基于所述图像特征,对所述版面图像进行文本行分割,得到所述版面图像中各文本行的位置信息;
基于所述版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对所述版面图像进行版面结构分析。
根据本发明提供的一种版面结构分析方法,所述基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各要素的位置信息和要素类别,包括:
基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各候选要素的位置信息、要素类别和要素置信度;
基于所述各候选要素的位置信息,从各候选要素中确定出相同位置处的候选要素,并基于相同位置处的候选要素的要素类别和要素置信度,对相同位置处的候选要素进行过滤;
基于过滤后的候选要素的要素置信度,确定所述版面图像中各要素的位置信息和要素类别。
根据本发明提供的一种版面结构分析方法,所述基于相同位置处的候选要素的要素类别和要素置信度,对相同位置处的候选要素进行过滤,包括:
在所述相同位置处的候选要素的要素类别为易混淆类别的情况下,删除所述相同位置处除要素置信度最高的候选要素之外的候选要素,并基于所述相同位置处的各候选要素的要素置信度,更新相同位置处的要素置信度最高的候选要素的要素置信度。
根据本发明提供的一种版面结构分析方法,所述基于所述版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对所述版面图像进行版面结构分析,包括:
基于所述版面图像中各要素的位置信息和要素类别,确定所述版面图像中各要素之间的关系;
基于所述版面图像中各要素的位置信息以及所述各文本行的位置信息,对所述各文本行进行融合或切分,得到所述版面图像中各要素的文本行信息;
基于所述版面图像中各要素之间的关系,以及所述版面图像中各要素的文本行信息,对所述版面图像进行版面结构分析。
根据本发明提供的一种版面结构分析方法,所述基于所述版面图像中各要素的位置信息和要素类别,确定所述版面图像中各要素之间的关系,之后还包括:
基于所述版面图像中各要素之间的关系,确定属于相邻栏要素的同类别要素;
基于属于所述相邻栏要素中后一栏要素的同类别要素的要素位置和/或包含的要素类型,确定所述属于相邻栏要素的同类别要素的归属类型,并在所述归属类型为同一归属的情况下合并所述属于相邻栏要素的同类别要素。
根据本发明提供的一种版面结构分析方法,所述提取待分析的版面图像的图像特征,包括:
基于多尺度的样本图像,对所述待分析的版面图像进行多尺度特征提取,得到所述版面图像的图像特征。
根据本发明提供的一种版面结构分析方法,所述提取待分析的版面图像的图像特征,基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各要素的位置信息和要素类别,基于所述图像特征,对所述版面图像进行文本行分割,得到所述版面图像中各文本行的位置信息,包括:
基于版面结构分析模型,对所述版面图像进行版面要素检测和文本行分割;
所述版面结构分析模型是基于标记有要素位置和类别标签的第一样本图像,以及标记有文本行标签的第二样本图像训练得到的。
本发明还提供一种版面结构分析装置,包括:
特征提取单元,用于提取待分析的版面图像的图像特征;
要素检测单元,用于基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各要素的位置信息和要素类别;
文本行分割单元,用于基于所述图像特征,对所述版面图像进行文本行分割,得到所述版面图像中各文本行的位置信息;
版面结构分析单元,用于基于所述版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对所述版面图像进行版面结构分析。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述版面结构分析方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述版面结构分析方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述版面结构分析方法的步骤。
本发明提供的版面结构分析方法、装置、电子设备和存储介质,通过利用版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对版面图像进行版面结构分析,相比于现有技术中仅实现单一能力的版面分析,该方法能够同时对版面图像的逻辑结构和布局结构进行全面、准确的分析,特别是针对版面结构复杂场景下的版面结构分析。
此外,该方法可以利用提取到的图像特征,实现版面要素检测和文本行分割多分支整合之间的信息共享,实现全面、准确的版面分析的同时,减少了计算量,提高了版面分析效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的版面结构分析方法的流程示意图之一;
图2是本发明提供的版面结构分析方法中步骤120的流程示意图;
图3是本发明提供的版面结构分析方法中步骤140的流程示意图;
图4是本发明提供的同类别要素合并方法的流程示意图;
图5是本发明提供的版面结构分析方法的流程示意图之二;
图6是本发明提供的版面结构分析装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
近年来,人工智能技术飞速发展,其应用已遍布安防、金融和教育等多个行业,对人民的生产、工作乃至生活方面都带来了巨大的影响和便利。其中,教育领域深受人工智能技术影响,其中人工智能的细分领域:计算机视觉和自然语言理解技术在教育领域应用十分广泛,如拍照切题技术、文本检测与识别技术、拍照搜题技术以及以人推题技术等。受限于人工智能技术高度依赖大数据,因此人工智能助理教育领域也有个重要的前提—大量高质量数据。当前市场上绝大部分高质量数据是靠人工标注的方式获取,这种标注方式的弊端在于花费成本高、消耗时间长,因此依靠人工智能技术自动快速的加工大量高质量数据是一个非常有潜力的应用场景。
教育领域的图文数据主要来源于教辅书和试卷,往往具有很复杂的版面结构,可能会包含以下要素:页面、单栏、标题、页眉页脚、页码、题目、图像、表格等。同时题目又具有非常多的题目类型,如:选择题、填空题、判断题、解答题、计算题、作图题等等,题目内部又会嵌套题号、子题、选项、图像、表格等子要素,不同的题型又会对应多种类型的答案和解析。同时标题、页眉页脚、页码、题目等要素又是由文本组成的。
为了自动快速的完成教育图文数据的加工,教育图文版面结构分析变得尤为重要,而较高的版面复杂度是版面结构分析最大的难点。
现有相关技术方案多采用分离方式实现版面结构分析,如使用目标检测技术实现拍照切题功能,使用语义分割技术实现文本行分割功能,这样实现的弊端是不具有全面的版面分析能力,大多只能实现一种分析能力,使得应用场景大大受限。
基于此,本发明实施例提供一种版面结构分析方法,该方法不仅可以应用在版面复杂度较高的教育图文数据的分析场景,还可以应用在其他图文数据的版面结构分析,例如简历或者报纸等,本发明实施例对此不作具体限定。
图1为本发明提供的版面结构分析方法的流程示意图之一,如图1所示,该方法包括:
步骤110,提取待分析的版面图像的图像特征。
具体地,待分析的版面图像是指需要进行版面结构分析的图像,例如可以是试卷或者教辅书的图像。
此处的版面图像可以是彩色图像,也可以为灰度图像,本发明实施例不限定版面图像的具体表现形式。
版面图像可以是采用扫描仪设备进行扫描,或者采用高拍仪、移动设备等拍摄的图像,也可以是从网下下载的图像,或者是从设备接收到的图像,还可以是视频中的图像,本发明实施例不限定版面图像的图像来源。
版面图像的大小尺度可以在预设范围内动态变化,例如,版面图像的多尺度变化范围可以是800pix*1280pix到1600pix*2560pix。
图像特征可以包括版面图像的空间关系特征和语义特征,其中,空间关系特征可以表征版面图像中分割出来的多个目标之间的相互的空间位置或相对方向关系,例如,空间关系特征可以表征版面图像中各要素和/各文本行的位置信息特征;语义特征可以表征版面图像中包含的内容,例如,可以表征文字、图表或图像特征。
版面图像的图像特征提取可以通过特征提取算法实现,例如,可以是方向梯度直方图(Histogram of Oriented Gradient,HOG)特征提取算法或局部二值模式(LocalBinary Pattern,LBP)特征提取算法等;当然也可以通过卷积神经网络进行特征提取。
在一些优选的实施方式中,可以采用特征金字塔结构(Feature PyramidNetwork,FPN)进行多尺度特征提取,可以很好的表达版面图像的低层特征高分辨率和高层特征的高语义信息。
步骤120,基于图像特征,对版面图像进行版面要素检测,得到版面图像中各要素的位置信息和要素类别。
具体地,提取到待分析的版面图像的图像特征后,可以根据该图像特征,对版面图像进行版面要素检测。
此处的要素是指可以从版面图像中抽取出的具有一定逻辑结构的元素,例如页面、标题、页码、题目、选项等。要素的表现形式可以是文字、图表和/或图像等。例如,标题可以是由文本组成的,题目可以是由文本和图像组成的。
各要素的位置信息是指各要素在版面图像中的区域位置。例如,可以用矩形框表示版面图像中各要素的位置信息。
要素类别具体可以是页面、标题、页码、题目、选项等。
可以采用目标检测算法实现对版面图像的要素检测,例如Cascade RCNN算法和YOLO算法等。首先获取候选区域,然后对候选区域进行分类。
在一些复杂版面结构场景下,例如,扫描教辅中会存在相似题型(如计算题和解答题),预测到的要素类别可能不准确,可以采用改进的自适应非极大值抑制(NMS)策略进行过滤,以提高版面要素检测的准确性。
步骤130,基于图像特征,对版面图像进行文本行分割,得到版面图像中各文本行的位置信息。
具体地,可以利用步骤110中提取得到的图像特征,对版面图像进行文本行分割,得到版面图像中各文本行的位置信息。
此处,各文本行的位置信息也可以用矩形框来表示。
对版面图像进行文本行分割,可以采用文本检测算法实现,例如DBNet(Real-timeScene Text Detection with Differentiable Binarization,基于可微分二值化的实时场景文本检测)、PSENet或者PANNet等。
在扫描教辅场景下,文本可能会存在特别稠密的情况,多行之间的间隙并不大,且经常出现数学公式类的文本,从而增加检测难度,优选采用对密集文本行分割效果更好的DBNet文本检测算法。
需要说明的是,本发明实施例不限定步骤120和步骤130的执行顺序,并且可以同时执行。
步骤140,基于版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对版面图像进行版面结构分析。
具体地,考虑到各要素的要素类别,能反映各要素之间的逻辑结构,比如,版面中包含单栏,单栏包含题型,题型包含题号等。而各要素的位置信息以及各文本行的位置信息能反映版面中各要素所包含的文本行信息,即各要素的布局结构,比如,单栏要素是由题型要素多行文本行组成的,而标题要素和页眉页脚要素等价于单行文本行。
因此,可以综合考虑各要素的位置信息和要素类别,以及各文本行的位置信息,对版面图像进行版面结构分析,从而能够同时对版面图像的逻辑结构和布局结构进行全面、准确的分析。
本发明实施例提供的版面结构分析方法,通过综合版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对版面图像进行版面结构分析,相比于现有技术中仅实现单一能力的版面分析,该方法能够同时对版面图像的逻辑结构和布局结构进行全面、准确的分析,特别是针对版面结构复杂场景下的版面结构分析。
此外,该方法可以利用提取的图像特征,实现版面要素检测和文本行分割多分支整合之间的信息共享,实现全面、准确的版面分析的同时,减少了计算量,提高了版面分析效率。
基于上述实施例,图2是本发明提供的版面结构分析方法中步骤120的流程示意图,如图2所示,步骤120具体包括:
步骤121,基于图像特征,对版面图像进行版面要素检测,得到版面图像中各候选要素的位置信息、要素类别和要素置信度;
步骤122,基于各候选要素的位置信息,从各候选要素中确定出相同位置处的候选要素,并基于相同位置处的候选要素的要素类别和要素置信度,对相同位置处的候选要素进行过滤;
步骤123,基于过滤后的候选要素的要素置信度,确定版面图像中各要素的位置信息和要素类别。
具体地,可以采用目标检测算法,对版面图像进行版面要素检测,得到版面图像中各候选要素的位置信息、要素类别和要素置信度。其中,候选要素可以是经要素检测得到的候选要素集合。
根据各候选要素的位置信息,可以得到相同位置处的候选要素。由于存在相似要素类别的干扰,此处相同位置处的候选要素预测得到的要素类别可能属于同一要素类别,也可能属于不同的要素类别。如果预测得到属于不同的要素类别,那么预测的多个要素的置信度都不会太高。
考虑到如果采用传统的自适应非极大值抑制(NMS)策略,在每个要素类别内进行要素过滤,则无法完整过滤掉不同类别的要素;如果跨类别进行要素过滤,则会导致一些相互嵌套的类别被多过滤掉,且相同位置处预测的多个要素过滤之后的置信度依旧偏低。
因此,可以同时考虑到相同位置处的候选要素的要素置信度,以及要素类别,对相同位置处的候选要素进行过滤。在进行要素过滤时,不仅对要素置信度敏感,同时对要素类别敏感。
例如,可以基于相同位置处的候选要素的要素置信度及要素类别,确定此位置处的要素类别;并基于相同位置处的各候选要素的要素置信度,确定此位置处的要素置信度。
将相同位置处的候选要素进行过滤后,即可根据过滤后的候选要素的要素置信度,确定版面图像中各要素的位置信息和要素类别。例如,可以将要素置信度低于预设置信度阈值的要素过滤掉,只保留要素置信度高于预设置信度阈值的要素,从而得到版面图像中各要素的位置信息和要素类别。
本发明实施例提供的版面结构分析方法,对相同位置处的候选要素进行过滤时,同时考虑到相同位置处的候选要素的要素置信度,以及要素类别,从而提高了要素检测的准确性。
基于上述任一实施例,步骤122中基于相同位置处的候选要素的要素类别和要素置信度,对相同位置处的候选要素进行过滤,具体包括:
在相同位置处的候选要素的要素类别为易混淆类别的情况下,删除相同位置处除要素置信度最高的候选要素之外的候选要素,并基于相同位置处的各候选要素的要素置信度,更新相同位置处的要素置信度最高的候选要素的要素置信度。
具体地,考虑到在一些复杂版面结构场景下,例如,扫描教辅中会存在相似题型(如计算题和解答题),导致相同位置会预测出多个不同类别的题型要素。且由于相似题型易混淆,相同位置预测的多个题型目标得分都不会太高。因此,在相同位置处的候选要素的要素类别为易混淆类别的情况下,可以按照如下方法进行要素过滤:
首先,删除相同位置处除要素置信度最高的候选要素之外的候选要素,也就是说,只保留要素置信度最高的候选要素,同时该要素最高的候选要素的要素类别可作为该相同位置处的要素类别。
然后,基于相同位置处的各候选要素的要素置信度,更新相同位置处的要素置信度最高的候选要素的要素置信度。
例如,可以将相同位置处的各候选要素的要素置信度进行融合,并将融合后的要素置信度作为该相同位置处的要素置信度。
在一个实施例中,融合后的要素置信度可以表示为:
Pout=min(1,Pmax+0.5*Pmin)
其中,Pout表示融合之后的要素置信度,Pmax和Pmin分别表示各候选要素中最大的要素置信度和最小的要素置信度。
本发明实施例提供的方法,在相同位置处的候选要素的要素类别为易混淆类别的情况下,通过更新相同位置处的要素类别和要素置信度,对重复的要素检测结果进行过滤,进一步提高了要素检测的准确性。
基于上述任一实施例,图3是本发明提供的版面结构分析方法中步骤140的流程示意图,如图3所示,步骤140具体包括:
步骤141,基于版面图像中各要素的位置信息和要素类别,确定版面图像中各要素之间的关系;
步骤142,基于版面图像中各要素的位置信息以及各文本行的位置信息,对各文本行进行融合或切分,得到版面图像中各要素的文本行信息;
步骤143,基于版面图像中各要素之间的关系,以及版面图像中各要素的文本行信息,对版面图像进行版面结构分析。
具体地,在对版面图像进行版面结构分析时,可以同时考虑各要素之间的关系,以及各要素与各文本行之间的关系。
首先可以将版面图像中各要素进行基于位置关系的聚合,恢复出包含与被包含关系,如整页包含标题、单栏和页码;单栏包含题型;题型包含题号、图像和表格,以此构成父节点-子节点的连接关系。
然后利用各要素与各文本行之间的关系,对文本行进行聚合和切分,如题型包含多个文本行,则多个文本行聚合成题型的多个子节点;多个题号或答案属于同一行文本行,则需要根据题号或答案的位置将文本行进行准确切分,使得题号或答案的子节点是准确无误的文本子节点。
最后根据版面图像中各要素之间的关系,以及版面图像中各要素的文本行信息,对版面图像进行版面结构分析。具体可以构建一种树形连接关系,并可以根据需要写入到不同格式进行存储,如Xml格式或Json格式文件。
本发明实施例提供的方法,通过将各要素和各文本行进行融合后处理,依此对版面图像进行结构分析,最终获取完整的版面图像结构信息。
基于上述任一实施例,图4是本发明提供的同类别要素合并方法的流程示意图,如图4所示,步骤141之后还包括:
步骤410,基于版面图像中各要素之间的关系,确定属于相邻栏要素的同类别要素;
步骤420,基于属于相邻栏要素中后一栏要素的同类别要素的要素位置和/或包含的要素类别,确定属于相邻栏要素的同类别要素的归属类别,并在归属类别为同一归属的情况下合并属于相邻栏要素的同类别要素。
具体地,考虑到在一些特殊场景下,例如,题目或答案解析被两个单栏或者两页分开的情况下,需要对同类型的要素进行合并。
首先确定属于相邻栏要素的同类别要素,然后根据后一栏同类别要素的位置和/或包含的要素类型,判断是否属于同一归属类别,如果属于同一归属类别,则进行合并;反之则不进行合并。
在一个具体的例子中,如题目或答案解析被两个单栏或者两页分开,先通过判断题目或答案解析是否存在题号,且是否处于某一个单栏的最上方位置,再来判断该题目或答案解析是否应该被合并到上一个题目或答案解析。
本发明实施例提供的方法,通过要素位置和/或要素类别间的包含关系,对分开的同类型的要素进行合并,进一步实现全面、完整的版面结构分析。
基于上述任一实施例,步骤110具体包括:
基于多尺度的样本图像,对待分析的版面图像进行多尺度特征提取,得到版面图像的图像特征。
具体地,由于在扫描教辅场景中,纸张图像的尺寸大小是不固定的,导致图像内的要素尺寸也是多变的,同时不同类别的要素之间尺寸差距也非常大,如单栏要素可能是页码要素的几百倍大小,因此尺度多变导致整体要素检测难度较大。
因此,在训练阶段,可以采用多尺度的样本图像进行训练。在同一个训练批次先选定一个图像大小尺度,再将一个训练批次内所有图像尺度调整选定的尺度,同时不同训练批次选定的图像尺度是动态变化的,这样可以保持在训练过程中,网络可以学习到不同尺度的目标,进而提高网络对不同尺度图像和不同尺度目标的预测能力。
同时,由于各要素尺寸也是多变的,大的要素尺寸可能是小的要素尺寸的几百倍,因此用同等的方式预测尺寸差距如此大的两类要素显然是不合适的。
因此,在特征提取时,可以进行多尺度特征提取。例如,可以采用特征金字塔结构(FPN),作为一个通用组建添加在骨干网络之后,将骨干网络高层底层特征进行融合,并分层输出,可以很好的表达图像的多层特征,其输出的高层特征的尺寸小但具有较大的感受野和较深的语义特征适合预测大目标,底层特征的尺寸大感受野小但具有较好的细节特征对小目标预测友好。
相应地,在进行要素检测时,可以采用基于多尺度的目标检测Cascade RCNN算法。
本发明实施例提供的方法,通过基于多尺度的样本图像,对待分析的版面图像进行多尺度特征提取,得到版面图像的图像特征。该方法可以实现对要素数量丰富,且尺寸多变的版面结构的分析,在保证要素检测准确性的同时,更加适用于版面结构复杂的场景。
基于上述任一实施例,本发明提供的版面结构分析方法中步骤110至步骤130,具体包括:
基于版面结构分析模型,对版面图像进行版面要素检测和文本行分割;
版面结构分析模型是基于标记有要素位置和类别标签的第一样本图像,以及标记有文本行标签的第二样本图像训练得到的。
具体地,上述实施例描述的步骤110至步骤130,可以基于版面结构分析模型,实现对版面图像进行版面要素检测和文本行分割。版面要素检测和文本行分割可以共用一个特征提取层,特征提取层实现版面要素检测和文本行分割之间的信息共享。
由于版面要素的检测和版面文本行分割所需数据标注的不同,很难收集到同时带有两种标注规范的数据,因此本发明实施例采用多分支多数据源训练策略,以降低对训练数据的要求。可以将训练样本分为标记有要素位置和类别标签的第一样本图像,以及标记有文本行标签的第二样本图像。具体训练过程如下:
(1)首先将不同来源的数据按照各自场景的数据打包规范完成数据打包,以供各自分支训练使用,并且将数据来源作为标记写入训练数据中;
(2)在训练阶段的数据采样步骤中,根据不同来源的数据数量比例实现按比例数据采样;
(3)在计算各分支训练损失时,根据数据来源标记选择性的保留本分支的损失而忽略其他分支的损失,从而完成一次准确的参数更新。
本发明实施例提供的方法,通过使用多分支多数据源训练策略,将两个不同的任务构建在同一个模型框架内,简化了***流程,提高了版面结构分析的效率。
基于上述任一实施例,图5是本发明提供的版面结构分析的流程示意图之二,如图5所示,该方法包括:
步骤510,基于多尺度的样本图像,对待分析的版面图像进行多尺度特征提取,得到版面图像的图像特征;
步骤520,基于多尺度目标检测Cascade RCNN算法,对版面图像进行版面要素检测,得到版面图像中各候选要素的位置信息和要素类别;
具体地,Cascade RCNN算法是一种非常强的目标检测算法,Cascade RCNN级联了三个不同IoU阈值的分类和回归器。骨干网络提取到的特征表示送入RPN,RPN源于FasterRCNN目标检测算法,通过网络自适应学习获取较好的候选框,而后通过RoIAlign算法提取对应区域特征,RCNN表示级联的不同分类回归头,不同的RCNN设置了不同的IoU阈值超参。在推理阶段,通过对不同级联阶段结果进行渐进式调整,可以获得最好的检测结果。
步骤530,基于要素类别与要素置信度敏感的NMS策略,对相同位置处的要素检测结果进行过滤,得到版面图像中各要素的位置信息和要素类别;
步骤540,基于DBnet算法,对版面图像进行文本行分割,得到各文本行的位置信息;
具体地,DBNet预测的是文本相对向内收缩的区域,即概率图;同时又预测了文本行的边界轮廓,即阈值图;将预测的收缩区域与边界区域相减得到近似二值图,就能准确的获到文本收缩区域,再根据缩放比例相应的膨胀回去,即得到准确的文本检测结果。
DBNet预测稠密文本行效果较好的主要原因是算法提出可微分的近似二值化函数,其表达式如下:
Figure BDA0003448340540000161
其中,B为近似二值图,P为概率图,T为阈值图,k为一个超参数,可以设为50,由于k的值设置较大,上述表达式的图像将更陡峭,对文本边界范围的区分性越好。通过可微分模块DB得到近似的二值化分割图,该二值化图中的区域分别表示个文本实例收缩之后的区域,通过膨胀操作之后得到完整的文本检测结果。
步骤550,基于版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,经过融合处理得到最终的版面结构分析结果。
本发明实施例提供的方法,通过首先使用目标检测技术完成版面要素的检测,再使用语义分割技术完成版面文本行分割。然后将两者进行融合,实现了全面的版面结构分析能力。
下面对本发明提供的版面结构分析装置进行描述,下文描述的版面结构分析装置与上文描述的版面结构分析方法可相互对应参照。
基于上述任一实施例,图6是本发明提供的版面结构分析装置的结构示意图,如图6所示,该装置包括:
特征提取单元610,用于提取待分析的版面图像的图像特征;
要素检测单元620,用于基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各要素的位置信息和要素类别;
文本行分割单元630,用于基于所述图像特征,对所述版面图像进行文本行分割,得到所述版面图像中各文本行的位置信息;
版面结构分析单元640,用于基于所述版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对所述版面图像进行版面结构分析。
本发明实施例提供的版面结构分析装置,通过利用版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对版面图像进行版面结构分析,相比于现有技术中仅实现单一能力的版面分析,该装置能够同时对版面图像的逻辑结构和布局结构进行全面、准确的分析,特别是针对版面结构复杂场景下的版面结构分析。
此外,该装置可以基于提取到图像特征,实现版面要素检测和文本行分割多分支整合计算,实现全面、准确的版面分析的同时,减少了计算量,提高了版面分析效率。
基于上述任一实施例,要素检测单元620进一步用于:
基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各候选要素的位置信息、要素类别和要素置信度;
基于所述各候选要素的位置信息,从各候选要素中确定出相同位置处的候选要素,并基于相同位置处的候选要素的要素类别和要素置信度,对相同位置处的候选要素进行过滤;
基于过滤后的候选要素的要素置信度,确定所述版面图像中各要素的位置信息和要素类别。
基于上述任一实施例,要素检测单元620进一步用于:
在所述相同位置处的候选要素的要素类别为易混淆类别的情况下,删除所述相同位置处除要素置信度最高的候选要素之外的候选要素,并基于所述相同位置处的各候选要素的要素置信度,更新相同位置处的要素置信度最高的候选要素的要素置信度。
基于上述任一实施例,版面结构分析单元640进一步用于:
基于所述版面图像中各要素的位置信息和要素类别,确定所述版面图像中各要素之间的关系;
基于所述版面图像中各要素的位置信息以及所述各文本行的位置信息,对所述各文本行进行融合或切分,得到所述版面图像中各要素的文本行信息;
基于所述版面图像中各要素之间的关系,以及所述版面图像中各要素的文本行信息,对所述版面图像进行版面结构分析。
基于上述任一实施例,本发明实施例提供的版面结构分析装置还包括要素合并单元,其中,要素合并单元用于:
基于所述版面图像中各要素之间的关系,确定属于相邻栏要素的同类别要素;
基于属于所述相邻栏要素中后一栏要素的同类别要素的要素位置和/或包含的要素类型,确定所述属于相邻栏要素的同类别要素的归属类型,并在所述归属类型为同一归属的情况下合并所述属于相邻栏要素的同类别要素。
基于上述任一实施例,特征提取单元610进一步用于:
基于多尺度的样本图像,对所述待分析的版面图像进行多尺度特征提取,得到所述版面图像的图像特征。
基于上述任一实施例,版面结构分析装置中的特征提取单元、要素检测单元和文本行分割单元可以替换成模型应用单元,其中,模型应用单元用于:
基于版面结构分析模型,对所述版面图像进行版面要素检测和文本行分割;
所述版面结构分析模型是基于标记有要素位置和类别标签的第一样本图像,以及标记有文本行标签的第二样本图像训练得到的。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行版面结构分析方法,该方法包括:提取待分析的版面图像的图像特征;基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各要素的位置信息和要素类别;基于所述图像特征,对所述版面图像进行文本行分割,得到所述版面图像中各文本行的位置信息;基于所述版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对所述版面图像进行版面结构分析。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的版面结构分析方法,该方法包括:提取待分析的版面图像的图像特征;基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各要素的位置信息和要素类别;基于所述图像特征,对所述版面图像进行文本行分割,得到所述版面图像中各文本行的位置信息;基于所述版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对所述版面图像进行版面结构分析。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的版面结构分析方法,该方法包括:提取待分析的版面图像的图像特征;基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各要素的位置信息和要素类别;基于所述图像特征,对所述版面图像进行文本行分割,得到所述版面图像中各文本行的位置信息;基于所述版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对所述版面图像进行版面结构分析。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种版面结构分析方法,其特征在于,包括:
提取待分析的版面图像的图像特征;
基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各要素的位置信息和要素类别;
基于所述图像特征,对所述版面图像进行文本行分割,得到所述版面图像中各文本行的位置信息;
基于所述版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对所述版面图像进行版面结构分析。
2.根据权利要求1所述的版面结构分析方法,其特征在于,所述基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各要素的位置信息和要素类别,包括:
基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各候选要素的位置信息、要素类别和要素置信度;
基于所述各候选要素的位置信息,从各候选要素中确定出相同位置处的候选要素,并基于相同位置处的候选要素的要素类别和要素置信度,对相同位置处的候选要素进行过滤;
基于过滤后的候选要素的要素置信度,确定所述版面图像中各要素的位置信息和要素类别。
3.根据权利要求2所述的版面结构分析方法,其特征在于,所述基于相同位置处的候选要素的要素类别和要素置信度,对相同位置处的候选要素进行过滤,包括:
在所述相同位置处的候选要素的要素类别为易混淆类别的情况下,删除所述相同位置处除要素置信度最高的候选要素之外的候选要素,并基于所述相同位置处的各候选要素的要素置信度,更新相同位置处的要素置信度最高的候选要素的要素置信度。
4.根据权利要求1所述的版面结构分析方法,其特征在于,所述基于所述版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对所述版面图像进行版面结构分析,包括:
基于所述版面图像中各要素的位置信息和要素类别,确定所述版面图像中各要素之间的关系;
基于所述版面图像中各要素的位置信息以及所述各文本行的位置信息,对所述各文本行进行融合或切分,得到所述版面图像中各要素的文本行信息;
基于所述版面图像中各要素之间的关系,以及所述版面图像中各要素的文本行信息,对所述版面图像进行版面结构分析。
5.根据权利要求4所述的版面结构分析方法,其特征在于,所述基于所述版面图像中各要素的位置信息和要素类别,确定所述版面图像中各要素之间的关系,之后还包括:
基于所述版面图像中各要素之间的关系,确定属于相邻栏要素的同类别要素;
基于属于所述相邻栏要素中后一栏要素的同类别要素的要素位置和/或包含的要素类型,确定所述属于相邻栏要素的同类别要素的归属类型,并在所述归属类型为同一归属的情况下合并所述属于相邻栏要素的同类别要素。
6.根据权利要求1至5中任一项所述的版面结构分析方法,其特征在于,所述提取待分析的版面图像的图像特征,包括:
基于多尺度的样本图像,对所述待分析的版面图像进行多尺度特征提取,得到所述版面图像的图像特征。
7.根据权利要求1至5中任一项所述的版面结构分析方法,其特征在于,所述提取待分析的版面图像的图像特征,基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各要素的位置信息和要素类别,基于所述图像特征,对所述版面图像进行文本行分割,得到所述版面图像中各文本行的位置信息,包括:
基于版面结构分析模型,对所述版面图像进行版面要素检测和文本行分割;
所述版面结构分析模型是基于标记有要素位置和类别标签的第一样本图像,以及标记有文本行标签的第二样本图像训练得到的。
8.一种版面结构分析装置,其特征在于,包括:
特征提取单元,用于提取待分析的版面图像的图像特征;
要素检测单元,用于基于所述图像特征,对所述版面图像进行版面要素检测,得到所述版面图像中各要素的位置信息和要素类别;
文本行分割单元,用于基于所述图像特征,对所述版面图像进行文本行分割,得到所述版面图像中各文本行的位置信息;
版面结构分析单元,用于基于所述版面图像中各要素的位置信息和要素类别,以及各文本行的位置信息,对所述版面图像进行版面结构分析。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述版面结构分析方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述版面结构分析方法的步骤。
CN202111656131.1A 2021-12-30 2021-12-30 版面结构分析方法、装置、电子设备和存储介质 Pending CN114330234A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111656131.1A CN114330234A (zh) 2021-12-30 2021-12-30 版面结构分析方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111656131.1A CN114330234A (zh) 2021-12-30 2021-12-30 版面结构分析方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114330234A true CN114330234A (zh) 2022-04-12

Family

ID=81019864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111656131.1A Pending CN114330234A (zh) 2021-12-30 2021-12-30 版面结构分析方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114330234A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757144A (zh) * 2022-06-14 2022-07-15 成都数之联科技股份有限公司 图像文档的重建方法、装置、电子设备和存储介质
CN115546790A (zh) * 2022-11-29 2022-12-30 深圳智能思创科技有限公司 文档版面分割方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757144A (zh) * 2022-06-14 2022-07-15 成都数之联科技股份有限公司 图像文档的重建方法、装置、电子设备和存储介质
CN114757144B (zh) * 2022-06-14 2022-09-06 成都数之联科技股份有限公司 图像文档的重建方法、装置、电子设备和存储介质
CN115546790A (zh) * 2022-11-29 2022-12-30 深圳智能思创科技有限公司 文档版面分割方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
JP6831480B2 (ja) テキスト検出分析方法、装置及びデバイス
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
WO2019192397A1 (zh) 一种任意形状的场景文本端到端识别方法
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN112232149A (zh) 一种文档多模信息和关系提取方法及***
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN110210413A (zh) 一种基于深度学习的多学科试卷内容检测与识别***及方法
CN114330234A (zh) 版面结构分析方法、装置、电子设备和存储介质
CN113591746B (zh) 一种文档表格结构检测方法及装置
CN113673338A (zh) 自然场景文本图像字符像素弱监督自动标注方法、***及介质
CN112257665A (zh) 图像内容的识别方法、图像识别模型的训练方法及介质
CN112507876A (zh) 一种基于语义分割的有线表格图片解析方法和装置
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN107958219A (zh) 基于多模型和多尺度特征的图像场景分类方法
WO2021034841A1 (en) Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法
CN113762257B (zh) 一种美妆品牌图像中标志的识别方法及装置
CN114581928A (zh) 一种表格识别方法及***
CN113592807A (zh) 一种训练方法、图像质量确定方法及装置、电子设备
CN116912857A (zh) 手写体和印刷体文本分离方法及装置
CN111553361A (zh) 一种病理切片标签识别方法
CN110610177A (zh) 字符识别模型的训练方法、字符识别方法及装置
CN114359912B (zh) 基于图神经网络的软件页面关键信息提取方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination