CN113743318A - 基于行列分割的表格结构识别方法、存储介质和电子装置 - Google Patents

基于行列分割的表格结构识别方法、存储介质和电子装置 Download PDF

Info

Publication number
CN113743318A
CN113743318A CN202111042986.5A CN202111042986A CN113743318A CN 113743318 A CN113743318 A CN 113743318A CN 202111042986 A CN202111042986 A CN 202111042986A CN 113743318 A CN113743318 A CN 113743318A
Authority
CN
China
Prior art keywords
row
column
distribution
features
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111042986.5A
Other languages
English (en)
Inventor
孔令军
包云超
王茜雯
侯文涛
刘伟光
周耀威
闫佳艺
李华康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinling Institute of Technology
Original Assignee
Jinling Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinling Institute of Technology filed Critical Jinling Institute of Technology
Priority to CN202111042986.5A priority Critical patent/CN113743318A/zh
Publication of CN113743318A publication Critical patent/CN113743318A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于行列分割的表格结构识别方法、存储介质和电子装置,其中方法包括,获取表格图像;提取包括行特征和列特征的表格特征图;对行特征和列特征进行处理,分别得到表格的行分布和列分布;判断行分布和列分布的区域是否有重叠,重叠的部分为表格的单元格,否则为背景。本发明简化了表格行与列预测,并保证了预测有较高的稳定性;在同一卷积网络中同时完成表格行与列的预测,便于调试和部署;先获得表格行与列分布,再获取表格单元格分布,这种自下而上的方法增加了鲁棒性。

Description

基于行列分割的表格结构识别方法、存储介质和电子装置
技术领域
本发明属于计算机视觉以及人工智能技术领域,具体是一种基于行列分割的表格结构识别方法、存储介质和电子装置。
背景技术
日常生活中表格是一种通用且常见的文本对象,如何在海量的数据中检测识别表格成为必要且有挑战的任务。表格检测和表格结构识别组成完整的表格识别任务。表格检测的目的是定位页面中表格区域,很多研究者将其定义为目标检测问题。相比较于表格检测,表格结构识别是更有难度的任务,其目标是获取表格的结构信息。早期的表格结构识别研究主要是基于启发式规则的方法,即制定一系列规则以检测出满足特定条件的表格。然而,基于启发式规则的表格识别方法难以设计,并受限于一定的场景,不能表现出很好的泛化能力。目前研究者大多使用目标检测、图像分割等深度学习方法进行表格结构识别。针对表格的特殊结构,既可以将行与列也可以将行之间和列之间的框线作为识别的对象,但表格框线所占像素数较少导致了正负样本失衡的问题。有的研究针对表格结构提出一致性假设:表格所有行从第一列的起点开始,到最后一列的终点结束;所有列从第一行的起点开始,到最后一行的终点结束。因此,对于列特征只需要预测第一行像素的分类再进行展开就可以得到整个列预测图,行特征则只需要预测第一列像素的分类。这样做虽然可以降低行列分割的复杂度,但容易产生较大的容错率,某一个像素位置的分类预测出错将会影响整个预测图。
发明内容
鉴于上述现有技术中的缺陷,本发明将表格结构识别任务拆分为表格行和列分割任务,通过分割出来的行列信息构建完整的表格结构信息。
本发明第一方面,提供一种基于行列分割的表格结构识别方法,包括以下步骤,
S1、获取表格图像;
S2、提取包括行特征和列特征的表格特征图;
S3、对所述行特征和所述列特征进行处理,分别得到所述表格的行分布和列分布;
S4、判断所述行分布和列分布的区域是否有重叠,重叠的部分为表格的单元格,否则为背景。
进一步,步骤S2中所述提取表格的行特征和列特征具体是,使用基于深度学习的卷积神经网络作为骨干网进行特征提取,所述卷积神经网络为VGG、ResNet或MobileNet。
进一步,步骤S3具体为,
S31、利用基于注意力机制的网络在通道维度上分别提取所述特征图每一行和每一列的最大值;
S32、相应的产生一列像素的分布和一行像素的分布;
假设作为输入的表格特征图大小为H×W×C,输出H×1×C大小的行特征图Frow和1×W×C大小的列特征图Fcol
Figure BDA0003250137990000021
Figure BDA0003250137990000022
S33、对所述行特征图Frow和所述列特征图Fcol进行平铺,得到维度为H×W×C的行分布和列分布,分别是
Figure BDA0003250137990000023
Figure BDA0003250137990000024
本发明第二方面,提供一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项技术方案中所述的方法。
本发明第三方面,提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项技术方案中所述的方法。
本发明具有以下有益效果:简化了表格行与列预测,并保证了预测有较高的稳定性;在同一卷积网络中同时完成表格行与列的预测,便于调试和部署;先获得表格行与列分布,再获取表格单元格分布,这种自下而上的方法增加了鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例基于行列分割的表格结构识别方法流程图;
图2为图1实施例中得到的行分布的示意图;
图3为图1实施例中得到的列分布的示意图;
图4为图1实施例中单元格分布示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本实施例第一方面是一种基于行列分割的表格结构识别方法,包括以下步骤:
S1、获取表格图像。
在本发明实施例中,包含表格的图片可以通过扫描仪、高拍仪、数码相机、带摄像头的移动终端等设备来获取,本发明对此不做限制。
在本发明实施例中,图片中可以包含表格、文字、图画等内容,图片中的底色、表格、文字颜色可以为白色、黑色、红色、黄色、蓝色等颜色,本发明对此不做限制。
S2、提取包括行特征和列特征的表格特征图。
在本发明实施例中,表格是由若干的行与列所构成的一种有序的组织形式,若干行与列的交汇区域形成表格中的若干单元格。基于行与列分布可以构造单元格分布,从而得知表格的结构。
具体的,使用基于深度学习的卷积神经网络作为骨干网进行特征提取,骨干网可以为VGG,ResNet或MobileNet等,本发明对此不做限制。
S3、对所述行特征和所述列特征进行处理,分别得到所述表格的行分布和列分布。
具体的,通过以下步骤实现:
S31、将表格特征图进行切片,即利用基于注意力机制的网络在通道维度上分别提取所述特征图每一行和每一列的最大值;
S32、相应的产生一列像素的分布和一行像素的分布;
假设作为输入的表格特征图大小为H×W×C,输出H×1×C大小的行特征图Frow和1×W×C大小的列特征图Fcol
Figure BDA0003250137990000041
Figure BDA0003250137990000042
S33、对所述行特征图Frow和所述列特征图Fcol进行平铺,即将Frow沿宽度轴复制W次,将Fcol沿着高度轴复制H次,得到维度为H×W×C的行分布和列分布,分别是
Figure BDA0003250137990000043
Figure BDA0003250137990000044
切片操作将列分割在每个通道上简化成一行元素的预测,平铺操作将特征图还原到切片之前的尺寸,这样一方面产生粗略的软预测从而指导行列预测网络的学习,另一方面可以依靠行列预测网络进行错误修正,避免产生较大错误。
平铺操作后的特征图经过Softmax将特征值归一化到0~1;行信息流和列信息流分别与经过上采样后的整体信息流相加。最后将归一化的特征图与加和后的特征图相乘,得到输出特征图。这一操作旨在从列信息流中提取关于列的注意力并抑制不相关的信息,最后将其应用到经过整体信息流增强的信息流上。
S4、判断所述行分布和列分布的区域是否有重叠,重叠的部分为表格的单元格,否则为背景。
本实施例第二方面,提供一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项技术方案中所述的方法。
本实施例第三方面,提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项技术方案中所述的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (5)

1.基于行列分割的表格结构识别方法,其特征在于,包括以下步骤,
S1、获取表格图像;
S2、提取包括行特征和列特征的表格特征图;
S3、对所述行特征和所述列特征进行处理,分别得到所述表格的行分布和列分布;
S4、判断所述行分布和列分布的区域是否有重叠,重叠的部分为表格的单元格,否则为背景。
2.根据权利要求1所述的表格结构识别方法,其特征在于,S2中所述提取表格的行特征和列特征具体是,使用基于深度学习的卷积神经网络作为骨干网进行特征提取,所述卷积神经网络为VGG、ResNet或MobileNet。
3.根据权利要求1所述的表格结构识别方法,其特征在于,步骤S3具体为,
S31、利用基于注意力机制的网络在通道维度上分别提取所述特征图每一行和每一列的最大值;
S32、相应的产生一列像素的分布和一行像素的分布;
假设作为输入的表格特征图大小为H×W×C,输出H×1×C大小的行特征图Frow和1×W×C大小的列特征图Fcol
Figure FDA0003250137980000011
Figure FDA0003250137980000012
S33、对所述行特征图Frow和所述列特征图Fcol进行平铺,得到维度为H×W×C的行分布和列分布,分别是
Figure FDA0003250137980000013
Figure FDA0003250137980000014
4.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至3任一项中所述的方法。
5.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至3任一项中所述的方法。
CN202111042986.5A 2021-09-07 2021-09-07 基于行列分割的表格结构识别方法、存储介质和电子装置 Withdrawn CN113743318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111042986.5A CN113743318A (zh) 2021-09-07 2021-09-07 基于行列分割的表格结构识别方法、存储介质和电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111042986.5A CN113743318A (zh) 2021-09-07 2021-09-07 基于行列分割的表格结构识别方法、存储介质和电子装置

Publications (1)

Publication Number Publication Date
CN113743318A true CN113743318A (zh) 2021-12-03

Family

ID=78736459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111042986.5A Withdrawn CN113743318A (zh) 2021-09-07 2021-09-07 基于行列分割的表格结构识别方法、存储介质和电子装置

Country Status (1)

Country Link
CN (1) CN113743318A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115331245A (zh) * 2022-10-12 2022-11-11 中南民族大学 一种基于图像实例分割的表格结构识别方法
TWI806392B (zh) * 2022-01-27 2023-06-21 國立高雄師範大學 表格文本的表格辨識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI806392B (zh) * 2022-01-27 2023-06-21 國立高雄師範大學 表格文本的表格辨識方法
CN115331245A (zh) * 2022-10-12 2022-11-11 中南民族大学 一种基于图像实例分割的表格结构识别方法
CN115331245B (zh) * 2022-10-12 2023-02-03 中南民族大学 一种基于图像实例分割的表格结构识别方法

Similar Documents

Publication Publication Date Title
CN111985464B (zh) 面向法院判决文书的多尺度学习的文字识别方法及***
US8712188B2 (en) System and method for document orientation detection
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
US8693779B1 (en) Segmenting printed media pages into articles
US20050271275A1 (en) Text character identification system and method thereof
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
JPH0721319A (ja) 自動アジア言語決定装置
CN112070649B (zh) 一种去除特定字符串水印的方法及***
CN113743318A (zh) 基于行列分割的表格结构识别方法、存储介质和电子装置
CN110443235B (zh) 一种智能纸质试卷总分识别方法及***
US10423851B2 (en) Method, apparatus, and computer-readable medium for processing an image with horizontal and vertical text
CN111680690A (zh) 一种文字识别方法及装置
CN116030454B (zh) 一种基于胶囊网络和多语言模型的文字识别方法及***
US20190005325A1 (en) Identification of emphasized text in electronic documents
US10586125B2 (en) Line removal method, apparatus, and computer-readable medium
CN113033558A (zh) 一种用于自然场景的文本检测方法及装置、存储介质
CN111461070A (zh) 文本识别方法、装置、电子设备及存储介质
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN114565927A (zh) 表格识别方法、装置、电子设备及存储介质
CN109948598B (zh) 文档版面智能化分析方法及装置
US20080310715A1 (en) Applying a segmentation engine to different mappings of a digital image
CN115797939A (zh) 一种基于深度学习的两阶段斜体字符识别方法及装置
CN116030472A (zh) 文字坐标确定方法及装置
CN112580738B (zh) 基于改进的AttentionOCR文本识别方法及装置
US10185885B2 (en) Tex line detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20211203

WW01 Invention patent application withdrawn after publication