CN112712014A - 表格图片结构解析方法、***、设备和可读存储介质 - Google Patents

表格图片结构解析方法、***、设备和可读存储介质 Download PDF

Info

Publication number
CN112712014A
CN112712014A CN202011589490.5A CN202011589490A CN112712014A CN 112712014 A CN112712014 A CN 112712014A CN 202011589490 A CN202011589490 A CN 202011589490A CN 112712014 A CN112712014 A CN 112712014A
Authority
CN
China
Prior art keywords
target
picture
line segments
cell
text content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011589490.5A
Other languages
English (en)
Other versions
CN112712014B (zh
Inventor
孙杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Health Insurance Company of China Ltd
Original Assignee
Ping An Health Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Health Insurance Company of China Ltd filed Critical Ping An Health Insurance Company of China Ltd
Priority to CN202011589490.5A priority Critical patent/CN112712014B/zh
Publication of CN112712014A publication Critical patent/CN112712014A/zh
Application granted granted Critical
Publication of CN112712014B publication Critical patent/CN112712014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图片处理领域,提供了一种表格图片结构解析方法,所述方法包括:获取包括目标表格的目标图片;检测所述目标图片中的目标表格的线性结构,并根据所述线性结构确定所述目标图片的目标表格结构;根据所述目标表格结构确定所述目标图片的文字内容的位置坐标,并提取所述文字内容;根据所述目标表格结构创建目标表格文档;及根据所述文字内容的位置坐标,将所述文字内容填写到所述目标表格文档中。本发明提高了表格图片到Excel等表格的转化效率和正确率;提高了相关场景中表格图片转化的效率,降低了处理成本。

Description

表格图片结构解析方法、***、设备和可读存储介质
技术领域
本发明实施例涉及图片处理领域,尤其涉及一种表格图片结构解析方法、***、设备及可读存储介质。
背景技术
为了保证表格文档内容的完整性,表格文档常常会被转换为表格文档图片并进行传输。表格文档图片可以是与业务相关文档的传真、扫描或手机拍摄图片等。而表格文档图片的接收方往往会对图片中的进行数据归档,当对表格文档图片中的数据归档时,目前常用的做法是:使用文字OCR技术对表格文档图片中文字内容进行提取,然后采用人工补录入的方式将表格整理为Excel等电子文档,但其效率非常低下,且正确率难以保证。因此,如何提高解析表格图片的正确率,并同时提高将表格整理为Excel等电子文档的效率,成为了当前亟需解决的技术问题。
发明内容
有鉴于此,有必要提供一种表格图片结构解析方法、***、设备及可读存储介质,以解决将表格文档图片转换为Excel等电子文档的效率低,以及正确率低的问题。
为实现上述目的,本发明实施例提供了一种表格图片结构解析方法,所述方法步骤包括:
获取包括目标表格的目标图片;
检测所述目标图片中的目标表格的线性结构,并根据所述线性结构确定所述目标图片的目标表格结构;
根据所述目标表格结构确定所述目标图片的文字内容的位置坐标,并提取所述文字内容;
根据所述目标表格结构创建目标表格文档;及
根据所述文字内容的位置坐标,将所述文字内容填写到所述目标表格文档中。
示例性的,所述获取包括目标表格的目标图片的步骤,包括:
获取包括表格的待处理图片;
对所述待处理图片进行预处理操作,以得到待裁剪图片;
检测所述待裁剪图片的表格区域;及
根据所述待裁剪图片的表格区域,裁剪所述待裁剪图片以得到所述目标图片。
示例性的,所述预处理操作包括角度矫正操作、尺寸缩放操作以及像素值归一化操作。
示例性的,所述线性结构包括多个单元格线段,每个单元格线段包括两个端点坐标;所述检测所述目标图片中的目标表格的线性结构,并根据所述线性结构确定所述目标图片的目标表格结构的步骤,包括:
对所述目标表格进行表格线交点检测,以得到多个表格线交点;
根据每两个相邻的表格线交点提取一个单元格线段,以得到所述多个单元格线段;
根据每个单元格线段位置定义所述单元格线段两端表格线交点的坐标,以得到所述每个单元格线段的两个端点坐标;及
根据所述多个单元格线段和所述每个单元格线段的两个端点坐标,构建所述目标表格结构。
示例性的,所述根据所述多个单元格线段和所述每个单元格线段的两个端点坐标,构建所述目标表格结构,包括:
根据各个端点坐标的坐标位置顺序,将所述多个单元格线段拼接为多个拼接线段,所述多个拼接线段包括多个拼接横线段和多个拼接纵线段;及
根据所述多个拼接横线段和所述多个拼接纵线段,确定所述目标表格结构。
示例性的,所述根据所述多个拼接横线段和所述多个拼接纵线段,确定所述目标表格结构,包括:
根据所述多个拼接横线段和所述多个拼接纵线段构建初始表格,获取所述初始表格中多个交点坐标;
根据所述多个交点坐标构建目标交点图矩阵;及
根据所述目标交点图矩阵确定多个目标单元格,并根据所述多个目标单元格确定所述目标表格结构。
示例性的,所述文字内容包括多个单元格文字内容,每个单元格文字内容对应的一个单元格位置坐标;
所述根据所述文字内容的位置坐标,将所述文字内容填写到所述目标表格文档中的步骤,包括:
根据每个单元格位置坐标为所述每个单元格文字内容匹配对应的目标单元格;及
将所述每个单元格文字内容填写到对应的目标单元格。
为实现上述目的,本发明实施例还提供了一种表格图片结构解析***,包括:
获取模块,用于获取包括表格的待处理图片;
检测模块,用于检测所述目标图片中的目标表格的线性结构,并根据所述线性结构确定所述目标图片的目标表格结构;
确定模块,用于根根据所述目标表格结构确定所述目标图片的文字内容的位置坐标,并提取所述文字内容;
创建模块,用于根据所述目标表格结构创建目标表格文档;及
填写模块,用于根据所述文字内容的位置坐标,将所述文字内容填写到所述目标表格文档中。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上述的表格图片结构解析方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上述的表格图片结构解析方法的步骤。
本发明实施例提供的表格图片结构解析方法、***、计算机设备及计算机可读存储介质,通过对所述目标表格进行表格线交点检测,根据检测出的线性结构构建目标表格结构,通过目标表格结构准确的还原表格结构,提高了表格图片到Excel等表格的转化效率和正确率;且根据所述文字内容的位置坐标将所述文字内容填写到所述目标表格文档中,提高了相关场景中表格图片转化的效率,降低了处理成本。
附图说明
图1为本发明实施例表格图片结构解析方法的流程示意图;
图2为本发明实施例一中的待处理图片的示意图;
图3为本发明实施例一中的多个表格线交点示意图;
图4为本发明实施例一中的多个拼接线段示意图;
图5为本发明实施例一中的初始表格示意图;
图6为本发明实施例一中的推算多个单元格的顺序示意图;
图7为本发明实施例一中的目标表格结构图;
图8为本发明实施例一中的单元格并合示意图;
图9为本发明实施例一中的目标表格文档示意图;
图10为本发明表格图片结构解析***实施例二的程序模块示意图;
图11为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
以下实施例中,将以计算机设备2为执行主体进行示例性描述。
实施例一
参阅图1,示出了本发明实施例之表格图片结构解析方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。
步骤S100,获取包括目标表格的目标图片。
所述目标图片可以是任意一种包含表格的图片。
在实际业务场景中,表格文档可能会转将Excel等文档格式转换为图片格式。例如,所述包含表格的图片可以是与业务相关文档的传真、扫描或手机拍摄图片等。
在示例性的实施例中,所述步骤S100还可以进一步的包括步骤S200~步骤 S204,其中:
步骤S200,获取包括表格的待处理图片。
所述目标图片还可以是计算机设备2预先获取的待处理图片中裁剪的图片。
当计算机设备2接收到所述待处理图片时,可以对所述待处理图片进行一次检测,以确定所述待处理图片中是否存在表格。如果所述待处理图片中存在表格,则从该待处理图片中截取包括表格的目标图片。
示例性的,所述待处理图片还可以是具有多个表格的图片。当计算机设备 2检测到所述待处理图片中具有多个表格时,所述计算机设备2可以根据每个表格截取一个对应的目标图片,以得到多个目标图片。
步骤S202,对所述待处理图片进行预处理操作,以得到待裁剪图片。
在示例性的实施例中,所述预处理操作包括角度矫正操作、尺寸缩放操作以及像素值归一化操作。
所述待处理图片可以是手动拍摄的图片,即,所述原始拍图片可能会受到拍摄角度、拍摄光线等因素导致截取的目标图片出现倾斜、目标图片中文字内容不清晰等问题。
为了避免出现上述问题,计算机设备2可以在接收到所述待处理图片后,可以先对所述待处理图片进行预处理,例如,可以对所述待处理图片进行角度指正,尺寸缩放以及像素值归一化等操作,以得到所述待裁剪图片(即处理后的待处理图片)。
步骤S204,检测所述待裁剪图片的表格区域。
计算机设备2可以检测所述待裁剪图片的表格所在的表格局域。其中,所述该步骤通过表格局域检测算法实现,例如,所述表格局域检测算法可以是 YOLO算法、CascadeTabNet算法等。
步骤S206,根据所述待裁剪图片的表格区域,裁剪所述待裁剪图片以得到所述目标图片。
可以理解有些图片的表格只占据图片的一小部分,为了提高后期图片检测的准确率,计算机设备2还可以根据所述表格区域对所述待裁剪图片进行裁剪,以得到只包含目标表格的目标图片。
其中,如果所述待裁剪图片中包含多个表格,计算机设备2还可以根据各个表格的表格区域对所述待裁剪图片进行裁剪,以得到多个目标图片。
在本实施中,计算机设备2通过对所述待处理图片进行预处理操作和裁剪操作,提高了图片检测的准确性,进一步的提高了图片检测的效率。
如图2所示,为了更好的理解,在本实施还提供了一个待处理图片的示意图。
步骤S102,检测所述目标图片中的目标表格的线性结构,并根据所述线性结构确定所述目标图片的目标表格结构。
计算机设备2可以将所述目标图片输入到所述线检测模型中,以通过所述线检测模型对目标图片检测出的线性结构,确定所述目标图片的目标表格结构。其中,所述线检测结果可以包括多个单元格线段,每个单元格线段包括两个端点坐标。
在示例性的实施例中,所述线性结构包括多个单元格线段,每个单元格线段包括两个端点坐标。其中,所述单元格线段为所述目标图片中目标表格的表格单元格的线段。
所述步骤S102还可以进一步的包括步骤S300~步骤S306,其中:
步骤S300,对所述目标表格进行表格线交点检测,以得到多个表格线交点。
示例性的,所述线检测模型可以是L-CNN深度学习模型,其中,所述线检测模型可以以HourglassNet(卷积神经网络的网络结构)作为backbone(神经网络模型)来提取图像高维特征。
具体的,计算机设备2可以将所述目标图片输入到所述线检测模型中,以通过所述线检测模型预先设定的交点检测环节提取所述目标图片中疑似的表格线交点,以得到所述多个表格线交点。
如图3所示,为了更好的理解,本实施例还提供了目标图片的多个表格线交点示意图。
步骤S302,根据每两个相邻的表格线交点提取一个单元格线段,以得到所述多个单元格线段。
计算机设备2可以通过所述线检测模型从每两个相邻的表格线交点提取从医一个单元格线段,以得到多个单元格线段。其中,所述线检测模型在得到所述多个单元格线段后,可以将所述多个表格线交点和所述多个单元格线段输出到计算机设备2。
步骤S304,根据每个单元格线段位置定义所述单元格线段两端表格线交点的坐标,以得到所述每个单元格线段的两个端点坐标。
计算机设备2在接收到所述线检测模型输出的所述多个表格线交点和所述多个单元格线段后,可以根据每个单元格线段位置定义所述单元格线段两端表格线交点的坐标,以得到每个单元格线段的两个端点坐标。
步骤S306,根据所述多个单元格线段和所述每个单元格线段的两个端点坐标,构建所述目标表格结构。
示例性的,当计算机设备2得到所述多个单元格线段和所述每个单元格线段的两个端点坐标后,还可以根据所述多个单元格线段和所述每个单元格线段的两个端点坐标构建所述标表格结构。本实施通过L-CNN深度学习模型对目标图片的目标表格进行线检测,解决了现有表格线提取方法(如,基于图像分割的深度学习模型的表格线提取方法)的标注困难、处理复杂、以及对复杂问题的学习和表达能力不强的问题。
本实施通过L-CNN深度学习模型对目标图片的目标表格进行线检测时,仅需标注线段分段点,无需更改级标注;L-CNN深度学习模型还可以对表格中的交点进行检测,并判断是否形成表格边线,模型的学习和表达能力更强。另外,该L-CNN深度学习模型输出结果(所述多个表格线交点和所述多个单元格线段) 为目标图片的目标表格的表格线的端点的准确表示,可直接输入下一替代使用。
所述步骤S306还可以进一步的包括步骤S400~步骤S402,其中:
步骤S400,根据各个端点坐标的坐标位置顺序,将所述多个单元格线段拼接为多个拼接线段,所述多个拼接线段包括多个拼接横线段和多个拼接纵线段。
当计算机设备2得到所述多个单元格线段和所述每个单元格线段的两个端点坐标后,还可以根据各个单元格线段的两个端点坐标的坐标顺序对多个单元格线段进行合并处理,以使连续的单元格线段合并为拼接线段。其中,所述拼接线段为目标表格中的表格长线段。
示例性的,所述单元格线段包括单元格横线段和单元格纵线段,其中,所述多个单元格横线段可以合并为一个拼接横线段,所述多个单元格纵线段可以合并为一个拼接纵线段。
示例性的,计算机设备2还可以对多个拼接线段中是否存在误判线段,若存在所述误判线段,计算机设备2可以剔除该误判线。
步骤S402,根据所述多个拼接横线段和所述多个拼接纵线段,确定所述目标表格结构。
示例性的,当计算机设备2得到所述多个拼接横线段和所述多个拼接纵线段后,还可以根据所述多个拼接横线段和所述多个拼接纵线段确定所述目标表格结构。
在本实施例中,计算机设备2可以通过将所述多个单元格线段拼接为多个拼接线段,以根据多个拼接线段确定所述目标表格结构,提高了构建所述目标表格结构的准确性和构建所述目标表格结构的效率。
如图4所示,为了更好的理解,本方案还提供了目标图片的多个拼接线段的示意图。
在一些实施例中,为了确保目标表格的完整性,计算机设备2还可以延长或补充所述初始表格的四边边界线,使其成为封闭线框。本实施例可以通过延长或补充所述初始表格的四边边界线,使其成为封闭线框,防止了因扫描质量或拍摄原因丢失外框边线,提高了表格解析的完整性。
所述步骤S402还可以进一步的包括步骤S500~步骤S504,其中:
步骤S500,根据所述多个拼接横线段和所述多个拼接纵线段构建初始表格,获取所述初始表格中多个交点坐标。
计算机设备2根据所述多个拼接横线段和所述多个拼接纵线段构建初始表格,并提取所述初始表格中多个交点坐标。
示例性的,所述目标表格还可以不规则的表格。
以所述目标图片的表格是不规则的表格为例,其中,线段以端点坐标表示:
所述多个拼接横线段为:
[((10,10),(60,10))、((20,20),(60,20))、((10,30),(30,30))、 ((50,30),(60,30))、((10,40),(50,40))、((10,50),(60,50))];
所述多个拼接纵线段为:
[((10,10),(10,50))、((20,10),(20,30))、((30,20),(30,40))、 ((40,10),(40,20))、((50,20),(50,50))、((60,10),(60,50))]。
根据上述多个拼接横线段和所述多个拼接纵线段构建的初始表格的表格结构可以如图5所示,其中,以图5左上点坐标为零点,所述多个交点坐标如图 5所示。
步骤S502,根据所述多个交点坐标构建目标交点图矩阵。
计算机设备2在得到所述多个交点坐标后,可以根据所述多个交点坐标构建所述目标交点图矩阵M:
Figure BDA0002868191270000111
在所述目标交点图矩阵M中i,j分别是拼接横线段和拼接纵线段的序号。其中,Intersection(l1,l2)表示两根直线的交点坐标值。
以示例表格为例,“×”表示无交点,其交点图矩阵为如表1所示。
A B C D E F
a (10,10) (20,10) × (40,10) × (60,10)
b × (20,20) (30,20) (40,20) (50,20) (60,20)
c × × × × (50,30) (60,30)
d (10,30) (20,30) 30,30) × × ×
e (10,40) × (30,40) × (50,40) ×
f (10,50) × × × (50,50) (60,50)
表1
其中,A-F字母表示拼接纵线段编号,a-f字母表示拼接横线段编号。拼接横线段c与d由于同行,其水平位置相同,在本方法中其编号顺序先后不会影响最终结果。
在一些实施例中,为了确保所述目标表格的完整性,计算机设备2还可以延长或补充所述初始表格的四边边界线,使其成为封闭线框。例如,可稍延长各线段以确保能对应相交,获取交点坐标。即,将表1中“×”的位置填补上对应的交点坐标。
步骤S504,根据所述目标交点图矩阵确定多个目标单元格,并根据所述多个目标单元格确定所述目标表格结构。
计算机设备2可以基于所述目标交点图矩阵M推算出多个目标单元格。其中,推算过程可以是由表1左上角开始,通过动态规划思想寻找存在的交点,依次形成目标单元格的左上角、右上角、右下角、左下角。若能找到四个角点均存在交点,且面积最小的矩形,即为合理的单元格,且该目标单元格位置可用四个角点坐标表示。
示例性的,推算出多个目标单元格的顺序可以如图6所示,其中,图6中的编号①~编号⑨为目标单元格检出次序。
以四个角点坐标记录检出的目标单元格,可得到以下目标单元格,其中,所述目标单元格集合可表示为:
boxes=[((10,10),(20,10),(20,30),(10,30)), ((20,10),(40,10),(40,20),(20,20)), ((40,10),(60,10),(60,20),(40,20)), ((20,20),(30,20),(30,30),(20,30)), ((30,20),(50,20),(50,40),(30,40)), ((50,20),(60,20),(60,30),(50,30)),((10,30),(30,30),(30,40),(10,40)), ((50,30),(60,30),(60,50),(50,50)), ((10,40),(50,40),(50,50),(10,50))]
根据上述目标单元格坐标,可以得到图7所示的目标表格结构图。
本实施例可以通过目标交点图矩阵来实现目标单元格的查找,在线检测完整的基础上能够实现目标表格结构的还原,且算法简单复杂度低,提高了表格结构解析的效率。
步骤S104,根据所述目标表格结构确定所述目标图片的文字内容的位置坐标,并提取所述文字内容。
对所述目标图片进行文字识别,并根据所述目标表格结构对识别出的文字信息进行标记,以确定所述文字信息的实际位置;其中,所述表格图片结构解析***可以通用OCR算法定位表格图片中的文字切片坐标,并识别文字内容。基于文字切片的中心坐标或角点坐标。
步骤S106,根据所述目标表格结构创建目标表格文档。
步骤S108,根据所述文字内容的位置坐标将所述文字内容填写到所述目标表格文档中。
示例性的,所述文字内容包括多个单元格文字内容,每个单元格文字内容对应的一个单元格位置坐标;
所述步骤S108还可以进一步的包括步骤S600~步骤S602,其中:步骤S600,根据每个单元格位置坐标为所述每个单元格文字内容匹配对应的目标单元格;及步骤S602,将所述每个单元格文字内容填写到对应的目标单元格。
计算机设备2可以为所述每个单元格文字内容与目标单元格进行匹配,根据所述文字信息的实际位置将所述文字信息填写到所述目标表格文档中。
示例性的,首先对横线和纵线进行行和列的合并,在一定范围内接近共线的线段应合并为同一行(列)的表格线。
在本实施例中,拼接横线段c与拼接横线段d判定为共线,因此两者均为第二列目标单元格的下边线。根据合并后的横线行数N和纵线列数M,先在 Excel中确定(N-1)×(M-1)的表范围。并根据各目标单元格四周边线得出横跨的行列范围,并对该区域进行合并。如图8中的目标单元格,其拼接横线段跨度为2-4,拼接纵线段跨度为3-5。可以得到目标单元格跨度为2行至3行,3行至4行。使用xlwt.Workook()类的write_merge()函数即可完成目标单元格区域合并,同时填入相应文字内容。最终生成Excel文件效果,以图2为例,其结果如图9所示。
本实施本方法提出的基于线的结构推理方法,通过建立横线和纵线的交点图矩阵来实现单元格的查找,在线检测完整的基础上能够实现任意表格结构的还原,且算法简单复杂度低。本方案还可以通过结合通用文字OCR技术,能够将表格图片中文字与单元格进行匹配,最终生成的电子化表格文档能准确还原表格内容和表格结构。提高了相关场景中表格图片电子化的流程效率,提升了企业业务自动化程度,降低人工处理成本。
示例性的,所述表格图片结构解析方法还包括:将所述目标表格结构和所述目标表格文档上传到区块链中。
示例性的,将所述目标表格结构和所述目标表格文档上传至区块链可保证其安全性和公正透明性。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪) 和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
实施例二
图10为本发明表格图片结构解析***实施例二的程序模块示意图。表格图片结构解析***20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述表格图片结构解析方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述表格图片结构解析***20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
获取模块200,用于获取包括表格的待处理图片。
示例性的,所述获取模块200,还用于:获取包括表格的待处理图片;对所述待处理图片进行预处理操作,以得到待裁剪图片;检测所述待裁剪图片的表格区域;及根据所述待裁剪图片的表格区域,裁剪所述待裁剪图片以得到所述目标图片。
示例性的,所述预处理操作包括角度矫正操作、尺寸缩放操作以及像素值归一化操作。
检测模块202,用于检测所述目标图片中的目标表格的线性结构,并根据所述线性结构确定所述目标图片的目标表格结构。
示例性的,所述线性结构包括多个单元格线段,每个单元格线段包括两个端点坐标;所述检测模块202,还用于:对所述目标表格进行表格线交点检测,以得到多个表格线交点;根据每两个相邻的表格线交点提取一个单元格线段,以得到所述多个单元格线段;根据每个单元格线段位置定义所述单元格线段两端表格线交点的坐标,以得到所述每个单元格线段的两个端点坐标;及根据所述多个单元格线段和所述每个单元格线段的两个端点坐标,构建所述目标表格结构。
示例性的,所述检测模块202,还用于:根据各个端点坐标的坐标位置顺序,将所述多个单元格线段拼接为多个拼接线段,所述多个拼接线段包括多个拼接横线段和多个拼接纵线段;及根据所述多个拼接横线段和所述多个拼接纵线段,确定所述目标表格结构。
示例性的,所述检测模块202,还用于:根据所述多个拼接横线段和所述多个拼接纵线段构建初始表格,获取所述初始表格中多个交点坐标;根据所述多个交点坐标构建目标交点图矩阵;及根据所述目标交点图矩阵确定多个目标单元格,并根据所述目标多个单元格确定所述目标表格结构。
示例性的,所述文字内容包括多个单元格文字内容,每个单元格文字内容对应的一个单元格位置坐标;所述检测模块202,还用于:根据每个单元格位置坐标为所述每个单元格文字内容匹配对应的目标单元格;及将所述每个单元格文字内容填写到对应的目标单元格。
确定模块204,用于根根据所述目标表格结构确定所述目标图片的文字内容的位置坐标,并提取所述文字内容。
创建模块206,用于根据所述目标表格结构创建目标表格文档。
填写模块208,用于根据所述文字内容的位置坐标,将所述文字内容填写到所述目标表格文档中。
示例性的,所述表格图片结构解析***20还包括,上传模块,所述上传模块,用于将所述调用结果上传到区块链中。
实施例三
参阅图11,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过***总线相互通信连接存储器21、处理器22、网络接口23、以及表格图片结构解析***20。
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器 (ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2 的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备 2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作***和各类应用软件,例如实施例二的表格图片结构解析***20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit, CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器 21中存储的程序代码或者处理数据,例如运行表格图片结构解析***20,以实现实施例一的表格图片结构解析方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communicatI/On,GSM)、宽带码分多址(WidebandCode DivisI/On Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图11仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的表格图片结构解析***20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21 中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图10示出了本发明实施例二之所述实现表格图片结构解析***20 的程序模块示意图,该实施例中,所述表格图片结构解析***20可以被划分为获取模块200、检测模块202、确定模块204、创建模块206和填写模块208。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述表格图片结构解析***20在所述计算机设备2 中的执行过程。所述程序模块200-208的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于表格图片结构解析***20,被处理器执行时实现实施例一的表格图片结构解析方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种表格图片结构解析方法,其特征在于,所述方法包括:
获取包括目标表格的目标图片;
检测所述目标图片中的目标表格的线性结构,并根据所述线性结构确定所述目标图片的目标表格结构;
根据所述目标表格结构确定所述目标图片的文字内容的位置坐标,并提取所述文字内容;
根据所述目标表格结构创建目标表格文档;及
根据所述文字内容的位置坐标,将所述文字内容填写到所述目标表格文档中。
2.如权利要求1所述的表格图片结构解析方法,其特征在于,所述获取包括目标表格的目标图片的步骤,包括:
获取包括表格的待处理图片;
对所述待处理图片进行预处理操作,以得到待裁剪图片;
检测所述待裁剪图片的表格区域;及
根据所述待裁剪图片的表格区域,裁剪所述待裁剪图片以得到所述目标图片。
3.如权利要求2所述的表格图片结构解析方法,其特征在于,所述预处理操作包括角度矫正操作、尺寸缩放操作以及像素值归一化操作。
4.如权利要求1所述的表格图片结构解析方法,其特征在于,所述线性结构包括多个单元格线段,每个单元格线段包括两个端点坐标;所述检测所述目标图片中的目标表格的线性结构,并根据所述线性结构确定所述目标图片的目标表格结构的步骤,包括:
对所述目标表格进行表格线交点检测,以得到多个表格线交点;
根据每两个相邻的表格线交点提取一个单元格线段,以得到所述多个单元格线段;
根据每个单元格线段位置定义所述单元格线段两端表格线交点的坐标,以得到所述每个单元格线段的两个端点坐标;及
根据所述多个单元格线段和所述每个单元格线段的两个端点坐标,构建所述目标表格结构。
5.如权利要求4所述的表格图片结构解析方法,其特征在于,所述根据所述多个单元格线段和所述每个单元格线段的两个端点坐标,构建所述目标表格结构,包括:
根据各个端点坐标的坐标位置顺序,将所述多个单元格线段拼接为多个拼接线段,所述多个拼接线段包括多个拼接横线段和多个拼接纵线段;及
根据所述多个拼接横线段和所述多个拼接纵线段,确定所述目标表格结构。
6.如权利要求5所述的表格图片结构解析方法,其特征在于,所述根据所述多个拼接横线段和所述多个拼接纵线段,确定所述目标表格结构,包括:
根据所述多个拼接横线段和所述多个拼接纵线段构建初始表格,获取所述初始表格中多个交点坐标;
根据所述多个交点坐标构建目标交点图矩阵;及
根据所述目标交点图矩阵确定多个目标单元格,并根据所述目标多个单元格确定所述目标表格结构。
7.如权利要求6所述的表格图片结构解析方法,其特征在于,所述文字内容包括多个单元格文字内容,每个单元格文字内容对应的一个单元格位置坐标;
所述根据所述文字内容的位置坐标,将所述文字内容填写到所述目标表格文档中的步骤,包括:
根据每个单元格位置坐标为所述每个单元格文字内容匹配对应的目标单元格;及
将所述每个单元格文字内容填写到对应的目标单元格。
8.一种表格图片结构解析***,其特征在于,包括:
获取模块,用于获取包括表格的待处理图片;
检测模块,用于检测所述目标图片中的目标表格的线性结构,并根据所述线性结构确定所述目标图片的目标表格结构;
确定模块,用于根根据所述目标表格结构确定所述目标图片的文字内容的位置坐标,并提取所述文字内容;
创建模块,用于根据所述目标表格结构创建目标表格文档;及
填写模块,用于根据所述文字内容的位置坐标,将所述文字内容填写到所述目标表格文档中。
9.一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的表格图片结构解析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至7中任一项所述的表格图片结构解析方法的步骤。
CN202011589490.5A 2020-12-29 2020-12-29 表格图片结构解析方法、***、设备和可读存储介质 Active CN112712014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011589490.5A CN112712014B (zh) 2020-12-29 2020-12-29 表格图片结构解析方法、***、设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011589490.5A CN112712014B (zh) 2020-12-29 2020-12-29 表格图片结构解析方法、***、设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN112712014A true CN112712014A (zh) 2021-04-27
CN112712014B CN112712014B (zh) 2024-04-30

Family

ID=75546243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011589490.5A Active CN112712014B (zh) 2020-12-29 2020-12-29 表格图片结构解析方法、***、设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN112712014B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343866A (zh) * 2021-06-15 2021-09-03 杭州数梦工场科技有限公司 表格信息的识别方法及装置、电子设备
CN113536951A (zh) * 2021-06-22 2021-10-22 科大讯飞股份有限公司 表格识别方法及相关装置和电子设备、存储介质
CN113591739A (zh) * 2021-08-04 2021-11-02 广联达科技股份有限公司 识别图纸中面域的方法、装置、计算机设备和存储介质
CN113591746A (zh) * 2021-08-05 2021-11-02 上海金仕达软件科技有限公司 一种文档表格结构检测方法及装置
CN116612487A (zh) * 2023-07-21 2023-08-18 亚信科技(南京)有限公司 表格识别方法、装置、电子设备及存储介质
CN118095202A (zh) * 2024-04-29 2024-05-28 江西易卫云信息技术有限公司 一种实验数据记录方法及***

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07182459A (ja) * 1993-12-22 1995-07-21 Matsushita Electric Ind Co Ltd 表構造抽出装置
JPH1153466A (ja) * 1997-07-31 1999-02-26 Hitachi Ltd 表認識方法
US20030123727A1 (en) * 1998-09-11 2003-07-03 Tomotoshi Kanatsu Table recognition method and apparatus, and storage medium
US20170308746A1 (en) * 2016-04-25 2017-10-26 Fujitsu Limited Form recognition method, form recognition device, and non-transitory computer-readable medium
KR101811581B1 (ko) * 2016-11-15 2017-12-26 주식회사 셀바스에이아이 문서 이미지에서 표 인식을 위한 장치 및 방법
CN108132916A (zh) * 2017-11-30 2018-06-08 厦门市美亚柏科信息股份有限公司 解析pdf表格数据的方法、存储介质
CN109726643A (zh) * 2018-12-13 2019-05-07 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN110008809A (zh) * 2019-01-04 2019-07-12 阿里巴巴集团控股有限公司 表格数据的获取方法、装置和服务器
CN110059687A (zh) * 2019-03-19 2019-07-26 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
CN110110313A (zh) * 2019-05-09 2019-08-09 上海微投股权投资基金管理有限公司 文档表格解析方法及装置
US20190278853A1 (en) * 2018-03-09 2019-09-12 International Business Machines Corporation Extracting Structure and Semantics from Tabular Data
US20190294399A1 (en) * 2018-03-26 2019-09-26 Abc Fintech Co., Ltd. Method and device for parsing tables in pdf document
CN110472208A (zh) * 2019-06-26 2019-11-19 上海恒生聚源数据服务有限公司 Pdf文档中表格解析的方法、***、存储介质及电子设备
WO2020164281A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
WO2020232872A1 (zh) * 2019-05-22 2020-11-26 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07182459A (ja) * 1993-12-22 1995-07-21 Matsushita Electric Ind Co Ltd 表構造抽出装置
JPH1153466A (ja) * 1997-07-31 1999-02-26 Hitachi Ltd 表認識方法
US20030123727A1 (en) * 1998-09-11 2003-07-03 Tomotoshi Kanatsu Table recognition method and apparatus, and storage medium
US20170308746A1 (en) * 2016-04-25 2017-10-26 Fujitsu Limited Form recognition method, form recognition device, and non-transitory computer-readable medium
KR101811581B1 (ko) * 2016-11-15 2017-12-26 주식회사 셀바스에이아이 문서 이미지에서 표 인식을 위한 장치 및 방법
CN108132916A (zh) * 2017-11-30 2018-06-08 厦门市美亚柏科信息股份有限公司 解析pdf表格数据的方法、存储介质
US20190278853A1 (en) * 2018-03-09 2019-09-12 International Business Machines Corporation Extracting Structure and Semantics from Tabular Data
US20190294399A1 (en) * 2018-03-26 2019-09-26 Abc Fintech Co., Ltd. Method and device for parsing tables in pdf document
CN109726643A (zh) * 2018-12-13 2019-05-07 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
WO2020140698A1 (zh) * 2019-01-04 2020-07-09 阿里巴巴集团控股有限公司 表格数据的获取方法、装置和服务器
CN110008809A (zh) * 2019-01-04 2019-07-12 阿里巴巴集团控股有限公司 表格数据的获取方法、装置和服务器
WO2020164281A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110059687A (zh) * 2019-03-19 2019-07-26 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
WO2020186779A1 (zh) * 2019-03-19 2020-09-24 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
CN110110313A (zh) * 2019-05-09 2019-08-09 上海微投股权投资基金管理有限公司 文档表格解析方法及装置
WO2020232872A1 (zh) * 2019-05-22 2020-11-26 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN110472208A (zh) * 2019-06-26 2019-11-19 上海恒生聚源数据服务有限公司 Pdf文档中表格解析的方法、***、存储介质及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343866A (zh) * 2021-06-15 2021-09-03 杭州数梦工场科技有限公司 表格信息的识别方法及装置、电子设备
CN113536951A (zh) * 2021-06-22 2021-10-22 科大讯飞股份有限公司 表格识别方法及相关装置和电子设备、存储介质
CN113536951B (zh) * 2021-06-22 2023-11-24 科大讯飞股份有限公司 表格识别方法及相关装置和电子设备、存储介质
CN113591739A (zh) * 2021-08-04 2021-11-02 广联达科技股份有限公司 识别图纸中面域的方法、装置、计算机设备和存储介质
CN113591746A (zh) * 2021-08-05 2021-11-02 上海金仕达软件科技有限公司 一种文档表格结构检测方法及装置
CN116612487A (zh) * 2023-07-21 2023-08-18 亚信科技(南京)有限公司 表格识别方法、装置、电子设备及存储介质
CN116612487B (zh) * 2023-07-21 2023-10-13 亚信科技(南京)有限公司 表格识别方法、装置、电子设备及存储介质
CN118095202A (zh) * 2024-04-29 2024-05-28 江西易卫云信息技术有限公司 一种实验数据记录方法及***

Also Published As

Publication number Publication date
CN112712014B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN112712014B (zh) 表格图片结构解析方法、***、设备和可读存储介质
CN109933756B (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
CN111595850B (zh) 切片缺陷检测方法、电子装置及可读存储介质
US9710704B2 (en) Method and apparatus for finding differences in documents
CN107688789B (zh) 文档图表抽取方法、电子设备及计算机可读存储介质
CN110569341B (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
CN110807454B (zh) 基于图像分割的文字定位方法、装置、设备及存储介质
CN107689070B (zh) 图表数据结构化提取方法、电子设备及计算机可读存储介质
CN110728687B (zh) 文件图像分割方法、装置、计算机设备和存储介质
CN113221632A (zh) 文档图片识别方法、装置以及计算机设备
CN113343740A (zh) 表格检测方法、装置、设备和存储介质
CN111858977B (zh) 票据信息采集方法、装置、计算机设备和存储介质
CN114241499A (zh) 表格图片识别方法、装置、设备和可读存储介质
CN113837151A (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN113592720B (zh) 图像的缩放处理方法、装置、设备、存储介质
CN112232336A (zh) 一种证件识别方法、装置、设备及存储介质
CN111222517A (zh) 测试样本生成方法、***、计算机设备及存储介质
CN117351511A (zh) 高精地图的检测方法、装置及设备
CN111611883A (zh) 基于最小单元格聚类的表格版面分析方法、***及设备
CN116050379A (zh) 文档对比方法及存储介质
CN113868411A (zh) 合同比对方法、装置、存储介质及计算机设备
CN113259538A (zh) 一种电子案卷的转档***
CN113177995B (zh) Cad图纸的文本重组方法和计算机可读存储介质
CN115640952B (zh) 一种数据导入上传的方法及***
CN117115839B (zh) 一种基于自循环神经网络的***字段识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant