CN116071770A - 表格通用识别方法、装置、设备和介质 - Google Patents

表格通用识别方法、装置、设备和介质 Download PDF

Info

Publication number
CN116071770A
CN116071770A CN202310203359.8A CN202310203359A CN116071770A CN 116071770 A CN116071770 A CN 116071770A CN 202310203359 A CN202310203359 A CN 202310203359A CN 116071770 A CN116071770 A CN 116071770A
Authority
CN
China
Prior art keywords
longitudinal
transverse
gap information
sampling
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310203359.8A
Other languages
English (en)
Other versions
CN116071770B (zh
Inventor
赵驰煦
王国鹏
刘源超
柏英杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Original Assignee
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd filed Critical Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority to CN202310203359.8A priority Critical patent/CN116071770B/zh
Publication of CN116071770A publication Critical patent/CN116071770A/zh
Application granted granted Critical
Publication of CN116071770B publication Critical patent/CN116071770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及人工智能技术领域,公开了一种表格通用识别方法、装置、设备和介质,用于准确地识别表格结构。方法部分包括:获取表格的横向间隙信息和纵向间隙信息;根据所述纵向间隙信息确定所述横向间隙信息的纵向采样位置,并根据所述横向间隙信息确定所述纵向间隙信息的横向采样位置;按照所述纵向采样位置提取所述横向间隙信息的整列信息,得到纵向子特征图,按照所述横向采样位置提取所述纵向间隙信息的整行信息,得到横向子特征图;根据所述横向子特征图和所述纵向子特征图,识别所述表格的表格结构。

Description

表格通用识别方法、装置、设备和介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种表格通用识别方法、装置、设备和介质。
背景技术
目前主流的表格识别算法主要基于表格线分割与关键点检测两种思路。
表格线分割主要通过卷积网络提取出横线与竖线的图像特征,再通过后处理计算出横线与竖线的交点,进而得到表格中各个单元格的位置与坐标值。
关键点检测方法通过检测表格中单元格的顶点与中心点的位置来计算单元格坐标,进而还原表格的结构,此方法与表格线分割相比,对表格图像信息的依赖更小,仅需要表格横竖线交叉点与单元格中心位置的信息即可。
发明人发现,表格线分割的缺点在于过度依赖表格线的信息,当表格由于印刷不清导致表格线不连续、或以不同颜色而非表格线作为分隔单元格的方法时,此方法将无法准确识别表格结构。关键点检测能够在一定程度上解决表格线分割方法的局限性,但是在交叉点位置图像特征不明显、单元格面积过大、无文字的空单元格过多与无线表格的场景下,关键点检测方法同样无法得到准确的结果。
可见,上述两种方法的问题在于过度局限于对表格中局部图像信息的关注,在表格线或交叉点不完全甚至不存在的情况,无法准确识别表格。
发明内容
基于此,有必要针对上述技术问题,提供一种表格通用识别方法、装置、设备和介质,用于准确识别表格。
第一方面,提供了一种表格通用识别方法,包括:
获取表格的横向间隙信息和纵向间隙信息;
根据纵向间隙信息确定横向间隙信息的纵向采样位置,并根据横向间隙信息确定纵向间隙信息的横向采样位置;
按照纵向采样位置提取横向间隙信息的整列信息,得到纵向子特征图,按照横向采样位置提取纵向间隙信息的整行信息,得到横向子特征图;
根据横向子特征图和纵向子特征图,识别表格的表格结构。
可选地,根据纵向间隙信息确定横向间隙信息的纵向采样位置,包括:
根据纵向间隙信息,从横向间隙信息中确定预设参考数量的纵向参考点位置;
将预设参考数量的纵向参考点位置,作为纵向采样位置。
可选地,根据纵向间隙信息,从横向间隙信息中确定预设参考数量的纵向参考点位置,包括:
通过横向间隙信息获得横向向量,其中,横向向量包括表格在横向上每个位置点的坐标值;
对横向向量中,相邻位置点的坐标值小于预设距离的位置点进行抑制,以保留相邻位置点中坐标值大的位置点;
从经过抑制处理的横向向量中,筛选出预设参考数量的位置点作为纵向参考点位置。
可选地,从横向间隙信息中确定预设参考数量的纵向参考点位置,包括:
从横向间隙信息中等距确定出预设参考数量的纵向参考点位置。
可选地,根据横向子特征图和纵向子特征图,识别表格的表格结构,包括:
从纵向子特征图的每一列中选取预设采样数量的位置点作为第一采样点,从横向子特征图的每一行中选取预设采样数量的位置点作为第二采样点;
利用第一transformer网络预测每一第一采样点的坐标值,并利用第二transformer网络预测每一第二采样点的坐标值;
将每一列对应的所有第一采样点的坐标值进行聚合,以得到纵向分隔线,将每一行对应的所有第二采样点的坐标值进行聚合,以得到横向分隔线;
根据横向分隔线和纵向分隔线,识别出表格的表格结构。
可选地,根据横向分隔线和纵向分隔线,识别出表格的表格结构,包括:
对横向分隔线和纵向分隔线进行合并,得到表格的初始单元格区域;
将表格的初始单元格区域的坐标进行缩放,以使缩放后的初始单元格区域与表格的原始特征图的尺寸相同;
按照缩放后的初始单元格区域的坐标值,对原始特征图进行切分,得到多个切分特征图块;
对表格的文本特征与对应的切分特征图块进行融合,得到融合特征;
将每个融合特征输入图神经网络,得到表格的表格结构。
可选地,获取表格的横向间隙信息和纵向间隙信息,包括:
获取表格的表格图像;
通过预先训练的目标检测网络提取表格图像的图像信息,得到原始特征图;
将原始特征图分别输入横向特征提取模块和纵向特征提取模块,得到表格的横向间隙信息和纵向间隙信息。
第二方面,提供了一种表格通用识别装置,装置包括;
获取模块,用于获取表格的横向间隙信息和纵向间隙信息;
确定模块,用于根据横向间隙信息确定纵向采样位置,并根据纵向间隙信息确定横向采样位置;
提取模块,用于按照纵向采样位置提取横向间隙信息的整列信息,得到纵向子特征图,按照横向采样位置提取纵向间隙信息的整行信息,得到横向子特征图;
识别模块,用于根据横向子特征图和纵向子特征图,识别表格的表格结构。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现前述任一项方法的步骤。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如前述任一项方法的步骤。
上述提供的其中一个方案中,由于是利用提取表格图片中的图像信息特征提取全局的排版特征,也即间隙特征,因此,对表格线或交叉点的依赖程度非常低,在此类信息不完全甚至不存在的情况下仍然能够进行正确的结构识别,而且还能够适用于无线表格的识别中,是能够同时对有线表格与无线表格进行结构识别的通用方式,通用性较高,更具有应用价值。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例中表格通用识别方法的一流程示意图;
图2是本申请一实施例中表格通用识别方法的一处理过程示意图;
图3是本申请一实施例中提取子特征图的处理过程示意图;
图4是本申请一实施例中表格通用识别装置的一结构示意图;
图5是本申请一实施例中计算机设备的一结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种表格通用识别方法、装置、设备和存储介质,对表格线或交叉点的依赖程度较低,在此类信息不完全甚至不存在的情况下仍然能够进行正确的结构识别,也能适用于无限条表格的识别,即对于无线表格或有线表格均能识别,提高对表格识别的通用性。下面对本申请提供的表格通用识别方法进行描述。
在一实施例中,如图1所示,提供一种表格通用识别方法,以该方法应包括如下步骤:
S10:获取表格的横向间隙信息和纵向间隙信息。
在传统的方案中,表格线分割的缺点在于过度依赖表格线的信息,当表格由于印刷不清导致表格线不连续、或以不同颜色而非表格线作为分隔单元格的方法时,而且此方式也无法准确识别表格结构。关键点检测能够在一定程度上解决表格线分割方法的局限性,但是在交叉点位置图像特征不明显、单元格面积过大、无文字的空单元格过多与无线表格的场景下,关键点检测方法同样无法实现或者得到准确的结果。该实施例中,为解决上述方式存在的问题,在获取到被识别表格的表格图像后,会先识别表格图像以获取到表格的图像信息,通过该图像信息得到表格的原始特征图S,再利用原始特征图识别出横向间隙信息R和纵向间隙信息C。
需要说明的是,表格的横向间隙信息R和纵向间隙信息C,分别表征了表格在横向和纵向上的横向特征以及纵向特征。示例性的,若表格为有线表格,那么该横向间隙信息R包括可以是识别出的横线位置信息和/或横向间隙位置信息,纵向间隙信息C则可以包括识别出的纵线位置信息和/或纵向间隙位置信息;若表格为无线表格,那么该横向间隙信息R则可以包括识别出的横向间隙位置信息,纵向间隙信息C则可以包括识别出的纵向间隙位置信息。也即是说,无论被识别表格是无线还是有线表格,均可识别出反映表格横向与纵向特性的特征。而且值得注意的是,此做法,有异于识别交叉点坐标或者表格线的方式,只是从整体上识别出表格的横向间隙信息R和纵向间隙信息C,不是直接依赖于交叉点坐标或者表格线的方式。
S20:根据纵向间隙信息确定横向间隙信息的纵向采样位置,并根据横向间隙信息确定纵向间隙信息的横向采样位置。
S30:按照纵向采样位置提取横向间隙信息的整列信息,得到纵向子特征图,按照横向采样位置提取纵向间隙信息的整行信息,得到横向子特征图。
S40:根据横向子特征图和纵向子特征图,识别表格的表格结构。
在确定出表格的横向间隙信息R和纵向间隙信息C后,分别可根据纵向间隙信息C确定横向间隙信息R的纵向采样位置,并根据横向间隙信息R确定纵向间隙信息C的横向采样位置,最后分别基于两种采样位置进行采样,得到纵向子特征图C`和横向子特征图R`。
可以理解的是,如果表格存在表格线,那么纵向间隙最明显的地方,大概率对应到原表格图上是有横线信息的,如果表格中不存在表格线,那么在纵向间隙最明显的地方,大概率对应到原表格图上是有横线信息的;同理,如果表格存在表格线,那么在横向间隙最明显的地方,大概率对应到原表格图上是有纵线信息的,如果表格不存在表格线,那么在横向间隙最明显的地方,大概率对应到原表格图上是有纵线信息的。基于此特点,本申请实施例中,会根据纵向间隙信息C确定横向间隙信息R的纵向采样位置,并根据横向间隙信息R确定纵向间隙信息C的横向采样位置,最后基于这两种不同的采样位置可获取纵向子特征图R`和横向子特征图C`。
可见,纵向子特征图R`反映了表格的列信息,而横向子特征图C`反映了表格的行信息,因此,可根据纵向子特征图R`和横向子特征图C`,识别出表格的单元格区域,得到表格结构。
可见,该实施例中,提供了一种表格通用识别方法,先获取表格的横向间隙信息R和纵向间隙信息C;分别根据纵向间隙信息C/横向间隙信息R,确定纵向采样位置/横向采样位置,按照纵向采样位置提取纵向子特征图R`,按照横向采样位置提取横向子特征图C`;最后再根据横向子特征图C`和纵向子特征图R`,识别表格的表格结构,由于本申请实施例是利用提取表格图片中的图像信息特征提取全局的排版特征,也即间隙特征,因此,对表格线或交叉点的依赖程度非常低,在此类信息不完全甚至不存在的情况下仍然能够进行正确的结构识别,而且还能够适用于无线表格的识别中,是能够同时对有线表格与无线表格进行结构识别的通用方式,通用性较高,更具有应用价值。
需要说明的是,结合上述实施例,步骤S20中,也即根据纵向间隙信息确定横向间隙信息的纵向采样位置,并根据横向间隙信息确定纵向间隙信息的横向采样位置,可以根据间隙信息的坐标值任意或者有选择选出参考点位置,具体不做限定。下面,以确定出纵向采样位置的过程为例,详细处理过程。
为便于理解上述处理过程,下面结合图2和图3,结合下述其他实施例和上述实施例,对完整的实施过程进行详细的描述。
在一实施例中,步骤S10中,也即获取表格的横向间隙信息和纵向间隙信息,包括:
S11:获取表格的表格图像;
S12:通过预先训练的目标检测网络提取表格图像的图像信息,得到原始特征图;
S13:将原始特征图分别输入横向特征提取模块和纵向特征提取模块,得到表格的横向间隙信息和纵向间隙信息。
如图2所示,该实施例中,需先获取被识别表格对应的表格图像,然后通过预先训练的目标检测网络提取表格图像的图像信息,得到原始特征图。示例性的,在一实施例中,如图2所示,可通过ResNet-18骨干网络与特征金字塔层(Feature Pyramid Networks,FPN),提取表格图像的图像信息,得到尺寸为W×H的原始特征图S。需要说明的是,除了ResNet-18骨干网络与FPN层提取原始特征图的方式外,还可以是其他的特征提取模块,比如,采用其他的骨干网络和/或特征层等,本申请实施例不做限定。然后,再将原始特征图S分别输入横向特征提取模块和纵向特征提取模块,从而分别得到得到表格的横向间隙信息和纵向间隙信息,其中,横向特征提取模块和纵向特征提取模块可通过卷积网络实现。
该实施例中,提供了一种具体的提取横向间隙信息和纵向间隙信息的处理方式,在提高方案的可实施性的同时,ResNet-18骨干网络与FPN层提取原始特征图的过程保持原图尺寸,并不对原图进行压缩,传统方案对表格图像的特征图上进行预测时会对特征图进行压缩,并将预测结果还原至原尺寸的图中,此过程会造成坐标精度上的损失,从而使得预测出的表格结构较真实结构略有偏差,而本发明中对表格结构的预测是,在原图尺寸上进行的,因此识别结果会更加准确。
在一实施例中,步骤S20中,也即根据纵向间隙信息确定横向间隙信息的纵向采样位置,包括:
S21:根据纵向间隙信息,从横向间隙信息中确定预设参考数量的纵向参考点位置。
S22:将预设参考数量的纵向参考点位置,作为纵向采样位置。
该实施例中,根据纵向间隙信息C,从横向间隙信息R中确定预设参考数量的纵向参考点位置作为纵向采样位置,其中,该预设参考数量为经验值,示例性的,该预设参考数量可以是8、10、15等,具体不做限定。
可见,该实施例中,按照确定出的纵向采样位置作为参考点位置提取横向间隙信息的整列信息,可为下一步处理处理纵向子特征图的处理数据量,极大的提高了处理效率。即:该过程中,需要取出哪几列拼成一张小的特征图,最能反应该表格中的列信息,后续通过这些信息就可以预测出正确的结果。
同理,在一实施例中,步骤S20中,也即根据横向间隙信息确定纵向间隙信息的横向采样位置,包括:
S23:根据横向间隙信息,从纵向间隙信息中确定预设参考数量的横向参考点位置。
S24:将预设参考数量的横向参考点位置,作为横向采样位置。
可以理解的是,处理步骤S22-步骤S24的处理过程和细节,与前述步骤S21-S22相对应,其中,该实施例中,根据横向间隙信息R,从纵向间隙信息C中确定预设参考数量的横向参考点位置作为横向采样位置,其中,该预设参考数量为经验值,示例性的,该预设参考数量可以是8、10、15等,具体不做限定。示例性的,横向/纵向参考点位置均可取10,也即分别包括10个采样位置参考点。可见,该实施例中,按照确定出的横向采样位置作为参考点位置提取纵向间隙信息的整行信息,可为下一步处理处理横向子特征图的处理数据量,极大的提高了处理效率。即:该过程中,需要取出哪几行拼成一张小的特征图,最能反应该表格中的行信息,后续通过这些信息就可以预测出正确的结果。
需要说明的是,结合上述实施例,步骤S21或步骤S22中,也即确定纵向参考点位置和确定横向参考点位置的过程,本申请实施例分别提供了两种不同的处理方式且具有相应的特点,这里以确定纵向参考点位置的作为示例,对这两种不同方式进行详细的说明。
第一种方式
根据纵向间隙信息,从横向间隙信息中确定预设参考数量的纵向参考点位置,包括:
S211:将横向间隙信息沿表格的宽度方向进行求和,以获得横向向量,其中,横向向量包括表格在横向上每个位置点的坐标值;
S212:对横向向量中,相邻位置点的坐标值小于预设距离的位置点进行抑制,以保留相邻位置点中坐标值大的位置点。
S213:从经过抑制处理的横向向量中,筛选出预设参考数量的位置点作为纵向参考点位置。
此实施例是第一种确定纵向参考点位置的方式,该实施例中,如图2和图3所示,需先将横向间隙信息沿表格的宽度方向进行求和,以获得横向向量,其中,横向向量包括表格在横向上每个位置点的坐标值,对横向向量中,相邻位置点的坐标值小于预设距离的位置点进行抑制,以保留相邻位置点中坐标值大的位置点,该预设距离为经验值,不对具体限定。从经过抑制处理的横向向量中,筛选出预设参考数量的位置点作为纵向参考点位置。比如,图3中,是筛选出10个最大值的位置点作为R的参考点,将R中的10个参考点位置所在的整列取出,最后得到尺寸为10×H的纵向子特征图R`。
同理,对于确定横向参考点位置的过程,与确定纵向参考点位置的过程相似,也即,需先将纵向间隙信息沿表格的高度方向进行求和,以获得纵向向量,其中,纵向向量包括表格在纵向上每个位置点的坐标值,对纵向向量中,相邻位置点的坐标值小于预设距离的位置点进行抑制,以保留相邻位置点中坐标值大的位置点,同样的,该预设距离为经验值,不对具体限定。从经过抑制处理的纵向向量中,筛选出预设参考数量的位置点作为横向参考点位置。比如,图3中,是筛选出10个最大值的位置点作为C的参考点,将C中的10个参考点位置所在的整行取出,最后得到尺寸为W×10的横向子特征图C`。
需要说明的是,此步骤主要是为了下一步的处理网络(如图3的Transformer)提取子特征图做准备,由于Transformer的计算量很大,因此需要对输入Transformer的数据进行筛选以减小计算量,即:需要取出该原始特征图S中的哪几行/列拼成一张小的特征图,以最能反应该表格中的行列信息,而Transformer仅通过这些信息就可以预测出正确的结果。如图3所示,如果表格存在表格线,那么在竖线特征最明显的地方(图3左下图中的白色柱状特征),大概率对应到原表格图上是有横线信息的,因此,以此为参考,能够更加准确地在行特征图(图3左上)中取出有用信息(图3左上竖虚线、图3右上拼合而成的小特征图,即纵向子特征图),横向向子特征图的处理过程类似,也就是说,此过程是为了更加准确地采样,以及后续减少Transformer的处理量。
第二种方式
值得强调的是,此参考点的目的是为了更加准确地采样,实际上即使在从横向/纵向间隙信息等间距取10列/行也是可以的,可从横向间隙信息中等距确定出预设参考数量的纵向参考点位置,从纵向间隙信息中等距确定出预设参考数量的横向参考点位置,具体不做限定。
比如,无线表格没有表格线特征。也就是说,在其他实现中,实际上即使在行或列特征图中等间距取10列/行也可以(比如无线表格没有表格线特征),精度差异而已。取10个参考点的目的,是在推理过程中,Transformer只会在这些位置进行预测。举例来说,对于图3左上的10×H的子特征图,Transformer会在每一列上预测100个值(经处理后变为K个),最终得到K条折线,每条折线由10个点组成(即分隔线),用于适应表格图片变形、缺失等情况,提高适用性。
在一实施例中,步骤S40中,根据横向子特征图和纵向子特征图,识别表格的表格结构,包括:
S41:从纵向子特征图的每一列中选取预设采样数量的位置点作为第一采样点,从横向子特征图的每一行中选取预设采样数量的位置点作为第二采样点;
S42:利用第一transformer网络预测每一第一采样点的坐标值,并利用第二transformer网络预测每一第二采样点的坐标值;
S43:将每一列对应的所有第一采样点的坐标值进行聚合,以得到纵向分隔线,将每一行对应的所有第二采样点的坐标值进行聚合,以得到横向分隔线;
S44:根据横向分隔线和纵向分隔线,识别出表格的表格结构。
该实施例中,包括横向分隔线和纵向分隔线的处理过程,具体利用两个transformer网络先预测每个确定出的采样点的坐标值,再利用采样点的坐标值聚合处理得到相应的坐标分隔线。其中:
对于横向分隔线,先是从纵向子特征图R`的每一列中选取预设采样数量的位置点作为第一采样点,示例性的,纵向子特征图R`的每一列中等间距选取100个第一采样点,然后利用第一transformer网络(transformer1)预测每一列中,每一第一采样点的坐标,从而得到所有横向分隔线。其中,示例性为100仅为示例性说明,并不对本申请实施例造成限定。
同理,对于纵向分隔线,先是从横向子特征图C`的每一行中选取预设采样数量的位置点作为第二采样点,示例性的,横向子特征图C`的每一行中等间距选取100个第二采样点,然后利用第二transformer网络(transformer2)预测每一行中,每一第二采样点的坐标,从而得到所有纵向分隔线。其中,示例性为100仅为示例性说明,并不对本申请实施例造成限定。
也就是说,Transformer网络在推理过程中,只会在这些子特征图确定出的行/列进行预测。举例来说,对于图3左上的10×H尺寸的纵向子特征图,Transformer会在每一列上预测100个值经处理后变为K个,最终得到K条折线,每条折线由10个点组成(即分隔线)。
需要说明的是,Transformer网络在进行坐标值预测时,两个子特征图分别作为两个Transformer网络的Encoder中的Key、Value部分,然后分别在纵向子特征图R`与横向子特征图C`的每一列/行中,等间距选取100个采样点作为Transformer网络Decoder中的Query,将Query送入Decoder中,在Decoder的输出层接入线性层,利用线性层用于预测每一个采样点所对应的坐标值。为便于理解,结合图3,以行预测为例(图2上半部分),设此时原始特征图S的通道数为D,那么纵向子特征图R`的尺寸为10×H×D,此即为Key、Value。将100个第一采样点取出后拼合可以得到100×D的矩阵,此即为Query。预测第一采样点的坐标过程如下所示:将Key、Value前两个维度合并为一个维度(10*H×D),使用Query与Key做矩阵乘法,得到尺寸为(100×10*H)的矩阵,再将此矩阵与Value做矩阵乘法,重新得到尺寸为(100×D)的结果,再将结果经过一个线性层,重复上述步骤三次,将最终结果经过一个线性层,用于预测100个点中每个点的y方向坐标值。将得到的100个点的坐标结果进行聚合,将邻近的坐标合并为一个点,最终得到水平方向的分隔线,即横向分隔线;同理,可得到对应的纵向分隔线。
需要说明的是,上述100个采样点仅为示例性说明,并不对本申请实施例造成限定。
可见,该实施例中,通过两个Transformer网络预测子特征图中采样点的坐标值,再通过聚合方式得到分隔线位置,有效地识别了分隔线位置,提高表格单元格区域的准确性。
还值得注意的是,在一实施例中,本申请实施例需先对两个Transformer网络进行训练,使得输出的分隔线与预测分隔线之间的损失符合要求,方可应用于分割线识别中。其中,训练过程中,在分别计算预测出的横向与纵向分隔线之后,可确定横向与纵向分隔线分别与预设标签值之间的损失loss,即 L horizontal L vertical 。示例性的,可使用Smooth L1Loss进行计算,如下所示:;其中,f(xi)为预测值,yi为真实值;
例如,在做行预测时,以图3左上图的10条红色虚线(10个参考点)对应原图的横坐标位置(x),Transformer预测这一列上的若干个y值,经后处理后最终得到组成每条分隔线的点的坐标(xi, yi*),标签为人为打标的线,计算Smooth L1Loss时,计算预测的yi*(即f(xi))与标签线在xi处的真实坐标yi之间的Smooth L1Loss;在做列预测时行列正好相反,计算xi*与xi之间的Smooth L1Loss,从而利用计算出行/列预测时的Smooth L1Loss,符合所需条件。
需要说明的是,关于两个Transformer网络等模型的训练,在此不详细展开描述。
另外需要说明的是,在经过根据横向分隔线和纵向分隔线,识别出表格的表格结构,可识别出表格的单元格区域,然而,上述分隔线是对整张表格进行了最细粒度的切分,即:即使出现了某些单元格是由若干单元格合并而成的大单元格,经过上述处理后也会被切成最小单位的单元格。因此,为了准确识别出表格结构,还需要由另一个网络去学习哪些单元格应该合并为一个格子,再进行合并并填充文本的过程,如下实施例所示:
在一实施例中,S44中,也即根据横向分隔线和纵向分隔线,识别出表格的表格结构,包括:
S441:对横向分隔线和纵向分隔线进行合并,得到表格的初始单元格区域;
S442:将表格的初始单元格区域的坐标进行缩放,以使缩放后的表格到与表格的原始特征图的尺寸相同;
S443:按照缩放后的单元格区域的坐标值,对原始特征图进行切分,得到多个切分特征图块;
S444:对表格的文本特征与对应的切分特征图块进行融合,得到融合特征;
S445:将每个融合特征输入图神经网络,得到表格的表格结构。
该实施例中,首先对横向分隔线和纵向分隔线进行合并,得到表格的初始单元格区域,也即将水平与垂直分隔线综合,得到每一个单元格区域,然后对单元格坐标尺寸缩放到与原始特征图S相同的尺寸,再根据缩放后的坐标值对原始特征图S进行切分,得到多个切分特征图块,切分之后的每个切分特征图块作为图卷积神经网络(Graph ConvolutionalNetwork,GCN)中每个节点的输入之一。并且如图2所示,利用对表格图像经过文本检测网络与卷积循环神经网络识别表格中的文本特征,示例性的,文本检测网络可以是可微的二值化网络( Real-time Scene Text Detection with Differentiable Binarization,DBNet)或者其他文本检测网络,具体不做限定。将表格中的文本特征与切分出的图像块融合后,送入GCN网络中。
需要说明的是,GCN网络用于预测识别出的单元格中,哪两个单元格之间应当合并为一个单元格。其中,GCN网络为训练完毕成使用,训练过程需计算匹配loss ,也即 L group 。可以理解的是,GCN网络学习一个邻接矩阵,用于记录识别出的单元格区域中,每一个单元格与其他单元格之间的关系,1表示有关系,即应当合并为一个格子,0代表无关,即不应合并。 L group 为GCN预测的邻接矩阵与标签的邻接矩阵之间的交叉熵损失。因此,为了计算这个Loss,还需要准备一个标签数据的邻接矩阵,用于记录每一个小单元格与其他单元格的关系。最后,利用训练后的GCN网络,结合文本特征和切分图像块,将需要合并的单元格坐标进行合并,并将文本识别内容填入对应的单元格中,得到最终的表格结构。
值得注意的是,可以看出,在训练时,最终的损失可表达为如下所示: L total = λ1 L horizontal + (1-λ1) L vertical + λ L group
整体网络架构需满足上述中最终的损失符合所需条件,λ1为权重系数,可进行配置。
综上,结合上述各个实施例,最终的一实施例的处理过程可如图2所示,首先将原始表格图片送入ResNet-18+FPN网络中用于提取图像在不同尺度上的特征并融合,由于随后要对表格的行与列进行划分,而二者所需要的特征不同,故需要两个卷积网络分别用于进一步提取横向与纵向上的特征,交换上述两个特征图的信息,通过行/列特征图来确定列/行特征图的采样位置。选取垂直特征与水平特征中特征最明显的10个列与行,分别作为水平特征与垂直特征的参考点,最后将整列/行取出作为新的子特征图,此过程主要考虑行列交叉的位置为划分单元格的主要位置,而在图像中列特征最明显的位置,其行特征最能成为划分单元格的依据。
再用两个子特征图分别作为Transformer的Key与Value,在每个子特征图的列/行中等间距抽取100个点作为Query,与上述Key、Value组成Decoder部分,在Decoder输出位置接上线性层用于对每个采样点的纵坐标/横坐标进行预测。每个Transformer得到10×100个纵坐标/横坐标。将坐标相近的坐标进行合并,得到最终的行与列的分隔线,即得到横向分割线和纵向分割线。最后按照横向分割线和纵向分割线综合得到细粒度划分的单元格。再将单元格坐标根据尺寸比例缩放到原始特征图S的尺寸,根据缩放后的单元格坐标对特征图进行切分,与此同时使用DBNet与CRNN对表格中的文字进行检测+识别,将文本信息进行Embedding并与对应单元格的切块图像特征进行特征融合,将每个融合信息的单元格作为节点,构建图卷积网络用于预测单元格之间的关系。最终得到合并后的表格识别结果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一实施例中,提供一种表格通用识别装置,该表格通用识别装置与上述实施例中表格通用识别方法一一对应。如图4所示,该表格通用识别装置包括获取模块101、确定模块102、提取模块103和识别模块104。各功能模块详细说明如下:
获取模块101,用于获取表格的横向间隙信息和纵向间隙信息;
确定模块102,用于根据横向间隙信息确定纵向采样位置,并根据纵向间隙信息确定横向采样位置;
提取模块103,用于按照纵向采样位置提取横向间隙信息的整列信息,得到纵向子特征图,按照横向采样位置提取纵向间隙信息的整行信息,得到横向子特征图;
识别模块104,用于根据横向子特征图和纵向子特征图,识别表格的表格结构。
在一实施例中,确定模块102用于:
根据纵向间隙信息,从横向间隙信息中确定预设参考数量的纵向参考点位置;
将预设参考数量的纵向参考点位置,作为纵向采样位置。
在一实施例中,确定模块102用于:
通过横向间隙信息获得横向向量,其中,横向向量包括表格在横向上每个位置点的坐标值;
对横向向量中,相邻位置点的坐标值小于预设距离的位置点进行抑制,以保留相邻位置点中坐标值大的位置点;
从经过抑制处理的横向向量中,筛选出预设参考数量的位置点作为纵向参考点位置。
在一实施例中,确定模块102用于:
从横向间隙信息中等距确定出预设参考数量的纵向参考点位置。
在一实施例中,识别模块104用于:
从纵向子特征图的每一列中选取预设采样数量的位置点作为第一采样点,从横向子特征图的每一行中选取预设采样数量的位置点作为第二采样点;
利用第一transformer网络预测每一第一采样点的坐标值,并利用第二transformer网络预测每一第二采样点的坐标值;
将每一列对应的所有第一采样点的坐标值进行聚合,以得到纵向分隔线,将每一行对应的所有第二采样点的坐标值进行聚合,以得到横向分隔线;
根据横向分隔线和纵向分隔线,识别出表格的表格结构。
在一实施例中,识别模块104用于:
对横向分隔线和纵向分隔线进行合并,得到表格的初始单元格区域;
将表格的初始单元格区域的坐标进行缩放,以使缩放后的表格到与表格的原始特征图的尺寸相同;
按照缩放后的单元格区域的坐标值,对原始特征图进行切分,得到多个切分特征图块;
对表格的文本特征与对应的切分特征图块进行融合,得到融合特征;
将每个融合特征输入图神经网络,得到表格的表格结构。
在一实施例中,获取模块101用于:
获取表格的表格图像;
通过预先训练的目标检测网络提取表格图像的图像信息,得到原始特征图;
将原始特征图分别输入横向特征提取模块和纵向特征提取模块,得到表格的横向间隙信息和纵向间隙信息。
可见,该实施例中,提供了一种表格通用识别装置,先获取表格的横向间隙信息R和纵向间隙信息C;分别根据纵向间隙信息C/横向间隙信息R,确定纵向采样位置/横向采样位置,按照纵向采样位置提取纵向子特征图C`,按照横向采样位置提取横向子特征图R`;最后再根据横向子特征图R`和纵向子特征图C`,识别表格的表格结构,由于本申请实施例是利用提取表格图片中的图像信息特征提取全局的排版特征,也即间隙特征,因此,对表格线或交叉点的依赖程度非常低,在此类信息不完全甚至不存在的情况下仍然能够进行正确的结构识别,而且还能够适用于无线表格的识别中,是能够同时对有线表格与无线表格进行结构识别的通用方式,通用性较高,更具有应用价值。
关于表格通用识别装置的具体限定可以参见上文中对于表格通用识别方法的限定,在此不再赘述。上述表格通用识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为可读存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的设备通过网络连接通信,用于获取表格图像。该计算机程序被处理器执行时以实现上述实施例一种表格通用识别方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取表格的横向间隙信息和纵向间隙信息;
根据纵向间隙信息确定横向间隙信息的纵向采样位置,并根据横向间隙信息确定纵向间隙信息的横向向采样位置;
按照纵向采样位置提取横向间隙信息的整列信息,得到纵向子特征图,按照横向采样位置提取纵向间隙信息的整行信息,得到横向子特征图;
根据横向子特征图和纵向子特征图,识别表格的表格结构。
在一个实施例中,提供了一个或多个存储有计算机程序的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机程序,计算机程序被一个或多个处理器执行时实现以下步骤:
获取表格的横向间隙信息和纵向间隙信息;
根据纵向间隙信息确定横向间隙信息的纵向采样位置,并根据横向间隙信息确定纵向间隙信息的横向采样位置;
按照纵向采样位置提取横向间隙信息的整列信息,得到纵向子特征图,按照横向采样位置提取纵向间隙信息的整行信息,得到横向子特征图;
根据横向子特征图和纵向子特征图,识别表格的表格结构。
在一实施例中,还提供了一种计算机程序产品,计算机程序产品包括计算机程序,其特征在于,计算机程序被处理器执行时实现如下步骤:
获取表格的横向间隙信息和纵向间隙信息;
根据纵向间隙信息确定横向间隙信息的纵向采样位置,并根据横向间隙信息确定纵向间隙信息的横向采样位置;
按照纵向采样位置提取横向间隙信息的整列信息,得到纵向子特征图,按照横向采样位置提取纵向间隙信息的整行信息,得到横向子特征图;
根据横向子特征图和纵向子特征图,识别表格的表格结构。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种表格通用识别方法,其特征在于,包括:
获取表格的横向间隙信息和纵向间隙信息;
根据所述纵向间隙信息确定所述横向间隙信息的纵向采样位置,并根据所述横向间隙信息确定所述纵向间隙信息的横向采样位置;
按照所述纵向采样位置提取所述横向间隙信息的整列信息,得到纵向子特征图,按照所述横向采样位置提取所述纵向间隙信息的整行信息,得到横向子特征图;
根据所述横向子特征图和所述纵向子特征图,识别所述表格的表格结构。
2.如权利要求1所述的表格通用识别方法,其特征在于,所述根据所述纵向间隙信息确定所述横向间隙信息的纵向采样位置,包括:
根据所述纵向间隙信息,从所述横向间隙信息中确定预设参考数量的纵向参考点位置;
将所述预设参考数量的纵向参考点位置,作为所述纵向采样位置。
3.如权利要求2所述的表格通用识别方法,其特征在于,所述根据所述纵向间隙信息,从所述横向间隙信息中确定预设参考数量的纵向参考点位置,包括:
通过所述横向间隙信息获得横向向量,其中,所述横向向量包括所述表格在横向上每个位置点的坐标值;
对所述横向向量中,相邻位置点的坐标值小于预设距离的位置点进行抑制,以保留所述相邻位置点中坐标值大的位置点;
从经过所述抑制处理的所述横向向量中,筛选出预设参考数量的位置点作为纵向参考点位置。
4.如权利要求2所述的表格通用识别方法,其特征在于,所述从所述横向间隙信息中确定预设参考数量的纵向参考点位置,包括:
从所述横向间隙信息中等距确定出预设参考数量的纵向参考点位置。
5.如权利要求1-4任一项所述的表格通用识别方法,其特征在于,所述根据所述横向子特征图和所述纵向子特征图,识别所述表格的表格结构,包括:
从所述纵向子特征图的每一列中选取预设采样数量的位置点作为第一采样点,从所述横向子特征图的每一行中选取预设采样数量的位置点作为第二采样点;
利用第一transformer网络预测每一所述第一采样点的坐标值,并利用第二transformer网络预测每一所述第二采样点的坐标值;
将所述每一列对应的所有所述第一采样点的坐标值进行聚合,以得到纵向分隔线,将所述每一行对应的所有所述第二采样点的坐标值进行聚合,以得到横向分隔线;
根据所述横向分隔线和所述纵向分隔线,识别出所述表格的表格结构。
6.如权利要求5所述的表格通用识别方法,其特征在于,所述根据所述横向分隔线和所述纵向分隔线,识别出所述表格的表格结构,包括:
对所述横向分隔线和所述纵向分隔线进行合并,得到所述表格的初始单元格区域;
将所述表格的初始单元格区域的坐标进行缩放,以使缩放后的所初始单元格区域与所述表格的原始特征图的尺寸相同;
按照缩放后的初始单元格区域的坐标值,对所述原始特征图进行切分,得到多个切分特征图块;
对所述表格的文本特征与对应的所述切分特征图块进行融合,得到融合特征;
将每个所述融合特征输入图神经网络,以得到所述表格的表格结构。
7.如权利要求1-4任一项所述的表格通用识别方法,其特征在于,所述获取表格的横向间隙信息和纵向间隙信息,包括:
获取所述表格的表格图像;
通过预先训练的目标检测网络提取所述表格图像的图像信息,得到原始特征图;
将所述原始特征图分别输入横向特征提取模块和纵向特征提取模块,得到所述表格的横向间隙信息和纵向间隙信息。
8.一种表格通用识别装置,其特征在于,所述装置包括;
获取模块,用于获取表格的横向间隙信息和纵向间隙信息;
确定模块,用于根据所述横向间隙信息确定纵向采样位置,并根据所述纵向间隙信息确定横向采样位置;
提取模块,用于按照所述纵向采样位置提取所述横向间隙信息的整列信息,得到纵向子特征图,按照所述横向采样位置提取所述纵向间隙信息的整行信息,得到横向子特征图;
识别模块,用于根据所述横向子特征图和所述纵向子特征图,识别所述表格的表格结构。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202310203359.8A 2023-03-06 2023-03-06 表格通用识别方法、装置、设备和介质 Active CN116071770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310203359.8A CN116071770B (zh) 2023-03-06 2023-03-06 表格通用识别方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310203359.8A CN116071770B (zh) 2023-03-06 2023-03-06 表格通用识别方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN116071770A true CN116071770A (zh) 2023-05-05
CN116071770B CN116071770B (zh) 2023-06-16

Family

ID=86178603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310203359.8A Active CN116071770B (zh) 2023-03-06 2023-03-06 表格通用识别方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN116071770B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006024171A1 (en) * 2004-09-01 2006-03-09 Ubitrak Inc. System for gaming chip identification and counting
CN110021133A (zh) * 2019-05-17 2019-07-16 重庆消防安全技术研究服务有限责任公司 全天候消防火灾巡逻预警监控***及火灾图像检测方法
JP2021005234A (ja) * 2019-06-26 2021-01-14 日立オムロンターミナルソリューションズ株式会社 帳票認識装置、帳票認識方法、及び帳票認識システム
CN112528863A (zh) * 2020-12-14 2021-03-19 中国平安人寿保险股份有限公司 表格结构的识别方法、装置、电子设备及存储介质
CN114155544A (zh) * 2021-11-15 2022-03-08 深圳前海环融联易信息科技服务有限公司 一种无线表格识别方法、装置、计算机设备及存储介质
CN114241497A (zh) * 2021-11-09 2022-03-25 山东师范大学 基于上下文关系注意力机制的表格序列识别方法及***
CN114463769A (zh) * 2022-02-11 2022-05-10 北京有竹居网络技术有限公司 表格识别方法、装置、可读介质和电子设备
CN114677695A (zh) * 2022-04-01 2022-06-28 中国工商银行股份有限公司 表格解析方法、装置、计算机设备和存储介质
CN115273112A (zh) * 2022-07-29 2022-11-01 北京金山数字娱乐科技有限公司 表格识别方法、装置、电子设备及可读存储介质
CN115546809A (zh) * 2022-11-29 2022-12-30 城云科技(中国)有限公司 基于单元格约束的表格结构识别方法及其应用
CN115601774A (zh) * 2022-12-12 2023-01-13 深圳前海环融联易信息科技服务有限公司(Cn) 表格识别方法、装置、设备、存储介质和程序产品

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006024171A1 (en) * 2004-09-01 2006-03-09 Ubitrak Inc. System for gaming chip identification and counting
CN110021133A (zh) * 2019-05-17 2019-07-16 重庆消防安全技术研究服务有限责任公司 全天候消防火灾巡逻预警监控***及火灾图像检测方法
JP2021005234A (ja) * 2019-06-26 2021-01-14 日立オムロンターミナルソリューションズ株式会社 帳票認識装置、帳票認識方法、及び帳票認識システム
CN112528863A (zh) * 2020-12-14 2021-03-19 中国平安人寿保险股份有限公司 表格结构的识别方法、装置、电子设备及存储介质
CN114241497A (zh) * 2021-11-09 2022-03-25 山东师范大学 基于上下文关系注意力机制的表格序列识别方法及***
CN114155544A (zh) * 2021-11-15 2022-03-08 深圳前海环融联易信息科技服务有限公司 一种无线表格识别方法、装置、计算机设备及存储介质
CN114463769A (zh) * 2022-02-11 2022-05-10 北京有竹居网络技术有限公司 表格识别方法、装置、可读介质和电子设备
CN114677695A (zh) * 2022-04-01 2022-06-28 中国工商银行股份有限公司 表格解析方法、装置、计算机设备和存储介质
CN115273112A (zh) * 2022-07-29 2022-11-01 北京金山数字娱乐科技有限公司 表格识别方法、装置、电子设备及可读存储介质
CN115546809A (zh) * 2022-11-29 2022-12-30 城云科技(中国)有限公司 基于单元格约束的表格结构识别方法及其应用
CN115601774A (zh) * 2022-12-12 2023-01-13 深圳前海环融联易信息科技服务有限公司(Cn) 表格识别方法、装置、设备、存储介质和程序产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于明;郭佥;王栋壮;于洋;: "改进的基于连通域的版面分割方法", 计算机工程与应用, no. 17, pages 199 - 202 *

Also Published As

Publication number Publication date
CN116071770B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN110517278B (zh) 图像分割和图像分割网络的训练方法、装置和计算机设备
CN108805131B (zh) 文本行检测方法、装置及***
CN110751134B (zh) 目标检测方法、装置、存储介质及计算机设备
CN111079632A (zh) 文本检测模型的训练方法、装置、计算机设备和存储介质
CN109886330B (zh) 文本检测方法、装置、计算机可读存储介质和计算机设备
CN111523414A (zh) 人脸识别方法、装置、计算机设备和存储介质
CN112508975A (zh) 一种图像识别方法、装置、设备及存储介质
CN111797829A (zh) 一种车牌检测方法、装置、电子设备和存储介质
CN111723841A (zh) 文本检测方法、装置、电子设备及存储介质
CN112287947B (zh) 一种区域建议框检测方法、终端及存储介质
CN112184687B (zh) 基于胶囊特征金字塔的道路裂缝检测方法和存储介质
CN113903022B (zh) 基于特征金字塔与注意力融合的文本检测方法及***
CN112348116A (zh) 利用空间上下文的目标检测方法、装置和计算机设备
CN114170438A (zh) 神经网络训练的方法、电子设备及计算机存储介质
CN111666931A (zh) 基于混合卷积文字图像识别方法、装置、设备及存储介质
CN112241646A (zh) 车道线识别方法、装置、计算机设备和存储介质
CN115526846A (zh) 基于联合检测的裂缝检测方法、装置和计算机设备
CN116258859A (zh) 语义分割方法、装置、电子设备及存储介质
CN115601774A (zh) 表格识别方法、装置、设备、存储介质和程序产品
CN118037692A (zh) 基于计算机视觉的钢材表面缺陷检测方法及***
CN111179270A (zh) 基于注意力机制的图像共分割方法和装置
CN114241360A (zh) 一种基于自适应推理的视频识别方法和装置
CN116071770B (zh) 表格通用识别方法、装置、设备和介质
CN110059696B (zh) 一种图像标注方法、装置和计算机可读存储介质
CN111539435A (zh) 语义分割模型构建方法及图像分割方法、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant