CN114241499A - 表格图片识别方法、装置、设备和可读存储介质 - Google Patents

表格图片识别方法、装置、设备和可读存储介质 Download PDF

Info

Publication number
CN114241499A
CN114241499A CN202111548752.8A CN202111548752A CN114241499A CN 114241499 A CN114241499 A CN 114241499A CN 202111548752 A CN202111548752 A CN 202111548752A CN 114241499 A CN114241499 A CN 114241499A
Authority
CN
China
Prior art keywords
output word
word segment
segment
segments
previous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111548752.8A
Other languages
English (en)
Inventor
林大权
蔡壮壮
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202111548752.8A priority Critical patent/CN114241499A/zh
Publication of CN114241499A publication Critical patent/CN114241499A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及图像处理技术领域,具体公开了一种表格图片识别方法、装置、设备和可读存储介质,该方法包括:获取待识别表格图片,对待识别表格图片进行OCR识别,获得待识别表格中每个单元框的单行文本信息;对待识别表格图片进行卷积神经网络解析识别,获得待识别表格图片的多个特征图;获取预训练好的表格图片识别模型,将单行文本信息和特征图输入表格图片识别模型中,获取表格图片识别模型输出的计算结果,计算结果包括输出词片段以及输出词片段间的关联关系,关联关系包括自注意力得分和相对位置向量,其中,输出词片段为表格图片识别模型对单行文本信息进行分词后获得;根据输出词片段以及输出词片段间的关联关系,生成与待识别表格图片对应的表格结构。

Description

表格图片识别方法、装置、设备和可读存储介质
技术领域
本发明涉及图像处理技术领域,具体涉及一种表格图片识别方法、装置、设备和可读存储介质。
背景技术
表格作为一种组织整理数据的手段,为各行各业的人员所使用。通常,为了避免表格内容被任意更改,造成原始数据的破坏,便以图片形式对表格进行保存,当需要使用表格数据时,通过对表格图片进行识别后可以进行相应地获取。
现有技术中利用OCR检测获得表格图片的文本内容,根据文本的空间排布信息推导出行、列和合并单元格,但是,这种表格识别机制存在以下两种问题:对于空间上行间距小的两个相邻单元格内的文本会错误的拼接在一起,或者对于行间距大的同一单元格的多行文本会被划分在不同单元格里,进而导致表格结构识别准确率低。
针对现有技术中根据文本内容的空间排布信息进行表格识别导致表格结构识别准确率低的技术问题,目前未存在有效的解决办法。
发明内容
本发明的目的在于提供了一种表格图片识别方法、装置、设备和可读存储介质,能够解决现有技术中根据文本内容的空间排布信息进行表格识别导致表格结构识别准确率低的技术问题。
本发明的一个方面提供了一种表格图片识别方法,该方法包括:获取待识别表格图片,对待识别表格图片进行OCR识别,获得待识别表格中每个单元框的单行文本信息;对待识别表格图片进行卷积神经网络解析识别,获得待识别表格图片的多个特征图;获取预训练好的表格图片识别模型,将单行文本信息和特征图输入表格图片识别模型中,获取表格图片识别模型输出的计算结果,计算结果包括输出词片段以及输出词片段间的关联关系,关联关系包括自注意力得分和相对位置向量,其中,输出词片段为表格图片识别模型对单行文本信息进行分词后获得;根据输出词片段以及输出词片段间的关联关系,生成与待识别表格图片对应的表格结构。
可选地,根据输出词片段以及输出词片段间的关联关系,生成与待识别表格图片对应的表格结构的步骤包括:对输出词片段间的关联关系进行判断,根据判断结果确定输出词片段和该输出词片段的前一输出词片段的位置关系,位置关系包括输出词片段与该输出词片段的前一输出词片段为同框关系或异框关系、输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系或异行关系以及输出词片段的前一输出词片段所属单元框为合并单元框关系或标准单元框关系;根据输出词片段和该输出词片段的前一输出词片段的位置关系生成与待识别表格图片对应的表格结构。
可选地,根据判断结果确定输出词片段和该输出词片段的前一输出词片段的位置关系的步骤包括:根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段与该输出词片段的前一输出词片段为同框关系或异框关系;根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段的前一输出词片段所属单元框为合并单元框关系或标准单元框关系;根据输出词片段与该输出词片段的前一输出词片段的自注意力得分和x方向相对位置向量确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系或异行关系。
可选地,根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段与该输出词片段的前一输出词片段为同框关系或异框关系的步骤包括:当输出词片段与该输出词片段的前一输出词片段的自注意力得分大于等于第一预设阈值时,则确定输出词片段与该输出词片段的前一输出词片段为同框关系;当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第一预设阈值时,则确定输出词片段与该输出词片段的前一输出词片段为异框关系。
可选地,根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段的前一输出词片段所属单元框为合并单元框关系或标准单元框关系的步骤包括:当输出词片段与该输出词片段的前一输出词片段的自注意力得分大于等于第二预设阈值且小于第一预设阈值时,则确定该输出词片段的前一输出词片段所属单元框为合并单元框关系,其中,第一预设阈值大于第二预设阈值;当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第二预设阈值时,则确定该输出词片段的前一输出词片段所属单元框为标准单元框关系。
可选地,根据输出词片段与该输出词片段的前一输出词片段的自注意力得分和x方向相对位置向量确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系或异行关系的步骤包括:当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第二预设阈值且x方向相对位置向量为正西方向时,则确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系;当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第二预设阈值且x方向相对位置向量为正东方向时,则确定输出词片段所属单元框与该输出词片段的前一输出词片段单元框为异行关系。
可选地,表格图片识别模型通过如下方法输出计算结果的步骤包括:在编码器中:根据预设bert算法对单行文本信息进行分词操作,生成多个输出词片段;根据待识别表格图片的原始单元框布局分别对输出词片段和特征图进行排序,获得初始文本序列和初始特征图序列;将初始文本序列和初始特征图序列输入嵌入层,分别生成以向量表示的初始文本序列和初始特征图序列;对以向量表示的初始文本序列和初始特征图序列进行拼接,生成图像文本序列;将图像文本序列输入转换层中,对图像文本序列中各输出词片段进行自注意力和相对位置计算,获得图像文本序列中输出词片段间的关联关系,关联关系包括输出词片段间的自注意力得分、一维相对位置向量;将图像文本序列和输出词片段间的关联关系输出至解码器;在解码器中:接收图像文本序列和输出词片段间的关联关系,并获取预设起始标志,嵌入预设起始标志在图像文本序列中的一维位置,计算预设起始标志与该预设起始标志在图像文本序列中的一维位置之后各输出词片段的关联关系,输出与预设起始标志自注意力得分最高和/或一维相对位置向量的模最小的输出词片段;对图像文本序列和输出词片段间的关联关系再次输入至解码器,并将预设起始标志与前一输出词片段顺序拼接形成第一文本序列进行输入,并嵌入前一输出词片段在图像文本序列中的一维位置,计算第一文本序列中前一输出词片段与该前一输出词片段在图像文本序列中的一维位置之后各输出词片段的关联关系,输出与前一输出词片段自注意力得分最高和/或一维相对位置向量模最小的输出词片段以及该输出词片段与前一输出词片段的关联关系,重复该步骤,直至输出最后一个输出词片段以及该输出词片段与前一输出词片段的关联关系;将解码器的各输出词片段以及各输出词片段与对应的前一输出词片段的关联关系作为表格图片识别模型的输出。
本发明的另一个方面提供了一种表格图片识别装置,该装置包括:第一获取模块,用于获取待识别表格图片,对待识别表格图片进行OCR识别,获得待识别表格中每个单元框的单行文本信息;第二获取模块,用于对待识别表格图片进行卷积神经网络解析识别,获得待识别表格图片的多个特征图;识别模块,用于获取预训练好的表格图片识别模型,将单行文本信息和特征图输入表格图片识别模型中,获取表格图片识别模型输出的计算结果,计算结果包括输出词片段以及输出词片段间的关联关系,关联关系包括自注意力得分和相对位置向量,其中,输出词片段为表格图片识别模型对单行文本信息进行分词后获得;生成模块,用于根据输出词片段以及输出词片段间的关联关系,生成与待识别表格图片对应的表格结构。
本发明的再一个方面提供了一种计算机设备,该计算机设备包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现上述任一实施例的表格图片识别方法。
本发明的又一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例的表格图片识别方法。进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明提供的表格图片识别方法、装置、设备和可读存储介质,在获取到待识别表格图片之后,对待识别表格图片进行OCR识别,获得待识别表格中每个单元框的单行文本信息,并对待识别表格图片进行卷积神经网络解析识别,获得待识别表格图片的多个特征图,通过采集单行文本信息和特征图两种类型表格信息,使得表格图片的基础数据更具全面性和多样性;接着基于预训练好的表格图片识别模型对基础数据进行计算,获得输出词片段以及输出词片段间的关联关系,其中,输出词片段间的关联关系包含自注意力得分和相对位置向量两种维度信息,自注意力得分可以反映输出词片段间的上下文语义关系或所属关系,而相对位置向量反映了输出词片段间的空间布局关系,两种维度信息的结合对于待识别表格中文本内容的相关性能够进行更为全面的反映,相应地,根据输出词片段以及输出词片段间的关联关系对待识别表格图片进行构建,能够更好的还原待识别表格每个单元框的文本内容,其识别准确率必然高于仅根据文本内容的空间布局信息推断表格结构,基于本申请,解决了现有技术中根据文本内容的空间排布信息进行表格识别导致表格结构识别准确率低的技术问题。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一提供的表格图片识别方法的一种可选的流程图;
图2示出了本发明实施例一提供的表格图片识别方法中基于OCR识别和卷积神经网络识别的一种可选的应用示意图;
图3示出了本发明实施例一提供的表格图片识别模型的一种可选的结构框图;
图4示出了本发明实施例一提供的表格图片识别模型中编码器的一种可选的结构框图;
图5示出了本发明实施例二提供的表格图片识别装置的一种可选的结构框图;以及
图6示出了本发明实施例三提供的适于实现表格图片识别方法的一种可选的计算机设备的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
实施例一
本发明实施例一提供了一种表格图片识别方法,具体地,图1示出了该表格图片识别方法的一种可选的流程图,如图1所示,该表格图片识别方法可以包括步骤S1~步骤S4,其中:
步骤S1,获取待识别表格图片,对待识别表格图片进行OCR识别,获得待识别表格中每个单元框的单行文本信息。
在获取到待识别表格图片之后,基于OCR(Optical Character Recognition,光学字符识别)技术对待识别表格图片进行识别,获得待识别表格中每个单元框的单行文本内容,优选地,可识别出每个单行文本内容对应的检测框,其中,单行文本内容数量以实际单元框的具体文本内容决定,而检测框为包络一个单元框中单行文本信息的最小矩形边界框,用于表明单行文本内容的具***置。
步骤S2,对待识别表格图片进行卷积神经网络解析识别,获得待识别表格图片的多个特征图。
基于卷积神经网络对待识别表格图片进行图像维度的识别,获得多个特征图,特征图中包含局部区域文本内容(例如,若干单行文本信息),将多个特征图与各单行文本信息作为待识别表格图片的基础数据进而实现对表格结构的识别。
具体图2示出了本发明实施例一提供的表格图片识别方法中基于OCR识别和卷积神经网络识别的一种可选的应用示意图,如图2所示,在获取到待识别表格图片后,使用卷积神经网络识别,获得多张特征图(V1、V2、V3和V4),按照待识别表格图片原始布局进行排序,获得特征图序列;并使用OCR识别获得文本识别内容,Line1为第一行文本识别内容,包括T1、T2和T3三个词片段,Line2为第二行文本识别内容,包括T4、T5、T6和T7四个词片段,通过解析器计算对T2和T4进行遮挡,以便表格图片识别模型进行预测,获得遮挡位置的具体内容,从而提高表格图片识别模型识别准确率。图2作为示例性的说明,并不用于限定本发明。
此处需要说明的是,设置上述步骤S1和步骤S2的目的,旨在获取到待识别表格图片之后,基于OCR识别出表格中每个单元框的单行文本信息和基于卷积神经网络对待识别出表格图片的多个特征图,并无特别的处理时序要求,也就是说,具体实现时,可以先执行上述步骤S1,后执行上述步骤S2,或者先执行上述步骤S2,后执行上述步骤S1,或者同时执行步骤S1和S2均可。
本实施例通过分别获取文本内容和图像特征两种维度信息进行表格结构识别,以确定文本内容间以及文本内容与图像间的相关信息,为表格结构的识别提供了完善的基础数据,提升了识别准确率;同时无需提取表格图片单元框的边框线,对于各种类型的表格图片(例如,有框线表格图片和无框线表格图片)均可提取出有效数据进行完整的识别,适用性强。
步骤S3,获取预训练好的表格图片识别模型,将单行文本信息和特征图输入表格图片识别模型中,获取表格图片识别模型输出的计算结果,计算结果包括输出词片段以及输出词片段间的关联关系,关联关系包括自注意力得分和相对位置向量,其中,输出词片段为表格图片识别模型对单行文本信息进行分词后获得。
在获取到待识别表格的基础数据后,使用预先训练好的表格图片识别模型对基础数据进行处理,识别过程中,对单行文本信息进行分词之后,获得多个输出词片段,计算输出词片段间的自注意力得分和相对位置关系,并对输出词片段以及输出词片段间的关联关系进行输出。
在本实施例中,自注意力得分代表了文本内容的上下文语义关系或所属关系,相对位置代表了文本内容的在表格中的空间布局关系,结合上述两种维度信息能够明确反映文本内容彼此间的相关性,提高了表格图片的识别准确率。
在本发明的一个可选的实施方式中,还提供了一种表格图片识别模型输出计算结果的方案,图3示出了一种表格图片识别模型的结构框图,如图3所示,该表格图片识别模型包括编码器和解码器,在编码器中,将单行文本信息和特征图分别进行前期预处理(分词、排序),获得初始文本序列和初始特征图系列,将初始文本序列和初始特征图序列依次输入至嵌入层、转换层进行相应计算,获得编码器的输出结果,解码器接收编码器的输出结果进行输入,并将本身输出结果作为另一输入,依次经过掩码多头自注意力层、编码解码层和softmax层进行计算,将计算结果进行输出,具体实现时,表格图片识别模型通过如下方案输出计算结果:
在编码器中执行下述步骤A1-步骤A6:
步骤A1,根据预设bert算法对单行文本信息进行分词操作,生成多个输出词片段。
使用预设bert算法对单行文本信息进行分词操作,获得多个输出词片段,例如,单行文本信息为“北京欢迎您”,分词之后将会得到“北京”、“欢迎”和“您”三个输出词片段。
步骤A2,根据待识别表格图片的原始单元框布局分别对输出词片段和特征图进行排序,获得初始文本序列和初始特征图序列。
根据待识别表格结构原始单元框布局对所有输出词片段进行排序,对每个特征图按照其在待识别表格图片中的位置顺序逐行从左至右进行编号,形成初始特征图序列;依次比较输出词片段所属单元框位置、输出词片段所属行位置和输出词片段在单行文本内容中位置三个条件进行排序,优先对各位置较小值进行排序,其中,输出词片段位置以?-?-?形式表示,?为***数字,例如,1-1-1为第一个单元格中第一行的第一个输出词片段,现有多个输出词片段,A(1-1-4)、B(1-2-1)、C(1-1-1)、D(1-3-1),通过对上述输出词片段位置进行比较后,排序生成的序列为C-A-B-D。并分别在生成的序列起始位置前添加<cls>标记、结束位置之后添加<sep>标记,生成初始文本序列,判断初始文本序列中输出词片段数量是否与预设文本序列长度相同,若小于预设文本序列长度,则在<sep>标记后使用<padding>补齐,若大于预设文本序列长度,则对该文本序列进行切分。
具体图4示出了一种表格图片识别模型中编码器的一种可选的结构框图,与图3中表格图片识别模型中的局部编码器结构相对应,如图4所示,依次通过编码器的嵌入层以及转换层对初始文本序列和初始特征图序列进行处理,生成对应的图像文本序列以及对应的关联关系,具体地,在编码器中执行下述步骤A3-步骤A6对初始文本序列和初始特征图序列进行计算:
步骤A3,将初始文本序列和初始特征图序列输入嵌入层,分别生成以向量表示的初始文本序列和初始特征图序列。
获取每个特征图对应的一维位置信息、二维位置信息和分段信息,并输入对应嵌入层进行线性映射,获得对应的同一维度向量表示,其中,一维位置信息为特征图在特征图序列中的位置,二维位置坐标为特征图的左上角顶点坐标、右下角顶点坐标和特征图的宽、高,分段信息为图片类别,例如,在本实施例中,图片的分段向量可以表示为1,分别对每个特征图向量和对应的一维位置向量、二维位置向量、分段向量相加结合,获得以向量表示的初始特征图序列;将每个输出词片段、对应的一维位置信息、二维位置信息和分段信息,并输入对应的嵌入层进行线性映射,获得与特征图相同维度的向量表示,一维位置信息为输出词片段在文本序列中的位置,二维位置信息为输出词片段对应检测框的左上角顶点坐标、右下角顶点坐标和特征图的宽、高,其中,一个检测框可能对应多个输出词片段,分段信息为文字类别,例如,在本实施例中,文字的分段向量可以表示为2,分别对每个输出词片段向量和对应的一维位置向量、二维位置向量、分段向量相加结合,获得以向量表示的初始文本序列。
步骤A4,对以向量表示的初始文本序列和初始特征图序列进行拼接,生成图像文本序列。
将以向量表示的初始文本序列和初始特征图序列进行拼接,生成图像文本序列,针对图像文本序列中的每个词片段向量ai,每个ai对应三个矩阵:query矩阵(查询其他词片段的矩阵)、key矩阵(用来被其他词片段查询的矩阵)和value矩阵(用来表示被提取信息值的矩阵),ai与上述三个矩阵分别相乘得到qi、ki和vi矩阵。
步骤A5,将图像文本序列输入转换层中,对图像文本序列中各输出词片段进行自注意力和相对位置计算,获得图像文本序列中输出词片段间的关联关系,关联关系包括输出词片段间的自注意力得分、一维相对位置向量。
将图像文本序列输入转换层中,基于空间感知自注意力机制,将每个输出词片段的qi矩阵对所有输出词片段的ki矩阵通过点乘计算,获得图像文本序列中各个输出词片段与其他输出词片段的关联关系,该关联关系指每个输出词片段与其他输出词片段的自注意力得分和相对位置向量,其中,相对位置向量包括输出词片段间的一维相对位置向量、x方向相对位置向量以及y方向相对位置向量。
步骤A6,将图像文本序列和输出词片段间的关联关系输出至解码器。
将不同输出词片段间的关联关系与图像文本序列(每个输出词片段对应的ki和vi矩阵)作为编码器的输出。
为了提高对于表格图片识别模型的准确率,在图4中编码器结构还设置了预训练模块,对经过OCR识别后得到的单行文本信息中的遮挡区域(参见图2)进行预测,如图4所示,预训练模块包括掩码视觉语言模块、文本—图像对齐模块和文本—图像匹配模块,基于掩码视觉语言模块对遮盖的文本内容进行预测,结合图像文本序列的向量信息,推断被遮挡的文本内容;基于文本—图像对齐模块对图像的遮盖区域进行预测,利用模型的文本部分输出进行词级别二分类,预测每个词是否被覆盖。基于文本—图像匹配模块随机地替换或舍弃一部分文档图像,构造图文失配的负样本,以文档级二分类的方式预测图文是否匹配。
在解码器中执行下述步骤A7-步骤A9:
步骤A7,接收图像文本序列和输出词片段间的关联关系,并获取预设起始标志,嵌入预设起始标志在图像文本序列中的一维位置,计算预设起始标志与该预设起始标志在图像文本序列中的一维位置之后各输出词片段的关联关系,输出与预设起始标志自注意力得分最高和/或一维相对位置向量的模最小的输出词片段。
当解码器当前状态为起始状态,还未有任何输出时,获取预设起始标志并输入至掩码多头自注意力层中,并嵌入预设起始标志在图像文本序列中的一维位置,计算获得预设起始标志的qi矩阵,将图像文本序列与输出词片段间的关联关系输入至编码解码层中,同时将该qi矩阵输入编码解码层中,将该qi矩阵和图像文本序列中预设起始标志一维位置之后的其他输出词片段的ki进行交互并计算得到多个自注意力权重矩阵,再通过多个自注意力权重矩阵与其他输出词片段的vi矩阵进行计算得到一个解码向量,该解码向量表明了在预测与预设初始标志有关的输出词片段时应该放置多少注意力在图像文本序列中不同位置的输出词片段上。利用softmax层将解码向量进行归一化,获得各个输出词片段对于预设起始标志的影响概率(自注意力得分),查找概率值最大的输出词片段向量,并在预设词表中搜索对应的输出词片段并进行输出,由于解码器在此之前还未有任何输出,因此不存在输出词片段间的关联关系。
步骤A8,对图像文本序列和输出词片段间的关联关系再次输入至解码器,并将预设起始标志与前一输出词片段顺序拼接形成第一文本序列进行输入,并嵌入前一输出词片段在图像文本序列中的一维位置,计算第一文本序列中前一输出词片段与该前一输出词片段在图像文本序列中的一维位置之后各输出词片段的关联关系,输出与前一输出词片段自注意力得分最高和/或一维相对位置向量模最小的输出词片段以及该输出词片段与前一输出词片段的关联关系,重复该步骤,直至输出最后一个词片段以及该输出词片段与前一输出词片段的关联关系。
将预设起始标志与前一输出词片段顺序拼接,输入至掩码多头自注意力层中,并嵌入前一输出词片段在图像文本序列中的一维位置,计算获得前一输出词片段的qi矩阵,将图像文本序列与输出词片段间的关联关系再次输入至编码解码层中,同时将该qi矩阵输入编码解码层中,将该qi矩阵和图像文本序列中前一输出词片段一维位置之后的其他输出词片段的ki矩阵进行交互并计算得到多个自注意力权重矩阵,再通过多个自注意力权重矩阵与其他输出词片段的vi矩阵进行计算得到一个解码向量,该解码向量表明了在预测与前一输出词片段有关的输出词片段时应该放置多少注意力在图像文本序列中不同位置的输出词片段上。利用softmax层将解码向量进行归一化,获得各个输出词片段对于前一输出词片段的影响概率(自注意力得分),查找概率值最大的词片段向量,并在预设词表中搜索对应的输出词片段并进行输出,同时也将输出词片段和前一输出词片段的关联关系作为解码器的另一输出,该关联关系指输出词片段和前一输出词片段的自注意力得分和相对位置向量,重复该步骤,直至输出最后一个输出词片段以及该输出词片段与前一输出词片段的关联关系,表明待识别表格结构识别结束。
步骤A9,将解码器的各输出词片段以及各输出词片段与对应的前一输出词片段的关联关系作为表格图片识别模型的输出。
将解码器的各输出词片段以及各输出词片段与对应的前一输出词片段的关联关系作为表格图片识别模型的输出。
步骤S4,根据输出词片段以及输出词片段间的关联关系,生成与待识别表格图片对应的表格结构。
输出词片段以及输出词片段间的关联关系可以反映出具体的上下文语义关系、所属关系以及输出词片段在表格中的空间布局信息,通过多个维度信息确定文本内容的关系,提高了表格结构的识别准确率,根据该关联关系能够确定实际表格结构并进行还原,与真实表格形式相贴合。
在本发明的一个可选的实施方式中,还提供了一种上述步骤S4根据输出词片段以及输出词片段间的关联关系,生成与待识别表格图片对应的表格结构的优选的方案,具体来说,步骤S4可以包括如下步骤S41~步骤S42:
步骤S41,对输出词片段间的关联关系进行判断,根据判断结果确定输出词片段和该输出词片段的前一输出词片段的位置关系,位置关系包括输出词片段与该输出词片段的前一输出词片段为同框关系或异框关系、输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系或异行关系以及输出词片段的前一输出词片段所属单元框为合并单元框关系或标准单元框关系。
由于图像文本序列是按照待识别表格图片的原始布局进行排序的,而输出的是将与输入词片段自注意力得分最高和一维相对位置向量模最小的词片段,由此可以得出,解码器是按照待识别表格图片的原始布局进行输出词片段的。根据输出词片段间的关联关系,可以确定某一输出词片段和该输出词片段的前一输出词片段的位置关系,其中位置关系分为以下三种情况:输出词片段与该输出词片段的前一输出词片段为同框关系或异框关系、输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系或异行关系以及输出词片段的前一输出词片段所属单元框为合并单元框关系或标准单元框关系。
在本发明的一个可选的实施方式中,还提供了一种上述步骤S41对输出词片段间的关联关系进行判断,根据判断结果确定输出词片段和该输出词片段的前一输出词片段的位置关系的优选的方案,具体来说,步骤S41可以包括如下步骤B1~步骤B3:
步骤B1,根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段与该输出词片段的前一输出词片段为同框关系或异框关系。
自注意力得分反映了文本内容一定的上下文语义关系,通过输出词片段与该输出词片段的前一输出词片段的自注意力得分可以确定输出词片段与该输出词片段的前一输出词片段为同框关系或异框关系。
在本发明的一个可选的实施方式中,还提供了一种上述步骤B1根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段与该输出词片段的前一输出词片段为同框关系或异框关系的优选的方案,具体来说,步骤B1可以包括如下步骤B11~步骤B12:
步骤B11,当输出词片段与该输出词片段的前一输出词片段的自注意力得分大于等于第一预设阈值时,则确定输出词片段与该输出词片段的前一输出词片段为同框关系;
步骤B12,当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第一预设阈值时,则确定输出词片段与该输出词片段的前一输出词片段为异框关系。
本实施例通过设置第一预设阈值作为衡量词片段间是否具有上下文语义关系的指标,由此判别对应的词片段间为同框关系或者异框关系。当输出词片段与该输出词片段的前一输出词片段的自注意力得分大于等于第一预设阈值时,说明上述两个相邻词片段具有紧密的上下文语义关系,则表明该词片段对为同一单元框的相邻文本内容,为同框关系;当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第一预设阈值时,表明对应的词片段对不具有紧密的上下文语义关系,则表明该词片段对不属于同一单元框的文本内容,为异框关系。
步骤B2,根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段的前一输出词片段所属单元框为合并单元框关系或标准单元框关系。
自注意力得分还可以反映不同文本内容的所属关系,通过输出词片段与该输出词片段的前一输出词片段的自注意力得分可以确定该输出词片段的前一输出词片段为合并单元框关系或标准单元框关系。
在本发明的一个可选的实施方式中,还提供了一种上述步骤B2根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段的前一输出词片段所属单元框为合并单元框关系或标准单元框关系的优选的方案,具体来说,步骤B2可以包括如下步骤B21~步骤B22:
步骤B21,当输出词片段与该输出词片段的前一输出词片段的自注意力得分大于等于第二预设阈值且小于第一预设阈值时,则确定该输出词片段的前一输出词片段所属单元框为合并单元框关系,其中,第一预设阈值大于第二预设阈值。
设置第二预设阈值作为衡量词片段间是否具有所属关系的指标,当输出词片段与该输出词片段的前一输出词片段的自注意力得分大于等于第二预设阈值且小于第一预设阈值时,其中,第一预设阈值大于第二预设阈值,表明该输出词片段与该输出词片段的前一输出词片段为异框关系,且两个词片段间具有所属关系或父子关系,也即前一输出词片段包含了输出词片段,则确定该输出词片段的前一输出词片段所属单元格为合并单元格关系。例如,前一输出词片段为“性别”,后一输出词片段为“男”,可能在表格图片中还存在与前一输出词片段具有相同自注意力得分的其他词片段(即对应词片段为“女”),但是因为“男”词片段与前一输出词片段在图像文本序列中的一维位置向量模最小,便将“男”词片段进行输出。由于前一输出词片段包含了后一输出词片段,因此前一词片段所属单元框为合并单元框关系,通常在表格图片中,如果一个单元框与多个单元框具有父子关系,则将该单元框设置为合并单元框进行区分。
步骤B22,当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第二预设阈值时,则确定该输出词片段的前一输出词片段所属单元框为标准单元框关系。
当输出词片段与该输出词片段的前一词片段的自注意力得分小于第二预设阈值时,说明输出词片段与前一输出词片段既无上下文语义关系,不属于同一单元框的相邻词片段,而是不同单元框间的词片段,同时上述两个词片段也无所属关系,因此确定该输出词片段的前一词片段所属单元框为标准单元框关系,该标准单元框指未经修改的初始单元框形式。例如,前一输出词片段为“再见”,输出词片段为“水果”,“再见”与“水果”无所属关系,所以,“再见”所属单元框为标准单元框关系。
步骤B3,根据输出词片段与该输出词片段的前一输出词片段的自注意力得分和x方向相对位置向量确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系或异行关系。
由于图像文本序列中各词片段是按照待识别表格图片的原始布局信息进行排列的,因此表格图片识别模型输出也是按照图像文本序列中的顺序进行输出的,因此如果输出词片段与该输出词片段的前一输出词片段为异框关系时,表明输出词片段与前一输出词片段各自所属单元框为相邻单元框,但是相邻单元框包括同行关系和异行关系两种类型,上述两种关系可以通过词片段间的相对位置向量进行判定,相对位置向量包括词片段间的一维相对位置向量、x方向相对位置向量以及y方向相对位置向量,具体需要根据输出词片段与该输出词片段的前一输出词片段的x方向相对位置向量(输出词片段为起点、前一输出词片段为终点构成向量的x方向)进行确定,x方向为在待识别表格图片构建二维坐标系的横轴方向,在表格图片识别模型中进行训练。其中,同行关系的相邻单元框指属于同一行的任一位置相邻单元框,异行关系的相邻单元框指前一输出词片段所属单元框为表格某一行中最后一个单元框,而后一输出词片段所属单元框为相邻的下一行中的第一个单元框。
在本发明的一个可选的实施方式中,还提供了一种上述步骤B3根据输出词片段与该输出词片段的前一输出词片段的自注意力得分和x方向相对位置向量确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系或异行关系的优选的方案,具体来说,步骤B3可以包括如下步骤B31~步骤B32:
步骤B31,当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第二预设阈值且x方向相对位置向量为正西方向时,则确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系;
步骤B32,当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第二预设阈值且x方向相对位置向量为正东方向时,则确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为异行关系。
当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第二预设阈值且x方向相对位置向量为正西方向时,说明上述两个词片段无上下文语义关系或者所属关系,为异框关系,且正西方向为同一行相邻单元框的词片段布局关系,确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系,当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第二预设阈值且x方向相对位置向量为正东方向时,正东方向为跨行单元格的词片段布局关系,则确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为异行关系。
步骤S42,根据输出词片段和该输出词片段的前一输出词片段的位置关系生成与待识别表格图片对应的表格结构。
在对输出词片段和该输出词片段的前一输出词片段的位置关系确定之后,结合该输出词片段对,按照HTML格式表格结构的构建方式以还原表格结构,对于还原的表格结构使用浏览器打开便可以进行使用,其中,浏览器可以为谷歌浏览器、搜狐浏览器等,在此不做任何限制。通常,HTML格式表格结构的构建方式为:以<tr>表示每行单元格的起始标志,</tr>表示每行单元格的结束标志,<td>表示每个单元格的起始标志,</td>表示每个单元格的结束标志,rowspan为跨行标记,colspan为跨列标记,将输出词片段按照以上方式进行编码,便可以构建完整的表格结构例如,<tr><td>ABST</td><td>SRC</td></tr>为一行单元框文本内容,其中,“ABST”为该行中第一个单元框的文本内容,“SRC”为该行中第二个单元框的文本内容。又如,<td rowspan="2">百度</td>表示两行合并单元框,包含文本内容“百度”。
本发明提供的表格图片识别方法,在获取到待识别表格图片之后,对待识别表格图片进行OCR识别,获得待识别表格中每个单元框的单行文本信息,并对待识别表格图片进行卷积神经网络解析识别,获得待识别表格图片的多个特征图,通过采集单行文本信息和特征图两种维度信息,使得表格图片的基础数据更具全面性和多样性;接着基于预训练好的表格图片识别模型对基础数据进行计算,获得输出词片段以及输出词片段间的关联关系,其中,输出词片段间的关联关系包含自注意力得分和相对位置向量两种维度信息,自注意力得分可以反映输出词片段间的上下文语义关系或所属关系,而相对位置向量反映了输出词片段间的空间布局关系,两种维度信息的结合对于待识别表格中文本内容的相关性能够进行更为全面的反映,相应地,根据输出词片段以及输出词片段间的关联关系对待识别表格图片进行构建,能够更好的还原待识别表格每个单元框的文本内容,其识别准确率必然高于仅根据文本内容的空间布局信息推断表格结构,基于本申请,解决了现有技术中根据文本内容的空间排布信息进行表格识别导致表格结构识别准确率低的技术问题。
实施例二
本发明的实施例二还提供了一种表格图片识别装置,该表格图片识别装置与上述实施例一提供的表格图片识别方法相对应,相应的技术特征和技术效果在本实施例中不再详述,相关之处可参考上述实施例一。具体地,图5示出了本发明实施例二提供的表格图片识别装置的结构框图。如图5所示,该表格图片识别装置500包括第一获取模块501、第二获取模块502、识别模块503和生成模块504,其中:
第一获取模块501,用于获取待识别表格图片,对待识别表格图片进行OCR识别,获得待识别表格中每个单元框的单行文本信息;
第二获取模块502,与第一获取模块501连接,用于对待识别表格图片进行卷积神经网络解析识别,获得待识别表格图片的多个特征图;
识别模块503,与第二获取模块502连接,用于获取预训练好的表格图片识别模型,将单行文本信息和特征图输入表格图片识别模型中,获取表格图片识别模型输出的计算结果,计算结果包括输出词片段以及输出词片段间的关联关系,关联关系包括自注意力得分和相对位置向量,其中,输出词片段为表格图片识别模型对单行文本信息进行分词后获得;
生成模块504,与识别模块503连接,用于根据输出词片段以及输出词片段间的关联关系,生成与待识别表格图片对应的表格结构。
可选地,生成模块包括:判断子模块,用于对输出词片段间的关联关系进行判断,根据判断结果确定输出词片段和该输出词片段的前一输出词片段的位置关系,位置关系包括输出词片段与该输出词片段的前一输出词片段为同框关系或异框关系、输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系或异行关系以及输出词片段的前一输出词片段所属单元框为合并单元框关系或标准单元框关系;生成子模块,用于根据输出词片段和该输出词片段的前一输出词片段的位置关系生成与待识别表格图片对应的表格结构。
可选地,判断子模块包括:第一确定单元,用于根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段与该输出词片段的前一输出词片段为同框关系或异框关系;第二确定单元,用于根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段的前一输出词片段所属单元框为合并单元框关系或标准单元框关系;第三确定单元,用于根据输出词片段与该输出词片段的前一输出词片段的自注意力得分和x方向相对位置向量确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系或异行关系。
可选地,第一确定单元在执行根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段与该输出词片段的前一输出词片段为同框关系或异框关系的步骤时,具体用于:当输出词片段与该输出词片段的前一输出词片段的自注意力得分大于等于第一预设阈值时,则确定输出词片段与该输出词片段的前一输出词片段为同框关系;当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第一预设阈值时,则确定输出词片段与该输出词片段的前一输出词片段为异框关系。
可选地,第二确定单元在执行根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段的前一输出词片段所属单元框为合并单元框关系或标准单元框关系的步骤时,具体用于:当输出词片段与该输出词片段的前一输出词片段的自注意力得分大于等于第二预设阈值且小于第一预设阈值时,则确定该输出词片段的前一输出词片段所属单元框为合并单元框关系,其中,第一预设阈值大于第二预设阈值;当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第二预设阈值时,则确定该输出词片段的前一输出词片段所属单元框为标准单元框关系。
可选地,第三确定单元在执行根据输出词片段与该输出词片段的前一输出词片段的自注意力得分和x方向相对位置向量确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系或异行关系的步骤时,具体用于:当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第二预设阈值且x方向相对位置向量为正西方向时,则确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系;当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第二预设阈值且x方向相对位置向量为正东方向时,则确定输出词片段所属单元框与该输出词片段的前一输出词片段单元框为异行关系。
可选地,表格图片识别模型包括编码器和解码器,该表格图片识别模型通过如下方法输出计算结果,包括:在编码器中:根据预设bert算法对单行文本信息进行分词操作,生成多个输出词片段;根据待识别表格图片的原始单元框布局分别对输出词片段和特征图进行排序,获得初始文本序列和初始特征图序列;将初始文本序列和初始特征图序列输入嵌入层,分别生成以向量表示的初始文本序列和初始特征图序列;对以向量表示的初始文本序列和初始特征图序列进行拼接,生成图像文本序列;将图像文本序列输入转换层中,对图像文本序列中各输出词片段进行自注意力和相对位置计算,获得图像文本序列中输出词片段间的关联关系,关联关系包括输出词片段间的自注意力得分、一维相对位置向量;将图像文本序列和输出词片段间的关联关系输出至解码器;在解码器中:接收图像文本序列和输出词片段间的关联关系,并获取预设起始标志,嵌入预设起始标志在图像文本序列中的一维位置,计算预设起始标志与该预设起始标志在图像文本序列中的一维位置之后各输出词片段的关联关系,输出与预设起始标志自注意力得分最高和/或一维相对位置向量的模最小的输出词片段;对图像文本序列和输出词片段间的关联关系再次输入至解码器,并将预设起始标志与前一输出词片段顺序拼接形成第一文本序列进行输入,并嵌入前一输出词片段在图像文本序列中的一维位置,计算第一文本序列中前一输出词片段与该前一输出词片段在图像文本序列中的一维位置之后各输出词片段的关联关系,输出与前一输出词片段自注意力得分最高和/或一维相对位置向量模最小的输出词片段以及该输出词片段与前一输出词片段的关联关系,重复该步骤,直至输出最后一个输出词片段以及该输出词片段与前一输出词片段的关联关系;将解码器的各输出词片段以及各输出词片段与对应的前一输出词片段的关联关系作为表格图片识别模型的输出。
实施例三
图6示出了本发明实施例三提供的适于实现表格图片识别方法的计算机设备的框图。本实施例中,计算机设备600可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图6所示,本实施例的计算机设备600至少包括但不限于:可通过***总线相互通信连接的存储器601、处理器602、网络接口603。需要指出的是,图6仅示出了具有组件601-603的计算机设备600,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器603至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器601可以是计算机设备600的内部存储单元,例如该计算机设备600的硬盘或内存。在另一些实施例中,存储器601也可以是计算机设备600的外部存储设备,例如该计算机设备600上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器601还可以既包括计算机设备600的内部存储单元也包括其外部存储设备。在本实施例中,存储器601通常用于存储安装于计算机设备600的操作***和各类应用软件,例如表格图片识别方法的程序代码等。
处理器602在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器602通常用于控制计算机设备600的总体操作。例如执行与计算机设备600进行数据交互或者通信相关的控制和处理等。本实施例中,处理器602用于运行存储器601中存储的表格图片识别方法的步骤的程序代码。
在本实施例中,存储于存储器601中的表格图片识别方法还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器602)所执行,以完成本发明。
网络接口603可包括无线网络接口或有线网络接口,该网络接口603通常用于在计算机设备600与其他计算机设备之间建立通信链接。例如,网络接口603用于通过网络将计算机设备600与外部终端相连,在计算机设备600与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication,简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
实施例四
本实施例还提供一种计算机可读存储介质,包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等,其上存储有计算机程序,所述计算机程序被处理器执行时实现表格图片识别方法的步骤。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
需要说明的是,本发明实施例序号仅仅为了描述,并不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种表格图片识别方法,其特征在于,所述方法包括:
获取待识别表格图片,对所述待识别表格图片进行OCR识别,获得待识别表格中每个单元框的单行文本信息;
对所述待识别表格图片进行卷积神经网络解析识别,获得所述待识别表格图片的多个特征图;
获取预训练好的表格图片识别模型,将所述单行文本信息和所述特征图输入所述表格图片识别模型中,获取所述表格图片识别模型输出的计算结果,所述计算结果包括输出词片段以及输出词片段间的关联关系,所述关联关系包括自注意力得分和相对位置向量,其中,所述输出词片段为所述表格图片识别模型对所述单行文本信息进行分词后获得;
根据所述输出词片段以及输出词片段间的关联关系,生成与所述待识别表格图片对应的表格结构。
2.根据权利要求1所述的方法,其特征在于,所述根据所述输出词片段以及输出词片段间的关联关系,生成与所述待识别表格图片对应的表格结构,包括:
对所述输出词片段间的关联关系进行判断,根据判断结果确定输出词片段和该输出词片段的前一输出词片段的位置关系,所述位置关系包括输出词片段与该输出词片段的前一输出词片段为同框关系或异框关系、输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系或异行关系以及输出词片段的前一输出词片段所属单元框为合并单元框关系或标准单元框关系;
根据所述输出词片段和该输出词片段的前一输出词片段的位置关系生成与所述待识别表格图片对应的表格结构。
3.根据权利要求2所述的方法,其特征在于,所述相对位置向量包括词片段间的x方向相对位置向量,其中,所述x方向为以所述待识别表格图片构建二维坐标系的横轴方向,所述根据判断结果确定输出词片段和该输出词片段的前一输出词片段的位置关系,包括:
根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段与该输出词片段的前一输出词片段为同框关系或异框关系;
根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段的前一输出词片段所属单元框为合并单元框关系或标准单元框关系;
根据输出词片段与该输出词片段的前一输出词片段的自注意力得分和所述x方向相对位置向量确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系或异行关系。
4.根据权利要求3所述的方法,其特征在于,所述根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段与该输出词片段的前一输出词片段为同框关系或异框关系,包括:
当输出词片段与该输出词片段的前一输出词片段的自注意力得分大于等于第一预设阈值时,则确定输出词片段与该输出词片段的前一输出词片段为同框关系;
当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第一预设阈值时,则确定输出词片段与该输出词片段的前一输出词片段为异框关系。
5.根据权利要求4所述的方法,其特征在于,所述根据输出词片段与该输出词片段的前一输出词片段的自注意力得分确定输出词片段的前一输出词片段所属单元框为合并单元框关系或标准单元框关系,包括:
当输出词片段与该输出词片段的前一输出词片段的自注意力得分大于等于第二预设阈值且小于第一预设阈值时,则确定该输出词片段的前一输出词片段所属单元框为合并单元框关系,其中,第一预设阈值大于第二预设阈值;
当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第二预设阈值时,则确定该输出词片段的前一输出词片段所属单元框为标准单元框关系。
6.根据权利要求5所述的方法,其特征在于,所述根据输出词片段与该输出词片段的前一输出词片段的自注意力得分和所述x方向相对位置向量确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系或异行关系,包括:
当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第二预设阈值且x方向相对位置向量为正西方向时,则确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为同行关系;
当输出词片段与该输出词片段的前一输出词片段的自注意力得分小于第二预设阈值且x方向相对位置向量为正东方向时,则确定输出词片段所属单元框与该输出词片段的前一输出词片段所属单元框为异行关系。
7.根据权利要求1所述的方法,其特征在于,所述表格图片识别模型包括编码器和解码器,所述表格图片识别模型通过如下方法输出所述计算结果,包括:
在所述编码器中:
根据预设bert算法对所述单行文本信息进行分词操作,生成多个输出词片段;
根据待识别表格图片的原始单元框布局分别对输出词片段和特征图进行排序,获得初始文本序列和初始特征图序列;
将所述初始文本序列和所述初始特征图序列输入嵌入层,分别生成以向量表示的初始文本序列和初始特征图序列;
对所述以向量表示的初始文本序列和初始特征图序列进行拼接,生成图像文本序列;
将所述图像文本序列输入转换层中,对所述图像文本序列中各输出词片段进行自注意力和相对位置计算,获得所述图像文本序列中输出词片段间的关联关系,所述关联关系包括输出词片段间的自注意力得分、一维相对位置向量;
将所述图像文本序列和所述输出词片段间的关联关系输出至所述解码器;
在所述解码器中:
接收所述图像文本序列和所述输出词片段间的关联关系,并获取预设起始标志,嵌入所述预设起始标志在图像文本序列中的一维位置,计算所述预设起始标志与该预设起始标志在图像文本序列中的一维位置之后各输出词片段的关联关系,输出与所述预设起始标志自注意力得分最高和/或一维相对位置向量的模最小的输出词片段;
对所述图像文本序列和所述输出词片段间的关联关系再次输入至所述解码器,并将预设起始标志与前一输出词片段顺序拼接形成第一文本序列进行输入,并嵌入前一输出词片段在图像文本序列中的一维位置,计算所述第一文本序列中前一输出词片段与该前一输出词片段在图像文本序列中的一维位置之后各输出词片段的关联关系,输出与所述前一输出词片段自注意力得分最高和/或一维相对位置向量模最小的输出词片段以及该输出词片段与前一输出词片段的关联关系,重复该步骤,直至输出最后一个输出词片段以及该输出词片段与前一输出词片段的关联关系;
将解码器的各输出词片段以及各输出词片段与对应的前一输出词片段的关联关系作为所述表格图片识别模型的输出。
8.一种表格图片识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取待识别表格图片,对所述待识别表格图片进行OCR识别,获得待识别表格中每个单元框的单行文本信息;
第二获取模块,用于对所述待识别表格图片进行卷积神经网络解析识别,获得所述待识别表格图片的多个特征图;
识别模块,用于获取预训练好的表格图片识别模型,将所述单行文本信息和所述特征图输入所述表格图片识别模型中,获取所述表格图片识别模型输出的计算结果,所述计算结果包括输出词片段以及输出词片段间的关联关系,所述关联关系包括自注意力得分和相对位置向量,其中,所述输出词片段为所述表格图片识别模型对所述单行文本信息进行分词后获得;
生成模块,用于根据所述输出词片段以及输出词片段间的关联关系,生成与所述待识别表格图片对应的表格结构。
9.一种计算机设备,所述计算机设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。
CN202111548752.8A 2021-12-17 2021-12-17 表格图片识别方法、装置、设备和可读存储介质 Pending CN114241499A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111548752.8A CN114241499A (zh) 2021-12-17 2021-12-17 表格图片识别方法、装置、设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111548752.8A CN114241499A (zh) 2021-12-17 2021-12-17 表格图片识别方法、装置、设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN114241499A true CN114241499A (zh) 2022-03-25

Family

ID=80757789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111548752.8A Pending CN114241499A (zh) 2021-12-17 2021-12-17 表格图片识别方法、装置、设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN114241499A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115202542A (zh) * 2022-07-26 2022-10-18 南方电网调峰调频发电有限公司检修试验分公司 基于ocr技术的电子图纸内线路端口自动链接及跳转方法
CN115983223A (zh) * 2023-03-21 2023-04-18 中信证券股份有限公司 报表文档审核方法、装置、电子设备和计算机可读介质
CN116152833A (zh) * 2022-12-30 2023-05-23 北京百度网讯科技有限公司 基于图像的表格还原模型的训练方法及表格还原方法
CN116189198A (zh) * 2023-01-06 2023-05-30 北京百度网讯科技有限公司 文本识别模型训练方法、文本识别方法、装置及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115202542A (zh) * 2022-07-26 2022-10-18 南方电网调峰调频发电有限公司检修试验分公司 基于ocr技术的电子图纸内线路端口自动链接及跳转方法
CN116152833A (zh) * 2022-12-30 2023-05-23 北京百度网讯科技有限公司 基于图像的表格还原模型的训练方法及表格还原方法
CN116152833B (zh) * 2022-12-30 2023-11-24 北京百度网讯科技有限公司 基于图像的表格还原模型的训练方法及表格还原方法
CN116189198A (zh) * 2023-01-06 2023-05-30 北京百度网讯科技有限公司 文本识别模型训练方法、文本识别方法、装置及存储介质
CN115983223A (zh) * 2023-03-21 2023-04-18 中信证券股份有限公司 报表文档审核方法、装置、电子设备和计算机可读介质
CN115983223B (zh) * 2023-03-21 2023-07-18 中信证券股份有限公司 报表文档审核方法、装置、电子设备和计算机可读介质

Similar Documents

Publication Publication Date Title
CN114241499A (zh) 表格图片识别方法、装置、设备和可读存储介质
CN110033018B (zh) 图形相似度判断方法、装置及计算机可读存储介质
CN111695439A (zh) 图像结构化数据提取方法、电子装置及存储介质
CN112861648A (zh) 文字识别方法、装置、电子设备及存储介质
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN113837151B (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN111639648A (zh) 证件识别方法、装置、计算设备和存储介质
CN112528616A (zh) 业务表单生成方法、装置、电子设备及计算机存储介质
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
CN115018588A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN115374189A (zh) 基于区块链的食品安全溯源方法、装置及设备
CN112396048B (zh) 图片信息提取方法、装置、计算机设备及存储介质
CN117423124A (zh) 基于表格图像的表格数据处理方法和装置、设备及介质
CN115409041B (zh) 一种非结构化数据提取方法、装置、设备及存储介质
CN115797291B (zh) 回路端子的识别方法、装置、计算机设备和存储介质
CN113850260B (zh) 关键信息抽取方法、装置、电子设备及可读存储介质
CN113849552B (zh) 结构化数据转换方法、装置、电子设备及介质
CN115690795A (zh) 简历信息提取方法、装置、电子设备和存储介质
CN115203364A (zh) 软件故障反馈处理方法、装置、设备及可读存储介质
CN115063784A (zh) 票据图像的信息提取方法和装置、存储介质及电子设备
CN114219367A (zh) 用户评分方法、装置、设备及存储介质
CN113706207A (zh) 基于语义解析的订单成交率分析方法、装置、设备及介质
CN113626605A (zh) 信息分类方法、装置、电子设备及可读存储介质
CN113627394A (zh) 人脸提取方法、装置、电子设备及可读存储介质
CN115937875A (zh) 文本识别方法及装置、存储介质、终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination