CN111967387A

CN111967387A - 表单识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111967387A
Application number: CN202010827924.4A
Authority: CN
Inventors: 王子龙; 詹明捷; 刘学博; 梁鼎
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-11-20
Anticipated expiration: 2040-08-17
Also published as: CN111967387B; WO2022037573A1

Abstract

本公开提供了一种表单识别方法、装置、设备及计算机可读存储介质，所述方法包括：获取待识别表单中的多个文本块；获取所述多个文本块中每个文本块的目标特征信息；根据所述每个文本块的目标特征信息，确定所述多个文本块中各个文本块之间的键值对关系，所述各个文本块之间的键值对关系包含每个文本块与除所述文本块之外的其他文本块之间的键值对关系；根据所述各个文本块之间的键值对关系，获得所述待识别表单的拓扑结构信息。

Description

表单识别方法、装置、设备及计算机可读存储介质

技术领域

本公开涉及计算机视觉技术，尤其涉及一种表单识别方法、装置、设备及计算机可读存储介质。

背景技术

表单识别在许多领域具有重要应用，例如票据信息提取、小票信息提取等等。

现有的表单识别方法通常是根据特定规则提取表格的结构信息，然而对于省略了严格表格形式的表格，以及具有相同内容单元格，无法准确地识别表单的结构。

发明内容

本公开实施例提供了一种表单识别方案。

根据本公开的一方面，提供一种表单识别方法，所述方法包括：获取待识别表单中的多个文本块；获取所述多个文本块中每个文本块的目标特征信息；根据所述每个文本块的目标特征信息，确定所述多个文本块中各个文本块之间的键值对关系，所述各个文本块之间的键值对关系包含每个文本块与除所述文本块之外的其他文本块之间的键值对关系；根据所述各个文本块之间的键值对关系，获得所述待识别表单的拓扑结构信息。

结合本公开提供的任一实施方式，根据所述每个文本块的目标特征信息，确定所述多个文本块中各个文本块之间的键值对关系，包括：对于所述多个文本块中的第一文本块，确定所述第一文本块与第二文本块属于键值对的概率，其中，所述第二文本块包括所述多个文本块中除所述第一文本块以外的至少一个其他文本块，所述第一文本块与所述第二文本块属于键值对表示所述第二文本块指示属性，所述第一文本块指示所述属性的值；根据所述概率，确定所述第一文本块与所述第二文本块之间的键值对关系。

结合本公开提供的任一实施方式，所述第二文本块包括第一目标文本块以及第二目标文本块，所述第一文本块与所述第一目标文本块属于键值对的概率，大于所述第一文本块与所述第二目标文本块属于键值对的概率；所述根据所述概率，确定所述第一文本块与所述第二文本块之间的键值对关系，包括：确定所述第一文本块与所述第一目标文本块具有键值对关系。

结合本公开提供的任一实施方式，确定所述第一文本块与第二文本块属于键值对的概率，包括：将所述第一文本块和所述第二文本块的目标特征信息输入至关系预测网络，所述关系预测网络输出所述第一文本块与所述第二文本块属于键值对的概率。

结合本公开提供的任一实施方式，所述方法还包括：通过样本集对所述关系预测网络进行训练，其中，所述样本集包含具有键值对关系的第一文本块样本和第二文本块样本，以及与所述第一文本块样本不具有键值对关系的负样本；其中，所述第二文本块样本具有指示与所述第一文本块样本具有键值对关系的第一标注信息，所述负样本具有指示与所述第一文本块样本不具有键值对关系的第二标注信息。

结合本公开提供的任一实施方式，所述通过样本集对所述关系预测网络进行训练，包括：通过最大化所述第一文本块样本与第二文本块具有键值对关系的概率，以及最小化所述第一文块样本与所述负样本具有键值对关系的概率，对所述关系预测网络的参数进行调整。

结合本公开提供的任一实施方式，所述获取所述文本块的目标特征信息，包括：获取所述文本块的多个模态的特征信息；将所述多个模态的特征信息进行融合，获得所述目标特征信息。

结合本公开提供的任一实施方式，所述多个模态的特征信息包括至少两个模态的文本特征信息；所述将所述多个模态的特征信息进行融合，获得所述目标特征信息，包括：对所述至少两个模态的文本特征信息进行连接，获得目标特征信息。

结合本公开提供的任一实施方式，所述多个模态的特征信息包括视觉特征信息以及至少一个模态的文本特征信息；所述将所述多个模态的特征信息进行融合，获得所述目标特征信息，包括：获得所述文本特征信息和所述视觉特征信息对应的权重，并根据所述权重对所述文本特征信息与所述视觉特征信息进行加权求和，获得所述目标特征信息。

结合本公开提供的任一实施方式，所述文本特征信息包括语义特征信息和位置特征信息中的至少一项。

结合本公开提供的任一实施方式，所述视觉特征信息利用视觉特征提取神经网络对所述文本块的图像进行特征提取获得，所述视觉特征提取神经网络包括卷积神经网络和循环神经网络；所述利用视觉特征提取神经网络对所述文本块的图像进行特征提取获得，包括：将所述文本块的图像输入至所述卷积神经网络，获得多个通道的特征图；将各个通道的特征图进行拼接，获得特征序列；将所述特征序列输入至所述循环神经网络，获得所述视觉特征信息。

结合本公开提供的任一实施方式，所述获取待识别表单中的多个文本块，包括：对所述待识别表单进行表格线提取处理，得到所述待识别表单的表格线提取结果，所述表格线提取结果包括多个表格线；对所述待识别表单进行文本识别处理，得到文本识别结果；所述多个表格线限定而成的多个表格框，对所述文本识别结果进行分割，获得所述多个文本块。

结合本公开提供的任一实施方式，所述方法还包括：根据所述各个文本块之间的键值对关系，确定所述待识别表单对应的多个表格框的属性信息。

结合本公开提供的任一实施方式，所述方法还包括：根据所述待识别表单的拓扑结构信息，生成所述待识别表单中的多个文本块之间的拓扑结构图。

根据本公开的一方面，提供一种表单识别装置，所述装置包括：所述装置包括：第一获取单元，用于获取待识别表单中的多个文本块；第二获取单元，用于获取所述多个文本块中每个文本块的目标特征信息；确定单元，用于根据所述每个文本块的目标特征信息，确定所述多个文本块中各个文本块之间的键值对关系，所述各个文本块之间的键值对关系包含每个文本块与除所述文本块之外的其他文本块之间的键值对关系；识别单元，用于根据所述各个文本块之间的键值对关系，获得所述待识别表单的拓扑结构信息。

结合本公开提供的任一实施方式，所述确定单元具体用于对于所述多个文本块中的第一文本块，确定所述第一文本块与第二文本块属于键值对的概率，其中，所述第二文本块包括所述多个文本块中除所述第一文本块以外的至少一个其他文本块，所述第一文本块与所述第二文本块属于键值对表示所述第二文本块指示属性，所述第一文本块指示所述属性的值；根据所述概率，确定所述第一文本块与所述第二文本块之间的键值对关系。

结合本公开提供的任一实施方式，所述第二文本块包括第一目标文本块以及第二目标文本块，所述第一文本块与所述第一目标文本块属于键值对的概率，大于所述第一文本块与所述第二目标文本块属于键值对的概率；所述确定单元在用于所述根据所述概率，确定所述第一文本块与所述第二文本块之间的键值对关系时，具体用于确定所述第一文本块与所述第一目标文本块具有键值对关系。

结合本公开提供的任一实施方式，所述确定单元在用于，确定所述第一文本块与第二文本块属于键值对的概率时，具体用于：将所述第一文本块和所述第二文本块的目标特征信息输入至关系预测网络，所述关系预测网络输出所述第一文本块与所述第二文本块属于键值对的概率。

结合本公开提供的任一实施方式，所述装置还包括训练单元，用于通过样本集对所述关系预测网络进行训练，其中，所述样本集包含具有键值对关系的第一文本块样本和第二文本块样本，以及与所述第一文本块样本不具有键值对关系的负样本；其中，所述第二文本块样本具有指示与所述第一文本块样本具有键值对关系的第一标注信息，所述负样本具有指示与所述第一文本块样本不具有键值对关系的第二标注信息。

结合本公开提供的任一实施方式，所述训练单元在用于通过样本集对所述关系预测网络进行训练时，具体用于：通过最大化所述第一文本块样本与第二文本块具有键值对关系的概率，以及最小化所述第一文块样本与所述负样本具有键值对关系的概率，对所述关系预测网络的参数进行调整。

结合本公开提供的任一实施方式，所述第二获取单元具体用于：获取所述文本块的多个模态的特征信息；将所述多个模态的特征信息进行融合，获得所述目标特征信息。

结合本公开提供的任一实施方式，所述多个模态的特征信息包括至少两个模态的文本特征信息；所述第二获得单元在用于将所述多个模态的特征信息进行融合，获得所述目标特征信息时，具体用于：对所述至少两个模态的文本特征信息进行连接，获得目标特征信息。

结合本公开提供的任一实施方式，所述多个模态的特征信息包括视觉特征信息以及至少一个模态的文本特征信息；所述第二获取单元在用于将所述多个模态的特征信息进行融合，获得所述目标特征信息时，具体用于：获得所述文本特征信息和所述视觉特征信息对应的权重，并根据所述权重对所述文本特征信息与所述视觉特征信息进行加权求和，获得所述目标特征信息。

结合本公开提供的任一实施方式，所述第一获取单元具体用于：对所述待识别表单进行表格线提取处理，得到所述待识别表单的表格线提取结果，所述表格线提取结果包括多个表格线；对所述待识别表单进行文本识别处理，得到文本识别结果；所述多个表格线限定而成的多个表格框，对所述文本识别结果进行分割，获得所述多个文本块。

结合本公开提供的任一实施方式，所述装置还包括属性确定单元，用于根据所述各个文本块之间的键值对关系，确定所述待识别表单对应的多个表格框的属性信息。

结合本公开提供的任一实施方式，所述装置还包括生成单元，用于根据所述待识别表单的拓扑结构信息，生成所述待识别表单中的多个文本块之间的拓扑结构图。

根据本公开的一方面，提供一种表单识别设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行本公开任一实施方式所述的方法。

根据本公开的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施方式所述的方法。

本公开一个或多个实施例的表单识别方法、装置、设备及计算机可读介质，通过获取待识别表单中多个文本块的目标特征信息，并根据所述目标特征信息确定中各个文本块之间的键值对关系，能够全面、准确地获得所述待处理表单中包含的键值对关系，从而能够获得完整、准确的拓扑结构信息。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本公开实施例示出的一种表单识别方法的流程图；

图2A示出具有表格线的待识别表单所包含的文本块，图2B示出无表格线的待识别表单所包含的文本块；

图3A为示例性的待识别表单，图3B示出所述待识别表单的拓扑结构图；

图4为示例性的待识别表单；

图5是本公开实施例示出的表单识别方法中对多模态的特征信息进行融合方法的示意图；

图6是本公开实施例示出的表单识别方法中语义特征信息提取方法的示意图；

图7是本公开实施例示出的表单识别方法中位置特征信息提取方法的示意图；

图8是本公开实施例示出的表单识别方法中视觉特征信息提取方法的示意图；

图9图是本公开实施示出的一种表单识别装置的示意图；

图10是本公开实施例示出的一种表单识别设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1示出了本公开至少一个实施例提供的一种表单识别方法。如图1所示，所述方法包括步骤101～步骤104。

在步骤101中，获取待识别表单中的多个文本块(text fragment)。

所述文本块是所述待识别表单的文本内容中包含完整语义的文本片段。在本公开实施例中，所述多个文本块是通过对所述待识别表单的文本内容划分为多个部分而得到的。其中，所述文本内容可以通过对所述待识别表单进行光学字符识别(OpticalCharacter Recognition，OCR)获得。

对于具有表格线的待识别表单，可以通过对所述待识别表单进行表格线提取处理，得到所述待识别表单的表格线提取结果，其中，所述表格线提取结果包括多个表格线；接下来，通过所述多个表格线限定而成的多个表格框，对所述待识别表单的文本识别结果进行分割，获得所述多个文本块。

图2A示出了具有表格线的待识别表单中的多个文本块。如图2A所示，通过对待识别表单进行文本识别得到了文本框中的文本内容，例如文本框202中的文本内容“姓名”；该待识别表单中的表格线限定形成了多个表格框，例如表格框201；根据表格框对待识别表单的文本识别结果进行分割，可以得到所述待识别表单中所包含的多个文本块，例如图2A所示的姓名、张某某、张某某、李某某。

对于不具有表格线的待识别表单，例如图2B。通过对该待识别表单进行文本识别得到了文本框中的文本内容，例如文本框202中的文本内容“姓名”。可以根据语义对各个文本框中的文本内容进行划分，将所述文本框中具有完整语义的文本片段作为文本块，例如图2B所示的张某某、张某某、李某某。

在步骤102中，获取所述多个文本块中每个文本块的目标特征信息。

所述目标特征信息可以包括多个模态的特征信息，所述目标特征信息可以包括文本特征信息和视觉特征信息中的至少一项，也可以包括文本特征信息和视觉特征信息的融合特征信息。其中，所述视觉特征信息可以包括与文本块的语义(semantic)相关的语义特征信息，以及与文本块的位置(layout)相关的位置特征信息中的至少一项。

在步骤103中，根据所述每个文本块的目标特征信息，确定所述多个文本块中各个文本块之间的键值对关系。

表单所传达的信息，不仅仅是通过表单中的各个文本块所对应的文本数据进行体现，还通过这些文本块的组织方式进行体现。例如，一些文本块是作为对应文本块的标题、题目或者问题，可以将具有这种对应关系的两个文本块作为层次结构上的键值对(key-value pairs)。其中，键可以表示一种属性，而值可以表示所述属性的值，也即属性值。以图2A或图2B所示，其中，文本块“姓名”为键，“王某某”、“张某某”、“李某某”分别为“姓名”这一属性的值，也即“王某某”与“姓名”属于键值对，“张某某”、“李某某”也分别与“姓名”形成键值对。

对于所述多个文本块中的任意两个文本块，可以根据两个文本块各自的目标特征信息，来确定这两个文本块之间的键值对关系，即确定两个文本块之间具有键值对关系，或者两个文本块之间没有键值对关系。

在步骤104中，根据所述各个文本块之间的键值对关系，获得所述待识别表单的拓扑结构信息。

在确定了所述待处理表单中所包含的多个文本块中各个文本块之间的键值对关系的情况下，可以根据键值对关系确定各个文本块之间的层次关系，从而获得所述待识别表单的拓扑结构信息。也即，在经过文本识别处理后，可以通过确定所述待识别表单中的键值对，来确定表单中的隐藏结构，从而将表单的文本化数据转换为结构化数据。

所述拓扑结构信息从图形化的角度表征所述待处理表单中所包含的多个文本块之间的键值对关系，在两个文本块具有键值对关系的情况下，两个文本块之间具有直接连接的边；而两个文本块之间没有键值对关系，两个文本块之间不存在直接连接的边。

在本公开实施例中，还可以根据所述拓扑结构信息生成拓扑结构图。在所述拓扑结构图中，根据所述待识别表单中的各个文本块之间是否有直接进行连接的边来表示文本块之间的键值对关系。以图3A所示的待识别表单为例，根据所述待识别表单的拓扑结构信息，所得到的拓扑结构图如图3B所示。在图3B中，用虚线表示两文本块之间的边。

从图3B可见，文本块311、312、313分别与文本块301具有键值对关系，且文本块321、322、323分别与文本块311、312、313具有键值对关系。举例来说，文本块311与文本块301属于键值对，文本块321与文本块311属于键值对。

在本公开实施例中，通过获取待识别表单中多个文本块的目标特征信息，并根据所述目标特征信息确定中各个文本块之间的键值对关系，能够全面、准确地获得所述待处理表单中包含的键值对关系，从而能够获得完整、准确的拓扑结构信息。

对于具有表格线的待识别表单，还可以根据所获得的各个文本块之间的键值对关系，确定待识别表单的表格线所限定的表格框的属性信息，也即确定各个表格框中包含指示属性的文本块，或者包含指示属性值的文本块，从而确定了待识别表单的表格框之间的层次关系。

在一些实施例中，可以通过确定所述多个文本块中每两个文本块之间属于键值对的概率，来确定各个文本块之间的键值对关系。

在一个示例中，可以针对所述多个文本块中的第一文本块，确定所述第一文本块与第二文本块属于键值对的概率，其中，所述第二文本块包括所述多个文本块中除所述第一文本块以外的至少一个其他文本块，所述第一文本块与所述第二文本块属于键值对，是指所述第二文本块指示属性，所述第一文本块指示所述属性的值。也即是说，在本公开实施例中涉及所述第一文本块与所述第二文本块属于键值对的情况下，是指所述第二文本块指示键值对中的键(key)，第一文本块指示键值对中的值(value)；根据所述概率，确定所述第一文本块与所述第二文本块之间的键值对关系。

在各种类型的表单中，指示属性的文本块通常可以对应于多个指示该属性的值的文本块，也即键通常可以对应于多个值；然而，指示属性值的文本块，通常对应于一个指示该属性的文本块，也即值通常对应于一个键。因此，本公开实施例中，通过对于每一个文本块，确定所述文本块指示属性值(作为值)，以及除所述文本块之外的其他文本块指示该属性(作为键)的概率，能够快速、准确地确定每个文块与其他文本块之间的键值对关系，从而提高表单识别的速度和准确度。

对于所述待识别表单中的多个文本块，可以分别将每一个文本块作为第一文本块，确定所述第一文本块与除所述第一文本块之外的其他文本块(第二文本块)属于键值对的概率。其中，所述第二文本块包括第一目标文本块以及第二目标文本块，在所述第一文本块与所述第一目标文本块属于键值对的概率，大于所述第一文本块与所述第二目标文本块属于键值对的概率的情况下，则可以确定所述第一文本块与所述第一目标文本块之间具有键值对关系，也即是说，所述第一文本块与所述第二目标文本块之间不具有键值对关系。在遍历了所有文本块的情况，则可以确定所述多个文本块中每个文本块与除所述文本块之外的其他文本块之间的键值对关系，从而确定了所述待处理表单中的多个文本块中各个文本块之间的键值对关系。

在一个示例中，对于所述第一文本块以外的多个第二文本块，可以确定所述第一文本块与多个第二文本块中的目标文本块具有键值对关系，其中，所述目标第二文本块是与所述第一文本块属于键值对的概率最高的第二文本块。

在本公开实施例中，根据所述第一文本块与所述第二文本块中的第一目标文本块和第二目标文本块属于键值对的概率，确定所述第一文本块与概率高于第二目标文本块的第一目标文本块具有键值对关系，能够为指示属性值的第一文本块快速、准确地确定指示该值的属性的文本块，从而能够实现表单准确、高效的识别。

在一些实施例中，可以利用关系预测网络，来确定第一文本块与第二文本块属于键值对的概率。

在一个示例中，将所述第一文本块和所述第二文本块的目标特征信息输入至关系预测网络，所述关系预测网络输出所述第一文本块与第二文本块属于键值对的概率，其中，所述第一文本块与第二文本块属于键值对(具有键值对关系)是指所述第二文本块指示属性，所述第一文本块指示所述属性的值。

其中，第一文本块与第二文本块具有键值对关系可以表示为Xi-->Xj，其中，Xi代表第二文本块，Xj代表第一文本块。在该键值对关系中，Xi是Xj的上级，或者说是父节点，也即，Xi指示属性，Xj指示所述属性的值；而第二文本块与第一文本块具有键值对关系可以表示为Xj-->Xi。在该键值对关系中，Xj是Xi的上级，或者说是父节点，也即，Xj指示属性，Xi指示所述属性的值。

在本公开实施例所提出的表单识别方案中，两个文本块之间的层次关系是非对称的，也即，Xi-->Xj的概率与Xj-->Xi的概率是截然不同的。例如，可以利用一个参数矩阵来表述这种非对称关系，对于两个文本块Xi和Xj的目标特征信息

和

其中，J表示目标特征信息的模态，例如，在所述目标特征信息为视觉特征信息的情况下，可以用

来表示视觉特征信息；在所述目标特征信息为语义特征信息的情况下，可以用

来表示语义特征信息；在所述目标特征信息为位置特征信息的情况下，可以用

来表示位置特征信息；在所述目标特征信息为两种模态的特征信息的融合的情况下，例如在视觉特征信息和位置特征信息融合的情况下，可以用

来表示目标特征信息。

Xi-->Xj的概率可以通过公式(1)确定：

其中，M是非对称矩阵，因此

应当注意的是，直接的键值对关系通常只存在于表单中的一些文本块对之间。也即是说，对于两个文本块对，它们之间可能存在键值对关系，但更多的可能性是这两个随机选出的文本块之间是完全不相关的。为了处理这种数据稀疏性，以及平衡相关对和不相关对的数量，本公开实施例提出了一种对所述关系预测网络进行训练的方法。

首先，建立对所述关系预测网络进行训练的样本集。

对于已知的键值对Yi-->Yj，其中，Yi表示第二文本块样本，Yj表示第一文本块样本，上述关系式表示第二文本块样本Yi与第一文本块样本Yj具有键值对关系，且Yi是Yj的上级，或者说父节点。对于第一文本块样本Yj，随机选择一定数量的非相关文本块，或者为下级(子节点)的文本块作为负样本Yk。也即是说，选择与第一文本块样本Yj不具有键值对关系的文本块作为负样本。

根据所述第一文本块样本Yj、第二文本块样本Yi，以及与所述第一文本块样本不具有键值对关系的负样本Yk，构建所述样本集。其中，所述第二文本块样本具有指示与所述第一文本块样本具有键值对关系的第一标注信息，例如可以标注1以表示与所述第一文本块样本具有键值对关系；所述负样本具有指示与所述第一文本块样本不具有键值对关系的第二标注信息，例如可以标注0以表示与所述第一文本块样本不具有键值对关系。

对于已知的第一文本块样本Yj，训练的目标是从负样本Yk中区分出第二文本块样本Yi，因此，可以通过归一化概率值并最小化

的交叉熵来进行训练。具体地，可以通过通过最大化所述第一文本块样本Yj与第二文本块样本Yi具有键值对关系的概率

以及最小化所述第一文本块样本Yj与所述负样本Yk具有键值对关系的概率

对所述关系预测网络的参数进行调整。所述训练函数可以通过公式(2)来表示：

其中，Neg(j)为第一文本块样本Yj的负样本集合，

为第一文本块样本Yj与第二文本块样本Yi具有键值对关系的概率，

为第一文本块样本Yj具有键值对关系的概率。

在本公开实施例中，通过对于已有的键值对中指示属性值的文本块样本构建不具有键值对关系的负样本，解决了表单中的键值对的数据稀疏性的问题，提高了关系预测网络的训练效率以及训练效果。

在一些实施例中，所述获取所述文本块的目标特征信息，包括：获取所述文本块的多个模态的特征信息；将所述多个模态的特征信息进行融合，获得所述目标特征信息。

在本公开实施例中，通过对多个模态的特征信息进行融合，根据融合后的特征信息进行键值对关系的识别，更全面地考虑了表单中的文本块各方面的特征，能够提高键值对关系识别的准确度。

在一些实施例中，所述多个模态的特征信息包括至少两个模态的文本特征信息。其中，所述文本特征信息指与待识别表单中的文本内容相关的特征，例如包括语义模态的文本特征信息，也即语义特征信息，以及结构模态的文本特征信息，也即位置特征信息。通过将所述至少两个模态的文本特征信息进行连接，也即对语义特征信息和位置特征信息进行连接，获得所述目标特征信息。

基于单模态的文本特征信息，在一些情况下可能无法准确确定文本块之间的键值对关系。以图4为例，在以单模态的语义特征信息来确定各个文本块之间的键值对关系的情况下，是无法区分文本块401与文本块402的，则有可能将文本块403和文本块402确定为键值对。而通过将两个模态的文本特征信息，例如语义特征信息和位置特征信息进行连接，则通过文本块401和文本块402与文本块403的位置关系，则可以准确地确定出文本块403与文本块402属于键值对。

本领域技术人员应当理解，所述文本特征信息还可以包括其他模态的特征信息，本公开对此不进行限制。

在本公开实施例中，对于至少两个模态的文本特征信息进行连接，全面地考虑了与待识别表单中的文本内容相关的特征，能够提高键值对关系识别的准确度。

在一些情况下，通过将语义特征信息和位置特征信息进行连接，仍然无法区分一些文本块。仍以图4为例，语义特征信息和位置特征信息进行连接所得到的融合特征信息，仍然无法区分文本块401和文本块404，有可能将文本块403和文本块404确定为键值对。为了解决上述问题，本公开提出了将视觉特征信息(visual feature)与文本特征信息进行融合的方法。

在对多个模态的特征信息进行融合时，例如视觉特征信息和文本特征信息进行融合，应当考虑到各种不同的特征信息可能具有不同的维度以及不同的意义(meanings)。

视觉特征信息能够提供预测键值对关系的重要信号，例如，在键值对中，黑体的字型(bold faces)通常更可能是键值对中指示属性的文本块，也即为键值对中的键。以图4为例，在融合了视觉特征信息的情况下，则能够区分文本块401和文本块404，从而确定文本块403与文本块401属于键值对。

在本公开实施例中，通过将包含视觉特征信息的多模态的特征信息进行融合，可以提高待识别表单中的文本块之间的键值对关系识别的准确度。

视觉特征信息是本公开所提出的在用于识别表单的文本特征信息的基础上，所增加的一种模态的特征信息。为了能够灵活地使用该视觉特征信息，本公开实施例提出了一种将所述视觉特征信息作为偏移特征信息的方法，来控制视觉特征信息的影响。

在本公开实施例所提出的融合方法中，可以通过获得所述文本特征信息和所述视觉特征信息对应的权重，并根据所述权重对所述文本特征信息与所述视觉特征信息进行加权求和，获得所述目标特征信息。

在所述视觉特征信息包括至少两个模态的视觉特征信息的情况下，可以首先对所述至少两个模态的文本特征信息进行连接，得到第一特征信息，例如可以通过全连接层进行连接；之后根据所获取的文本特征信息和视觉特征信息所对应的权重，对所述第一特征信息与所述视觉图像特征进行加权求和，获得多个模态的融合特征信息，也即获得了所述目标特征信息。

图5示出本公开至少一个实施例提出的特征信息的融合方法的示意图。其中，待进行融合的多个模态的特征信息包括文本块的语义特征信息

位置特征信息

以及视觉特征信息

如图5所示，可以首先对语义特征信息

和位置特征信息

进行连接，得到第一特征信息

其中，语义特征信息

的维度为M，位置特征信息

的维度为N，则第一特征信息

的维度为(M+N)。接下来，通过注意力机制门(attention gate)来计算视觉特征信息

的权重(相当于所述第一特征信息对应的权重为1)，其中，视觉特征信息

的维度为(M+N)，并将加权的视觉特征信息

作为偏移特征信息。通过将第一特征信息与偏移特征信息相加，获得了语义特征信息、位置特征信息和视觉特征信息的融合特征信息，也即目标特征信息

所述目标特征信息

的维度为(M+N)。

在本公开实施例中，通过所述文本特征信息和所述视觉特征信息对应的权重进行特征信息融合，相较于连接所述文本特征信息和所述视觉特征信息进行融合，避免了视觉特征信息产生过度影响，提高了键值对识别的准确度。

以下以文本块的语义特征信息、位置特征信息、视觉特征信息为例，对于各个模态的特征信息的获取方法进行描述。

语义特征信息提取：

在本公开实施例中，可以通过对待识别表单的文本识别结果进行自然语言处理(Natural Language Processing，NLP)获得文本块的语义特征信息。例如可以使用预先训练的BERT(Bidirectional Encoder Representation from Transformers，基于变换器的双向编码器)网络来提取语义特征信息。

图6示出本公开至少一个实施例提出的语义特征信息提取方法的示意图。如图6所示，输入信息为文本块的文本内容“月度管理状态报告”以及分类标签[CLS]，所述输入信息例如可以表示为Ti＝[[CLS],Tok1,Tok2,…,Tokn]，其中，Tok1,Tok2,…,Tokn为输入文本块的文本内容中所包含的n个词。BERT网络(BERT-like Model)对于所述文本块的文本内容Ti，根据所述文本块的左右文内容输出深度双向表征量，也即语义特征信息

在图6中，E[CLS]、ETok1、ETok2…Etokn为BERT网络的嵌入层对应于Ti的输出，其中，E[CLS]可用于对BERT网络输出进行微调，从而提高语义特征提取的效果。

位置特征信息提取：

对待识别表单进行文本识别处理所得到的文本识别结果，还包括了文本块的位置信息：文本块的顶点的相对坐标。其中，所述文本块的顶点可以是文本块所对应的文本框的顶点。位置信息显示了文本块的尺寸和相对位置，所述位置信息有助于对具有相同语义的文本块进行区分。

在本公开实施例中，可以根据文本块的顶点坐标获得所述文本块对应的位置向量Ci＝[x1,y1,x2,y2,x3,y3,x4,y4]。如图7所示，所述位置向量为文本块“月度管理状态信息”的顶点所坐标对应的向量，通过全连接层从所述位置向量获得位置特征信息

位置特征信息的获取可以以公式(3)表示：

其中，W为加权矩阵，b为偏置值，σ(·)表示激活函数，例如为relu(·)。

为第i文本块的位置特征信息，

的尺寸可以用dL表示。

视觉特征信息提取：

视觉特征信息可以通过对文本块的图像进行特征提取获得，所述文本块的图像可以是包含完整文本块的图像区域，例如可以是矩形图像区域。所述文本块的图像可以通过将所述文本块所在的文本框从表单页面中裁剪下来获得。由于文本块的图像是表单页面的部分图像，因此更可能是由字母、字符构成的，而非由图片构成的，因此传统的VGG(VisualGeometry Group，视觉几何组)神经网络是不适用的。

本公开实施例中，提出了一种卷积神经网络与循环神经网络级联的视觉特征提取神经网络，以用于从所述文本块的图像进行视觉特征提取。图8示出了本公开实施例提出的视觉特征信息提取方法的示意图。如图8所示，将文本块“月度管理状态信息“的图像输入至所述卷积神经网络801，获得多个通道的特征图802；将各个通道的特征图进行拼接，获得特征序列803；将所述特征序列输入至循环神经网络804，获得所述视觉特征信息

在一个示例中，可以将多个通道的特征图802的高度设置为1，并通过在特征图的宽度方向上对各个通道的特征图进行连接，获得特征序列803；并且可以通过获取循环神经网络804输出的隐含层状态，并对所述隐含层状态进行最大池化，获得所述视得特征信息

在本公开实施例中，通过将卷积神经网络和循环神经网络进行结合，可以获得符合表单中文本块特性的视觉特征图像，有利于对于表单键值对的提取。

图9为本公开至少一个实施例提出的一种表单识别装置，如图9所示，该装置可以包括：第一获取单元901，用于获取待识别表单中的多个文本块；第二获取单元902，用于获取所述多个文本块中每个文本块的目标特征信息；确定单元903，用于根据所述每个文本块的目标特征信息，确定所述多个文本块中各个文本块之间的键值对关系，所述各个文本块之间的键值对关系包含每个文本块与除所述文本块之外的其他文本块之间的键值对关系；识别单元904，用于根据所述各个文本块之间的键值对关系，获得所述待识别表单的拓扑结构信息。

在一些实施例中，所述确定单元具体用于对于所述多个文本块中的第一文本块，确定所述第一文本块与第二文本块属于键值对的概率，其中，所述第二文本块包括所述多个文本块中除所述第一文本块以外的至少一个其他文本块，所述第一文本块与所述第二文本块属于键值对表示所述第二文本块指示属性，所述第一文本块指示所述属性的值；根据所述概率，确定所述第一文本块与所述第二文本块之间的键值对关系。

在一些实施例中，所述第二文本块包括第一目标文本块以及第二目标文本块，所述第一文本块与所述第一目标文本块属于键值对的概率，大于所述第一文本块与所述第二目标文本块属于键值对的概率；所述确定单元在用于所述根据所述概率，确定所述第一文本块与所述第二文本块之间的键值对关系时，具体用于确定所述第一文本块与所述第一目标文本块具有键值对关系。

在一些实施例中，所述确定单元在用于，确定所述第一文本块与第二文本块属于键值对的概率时，具体用于：将所述第一文本块和所述第二文本块的目标特征信息输入至关系预测网络，所述关系预测网络输出所述第一文本块与所述第二文本块属于键值对的概率。

在一些实施例中，所述装置还包括训练单元，用于通过样本集对所述关系预测网络进行训练，其中，所述样本集包含具有键值对关系的第一文本块样本和第二文本块样本，以及与所述第一文本块样本不具有键值对关系的负样本；其中，所述第二文本块样本具有指示与所述第一文本块样本具有键值对关系的第一标注信息，所述负样本具有指示与所述第一文本块样本不具有键值对关系的第二标注信息。

在一些实施例中，所述训练单元在用于通过样本集对所述关系预测网络进行训练时，具体用于：通过最大化所述第一文本块样本与第二文本块具有键值对关系的概率，以及最小化所述第一文块样本与所述负样本具有键值对关系的概率，对所述关系预测网络的参数进行调整。

在一些实施例中，所述第二获取单元具体用于：获取所述文本块的多个模态的特征信息；将所述多个模态的特征信息进行融合，获得所述目标特征信息。

在一些实施例中，所述多个模态的特征信息包括至少两个模态的文本特征信息；所述第二获得单元在用于将所述多个模态的特征信息进行融合，获得所述目标特征信息时，具体用于：对所述至少两个模态的文本特征信息进行连接，获得目标特征信息。

在一些实施例中，所述多个模态的特征信息包括视觉特征信息以及至少一个模态的文本特征信息；所述第二获取单元在用于将所述多个模态的特征信息进行融合，获得所述目标特征信息时，具体用于：获得所述文本特征信息和所述视觉特征信息对应的权重，并根据所述权重对所述文本特征信息与所述视觉特征信息进行加权求和，获得所述目标特征信息。

在一些实施例中，所述文本特征信息包括语义特征信息和位置特征信息中的至少一项。

在一些实施例中，所述视觉特征信息利用视觉特征提取神经网络对所述文本块的图像进行特征提取获得，所述视觉特征提取神经网络包括卷积神经网络和循环神经网络；所述利用视觉特征提取神经网络对所述文本块的图像进行特征提取获得，包括：将所述文本块的图像输入至所述卷积神经网络，获得多个通道的特征图；将各个通道的特征图进行拼接，获得特征序列；将所述特征序列输入至所述循环神经网络，获得所述视觉特征信息。

在一些实施例中，所述第一获取单元具体用于：对所述待识别表单进行表格线提取处理，得到所述待识别表单的表格线提取结果，所述表格线提取结果包括多个表格线；对所述待识别表单进行文本识别处理，得到文本识别结果；所述多个表格线限定而成的多个表格框，对所述文本识别结果进行分割，获得所述多个文本块。

在一些实施例中，所述装置还包括属性确定单元，用于根据所述各个文本块之间的键值对关系，确定所述待识别表单对应的多个表格框的属性信息。

在一些实施例中，所述装置还包括生成单元，用于根据所述待识别表单的拓扑结构信息，生成所述待识别表单中的多个文本块之间的拓扑结构图。

本公开还提供了一种表单识别设备，请参照附图10，其示出了该设备的结构，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施例所述的方法。

本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位***(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和***通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种表单识别方法，其特征在于，所述方法包括：

获取待识别表单中的多个文本块；

获取所述多个文本块中每个文本块的目标特征信息；

根据所述每个文本块的目标特征信息，确定所述多个文本块中各个文本块之间的键值对关系，所述各个文本块之间的键值对关系包含每个文本块与除所述文本块之外的其他文本块之间的键值对关系；

根据所述各个文本块之间的键值对关系，获得所述待识别表单的拓扑结构信息。

2.根据权利要求1所述的方法，其特征在于，根据所述每个文本块的目标特征信息，确定所述多个文本块中各个文本块之间的键值对关系，包括：

对于所述多个文本块中的第一文本块，确定所述第一文本块与第二文本块属于键值对的概率，其中，所述第二文本块包括所述多个文本块中除所述第一文本块以外的至少一个其他文本块，所述第一文本块与所述第二文本块属于键值对表示所述第二文本块指示属性，所述第一文本块指示所述属性的值；

根据所述概率，确定所述第一文本块与所述第二文本块之间的键值对关系。

3.根据权利要求2所述的方法，其特征在于，所述第二文本块包括第一目标文本块以及第二目标文本块，所述第一文本块与所述第一目标文本块属于键值对的概率，大于所述第一文本块与所述第二目标文本块属于键值对的概率；

所述根据所述概率，确定所述第一文本块与所述第二文本块之间的键值对关系，包括：

确定所述第一文本块与所述第一目标文本块具有键值对关系。

4.根据权利要求2或3所述的方法，其特征在于，确定所述第一文本块与第二文本块属于键值对的概率，包括：

将所述第一文本块和所述第二文本块的目标特征信息输入至关系预测网络，所述关系预测网络输出所述第一文本块与所述第二文本块属于键值对的概率。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

通过样本集对所述关系预测网络进行训练，其中，所述样本集包含具有键值对关系的第一文本块样本和第二文本块样本，以及与所述第一文本块样本不具有键值对关系的负样本；其中，所述第二文本块样本具有指示与所述第一文本块样本具有键值对关系的第一标注信息，所述负样本具有指示与所述第一文本块样本不具有键值对关系的第二标注信息。

6.根据权利要求5所述的方法，其特征在于，所述通过样本集对所述关系预测网络进行训练，包括：

通过最大化所述第一文本块样本与第二文本块具有键值对关系的概率，以及最小化所述第一文块样本与所述负样本具有键值对关系的概率，对所述关系预测网络的参数进行调整。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述获取所述文本块的目标特征信息，包括：

获取所述文本块的多个模态的特征信息；

将所述多个模态的特征信息进行融合，获得所述目标特征信息。

8.根据权利要求7所述的方法，其特征在于，所述多个模态的特征信息包括至少两个模态的文本特征信息；

所述将所述多个模态的特征信息进行融合，获得所述目标特征信息，包括：

对所述至少两个模态的文本特征信息进行连接，获得目标特征信息。

9.根据权利要求7或8所述的方法，其特征在于，所述多个模态的特征信息包括视觉特征信息以及至少一个模态的文本特征信息；

获得所述文本特征信息和所述视觉特征信息对应的权重，并根据所述权重对所述文本特征信息与所述视觉特征信息进行加权求和，获得所述目标特征信息。

10.根据权利要求8或9所述的方法，其特征在于，所述文本特征信息包括语义特征信息和位置特征信息中的至少一项。

11.根据权利要求9或10所述的方法，其特征在于，所述视觉特征信息利用视觉特征提取神经网络对所述文本块的图像进行特征提取获得，所述视觉特征提取神经网络包括卷积神经网络和循环神经网络；

所述利用视觉特征提取神经网络对所述文本块的图像进行特征提取获得，包括：

将所述文本块的图像输入至所述卷积神经网络，获得多个通道的特征图；

将各个通道的特征图进行拼接，获得特征序列；

将所述特征序列输入至所述循环神经网络，获得所述视觉特征信息。

12.根据权利要求1至11任一项所述的方法，其特征在于，所述获取待识别表单中的多个文本块，包括：

对所述待识别表单进行表格线提取处理，得到所述待识别表单的表格线提取结果，所述表格线提取结果包括多个表格线；

对所述待识别表单进行文本识别处理，得到文本识别结果；

所述多个表格线限定而成的多个表格框，对所述文本识别结果进行分割，获得所述多个文本块。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

根据所述各个文本块之间的键值对关系，确定所述待识别表单对应的多个表格框的属性信息。

14.根据权利要求1至13任一项所述的方法，其特征在于，所述方法还包括：

根据所述待识别表单的拓扑结构信息，生成所述待识别表单中的多个文本块之间的拓扑结构图。

15.一种表单识别装置，其特征在于，所述装置包括：

第一获取单元，用于获取待识别表单中的多个文本块；

第二获取单元，用于获取所述多个文本块中每个文本块的目标特征信息；

确定单元，用于根据所述每个文本块的目标特征信息，确定所述多个文本块中各个文本块之间的键值对关系，所述各个文本块之间的键值对关系包含每个文本块与除所述文本块之外的其他文本块之间的键值对关系；

识别单元，用于根据所述各个文本块之间的键值对关系，获得所述待识别表单的拓扑结构信息。

16.一种表单识别设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至14任一项所述的方法。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至14任一所述的方法。