CN114724156B

CN114724156B - 表单识别方法、装置及电子设备

Info

Publication number: CN114724156B
Application number: CN202210419150.0A
Authority: CN
Inventors: 李煜林; 钦夏孟; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2023-07-25
Anticipated expiration: 2042-04-20
Also published as: CN114724156A

Abstract

本公开提供了一种表单识别方法、装置及电子设备，涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为：获取待识别图像，所述待识别图像包括目标表单的图像内容，所述目标表单包括M个文本实体单元；基于所述待识别图像获取所述目标表单的第一特征；基于所述第一特征，对所述M个文本实体单元进行实体分类，得到每个文本实体单元的实体类别；基于所述第一特征，对所述M个文本实体单元中不同文本实体单元之间的关联关系进行预测，得到所述M个文本实体单元的关系信息，所述关联关系用于表征不同文本实体单元之间是否存在关联；基于所述实体类别和所述关系信息，输出所述目标表单的表单信息。

Description

表单识别方法、装置及电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域，具体涉及一种表单识别方法、装置及电子设备。

背景技术

表单是一种半结构化形式的文档，被广泛用于各种商业、办公等场景。在自动化办公***中，从表单图像中识别出表单信息是***的重要功能之一。

目前，表单识别方式通常是设计出一套版面分析工具，并自顶向下地将表单图像划分为不同类型的模块进行处理。

发明内容

本公开提供了一种表单识别方法、装置及电子设备。

根据本公开的第一方面，提供了一种表单识别方法，包括：

获取待识别图像，所述待识别图像包括目标表单的图像内容，所述目标表单包括M个文本实体单元，M为大于1的整数；

基于所述待识别图像获取所述目标表单的第一特征；

基于所述第一特征，对所述M个文本实体单元进行实体分类，得到每个文本实体单元的实体类别；

基于所述第一特征，对所述M个文本实体单元中不同文本实体单元之间的关联关系进行预测，得到所述M个文本实体单元的关系信息，所述关联关系用于表征不同文本实体单元之间是否存在关联；

基于所述实体类别和所述关系信息，输出所述目标表单的表单信息。

根据本公开的第二方面，提供了一种表单识别装置，包括：

第一获取模块，用于获取待识别图像，所述待识别图像包括目标表单的图像内容，所述目标表单包括M个文本实体单元，M为大于1的整数；

第二获取模块，用于基于所述待识别图像获取所述目标表单的第一特征；

实体分类模块，用于基于所述第一特征，对所述M个文本实体单元进行实体分类，得到每个文本实体单元的实体类别；

关系预测模块，用于基于所述第一特征，对所述M个文本实体单元中不同文本实体单元之间的关联关系进行预测，得到所述M个文本实体单元的关系信息，所述关联关系用于表征不同文本实体单元之间是否存在关联；

输出模块，用于基于所述实体类别和所述关系信息，输出所述目标表单的表单信息。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面中的任一项方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行第一方面中的任一项方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现第一方面中的任一项方法。

根据本公开的技术解决了表单识别依赖于表单样式而导致通用性不高的问题，提高了表单识别的鲁棒性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的表单识别方法的流程示意图；

图2是一示例中的表单图像示意图；

图3是另一示例中的表单图像示意图；

图4是又一示例中的表单图像示意图；

图5是根据本公开第二实施例的表单识别装置的结构示意图；

图6是用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

第一实施例

如图1所示，本公开提供一种表单识别方法，包括如下步骤：

步骤S101：获取待识别图像，所述待识别图像包括目标表单的图像内容，所述目标表单包括M个文本实体单元。

其中，M为大于1的整数。

本实施例中，表单识别方法涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域，其可以广泛应用于光学字符识别(Optical CharacterRecognition，OCR)等场景下。本公开实施例的表单识别方法，可以由本公开实施例的表单识别装置执行。本公开实施例的表单识别装置可以配置在任意电子设备中，以执行本公开实施例的表单识别方法。该电子设备可以为服务器，也可以为终端设备，这里不进行具体限定。

该步骤中，待识别图像可以为包括表单图像内容的任一图像，可以称之为表单图像，其中，表单可以为一种半结构化形式的文档，其内可以包括键值。

如图2所示，该图像200包括表单的图像内容，该表单包括键值，如键201和值202。如图3所示，该图像300包括文档的图像内容，该文档是由键值组成的一种特殊表单，冒号符号“：”左边的文本内容可以是键301，冒号符号“：”右边的文本内容可以是值302。

在一可选实施方式中，表单中可以包括表格，如图2所示，该表单中可以包括表格203，该表格中可以包括表头2031和单元2032，其中，表头和单元之间可以是键值关系。

目标表单可以为任一表单，该目标表单中可以包括至少两个文本实体单元，文本实体单元可以为字符不间断的一个文本行，其中，字符可以通过空格、冒号符号“：”、单元格等方式进行间断。

在字符间断的情况下，即使人为感官上处于同行关系，但是模型检测时会被模型看成是不同的文本行，即看成不同的文本实体单元，每个文本实体单元对应一个检测框，如图4所示，表单图像400中，文本实体单元401和文本实体单元402虽然处于同行关系，但是为不同的文本实体单元。

待识别图像的获取方式可以包括多种，比如，可以对目标表单进行实时拍摄或扫描，得到待识别图像，或者，可以接收其他电子设备发送的待识别图像，或者，可以从网上下载图像作为待识别图像，亦或是获取预先存储的待识别图像。

步骤S102：基于所述待识别图像获取所述目标表单的第一特征。

该步骤中，第一特征可以为待识别图像针对目标表单的图像相关特征，也可以为多模态特征，即第一特征可以为待识别图像的视觉特征和目标表单的文本特征的融合特征，这里不进行具体限定。

在一可选实施方式中，可以将待识别图像输入至目标模型进行特征处理，得到第一特征，该第一特征可以为待识别图像针对目标表单的图像相关特征，该目标模型可以为卷积神经网络(Convolutional Neural Networks，CNN)如ResNet-50和Transformer网络混合结构的网络模型。

在另一可选实施方式中，可以将待识别图像输入至第一模型进行特征提取，得到待识别图像的图像特征图，该第一模型可以为卷积神经网络(Convolutional NeuralNetworks，CNN)如ResNet-50。并可以对待识别图像进行文本识别，得到该待识别图像中目标表单的文本内容和位置信息，基于该文本内容和位置信息构造目标表单的文本特征图，将图像特征图和文本特征图融合得到第一特征，该第一特征可以为多模态特征。

在又一可选实施方式中，可以将待识别图像输入至第一模型进行特征提取，得到待识别图像的图像特征图，采用感兴趣区域(Region Of Interest，ROI)Pooling操作，在图像特征图上裁剪针对文本实体单元的区域特征，将文本实体单元的区域特征进行特征编码，以映射得到特征向量，生成待识别图像针对文本实体单元的图像特征序列，将包括该图像特征序列的视觉特征与文本特征进行融合得到第一特征。

步骤S103：基于所述第一特征，对所述M个文本实体单元进行实体分类，得到每个文本实体单元的实体类别。

该步骤中，实体类别可以指的是构成表单的实体的分类类别，其中，表单与一般文档不同的是，其文本实体单元即文本行整体可以被模型看成是一个实体。该步骤的目的即是基于第一特征将每个文本实体单元进行分类。实体类别可以包括标题、键、值、表头、单元等。

在一可选实施方式中，可以使用一个全连接层，对第一特征中文本实体单元的区域特征进行特征映射，得到特征向量，使用逻辑回归模型softmax函数基于特征向量进行实体分类，得到文本实体单元的实体类别。

在又一可选实施方式中，可以由全连接网络基于该第一特征进行每个文本实体单元的分类，产生每个文本实体单元的实体类别。

步骤S104：基于所述第一特征，对所述M个文本实体单元中不同文本实体单元之间的关联关系进行预测，得到所述M个文本实体单元的关系信息，所述关联关系用于表征不同文本实体单元之间是否存在关联。

该步骤中，可以针对不同的每两个文本实体单元，对这两个文本实体单元之间的关联关系进行预测，以预测得到每两个文本实体单元之间存在关联。即关联关系可以包括两种情况，第一种情况为两个文本实体单元之间存在关联，第二种情况为两个文本实体单元之间不存在关联。

关系信息中可以仅包括存在关联的关联关系，也可以同时包括存在关联的关联关系以及不存在关联的关联关系，这里不进行具体限定。

实现中，可以基于第一特征获取不同的两个文本实体单元如文本实体单元i和文本实体单元j的特征，如截取第一特征中不同的两个文本实体单元如文本实体单元i和文本实体单元j的区域特征进行特征映射，并串联映射得到的两个特征，使用一个全连接层进行二分类，以预测文本实体单元i和文本实体单元j之间是否存在关联。

步骤S105：基于所述实体类别和所述关系信息，输出所述目标表单的表单信息。

该步骤中，目标表单的表单信息可以指的是以表单形式输出的信息，即输入待识别图像，通过识别并构建表单信息，可以输出预设格式如XML格式的表单。

输出的表单信息中可以包括键值关系，即键和值的配对关系。其中，实体类别为键和值之间的关系为键值关系，表格中表头和单元之间的关系也可以称之为键值关系。图2至图4的目标表单中均包括键值关系。

在一些实际场景中，目标表单的表单信息还可以包括结构化信息，该结构化信息可以包括表格中不同单元处于同行关系、表头对应的单元格包括多行文本、键或值是多行文本等。如图2所示，表头2031对应的单元格包括多行文本，如图3所示，值302是多行文本，如图4所示，文本实体单元401和文本实体单元402虽然处于同行关系。

可以基于关系信息，选取M个文本实体单元中存在关联的文本实体单元，并基于实体类别，确定两个文本实体单元之间所存在关联的关联类别。

之后基于该关联类别输出目标表单的表单信息，如两个文本实体单元的实体类别分别为键和值时，表征两者是键值关系，如两个文本实体单元的实体类别均为单元时，表征这两个文本实体单元处于同行关系，如两个文本实体单元的实体类别均为表头时，表征这两个文本实体单元位于同一单元格，该单元格中包括多行文本。如此，可以实现对目标表单的文本内容以及结构的识别。

本实施例中，通过对待识别图像中目标表单中的文本实体单元进行实体分类，并通过预测两两文本实体单元之间的关联关系，结合文本实体单元的实体类别和两两之间的关联关系，通过自底向上的方式，构建并输出表单结构，从而可以提高表单识别的鲁棒性，且可以提高表单识别的效率。

可选的，所述步骤S102具体包括：

对所述待识别图像进行文本识别，得到所述M个文本实体单元的位置信息和文本内容；

对所述待识别图像进行特征提取，得到所述待识别图像的图像特征；

基于所述位置信息，对所述文本内容进行特征编码，得到所述目标表单的文本特征；

对所述文本特征和所述图像特征进行融合，得到所述目标表单的第一特征。

本实施方式中，第一特征可以为多模态特征。

可以通过OCR或者PDF解析工具定位待识别图像中目标表单中所有文本实体单元的位置信息，并识别每个文本实体单元的文本内容。

可以通过CNN如ResNet-50对待识别图像进行特征提取，得到待识别图像的特征图即待识别图像的图像特征，用表示，其中w，h，d分别为特征图的宽度、高度和深度。

针对每个文本实体单元，可以基于文本实体单元的文本内容，对该文本实体单元中每个文字进行特征编码，得到一个特征向量，基于该文本实体单元中文字的行关系，使用双向长短期记忆人工神经网络BiLSTM模型串联该文本实体单元中每个文字的特征向量，得到该文本实体单元的文本特征，如下式(1)所示。

t_i＝BiLSTM({c_ij}),j∈[1,k_i] (1)

其中，上式(1)中，为文本实体单元i的文本特征，k_i为该文本实体单元的文字数量，d为文字的特征向量的维度。

将M个文本实体单元的文本特征按照文本实体单元的位置信息进行融合，得到目标表单的文本特征。

之后将目标表单的文本特征和图像特征进行融合，得到目标表单的第一特征。可以通过拼接方式融合文本特征和图像特征，也可以在拼接的基础上，通过第二模型对拼接的特征进行语义增强，以实现多模态特征的有效融合表达，进一步提高目标表单的识别准确率。其中，第二模型可以为Transformer网络结构。

本实施方式中，通过融合文本特征和图像特征，得到目标表单的多模态特征，以更好地进行表单语义的表达，提高表单识别的准确率。

可选的，所述对所述文本特征和所述图像特征进行融合，得到所述目标表单的第一特征，包括：

将所述文本特征和所述图像特征进行拼接，得到第二特征；

对所述第二特征进行语义增强，得到所述目标表单的第一特征。

本实施方式中，可以拼接文本特征和图像特征，并在拼接基础上，通过第二模型对拼接的特征即第二特征进行语义增强，以实现多模态特征的有效融合表达，进一步提高目标表单的识别准确率。

在一可选实施方式中，第二模型可以为Transformer网络结构。当采用Transformer网络对第二特征进行语义增强时，该Transformer网络可以由N如12个相同的网络层堆叠组成，每一层分别由多头注意力层和前馈网络层组成，这两个子层之间都有残差连接与层归一化操作。前馈网络层为一层全连接层，而多头注意力层其计算形式如下式(1)、(2)和(3)所示：

MultiHead(Q,K,V)＝Concat(head₁,…head_h)W_m (1)

head_i＝Attention(Q,K,V) (2)

其中，W_m、W_q、W_k和W_n为参数矩阵，h是注意力头数(可以取值为8)，多头注意力能够抽取不同子区域的特征；σ为逻辑回归模型softmax函数，Q，K，V均是第二特征即输入序列的向量矩阵，d是向量维度(可以取值为768)。通过注意力机制的计算，得到Q关于V上的注意力机制，即基于Q在V特征上的显著性语义特征，该显著性语义特征即可以为第一特征。

也就是说，将第二特征作为Transformer网络的输入，使用Transformer网络进一步编码第二特征，可以得到目标表单的语义特征即第一特征。

可选的，所述对所述待识别图像进行文本识别，得到所述M个文本实体单元的位置信息和文本内容，包括：

对所述待识别图像中每个文本实体单元进行位置预测，得到每个文本实体单元的检测框位置，所述位置信息包括所述检测框位置；

针对每个文本实体单元，截取所述待识别图像中所述文本实体单元的检测框位置的图像进行文本识别，得到所述文本实体单元的文本内容。

本实施方式中，可以使用文字检测技术对待识别图像进行文本检测。实现中，可以采用了OCR文字检测模型如EAST模型，基于深度学习算法返回待识别图像中每个文本实体单元的预测位置，获取M个文本实体单元的所有检测框集合，用P＝{p_i；i∈M^*}表示，p_i为文本实体单元i的检测框位置，M^*可以表示{1,2,…,M}。

将每个检测框p_i在待识别图像中裁剪出对应的矩形图像切片，用I_i表示，并采用深度学习模型如CRNN，识别I_i的图像文字序列，用c_i表示，这样可以得到每个文本实体单元的检测框位置p_i和文本内容c_i，从而可以实现待识别图像的文本识别。

可选的，所述基于所述位置信息，对所述文本内容进行特征编码，得到所述目标表单的文本特征，包括：

针对每个文本实体单元，对所述文本实体单元的文本内容进行特征编码，得到所述文本实体单元的第三特征；

构造目标张量，所述目标张量的大小与所述图像特征的大小相同；

将每个文本实体单元的第三特征依据所述位置信息嵌入至所述目标张量中，得到所述目标表单的文本特征。

本实施方式中，针对每个文本实体单元，可以基于文本实体单元的文本内容，对该文本实体单元中每个文字进行特征编码，得到一个特征向量，基于该文本实体单元中文字的行关系，使用双向长短期记忆人工神经网络BiLSTM模型串联该文本实体单元中每个文字的特征向量，得到该文本实体单元的文本特征即第三特征。

对文本特征构造一个和图像特征图L相同大小的全零张量即目标张量，把各文本实体单元的文本特征t_i依据对应的检测框位置p_i依次嵌入在特征图T中，得到目标表单的文本特征。如此，生成的目标表单的文本特征和图像特征的大小匹配，从而可以实现特征合并，以得到多模态特征，用/>表示，其特征合并的公式如下式(2)所示。

I＝concat(L,T) (2)

可选的，所述步骤S103具体包括：

针对每个文本实体单元，截取所述第一特征中所述文本实体单元的区域特征进行特征映射，得到所述文本实体单元的第一映射特征；

基于所述第一映射特征对所述文本实体单元进行实体分类，得到所述文本实体单元的实体类别。

本实施方式中，可以定义文本实体单元的实体类别，例如标题、键、值、表头、单元。针对目标表单中每个文本实体单元，基于该文本实体单元的检测框位置p_i，可以使用ROIPooling操作截取第一特征中对应检测框位置的区域特征，使用一个全连接层fc将该区域特征映射为预定义类别大小的特征向量，用f_i表示，得到第一映射特征。

基于第一映射特征，使用softmax函数映射为概率分布，表示如下式(3)所示：

scores＝softmax(fc(f_i)) (3)

其中，scores为映射出的概率分布值，fc为全连接层。

取所述概率中概率值最高的预定义实体类别作为文本实体单元的实体类别，从而可以基于第一特征实现对每个文本实体单元的实体识别并分类，用下式(4)表示。

cls＝argmax(scores) (4)

其中，cls预测得到的文本实体单元的实体类别。

可选的，所述步骤S104具体包括：

针对所述M个文本实体单元中每两个文本实体单元，截取所述第一特征中所述两个文本实体单元中每个文本实体单元的区域特征进行特征映射，得到所述两个文本实体单元的第二映射特征和第三映射特征；

将所述第二映射特征和所述第三映射特征进行拼接，得到目标映射特征；

基于所述目标映射特征对所述两个文本实体单元之间的关联关系进行预测，得到所述两个文本实体单元之间的关联关系；

其中，所述M个文本实体单元的关系信息包括所述两个文本实体单元之间的关联关系。

本实施方式中，针对M个文本实体单元中每两个文本实体单元，均可以采用相同的方式预测两个文本实体单元之间的关联关系。

针对任一两个文本实体单元，可以使用ROI Pooling操作分别截取第一特征中对应文本实体单元的检测框位置的区域特征进行特征映射，得到第二映射特征和第三映射特征。将第二映射特征和第三映射特征进行拼接，得到目标映射特征，基于该目标映射特征，使用一个全连接层fc进行二分类，以预测两个文本实体单元是否存在关联，得到两个文本实体单元之间的关联关系。如此，可以基于第一特征，实现对M个文本实体单元中不同文本实体单元之间的关联关系的预测，提高表单识别的鲁棒性。

可选的，所述步骤S105具体包括：

针对每个文本实体单元，基于所述关系信息获取所述文本实体单元的关联单元集合，以及基于所述文本实体单元的实体类别，确定所述文本实体单元与所述关联单元集合中每个文本实体单元之间的关联类别；所述关联单元集合包括所述M个文本实体单元中与所述文本实体单元存在关联的其他文本实体单元；

基于所述关联类别，输出所述目标表单的表单信息。

本实施方式中，可以结合实体类别和关系信息，识别并构建目标表单的表单信息。

实现中，可以遍历待识别图像中的M个文本实体单元，针对每个文本实体单元，可以从关系信息中获取与该文本实体单元存在关联的文本实体单元集合，得到该文本实体单元的关联单元集合。

如针对文本实体单元p_i，从关系信息中搜索与文本实体单元p_i相关联的关联单元集合，可以用{(p_i,p_j)}表示，p_j为与文本实体单元p_i存在关联的文本实体单元，关联单元集合中可以包括至少一个与文本实体单元p_i不同的文本实体单元。

可以基于文本实体单元的实体类别，确定文本实体单元与所述关联单元集合中每个文本实体单元之间的关联类别，即确定存在关联的两个文本实体单元的关联类别。其中，关联类别可以包括以下几种：

第一关联类别，可以指的是实体类别分别为键(用K表示)和值(用B表示)的两个文本实体单元之间的关联类别，用R1＝{(k_i,b_j)；i,j∈M^*}表示，其中，R1表示第一关联类别，k_i表示实体类别为键的文本实体单元，b_j表示实体类别为值的文本实体单元。

第二关联类别，可以指的是实体类别均为键的两个文本实体单元之间的关联类别，用R2＝{(k_i,k_j)；i,j∈M^*}表示，其中，R2表示第一关联类别，k_i、k_j分别表示实体类别为键的文本实体单元。

第三关联类别，可以指的是实体类别分别为表头(用H表示)和单元(用C表示)的两个文本实体单元之间的关联类别，用R3＝{(h_i,c_j)；i,j∈M^*}表示，其中，R3表示第三关联类别，h_i表示实体类别为表头的文本实体单元，c_j表示实体类别为单元的文本实体单元。

第四关联类别，可以指的是实体类别均为表头的两个文本实体单元之间的关联类别，用R4＝{(h_i,h_j)；i,j∈M^*}表示，其中，R4表示第四关联类别，h_i、h_j均表示实体类别为表头的文本实体单元。

第五关联类别，可以指的是实体类别均为单元的两个文本实体单元之间的关联类别，用R5＝{(c_i,c_j)；i,j∈M^*}表示，其中，R5表示第五关联类别，c_i、c_j均表示实体类别为单元的文本实体单元。

基于各文本识别单元的实体类别和位置信息，并结合各文本实体单元的关联类别，可以构建预设格式如XML格式的表单，输出表单信息。

在构建过程中，可以结合各文本实体单元的关联类别，如两个文本实体单元的实体类别分别为键和值时，表征两者是键值关系，如两个文本实体单元的实体类别均为单元时，表征这两个文本实体单元处于同行关系，如两个文本实体单元的实体类别均为表头时，表征这两个文本实体单元位于同一单元格，该单元格中包括多行文本。

如此，可以自底向上的方式实现对目标表单的文本内容以及结构的识别，输出表单信息。

可选的，所述M个文本实体单元的实体类别包括第一实体类别和第二实体类别，所述第一实体类别和所述第二实体类别存在键值关系，所述基于所述关联类别，输出所述目标表单的表单信息，包括以下至少一项：

在所述关联类别为第一关联类别的情况下，输出所述目标表单的第一键值关系，所述第一关联类别表征存在关联的两个文本实体单元的实体类别分别为所述第一实体类别和所述第二实体类别，所述表单信息包括所述第一键值关系；

在所述关联类别为第二关联类别的情况下，输出所述目标表单的第一结构信息，所述第二关联类别表征存在关联的两个文本实体单元的实体类别均为同一实体类别，所述第一结构信息表征存在所述第二关联类别的关联的两个文本实体单元对应同一单元格，所述表单信息包括所述第一结构信息。

本实施方式中，第一实体类别可以为键，第二实体类别可以为值，第一关联类别指的是实体类别分别为键和值的两个文本实体单元之间的关联类别。

在M个文本实体单元的关联类别包括第一关联类别的情况下，输出的表单信息中可以包括第一键值关系，以及还包括键值。第一键值关系可以表征键和值的关系，如键和值的关系可以用冒号符号“：”表示，或者可以用位置关系表示(键在左，值在右)。

在基于关系信息搜索到同一个键关联多个值的情况下，在进行表单信息输出时，可以对该键关联的多个值自上而下排序进行文本的合并，表示值是多行文本，如图2所示。

第二关联类别，可以指的是实体类别均为键的两个文本实体单元之间的关联类别，在M个文本实体单元的关联类别包括第二关联类别的情况下，输出的表单信息中可以包括第一结构信息。第一结构信息表征键对应多行文本。在进行表单信息输出时，可以保留与一文本实体单元存在第二关联类别的所有文本实体单元的文本内容。

本实施方式中，在M个文本实体单元的实体类别包括第一实体类别和第二实体类别，结合第一关联类别和第二关联类别，实现对待识别图像中表单的识别和构建，实现表单信息的输出。

可选的，在所述目标表单包括表格的情况下，所述M个文本实体单元的实体类别还包括第三实体类别和第四实体类别，所述第三实体类别和所述第四实体类别存在键值关系，所述第四实体类别为键值关系中的值，所述基于所述关联类别，输出所述目标表单的表单信息，包括以下至少一项：

在所述关联类别为第三关联类别的情况下，输出所述表格的第二键值关系，所述第三关联类别表征存在关联的两个文本实体单元的实体类别分别为所述第三实体类别和所述第四实体类别，所述表单信息包括所述第二键值关系；

在所述关联类别为第四关联类别的情况下，输出所述表格的第二结构信息，所述第四关联类别表征存在关联的两个文本实体单元的实体类别均为所述第三实体类别，所述第二结构信息表征存在所述第四关联类别的关联的两个文本实体单元对应同一单元格，所述表单信息包括所述第二结构信息；

在所述关联类别为第五关联类别的情况下，输出所述表格的第三结构信息，所述第五关联类别表征存在关联的两个文本实体单元的实体类别均为所述第四实体类别，所述第三结构信息表征存在所述第五关联类别的关联的两个文本实体单元是否处于同一文本行，所述表单信息包括所述第三结构信息。

本实施方式中，第三实体类别可以为表头，第二实体类别可以为单元，表头和单元也可以看成是一种特殊的键值关系，第三关联类别指的是实体类别分别为表头和单元的两个文本实体单元之间的关联类别。

在M个文本实体单元的关联类别包括第三关联类别的情况下，输出的表单信息中可以包括第二键值关系，以及还包括表头和单元。第二键值关系可以表征表头和单元的关系，表头和单元的关系在表格中可以用位置关系表示(如表头在上，单元在下；或者表头在左，单元在右)。

第四关联类别，可以指的是实体类别均为表头的两个文本实体单元之间的关联类别，在M个文本实体单元的关联类别包括第四关联类别的情况下，输出的表单信息中可以包括第二结构信息。第二结构信息表征表头对应的单元格包括多行文本。在进行表单信息输出时，可以保留与一文本实体单元存在第四关联类别的所有文本实体单元的文本内容，如图2所示。

第五关联类别，可以指的是实体类别均为单元的两个文本实体单元之间的关联类别，在M个文本实体单元的关联类别包括第五关联类别的情况下，输出的表单信息中可以包括第三结构信息。第三结构信息表征不同单元处于同行关系，即处于同一文本行。在进行表单信息输出时，可以将与一文本实体单元存在第五关联类别的所有文本实体单元的排列在同一文本行，如图4所示。

本实施方式中，在M个文本实体单元的实体类别包括第三实体类别和第四实体类别，结合第三关联类别、第四关联类别和第五关联信息，实现对待识别图像中表单的识别和构建，实现表单信息的输出。

第二实施例

如图5所示，本公开提供一种表单识别装置500，包括：

第一获取模块501，用于获取待识别图像，所述待识别图像包括目标表单的图像内容，所述目标表单包括M个文本实体单元，M为大于1的整数；

第二获取模块502，用于基于所述待识别图像获取所述目标表单的第一特征；

实体分类模块503，用于基于所述第一特征，对所述M个文本实体单元进行实体分类，得到每个文本实体单元的实体类别；

关系预测模块504，用于基于所述第一特征，对所述M个文本实体单元中不同文本实体单元之间的关联关系进行预测，得到所述M个文本实体单元的关系信息，所述关联关系用于表征不同文本实体单元之间是否存在关联；

输出模块505，用于基于所述实体类别和所述关系信息，输出所述目标表单的表单信息。

可选的，所述第二获取模块502包括：

文本识别单元，用于对所述待识别图像进行文本识别，得到所述M个文本实体单元的位置信息和文本内容；

特征提取单元，用于对所述待识别图像进行特征提取，得到所述待识别图像的图像特征；

特征编码单元，用于基于所述位置信息，对所述文本内容进行特征编码，得到所述目标表单的文本特征；

融合单元，用于对所述文本特征和所述图像特征进行融合，得到所述目标表单的第一特征。

可选的，所述融合单元，具体用于：

将所述文本特征和所述图像特征进行拼接，得到第二特征；

可选的，所述文本识别单元，具体用于：

可选的，所述特征编码单元，具体用于：

可选的，所述实体分类模块503，具体用于：

可选的，所述关系预测模块504，具体用于：

可选的，所述输出模块505包括：

获取单元，用于针对每个文本实体单元，基于所述关系信息获取所述文本实体单元的关联单元集合；所述关联单元集合包括所述M个文本实体单元中与所述文本实体单元存在关联的其他文本实体单元；

关联类别预测单元，用于针对每个文本实体单元，基于所述文本实体单元的实体类别，确定所述文本实体单元与所述关联单元集合中每个文本实体单元之间的关联类别；

输出单元，用于基于所述关联类别，输出所述目标表单的表单信息。

可选的，所述M个文本实体单元的实体类别包括第一实体类别和第二实体类别，所述第一实体类别和所述第二实体类别存在键值关系，所述输出单元，具体用于以下至少一项：

可选的，在所述目标表单包括表格的情况下，所述M个文本实体单元的实体类别还包括第三实体类别和第四实体类别，所述第三实体类别和所述第四实体类别存在键值关系，所述第四实体类别为键值关系中的值，所述输出单元，具体用于以下至少一项：

本公开提供的表单识别装置500能够实现表单识别方法实施例实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如表单识别方法。例如，在一些实施例中，表单识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的表单识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行表单识别方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种表单识别方法，包括：

获取待识别图像，所述待识别图像包括目标表单的图像内容，所述目标表单包括M个文本实体单元，M为大于1的整数；文本实体单元为字符不间断的一个文本行，字符通过空格、冒号符号、单元格的方式进行间断；

基于所述待识别图像获取所述目标表单的第一特征；

基于所述第一特征，对所述M个文本实体单元进行实体分类，得到每个文本实体单元的实体类别；实体类别包括标题、键、值、表头和单元；

基于所述实体类别和所述关系信息，输出所述目标表单的表单信息；所述表单信息包括键值关系和/或结构化信息，所述结构化信息包括：表格中不同单元处于同行关系、键或值是多行文本、表头对应的单元格包括多行文本；

所述基于所述待识别图像获取所述目标表单的第一特征，包括：

基于卷积神经网络对所述待识别图像进行特征提取，得到所述待识别图像的图像特征；

2.根据权利要求1所述的方法，其中，所述对所述文本特征和所述图像特征进行融合，得到所述目标表单的第一特征，包括：

将所述文本特征和所述图像特征进行拼接，得到第二特征；

3.根据权利要求1所述的方法，其中，所述对所述待识别图像进行文本识别，得到所述M个文本实体单元的位置信息和文本内容，包括：

4.根据权利要求1所述的方法，其中，所述基于所述位置信息，对所述文本内容进行特征编码，得到所述目标表单的文本特征，包括：

5.根据权利要求1所述的方法，其中，所述基于所述第一特征，对所述M个文本实体单元进行实体分类，得到每个文本实体单元的实体类别，包括：

6.根据权利要求1所述的方法，其中，所述基于所述第一特征，对所述M个文本实体单元中不同文本实体单元之间的关联关系进行预测，得到所述M个文本实体单元的关系信息，包括：

7.根据权利要求1所述的方法，其中，所述基于所述实体类别和所述关系信息，输出所述目标表单的表单信息，包括：

基于所述关联类别，输出所述目标表单的表单信息。

8.根据权利要求7所述的方法，其中，所述M个文本实体单元的实体类别包括第一实体类别和第二实体类别，所述第一实体类别和所述第二实体类别存在键值关系，所述基于所述关联类别，输出所述目标表单的表单信息，包括以下至少一项：

9.根据权利要求7或8所述的方法，其中，在所述目标表单包括表格的情况下，所述M个文本实体单元的实体类别还包括第三实体类别和第四实体类别，所述第三实体类别和所述第四实体类别存在键值关系，所述第四实体类别为键值关系中的值，所述基于所述关联类别，输出所述目标表单的表单信息，包括以下至少一项：

10.一种表单识别装置，包括：

第一获取模块，用于获取待识别图像，所述待识别图像包括目标表单的图像内容，所述目标表单包括M个文本实体单元，M为大于1的整数；文本实体单元为字符不间断的一个文本行，字符通过空格、冒号符号、单元格的方式进行间断；

实体分类模块，用于基于所述第一特征，对所述M个文本实体单元进行实体分类，得到每个文本实体单元的实体类别；实体类别包括标题、键、值、表头和单元；

输出模块，用于基于所述实体类别和所述关系信息，输出所述目标表单的表单信息；所述表单信息包括键值关系和/或结构化信息，所述结构化信息包括：表格中不同单元处于同行关系、键或值是多行文本、表头对应的单元格包括多行文本；

所述第二获取模块包括：

特征提取单元，用于基于卷积神经网络对所述待识别图像进行特征提取，得到所述待识别图像的图像特征；

11.根据权利要求10所述的装置，其中，所述融合单元，具体用于：

将所述文本特征和所述图像特征进行拼接，得到第二特征；

12.根据权利要求10所述的装置，其中，所述文本识别单元，具体用于：

13.根据权利要求10所述的装置，其中，所述特征编码单元，具体用于：

14.根据权利要求10所述的装置，其中，所述实体分类模块，具体用于：

15.根据权利要求10所述的装置，其中，所述关系预测模块，具体用于：

16.根据权利要求10所述的装置，其中，所述输出模块包括：

17.根据权利要求16所述的装置，其中，所述M个文本实体单元的实体类别包括第一实体类别和第二实体类别，所述第一实体类别和所述第二实体类别存在键值关系，所述输出单元，具体用于以下至少一项：

18.根据权利要求16或17所述的装置，其中，在所述目标表单包括表格的情况下，所述M个文本实体单元的实体类别还包括第三实体类别和第四实体类别，所述第三实体类别和所述第四实体类别存在键值关系，所述第四实体类别为键值关系中的值，所述输出单元，具体用于以下至少一项：

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。