CN115205877A

CN115205877A - 一种不规则排版***单据布局预测方法、装置及存储介质

Info

Publication number: CN115205877A
Application number: CN202210669299.4A
Authority: CN
Inventors: 朱立平; 易欣; 徐倩
Original assignee: Nanjing Customs Of People's Republic Of China
Current assignee: Nanjing Customs Of People's Republic Of China
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-10-18

Abstract

本发明公开了一种不规则排版***单据版面布局预测方法、预测装置及存储介质，不规则排版***单据版面布局预测方法包括：利用扫描仪或相机采集不规则排版单据信息；将采集到的不规则排版单据信息进行标注并将已标注数据划分为训练集与测试集；使用训练集训练得到版面布局预测模型；使用测试集测试版面布局预测模型的效果，根据测试效果调整模型的超参数，直至获得理想的模型通过预测模型预测不规则排版***单据版面布局。本发明优点在于结合不规则排版***单据的高维视觉特征、低维视觉随机变化和语义特征对其进行版面布局预测，弥补了传统版面分析语义信息少、视觉语义融合简单的问题，提高了对布局不规则***版面分析的精度。

Description

一种不规则排版***单据布局预测方法、装置及存储介质

技术领域

本发明属于机器学习技术领域，尤其涉及一种用于不规则排版***单据布局分析预测方法。

背景技术

单据是财务报表、科学文献、采购清单等许多真实文档中信息丰富的数据格式之一。除了文本内容外，表格结构对于人们进行关键信息提取至关重要。不仅如此，文档布局分析是自动理解文档的关键步骤，支持许多重要应用，如文档检索、数字化和编辑。它的目标是识别非结构化文档中感兴趣的区域，并识别每个区域的作用。因此，单据结构识别成为当前文档理解***中的重要技术之一。然而***单据文档布局的多样性和复杂性，使得对不规则排版***单据布局分析这项任务具有挑战性。

最近的研究者们只单单地从视觉特征，或语义特征方面考虑，忽视结合来自这两种模式的信息可以帮助更好地识别文件布局尤其是对于不规则排版的***单据。因为某些结构化的区域，如图形、表格等可以通过宏观的视觉特征轻松识别，而对于某些视觉上相似的区域，如摘要和段落等语义特征又显得至关重要。因此，最近的一些研究试图将这两种模式结合起来。

基于自然语言处理(NLP)的方法将布局分析建模为序列标记任务，并应用自底向上策略。他们首先将文本序列化为一维标记序列。然后使用每个标记的语义和视觉特征(如坐标和图像嵌入)，它们通过序列标记模型顺序确定标记标签。然而，基于NLP的方法在布局建模方面表现出不足。

基于计算机视觉(CV)的方法将布局分析建模为对象检测或分割任务，并应用自上而下的策略。他们首先通过卷积神经网络提取视觉特征，并通过文本嵌入映射引入句子级或字符级语义特征，这些映射直接连接起来作为文档的表示。然后，使用检测或分割模型生成布局组件的坐标和语义标签。与基于NLP的方法相比，基于CV的方法可以更好地捕获空间信息，

发明内容

本发明提供了一种提高对于不规则排版***单据布局分析的预测精度获得精确坐标和语义标签的不规则排版***单据布局预测方法、装置及存储介质。

为达到上述技术目的，本发明采用以下技术方案：

一种不规则排版***单据版面布局分析方法，其特征在于，包括：

步骤1：采集不规则排版单据信息；

步骤2：对采集到的不规则排版单据信息进行标注，并将标注的数据分为训练集和测试集；其中，标注的每组数据包括文字标注信息、文字框选信息及图像信息；

步骤3：使用训练集训练得到版面布局预测模型：将文档图像和文本嵌入分别作为视觉模块和语义模块的输入，其中视觉模块使用不同规模卷积神经网络主干提取高低维度视觉特征；语意模块提取多尺度文档语义特征；通过关系特征聚合模块，将视觉特征和语义特征结合起来学习一个多模态特征图，得到语义标签和坐标；

步骤4：使用测试集测试版面布局预测模型的效果，根据测试效果调整版面布局预测模型的超参数，重复步骤3，直至获得满足测试效果的版面布局预测模型；

步骤5：通过版面布局预测模型预测不规则排版***单据语义标签从而得到对应的版面布局。

优选的，所述所述步骤2中不规则单据信息标注包括文档RGB图像、文本定位与标注包括字符级和句子级。

优选的，所述步骤3内容如下：

步骤3-1：训练集中文档图像作为视觉模块输入，输入图像

使用其中不同尺度的卷积神经网络(CNN)提取多维度视觉特征，不同维度特征表示为

其中H表示输入图像x高度，W表示输入图像x宽度，

表示特征图S_i的通道维度；

步骤3-2：语义模块将文本嵌入映射

作为输入引入文档语义，T₀与文档图像x具有相同的空间大小，

表示初始通道尺寸。文档页面的字符表示为

句子表示为

其中n和m分别是字符和句子的总数，c_k和

是第k个字符及其关联框，其中(x₀，y₀)和(x₁，y₁)是左上和右下像素坐标，同理可得s_k和

得到多维度文档语义特征W₁，W₂，W₃，...；

步骤3-3：将视觉特征S₁，S₂，S₃，...和语义特征W₁，W₂，W₃，...利用注意力机制连接起来，作为卷积层输入学习得到聚合视觉与语义的多模态特征MF_i。使用标准对象检测或分割模型Mask RCNN在文档中生成候选组件，使用图形神经网络(GNN)来建模组件关系，以及使用它来优化预测结果；

步骤3-4：计算两部分损失L(Θ)＝L_cls+λL_gen，语义标签的交叉熵损失作为分类损失L_cls，平滑L1损失作为坐标回归损失L_gen；

步骤3-5：反向传播，使用随机梯度下降法(SGD)对模型参数Θ进行优化；

步骤3-6：读取下一组序列的文档图像和文本嵌入信息，跳转步骤3-1，直至将训练集中的数据读取完；

步骤3-7：重复执行步骤3-1至3-6并持续对模型参数Θ进行优化，直至使L(Θ)下降到合理的数量级。

进一步优选的，所述步骤3-1包括：

通过Residual block模块不同大小的卷积核对文档图像高低维度特征进行提取，输出特征

计算公式如(1)(2)：

S₀＝x#(1)

H表示输入图像x高度，W表示输入图像x宽度，

表示特征图S_i的通道维度，f_i，j(·)表示Residual block(·)模块，c，l为超参数。

进一步优选的，所述步骤3-2包括：

使用两个映射函数以

和

为输入构造字符嵌入映射

和句子嵌入映射

计算公式如(3)(4)所示：

E_c(·)是一个单词嵌入层，E_s(·)采用预训练语言模型Bert，然后通过对Char和Sent之和应用LayerNormal(·)来得到文本嵌入映射W₀，计算公式如(5)所示：

W₀＝LayerNormal(Char+Sent)#(5)

进一步优选的，所述步骤3-3包括：

不同维度视觉特征和语义特征S_i和W_i作为注意力机制模块的输入，将两种模态特征连接起来并将其送入卷积层获得多模态特征MF_i，计算公式如(6)(7)所示：

Att_i＝MultiAtt([S_i，W_i])#(6)

MF_i＝Att_i⊙S_i+(1-Att_i)⊙W_i#(7)

其中[·，·]表示级联操作，MultiAtt(·)表示一个多头注意力模块，⊙表示元素对乘法(element-wise product)，通过聚合视觉和语义特征生成一组融合的多模态特征MF_i，然后使用图形神经网络(GNN)来建模组件关系。

文档表示为图的形式G＝(O，E)，其中O＝{o₁，o₂，...，o_n}表示点集，E表示边集，每个节点表示之前由对象检测模型生成的候选组件，每条边表示两个候选组件之间的关系，文档中不同的区域可能具有密切的依赖关系，因此所有区域都构成了邻居关系即文档图是一个完全连通的图，

每个节点表示为o_j＝(l_j，f_j)，包括位置坐标l_j和深度特征f_j＝RoIAlign(MF，l_j)，构造整合两种信息的新的节点特征表示z_j，计算公式如(8)所示：

其中

表示第j个节点的位置嵌入向量，同时对节点应用自注意力机制学习节点间的关系，更新后的节点特征为z′_j，对第j个节点的检测结果进行优化得到

计算公式如(9)(10)所示：

式中

为属于第c类的概率，

是其精确回归坐标，Linear_reg和Linear_cls是投影层，GNN对标记之间的成对关系进行建模，并预测它们的语义标签。

进一步优选的，所述步骤3-4中损失函数由两部分损失L_cls和L_gen组成，计算公式如(11)所示：

L(Θ)＝L_cls+λL_gen#(11)

语义标签的交叉熵损失作为分类损失L_cls，平滑L1损失作为坐标回归损失L_gen，λ为超参数。

本发明还提一种不规则排版***单据版面布局预测装置，包括处理器和存储器；所述存储器中存储有程序或指令，所述程序或指令由所述处理器加载并执行以实现所述的规则排版***单据版面布局预测方法。

本发明还提供一种计算机可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现所述的规则排版***单据版面布局预测方法。

有益效果

本发明是通过文档图像引入高低维度视觉，通过文本嵌入映射引入语义。利用关系特征聚合模块融合视觉和语义特征并基于图神经网络的对组件关系模块，最终本模型实现对不规则排版***单据布局分析预测。

(1)本发明提取了不规则排版***单据布中的视觉、语义两种不同模态的特征，并引入视觉上不同粒度特征所体现的宏观与微观视觉特征。

(2)本发明在关系特征聚合模块采用自注意力机制融合多模态特征，基于图神经网络对不规则排版***单据组件关系进行建模生成精确坐标和语义标签。

(3)本发明在损失函数中结合分类与生成误差，提高对不规则排版***单据布局分析预测的准确性。

附图说明

图1是本发明的预测模型的网络框架图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本实施例提供一种不规则排版***单据布局预测方法，基于图1所示的预测模型进行预测，预测方法的步骤包括：

步骤1：利用扫描仪或相机采集不规则排版单据信息；其中单据信息数据格式可以为pdf、jpg等，能够得到清晰的单据文字、空间信息；

步骤2：将采集到的不规则排版单据信息利用PPOCR进行标注，并将数据分为训练集和测试集；其中，一组数据包括文字标注信息、文字框选信息、图像信息；

步骤3：使用训练集训练得到版面布局预测模型：将文档图像和文本嵌入分别作为视觉模块和语义模块的输入，其中视觉模块使用不同规模卷积神经网络(CNN)主干提取高低维度视觉特征；语意模块采用Bert预训练语言模型利用文本嵌入映射(text embeddingmap)提取多尺度文档语义；通过关系特征聚合模块聚合不同形态特征即视觉和语义特征结合起来学习一个多模态特征图，最终得到语义标签和坐标；

步骤4：使用测试集测试版面布局预测模型的效果，根据测试效果调整模型的超参数，重复步骤3，直至获得理想的模型；

步骤5：通过预测模型预测不规则排版***单据语义标签从而得到其版面布局。

为了便于公众理解，下面通过一个优选实施例并结合附图来对本发明的技术方案进行详细说明。

步骤1中，利用扫描仪或相机采集不规则排版单据信息；其中单据信息数据格式可以为pdf、jpg等，能够得到清晰的单据文字、空间信息。

步骤2中，将采集到的不规则排版单据信息利用PPOCR(详情请见:https://github.com/PaddlePaddle/PaddleOCR)进行标注，并将数据分为训练集和测试集；其中，一组数据包括文字标注信息、文字框选信息、图像信息。

首先，将采集到的不规则排版单信息利用PPOCR获得COCO数据集格式的文本定位框及其相对应的字符级和句子级文本标注。

其次，统计条目数，按照8∶2的比例将数据集划分训练集与测试集。

最后，得到单据整体图像RGB信息后续便于训练转为灰度值。

步骤3：使用训练集数据训练优化预测模型。

将文档图像和文本嵌入分别作为视觉模块和语义模块的输入，其中视觉模块使用不同规模卷积神经网络(CNN)主干提取高低维度视觉特征；语意模块采用Bert预训练语言模型利用文本嵌入映射(text embedding map)提取多尺度文档语义；通过关系特征聚合模块聚合不同形态特征即视觉和语义特征结合起来学习一个多模态特征图；最终得到语义标签和坐标。模型的具体训练步骤如下：

步骤3-1：视觉模块使用不同尺度的卷积神经网络(CNN)提取训练集中文档图像的多维度视觉特征。

输入：训练集中文档图像

处理：卷积核对图像进行处理；

输出：不同维度特征

其中，H表示输入图像x的高度，W表示输入图像x的宽度，

表示特征图S_i的通道维度；

计算公式如(1)(2)：

S₀＝x (1)

其中，f_i，j(·)表示Residual block(·)模块；i＝1，2，...，l；c，l为超参数。

步骤3-2：语义模块处理文本嵌入映射获得多维度文档语义特征；

输入：文本嵌入映射

表示初始通道尺寸；

处理：利用一个单词嵌入层和预训练语言模型Bert，结合LayerNormal(·)；

输出：文本语义特征W_i；

语义模块将文本嵌入映射

作为输入引入文档语义，与文档图像x具有相同的空间大小。文档页面的字符表示为

句子表示为

其中n和m分别是字符和句子的总数；c_k和

是第k个字符及其关联框，其中(x₀，y₀)和(x₁，y₁)是左上和右下像素坐标；s_k和

是第k个句子及其关联框，得到多维度文档语义特征W₁，W₂，W₃，...；

使用两个映射函数以

和

为输入，构造字符嵌入映射

和句子嵌入映射

计算公式如(3)(4)所示：

其中，E_c(·)是一个单词嵌入层，E_s(·)采用预训练语言模型Bert，然后通过对Char和Sent之和应用LayerNormal(·)来得到文本语义特征W₀，计算公式如(5)所示：

W₀＝LayerNormal(Char+Sent) (5)

步骤3-3：将视觉特征S₁，S₂，S₃，...和语义特征W₁，W₂，W₃，...，利用注意力机制连接起来，作为卷积层输入学习得到聚合视觉与语义的多模态特征MF_i。使用标准对象检测或分割模型Mask RCNN在文档中生成候选组件，使用图形神经网络(GNN)来建模组件关系，以及使用它来优化预测结果：

Att_i＝MultiAtt([S_i，W_i]) (6)

MF_i＝Att_i⊙S_i+(1-Att_i)⊙W_i (7)

其中，[·，·]表示级联操作，MultiAtt(·)表示一个多头注意力模块，⊙表示元素对乘法(element-wise product)，通过聚合视觉和语义特征生成一组融合的多模态特征MF_i，然后使用图形神经网络(GNN)来建模组件关系。

其中，

计算公式如(9)(10)所示：

式中，

为属于第c类的概率，

步骤3-4：计算损失函数由两部分损失L_cls和L_gen组成，计算公式如(11)所示：

L(Θ)＝L_cls+λL_gen (11)

语义标签的交叉熵损失作为分类损失L_cls；平滑L1损失作为坐标回归损失L_gen，λ为超参数；

步骤3-5：反向传播，使用随机梯度下降法(SGD)对模型参数Θ进行优化，计算公式如(12)所示：

将测试集部署在版面布局测试模型上进行测试，检测模型的效果，并根据模型的效果调整超参数信息，如：学习率learning rate，字符和句子的总数n与m，步骤3-1中的c，l，步骤3-4中调节误差的λ等等。然后跳转到步骤3重新训练，直到模型能在测试集上取得满意的效果，通过本步骤可以得到最终的版面布局预测模型

得到该预测结果后，即可对此不规则排版***单据进行进一步深入分析。

本实施例提供一种不规则排版***单据版面布局预测装置，包括处理器和存储器；所述存储器中存储有程序或指令，所述程序或指令由所述处理器加载并执行以实现实施例中规则排版***单据版面布局预测方法。

本实施例提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行实施例中规则排版***单据版面布局预测方法。

本发明提供的不规则排版***单据布局预测方法、装置及存储介质，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。