CN115205877A - 一种不规则排版***单据布局预测方法、装置及存储介质 - Google Patents

一种不规则排版***单据布局预测方法、装置及存储介质 Download PDF

Info

Publication number
CN115205877A
CN115205877A CN202210669299.4A CN202210669299A CN115205877A CN 115205877 A CN115205877 A CN 115205877A CN 202210669299 A CN202210669299 A CN 202210669299A CN 115205877 A CN115205877 A CN 115205877A
Authority
CN
China
Prior art keywords
irregular
layout
document
typesetting
invoice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210669299.4A
Other languages
English (en)
Inventor
朱立平
易欣
徐倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Customs Of People's Republic Of China
Original Assignee
Nanjing Customs Of People's Republic Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Customs Of People's Republic Of China filed Critical Nanjing Customs Of People's Republic Of China
Priority to CN202210669299.4A priority Critical patent/CN115205877A/zh
Publication of CN115205877A publication Critical patent/CN115205877A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种不规则排版***单据版面布局预测方法、预测装置及存储介质,不规则排版***单据版面布局预测方法包括:利用扫描仪或相机采集不规则排版单据信息;将采集到的不规则排版单据信息进行标注并将已标注数据划分为训练集与测试集;使用训练集训练得到版面布局预测模型;使用测试集测试版面布局预测模型的效果,根据测试效果调整模型的超参数,直至获得理想的模型通过预测模型预测不规则排版***单据版面布局。本发明优点在于结合不规则排版***单据的高维视觉特征、低维视觉随机变化和语义特征对其进行版面布局预测,弥补了传统版面分析语义信息少、视觉语义融合简单的问题,提高了对布局不规则***版面分析的精度。

Description

一种不规则排版***单据布局预测方法、装置及存储介质
技术领域
本发明属于机器学习技术领域,尤其涉及一种用于不规则排版***单据布局分析预测方法。
背景技术
单据是财务报表、科学文献、采购清单等许多真实文档中信息丰富的数据格式之一。除了文本内容外,表格结构对于人们进行关键信息提取至关重要。不仅如此,文档布局分析是自动理解文档的关键步骤,支持许多重要应用,如文档检索、数字化和编辑。它的目标是识别非结构化文档中感兴趣的区域,并识别每个区域的作用。因此,单据结构识别成为当前文档理解***中的重要技术之一。然而***单据文档布局的多样性和复杂性,使得对不规则排版***单据布局分析这项任务具有挑战性。
最近的研究者们只单单地从视觉特征,或语义特征方面考虑,忽视结合来自这两种模式的信息可以帮助更好地识别文件布局尤其是对于不规则排版的***单据。因为某些结构化的区域,如图形、表格等可以通过宏观的视觉特征轻松识别,而对于某些视觉上相似的区域,如摘要和段落等语义特征又显得至关重要。因此,最近的一些研究试图将这两种模式结合起来。
基于自然语言处理(NLP)的方法将布局分析建模为序列标记任务,并应用自底向上策略。他们首先将文本序列化为一维标记序列。然后使用每个标记的语义和视觉特征(如坐标和图像嵌入),它们通过序列标记模型顺序确定标记标签。然而,基于NLP的方法在布局建模方面表现出不足。
基于计算机视觉(CV)的方法将布局分析建模为对象检测或分割任务,并应用自上而下的策略。他们首先通过卷积神经网络提取视觉特征,并通过文本嵌入映射引入句子级或字符级语义特征,这些映射直接连接起来作为文档的表示。然后,使用检测或分割模型生成布局组件的坐标和语义标签。与基于NLP的方法相比,基于CV的方法可以更好地捕获空间信息,
发明内容
本发明提供了一种提高对于不规则排版***单据布局分析的预测精度获得精确坐标和语义标签的不规则排版***单据布局预测方法、装置及存储介质。
为达到上述技术目的,本发明采用以下技术方案:
一种不规则排版***单据版面布局分析方法,其特征在于,包括:
步骤1:采集不规则排版单据信息;
步骤2:对采集到的不规则排版单据信息进行标注,并将标注的数据分为训练集和测试集;其中,标注的每组数据包括文字标注信息、文字框选信息及图像信息;
步骤3:使用训练集训练得到版面布局预测模型:将文档图像和文本嵌入分别作为视觉模块和语义模块的输入,其中视觉模块使用不同规模卷积神经网络主干提取高低维度视觉特征;语意模块提取多尺度文档语义特征;通过关系特征聚合模块,将视觉特征和语义特征结合起来学习一个多模态特征图,得到语义标签和坐标;
步骤4:使用测试集测试版面布局预测模型的效果,根据测试效果调整版面布局预测模型的超参数,重复步骤3,直至获得满足测试效果的版面布局预测模型;
步骤5:通过版面布局预测模型预测不规则排版***单据语义标签从而得到对应的版面布局。
优选的,所述所述步骤2中不规则单据信息标注包括文档RGB图像、文本定位与标注包括字符级和句子级。
优选的,所述步骤3内容如下:
步骤3-1:训练集中文档图像作为视觉模块输入,输入图像
Figure BDA0003692650010000026
使用其中不同尺度的卷积神经网络(CNN)提取多维度视觉特征,不同维度特征表示为
Figure BDA0003692650010000022
其中H表示输入图像x高度,W表示输入图像x宽度,
Figure BDA0003692650010000023
表示特征图Si的通道维度;
步骤3-2:语义模块将文本嵌入映射
Figure BDA0003692650010000024
作为输入引入文档语义,T0与文档图像x具有相同的空间大小,
Figure BDA0003692650010000025
表示初始通道尺寸。文档页面的字符表示为
Figure BDA0003692650010000031
句子表示为
Figure BDA0003692650010000032
其中n和m分别是字符和句子的总数,ck
Figure BDA0003692650010000033
是第k个字符及其关联框,其中(x0,y0)和(x1,y1)是左上和右下像素坐标,同理可得sk
Figure BDA0003692650010000034
得到多维度文档语义特征W1,W2,W3,...;
步骤3-3:将视觉特征S1,S2,S3,...和语义特征W1,W2,W3,...利用注意力机制连接起来,作为卷积层输入学习得到聚合视觉与语义的多模态特征MFi。使用标准对象检测或分割模型Mask RCNN在文档中生成候选组件,使用图形神经网络(GNN)来建模组件关系,以及使用它来优化预测结果;
步骤3-4:计算两部分损失L(Θ)=Lcls+λLgen,语义标签的交叉熵损失作为分类损失Lcls,平滑L1损失作为坐标回归损失Lgen
步骤3-5:反向传播,使用随机梯度下降法(SGD)对模型参数Θ进行优化;
步骤3-6:读取下一组序列的文档图像和文本嵌入信息,跳转步骤3-1,直至将训练集中的数据读取完;
步骤3-7:重复执行步骤3-1至3-6并持续对模型参数Θ进行优化,直至使L(Θ)下降到合理的数量级。
进一步优选的,所述步骤3-1包括:
通过Residual block模块不同大小的卷积核对文档图像高低维度特征进行提取,输出特征
Figure BDA0003692650010000035
计算公式如(1)(2):
S0=x#(1)
Figure BDA0003692650010000036
H表示输入图像x高度,W表示输入图像x宽度,
Figure BDA0003692650010000037
表示特征图Si的通道维度,fi,j(·)表示Residual block(·)模块,c,l为超参数。
进一步优选的,所述步骤3-2包括:
使用两个映射函数以
Figure BDA0003692650010000038
Figure BDA0003692650010000039
为输入构造字符嵌入映射
Figure BDA00036926500100000310
和句子嵌入映射
Figure BDA00036926500100000311
计算公式如(3)(4)所示:
Figure BDA0003692650010000041
Figure BDA0003692650010000042
Ec(·)是一个单词嵌入层,Es(·)采用预训练语言模型Bert,然后通过对Char和Sent之和应用LayerNormal(·)来得到文本嵌入映射W0,计算公式如(5)所示:
W0=LayerNormal(Char+Sent)#(5)
进一步优选的,所述步骤3-3包括:
不同维度视觉特征和语义特征Si和Wi作为注意力机制模块的输入,将两种模态特征连接起来并将其送入卷积层获得多模态特征MFi,计算公式如(6)(7)所示:
Atti=MultiAtt([Si,Wi])#(6)
MFi=Atti⊙Si+(1-Atti)⊙Wi#(7)
其中[·,·]表示级联操作,MultiAtt(·)表示一个多头注意力模块,⊙表示元素对乘法(element-wise product),通过聚合视觉和语义特征生成一组融合的多模态特征MFi,然后使用图形神经网络(GNN)来建模组件关系。
文档表示为图的形式G=(O,E),其中O={o1,o2,...,on}表示点集,E表示边集,每个节点表示之前由对象检测模型生成的候选组件,每条边表示两个候选组件之间的关系,文档中不同的区域可能具有密切的依赖关系,因此所有区域都构成了邻居关系即文档图是一个完全连通的图,
Figure BDA0003692650010000043
每个节点表示为oj=(lj,fj),包括位置坐标lj和深度特征fj=RoIAlign(MF,lj),构造整合两种信息的新的节点特征表示zj,计算公式如(8)所示:
Figure BDA0003692650010000044
其中
Figure BDA0003692650010000045
表示第j个节点的位置嵌入向量,同时对节点应用自注意力机制学习节点间的关系,更新后的节点特征为z′j,对第j个节点的检测结果进行优化得到
Figure BDA0003692650010000046
计算公式如(9)(10)所示:
Figure BDA0003692650010000047
Figure BDA0003692650010000051
式中
Figure BDA0003692650010000052
为属于第c类的概率,
Figure BDA0003692650010000053
是其精确回归坐标,Linearreg和Linearcls是投影层,GNN对标记之间的成对关系进行建模,并预测它们的语义标签。
进一步优选的,所述步骤3-4中损失函数由两部分损失Lcls和Lgen组成,计算公式如(11)所示:
L(Θ)=Lcls+λLgen#(11)
语义标签的交叉熵损失作为分类损失Lcls,平滑L1损失作为坐标回归损失Lgen,λ为超参数。
本发明还提一种不规则排版***单据版面布局预测装置,包括处理器和存储器;所述存储器中存储有程序或指令,所述程序或指令由所述处理器加载并执行以实现所述的规则排版***单据版面布局预测方法。
本发明还提供一种计算机可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现所述的规则排版***单据版面布局预测方法。
有益效果
本发明是通过文档图像引入高低维度视觉,通过文本嵌入映射引入语义。利用关系特征聚合模块融合视觉和语义特征并基于图神经网络的对组件关系模块,最终本模型实现对不规则排版***单据布局分析预测。
(1)本发明提取了不规则排版***单据布中的视觉、语义两种不同模态的特征,并引入视觉上不同粒度特征所体现的宏观与微观视觉特征。
(2)本发明在关系特征聚合模块采用自注意力机制融合多模态特征,基于图神经网络对不规则排版***单据组件关系进行建模生成精确坐标和语义标签。
(3)本发明在损失函数中结合分类与生成误差,提高对不规则排版***单据布局分析预测的准确性。
附图说明
图1是本发明的预测模型的网络框架图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本实施例提供一种不规则排版***单据布局预测方法,基于图1所示的预测模型进行预测,预测方法的步骤包括:
步骤1:利用扫描仪或相机采集不规则排版单据信息;其中单据信息数据格式可以为pdf、jpg等,能够得到清晰的单据文字、空间信息;
步骤2:将采集到的不规则排版单据信息利用PPOCR进行标注,并将数据分为训练集和测试集;其中,一组数据包括文字标注信息、文字框选信息、图像信息;
步骤3:使用训练集训练得到版面布局预测模型:将文档图像和文本嵌入分别作为视觉模块和语义模块的输入,其中视觉模块使用不同规模卷积神经网络(CNN)主干提取高低维度视觉特征;语意模块采用Bert预训练语言模型利用文本嵌入映射(text embeddingmap)提取多尺度文档语义;通过关系特征聚合模块聚合不同形态特征即视觉和语义特征结合起来学习一个多模态特征图,最终得到语义标签和坐标;
步骤4:使用测试集测试版面布局预测模型的效果,根据测试效果调整模型的超参数,重复步骤3,直至获得理想的模型;
步骤5:通过预测模型预测不规则排版***单据语义标签从而得到其版面布局。
为了便于公众理解,下面通过一个优选实施例并结合附图来对本发明的技术方案进行详细说明。
步骤1中,利用扫描仪或相机采集不规则排版单据信息;其中单据信息数据格式可以为pdf、jpg等,能够得到清晰的单据文字、空间信息。
步骤2中,将采集到的不规则排版单据信息利用PPOCR(详情请见:https://github.com/PaddlePaddle/PaddleOCR)进行标注,并将数据分为训练集和测试集;其中,一组数据包括文字标注信息、文字框选信息、图像信息。
首先,将采集到的不规则排版单信息利用PPOCR获得COCO数据集格式的文本定位框及其相对应的字符级和句子级文本标注。
其次,统计条目数,按照8∶2的比例将数据集划分训练集与测试集。
最后,得到单据整体图像RGB信息后续便于训练转为灰度值。
步骤3:使用训练集数据训练优化预测模型。
将文档图像和文本嵌入分别作为视觉模块和语义模块的输入,其中视觉模块使用不同规模卷积神经网络(CNN)主干提取高低维度视觉特征;语意模块采用Bert预训练语言模型利用文本嵌入映射(text embedding map)提取多尺度文档语义;通过关系特征聚合模块聚合不同形态特征即视觉和语义特征结合起来学习一个多模态特征图;最终得到语义标签和坐标。模型的具体训练步骤如下:
步骤3-1:视觉模块使用不同尺度的卷积神经网络(CNN)提取训练集中文档图像的多维度视觉特征。
输入:训练集中文档图像
Figure BDA0003692650010000071
处理:卷积核对图像进行处理;
输出:不同维度特征
Figure BDA0003692650010000072
其中,H表示输入图像x的高度,W表示输入图像x的宽度,
Figure BDA0003692650010000073
表示特征图Si的通道维度;
通过Residual block模块不同大小的卷积核对文档图像高低维度特征进行提取,输出特征
Figure BDA0003692650010000074
计算公式如(1)(2):
S0=x (1)
Figure BDA0003692650010000075
其中,fi,j(·)表示Residual block(·)模块;i=1,2,...,l;c,l为超参数。
步骤3-2:语义模块处理文本嵌入映射获得多维度文档语义特征;
输入:文本嵌入映射
Figure BDA0003692650010000076
表示初始通道尺寸;
处理:利用一个单词嵌入层和预训练语言模型Bert,结合LayerNormal(·);
输出:文本语义特征Wi
语义模块将文本嵌入映射
Figure BDA0003692650010000081
作为输入引入文档语义,与文档图像x具有相同的空间大小。文档页面的字符表示为
Figure BDA0003692650010000082
句子表示为
Figure BDA0003692650010000083
其中n和m分别是字符和句子的总数;ck
Figure BDA0003692650010000084
是第k个字符及其关联框,其中(x0,y0)和(x1,y1)是左上和右下像素坐标;sk
Figure BDA0003692650010000085
是第k个句子及其关联框,得到多维度文档语义特征W1,W2,W3,...;
使用两个映射函数以
Figure BDA0003692650010000086
Figure BDA0003692650010000087
为输入,构造字符嵌入映射
Figure BDA0003692650010000088
和句子嵌入映射
Figure BDA0003692650010000089
计算公式如(3)(4)所示:
Figure BDA00036926500100000810
Figure BDA00036926500100000811
其中,Ec(·)是一个单词嵌入层,Es(·)采用预训练语言模型Bert,然后通过对Char和Sent之和应用LayerNormal(·)来得到文本语义特征W0,计算公式如(5)所示:
W0=LayerNormal(Char+Sent) (5)
步骤3-3:将视觉特征S1,S2,S3,...和语义特征W1,W2,W3,...,利用注意力机制连接起来,作为卷积层输入学习得到聚合视觉与语义的多模态特征MFi。使用标准对象检测或分割模型Mask RCNN在文档中生成候选组件,使用图形神经网络(GNN)来建模组件关系,以及使用它来优化预测结果:
不同维度视觉特征和语义特征Si和Wi作为注意力机制模块的输入,将两种模态特征连接起来并将其送入卷积层获得多模态特征MFi,计算公式如(6)(7)所示:
Atti=MultiAtt([Si,Wi]) (6)
MFi=Atti⊙Si+(1-Atti)⊙Wi (7)
其中,[·,·]表示级联操作,MultiAtt(·)表示一个多头注意力模块,⊙表示元素对乘法(element-wise product),通过聚合视觉和语义特征生成一组融合的多模态特征MFi,然后使用图形神经网络(GNN)来建模组件关系。
文档表示为图的形式G=(O,E),其中O={o1,o2,...,on}表示点集,E表示边集,每个节点表示之前由对象检测模型生成的候选组件,每条边表示两个候选组件之间的关系,文档中不同的区域可能具有密切的依赖关系,因此所有区域都构成了邻居关系即文档图是一个完全连通的图,
Figure BDA0003692650010000091
每个节点表示为oj=(lj,fj),包括位置坐标lj和深度特征fj=RoIAlign(MF,lj),构造整合两种信息的新的节点特征表示zj,计算公式如(8)所示:
Figure BDA0003692650010000092
其中,
Figure BDA0003692650010000093
表示第j个节点的位置嵌入向量,同时对节点应用自注意力机制学习节点间的关系,更新后的节点特征为z′j,对第j个节点的检测结果进行优化得到
Figure BDA0003692650010000094
计算公式如(9)(10)所示:
Figure BDA0003692650010000095
Figure BDA0003692650010000096
式中,
Figure BDA0003692650010000097
为属于第c类的概率,
Figure BDA0003692650010000098
是其精确回归坐标,Linearreg和Linearcls是投影层,GNN对标记之间的成对关系进行建模,并预测它们的语义标签。
步骤3-4:计算损失函数由两部分损失Lcls和Lgen组成,计算公式如(11)所示:
L(Θ)=Lcls+λLgen (11)
语义标签的交叉熵损失作为分类损失Lcls;平滑L1损失作为坐标回归损失Lgen,λ为超参数;
步骤3-5:反向传播,使用随机梯度下降法(SGD)对模型参数Θ进行优化,计算公式如(12)所示:
Figure BDA0003692650010000099
步骤3-6:读取下一组序列的文档图像和文本嵌入信息,跳转步骤3-1,直至将训练集中的数据读取完;
步骤3-7:重复执行步骤3-1至3-6并持续对模型参数Θ进行优化,直至使L(Θ)下降到合理的数量级。
步骤4:使用测试集测试版面布局预测模型的效果,根据测试效果调整模型的超参数,重复步骤3,直至获得理想的模型;
将测试集部署在版面布局测试模型上进行测试,检测模型的效果,并根据模型的效果调整超参数信息,如:学习率learning rate,字符和句子的总数n与m,步骤3-1中的c,l,步骤3-4中调节误差的λ等等。然后跳转到步骤3重新训练,直到模型能在测试集上取得满意的效果,通过本步骤可以得到最终的版面布局预测模型
步骤5:通过预测模型预测不规则排版***单据语义标签从而得到其版面布局。
得到该预测结果后,即可对此不规则排版***单据进行进一步深入分析。
本实施例提供一种不规则排版***单据版面布局预测装置,包括处理器和存储器;所述存储器中存储有程序或指令,所述程序或指令由所述处理器加载并执行以实现实施例中规则排版***单据版面布局预测方法。
本实施例提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行实施例中规则排版***单据版面布局预测方法。
本发明提供的不规则排版***单据布局预测方法、装置及存储介质,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (8)

1.一种不规则排版***单据版面布局预测方法,其特征在于,包括:
步骤1:采集不规则排版单据信息;
步骤2:对采集到的不规则排版单据信息进行标注,并将标注的数据分为训练集和测试集;其中,标注的每组数据包括文字标注信息、文字框选信息及图像信息;
步骤3:使用训练集训练得到版面布局预测模型:将文档图像和文本嵌入分别作为视觉模块和语义模块的输入,其中视觉模块使用不同规模卷积神经网络主干提取高低维度视觉特征;语意模块提取多尺度文档语义特征;通过关系特征聚合模块,将视觉特征和语义特征结合起来学习一个多模态特征图,得到语义标签和坐标;
步骤4:使用测试集测试版面布局预测模型的效果,根据测试效果调整版面布局预测模型的超参数,重复步骤3,直至获得满足测试效果的版面布局预测模型;
步骤5:通过版面布局预测模型预测不规则排版***单据语义标签从而得到对应的版面布局。
2.根据权利要求1所述的不规则排版***单据布局预测方法,其特征在于,所述步骤2中不规则单据信息标注包括文档RGB图像、文本定位与标注包括字符级和句子级。
3.根据权利要求1所述的不规则排版***单据布局预测方法,其特征在于,所述步骤3,包括:
步骤3-1:训练集中文档图像作为视觉模块输入,输入图像
Figure FDA0003692649000000011
使用其中不同尺度的卷积神经网络提取多维度视觉特征,不同维度特征表示为S1,S2,S3,...Si...,
Figure FDA0003692649000000012
其中,i表示第i维度,H表示输入图像x高度,W表示输入图像x宽度,
Figure FDA0003692649000000013
表示特征图Si的通道维度,且S0=x;
步骤3-2:语义模块将文本嵌入映射
Figure FDA0003692649000000014
作为输入引入文档语义,T0与文档图像x具有相同的空间大小,
Figure FDA0003692649000000015
表示初始通道尺寸;
文档页面的字符表示为
Figure FDA0003692649000000021
句子表示为
Figure FDA0003692649000000022
其中n和m分别是字符和句子的总数;ck
Figure FDA0003692649000000023
是第k个字符及其关联框,其中(x0,y0)和(x1,y1)是左上和右下像素坐标;sk
Figure FDA0003692649000000024
是第k个句子及其关联框,由卷积神经网络中的ConvNet得到多维度文档语义特征W1,W2,W3,...Wi...;
步骤3-3:将视觉特征S1,S2,S3,...和语义特征W1,W2,W3,...,利用注意力机制连接起来,作为卷积层输入学习得到聚合视觉与语义的多模态特征MFi;使用标准对象检测或分割模型Mask RCNN在文档中生成候选组件;使用图形神经网络来建模组件关系以及优化预测结果;
步骤3-4:计算两部分损失L(Θ)=Lcls+λLgen,语义标签的交叉熵损失作为分类损失Lcls,平滑L1损失作为坐标回归损失Lgen
步骤3-5:反向传播,使用随机梯度下降法对模型参数Θ进行优化;
步骤3-6:读取下一组序列的文档图像和文本嵌入信息,跳转步骤3-1,直至将训练集中的数据读取完;
步骤3-7:重复执行步骤3-1至3-6并持续对模型参数Θ进行优化,直至使L(Θ)下降到设定的数量级。
4.根据权利要求3所述的不规则排版***单据布局预测方法,其特征在于,所述步骤3-1,包括:
通过Residual block模块不同大小的卷积核对文档图像高低维度特征进行提取,输出特征S1,S2,S3,...Si...,计算公式如(1)(2):
S0=x (1)
Figure FDA0003692649000000025
其中,fi,j(·)表示Residual block(·)模块;i=1,2,...,l;c,l为超参数。
5.根据权利要求3所述的不规则排版***单据布局预测方法,其特征在于,所述步骤3-2,包括:
使用两个映射函数以
Figure FDA0003692649000000031
Figure FDA0003692649000000032
为输入构造字符嵌入映射
Figure FDA0003692649000000033
和句子嵌入映射
Figure FDA0003692649000000034
计算公式如(3)(4)所示:
Figure FDA0003692649000000035
Figure FDA0003692649000000036
其中,Ec(·)是一个单词嵌入层,Es(·)采用预训练语言模型Bert;
根据Char和Sent,得到文本嵌入映射,计算公式如(5)所示:
W0=LayerNormal(Char+Sent) (5)
Figure FDA0003692649000000037
其中,LayerNormal(·)为映射函数。
6.根据权利要求3所述的不规则排版***单据布局预测方法,其特征在于,所述步骤3-3,包括:
不同维度视觉特征Si和语义特征和Wi作为注意力机制模块的输入,将两种模态特征连接起来并将其送入卷积层获得多模态特征MFi,计算公式如(6)(7)所示:
Atti=MultiAtt([Si,Wi]) (6)
MFi=Atti⊙Si+(1-Atti)⊙Wi (7)
其中,[·,·]表示级联操作,MultiAtt(·)表示一个多头注意力模块,⊙表示元素对乘法;
通过聚合视觉和语义特征生成一组融合的多模态特征MFi;然后使用图形神经网络来建模组件关系;
文档表示为图的形式G=(O,E),其中O={o1,o2,...,on}表示点集,E表示边集,每个节点表示之前由对象检测模型生成的候选组件,每条边表示两个候选组件之间的关系,
Figure FDA0003692649000000038
每个节点表示为oj=(lj,fj),包括位置坐标lj和深度特征fj=RoIAlign(MF,lj),构造整合两种信息的新的节点特征表示zj,计算公式如(8)所示:
Figure FDA0003692649000000041
其中,
Figure FDA0003692649000000042
表示第j个节点的位置嵌入向量;
对节点应用自注意力机制学习节点间的关系,更新后的节点特征为z′j,对第j个节点的检测结果进行优化得到
Figure FDA0003692649000000043
计算公式如(9)(10)所示:
Figure FDA0003692649000000044
Figure FDA0003692649000000045
式中,
Figure FDA0003692649000000046
为属于第c类的概率,
Figure FDA0003692649000000047
是其精确回归坐标,Linearreg和Linearcls是投影层,GNN对标记之间的成对关系进行建模,并预测它们的语义标签。
7.一种不规则排版***单据版面布局预测装置,包括处理器和存储器;所述存储器中存储有程序或指令,所述程序或指令由所述处理器加载并执行以实现如权利要求1至6任一所述的规则排版***单据版面布局预测方法。
8.一种计算机可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至6任一项所述的规则排版***单据版面布局预测方法。
CN202210669299.4A 2022-06-14 2022-06-14 一种不规则排版***单据布局预测方法、装置及存储介质 Pending CN115205877A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210669299.4A CN115205877A (zh) 2022-06-14 2022-06-14 一种不规则排版***单据布局预测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210669299.4A CN115205877A (zh) 2022-06-14 2022-06-14 一种不规则排版***单据布局预测方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115205877A true CN115205877A (zh) 2022-10-18

Family

ID=83576963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210669299.4A Pending CN115205877A (zh) 2022-06-14 2022-06-14 一种不规则排版***单据布局预测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115205877A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117669493A (zh) * 2023-12-08 2024-03-08 安徽省医学情报研究所 基于显著性检测的智能图文排版方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117669493A (zh) * 2023-12-08 2024-03-08 安徽省医学情报研究所 基于显著性检测的智能图文排版方法及***

Similar Documents

Publication Publication Date Title
CN109086756B (zh) 一种基于深度神经网络的文本检测分析方法、装置及设备
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
CN108804530B (zh) 对图像的区域加字幕
Siddiqui et al. Rethinking semantic segmentation for table structure recognition in documents
RU2695489C1 (ru) Идентификация полей на изображении с использованием искусственного интеллекта
CN105718952A (zh) 使用深度学习网络对断层医学影像进行病灶分类的方法
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和***
Younis et al. Detection and annotation of plant organs from digitised herbarium scans using deep learning
CN113936195B (zh) 敏感图像识别模型的训练方法、训练装置和电子设备
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及***
Li et al. Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes
CN110532950A (zh) 基于微表***的视频特征提取方法、微表情识别方法
CN109034213A (zh) 基于相关熵原则的高光谱图像分类方法和***
CN115205877A (zh) 一种不规则排版***单据布局预测方法、装置及存储介质
Sunitha et al. Novel content based medical image retrieval based on BoVW classification method
CN113642602A (zh) 一种基于全局与局部标签关系的多标签图像分类方法
Zhang et al. All-content text recognition method for financial ticket images
Rakowski et al. Hand shape recognition using very deep convolutional neural networks
Bakhtiarnia et al. PromptMix: Text-to-image diffusion models enhance the performance of lightweight networks
Sengottuvelan et al. Object classification using substance based neural network
Park et al. Optical character recognition system using BP algorithm
Kumar et al. Image classification in python using Keras
Liu et al. Table detection method based on feature pyramid network with faster R-CNN
CN109241990A (zh) 一种基于多标签传播的三维模型标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination