CN116822634A - 一种基于布局感知提示的文档视觉语言推理方法 - Google Patents
一种基于布局感知提示的文档视觉语言推理方法 Download PDFInfo
- Publication number
- CN116822634A CN116822634A CN202310817907.6A CN202310817907A CN116822634A CN 116822634 A CN116822634 A CN 116822634A CN 202310817907 A CN202310817907 A CN 202310817907A CN 116822634 A CN116822634 A CN 116822634A
- Authority
- CN
- China
- Prior art keywords
- layout
- document
- sample
- visual
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000008447 perception Effects 0.000 title claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 61
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000012015 optical character recognition Methods 0.000 claims description 31
- 238000013461 design Methods 0.000 claims description 26
- 238000013507 mapping Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 21
- 238000012549 training Methods 0.000 description 46
- 238000002474 experimental method Methods 0.000 description 8
- 238000010200 validation analysis Methods 0.000 description 6
- 239000003086 colorant Substances 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- DGUVEDGWGJXFCX-METZQCMUSA-N N-Acetylneuraminlactose sulfate Chemical compound O1[C@@H]([C@H](O)[C@H](O)CO)[C@H](NC(=O)C)[C@@H](O)C[C@@]1(C(O)=O)O[C@@H]1[C@@H](O)[C@H](O[C@H]2[C@@H]([C@@H](O)C(O)O[C@@H]2CO)O)O[C@H](COS(O)(=O)=O)[C@@H]1O DGUVEDGWGJXFCX-METZQCMUSA-N 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- 241000220225 Malus Species 0.000 description 2
- 235000021016 apples Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/045—Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于布局感知提示的文档视觉语言推理方法,该方法利用大型语言模型进行视觉信息丰富的文档推理,将文档图像的文本信息与视觉信息集成的提示,通过提示学习引入布局信息,引导大型语言模型能够理解问题中的文本与视觉内容之间的关系,并使用该信息改善上下文学习生成答案,让单模态大语言模型也能处理多模态文档视觉问答任务,帮助大型语言模型在少样本学习上达到理想的效果,并在3种不同的文档视觉问答数据集测试方法的泛化性。
Description
技术领域
本发明属于跨模态理解与提示学习中的文档理解领域,具体涉及一种基于布局感知提示的文档视觉语言推理方法,用于研究现有大语言模型GPT-3在提示学习的引导下解决文档视觉语言多模态推理任务,以及在少样本情况下,对于如何利用上下文示例学习推理过程,以及分析现有的文档预训练模型在训练样本处于少样本时鲁棒能力的脆弱性。
背景技术
文档对人类来说是必不可少的,因为它们已被用来存储历史上的知识和信息。出于这个原因,人们在提高机器对文档的理解方面进行了大量的研究工作。文档分析与识别的研究领域旨在自动提取纸上呈现的信息,最初是针对人类理解的。视觉问答(VQA)是一种多模态深度学习,用于回答有关图像的基于文本的问题。有一组基于各种应用场景定义的视觉问答任务,包括统计图表、日常生活照片和数字出生文档。在这些视觉问答任务中,旨在从文档中提取信息并回答自然语言问题的文档视觉问答(Document Visual QuestionAnswering)更具挑战性。给定输入图像和相关的自然语言问题,文档视觉问答任务旨在提供自然语言答案。近年来,文档视觉问答已成为跨越计算机视觉、自然语言理解和人工智能的重要问题。许多关于文档分析与识别的预训练技术被提出,并被证明对各种文档是有效的。
尽管这些模型取得了令人鼓舞的结果,但该范围内的研究仅限于在词识别中通过词汇内容检索文档,对语义视而不见,忽略了提取更高层次的任务来自这些集合的信息。另一方面,在过去的几年中,视觉问答(VQA)作为视觉和语言之间的联系一直是主要的相关任务之一。
为了准确识别关键的文本字段,不可避免地要利用视觉丰富的文档的跨模态特性,其中文本、视觉和布局信息应该联合建模并端到端地学习一个单一的框架。通过预训练-微调的方式,预训练模型吸收了来自不同文档类型的跨模态知识,其中保留了这些布局和样式之间的局部不变性。但是,当模型需要转移到具有不同文档格式的另一个领域时,是否能要求模型只需几个标记样本就足以达到最先进的准确性。
为了回答上述关于文档图像少样本情况下模型能力的鲁棒估计的问题,研究了一种提示学习的文档图像方法,即Layout-Aware Prompting。为了设计Layout-AwarePrompting,坚持以下设计标准:(1)训练数据存在少样本情况下会导致预训练模型性能的大幅下降;(2)文本信息与布局信息的映射关系揭示大语言模型不能很好理解二者之间的关系;(3)采用的数据集应该是可解决的、易于扩展的和人类可读的。
综上所述,本发明提出了一种基于布局感知提示的文档视觉语言推理方法,旨在解决文档的视觉语言多模态推理任务,并提出了一种基于上下文示例的学习方法,用于在少样本情况下学习推理过程。该方法可以提高模型在多模态推理任务中的表现,具有广泛的应用前景,可以应用于自然语言处理、计算机视觉、机器学习等领域。基于少样本文档图像的提示学习方法从以下三方面展开:1)开发了一种名为Layout-Aware Prompting的提示学习方法,用于引导大语言模型GPT-3进行视觉语言推理任务;2)Layout-Aware Prompting将文档图像的视觉信息转化为文本信息,并将设计出文本信息与视觉信息之间的映射关系,使GPT-3能更好地理解数据所传达的信息,涵盖了3种文档视觉问答数据集;3)评估了视觉文档图像理解预训练模型,
发明内容
本发明的发明目的在于:用于研究与现有的文档预训练模型不同的处理方式,在提示学习的帮助下,引导大语言模型通过上下文学习解决视语言推理任务,二者在少样本的数据情况下所表现出的鲁棒性。
本发明是一种基于布局感知提示的文档视觉语言推理方法,命名为Layout-AwarePrompting,它能够帮助大型语言模型进行视觉信息丰富的文档推理。Layout-AwarePrompting是一种将文档图像的文本信息与视觉信息集成的提示(prompting),引导大语言模型能够理解问题中的文本与视觉信息之间的关系,并使用该提示信息改善上下文学习生成答案。帮助大型语言模型在少样本学习(few-shot)上能超过现有的文档预训练模型,并在3种不同的文档视觉问答数据集测试方法的泛化性。
所述文档视觉问答数据集分别是DocVQA(文档视觉问答)、InfographicVQA(信息图像视觉问答)和VisualMRC(视觉机器阅读理解),它们都与回答有关视觉内容的问题有关。然而,它们之间有一些重要的区别:
(1)DocVQA:DocVQA是典型的VQA风格的任务,其中自然语言问题被定义在单页文档上,并且需要通过解释文档图像来生成答案。不会给出预定义响应的列表,因此该问题不能被容易地视为n路分类任务。专注于回答有关文档的问题,例如PDF文件或文本扫描图像。这些问题通常是关于文档内容的,例如“作者的名字是什么?”或“第二段的大意是什么?”DocVQA***通常使用文本识别和布局分析从文档中提取相关信息并回答问题。原始的DocVQA数据由10,194/1,286/1,287张图像组成,分别包含39,463/5,349/5,188个用于训练/验证/测试的问题;
(2)InfographicVQA:InfographicVQA类似于DocVQA,但侧重于回答有关信息图形的问题,信息图形是信息、数据或知识的可视化表示。这些问题通常与信息图的内容有关,例如“喜欢苹果而不喜欢橘子的人的百分比是多少?”InfographicVQA***通常使用计算机视觉技术来分析信息图的视觉元素并提取相关信息。原始的InfographicVQA数据由4,406/500/579张图像组成,分别包含23,946/2,801/3,288个用于训练/验证/测试的问题;
(3)VisualMRC:VisualMRC是一项更一般的任务,涉及回答任何类型的视觉内容的问题,包括照片、图像和视频。这些问题可以是关于视觉内容中可见的任何内容,例如“图片中的汽车是什么颜色?”或“人群中有多少人?”VisualMRC***通常使用计算机视觉和自然语言处理技术的组合来分析视觉内容并回答问题。原始的VisualMRC数据由9,574/956/2,237张图像组成,分别包含21,015/2,839/6,708个用于训练/验证/测试的问题;
总之,DocVQA和InfographicVQA是更具体的VisualMRC类型,分别侧重于回答有关文档和信息图形的问题,而VisualMRC是一个更一般的任务,可以应用于任何类型的可视内容。
所述视觉语言推理任务文档视觉问题回答侧重于一种特定类型的视觉问题回答任务,其中视觉理解文档图像上的信息是提供答案所必需的。这不仅仅是通过光学字符识别(OCR)传递文档图像,还包括理解文档所传达的所有类型的信息。文档视觉问题是指在文档设计和排版过程中所涉及的视觉元素和设计问题。这些问题可能包括以下几个方面:
(1)布局和排版:这包括如何组织文档中的内容、选择字体和字号、排列段落和标题等。良好的布局和排版可以帮助读者更容易地理解和吸收文档的内容。
(2)图像和图表:文档中的图像和图表应该被用来支持文本内容,并能够清晰地传达信息。设计人员需要考虑如何选择最合适的图像和图表类型,以及如何将它们融入到文档的整体设计中。
(3)颜色和字体:颜色和字体可以影响文档的可读性和可视性。设计人员需要选择适合文档主题和目标读者的颜色和字体,以确保文档易于阅读和理解。
(4)空白和间距:适当的空白和间距可以帮助文档的内容更好地呈现出来,并使文档更易于阅读。设计人员需要考虑如何平衡文本和空白,以及如何使用间距来帮助读者区分不同的文本段落和部分。
(5)标题和章节:良好的标题和章节结构可以使读者更容易地找到所需的信息,并帮助他们更好地理解文档的组织结构。设计人员需要考虑如何选择最佳标题和章节结构,并确保这些元素与文档的整体设计相协调。
总之,文档视觉问题是文档设计和排版过程中需要考虑的各种视觉元素和设计问题。通过仔细考虑这些问题,设计人员可以创建出易于阅读和理解的高质量文档。
所述大语言模型,例如GPT-3,它们的上下文学习场景可以看作是一个条件文本生成问题。具体而言,生成目标文本y的概率取决于输入提取数据中与目标文本相关的文字字段,包含k个示例的上下文C和所要预测前文本x。因此,所要预测前文本x对应的预测目标文本y可以表示为:
其中LM表示语言模型的参数,第t个词符(token)y<t是相对于目前要预测词符yt(t=1,2,...,T)之前已预测出的词符,一共可将一段字符串划分成T个(C,x,yt)的格式,C={x1,y1,x2,y2,...,xk,yk}是上下文字符串,这里xi,yi(i=1,2,...,k)分别是第i个上下文字符串中文本格式类似于x,y的前文与后文。在GPT-3中,C是通过连接k个训练实例及其对应的文本来创建的。
所述提示,是指使用特定的文本或语言提示来引导模型生成特定的输出。在本发明中将使用特定的文本或语言提示称为“示例”,作为大语言模型的输入,而选择示例方法是采用sentence-transformers算法中all-mpnet-base-v2模型,它将句子和段落映射到一个768维的密集向量空间,计算出与测试样本问题语义余弦相似度最高的检索样本问题所对应的检索样本作为提示设计中的示例样本:
其中A,B均是所要计算的句子,对应着测试样本问题和检索样本问题,cosine_sim(A,B)是指句子A与句子B的语义余弦相似度,dot(A,B)表示句子向量A和B的点积,||A||和||B||分别表示向量A和B的欧氏距离(大小)。后续实验中比较了根据语义相似度选例与随机选例之间的效果差异。
所述文档预训练模型包括文本的预训练模型:BERT和RoBEATA;文本和布局模型LiLT;文本、布局和图像模型预训练模型:LayoutLM,LayoutLMv2,LayoutLMv3,ERNIELayout。基准实验分别评估对下游任务微调的预训练视觉文档理解模型在全样本到少样本的稳健性。
本发明提出的一种基于布局感知提示的文档视觉语言推理方法,本发明用于研究现有大语言模型GPT-3在提示学习的引导下解决文档视觉语言多模态推理任务(步骤4),以及在少样本情况下,对于如何利用上下文示例学习推理过程,同时分析现有的文档预训练模型在训练样本处于少样本时鲁棒能力的脆弱性。包括如下步骤:
步骤1:数据预处理,选取三个数据集进行实验,包括DocVQA、InfographicVQA和VisualMRC,通过光学字符识别(OCR)算法,对于这3个数据集中的任意一个,首先对数据集中的文档图像进行预处理操作,如去噪、二值化、旋转校正、倾斜校正等,以提高后续处理的精度和效率,接着从文档图像中提取出字符的特征信息,如轮廓、边缘、投影等,用于进行字符识别,字符识别是将特征信息与已训练好的光学字符识别(OCR)模型进行匹配,以确定文档图像中的字符,最后将识别结果输出为计算机可编辑和处理的文本格式,如TXT、JSON等。对3个数据集均执行上述操作,由此分别提取三个数据集中数据中的文本信息,布局信息与数据集中关于问题、问题编号、答案等信息整理为对应的JSON格式文件的数据文本,将所述数据文本按照预设比例分为检索数据集和测试数据集;
步骤2:选取示例样本,示例样本用于帮助大语言模型理解任务所需要数据格式以及问答形式。通过步骤1中获取到的JSON格式文件的数据文本,将检索数据集中所有检索样本的问题组成集合A,提取出测试数据集中任意一个测试样本的问题,然后通过sentence-transformers算法中all-mpnet-base-v2模型在集合A中检索,分别计算该测试样本的问题与集合A中每个问题的语义余弦相似度,从而检索出与该测试样本的问题语义相似最高的检索样本的问题,该检索样本的问题对应的检索样本作为提示设计中的示例样本,用于步骤3的提示设计,其中,所述all-mpnet-base-v2模型将句子和段落映射到一个768维的密集向量空间;
步骤3:设计提示(prompting),提示是指使用特定的文本或语言提示来引导模型生成特定的输出。这里有3种提示:纯文本提示、文本与布局离散提示和布局感知提示。(1)纯文本提示,即只有文档数据的文本信息没有布局信息;(2)文本与布局离散提示是将文本与布局分别加入提示中并设计提示头部告知模型文本数据和布局数据的格式,以及二者之间简单的对应关系;(3)布局感知提示是将步骤2中获取的示例样本和测试样本的数据整理到提示中,将提示设计为(提示头部,上下文样例,测试样例)的数据流格式,其中提示头部(prompting head)的作用是告知GPT-3上下文样例(in-context demonstration)和测试样例(testing demonstration)的数据格式是如何,并提示根据文本信息以及布局信息来回答问题,具体格式是“数据形式为{text:boxes}(即{文本:对应的OCR框}),其中每个文本对应的OCR框由四个坐标定义:[x1,y1,x2,y2]。其中x1和y1分别指OCR框左上角的横纵坐标,x2和y2分别指OCR框右下角的横纵坐标,x1,y1,x2,y2用于表示OCR框在文档中的位置,请根据上述数据形式回答问题”,即("The data form is{text:boxes},where each boxes isdefined by four coordinates:[[x1,y1,x2,y2]].The x1 and y1 refer to thehorizontal and vertical coordinates of the upper-left corner of the OCRboxes,and the x2 and y2 refer to the horizontal and vertical coordinates ofthe lower-right corner of the OCR boxes which indicate the position of theOCR boxes within the document,please answer the question according to theabove data form.")。将步骤1中提取出的文本信息和布局信息设计成映射关系{文本:对应的OCR框},即{text:boxes},作为上下文样例和测试样例的数据格式,这种格式称之为“布局感知提示”。其中上下文样例就是步骤2中根据与测试样例问题语义最为相近所选出的示例数据来引导大语言模型,例如GPT-3,理解所要处理的是问答推理任务数据样式,上下文样例包含上下文布局感知提示、上下文样例问题和上下文样例答案;测试样例包含测试样例布局感知提示和测试样例问题。最后,通过实验比较纯文本提示、文本与布局离散提示和布局感知提示这三种提示方式的测试结果;
步骤4:将设计好的提示传递给GPT-3来进行少样本文档视觉问答推理任务,使用平均归一化莱文斯坦距离(Average Normalized Levenshtein distance)准则来评估生成答***度:
其中leva,b(i,j)表示字符串a的前i个字符与字符串b的前j个字符之间的莱文斯坦距离;1(ai≠bj)是一个指示函数,当ai=bj时,其值为0,其他时候它等于1,ai表示字符串a的第i个字符,bj表示字符串b的第j个字符。min运算中的第一个公式leva,b(i-1,j)+1代表从字符串a中删除字符以到达b;第二个公式leva,b(i,j-1)+1代表从字符串a中***字符以到达b;第三个公式leva,b(i-1,j-1)+1(ai≠bj)代表从字符串a中替换字符以到达b(取决于当前字符是否相同)。在语言学中,莱文斯坦距离被用作量化文本距离的度量,即两个文本之间的差异。它与相互可理解性有关:文本距离越高,相互可理解度越低,文本距离越低,相互可理解度越高。后续实验中比较随机选取示例样例与语义相近不同情况;min,max分别表示取最小和最大值操作;
步骤5:研究不同模型在少样本(few-shot)的情况下的鲁棒性。采用不同的文档预训练模型,所述文档预训练模型包括文本的预训练模型:BERT和RoBEATA;文本和布局模型LiLT;文本、布局和图像模型预训练模型:LayoutLM,LayoutLMv2,LayoutLMv3,ERNIELayout。对于3种不同的文档视觉问答数据集所设置参数相同:将学习率设置为2×e-5,训练epoch设置为40,所有输入图像的分辨率均为224x 224像素。全样本训练时训练中的batch设置为4,测试中batch设置为1,少样本训练时训练中的batch设置为1,测试中batch设置为1,比较这些模型在少样本的情况下的推理效果。此外,探究在少样本的情况下不同数量的示例样本,以及不同示例样本中不同问题数量的情况。
与现有技术相比,本发明具有如下优点和有益效果:
(1)之前的多模态模型来解决文档视觉问答任务都是以预训练-微调的范式来解决,但是这样的做法非常消耗时间,而且对机器的配置要求也非常的高,为了解决这些问题,通过提示学习来引导大语言模型来做推理任务,这种方式简便,一般情况下需要3-6小时就能评估完,而预训练-微调的范式往往需要多张A100 GPU才可能达到数个小时内完成评估,且在具体任务的推理准确度也比最佳预训练-微调范式的模型推理准确度高;
(2)通过提示学习引入布局信息,引导大型语言模型能够理解问题中的文本与视觉内容之间的关系,并使用该信息改善上下文学习生成答案,让单模态大语言模型也能处理多模态文档视觉问答任务,准确率相较于普通的方式回答更高;
(3)在不同的文档视觉问答数据集以少样本的情况评估和比较多模态模型与Layout-Aware Prompting,希望提出的提示学习引导大语言模型方式、实证研究和深入分析将有利于未来的研究,以提高模型回答文档视觉推理任务的准确度。
附图说明
图1为文档图像的样例图;
图2为本发明的实现方法的流程图;
图3为本发明的设计提示学习方法示意图;
图4为本发明的示例选择方法示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述,以便相关领域的技术人员能更好地理解本发明。需要特别注意的是,所描述的实施例是本发明一部分实施例,而不是全部的实施例,也非旨在限制要求保护的本发明的范围。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
考虑到现有的微调后的文档预训练模型来解决文档视觉问答任务都是以预训练-微调的范式来解决,但是这样的做法非常消耗时间,而且对机器的配置要求也非常的高,而且这类方法在处理少样本数据(few-shot)时效果比较差。本发明提出了一种基于布局感知提示的文档视觉语言推理方法,用于引导大语言模型借助强大的上下文学习能力,理解数据所要传递信息,用于解决文档视觉语言推理任务。引导大型语言模型能够理解问题中的文本与视觉内容之间的关系,并使用该信息改善上下文学习生成答案。帮助大型语言模型在少样本学习(few-shot)上达到理想的效果,并在3种不同的文档视觉问答数据集测试方法的泛化性。
所述文档视觉问答数据集分别是DocVQA(文档视觉问答)、InfographicVQA(信息图表视觉问答)和VisualMRC(视觉机器阅读理解),这三种数据集都与回答有关视觉内容的问题有关。然而,它们之间有一些重要的区别:
(1)DocVQA:DocVQA是典型的VQA风格的任务,其中自然语言问题被定义在单页文档上,并且需要通过解释文档图像来生成答案。不会给出预定义响应的列表,因此该问题不能被容易地视为n路分类任务。专注于回答有关文档的问题,例如PDF文件或文本扫描图像。这些问题通常是关于文档内容的,例如“作者的名字是什么?”或“第二段的大意是什么?”DocVQA***通常使用文本识别和布局分析从文档中提取相关信息并回答问题。原始的DocVQA数据由10,194/1,286/1,287张图像组成,分别包含39,463/5,349/5,188个用于训练/验证/测试的问题;
(2)InfographicVQA:InfographicVQA类似于DocVQA,但侧重于回答有关信息图形的问题,信息图形是信息、数据或知识的可视化表示。这些问题通常与信息图的内容有关,例如“喜欢苹果而不喜欢橘子的人的百分比是多少?”InfographicVQA***通常使用计算机视觉技术来分析信息图的视觉元素并提取相关信息。原始的InfographicVQA数据由4,406/500/579张图像组成,分别包含23,946/2,801/3,288个用于训练/验证/测试的问题;
(3)VisualMRC:VisualMRC是一项更一般的任务,涉及回答任何类型的视觉内容的问题,包括照片、图像和视频。这些问题可以是关于视觉内容中可见的任何内容,例如“图片中的汽车是什么颜色?”或“人群中有多少人?”VisualMRC***通常使用计算机视觉和自然语言处理技术的组合来分析视觉内容并回答问题。原始的VisualMRC数据由9,574/956/2,237张图像组成,分别包含21,015/2,839/6,708个用于训练/验证/测试的问题;
总之,DocVQA和InfographicVQA是更具体的VisualMRC类型,分别侧重于回答有关文档和信息图形的问题,而VisualMRC是一个更一般的任务,可以应用于任何类型的可视内容。
所述视觉语言推理任务文档视觉问题回答(DocVQA)侧重于一种特定类型的视觉问题回答任务,其中视觉理解文档图像上的信息是提供答案所必需的。这不仅仅是通过OCR传递文档图像,还包括理解文档所传达的所有类型的信息。文字内容(手写或打字)、非文字元素(标记、勾号、分隔符、图表)、布局(页面结构、表单、表格)和样式(字体、颜色、突出显示)等等,这些都是回答手头问题时可能需要的信息。文档视觉问题是指在文档设计和排版过程中所涉及的视觉元素和设计问题。这些问题可能包括以下几个方面:
(1)布局和排版:这包括如何组织文档中的内容、选择字体和字号、排列段落和标题等。良好的布局和排版可以帮助读者更容易地理解和吸收文档的内容。
(2)图像和图表:文档中的图像和图表应该被用来支持文本内容,并能够清晰地传达信息。设计人员需要考虑如何选择最合适的图像和图表类型,以及如何将它们融入到文档的整体设计中。
(3)颜色和字体:颜色和字体可以影响文档的可读性和可视性。设计人员需要选择适合文档主题和目标读者的颜色和字体,以确保文档易于阅读和理解。
(4)空白和间距:适当的空白和间距可以帮助文档的内容更好地呈现出来,并使文档更易于阅读。设计人员需要考虑如何平衡文本和空白,以及如何使用间距来帮助读者区分不同的文本段落和部分。
(5)标题和章节:良好的标题和章节结构可以使读者更容易地找到所需的信息,并帮助他们更好地理解文档的组织结构。设计人员需要考虑如何选择最佳标题和章节结构,并确保这些元素与文档的整体设计相协调。
总之,文档视觉问题是文档设计和排版过程中需要考虑的各种视觉元素和设计问题。通过仔细考虑这些问题,设计人员可以创建出易于阅读和理解的高质量文档。
所述大语言模型,例如GPT3,它们的上下文学习场景可以看作是一个条件文本生成问题。具体而言,生成目标文本y的概率取决于输入提取数据中与目标文本相关的文字字段,包含k个示例的上下文C和所要预测前文本x。因此,所要预测前文本x对应的预测目标文本y可以表示为:
其中LM表示语言模型的参数,第t个词符(token)是相对于目前要预测词符(t=1,2,...,T)之前已预测出的词符,一共可将一段字符串划分成T个(C,x,y)的格式,C={x1,y1,x2,y2,...,xk,yk}是上下文字符串,这里xi,yi(i=1,2,...,k)分别是第i个上下文字符串中文本格式类似于x,y的前文与后文。在GPT-3中,C是通过连接k个训练实例及其对应的文本来创建的。
所述提示,是指使用特定的文本或语言提示来引导模型生成特定的输出。在本发明中将使用特定的文本或语言提示称为“示例”,作为大语言模型的输入,而选择示例方法是采用sentence-transformers算法中all-mpnet-base-v2模型,它将句子和段落映射到一个768维的密集向量空间,计算出与测试样本问题语义余弦相似度最高的检索样本问题所对应的检索样本作为提示设计中的示例样本:
其中A,B均是所要计算的句子,对应着测试样本问题和检索样本问题,cosine_sim(A,B)是指句子A与句子B的语义余弦相似度,dot(A,B)表示句子向量A和B的点积,||A||和||B||分别表示向量A和B的欧氏距离(大小)。后续消融实验中比较了根据语义相似度选例与随机选例之间的效果差异。
所述文档预训练模型包括文本的预训练模型:BERT和RoBEATA;文本和布局模型LiLT;文本、布局和图像模型预训练模型:LayoutLM,LayoutLMv2,LayoutLMv3,ERNIELayout。基准实验分别评估对下游任务微调的预训练视觉文档理解模型在全样本到少样本的稳健性。
步骤1:数据预处理,选取三个数据集进行实验,包括DocVQA、InfographicVQA和VisualMRC,通过光学字符识别(OCR)算法,首先对于这3个数据集中的任意一个的文档图像进行预处理操作,如去噪、二值化、旋转校正、倾斜校正等,以提高后续处理的精度和效率,接着从文档图像中提取出字符的特征信息,如轮廓、边缘、投影等,用于进行字符识别,字符识别是将特征信息与实现训练好的光学字符识别(OCR)模型进行匹配,以确定图像中的字符,最后将识别结果输出为计算机可编辑和处理的文本格式,如TXT、JSON等。通过上述操作提取三个数据集中数据中的文本信息,布局信息与数据集中关于问题、问题编号、答案等信息整理到对应的JSON格式文件的数据文本,将各数据集得到的数据文本分为检索数据集和测试数据集;
步骤2:选取示例样本(样例),示例样本用于帮助大语言模型理解任务所需要数据格式以及问答形式。通过步骤1中获取到的JSON格式文件的数据文本,将检索数据集中所有检索样本的问题组成集合A,提取出测试数据集中任意一个测试样本的问题,然后通过sentence-transformers算法中all-mpnet-base-v2模型在集合A中检索,分别计算该测试样本的问题与集合A中每个问题的语义余弦相似度,从而检索出与该测试样本的问题语义相似最高的检索样本的问题,该检索样本的问题对应的检索样本作为提示设计中的示例样本,用于步骤3的提示设计,其中,所述all-mpnet-base-v2模型将句子和段落映射到一个768维的密集向量空间。不同的选例方式,Layout-Aware Prompting所表现出的效果也有所影响,表1显示了在DocVQA中使用语义相似选取样例比随机选取样例的情况最好,其中ANLS↑表示平均归一化莱文斯坦距离,文本距离越高,相互可理解度越低,文本距离越低,相互可理解度越高,所以ANLS值越高越好;
表1不同选例方式的测试结果
步骤3:设计提示(prompting),提示是指使用特定的文本或语言提示来引导模型生成特定的输出。这里有3种提示:纯文本提示、文本与布局离散提示和布局感知提示。(1)纯文本提示,即只将文档数据的文本信息而没有加入布局信息;(2)文本与布局离散提示是将文本与布局分别加入提示中并设计提示头部告知模型文本数据和布局数据的格式,以及二者之间简单的对应关系;(3)布局感知提示是将步骤2中获取的示例样本和测试样本的数据处整理到提示中,将提示设计为(提示头部,上文样例,测试样例)的数据流格式,其中提示头部(prompting head)的作用是告知GPT-3上文样例(in-context demonstration)和测试样例(testing demonstration)的数据格式是如何,并提示根据文本信息以及布局信息来回答问题,具体格式是“数据形式为{text:boxes}({文本:对应的OCR框}),其中每个框由四个坐标定义:[[x1,y1,x2,y2]]。其中x1和y1是指OCR框左上角的横纵坐标,x2和y2是指OCR框右下角角的横纵坐标,表示OCR框在文档中的位置,请根据上述数据形式回答问题”,即("The data form is{text:boxes},where each boxes is defined by fourcoordinates:[[x1,y1,x2,y2]].The x1 and y1 refer to the horizontal andvertical coordinates of the upper-left corner of the OCR boxes,and the x2 andy2 refer to the horizontal and vertical coordinates of the lower-right cornerof the OCR boxes which indicate the position of the OCR boxes within thedocument,please answer the question according to the above data form.")。然后将步骤1中提取出的文本信息和布局信息设计成映射关系{文本:对应的OCR框},即{text:boxes},作为上下文样例和测试样例的数据格式,这种格式称之为“布局感知提示”。其中上下文样例就是步骤2中根据与测试样例问题语义最为相近所选出的示例数据来引导GPT-3理解所要处理的是问答推理任务数据样式,上下文样例包含上下文布局感知提示、上下文样例问题和上下文样例答案;测试样例包含测试样例布局感知提示和测试样例问题。表2显示了是否将文本信息与布局信息设计成映射关系的不同效果,证明了将文本信息与布局信息设计成映射关系对于引导GPT-3的效果更好;表2展示了prompting有无布局信息的效果以及将文本信息与布局信息设计成映射关系和不设计成映射关系的两种情况下,模型在不同数据集和不同的样本情况下的平均准确率。结果显示,无布局信息的效果比较差以及将文本信息与布局信息设计成映射关系对于引导GPT-3的效果更好。具体来说,相比于不设计成映射关系的情况,设计成映射关系可以显著提高模型进行推理回答问题的准确度。这表明通过将文本信息与布局信息设计成映射关系,可以更好地利用布局信息引导模型进行预测,从而提高模型进行推理回答问题的准确度。
表2提示样例不同格式的测试结果
注:w/o boxes表示没有位置信息,w/boxes表示有位置信息,split表示文本信息与其位置信息是离散的,mapping表示文本信息与其位置信息是映射关系,ANLS↑表示平均归一化莱文斯坦距离,值越高表示效果越好
步骤4:将设计好的提示传递给GPT-3来进行少样本文档视觉问答推理任务,使用平均归一化莱文斯坦距离(Average Normalized Levenshtein distance)准则来评估生成答***度:
其中leva,b(i,j)表示字符串a的前i个字符与字符串b的前j个字符之间的列文斯坦距离;是一个指示函数,当ai=bj时,其值为0,其他时候它等于1,ai表示字符串a的第i个字符,bj表示字符串b的第j个字符。min运算中的第一个公式leva,b(i-1,j)+1代表从字符串a中删除字符以到达b;第二个公式ja,b(i,j-1)+1代表从字符串a中***字符以到达b;第三个公式/>代表从字符串a中替换字符以到达b(取决于当前字符是否相同)。min,max分别表示取最小和最大值操作。在语言学中,莱文斯坦距离被用作量化文本距离的度量,即两个文本之间的差异。它与相互可理解性有关:文本距离越高,相互可理解度越低,文本距离越低,相互可理解度越高。不同数量的样本以及样本中问题数量会影响最后的效果,但不是越多越好,表3展示了不同数量的样本和样本中问题数量情况下,本发明方法的平均准确率。结果显示,在DocVQA数据集中,最好的情况是1个样本(1-shot)情况下1个文本内容和4个问题的情况。这可能是由于示例样本中的问题与测试样本中的问题在语义上较为相近,说明步骤2在设计上下文学习示例时起到了比较重要的作用。因为步骤2的设计是为了将示例样本的上下文信息与问题紧密联系起来,从而使模型能够更好地进行推理和泛化。因此,这些结果表明,在少样本学习中,合理设计示例样本的上下文信息可以显著提高模型理解样例进行推理的效果,进而提高回答问题的准确度;/>
表3在文档视觉问答数据集上不同样本数量和样本中问题数量的测试结果
步骤5:研究不同模型在少样本(few-shot)的情况下的鲁棒性。采用不同的文档预训练模型,文档预训练模型包括文本的预训练模型:BERT和RoBEATA;文本和布局模型LiLT;文本、布局和图像模型预训练模型:LayoutLMv1,LayoutLMv2,LayoutLMv3,ERNIELayout。比较这些模型在少样本的情况下的推理效果。对于文档视觉问答任务,3种不同的文档视觉问答数据集所设置参数相同有:学习率设置为2×e-5,训练epoch设置为40,所有输入图像的分辨率均为224x 224像素。全样本训练时训练中的batch设置为4,测试中batch设置为1,少样本训练时训练中的batch设置为1,测试中batch设置为1,表4展示了在全样本情况下以及在少样本的情况下比较不同模型的推理效果。结果显示,现有的文档预训练模型从全样本到少样本的效果变化非常大,说明它们在少样本的情况下泛化性比较差。相比之下,Layout-aware Prompting(表4中的ours)在少样本的情况下的效果比较好,但距离现有的文档预训练模型在全样本情况下的效果还存在着一定的差距。这可能是由于单模态大语言模型对于视觉的感知效果还不如现有的文档预训练模型中设置的视觉模块的效果好所致。因此,这些结果表明在处理少样本数据时,现有的文档预训练模型可能存在一定的局限性,而Layout-aware Prompting可以是一种有效的解决方案,但仍需进一步改进来提高其效果。
表4基准实验结果
注:ours表示本发明方法,Full-sample代表全样本情况,Few-shot表示少样本情况,ANLS↑表示平均归一化莱文斯坦距离,值越高表示效果越好
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (7)
1.一种基于布局感知提示的文档视觉语言推理方法,其特征在于,该方法包括以下步骤:
步骤1:数据预处理;
获取数据集,通过光学字符识别算法,首先对数据集中的文档图像进行预处理操作,以提高后续处理的精度和效率,接着从文档图像中提取出字符的特征信息,用于进行字符识别,字符识别是将特征信息与已训练好的光学字符识别模型进行匹配,以确定文档图像中的字符,最后将识别结果输出为计算机可编辑和处理的文本格式,由此提取出数据集中数据的文本信息,布局信息与数据集中关于问题、问题编号、答案的信息,并将这些信息整理为对应的JSON格式文件的数据文本,并将所述数据文本按预设比例分为检索数据集和测试数据集;
步骤2:选取示例样本,示例样本用于帮助大语言模型理解任务所需要数据格式以及问答形式;
将检索数据集中所有检索样本的问题组成集合A,提取出测试数据集中任意一个测试样本的问题,然后通过sentence-transformers算法中all-mpnet-base-v2模型在集合A中检索,分别计算该测试样本的问题与集合A中每个问题的语义余弦相似度,从而检索出与该测试样本的问题语义相似最高的检索样本的问题,该检索样本的问题对应的检索样本作为提示设计中的示例样本,其中,所述all-mpnet-base-v2模型将句子和段落映射到一个768维的密集向量空间;
步骤3:设计布局感知提示;
提示是指使用特定的文本或语言提示来引导大语言模型生成特定的输出,将步骤2中获取的示例样本和测试样本的数据整理到提示中,将提示设计为“提示头部,上下文样例,测试样例”的数据流格式,将步骤1中提取出的文本信息和布局信息设计成映射关系{文本:对应的OCR框},作为上下文样例和测试样例的数据格式;
步骤4:将设计好的提示传递给大语言模型进行少样本文档视觉问答推理任务,生成答案。
2.根据权利要求1所述的基于布局感知提示的文档视觉语言推理方法,其特征在于,所述预处理操作包括去噪、二值化、旋转校正、倾斜校正。
3.根据权利要求2所述的基于布局感知提示的文档视觉语言推理方法,其特征在于,所述字符的特征信息包括轮廓、边缘、投影。
4.根据权利要求3所述的基于布局感知提示的文档视觉语言推理方法,其特征在于,所述计算机可编辑和处理的文本格式包括TXT、JSON。
5.根据权利要求4所述的基于布局感知提示的文档视觉语言推理方法,其特征在于,所述上下文样例包含上下文布局感知提示、上下文样例问题和上下文样例答案;测试样例包含测试样例布局感知提示和测试样例问题。
6.根据权利要求5所述的基于布局感知提示的文档视觉语言推理方法,其特征在于,所述大语言模型选择GPT-3。
7.根据权利要求6所述的基于布局感知提示的文档视觉语言推理方法,其特征在于,所述数据集为DocVQA、InfographicVQA或VisualMRC。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310817907.6A CN116822634A (zh) | 2023-07-05 | 2023-07-05 | 一种基于布局感知提示的文档视觉语言推理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310817907.6A CN116822634A (zh) | 2023-07-05 | 2023-07-05 | 一种基于布局感知提示的文档视觉语言推理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116822634A true CN116822634A (zh) | 2023-09-29 |
Family
ID=88116502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310817907.6A Pending CN116822634A (zh) | 2023-07-05 | 2023-07-05 | 一种基于布局感知提示的文档视觉语言推理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116822634A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573839A (zh) * | 2024-01-12 | 2024-02-20 | 阿里云计算有限公司 | 文档检索方法、人机交互方法、电子设备及存储介质 |
-
2023
- 2023-07-05 CN CN202310817907.6A patent/CN116822634A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573839A (zh) * | 2024-01-12 | 2024-02-20 | 阿里云计算有限公司 | 文档检索方法、人机交互方法、电子设备及存储介质 |
CN117573839B (zh) * | 2024-01-12 | 2024-04-19 | 阿里云计算有限公司 | 文档检索方法、人机交互方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Coquenet et al. | Dan: a segmentation-free document attention network for handwritten document recognition | |
Singh et al. | Full page handwriting recognition via image to sequence extraction | |
AU2020279921B2 (en) | Representative document hierarchy generation | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN111274239A (zh) | 试卷结构化处理方法、装置和设备 | |
Almutairi et al. | Instance segmentation of newspaper elements using mask R-CNN | |
Tito et al. | Hierarchical multimodal transformers for multipage docvqa | |
Boillet et al. | Robust text line detection in historical documents: learning and evaluation methods | |
Cheng et al. | M6doc: A large-scale multi-format, multi-type, multi-layout, multi-language, multi-annotation category dataset for modern document layout analysis | |
CN116822634A (zh) | 一种基于布局感知提示的文档视觉语言推理方法 | |
JP2006309347A (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
Al Ghamdi | A novel approach to printed Arabic optical character recognition | |
CN113673294A (zh) | 文献关键信息的提取方法、装置、计算机设备和存储介质 | |
CN112036330A (zh) | 一种文本识别方法、文本识别装置及可读存储介质 | |
WO2024015320A1 (en) | Visual structure of documents in question answering | |
CN114579796B (zh) | 机器阅读理解方法及装置 | |
CN116030469A (zh) | 一种处理方法、装置、设备和计算机可读存储介质 | |
Nguyen et al. | Handwriting recognition and automatic scoring for descriptive answers in Japanese language tests | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及*** | |
CN114332476A (zh) | 维语识别方法、装置、电子设备、存储介质和产品 | |
Reul et al. | Automatic Semantic Text Tagging on Historical Lexica by Combining OCR and Typography Classification: A Case Study on Daniel Sander's Wörterbuch der Deutschen Sprache | |
CN113569112A (zh) | 基于题目的辅导策略提供方法、***、装置及介质 | |
Desai et al. | A Survey On Automatic Subjective Answer Evaluation | |
Henke | Building and improving an OCR classifier for Republican Chinese newspaper text | |
Liu | IntelliExtract: An End-to-End Framework for Chinese Resume Information Extraction from Document Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |