CN114424257A

CN114424257A - 使用机器学习对表格数据进行自动描绘和提取

Info

Publication number: CN114424257A
Application number: CN202080064491.XA
Authority: CN
Inventors: 钟旭; A·J·吉梅诺·耶佩斯; E·沙菲伊巴瓦尼
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-10-22
Filing date: 2020-10-20
Publication date: 2022-04-29
Also published as: GB2605052B; JP2022553663A; DE112020005095T5; GB2605052A; JP7488006B2; WO2021079262A1; GB202207244D0; US20210117668A1; US11380116B2

Abstract

一种用于使用机器学习模型(122)来从图像自动提取表格数据的计算机实现的方法包括接收表格数据的图像的集合以及分别与表格数据的图像相对应的标记数据的集合。该方法还包括使用标记数据来训练第一神经网络以将表格数据描绘成单元(440)，以及使用标记数据来训练第二神经网络以确定表格数据中的单元(440)的内容。该方法还包括，在接收到包含第一表格数据而没有任何标记数据的输入图像(112)时，通过使用第一神经网络来确定第一表格数据的结构并使用第二神经网络来提取第一表格数据的内容，来生成与第一表格数据相对应的电子输出。

Description

使用机器学习对表格数据进行自动描绘和提取

技术领域

本发明大体上涉及计算机技术，并且更具体地涉及自动确定用于将信息呈现为表格数据且进一步确定表格数据中的内容的结构的内容识别***。

背景技术

在任何领域(诸如，医学、法律、工程、科学、商业等)中生成大量的文献(包括书籍、论文、文章、博客、报告等)。另外，生成文献作为商业的一部分，例如，***、报价、账户报表、合同等。所有这样的文献通常被编写以用于人之间的交换，而无需任何用于机器理解的计划。出于区分的目的，文档被描述为“自然语言”文档，如与为了机器可读性和理解而编写的文档或文件区分开来。随着人工智能的出现和机器学习的其他进步，诸如计算机的机器可以分析来自文献的信息语料库，以提供人类不可检测的洞察力。存在各种文档解析和分析***，其促进对文献的内容进行解译并提供诸如搜索能力的功能。在许多出版的文献中，重要信息被包含在包括在文档中的表格中。这对于医学文献(诸如，临床研究)尤其如此，其中关于跨不同组的结果的许多信息仅被包含在这些表格中，并且不存在于其余文本中。

当前，这些表格难以或不可能被解析，这是由于不存在标准格式或结构。人类对此很擅长，但是机器还不能理解表格的结构以便提取含义。因此，在本领域中需要解决上述问题。

发明内容

从方面来看，本发明提供了一种用于确定表格数据中的内容的计算机实现的方法、***和计算机程序产品，包括：使用处理器的机器学习算法来执行训练机器学习模型的训练操作，训练操作包括：接收表格数据的图像的集合以及分别与表格数据的图像相对应的标记数据的集合；使用标记数据来训练第一神经网络以将来自图像的集合的表格数据描绘成单元；以及使用标记数据来训练第二神经网络以确定来自图像的集合的表格数据中的单元的内容；接收包含第一表格数据而没有指示第一表格数据的结构的标记数据的输入图像；以及通过使用第一神经网络来确定第一表格数据的结构以及使用第二神经网络来提取第一表格数据的内容，来生成与第一表格数据相对应的电子输出。

从另一方面来看，本发明提供了一种用于确定表格数据中的内容的计算机程序产品，该计算机程序产品包括由处理电路可读取的计算机可读存储介质，并且存储用于由处理电路执行以执行用于执行本发明的步骤的方法的指令。

从另一方面来看，本发明提供了一种存储在计算机可读介质上且可加载到数字计算机的内部存储器中的计算机程序，该计算机程序包括当所述程序在计算机上运行时用于执行本发明的步骤的软件代码部分。

根据本发明的一个或多个实施例，一种用于使用机器学习模型来从图像自动提取表格数据的计算机实现的方法，包括接收表格数据的图像的集合以及分别与表格数据的图像相对应的标记数据的集合。该方法还包括使用标记数据来训练第一神经网络以将表格数据描绘成单元，以及使用标记数据来训练第二神经网络以确定表格数据中的单元的内容。该方法还包括：在接收到包含第一表格数据而没有任何标记数据的输入图像时，通过使用第一神经网络来确定第一表格数据的结构并使用第二神经网络来提取第一表格数据的内容，来生成与第一表格数据相对应的电子输出。

根据本发明的一个或多个实施例，一种***包括存储器以及与该存储器耦接的处理器。处理器用机器学习算法进行编程以执行包括训练机器学习模型的方法。该训练包括接收表格数据的图像的集合以及分别与表格数据的图像相对应的标记数据的集合。该训练还包括使用标记数据来训练第一神经网络以将来自图像的集合的表格数据描绘成单元。该训练还包括使用标记数据来训练第二神经网络以确定来自图像的集合的表格数据中的单元的内容。该方法在训练之后还包括：在接收到包含第一表格数据而没有指示第一表格数据的结构的标记数据的输入图像时，通过使用第一神经网络来确定第一表格数据的结构并使用第二神经网络来提取第一表格数据的内容，来生成与第一表格数据相对应的电子输出。

根据本发明的一个或多个实施例，一种计算机程序产品包括其上存储有计算机可执行指令的存储器存储设备。计算机可执行指令在由处理器执行时使处理器执行包括训练机器学习模型的方法。该训练包括接收表格数据的图像的集合以及分别与表格数据的图像相对应的标记数据的集合。该训练还包括使用标记数据来训练第一神经网络以将来自图像的集合的表格数据描绘成单元。该训练还包括使用标记数据来训练第二神经网络以确定来自图像的集合的表格数据中的单元的内容。该方法在训练之后还包括：在接收到包含第一表格数据而没有指示第一表格数据的结构的标记数据的输入图像时，通过使用第一神经网络来确定第一表格数据的结构并使用第二神经网络来提取第一表格数据的内容，来生成与第一表格数据相对应的电子输出。

本发明的实施例促进使用机器学习来自动解析和理解数字文献中的表格数据，并且进而使用该文献来进行完整分析。根据本发明的一个或多个实施例，尽管表格数据以各种布局、样式、信息类型和格式被呈现，并且没有对关于表格数据的结构的编码/格式化信息的明确描述，但是文献中的表格数据被解译。因此，本发明的实施例促进对当前无法自动解译所呈现的表格数据的自动内容识别***的改进。

通过本发明的技术实现了附加技术特征和优点。在本文中详细描述了本发明的实施例和方面，并且这些实施例和方面被认为是所要求保护的主题的一部分。为了更好的理解，参考具体实施方式和附图。

附图说明

在说明书的结论处的权利要求中特别指出并明确要求保护本文的独占权利的细节。通过结合附图的以下具体实施方式，本发明的实施例的前述和其他特征和优点将变得清楚明白，在附图中：

图1描绘了根据本发明一个或多个实施例的用于内容识别的***；

图2描绘了示例场景中的图像格式的示例输入图像；

图3描绘了在示例场景中的来自标记格式的输入图像的表格数据的电子输出；

图4描绘了根据本发明的一个或多个实施例的用于训练机器学习模型以从输入图像提取表格数据的方法的流程图；

图5描绘了根据本发明的一个或多个实施例的机器学习模型的示例结构以及训练机器学习模型的数据流；

图6描绘了根据本发明的一个或多个实施例的计算机***；

图7描绘了根据本发明的一个或多个实施例的云计算环境；以及

图8描绘了根据本发明的一个或多个实施例的模型层。

本文中所描绘的示图是说明性的。在不背离本发明的范围的情况下，可以对本文中所描述的示图或操作进行许多变型。例如，可以以不同的顺序执行动作，或者可以添加、删除或修改动作。而且，术语“耦接”及其变形描述了在两个元件之间具有通信路径，并且并不暗示元件之间的直接连接，在它们之间没有介入元件/连接。所有的这些变型被认为是说明书的一部分。

在附图和所公开的实施例的以下具体实施方式中，图中所示出的各种元件被设置有两个或三个数字的附图标记。除了少数例外，每个附图标记的最左边的(多个)数字对应于首先图示了其元件的附图。

具体实施方式

公开文献包括以表格形式(“表格”)呈现的重要信息，即，如包括在(多个)文档中的表格式数据。文献可以包括以表格形式呈现的信息，该表格跨多个行和列组织信息。这样的表格数据促进以结构化方式呈现信息、概述关键信息、以及呈现结果和/或观察。通常，表格式数据被包括在文档中作为图像，而没有描述用于表格化该数据的结构的任何对应的信息。该结构指示数据如何被描绘成例如表格的行、列、单元、以及其他这样的组件。

在许多情况下，理解表格中的信息对于分析文献中的各种文档而言是重要的。因此，在机器学习中，有必要读取和理解表格数据以使用文献来进行完整分析。然而，在解译文献中的表格数据时存在技术挑战，因为表格数据以各种布局、样式、信息类型和格式被呈现，并且没有对关于表格数据的结构的编码/格式化信息的明确描述。虽然人类擅长读取这样不同的表格数据布局和样式，但是解译表格数据是技术挑战。表中的不同性的一些示例可以包括行和列的不同高度、第一神经网络存储器单元的合并、不同数目的列、不同列中的不同数目的行、或者区分单元的不同类型的边界等。

例如，在诸如临床研究的医学文献的情况下，关于跨不同组的结果的信息被包含在这样的表中。应理解，医学文献只是一个示例，表格式数据在各种其他领域的文献中被呈现，诸如工程、科学、商业、法律等，并且本发明的实施例不限于使用来自任何特定领域的文件。

进一步，在多种情况下，使用表格式格式在文档中呈现的数据不存在于文档的剩余文本中。因此，对于自动解析可用的文献以解译文档的内容的自动内容识别***，存在解密这样的表格式数据的技术挑战。当前，解析这样的表格式数据是技术挑战，因为不存在用于表格化数据的标准格式或结构。为了人类的理解，数据通常被表格化，并且人类通常擅长解析这样的数据，该数据使用自组织结构以表格格式而被格式化，并且不必提供格式化的描述。

本发明的实施例解决这样的技术挑战并促进机器自主理解表格式数据的结构(或者，格式)以便提取表格式数据的含义。本发明的一个或多个实施例促进训练机器学习(ML)模型以接收表格式数据，而无需对结构或描述或标签的任何描述，从而指定表格式数据的格式化，从而识别离散的列、行和/或单元，并且提取包括在表中的内容(例如，文本、图像等)。在本发明的一个或多个实施例中，所提取的内容以结构化和有意义的格式输出。

在本发明的一个或多个实施例中，ML模型接收表格的数字图像形式的表格式数据，其不具有指定的任何描绘或标签。例如，数字图像可以是任何数字图像文件格式，诸如位图、联合图像专家组(JPEG)、便携式网络图形(PNG)、或者任何其他格式。在一个或多个示例中，表格式数据的图像是从文档提取的，文档进而是任何数字内容格式，诸如可移植文档格式(PDF)、DOC等。ML模型然后可以识别离散的列、行和单元，并且以结构化和有意义的方式提取包括在其中的文本。在本发明的一个或多个实施例中，使用诸如超文本标记语言(HTML)、扩展标记语言(XML)之类的计算机可读格式或任何其他这样的计算机可读格式来输出所提取的数据。

图1描绘了根据本发明一个或多个实施例的用于内容识别的***100。***100可以是图8中所描绘的内容识别工作负荷96。备选地，如本文中所指出的，***100可以是用于内容识别的随立***。***100尤其包括从电子文档110接收表格式数据的输入图像112的内容识别设备120。所接收的输入图像112没有伴随描述输入图像112中表格式数据的格式的任何结构信息。

内容识别设备120使用ML模型122来解析输入图像112的内容，并且生成包括标记格式132的表格式数据的电子输出130。标记格式132的表格式数据包括描绘格式的表格式数据的结构，例如，描述表格数据中的单元。例如，所描绘的格式描述将数据划分成多个单元的表格数据的行和列。在本发明的一个或多个实施例中，内容识别设备120还可以从输入图像112提取文本并将其包括在电子输出130中。可以呈现所提取的文本，使得可以基于表格数据中的单元之间的关系来确定含义。

使用训练数据140来训练ML模型122以解析输入图像112的内容。训练数据140包括与提供所提取的图像142中的表格数据的结构和内容的对应的标记数据144配对的表格数据的所提取的图像142。训练数据140包括表格数据的所提取的图像142与表格结构和内容的对应的标记数据144的多个(例如，数千、数百万等)这样对应的配对。训练数据140被ML模型用来精简以标识表格数据的给定图像(诸如，输入图像112)中的表格结构和内容，而无需表格数据的结构的对应描述。

图2描绘了示例场景中的示例输入图像112，并且图3描绘了示例场景中的电子输出130。在图2中所示的所描绘的示例中，输入图像112包括列410和行420。如图所示，一个或多个行可包括子行430。行420和列410形成多个单元440。表格数据的结构在电子输出130中被描绘成标记格式132，如图3中所示。标记格式132中的描绘描述了与列410相对应的列描绘510。列描绘510指示列410的数目。列描述510还描述了列410的标题。例如，在列410具有其他属性(诸如，子列)的其他实例中，列描述510可以包括其他特性以描述列410。

图3中所示的标记格式132还包括与行420相对应的行描绘520。行描绘520描述输入图像112中的多个行420。行描绘520还包括行420的标题。行描绘520还包括用于包括一或多个子行430的行420的子描绘530。

此外，图3中所示的电子输出130包括从图2中所示的单元440提取的文本540。根据从图2中所示的输入图像112描绘的结构来包括所提取的文本540。

图4示出了根据本发明的一个或多个实施例的用于训练内容识别设备120的ML模型122以从输入图像112提取表格数据的方法600的流程图。方法600包括在框610使用训练数据140来训练ML模型122。训练数据包括具有表格数据的训练图像142以及描述训练图像142中的表格数据的结构和内容的对应的训练标记数据144。在一个或多个示例中，训练标记数据144可以是提供对应的图像文件或包括训练图像142的文档文件中的表格数据的标签的多个XML文件。

训练标记数据144向ML模型122提供训练图像142中的表格数据的归一化结构化表示。在本发明的一个或多个实施例中，通过将多个文档(例如，PDF文件)中的表格数据转换成图像文件(例如，JPEG)来生成训练图像142。在一个或多个示例中，可以自动执行这样的转换，从而使训练数据140本身被生成而无需人工努力。训练数据140提供多个(数千、数百万)样本，这些样本提供伴随有标记表示144中的表格数据的地面真实性的训练图像142。

在本发明的一个或多个实施例中，ML模型122可以具有深度学习网络架构，其可以用训练数据140进行训练。图5描绘了根据本发明的一个或多个实施例的ML模型122的示例结构和训练ML模型122的数据流。

在本发明的一个或多个实施例中，ML模型122是深度神经网络学习架构，其使用具有卷积神经网络层(CNN)、关注模块和递归神经网络层(RNN)的多个层的编码器-解码器模型。在本发明的一个或多个实施例中的ML模型122包括编码器710和两个解码集合，第一解码集合720和第二解码集合730。

编码器710包括一个或多个CNN，该一个或多个CNN分析训练图像142并使用卷积滤波器的集合来捕捉训练图像142的视觉特征。在训练期间经由反向传播更新卷积滤波器的参数。视觉特征被统称为特征图。特征图中的每个像素是高维特征向量，其描述训练图像142中的对应的局部小片(例如，16X16像素)的图案。编码器710将特征图转发到第一解码集合720和第二解码集合730。

解码集合720、730可以包括RNN和关注模块的一个或多个单元。在一个或多个示例中，RNN可以被实现为长短期存储器(LSTM)或门控循环单元(GRU)单元。第一解码集合720可以用于确定训练图像142(以及，输入图像112)中的表格数据的结构。因此，第一解码集合720也可以被称为结构解码神经网络集合。第二解码集合730可以用于确定训练图像142(以及，输入图像112)的表格数据中的一个或多个单元的内容。因此，第二解码集合730还可以被称为内容解码神经网络的集合。

结构解码神经网络集合(720)包括结构关注模块722和结构解码器724，结构解码器724是RNN。结构关注模块722是神经网络，其学习如何在从训练图像142(以及，输入图像112)编码的特征图的不同部分上分配不同的聚焦程度以解译结构。特征图的某一区中的较高的聚焦程度使得结构解码器724利用来自该区的更多信息。通过将权重参数的集合乘以特征图本身以及结构解码器724的“隐藏状态”来确定特征图中的给定位置处的聚焦程度。在RNN中，在递归层的上下文中，“隐藏状态”是在递归期间共享以提供先前输入的表示的值。在训练期间经由反向传播调整关注模块722的权重参数，如将进一步描述的。关注模块722分析训练图像142的特征图以确定聚焦程度。结构解码器RNN 724还包括经由反向传播更新的其自身的权重参数。结构解码器RNN 724和结构关注模块722彼此结合地重复训练以调整两个网络(结构解码器RNN 724和结构关注模块722)的权重参数。

更新权重以最小化由结构解码神经网络(720)的集合生成的标记表示估计730与针对训练图像142的已知表格结构144之间的差异。如图5中所描绘的，将标记表示估计与表状结构144进行比较以计算损失函数740。损失函数740指示所提取的结构与训练数据144中的已知结构的差异。损失函数740作为反馈被提供给结构解码器RNN724、结构关注模块722、和编码器710。备选地，基于该差来计算结构准确度得分并将其作为反馈来提供。基于结构准确度得分来更新结构解码器RNN 724、结构关注模块722、和编码器710的权重，以使得标记表示估计730更接近表格数据144。在一个或多个示例中，将结构准确度得分与预定准确度阈值进行比较。如果结构准确度得分超过预定结构准确度阈值，则将该组结构解码神经网络720标记为被训练。备选地，如果结构准确度得分与预定结构准确度阈值相差大于某个阈值，则继续训练结构解码神经网络720的集合，即，调整权重。

内容解码神经网络730的集合被训练并以与结构解码神经网络720的集合相似的方式操作。内容解码神经网络730的集合包括内容关注模块732和内容解码器734，该内容解码器是RNN。内容关注模块732是神经网络，其学习如何在从训练图像142(以及，输入图像112)编码的特征图的不同部分上分配不同的聚焦程度以解译内容。特征图的某一区域中的较高的聚焦程度使得内容解码器734利用来自区域的更多信息。通过将权重参数的集合乘以特征图本身以及结构解码器724的隐藏状态和内容解码器734的隐藏状态来确定特征图中的给定位置处的聚焦程度。在训练期间经由反向传播来调整内容关注模块732的权重参数，如将进一步描述的。例如，内容关注度模块732分析要由内容解码器RNN 734使用的训练图像142的特征图。内容解码器RNN734还包括经由反向传播更新的其自身的权重参数。内容解码器RNN734和内容关注模块732彼此结合地重复训练以调整两个网络(内容解码器RNN734和内容关注模块732)的权重参数。

更新权重以最小化被生成为内容解码神经网络的集合的表示估计730与针对训练图像142的表格数据中的已知内容之间的差异。如图5中所示，将标记表示估计730与表格数据144进行比较以计算损失函数740。损失函数740指示所提取的内容与训练数据144中的已知内容的差异。将损失函数740作为反馈提供给内容解码器RNN 734、内容关注度模块732和编码器710。备选地，基于该差异来计算内容准确度得分并将其作为反馈进行提供。基于内容准确度得分来更新内容解码器RNN 734、内容关注模块732和编码器710的权重以使标记表示估计730更接近表格数据144。在一个或多个示例中，将内容准确度得分与预定准确度阈值进行比较。如果准确度得分超过预定准确度阈值，则将内容解码神经网络730的集合标记为被训练。备选地，如果准确度得分与预定准确度阈值相差大于某个阈值，则继续训练内容解码神经网络730的集合，即，调整权重。

因此，为了描绘以图像格式呈现的表格数据，在本发明的一个或多个实施例中，ML模型120包括三个神经网络—编码器710、结构关注模块722和结构解码器724。编码器710从训练图像确定特征图，特征图被转发到结构关注模块722。结构关注模块722从特征图确定聚焦程度。结构解码器使用聚焦程度和特征图来确定表格数据的结构的描绘估计。基于估计与来自训练数据144的标记表示之间的差异，更新/调整编码器710、结构关注模块722和结构解码器724的权重。

另外，ML模型120包括用于从表格数据提取内容的内容关注模块732和内容解码器734，这两者与编码器710结合起来工作。在此，内容关注度模块732使用由编码器710确定的特征图来确定用于内容提取的聚焦程度。内容解码器734随后使用特征图和聚焦程度来确定内容估计。内容估计与来自训练数据的实际内容之间的差异用于调整编码器710、内容关注模块730和内容解码器734的权重。在一个或多个示例中，内容关注模块732使用来自结构解码器724的输入。在一个或多个示例中，ML模型120中的所有神经网络被结合地训练。

返回参考图4中的方法600的流程图，在本发明的一个或多个实施例中，方法600还包括在框620接收包括具有未知结构的表格数据的输入图像112。换言之，内容识别设备120不知道输入图像中的表格数据的结构。

在框630，内容识别设备120使用经训练的ML模型122来确定输入图像112中的表格数据的结构的描绘。具体地，(多个)结构解码神经网络促进基于在训练期间设置的权重来标识表格数据的描绘。该描绘包括输入图像112中的单元440的标记表示。该描绘还包括来自表格数据的列410和行420的标记表示。该描绘还标识可以存在于表格数据中的子行与子列之间的分界。

进一步，方法600包括在框640使用该组内容解码神经网络730从输入图像112中的表格数据提取内容。

方法600还包括在框650将所提取的内容和来自输入图像112的表格数据的描绘合并。该合并包括在表格数据的所描绘的结构的标记表示中添加所提取的内容。因此，在本发明的一个或多个实施例中，生成包括根据用于标定表格结构的标记语言的标签的标记文件(参见图3)。标记文件还包括嵌入在标签内的所提取的内容。

以这种方式，使用ML模型122来自动分析输入图像112以标识来自输入图像的表格数据的结构并进一步提取表格数据的内容。进一步，使用标记格式来表示表格数据。应注意，尽管贯穿本文中所描述的示例来使用标记格式，但是在本发明的一个或多个实施例中，可以使用任何其他的电子格式化或协议(诸如，逗号分隔卷(CSV))或任何其他的机器可读格式来表示表格数据。

现在转向图6，根据实施例大体上上示出了计算机***800。计算机***800可以是包括和/或采用利用各种通信技术的任何数目和组合的计算设备和网络的电子计算机框架，如本文中所描述的。计算机***800可以容易地扩展、可扩展和模块化，具有改变成不同服务或独立于其他特征重新配置某些特征的能力。计算机***800可以是例如服务器、台式计算机、膝上型计算机、平板计算机或智能电话。在一些示例中，计算机***800可以是云计算节点。可以在由计算机***执行的计算机***可执行指令(诸如，程序模块)的一般上下文中描述计算机***800。一般而言，程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机***800可在分布式云计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机***存储介质中。

如图6中所示，计算机***800具有一个或多个中央处理单元(CPU)801a、801b、801c等(被统称为或通称为(多个)处理器801)。处理器801可以是单核处理器、多核处理器、计算集群、或者任意数目的其他配置。处理器801(也被称为处理电路)经由***总线802耦接到***存储器803和不同其他组件。***存储器803可以包括只读存储器(ROM)804和随机存取存储器(RAM)805。ROM804被耦接到***总线802并可以包括控制计算机***800的某些基本功能的基本输入/输出***(BIOS)。RAM是耦接到***总线802以供处理器801使用的读写存储器。***存储器803是指令在操作期间的操作提供临时存储器空间。***存储器803可以包括随机存取存储器(RAM)、只读存储器、闪存或任何其他合适的存储器***。

计算机***800包括耦接到***总线802的输入/输出(I/O)适配器806和通信适配器807。I/O适配器806可以是与硬盘808和/或任何其他类似组件通信的小型计算机***接口(SCSI)适配器。I/O适配器806和硬盘808在本文中被统称为大容量存储装置810。

在计算机***800上执行的软件811可以存储在大容量存储装置810中。大容量存储装置810是由处理器801可读取的有形存储介质的示例，其中软件811被存储为用于由处理器801执行以使计算机***800操作的指令，诸如在下文中相对于各个附图所描述的。本文中更详细地论述了计算机程序产品和这样的指令的执行的示例。通信适配器807将***总线802与网络812互连，网络812可以是外部网络，使得计算机***800能够与其他这样的***通信。在一个实施例中，***存储器803和大容量存储装置810的一部分共同存储操作***，该操作***可以是任何适当的操作***，诸如来自IBM公司的z/OS或AIX操作***，以协调图6中所示的各种组件的功能。

附加输入/输出设备被示为经由显示适配器815和接口适配器816连接到***总线802。在一个实施例中，适配器806、807、815和816可以连接到一个或多个I/O总线，其经由中间总线桥(未示出)连接到***总线802。显示器819(例如，屏幕或显示监视器)通过显示适配器815连接到***总线802，显示适配器815可以包括图形控制器以改进图形密集型应用程序的性能以及视频控制器。键盘821、鼠标822、扬声器823等可以经由接口适配器816互连到***总线802，接口适配器816可以包括例如将多个设备适配器集成到单个集成电路中的超级I/O芯片。用于连接诸如硬盘控制器、网络适配器和图形适配器之类的***设备的合适的I/O总线通常包括诸如***组件互连(PCI)之类的公共协议。因此，如图6中所配置的，计算机***800包括处理器801形式的处理能力，以及包括***存储器803和大容量存储装置810的存储能力、诸如键盘821和鼠标822的输入装置以及包括扬声器823和显示器819的输出能力。

在一些实施例中，通信适配器807可以使用任何合适的接口或协议(诸如，互联网小型计算机***接口等)来传输数据。网络812可以是蜂窝网络、无线电网络、广域网(WAN)、局域网(LAN)或互联网等。外部计算设备可以通过网络812连接到计算机***800。在一些示例中，外部计算设备可以是外部Web服务器或云计算节点。

应当理解，图6的框图不旨在指示计算机***800将包括图6中所示的所有组件。相反，计算机***800可以包括图6中未示出的任何合适的更少或附加的组件(例如，附加的存储器组件、嵌入式控制器、模块、附加的网络接口等)。进一步，本文中关于计算机***800描述的实施例可以用任何合适的逻辑实现，其中如本文中所提及的逻辑可以包括任何合适的硬件(例如，处理器、嵌入式控制器、或专用集成电路等)、软件(例如，应用等)、固件、或者硬件、软件和固件的任何合适的组合。

在一个或多个示例中，可以使用云计算技术来实现本发明的实施例。应当理解，尽管本公开包括关于云计算的详细描述，但是本文中所引用的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。

云计算是服务交付的模型，用于使得能够方便地、按需地网络访问可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池，可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以单方面地根据需要自动地提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人类交互。

广泛的网络接入：能力可通过网络可用且通过标准机制接入，该标准机制促进异构薄客户机平台或厚客户机平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但是可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并可以在任何时间以任何数量购买。

测量的服务：云***通过在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如Web浏览器(例如，基于Web的电子邮件)之类的薄客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作***、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。平台即服务(PaaS)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作***或存储的底层云基础设施，但是具有对所部署的应用和可能的应用托管环境配置的控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，软件可以包括操作***和应用。消费者不管理或控制底层云基础设施，但是具有对操作***、存储、所部署的应用的控制以及对所选联网组件(例如，主机防火墙)的可能受限的控制。

部署模型如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础架构被若干组织共享并支持共享了关注(例如，任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业组可用，并且由出售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，集中于无状态、低耦接、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参考图7，描述了说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机***54N。节点10可以彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上的私有云、社区云、公共云或混合云、或者其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解，图7中所示的计算装置54A-N的类型仅旨在是说明性的，并且计算节点10和云计算环境50可以通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化装置通信。

现在参见图8，示出了由云计算环境50(图7)提供的一组功能抽象层。应提前理解，图8中所示的组件、层和功能仅旨在是说明性的，并且本发明的实施例不限于此。如所描绘的，提供以下层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片式服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作***74；以及虚拟客户端75。

在一个示例中，管理层80可以提供下面所描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪，并且为这些资源的消费开账单或***。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和***管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供根据SLA预期未来需求的云计算资源的预安排和采购。

工作负荷层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航91；软件开发和生命周期管理92；虚拟课堂教育交付93；数据分析处理94；事务处理95；以及内容识别96。

因此，本发明的一个或多个实施例促进机器自主地理解来自以电子格式可用的各种文献的未结构化表格。本发明的实施例提供了针对计算技术领域技术挑战的技术方案，通过促进机器自主地执行这样的功能来改进计算技术。

进一步，本发明的实施例通过促进***提供诸如语料转换、比较和遵守的自动化来提供实际应用。例如，语料库转换服务可以是被训练来解析表格数据的机器学习所支持的***。该***使用光学字符识别(OCR)来定位文档图像中的文本，并且使用手工制作的特征来解析表格。为了训练***，用户需要手动地注释列、行和单元的位置。如本文中所描述的，本发明的实施例在不需要表的元素的显式注释的情况下操作。相反，本发明的实施例使用结构化表示作为监督。因此，本发明的实施例提供了适合于端到端训练和多任务训练的改进的训练和改进的***。此外，现有的比较和符合***使用手动定义的规则的集合来定义表格布局并使用OCR技术来提取内容。本发明的实施例通过使用避免由比较和符合***中的不同处理步骤累积的错误中的一些错误的端到端处理来促进这样的提取。

进一步，本发明的实施例通过包括表格数据处理并在一些情况下改进表格数据处理的性能来改进内容识别***。如前，大量信息可在多个电子文档内以非结构化表格格式获得。这样的表格数据包括诸如健康保险覆盖范围的信息、在科学文献中公布的信息等。

本发明的实施例可以馈送具有用户友好获得的表格的图像表示。本发明的实施例自动学习如何以端到端方式识别表格布局(结构和内容)并决定何时提取文本。进一步的，本发明实施例对表格结构进行了全面的解析和描绘，而不仅仅是以单个单元从表格提取每个单元的内容。另外，本发明的实施例可以解析并描绘多列/多行的表格。更进一步，本发明的实施例解析表格数据而没有明确注释表格的结构中的一个或多个元素(例如，列、行和单元的位置)。

因而，本发明的实施例仅需要表格的提取图像智能地将其结构和内容识别为可再用标记(HTML/XML)格式。因此，本发明的实施例提供优于现有的基于OCR的***的优点，因为本发明的实施例有助于识别表格图像的结构并生成元素的编程表格，这不是由基于OCR的***实现的。

本发明可以是任何可能的技术细节集成度的***、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可以是可以保留和存储指令以供指令执行装置使用的有形设备。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁性存储设备、光学存储设备、电磁存储设备、半导体存储设备、或者前述的任意合适的组合。计算机可读存储介质的更具体实例的非详尽列表包含以下项：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或快闪存储器)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、机械编码设备(诸如，穿孔卡或槽中的具有记录于其上的指令的凸起结构)，以及前述的任何合适组合。如本文中所使用的计算机可读存储介质不应被解释为暂态信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路***的配置数据、或者以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如，Smalltalk、C++等)和过程程序设计语言(诸如，“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者可以连接到外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路***、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路***可以通过利用计算机可读程序指令的状态信息来使电子电路***个性化来执行计算机可读程序指令，以便执行本发明的方面。

下面将参考根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的***、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个块实际上可以基本上同时执行，或者这些块有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的***来实现。

已出于说明的目的呈现了本发明的各种实施例的描述，但并不旨在是详尽的或者限于所公开的实施例。在不脱离所描述的实施例的范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。本文使用的术语被选择来最好地解释实施例的原理、实际应用或优于市场中发现的技术的技术改进，或者使得本领域普通技术人员能够理解本文描述的实施例。

本文参考相关附图描述了本发明的各种实施例。在不脱离本发明的范围的情况下，可设计本发明的备选实施例。在以下描述和附图中，在元件之间阐述了各种连接和位置关系(例如，上方、下方、相邻等)。除非另有规定，否则这些连接和/或位置关系可以是直接或间接的，并且本发明在该点上并不旨在是限制性的。因此，实体的连接可以指直接的或间接的连接，并且实体之间的位置关系可以是直接的或间接的位置关系。此外，本文描述的各种任务和过程步骤可以并入具有本文未详细描述的附加步骤或功能的更全面的程序或过程中。

以下定义和缩写将用于解释权利要求书和说明书。如本文中所使用的，术语“包括”、“包括有”、“包含”、“包含有”、“有”、“具有”、“涵盖”或“涵盖有”或其任何其他变体旨在涵盖非排他性的包括。例如，包括一系列元素的组合物、混合物、工艺、方法、物品或设备不必仅限于那些元素，而是可以包括未明确列出的或这种组合物、混合物、工艺、方法、物品或设备固有的其他元素。

此外，术语“示例性的”在本文中用于表示“用作实例、例子或例证”。本文中被描述为“示例性”的任何实施例或设计不一定被解释为优于或优于其他实施例或设计。术语“至少一个”和“一个或多个”可以被理解为包括大于或等于一的任何整数，即。一个、两个、三个、四个等。术语“多个”可以被理解为包括大于或等于二的任何整数，即。两个、三个、四个、五个等。术语“连接”可以包括间接“连接”和直接“连接”两者。

术语“约”、“基本上”、“大致”及其变型旨在包括与基于提交申请时可用的设备的特定量的测量相关联的误差程度。例如，“约”可以包括给定值的±8％或5％、或2％的范围。

为了简洁起见，涉及制造和使用本发明的方面的常规技术可以或可以不在本文中被详细描述。具体地，用于实现本文中所描述的不同技术特征的计算***和特定计算机程序的各个方面是众所周知的。因而，为了简洁起见，许多常规实现细节在本文中仅简要提到或完全省略，而不提供众所周知的***和/或过程细节。

Claims

1.一种计算机实现方法，包括：

使用处理器的机器学习算法来执行训练机器学习模型的训练操作，所述训练操作包括：

接收表格数据的图像的集合以及分别与所述表格数据的图像相对应标记数据的集合；

使用所述标记数据来训练第一神经网络以将来自所述图像的集合的所述表格数据描绘成单元；以及

使用所述标记数据来训练第二神经网络以确定来自所述图像的集合的所述表格数据中的所述单元的内容；

接收包含第一表格数据而没有指示所述第一表格数据的结构的标记数据的输入图像；以及

通过使用所述第一神经网络来确定所述第一表格数据的所述结构并使用所述第二神经网络来提取所述第一表格数据的内容，来生成与所述第一表格数据相对应的电子输出。

2.根据权利要求1所述的计算机实现的方法，其中训练所述第一神经网络包括：解析来自所述图像的集合的第一图像，以匹配来自所述第一图像的如由来自所述标记数据的集合的对应的第一标记数据指定的所述表格数据的部分。

3.根据权利要求2所述的计算机实现的方法，其中训练所述第一神经网络还包括：

通过将来自所述第一图像的被解析的部分与来自所述对应的第一标记数据的所述表格数据进行比较来计算所述第一神经网络的结构准确度；

基于所述结构准确度低于预定阈值来更新来自所述第一神经网络的一个或多个权重；以及

如果所述结构精度超过所述预定阈值，则将所述第一神经网络标记为被训练。

4.根据前述权利要求中的任一项所述的计算机实现的方法，其中训练所述第二神经网络包括从来自所述图像的集合的第一图像提取内容，以匹配来自所述第一图像的如由来自所述标记数据的集合的对应的第一标记数据指定的所述表格数据的内容。

5.根据权利要求4所述的计算机实现的方法，其中训练所述第二神经网络还包括：

通过将从所述第一图像提取的所述内容与来自所述对应的第一标记数据的所述内容进行比较来计算所述第二神经网络的内容准确度；

基于所述内容准确度低于预定阈值来更新来自所述第二神经网络的一个或多个权重；以及

如果所述内容准确度超过所述预定阈值，则将所述第二神经网络标记为被训练。

6.根据前述权利要求中的任一项所述的计算机实现的方法，其中生成所述电子输出还包括将被描绘的所述结构与从所述输入图像提取的所述内容合并。

7.根据权利要求6所述的计算机实现方法，其中所述电子输出包括使用预定标记语言从根据所述结构而分离的所述输入图像提取的所述内容。

8.一种***，包括：

存储器；以及

与所述存储器耦接的处理器，所述处理器用机器学习算法进行编程并且被配置为执行方法，所述方法包括：

训练机器学习模型，所述训练包括：

接收表格数据的图像的集合以及分别与所述表格数据的图像相对应的标记数据的集合；

9.根据权利要求8所述的***，其中训练所述第一神经网络包括解析来自所述图像的集合的第一图像，以匹配来自所述第一图像的如由来自所述标记数据的集合的对应的第一标记数据指定的所述表格数据的部分。

10.根据权利要求9所述的***，其中训练所述第一神经网络还包括：

11.根据权利要求8至10中的任一项所述的***，其中训练所述第二神经网络包括：从来自所述图像的集合的第一图像提取内容，以匹配来自所述第一图像的如由来自所述标记数据的集合的对应的第一标记数据指定的所述表格数据的内容。

12.根据权利要求11所述的***，其中训练所述第二神经网络还包括：

13.根据权利要求8至12中的任一项所述的***，其中生成所述电子输出还包括将被描绘的所述结构与从所述输入图像提取的所述内容合并。

14.根据权利要求13所述的***，其中所述电子输出包括使用预定标记语言从根据所述结构而分离的所述输入图像提取的所述内容。

15.一种用于确定表格数据中的内容的计算机程序产品，所述计算机程序产品包括：

计算机可读存储介质，所述计算机可读存储介质由处理电路可读取且存储用于由所述处理电路执行以用于执行根据权利要求1至7中的任一项所述的方法的指令。

16.一种计算机程序，被存储在计算机可读介质上且可加载到数字计算机的内部存储器中，所述计算机程序包括软件代码部分，当所述程序在计算机上运行时，所述软件代码部分用于执行根据权利要求1至7中的任一项所述的方法。