CN113011144A

CN113011144A - 表单信息的获取方法、装置和服务器

Info

Publication number: CN113011144A
Application number: CN202110339506.5A
Authority: CN
Inventors: 李兆佳; 许明; 姜璐; 张宝华
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-06-22
Anticipated expiration: 2041-03-30
Also published as: CN113011144B

Abstract

本说明书提供了表单信息的获取方法、装置和服务器。基于该方法，通过先确定出目标图像中目标表单的主题类型，并获取目标表单内的文本数据、文本数据的位置信息，以及文本数据之间的基于位置的第一类依赖关系；进一步，引入预设的知识图谱，结合主题类型，构建同时包含有目标表单中的文本数据，以及文本数据之间的第一类依赖关系和基于语义的第二类依赖关系的目标表单的泛化套打表格模型；再根据上述目标表单的泛化套打表格模型，可以综合利用文本数据之间的第一类依赖关系和第二类依赖关系，根据目标规则，精准地提取出相应的文本数据作为目标表单信息。从而可以同时适用于不同表单样式的表单，进行相应的表单信息提取，具有较好的泛化性。

Description

表单信息的获取方法、装置和服务器

技术领域

本说明书属于人工智能技术领域，尤其涉及表单信息的获取方法、装置和服务器。

背景技术

在许多数据处理场景中，常常需要工作人员提取纸质表单中所关注的部分或全部的表单信息，以便后续进行数字化的数据处理。

基于现有方法，往往需要预先针对每一种表单样式单独构建并训练一个表单信息的提取模型来专门提取该种表单样式的表单中的表单信息。一旦上述表单样式发生了改变，则需要另外重新训练一个提取模型来提取对应改变后的表单样式的表单中的表单信息。可见，现有方法在实施时泛化性相对较差，无法有效地提取不同表单样式的表单中的表单信息。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本说明书提供了一种表单信息的获取方法、装置和服务器，以能同时适用于不同表单样式的表单，进行具体的表单信息提取。

本说明书提供了一种表单信息的获取方法，包括：

获取目标图像；其中，所述目标图像包含有待处理的目标表单；

确定出目标图像中所包含的目标表单的主题类型；

根据所述目标图像，获取目标表单内的文本数据和文本数据的位置信息，并确定文本数据之间的基于位置的第一类依赖关系；

根据预设的知识图谱、所述主题类型、所述目标表单内的文本数据和文本数据的位置信息，确定出文本数据之间的基于语义的第二类依赖关系，并构建得到目标表单的泛化套打表格模型；其中，所述目标表单的泛化套打表格模型包含有文本数据，以及文本数据之间的基于位置的第一类依赖关系和基于语义的第二类依赖关系；

根据目标规则，从所述目标表单的泛化套打表格模型中提取出相应的文本数据，以得到目标表单信息。

在一个实施例中，在获取目标图像之后，所述方法还包括：

对所述目标图像进行预处理；其中，所述预处理包括以下至少之一：图像标准化处理、倾斜校正处理、扭曲修复处理。

在一个实施例中，在所述预处理包括扭曲修复处理的情况下，对所述目标图像进行预处理，包括：

检测所述目标图像中的目标表单是否存在扭曲；

在确定所述目标图像中的目标表单存在扭曲的情况下，确定扭曲类型；其中，所述扭曲类型包括：目标表单自身存在的扭曲、获取目标图像时引入的扭曲；

在确定所述扭曲类型为目标表单自身存在的扭曲的情况下，调用预设的扭曲修复处理模型，处理所述目标图像；其中，所述预设的扭曲修复处理模型为包含有两个U-net堆叠而成的DocUNet结构的深度学习模型。

在一个实施例中，确定出目标图像中所包含的目标表单的主题类型包括：

利用SIFT算法处理所述目标图像，以提取得到目标图像特征；

调用预设的主题分类模型处理所述目标图像特征，以确定出目标图像中所包含的目标表单的主题类型。

在一个实施例中，所述主题类型包括以下至少之一：不动产证、结婚证、财务报表、***。

在一个实施例中，根据所述目标图像，获取目标表单内的文本数据和文本数据的位置信息，并确定文本数据之间的基于位置的第一类依赖关系，包括：

调用预设的文本检测模型，根据目标表单的主题类型，处理所述目标图像，以识别并确定出目标图像中的多个文本图像区域；其中，所述文本图像区域包含有图像形式的文本数据；

调用预设的处理模型，处理所述目标图像中的多个文本图像区域，以提取出各个文本图像区域中的文本数据；

通过对目标表单进行表单结构还原处理，以确定出文本数据的位置信息；

根据文本数据的位置信息，确定出文本数据之间的基于位置的第一类依赖关系。

在一个实施例中，通过对目标表单进行表单结构还原处理，以确定出文本数据的位置信息，包括：

将所述目标图像转换为灰度图；

根据所述灰度图，将所述目标图像中的目标表单划分为多个矩形单元的组合；

根据所确定出的目标表单中的多个文本图像区域，对所述多个矩形单元的组合进行校正处理，得到矫正后的多个矩形单元的组合；

根据所述矫正后的多个矩形单元的组合，确定出各个文本数据所在的矩形单元，得到各个文本数据的位置信息。

在一个实施例中，根据预设的知识图谱、所述主题类型、所述目标表单内的文本数据和文本数据的位置信息，确定出文本数据之间的基于语义的第二类依赖关系，并构建得到目标表单的泛化套打表格模型，包括：

根据所述主题类型，从预设的知识图谱中确定出匹配的模式层；

根据所述匹配的模式层、所述目标表单内的文本数据，以及所述文本数据的位置信息，构建相应的元数据层和实例层，以得到目标表单的泛化套打表格模型。

在一个实施例中，所述目标规则包括预设的自定义提取规则；其中，所述自定义提取规则包括：自定义提取的文本数据的目标key值，和/或，自定义提取条件。

在一个实施例中，根据目标规则，从所述目标表单的泛化套打表格模型中提取出相应的文本数据，以得到目标表单信息，包括：

根据所述目标规则，确定当前是否满足自定义提取条件；

在确定当前满足自定义提取条件的情况下，根据所述目标规则，通过检索目标表单的泛化套打表格模型中的文本数据，确定出与所述目标key值对应的文本数据作为第一目标文本数据，以及基于位置的第一类依赖关系和/或基于语义的第二类依赖关系所确定的与所述第一目标文本数据对应的文本数据作为第二目标文本数据；

组合所述第一目标文本数据和所述第二目标文本数据，作为所述目标表单信息。

本说明书还提供了一种表单信息的获取装置，包括：

获取模块，用于获取目标图像；其中，所述目标图像包含有待处理的目标表单；

确定模块，用于确定出目标图像中所包含的目标表单的主题类型；

第一处理模块，用于根据所述目标图像，获取目标表单内的文本数据和文本数据的位置信息，并确定文本数据之间的基于位置的第一类依赖关系；

第二处理模块，用于根据预设的知识图谱、所述主题类型、所述目标表单内的文本数据和文本数据的位置信息，确定出文本数据之间的基于语义的第二类依赖关系，并构建得到目标表单的泛化套打表格模型；其中，所述目标表单的泛化套打表格模型包含有文本数据，以及文本数据之间的基于位置的第一类依赖关系和基于语义的第二类依赖关系；

提取模块，用于根据目标规则，从所述目标表单的泛化套打表格模型中提取出相应的文本数据，以得到目标表单信息。

本说明书还提供了一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现所述表单信息的获取方法的相关步骤。

本说明书还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述表单信息的获取方法的相关步骤。

本说明书提供的一种表单信息的获取方法、装置和服务器，由于通过引入并利用预设的知识图谱，并结合所确定出的目标表单的主题类型，来针对目标图像中的目标表单，构建同时包含有目标表单中的文本数据，以及文本数据之间的基于位置的第一类依赖关系和基于语义的第二类依赖关系的目标表单的泛化套打表格模型；再根据上述目标表单的泛化套打表格模型，同时综合文本数据之间的基于位置的第一类依赖关系和基于语义的第二类依赖关系两种维度的关联关系，根据目标规则，精准地提取出相应的文本数据作为目标表单信息。从而可以同时适用于不同表单样式的表单，进行具体的表单信息的提取，具有较好的泛化性。

附图说明

为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是应用本说明书实施例提供的表单信息的获取方法的***的结构组成的一个实施例的示意图；

图2是本说明书的一个实施例提供的表单信息的获取方法的流程示意图；

图3是本说明书的一个实施例提供的服务器的结构组成示意图；

图4是本说明书的一个实施例提供的表单信息的获取装置的结构组成示意图；

图5是在一个场景示例中，应用本说明书实施例提供的表单信息的获取方法的一种实施例的示意图；

图6是在一个场景示例中，应用本说明书实施例提供的表单信息的获取方法的一种实施例的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

考虑到基于现有方法往往需要针对每一种表单样式分别单独构建并训练一个针对该表单样式的提取模型用于处理这一种表单样式的表单，以提取相应的表单信息。基于上述方法，一旦表单样式发生了改变，就需要重新训练一个新的提取模型来出改变后的表单样式的表单。可见现有方法泛化性较差，无法有效地适用不同表单样式的表单处理。

针对产生上述问题，本说明书考虑现有方法训练并使用的提取模型，往往只考虑并使用了表单内的文本数据之间基于位置所形成的依赖关系。因此，当表单样式发生改变，表单内的文本数据的位置发生变化后，势必需要重新训练针对基于新的位置所形成的新依赖关系的提取模型。为了解决上述问题，本说明书提出可以基于语义的维度，引入并利用预设的知识图谱，结合表单的主题类型，确定出表单内文本数据之间的基于语义的第二类依赖关系；同时，结合基于结构维度所确定出的表单内文本数据之间的基于位置的第一类依赖关系，构建得到同时包含有表单内的文本数据，以及表单内文本数据之间的基于位置的第一类依赖关系和基于语义的第二类依赖关系的泛化套打表格模型。进一步，可以根据上述泛化套打表格模型，综合利用表单内的文本数据之间的基于位置的第一类依赖关系和基于语义的第二类依赖关系这两种不同维度的关系，来提取出所需要的表单信息。这样不需要过度依赖表单内文本数据之间的基于位置的第一类依赖关系，从而可以表单信息的提取具有更好的泛化性，能够同时适用于不同表单样式的表单，进行相应表单信息的提取。

本说明书实施例提供一种表单信息的获取方法，该方法具体可以应用于包含有服务器和终端设备的***中。具体可以参阅图1所示。其中，服务器和终端设备之间可以通过有线或无线的方式相连，以进行具体的数据交互。

在本实施例中，所述服务器具体可以包括一种应用于业务平台一侧，能够实现数据传输、数据处理等功能的后台服务器。具体的，所述服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者，所述服务器也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定所述服务器的数量。所述服务器具体可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集群。

在本实施例中，所述终端设备具体可以包括一种应用于用户(例如，工作人员)一侧，能够实现数据采集、数据传输等功能的前端电子设备。具体的，所述终端设备例如可以为台式电脑、平板电脑、笔记本电脑、智能手机等。或者，所述终端设备也可以为能够运行于上述电子设备中的软件应用。例如，可以是在智能手机上运行的某APP等。

在本实施例中，当工作人员收到客户提供的纸质版的财务报表(一种目标表单)后，为了能够快速地提取到财务报表中所关注的某几条表单信息，工作人员可以先通过设置于终端设备的摄像头拍摄包含有上述财务报表的照片作为包含有目标表单的目标图像。接着，终端设备可以将所采集到的上述目标图像通过有线或无线的方式发送至服务器，以请求服务器从该目标图像中提取出所关注的表单信息。

相应的，服务器接收并获取目标图像。服务器可以先通过相应处理，确定出目标图像中所包含的目标表单的主题类型为财务报表。

接着，服务器可以结合目标表单的主题类型，先调用预设的文本检测模型，处理该目标图像，以识别并确定出目标图像中的多个文本图像区域。其中，每一文本图像区域包含有目标表单中图像形式的文本数据。然后，服务器可以调用预设的处理模型，处理所述目标图像中的多个文本图像区域，以识别提取出各个文本图像区域中的文本数据。进而，服务器可以通过对目标表单进行表单结构还原处理，以确定出文本数据的位置信息。并根据文本数据的位置信息，确定出文本数据之间基于位置的第一类依赖关系。

进一步，服务器可以根据预设的知识图谱、主题类型，以及表单内的文本数据和文本数据的位置信息，确定出表单内文本数据之间的基于语义的第二类依赖关系。进而可以通过构建元数据层和实例层，得到同时包含有表单内的文本数据，以及文本数据之间的第一类依赖关系和第二类依赖关系的泛化套打表格模型。

然后，服务器可以获取相应的目标规则。服务器根据上述目标规则，在上述泛化套打表格模型中，不需要担心不同表单样式中表单结构的差异，可以综合利用第一类依赖关系和第二类依赖关系这两种不同维度的关系，较为精准地提取出相应的文本数据，得到所关注的表单信息。服务器可以将所提取出的表单信息发送至终端设备。

相应的，终端设备接收并存储上述表单信息。同时，终端设备还可以向工作人员展示出所提取的表单信息，以便工作人员可以根据上述表单信息，为该客户提供相匹配的业务服务。

通过上述***同时适用于多种不同表单样式的表单，进行相应表单信息的提取，具有较好的泛化性。

参阅图2所示，本说明书实施例提供了一种表单信息的获取方法。其中，该方法具体应用于服务器一侧。具体实施时，该方法可以包括以下内容。

S201：获取目标图像；其中，所述目标图像包含有待处理的目标表单。

S202：确定出目标图像中所包含的目标表单的主题类型。

S203：根据所述目标图像，获取目标表单内的文本数据和文本数据的位置信息，并确定文本数据之间的基于位置的第一类依赖关系。

S204：根据预设的知识图谱、所述主题类型、所述目标表单内的文本数据和文本数据的位置信息，确定出文本数据之间的基于语义的第二类依赖关系，并构建得到目标表单的泛化套打表格模型；其中，所述目标表单的泛化套打表格模型包含有文本数据，以及文本数据之间的基于位置的第一类依赖关系和基于语义的第二类依赖关系。

S205：根据目标规则，从所述目标表单的泛化套打表格模型中提取出相应的文本数据，以得到目标表单信息。

通过上述实施例，能够同时较好地适用于多种不同表单样式的表单处理，高效、便捷地进行具体的表单信息提取，具有较好的泛化性。

在一个实施例中，上述目标图像具体可以是包含有待处理的目标表单的照片，也可以是包含有待处理的目标表单的截图，还可以是包含有待处理的目标表单的影印文件等等。

在一个实施例中，上述目标表单具体可以理解为一种待处理的套打表格(或者称套打表单)。具体的，上述目标表单可以是具有真实的表格结构或者近似的表格结构，且包含有相关文本数据的文档数据。例如，财务报表(具有真实的表格结构)、不动产证明(具有近似的表格结构)等等。

其中，套打表单具体可以理解为套打表单场景下生成的非数字形式的表单(例如，纸质形式的表单)。具体的，在套打表单的场景下，套打是指在表单底版(可能不止一套)的基础上，在业务办理过程中将具体的内容文本打印上去。在该场景下生成的表单可能存在打印文本错位、倾斜等问题，进而导致出现文本与底版数据粘连、超越表格线等情况，增加了套打表单中的表单信息自动识别提取的难度。

此外，在通过拍摄等方式获取包含有表单的图像时，还会由于拍摄表单实物(例如，纸质的表单)本身存在翻折或卷曲，或者拍摄时使用的设备屏幕存在屏闪线、有折痕等噪声干扰，进一步增加了套打表单中表单信息自动识别提取的难度。

在一个实施例中，在获取目标图像之后，所述方法具体实施时，还可以包括以下内容：对所述目标图像进行预处理；其中，所述预处理包括以下至少之一：图像标准化处理、倾斜校正处理、扭曲修复处理。

通过上述实施例，可以先对目标图像进行相应的预处理，以先消除图像中的部分数据误差，得到效果相对较好的、精度相对较高的预处理后的目标图像，用于参与后续的表单信息的提取，从而可以提高后续表单信息的提取精度。

在一个实施例中，获取目标图像具体可以包括：通过拍摄设备(例如，手机、相机等)拍摄包含有目标表单的照片作为所述目标图像；或者，通过扫描仪扫描目标表单以得到包含有目标表单的影印文件作为所述目标图像等。当然，上述所列举的获取目标图像的方式只是一种示意性说明。具体实施时，根据具体的应用场景和处理需求，还可以采用其他合适的方式来获取目标图像。对此，本说明书不作限定。

在一个实施例中，上述图像标准化处理具体可以包括以下内容：结合全局阈值和Niblack法对目标图像进行二值化处理；和/或，利用高斯滤波器对目标图像进行去噪处理；和/或，根据具体情况和处理需求，对目标图像进行尺寸缩放操作等等。

在一个实施例中，上述倾斜校正处理具体可以包括以下内容：倾斜角度检测和图像旋转两个过程。其中，所检测的倾斜角度具体可以包括：同平面横向上的倾斜角度，和沿z轴垂向上的倾斜角度。

在本实施例中，可以通过对透视变换对目标图像进行倾斜校正处理。具体的，可以先基于Hough变换的倾斜校正，利用坐标空间和参数空间的对偶关系实现针对目标图像的几何形状的检测；同时，还可以引入基于四分类算法训练得到的字符角度检测模型，实现针对字符的0度、90度、180度、270度的四种倾斜角检测。进一步，可以获取并综合利用上述两种检测得到的检测结果，对目标图像进行针对性倾斜校正。从而可以提高倾斜校正的校正效果。

在一个实施例中，在所述预处理包括扭曲修复处理的情况下，上述对所述目标图像进行预处理，具体实施时，可以包括以下内容：检测所述目标图像中的目标表单是否存在扭曲；在确定所述目标图像中的目标表单存在扭曲的情况下，确定扭曲类型；其中，所述扭曲类型包括：目标表单自身存在的扭曲、获取目标图像时引入的扭曲；在确定所述扭曲类型为目标表单自身存在的扭曲的情况下，调用预设的扭曲修复处理模型，处理所述目标图像；其中，所述预设的扭曲修复处理模型为包含有两个U-net堆叠而成的DocUNet结构的深度学习模型。

通过上述实施例，可以更加精准、有效地对目标图像进行扭曲修复处理，从而可以得到效果相对较好、精度相对较高的目标图像。

在一个实施例中，具体实施前，可以先构建包含有两个U-net堆叠而成的DocUNet结构的初始模型；再利用初始模型，对相应场景中的样本数据集进行深度学习，以训练得到针对目标表单自身所存在的扭曲进行对应校正恢复的预设的扭曲修复处理模型。

在一个实施例中，在确定所述扭曲类型为获取目标图像时引入的扭曲的情况下，所述方法具体实施时，还可以包括：采用预先构建的基于Hough直线的自动角点检测算法，处理目标图像，以先自动确定出目标图像中目标表单的四个角点，再基于上述四个角点进行具体的透视矫正处理。

在一个实施例中，对应不同的应用场景，上述目标表单可以是不同类型、不同内容的文件数据。相应的，目标表单的主题类型也可以多样的。

在一个实施例中，所述主题类型具体可以包括以下至少之一：不动产证、结婚证、财务报表、***等。当然，上述所列举的主题类型只是一种示意性说明。具体实施时，根据具体的应用场景和处理需求，还可以包括其他的主题类型。例如，在银行的业务办理场景中，上述目标表单的主题类型还可以包括：不动产证明、驾驶证、支票等等。对此，本说明书不作限定。

通过上述实施例，可以将本说明书所提供的表单信息的获取方法拓展应用到多种不同的场景中，以处理多种不同主题类型的表单。

在一个实施例中，上述确定出目标图像中所包含的目标表单的主题类型，具体实施时，可以包括以下内容：利用SIFT算法处理所述目标图像，以提取得到目标图像特征；调用预设的主题分类模型处理所述目标图像特征，以确定出目标图像中所包含的目标表单的主题类型。

其中，上述SIFT也可以称为尺度不变特征变换，用于在图像处理领域中确定出具有尺度不变性的关键点。相应的，具体实施实施，可以通过利用SIFT算法处理所述目标图像，找出关键点；再针对关键点提取相应的图像特征，作为目标图像特征，从而可以较为快速、准确地找出效果较好的目标图像特征。

其中，上述预设的主题分类模型具体可以理解为一种预先训练好的用于根据图像特征确定出图像中表单的主题类型的分类模型。

具体的，上述预设的主题分类模型可以是一种基于CNN结构的分类模型。相应的，具体实施时，预设的主题分类模型可以根据输入的目标图像特征，通过进行特征匹配，从之前训练学习过的多个主题类型中找到与当前的目标图像中的目标表单近似度最高的主题类型，作为该目标表单的主题类型。

通过上述实施例，可以较为高效、精准地确定出目标图像中的目标表单的主题类型。

在一个实施例中，上述第一类依赖关系具体可以理解为不同文本数据之间基于在目标表单的表单结构中的位置信息所确定出的一种关联关系。其中，上述位置信息具体可以是指文本数据在目标表单的表单结构中的坐标参数，也可以是指文本数据在目标表单中的矩形单元的单元编号等。

具体的，例如，在目标表单中，文本数据“姓名”所在的矩形单元的单元编号为4，文本数据“张三”所在的矩形单元的单元编号为5。根据上述位置信息，可以确定上述两个文本数据“姓名”和“张三”属于临近位置的文本数据，进而可以判断上述两个文本数据之间存在基于位置的第一类依赖关系，即，文本数据“姓名”和“张三”是存在关联关系的。

在一个实施例中，上述根据所述目标图像，获取目标表单内的文本数据和文本数据的位置信息，并确定文本数据之间的基于位置的第一类依赖关系，具体实施时，可以包括以下内容：调用预设的文本检测模型，根据目标表单的主题类型，处理所述目标图像，以识别并确定出目标图像中的多个文本图像区域；其中，所述文本图像区域包含有图像形式的文本数据；调用预设的处理模型，处理所述目标图像中的多个文本图像区域，以提取出各个文本图像区域中的文本数据；通过对目标表单进行表单结构还原处理，以确定出文本数据的位置信息；根据文本数据的位置信息，确定出文本数据之间的基于位置的第一类依赖关系。

通过上述实施例，可以先准确地识别出目标图像中的目标表单内的文本数据，并精准地定位得到上述文本数据在基于目标表单的表单结构的位置信息；再从位置结构的维度，根据文本数据的位置信，确定出文本数据之间基于位置的第一类依赖关系。

在一个实施例中，上述预设的文本检测模型具体可以是预先利用复杂场景下采集的训练样本数据，对PSENet模型进行训练所得到文本检测模型。

其中，上述复杂场景下采集的训练样本数据可以包括：打印的字符存在一定程度倾斜的样本数据，和/或，打印字符之间存在字符黏连的样本数据，和/或打，印字符和底板字符之间存在字符黏连的样本数据等。

上述文本图像区域具体可以理解为目标图像中包含有目标表单中部分位置集中在一起的文本数据的图像区域。需要说明的是，上述文本图像区域中的文本数据属于一种图像形式的数据，属于图像数据，无法直接提取。

利用这样的预设的文本检测模型能够适用于复杂、多样环境下的目标图像中目标表单的文本数据检测，能够在目标图像中检测并定位出多种不同形状的文本图像区域，并实现对相近的不同文本图像区域之间的分离，以便后续可以更加精准地提取出各个文本图像区域中的文本数据。

在一个实施例中，具体实施时，可以调用预设的处理模型针对所确定出各个文本图像区域进行针对性的图像处理，以识别各个文本图像区域中文本数据，并转换为对应文本形式(或者称字符形式)的文本数据，从而可以精细地提取出各个文本图像区域中的文本数据。

在一个实施例中，上述预设的处理模型具体可以是一种预先训练得到的基于CNN+RNN+CTC架构的神经网络模型。其中，上述CTC是一种损失算法，可以使得所训练得到的预设的处理模型具有更好的处理效果，以解决训练过程中网络模型提取到的字符序列与GroundTruth的字符序列无法对齐的问题。

基于上述预设的处理模型，具体处理目标图像中的多个文本图像区域时，以处理任意一个文本图像区域为例，可以先通过预设的处理模型中CNN结构提取出该文本图像区域中图像形式的文本数据的图像特征；然后再调用LSTM结构处理上述图像特征，以进一步提取到该文本图像区域中图像形式的文本数据的字符序列；进而可以根据上述字符序列到该文本区域中的文本形式的文本数据。

通过上述处理，可以从目标图像中提取出各个位置区域的文本数据，并区分不同位置区域的文本数据；同时，也大致定位出了各个文本数据所在的位置区域。

在一个实施例中，上述通过对目标表单进行表单结构还原处理，以确定出文本数据的位置信息，具体实施时，可以包括以下内容：将所述目标图像转换为灰度图；根据所述灰度图，将所述目标图像中的目标表单划分为多个矩形单元的组合；根据所确定出的目标表单中的多个文本图像区域，对所述多个矩形单元的组合进行校正处理，得到矫正后的多个矩形单元的组合；根据所述矫正后的多个矩形单元的组合，确定出各个文本数据所在的矩形单元，得到各个文本数据的位置信息。

通过上述实施例，可以较为准确、完整地还原出目标图像中目标表单的表单结构，进而可以根据上述表单结构精准地确定出目标表单内的各个文本数据的位置信息。

在一个实施例中，在得到灰度图之后，可以基于灰度图对目标图像中构成目标表单的表单结构的矩形单元进行清洗、组合。具体实施时，首先，可以通过对灰度图进行腐蚀、模糊、亮度均衡化及二值化处理，得到线条被强化、效果更好的黑白图像。接着，可以基于黑白图像中的目标表单的表单结构，构造相应的横向和纵向的结构元素。再通过进行腐蚀和膨胀操作，以分别获得横向直线和纵向直线，并确定出直线之间的交叉点。进一步，可以根据所得到的交叉点，重新构造矩形单元(或者称矩形单元格)，形成初步划分出的多个矩形单元，得到与目标表单的表单结构对应的多个矩形单元的组合。

由于初步得到的上述多个矩形单元的组合中的矩形单元可能还包括有需要另外利用两点之间原本不存在的线来合并的相邻单元格，或者还包括有受噪声误差干扰所产生的额外的单元格等误差。因此，还需要对上述多个矩形单元的组合进行诸如合并、删除等操作进行校正。

具体的，考虑到在一些场景下的套打表单(例如，目标表单)容易出现字符与边框重叠的情况，在进行校正时，可以引入之前通过预设的文本检测模型输出的定位结果，以及预设的处理模型输出的识别结果作为辅助，对上述多个矩形单元的组合中的各个矩形单元进行分析，先根据定位结果，判断边线附近是否有文字块(例如，文本图像区域)的存在，如果有则文字块的像素可能会对边线的识别造成干扰。因此，可以从边线区域中抠去上述文字块的图像区域，再判断剩余部分的像素比例是否可能构成直线线段。如果剩余部分可以构成直线线段，则判定该矩形单元的这条边线是存在的。否则就根据其他的定位结果确定是要和相邻单矩形单元进行合，或者直接删除该矩形单元等。通过上述校正，可以得到更加符合目标表单的表单结构的多个矩形单元的组合。

在一个实施例中，考虑到一些目标表单在打印时，还一并打印出相关的水印字符等作为底板字符。为了能够更加精准地提取所需要的表单信息，可以对目标表单中的底板字符进行检测和过滤，以消除底板字符所表单信息提取的影响。

在一个实施例中，还考虑到由于套打表单中有时会同时存在底板字符和套打字符。其中，底板字符相对表单中的表格的位置通常是准确、正常的，而套打字符则常常会相对表格会存在偏移。因此，还可以针对套打字符进行的位置还原处理，从而可以更好地还原出目标表单的表单结构，得到效果更好的多个矩形单元组合。

其中，所采用位置还原算法是基于所有套打字符相对底板字符的偏移是一致的这一假设设计运行的。具体的，该算法的输入的是多个矩形单元的组合，以及预设的文本检测模型输出的定位结果和预设的处理模型输出的识别结果。

在一个实施例，基于上述位置还原算法具体进行位置还原处理时，首先，可以考虑表格内部的底板字符通常在矩形单元中垂直居中的位置处，对于文本图像区域(例如，文字块)的中心与所在的矩形单元中心之间的距离小于设定阈值的，则认为该文本图像区域中的文本数据属于底板字符。进而可以直接将提取到的文本数据填入对应的矩形单元中，同时将该文本图像区域移出套打文字列表W。另外，对于套打表格，表单结构上除了所包含的矩形单元作为主体结构外，通常在头部位置还会包含有例如标题等内容，在尾部位置还会包含有例如日期落款等内容，这两部分内容在处理时是被排除在表格以外的。对于这两部分内容所在文本图像区域，可以直接视为两个大行，并作为到后续待生成的表格模型头尾。

接着，还需要计算套打文符的偏移，当所有字符与矩形单元的匹配程度较高，且不与底板字符发生冲突时，可以认为总偏差较小，字符的偏移值是最符合实际情况。对于其他的矩形单元，可以设处于中位数的矩形单元的高度为MH，在[-MH，MH]的范围内均匀地取十个值得到偏移候选集，记为T。对于偏移候选集中的每个偏移值τ∈T，定义如下惩罚函数：

其中，

表示任意一个套打文字块(即文本图像区域)，W_y表示文字块w的纵向坐标，minoff(w_y+τ)表示取偏移为τ时，w与最近行的垂直方向中心距离，penalty(w_y+τ)的数值在当前情况下与w距离最近的矩形单元中有存在底板字符的情况下为一个正值，否则为0。对于所有文字块，遍历T，并计算各偏移情况下的惩罚函数。当惩罚函数最小时，表明在当前偏移情况下，文字块到表格中的填充情况是较合适的，偏差的总和也较小。

进而，可以按照这个偏差取值，可以将文字块填入对应的矩形单元中，得到一种复原的表单结构，作为一种效果更好的，携带有所对应文本图像区域的多个矩形单元的组合。根据上述多个矩形单元组合，可以更加准确、方便地确定出各个文本数据的位置信息。

在一个实施例中，上述根据预设的知识图谱、所述主题类型、所述目标表单内的文本数据和文本数据的位置信息，确定出文本数据之间的基于语义的第二类依赖关系，并构建得到目标表单的泛化套打表格模型，具体实施时，可以包括以下内容：根据所述主题类型，从预设的知识图谱中确定出匹配的模式层；根据所述匹配的模式层、所述目标表单内的文本数据，以及所述文本数据的位置信息，构建相应的元数据层和实例层，以得到目标表单的泛化套打表格模型。

通过上述实施例，可以引入并利用预设的知识图谱中沉淀的数据知识，从语义的维度找出目标表单中不同文本数据之间基于语义的第二类依赖关系，进而可以构建得到较为完整的、使用效果较好的，同时包含有基于位置的第一类依赖关系和基于语义的第二类依赖关系的目标表单的泛化套打表格模型。

在一个实施例中，上述目标表单的泛化套打表格模型具体为一种同时包含有目标表单中的文本数据，以及文本数据之间基于位置的第一类依赖关系和基于语义的第二列依赖关系的数据模型。具体的，上述目标表单的泛化套打表格模型包含有元数据层和实例层两部分结构。基于上述目标表单的泛化套打表格模型，可以根据具体情况和处理需求，有选择地利用第一类依赖关系和/或第二类依赖关系，从而可以适用于更多的表单模式，精确地提取到所需要的表单信息。

具体实施时，可以通过将预设的知识图谱中的匹配的模式层，导入到之前通过表单结构还原得到的包含有文本数据，以及文本数据之间基于位置的第一类依赖关系的多个矩形单元的组合中，以得到上述目标表单的泛化套打表格模型。

在一个实施例中，上述预设的知识图谱具体可以理解为一种预先通过对大量外部不同领域的语料数据进行学习训练所得到的沉淀有大量不能领域的数据知识，能够较为完整地反映出不同领域的数据对象(例如，实体对象)之间的关联关系的语义网络。利用上述预设的知识图谱，可以对现实世界的实体及其相互关系进行形式化地描述。

其中，上述预设的知识图谱的逻辑结构可以分为两个层次：数据层和模式层。

在数据层中，可以通过三元组，例如，G＝(E1,R,E2)来表示预设的知识图谱中的具体数据。其中，G：表示知识图谱；E：表示知识图谱中的实体；R：表示知识图谱中的关系，可以用来连接两个实体，刻画它们之间的关联关系。本质上，预设的知识图谱可以理解为一种揭示实体之间的关联关系的语义网络，可以将实体对象及其相互关系进行形式化地描述。

进一步，在数据层之上的模式层，可以理解为是预设的知识图谱的核心。在模式层中具体可以存储有是经过提炼的数据知识。通常可以采用本体库来管理预设的知识图谱的模式层。其中，本体是对概念进行建模的规范，可以理解为是描述客观世界的抽象模型，以形式化的方式对概念及其之间的关联联系给出明确定义。此外，本体最大的特点在于它是共享的。本体反映的知识是一种明确定义的共识。具体的，领域本体则是更具有专业性的本体，用于描述特定领域中的概念和概念之间的关系，提供了某个特定领域中概念的词表以及概念间的关系。

在本实施例中，可以引入涉及多领域的预设的知识图谱，并将之前所确定出的主题类型与多领域的预设的知识图谱的模式层进行语义匹配，以从预设的知识图谱中找到对应领域知识图谱的模式层(即匹配的模式层)作为上述模型的元数据层，为后续具体的表单信息提取提供标准化依据。

在实例层中，可以沿用预设的知识图谱的数据层中的数据表示方式，利用三元组的形式将每一个实例表示为以下形式：(subject,predicate,object)，以构建得到庞大的实体关系网络。这样的表示方式可以使得实例信息能够被计算机所接受并便于后续的智能应用。

本实施例所针对的面向泛化场景下的泛化套打表格模型，实例层数据具体可以分为：表头信息、单元格实例、尾部附加信息等。其中，表头信息和尾部附加信息可以不在套打表格模型的范围之内，即只关注表单内文本数据。再由通用文字识别模块统一识别后进行封装。其中，每一个矩形单元实例(例如，单元格实例)作为套打表单的主体部分，具体可以包含有底板字符和/或套打字符。在本模型中，可以同时记录下单元格相应的位置信息与文本数据，以构成具体的单元格实例。

在一个实施例中，所述目标规则具体可以包括预设的自定义提取规则；其中，所述自定义提取规则包括：自定义提取的文本数据的目标key值，和/或，自定义提取条件。

其中，上述自定义提取规则具体可以是用户根据具体情况，从规则库所保存的多个已有的提取规则中找出的与自己需求相匹配的提取规则；也可以是用户根据具体情况和需求，重新设计、编写的一个全新的提取规则。

通过上述实施例，可以允许用户根据具体情况和处理需求，选择使用自定义的提取规则来提取目标表单信息，从可以满足用户多样化的需求，提高用户的使用体验。

在一个实施例中，上述根据目标规则，从所述目标表单的泛化套打表格模型中提取出相应的文本数据，以得到目标表单信息，具体实施时，可以包括以下内容：根据所述目标规则，确定当前是否满足自定义提取条件；在确定当前满足自定义提取条件的情况下，根据所述目标规则，通过检索目标表单的泛化套打表格模型中的文本数据，确定出与所述目标key值对应的文本数据作为第一目标文本数据，以及基于位置的第一类依赖关系和/或基于语义的第二类依赖关系所确定的与所述第一目标文本数据对应的文本数据作为第二目标文本数据；组合所述第一目标文本数据和所述第二目标文本数据，作为所述目标表单信息。

通过上述实施例，可以根据目标规则，针对复杂、多样的表单信息提取场景，基于目标表单的泛化套打表格模型，精准地提取出满足用户要求的表单信息。

在一个实施例中，由于是基于目标表单的泛化套打表格模型来提取表单信息，因此，可以基于多种提取依据(例如，单独基于第一类依赖关系，或者，单独基于第二类依赖关系，还或者，同时基于第一类依赖关系和第二类依赖关系)，更加灵活、精准地提取出所需要的表单信息，减少提取表单信息时的误差。

具体的，可以先根据第一类依赖关系和/或第二类依赖关系，将所确定出的目标表单中的文本数据进行分类，确定各个文本数据的类型是属于“key”还是“value”；再根据目标规则检索类型为“key”文本数据，找出与目标key值对应的文本数据，作第一文本数据；进一步，再根据第一文本数据，以及第一类依赖关系和/或第二类依赖关系，检索类型为“value”的文本数据，以找出与第一文本数据存在关联关系的文本数据，作为第二文本数据；最后可以将上述第一文本数据和第二文本数据进行组合，得到结构化数据，作为目标表单信息。

在一个实施例中，具体提取表单信息时，可以将目标表单的泛化套打表格模型作为输入，实现将非结构化的表单数据识别并转换为键值对(key-value)格式的结构化数据。

进一步，具体处理时，可细分为两个串行的子流程：文本分类流程和规则匹配流程。其中，文本分类流程可以包括：将每个矩形单元中的文本数据分类归为“key”或“value”中的一种；规则匹配流程可以包括：以面向表单结构的规则引擎为支撑，以表单内容及文本数据分类结果为输入，根据诸如自定义提取规则等目标规则，来将目标表单中所关注的表单信息转换为键值对格式的结构化数据进行获取。

具体的，上述文本分类流程具体可以基于泛化套打表格模型实现对矩形单元中的文本数据的分类。其中，泛化套打表格模型中包含从底板字符和打印字符中提取的矩形单元实例，同时还包含有键和值两种类型。具体实施时，可以将泛化套打表格模型的元数据层作为分类的参考依据，通过计算矩形单元中实例的文本数据与元数据层中的数据之间的语义相似度，高效且准确地对矩形单元实例进行分类。

上述规则匹配流程具体可以更多地利用矩形单元实例的位置信息，根据预先构建面向表单结构的规则引擎，实现根据矩形单元、行、列所属的键、值类别，以及它们之间的关系，来匹配符合目标规则的表单中文本数据，从而可以得到JSON格式的结构化数据，并通过目标规则来实现泛化套打表格模型的相关表单信息的抽取。

在一个实施例中，具体进行规制匹配时，具体向规则引擎输入的可以是由泛化套打表格模型还原的电子化表单(Excel)数据，输出的是JSON格式的结构化数据。

其中，上述规则引擎具体可以理解为一种推理引擎。通过该引擎，可以根据已有的事实，从规则库中匹配出规则，并处理存在冲突的规则，执行最后筛选通过的规则(即目标规则)。

此外，通过聚类大量表单结构，发现：表单结构一般具有如下两种情况：1)key和value行内相邻；2)第一行(或第一列)全部为key，其余矩形单元为value。

基于以上发现，在本实施例中，期望能根据矩形单元、行、列所属的key、value类别，以及它们之间的关系，来匹配出符合规则的矩形单元实例，从而得到JSON格式的结构化数据。

基于上述考虑，设计并实现了面向表单结构的规则引擎。同时，上述规则引擎还配置并维护一个规则库，支持人工进行自定义的提取规则的增删改查等操作。

在本实施例中，基于规则引擎进行表单信息提取时，规则引擎所遵循的规则定义模式可以包括基于when和then等有条件提取。其中，when表示规则的前置条件，then表示规则的后置输出。即，只有在满足when的前置条件的表单中的文本数据才能匹配成功，并按照then的输出方式来输出结果。在规则库中可以以JSON格式来保存多个提取规则。支持用户对提取规则的自定义。

具体的，例如，可以使用when和then对应的值保存自定义规则属性，若待匹配的文本数据在m行n列，并记为self，top_0表示self最上方的矩形单元，即第0行第n列。该规则可以表示为：若当前矩形单元中文本数据的类别为“value”，其最上方的矩形单元中文本数据的类别为“key“”，则可得到一个键值对。其中，键为“top_0”所表示的矩形单元实例中的文本数据，值为当前的矩形单元实例中的文本数据。具体的，例如，可以参阅以下所示的规则表示：{"when":{"top_0":"key","self":"value"},"then":{"key":"top_0","value":"self"}}。

此外，上述规则引擎还支持对诸如“top,top_2,...,left,left_2,...,column_3,row_2i+1,...”等属性进行自定义，即对任意位置的矩形单元或者行和列，支持通过人工自定义的规则能够匹配不同结构的矩形单元实例。自定义的提取规则经过规则引擎的推理匹配后，可以将电子化的套打表格模型中所包含的数据信息转换为统一的结构化关系数据。

在一个实施例中，通过上述方式提取表单信息，不仅可以获得泛化套打表格模型中的文本数据，同时还能原表并得到表单中不同矩形单元之间的依赖关系，即键值关系。进一步，可以将上述数据统一封装为矩形单元键值信息、表头与尾部附注信息，将键值对格式作为泛化套打表格模型的表单信息进行抽取并统一格式后再输出，得到对应的目标表单信息，以为后续应用提供标准化结果。

在一个实施例中，在提取得到目标表单信息之后，所述方法还可以包括：将所述目标表单信息反馈并展示给用户，以便用户可以根据所提取到的所关注的目标表单信息，进行相应的数据处理。例如，根据目标表单信息，为客户提供相匹配的业务服务。

由上可见，本说明书实施例提供的表单信息的获取方法，在获取包含有待提取表单信息的目标表单的目标图像之后，可以先确定出目标图像中目标表单的主题类型；并根据目标图像，通过相应处理获取目标表单内的文本数据和文本数据的位置信息，并确定出文本数据之间的基于位置的第一类依赖关系；进一步，引入并利用预设的知识图谱，结合目标表单的主题类型、目标表单内的文本数据和文本数据的位置信息，确定出目标表单内文本数据之间的基于语义的第二类依赖关系，构建得到同时包含有目标表单内的文本数据，以及文本数据之间的基于位置的第一类依赖关系和基于语义的第二类依赖关系的目标表单的泛化套打表格模型；进而可以根据目标规则，从上述目标表单的泛化套打表格模型中提取出相应的文本数据，作为目标表单信息。通过引入并利用预设的知识图谱，结合目标表单的主题类型，针对目标图像中的目标表单，构建同时包含有目标表单中的文本数据之间的基于位置的第一类依赖关系和基于语义的第二类依赖关系的目标表单的泛化套打表格模型；再根据上述目标表单的泛化套打表格模型，综合利用文本数据之间的基于位置的第一类依赖关系和基于语义的第二类依赖关系这两种不同维度的关系，根据目标规则，精准地提取出相应的文本数据作为目标表单信息。从而可以同时适用于多种不同表单样式的表单，进行相应表单信息的提取，具有较好的泛化性。此外，基于该方法，还可以有效地减少表单信息提取时的误差干扰，更加高效、准确地获取符合要求的目标表单信息。

本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：获取目标图像；其中，所述目标图像包含有待处理的目标表单；确定出目标图像中所包含的目标表单的主题类型；根据所述目标图像，获取目标表单内的文本数据和文本数据的位置信息，并确定文本数据之间的基于位置的第一类依赖关系；根据预设的知识图谱、所述主题类型、所述目标表单内的文本数据和文本数据的位置信息，确定出文本数据之间的基于语义的第二类依赖关系，并构建得到目标表单的泛化套打表格模型；其中，所述目标表单的泛化套打表格模型包含有文本数据，以及文本数据之间的基于位置的第一类依赖关系和基于语义的第二类依赖关系；根据目标规则，从所述目标表单的泛化套打表格模型中提取出相应的文本数据，以得到目标表单信息。

为了能够更加准确地完成上述指令，参阅图3所示，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口301、处理器302以及存储器303，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口301，具体可以用于获取目标图像；其中，所述目标图像包含有待处理的目标表单。

所述处理器302，具体可以用于确定出目标图像中所包含的目标表单的主题类型；根据所述目标图像，获取目标表单内的文本数据和文本数据的位置信息，并确定文本数据之间的基于位置的第一类依赖关系；根据预设的知识图谱、所述主题类型、所述目标表单内的文本数据和文本数据的位置信息，确定出文本数据之间的基于语义的第二类依赖关系，并构建得到目标表单的泛化套打表格模型；其中，所述目标表单的泛化套打表格模型包含有文本数据，以及文本数据之间的基于位置的第一类依赖关系和基于语义的第二类依赖关系；根据目标规则，从所述目标表单的泛化套打表格模型中提取出相应的文本数据，以得到目标表单信息。

所述存储器303，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口301可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的端口，也可以是负责进行FTP数据通信的端口，还可以是负责进行邮件数据通信的端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器302可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器303可以包括多个层次，在数字***中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在***中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

本说明书实施例还提供了一种基于上述表单信息的获取方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取目标图像；其中，所述目标图像包含有待处理的目标表单；确定出目标图像中所包含的目标表单的主题类型；根据所述目标图像，获取目标表单内的文本数据和文本数据的位置信息，并确定文本数据之间的基于位置的第一类依赖关系；根据预设的知识图谱、所述主题类型、所述目标表单内的文本数据和文本数据的位置信息，确定出文本数据之间的基于语义的第二类依赖关系，并构建得到目标表单的泛化套打表格模型；其中，所述目标表单的泛化套打表格模型包含有文本数据，以及文本数据之间的基于位置的第一类依赖关系和基于语义的第二类依赖关系；根据目标规则，从所述目标表单的泛化套打表格模型中提取出相应的文本数据，以得到目标表单信息。

在本实施例中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施例中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

参阅图4所示，在软件层面上，本说明书实施例还提供了一种表单信息的获取装置，该装置具体可以包括以下的结构模块。

获取模块401，具体可以用于获取目标图像；其中，所述目标图像包含有待处理的目标表单；

确定模块402，具体可以用于确定出目标图像中所包含的目标表单的主题类型；

第一处理模块403，具体可以用于根据所述目标图像，获取目标表单内的文本数据和文本数据的位置信息，并确定文本数据之间的基于位置的第一类依赖关系；

第二处理模块404，具体可以用于根据预设的知识图谱、所述主题类型、所述目标表单内的文本数据和文本数据的位置信息，确定出文本数据之间的基于语义的第二类依赖关系，并构建得到目标表单的泛化套打表格模型；其中，所述目标表单的泛化套打表格模型包含有文本数据，以及文本数据之间的基于位置的第一类依赖关系和基于语义的第二类依赖关系；

提取模块405，具体可以用于根据目标规则，从所述目标表单的泛化套打表格模型中提取出相应的文本数据，以得到目标表单信息。

需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

由上可见，本说明书实施例提供的表单信息的获取装置，可以同时适用于多种不同表单样式的表单，进行相应表单信息的提取，具有较好的泛化性。

在一个具体的场景示例中，可以应用本说明书提供的方法构建出能够识别提取表单信息的数据处理***，进而可以利用上述数据处理***来识别并提取出相应的表单信息。具体实现过程可以参阅以下内容。

在本场景示例中，可以结合本说明书提供的表单信息的获取方法，构建能够识别提取表单信息的数据处理***。具体可以参阅图5所示，该数据处理***具体可以包括：外部用户接口、表格图片导入接口、数据持久层、表格格式化导出接口、自定义规则修改接口以及表单识别与信息抽取设备。

其中，上述外部用户接口，用于向表单识别与信息抽取设备提供可视化操作页面，外部用户可通过该页面直观便捷地进行操作，包括：进行各类表单图片(例如，目标图像)的导入、表单信息抽取结果(例如，目标表单信息)查看，以及自定义规则的增删改查等操作。

上述表格图片导入接口，用于接收来自外部用户接口的各类表单导入请求，并支持用户图片批量上传，可以有效支地撑历史表单数据的批量统一识别与信息抽取。

上述数据持久层，作为本***的持久化存储部分，主要存储四部分数据：外部上传的原始表单图片、主题图谱抽取所引用的外部知识图谱(例如，预设的知识图谱)以及规则引擎维护的自定义规则库(包括目标规则)，底层使用非结构化数据库HDFS进行部署。

上述表格格式化导出接口，用于经由功能模块实现泛化套打场景下表单的解析，并以键值对格式输出其相关信息(例如，表单信息)。该接口还可以将抽取出的具体信息进行标准化输出，包括表头与尾部附注信息和表单键值对，并将其还原为电子表单及可视化输出。

上述自定义规则修改接口，用于接收外部用户对于规则引擎中所使用到的自定义规则库的增删改查操作，并实时同步更新至数据持久层中。

参阅图6所示，上述表单识别与信息抽取设备主要包括六个部分，分别为：套打表格图片采集、图像预处理模块、文字定位与识别模块、自适应表格还原模块、泛化套打表格模型、信息提取模块和套打表格格式化输出。

其中，具体的，上述套打表格图片采集，该模块具体可以用作数据的输入接口，所输入的泛化场景上下的套打表单图像主要包括手机拍摄上传、扫描仪接入及直接上传三种方式；同时，该模块还支持表单批量上传操作，便于实现历史表单数据的结构化输出。

上述图像预处理模块，具体用于对输入的原始表单图像(例如，包含有目标表单的目标图像)进行统一预处理，主要包括：图像标准化、倾斜校正、扭曲复原与表单特征匹配等，以为后续模块输入清晰且统一大小的表格图片及表单主题。该模块具体实现时采用了传统图像处理方法与深度学习方法相结合的方式来实现对图片的统一预处理，能够有效且全面地实现泛化场景下多样化表格的预处理工作。

上述文字定位与识别模块，具体可以包括：基于PSENet模型的文本定位和通用文字(字符)识别。该模块具体可以用于定位出套打表格中各个文本区域的位置，并识别出其对应的字符信息。利用该模块通过进行文字定位和识别后，可以提取出套打表格中的文本内容(例如，文本数据)，并且能区分不同单元格(例如，矩形单元)的文本区域(例如，文本图像区域)，进而可以输出各文本区域的定位坐标以及所提取出的字符信息作为后续模块输入。

上述自适应表格还原模块具体可以包括：表单结构还原、文字位置还原和泛化套打表格模型构建。该模块具体可以用于将由文字定位与识别模块的结果作为辅助，使用位置还原算法，实现套打表单结构还原与文字字符位置还原(以确定出文字字符之间基于位置的第一类依赖关系)。进一步，上述表单结构还原又包括：基础单元格获取、单元格清洗和单元格合并；上述文字位置还原又包括：底板文字提取、表格区域分类和套打偏移计算等。基于该模块，最后使用构建泛化套打表格模型作为该模块的规范化输出，从而可以同时引入外部知识图谱(例如，预设的知识图谱)，由图像预处理模块中获得的表单主题获取知识图谱中对应的元数据，将其作为泛化套打表格模型的元数据层，并结合复原后表格模型(包括行和末行独立恢复为文档的头部和尾部，剩余部分则是完整的电子化表格及内容)中的单元格实例，由该模块输出最终的泛化套打表格模型。

上述泛化套打表格模型具体可以是自适应表格还原模块中提到的本模型为实现表单信息提取的准确性与标准化提出，并根据当前业务主题导入对应的外部开放知识图谱得到的，该模型可分为元数据层和实例层(单元格实例、表头与尾部附加信息)两个部分。

上述信息提取模块该模块具体可以包括：基于语义相似度的文本分类和基于自定义规则引擎的表格匹配。该模块具体可以用于将泛化套打表格模型作为其输入信息，实现将非结构化的表单数据识别并转换为键值对格式的结构化数据。该模块具体可细分为两个串行的子模块：文本分类模块和表格规则匹配模块。其中，文本分类模块用于将每个单元格中的文本内容归类为“key”或“value”，规则匹配模块用于以面向表格结构的规则引擎为支撑，以表格内容及文本分类的结果为输入，根据自定义的规则来将电子表格转换为键值对格式的结构化数据。

上述套打表格格式化输出，具体可以用作本设备的最终输出模块，基于该模块最终不仅获得了泛化套打表单的文本信息，同时还能还原表单单元格之间的依赖关系，即键值关系。该模块还可以将统一封装单元格键值信息、表头与尾部附注信息，将键值对格式作为泛化套打表单信息抽取的统一格式化输出，为后续应用提供标准化结果。

通过上述场景示例，验证了本说明书所提供的方法解决了现有套打表单识别技术过度依赖表单模板特征的问题，提出的基于泛化套打表格模型的表单识别及信息抽取设备，利用业务场景相同但表单样式多样这一特点，引入业务场景相关开放的知识图谱，设计并维护自定义规则引擎，构建并使用泛化套打表格模型实现多样式套打表单的识别与结构化信息输出，提高套打表单识别与信息抽取技术的通用性与实用性。

结合具体的场景示例的应用，可以上得到表1所示的应用性能参数对比列表。

表1应用性能参数对比列表

结合上述应用性能参数对比列表，与现有方法相比，基于本说明书提出的方法建立的基于泛化套打表格模型的表单识别及信息抽取设备，在保证识别准确率的前提下，有效提升文字识别技术的通用性、自适应性和语义丰富性，以上特性体现在以下多个层面，包括：从表格分类机制来看，本说明书中的图片预处理模块中不再依赖与固定的表格版式进行分类，利用神经网络模型实现主题分类，提高表单类型的覆盖率与灵活性；从表格还原机制来看，在自适应表格还原模块引入文本位置与字符信息作为辅助，设计惩罚函数实现准确的偏移计算，提出自适应表格还原算法，实现套打场景下底板文字与打印文字的自动分离并实现位置还原；从信息提取机制来看，自适应表格还原模块中引入的外部知识图谱作为信息提取的元数据依据，在文本分类时实现语义分析并进行相似度计算，有效保文本分类的准确性。同时设计并实现基于面向表格结构的规则引擎文本匹配方法，引擎规则的定义简单且灵活，语义上与表格结构相符，且其自定义规则能覆盖大多数表格结构，实现以键值对格式输出非结构化表单的完整还原信息。在本场景示例中，为了实现表单信息准确及标准的信息提取与表述，设计并构建泛化套打表格模型，由表单主题抽取外部领域知识图谱的模式层作为其元数据层，表单的单元格实例和头部信息等作为其实例信息，将各类套打表单实现结构化的统一表示，并丰富其语义特征，有效保证了后续信息识别与提取的准确性。此外，在本场景示例中，设备最终输出为键值对格式，套打场景下底板文字和打印文字之间的依赖关系也是信息提取的关键，键值对格式的输出不仅实现还原表单的文字信息，同时将表单中存在的依赖关系与结构信息一并给出，实现泛化套打场景下文本信息之间的关联与组合，将非结构表单图片信息用结构化的方法进行完整表示与还原，有效提升了设备的实用性与完整性。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种表单信息的获取方法，其特征在于，包括：

确定出目标图像中所包含的目标表单的主题类型；

2.根据权利要求1所述的方法，其特征在于，在获取目标图像之后，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，在所述预处理包括扭曲修复处理的情况下，对所述目标图像进行预处理，包括：

检测所述目标图像中的目标表单是否存在扭曲；

4.根据权利要求1所述的方法，其特征在于，确定出目标图像中所包含的目标表单的主题类型，包括：

利用SIFT算法处理所述目标图像，以提取得到目标图像特征；

5.根据权利要求4所述的方法，其特征在于，所述主题类型包括以下至少之一：不动产证、结婚证、财务报表、***。

6.根据权利要求1所述的方法，其特征在于，根据所述目标图像，获取目标表单内的文本数据和文本数据的位置信息，并确定文本数据之间的基于位置的第一类依赖关系，包括：

7.根据权利要求6所述的方法，其特征在于，通过对目标表单进行表单结构还原处理，以确定出文本数据的位置信息，包括：

将所述目标图像转换为灰度图；

8.根据权利要求1所述的方法，其特征在于，根据预设的知识图谱、所述主题类型、所述目标表单内的文本数据和文本数据的位置信息，确定出文本数据之间的基于语义的第二类依赖关系，并构建得到目标表单的泛化套打表格模型，包括：

9.根据权利要求1所述的方法，其特征在于，所述目标规则包括预设的自定义提取规则；其中，所述自定义提取规则包括：自定义提取的文本数据的目标key值，和/或，自定义提取条件。

10.根据权利要求9所述的方法，其特征在于，根据目标规则，从所述目标表单的泛化套打表格模型中提取出相应的文本数据，以得到目标表单信息，包括：

根据所述目标规则，确定当前是否满足自定义提取条件；

11.一种表单信息的获取装置，其特征在于，包括：

12.一种服务器，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至10中任一项所述方法的步骤。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现权利要求1至10中任一项所述方法的步骤。