CN111652176B

CN111652176B - 信息提取方法、装置、设备及存储介质

Info

Publication number: CN111652176B
Application number: CN202010531578.5A
Authority: CN
Inventors: 彭家玮; 陈凯歌
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2024-05-21
Anticipated expiration: 2040-06-11
Also published as: CN111652176A

Abstract

公开了一种信息提取方法、装置、设备及存储介质，所述方法包括：获取待处理对象的文本识别结果，所述文本识别结果包括多个文本框；从所述多个文本框中，确定包含第一关键信息的第一文本框；根据所述第一文本框，对至少部分所述多个文本框进行合并，得到合并文本框；从所述合并文本框中获取目标信息。

Description

信息提取方法、装置、设备及存储介质

技术领域

本公开涉及计算机视觉技术，尤其涉及一种信息提取方法、装置、设备及存储介质。

背景技术

目前OCR(Optical Character Recognition，光学字符识别)技术已广泛应用于多个领域和行业，通过该技术可以识别出文本资料图像中的大部分文本文字。然而，如果从所识别出的文本文字中，准确地提取想要的信息，还有待进一步研究。

发明内容

本公开实施例提供了一种信息提取方案。

根据本公开的一方面，提供一种信息提取方法，所述方法包括：获取待处理对象的文本识别结果，所述文本识别结果包括多个文本框；从所述多个文本框中，确定包含第一关键信息的第一文本框；根据所述第一文本框，对至少部分所述多个文本框进行合并，得到合并文本框；从所述合并文本框中获取目标信息。

结合本公开提供的任一实施方式，所述根据所述第一文本框，对至少部分所述多个文本框进行合并，得到合并文本框，包括：获取所述多个文本框中除所述第一文本框以外的每个文本框与所述第一文本框之间的位置关系；将所述每个文本框中，与所述第一文本框之间的位置关系属于设定范围内的文本框，确定为第二文本框；将所述第一文本框与所述第二文本框作为待合并文本框，进行合并，得到所述合并文本框。

结合本公开提供的任一实施方式，所述将所述第一文本框与所述第二文本框作为待合并文本框，进行合并，得到所述合并文本框，包括：根据所述待合并文本框中各文本框所属的行，对所述待合并文本框进行合并，得到所述合并文本框。

结合本公开提供的任一实施方式，所述根据所述待合并文本框中各文本框所属的行，对所述待合并文本框进行合并，得到所述合并文本框，包括：在所述待合并文本框中属于同一行的文本框的数量为一个的情况下，将属于同一行的一个文本框，确定为一个合并文本框。

结合本公开提供的任一实施方式，所述根据所述待合并文本框中各文本框所属的行，对所述待合并文本框进行合并，得到所述合并文本框，包括：在所述待合并文本框中属于同一行的文本框的数量为多个的情况下，将属于同一行的多个文本框进行合并，得到一个合并文本框。

结合本公开提供的任一实施方式，所述属于同一行的多个文本框中每相邻两个文本框之间的距离小于第一阈值。

结合本公开提供的任一实施方式，所述从所述合并文本框中获取目标信息，包括：获取所述待处理对象的格式特征；根据所述格式特征确定目标方向；按照所述目标方向，从所述合并文本框中获取目标信息。

结合本公开提供的任一实施方式，所述按照所述目标方向，从所述合并文本框中获取目标信息，包括：以所述第一文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到第二关键信息所在的合并文本框为止；以所述第二关键信息为起始位置，按照所述第二目标方向遍历所述合并文本框，直至查找到所述第一关键信息所在的合并文本框为止，并获取按照所述第二目标方向遍历到的内容。

结合本公开提供的任一实施方式，所述方法还包括：获取相邻合并文本框之间的距离；所述按照所述目标方向，从所述合并文本框中获取目标信息，包括：以所述第一文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到距离满足第一设定条件的相邻合并文本框为止；以所述距离满足第一设定条件的相邻合并文本框中，首先遍历到的合并文本框为起始位置，按照所述第二目标方向遍历所述合并文本框，直至查找到所述第一关键信息所在的合并文本框为止，并获取按照所述第二目标方向遍历到的内容。

结合本公开提供的任一实施方式，相邻合并文本框的距离满足第一设定条件包括：所述相邻合并文本框的距离大于第一框间距离阈值；将所述相邻合并文本框作为目标相邻合并文本框，则所述目标相邻合并文本框对应的第一框间距离阈值根据以下至少一项确定：所述目标相邻合并文本框中首先遍历到的合并文本框的高度；已遍历的相邻合并文本框所包含的合并文本框之间的距离以及首先遍历到的合并文本框的高度。

结合本公开提供的任一实施方式，所述目标相邻合并文本框的第一框间距离阈值根据已遍历的相邻合并文本框所包含的合并文本框之间的距离以及首先遍历到的合并文本框的高度确定，包括：获取所述目标相邻合并文本框的更新框间距离，所述更新框间距离通过对参考相邻合并文本框所包含的合并文本框之间的距离，以及所述参考相邻合并文本框所包含的合并文本框之间的更新框间距离，进行加权求和获得，其中，所述参考相邻文本框为与所述目标合并文本框最近的相邻合并文本框；获取所述目标相邻合并文本框的更新扰动值，所述更新扰动与所述参考相邻合并文本框所包含的合并文本框之间的距离之差，所述扰动值通过对首先遍历到的所述相邻合并文本框的扰动值和距离差值的绝对值进行加权求和获得，其中，所述距离差值为所述目标相邻合并文本框的更新框间距离值根据首先遍历到的合并文本框的高度确定；根据所述更新框间距离和所述更新扰动值确定所述目标相邻合并文本框的第一框间距离阈值。

结合本公开提供的任一实施方式，所述方法还包括：按照所述目标方向，根据与所述目标信息所在区域的位置关系，从所述目标信息所在区域之外的合并文本框中确定所述目标信息对应的主体名称。

结合本公开提供的任一实施方式，按照所述目标方向，根据与所述目标信息所在区域的位置关系，从所述目标信息所在区域之外的合并文本框中确定所述目标信息对应的主体名称，包括：在所述第一目标方向上，确定与所述目标信息所在区域距离最近的合并文本框；以所述合并文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到距离满足第二设定条件的相邻合并文本框为止；以所述距离满足第二设定条件的相邻合并文本框中，首先遍历到的合并文本框为起始位置，按照所述第二目标方向遍历所述目标信息所在区域以外的合并文本框，并获取按照所述第二目标方向遍历到的内容。

结合本公开提供的任一实施方式，相邻合并文本框的距离满足第二设定条件包括：所述相邻合并文本框的距离大于第二框间距离阈值，所述相邻合并文本框所对应的第二框间距离阈值根据已遍历的所述合并文本框的高度确定。

结合本公开提供的任一实施方式，所述待处理对象至少包括如下一项：图像、电子文档；所述目标信息至少包括如下一项：地址信息、行程信息、身份信息；所述方法还包括：获取待填写表单，其中，所述待填写表单包含至少一个填写项；将所述目标信息与所述至少一个填写项进行匹配，得到匹配结果；根据所述匹配结果，将所述目标信息填入匹配的填写项。

结合本公开提供的任一实施方式，所述待处理对象包括飞机行程单，所述目标提取信息包括行程信息中的时间信息和航班信息，所述方法还包括：获取所述飞机行程单包括的日期及航班号；建立所述日期与所述航班号之间的匹配关系；其中，每个匹配关系用于表示一段航程，所述每个匹配关系包括一个日期和一个航班号。

结合本公开提供的任一实施方式，所述建立所述日期与所述航班号之间的匹配关系，包括：将所述日期和所述航班号分别进行配对，获得多种配对方式，每种配对方式中获得至少一个航班日期对；获取每种配对方式中，各个航班日期对的距离之和，其中，所述航班日期对的信息为日期的文本框中心点与航班号的文本框中心点之间的欧式距离；根据所述距离之和，确定所述配对方式的匹配得分，所述距离之和的取值与所述匹配得分的取值呈负相关；将匹配得分最高的方式确定为目标配对方式，获得所述目标配对方式中的航班日期对。

根据本公开的一方面，提供一种信息提取装置，获取单元，用于获取待处理对象的文本识别结果，所述文本识别结果包括多个文本框；确定单元，用于从所述多个文本框中，确定包含第一关键信息的第一文本框；合并单元，用于根据所述第一文本框，对至少部分所述多个文本框进行合并，得到合并文本框；提取单元，用于从所述合并文本框中获取目标信息。

结合本公开提供的任一实施方式，所述合并单元具体用于：获取所述多个文本框中除所述第一文本框以外的每个文本框与所述第一文本框之间的位置关系；将所述每个文本框中，与所述第一文本框之间的位置关系属于设定范围内的文本框，确定为第二文本框；将所述第一文本框与所述第二文本框作为待合并文本框，进行合并，得到所述合并文本框。

结合本公开提供的任一实施方式，所述合并单元在用于将所述第一文本框与所述第二文本框作为待合并文本框，进行合并，得到所述合并文本框时，具体用于：根据所述待合并文本框中各文本框所属的行，对所述待合并文本框进行合并，得到所述合并文本框。

结合本公开提供的任一实施方式，所述合并单元具体用于：在所述待合并文本框中属于同一行的文本框的数量为一个的情况下，将属于同一行的一个文本框，确定为一个合并文本框。

结合本公开提供的任一实施方式，所述合并单元具体用于：在所述待合并文本框中属于同一行的文本框的数量为多个的情况下，将属于同一行的多个文本框进行合并，得到一个合并文本框。

结合本公开提供的任一实施方式，所述提取单元具体用于：获取所述待处理对象的格式特征；根据所述格式特征确定目标方向；按照所述目标方向，从所述合并文本框中获取目标信息。

结合本公开提供的任一实施方式，所述目标方向包括第一目标方向和第二目标方向，所述第一目标方向用于指示定位所述目标信息所处区域的过程中遍历所述合并文本框的方向，所述第二目标方向用于指示从所述目标信息所处区域中读取所述目标信息的方向。

结合本公开提供的任一实施方式，所述提取单元在用于按照所述目标方向，从所述合并文本框中获取目标信息时，具体用于：以所述第一文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到第二关键信息所在的合并文本框为止；以所述第二关键信息为起始位置，按照所述第二目标方向遍历所述合并文本框，直至查找到所述第一关键信息所在的合并文本框为止，并获取按照所述第二目标方向遍历到的内容。

结合本公开提供的任一实施方式，所述装置还包括距离获取单元，用于获取相邻合并文本框之间的距离；所述提取单元在用于按照所述目标方向，从所述合并文本框中获取目标信息时，具体用于：以所述第一文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到距离满足第一设定条件的相邻合并文本框为止；以所述距离满足第一设定条件的相邻合并文本框中，首先遍历到的合并文本框为起始位置，按照所述第二目标方向遍历所述合并文本框，直至查找到所述第一关键信息所在的合并文本框为止，并获取按照所述第二目标方向遍历到的内容。

结合本公开提供的任一实施方式，所述目标相邻合并文本框的第一框间距离阈值根据已遍历的相邻合并文本框所包含的合并文本框之间的距离以及首先遍历到的合并文本框的高度确定，包括：获取所述目标相邻合并文本框的更新框间距离，所述更新框间距离通过对参考相邻合并文本框所包含的合并文本框之间的距离，以及所述参考相邻合并文本框所包含的合并文本框之间的更新框间距离，进行加权求和获得，其中，所述参考相邻文本框为与所述目标合并文本框最近的相邻合并文本框；获取所述目标相邻合并文本框的更新扰动值，所述更新扰动值通过对首先遍历到的所述相邻合并文本框的扰动值和距离差值的绝对值进行加权求和获得，其中，所述距离差值为所述目标相邻合并文本框的更新框间距离与所述参考相邻合并文本框所包含的合并文本框之间的距离之差，所述扰动值根据首先遍历到的合并文本框的高度确定；根据所述更新框间距离和所述更新扰动值确定所述目标相邻合并文本框的第一框间距离阈值。

结合本公开提供的任一实施方式，所述装置还包括主体确定单元，用于按照所述目标方向，根据与所述目标信息所在区域的位置关系，从所述目标信息所在区域之外的合并文本框中确定所述目标信息对应的主体名称。

结合本公开提供的任一实施方式，所述主体确定单元在用于按照所述目标方向，根据与所述目标信息所在区域的位置关系，从所述目标信息所在区域之外的合并文本框中确定所述目标信息对应的主体名称时，具体用于：在所述第一目标方向上，确定与所述目标信息所在区域距离最近的合并文本框；以所述合并文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到距离满足第二设定条件的相邻合并文本框为止；以所述距离满足第二设定条件的相邻合并文本框中，首先遍历到的合并文本框为起始位置，按照所述第二目标方向遍历所述目标信息所在区域以外的合并文本框，并获取按照所述第二目标方向遍历到的内容。

结合本公开提供的任一实施方式，所述待处理对象至少包括如下一项：图像、电子文档；所述目标信息至少包括如下一项：地址信息、行程信息、身份信息；所述装置还包括表单填写单元，用于：获取待填写表单，其中，所述待填写表单包含至少一个填写项；将所述目标信息与所述至少一个填写项进行匹配，得到匹配结果；根据所述匹配结果，将所述目标信息填入匹配的填写项。

结合本公开提供的任一实施方式，所述待处理对象包括飞机行程单，所述目标提取信息包括行程信息中的时间信息和航班信息，所述装置还包括行程信息获取单元，用于：获取所述飞机行程单包括的日期及航班号；建立所述日期与所述航班号之间的匹配关系；其中，每个匹配关系用于表示一段航程，所述每个匹配关系包括一个日期和一个航班号。

结合本公开提供的任一实施方式，所述行程信息获取单元在用于建立所述日期与所述航班号之间的匹配关系时，具体用于：将所述日期和所述航班号分别进行配对，获得多种配对方式，每种配对方式中获得至少一个航班日期对；获取每种配对方式中，各个航班日期对的距离之和，其中，所述航班日期对的信息为日期的文本框中心点与航班号的文本框中心点之间的欧式距离；根据所述距离之和，确定所述配对方式的匹配得分，所述距离之和的取值与所述匹配得分的取值呈负相关；将匹配得分最高的方式确定为目标配对方式，获得所述目标配对方式中的航班日期对。

根据本公开的一方面，提供一种信息提取设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施方式所述的信息提取方法。

根据本公开的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施方式所述的信息提取方法。

本公开一个或多个实施例的信息提取方法、装置、设备及存储介质，通过在待处理对象的文本识别结果所包含的多个文本框中，确定包含第一关键信息的第一文本框，并根据所述第一文本框对至少部分文本框进行合并，得到合并文本框，并从所述合并文本框中在获取目标信息，可以实现在待处理对象中，根据待提取信息中的第一关键信息进行高效的信息提取。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本公开至少一个实施例提出的一种信息提取方法的流程图；

图2A、2B、2C、2D是本公开至少一个实施例提出的信息提取方法示意图；

图3是本公开至少一个实施例提出的一种表单自动填写方法的流程图；

图4是本公开至少一个实施例提出的信息匹配方法的流程图；

图5是示例性飞机行程单信息提取结果示意图；

图6是本公开至少一个实施例提出的一种信息提取装置的示意图；

图7是本公开至少一个实施例提出的一种信息提取设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1示出了根据本公开一些实施例的信息提取方法的流程图。如图1所示，该方法包括步骤101～步骤104。

在步骤101中，获取待处理对象的文本识别结果，所述文本识别结果包括多个文本框。

在本公开实施例中，所述待处理对象包括图像，例如行程单的图像、订单图像、护照图像等等，还包括电子文档，例如pdf文档。本领域技术人员应当理解，所述待处理对象还可以包括其他适用于进行文本识别的类型。

在一些实施例中，可以对待处理对象进行文本检测，获得所述待处理对象中包含的文本框；通过对所获得的文本框进行文本识别，识别出所述文本框中的文本文字，从而获得文本识别结果；还可以直接对待处理对象进行文本识别，获得包含文本框的文本识别结果。本公开实施例对于获取文本识别结果的具体方法不进行限制。

在步骤102中，从所述多个文本框中，确定包含第一关键信息的第一文本框。

其中，所述第一关键信息可以包括待提取信息中的至少一个元素、待提取信息的部分内容、指示待提取信息的关键词等等中的一项或多项。

例如，在待提取信息为地址信息的情况下，所述第一关键信息可以包括地址信息中的元素“邮编”，在已知地址信息所属地区的情况下，则可以确定邮编的位数。以待提取信息为泰国地址为例，由于泰国邮编为5位数字，因此可以确定所述第一关键信息是5位数字。则在步骤102中，确定包含5位数字的文本框，作为第一文本框。考虑到识别出的内容中可能包括多于5位数字的情况，比如，文本框包括8位数字等，为了减少额外的判别操作，可以在实际应用过程中，确定仅包含5位数字的文本框，作为第一文本框。

在一些实施例中，对于所查找到的邮编，还可以在利用该查找到的邮编所属地区的邮编列表中进行搜索，以确认所查找到的确实为所属地区的邮编。

在未知地址信息所属地区的情况下，可以综合世界各地邮编的位数情况，将第一关键信息确定为4位～9位的数字。则在步骤102中，分别确定包含4位～9位数字的文本框，作为第一文本框。在一种可能的实现方式中，为了减少额外的判别操作，可以确定仅包含4位～9位数字的文本框，作为第一文本框，即对于包含了10位甚至更多位数字的文本框不予考虑。

所述第一关键信息还可以是所述地址信息中的部分内容，例如所述第一关键信息为“泰国”，则在所述多个文本框中，确定包含“泰国”这样的文本内容的文本框作为第一文本框。

所述第一关键信息还包括指示所述待提取信息的关键词，以所述目标信息为地址为例，所述关键词包括“地址”、“address”，以及其他语言中表示地址的关键词。需要说明的是，在本公开中对于关键词的形式不予限定，比如，可以包括全称、缩写等多种表现形式。

在步骤103中，根据所述第一文本框，对至少部分所述多个文本框进行合并，得到合并文本框。

在本公开实施例中，待进行合并的文本框是基于所述第一文本框确定的。例如，可以根据与所述第一文本框的位置关系来确定待进行合并的文本框，并对所述待合并文本框进行合并，得到合并文本框。

在步骤104中，从所述合并文本框中获取目标信息。

通过根据所述合并文本框所包含的内容或者所述合并文本框的格式信息，或是根据所述合并文本框所包含的内容以及所述合并文本框的格式信息，可以在所述合并文本框中提取出目标信息。

在本公开实施例中，通过在待处理对象的文本识别结果所包含的多个文本框中，确定包含第一关键信息的第一文本框，并根据所述第一文本框对至少部分文本框进行合并，得到合并文本框，并从所述合并文本框中在获取目标信息，可以实现在待处理对象中，根据待提取信息中的第一关键信息进行高效的信息提取。

在一些实施例中，可以通过以下方式对文本框进行合并，得到合并文本框。

首先，获取所述多个文本框中除所述第一文本框以外的每个文本框与所述第一文本框之间的位置关系。所述位置关系包括其他文本框(即除所述第一文本框以外的任意一个文本框或是指定的文本框)与所述第一文本框的方位关系，例如在所述第一文本框的上方或下方，还包括与所述第一文本框的距离，例如与所述第一文本框在垂直方向上的像素距离，以及在水平方向上的像素距离。其中，文本框之间的距离根据两个文本框的中心点之间的距离确定。

接下来，将所述每个文本框中，与所述第一文本框之间的位置关系属于设定范围内的文本框，确定为第二文本框。例如，可以将所述第一文本框上方的文本框确定为第二文本框，或者可以将在垂直方向上与所述第一文本框的像素距离在设定阈值内的文本框确定为第二文本框等等。

之后，将所述第一文本框与所述第二文本框作为待合并文本框，进行合并，得到所述合并文本框。

在本公开实施例中，根据所述文本识别结果中的多个文本框，与包含所述第一关键信息的第一文本框位置关系，来确定待合并的文本框，并对所述合并文本框进行合并，可以将进行合并的文本框对象缩小至与目标信息相关的范围内，减少了信息处理量，提高了信息处理效率。

对所述待合并文本框的合并可以基于行来进行。也即，根据所述待合并文本框中各文本框所属的行，对所述待合并文本框进行合并，得到所述合并文本框。

在所述待合并文本框中属于同一行的文本框的数量为一个的情况下，将属于同一行的一个文本框，确定为一个合并文本框。

在所述待合并文本框中属于同一行的文本框的数量为多个的情况下，将属于同一行的多个文本框进行合并，得到一个合并文本框。

图2A示出示例性的合并结果。如图2A所示，其包括多行合并文本框，包括合并文本框201～203，其中，每行所述合并文本框是对于该行所包含的一个或多个文本框进行合并得到的。

在本公开实施例中，通过对各文本框所属的行，对待合并文本框进行合并，得到了各行对应的合并文本框，有利于进行后续的信息提取。

在一些实施例中，对于属于同一行的多个文本框，在相邻两个文本框之间的距离小于第一阈值的情况下，对所述相邻两个文本框进行合并；通过对同一行中符合上述条件的每两个相邻文本框进行合并，得到了所述行对应的一个合并文本框。其中，所述第一阈值可以根据待提取信息的格式特征具体确定。

对于属于同一行的多个文本框，在相邻文本框之间的距离大于或等于第一阈值的情况下，表明这两个相邻文本框可能不是相关的内容，不同属于待提取信息，因此不对该相邻文本框进行合并。

在对同一行的相邻文本框进行合并，得到超过一个合并文本框的情况下，根据所得到的合并文本框与所述第一文本框的位置关系，确定所述行所对应的合并文本框。例如，将与所述第一文本框在水平方向上距离最近的合并文本框，作为最终的合并文本框。

在本公开实施例中，通过以同一行的相邻文本框之间的合并条件进行限制，可以避免将不相关内容的文本框合并至所述合并文本框中，提高了信息提取的准确度。

在一些实施例中，可以根据所述待处理对象的格式特征，从所述合并文本框中获取目标信息。

所述待处理对象的格式特征，包括各行文本之间的距离特征，各行文本的字体特征，文本之间的位置关系特征等等。

根据所述格式特征，可以确定获取目标信息的目标方向，并根据所述目标方向来获取目标信息。

例如，在待提取信息为地址信息、所述第一关键信息为邮编的情况下，由于通常情况下邮编位于地址信息的末端，从而可以确定所述目标信息位于所述第一文本框的上方，从而可以确定提取目标信息的目标方向，根据该目标方向进行提取。

又例如，在待提取信息为地址信息、所述第一关键信息为指示地址信息的关键词“address(地址)”的情况下，由于关键“address”词通常位于地址信息的最前端，从而可以确定所述目标信息位于所述第一文本框的下方，从而可以确定提取目标信息的目标方向，根据该目标方向进行提取。

在本公开实施例中，通过根据待处理对象的格式特征确定目标方向，并按照所述目标方向，从所述合并文本框中获取目标信息，可以提高信息提取的效率。

在一些实施例中，所述目标方向包括第一目标方向和第二目标方向，所述第一目标方向用于指示定位所述目标信息所处区域的过程中遍历所述合并文本框的方向，所述第二目标方向用于指示从所述目标信息所处区域中读取所述目标信息的方向。

在一个示例中，以所述第一文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到第二关键信息所在的合并文本框为止；以所述第二关键信息为起始位置，按照所述第二目标方向遍历所述合并文本框，直至查找到所述第一关键信息所在的合并文本框为止，并获取按照所述第二目标方向遍历到的内容。其中，所述第二关键信息可以包括指示所述待提取信息的关键词、所述待提取信息的至少一个元素、所述待提取信息的部分内容等等。以所述目标信息为地址为例，指示地址信息的关键词包括“地址”、“address”，以及其他语言中表示地址的关键词。

参见图2A所示的示例性合并文本框，所述第一关键信息为邮编10110，以包含“邮编10110”的第一文本框为起始位置，也即从合并文本框201开始，向上遍历所述合并文本框，直至查找到第二关键信息“Address”所在的合并文本框202。再以所述第二关键信息“Address”为起始位置，向下遍历所述合并文本框，直至查找到所述第一关键信息“邮编10110”所在的合并文本框201，并获取向下遍历到的内容作为目标信息。需要说明的是，对于诸如英文释义的“地址”，对于单词中部分或是全部字母的大写、小写等形式，不予限定，可结合实际情况进行调整。也就意味着，在实际识别等处理过程中，对于ADDRESS、Address、address等，均可以采用相同的处理方式，即均被识别为“地址”。

在一个示例中，所述方法还包括：获取相邻合并文本框之间的距离。其中，所述相邻合并文本框包括在垂直方向上邻近的两个合并文本框。从所述文本识别结果中所获得的多个合并文本框，包括多对相邻合并文本框。如图2B所示，合并文本框211～214包括相邻合并文本框211～212、相邻合并文本框212～213、相邻合并文本框213～214。

以所述第一文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到距离满足第一设定条件的相邻合并文本框为止。其中，遍历包括获取所述合并文本框中的文本内容，还包括获取所述合并文本框与其相邻的合并文本框之间的距离，其中，所述相邻的合并文本框是在遍历所述合并文本框之间遍历的。接下来，以所述距离满足第一设定条件的相邻合并文本框中，首先遍历到的合并文本框为起始位置，按照所述第二目标方向遍历所述合并文本框，直至查找到所述第一关键信息所在的合并文本框为止，并获取按照所述第二目标方向遍历到的内容。其中，相邻合并文本框的距离满足第一设定条件包括：所述相邻合并文本框的距离大于第一框间距离阈值。

参见图2B所示的示例性合并文本框，所述第一关键信息为邮编10400，以包含邮编的第一文本框为起始位置，即包含“10400”的第一文本框为起始位置，也即从合并文本框211开始，向上遍历所述合并文本框。以遍历至所述合并文本框212为例，包括获取所述合并文本框212中的内容、并获取合并文本框212与合并文本框211之间的距离。其中，两个文本框之间的距离可以是两个文本框的中心点在垂直方向上的像素距离，也可以采用两个文本框对应位置之间的像素距离作为两个文本框之间的距离，比如，在两个文本框左对齐的情况下，可以将两个文本框位于左上角或是左下角的角点作为用于确定距离的两个顶点，并将这两个顶点之间的像素距离作为两个文本框之间的距离。当然，还可以采用其他与上述内容类似的方式，来确定两个文本框之间的距离。对于具体实现过程，在本公开中不予限定，可以包括但不限于上述例举的情况。在合并文本框212与合并文本框211之间的距离不满足第一设定条件，也即合并文本框212与合并文本框211之间的距离小于或等于第一框间距离阈值的情况下，则继续向上遍历。在检测出合并文本框214与合并文本框213之间的距离满足第一设定条件，也即合并文本框214与合并文本框213之间的距离大于第一框间距离阈值的情况下，则停止向上遍历。接下来，以合并文本框213为起始位置，也即以合并文本框214与合并文本框213中首先遍历到的合并文本框213为起始位置，向下遍历所述合并文本框，直至查找到所述第一关键信息邮编“10400”所在的合并文本框211，并获取向下遍历到的内容作为目标信息。

在本公开实施例中，对于第一目标方向以及第二目标方向分别指向的方向之间的关系不予限定，即第一目标方向与第二目标方向可以呈一定角度，比如，所述第一目标方向和所述第二目标方向可以是相反的(即180°)，也可以是相同的(即0°)。

在一个示例中，在所述第一关键信息位于待提取信息的开始部分时，第一目标方向可以指示向下遍历所述合并文本框，通过向下遍历所述合并文本框，直至查找到所述第二关键信息，或者查找到距离满足第一设定条件的相邻合并文本框。在所述第一关键信息位于待提取信息的开始部分的情况下，所述第一目标方向和所述第二目标方向相同，在上述进行遍历的区域按照第二目标方向再次进行遍历，获取遍历到的内容作为目标信息。

在一些实施例中，将所述相邻合并文本框作为目标相邻合并文本框，则所述目标相邻合并文本框对应的第一框间距离阈值根据以下至少一项确定：所述目标相邻合并文本框中首先遍历到的合并文本框的高度；已遍历的相邻合并文本框所包含的合并文本框之间的距离以及首先遍历到的合并文本框的高度。其中，所述目标相邻合并文本框是待确定第一框间距离阈值的两个相邻的合并文本框。在本公开实施例中，每对相邻合并文本框所对应的第一框间距离阈值可以是不同的。

在一个示例中，所述第一框间距离阈值根据所述目标相邻合并文本框中首先遍历到的合并文本框的高度确定。

以图2B中的相邻合并文本框211和212对应的第一框间距离阈值为例，由于在定位所述目标信息所在区域的过程中，各个合并文本框是由下至上进行遍历的，相邻合并文本框211和212在本示例中是首先遍历到的相邻合并文本框，可以根据合并文本框211的高度，来确定二者所对应的第一框间距离阈值。例如，将所述第一框间距离阈值设置为0.65*mean_height1(合并文本框211的高度)。

在一个示例中，所述第一框间距离阈值可以根据已遍历的相邻合并文本框所包含的合并文本框之间的距离以及首先遍历到的合并文本框的高度确定。其中，首先遍历到的合并文本框是在定位所述目标信息所在区域的过程中最先遍历的合并文本框。

以图2B中的相邻合并文本框212和213对应的第一框间距离阈值为例，可以根据已遍历的相邻合并文本框211和212之间的距离，以及最先遍历的合并文本框211的高度，来确定二者所对应的第一框间距离阈值。例如，将所述第一框间距离阈值threshold设置为mean1_distance+standard1_deviation，其中，mean1_distance表示相邻合并文本框211和212之间的距离，standard1_deviation表示合并文本框211和212对应的扰动值，standard1_deviation＝0.25*height1，height1例如为合并文本框211的高度。

在已遍历到的相邻文本框多于一对的情况下，以图2B中的相邻文本框213和214对应的第一框间距离阈值为例，可以根据已遍历的相邻合并文本框211和212之间的距离、相邻合并文本框212和213之间的距离，以及最先遍历的合并文本框211的高度，来确定目标相邻文本框213和214对应的第一框间距离阈值。

在一个示例中，可以通过以下方式确定所述目标相邻合并文本框对应的第一框间距离阈值：获取所述目标相邻合并文本框的更新框间距离，所述更新框间距离通过对参考相邻合并文本框所包含的合并文本框之间的距离，以及所述参考相邻合并文本框所包含的合并文本框之间的更新框间距离，进行加权求和获得，其中，所述参考相邻文本框为与所述目标合并文本框最近的相邻合并文本框；获取所述目标相邻合并文本框的更新扰动值，所述更新扰动值通过对首先遍历到的所述相邻合并文本框的扰动值和距离差值的绝对值进行加权求和获得，其中，所述距离差值为所述目标相邻合并文本框的更新框间距离与所述参考相邻合并文本框所包含的合并文本框之间的距离之差，所述扰动值根据首先遍历到的合并文本框的高度确定；根据所述更新框间距离和所述更新扰动值确定所述目标相邻合并文本框的第一框间距离阈值。

仍以图2B中的相邻文本框213和214对应的第一框间距离阈值为例，首先获得相邻文本框213和214所对应的更新框间距离

new_mean＝0.6*mean_distance+0.4*mean2_distance；其中，mean_distance为参考相邻合并文本框212和213所包括的合并文本框之间的更新框间距离。在本示例中，除最先遍历的相邻合并文本框之外，各相邻合并文本框对应的更新框间距离的获取方式相同。所述最先遍历的相邻合并文本框对应的更新框间距离为所包含的合并文本框之间的距离。接下来，获取更新扰动值new_deviation＝0.6*standard1_deviation+0.4*abs(mean2_distance-new_mean)，其中，standard1_deviation如前所述，表示合并文本框211和212对应的扰动值，其例如为合并文本框211的高度，mean2_distance、new_mean的含义如上所述。最后，根据以上获得的更新框间距离和更新扰动值确定目标相邻合并文本框213和214对应的第一框间距离阈值。

本领域技术人员应当理解，以上各个参数的数值仅用于示例，无意限制，各个参数的数值以及加权系数值可以根据实际需要确定。

对于图2B所示的多个合并文本框，通过应用以上所述的第一框间距离阈值确定的方法，在从合并文本框211向上遍历时，检测到合并文本框214与合并文本框213之间的距离大于对应的第一框间距离阈值，因此停止遍历，接下来从合并文本框214与合并文本框213中首先遍历到的合并文本框213作为起始位置，向下遍历各个合并文本框，直至查找到第一关键信息所在的合并文本框211为止，并获取向下遍历得到的内容。

在本公开实施例中，通过对距离阈值设置扰动值，以及根据已遍历的相邻合并文本框的距离和最先遍历到的合并文本框来更新当前距离阈值，提高了本公开实施例提出的信息提取方法的容错率，从而能够更有效地提取出目标信息。

在一些实施例中，在提取出所述目标信息之后，还可以按照所述目标方向，根据与所述目标信息所在区域的位置关系，从所述目标信息所在区域之外的合并文本框中确定所述目标信息对应的主体名称。

在多种格式的文件中，与所提取的目标区域所在区域距离最近的文本框，为所述目标信息对应的主体名称的文本框。以图2D所示的酒店订单的部分截图为例，可见所提取的地址信息上方的文本框，则为所述地址信息的主体—酒店的名称。对于名片、购物订单等文件也是如此，与地址信息、身份信息等所在区域距离最近的文本框，为这些信息的主体的名称所在的文本框。

在一个示例中，可以通过以下方法确定所述目标信息对应的主体名称。

首先，确定与所述目标信息所在区域在所述第一目标方向上距离最近的合并文本框；以所述合并文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到距离满足第二设定条件的相邻合并文本框为止；以所述距离满足第二设定条件的相邻合并文本框中，首先遍历到的合并文本框为起始位置，按照所述第二目标方向遍历所述目标信息所在区域以外的合并文本框，并获取按照所述第二目标方向遍历到的内容。

以图2C所示的合并文本框为例，合并文本框221～222中所包含的内容为根据本公开任一实施例所述的信息提取方法提取的目标信息，可以将合并文本框221～222所在的区域确定为所述目标信息所在的区域。在根据所述文本识别结果所确定的各个合并文本框中，除合并文本框221～222之外，与所述目标信息所在区域在第一目标方向上(查找遍历的方向，在本示例中为向上)距离最近的合并文本框为223(在合并文本框222和合并文本框223之间存在非目标语言的文字，如灰色部分所示，忽略不计)。以合并文本框223为起始位置，向上遍历合并文本框。由于合并文本框223上方相邻的合并文本框与合并文本框223之间的距离超过第二框间阈值，也即满足了第二设定条件(在合并文本框223的上方不存在其他合并文本框的情况下，也认为满足第二设定条件)，则将合并文本框223作为起始位置，向下遍历所述目标信息所在区域之外的合并文本框，在本示例中即为合并文本框223，从而可以将合并文本框中的内容

“XXXXXX Hotel”确定为目标信息的主体的名称，即将“XXXXXX酒店”确定为目标信息的主体的名称。

在一些实施例中，在以所述合并文本框为起始位置，按照所述第一目标方向遍历所述合并文本框时，忽略不在所述目标所在区域上方的合并文本框，也即忽略与所述目标信息所在的合并文本框在水平方向上没有交集的合并文本框。

在一个示例中，在所遍历的合并文本框中包含“)”却没有“(”的情况下，则可以忽略相邻合并文本框之间的距离条件，继续在第一目标方向上遍历合并文本框，直到查找到“(”，再根据相邻合并文本框之间的距离条件确定是否停止遍历。在该示例中，可以将第二框间距离阈值设置为0.4*mean_height(相邻合并文本框的平均高度)。

在一个示例中，在当前遍历的合并文本框中包含完整的括号“()”，或者不含括号的情况下，可以将第二框间距离阈值设置为0.6*mean_height(相邻合并文本框的平均高度)。本领域技术人员应当理解，以上的系数设置均为示例，本公开对此不进行限制。

本公开任一实施例所提出的信息提取方法可应用于各种版式的图像或电子文档，至少包括如下一项：酒店订单、飞机行程单、护照、身份证等等的图像或电子文档(例如，pdf文档)。通过将该信息提取方法应用于上述各种版式的图像或电子文档，可以提取出所述或电子文档中所包含的相应类型的目标信息，至少包括如下一项：地址信息、行程信息、身份信息等等。

鉴于当前在申请签证时，需要填写入境离境航班和酒店信息等大量信息，手续繁琐，本公开还提出了一种根据从图像或电子文档中所提出的目标信息自动填写表单的方法。

图3示出了本公开至少一个实施例提出的表单自动填写方法的流程图。如图3所示，所述方法包括步骤301～303。

在步骤301中，获取待填写表单，其中，所述待填写表单包含至少一个填写项。

其中，所述待填写表单可以是网页表单，也可以是对表单图像进行识别所得到的电子表单。例如，所述待填写表单为用于申请旅行签证的网页表单，所述网页表单包含了多个填写项，用于填写行程信息、地址信息、身份信息等等。

在步骤302中，将所述目标信息与所述至少一个填写项进行匹配，得到匹配结果。

在一个示例中，可以为每个填写项设定属性，用于指示所述填写项所填写的信息类型，例如填写航班号、姓名、地址、护照号码等等。

对于所述目标信息，可以通过根据语义内容进行分类确定所述目标信息的属性，或者通过提取关键信息确定所述目标信息的属性，从而将所述目标信息与所述填写项进行匹配，得到匹配结果。

在步骤303中，根据所述匹配结果，将所述目标信息填入匹配的填写项。

通过将与所述填写项匹配的目标信息填入所述填写项，实现所述待填写表单的自动填写。

在本公开实施例中，通过将所获取的目标信息，与待填写表单的填写项进行匹配，并根据匹配结果将所述目标信息填入匹配的填写项，可以实现待填写表单的自动填写。

对于从酒店订单、行程单、护照的图像或电子文档所提出的地址信息、行程信息和身份信息，通过本公开实施例所提出的表单自动填写方法，可以实现签证表单的自动填写，简化用户手动填写的繁琐过程，并且能够提高审查的效率。

在所述待处理对象包括飞机行程单的图像或电子文档的情况下，应用本公开实施例提出的信息提取方法，可以从所述飞机行程单中提出行程信息，包括航班信息和时间信息。对于所提取的时间信息和航班信息，本公开还提出了一种信息匹配方法，用于将一程航班所对应的日期和航班号之间的匹配关系。

图4示出本公开至少一个实施例提出的信息匹配方法的流程图。如图4所示，所述方法包括步骤401～402。

在步骤401中，获取所述飞机行程单包括的日期及航班号。

其中，所述航班号为符合设定格式的信息，例如为：航空公司代号+航班号，比如MH787，或者为航空公司名称+航班号，比如XXX Airlines(航空)874。

所述日期同样为符合设定格式的信息，包括中式日期：年-月-日，例如2020-01-01；英式日期：日-月-年，例如01/01/2020，或月-日-年，例如FEB7,2020(2020年2月7日)，等等。

在一些实施例中，可以通过在文本识别结果所包括的多个文本框中进行检索，获得符合航班格式、日期格式的信息。

在一些实施例中，对于所获取的航班号或日期，可以将在垂直方向上相邻的、中心对齐或者靠左对齐的文本框进行合并后，再次进行航班格式匹配或日期格式匹配，以支持不同格式的信息，从而能够提高信息提取的准确率。

如图5所示，通过进行信息提取，获得航班号MU240。通过将相邻的、中心对齐的文本框进行合并后，再次进行航班格式匹配，得到航班号MU2408。

在步骤402中，建立所述日期与所述航班号之间的匹配关系。其中，每个匹配关系用于表示一段航程，所述每个匹配关系包括一个日期和一个航班号。

在一些实施例中，可以通过以下方式建立所述日期和所述航班号之间的匹配关系。

首先，将所述日期和所述航班号分别进行配对，获得多种配对方式，每种配对方式中获得至少一个航班日期对。

通过将飞机行程单所包含的日期，与所包含的航班号分别进行配对，也即进行两两配对，可以获得至少一个航班日期对。以图5所示的信息提取结果为例，将日期2-FEB-20(2020年2月2日)，分别与航班号MU2408和MU545进行配对，得到两个航班日期对。在所述信息提取结果所包含的两个日期不相同的情况下，与两个航班号进行两两配对，会有两种不同的配对方式，每种配对方式中获得两个航班日期对。

接下来，获取每种配对方式中，各个航班日期对的距离之和，其中，所述航班日期对的信息为日期的文本框中心点与航班号的文本框中心点之间的欧式距离。

接着，根据所述距离之和，确定所述配对方式的匹配得分，所述距离之和的取值与所述匹配得分的取值呈负相关。也即，所述距离之和越小，相应的配对方式的匹配得分越高；反之，匹配得分越低。

最后，将匹配得分最高的方式确定为目标配对方式，获得所述目标配对方式中的航班日期对。所述目标航班日期对为一程航班所对应的日期及航班号。

在一个示例中，可以通过每个航班号和每个日期之间的欧式距离，获得距离矩阵。比如，通过匈牙利(Kuhn-Munkres)算法可以确定最佳匹配的航班号和日期，从而获得所述飞机行程单中每一程的航班号和日期，进而可查询得知每一程航班的具体信息。需要说明的是，在本公开中对于航班号和日期之间进行匹配所采用的方式，可以包括但不限于上述例举的情况，在此不予限定。

在一个示例中，航班号所属的文本框，与日期所属的文本框在同一行，例如在两个文本框的垂直坐标重度/两个文本框中较小文本框的垂直高度>设定值，例如0.5，的情况下，认为两个文本框在同一行，则可以将两个文本框之间的欧式距离设置为两个文本框的中心点之间的直线距离乘以设定比例，例如1/20。通过将属于同一行的航班号和日期之间的欧式距离缩小，有利于将同一行的航班号和日期进行配对，以提高信息匹配的准确度。

在一个实施例中，对于所得到的航班日期对中，相同日期的航班日期对进行去重，获得最终的航班日期对。

以对于泰国酒店订单提取目标信息为例，对本公开所提出的信息提取方法进行描述。

首先，找出5位数字的泰国邮编,在泰国邮编列表中查询确定匹配到的5位数是泰国邮编；

之后，找到所有位于邮编所在文字检测框之上，或与邮编框在同一行，并且与邮编行垂直距离不超过10*邮编行高度的检测框。找到在同一行的框并分为一组。在每一组(即每一行)框中，将左右相邻的框(两框间距<3个字符的宽度)合并为一个检测框。将处理后的框根据垂直坐标倒序排列,作为找酒店/地址的候选框。

接下来，判断候选框中是否出现以“address”关键信息开头的候选框。

如果存在，则以“address”信息判断地址所在框：候选框中邮编所在框往上找，略过所有不在邮编框上方的框(水平方向没有交集的框)，直到“address”出现停止。这些框合并为酒店地址。

如果候选框中没有address这样的关键信息，则通过文字框之间的距离关系判断：邮编所在框往上找,直到下一个框距离当前框较远或框内文字以数字开头时停止。这些框中合并为酒店地址。

如果邮编框与往上的框距离在初始化的阈值(0.65*两框平均高度)以内,往上找,设置两框间的距离为mean,初始化standard_deviation＝0.25*当前框高度。

候选框中继续往上找,框间距离阈值更新为mean+standard_deviation,得到新的框间距离new_measure后更新mean,standard_deviation：

mean＝0.6*mean+0.4*new_measure；

standard_deviation＝0.6*standard_deviation+0.4*abs(mean-new_measure)。

在框间距离大于阈值或文字行第一个字为数字的情况下停止，合并地址所在框。

在获取了地址信息之后，认为继续往上找的框含有酒店名称。跳过所有不在邮编框上方的框(水平方向没有交集)，若字段不含英文，跳过往上找(可能存在泰文)；若字段含有")"却没有"("，继续往上找(两行酒店名的情况)。如果上面的框距离当前框大于0.6*两框平均高度，认为找到完整酒店名，合并所有酒店名称框；若字段含有"()"完整的括号或不包含任何括号：如果上面的框距离当前框大于0.4*两框平均高度，认为找到完整酒店名，合并所有酒店名称框。

应理解，本公开实施例提供的装置可以用于执行上述任意实施例方法，相应地包括用于执行上述任意实施例方法中的步骤和/或流程的模块或单元，为了简洁，这里不再赘述。

图6为本公开至少一个实施例提出的信息提取装置，所述装置包括：获取单元601，用于获取待处理对象的文本识别结果，所述文本识别结果包括多个文本框；确定单元602，用于从所述多个文本框中，确定包含第一关键信息的第一文本框；合并单元603，用于根据所述第一文本框，对至少部分所述多个文本框进行合并，得到合并文本框；提取单元604，用于从所述合并文本框中获取目标信息。

在一些实施例中，所述合并单元具体用于：获取所述多个文本框中除所述第一文本框以外的每个文本框与所述第一文本框之间的位置关系；将所述每个文本框中，与所述第一文本框之间的位置关系属于设定范围内的文本框，确定为第二文本框；将所述第一文本框与所述第二文本框作为待合并文本框，进行合并，得到所述合并文本框。

在一些实施例中，所述合并单元在用于将所述第一文本框与所述第二文本框作为待合并文本框，进行合并，得到所述合并文本框时，具体用于：根据所述待合并文本框中各文本框所属的行，对所述待合并文本框进行合并，得到所述合并文本框。

在一些实施例中，所述合并单元具体用于：在所述待合并文本框中属于同一行的文本框的数量为一个的情况下，将属于同一行的一个文本框，确定为一个合并文本框。

在一些实施例中，所述合并单元具体用于：在所述待合并文本框中属于同一行的文本框的数量为多个的情况下，将属于同一行的多个文本框进行合并，得到一个合并文本框。

在一些实施例中，所述属于同一行的多个文本框中每相邻两个文本框之间的距离小于第一阈值。

在一些实施例中，所述提取单元具体用于：获取所述待处理对象的格式特征；根据所述格式特征确定目标方向；按照所述目标方向，从所述合并文本框中获取目标信息。

在一些实施例中，所述提取单元在用于按照所述目标方向，从所述合并文本框中获取目标信息时，具体用于：以所述第一文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到第二关键信息所在的合并文本框为止；以所述第二关键信息为起始位置，按照所述第二目标方向遍历所述合并文本框，直至查找到所述第一关键信息所在的合并文本框为止，并获取按照所述第二目标方向遍历到的内容。

在一些实施例中，所述装置还包括距离获取单元，用于获取相邻合并文本框之间的距离；所述提取单元在用于按照所述目标方向，从所述合并文本框中获取目标信息时，具体用于：以所述第一文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到距离满足第一设定条件的相邻合并文本框为止；以所述距离满足第一设定条件的相邻合并文本框中，首先遍历到的合并文本框为起始位置，按照所述第二目标方向遍历所述合并文本框，直至查找到所述第一关键信息所在的合并文本框为止，并获取按照所述第二目标方向遍历到的内容。

在一些实施例中，相邻合并文本框的距离满足第一设定条件包括：所述相邻合并文本框的距离大于第一框间距离阈值；将所述相邻合并文本框作为目标相邻合并文本框，则所述目标相邻合并文本框对应的第一框间距离阈值根据以下至少一项确定：所述目标相邻合并文本框中首先遍历到的合并文本框的高度；已遍历的相邻合并文本框所包含的合并文本框之间的距离以及首先遍历到的合并文本框的高度。

在一些实施例中，所述目标相邻合并文本框的第一框间距离阈值根据已遍历的相邻合并文本框所包含的合并文本框之间的距离以及首先遍历到的合并文本框的高度确定，包括：获取所述目标相邻合并文本框的更新框间距离，所述更新框间距离通过对参考相邻合并文本框所包含的合并文本框之间的距离，以及所述参考相邻合并文本框所包含的合并文本框之间的更新框间距离，进行加权求和获得，其中，所述参考相邻文本框为与所述目标合并文本框最近的相邻合并文本框；获取所述目标相邻合并文本框的更新扰动值，所述更新扰动值通过对首先遍历到的所述相邻合并文本框的扰动值和距离差值的绝对值进行加权求和获得，其中，所述距离差值为所述目标相邻合并文本框的更新框间距离与所述参考相邻合并文本框所包含的合并文本框之间的距离之差，所述扰动值根据首先遍历到的合并文本框的高度确定；根据所述更新框间距离和所述更新扰动值确定所述目标相邻合并文本框的第一框间距离阈值。

在一些实施例中，所述装置还包括主体确定单元，用于按照所述目标方向，根据与所述目标信息所在区域的位置关系，从所述目标信息所在区域之外的合并文本框中确定所述目标信息对应的主体名称。

在一些实施例中，所述主体确定单元在用于按照所述目标方向，根据与所述目标信息所在区域的位置关系，从所述目标信息所在区域之外的合并文本框中确定所述目标信息对应的主体名称时，具体用于：在所述第一目标方向上，确定与所述目标信息所在区域距离最近的合并文本框；以所述合并文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到距离满足第二设定条件的相邻合并文本框为止；以所述距离满足第二设定条件的相邻合并文本框中，首先遍历到的合并文本框为起始位置，按照所述第二目标方向遍历所述目标信息所在区域以外的合并文本框，并获取按照所述第二目标方向遍历到的内容。

在一些实施例中，相邻合并文本框的距离满足第二设定条件包括：所述相邻合并文本框的距离大于第二框间距离阈值，所述相邻合并文本框所对应的第二框间距离阈值根据已遍历的所述合并文本框的高度确定。

在一些实施例中，所述待处理对象至少包括如下一项：图像、电子文档；所述目标信息至少包括如下一项：地址信息、行程信息、身份信息；所述装置还包括表单填写单元，用于：获取待填写表单，其中，所述待填写表单包含至少一个填写项；将所述目标信息与所述至少一个填写项进行匹配，得到匹配结果；根据所述匹配结果，将所述目标信息填入匹配的填写项。

在一些实施例中，所述待处理对象包括飞机行程单，所述目标提取信息包括行程信息中的时间信息和航班信息，所述装置还包括行程信息获取单元，用于：获取所述飞机行程单包括的日期及航班号；建立所述日期与所述航班号之间的匹配关系；其中，每个匹配关系用于表示一段航程，所述每个匹配关系包括一个日期和一个航班号。

在一些实施例中，所述行程信息获取单元在用于建立所述日期与所述航班号之间的匹配关系时，具体用于：将所述日期和所述航班号分别进行配对，获得多种配对方式，每种配对方式中获得至少一个航班日期对；获取每种配对方式中，各个航班日期对的距离之和，其中，所述航班日期对的信息为日期的文本框中心点与航班号的文本框中心点之间的欧式距离；根据所述距离之和，确定所述配对方式的匹配得分，所述距离之和的取值与所述匹配得分的取值呈负相关；将匹配得分最高的方式确定为目标配对方式，获得所述目标配对方式中的航班日期对。

图7为本公开至少一个实施例提供的信息提取设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施例所述的信息提取方法。

本公开至少一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的信息提取方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施例中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位***(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和***通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种信息提取方法，其特征在于，所述方法包括：

获取待处理对象的文本识别结果，所述文本识别结果包括多个文本框；

从所述多个文本框中，确定包含第一关键信息的第一文本框；

根据所述第一文本框，对至少部分所述多个文本框进行合并，得到合并文本框；

获取所述待处理对象的格式特征；

根据所述格式特征确定目标方向，所述目标方向包括第一目标方向和第二目标方向，所述第一目标方向用于指示定位目标信息所处区域的过程中遍历所述合并文本框的方向，所述第二目标方向用于指示从所述目标信息所处区域中读取所述目标信息的方向；

按照所述目标方向，从所述合并文本框中获取目标信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一文本框，对至少部分所述多个文本框进行合并，得到合并文本框，包括：

获取所述多个文本框中除所述第一文本框以外的每个文本框与所述第一文本框之间的位置关系；

将所述每个文本框中，与所述第一文本框之间的位置关系属于设定范围内的文本框，确定为第二文本框；

将所述第一文本框与所述第二文本框作为待合并文本框，进行合并，得到所述合并文本框。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一文本框与所述第二文本框作为待合并文本框，进行合并，得到所述合并文本框，包括：

根据所述待合并文本框中各文本框所属的行，对所述待合并文本框进行合并，得到所述合并文本框。

4.根据权利要求3所述的方法，其特征在于，所述根据所述待合并文本框中各文本框所属的行，对所述待合并文本框进行合并，得到所述合并文本框，包括：

在所述待合并文本框中属于同一行的文本框的数量为一个的情况下，将属于同一行的一个文本框，确定为一个合并文本框；或

5.根据权利要求4所述的方法，其特征在于，所述属于同一行的多个文本框中每相邻两个文本框之间的距离小于第一阈值。

6.根据权利要求1所述的方法，其特征在于，所述按照所述目标方向，从所述合并文本框中获取目标信息，包括：

以所述第一文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到第二关键信息所在的合并文本框为止；

以所述第二关键信息为起始位置，按照所述第二目标方向遍历所述合并文本框，直至查找到所述第一关键信息所在的合并文本框为止，并获取按照所述第二目标方向遍历到的内容。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取相邻合并文本框之间的距离；

所述按照所述目标方向，从所述合并文本框中获取目标信息，包括：

以所述第一文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到距离满足第一设定条件的相邻合并文本框为止；

以所述距离满足第一设定条件的相邻合并文本框中，首先遍历到的合并文本框为起始位置，按照所述第二目标方向遍历所述合并文本框，直至查找到所述第一关键信息所在的合并文本框为止，并获取按照所述第二目标方向遍历到的内容。

8.根据权利要求7所述的方法，其特征在于，相邻合并文本框的距离满足第一设定条件包括：所述相邻合并文本框的距离大于第一框间距离阈值；

将所述相邻合并文本框作为目标相邻合并文本框，则所述目标相邻合并文本框对应的第一框间距离阈值根据以下至少一项确定：

所述目标相邻合并文本框中首先遍历到的合并文本框的高度；

已遍历的相邻合并文本框所包含的合并文本框之间的距离以及首先遍历到的合并文本框的高度。

9.根据权利要求8所述的方法，其特征在于，所述目标相邻合并文本框的第一框间距离阈值根据已遍历的相邻合并文本框所包含的合并文本框之间的距离以及首先遍历到的合并文本框的高度确定，包括：

获取所述目标相邻合并文本框的更新框间距离，所述更新框间距离通过对参考相邻合并文本框所包含的合并文本框之间的距离，以及所述参考相邻合并文本框所包含的合并文本框之间的更新框间距离，进行加权求和获得，其中，所述参考相邻合并文本框为与所述目标相邻合并文本框最近的相邻合并文本框；

获取所述目标相邻合并文本框的更新扰动值，所述更新扰动值通过对首先遍历到的所述相邻合并文本框的扰动值和距离差值的绝对值进行加权求和获得，其中，所述距离差值为所述目标相邻合并文本框的更新框间距离与所述参考相邻合并文本框所包含的合并文本框之间的距离之差，所述扰动值根据首先遍历到的合并文本框的高度确定；

根据所述更新框间距离和所述更新扰动值确定所述目标相邻合并文本框的第一框间距离阈值。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：

按照所述目标方向，根据与所述目标信息所在区域的位置关系，从所述目标信息所在区域之外的合并文本框中确定所述目标信息对应的主体名称。

11.根据权利要求9所述的方法，其特征在于，按照所述目标方向，根据与所述目标信息所在区域的位置关系，从所述目标信息所在区域之外的合并文本框中确定所述目标信息对应的主体名称，包括：

在所述第一目标方向上，确定与所述目标信息所在区域距离最近的合并文本框；

以所述合并文本框为起始位置，按照所述第一目标方向遍历所述合并文本框，直至查找到距离满足第二设定条件的相邻合并文本框为止；

以所述距离满足第二设定条件的相邻合并文本框中，首先遍历到的合并文本框为起始位置，按照所述第二目标方向遍历所述目标信息所在区域以外的合并文本框，并获取按照所述第二目标方向遍历到的内容。

12.根据权利要求11所述的方法，其特征在于，相邻合并文本框的距离满足第二设定条件包括：所述相邻合并文本框的距离大于第二框间距离阈值，所述相邻合并文本框所对应的第二框间距离阈值根据已遍历的所述合并文本框的高度确定。

13.根据权利要求1所述的方法，其特征在于，所述待处理对象至少包括如下一项：图像、电子文档；

所述目标信息至少包括如下一项：地址信息、行程信息、身份信息；

所述方法还包括：

获取待填写表单，其中，所述待填写表单包含至少一个填写项；

将所述目标信息与所述至少一个填写项进行匹配，得到匹配结果；

根据所述匹配结果，将所述目标信息填入匹配的填写项。

14.根据权利要求13所述的方法，其特征在于，所述待处理对象包括飞机行程单，所述目标信息包括行程信息中的时间信息和航班信息，所述方法还包括：

获取所述飞机行程单包括的日期及航班号；

建立所述日期与所述航班号之间的匹配关系；

其中，每个匹配关系用于表示一段航程，所述每个匹配关系包括一个日期和一个航班号。

15.根据权利要求14所述的方法，其特征在于，所述建立所述日期与所述航班号之间的匹配关系，包括：

将所述日期和所述航班号分别进行配对，获得多种配对方式，每种配对方式中获得至少一个航班日期对；

获取每种配对方式中，各个航班日期对的距离之和，其中，所述航班日期对的信息为日期的文本框中心点与航班号的文本框中心点之间的欧式距离；

根据所述距离之和，确定所述配对方式的匹配得分，所述距离之和的取值与所述匹配得分的取值呈负相关；

将匹配得分最高的方式确定为目标配对方式，获得所述目标配对方式中的航班日期对。

16.一种信息提取装置，其特征在于，所述装置包括：

获取单元，用于获取待处理对象的文本识别结果，所述文本识别结果包括多个文本框；

确定单元，用于从所述多个文本框中，确定包含第一关键信息的第一文本框；

合并单元，用于根据所述第一文本框，对至少部分所述多个文本框进行合并，得到合并文本框；

提取单元，用于获取所述待处理对象的格式特征；根据所述格式特征确定目标方向；按照所述目标方向，从所述合并文本框中获取目标信息，所述目标方向包括第一目标方向和第二目标方向，所述第一目标方向用于指示定位所述目标信息所处区域的过程中遍历所述合并文本框的方向，所述第二目标方向用于指示从所述目标信息所处区域中读取所述目标信息的方向。

17.一种电子设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至15任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至15任一所述的方法。