CN112633193A

CN112633193A - 地址信息的提取方法、装置、设备及介质

Info

Publication number: CN112633193A
Application number: CN202011584201.2A
Authority: CN
Inventors: 李超; 徐国强
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-09
Also published as: WO2022142627A1

Abstract

本发明公开了一种地址信息的提取方法，包括：获取待识别的票据图像，对所述票据图像进行OCR识别，得到票据图像中的文本信息及其对应的坐标信息；根据所述坐标信息对所述文本信息进行合并，得到一个或多个文本小列表，组合所述文本小列表，得到所述图像票据对应的文本大列；获取地址层级及其对应的关键词列表；按照所述地址层级及其对应的关键词列表对所述文本小列表进行地址提取，得到所述文本小列表对应的地址信息；遍历所述文本大列表中的所有的文本小列表，得到每一个文本小列表对应的地址信息，组合所述地址信息得到所述票据图像上的地址信息列表。本发明解决了现有地址信息提取技术存在的运行效率低、不易维护和更新的问题。

Description

地址信息的提取方法、装置、设备及介质

技术领域

本发明涉及信息技术领域，尤其涉及一种地址信息的提取方法、装置、设备及介质。

背景技术

现有技术主要采用深度学习模型或者正则表达式来从票据图像中提取地址信息。若采用深度学习模型，需要预先对大规模的数据进行模型训练，开发、部署以及运营成本高，效率低。若采用正则表达式，则需要预先编写大量的正则表达式，对于正则表达式没有覆盖的样本则无法提取；且随着票据图像上地址信息的多样化发展，所编写的正则表达式也会越来越复杂，不易维护和更新。

发明内容

本发明实施例提供了一种地址信息的提取方法、装置、设备及介质，以解决现有地址信息提取技术存在的运行效率低、不易维护和更新的问题。

一种地址信息的提取方法，包括：

获取待识别的票据图像，对所述票据图像进行OCR识别，得到票据图像中的文本信息及其对应的坐标信息；

根据所述坐标信息对所述文本信息进行合并，得到一个或多个文本小列表，组合所述文本小列表，得到所述图像票据对应的文本大列；

获取地址层级及其对应的关键词列表；

按照所述地址层级及其对应的关键词列表对所述文本小列表进行地址提取，得到所述文本小列表对应的地址信息；

遍历所述文本大列表中的所有的文本小列表，得到每一个文本小列表对应的地址信息，组合所述地址信息得到所述票据图像上的地址信息列表。

可选的，所述根据所述坐标信息对所述文本信息进行合并，得到一个或多个文本小列表包括：

将两两文本信息对应的坐标信息进行比较，得到所述两两文本信息对应的垂直距离和水平距离；

当两两文本信息的垂直距离小于或等于第一阈值且水平距离小于或等于第二阈值时，将所述两两文本信息作为上下相邻的文本信息，添加到同一文本小列表中；

按照所述文本信息对应的坐标信息对同一文本小列表中的文本信息进行升序排序；

当一个文本信息不存在上下相邻的文本信息时，将所述文本信息单独添加到一个文本小列表中。

可选的，所述按照所述地址层级及其对应的关键词列表对所述文本小列表进行地址提取，得到所述文本小列表对应的地址信息包括：

对于所述文本大列表中的一个文本小列表，根据所述地址层级及其对应的关键词列表，获取所述文本小列表中的地址行以及地址首行、地址尾行；

根据所述地址首行和地址尾行，获取所述文本小列表中的跨行地址行；

根据所述跨行地址行构建所述文本小列表对应的行间关系二维矩阵；

根据所述行间关系二维矩阵生成所述文本小列表对应的至少一个地址序号集；

从所述地址序号集中筛选出目标地址序号集，根据所述目标地址序号集从所述文本小列表中获取对应的文本信息，组合所述文本信息得到所述文本小列表的一个地址信息。

可选的，所述对于所述文本大列表中的一个文本小列表，根据所述地址层级及其对应的关键词列表，获取所述文本小列表中的地址行以及地址首行、地址尾行包括：

遍历所述文本小列表中的文本信息，判断所述文本信息中是否存在所述关键词列表中的至少一个关键词；

若是，则以所述文本信息作为一个地址行，获取所述地址行中的关键词的地址层级；

若所述地址层级为地址首行时，以所述地址行作为地址首行，若所述地址层级为地址尾行时，以所述地址行作为地址尾行。

可选的，所述根据所述地址首行和地址尾行，获取所述文本小列表中的跨行地址行包括：

获取所述文本小列表中相差预设行数的两个文本信息；

判断所述两个文本信息是否满足前一文本信息为地址行且不为地址尾行、后一文本信息为地址行且不为地址首行；

若是，则获取所述两个文本信息及其之间的所有文本信息，作为跨行地址行；

若否，则继续获取所述文本小列表中相差预设行数的两个文本信息进行跨行地址行判断。

可选的，所述根据所述跨行地址行构建所述文本小列表对应的行间关系二维矩阵包括：

按照所述文本小列表中的文本信息的个数N构建N阶方阵，并将N阶方阵的主对角线上的元素赋值为1，其余赋值为0；

对于所述文本小列表中的第m个文本信息和第n个文本信息，判断所述第m个文本信息和第n个文本信息是否均为跨行地址行，其中，1≤n≤N，

1≤m≤N，且n>m；

若是，则将所述N阶方阵中的元素[m][n]赋值为1；

若否，则将所述N阶方阵A中的元素[i][j]均赋值0，其中i分别取0到m，j＝n。

可选的，所述根据所述行间关系二维矩阵生成所述文本小列表对应的至少一个地址序号集包括：

遍历所述行间关系二维矩阵的每一行，获取该行中值为1的元素的列序号，组合所述列序号得到每一行对应的行序号集；

对所述行序号集进行包含筛选，得到至少一个最大行序号集，以每一所述最大行序号集作为一个地址序号集。。

一种地址信息的提取装置，包括：

识别模块，用于获取待识别的票据图像，对所述票据图像进行OCR识别，得到票据图像中的文本信息及其对应的坐标信息；

合并模块，用于根据所述坐标信息对所述文本信息进行合并，得到一个或多个文本小列表，组合所述文本小列表，得到所述图像票据对应的文本大列；

获取模块，用于获取地址层级及其对应的关键词列表；

提取模块，用于按照所述地址层级及其对应的关键词列表对所述文本小列表进行地址提取，得到所述文本小列表对应的地址信息；

组合模块，用于遍历所述文本大列表中的所有的文本小列表，得到每一个文本小列表对应的地址信息，组合所述地址信息得到所述票据图像上的地址信息列表。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述地址信息的提取方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述地址信息的提取方法。

本发明实施例通过获取待识别的票据图像，对所述票据图像进行OCR识别，得到票据图像中的文本信息及其对应的坐标信息；根据所述坐标信息对所述文本信息进行合并，得到一个或多个文本小列表，组合所述文本小列表，得到所述图像票据对应的文本大列；获取地址层级及其对应的关键词列表；按照所述地址层级及其对应的关键词列表对所述文本小列表进行地址提取，得到所述文本小列表对应的地址信息；遍历所述文本大列表中的所有的文本小列表，得到每一个文本小列表对应的地址信息，组合所述地址信息得到所述票据图像上的地址信息列表；从而提供了一种新的票据图像的地址提取方式，极少采用正则表达式，也无需训练模型，代码易于维护和更新，极大地降低了成本，提高了运行效率，且通过合并的方式可对不存在地址关键词的地址行进行定位，容错性较好。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中提供的地址信息的提取方法的流程图；

图2是本发明一实施例中提供的地址信息的提取方法中步骤S102的流程图；

图3是本发明一实施例中提供的票据图像的示意图；

图4是本发明一实施例中提供的地址信息的提取方法中步骤S104的流程图；

图5是本发明一实施例中提供的地址信息的提取方法中步骤S1041的流程图；

图6是本发明一实施例中提供的地址信息的提取方法中步骤S1042的流程图；

图7是本发明一实施例中提供的地址信息的提取方法中步骤S1043的流程图；

图8是本发明一实施例中提供的地址信息的提取方法中步骤S1044的流程图；

图9是本发明一实施例中地址信息的提取装置的一原理框图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种地址信息的提取方法。以下将对本实施例提供的地址信息的提取方法进行详细的描述，如图1所示，所述地址信息的提取方法包括：

在步骤S101中，获取待识别的票据图像，对所述票据图像进行OCR识别，得到票据图像中的文本信息及其对应的坐标信息。

现有的OCR技术在对图像进行识别时，按照文字分布对图像进行切割，得到若干个文本区域。每一文本区域由处于同一行且相互距离在预设范围内的文字构成。对所述文本区域进行文字识别，得到每一文本区域对应的文本信息。对所述文本区域进行位置标定，得到每一文本区域对应的坐标信息。所述坐标信息由文本区域的左上角坐标信息(x1,y1)和右下角坐标信息(x2,y2)组成，即每个文本区域对应的坐标信息为(x1,y1,x2,y2)。可选地，所述文本信息保存在以“text”为键的字典里，所述坐标信息保存在以“rect”为键的字典里。

组合每一个文本信息及其对应的坐标信息。为了便于理解，以下给出本发明实施例提供的一个文本信息及其对应的坐标信息示例，[{‘text’:‘FLT 11 22/F BLK 33’，‘rect’:(100,120,200,220)}]。其中，文本信息为FLT 11 22/F BLK 33，坐标信息为(100,120,200,220)。

在这里，OCR技术按照从上到下、从左到右的顺序从票据图像中识别文本信息，所得到的文本信息按照识别顺序排列以及编号。

在步骤S102中，根据所述坐标信息对所述文本信息进行合并，得到一个或多个文本小列表，组合所述文本小列表，得到所述图像票据对应的文本大列。

在这里，通过步骤S101中得到的文本信息是以每一行进行文本区域划分的，而有些票据中的地址信息是分行的或者在同一行是断开的，此时每一个文本区域得到的文本信息可能仅仅是地址信息的一部分，是不完整的。因此本发明实施例对所述文本信息进行合并，以将位置上相近的文本信息归入同一个文本小列表中，实现文本信息的合并。

可选地，作为本发明的一个优选示例，如图2所示，步骤S102中所述的根据所述坐标信息对所述文本信息进行合并，得到一个或多个文本小列表包括：

在步骤S1021中，将两两文本信息对应的坐标信息进行比较，得到所述两两文本信息对应的垂直距离和水平距离。

在这里，所述垂直距离是指两两文本信息在垂直方向上的距离。本发明实施例以两两文本信息对应的左上角的纵坐标之差或者右上角的纵坐标之差，作为所述两个文本信息之间的垂直距离。

所述水平距离是指两两文本信息在水平方向上的距离。本发明实施例以后一文本信息的左上角的横坐标与前一文本信息的左上角的横坐标之间的差值，作为所述两个文本信息之间的水平距离。

在步骤S1022中，当两两文本信息的垂直距离小于或等于第一阈值且水平距离小于或等于第二阈值时，将所述两两文本信息作为上下相邻的文本信息，添加到同一文本小列表中。

本发明实施例预先设置第一阈值和第二阈值。其中，所述第一阈值和所述第二阈值共同用作判断两个文本信息是否上下相邻的标准。可以根据票据图像上的文本行高，设置所述第一阈值和第二阈值，比如第一阈值对应1.5倍行高，第二阈值对应1倍行高。

分别将所述两两文本信息的垂直距离与所述第一阈值比较，将所述水平距离与所述第二阈值比较，当且仅当所述两两文本信息的垂直距离小于或等于第一阈值且水平距离小于或等于第二阈值时，认为所述两两文本信息是上下相邻的文本信息，将所述两两文本信息添加到同一文本小列表中。

在步骤S1023中，按照所述文本信息对应的坐标信息对同一文本小列表中的文本信息进行升序排序。

在本发明实施例中，处于同一文本小列表中的文本信息，均为上下相邻的文本信息。在对同一文本小列表中的文本信息进行排序时，本发明实施例对每一文本信息，计算所述文本信息的左上角的纵坐标y1与右下角的纵坐标y2之间的平均值，作为所述文本信息的排序坐标，按照所述排序坐标对同一文本小列表中的所有文本信息进行升序排序。

进一步地，当两两文本信息的垂直距离大于第一阈值或者水平距离大于第二阈值时，则所述两两文本信息不是上下相邻的文本信息。

在步骤S1024中，当一个文本信息不存在上下相邻的文本信息时，将所述文本信息单独添加到一个文本小列表中。

当一个文本信息不存在上下相邻的文本信息时，本发明实施例为所述文本信息建立一个独立的文本小列表，将所述文本信息单独添加至所述文本小列表中。每一个不存在上下相邻文本信息的文本信息，各自添加到一个独立的文本小列表中。

在这里，每一个文本小列表，不管包括一个还是多个文本信息，均作为本发明实施例进行地址提取的最小单元。

为了便于理解，假设存在如图3所示的票据图像。票据图像的行高为10，将第一行左边的文本区域识别出来的文本信息记为文本0，对应的左上角坐标信息为(0，0)，右下角坐标信息为(40，10)；第一行右边的文本区域识别出来的文本信息记为文本1，对应的左上角坐标信息为(110，0)，右下角坐标信息为(160，10)；第二行左边的文本区域识别出来的文本信息记为文本2，对应的左上角坐标信息为(0，10)，右下角坐标信息为(60，20)。由于行高为10，那么第一阈值为15，第二阈值为10。

经过计算，文本0和文本2的垂直距离为10，小于第一阈值，水平距离为0，小于第二阈值，则文本0和文本2是相邻的文本信息；文本1与文本0、文本2均不相邻。

将文本0和文本2添加到同一个文本小列表中，得到文本小列表1：[{'text':'文本0的内容','rect':'(0,0),(40,10)',},{'text':'文本2的内容','rect':'(0，10)，(60，20)',}]。

将文本1添加到一个独立的文本小列表中，得到文本小列表2：[{'text':'文本1的内容','rect':'(110，0)，(160，10)',}]。

如果按照OCR本身的识别顺序，不论是否从上到下排序过，文本信息的顺序都是无法直接使用的。本发明实施例通过合并上下相邻文本信息并重新排序，为后续进行地址提取做准备，并且通过合并可提前对不存在地址关键词的地址行进行定位，容错性较好。

在步骤S103中，获取地址层级及其对应的关键词列表。

在这里，所述地址层级及其对应的关键词列表中包括预先划分的若干个层级、每一个层级对应的至少一个关键词，同时还记录了作为地址首行的地址层级和作为地址尾行的地址层级。

本发明实施例预先根据票据样本构建地址层级及其对应的关键词。根据经验预先设置地址信息的层级，比如地址信息包括但不限于“region”、“district”、“street”、“estate”、“building”、“block”、“floor”、“unit”等八个层级。对于收集到的票据样本，按照上述划分的地址层级对票据样本上的地址信息通过人工方式进行标注。根据标注结果，对同一地址层级上的地址信息进行聚类分析，得到地址层级对应的关键词，以及作为地址首行的的地址层级和作为地址尾行的地址层级。

示例性地，“unit”层级的关键词包括但不限于：“FLAT”、“FLT”、“RM”、“ROOM”、“SHOP”、“UNIT”。“street”层级的关键词包括但不限于：“AVENUE”、“LANE”、“RD”、“ROAD”、“ST”、“STREET”、“TERRACE”。“region”层级的关键词包括但不限于“KOWLOON”、“KLN”、“NEWTERRITORIES”、“NT”。在实际应用中，一般认为“block”、“floor”、“unit”三个地址层级属于地址首行，“region”、“district”两个地址层级属于地址尾行。

在步骤S104中，按照所述地址层级及其对应的关键词列表对所述文本小列表进行地址提取，得到所述文本小列表对应的地址信息。

如前所述，所述地址层级及其对应的关键词列表中包括各地址层级及其对应的关键词，以及哪些地址层级为地址首行，哪些地址层级为地址尾行。本发明实施例以文本小列表作为最小单位进行地址提取，通过查询所述地址层级及其对应的关键词列表，得到所述文本小列表对应的地址信息。

可选地，作为本发明的一个优选示例，如图4所示，所述步骤S104还包括：

在步骤S1041中，对于所述文本大列表中的一个文本小列表，根据所述地址层级及其对应的关键词列表，获取所述文本小列表中的地址行以及地址首行、地址尾行。

在这里，每一文本小列表中包括至少一个文本信息，本发明实施例遍历文本小列表中的每一个文本信息，查询所述地址层级及其对应的关键词列表，以判断每一个文本信息是否为地址行、地址首行或者地址尾行。可选地，如图5所示，所述步骤S1041还包括：

在步骤S501中，遍历所述文本小列表中的文本信息，判断所述文本信息中是否存在所述关键词列表中的至少一个关键词。

在这里，本发明实施例通过判断所述地址层级及其对应的关键词列表中的关键词是否出现在所述文本信息中，来确定所述文本信息是否为地址行。

若是，则执行步骤S502；否则，继续执行步骤S501，对所述文本小列表中的下一个文本信息进行判断。

在步骤S502中，以所述文本信息作为一个地址行，获取所述地址行中的关键词的地址层级。

若所述地址层级及其对应的关键词列表中的关键词出现在所述文本信息时，则认为所述文本信息命中地址关键词，所述文本信息为地址行，然后根据所命中的关键词的地址层级，确定所述文本信息是地址首行还是地址尾行。

在步骤S503中，若所述地址层级为地址首行时，以所述地址行作为地址首行，若所述地址层级为地址尾行时，以所述地址行作为地址尾行。

可以按地址层级从大到小的顺序依次遍历地址层级的关键词列表来检查关键词是否存在于文本信息，比如前文示例可按从“unit”到“region”的顺序。示例性地，以文本信息“FLT 11 22/F BLK 33”为例，首先遍历“unit”层级对应的关键词列表，包含“FLAT”、“FLT”、“RM”、“ROOM”、“SHOP”、“UNIT”，可以发现“FLT”在文本信息“FLT 11 22/F BLK 33”中存在，那么认为文本信息“FLT 11 22/F BLK 33”是地址行，标记为True，同步记录命中的层级为“unit”。由于“block”、“floor”、“unit”三个层级属于地址首行，因此，文本信息“FLT11 22/F BLK 33”也为地址首行。

再以文本信息“NGAU TAU KOK”为例，前文示例中的8个地址层级中任一关键词均未出现在文本信息“NGAU TAU KOK”中，那么认为文本信息“NGAU TAU KOK”不是地址行，则标记为False。

在步骤S1042中，根据所述地址首行和地址尾行，获取所述文本小列表中的跨行地址行。

在这里，当地址信息太长或者受限于排版需求时，会分成两行或者多行呈现在票据图像上。所述跨行地址行是指划分为多行表示的地址信息中的每一行。在得到地址首行和地址尾行后，本发明实施例按照预设的逻辑对所述文本小列表中的每一个文本信息进行判断，得到所述文本小列表中的跨行地址行。可选地，如图6所示，所述步骤S1042还包括：

在步骤S601中，获取所述文本小列表中相差预设行数的两个文本信息。

可选地，所述预设行数可以为3。此时，上述步骤S601分别获取相差一行的两个文本信息、相差两行的两个文本信息、相差三行的两个文本信息。

在步骤S602中，判断所述两个文本信息是否满足前一文本信息为地址行且不为地址尾行、后一文本信息为地址行且不为地址首行。

如前所述，同一文本小列表中的文本信息按照坐标信息进行升序排序，因此可以确定步骤S602中获取到的两个文本信息的先后顺序。对于所述两个文本信息，本发明实施例进一步根按照步骤S1041获取到的结果，判断所述两个文本信息是否满足：前一文本信息为地址行且不为地址尾行，后一文本信息为地址行且不为地址首行。

示例性地，以8个文本信息为例，步骤S601和步骤S602会先判断相差1行的两个文本信息是否构成跨行地址行，分别是第1行和第2行、第2行和第3行、……、第7行和第8行。再判断相差2行的两个文本信息是否构成跨行地址行，分别是第1行和第3行、第2行和第4行、……、第6行和第8行。最后判断相差3行的两个文本信息是否构成跨行地址行，分别是第1行和第4行、第2行和第4行、……、第6行和第8行。

若两个文本信息满足前一文本信息为地址行且不为地址尾行、后一文本信息为地址行且不为地址首行，则执行步骤S603。否则，执行步骤S604。

在步骤S603中，获取所述两个文本信息及其之间的所有文本信息，作为跨行地址行。

当且仅当前一文本信息为地址行且不为地址尾行、后一文本信息为地址行且不为地址首行时，所述两个文本信息及其之间的所有文本信息构成跨行地址行。

在步骤S604中，继续获取所述文本小列表中相差预设行数的两个文本信息进行跨行地址行判断。

当两个文本信息不满足：前一文本信息为地址行且不为地址尾行、后一文本信息为地址行且不为地址首行时，即前一文本信息不满足“地址行且不为地址尾行”的要求，和/或，后一文本信息不满足“地址行且不为地址首行”的要求，则所述两个文本信息及其之间的文本信息均不构成跨行地址行。

通过判别跨行地址行，可以找到可能会地址行但是又不存在地址关键词的文本信息。

在步骤S1043中，根据所述跨行地址行构建所述文本小列表对应的行间关系二维矩阵。

在这里，一个文本小列表对应一个行间关系二维矩阵，所述行间关系二维矩阵是文本小列表的数学模型，用于记录文本小列表中的各文本信息是否为地址行、是否构成跨行地址行。可选地，作为本发明的一个优选示例，如图7所示，所述步骤S1043还包括：

在步骤S701中，按照所述文本小列表中的文本信息的个数N构建N阶方阵A，并将N阶方阵A的主对角线上的元素赋值为1，其余赋值为0。

在本实施例中，初始的行间关系二维矩阵为一个N阶的单位矩阵，单位矩阵的主对角线上的元素均为1。主对角线上的每一个元素1代表文本小列表中的一个文本信息。

在步骤S702中，对于所述文本小列表中的第m个文本信息和第n个文本信息，判断所述第m个文本信息和第n个文本信息是否均为跨行地址行，其中，1≤n≤N，1≤m≤N，且n>m。

若是，则执行步骤S703，否则，执行步骤S704。

在步骤S703中，将所述N阶方阵A中的元素A[m][n]赋值为1。

在步骤S704中，将所述N阶方阵A中的元素A[i][j]均赋值0，其中i分别取0到m，j＝n。

在这里，本发明实施例基于步骤S1042得到的跨行地址行，判断两两文本信息，比如第m个文本信息和第n个文本信息，是否均构成跨行地址行。若第m个文本信息和第n个文本信息均构成跨行地址行，则将A[m][n]赋值为1，其中m等于M时，n分别取M+1到N。反之，若第m个文本信息和第n个文本信息不构成跨行地址行，则将A[i][j]均赋值0，其中i分别取0到m，j等于n。遍历所述文本小列表中的所有文本信息，得到行间关系二维矩阵。

为了便于理解，以文本小列表“FLT 11 22/F BLK 33\n KLN\n KLN”为例，\n表示分行符号，FLT 11 22/F BLK 33\n记为文本0，是地址行和地址首行，KLN\n记为文本1，是地址行和地址尾行，KLN记为文本2，是地址行和地址尾行。

经过步骤S701得到的N阶方阵A如下：

比较文本0和文本1，构成跨行地址行，则A[0][1]＝1，N阶方阵A更新为：

比较文本0和文本2，构成跨行地址行，则A[0][2]＝1，N阶方阵A更新为：

比较文本1和文本2，不构成跨行地址行，A[0][2]＝0，A[1][2]＝0)，N阶方阵A更新为：

在步骤S1044中，根据所述行间关系二维矩阵生成所述文本小列表对应的至少一个地址序号集。

在这里，经过步骤S1043之后得到的所述行间关系二维矩阵，元素1代表地址行，元素0代表非地址行。本发明实施例先对每一行中值为1的元素的列序号进行统计，得到若干个序号集，然后按照预设规则从中筛选出地址序号集。所述地址序号集是指地址信息在所述行间关系二维矩阵对应的文本小列表中的查询表示式，即地址信息在所述文本小列表中的地址。可选地，如图8所示，所述步骤S1044还包括：

在步骤S801中，遍历所述行间关系二维矩阵的每一行，获取该行中值为1的元素的列序号，组合所述列序号得到每一行对应的行序号集。

示例性地，对于步骤S1043得到的行间关系二维矩阵，从第一行A[0][y0]开始保存所有等于1的列序号y0到第一行对应的行序号集S1，同理往下保存第二行A[1][y1]中所有等于1的列序号y1到第二行对应的行序号集S2，如此循环直至遍历行间关系二维矩阵A中的所有行。

在步骤S802中，对所述行序号集进行包含筛选，得到至少一个最大行序号集，以每一所述最大行序号集作为一个地址序号集。

对所述行序号集进行包含筛选，即比较两两行序号集，将具有包含关系的两两行序号集进行合并，仅保留范围最大的行序号集，最终得到至少一个范围最大的序号集，这些最大行序号集互相之间不存在隶属关系。以每一最大行序号集作为一个地址序号集，则经过包含筛选后可以得到至少一个地址序号集。

示例性地，同样以“FLT 11 22/F BLK 33\n KLN\n KLN”为例，行间关系二维矩阵A为

对于第一行A[0][y0]，保存所有等于1的列序号y0到集合S0：A[0][0]＝1，A[0][1]＝1，则S0＝{0,1}

对于第二行A[1][y1]，保存所有等于1的列序号y1到集合S1：A[1][1]＝1，则S1＝{1}；

对于第三行A[1][y2]，保存所有等于1的列序号y2到集合S2：A[2][2]＝1，则S2＝{2}。

此时行间关系二维矩阵所有的3个序号都在S系列的集合里面，S0与S1存在包含关系，合并之后保留S0，最终得到两个最大序号集[{0,1},{2}]，分别作为地址序号集。

至此，所得到的地址序号集作为从所述文本小列表中查找地址信息的地址。本实施例通过构建行间关系二维矩阵，将文本小列表转化为数学模型，便于查找构成地址信息的文本信息，通过整理地址序号集，可以将不存在地址关键词的文本信息也合并进来，提高地址信息提取的容错率。

在步骤S1045中，从所述地址序号集中筛选出目标地址序号集，根据所述目标地址序号集从所述文本小列表中获取对应的文本信息，组合所述文本信息得到所述文本小列表的一个地址信息。

一般而言，票据上的地址行数通常在2-6行之间。因此，本发明实施例设置筛选范围[2,6]，然后从地址序号集中筛选出元素个数在所述筛选范围内的地址序号集，作为目标地址序号集。其中，目标地址序号集中的每一个元素对应文本小列表中的每一个文本信息按升序排序后的序号。本实施例过滤掉元素太少的地址序号集，可实现通过常规地址长度过滤掉一些包含地址关键词的非地址信息。

可选地，为了便于理解，承接前文示例，对于“FLT 11 22/F BLK 33\n KLN\nKLN”，按照筛选范围[2,6]筛选出目标最大序号集为{0,1}，根据{0,1}从文本小列表中获取到的序号为0的文本信息是“FLT 11 22/F BLK 33\n”，获取到的序号为1的文本信息是“KLN\n”，组合“FLT 11 22/F BLK 33\n”和“KLN\n”，所得到地址信息，即为从所述文本小列表中提取出来的地址信息。

在步骤S105中，遍历所述文本大列表中的所有的文本小列表，得到每一个文本小列表对应的地址信息，组合所述地址信息得到所述票据图像上的地址信息列表。

由于一张票据图像上可能存在多个地址，那么从票据图像中可以识别出多个文本小列表，对所述多个文本小列表分别提取地址，则可得到多个地址信息，将这些地址信息保存至一个列表，从而得到所述票据图像对应的地址信息列表。

示例性地，例如一张票据图像包含“FLT 11 22/F BLK 33\n KLN\n KLN”，“25570210 1234 5421\n ENJOY VISA PLATINUM\n MISS HUNG XXXX KUEN\n RM 123\n HOI XXXHSE XXX LAI EST\n LAI CHI KOK\n KOWLOON\n Tel-12345678”，“日期2020-10-19”，“XXX银行”。

经过OCR识别及合并后，得到一个包含4个文本小列表的文本大列表。4个文本小列表分别对应的地址序号集为[{0,1},{2}]，[{0},{1},{2},{3,4,5,6},{7}]，[{0}]，[{0}]。

按照筛选范围[2,6]筛选出目标地址序号集，分别得到：第1个文本小列表的{0,1}，第2个文本小列表的{3,4,5,6}。

以第1个文本小列表的{0,1}为例，从第一个文本小列表取回序号为0、1的文本信息，得到第一个文本小列表对应的地址信息为”FLT 11 22/F BLK 33\n KLN”。

同理可以得到第二个文本小列表对应的地址信息为“RM 123\n HOI XXX HSE XXXLAI EST\n LAI CHI KOK\n KOWLOON\n”。

该票据图像提取到的地址信息列表为[“FLT 11 22/F BLK 33\n KLN”,“RM 123\nHOI XXX HSE XXX LAI EST\n LAI CHI KOK\n KOWLOON”]。

本发明实施例通过获取待识别的票据图像，对所述票据图像进行OCR识别，得到票据图像中的文本信息及其对应的坐标信息；根据所述坐标信息对所述文本信息进行合并，得到一个或多个文本小列表，组合所述文本小列表，得到所述图像票据对应的文本大列；获取地址层级及其对应的关键词列表；按照所述地址层级及其对应的关键词列表对所述文本小列表进行地址提取，得到所述文本小列表对应的地址信息；遍历所述文本大列表中的所有的文本小列表，得到每一个文本小列表对应的地址信息，组合所述地址信息得到所述票据图像上的地址信息列表；从而提供了一种新的票据图像的地址提取方式，极少采用正则表达式，代码便于维护和更新；也无需训练模型，降低了开发、部署、运维成本，提高了运行效率；且通过合并的方式可对不存在地址关键词的地址行进行定位，容错性较好。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种地址信息的提取装置，该地址信息的提取装置与上述实施例中地址信息的提取方法一一对应。如图9所示，该地址信息的提取装置包括识别模块91、合并模块92、获取模块93、提取模块94、组合模块95。各功能模块详细说明如下：

识别模块91，用于获取待识别的票据图像，对所述票据图像进行OCR识别，得到票据图像中的文本信息及其对应的坐标信息；

合并模块92，用于根据所述坐标信息对所述文本信息进行合并，得到一个或多个文本小列表，组合所述文本小列表，得到所述图像票据对应的文本大列；

获取模块93，用于获取地址层级及其对应的关键词列表；

提取模块94，用于按照所述地址层级及其对应的关键词列表对所述文本小列表进行地址提取，得到所述文本小列表对应的地址信息；

组合模块95，用于遍历所述文本大列表中的所有的文本小列表，得到每一个文本小列表对应的地址信息，组合所述地址信息得到所述票据图像上的地址信息列表。

可选的，所述合并模块92包括：

距离获取单元，用于将两两文本信息对应的坐标信息进行比较，得到所述两两文本信息对应的垂直距离和水平距离；

组合单元，用于当两两文本信息的垂直距离小于或等于第一阈值且水平距离小于或等于第二阈值时，将所述两两文本信息作为上下相邻的文本信息，添加到同一文本小列表中；

排序单元，用于按照所述文本信息对应的坐标信息对同一文本小列表中的文本信息进行升序排序；

添加单元，用于当一个文本信息不存在上下相邻的文本信息时，将所述文本信息单独添加到一个文本小列表中。

可选的，所述提取模块94包括：

地址行获取单元，用于对于所述文本大列表中的一个文本小列表，根据所述地址层级及其对应的关键词列表，获取所述文本小列表中的地址行以及地址首行、地址尾行；

跨行地址行获取单元，用于根据所述地址首行和地址尾行，获取所述文本小列表中的跨行地址行；

矩阵构建单元，用于根据所述跨行地址行构建所述文本小列表对应的行间关系二维矩阵；

生成单元，用于根据所述行间关系二维矩阵生成所述文本小列表对应的至少一个地址序号集；

地址提取单元，用于从所述地址序号集中筛选出目标地址序号集，根据所述目标地址序号集从所述文本小列表中获取对应的文本信息，组合所述文本信息得到所述文本小列表的一个地址信息。

可选的，所述地址行获取单元包括：

关键词判断子单元，用于遍历所述文本小列表中的文本信息，判断所述文本信息中是否存在所述关键词列表中的至少一个关键词；

层级获取子单元，用于在关键词判断子单元的判断结果为是时，以所述文本信息作为一个地址行，获取所述地址行中的关键词的地址层级；

首尾确定子单元，用于若所述地址层级为地址首行时，以所述地址行作为地址首行，若所述地址层级为地址尾行时，以所述地址行作为地址尾行。

可选的，所述跨行地址行获取单元包括：

文本获取子单元，用于获取所述文本小列表中相差预设行数的两个文本信息；

条件判断子单元，用于判断所述两个文本信息是否满足前一文本信息为地址行且不为地址尾行、后一文本信息为地址行且不为地址首行；

跨行获取子单元，用于在条件判断子单元的判断结果为是时，获取所述两个文本信息及其之间的所有文本信息，作为跨行地址行；

所述条件判断子单元，用于在判断结果为否时，继续获取所述文本小列表中相差预设行数的两个文本信息进行跨行地址行判断。

可选的，所述矩阵构建单元包括：

初始化子单元，用于按照所述文本小列表中的文本信息的个数N构建N阶方阵A，并将N阶方阵A的主对角线上的元素赋值为1，其余赋值为0；

判断子单元，用于对于所述文本小列表中的第m个文本信息和第n个文本信息，判断所述第m个文本信息和第n个文本信息是否均为跨行地址行，其中，1≤n≤N，1≤m≤N，且n>m；

第一赋值子单元，用于在判断子单元的判断结果为是时，将所述N阶方阵A中的元素A[m][n]赋值为1；

第二赋值子单元，用于在判断子单元的判断结果为否时，将所述N阶方阵A中的元素A[i][j]均赋值0，其中i分别取0到m，j＝n。

可选的，所述生成单元包括：

行序号集生成子单元，用于遍历所述行间关系二维矩阵的每一行，获取该行中值为1的元素的列序号，组合所述列序号得到每一行对应的行序号集；

包含筛选子单元，用于对所述行序号集进行包含筛选，得到至少一个最大行序号集，以每一所述最大行序号集作为一个地址序号集。

关于地址信息的提取装置的具体限定可以参见上文中对于地址信息的提取方法的限定，在此不再赘述。上述地址信息的提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作***、计算机程序和数据库。该内存储器为存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种地址信息的提取方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取地址层级及其对应的关键词列表；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用。存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存，还可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种地址信息的提取方法，其特征在于，包括：

获取地址层级及其对应的关键词列表；

2.如权利要求1所述的地址信息的提取方法，其特征在于，所述根据所述坐标信息对所述文本信息进行合并，得到一个或多个文本小列表包括：

3.如权利要求1或2所述的地址信息的提取方法，其特征在于，所述按照所述地址层级及其对应的关键词列表对所述文本小列表进行地址提取，得到所述文本小列表对应的地址信息包括：

4.如权利要求3所述的地址信息的提取方法，其特征在于，所述对于所述文本大列表中的一个文本小列表，根据所述地址层级及其对应的关键词列表，获取所述文本小列表中的地址行以及地址首行、地址尾行包括：

5.如权利要求4所述的地址信息的提取方法，其特征在于，所述根据所述地址首行和地址尾行，获取所述文本小列表中的跨行地址行包括：

获取所述文本小列表中相差预设行数的两个文本信息；

6.如权利要求5所述的地址信息的提取方法，其特征在于，所述根据所述跨行地址行构建所述文本小列表对应的行间关系二维矩阵包括：

对于所述文本小列表中的第m个文本信息和第n个文本信息，判断所述第m个文本信息和第n个文本信息是否均为跨行地址行，其中，1≤n≤N，1≤m≤N，且n>m；

若是，则将所述N阶方阵中的元素[m][n]赋值为1；

7.如权利要求6所述的地址信息的提取方法，其特征在于，所述根据所述行间关系二维矩阵生成所述文本小列表对应的至少一个地址序号集包括：

对所述行序号集进行包含筛选，得到至少一个最大行序号集，以每一所述最大行序号集作为一个地址序号集。

8.一种地址信息的提取装置，其特征在于，所述装置包括：

获取模块，用于获取地址层级及其对应的关键词列表；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的地址信息的提取方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的地址信息的提取方法。