CN112115892A

CN112115892A - 一种关键要素抽取方法、装置、设备及存储介质

Info

Publication number: CN112115892A
Application number: CN202011016413.0A
Authority: CN
Inventors: 宋时德; 胡加学; 赵乾
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2020-12-22

Abstract

本申请提出一种关键要素抽取方法、装置、设备及存储介质，该方法包括：对目标图像进行识别，得到识别的文本内容，以及文本内容在所述目标图像中的位置信息；根据识别到的文本内容，以及文本内容在所述目标图像中的位置信息，生成识别到的文本内容的文本特征；根据识别到的文本内容的文本特征，从识别到的文本内容中抽取关键要素。在上述处理过程中，对目标图像中的文本内容生成的文本特征，同时包含了文本的内容特征和位置特征，当基于该文本特征进行关键要素抽取时，可以兼顾文本的内容和位置，从而能够更加准确地从目标图像的文本内容中抽取出关键要素。

Description

一种关键要素抽取方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种关键要素抽取方法、装置、设备及存储介质。

背景技术

图像关键要素抽取，是指从图像的文本内容中抽取关键内容，例如，从收据、证件、保险单等文件图像中，抽取姓名、金额、条款等关键内容。

常规的图像关键要素抽取方法，通常是对图像进行文本识别，然后从识别到的文本中抽取关键要素。该方法是从图像的纯文本中抽取关键要素，但是通常情况下，图像内容属于视觉富文本数据，即图像内容的语义结构不仅由文本内容决定，也与文本排版、表格结构等视觉元素有关。因此，图像中的文本内容的重要程度，通常还与其在图像中的位置有关，例如在合同图像的顶部和底部，通常包含合同双方的姓名、证件号码、联系方式等信息，这些信息均属于关键要素，应当被重点抽取；而在图像中部，则通常包含合同内容、对双方权利与义务的解释说明等，其中有些内容不是重要内容，不应当作为关键要素被抽取。

但是常规的图像关键要素抽取方法，则仅从图像纯文本中抽取关键要素，不能结合文本位置信息准确判断文本内容的重要性，抽取的关键要素不够准确。

发明内容

为了解决上述现有技术的缺陷和不足，本申请提出一种关键要素抽取方法、装置、设备及存储介质，以提高从图像中抽取关键要素的准确度。

为了达到上述目的，本申请具体提出如下技术方案：

一种关键要素抽取方法，包括：

对目标图像进行识别，得到识别的文本内容，以及文本内容在所述目标图像中的位置信息；

根据识别到的文本内容，以及文本内容在所述目标图像中的位置信息，生成识别到的文本内容的文本特征；

根据识别到的文本内容的文本特征，从识别到的文本内容中抽取关键要素。

可选的，识别到的文本内容包括至少一个文本行；

在生成识别到的文本内容的文本特征之前，所述方法还包括：

将识别到的各个文本行，根据其在所述目标图像中的位置，按照从左到右、从上到下的顺序拼接为一个文本序列；

根据识别到的文本内容，以及文本内容在所述目标图像中的位置信息，生成识别到的文本内容的文本特征，包括：

根据识别到的各个文本行，以及各个文本行在所述目标图像中的位置信息，生成所述文本序列的文本特征；

所述根据识别到的文本内容的文本特征，从识别到的文本内容中抽取关键要素，包括：

根据所述文本序列的文本特征，从所述文本序列中抽取关键要素。

可选的，所述根据识别到的各个文本行，以及各个文本行在所述目标图像中的位置信息，生成所述文本序列的文本特征，包括：

根据识别到的各个文本行，以及每个文本行在所述目标图像中的位置信息，生成所述文本序列中的每个字符的整体特征；其中，字符的整体特征，包括字符特征，以及字符与所述目标图像中的其他字符之间的位置关系特征；

根据文本识别结果中的每个字符的整体特征，确定所述文本序列的文本特征。

可选的，所述根据识别到的各个文本行，以及每个文本行在所述目标图像中的位置信息，生成所述文本序列中的每个字符的整体特征，包括：

针对所述文本序列中的每个字符，分别执行以下处理：

获取该字符的字符特征，以及获取该字符的位置特征；其中，该字符的位置特征，包括该字符与所述目标图像中的其他字符的位置关系特征；

根据该字符的字符特征，以及该字符的位置特征，构建该字符的整体特征。

可选的，所述获取该字符的位置特征，包括：

根据该字符所在的文本行在所述目标图像中的位置信息，以及其他各个文本行在所述目标图像中的位置信息，确定该字符的位置特征。

可选的，所述获取该字符的位置特征，包括：

获取该字符所在的文本行的融合特征，并将该字符所在的文本行的融合特征，作为该字符的位置特征；

其中，所述融合特征包括文本特征和位置特征，所述位置特征包括所述字符所在的文本行在所述目标图像中的位置特征。

可选的，所述获取该字符所在的文本行的融合特征，包括：

根据识别到的各个文本行，以及每个文本行在所述目标图像中的位置信息，构建以文本行为节点的全连接的有向图；

基于所述全连接的有向图，提取该字符所在的文本行的融合特征。

可选的，所述基于所述全连接的有向图，提取该字符所在的文本行的融合特征，包括：

通过对所述全连接的有向图进行特征提取处理，获取各个节点的全局特征；所述全局特征，包括节点中包含的文本行的文本特征，以及该节点中包含的文本行与相邻节点中包含的文本行之间的位置关系特征；

将包含该字符所在的文本行的节点的全局特征，确定为该字符所在的文本行的融合特征。

可选的，所述根据识别到的各个文本行，以及每个文本行在所述目标图像中的位置信息，构建以文本行为节点的全连接的有向图，包括：

将所述目标图像划分为设定数量的图像区域；

根据每个文本行在所述目标图像中的位置信息，将位于同一图像区域的文本行作为一个节点，构建全连接的有向图；其中，构建得到的全连接的有向图的每个节点，分别与一个图像区域相对应。

可选的，所述根据所述文本序列的文本特征，从所述文本序列中抽取关键要素，包括：

根据所述文本序列的文本特征，以及与各个图像区域对应的信息抽取权重，从所述文本序列中抽取关键要素；

其中，与图像区域对应的信息抽取权重，表示从图像区域范围内的文本中抽取信息的权重。

一种关键要素抽取装置，包括：

文本识别单元，用于对目标图像进行识别，得到识别的文本内容，以及文本内容在所述目标图像中的位置信息；

特征提取单元，用于根据识别到的文本内容，以及文本内容在所述目标图像中的位置信息，生成识别到的文本内容的文本特征；

信息抽取单元，用于根据识别到的文本内容的文本特征，从识别到的文本内容中抽取关键要素。

一种关键要素抽取设备，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述的关键要素抽取方法。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的关键要素抽取方法。

本申请提出的关键要素抽取方法，当从目标图像中识别文本内容时，还同步确定识别到的文本内容在目标图像中的位置信息，然后基于识别到的文本内容，以及识别到的文本内容的位置信息，生成文本内容的文本特征，最后，根据该文本内容的文本特征，从该文本内容中抽取关键要素。在上述处理过程中，对目标图像中的文本内容生成的文本特征，同时包含了文本的内容特征和位置特征，当基于该文本特征进行关键要素抽取时，可以兼顾文本的内容和位置，从而能够更加准确地从目标图像的文本内容中抽取出关键要素。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种目标图像的示意图；

图2是本申请实施例提供的一种关键要素抽取方法的流程示意图；

图3是本申请实施例提供的对目标图像进行图像区域划分的示意图；

图4是本申请实施例提供的全连接的有向图的示意图；

图5是本申请实施例提供的一种关键要素抽取模型的结构示意图；

图6是本申请实施例提供的一种关键要素抽取装置的结构示意图；

图7是本申请实施例提供的一种关键要素抽取设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于图像关键要素抽取的应用场景，采用本申请实施例技术方案，能够准确地识别图像各个位置的文本内容的重要性，从而更加准确地从图像中抽取关键要素。

常规的图像关键要素抽取方案是，先对图像进行文本识别处理，然后从识别到的文本中，抽取关键文本内容，作为抽取的关键要素。但是通常情况下，图像中不同位置的文本内容的重要程度是不同的，例如在图1所示的收据图像中，收据的中间靠左部分记录交款单位、收款事由、收款金额等内容，在收据下部则记录收款单位和收款人、交款人信息，这些信息都是重要的信息，应当作为关键要素被抽取；相反，在收据上方和收据右侧，记录着诸如“收款收据”、“存根白客户红记账黄”以及收据编号等信息，这些信息相对来说不重要，因此不应当作为关键要素被抽取。

而常规的图像关键要素抽取方案，只是在对图像进行文本识别后，从识别到的纯文本内容中抽取关键要素。单纯地根据纯文本内容，识别文本的重要程度，并不能准确把握文本在图像中的重要程度，因此不能准确地抽取出图像中的关键要素。

为了解决现有的图像关键要素抽取方案所存在的上述缺陷，本申请实施例提出一种新的关键要素抽取方法，采用该方法能够更加准确地从图像中抽取关键要素。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图2所示，本申请实施例提出的关键要素抽取方法，包括：

S201、对目标图像进行识别，得到识别的文本内容，以及文本内容在所述目标图像中的位置信息。

具体的，上述的目标图像，是指包含文本的图像，其可以是对任意形式的文本进行拍摄得到的图像，例如对票据、证件、文件等进行拍摄得到的图像，均可作为上述的目标图像。

作为一种可选的实现方式，本申请实施例对上述的目标图像进行光学字符识别(Optical Character Recognition，OCR)处理，从而识别得到图像中的文本内容，同时，通过标记识别到的文本内容，以及结合图像坐标系，可以确定识别到的文本在图像中的位置信息。

例如，可以预先训练OCR模型，将上述的目标图像输入该OCR模型，得到该模型识别的文本内容，以及文本内容在该目标图像中的位置信息。

示例性的，对目标图像进行识别得到的文本内容，可以是单个字符，或者是词组、短句或文本行等形式。可以通过文本框标记识别到的文本内容，即将识别到的文本内容用文本框标记显示，然后将该文本框的中心位置在该目标图像中的坐标，作为该文本框中的文本内容在该目标图像中的位置。

S202、根据识别到的文本内容，以及文本内容在所述目标图像中的位置信息，生成识别到的文本内容的文本特征。

上述的文本特征，是指能够唯一表示识别到的文本的特征。本申请实施例以识别到的文本内容，以及识别到的文本内容在目标图像中的位置信息，生成识别到的文本内容的文本特征，也就是，将文本内容的内容信息以及位置信息相结合，生成该文本内容的文本特征。

则可以理解，按照本申请实施例上述处理生成从目标图像中识别到的文本内容的文本特征，使得该文本特征中既包含文本内容的特征，又包含文本内容在该目标图像中的位置特征。

S203、根据识别到的文本内容的文本特征，从识别到的文本内容中抽取关键要素。

具体的，通过对识别到的文本内容的文本特征进行分析，可以兼顾文本内容，以及文本内容在上述的目标图像中的位置信息，确定文本内容的重要程度，进而可以从识别到的文本内容中抽取重要内容，作为关键要素。

例如，假设图1所示的收据图像作为上述的目标图像，当对该图像进行文本识别得到识别的文本内容，并且分别确定识别的文本内容在该目标图像中的位置后，按照步骤S202生成识别到的文本内容的文本特征。

接下来，基于识别到的文本内容的文本特征，识别文本内容的重要性。假如某一文本处于图像中间靠左的位置，则可以初步预测该文本为重要文本，进一步的，如果该文本的文本特征表征该文本是表示交款方名称、收款事由、收款数额等信息的文本内容，则可以确定该文本为重要文本；相反，如果某一文本处于图像顶部或图像右侧，则可以初步预测该文本为非重要文本，进一步的，如果该文本的文本特征表征该文本既不是表示客户名称的文本，也不是表示收款数额的文本，则可以确定该文本不是重要文本。

经过上述处理，可以从图1所示的目标图像中抽取出“南京大学”、“下拨经费”、“壹万贰仟叁佰肆拾伍元整”、“收款人王五”等重要信息，而图中的“收款收据”、“N0000002”等信息，则不被抽取。

按照上述方式，基于从目标图像中识别到的文本内容的文本特征，将文本的内容和所在位置相结合，可以参考目标图像的文本内容分布规律，确定从目标图像各个位置识别到的文本的重要程度，从而可以准确地从目标图像中抽取出关键要素。

作为一种可选的实现方式，上述的关键要素抽取处理，可以借助信息抽取模型来实现，例如，预先训练transformer+copy的信息抽取模型，该模型在每次对文本特征进行解码时，对文本内容特征和文本位置特征进行分析，通过注意力机制确定位于不同位置的文本被选中的概率，也就是被抽取的概率，从而，可以从文本中提取出关键要素。

通过上述介绍可见，本申请实施例提出的关键要素抽取方法，当从目标图像中识别文本内容时，还同步确定识别到的文本内容在目标图像中的位置信息，然后基于识别到的文本内容，以及识别到的文本内容的位置信息，生成文本内容的文本特征，最后，根据该文本内容的文本特征，从该文本内容中抽取关键要素。在上述处理过程中，对目标图像中的文本内容生成的文本特征，同时包含了文本的内容特征和位置特征，当基于该文本特征进行关键要素抽取时，可以兼顾文本的内容和位置，从而能够更加准确地从目标图像的文本内容中抽取出关键要素。

作为一种优选的实现方式，本申请实施例以文本行为单位，对上述的目标图像进行文本识别处理，则识别得到的文本内容为文本行的形式，也就是，识别到的文本内容，包括至少一个文本行。

受目标图像中的文本分布影响，例如字符间距、文本换行等的影响，可能会导致一个完整的文本句被识别为多个文本行。此时，如果单独从每个文本行抽取关键要素，可能会影响对关键要素的识别。例如某一个关键的词或短语，可能会因为字符间距较大而被拆分至不同的文本行，从而导致该重要的词或短语被拆分，此时从任意一个文本行中抽取关键要素，都不可能再将该关键的词或短语完整地抽取出来。

为了避免文本行识别可能对关键要素带来的拆分效果，本申请实施例设定，当对目标图像进行识别得到识别的各个文本行，并且分别确定识别到的各个文本行在目标图像中的位置之后，按照各个文本行在目标图像中的位置从左到右、从上到下的顺序，将各个文本行拼接为一个文本序列。此时，从目标图像中识别到的所有文本行组成一个文本序列，也就是，从目标图像中识别到的文本内容成为文本序列的形式。

相应的，上述的根据识别到的文本内容，以及文本内容在所述目标图像中的位置信息，生成识别到的文本内容的文本特征，具体为：

根据识别到的各个文本行，以及各个文本行在所述目标图像中的位置信息，生成所述文本序列的文本特征。

由于从目标图像中识别到的文本内容为文本行的形式，而且本申请实施例将识别到的各个文本行拼接为文本序列，因此当生成识别到的文本内容的文本特征时，具体是生成拼接得到的文本序列的文本特征。

本申请实施例以组成该文本序列的各个文本行，以及各个文本行在目标图像中的位置信息为基础，生成由各个文本行组成的文本序列的文本特征。

作为一种示例性的实现方式，针对每个文本行，分别根据其内容以及其在目标图像中的位置信息，生成该文本行的文本特征。然后，将各个文本行的文本特征按照其在文本序列中的位置进行拼接，得到文本序列的文本特征。

或者，也可以构建文本特征提取模型，将各个文本行，以及各个文本行的位置信息，输入该文本特征提取模型，生成由各个文本行构成的文本序列的文本特征。

通过上述处理，当生成上述的文本序列的文本特征后，在从识别到的文本内容中抽取关键要素时，即可根据上述的文本序列的文本特征，从上述的文本序列中抽取关键要素。

示例性的，将上述的文本序列的文本特征，输入预先训练transformer+copy的信息抽取模型，即可抽取得到该文本序列中的关键要素。

作为一种可选的实现方式，上述的根据识别到的各个文本行，以及各个文本行在所述目标图像中的位置信息，生成所述文本序列的文本特征，包括：

首先，根据识别到的各个文本行，以及每个文本行在所述目标图像中的位置信息，生成所述文本序列中的每个字符的整体特征；其中，字符的整体特征，包括字符特征，以及字符与所述目标图像中的其他字符之间的位置关系特征；

然后，根据文本识别结果中的每个字符的整体特征，确定所述文本序列的文本特征。

具体的，由于本申请实施例将从目标图像中识别到的各个文本行拼接为文本序列，然后从文本序列中再抽取关键要素。则当从文本序列中抽取关键要素时，从字符的维度进行关键内容的检测和识别，能够更加全面、细致地识别关键内容，从而实现关键要素抽取。

进一步的，在基于文本序列中的字符进行关键要素抽取时，如果能够同时参考字符的特征，以及字符在目标图像中的位置，则可以更准确地识别关键的字符、词语、短句等，从而实现更加准确的关键要素识别。

因此，本申请实施例在生成上述的文本序列的文本特征时，先生成文本序列中的每个字符的特征，然后利用文本序列中的每个字符的特征，确定文本序列的文本特征。这样，当利用文本序列的文本特征进行关键要素抽取时，可以参考文本序列中的字符的特征，更加准确地进行关键要素的识别和抽取。

作为一种优选的实现方式，当生成上述的文本序列中的每个字符的特征时，根据识别到的各个文本行，以及每个文本行在目标图像中的位置信息，生成文本序列中的每个字符的整体特征。其中，字符的整体特征，包括字符本身的特征，即字符特征，还包括字符与目标图像中的其他字符之间的位置关系特征。其中，字符与目标图像中的其他字符之间的位置关系特征，可以根据各个字符在目标图像中的位置，通过进行字符之间的相对位置关系的计算而确定。

按照上述方式提取文本序列中的字符的特征，不仅可以提取得到字符本身的特征，还可以提取到各个字符之间的位置关系特征。也就是，通过生成字符的整体特征，可以同时获取字符本身的特征以及字符之间的位置关系特征。

基于字符的整体特征，可以进一步确定文本序列的文本特征。示例性的，按照每个字符在文本序列中的位置，将文本序列中的每个字符的整体特征进行拼接，拼接得到的特征序列，即作为该文本序列的文本特征。

作为一种可选的实现方式，当根据识别到的各个文本行，以及每个文本行在所述目标图像中的位置信息，生成所述文本序列中的每个字符的整体特征时，针对上述的文本序列中的每个字符，分别执行以下处理，从而实现每个字符的整体特征的生成：

首先，获取字符的字符特征，以及获取字符的位置特征。

其中，上述的字符特征，可以通过对字符本身进行特征提取而得到。例如对字符进行特征提取，可以得到一个128维的字向量，作为该字符的字符特征。

上述的字符的位置特征，包括该字符与目标图像中的其他字符的位置关系特征。

示例性的，字符的位置特征，可以根据字符在目标图像中的位置信息，以及该目标图像中的其他字符在目标图像中的位置信息进行计算确定。

其中，字符在目标图像中的位置信息，可以根据字符所在的文本行在目标图像中的位置确定。例如，假设文本行在目标图像中的位置为文本行所在的文本框中心在目标图像中的位置，则根据该文本框的中心在目标图像中的位置，以及文本行中的每个字符在该文本框的位置，可以计算得到该文本行中的每个字符的中心在目标图像中的位置，即计算得到该文本行中的每个字符在目标图像的位置。

按照上述处理，可以确定上述的文本序列中的各个字符在目标图像中的位置，以及，可以根据各个字符在目标图像中的位置，计算得到该文本序列中的每个字符与其他字符之间的位置关系，即计算得到该文本序列中的每个字符的位置特征。

在确定文本序列中字符的字符特征，以及该字符的位置特征后，即可根据该字符的字符特征，以及该字符的位置特征，构建该字符的整体特征。

例如，将该字符的字符特征与该字符的位置特征进行拼接，即可得到该字符的整体特征。

作为另一种可选的实现方式，在获取上述的文本序列中的字符的位置特征时，还可以获取该字符所在的文本行的融合特征，并将该字符所在的文本行的融合特征，作为该字符的位置特征。

具体的，本申请实施例将字符所在的文本行的融合特征，作为字符的位置特征，并将该字符的位置特征，与该字符的字符特征进行组合，得到该字符的整体特征。

其中，字符所在的文本行的融合特征，包括文本行的文本特征和位置特征，该位置特征包括该字符所在的文本行在目标图像中的位置特征。

该字符所在的文本行的融合特征，可以通过提取该文本行的文本特征，以及该文本行在目标图像中的位置特征，然后将该文本行的文本特征与该文本行在目标图像中的位置特征进行组合得到。

其中，该文本行在目标图像中的位置特征，可以是该文本行与目标图像中的其他文本行之间的位置关系特征。

作为一种示例性的实现方式，本申请实施例根据从目标图像中识别到的各个文本行在目标图像中的位置信息，构建以各个文本行为节点的全连接的有向图，然后，基于该全连接的有向图，提取该字符所在的文本行的融合特征。

其中，在构建以从目标图像中识别到的各个文本行为节点的全连接的有向图时，本申请实施例按照如下步骤SS1～SS2处理实现：

SS10、将所述目标图像划分为设定数量的图像区域。

例如图3所示，假设从目标图像中识别到的各个文本行为图中的各个实线框所示。本申请实施例还将上述的目标图像划分为设定数量的图像区域，例如图3中的虚线所示，将目标图像划分为12个图像区域。

SS11、根据每个文本行在目标图像中的位置信息，将位于同一图像区域的文本行作为一个节点，构建全连接的有向图。

具体的，参照图3所示的图像区域划分方式，针对其中的每个图像区域，将位于该图像区域的各个文本行作为一个节点，构建全连接的有向图，则构建得到的全连接的有向图的每一个节点，分别与一个图像区域相对应。

这样，就构建得到以目标图像中的每个图像区域为节点的全连接的有向图，在该全连接的有向图的每个节点中，分别包括与该节点对应的图像区域中的各个文本行。

其中，文本行位于某一图像区域，是指文本行的中心点位于某一图像区域。如果某一文本行跨越两个图像区域，则将该文本行的中心所在的图像区域，作为该文本行所在的图像区域。

作为优选的处理方式，本申请实施例设定，当构建与各个图像区域为节点的全连接的有向图时，如果某个图像区域中包含的字符数量较少，则在构建全连接的有向图时，不考虑该图像区域，也就是该图像区域不参与有向图构建。由此可以降低有向图构建的工作量，以及降低后续特征计算的计算量。

最终，构建得到的全连接的有向图可参见图4所示。在该有向图中，节点为图像区域中的文本行，节点之间的连接边，表示目标图像中的各个图像区域之间的连接关系。

在构建得到以目标图像中的各个文本行为节点的全连接的有向图后，即可基于该全连接的有向图，提取该字符所在的文本行的融合特征。

示例性的，通过执行以下步骤SS20～SS21，即可从上述全连接的有向图中，提取得到该字符所在的文本行的融合特征：

SS20、通过对所述全连接的有向图进行特征提取处理，获取各个节点的全局特征。

其中，每个节点的全局特征，包括节点中包含的文本行的文本特征，以及该节点中包含的文本行与相邻节点中包含的文本行之间的位置关系特征。

节点中包含的文本行的文本特征，可以通过对节点中的文本行进行文本特征提取得到。节点中包含的文本行与相邻节点包含的文本行之间的位置关系特征，通过计算有向图中的各个节点之间的连接边的特征值而确定。

其中，每个节点，与相邻节点之间的连接边的特征值，根据相邻节点对应的图像区域与该节点对应的图像区域的相对坐标与长宽信息而确定，该相对坐标，为相邻节点对应的图像区域，相对于该节点对应的图像区域的坐标，该坐标使用该节点对应的图像区域的高度进行归一化处理，使得计算得到的相对坐标具有仿射不变性。

作为一种示例性的实现方式，将上述的全连接的有向图，输入预先训练的图卷积神经网络，可以得到各个节点的全局特征。图卷积神经网络通过卷积等运算处理，对每个节点分别进行文本特征提取，以及计算节点与相邻节点之间的连接边的特征值，并将该节点的文本特征，以及该节点与相邻节点之间的连接边的特征值进行融合处理，得到该节点的全局特征。

SS21、将包含该字符所在的文本行的节点的全局特征，确定为该字符所在的文本行的融合特征。

具体的，当分别获取上述全连接的有向图的各个节点的全局特征后，确定包含该字符所在的文本行的节点，将该节点的全局特征，作为该字符所在的文本行的融合特征。

按照本申请实施例上述处理，对目标图像进行图像区域划分，然后利用划分得到的图像区域为节点，构建全连接的有向图，通过提取该有向图的各个节点的全局特征，得到每个图像区域的文本行的融合特征。

基于上述处理，对于从目标图像中识别到的各个文本行组成的文本序列，当生成文本序列中的各个字符的整体特征时，将该字符的字符特征，与该字符所在的文本行的融合特征进行组合，得到各个字符的整体特征，其中，该字符所在的文本行的融合特征，由包含该字符的文本行的节点的全局特征而确定。而包含该字符的文本行的节点的全局特征，体现了包含该字符的文本行所在的图像区域，与其他图像区域之间的位置关系信息。

因此，按照上述方式生成的文本序列中的字符的整体特征，不仅包含了字符本身的特征，还包含了字符所在的图像区域的位置特征，尤其是包含了字符所在的图像区域与其他图像区域之间的位置关系特征。

基于该文本序列中的各个字符的整体特征构建文本序列的文本特征后，当根据该文本序列的文本特征进行关键要素抽取时，可以参考字符本身的特征，还可参考字符所在的图像区域的位置特征，进行关键要素抽取。

而通常情况下，在目标图像中，关键要素的分布呈区域性。例如图1所示，关键要素集中分布在图像的某些区域，而并非在图像的任何区域的文本内容均为关键内容。因此，本申请实施例在生成文本序列的文本特征时，加入了字符所在区域的位置特征，可以结合字符所在的图像区域，对字符的重要性进行判断，能够更准确地从目标图像中抽取出关键要素。

需要说明的是，图3所示的图像区域划分方式，只是示例性的划分方式，在实际应用中，可以结合待处理的目标图像的类型，适应性的对图像区域的划分方式进行调整，使得当对目标图像划分图像区域后，位于不同图像区域的图像文本内容的重要程度不同。

进一步的，为了更加明确地确定各个图像区域的文本内容的重要程度，从而便于从各个图像区域抽取关键要素，本申请实施例为每个图像区域分别设置信息抽取权重，该信息抽取权重，表示从图像区域范围内的文本中抽取信息的权重。如果某一图像区域的信息抽取权重较大，则当从目标图像抽取关键要素时，从该图像区域抽取信息内容的概率较大；如果某一图像区域的信息抽取权重较小，则当从目标图像抽取关键要素时，从该图像区域抽取新内容的概率较大。

当根据文本序列的文本特征，从文本序列中抽取关键要素时，本申请实施例具体是根据文本序列的文本特征，以及与目标图像的各个图像区域对应的信息抽取权重，从该文本序列中抽取关键要素。

由于在关键要素抽取过程中，参考了各个图像区域对应的信息抽取权重，因此能够更加准确地衡量各个图像区域中的文本内容的重要程度，从而有利于更加准确地从目标图像的不同图像区域抽取出关键要素。

作为一种可选的实现方式，本申请实施例构建关键要素抽取模型，来执行从识别到的文本内容中抽取关键要素的处理过程。

例如图5所示，本申请实施例构建的关键要素抽取模型，包括OCR识别层、图卷积层、语义表示层和信息抽取层。

其中，OCR识别层，用于对目标图像进行图像区域划分，并根据OCR模型对目标图像进行文本识别得到的文本内容，以及识别到的文本内容在目标图像中的位置信息，确定识别到的文本内容所属的图像区域。

图卷积层，以OCR识别层输出的每个图像区域的位置信息，以及图像区域内的文本信息为输入，构建以图像区域为节点的全连接的有向图，在该全连接的有向图中，每个图像区域中的文本对应一个节点，各个节点之间相互连接。对该全连接的有向图进行图卷积运算，得到各个节点的全局特征，其中节点的全局特征包括节点的文本特征，以及节点与相邻节点之间的位置关系特征。其中，节点的初始特征由节点中的文本内容通过Bert编码得到。节点之间的连接边的初始特征为相邻节点与当前节点各自对应的图像区域的相对坐标与长宽信息，该相对坐标为相邻节点对应的图像区域相对于当前节点对应的图像区域的坐标。该图卷积层的具体处理内容，还可参见上述方法实施例中介绍的关于获取字符所在的文本行的融合特征的处理内容。

语义表示层，用于将从目标图像中识别到的各个文本行按照文本行在目标图像中的位置进行拼接得到文本序列，以及，提取文本序列中的字符的特征，从而获取该文本序列的文本特征。

具体的，对于文本序列中的每个字符，将该字符的字符特征，以及字符所在的文本行的融合特征，也就是上述的图卷积层输出的，该字符所在的节点的全局特征，进行拼接得到该字符的整体特征。

然后，将文本序列中的每个字符的整体特征进行拼接，得到文本序列的文本特征。

例如，假设字符的字符特征为128维的字向量，字符所在的文本行的融合特征为128的向量，则将两者进行拼接，即可得到待字符的整体特征为256维的特征向量。假设文本序列中有60个字，将每个字符的整体特征进行拼接，则可以得到60*256的特征向量，即为该文本序列的文本特征。

其中，对于字符的字符特征的提取，可以通过BERT模型实现。

信息抽取层，采用transformer+copy的模型架构，以文本序列的文本特征为输入，在对文本序列进行解码时，对文本特征和图片中的位置的融合表示作Attention(注意力机制)，从而确定不同方位的字被Copy的概率值，也就是被抽取的概率值。由于在解码时，图像中各个区域的文本被Copy的概率并不是等价的，因此可以通过一个可学习的λ，表示不同位置的文本被Copy的权重。

其中λ根据图像的图像区域的位置信息，以及文本之间的关联性进行计算得出，其计算公式如下：

其中，σ表示计算系数，W表示参数矩阵，A_i表示在图卷积层中根据各个图像区域进行图卷积的每个图像区域，n为图像区域的数量，H表示在图卷积层中根据各个图像区域进行图卷积的文本信息矩阵。

上述的关键要素抽取模型实现了本申请上述各实施例介绍的从识别到的文本内容中抽取关键要素的处理内容，其的各个部分的具体工作内容，还可以参见本申请上述各方法实施例介绍的处理内容，此次不再一一对应介绍。

在应用该关键要素抽取模型时，以OCR模型作为前置模型，将该OCR模型的输出作为输入，对该关键要素抽取模型进行训练，使其能够准确地从OCR的识别结果中抽取出关键要素。在关键要素抽取模型的训练阶段，模型各个部分的参数以及计算项目的初始值，可以根据各个部分的功能特点而灵活设置，在关键要素抽取模型的训练过程中，不断对设置的初始值进行修正，最终使得关键要素抽取模型能够准确地从任意的目标图像中抽取关键要素。

本申请另一实施例还提出一种关键要素抽取装置，参见图6所示，该装置包括：

文本识别单元100，用于对目标图像进行识别，得到识别的文本内容，以及文本内容在所述目标图像中的位置信息；

特征提取单元110，用于根据识别到的文本内容，以及文本内容在所述目标图像中的位置信息，生成识别到的文本内容的文本特征；

信息抽取单元120，用于根据识别到的文本内容的文本特征，从识别到的文本内容中抽取关键要素。

本申请实施例提出的关键要素抽取装置，当从目标图像中识别文本内容时，还同步确定识别到的文本内容在目标图像中的位置信息，然后基于识别到的文本内容，以及识别到的文本内容的位置信息，生成文本内容的文本特征，最后，根据该文本内容的文本特征，从该文本内容中抽取关键要素。在该装置的上述处理过程中，对目标图像中的文本内容生成的文本特征，同时包含了文本的内容特征和位置特征，当基于该文本特征进行关键要素抽取时，可以兼顾文本的内容和位置，从而能够更加准确地从目标图像的文本内容中抽取出关键要素。

可选的，识别到的文本内容包括至少一个文本行；

针对所述文本序列中的每个字符，分别执行以下处理：

可选的，所述获取该字符的位置特征，包括：

可选的，所述获取该字符所在的文本行的融合特征，包括：

将所述目标图像划分为设定数量的图像区域；

具体的，上述的关键要素抽取装置的各个单元的具体工作内容，请参见上述方法实施例的内容，此处不再重复。

本申请另一实施例还提出一种关键要素抽取设备，参见图7所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的关键要素抽取方法。

具体的，上述关键要素抽取设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机***各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作***和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器2102执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的关键要素抽取方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时，实现上述任一实施例提供的关键要素抽取方法的各个步骤。

上述的关键要素抽取设备的各个部分的具体工作内容，以及上述的存储介质中的计算机程序被处理器运行时的具体处理内容，均可参见本申请上述方法实施例的内容，此处不再重复。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种关键要素抽取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，识别到的文本内容包括至少一个文本行；

3.根据权利要求2所述的方法，其特征在于，所述根据识别到的各个文本行，以及各个文本行在所述目标图像中的位置信息，生成所述文本序列的文本特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据识别到的各个文本行，以及每个文本行在所述目标图像中的位置信息，生成所述文本序列中的每个字符的整体特征，包括：

针对所述文本序列中的每个字符，分别执行以下处理：

5.根据权利要求4所述的方法，其特征在于，所述获取该字符的位置特征，包括：

6.根据权利要求4所述的方法，其特征在于，所述获取该字符的位置特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述获取该字符所在的文本行的融合特征，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述全连接的有向图，提取该字符所在的文本行的融合特征，包括：

9.根据权利要求7所述的方法，其特征在于，所述根据识别到的各个文本行，以及每个文本行在所述目标图像中的位置信息，构建以文本行为节点的全连接的有向图，包括：

将所述目标图像划分为设定数量的图像区域；

10.根据权利要求9所述的方法，其特征在于，所述根据所述文本序列的文本特征，从所述文本序列中抽取关键要素，包括：

11.一种关键要素抽取装置，其特征在于，包括：

12.一种关键要素抽取设备，其特征在于，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至10中任意一项所述的关键要素抽取方法。

13.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至10中任意一项所述的关键要素抽取方法。