CN111144370A

CN111144370A - 单据要素抽取方法、装置、设备及存储介质

Info

Publication number: CN111144370A
Application number: CN201911415309.6A
Authority: CN
Inventors: 杜倩云; 吴培浩; 吴啟超
Original assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Current assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12
Anticipated expiration: 2039-12-31
Also published as: CN111144370B

Abstract

本发明实施例涉及图像识别技术领域，提供了一种单据要素抽取方法、装置、设备及存储介质。该单据要素抽取方法包括：获取单据图片的文本片段和文本片段对应的位置信息，根据位置信息确定文本片段的图像侧特征向量；将图像侧特征向量、文本片段的词嵌入向量及文本片段的图嵌入向量进行拼接，获取连续的文本序列；对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列。本发明实施例提供的单据要素抽取方法、装置、设备及存储介质，可以有效补充单据图片识别中损失的文本信息，提高要素抽取的完整性。

Description

单据要素抽取方法、装置、设备及存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种单据要素抽取方法、装置、设备及存储介质。

背景技术

单据可以为制式单据或非制式单据，其中，非制式单据指的是没有明确格式的非结构化单据。在实际应用中，来自不同地区不同机构的单据格式往往高度个性化，各式各样，而且时常是以图片的形式存在，当需要人工审核时需要耗费较高的时间和精力。因此，如何自动从单据中提取预定义的要素信息是信息结构化表示和信息智能处理的必要步骤和核心技术。

现有的单据要素抽取方法主要是对单据图片进行光学字符识别(OpticalCharacter Recognition，简称OCR)，然后将识别结果按照从上到下从左到右的顺序进行拼接，将拼接结果作为要素抽取结果，但是这种方法通常无法获取完整的要素抽取结果并且要素值容易被切断。

发明内容

本发明实施例的目的是提供一种单据要素抽取方法、装置、设备及存储介质，用以解决传统单据要素抽取方法无法获取完整的要素抽取结果且要素值容易被切断的问题。

第一方面，本发明实施例提供单据要素抽取方法，包括：

获取单据图片的文本片段和所述文本片段对应的位置信息，根据所述位置信息确定所述文本片段的图像侧特征向量；

将所述图像侧特征向量、所述文本片段的词嵌入向量及所述文本片段的图嵌入向量进行拼接，获取连续的文本序列；

对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列。

优选地，所述根据所述位置信息确定所述文本片段的图像侧特征向量，具体包括：

获取单据图片的特征图，根据所述位置信息确定所述文本片段在所述特征图上对应区域的信息特征；

对所述信息特征进行池化处理，确定用于表征所述文本片段的图像信息的图像侧特征向量。

优选地，所述将所述图像侧特征向量、所述文本片段的词嵌入向量及所述文本片段的图嵌入向量进行拼接，具体包括：

若所述文本片段包括多个单词，则对每一所述单词拼接相同的图像侧特征向量和图嵌入向量。

优选地，所述对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列，具体包括：

通过重排序模型，对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列。

优选地，所述重排序模型包括BiLSTM层、自注意力层和指针网络层；对应的，所述通过重排序模型，对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列，具体包括：

将连续的文本序列输入所述BiLSTM层，确定所述文本片段的上下文特征；

将所述上下文特征输入所述自注意力层，确定各单词的权重；

将所述上下文特征及所述各单词的权重输入所述指针网络层，由所述指针网络层输出所述符合阅读顺序的文本序列。

优选地，所述对所述连续的文本序列进行重排序，还包括：在所述重排序模型的训练过程中，使用交叉熵损失函数进行训练。

优选地，所述获取单据图片的文本片段和所述文本片段对应的位置信息具体包括：

通过光学字符识别方法，识别所述单据图片，获取所述文本片段和所述文本片段对应的位置信息。

优选地，所述将所述图像侧特征向量、所述文本片段的词嵌入特征及所述文本片段的图嵌入特征进行拼接，具体包括：获取属性图，将所述属性图输入图卷积神经网络模型，由所述图卷积神经网络模型输出所述属性图中每个文本片段的向量表示；

将所述属性图中每个文本片段的向量表示作为所述文本片段的图嵌入特征。

第二方面，本发明实施例提供一种单据要素抽取装置，包括：

第一处理单元，用于获取单据图片的文本片段和所述文本片段对应的位置信息，根据所述位置信息确定所述文本片段的图像侧特征向量；

第二处理单元，用于将所述图像侧特征向量、所述文本片段的词嵌入向量及所述文本片段的图嵌入向量进行拼接，获取连续的文本序列；

第三处理单元，用于通过重排序模型，对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列。

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑命令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的单据要素抽取方法、装置、设备及存储介质，通过文本片段对应的位置信息确定文本片段的图像侧特征向量，将该图像侧特征向量与词嵌入向量、图嵌入向量进行拼接并重排序，从而可以有效补充单据图片识别中损失的文本信息，提高要素抽取的完整性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为OCR识别文本片段的结果示意图；

图2为本发明实施例提供的单据要素抽取方法的流程示意图；

图3为本发明实施例图像侧特征向量的确定方法流程示意图；

图4为本发明实施例提供的重排序方法的流程示意图；

图5为本发明实施例提供的单据要素抽取装置的结构示意图；

图6为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为OCR识别文本片段的结果示意图，每个方框对应OCR输出的一个文本片段。其中，图1中a图所示的方框中，表征地址的完整要素值被切断；图1中b图所示的方框中，包含了一个完整的要素值和其余信息。在实际单据要素抽取中，这两种识别结果普遍存在。因此，需要根据要素值自身特点和要素值之间的约束关系对OCR识别结果进行筛选，然后对多个文本片段中的同一要素值内容进行拼接，此时需要大量的人工梳理和总结，往往会有遗漏。其中，要素值自身特点可以为要素值的类型，如：金额类要素值为数字类型；要素值之间的约束关系反映了两个或多个要素值之间的关联性，比如，总金额等于单价与数量的乘积。

对此，本发明实施例提供一种单据要素抽取方法，能够获取完整的要素抽取结果，避免丢失文本片段的信息。图2为本发明实施例提供的单据要素抽取方法的流程示意图，如图2所示，该方法包括：步骤210，获取单据图片的文本片段和所述文本片段对应的位置信息，根据所述位置信息确定所述文本片段的图像侧特征向量；步骤220，将所述图像侧特征向量、所述文本片段的词嵌入向量及所述文本片段的图嵌入向量进行拼接，获取连续的文本序列；步骤230，对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列。

其中，步骤210，获取单据图片的文本片段和所述文本片段对应的位置信息，根据所述位置信息确定所述文本片段的图像侧特征向量。

具体地，单据可以为制式单据或非制式单据，对此本发明实施例不做具体限定。单据图片的文本片段及文本片段对应的位置信息可以通过光学字符识别方法获取，也可以采用其他识别方法。其中，文本片段的位置信息为图1中所示出的文本片段的边界框的四点坐标值。以光学字符识别方法为例，单据图片的文本片段及文本片段对应的位置信息均为光学字符识别方法的输出结果，用于表示单据图片的每个位置有什么文本片段。每个文本片段包括一个单词或多个单词，对此不做具体限定。

其中，步骤220，将所述图像侧特征向量、所述文本片段的词嵌入向量及所述文本片段的图嵌入向量进行拼接，获取连续的文本序列。

具体地，图像侧特征向量用于表征文本片段邻域的图像模式，如表格线、盖章等，可以补充OCR输出文本损失的信息。文本片段的词嵌入向量为文本片段内每一个单词的向量表示；其通过Word2vec(word to vector)将单词转换为固定长度的向量表示，从而计算得到每个单词的词嵌入结果。文本片段的图嵌入向量为文本片段的向量表示，其带有文本片段的全局布设信息，反映出文本片段与文本片段之间的相对位置分布。由于OCR输出的文本片段及其对应的位置信息不涉及语义，各文本片段之间是零散的，需要拼接在一起形成连续的文本序列。本发明实施例中，将图像侧特征向量、文本片段的词嵌入向量及文本片段的图嵌入向量拼接在一起获取连续的文本序列。

其中，步骤230，对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列。

具体地，零散的文本片段在连接成一个连续的文本序列时，一些语义上属于同一个句子的部分可能被打乱，需要通过重排序生成正确的顺序。比如，如表1所示为某单据图片的识别结果，单据中的地址(Address)为“Hot Moose Web Design A12345 UniteStates”，订单号(Order No.)为“A12345”。若是按照固定的从左到右从上到下的方式进行拼接，则拼接后变成了“Hot Moose Web Design A12345Unite States”，很明显地址要素值被订单号切断。

表1单据图片的识别结果表

Address	Order No.
		Hot Moose Web Design	A12345
Unite States

本发明实施例中，通过对连续的文本序列进行重排序，获得符合阅读顺序的文本序列。其中，可以采用循环神经网络模型比如长短期记忆模型，也可以为其他编码器-解码器模型，还可以采用人工校正或者其他方式进行重排序，对此本发明实施例不做具体限定。

本发明实施例提供的单据要素抽取方法，通过文本片段对应的位置信息确定文本片段的图像侧特征向量，将该图像侧特征向量与词嵌入向量、图嵌入向量进行拼接并重排序，从而可以有效补充单据图片识别中损失的文本信息，提高要素抽取的完整性。

另外，在步骤230之后还包括：将重排序的文本序列输入CRF层进行序列标注，获取标注后的文本序列作为要素抽取结果。具体地，通过CRF层添加约束条件，建模单词标签之间的转移概率，提高分类结果的准确性。

在上述实施例的基础上，图3为本发明实施例图像侧特征向量的确定方法的流程示意图。如图3所示，根据所述位置信息确定所述文本片段的图像侧特征向量，具体包括：

步骤310，获取单据图片的特征图，根据所述位置信息确定所述文本片段在所述特征图上对应区域的信息特征；

步骤320，对所述信息特征进行池化处理，确定用于表征所述文本片段的图像信息的图像侧特征向量。

具体地，单据图片的特征图可以为OCR检测模型内部的特征图，特征图用于表示单据图片的颜色特征、纹理特征、形状特征、空间关系特征和梯度特征；根据文本片段的位置信息，确定该文本片段在特征图上对应区域的信息特征，该信息特征为特征图在该位置处的颜色特征、纹理特征、形状特征、空间关系特征和梯度特征，对该信息特征进行池化处理，即可获取文本片段在该区域的图像侧特征。由于特征图是通过多层卷积得到的，因此，通过池化处理可以获取包含了文本片段邻域信息的图像侧特征，如表格线、盖章信息等。其中，池化处理方法可以采用平均池化方法或者最大池化方法，对此，本发明实施例不做具体限定。

本发明实施例提供的单据要素抽取方法，通过池化对文本片段在特征图对应区域的特征信息进行处理，可以获取该区域的图像侧特征，配合文本片段的图嵌入向量和词嵌入向量获取完整的文本片段信息，减少文本信息损失，提高要素抽取的完整性。

在上述任一实施例的基础上，将所述图像侧特征向量、所述文本片段的词嵌入向量及所述文本片段的图嵌入向量进行拼接，具体包括：

具体地，在单据图片的属性图中，将每个文本片段作为节点，将文本片段之间的归一化距离作为节点之间的边的属性，将该属性图输入图卷积神经网络获取属性图中每个文本片段的向量表示。单据图片的属性图可以通过OCR引擎获取。其中，该属性图中的节点即文本片段可以为单个单词，也可以包括多个单词；相应的，若以单个单词作为节点，则图嵌入向量表征的是属性图中每个单词的向量表示，进行拼接时直接拼接即可；若是以包括多个单词的文本片段作为节点，则在拼接时对该文本片段内的每个单词拼接相同的图像侧特征向量和图嵌入向量，然后再按单词进行拼接。

在上述实施例的基础上，对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列，具体包括：

具体地，本发明实施例针对拼接出现的错误，通过重排序模型进行重新排序。

在上述实施例的基础上，图4为本发明实施例提供的重排序方法的流程示意图。如图4所示，重排序模型包括BiLSTM层、自注意力层和指针网络层；对应的，所述通过重排序模型，对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列，具体包括：

步骤410，将连续的文本序列输入BiLSTM层，确定文本片段的上下文特征；步骤420，将上下文特征输入自注意力层，确定各单词的权重；步骤430，将上下文特征及各单词的权重输入所述指针网络层，由指针网络层输出符合阅读顺序的文本序列。

具体地，将连续的文本序列输入BiLSTM层，得到连续的文本序列中单词的前向特征和后向特征，确定文本片段的上下文特征；该文本片段的上下文特征可以为文本片段最后一个单词的上下文特征，也可以为文本片段内各单词的上下文特征。然后将上下文特征输入自注意力层，对每个单词的上下文特征进行自注意力转换，从而得到每个单词与其他单词之间的相似度，进而得到各单词的权重。当文本片段的上下文特征为最后一个单词的上下文特征时，单词的权重即为该文本片段中最后一个单词的权重；当文本片段的上下文特征为文本片段内各单词的上下文特征时，单词的权重为文本片段内每一单词的权重。将各文本片段的上下文特征和各单词的权重输入指针网络层，根据单词的权重将各单词进行重新排序，从而确定出符合阅读顺序的文本序列。本发明实施例提供的重排序模型，包括BiLSTM层、自注意力层和指针网络层，利用指针网络层对原始文本序列进行重排序，确保文本串不会被切断，纠正拼接中出现的错误。

在上述实施例的基础上，所述对所述连续的文本序列进行重排序，还包括：在所述重排序模型的训练过程中，使用交叉熵损失函数进行训练。

具体地，本发明实施例提供的单据要素抽取方法，通过重排序结果与真实排序之间的交叉熵对重排序模型进行训练。

基于上述任一实施例，图5为本发明实施例提供的单据要素抽取装置的结构示意图，如图5所示，该装置包括：

第一处理单元510，用于获取单据图片的文本片段和所述文本片段对应的位置信息，根据所述位置信息确定所述文本片段的图像侧特征向量；

第二处理单元520，用于将所述图像侧特征向量、所述文本片段的词嵌入向量及所述文本片段的图嵌入向量进行拼接，获取连续的文本序列；

第三处理单元530，用于对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列。

本发明实施例提供的单据要素抽取装置，通过第一处理单元510根据文本片段对应的位置信息确定文本片段的图像侧特征向量，通过第二处理单元520和第三处理单元530将该图像侧特征向量与词嵌入向量、图嵌入向量进行拼接并重排序，从而可以有效补充单据图片识别中损失的文本信息，提高要素抽取的完整性。

基于上述任一实施例，该装置中，第一处理单元510具体用于：

获取单据图片的特征图，根据所述位置信息确定所述文本片段在所述特征图上对应区域的信息特征；对所述信息特征进行池化处理，确定用于表征所述文本片段的图像信息的图像侧特征向量。

基于上述任一实施例，该装置中，若所述文本片段包括多个单词，则所述第二处理单元520具体用于：将所述图像侧特征向量、所述文本片段的词嵌入向量及所述文本片段的图嵌入向量进行拼接时对每一所述单词拼接相同的图像侧特征向量和图嵌入向量。

基于上述任一实施例，该装置中，第三处理单元530具体用于：通过重排序模型，对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列。

基于上述任一实施例，该装置中，重排序模型包括BiLSTM层、自注意力层和指针网络层，第三处理单元530具体用于：

将所述上下文特征输入所述自注意力层，确定各上下文特征的权重；

将所述上下文特征及所述各上下文特征的权重输入所述指针网络层，由所述指针网络层输出所述符合阅读顺序的文本序列。

基于上述任一实施例，该装置中，第三处理单元530，还用于：在所述重排序模型的训练过程中，使用交叉熵损失函数进行训练。

基于上述任一实施例，该装置中，第一处理单元510，具体用于：通过光学字符识别方法，识别所述单据图片，获取所述文本片段和所述文本片段对应的位置信息。

基于上述实施例，该装置中，第二处理单元520，具体用于：

获取属性图，将所述属性图输入图卷积神经网络模型，由所述图卷积神经网络模型输出所述属性图中每个文本片段的向量表示；

图6为本发明实施例提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑命令，以执行如下方法：获取单据图片的文本片段和所述文本片段对应的位置信息，根据所述位置信息确定所述文本片段的图像侧特征向量；将所述图像侧特征向量、所述文本片段的词嵌入向量及所述文本片段的图嵌入向量进行拼接，获取连续的文本序列；对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列。

此外，上述的存储器630中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：获取单据图片的文本片段和所述文本片段对应的位置信息，根据所述位置信息确定所述文本片段的图像侧特征向量；将所述图像侧特征向量、所述文本片段的词嵌入向量及所述文本片段的图嵌入向量进行拼接，获取连续的文本序列；对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种单据要素抽取方法，其特征在于，包括：

2.根据权利要求1所述的单据要素抽取方法，其特征在于，所述根据所述位置信息确定所述文本片段的图像侧特征向量，具体包括：

3.根据权利要求1或2所述的单据要素抽取方法，其特征在于，所述将所述图像侧特征向量、所述文本片段的词嵌入向量及所述文本片段的图嵌入向量进行拼接，具体包括：

4.根据权利要求1所述的单据要素抽取方法，其特征在于，所述对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列，具体包括：

5.根据权利要求4所述的单据要素抽取方法，其特征在于，所述重排序模型包括BiLSTM层、自注意力层和指针网络层；相应的，所述通过重排序模型，对所述连续的文本序列进行重排序，获取符合阅读顺序的文本序列，具体包括：

6.根据权利要求5所述的单据要素抽取方法，其特征在于，所述对所述连续的文本序列进行重排序，还包括：在所述重排序模型的训练过程中，使用交叉熵损失函数进行训练。

7.根据权利要求1所述的单据要素抽取方法，其特征在于，所述获取单据图片的文本片段和所述文本片段对应的位置信息具体包括：

8.根据权利要求7所述的单据要素抽取方法，其特征在于，所述将所述图像侧特征向量、所述文本片段的词嵌入特征及所述文本片段的图嵌入特征进行拼接，具体包括：

9.一种单据要素抽取装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8中任一项所述的单据要素抽取方法的步骤。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8中任一项所述的单据要素抽取方法的步骤。