CN113435257B

CN113435257B - 表格图像的识别方法、装置、设备和存储介质

Info

Publication number: CN113435257B
Application number: CN202110623839.0A
Authority: CN
Inventors: 庾悦晨; 郭增源; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2023-10-27
Anticipated expiration: 2041-06-04
Also published as: CN113435257A

Abstract

本公开提供了一种表格图像的识别方法、装置、设备和存储介质，涉及人工智能技术领域，具体涉及计算机视觉、深度学习等技术领域。表格图像的识别方法包括：获取表格图像的图像特征；基于所述图像特征，获得所述表格图像的表格结构信息，所述表格结构信息包括文本标签；基于所述图像特征和所述文本标签，获得所述表格图像中的文本区域的位置信息；基于所述位置信息在所述表格图像中确定所述文本区域，并识别所述文本区域中的文本内容。本公开可以简化识别流程。

Description

表格图像的识别方法、装置、设备和存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉、深度学习等技术领域，可应用于智慧城市和智慧金融场景下，尤其涉及一种表格图像的识别方法、装置、设备和存储介质。

背景技术

随着办公电子化程度的提高，原本以纸质形式保存的文档资料逐渐通过扫描仪等电子化手段转为以图像形式保存。表格图像是指包含表格的图像。

相关技术中，一般采用较为复杂的图像处理流程来识别表格图像。

发明内容

本公开提供了一种表格图像的识别方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种表格图像的识别方法，包括：获取表格图像的图像特征；基于所述图像特征，获得所述表格图像的表格结构信息，所述表格结构信息包括文本标签；基于所述图像特征和所述文本标签，获得所述表格图像中的文本区域的位置信息；基于所述位置信息在所述表格图像中确定所述文本区域，并识别所述文本区域中的文本内容。

根据本公开的另一方面，提供了一种表格图像的识别装置，包括：获取模块，用于获取表格图像的图像特征；结构模块，用于基于所述图像特征，获得所述表格图像的表格结构信息，所述表格结构信息包括文本标签；位置模块，用于基于所述图像特征和所述文本标签，获得所述表格图像中的文本区域的位置信息；识别模块，用于基于所述位置信息在所述表格图像中确定所述文本区域，并识别所述文本区域中的文本内容。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

根据本公开的技术方案，可以简化识别流程。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是用来实现本公开实施例的表格图像的识别方法中任一方法的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，识别表格图像时，一般是先提取图像中表格，再识别表格中的文本内容，提取表格的方式一般包括：对图像进行二值化处理以及对图像进行倾斜校正等。在对图像进行二值化处理时，主要采用的技术手段一般包括：全局阈值法、局部阈值法、区域增长的方法、水线算法、最小描述长度法、基于马尔科夫随机场的方法等。图像倾斜校正技术手段一般包括基于投影图的方法、基于Hough变换的方法、最近邻簇方法以及矢量化方法等。

上述方案中，对于质量较差的图像或者存在噪声的扫描文件其识别准确率一般较差，而且较为费时。为了简化表格图像的处理流程，本公开可以提供如下实施例。

图1是根据本公开第一实施例的示意图。该实施例提供一种表格图像的识别方法，包括：

101、获取表格图像的图像特征。

102、基于所述图像特征，获得所述表格图像的表格结构信息，所述表格结构信息包括文本标签。

103、基于所述图像特征和所述文本标签，获得所述表格图像中的文本区域的位置信息。

104、基于所述位置信息在所述表格图像中确定所述文本区域，并识别所述文本区域中的文本内容。

本实施例的执行主体可以为终端或者服务器等。

如图2所示，可以采用编码器获取表格图像的图像特征。

编码器可以包括卷积神经网络(Convolutional Neural Network，CNN)，CNN具体比如为ResNet、VGG、MobileNet等。

具体地，可以将表格图像输入到CNN中，经过CNN的处理，可以提取表格图像的特征图(feature map)，特征图的维度可以表示为(w,h,c)，w表示特征图的宽度，h表示特征图的高度，c是特征图的通道数。之后，可以将每个通道对应的特征图展平，即变为w*h维度的特征向量，将该特征向量作为图像特征输入到后续的结构解码器和位置解码器中。将特征图展平为特征向量可以是依次选择特征图中每行的向量，再将每行的向量进行拼接，以获得特征向量。比如，特征图为矩阵A＝[1，0；1,1]，其中，[1,0]是第一行的向量，[1,1]是第二行的向量，则将特征图A展平为特征向量为[1,0,1,1]。

通过编码器对表格图像进行处理，可以简便地获取表格图像的图像特征。进一步地，由于CNN包括卷积层，卷积层可以对图像进行卷积运算，单次卷积运算时会对图像中的部分区域而不是全部区域进行处理，因此，可以提高处理效率，非常适合对图像进行处理。本实施例中，编码器选择为CNN时，通过采用CNN提取表格图像的图像特征，可以充分利用CNN非常适合处理图像的特点，提高表格图像的图像特征的提取效率。

如图2所示，可以采用结构解码器，基于图像特征确定表格图像的表格结构信息。

结构解码器可以包括循环神经网络(Recurrent Neural Network，RNN)，RNN具体比如为长短期记忆(Long Short-Term Memory，LSTM)网络。

表格结构信息是指表格布局的信息，具体可以用多种标签标识，比如，表格结构信息可以包括如下标签：<thead>、<tr>、<td>等，其中，<thead>表示表格的表头、<tr>表示表格的行，<td>和</td>为文本标签，<td>对应文本内容的起始位置，</td>对应文本内容的结束位置。

通过结构解码器对图像特征进行处理，可以简便地获取表格图像的表格结构信息。进一步地，LSTM继承了大部分RNN模型的优良特性，同时解决了梯度反传过程中由于逐步缩减而产生的梯度消失问题，非常适合处理与序列相关的问题。本实施例中，表格结构信息对应不同的位置将产生不同的结构信息，即表格结构信息可以组成序列，采用LSTM获取表格结构信息，可以充分利用LSTM非常适合处理与序列相关的问题的特点，提高表格结构信息的准确度。

如图2所示，可以采用位置解码器，基于所述图像特征和所述文本标签，确定所述表格图像中的文本区域的位置信息。

位置解码器可以为RNN，具体比如为LSTM。

为了区分，结构解码器包括的LSTM网络可以称为第一LSTM网络，位置解码器包括的LSTM网络可以称为第二LSTM网络。

文本区域一般为矩形，文本区域的位置信息可以用x1、x2、y1、y2表示，其中，该矩形的左上角的坐标是(x1,y1)，该矩形的右下角的坐标是(x2,y2)。

通过位置解码器，基于图像特征和文本标签进行处理，可以简便地获取表格图像中的文本区域的位置信息。进一步地，类似表格结构信息，位置信息也可以组成序列，因此，采用LSTM获取文本区域的位置信息，也可以利用LSTM非常适合处理与序列相关的问题的特点，提高位置信息的准确度。

如图2所示，可以采用文本识别器，识别文本区域内的文本内容。

文本识别器可以为光学字符识别(Optical Character Recognition，OCR)识别器。具体地，确定出文本区域的位置信息后，可以在表格图像中截取出x1、x2、y1、y2对应的区域作为文本区域，再采用OCR识别所述文本区域内的文本内容。

结构解码器和/或位置解码器可以为单层的LSTM网络，或者，也可以为多层的LSTM网络。

LSTM网络包括多个循环单元，图3中用圆形表示循环单元，一行的循环单元表示一层，因此，图3以结构解码器和位置解码器均为双层的LSTM网络为例。

一些实施例中，所述基于所述图像特征，获得所述表格图像的表格结构信息，包括：采用第一LSTM网络，对所述图像特征进行处理，以获得所述表格结构信息。

其中，采用结构解码器对所述图像特征进行处理时，可以是结构解码器包括多个单元，采用所述结构解码器中的多个单元，对所述图像特征进行处理，以获得所述多个单元中各个单元的输出特征；基于所述输出特征获得所述表格结构信息。

进一步地，以结构解码器为第一LSTM为例，上述的单元可以称为循环单元，相应地，一些实施例中，所述第一LSTM网络包括多个循环单元，所述采用第一LSTM网络，对所述图像特征进行处理，以获得所述表格结构信息，包括：采用所述第一LSTM网络的多个循环单元，对所述图像特征进行处理，以获得所述多个循环单元中各个循环单元的输出特征；基于所述输出特征获得所述表格结构信息。

如图3所示，结构解码器对应的网络可以称为第一LSTM网络，第一LSTM网络包括多个循环单元，每个循环单元用一个圆形表示。图3中的第一LSTM网络包括两层，编码器输出的图像特征可以分别输入到第一LSTM网络的上层的各个循环单元中，上层的各个循环单元的输出特征可以输入到下层的对应的循环单元中，以及，下层的各个循环单元的输出特征可以输入到上层的下一个循环单元、下层的下一个循环单元中，以及，还可以基于下层的各个循环单元的输出特征确定对应的表格结构信息。

由于LSTM通常是由多个循环单元组成的，LSTM中各个循环单元的输出特征可以反映各个序列位置对应的信息，基于第一LSTM网络的多个循环单元中各个循环单元的输出特征获得表格结构信息，可以充分考虑不同序列位置对应的信息，提高表格结构信息的准确度。

一些实施例中，所述基于所述图像特征和所述文本标签，获得文本区域的位置信息，包括：采用第二LSTM网络，对所述文本标签对应的循环单元的输出特征，以及所述图像特征进行处理，以获得所述文本区域的位置信息。

如图3所示，位置解码器对应的网络可以称为第二LSTM网络，第二LSTM网络包括多个循环单元，每个循环单元用一个圆形表示。图3中的第二LSTM网络包括两层，编码器输出的图像特征可以分别输入到第二LSTM网络的上层(即右侧对应的层)的各个循环单元中，右侧对应的层的各个循环单元的输出特征可以输入到下层(即左侧对应的层)的对应的循环单元中，以及，下层的各个循环单元的输出特征可以输入到上层的下一个循环单元、下层的下一个循环单元中，以及，还可以基于下层的各个循环单元的输出特征确定对应的位置信息。

获得位置信息后，可以基于该位置信息，比如x1,y1,x2,y2在表格图像中截取对应区域作为文本区域，在采用OCR等技术对该文本区域内的文本内容进行识别，以获得文本内容。

本实施例中，通过获取表格图像的图像特征，基于图像特征获得表格结构信息，以及基于图像特征和文本标签获得位置信息，可以简化表格图像的识别流程。另外，上述的识别方法可以应用在电子设备上，通过上述处理，可以降低该电子设备的资源消耗，节省资源开销，提高识别效率。

图4是根据本公开第四实施例的示意图，本实施例提供一种表格图像的识别装置。如图4所示，表格图像的识别装置400包括获取模块401、结构模块402、位置模块403和识别模块404。

获取模块401用于获取表格图像的图像特征；结构模块402用于基于所述图像特征，获得所述表格图像的表格结构信息，所述表格结构信息包括文本标签；位置模块403用于基于所述图像特征和所述文本标签，获得所述表格图像中的文本区域的位置信息；识别模块404用于基于所述位置信息在所述表格图像中确定所述文本区域，并识别所述文本区域中的文本内容。

一些实施例中，所述结构模块402具体用于：采用结构解码器，对所述图像特征进行处理，以获得所述表格结构信息。

一些实施例中，所述结构解码器包括多个单元，所述结构模块402进一步具体用于：采用所述结构解码器的多个单元，对所述图像特征进行处理，以获得所述多个单元中各个单元的输出特征；基于所述输出特征获得所述表格结构信息。

一些实施例中，所述位置模块403具体用于：采用位置解码器，对所述文本标签对应的单元的输出特征，以及所述图像特征进行处理，以获得所述文本区域的位置信息。

一些实施例中，所述获取模块401具体用于：采用编码器对表格图像进行处理，以提取所述表格图像的特征图；将所述特征图展平为特征向量，作为所述图像特征。

可以理解的是，本公开实施例中，不同实施例中的相同或相似内容可以相互参考。

可以理解的是，本公开实施例中的“第一”、“第二”等只是用于区分，不表示重要程度高低、时序先后等。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，电子设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元505加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

电子设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如表格图像的识别方法。例如，在一些实施例中，表格图像的识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的表格图像的识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行表格图像的识别方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种表格图像的识别方法，包括：

采用编码器，获取表格图像的图像特征；

采用结构解码器，基于所述图像特征，获得所述表格图像的表格结构信息，所述表格结构信息包括文本标签；

采用位置解码器，基于所述图像特征和所述文本标签，获得所述表格图像中的文本区域的位置信息；

基于所述位置信息在所述表格图像中确定所述文本区域，并识别所述文本区域中的文本内容；

其中，所述结构解码器是第一LSTM，所述第一LSTM包括多个循环单元，所述编码器输出的图像特征分别输入到所述第一LSTM的上层的各个循环单元中，上层的各个循环单元的输出特征输入到下层的对应的循环单元中，以及，下层的各个循环单元的输出特征输入到上层的下一个循环单元和下层的下一个循环单元中，以及，基于下层的各个循环单元的输出特征确定对应的表格结构信息；

所述位置解码器是第二LSTM，所述第二LSTM包括多个循环单元，所述编码器输出的图像特征分别输入到第二LSTM网络的上层的各个循环单元中，上层的各个循环单元的输出特征输入到下层的对应的循环单元中，以及，下层的各个循环单元的输出特征输入到上层的下一个循环单元和下层的下一个循环单元中，以及，基于下层的各个循环单元的输出特征确定对应的位置信息。

2.根据权利要求1所述的方法，其中，所述基于所述图像特征，获得所述表格图像的表格结构信息，包括：

采用结构解码器，对所述图像特征进行处理，以获得所述表格结构信息。

3.根据权利要求2所述的方法，其中，所述结构解码器包括多个单元，所述采用结构解码器，对所述图像特征进行处理，以获得所述表格结构信息，包括：

采用所述结构解码器的多个单元，对所述图像特征进行处理，以获得所述多个单元中各个单元的输出特征；

基于所述输出特征获得所述表格结构信息。

4.根据权利要求3所述的方法，其中，所述基于所述图像特征和所述文本标签，获得文本区域的位置信息，包括：

采用位置解码器，对所述文本标签对应的单元的输出特征，以及所述图像特征进行处理，以获得所述文本区域的位置信息。

5.根据权利要求1-4任一项所述的方法，其中，所述获取表格图像的图像特征，包括：

采用编码器对表格图像进行处理，以提取所述表格图像的特征图；

将所述特征图展平为特征向量，作为所述图像特征。

6.一种表格图像的识别装置，包括：

获取模块，用于采用编码器，获取表格图像的图像特征；

结构模块，用于采用结构解码器，基于所述图像特征，获得所述表格图像的表格结构信息，所述表格结构信息包括文本标签；

位置模块，用于采用位置解码器，基于所述图像特征和所述文本标签，获得所述表格图像中的文本区域的位置信息；

识别模块，用于基于所述位置信息在所述表格图像中确定所述文本区域，并识别所述文本区域中的文本内容；

7.根据权利要求6所述的装置，其中，所述结构模块具体用于：

采用所述第一LSTM网络，对所述图像特征进行处理，以获得所述表格结构信息。

8.根据权利要求7所述的装置，其中，所述第一LSTM网络包括多个循环单元，所述结构模块进一步具体用于：

采用所述第一LSTM网络的多个循环单元，对所述图像特征进行处理，以获得所述多个循环单元中各个循环单元的输出特征；

基于所述输出特征获得所述表格结构信息。

9.根据权利要求8所述的装置，其中，所述位置模块具体用于：

采用所述第二LSTM网络，对所述文本标签对应的循环单元的输出特征，以及所述图像特征进行处理，以获得所述文本区域的位置信息。

10.根据权利要求6-9任一项所述的装置，其中，所述编码器是卷积神经网络CNN，所述获取模块具体用于：

采用所述卷积神经网络CNN对表格图像进行处理，以提取所述表格图像的特征图；

将所述特征图展平为特征向量，作为所述图像特征。

11. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。