CN116978042A

CN116978042A - 一种图像处理方法、相关设备及存储介质

Info

Publication number: CN116978042A
Application number: CN202211517217.0A
Authority: CN
Inventors: 李鑫; 刘兵; 刘皓; 刘银松; 姜德强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-10-31

Abstract

本申请实施例提供了一种图像处理方法、相关设备及存储介质，方法包括：获取目标图像包括的文本信息，文本信息包括至少一个单元格的文本以及位置；获取每个单元格的特征信息，所述特征信息包括文本特征表示信息、图像特征表示信息以及位置特征表示信息中的一种或多种；基于所述至少一个单元格的特征信息确定识别结果，所述识别结果包括单元格行列关系数据以及单元格类型，单元格行列关系数据用于描述任意两个单元格是否位于同一行或者同一列，单元格类型用于描述所述每个单元格是否为合并单元格；基于所述单元格行列关系数据以及所述单元格类型生成目标图像对应的表格，基于人工智能可以提高图像中对复杂表格结构识别的准确度，提升识别效果。

Description

一种图像处理方法、相关设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像处理方法、相关设备及存储介质。

背景技术

从图像中提取表格信息的应用越来越广泛，例如各种场景报表、单据中表格的快速录入，可以大大节省人力成本，提高企业效率。主流的表格结构识别技术包含以下几种：基于启发式规则的方案，在文本检测结果的基础上，对检测框做行、列的聚类，计算文本框之间的相对位置关系后生成表格结构；基于提取单元格间隔的方案，通常采用语义分割的方法提取出表格中各单元格的行列间隔，推出单元格的行、列信息；基于生成式的方案，基于编解码器的网络结构，训练时直接将单元格的行、列及文本信息编码，预测时直接输出表格的行列布局结构。然而，这些方案主要解决简单表格场景(例如N*M标准表格)的识别问题，在具有层级嵌套的复杂表格场景下的表现较差。

因此，如何提高对图像中层级嵌套表格等复杂表格结构的识别效果已成为亟待解决的技术问题。

发明内容

本申请实施例提供一种图像处理方法、相关设备及存储介质，可以提高对图像中复杂表格结构识别的准确度，提升识别效果。

第一方面，本申请实施例提供了一种图像处理方法，所述方法包括：

获取目标图像包括的文本信息，所述文本信息包括至少一个单元格的文本以及位置。

获取每个单元格的特征信息，所述特征信息包括文本特征表示信息、图像特征表示信息以及位置特征表示信息中的一种或多种。

基于所述至少一个单元格的特征信息确定所述至少一个单元格的识别结果，所述识别结果包括单元格行列关系数据以及单元格类型，所述单元格行列关系数据用于描述任意两个单元格是否位于同一行或者同一列，所述单元格类型用于描述所述每个单元格是否为合并单元格。

基于所述单元格行列关系数据以及所述单元格类型生成所述目标图像对应的表格。

第二方面，本申请实施例提供了一种图像处理装置，所述装置包括：

获取模块，用于获取目标图像包括的文本信息，所述文本信息包括至少一个单元格的文本以及位置。

所述获取模块，还用于获取每个单元格的特征信息，所述特征信息包括文本特征表示信息、图像特征表示信息以及位置特征表示信息中的一种或多种。

确定模块，用于基于所述至少一个单元格的特征信息确定所述至少一个单元格的识别结果，所述识别结果包括单元格行列关系数据以及单元格类型，所述单元格行列关系数据用于描述任意两个单元格是否位于同一行或者同一列，所述单元格类型用于描述所述每个单元格是否为合并单元格。

生成模块，用于基于所述单元格行列关系数据以及所述单元格类型生成所述目标图像对应的表格。

第三方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器、网络接口和存储装置，所述处理器、所述网络接口和所述存储装置相互连接，其中，所述网络接口受所述处理器的控制用于收发数据，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用于执行如第一方面所述的图像处理方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行，用以执行如第一方面所述的图像处理方法。

第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被计算机处理器执行时实现如第一方面所述的图像处理方法。

本申请实施例中，计算机设备可以获取目标图像包括的文本信息，文本信息包括至少一个单元格的文本以及位置，然后获取每个单元格的特征信息，特征信息包括文本特征表示信息、图像特征表示信息以及位置特征表示信息中的一种或多种；计算机设备基于各个单元格的特征信息确定单元格的识别结果，识别结果包括单元格行列关系数据以及单元格类型，单元格行列关系数据用于描述任意两个单元格是否位于同一行或者同一列，单元格类型用于描述每个单元格是否为合并单元格；计算机设备再基于单元格行列关系数据以及单元格类型即可生成目标图像对应的表格，利用单元格行列关系数据以及单元格类型可以准确地分析出复杂表格的结构信息，从而提高对图像中复杂表格结构识别的准确度，提升识别效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种图像处理***的架构示意图；

图1b是本申请实施例提供的一种图像处理的整体实现框架示意图；

图2是本申请实施例提供的一种图像处理方法的流程示意图；

图3a是本申请实施例提供的一种图像的示意图；

图3b是本申请实施例提供的一种图像OCR识别的效果示意图；

图3c是本申请实施例提供的一种图像中单元格的列关系定义的示意图；

图3d是本申请实施例提供的一种识别结果中单元格行列关系数据的示意图；

图3e是本申请实施例提供的一种识别结果中单元格类型的示意图；

图3f是本申请实施例提供的一种表格的示意图；

图4是本申请实施例提供的另一种图像处理方法的流程示意图；

图5a是本申请实施例提供的一种单元格区域划分的示意图；

图5b是本申请实施例提供的另一种单元格区域划分的示意图；

图5c是本申请实施例提供的又一种单元格区域划分的示意图；

图5d是本申请实施例提供的又一种单元格区域划分的示意图；

图6是本申请实施例提供的一种图像处理装置的结构示意图；

图7是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例涉及的关键术语以及相关定义如下：

HTSR-层级嵌套表格结构识别(Hierarchical Table Structure Recognition)，层级嵌套指表格中的单元格间呈现出一对多的行列关系。

HTSR-Net-层级嵌套表格结构识别网络(Hierarchical Table StructureRecognition Net)，本申请实施例提出的解决层级嵌套表格结构的神经网络模型。

CRR-单元格关系推理(Cell Relation Reasoning)，对表格中的单元格间的关系预测，判断是否属于同一行、列。

CTP-单元格类型预测(Cell Type Prediction)，对表格中的单元格类型分类，判断是否属于合并单元格。

Roi Align–一种使用双线性插值固定不同大小感兴趣区域特征输出的算法。

Embedding-一种将离散变量转为连续向量表示的网络层。

Bert Embedding–Bert语言模型的Embedding层。

Transformer-一种基于自注意力机制的语言模型，用于提取特征。

FCN-全连接神经网络(Full Connected Network)，每一个结点都与上一层的所有结点相连，用于综合提取到的特征。

OCR-光学字符识别(Optical Character Recognition)是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

本申请提供的方案属于人工智能基础技术下的计算机视觉技术。下面对本申请提供的图像处理方案涉及的技术进行简要阐述。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本发明实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

请参见图1a，是本申请实施例提供的一种图像处理***的架构示意图，该图像处理***包括计算机设备101和终端设备102，其中：

计算机设备101，可以对图像中的表格信息进行识别，并根据识别结果生成对应的表格，还可以将生成的表格发给终端设备102进行展示。其中，该图像可以是终端设备102发送给计算机设备101的，例如用户通过终端设备102选中待识别的图像，提交图像识别任务，并由终端设备102向计算机设备101发送该待识别的图像；或者，该图像也可以是计算机设备101从数据库中获取的。

终端设备102，可以与计算机设备101通信，接收计算机设备101发送的数据(例如表格)，并可以通过用户界面展示该表格。另外，终端设备102可以提供用户界面，供用户选择需要识别的图像，在用户选择图像后，终端设备102可以将用户选择的图像发送给计算机设备101。

其中，计算机设备101具体可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器；终端设备102具体可以是智能手机、平板电脑、笔记本电脑、台式电脑、车载智能终端等，本申请实施例不做限定。

在一些可行的实施方式中，计算机设备101可以获取目标图像包括的文本信息，文本信息包括至少一个单元格的文本以及位置，也即是将图像中文本对应的图像区域作为单元格识别出来，并获取每个单元格对应的文本以及所在的位置；计算机设备101获取每个单元格的文本特征表示信息、图像特征表示信息以及位置特征表示信息等特征信息，然后基于各个单元格的特征信息确定识别结果，识别结果包括单元格行列关系数据以及单元格类型，单元格行列关系数据用于描述目标图像中任意两个单元格是否位于同一行或者同一列，单元格类型用于描述目标图像中每个单元格是否为合并单元格；然后，计算机设备101基于单元格行列关系数据以及单元格类型生成目标图像对应的表格，结合文本特征、图像特征以及位置特征等多模态特征，通过单元格行列关系数据以及单元格类型可以有效地分析出复杂表格场景中单元格之间的层级嵌套关系，从而提高对复杂表格结构识别的准确度，提升识别效果。

请参见图1b，是本申请实施例提供的一种图像处理的整体实现框架示意图，该框架主要由图像OCR识别、模型处理、层级结构解析这三部分组成。

图像OCR识别：是指利用OCR识别引擎对目标图像(如含有表格的图像)进行文本检测以及文本识别，通过文本检测得到目标图像包括的各个单元格的位置，通过文本识别得到每个单元格的文本内容，从而得到OCR识别结果，该OCR识别结果包括目标图像中各个单元格的文本以及位置，还可以进一步提取得到各个单元格的特征信息，例如文本特征表示信息、图像特征表示信息以及位置特征表示信息，再将每个单元格的特征信息包括的文本特征表示信息、图像特征表示信息以及位置特征表示信息进行融合处理，得到融合后的特征信息。

模型处理：是指调用层级嵌套表格结构识别模型HTSR-Net(即单元格识别模型)对各个单元格融合后的特征信息进行处理，得到目标图像中的单元格对应的单元格行列关系数据以及单元格类型。例如，可以通过HTSR-Net中的Transformer(特征提取网络)，基于自注意力机制对任意两个单元格的融合后的特征信息进行处理，例如可以将这两个单元格的融合后的特征信息进行拼接处理，得到拼接后的特征信息，再利用HTSR-Net中的单元格关系推理网络CRR对拼接后的特征信息进行处理，来分析目标图像中的各个单元格是否位于同一行或者同一列，得到单元格行列关系数据，同时，可以利用HTSR-Net中的单元格类型预测网络CTP对各个单元格融合后的特征信息进行处理，来分析目标图像中的各个单元格是否属于合并单元格，得到单元格类型数据。

层级结构解析：根据HTSR-Net的识别结果(即单元格行列关系数据以及单元格类型)解析出目标图像中各个单元格之间的层级结构数据，层级结构数据包括单元格之间的层级嵌套关系，例如某个单元格作为父节点，该父节点下包括多个子节点，也即是有些单元格与其他单元格之间存在层级嵌套关系，得到层级结构数据后，即可将目标图像中的各个单元格按照层级结构数据中指示的位置、层级等关系生成对应的表格，该表格可以作为最终的识别结果。可以看出，本申请实施例一方面基于CRR实现对单元格行列的关系预测，解决层级嵌套表格结构中的单元格间关系难以定义的问题，另一方面基于CTP完成对合并单元格的预测，并以合并单元格作为根结点实现自顶向下的递归解析，最终复原出多层级嵌套的表格结构。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

请参见图2，是本申请实施例基于图1a所示的图像处理***提供的一种图像处理方法的流程示意图，本申请实施例的图像处理方法主要是从图1a所示的计算机设备一侧进行描述的，该图像处理方法包括如下步骤：

201、获取目标图像包括的文本信息，所述文本信息包括至少一个单元格的文本以及位置。

具体的，用户在需要对图像中的表格进行识别时，可以通过终端设备选择图像(记为目标图像)，由终端设备将该目标图像发送给计算机设备，则计算机设备接收终端设备发送的目标图像，并开始执行表格识别任务；或者，计算机设备也可以从数据库中获取目标图像进行表格识别。

其中，目标图像可以是包括标准表格结构的图像，例如N*M的标准表格，不存在层级嵌套关系；或者，目标图像也可以是包括层级嵌套的复杂表格结构的图像，如图3a所示，图像中除了包括年月、具体数值这种标准表格结构，还包括如“锣鼓塔”——“单项指数”、“污染分担率”——“SO2”、“NOx”、“TSP”这种一对多的层级嵌套复杂表格结构。

在一些可行的实施方式中，计算机设备可以调用光学字符识别引擎(如OCR技术)对目标图像进行处理，得到目标图像中至少一个单元格的文本以及位置。其中，位置包括预设顶点的坐标、尺寸信息。例如，每个单元格(或称为Box)包含的信息有(str、x、y、w、h)，分别表示文字内容、左上顶点x坐标、左上顶点y坐标、单元格的宽度、单元格的高度。其中，从图3a所示的目标图像中识别出的单元格可以如图3b所示。

202、获取每个单元格的特征信息，所述特征信息包括文本特征表示信息、图像特征表示信息以及位置特征表示信息中的一种或多种。

具体的，计算机设备可以调用语言模型的表示层(如BERT的Embedding层)对每个单元格对应的文本进行处理，得到每个单元格的文本特征表示信息；调用区域特征聚集方法(如Roi Align)对目标图像中每个单元格对应的图像区域进行处理，得到每个单元格的图像特征表示信息；调用特征提取网络(如Embedding层)对每个单元格的位置进行处理，得到每个单元格的位置特征表示信息。

在一些可行的实施方式中，上述的文本特征表示信息、图像特征表示信息以及位置特征表示信息具体可以是特征向量，例如通过BERT的Embedding对每个单元格的文字内容进行编码，得到特征维度为768的特征向量(文本特征表示信息)；图像特征表示信息也可以是特征维度为768的特征向量；针对位置特征，可以利用4*768的Embedding将x、y、w、h的4维信息转换为768维的特征向量(位置特征表示信息)，从而可以准确提取到单元格的多模态特征信息。

203、基于所述至少一个单元格的特征信息确定所述至少一个单元格的识别结果，所述识别结果包括单元格行列关系数据以及单元格类型，所述单元格行列关系数据用于描述任意两个单元格是否位于同一行或者同一列，所述单元格类型用于描述所述每个单元格是否为合并单元格。

具体的，计算机设备可以根据目标图像中各个单元格的特征信息确定对单元格的识别结果，识别结果包括单元格行列关系数据以及单元格类型。

其中，单元格行列关系数据用于描述任意两个单元格是否位于同一行或者同一列，单元格类型用于描述每个单元格是否为合并单元格。

在一些可行的实施方式中，在图3a的基础上，本申请实施例对图像中单元格的列关系定义可以如图3c所示，可以看出，目标图像中的单元格一共可以分为13列(0～12)，对于存在层级嵌套关系的单元格，对应着多个列，例如“锣鼓塔”单元格对应1～6共6列，从左至右第一个“单项指数”单元格对应1～3共3列，其他单元格同理。

在一些可行的实施方式中，识别结果中单元格行列关系数据可以如图3d所示，可以看出，“项目”——“年.月”——具体年份——“超标频率％”为一列，“SO2”等具体指标以及对应的具体数值为一列，图3d中以单元格之间的列关系为例，单元格之间的行关系同理可得。

在一些可行的实施方式中，识别结果中单元格类型可以如图3e所示，可以看出，“项目”、“锣鼓塔”、“单项指数”等对应虚线框的单元格识别为合并单元格，其他单元格(如年.月、SO2、具体年月、具体数值)为非合并单元格。

204、基于所述单元格行列关系数据以及所述单元格类型生成所述目标图像对应的表格。

具体的，计算机设备通过单元格行列关系数据以及单元格类型可以分析出复杂表格场景中单元格之间的层级嵌套关系，进而可以生成对应的表格，如图3f所示的excel表格。可以看出，对于图3a所示的图像，虽然其中包含复杂的层级嵌套结构，本申请实施例依然可以准确地识别。

本申请实施例中，计算机设备可以获取目标图像包括的文本信息，文本信息包括至少一个单元格的文本以及位置，然后获取每个单元格的特征信息，特征信息包括文本特征表示信息、图像特征表示信息以及位置特征表示信息中的一种或多种；计算机设备基于各个单元格的特征信息确定单元格的识别结果，识别结果包括单元格行列关系数据以及单元格类型，单元格行列关系数据用于描述任意两个单元格是否位于同一行或者同一列，单元格类型用于描述每个单元格是否为合并单元格；计算机设备再基于单元格行列关系数据以及单元格类型即可生成目标图像对应的表格，利用单元格行列关系数据以及单元格类型可以准确地分析出复杂表格的结构信息，从而提高对复杂表格结构识别的准确度，提升识别效果。

请参见图4，是本申请实施例基于图1a所示的图像处理***提供的另一种图像处理方法的流程示意图，本申请实施例的图像处理方法主要是从图1a所示的计算机设备一侧进行描述的，该图像处理方法包括如下步骤：

401、获取目标图像包括的文本信息，所述文本信息包括至少一个单元格的文本以及位置。

402、获取每个单元格的特征信息，所述特征信息包括文本特征表示信息、图像特征表示信息以及位置特征表示信息。

其中，步骤401～402的具体实现可以参见前述实施例中步骤201～202的相关描述，此处不再赘述。

403、对每个单元格的文本特征表示信息、图像特征表示信息以及位置特征表示信息进行融合处理，得到所述每个单元格的第一融合特征信息。

具体的，计算机设备可以将每个单元格的文本特征表示信息、图像特征表示信息以及位置特征表示信息进行求和处理，实现多模态特征信息的融合，得到每个单元格的第一融合特征信息，以文本特征表示信息、图像特征表示信息以及位置特征表示信息是768维特征向量为例，计算机设备可以将三个768维特征向量中的每一位对应相加，实现信息融合。

404、调用单元格识别模型的特征提取网络对所述每个单元格的第一融合特征信息进行处理，得到所述每个单元格的第二融合特征信息。

其中，单元格识别模型的特征提取网络具体可以是Transformer网络结构。

具体的，计算机设备可以利用基于Transformer网络的自注意力机制对每个单元格的第一融合特征信息进行处理，以提取出第一融合特征信息中的关键信息，并聚焦到这些关键信息上，得到每个单元格的第二融合特征信息，通过自注意力机制的信息提取可以使得数据处理聚焦在关键信息上，提高处理结果的准确度。

405、调用所述单元格识别模型的关系识别网络、类型识别网络对所述每个单元格的第二融合特征信息进行处理，得到所述至少一个单元格的识别结果，所述识别结果包括单元格行列关系数据以及单元格类型。

具体的，为了获取单元格之间的行列关系，计算机设备可以对任意两个单元格的第二融合特征信息进行融合处理，得到第三融合特征信息，例如可以将任意两个单元格的第二融合特征信息进行拼接，得到第三融合特征信息，再调用单元格识别模型的关系识别网络(如上述的CRR网络)对第三融合特征信息进行处理，即可得到该任意两个单元格之间的行列关系，即该任意两个单元格是否位于同一行或者同一列，最终得到目标图像中任意两个单元格之间的单元格行列关系数据。

例如，从目标图像中识别出N个单元格，假设特征向量的维度为768，通过将任意两个单元格的特征融合，此时特征由N*768变为N*N*1536的特征矩阵，然后再经过关系识别网络预测是否属于同一行或列，最终得到N*N*2的单元格行列关系数据，可以称为邻接关系矩阵，邻接关系矩阵包括任意两个单元格之间是否属于同一行或列的信息，例如邻接关系矩阵指示列关系，可以用矩阵中元素为0表示对应的两个单元格不属于同一列，用元素为1表示对应的两个单元格属于同一列。

为了获取单元格的类型，计算机设备可以调用单元格识别模型的类型识别网络(如上述的CTP网络)对每个单元格的第二融合特征信息进行处理，得到每个单元格的单元格类型，从而得到目标图像中单元格的识别结果。

例如，从目标图像中识别出N个单元格，假设特征向量的维度为768，输入类型识别网络的特征为N*768的特征矩阵，输出为N*2的单元格类型预测结果，每个元素用于表示对应的单元格是否为合并单元格，例如可以用元素为0表示单元格不是合并单元格，用元素为1表示单元格是合并单元格。

在一些可行的实施方式中，关系识别网络、类型识别网络可以采用基于FCN的分类模型结构。

406、基于所述单元格行列关系数据以及所述单元格类型，确定所述至少一个单元格的层级结构数据，所述层级结构数据包括单元格之间的层级嵌套关系。

具体的，在得到单元格之间的行列关系以及每个单元格的类型之后，计算机设备可以利用单元格行列关系数据以及单元格类型，确定目标图像中该至少一个单元格的层级结构数据，层级结构数据包括单元格之间的层级嵌套关系，例如单元格之间的父节点、子节点关系，从而描述出目标图像中包括的表格的结构信息。

在一些可行的实施方式中，假设从列的角度对单元格进行解析，则计算机设备可以采用递归的方式自顶向下对表格的层级嵌套结构进行解析。具体的，计算机设备可以基于单元格行列关系数据以及单元格类型从目标图像中确定至少一个单元格区域，也即是将单元格划分为不同的区域，每个单元格区域包括与参考单元格位于同一行或者同一列的各个单元格，参考单元格的单元格类型为合并单元格，也即是各个单元格区域可以是以参考单元格为根节点组成的区域；在第一次划分之后，计算机设备基于单元格类型确定每个单元格区域是否包括合并单元格，如果不包括，则划分结束；如果包括，例如目标单元格区域包括合并单元格，则计算机设备可以基于单元格行列关系数据以及单元格类型对目标单元格区域进一步划分，得到多个单元格子区域，直到每个单元格子区域不包括合并单元格，目标单元格区域为任意一个单元格区域；在划分结束后，计算机设备可以基于每个单元格子区域以及未被划分的每个单元格区域确定单元格的层级结构数据，例如根据每个单元格子区域包括的参考单元格的位置、其他单元格的位置，以及未被划分的每个单元格区域包括的参考单元格的位置、其他单元格的位置，确定单元格的层级结构数据，利用单元格行列关系数据以及单元格类型多个维度的单元格信息对目标图像中单元格的层级嵌套关系进行挖掘，从而有效识别出图像中具有复杂层级嵌套结构的表格。

在一些可行的实施方式中，计算机设备对单元格区域的划分方式具体可以包括：

计算机设备从目标图像包括的至少一个单元格中确定单元格类型为合并单元格的至少一个参考单元格；基于单元格行列关系数据确定每个参考单元格的关联单元格，关联单元格为与参考单元格位于同一行或者同一列的单元格。

计算机设备将每个参考单元格以及每个参考单元格的关联单元格组成的区域，作为该每个参考单元格对应的单元格区域，从而得到至少一个单元格区域，可以实现对单元格区域的准确划分。

407、基于所述至少一个单元格以及所述层级结构数据生成所述目标图像对应的表格。

具体的，在得到层级结构数据之后，可以根据识别出的至少一个单元格以及层级结构数据渲染出目标图像对应的表格，从而实现图像到表格的转换，完整、准确地从图像中提取表格数据。

在一些可行的实施方式中，单元格识别模型的训练过程可以包括：

计算机设备获取样本图像以及标注数据，标注数据包括样本图像中的单元格对应的参考行列关系数据以及参考类型。

计算机设备获取样本图像中每个单元格的特征信息，该特征信息可以包括文本特征表示信息、图像特征表示信息以及位置特征表示信息中的一种或多种。

计算机设备调用初始识别模型对样本图像中每个单元格的特征信息进行处理，得到预测行列关系数据以及预测类型，初始识别模型包括特征提取网络、关系识别网络以及类型识别网络，并基于预测行列关系数据、预测类型以及标注数据，对特征提取网络、关系识别网络以及类型识别网络的网络参数进行调整，得到单元格识别模型。

具体的，计算机设备可以基于预测行列关系数据、预测类型以及标注数据计算总差异数据(可以理解为总损失loss)，例如可以基于预测行列关系数据以及标注数据中的参考行列关系数据计算第一差异数据，基于预测类型以及标注数据中的参考类型计算第二差异数据，然后对第一差异数据和第二差异数据进行加权求和，得到总差异数据，根据总差异数据对特征提取网络、关系识别网络以及类型识别网络的网络参数进行调整，直到总差异数据小于一定数值，或者迭代次数达到预设次数阈值，即可得到单元格识别模型，可以用于准确地识别单元格的单元格行列关系数据以及单元格类型。

举例来说，以目标图像是图3a为例，假设按照列进行解析，计算机设备采用递归的方式自顶向下对表格的层级嵌套结构进行解析。具体的，计算机设备基于单元格行列关系数据以及单元格类型将单元格划分为不同的区域，第一次划分后可以得到图5a所示的效果，由于“项目”对应的单元格与其他单元格(如“锣鼓塔”、“单项指数”等)存在一对多的行关系，“锣鼓塔”对应的单元格、“黄石寨”对应的单元格于其他单元格存在一对多的列关系，因此可以将“项目”、“锣鼓塔”、“单项指数”分别作为根节点(或者说参考单元格)，开始对目标图像中的单元格的层级结构进行解析，也即是根据“项目”、“锣鼓塔”、“黄石寨”3个参考单元格，将目标图像中包括的多个单元格划分为3个单元格区域(也可以称为block区域)，包括单元格区域1、单元格区域2、单元格区域3。每个单元格区域包括与参考单元格位于同一列的各个单元格，例如“锣鼓塔”对应的单元格区域2包括参考单元格“锣鼓塔”以及作为“锣鼓塔”的子节点的各个单元格；在第一次划分之后，计算机设备基于单元格类型确定3个单元格区域是否包括合并单元格，由于“项目”对应的单元格区域1不包括合并单元格，则不再进行划分，“锣鼓塔”对应的单元格区域2、“黄石寨”对应的单元格区域3包括合并单元格，则计算机设备可以先将作为根节点的合并单元格“锣鼓塔”、“黄石寨”移除，然后按照同样的方式分别对单元格区域2、单元格区域3继续划分，得到如图5b、图5c所示的单元格子区域，可以看出，“锣鼓塔”对应的单元格区域2、“黄石寨”对应的单元格区域3分别被划分为2个单元格子区域，即“单项指数”对应的单元格子区域、“污染分担率”对应的单元格子区域，由于图5b、图5c所示的单元格子区域仍然包括合并单元格，则计算机设备继续根据单元格行列关系数据以及单元格类型进行划分，以“锣鼓塔”——“单项指数”对应的单元格子区域为例，可以划分得到图5d所示的3个单元格子区域，此时每个单元格子区域均不包括合并单元格，划分结束，“污染分担率”对应的单元格子区域的划分方式同理；在划分结束后，计算机设备可以基于每个单元格子区域以及未被划分的每个单元格区域确定单元格的层级结构数据，从而利用单元格行列关系数据以及单元格类型多个维度的单元格信息对目标图像中单元格的层级嵌套关系进行挖掘，有效识别出图像中具有复杂层级嵌套结构的表格。

为了客观评价表格识别的精度，通过构造数据集用来衡量表格结构识别的精度，如表1所示。其中，表格结构识别的召回率指在测试集存在的表格中，正确预测的邻接关系所占的比例；表格结构识别的准确率指在预测的结果中，正确预测的邻接关系所占的比例，可以看出，本申请实施例提供的图像处理方法可以有效提高表格的识别精度。

表1表格结构识别指标

	召回率	准确率
			表格结构识别	98.12％	98.24％

本申请实施例可以适用于各种场景报表、单据中表格的快速录入，节省人力成本，提高企业效率。可以根据复原的表格结果，实现对表格的结构化提取，进而获得二维表格及嵌套表格的键值对应关系。

本申请实施例中，计算机设备可以获取目标图像包括的文本信息，文本信息包括至少一个单元格的文本以及位置，然后获取每个单元格的特征信息，特征信息包括文本特征表示信息、图像特征表示信息以及位置特征表示信息中的一种或多种；计算机设备对每个单元格的文本特征表示信息、图像特征表示信息以及位置特征表示信息进行融合处理，得到每个单元格的第一融合特征信息，再调用单元格识别模型的特征提取网络对每个单元格的第一融合特征信息进行处理，例如可以是关键信息提取，得到每个单元格的第二融合特征信息，再调用单元格识别模型的关系识别网络、类型识别网络对每个单元格的第二融合特征信息进行处理，得到单元格的识别结果，包括单元格行列关系数据以及单元格类型。计算机设备对单元格行列关系数据以及单元格类型进行解析，得到单元格之间的层级结构数据，层级结构数据包括单元格之间的层级嵌套关系，再根据识别出的至少一个单元格以及层级结构数据渲染出目标图像对应的表格，利用单元格行列关系数据以及单元格类型多个维度的单元格信息对目标图像中单元格的层级嵌套关系进行挖掘，可以有效识别出图像中具有复杂层级嵌套结构的表格，提升识别效果。

可以理解的是，在本申请的具体实施方式中，涉及到图像、表格等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

请参见图6，是本申请实施例的一种图像处理装置的结构示意图，所述装置包括：

获取模块601，用于获取目标图像包括的文本信息，所述文本信息包括至少一个单元格的文本以及位置。

所述获取模块601，还用于获取每个单元格的特征信息，所述特征信息包括文本特征表示信息、图像特征表示信息以及位置特征表示信息中的一种或多种。

确定模块602，用于基于所述至少一个单元格的特征信息确定所述至少一个单元格的识别结果，所述识别结果包括单元格行列关系数据以及单元格类型，所述单元格行列关系数据用于描述任意两个单元格是否位于同一行或者同一列，所述单元格类型用于描述所述每个单元格是否为合并单元格。

生成模块603，用于基于所述单元格行列关系数据以及所述单元格类型生成所述目标图像对应的表格。

可选的，所述生成模块603，具体用于：

基于所述单元格行列关系数据以及所述单元格类型，确定所述至少一个单元格的层级结构数据，所述层级结构数据包括单元格之间的层级嵌套关系。

基于所述至少一个单元格以及所述层级结构数据生成所述目标图像对应的表格。

可选的，所述生成模块603，具体用于：

基于所述单元格行列关系数据以及所述单元格类型从所述目标图像中确定至少一个单元格区域，每个单元格区域包括与参考单元格位于同一行或者同一列的各个单元格，所述参考单元格的单元格类型为合并单元格。

基于所述单元格类型确定每个单元格区域是否包括合并单元格。

若目标单元格区域包括合并单元格，则基于所述单元格行列关系数据以及所述单元格类型对所述目标单元格区域进行划分，得到多个单元格子区域，直到每个单元格子区域不包括合并单元格，所述目标单元格区域为任意一个单元格区域。

基于每个单元格子区域以及未被划分的每个单元格区域确定所述至少一个单元格的层级结构数据。

可选的，所述生成模块603，具体用于：

从所述至少一个单元格中确定单元格类型为合并单元格的至少一个参考单元格。

基于所述单元格行列关系数据确定所述每个参考单元格的关联单元格，所述关联单元格为与所述参考单元格位于同一行或者同一列的单元格。

将所述每个参考单元格以及所述每个参考单元格的关联单元格组成的区域，作为所述每个参考单元格对应的单元格区域，得到至少一个单元格区域。

可选的，所述获取模块601，具体用于：

调用光学字符识别引擎对目标图像进行处理，得到所述目标图像中至少一个单元格的文本以及位置。

其中，所述位置包括预设顶点的坐标、尺寸信息。

可选的，所述获取模块601，具体用于：

调用语言模型的表示层对每个单元格对应的文本进行处理，得到所述每个单元格的文本特征表示信息。

调用区域特征聚集方法对所述目标图像中所述每个单元格对应的图像区域进行处理，得到所述每个单元格的图像特征表示信息。

调用特征提取网络对所述每个单元格的位置进行处理，得到所述每个单元格的位置特征表示信息。

可选的，所述确定模块602，具体用于：

对每个单元格的文本特征表示信息、图像特征表示信息以及位置特征表示信息进行融合处理，得到所述每个单元格的第一融合特征信息。

调用单元格识别模型的特征提取网络对所述每个单元格的第一融合特征信息进行处理，得到所述每个单元格的第二融合特征信息。

调用所述单元格识别模型的关系识别网络、类型识别网络对所述每个单元格的第二融合特征信息进行处理，得到所述至少一个单元格的识别结果。

可选的，所述确定模块602，具体用于：

对任意两个单元格的第二融合特征信息进行融合处理，得到第三融合特征信息。

调用所述单元格识别模型的关系识别网络对所述第三融合特征信息进行处理，得到所述至少一个单元格的单元格行列关系数据。

调用所述单元格识别模型的类型识别网络对所述第二融合特征信息进行处理，得到所述至少一个单元格的单元格类型。

可选的，所述装置还包括调整模块604，其中：

所述获取模块601，还用于获取样本图像以及标注数据，所述标注数据包括所述样本图像中的单元格对应的参考行列关系数据以及参考类型。

所述获取模块601，还用于获取所述样本图像中每个单元格的特征信息，并调用初始识别模型对所述样本图像中每个单元格的特征信息进行处理，得到预测行列关系数据以及预测类型，所述初始识别模型包括特征提取网络、关系识别网络以及类型识别网络。

所述调整模块604，用于基于所述预测行列关系数据、所述预测类型以及所述标注数据，对所述特征提取网络、所述关系识别网络以及所述类型识别网络的网络参数进行调整，得到单元格识别模型。

需要说明的是，本申请实施例的图像处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

请参见图7，是本申请实施例的一种计算机设备的结构示意图，本申请实施例的所述计算机设备包括供电模块等结构，并包括处理器701、存储装置702以及网络接口703。所述处理器701、存储装置702以及网络接口703之间可以交互数据。

所述存储装置702可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置702也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；所述存储装置702还可以包括上述种类的存储器的组合。

所述处理器701可以是中央处理器(central processing unit，CPU)。在一个实施例中，所述处理器701还可以是图形处理器(Graphics Processing Unit，GPU)。所述处理器701也可以是由CPU和GPU的组合。在一个实施例中，所述存储装置702用于存储程序指令，所述处理器701可以调用所述程序指令，执行如下操作：

可选的，所述处理器701，具体用于：

其中，所述位置包括预设顶点的坐标、尺寸信息。

可选的，所述处理器701，具体用于：

可选的，所述处理器701，还用于：

获取样本图像以及标注数据，所述标注数据包括所述样本图像中的单元格对应的参考行列关系数据以及参考类型。

获取所述样本图像中每个单元格的特征信息，并调用初始识别模型对所述样本图像中每个单元格的特征信息进行处理，得到预测行列关系数据以及预测类型，所述初始识别模型包括特征提取网络、关系识别网络以及类型识别网络。

基于所述预测行列关系数据、所述预测类型以及所述标注数据，对所述特征提取网络、所述关系识别网络以及所述类型识别网络的网络参数进行调整，得到单元格识别模型。

具体实现中，本申请实施例中所描述的处理器701、存储装置702以及网络接口703可执行本申请实施例图2、图4提供的方法的相关实施例中所描述的实现方式，也可执行本申请实施例图6提供的装置的相关实施例中所描述的实现方式，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本申请各个实施例上述方法的全部或部分步骤。其中，而前述的存储介质可包括：U盘、移动硬盘、磁碟、光盘、只读存储器(英文：Read-Only Memory，缩写：ROM)或者随机存取存储器(英文：Random AccessMemory，缩写：RAM)等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取目标图像包括的文本信息，所述文本信息包括至少一个单元格的文本以及位置；

获取每个单元格的特征信息，所述特征信息包括文本特征表示信息、图像特征表示信息以及位置特征表示信息中的一种或多种；

基于所述至少一个单元格的特征信息确定所述至少一个单元格的识别结果，所述识别结果包括单元格行列关系数据以及单元格类型，所述单元格行列关系数据用于描述任意两个单元格是否位于同一行或者同一列，所述单元格类型用于描述所述每个单元格是否为合并单元格；

2.根据权利要求1所述的方法，其特征在于，所述基于所述单元格行列关系数据以及所述单元格类型生成所述目标图像对应的表格，包括：

基于所述单元格行列关系数据以及所述单元格类型，确定所述至少一个单元格的层级结构数据，所述层级结构数据包括单元格之间的层级嵌套关系；

3.根据权利要求2所述的方法，其特征在于，所述基于所述单元格行列关系数据以及所述单元格类型，确定所述至少一个单元格的层级结构数据，包括：

基于所述单元格行列关系数据以及所述单元格类型从所述目标图像中确定至少一个单元格区域，每个单元格区域包括与参考单元格位于同一行或者同一列的各个单元格，所述参考单元格的单元格类型为合并单元格；

基于所述单元格类型确定每个单元格区域是否包括合并单元格；

若目标单元格区域包括合并单元格，则基于所述单元格行列关系数据以及所述单元格类型对所述目标单元格区域进行划分，得到多个单元格子区域，直到每个单元格子区域不包括合并单元格，所述目标单元格区域为任意一个单元格区域；

4.根据权利要求3所述的方法，其特征在于，所述基于所述单元格行列关系数据以及所述单元格类型从所述目标图像中确定至少一个单元格区域，包括：

从所述至少一个单元格中确定单元格类型为合并单元格的至少一个参考单元格；

基于所述单元格行列关系数据确定所述每个参考单元格的关联单元格，所述关联单元格为与所述参考单元格位于同一行或者同一列的单元格；

5.根据权利要求1～4中任一项所述的方法，其特征在于，所述获取目标图像包括的文本信息，包括：

调用光学字符识别引擎对目标图像进行处理，得到所述目标图像中至少一个单元格的文本以及位置；

其中，所述位置包括预设顶点的坐标、尺寸信息。

6.根据权利要求1～4中任一项所述的方法，其特征在于，所述获取每个单元格的特征信息，包括：

调用语言模型的表示层对每个单元格对应的文本进行处理，得到所述每个单元格的文本特征表示信息；

调用区域特征聚集方法对所述目标图像中所述每个单元格对应的图像区域进行处理，得到所述每个单元格的图像特征表示信息；

7.根据权利要求1～4中任一项所述的方法，其特征在于，所述基于所述至少一个单元格的特征信息确定所述至少一个单元格的识别结果，包括：

对每个单元格的文本特征表示信息、图像特征表示信息以及位置特征表示信息进行融合处理，得到所述每个单元格的第一融合特征信息；

调用单元格识别模型的特征提取网络对所述每个单元格的第一融合特征信息进行处理，得到所述每个单元格的第二融合特征信息；

8.根据权利要求7所述的方法，其特征在于，所述调用所述单元格识别模型的关系识别网络、类型识别网络对所述每个单元格的第二融合特征信息进行处理，得到所述至少一个单元格的识别结果，包括：

对任意两个单元格的第二融合特征信息进行融合处理，得到第三融合特征信息；

调用所述单元格识别模型的关系识别网络对所述第三融合特征信息进行处理，得到所述至少一个单元格的单元格行列关系数据；

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取样本图像以及标注数据，所述标注数据包括所述样本图像中的单元格对应的参考行列关系数据以及参考类型；

获取所述样本图像中每个单元格的特征信息，并调用初始识别模型对所述样本图像中每个单元格的特征信息进行处理，得到预测行列关系数据以及预测类型，所述初始识别模型包括特征提取网络、关系识别网络以及类型识别网络；

10.一种图像处理装置，其特征在于，所述装置包括：

获取模块，用于获取目标图像包括的文本信息，所述文本信息包括至少一个单元格的文本以及位置；

所述获取模块，还用于获取每个单元格的特征信息，所述特征信息包括文本特征表示信息、图像特征表示信息以及位置特征表示信息中的一种或多种；

确定模块，用于基于所述至少一个单元格的特征信息确定所述至少一个单元格的识别结果，所述识别结果包括单元格行列关系数据以及单元格类型，所述单元格行列关系数据用于描述任意两个单元格是否位于同一行或者同一列，所述单元格类型用于描述所述每个单元格是否为合并单元格；

11.一种计算机设备，其特征在于，所述计算机设备包括处理器、网络接口和存储装置，所述处理器、所述网络接口和所述存储装置相互连接，其中，所述网络接口受所述处理器的控制用于收发数据，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用于执行权利要求1～9中任一项所述的图像处理方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行，用以执行权利要求1～9中任一项所述的图像处理方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被计算机处理器执行时实现权利要求1～9中任一项所述的图像处理方法。