CN113343866A - 表格信息的识别方法及装置、电子设备 - Google Patents

表格信息的识别方法及装置、电子设备 Download PDF

Info

Publication number
CN113343866A
CN113343866A CN202110660616.1A CN202110660616A CN113343866A CN 113343866 A CN113343866 A CN 113343866A CN 202110660616 A CN202110660616 A CN 202110660616A CN 113343866 A CN113343866 A CN 113343866A
Authority
CN
China
Prior art keywords
image
information
matrix
binary image
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110660616.1A
Other languages
English (en)
Inventor
雷卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN202110660616.1A priority Critical patent/CN113343866A/zh
Publication of CN113343866A publication Critical patent/CN113343866A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本申请实施例提供一种表格信息的识别方法及装置、电子设备。所述方法包括:利用文字识别算法,识别表格图像中所有的表单元格;基于所述表单元格的位置信息,生成表格布局矩阵;将所述表格布局矩阵映射到所述表格图像中,获取每个表单元格映射在所述表格图像后圈定的子图像;利用光学字符识别算法,识别每个子图像中的文字信息。

Description

表格信息的识别方法及装置、电子设备
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种表格信息的识别方法及装置、电子设备。
背景技术
随着节能环保理念的不断深入人心,纸质文档逐步被电子文档所取代。而针对已有的纸质文档也逐步通过一些技术手段转变为电子文档。例如,通过扫描设备扫描纸质文档,以生成图片类型的电子文档。
由于图片类型的电子文档无法接入现有的数据库,因此还需要通过图像识别技术从图片中提取有效的数据,然后将提取的数据存储到数据库中。
然而,图片类型的电子文档,尤其是图片类型的表格文档(以下称为表格图像)存在不能被有效识别表格信息的问题。
因此,需要提供一种准确率高的表格信息识别方案。
发明内容
本说明书实施例提供的一种表格信息的识别方法及装置、电子设备:
根据本说明书实施例的第一方面,提供一种表格信息的识别方法,所述方法包括:
利用文字识别算法,识别表格图像中所有的表单元格;
基于所述表单元格的位置信息,生成表格布局矩阵;
将所述表格布局矩阵映射到所述表格图像中,获取每个表单元格映射在所述表格图像后圈定的子图像;
利用光学字符识别算法,识别每个子图像中的文字信息。
根据本说明书实施例的第二方面,提供一种表格信息的识别装置,所述装置包括:
结构识别单元,利用文字识别算法,识别表格图像中所有的表单元格;
矩阵生成单元,基于所述表单元格的位置信息,生成表格布局矩阵;
图像获取单元,将所述表格布局矩阵映射到所述表格图像中,获取每个表单元格映射在所述表格图像后圈定的子图像;
文字识别单元,利用光学字符识别算法,识别每个子图像中的文字信息。
根据本说明书实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为上述任一项表格信息的识别方法。
本说明书实施例提供了一种表格信息的识别的方案,通过将原本用于文字检测的文字识别算法,来识别表格图像中的表单元格;并将基于表单元格的表格布局矩阵映射到表格图像,以获取每个表单元格圈定的子图像;最后利用计算量较小的光学字符识别技术,识别每个子图像中的文字信息。如此,利用表单元格具有独立的特征,通过截取每个表单元格独立的子图像分别进行识别;不仅能够克服相邻表单元格之间的相互影响,提高表格信息的识别准确性;而且相对于直接对表格图像进行整体文字信息识别,总的计算量反而更少。
附图说明
图1是本说明书一实施例提供的表格信息的识别方法的流程图;
图2a是本说明书一实施例提供的表格图像的示意图;
图2b是本说明书一实施例提供的二值图像的示意图;
图2c是本说明书一实施例提供的去除文字内容的二值图像的示意图;
图2d是本说明书一实施例提供的膨胀变换后的膨胀二值图像的示意图;
图3是本说明书一实施例提供的表格行列识别过程的示意图;
图4是本说明书一实施例提供的表格信息的识别装置的硬件结构图;
图5是本说明书一实施例提供的表格信息的识别装置的模块示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在相关技术中,识别表格图像时,通常采用ORC(Optical CharacterRecognition,光学字符识别)直接对整个表格图像进行识别。但是由于表格图像中不仅包含文字信息还包含表单元格的边框,表单元格边框的存在会影响表单元格内的文字信息的识别;而且相邻表单元格之间也会相互影响导致识别准确性不高。可见,上述相关技术无法准确识别表格信息,更不能输出结构化的表格数据。
以下可以参考图1所示的一种表格信息的识别方法为例加以介绍。所述方法可以应用在进行表格识别的设备端,该设备即可以是客户端也可以是服务端。所述方法可以包括以下步骤:
步骤110:利用文字识别算法,识别表格图像中所有的表单元格。
本实施例中,将传统的文字识别算法应用于表格图像中的表单元格的边框识别中。在实现时,可以采用OpenCV中的文字识别算法来实施步骤110。
其中,所述OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库,其可以运行在Linux、Windows、Android和Mac OS操作***上。它轻量级而且高效,由一系列C函数和少量C++类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。
具体地,步骤110可以包括如下A1-A4:
步骤A1:利用二值化算法,对所述表格图像进行二值化处理,得到二值图像。
其中,所述二值化处理也称为图像二值化Image Binarization,是将图像上的像素点的灰度值设置为0(黑色)或255(白色),也就是将整个图像呈现出明显的黑白效果的过程。通过二值化处理,可以降低原表格图像中的数据量,并能凸显表格图像中每个表单元格的轮廓。
具体地,可以基于OpenCV中的二值化算法(如threshold),对输入的表格图像进行二值化处理,输出二值图像。
其中,二值化算法可以遍历表格图像中每个像素点的像素值,如果像素值大于预设的像素阈值,则将该像素点设置为灰度值255,如果像素值小于预设的像素阈值,则将该像素点设置为灰度值0。
以下参考图2a所示的表格图像的示意图,以及图2b所示的二值图像的示意图。通过比较图2a中表格图像与图2b中二值图像的变化过程可知,表格图像中的表单元格和表格文字的像素值从0变为255,而表格图像中的空白区域的像素值从255变为0。
步骤A2:利用涂抹变换算法,去除所述二值图像中的文字信息。
确定所述二值图像中文字信息所在区域;将所述文字信息所在区域的像素值替换为相邻区域的像素值。
基于OpenCV中的涂抹变换算法,找出表格中文字的位置,将其暂时抹去;通过抹去二值图像中的文字,以避免文字对表单元格边框识别的影响。
以下参考图2c所示的去除文字内容的二值图像的示意图,与图2b相比,图2c中的二值图像已经去除了表格中的文字内容。
在一实施例中,在步骤A2之前,还包括:
利用高斯模糊算法和/或自适应阈值算法对所述二值图像进行优化处理,得到优化的二值图像;
相应地,所述步骤A2中,去除所述二值图像中的文字信息,包括:
去除所述优化的二值图像中的文字信息。
该实施例中,可以基于OpenCV中的高斯模糊算法(GaussianBlur,也叫高斯平滑)和自适应阈值算法(adaptiveThreshold)对二值图像进行优化处理。优化处理后的图像不仅可以进一步降低二值图像的数据量,还可以修正异常的二值化结果。
其中,高斯模糊是一种线性平滑滤波,其对去除图像中的高斯噪声有很好的效果。
其中,自适应阈值是用于动态调整二值化处理时的像素阈值,以提高二值化的准确性。
由于二值化算法threshold存在一定的局限性,假如图像存在明显的明暗不同的区域,当部分区域整体偏暗,则会导致该区域二值化后变成全黑,从而丢失所有细节。为此,可以通过自适应阈值算法来解决这一问题。
以下介绍adaptiveThreshold方法:
cv2.adaptiveThreshold(src,maxValue,adaptiveMethod,thresholdType,blockSize,C,dst=None);该方法的原理是把图像的每个像素点作为中心取N*N的区域,然后计算这个区域的阈值,从而确定这个像素点变为0还是变为255。
该方法中,src表示二值图像;
maxValue表示满足条件的像素点将要设置的灰度值;
adaptiveMethod表示自适应阈值算法。其中,自适应阈值算法可以包括ADAPTIVE_THRESH_MEAN_C(为局部邻域块的平均值,该算法是先求出块中的均值)或ADAPTIVE_THRESH_GAUSSIAN_C(为局部邻域块的高斯加权和,该算法是在区域中(x,y)周围的像素根据高斯函数按照他们离中心点的距离进行加权计算);
thresholdType表示OpenCV中的二值化算法。其中,所述二值化算法可以包括THRESH_BINARY或THRESH_BINARY_INV。
blockSize表示要像素点为中心的区域大小,即前述的N值,一般取奇数;当blockSize越大,参与计算阈值的区域也越大,细节轮廓就变得越少,整体轮廓越粗越明显。
C为常数,由每个区域计算出的阈值的基础上减去这个常数作为这个区域的最终阈值,可以为负数。当C越大,每个像素点的N*N邻域计算出的阈值就越小,中心点大于这个阈值的可能性也就越大,设置为255的概率就越大,整体图像白色像素就越多,反之亦然。
Dst表示输出的图像。
步骤A3:利用直线检测算法,对去除文字信息的二值图像进行直线检测,确定表单元格的边框线。
基于OpenCV中的直线检测(HoughLines)算法检测二值图像中的边框线,并可以通过延长边框线,凸显边框线。
在一实施例中,在步骤A3之前,还包括:
对去除文字信息的二值图像进行膨胀变换,得到表单元格的边框***的二值图像;
对所述边框***的二值图像进行腐蚀变换,得到原始粗细的边框的二值图像;
相应地,所述步骤A3中,对去除文字信息的二值图像进行直线检测,确定表单元格的边框线,包括:
对所述腐蚀变换的二值图像进行直线检测,确定表单元格的边框线。
该实施例中,可以基于OpenCV中的膨胀变换(dilate)与腐蚀变换(erode)实现。
以下参考图2d所示的膨胀变换后的膨胀二值图像的示意图,与图2c相比,二值图像中的表单元格的边框***了,***的边框可以覆盖原边框附近的噪声像素,如可能存在的文字残余像素点。接着通过腐蚀变换,变回原本粗细的边框。
由于腐蚀变换后的边框粗细相对不膨胀前不变,因此一次膨胀一次腐蚀,就可以去除边框线附近的噪声像素点,以便于步骤A3进行直线检测时,更为精准地识别边框线。
步骤A4:利用轮廓检测算法,基于所述边框线确定所有的表单元格的位置信息;其中,所述位置信息为表单元格的四条边框线的坐标信息。
基于OpenCV中的轮廓检测(findContours)算法,基于所述边框线确定所有的表单元格的位置信息。
步骤120:基于所述表单元格的位置信息,生成表格布局矩阵。
步骤130:将所述表格布局矩阵映射到所述表格图像中,获取每个表单元格映射在所述表格图像后圈定的子图像。
通过步骤110识别的表单元格的四条边框线的坐标信息,生成与表单元格布局对应的表格布局矩阵。
然后将表格布局矩阵映射到表格图像中,从而可以截取每个表单元格映射到表格图像后圈定的子图像。
步骤140:利用光学字符识别算法,识别每个子图像中的文字信息。
利用计算量较小的光学字符识别技术,识别每个子图像中的文字信息。如此,利用表单元格具有独立的特征,通过截取每个表单元格独立的子图像分别进行识别;不仅能够克服相邻表单元格之间的相互影响,提高表格信息的识别准确性;而且相对于直接对表格图像进行整体文字信息识别,总的计算量反而更少。
在一实施例中,在步骤120之前,还可以包括:
利用图像描述模型,识别所述表格图像中所有的行列的位置信息;
其中,图像描述是计算机视觉中根据输入的一幅图自动生成对应的描述性文字的技术。本实施例中,图像描述技术应用在表格图像的行列结构识别中。通过输入一张表格图像,生成超文本标记语言(HTML)标签序列,从而表示表格中行与列的部署方式。
在图3所示的表格行列识别过程的示意图中,针对左侧输入的表格图像,图像描述模型通过计算可以输出右侧的HTML标签序列。
在一实施例中,所述利用图像描述模型,识别所述表格图像中所有的行列的位置信息,可以包括:
基于所述图像描述模型中的特征提取算法提取所述表格图像中的图像特征;
基于所述图像描述模型的编码器,生成所述表格图像中表格行与列的超文本标记语言标签序列;
基于所述图像描述模型的解密器,计算所述图像特征与超文本标记语言标签序列,生成行列结构的位置信息。
其中,所述特征提取算法可以采用采用神经网络算法,例如卷积神经网络CNN。编码器用于编码HTML序列标签,可以采用门控循环单元GRU。解码器用于基于特征提取算法和编码器输出结果,预测行列结构,同样可以采用门控循环单元GRU。
以下介绍图像描述模型的模型训练过程:
原始HTML标签代码可以被分成若干个标识化结果。模型的输入样本可以是表格的HTML标签序列和与之对应的表格图像,输出标签为其HTML语言序列的下一个标识化结果。模型通过比较实际与预测的标识化结果,使用交叉熵作为损失函数。
表格图像可以通过CNN向前传播,文本处理则从开始符开始。在每一步中均可以将生成的标识化结果加入到最终的输出序列中,并作为新的输入进入到模型中。重复上述步骤,直到生成结束符或达到序列最大长度上限。
在实现过程中,在识别出表单元格和行列后,可以基于所述表单元格的位置信息和行列的位置信息,生成表格布局矩阵。
融合单元格信息与行列结构信息:通过单元格的位置信息,生成表格布局第一矩阵;通过行列的位置信息,生成表格布局第二矩阵;最后融合所述表格布局第一矩阵和表格布局第二矩阵,得到最终的表格布局矩阵。
其中,所述融合可以采用加权平均的方式,即对所述表格布局第一矩阵和表格布局第二矩阵进行加权平均,以得到融合后的表格布局矩阵。
如前所述的,进一步可以将表格布局矩阵映射到表格图像中,从而可以截取每个表单元格映射到表格图像后圈定的子图像,以及利用光学字符识别算法,识别每个子图像中的文字信息。
通过该实施例,既利用了表单元格具体独立的特性,克服克服相邻表单元格之间的相互影响;又利用了行列结构整体性强的特性,克服单元格识别不全的问题。
在识别出每个子图像中的文字信息之后,可以输出包含识别的每个子图像中的文字信息的结构化数据,该结构化数据可以包括excel文件或json文件。
本说明书实施例中的表格图像可以是指有边框表格图像,输入表格图像,输出结构化数据。
与前述表格信息的识别方法实施例相对应,本说明书还提供了表格信息的识别装置的实施例。所述装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机业务程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本说明书表格信息的识别装置所在设备的一种硬件结构图,除了图4所示的处理器、网络接口、内存以及非易失性存储器之外,实施例中装置所在的设备通常根据表格信息的识别实际功能,还可以包括其他硬件,对此不再赘述。
请参见图5,为本说明书一实施例提供的表格信息的识别装置的模块图,所述装置对应了图1所示实施例,所述装置包括:
结构识别单元,利用文字识别算法,识别表格图像中所有的表单元格;
矩阵生成单元,基于所述表单元格的位置信息,生成表格布局矩阵;
图像获取单元,将所述表格布局矩阵映射到所述表格图像中,获取每个表单元格映射在所述表格图像后圈定的子图像;
文字识别单元,利用光学字符识别算法,识别每个子图像中的文字信息。
可选的,所述结构识别单元,包括:
二值化子单元,利用二值化算法,对所述表格图像进行二值化处理,得到二值图像;
涂抹子单元,利用涂抹变换算法,去除所述二值图像中的文字信息;
直线检测子单元,利用直线检测算法,对去除文字信息的二值图像进行直线检测,确定表单元格的边框线;
轮廓检测子单元,利用轮廓检测算法,基于所述边框线确定所有的表单元格的位置信息;其中,所述位置信息为表单元格的四条边框线的坐标信息。
可选的,所述涂抹子单元中,去除所述二值图像中的文字信息包括:
确定所述二值图像中文字信息所在区域,将所述文字信息所在区域的像素值替换为相邻区域的像素值。
可选的,所述装置还包括:
优化处理子单元,利用高斯模糊算法和/或自适应阈值算法对所述二值图像进行优化处理,得到优化的二值图像;
相应地,所述涂抹子单元中,去除所述二值图像中的文字信息包括:
去除所述优化的二值图像中的文字信息。
可选的,所述装置还包括:
膨胀子单元,对去除文字信息的二值图像进行膨胀变换,得到表单元格的边框***的二值图像;
腐蚀子单元,对所述边框***的二值图像进行腐蚀变换,得到原始粗细的边框的二值图像;
相应地,所述直线检测子单元中,对去除文字信息的二值图像进行直线检测,确定表单元格的边框线,包括:
对所述腐蚀变换的二值图像进行直线检测,确定表单元格的边框线。
可选的,所述结构识别单元,还包括:
利用图像描述模型,识别所述表格图像中所有的行列的位置信息;
所述矩阵生成单元,包括:
基于所述表单元格的位置信息和行列的位置信息,生成表格布局矩阵。
可选的,所述利用图像描述算法,识别所述表格图像中所有的行列的位置信息,包括:
基于所述图像描述模型中的特征提取算法(CNN)提取所述表格图像中的图像特征;
基于所述图像描述模型的编码器,生成所述表格图像中表格行与列的超文本标记语言标签序列;
基于所述图像描述模型的解密器,计算所述图像特征与超文本标记语言标签序列,生成行列结构的位置信息。
可选的,所述基于所述表单元格的位置信息和行列的位置信息,生成表格布局矩阵,包括:
基于所述表单元格的位置信息,生成表格布局第一矩阵;
基于所述行列的位置信息,生成表格布局第二矩阵;
融合所述表格布局第一矩阵和表格布局第二矩阵,得到最终的表格布局矩阵。
可选的,所述融合所述表格布局第一矩阵和表格布局第二矩阵,包括:
对所述表格布局第一矩阵和表格布局第二矩阵进行加权平均。
可选的,所述装置还包括:
输出单元,输出包含识别的每个子图像中的文字信息的结构化数据。
可选的,所述表格图像包括有框表格图像。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上图5描述了表格信息的识别装置的内部功能模块和结构示意,其实质上的执行主体可以为一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行前述任一实施例所述的表格结果的识别方法。
在上述电子设备的实施例中,应理解,该处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,而前述的存储器可以是只读存储器(英文:read-only memory,缩写:ROM)、随机存取存储器(英文:random access memory,简称:RAM)、快闪存储器、硬盘或者固态硬盘。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

Claims (23)

1.一种表格信息的识别方法,其特征在于,所述方法包括:
利用文字识别算法,识别表格图像中所有的表单元格;
基于所述表单元格的位置信息,生成表格布局矩阵;
将所述表格布局矩阵映射到所述表格图像中,获取每个表单元格映射在所述表格图像后圈定的子图像;
利用光学字符识别算法,识别每个子图像中的文字信息。
2.根据权利要求1所述的方法,其特征在于,所述基于文字识别算法,识别表格图像中所有的表单元格,包括:
利用二值化算法,对所述表格图像进行二值化处理,得到二值图像;
利用涂抹变换算法,去除所述二值图像中的文字信息;
利用直线检测算法,对去除文字信息的二值图像进行直线检测,确定表单元格的边框线;
利用轮廓检测算法,基于所述边框线确定所有的表单元格的位置信息;其中,所述位置信息为表单元格的四条边框线的坐标信息。
3.根据权利要求2所述的方法,其特征在于,所述去除所述二值图像中的文字,包括:
确定所述二值图像中文字信息所在区域;
将所述文字信息所在区域的像素值替换为相邻区域的像素值。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
利用高斯模糊算法和/或自适应阈值算法对所述二值图像进行优化处理,得到优化的二值图像;
相应地,所述去除所述二值图像中的文字信息,包括:
去除所述优化的二值图像中的文字信息。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对去除文字信息的二值图像进行膨胀变换,得到表单元格的边框***的二值图像;
对所述边框***的二值图像进行腐蚀变换,得到原始粗细的边框的二值图像;
相应地,所述对去除文字信息的二值图像进行直线检测,确定表单元格的边框线,包括:
对所述腐蚀变换的二值图像进行直线检测,确定表单元格的边框线。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用图像描述模型,识别所述表格图像中所有的行列的位置信息;
所述基于所述表单元格的位置信息,生成表格布局矩阵,包括:
基于所述表单元格的位置信息和行列的位置信息,生成表格布局矩阵。
7.根据权利要求6所述的方法,其特征在于,所述利用图像描述算法,识别所述表格图像中所有的行列的位置信息,包括:
基于所述图像描述模型中的特征提取算法提取所述表格图像中的图像特征;
基于所述图像描述模型的编码器,生成所述表格图像中表格行与列的超文本标记语言标签序列;
基于所述图像描述模型的解密器,计算所述图像特征与超文本标记语言标签序列,生成行列结构的位置信息。
8.根据权利要求6所述的方法,其特征在于,所述基于所述表单元格的位置信息和行列的位置信息,生成表格布局矩阵,包括:
基于所述表单元格的位置信息,生成表格布局第一矩阵;
基于所述行列的位置信息,生成表格布局第二矩阵;
融合所述表格布局第一矩阵和表格布局第二矩阵,得到最终的表格布局矩阵。
9.根据权利要求8所述的方法,其特征在于,所述融合所述表格布局第一矩阵和表格布局第二矩阵,包括:
对所述表格布局第一矩阵和表格布局第二矩阵进行加权平均。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
输出包含识别的每个子图像中的文字信息的结构化数据。
11.根据权利要求1所述的方法,其特征在于,所述表格图像包括有框表格图像。
12.一种表格信息的识别装置,其特征在于,所述装置包括:
结构识别单元,利用文字识别算法,识别表格图像中所有的表单元格;
矩阵生成单元,基于所述表单元格的位置信息,生成表格布局矩阵;
图像获取单元,将所述表格布局矩阵映射到所述表格图像中,获取每个表单元格映射在所述表格图像后圈定的子图像;
文字识别单元,利用光学字符识别算法,识别每个子图像中的文字信息。
13.根据权利要求12所述的装置,其特征在于,所述结构识别单元,包括:
二值化子单元,利用二值化算法,对所述表格图像进行二值化处理,得到二值图像;
涂抹子单元,利用涂抹变换算法,去除所述二值图像中的文字信息;
直线检测子单元,利用直线检测算法,对去除文字信息的二值图像进行直线检测,确定表单元格的边框线;
轮廓检测子单元,利用轮廓检测算法,基于所述边框线确定所有的表单元格的位置信息;其中,所述位置信息为表单元格的四条边框线的坐标信息。
14.根据权利要求13所述的装置,其特征在于,所述涂抹子单元中,去除所述二值图像中的文字信息包括:
确定所述二值图像中文字信息所在区域,将所述文字信息所在区域的像素值替换为相邻区域的像素值。
15.根据权利要求13所述的装置,其特征在于,所述装置还包括:
优化处理子单元,利用高斯模糊算法和/或自适应阈值算法对所述二值图像进行优化处理,得到优化的二值图像;
相应地,所述涂抹子单元中,去除所述二值图像中的文字信息包括:
去除所述优化的二值图像中的文字信息。
16.根据权利要求13所述的装置,其特征在于,所述装置还包括:
膨胀子单元,对去除文字信息的二值图像进行膨胀变换,得到表单元格的边框***的二值图像;
腐蚀子单元,对所述边框***的二值图像进行腐蚀变换,得到原始粗细的边框的二值图像;
相应地,所述直线检测子单元中,对去除文字信息的二值图像进行直线检测,确定表单元格的边框线,包括:
对所述腐蚀变换的二值图像进行直线检测,确定表单元格的边框线。
17.根据权利要求12所述的装置,其特征在于,所述结构识别单元,还包括:
利用图像描述模型,识别所述表格图像中所有的行列的位置信息;
所述矩阵生成单元,包括:
基于所述表单元格的位置信息和行列的位置信息,生成表格布局矩阵。
18.根据权利要求17所述的装置,其特征在于,所述利用图像描述算法,识别所述表格图像中所有的行列的位置信息,包括:
基于所述图像描述模型中的特征提取算法(CNN)提取所述表格图像中的图像特征;
基于所述图像描述模型的编码器,生成所述表格图像中表格行与列的超文本标记语言标签序列;
基于所述图像描述模型的解密器,计算所述图像特征与超文本标记语言标签序列,生成行列结构的位置信息。
19.根据权利要求17所述的装置,其特征在于,所述基于所述表单元格的位置信息和行列的位置信息,生成表格布局矩阵,包括:
基于所述表单元格的位置信息,生成表格布局第一矩阵;
基于所述行列的位置信息,生成表格布局第二矩阵;
融合所述表格布局第一矩阵和表格布局第二矩阵,得到最终的表格布局矩阵。
20.根据权利要求19所述的装置,其特征在于,所述融合所述表格布局第一矩阵和表格布局第二矩阵,包括:
对所述表格布局第一矩阵和表格布局第二矩阵进行加权平均。
21.根据权利要求12所述的装置,其特征在于,所述装置还包括:
输出单元,输出包含识别的每个子图像中的文字信息的结构化数据。
22.根据权利要求12所述的装置,其特征在于,所述表格图像包括有框表格图像。
23.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为上述权利要求1-11中任一项所述的方法。
CN202110660616.1A 2021-06-15 2021-06-15 表格信息的识别方法及装置、电子设备 Pending CN113343866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110660616.1A CN113343866A (zh) 2021-06-15 2021-06-15 表格信息的识别方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110660616.1A CN113343866A (zh) 2021-06-15 2021-06-15 表格信息的识别方法及装置、电子设备

Publications (1)

Publication Number Publication Date
CN113343866A true CN113343866A (zh) 2021-09-03

Family

ID=77477141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110660616.1A Pending CN113343866A (zh) 2021-06-15 2021-06-15 表格信息的识别方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN113343866A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612487A (zh) * 2023-07-21 2023-08-18 亚信科技(南京)有限公司 表格识别方法、装置、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467378A (zh) * 2010-11-11 2012-05-23 深圳市金蝶友商电子商务服务有限公司 基于二维矩阵的html表格处理方法及计算机
CN109726628A (zh) * 2018-11-05 2019-05-07 东北大学 一种表格图像的识别方法及***
CN110033471A (zh) * 2019-04-19 2019-07-19 福州大学 一种基于连通域分析和形态学操作的框线检测方法
CN110363095A (zh) * 2019-06-20 2019-10-22 华南农业大学 一种针对表格字体的识别方法
US20200042785A1 (en) * 2018-07-31 2020-02-06 International Business Machines Corporation Table Recognition in Portable Document Format Documents
CN111492370A (zh) * 2020-03-19 2020-08-04 香港应用科技研究院有限公司 用于识别结构化布局的文本图像的装置和方法
CN111626146A (zh) * 2020-05-08 2020-09-04 西安工业大学 一种基于模板匹配的合并单元格表格分割识别方法
CN111640130A (zh) * 2020-05-29 2020-09-08 深圳壹账通智能科技有限公司 表格还原方法及装置
CN112115884A (zh) * 2020-09-22 2020-12-22 北京一览群智数据科技有限责任公司 一种表格识别方法及其***
CN112115774A (zh) * 2020-08-07 2020-12-22 北京来也网络科技有限公司 结合rpa和ai的文字识别方法、装置、电子设备和存储介质
CN112528813A (zh) * 2020-12-03 2021-03-19 上海云从企业发展有限公司 表格识别方法、装置以及计算机可读存储介质
CN112712014A (zh) * 2020-12-29 2021-04-27 平安健康保险股份有限公司 表格图片结构解析方法、***、设备和可读存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467378A (zh) * 2010-11-11 2012-05-23 深圳市金蝶友商电子商务服务有限公司 基于二维矩阵的html表格处理方法及计算机
US20200042785A1 (en) * 2018-07-31 2020-02-06 International Business Machines Corporation Table Recognition in Portable Document Format Documents
CN109726628A (zh) * 2018-11-05 2019-05-07 东北大学 一种表格图像的识别方法及***
CN110033471A (zh) * 2019-04-19 2019-07-19 福州大学 一种基于连通域分析和形态学操作的框线检测方法
CN110363095A (zh) * 2019-06-20 2019-10-22 华南农业大学 一种针对表格字体的识别方法
CN111492370A (zh) * 2020-03-19 2020-08-04 香港应用科技研究院有限公司 用于识别结构化布局的文本图像的装置和方法
CN111626146A (zh) * 2020-05-08 2020-09-04 西安工业大学 一种基于模板匹配的合并单元格表格分割识别方法
CN111640130A (zh) * 2020-05-29 2020-09-08 深圳壹账通智能科技有限公司 表格还原方法及装置
CN112115774A (zh) * 2020-08-07 2020-12-22 北京来也网络科技有限公司 结合rpa和ai的文字识别方法、装置、电子设备和存储介质
CN112115884A (zh) * 2020-09-22 2020-12-22 北京一览群智数据科技有限责任公司 一种表格识别方法及其***
CN112528813A (zh) * 2020-12-03 2021-03-19 上海云从企业发展有限公司 表格识别方法、装置以及计算机可读存储介质
CN112712014A (zh) * 2020-12-29 2021-04-27 平安健康保险股份有限公司 表格图片结构解析方法、***、设备和可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LI M , CUI L , HUANG S , ET AL.: "TableBank: A Benchmark Dataset for Table Detection and Recognition", 《ARXIV》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612487A (zh) * 2023-07-21 2023-08-18 亚信科技(南京)有限公司 表格识别方法、装置、电子设备及存储介质
CN116612487B (zh) * 2023-07-21 2023-10-13 亚信科技(南京)有限公司 表格识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US10552705B2 (en) Character segmentation method, apparatus and electronic device
CN108710866B (zh) 汉字模型训练方法、汉字识别方法、装置、设备及介质
CN110046529B (zh) 二维码识别方法、装置及设备
CN110569830A (zh) 多语言文本识别方法、装置、计算机设备及存储介质
CN110866529A (zh) 字符识别方法、装置、电子设备及存储介质
CN111368638A (zh) 电子表格的创建方法、装置、计算机设备和存储介质
WO2021190155A1 (zh) 文本行中的空格识别方法、装置、电子设备及存储介质
CN112464845B (zh) 票据识别方法、设备及计算机存储介质
CN113486828A (zh) 图像处理方法、装置、设备和存储介质
CN110210480B (zh) 文字识别方法、装置、电子设备和计算机可读存储介质
CN111488732B (zh) 一种变形关键词检测方法、***及相关设备
CN112597918A (zh) 文本检测方法及装置、电子设备、存储介质
CN111666937A (zh) 一种图像中的文本识别方法及***
CN110533020B (zh) 一种文字信息的识别方法、装置及存储介质
CN113673528B (zh) 文本处理方法、装置、电子设备和可读存储介质
CN113343866A (zh) 表格信息的识别方法及装置、电子设备
CN117496521A (zh) 一种表格关键信息抽取方法、***、装置及可读存储介质
CN113449726A (zh) 文字比对及识别方法、装置
CN112418220A (zh) 一种单字检测方法、装置、设备及介质
CN115620321B (zh) 表格识别方法及装置、电子设备和存储介质
CN115527215A (zh) 包含文本的图像处理方法、***及存储介质
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
CN114187445A (zh) 识别图像中文本的方法、装置、电子设备及存储介质
CN113901950A (zh) 一种高准确率的表格ocr识别方法及***
CN113763313A (zh) 文本图像的质量检测方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210903

RJ01 Rejection of invention patent application after publication