CN110263739A

CN110263739A - 基于ocr技术的图片表格识别方法

Info

Publication number: CN110263739A
Application number: CN201910558402.6A
Authority: CN
Inventors: 吴信朝; 李开宇; 翟恩荣
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-09-20

Abstract

本发明涉及基于OCR技术的图片表格识别方法，包括：A.通过OCR技术对图片内容进行行切分，判断图片内容中是否含有表格，如果有则继续，否则结束；B.对行切分图进行OCR技术的膨胀操作和腐蚀操作，分别得到表格的行线和列线，计算行线和列线的交点坐标；C.根据所述的交点坐标进行切图，得到单元格集；D.迭代单元格集中的单元格，对每个图片形式的单元格进行行切分得到各单元格中图片形式的文本行；E.通过OCR技术识别所有图片形式的文本行中的字符文本，并根据每个文本行的定位将其对应的字符文本组合成完整的结构化文本。本发明能够实现表格识别100％的正确率，并且不需要预先制定表格模板，能够适用于更广泛的应用领域，并且资源消耗少。

Description

基于OCR技术的图片表格识别方法

技术领域

本发明涉及图像识别的方法，具体讲是基于OCR技术的图片表格识别方法。

背景技术

在图像处理领域，人们对含有表格文档识别的研究取得了很大的进展。对表格识别之前，需要先对文档进行版面分析，提取出文档中的表格，然后对表格进行定位，最后根据定位结果识别出表格中的文本。在物体检测和定位方面，常用的技术有：边缘检测技术(canny边缘检测)和rcnn/faster-rcnn/yolo/ssd等技术；在OCR(光学字符识别)方面，主要技术有：基于监督学习的文字分类、cnn(卷积神经网络)和CRNN+CTC等。目前对表格的定位主要采用以下方法：

(1)基于规则模板的表格定位方法：

本方法的做法就是收集各种表格，从不同类别的表格中提取出不同的规则模板。在解析新表格的时候，先对新表格进行类别划分，然后利用该类别的规则模板进行表格解析。

(2)基于学习的定位方法：

本方法利用机器学习的方法进行表格定位。分为训练和预测两个过程。在训练阶段，首先要构建一个数据集，然后让机器学习模型在该训练集上学习一个固定模式，以便在预测阶段使用。在预测阶段，把要解析的新表格输入模型，模型自动完成表格的解析，最后输出识别结果。

目前方案的缺陷：

(1)基于规则模板的表格定位方法：

本方法的思想是枚举。如果一个新表格不在已有的类别中，就会定位失败。并且，随着表格类别的增多，***效率也会逐渐降低。

(2)基于学习的定位方法：

本方法是基于机器学习的策略。机器学习的一个最大的缺点就是不能达到百分之百正确，在某些应用场景中，对识别结果要求非常高，如果有百分之零点一的差错就会造成很大损失，很显然基于本策略的***不是理想的选择方案。而且，***需要提前训练，进行特征提取，这些都会消耗一定资源。最后，如果样本集缺乏代表性和普遍性，这就会造成***学习不到某些模式，最终导致模型对某些表格定位失败。

发明内容

本发明提供了一种基于OCR技术的图片表格识别方法，不需要预先制定表格模板，而且能够达到100％的正确率。

本发明基于OCR技术的图片表格识别方法，包括：

A.通过OCR(光学字符识别)技术对图片内容进行行切分，判断图片内容中是否含有表格，如果有则继续，否则结束；

B.对行切分后形成的行切分图进行OCR技术的膨胀操作和腐蚀操作，分别得到表格的行线和列线，并且计算行线和列线的交点坐标；

C.根据所述的交点坐标进行切图，得到单元格集；

D.迭代单元格集中的单元格，对每个图片形式的单元格进行行切分得到各单元格中图片形式的文本行；

E.通过OCR技术识别所有图片形式的文本行中的字符文本，并根据每个文本行的定位将其对应的字符文本组合成完整的结构化文本。

与现有的方法相比，本发明的灵活性更好，当一个新的图片输入后，不需要图像切分专家预先制定相应的表格识别规则，极大的降低了成本。而且经过测试，本发明的识别方法能够实现表格识别100％的正确率，能够适用于高精度的应用领域，并且资源消耗少。

具体的，步骤A包括：

A1.将图片按照像素行在纵轴上进行投影，形成与每个像素行对应的投影柱；

A2.通过OCR技术对投影柱的长度为零的像素行进行切分，形成至少一个行切分图；

A3.迭代所有的行切分图，判断各个行切分图中是否含有表格。

进一步的，步骤A3包括：迭代所有的行切分图，并对每个行切分图进行OCR技术的腐蚀操作，根据腐蚀操作的结果判断当前的行切分图中是否包含矩形框，如果包含则图片包含表格，如果所有行切分图都不包含矩形框，则图片不包含表格。

具体的，步骤B包括：

B1.分别用“1x2/3w”和“2/3hx1”大小的格子在所述的行切分图上滑动，并通过OCR技术对滑动到的行切分图的部分进行膨胀操作，目的是增强模糊的表格的边，方便后面分析。其中w为图片的宽，h为图片的高；

B2.分别用“1x2/3w”和“2/3hx1”大小格子在行切分图上滑动，对已经过膨胀操作的行切分图进行腐蚀操作，消除行切分图中表格里的文本，得到只含有行线和列线的行切分图。

具体的，步骤B中所述计算行线和列线的交点坐标，包括：

B3.根据得到表格的行线和列线，将行线图和列线图相加，找出所有只含物体像素、不含背景像素的全零区域(经二值化处理后，图像中背景像素值为“1”，物体像素值为“0”)；

B4.计算每个全零区域的中心坐标，每个中心坐标分别对应一个行线和列线的交点坐标。

具体的，步骤C包括：

C1.将得到的交点坐标分别进行横坐标对齐和纵坐标对齐，使所有不的同行按相同的纵坐标对齐，所有不同的列按相同的横坐标对齐；

C2.根据相邻的四个坐标进行图片切分，得到单元格图，所有单元格图形成单元格集。

进一步的，步骤E包括：

E1.通过OCR技术识别所有图片形式的文本行中的字符文本；

E2.根据每个文本行的定位将其对应的字符文本连接成字符串；

E3.根据步骤A～步骤D的切分过程，还原表格结构，并把所述的字符串对应的填入表格的单元格中；

E4.保存表格结构化文本，例如，json格式或者xml格式等。

本发明基于OCR技术的图片表格识别方法，不需要预先制定表格模板，能够适应更广泛的场景，显著减少了预先制定表格模板的工作量，而且能够达到100％的正确率，极大的提高了表格识别的正确率。

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

附图说明

图1为本发明基于OCR技术的图片表格识别方法的流程图。

图2为原始图片的二值图。

图3为图2在纵轴上的投影图。

图4为包含表格和表格文本的原图。

图5为图4经腐蚀操作后只含有行线和列线的行切分图。

图6为包含表格的原始图片。

图7为从图6中切分出表格。

图8为切分出图7表格中的某一单元格。

图9为切分出图8单元格中第一行文本。

具体实施方式

如图1所示本发明基于OCR技术的图片表格识别方法，包括：

A.通过OCR(光学字符识别)技术对图片内容进行行切分，判断图片内容中是否含有表格，如果有则继续，否则结束，具体包括：

A1.如图2和图3所示，将图片按照像素行在纵轴上进行投影，形成与每个像素行对应的投影柱。

A2.通过OCR技术对投影柱的长度为零的像素行进行切分，形成若干个行切分图。

A3.迭代所有的行切分图，并对每个行切分图进行OCR技术的腐蚀操作，根据腐蚀操作的结果判断当前的行切分图中是否包含矩形框，如果包含则图片包含表格，如果所有行切分图都不包含矩形框，则图片不包含表格。

B.对行切分后形成的行切分图进行OCR技术的膨胀操作和腐蚀操作，分别得到表格的行线和列线，并且计算行线和列线的交点坐标，具体包括：

B1.如图4所示，分别用“1x2/3w”和“2/3hx1”大小的格子在所述的行切分图上滑动，并通过OCR技术对滑动到的行切分图的部分进行膨胀操作，目的是增强模糊的表格的边，方便后面分析。其中w为图片的宽，h为图片的高；

B2.分别用“1x2/3w”和“2/3hx1”大小格子在行切分图上滑动，对已经过膨胀操作的行切分图进行腐蚀操作，消除行切分图中表格里的文本，得到如图5所示的只含有行线和列线的行切分图。

C.根据所述的交点坐标进行切图，得到单元格集，具体包括：

D.根据与步骤A相同的原理，迭代单元格集中的单元格，对每个图片形式的单元格进行行切分得到各单元格中图片形式的文本行；

图6～图9分别显示出了原始图片、切分出表格、切分出表格中的某一单元格和切分出该单元格中第一行文本的过程。

E.识别图片中的字符文本，并将字符文本组合为结构化文本，具体为：

E1.通过OCR技术识别所有图片形式的文本行中的字符文本；

E4.保存表格结构化文本，例如，json格式或者xml格式等。

经测试，本发明的识别方法能够实现表格识别100％的正确率，能够适用于高精度的应用领域，并且资源消耗少。

Claims

1.基于OCR技术的图片表格识别方法，其特征包括：

A.通过OCR技术对图片内容进行行切分，判断图片内容中是否含有表格，如果有则继续，否则结束；

C.根据所述的交点坐标进行切图，得到单元格集；

2.如权利要求1所述的基于OCR技术的图片表格识别方法，其特征为：步骤A包括：

3.如权利要求2所述的基于OCR技术的图片表格识别方法，其特征为：步骤A3包括：迭代所有的行切分图，并对每个行切分图进行OCR技术的腐蚀操作，根据腐蚀操作的结果判断当前的行切分图中是否包含矩形框，如果包含则图片包含表格，如果所有行切分图都不包含矩形框，则图片不包含表格。

4.如权利要求1所述的基于OCR技术的图片表格识别方法，其特征为：步骤B包括：

B1.分别用“1x2/3w”和“2/3hx1”大小的格子在所述的行切分图上滑动，并通过OCR技术对滑动到的行切分图的部分进行膨胀操作，其中w为图片的宽，h为图片的高；

5.如权利要求1所述的基于OCR技术的图片表格识别方法，其特征为：步骤B中所述计算行线和列线的交点坐标，包括：

B3.根据得到表格的行线和列线，将行线图和列线图相加，找出所有只含物体像素、不含背景像素的全零区域；

6.如权利要求1所述的基于OCR技术的图片表格识别方法，其特征为：步骤C包括：

7.如权利要求1所述的基于OCR技术的图片表格识别方法，其特征为：步骤E包括：

E1.通过OCR技术识别所有图片形式的文本行中的字符文本；

E4.保存表格结构化文本。