CN110263739A - 基于ocr技术的图片表格识别方法 - Google Patents
基于ocr技术的图片表格识别方法 Download PDFInfo
- Publication number
- CN110263739A CN110263739A CN201910558402.6A CN201910558402A CN110263739A CN 110263739 A CN110263739 A CN 110263739A CN 201910558402 A CN201910558402 A CN 201910558402A CN 110263739 A CN110263739 A CN 110263739A
- Authority
- CN
- China
- Prior art keywords
- text
- line
- ocr technique
- row cutting
- cutting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及基于OCR技术的图片表格识别方法,包括:A.通过OCR技术对图片内容进行行切分,判断图片内容中是否含有表格,如果有则继续,否则结束;B.对行切分图进行OCR技术的膨胀操作和腐蚀操作,分别得到表格的行线和列线,计算行线和列线的交点坐标;C.根据所述的交点坐标进行切图,得到单元格集;D.迭代单元格集中的单元格,对每个图片形式的单元格进行行切分得到各单元格中图片形式的文本行;E.通过OCR技术识别所有图片形式的文本行中的字符文本,并根据每个文本行的定位将其对应的字符文本组合成完整的结构化文本。本发明能够实现表格识别100%的正确率,并且不需要预先制定表格模板,能够适用于更广泛的应用领域,并且资源消耗少。
Description
技术领域
本发明涉及图像识别的方法,具体讲是基于OCR技术的图片表格识别方法。
背景技术
在图像处理领域,人们对含有表格文档识别的研究取得了很大的进展。对表格识别之前,需要先对文档进行版面分析,提取出文档中的表格,然后对表格进行定位,最后根据定位结果识别出表格中的文本。在物体检测和定位方面,常用的技术有:边缘检测技术(canny边缘检测)和rcnn/faster-rcnn/yolo/ssd等技术;在OCR(光学字符识别)方面,主要技术有:基于监督学习的文字分类、cnn(卷积神经网络)和CRNN+CTC等。目前对表格的定位主要采用以下方法:
(1)基于规则模板的表格定位方法:
本方法的做法就是收集各种表格,从不同类别的表格中提取出不同的规则模板。在解析新表格的时候,先对新表格进行类别划分,然后利用该类别的规则模板进行表格解析。
(2)基于学习的定位方法:
本方法利用机器学习的方法进行表格定位。分为训练和预测两个过程。在训练阶段,首先要构建一个数据集,然后让机器学习模型在该训练集上学习一个固定模式,以便在预测阶段使用。在预测阶段,把要解析的新表格输入模型,模型自动完成表格的解析,最后输出识别结果。
目前方案的缺陷:
(1)基于规则模板的表格定位方法:
本方法的思想是枚举。如果一个新表格不在已有的类别中,就会定位失败。并且,随着表格类别的增多,***效率也会逐渐降低。
(2)基于学习的定位方法:
本方法是基于机器学习的策略。机器学习的一个最大的缺点就是不能达到百分之百正确,在某些应用场景中,对识别结果要求非常高,如果有百分之零点一的差错就会造成很大损失,很显然基于本策略的***不是理想的选择方案。而且,***需要提前训练,进行特征提取,这些都会消耗一定资源。最后,如果样本集缺乏代表性和普遍性,这就会造成***学习不到某些模式,最终导致模型对某些表格定位失败。
发明内容
本发明提供了一种基于OCR技术的图片表格识别方法,不需要预先制定表格模板,而且能够达到100%的正确率。
本发明基于OCR技术的图片表格识别方法,包括:
A.通过OCR(光学字符识别)技术对图片内容进行行切分,判断图片内容中是否含有表格,如果有则继续,否则结束;
B.对行切分后形成的行切分图进行OCR技术的膨胀操作和腐蚀操作,分别得到表格的行线和列线,并且计算行线和列线的交点坐标;
C.根据所述的交点坐标进行切图,得到单元格集;
D.迭代单元格集中的单元格,对每个图片形式的单元格进行行切分得到各单元格中图片形式的文本行;
E.通过OCR技术识别所有图片形式的文本行中的字符文本,并根据每个文本行的定位将其对应的字符文本组合成完整的结构化文本。
与现有的方法相比,本发明的灵活性更好,当一个新的图片输入后,不需要图像切分专家预先制定相应的表格识别规则,极大的降低了成本。而且经过测试,本发明的识别方法能够实现表格识别100%的正确率,能够适用于高精度的应用领域,并且资源消耗少。
具体的,步骤A包括:
A1.将图片按照像素行在纵轴上进行投影,形成与每个像素行对应的投影柱;
A2.通过OCR技术对投影柱的长度为零的像素行进行切分,形成至少一个行切分图;
A3.迭代所有的行切分图,判断各个行切分图中是否含有表格。
进一步的,步骤A3包括:迭代所有的行切分图,并对每个行切分图进行OCR技术的腐蚀操作,根据腐蚀操作的结果判断当前的行切分图中是否包含矩形框,如果包含则图片包含表格,如果所有行切分图都不包含矩形框,则图片不包含表格。
具体的,步骤B包括:
B1.分别用“1x2/3w”和“2/3hx1”大小的格子在所述的行切分图上滑动,并通过OCR技术对滑动到的行切分图的部分进行膨胀操作,目的是增强模糊的表格的边,方便后面分析。其中w为图片的宽,h为图片的高;
B2.分别用“1x2/3w”和“2/3hx1”大小格子在行切分图上滑动,对已经过膨胀操作的行切分图进行腐蚀操作,消除行切分图中表格里的文本,得到只含有行线和列线的行切分图。
具体的,步骤B中所述计算行线和列线的交点坐标,包括:
B3.根据得到表格的行线和列线,将行线图和列线图相加,找出所有只含物体像素、不含背景像素的全零区域(经二值化处理后,图像中背景像素值为“1”,物体像素值为“0”);
B4.计算每个全零区域的中心坐标,每个中心坐标分别对应一个行线和列线的交点坐标。
具体的,步骤C包括:
C1.将得到的交点坐标分别进行横坐标对齐和纵坐标对齐,使所有不的同行按相同的纵坐标对齐,所有不同的列按相同的横坐标对齐;
C2.根据相邻的四个坐标进行图片切分,得到单元格图,所有单元格图形成单元格集。
进一步的,步骤E包括:
E1.通过OCR技术识别所有图片形式的文本行中的字符文本;
E2.根据每个文本行的定位将其对应的字符文本连接成字符串;
E3.根据步骤A~步骤D的切分过程,还原表格结构,并把所述的字符串对应的填入表格的单元格中;
E4.保存表格结构化文本,例如,json格式或者xml格式等。
本发明基于OCR技术的图片表格识别方法,不需要预先制定表格模板,能够适应更广泛的场景,显著减少了预先制定表格模板的工作量,而且能够达到100%的正确率,极大的提高了表格识别的正确率。
以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
附图说明
图1为本发明基于OCR技术的图片表格识别方法的流程图。
图2为原始图片的二值图。
图3为图2在纵轴上的投影图。
图4为包含表格和表格文本的原图。
图5为图4经腐蚀操作后只含有行线和列线的行切分图。
图6为包含表格的原始图片。
图7为从图6中切分出表格。
图8为切分出图7表格中的某一单元格。
图9为切分出图8单元格中第一行文本。
具体实施方式
如图1所示本发明基于OCR技术的图片表格识别方法,包括:
A.通过OCR(光学字符识别)技术对图片内容进行行切分,判断图片内容中是否含有表格,如果有则继续,否则结束,具体包括:
A1.如图2和图3所示,将图片按照像素行在纵轴上进行投影,形成与每个像素行对应的投影柱。
A2.通过OCR技术对投影柱的长度为零的像素行进行切分,形成若干个行切分图。
A3.迭代所有的行切分图,并对每个行切分图进行OCR技术的腐蚀操作,根据腐蚀操作的结果判断当前的行切分图中是否包含矩形框,如果包含则图片包含表格,如果所有行切分图都不包含矩形框,则图片不包含表格。
B.对行切分后形成的行切分图进行OCR技术的膨胀操作和腐蚀操作,分别得到表格的行线和列线,并且计算行线和列线的交点坐标,具体包括:
B1.如图4所示,分别用“1x2/3w”和“2/3hx1”大小的格子在所述的行切分图上滑动,并通过OCR技术对滑动到的行切分图的部分进行膨胀操作,目的是增强模糊的表格的边,方便后面分析。其中w为图片的宽,h为图片的高;
B2.分别用“1x2/3w”和“2/3hx1”大小格子在行切分图上滑动,对已经过膨胀操作的行切分图进行腐蚀操作,消除行切分图中表格里的文本,得到如图5所示的只含有行线和列线的行切分图。
B3.根据得到表格的行线和列线,将行线图和列线图相加,找出所有只含物体像素、不含背景像素的全零区域(经二值化处理后,图像中背景像素值为“1”,物体像素值为“0”);
B4.计算每个全零区域的中心坐标,每个中心坐标分别对应一个行线和列线的交点坐标。
C.根据所述的交点坐标进行切图,得到单元格集,具体包括:
C1.将得到的交点坐标分别进行横坐标对齐和纵坐标对齐,使所有不的同行按相同的纵坐标对齐,所有不同的列按相同的横坐标对齐;
C2.根据相邻的四个坐标进行图片切分,得到单元格图,所有单元格图形成单元格集。
D.根据与步骤A相同的原理,迭代单元格集中的单元格,对每个图片形式的单元格进行行切分得到各单元格中图片形式的文本行;
图6~图9分别显示出了原始图片、切分出表格、切分出表格中的某一单元格和切分出该单元格中第一行文本的过程。
E.识别图片中的字符文本,并将字符文本组合为结构化文本,具体为:
E1.通过OCR技术识别所有图片形式的文本行中的字符文本;
E2.根据每个文本行的定位将其对应的字符文本连接成字符串;
E3.根据步骤A~步骤D的切分过程,还原表格结构,并把所述的字符串对应的填入表格的单元格中;
E4.保存表格结构化文本,例如,json格式或者xml格式等。
经测试,本发明的识别方法能够实现表格识别100%的正确率,能够适用于高精度的应用领域,并且资源消耗少。
Claims (7)
1.基于OCR技术的图片表格识别方法,其特征包括:
A.通过OCR技术对图片内容进行行切分,判断图片内容中是否含有表格,如果有则继续,否则结束;
B.对行切分后形成的行切分图进行OCR技术的膨胀操作和腐蚀操作,分别得到表格的行线和列线,并且计算行线和列线的交点坐标;
C.根据所述的交点坐标进行切图,得到单元格集;
D.迭代单元格集中的单元格,对每个图片形式的单元格进行行切分得到各单元格中图片形式的文本行;
E.通过OCR技术识别所有图片形式的文本行中的字符文本,并根据每个文本行的定位将其对应的字符文本组合成完整的结构化文本。
2.如权利要求1所述的基于OCR技术的图片表格识别方法,其特征为:步骤A包括:
A1.将图片按照像素行在纵轴上进行投影,形成与每个像素行对应的投影柱;
A2.通过OCR技术对投影柱的长度为零的像素行进行切分,形成至少一个行切分图;
A3.迭代所有的行切分图,判断各个行切分图中是否含有表格。
3.如权利要求2所述的基于OCR技术的图片表格识别方法,其特征为:步骤A3包括:迭代所有的行切分图,并对每个行切分图进行OCR技术的腐蚀操作,根据腐蚀操作的结果判断当前的行切分图中是否包含矩形框,如果包含则图片包含表格,如果所有行切分图都不包含矩形框,则图片不包含表格。
4.如权利要求1所述的基于OCR技术的图片表格识别方法,其特征为:步骤B包括:
B1.分别用“1x2/3w”和“2/3hx1”大小的格子在所述的行切分图上滑动,并通过OCR技术对滑动到的行切分图的部分进行膨胀操作,其中w为图片的宽,h为图片的高;
B2.分别用“1x2/3w”和“2/3hx1”大小格子在行切分图上滑动,对已经过膨胀操作的行切分图进行腐蚀操作,消除行切分图中表格里的文本,得到只含有行线和列线的行切分图。
5.如权利要求1所述的基于OCR技术的图片表格识别方法,其特征为:步骤B中所述计算行线和列线的交点坐标,包括:
B3.根据得到表格的行线和列线,将行线图和列线图相加,找出所有只含物体像素、不含背景像素的全零区域;
B4.计算每个全零区域的中心坐标,每个中心坐标分别对应一个行线和列线的交点坐标。
6.如权利要求1所述的基于OCR技术的图片表格识别方法,其特征为:步骤C包括:
C1.将得到的交点坐标分别进行横坐标对齐和纵坐标对齐,使所有不的同行按相同的纵坐标对齐,所有不同的列按相同的横坐标对齐;
C2.根据相邻的四个坐标进行图片切分,得到单元格图,所有单元格图形成单元格集。
7.如权利要求1所述的基于OCR技术的图片表格识别方法,其特征为:步骤E包括:
E1.通过OCR技术识别所有图片形式的文本行中的字符文本;
E2.根据每个文本行的定位将其对应的字符文本连接成字符串;
E3.根据步骤A~步骤D的切分过程,还原表格结构,并把所述的字符串对应的填入表格的单元格中;
E4.保存表格结构化文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910558402.6A CN110263739A (zh) | 2019-06-26 | 2019-06-26 | 基于ocr技术的图片表格识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910558402.6A CN110263739A (zh) | 2019-06-26 | 2019-06-26 | 基于ocr技术的图片表格识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110263739A true CN110263739A (zh) | 2019-09-20 |
Family
ID=67921629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910558402.6A Pending CN110263739A (zh) | 2019-06-26 | 2019-06-26 | 基于ocr技术的图片表格识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110263739A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956087A (zh) * | 2019-10-25 | 2020-04-03 | 天津幸福生命科技有限公司 | 一种图片中表格的识别方法、装置、可读介质和电子设备 |
CN111223109A (zh) * | 2020-01-03 | 2020-06-02 | 四川新网银行股份有限公司 | 一种复杂的表格图像解析方法 |
CN112528832A (zh) * | 2020-12-07 | 2021-03-19 | 国网青海省电力公司电力科学研究院 | 对pdf格式的继电保护定值单进行处理的方法和*** |
CN113989822A (zh) * | 2021-12-24 | 2022-01-28 | 中奥智能工业研究院(南京)有限公司 | 基于计算机视觉和自然语言处理的图片表格内容提取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258198A (zh) * | 2013-04-26 | 2013-08-21 | 四川大学 | 一种表格文档图像中字符提取方法 |
CN107315989A (zh) * | 2017-05-03 | 2017-11-03 | 天方创新(北京)信息技术有限公司 | 针对医学资料图片的文本识别方法和装置 |
CN109614923A (zh) * | 2018-12-07 | 2019-04-12 | 上海智臻智能网络科技股份有限公司 | Ocr文档识别方法及其装置 |
CN109685052A (zh) * | 2018-12-06 | 2019-04-26 | 泰康保险集团股份有限公司 | 文本图像处理方法、装置、电子设备及计算机可读介质 |
-
2019
- 2019-06-26 CN CN201910558402.6A patent/CN110263739A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258198A (zh) * | 2013-04-26 | 2013-08-21 | 四川大学 | 一种表格文档图像中字符提取方法 |
CN107315989A (zh) * | 2017-05-03 | 2017-11-03 | 天方创新(北京)信息技术有限公司 | 针对医学资料图片的文本识别方法和装置 |
CN109685052A (zh) * | 2018-12-06 | 2019-04-26 | 泰康保险集团股份有限公司 | 文本图像处理方法、装置、电子设备及计算机可读介质 |
CN109614923A (zh) * | 2018-12-07 | 2019-04-12 | 上海智臻智能网络科技股份有限公司 | Ocr文档识别方法及其装置 |
Non-Patent Citations (1)
Title |
---|
柴功博 等: "基于视窗的航图导航数据提取技术研究", 《民航学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956087A (zh) * | 2019-10-25 | 2020-04-03 | 天津幸福生命科技有限公司 | 一种图片中表格的识别方法、装置、可读介质和电子设备 |
CN110956087B (zh) * | 2019-10-25 | 2024-04-19 | 北京懿医云科技有限公司 | 一种图片中表格的识别方法、装置、可读介质和电子设备 |
CN111223109A (zh) * | 2020-01-03 | 2020-06-02 | 四川新网银行股份有限公司 | 一种复杂的表格图像解析方法 |
CN111223109B (zh) * | 2020-01-03 | 2023-06-06 | 四川新网银行股份有限公司 | 一种复杂的表格图像解析方法 |
CN112528832A (zh) * | 2020-12-07 | 2021-03-19 | 国网青海省电力公司电力科学研究院 | 对pdf格式的继电保护定值单进行处理的方法和*** |
CN113989822A (zh) * | 2021-12-24 | 2022-01-28 | 中奥智能工业研究院(南京)有限公司 | 基于计算机视觉和自然语言处理的图片表格内容提取方法 |
CN113989822B (zh) * | 2021-12-24 | 2022-03-08 | 中奥智能工业研究院(南京)有限公司 | 基于计算机视觉和自然语言处理的图片表格内容提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263739A (zh) | 基于ocr技术的图片表格识别方法 | |
US10339428B2 (en) | Intelligent scoring method and system for text objective question | |
WO2020259060A1 (zh) | 试卷信息提取方法、***及计算机可读存储介质 | |
CN110363252B (zh) | 趋向于端到端的场景文字检测与识别方法以及*** | |
US20190019055A1 (en) | Word segmentation system, method and device | |
CN105426856A (zh) | 一种图像表格文字识别方法 | |
CN109858372A (zh) | 一种车道级精度自动驾驶结构化数据分析方法 | |
CN109543777A (zh) | 手写汉字书写质量评价方法及*** | |
CN108875602A (zh) | 监控环境下基于深度学习的人脸识别方法 | |
CN104376315B (zh) | 一种基于计算机图像处理和模式识别的检测方法及应用 | |
CN104820835A (zh) | 一种试卷自动阅卷方法 | |
CN111242024A (zh) | 基于机器学习识别图纸内图例及文字的方法及*** | |
CN113537227B (zh) | 一种结构化文本识别方法及*** | |
CN110334709B (zh) | 基于端到端多任务深度学习的车牌检测方法 | |
CN109544564A (zh) | 一种医疗图像分割方法 | |
CN106934455B (zh) | 基于cnn的遥感影像光学适配结构选取方法及*** | |
CN101777060A (zh) | 网页视觉质量的自动评价方法及其*** | |
CN108509988B (zh) | 一种试卷分数自动统计方法、装置、电子设备及存储介质 | |
CN109086772A (zh) | 一种扭曲粘连字符图片验证码的识别方法及*** | |
CN103439348A (zh) | 基于差影法的遥控器按键缺陷检测方法 | |
CN107818321A (zh) | 一种用于车辆年检的水印日期识别方法 | |
CN106203296B (zh) | 一种属性辅助的视频动作识别方法 | |
CN112883926B (zh) | 表格类医疗影像的识别方法及装置 | |
CN107622271A (zh) | 手写文本行提取方法及*** | |
CN102024138A (zh) | 字符识别方法和字符识别装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190920 |
|
RJ01 | Rejection of invention patent application after publication |