CN109948598A - 文档版面智能化分析方法及装置 - Google Patents

文档版面智能化分析方法及装置 Download PDF

Info

Publication number
CN109948598A
CN109948598A CN201910402163.5A CN201910402163A CN109948598A CN 109948598 A CN109948598 A CN 109948598A CN 201910402163 A CN201910402163 A CN 201910402163A CN 109948598 A CN109948598 A CN 109948598A
Authority
CN
China
Prior art keywords
image
connected domain
textual
line
line width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910402163.5A
Other languages
English (en)
Other versions
CN109948598B (zh
Inventor
王文广
马振宇
周炳诚
蔡华
陈运文
纪达麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Data Co ltd
Original Assignee
Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Technology (shanghai) Co Ltd filed Critical Information Technology (shanghai) Co Ltd
Priority to CN201910402163.5A priority Critical patent/CN109948598B/zh
Publication of CN109948598A publication Critical patent/CN109948598A/zh
Application granted granted Critical
Publication of CN109948598B publication Critical patent/CN109948598B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Abstract

本申请公开了一种文档版面智能化分析方法及装置,通过对原文档图像进行灰度化,得到灰度图像;对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;将所述过滤结果输入分离投影深度卷积网络进行分类。具备了区分复杂布局文档中的文本与非文本区域;能够针对线的特点进行定制化要素分析,效果好且效率高;高效率智能化地实现了对表格和图像的分类;适合所有文档版面进行智能化地分析等优点。

Description

文档版面智能化分析方法及装置
技术领域
本申请涉及智能识别技术领域,具体而言,涉及一种文档版面智能化分析方法及装置。
背景技术
在当今时代,人工智能的飞速发展,带来了对文档智能处理的极大需求,如何区分文档里面的文字、图像、表格以及其他辅助元素等是智能化理解文档的关键一环,文档版面的智能化分析则是实现这关键一环的技术。此外,OCR(光学字符识别)作为计算机信息录入的一个重要技术,旨在将纸质文档、扫描件的文本内容转化为计算机可以进行编码的数字化信息,也非常依赖于文档版面分析技术,版面分析的结果直接影响到最终的识别准确率。故而文档版面分析在近年来得到了广泛的关注与研究。因此,文档版面的智能化分析是文档智能处理以及OCR***的关键组成部分。能否准确地将文档中的全部版面元素准确的提取和分割出来是文档版面分析功能的重要衡量指标。
对于一般的非倾斜纯文本图片,很多版面分析算法都能够达到较好的结果,但是像经过扫描而产生的图片难免在扫描的过程中发生页面的整体倾斜,这将导致大多数无论是基于自顶向下还是基于自底向上的版面分析算法失效,比如大多数自顶向下的版面分析算法是基于投影法(比如X-Y cut方法)与图形形态学实现的,在对文本进行水平投影时的结果如图3非倾斜与倾斜的纯文本向水平投影的结果所示:其中,(3a)非倾斜文本水平投影,(3b) 倾斜文本水平投影;
可以从图3中清楚的看出:对于非倾斜文档,非文本区域投影后的数值为0,表明该水平区域没有任何文本,因此能够很精确的定位到每行文本的基线和顶线,进而完成文档分割的任务。但是对于倾斜文档,能够明显的看出这种特征几乎全部消失,将会导致文本分割结果出现错误。同样的,基于自底向上的文档版面分析方法的前提也应该是无倾斜文本,否则各个连通域之间的关系极易判断错误,也会导致最终分析结果的不准确性。
2.2 版面布局的复杂度高
对于文档布局方式为曼哈顿布局的图像,大多数版面分析算法都能够进行较为精准的布局分析,然而对于非曼哈顿布局的文档,它们的布局特点往往是文本段、图片以及表格共存且有着极为不规则的布局方式,如图2所示;
可以从图4中看出,这张非曼哈顿文本布局的图像中充斥着大量不规则布局的文本、图片以及横竖线,这些非文本区域会对版面分析产生较为严峻的挑战,导致无法够提取出全部的文本信息,降低最终的识别准确率。目前在文档版面分析领域大多数传统算法都无法较好的处理这类版面,因此文本提取率很低。
针对相关技术中不规则布局的文本、图片以及横竖线,这些非文本区域会对版面分析产生较为严峻的挑战,导致无法够提取出全部的文本信息,降低最终的识别准确率的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文档版面智能化分析方法及装置,以解决不规则布局的文本、图片以及横竖线,导致无法够提取出全部的文本信息问题。
为了实现上述目的,根据本申请的一个方面,提供了一种文档版面智能化分析方法。
根据本申请的文档版面智能化分析方法包括:
对原文档图像进行灰度化,得到灰度图像;
对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;
获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;
提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;
提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;
将所述过滤结果输入分离投影深度卷积网络进行分类。
进一步的,如前述的文档版面智能化分析方法,所述对所述灰度图像进行文本倾斜矫正,并得到第一二值图像,包括:
获取所述灰度图像中文本倾斜角度;
在所述文本倾斜角度超过时,通过最大行间方差算法对所述灰度图片进行倾斜矫正;
通过Sauvola局部二值化算法进行二值化处理,并得到所述第一二值图像。
进一步的,如前述的文档版面智能化分析方法,在所述所有前景元素的连通域中剔除非文本的连通域,包括:
判断所述前景元素的连通域是否满足下述条件中的至少一个:
所述前景元素的连通域内像素个数小于6个;
一个所述前景元素的连通域内包含4个或者4个以上的子连通域;
所述前景元素的连通域内像素个数除以它的最小外接矩形的比率小于0.05;
所述前景元素的连通域最小外接矩形的短边与长边之比小于6%;
在一个所述前景元素的连通域满足以上4个条件中的任意一种,则判定为一个非文本连通域,将所述非文本连通域从所述第一二值图像中剔除。
进一步的,如前述的文档版面智能化分析方法,提取出所述第二二值图像中的全文本区域图像以及第一非文本图像,包括:
提取出所述第二二值图像中竖直方向的竖直多级同构区域;
针对每一个所述竖直多级同构区域,再依次进行水平方向的多级同构区域提取得到水平多级同构区域;
根据所述竖直多级同构区域和水平多级同构区域确定所有多级同构区域,并在所述第二二值图像中提取出全文本区域图像;
根据所述全文本区域图像确定所述第二二值图像中的第一非文本图像。
进一步的,如前述的文档版面智能化分析方法,所述提取出所述第二二值图像中竖直方向的多级同构区域,包括:
对所述第二二值图像做竖直投影,得到第一投影向量集;
将第一投影向量集中数值大于零的地方置为-1,等于零的地方保持为0,并得到第一赋值集;
根据所述第一赋值集对所述第一投影向量集进行游程编码,确定所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽;
根据所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽,分别得到第一黑线线宽组以及第一白线线宽组;
分别计算所述第一黑线线宽组以及第一白线线宽组的第一方差;
如果所述第一方差大于2.3,则根据所述第一黑线线宽组中最宽黑线或者第一白线线宽组中最宽白线进行图像分割;其中,根据所述第一黑线线宽组中最宽黑线进行图像分割为:在所述第一黑线线宽组中最宽黑线处两侧的白线垂直分割图像;根据第一白线线宽组中最宽白线进行图像分割为:在所述第一白线线宽组中最宽白线处垂直分割图像;
将进行图像分割后新生成的分割图像存储并继续计算,按此递归执行,直到所述第一黑线线宽组以及第一白线线宽组的方差均小于等于2.3,则表明已经提取出所有的竖直方向的竖直多级同构区域。
进一步的,如前述的文档版面智能化分析方法,所述针对每一个所述竖直方向的多级同构区域,再依次进行水平方向的多级同构区域提取,包括:
对所述第二二值图像做水平投影,得到第二投影向量集;
将第二投影向量集中数值大于零的地方置为-1,等于零的地方保持为0,并得到第二赋值集;
根据所述第二赋值集对所述第二投影向量集进行游程编码,确定所述第二二值图像的水平方向的所有黑线以及所有白线的线宽;
根据所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽,分别得到第二黑线线宽组以及第二白线线宽组;
分别计算所述第二黑线线宽组以及第二白线线宽组的第二方差;
如果所述第二方差大于2.3,则根据所述第二黑线线宽组中最宽黑线或者第二白线线宽组中最宽白线进行图像分割;其中,根据所述第二黑线线宽组中最宽黑线进行图像分割为:在所述第二黑线线宽组中最高黑线处两侧的白线水平分割图像;根据第二白线线宽组中最宽白线进行图像分割为:在所述第二白线线宽组中最高白线处水平分割图像;
将进行图像分割后新生成的分割图像存储并继续计算,按此递归执行,直到所述第二黑线线宽组以及第二白线线宽组的方差均小于等于2.3,则表明已经提取出所有的水平方向的水平多级同构区域。
进一步的,如前述的文档版面智能化分析方法,所述在所述第二二值图像中提取出全文本区域图像,包括:
确定每个多级同构区域上所有连通域的面积的集合,高度的集合以及宽度的集合
确定L 1 L 2 L 3 的中位数与平均数之比和平均数与中位数之比的两者中的最大值,并分别记为
在一个多级同构区域中的某个连通域满足:其面积中的最大值且大于 * 集合的中位数,或者其高中的最大值且高度大于 * 集合的中位数,或者其宽中的最大值且宽度大于 * 集合的中位数,即:对于,如果满足以下三个条件中的任何一个:
则判定所述连通域为非文本连通域的候选项;
对于一个多级同构区域中的每一个连通域,确定该区域中各个水平相邻的连通域间的水平距离,记为集合S,确定S的最大值与中值;
确定与每个所述非文本连通域的候选项相邻的左连通域和/或右连通域,并分别确定每个所述非文本连通域的候选项相邻的左连通域水平距离和/或右连通域水平距离,在没有左连通域或右连通域的时候,记为0,在满足下面两个条件的任何一个:
则对应的所述非文本连通域的候选项被认定为是非文本连通域,并从图像中将对应的所述非文本连通域的候选项剔除,一直循环迭代每个多级同构区域,直到没有满足条件的非本文连通域产生,则表明算法已经收敛,终止提取,并得到所述全文本区域图像。
进一步的,如前述的文档版面智能化分析方法,所述提取出所述第一非文本图像的轮廓并进行分类,包括:
确定所述第一非文本图像的全部轮廓,并确定每个轮廓的第一最小外接矩形;
在所有第一最小外接矩形中,将外接矩形内像素点数小于第一阈值的所述第一最小外接矩形剔除,并得到剩余的第二最小外接矩形;
确定所述第二最小外接矩形的宽高比,将宽高比小于第二阈值并判定为线的所述第二最小外接矩形剔除,并得到剩余的第三最小外接矩形。
进一步的,如前述的文档版面智能化分析方法,将所述过滤结果输入分离投影深度卷积网络进行分类,包括:
将所有所述第三最小外接矩形进行X轴和Y轴投影分别得到第一投影和第二投影;
所述第一投影和第二投影分别经过多个卷积层、非线性激活层、最大池化层后,再通过该层部分参数丢弃的层叠进行合并得到第二非文本图像;
将所述第二非文本图像送入两个级连的全连接层进行最终的二分类,分离出图像和表格。
为了实现上述目的,根据本申请的另一方面,提供了一种文档版面智能化分析装置。
根据本申请的文档版面智能化分析装置包括:
灰度化单元,用于对原文档图像进行灰度化,得到灰度图像;
矫正单元,用于对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;
粗过滤单元,用于获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;
提取单元,用于提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;
过滤单元,用于提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;
分类单元,用于将所述过滤结果输入分离投影深度卷积网络进行分类。
在本申请实施例中,采用文档版面智能化分析方法及装置的方式,通过对原文档图像进行灰度化,得到灰度图像;对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;将所述过滤结果输入分离投影深度卷积网络进行分类。达到了及时针对不规则布局的文本、图片以及横竖线,也能够提取出全部的文本信息,同时还达到了降低最终的识别准确率的问题的目的。并且具备了区分复杂布局文档中的文本与非文本区域;能够针对线的特点进行定制化的要素分析,效果好且效率非常高;高效率智能化地实现了对表格和图像的分类;适合所有文档版面进行智能化地分析等优点。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一种实施例的三级流水线的文档版面智能化分析方法的流程示意图;
图2是根据图1所示步骤S4的一种实施例的方法流程示意图;
图3是非倾斜与倾斜的纯文本向水平投影的结果示意图;其中图3a为非倾斜文本水平投影;图3b为倾斜文本水平投影;以及
图4是非曼哈顿布局的复杂版面的一种示意图;
图5是根据本申请一种实施例的竖直方向MIR提取流程图;
图6是根据本申请一种实施例的水平方向MIR提取流程图;
图7是根据本申请一种实施例的三级流水线的文档版面智能化分析装置的功能模块结构示意图;
图8是根据本申请一种实施例的表格X-Y轴投影图;
图9是根据本申请一种实施例的图像X-Y轴投影图;
图10是根据本申请一种实施例的分离投影深度卷积网络网络结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请的一个实施例,提供了一种文档版面智能化分析方法。如图1所示,该方法包括如下的步骤S1至步骤S6:
S1. 对原文档图像进行灰度化,得到灰度图像;具体的,得到的灰度图像前景像素灰度值为255,背景像素灰度值为0;
S2. 对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;
S3. 获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;
S4. 提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;
S5. 提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;
S6. 将所述过滤结果输入 DPCNN(即:分离投影深度卷积网络,Detached ProjectionConvolutional Neural Network)进行分类。
本申请实施例能达到下述有益效果:
1、提出一种三级流水线方法来构建文档版面的智能化分析;
2、在三级流水线***中,提出一种构建文档MIR(即:所述多级同构区域,MultipleIsomorphism Regions)的方法,实现了区分复杂布局文档中的文本与非文本区域;
3、在三级流水线***中,针对线的特点进行定制化的要素分析,在保证效果的基础上效率非常之高;
4、在三级流水线***中,提出一种基于表格和图像特征的深度分离投影卷积网络模型,高效率智能化地实现了对表格和图像的分类;
5、本***不对文字做限定,适合所有语言文字的文档版面进行智能化地分析。
在一些实施例中,如前述的三级流水线的文档版面智能化分析方法,所述对所述灰度图像进行文本倾斜矫正,并得到第一二值图像,包括:
获取所述灰度图像中文本倾斜角度;
在所述文本倾斜角度超过时,通过最大行间方差算法对所述灰度图片进行倾斜矫正;
通过Sauvola局部二值化算法进行二值化处理,并得到所述第一二值图像。
具体的,因为后续模块的一切计算都是建立在二值图像上的,所以必须要将图片进行二值化转成二值图像。由于在获取文本扫描图片的过程中难免会存在文本倾斜、印刷阴影等现象,而算法的一个前提条件就是输入图片必须是无倾斜文本图片,即使存在倾斜,倾斜角度也不能超过±2°,因此,为了让***能够达到更高的普适性,在进行图像二值化之前,先计算文本图像的倾斜角度,并使用最大行间方差算法对图片进行矫正。针对图像阴影现象,二值化方法采用优化过的Sauvola局部二值化算法,最大程度的降低非均匀光照对最终分析结果的影响。
在一些实施例中,如前述的文档版面智能化分析方法,在所述所有前景元素的连通域中剔除非文本的连通域,包括:
判断所述前景元素的连通域是否满足下述条件中的至少一个:
所述前景元素的连通域内像素个数小于6个;
一个所述前景元素的连通域内包含4个或者4个以上的子连通域;
所述前景元素的连通域内像素个数除以它的最小外接矩形的比率小于0.05;
所述前景元素的连通域最小外接矩形的短边与长边之比小于6%;
在一个所述前景元素的连通域满足以上4个条件中的任意一种,则判定为一个非文本连通域,将所述非文本连通域从所述第一二值图像中剔除。
具体的,本实施例中的步骤主要是基于经验的连通域粗过滤,采用自底向上的文档版面分析方法:基于双程(two-pass)方法获取目标图像中所有前景元素的连通域,先用基于经验的准则剔除掉明显是非文本的连通域
在一些实施例中,由于图像中的文本与非文本区域都是以“块”区域存在的,即一段文本或者一张完整的内嵌图片等等(文本和图片的形状不一定呈矩形形状,可以是多边形);因此如前述的三级流水线的文档版面智能化分析方法中步骤S4提取出所述第二二值图像中的全文本区域图像以及第一非文本图像,如图2所示,包括:
S41. 提取出所述第二二值图像中竖直方向的竖直MIR;
S42. 针对每一个所述竖直MIR,再依次进行水平方向的MIR提取得到水平MIR;
S43. 根据所述竖直MIR和水平MIR确定所有MIR,并在所述第二二值图像中提取出全文本区域图像;
S44. 根据所述全文本区域图像确定所述第二二值图像中的第一非文本图像。
在一些实施例中,如前述的文档版面智能化分析方法,所述步骤S41. 提取出所述第二二值图像中竖直方向的MIR,如图5所示,包括:
对所述第二二值图像做竖直投影,得到第一投影向量集;
将第一投影向量集中数值大于零的地方置为-1,等于零的地方保持为0,并得到第一赋值集;因而此时向量中只存在-1和0两种数值;
根据所述第一赋值集对所述第一投影向量集进行游程编码,确定所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽;
根据所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽,分别得到第一黑线线宽组以及第一白线线宽组;易于得知的,第一白线线宽组为全部的白线线宽,第一黑线线宽组为全部的黑线线宽;
分别计算所述第一黑线线宽组以及第一白线线宽组的第一方差;
如果所述第一方差大于2.3,则根据所述第一黑线线宽组中最宽黑线或者第一白线线宽组中最宽白线进行图像分割;其中,根据所述第一黑线线宽组中最宽黑线进行图像分割为:在所述第一黑线线宽组中最宽黑线处两侧的白线垂直分割图像;根据第一白线线宽组中最宽白线进行图像分割为:在所述第一白线线宽组中最宽白线处垂直分割图像;
将进行图像分割后新生成的分割图像存储并继续计算,按此递归执行,直到所述第一黑线线宽组以及第一白线线宽组的方差均小于等于2.3,则表明已经提取出所有的竖直方向的竖直MIR。
在一些实施例中,如前述的文档版面智能化分析方法,所述步骤S42. 针对每一个所述竖直方向的MIR,再依次进行水平方向的MIR提取,如图6所示,包括:
对所述第二二值图像做水平投影,得到第二投影向量集;
将第二投影向量集中数值大于零的地方置为-1,等于零的地方保持为0,并得到第二赋值集;
根据所述第二赋值集对所述第二投影向量集进行游程编码,确定所述第二二值图像的水平方向的所有黑线以及所有白线的线宽;
根据所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽,分别得到第二黑线线宽组以及第二白线线宽组;
分别计算所述第二黑线线宽组以及第二白线线宽组的第二方差;
如果所述第二方差大于2.3,则根据所述第二黑线线宽组中最宽黑线或者第二白线线宽组中最宽白线进行图像分割;其中,根据所述第二黑线线宽组中最宽黑线进行图像分割为:在所述第二黑线线宽组中最高黑线处两侧的白线水平分割图像;根据第二白线线宽组中最宽白线进行图像分割为:在所述第二白线线宽组中最高白线处水平分割图像;
将进行图像分割后新生成的分割图像存储并继续计算,按此递归执行,直到所述第二黑线线宽组以及第二白线线宽组的方差均小于等于2.3,则表明已经提取出所有的水平方向的水平MIR。
在一些实施例中,由于在得到全部的MIR后,下一步要做的就是要将所有MIR中的非文本区域提取出来,并复制到代表非文本的图像中;针对每一个MIR,它一定会包含一个或多个连通域,因此,本实施例中采用基于统计与空白空间分析的方法来剔除属于非文本的连通域。如前述的三级流水线的文档版面智能化分析方法,所述在所述第二二值图像中提取出全文本区域图像,包括:
确定每个MIR上所有连通域的面积的集合,高度的集合以及宽度的集合
确定L 1 L 2 L 3 的中位数与平均数之比和平均数与中位数之比的两者中的最大值,并分别记为
在一个MIR中的某个连通域满足:其面积中的最大值且大于 * 集合的中位数,或者其高中的最大值且高度大于 * 集合的中位数,或者其宽中的最大值且宽度大于 * 集合的中位数,即:对于,如果满足以下三个条件中的任何一个:
则判定所述连通域为非文本连通域的候选项;
对于一个MIR中的每一个连通域,确定该区域中各个水平相邻的连通域间的水平距离,记为集合S,确定S的最大值与中值;
确定与每个所述非文本连通域的候选项相邻的左连通域和/或右连通域,并分别确定每个所述非文本连通域的候选项相邻的左连通域水平距离和/或右连通域水平距离,在没有左连通域或右连通域的时候,记为0,满足下面两个条件的任何一个:
则对应的所述非文本连通域的候选项被认定为是非文本连通域,并从图像中将对应的所述非文本连通域的候选项剔除,一直循环迭代每个MIR,直到没有满足条件的非本文连通域产生,则表明算法已经收敛,终止提取,并得到所述全文本区域图像。
具体的,经过本实施例中的图像MIR的提取这一步骤后,产生一张可能带有部分噪点的全文本区域图像,通过基于图形形态学的图像处理算法去除噪点后,即可得到文本区域图像。而非文本图像的获取方法非常简单,只需将纯文本图像与原二值图像进行一步逻辑异或操作即可得到非文本图像,它主要包括较长的线,图像以及表格等。
在一些实施例中,如前述的文档版面智能化分析方法,所述提取出所述第一非文本图像的轮廓并进行分类,包括:
确定所述第一非文本图像的全部轮廓,并确定每个轮廓的第一最小外接矩形;
在所有第一最小外接矩形中,将外接矩形内像素点数小于第一阈值的所述第一最小外接矩形剔除,并得到剩余的第二最小外接矩形;优选的所述第一阈值为300;因而当所述外接矩形内像素点数小于300时,所述第一最小外接矩形则会被认定为噪点而剔除;
确定所述第二最小外接矩形的宽高比,将宽高比小于第二阈值并判定为线的所述第二最小外接矩形剔除,并得到剩余的第三最小外接矩形;优选的,所述第二阈值为0.1;
具体的,考虑剔除噪点后的剩余的第二最小外接矩形所包围的图像,此时,可以计算候选矩形的宽高比,如果宽高比小于0.1则判定为线条。
在一些实施例中,如前述的文档版面智能化分析方法,如图10所示,将所述过滤结果输入分离投影深度卷积网络进行分类,包括:
将所有所述第三最小外接矩形进行X轴和Y轴投影分别得到第一投影和第二投影;
具体的,如图8及图9所示,表格图像的X、Y轴投影特征极为明显,因此本实施例中通过分离投影深度卷积网络网络结构来对表格和图像进行分类,
所述第一投影和第二投影分别经过多个卷积层、非线性激活层、最大池化层后,再通过dropout(即:该层部分参数丢弃)的层叠进行合并得到第二非文本图像;
将所述第二非文本图像送入两个级连的全连接层进行最终的二分类,分离出图像和表格。
综上所述,本申请中提出的分离投影深度卷积网络网络模型,具有计算量少,识别时间短,准确率高,具有高度智能化等特点。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述文档版面智能化分析方法的文档版面智能化分析装置,如图7所示,该装置包括:
灰度化单元1,用于对原文档图像进行灰度化,得到灰度图像;
矫正单元2,用于对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;
粗过滤单元3,用于获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;
提取单元4,用于提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;
过滤单元5,用于提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;
分类单元6,用于将所述过滤结果输入分离投影深度卷积网络进行分类。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文档版面智能化分析方法,其特征在于,包括:
对原文档图像进行灰度化,得到灰度图像;
对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;
获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;
提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;
提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;
将所述过滤结果输入分离投影深度卷积网络进行分类。
2.根据权利要求1所述的文档版面智能化分析方法,其特征在于,所述对所述灰度图像进行文本倾斜矫正,并得到第一二值图像,包括:
获取所述灰度图像中文本倾斜角度;
在所述文本倾斜角度超过时,通过最大行间方差算法对所述灰度图片进行倾斜矫正;
通过Sauvola局部二值化算法进行二值化处理,并得到所述第一二值图像。
3.根据权利要求1所述的文档版面智能化分析方法,其特征在于,在所述所有前景元素的连通域中剔除非文本的连通域,包括:
判断所述前景元素的连通域是否满足下述条件中的至少一个:
所述前景元素的连通域内像素个数小于6个;
一个所述前景元素的连通域内包含4个或者4个以上的子连通域;
所述前景元素的连通域内像素个数除以它的最小外接矩形的比率小于0.05;
所述前景元素的连通域最小外接矩形的短边与长边之比小于6%;
在一个所述前景元素的连通域满足以上4个条件中的任意一种,则判定为一个非文本连通域,将所述非文本连通域从所述第一二值图像中剔除。
4.根据权利要求1所述的文档版面智能化分析方法,其特征在于,提取出所述第二二值图像中的全文本区域图像以及第一非文本图像,包括:
提取出所述第二二值图像中竖直方向的竖直多级同构区域;
针对每一个所述竖直多级同构区域,再依次进行水平方向的多级同构区域提取得到水平多级同构区域;
根据所述竖直多级同构区域和水平多级同构区域确定所有多级同构区域,并在所述第二二值图像中提取出全文本区域图像;
根据所述全文本区域图像确定所述第二二值图像中的第一非文本图像。
5.根据权利要求4所述的文档版面智能化分析方法,其特征在于,所述提取出所述第二二值图像中竖直方向的多级同构区域,包括:
对所述第二二值图像做竖直投影,得到第一投影向量集;
将第一投影向量集中数值大于零的地方置为-1,等于零的地方保持为0,并得到第一赋值集;
根据所述第一赋值集对所述第一投影向量集进行游程编码,确定所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽;
根据所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽,分别得到第一黑线线宽组以及第一白线线宽组;
分别计算所述第一黑线线宽组以及第一白线线宽组的第一方差;
如果所述第一方差大于2.3,则根据所述第一黑线线宽组中最宽黑线或者第一白线线宽组中最宽白线进行图像分割;其中,根据所述第一黑线线宽组中最宽黑线进行图像分割为:在所述第一黑线线宽组中最宽黑线处两侧的白线垂直分割图像;根据第一白线线宽组中最宽白线进行图像分割为:在所述第一白线线宽组中最宽白线处垂直分割图像;
将进行图像分割后新生成的分割图像存储并继续计算,按此递归执行,直到所述第一黑线线宽组以及第一白线线宽组的方差均小于等于2.3,则表明已经提取出所有的竖直方向的竖直多级同构区域。
6.根据权利要求4所述的文档版面智能化分析方法,其特征在于,所述针对每一个所述竖直方向的多级同构区域,再依次进行水平方向的多级同构区域提取,包括:
对所述第二二值图像做水平投影,得到第二投影向量集;
将第二投影向量集中数值大于零的地方置为-1,等于零的地方保持为0,并得到第二赋值集;
根据所述第二赋值集对所述第二投影向量集进行游程编码,确定所述第二二值图像的水平方向的所有黑线以及所有白线的线宽;
根据所述第二二值图像的竖直方向的所有黑线以及所有白线的线宽,分别得到第二黑线线宽组以及第二白线线宽组;
分别计算所述第二黑线线宽组以及第二白线线宽组的第二方差;
如果所述第二方差大于2.3,则根据所述第二黑线线宽组中最宽黑线或者第二白线线宽组中最宽白线进行图像分割;其中,根据所述第二黑线线宽组中最宽黑线进行图像分割为:在所述第二黑线线宽组中最高黑线处两侧的白线水平分割图像;根据第二白线线宽组中最宽白线进行图像分割为:在所述第二白线线宽组中最高白线处水平分割图像;
将进行图像分割后新生成的分割图像存储并继续计算,按此递归执行,直到所述第二黑线线宽组以及第二白线线宽组的方差均小于等于2.3,则表明已经提取出所有的水平方向的水平多级同构区域。
7.根据权利要求4所述的文档版面智能化分析方法,其特征在于,所述在所述第二二值图像中提取出全文本区域图像,包括:
确定每个多级同构区域上所有连通域的面积的集合,高度的集合以及宽度的集合
确定L 1 L 2 L 3 的中位数与平均数之比和平均数与中位数之比的两者中的最大值,并分别记为
在一个多级同构区域中的某个连通域满足:其面积中的最大值且大于 * 集合的中位数,或者其高中的最大值且高度大于 * 集合的中位数,或者其宽中的最大值且宽度大于 * 集合的中位数,即:对于,如果满足以下三个条件中的任何一个:
则判定所述连通域为非文本连通域的候选项;
对于一个多级同构区域中的每一个连通域,确定该区域中各个水平相邻的连通域间的水平距离,记为集合S,确定S的最大值与中值;
确定与每个所述非文本连通域的候选项相邻的左连通域和/或右连通域,并分别确定每个所述非文本连通域的候选项相邻的左连通域水平距离和/或右连通域水平距离,在没有左连通域或右连通域的时候,记为0,在满足下面两个条件的任何一个:
则对应的所述非文本连通域的候选项被认定为是非文本连通域,并从图像中将对应的所述非文本连通域的候选项剔除,一直循环迭代每个多级同构区域,直到没有满足条件的非本文连通域产生,则表明算法已经收敛,终止提取,并得到所述全文本区域图像。
8.根据权利要求1所述的文档版面智能化分析方法,其特征在于,所述提取出所述第一非文本图像的轮廓并进行分类,包括:
确定所述第一非文本图像的全部轮廓,并确定每个轮廓的第一最小外接矩形;
在所有第一最小外接矩形中,将外接矩形内像素点数小于第一阈值的所述第一最小外接矩形剔除,并得到剩余的第二最小外接矩形;
确定所述第二最小外接矩形的宽高比,将宽高比小于第二阈值并判定为线的所述第二最小外接矩形剔除,并得到剩余的第三最小外接矩形。
9.根据权利要求8所述的文档版面智能化分析方法,其特征在于,将所述过滤结果输入分离投影深度卷积网络进行分类,包括:
将所有所述第三最小外接矩形进行X轴和Y轴投影分别得到第一投影和第二投影;
所述第一投影和第二投影分别经过多个卷积层、非线性激活层、最大池化层后,再通过该层部分参数丢弃的层叠进行合并得到第二非文本图像;
将所述第二非文本图像送入两个级连的全连接层进行最终的二分类,分离出图像和表格。
10.一种文档版面智能化分析装置,其特征在于,包括:
灰度化单元,用于对原文档图像进行灰度化,得到灰度图像;
矫正单元,用于对所述灰度图像进行文本倾斜矫正,并得到第一二值图像;
粗过滤单元,用于获取所述二值图像中所有前景元素的连通域,并在所述所有前景元素的连通域中剔除非文本的连通域,得到第二二值图像;
提取单元,用于提取出所述第二二值图像中的全文本区域图像以及第一非文本图像;
过滤单元,用于提取出所述第一非文本图像的轮廓并进行过滤,得到过滤结果;
分类单元,用于将所述过滤结果输入分离投影深度卷积网络进行分类。
CN201910402163.5A 2019-05-15 2019-05-15 文档版面智能化分析方法及装置 Active CN109948598B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910402163.5A CN109948598B (zh) 2019-05-15 2019-05-15 文档版面智能化分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910402163.5A CN109948598B (zh) 2019-05-15 2019-05-15 文档版面智能化分析方法及装置

Publications (2)

Publication Number Publication Date
CN109948598A true CN109948598A (zh) 2019-06-28
CN109948598B CN109948598B (zh) 2019-09-06

Family

ID=67017257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910402163.5A Active CN109948598B (zh) 2019-05-15 2019-05-15 文档版面智能化分析方法及装置

Country Status (1)

Country Link
CN (1) CN109948598B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528776A (zh) * 2020-11-27 2021-03-19 京东数字科技控股股份有限公司 文本行校正方法和装置
CN112699712A (zh) * 2019-10-22 2021-04-23 杭州海康威视数字技术股份有限公司 文档图像的区域分离方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118818A (ja) * 2009-12-07 2011-06-16 Sharp Corp 画像処理装置
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法
CN108133169A (zh) * 2016-12-01 2018-06-08 北京新唐思创教育科技有限公司 一种针对文本图像的成行处理方法及其装置
CN108804978A (zh) * 2017-04-28 2018-11-13 腾讯科技(深圳)有限公司 一种版面分析方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118818A (ja) * 2009-12-07 2011-06-16 Sharp Corp 画像処理装置
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN108133169A (zh) * 2016-12-01 2018-06-08 北京新唐思创教育科技有限公司 一种针对文本图像的成行处理方法及其装置
CN108804978A (zh) * 2017-04-28 2018-11-13 腾讯科技(深圳)有限公司 一种版面分析方法及装置
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699712A (zh) * 2019-10-22 2021-04-23 杭州海康威视数字技术股份有限公司 文档图像的区域分离方法、装置及存储介质
CN112528776A (zh) * 2020-11-27 2021-03-19 京东数字科技控股股份有限公司 文本行校正方法和装置
CN112528776B (zh) * 2020-11-27 2024-04-09 京东科技控股股份有限公司 文本行校正方法和装置

Also Published As

Publication number Publication date
CN109948598B (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN107093172B (zh) 文字检测方法及***
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
EP1052593B1 (en) Form search apparatus and method
US5633954A (en) System and method for character recognition with normalization
CN103034848B (zh) 一种表单类型的识别方法
Vo et al. Dense prediction for text line segmentation in handwritten document images
CN106875546A (zh) 一种增值税***的识别方法
CN105654072A (zh) 一种低分辨率医疗票据图像的文字自动提取和识别***与方法
CN105283884A (zh) 对移动设备捕获的数字图像中的对象进行分类
Ma et al. Segmentation and recognition for historical Tibetan document images
CN104809481A (zh) 一种基于自适应色彩聚类的自然场景文本检测的方法
CN109726717A (zh) 一种车辆综合信息检测***
CN110180186A (zh) 一种地形图转换方法及***
US20010033694A1 (en) Handwriting recognition by word separation into sillouette bar codes and other feature extraction
CN109948598B (zh) 文档版面智能化分析方法及装置
JP3411472B2 (ja) パターン抽出装置
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
Srihari et al. A system to locate and recognize ZIP codes in handwritten addresses
Valy et al. Line segmentation for grayscale text images of khmer palm leaf manuscripts
CN110210467A (zh) 一种文本图像的公式定位方法、图像处理装置、存储介质
Lue et al. A novel character segmentation method for text images captured by cameras
Sadri et al. Automatic segmentation of unconstrained handwritten numeral strings
US9811726B2 (en) Chinese, Japanese, or Korean language detection
CN107066997A (zh) 一种基于图像识别的电气元件报价方法
Nguyen et al. Enhanced character segmentation for format-free Japanese text recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012

Patentee after: Daguan Data Co.,Ltd.

Address before: Room 310, Building Y1, No. 112, Liangxiu Road, Pudong New Area, Shanghai, March 2012

Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd.