CN100433045C - 表格提取方法和设备 - Google Patents

表格提取方法和设备 Download PDF

Info

Publication number
CN100433045C
CN100433045C CNB2005101133849A CN200510113384A CN100433045C CN 100433045 C CN100433045 C CN 100433045C CN B2005101133849 A CNB2005101133849 A CN B2005101133849A CN 200510113384 A CN200510113384 A CN 200510113384A CN 100433045 C CN100433045 C CN 100433045C
Authority
CN
China
Prior art keywords
table area
alternative
area
setting
alternative table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005101133849A
Other languages
English (en)
Other versions
CN1949249A (zh
Inventor
欧文武
郝瑛
王刚
王迟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CNB2005101133849A priority Critical patent/CN100433045C/zh
Publication of CN1949249A publication Critical patent/CN1949249A/zh
Application granted granted Critical
Publication of CN100433045C publication Critical patent/CN100433045C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

提供了一种从电子文档图像中提取表格区域的表格提取方法。该方法包括以下步骤:(a)输入文档图像;(b)检测输入文档图像的背景差异,提取出带彩色或纹理背景的区域,作为备选表格区域;以及(c)考虑到通常表格中文字的分布情况,通过投影曲线分析方法鉴定备选表格区域,以确定表格区域。从而,可以提取出电子文档图像中不含直线而具有彩色或纹理背景的表格区域。

Description

表格提取方法和设备
技术领域
本发明涉及文档图像处理方法和设备,特别涉及从文档图像中分割出表格区域的表格提取方法和设备。
背景技术
与纸张文档相比,电子文档在存储、检索和修改等方面有诸多优势,因此一个将纸张文档自动转换为电子文档的***显得很有必要。而在处理电子文档时,将文档图像分割为图形、表格、文字块等不同区域将有利于进一步的处理。但是,对于表格区域的提取和处理目前仍旧是一个比较困难的问题。
通常,文档中的表格有两种:第一种表格是包含有直线的表格区域;第二种表格是有彩色或纹理背景而不包含直线的表格。
目前,对于第一种表格区域的提取和处理已提出一些解决办法。发明人为Shin-ywan,Wang、题为“Block Selection of Table Features(表格特征的区域选择)”的美国专利公开US 2002/0106124A1中介绍了一种检测文档中图像由水平和垂直直线构成的格子和零碎直线的方法,其最终根据图像上的格子来决定表格区域。显然,这篇专利公开中介绍的方法只能适用于提取由规则直线的构成的表格区域,而不能检测到不包含直线的表格区域。
文章“Document Representation and Its Application to Page Decomposition(文档的表示及其在版面分割的应用)”,Anil K.Jain,and Bin Yu,PAMI VOL.20,NO.3,MARCH 1998,也提到一种表格提取的方法:通过对二值文档图像的连通域分析检测表格区域,然后通过区域内直线数量来分离表格区域。显然,这种方法也只能提取包含直线的表格区域。
因此,需要一种能够提取上述第二种表格区域的方法和设备。
发明内容
本发明的目的在于提供一种能够提取不含有直线的上述第二种表格区域的方法和设备。
本专利提供了一种自动从文档图像中提取表格区域的方法。本方法钟对不同类型表格区域的特点分别采用与之相应的处理方法。第一种表格是包含有直线的表格区域,我们采用直线的分布特征来提取这种表格区域;第二种表格是有彩色或纹理背景而不包含直线的表格,我们通过在低分辨率图像上检测这些纹理或彩色区域,然后通过对表格区域内文字的分布分离出第二种表格区域。
根据本发明的一个方面,提供了一种从电子文档图像中提取表格区域的表格提取方法。该方法包括以下步骤:(a)输入文档图像;(b)检测输入文档图像的背景差异,提取出带彩色或纹理背景的区域,作为备选表格区域;以及(c)考虑到通常表格中文字的分布情况,通过投影曲线分析方法鉴定备选表格区域,以确定表格区域。
根据本发明的另一个方面,提供了一种用于从电子文档图像中提取表格区域的表格提取设备。该设备包括:输入装置,用于输入文档图像;第一检测装置,用于检测输入文档图像的背景差异,提取出带彩色或纹理背景的区域,作为备选表格区域;以及鉴定装置,用于考虑到通常表格中文字的分布情况,通过投影曲线分析方法鉴定备选表格区域,以确定表格区域。
通过根据本发明的表格提取方法和设备,可以提取出电子文档图像中不含直线而具有彩色或纹理背景的表格区域。
附图说明
图1是示出了根据本发明的从电子文档图像中提取表格区域的表格提取方法的流程图;
图2给出了根据本发明从文档图像上提取表格区域的示例表格提取过程的示意图;
图3给出了在原始文档图像上提取含有直线的表格的过程的示意图;
图4给出了在原始图像上鉴定表格区域的示意图;
图5给出了根据本发明从原始文档图像上提取含有直线的第一种表格区域的详细流程图;
图6给出了根据本发明在低分辨率图像上第二种表格区域检测的流程图;
图7给出了根据本发明的表格区域鉴定过程的详细流程图;
图8给出了一种具有可控制系数的表格提取方法;
图9给出了一种可以自动调节系数的表格提取方法;
图10给出了一个带有编辑功能的示意性表格提取***;
图11示意性地示出了根据本发明的表格提取设备的方框图;
图12示出了图11中用于检测不含有直线的第二种表格区域的第一检测装置4的示意方框图;
图13示出了图12中的第一二值化装置41的示意方框图。这里采用一种特殊的第一二值化装置;
图14示出了图12中的第一投影曲线分析装置44的示意方框图;
图15示出了图11中用于提取含有直线的第一种表格区域的第二检测装置2的示意方框图;
图16示出了图15中的第二投影曲线分析装置24的示意方框图;
图17示出了图15中的直线分析装置25的示意方框图;
图18示出了图11中的鉴定装置6的示意方框图;
图19示出了图18中的水平投影鉴定装置62的示意方框图;
图20示出了图18中的垂直投影鉴定装置63的示意方框图;
图21示出了本发明可以采用的用于选择设置上述第一至第十二设定阈值的部分;以及
图22示出了本发明可以采用的用于选择设置上述第一至第十二设定阈值的另一种部分设置。
具体实施方式
下面参考附图来详细描述本发明的表格提取方法和表格提取设备。在下面的说明中,对二值化图像的象素值做了如下定义:
白点:代表无效象素,即背景象素;
黑点:代表有效象素,即前景象素,比如构成表格区域内直线的象素等。
图1示出了根据本发明的从电子文档图像中提取表格区域的表格提取方法的流程图。如上所述,在文档图像上有两种表格:第一种是有直线的表格,另一种是没有直线但是有彩色或纹理背景的表格。根据本发明的表格提取方法,第一种表格是在原始图像上通过直线的分布提取出来的;而对于第二种表格,是在低分辨率图像上通过检测彩色或纹理背景区域得到的,然后在原始图像上鉴定。
表格区域提取是从输入文档图像(S101)开始的,首先创建两幅文档图像:一副是原始图像的一个备份,另一副是从原始图像分解出来的较低分辨率的图像(S103)。第一种表格是在原始图像上提取出来的(S102),而第二种表格是在低分辨率图像上检测出来的(S104),而在原始图像上鉴定(S105)和优化的。
其中在步骤S102,在原始输入文档图像上,根据输入文档图像中的直线来提取含有直线的第一种表格区域。而在步骤S104中,在低分辨率图像上检测输入文档图像的背景差异,提取出带彩色或纹理背景的区域,作为备选表格区域。
在步骤S105,考虑到通常表格中文字的分布情况,通过投影曲线分析方法来鉴定备选表格区域,以确定表格区域。
事实上,本发明完全可以不包括或改变步骤S102,即本发明完全可以在不提取第一类表格的情况下,只提取不合有直线的第二种表格区域,而不考虑含有直线的第一种表格区域。
另一方面,在步骤S103从原始输入文档图像分解出低分辨率的文档图像,并在步骤S104中在低分辨率图像上进行检测,是为了减少运算量,进而减少运算时间。实际上,步骤S103是可以去除的。这意味着可以在原始分辨率图像上执行步骤S104,检测第二种表格区域(彩色或纹理区域),以提取不含有直线的第二种表格区域,并且在原分辨率图像上验证这些表格区域。
另外,在既执行对第一种表格区域的提取(S102),又执行对第二种表格区域的检测(S104)的情况下,这两个步骤可以并行执行,也可以以任何次序串行执行。
图2给出了根据本发明的表格提取过程的示意图。表格提取的过程是把文档图像分为背景区域和表格区域的过程,两种背景区域和两种表格区域被从文档图像101上分离开来。第一种表格是在原始分辨率图像201上被提取出来的,而第二种表格是在低分辨率图像202上被检测出来的,而在原始分辨率图像上鉴定的。与表格区域对应的背景区域也包括从原始图像和低分辨率图像上上分离的背景区域。
首先,原始图像的备份201和低分辨率图像202被创建;然后,原始图像被分割为背景区域211和备选表格区域212,然后备选表格区域212被更进一步被分为背景区域211和表格区域213(第一种表格区域)。然后,与之对应的低分辨率图像202被分为背景区域221和备选表格区域222(第二种表格区域:彩色背景或纹理)。最后,第二种备选表格区域在原始图像上鉴定和优化,进一步剔除背景区域221,确定表格区域223。
图3给出了在原始文档图像上提取含有直线的表格的过程的示意图。从输入的文档图像开始,在步骤S301,通过连通域分析来执行表格区域分类(1),将文档图像分为背景区域211和备选表格区域212(第一种);然后,在步骤S302,通过对备选表格区域212执行投影分析来执行表格分类(2),将备选表格区域212分为表格区域211和背景区域;最后在步骤S303优化表格区域(1),得到表格区域213。通过这个处理过程,原始分辨率的图像被分割为背景区域211和表格区域213(第一种)。
图4给出了在原始图像上鉴定表格区域的示意图。流程图的最开始是在低分辨率图像上检测到的第二种备选表格区域和从原始分辨率图像上提取的第一种表格区域。图中所示表格区域分类(3)的方法是:将第二种备选表格区域与第一种表格区域进行比对,如果第二种备选表格区域和第一种表格区域重叠,则将该第二种备选表格区域丢弃(或作为背景区域)。然后,在原始文档图像上对剩下的第二种备选表格区域进行鉴定(表格区域分类(4)),被分为表格区域或背景区域。
图5-7给出了根据本发明的文档图像上的表格提取方法的详细流程图。
整个流程图的输入为文档图像,输出为提取出的表格区域。
图5给出了根据本发明从原始文档图像上提取含有直线的第一种表格区域的详细流程图。
首先,在步骤S501,通过对原始分辨率图像进行二值化处理,将输入文档图像转变为二值图像。
然后,在步骤S502,计算二值图像的连通域,并在步骤S503,通过对二值图像的连通域分析分离出背景区域。具体说来,根据连通域的大小分离出背景区域和备选表格区域。这里,将具有大于设定阈值(第八设定阈值)的连通域视为备选表格区域,而将其它连通域作为背景区域而剔除。更具体地说,当连通域的宽度和高度满足设定的阈值时,该连通域被当作备选表格区域,否则被当作背景区域。
然后,在步骤S504,通过对备选表格区域执行投影曲线分析,进一步分离出表格区域和背景区域。在这里,投影曲线分析的目的是为了检测备选表格区域内面积比较大的黑块,因为在表格区域一般由文字和直线构成,在二值化的表格区域内不应该存在大的黑块区域,所以通过对备选表格区域黑块的检测分离出部分背景区域:如果备选表格区域存在面积较大的黑块,则该区域被分为背景。具体说来,在二值图像上计算备选表格区域的水平和垂直投影。如果在垂直方向上的投影曲线存在宽度大于设定阈值(第九设定阈值)的波峰,或者在水平方向上的投影曲线存在宽度大于设定阈值(第十设定阈值)的波峰,则将该备选表格区域作为背景区域而剔除。从而剔除了具有较大黑块的备选表格区域,留下了不具有大面积黑块的备选表格区域。
然后,提取步骤S504中分离出的备选表格区域中的直线,通过分析直线的分布来分离出表格区域和背景区域。具体说来,在步骤S505,将所有背景区域内的黑点像素变为白点像素,即去除包含在背景区域内的黑点像素。在步骤S506,通过对备选表格区域执行Hough变换,检测(提取)其所包含的直线。然后,在步骤S507,根据分析备选表格区域的直线分布,将备选表格区域分为表格和背景区域,其判断标准如下:
1.表格区域内,Hough变换检测到的水平直线的倾斜角度的方差必须小于某一设定的阈值(第十一设定阈值);
2.表格区域内,Hough变换检测到的垂直直线的倾斜角度的方差必须小于某一设定的阈值(第十二设定阈值);
3.表格区域内,应该至少包含两条水平的或垂直的边缘直线(与表格边缘位置相邻,即表格区域的边缘位置上应至少存在两条水平或垂直直线);
4.表格区域内部,应该至少包含一条水平或垂直的非边缘直线。
对于一个表格区域,水平或垂直直线的倾斜角度应该是一致的,所以表格区域内由Hough变换检测到的水平或垂直直线的倾斜角度的方差应该非常小(由设定的阈值决定);如果一个备选表格区域不满足这个条件,则该区域被分为背景区域而被剔除。
同时,在步骤S508,还用这些由Hough变换检测到的直线来优化表格区域的位置。比如,如果表格区域的顶部不存在顶部水平边缘直线,但是有一条内部水平直线和表格顶部区域的位置接近,通常我们把这条内部水平直线作为表格区域的顶部。
通过图5所示的流程,已经在原始分辨率图像上将所有包含直线的第一种表格区域提取出来。接下来参考图6来详细描述在低分辨率的图像上检测第二种表格区域的过程。
图6给出了根据本发明在低分辨率图像上第二种表格区域检测的流程图。如前所述,第二种表格的备选表格区域是通过检测文档图像的背景差异,提取出带彩色或纹理背景的区域而获得的。下面具体说明一种检测方式,本领域技术人员应该明白,完全可以通过其它方式来检测背景差异,提取这样的区域。
首先,在步骤S601,通过对原始文档图像的分解,创建一副低分辨率的图像。如前所述,步骤S601中降低分辨率的处理只是为了减少运算量,进而减少运算时间,完全可以不降低分辨率,而直接在原始文档图像上执行下面的操作来检测第二种表格区域。
然后,在步骤S602,通过二值化,将低分辨率图像转换为低分辨率二值图像。由于低分辨率二值图像是用来检测图像上的彩色或纹理区域(第二种备选表格区域),因此采用了一种特殊的二值化方法:首先,如果输入文档图像(这里已经转化为低分辨率图像)不是灰度图像,则将其转变为灰度图像;计算低分辨率图像的灰度直方图,并且从灰度直方图上找出从255到0的方向遇到的第一个局部最大值,标记为阈值1;然后通过Niblack二值化方法得到整幅图像的另一个阈值,记为阈值2,通常阈值1大于阈值2,从而在灰度图像上计算出一个高阈值(阈值1)和一个低阈值(阈值2);最后通过Otsu二值化方法在灰度值为[阈值1,阈值2]的像素中找出最终的二值化阈值3,作为整幅图像的二值化阈值,并且用阈值3执行二值化,将低分辨率图像转换为二值图像。
然后,在步骤S603,计算二值图像的连通域,并在步骤S604,通过对二值图像的连通域分析分离出背景区域。具体说来,根据连通域的大小分离出背景区域和备选表格区域。这里,将具有大于设定阈值(第一设定阈值)的连通域视为备选表格区域,而将其它连通域作为背景区域而剔除。更具体地说,只有宽度和高度大于设定阈值的连通域被作为备选表格区域,而其他连通域被当作背景区域。
然后,在步骤S605,对备选表格区域进行投影分析,进一步检测备选表格区域内面积较大的黑块。与上文中对步骤S504中的投影分析不同,在这里,如果备选表格区域内存在较大的黑块,则把该区域当作备选表格区域,否则当作背景区域而剔除。因为,备选表格区域(彩色或纹理背景)内的像素有相近的灰度值,在二值图像上对应面积较大的黑块区域,所以只有当某一区域内存在较大黑块是才认为是备选表格区域。具体说来,在二值图像上计算每一个备选表格区域的水平和垂直投影。如果在水平方向上的投影曲线不存在宽度大于设定阈值(第二设定阈值)的波峰,或者在垂直方向上的投影曲线不存在宽度大于设定阈值(第三设定阈值)的波峰,则将该备选表格区域作为背景区域而剔除。从而剔除了不具有大黑块的区域,而保留了具有可能对应于彩色或纹理背景的大黑块的区域。
然后,在步骤S606,合并步骤S605中获得的备选表格区域中重叠或相邻的备选表格区域。因为某些表格区域在二值化时可能会***成许多小的区域,所以执行相邻区域的合并是很有利的。
到此为止,低分辨率的图像被分为备选表格区域和背景区域,接下来详细描述如何在原始文档图像上鉴定这些备选表格区域。
图7给出了根据本发明的表格鉴定过程的详细流程图。图7示出的表格鉴定过程中使用了原始图像、从原始图像上提取出来的第一种表格区域和在低分辨率图像上检测到的第二种备选表格区域。
首先,在步骤S701,用原始图像上提取出来的第一种表格来鉴定第二种备选表格区域:如果第二种备选表格区域和第一种表格区域重叠,则将该备选表格区域当作背景处理。因为从原始图像上提取出来的第一种表格区域比在低分辨率图像上检测出来的第二种备选表格区域更可靠,所以,低分辨率图像上检测到的第二种备选表格区域如果和第一种表格区域重叠,则该备选表格区域可能是某一表格区域的一部分或只是彩色或纹理背景而不是表格区域。通过这种方式可以剔除部分备选表格区域,提高***的性能。但是这一步骤不是实现本发明的技术方案所必需的。
然后,在步骤S702,将原始图像上与在低分辨率图像上找到的第二种备选表格区域相对应的区域二值化。为了避免彩色背景或纹理对二值化结果的影响,步骤S702的二值化操作的阈值(第四设定阈值)应该比通常二值化方法的阈值低,以便将背景或纹理转变为白点,而仅将文字转变为黑点。
然后,通过水平和/或垂直投影对二值化的备选表格区域进行鉴定,在鉴定过程中,考虑了通常表格中文字的分布情况。在下面的描述中,既进行水平投影分析,也进行垂直投影分析。实际上,完全可以只进行水平或垂直投影分析。水平和垂直投影分析的次序也是可颠倒的。
具体说来,在步骤S703,计算备选表格区域的水平投影,并且采用设定阈值(第五设定阈值)找出投影曲线的波峰,确定其位置。通常投影曲线的每一个波峰正好对应备选表格区域的一行文字。在步骤S704,计算水平投影曲线波峰宽度的方差,如果波峰宽度的方差大于某一阈值(第六设定阈值),则将该备选表格区域当作背景区域而丢弃。这是因为在同一表格区域内文字的高度是基本一致的,所有对应波峰宽度的方差应该非常小。
然后,在步骤S705计算备选表格区域的垂直投影,通过设定的阈值(第七设定阈值)检测垂直投影曲线的波谷,确定其位置。在步骤S706,根据垂直投影曲线的波谷数量和位置,分离出背景区域。具体说来,如果投影曲线不存在明显的波谷,则将该备选表格区域当作背景区域而丢弃。这是因为在表格中,通常文字排为若干列,在不同列之间一般具有空隙,因此表格区域的垂直投影曲线中应该存在对应于这些空隙的波谷。
最后,在步骤S707通过区域增长的方法优化检测到的表格区域。因为经常在低分辨率图像上检测到的表格区域不完整或不精确,所以通过区域增长的方法优化表格区域的位置将是有利的。具体方法是:从上,下,左,右四个方向分别反复地扩大或缩小表格区域的位置,扩大或缩小的标准是根据表格区域内的平均灰度值和要扩大或缩小区域的平均灰度值的差异决定的。
上面参考图5-7的描述中提到的各个阈值是可以改变的。这些阈值可以由用户设定或根据输入图像自动调节。
图8给出了一种具有可控制系数的表格提取方法。在该方法中,所有与表格提取相关的系数或阈值可以根据用户的需求进行调节,通过这种方式用户只需要设定可信度就可以控制表格提取过程。具体说来,首先设定表格提取的置信度等级,根据置信度等级还选择表格提取过程中所用到的各个系数或阈值,然后采用这些系数或阈值来执行表格提取过程。这一根据所设定的置信度等级选择系数或阈值的过程可以适用于上文中描述的根据本发明的表格提取方法,其中,根据设定的置信度等级来选择第一至第十二设定阈值以及其它必要参数。本领域技术人员应该明白如何根据相应的置信度等级设定相应的阈值。
图9给出了一种可以自动调节系数的表格提取方法。表格提取的系数可以通过输入图像的特征进行自动调节,以达到最优的表格提取结果。首先,根据输入图像的特征,将输入的不同类型图像分成若干类,每一类图像对应一组预先设定好的系数,这样表格提取过程可以根据图像的特征自动选择相应的系数或阈值,以达到最优的表格提取结果。这一根据图像特征分类来选择系数或阈值的过程也可以适用于上文中描述的根据本发明的表格提取方法,其中,根据设定的置信度等级来选择第一至第十二设定阈值以及其它必要参数。本领域技术人员应该明白如何根据图像特征分类来设定相应的阈值。
图8提供的选择系数的过程和图9提供的选择系数的过程的区别是:在图8中,系数或阈值是由用户根据本身的要求控制的;而在图9中,系数或阈值是***根据输入图像的特征自动调节的。
图10给出了一个带有编辑功能的示意性表格提取***。如图所示,该***包括:表格提取模块100,用于对文档图像执行表格区域提取操作,以得到表格区域;编辑模块801;处理器,用来计算和编辑表格区域;以及内存,用来存储图像数据和处理数据。内存中存放所有数据,比如,***系数,表格位置等,可以通过编辑模块801进行编辑。
下面参考附图描述根据本发明的一种从电子文档图像中提取表格区域的表格提取设备。
图11示意性地示出了根据本发明的表格提取设备的方框图。如图11所示,根据本发明的表格提取设备可以包括:输入装置1,用于输入文档图像;第二检测装置2,用于在原始输入文档图像上,根据输入文档图像中的直线来提取含有直线的第一种表格区域;分辨率分解装置3,用于分解输入文档图像以得到低分辨率的图像;第一检测装置4,用于检测输入文档图像的背景差异,提取出带彩色或纹理背景的区域,作为备选表格区域,以检测不含有直线的第二种表格区域;比对装置5,将第一检测装置检测出的备选表格区域中与第二检测装置提取出的表格区域重叠的备选表格区域作为背景区域而剔除;鉴定装置6,用于考虑到通常表格中文字的分布情况,通过投影曲线分析方法鉴定备选表格区域,以确定表格区域;以及区域优化装置7,通过区域增长的方法优化表格区域的位置。其中第一检测装置在低分辨率的图像上执行检测,而鉴定装置在原始输入文档图像上执行鉴定。
如上所述,因为本发明完全可以只对第二种表格区域进行提取,因此可以去除第二检测装置2。即使在采用第二检测装置2对第一种表格区域进行检测的情况下,比对装置5在鉴定装置执行鉴定之前进行比对以剔除部分备选表格区域的操作也不是必须的,因此可以去除比对装置5。另外图11中示出比对装置5与鉴定装置6分离,实际上,比对装置5也可以与鉴定装置6集成在一起,作为鉴定装置6的一部分。区域优化装置7的操作是在已提取出表格区域的情况下,使优化所提取出的表格,即不采用区域优化装置7也可以实现对表格区域的提取。
图12示出了图11中用于检测不含有直线的第二种表格区域的第一检测装置4的示意方框图。如图12所示,第一检测装置4可以包括:第一二值化装置41,用于将输入文档图像转变为二值图像;第一连通域计算装置42,用于计算二值图像的连通域;第一连通域分析装置43,用于根据连通域的大小分离出背景区域和具有大于第一设定阈值的连通域的备选表格区域;第一投影曲线分析装置44,用于通过对连通域分析装置分离出的备选表格区域执行投影曲线分析,分离出背景区域和具有大面积黑块的备选表格区域;以及合并装置,用于合并第一投影曲线分析装置分离出的备选表格区域中相邻或重叠的备选表格区域。
图13示出了图12中的第一二值化装置41的示意方框图。这里采用一种特殊的第一二值化装置。第一二值化装置41包括:灰度转换装置411,用于将不是灰度图像的输入文档图像转变为灰度图像;高低阈值计算装置412,用于在灰度图像上计算一个高阈值和一个低阈值,高阈值为灰度图像灰度直方图上从255到0的方向上的第一个局部最大值,低阈值是通过Niblack方法计算得到的;阈值获得装置413,用于通过Otsu二值化方法得到灰度值在低阈值和高阈值之间的像素的阈值作为整幅图像的二值化阈值;二值转换装置414,用于用整幅图像的二值化阈值二值化灰度图像。
图14示出了图12中的第一投影曲线分析装置44的示意方框图。第一投影曲线分析装置44包括:第一投影计算装置441,用于在二值图像上计算每一个备选表格区域的水平和垂直投影;第一水平投影判断装置442,如果在水平方向上的投影曲线不存在宽度大于第二设定阈值的波峰,则该第一水平投影判断装置将该备选表格区域作为背景区域而剔除;以及第一垂直投影判断装置443,如果在垂直方向上的投影曲线不存在宽度大于第三设定阈值的波峰,则该第一垂直投影判断装置将该备选表格区域作为背景区域而剔除。第一水平投影判断装置442和第一垂直投影判断装置443的次序完全可以颠倒。
图15示出了图11中用于提取含有直线的第一种表格区域的第二检测装置2的示意方框图。第二检测装置2可以包括:第三二值化装置21,用于将输入文档图像转变为二值图像;第二连通域计算装置22,用于计算二值图像的连通域;第二连通域分析装置23,用于根据连通域的大小分离出背景区域和具有大于第八设定阈值的连通域的备选表格区域;第二投影曲线分析装置24,用于通过对第二连通域分析装置分离出的备选表格区域执行投影曲线分析,分离出背景区域和不具有大面积黑块的备选表格区域;直线分析装置25,用于提取备选表格区域中的直线,通过分析直线的分布分离出表格区域和背景区域;表格优化装置26,用于通过表格区域内包含的直线优化表格区域的位置。
图16示出了图15中的第二投影曲线分析装置24的示意方框图。第二投影曲线分析装置24可以包括:第二投影计算装置241,用于在二值图像上计算备选表格区域的水平和垂直投影;第二水平投影判断装置242,如果在垂直方向上的投影曲线存在宽度大于第九设定阈值的波峰,则该第二水平投影判断装置将该备选表格区域作为背景区域而剔除;第二垂直投影判断装置243,如果在水平方向上的投影曲线存在宽度大于第十设定阈值的波峰,则该第二垂直投影判断装置将该备选表格区域作为背景区域而剔除。第二水平投影判断装置442和第二垂直投影判断装置443的次序也完全可以颠倒。
图17示出了图15中的直线分析装置25的示意方框图。直线分析装置25可以包括:像素转变装置251,用于将包含在背景区域内的黑点像素转变为白点像素;Hough变换装置252,用于通过Hough变换提取备选表格区域的直线;背景剔除装置253,用于将不满足以下条件的备选表格区域作为背景区域而剔除:
表格区域内水平直线的倾斜角度的方差小于第十一设定阈值;
表格区域内垂直直线的倾斜角度的方差小于第十二设定阈值;
在表格区域的边缘位置至少存在两条水平或垂直直线;
在表格区域内部至少存在一条直线。
图18示出了图11中的鉴定装置6的示意方框图。鉴定装置6可以包括:第二二值化装置61,用于将备选表格区域二值化;水平投影鉴定装置62,用于通过水平投影对二值化的备选表格区域进行鉴定;以及垂直投影鉴定装置63,用于通过垂直投影对二值化的备选表格区域进行鉴定。水平投影鉴定装置62和垂直投影鉴定装置63的次序完全可以颠倒。其中第二二值化装置采用比通常二值化方法中使用的阈值低的第四设定阈值来执行二值化,以避免彩色背景和纹理对二值化结果的影响。
图19示出了图18中的水平投影鉴定装置62的示意方框图。水平投影鉴定装置62可以包括:水平投影计算装置621,用于计算备选表格区域的水平投影曲线;波峰确定装置622,用于采用第五设定阈值找出投影曲线的波峰位置;方差计算装置623,用于计算投影曲线波峰宽度的方差;第一剔除装置624,如果投影曲线的波峰宽度方差大于第六设定阈值,则该剔除装置将该备选表格区域作为背景区域而剔除。
图20示出了图18中的垂直投影鉴定装置63的示意方框图。水平投影鉴定装置63可以包括:垂直投影计算装置631,用于计算备选表格区域的垂直投影曲线;波谷确定装置632,用于采用第七设定阈值找出垂直投影曲线的波谷位置;第二剔除装置633,如果在垂直投影曲线上不存在明显的波谷,则该剔除装置将该备选表格区域作为背景区域而剔除。
图21示出了本发明可以采用的用于选择设置上述第一至第十二设定阈值的部分。其中,等级设置装置设定表格提取的置信度等级,然后由阈值选择装置根据置信度等级来选择各设定阈值,以提供给相应地各装置。从而,由用户根据本身的要求控制各个设定阈值。
图22示出了本发明可以采用的用于选择设置上述第一至第十二设定阈值的另一种部分设置。其中,分类装置根据输入图像的特征自动将输入图像分为若干类,每一类对应一组预先设定好的用于表格提取的设定阈值。然后阈值选择装置根据图像的种类自动选取一组设定阈值,以达到最好的表格提取结果。从而根据输入图像的特征自动调节各个设定阈值。
至此,已具体描述了根据本发明的表格提取方法和表格提取设备。
本发明可用于诸如复印机、传真机、图像压缩***以及OCR等的图像处理***,其中文档图像被分割为图形、表格、文字块等不同区域。
尽管参考本发明的优选实施例具体展示和描述了本发明,但是本领域一般技术人员应该明白,在不脱离所附权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种修改。

Claims (36)

1.一种从电子文档图像中提取表格区域的表格提取方法,包括以下步骤:
(a)输入文档图像;
(b)检测输入文档图像的背景差异,提取出带彩色或纹理背景的区域,作为备选表格区域;以及
(c)考虑到通常表格中文字的分布情况,通过投影曲线分析方法鉴定备选表格区域,以确定表格区域。
2.如权利要求1所述的表格提取方法,其中步骤b包括以下步骤:
(b1)将输入文档图像转变为二值图像;
(b2)计算二值图像的连通域;
(b3)根据连通域的大小分离出背景区域和具有大于第一设定阈值的连通域的备选表格区域;以及
(b4)通过对步骤b3中分离出的备选表格区域执行投影曲线分析,分离出背景区域和具有大面积黑块的备选表格区域。
3.如权利要求2所述的表格提取方法,其中步骤b还包括以下步骤:
(b5)合并步骤b4中分离出的备选表格区域中相邻或重叠的备选表格区域。
4.如权利要求2所述的表格提取方法,其中步骤b1包括以下步骤:
(b1-1)如果输入文档图像不是灰度图像,则将其转变为灰度图像;
(b1-2)在灰度图像上计算一个高阈值和一个低阈值,高阈值为灰度图像灰度直方图上从255到0的方向上的第一个局部最大值,低阈值是通过Niblack方法计算得到的;
(b1-3)用Otsu二值化方法得到灰度值在低阈值和高阈值之间的像素的阈值作为整幅图像的二值化阈值;以及
(b1-4)用整幅图像的二值化阈值二值化灰度图像。
5.如权利要求2所述的表格提取方法,其中步骤b4包括以下步骤:
(b4-1)在二值图像上计算每一个备选表格区域的水平和垂直投影;
(b4-2)如果在水平方向上的投影曲线不存在宽度大于第二设定阈值的波峰,则将该备选表格区域作为背景区域而剔除;以及
(b4-3)如果在垂直方向上的投影曲线不存在宽度大于第三设定阈值的波峰,则将该备选表格区域作为背景区域而剔除。
6.如权利要求1所述的表格提取方法,其中步骤c包括以下步骤:
(c1)将备选表格区域二值化;以及
(c2)通过水平和/或垂直投影对二值化的备选表格区域进行鉴定。
7.如权利要求6所述的表格提取方法,其中在步骤c1中用于执行二值化的第四设定阈值比通常二值化方法中使用的阈值低,以避免彩色背景和纹理对二值化结果的影响。
8.如权利要求6所述的表格提取方法,其中通过水平投影鉴定备选表格区域包括以下步骤:
计算备选表格区域的水平投影曲线;
采用第五设定阈值找出投影曲线的波峰位置;
计算投影曲线波峰宽度的方差;以及
如果投影曲线的波峰宽度方差大于第六设定阈值,则将该备选表格区域作为背景区域而剔除。
9.如权利要求6所述的表格提取方法,其中通过垂直投影鉴定备选表格区域包括以下步骤:
计算备选表格区域的垂直投影曲线;
采用第七设定阈值找出垂直投影曲线的波谷位置;以及
如果在垂直投影曲线上不存在明显的波谷,则将该备选表格区域作为背景区域而剔除。
10.如权利要求1所述的表格提取方法,还包括分解输入文档图像以得到低分辨率的图像的步骤,其中步骤b在低分辨率的图像上执行,而步骤c在原始输入文档图像上执行。
11.如权利要求1所述的表格提取方法,还包括以下步骤:
(d)在原始输入文档图像上,根据输入文档图像中的直线来提取含有直线的表格区域。
12.如权利要求11所述的表格提取方法,其中步骤d包括以下步骤:
(d1)将输入文档图像转变为二值图像;
(d2)计算二值图像的连通域;
(d3)根据连通域的大小分离出背景区域和具有大于第八设定阈值的连通域的备选表格区域;
(d4)通过对步骤d3中分离出的备选表格区域执行投影曲线分析,分离出背景区域和不具有大面积黑块的备选表格区域;
(d5)提取备选表格区域中的直线,通过分析直线的分布分离出表格区域和背景区域;以及
(d6)通过表格区域内包含的直线优化表格区域的位置。
13.如权利要求12所述的表格提取方法,其中步骤d4包括以下步骤:
(d4-1)在二值图像上计算备选表格区域的水平和垂直投影;
(d4-2)如果在垂直方向上的投影曲线存在宽度大于第九设定阈值的波峰,则将该备选表格区域作为背景区域而剔除;以及
(d4-3)如果在水平方向上的投影曲线存在宽度大于第十设定阈值的波峰,则将该备选表格区域作为背景区域而剔除。
14.如权利要求12所述的表格提取方法,其中步骤d5包括以下步骤:
(d5-1)将包含在背景区域内的黑点像素转变为白点像素;
(d5-2)通过Hough变换提取备选表格区域的直线;以及
(d5-3)将不满足以下条件的备选表格区域作为背景区域而剔除:
表格区域内水平直线的倾斜角度的方差小于第十一设定阈值;
表格区域内垂直直线的倾斜角度的方差小于第十二设定阈值;
在表格区域的边缘位置至少存在两条水平或垂直直线;
在表格区域内部至少存在一条直线。
15.如权利要求11所述的表格提取方法,还包括:在步骤c之前,将步骤b中检测出的备选表格区域中与步骤d中提取出的表格区域重叠的备选表格区域作为背景区域而剔除。
16.如权利要求2、5、7、8、9、12-14中任何一项所述的表格提取方法,还包括:
设定表格提取的置信度等级;以及
根据置信度等级来选择所述设定阈值中的每一个。
17.如权利要求2、5、7、8、9、12-14中任何一项所述的表格提取方法,还包括:
根据输入图像的特征自动将输入图像分为若干类,每一类对应一组预先设定好的用于表格提取的设定阈值;以及
根据图像的种类自动选取一组设定阈值,以达到最好的表格提取结果。
18.如权利要求1所述的表格提取方法,还包括:
(e)通过区域增长的方法优化表格区域的位置。
19.一种用于从电子文档图像中提取表格区域的表格提取设备,包括:
输入装置,用于输入文档图像;
第一检测装置,用于检测输入文档图像的背景差异,提取出带彩色或纹理背景的区域,作为备选表格区域;以及
鉴定装置,用于考虑到通常表格中文字的分布情况,通过投影曲线分析方法鉴定备选表格区域,以确定表格区域。
20.如权利要求19所述的表格提取设备,其中第一检测装置包括:
第一二值化装置,用于将输入文档图像转变为二值图像;
第一连通域计算装置,用于计算二值图像的连通域;
第一连通域分析装置,用于根据连通域的大小分离出背景区域和具有大于第一设定阈值的连通域的备选表格区域;以及
第一投影曲线分析装置,用于通过对连通域分析装置分离出的备选表格区域执行投影曲线分析,分离出背景区域和具有大面积黑块的备选表格区域。
21.如权利要求20所述的表格提取设备,其中第一检测装置还包括:
合并装置,用于合并第一投影曲线分析装置分离出的备选表格区域中相邻或重叠的备选表格区域。
22.如权利要求20所述的表格提取设备,其中第一二值化装置包括:
灰度转换装置,用于将不是灰度图像的输入文档图像转变为灰度图像;
高低阈值计算装置,用于在灰度图像上计算一个高阈值和一个低阈值,高阈值为灰度图像灰度直方图上从255到0的方向上的第一个局部最大值,低阈值是通过Niblack方法计算得到的;
阈值获得装置,用于通过Otsu二值化方法得到灰度值在低阈值和高阈值之间的像素的阈值作为整幅图像的二值化阈值;以及
二值转换装置,用于用整幅图像的二值化阈值二值化灰度图像。
23.如权利要求20所述的表格提取设备,其中第一投影曲线分析装置包括:
第一投影计算装置,用于在二值图像上计算每一个备选表格区域的水平和垂直投影;
第一水平投影判断装置,如果在水平方向上的投影曲线不存在宽度大于第二设定阈值的波峰,则该第一水平投影判断装置将该备选表格区域作为背景区域而剔除;以及
第一垂直投影判断装置,如果在垂直方向上的投影曲线不存在宽度大于第三设定阈值的波峰,则该第一垂直投影判断装置将该备选表格区域作为背景区域而剔除。
24.如权利要求19所述的表格提取设备,其中鉴定装置包括:
第二二值化装置,用于将备选表格区域二值化;
水平投影鉴定装置,用于通过水平投影对二值化的备选表格区域进行鉴定;以及
垂直投影鉴定装置,用于通过垂直投影对二值化的备选表格区域进行鉴定。
25.如权利要求24所述的表格提取设备,其中第二二值化装置采用比通常二值化方法中使用的阈值低的第四设定阈值来执行二值化,以避免彩色背景和纹理对二值化结果的影响。
26.如权利要求24所述的表格提取设备,其中水平投影鉴定装置包括:
水平投影计算装置,用于计算备选表格区域的水平投影曲线;
波峰确定装置,用于采用第五设定阈值找出投影曲线的波峰位置;
方差计算装置,用于计算投影曲线波峰宽度的方差;以及
第一剔除装置,如果投影曲线的波峰宽度方差大于第六设定阈值,则该剔除装置将该备选表格区域作为背景区域而剔除。
27.如权利要求24所述的表格提取设备,其中垂直投影鉴定装置包括:
垂直投影计算装置,用于计算备选表格区域的垂直投影曲线;
波谷确定装置,用于采用第七设定阈值找出垂直投影曲线的波谷位置;以及
第二剔除装置,如果在垂直投影曲线上不存在明显的波谷,则该剔除装置将该备选表格区域作为背景区域而剔除。
28.如权利要求19所述的表格提取设备,还包括:分辨率分解装置,用于分解输入文档图像以得到低分辨率的图像,其中第一检测装置在低分辨率的图像上执行检测,而鉴定装置在原始输入文档图像上执行鉴定。
29.如权利要求19所述的表格提取设备,还包括:第二检测装置,用于在原始输入文档图像上,根据输入文档图像中的直线来提取含有直线的表格区域。
30.如权利要求29所述的表格提取设备,其中第二检测装置包括:
第三二值化装置,用于将输入文档图像转变为二值图像;
第二连通域计算装置,用于计算二值图像的连通域;
第二连通域分析装置,用于根据连通域的大小分离出背景区域和具有大于第八设定阈值的连通域的备选表格区域;
第二投影曲线分析装置,用于通过对第二连通域分析装置分离出的备选表格区域执行投影曲线分析,分离出背景区域和不具有大面积黑块的备选表格区域;
直线分析装置,用于提取备选表格区域中的直线,通过分析直线的分布分离出表格区域和背景区域;以及
表格优化装置,用于通过表格区域内包含的直线优化表格区域的位置。
31.如权利要求30所述的表格提取设备,其中第二投影曲线分析装置包括:
第二投影计算装置,用于在二值图像上计算备选表格区域的水平和垂直投影;
第二水平投影判断装置,如果在垂直方向上的投影曲线存在宽度大于第九设定阈值的波峰,则该第二水平投影判断装置将该备选表格区域作为背景区域而剔除;以及
第二垂直投影判断装置,如果在水平方向上的投影曲线存在宽度大于第十设定阈值的波峰,则该第二垂直投影判断装置将该备选表格区域作为背景区域而剔除。
32.如权利要求30所述的表格提取设备,其中直线分析装置包括:
像素转变装置,用于将包含在背景区域内的黑点像素转变为白点像素;
Hough变换装置,用于通过Hough变换提取备选表格区域的直线;以及
背景剔除装置,用于将不满足以下条件的备选表格区域作为背景区域而剔除:
表格区域内水平直线的倾斜角度的方差小于第十一设定阈值;
表格区域内垂直直线的倾斜角度的方差小于第十二设定阈值;
在表格区域的边缘位置至少存在两条水平或垂直直线;
在表格区域内部至少存在一条直线。
33.如权利要求29所述的表格提取设备,还包括:比对装置,在鉴定装置执行鉴定之前,将第一检测装置检测出的备选表格区域中与第二检测装置提取出的表格区域重叠的备选表格区域作为背景区域而剔除。
34.如权利要求20、23、25-27、30-32中任何一项所述的表格提取设备,还包括:
等级设置装置,用于设定表格提取的置信度等级;以及
阈值选择装置,用于根据置信度等级来选择所述设定阈值中的每一个。
35.如权利要求20、23、25-27、30-32中任何一项所述的表格提取设备,还包括:
分类装置,用于根据输入图像的特征自动将输入图像分为若干类,每一类对应一组预先设定好的用于表格提取的设定阈值;以及
阈值选择装置,用于根据图像的种类自动选取一组设定阈值,以达到最好的表格提取结果。
36.如权利要求19所述的表格提取设备,还包括:
区域优化装置,通过区域增长的方法优化表格区域的位置。
CNB2005101133849A 2005-10-11 2005-10-11 表格提取方法和设备 Expired - Fee Related CN100433045C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005101133849A CN100433045C (zh) 2005-10-11 2005-10-11 表格提取方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005101133849A CN100433045C (zh) 2005-10-11 2005-10-11 表格提取方法和设备

Publications (2)

Publication Number Publication Date
CN1949249A CN1949249A (zh) 2007-04-18
CN100433045C true CN100433045C (zh) 2008-11-12

Family

ID=38018763

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101133849A Expired - Fee Related CN100433045C (zh) 2005-10-11 2005-10-11 表格提取方法和设备

Country Status (1)

Country Link
CN (1) CN100433045C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426834A (zh) * 2015-11-17 2016-03-23 中国传媒大学 一种基于投影特征与结构特征进行表格图像检测的方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093227B (zh) * 2013-01-14 2016-01-20 西南大学 提取表格特征的方法及装置
US9275030B1 (en) * 2014-09-30 2016-03-01 Konica Minolta Laboratory U.S.A., Inc. Horizontal and vertical line detection and removal for document images
US9495343B2 (en) * 2014-09-30 2016-11-15 Konica Minolta Laboratory U.S.A., Inc. Horizontal and vertical line detection and removal for document images
CN106033528A (zh) * 2015-03-09 2016-10-19 富士通株式会社 从彩色文档图像中提取特定区域的方法和设备
CN106156715A (zh) * 2015-04-24 2016-11-23 富士通株式会社 分析表格图像的布局的方法和设备
CN104881663B (zh) * 2015-05-13 2018-10-26 京北方信息技术股份有限公司 辨别复选框的选定结果的方法及装置
CN105046200B (zh) * 2015-06-19 2020-06-09 成都理想境界科技有限公司 基于直线检测的电子阅卷方法
CN106446881B (zh) * 2016-07-29 2019-05-21 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN107358184A (zh) * 2017-06-30 2017-11-17 中国科学院自动化研究所 文档文字的提取方法及提取装置
CN109117814B (zh) * 2018-08-27 2020-11-03 京东数字科技控股有限公司 图像处理方法、装置、电子设备及介质
CN110059596B (zh) * 2019-04-03 2020-07-07 北京字节跳动网络技术有限公司 一种图像识别方法、装置、介质和电子设备
CN112183229B (zh) * 2020-09-08 2023-05-23 上海墨说科教设备有限公司 基于计算动态参数的作业纸图像的字格提取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001297303A (ja) * 2000-02-09 2001-10-26 Ricoh Co Ltd 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
US20030053686A1 (en) * 2001-09-13 2003-03-20 Eastman Kodak Company Method for detecting subject matter regions in images
JP2004127203A (ja) * 2002-07-30 2004-04-22 Ricoh Co Ltd 画像処理装置、画像処理方法、及びその方法をコンピュータに実行させるプログラム、並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004166062A (ja) * 2002-11-14 2004-06-10 Hitachi Ltd 書類読取装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001297303A (ja) * 2000-02-09 2001-10-26 Ricoh Co Ltd 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
US20030053686A1 (en) * 2001-09-13 2003-03-20 Eastman Kodak Company Method for detecting subject matter regions in images
JP2004127203A (ja) * 2002-07-30 2004-04-22 Ricoh Co Ltd 画像処理装置、画像処理方法、及びその方法をコンピュータに実行させるプログラム、並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004166062A (ja) * 2002-11-14 2004-06-10 Hitachi Ltd 書類読取装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426834A (zh) * 2015-11-17 2016-03-23 中国传媒大学 一种基于投影特征与结构特征进行表格图像检测的方法
CN105426834B (zh) * 2015-11-17 2019-02-22 中国传媒大学 一种基于投影特征与结构特征进行表格图像检测的方法

Also Published As

Publication number Publication date
CN1949249A (zh) 2007-04-18

Similar Documents

Publication Publication Date Title
CN100433045C (zh) 表格提取方法和设备
CN102750541B (zh) 一种文档图像分类识别方法及装置
JP5455038B2 (ja) 画像処理装置、画像処理方法、及びプログラム
Singh et al. A new local adaptive thresholding technique in binarization
US7343046B2 (en) Systems and methods for organizing image data into regions
KR101403876B1 (ko) 차량 번호판 인식 방법과 그 장치
US9396404B2 (en) Robust industrial optical character recognition
CN103377509B (zh) 介质验证器和对缺损进行分类的方法
JP3727974B2 (ja) 画像処理装置及び方法
CN103679678B (zh) 一种矩形文字特征碎纸片的半自动拼接复原方法
CN110766017B (zh) 基于深度学习的移动终端文字识别方法及***
CN103336961A (zh) 一种交互式的自然场景文本检测方法
CN114004204A (zh) 基于计算机视觉的表格结构重建与文字提取方法和***
CN112241730A (zh) 一种基于机器学习的表格提取方法和***
JP2010244372A (ja) 帳票認識方法および装置
CN115761773A (zh) 基于深度学习的图像内表格识别方法及***
Chowdhury et al. Segmentation of text and graphics from document images
CN100489885C (zh) 图像识别方法及实现该方法的设备
CN110413962A (zh) 文档图像中的无边框表格解析技术
CN108765426A (zh) 自动图像分割方法及装置
CN107066997B (zh) 一种基于图像识别的电气元件报价方法
CN100481869C (zh) 自动检测图文的半色调处理方法
Lang et al. Physical layout analysis of partly annotated newspaper images
Gaceb et al. Improvement of postal mail sorting system
CN112183253A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081112

Termination date: 20191011

CF01 Termination of patent right due to non-payment of annual fee