CN103093218B - 自动识别表格类型的方法及装置 - Google Patents

自动识别表格类型的方法及装置 Download PDF

Info

Publication number
CN103093218B
CN103093218B CN201310013025.0A CN201310013025A CN103093218B CN 103093218 B CN103093218 B CN 103093218B CN 201310013025 A CN201310013025 A CN 201310013025A CN 103093218 B CN103093218 B CN 103093218B
Authority
CN
China
Prior art keywords
identified
sume
type
features storehouse
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310013025.0A
Other languages
English (en)
Other versions
CN103093218A (zh
Inventor
余建桥
郭加旋
况远春
王迎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University
Original Assignee
Southwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University filed Critical Southwest University
Priority to CN201310013025.0A priority Critical patent/CN103093218B/zh
Publication of CN103093218A publication Critical patent/CN103093218A/zh
Application granted granted Critical
Publication of CN103093218B publication Critical patent/CN103093218B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了一种自动识别表格类型的方法及装置。其中方法包括:提取待识别表格的图像特征;将所述待识别表格的图像特征与表格特征库中表格的图像特征分别匹配,将从所述表格特征库中匹配到的表格的类型作为所述待识别表格的类型。其中装置包括执行上述步骤的提取模块和识别模块。采用本发明的方法及装置,具有识别效率高、识别准确性高等优点。

Description

自动识别表格类型的方法及装置
技术领域
本发明涉及表格识别技术领域,尤其涉及一种自动识别表格类型的方法及装置。
背景技术
表格文档是指以文字和表格为主要内容的一类图像,主要是通过扫描仪等设备将纸质表格档案转化而来的文档图像。当通过扫描仪等设备将纸质表格扫描到***中后,通常是按照表格的类型对表格文档进行分类存储的,目前对表格类型的识别主要是由工作人员进行,因此主要存在工作效率低的问题。
发明内容
有鉴于此,本发明提供了一种自动识别表格类型的方法及装置。可以解决现有表格类型识别中的识别效率低的问题。
本发明提供了一种自动识别表格类型的方法,包括:
步骤a、提取待识别表格的图像特征;
步骤b、将所述待识别表格的图像特征与表格特征库中表格的图像特征分别匹配,将从所述表格特征库中匹配到的表格的类型作为所述待识别表格的类型。
进一步,所述图像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD和SUME,SUMX表示表格中中轴线条数,SUMA、SUMB、SUMC和SUMD分别表示A、B、C和D四个区域内的中轴线条数,SUME表示矩形区域E内的中轴线条数,其中A、B、C和D四个区域为在表格的宽和高的中点处,将表格分为的2行2列的四个面积相等的区域,矩形区域E与表格有相同的中心,且宽和高均为表格的宽和高的三分之一。
进一步,所述步骤b包括:
步骤b1、判断所述待识别表格的SUMX与所述表格特征库中表格的SUMX的差的绝对值是否小于第一阈值,若所述表格特征库中多个表格的SUMX与所述待识别表格的SUMX的差的绝对值均小于第一阈值,则执行步骤b2,若所述表格特征库中仅有一个表格的SUMX与所述待识别表格的SUMX的差的绝对值小于第一阈值,则将所述表格特征库中该仅有的一个表格的类型作为所述待识别表格的类型;
步骤b2、判断所述待识别表格的SUMA、SUMB、SUMC和SUMD与所述表格特征库中表格的SUMA、SUMB、SUMC和SUMD的差的绝对值是否分别小于第二阈值、第三阈值、第四阈值和第五阈值,若所述表格特征库多个表格的SUMA、SUMB、SUMC和SUMD与所述待识别表格的SUMA、SUMB、SUMC和SUMD的差的绝对值均小于对应的阈值,则执行步骤b3,若所述表格特征库中仅有一个表格的SUMA、SUMB、SUMC和SUMD与所述待识别表格的SUMA、SUMB、SUMC和SUMD的差的绝对值均小于对应的阈值,则将所述表格特征库中该仅有的一个表格的类型作为所述待识别表格的类型;
步骤b3、判断所述待识别表格的SUME与所述表格特征库中表格的SUME的差的绝对值是否小于第六阈值,若所述表格特征库中多个表格的SUME与所述待识别表格的SUME的差的绝对值均小于第六阈值,则将该多个表格中与所述待识别表格的SUME的差的绝对值最小的表格的类型作为所述待识别表格的类型,若所述表格特征库中仅有一个表格的SUME与所述待识别表格的SUME的差的绝对值小于第六阈值,则将该仅有的一个表格的类型作为所述待识别表格的类型。
进一步,第一阈值为所述待识别表格的SUMX的十一分之一,第二阈值为所述待识别表格的SUMA的七分之一,第三阈值为所述待识别表格的SUMB的七分之一,第四阈值为所述待识别表格的SUMC的七分之一,第五阈值为所述待识别表格的SUMD的七分之一,第六阈值为所述待识别表格的SUME的五分之一。
进一步,所述步骤a包括:
步骤a1、对待识别表格依次进行分割、二值化和滤波处理;
步骤a2、提取经步骤a1处理后的待识别表格中的水平线段和垂直线段;
步骤a3、合并步骤a2中提取的水平线段和垂直线段得到表格框架;
步骤a4、对步骤a3得到的表格框架依次进行取反和细化处理;
步骤a5、提取经步骤a5处理后的表格框架中的图像特征。
进一步,所述步骤a2包括:
对经步骤a1处理后的待识别表格,先以水平方向直线线段结构元素在水平方向上腐蚀,然后以膨胀结构元素为模板在垂直方向上进行一次膨胀,所述水平方向直线线段结构元素的长度值为所述待识别表格的宽度的五分之三,所述膨胀结构元素为: 1 1 1 1 1 1 1 1 1 ;
对经步骤a1处理后的待识别表格,先以垂直方向直线线段结构元素在垂直方向上腐蚀,然后以所述膨胀结构元素为模板在水平方向上进行一次膨胀,其中所述垂直方向直线线段结构元素的长度值为所述待识别表格的单元格高度的七分之五。
相应地,本发明还提供了一种识别装置,用于自动识别表格的类型,包括:
提取模块,用于提取待识别表格的图像特征;
识别模块,用于将所述待识别表格的图像特征与表格特征库中表格的图像特征分别匹配,将从所述表格特征库中匹配到的表格的类型作为所述待识别表格的类型。
进一步,所述图像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD和SUME,所述SUMX表示表格中中轴线条数,所述SUMA、SUMB、SUMC和SUMD分别表示A、B、C和D四个区域内的中轴线条数,所述SUME表示矩形区域E内的中轴线条数,其中A、B、C和D四个区域为在表格的宽和高的中点处,将表格分为的2行2列的四个面积相等的区域,矩形区域E与表格有相同的中心,且宽和高均为表格的宽和高的三分之一。
进一步,所述识别模块包括:
第一判断单元,用于判断所述待识别表格的SUMX与所述表格特征库中表格的SUMX的差的绝对值是否小于第一阈值;
第一识别单元,用于当第一判断单元判断到所述表格特征库中仅有一个表格的SUMX与所述待识别表格的SUMX的差的绝对值小于第一阈值,则将所述表格特征库中该仅有的一个表格的类型作为所述待识别表格的类型;
第二判断单元,用于当第一判断单元的判断到所述表格特征库中多个表格的SUMX与所述待识别表格的SUMX的差的绝对值均小于第一阈值时,判断所述待识别表格的SUMA、SUMB、SUMC和SUMD与所述表格特征库中表格的SUMA、SUMB、SUMC和SUMD的差的绝对值是否分别小于第二阈值、第三阈值、第四阈值和第五阈值;
第二识别单元,用于当第二判断单元判断到所述表格特征库中仅有一个表格的SUMA、SUMB、SUMC和SUMD与待识别表格的SUMA、SUMB、SUMC和SUMD的差的绝对值均小于对应的阈值,将所述表格特征库中该仅有的一个表格的类型作为所述待识别表格的类型;
第三判断单元,用于当第二判断单元判断到所述表格特征库中多个表格的SUMA、SUMB、SUMC和SUMD与所述待识别表格的SUMA、SUMB、SUMC和SUMD的差的绝对值均小于对应的阈值时,判断所述待识别表格的SUME与所述表格特征库中表格的SUME的差的绝对值是否小于第六阈值;
第三识别单元,用于当第三判断单元判断到所述表格特征库中多个表格的SUME与所述待识别表格的SUME的差的绝对值均小于第六阈值,则将该多个表格中与所述待识别表格的SUME的差的绝对值最小的表格的类型作为所述待识别表格的类型,以及用于当所述表格特征库中仅有一个表格的SUME与待识别表格的SUME的差的绝对值小于第六阈值,则将该仅有的一个表格的类型作为所述待识别表格的类型。
进一步,第一阈值为所述待识别表格的SUMX的十一分之一,第二阈值为所述待识别表格的SUMA的七分之一,第三阈值为所述待识别表格的SUMB的七分之一,第四阈值为所述待识别表格的SUMC的七分之一,第五阈值为所述待识别表格的SUMD的七分之一,第六阈值为所述待识别表格的SUME的五分之一。
本发明的有益效果:
通过设置表格特征库,该表格特征库中存储有各种类型的表格的图像特征,然后对待识别的表格提取其图像特征,通过将待识别表格的图像特征与特征库中的各种类型的表格的图像特征进行比较,就可以识别出待识别表格的类型。该过程可以完全由计算机自动实现,因此具有识别效率高、识别准确性高等特点。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1是本发明提供的自动识别表格类型的方法的实施例的流程示意图。
图2是图1中的步骤S11的实施例的流程示意图。
图3是图1中的步骤S12的实施例的流程示意图。
图4是待识别表格的结构示意图。
图5是图4预处理后的结构示意图。
图6是从图4中提取的水平线段。
图7是从图4中提取的垂直线段。
图8是图6和图7合并后得到的表格的结构示意图。
图9是图8取反后的结构示意图。
图10是图9细化后得到的中轴线的结构示意图。
图11是本发明提供的自动识别表格类型的装置的实施例的结构示意图。
图12是图11中的提取模块的实施例的结构示意图。
图13是图11中的识别模块的实施例的结构示意图。
具体实施方式
请参考图1,是本发明提供的自动识别表格类型的方法的实施例的流程示意图。其包括:
步骤S11、提取待识别表格的图像特征。
步骤S12、将步骤S11提取的待识别表格的图像特征与表格特征库中各种类型的表格的图像特征分别匹配,将从表格特征库中匹配到的表格的类型作为待识别表格的类型。
本实施例中,通过在预先设置表格特征库,该表格特征库中存储有各种类型的表格的图像特征,然后对待识别的表格提取其图像特征,通过将待识别表格的图像特征与特征库中的各种类型的表格的图像特征进行比较,就可以识别出待识别表格的类型。该过程可以完全由计算机自动实现,因此具有识别效率高、识别准确性高等优点。
进一步,步骤S12之前,需要建立表格特征库,该表格特征库中存储有各种类型的表格的图像特征。在建立表格特征库时,可以采用步骤S11所示的方法或者人工地对已知的各种类型的表格进行图像特征提取,然后将提取的图像特征以及表格类型对应存储到数据库中,完成表格特征库的构建。并且建立的表格特征库是一动态库,可以随时向其中增加或减少表格类型以及对应的图像特征。
进一步,表格的图像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD和SUME。下面结合图2,具体说明SUMX、SUMA、SUMB、SUMC、SUMD和SUME的含义以及提取过程。
请参考图2,是图1中步骤S11的实施例的流程示意图。其包括:
步骤S21、对待识别表格进行预处理。
其中,预处理包括但不限于:分割、二值化和滤波处理。具体地,首先对待识别表格进行分割处理提取其中的表格,即去除表格周围的文字部分,得到纯表格图像。然后对对纯表格图像进行二值化处理,得到二值化图像;优选地,采用局部二值化方法对纯表格图像进行处理,局部二值化方法的步骤主要包括:第一、计算每一点的阈值: M = max - d < k < d - d < l < d g ( x + k , y + l ) , N = min - d < k < d - d < l < d g ( x + k , y + l ) , T ( x , y ) = ( M + N ) / 2 , M - N &GreaterEqual; S T &prime; , M - N < S , 第二、逐点二值化: b ( x , y ) = 0 , g ( x , y ) &le; T ( x , y ) 1 , g ( x , y ) > T ( x , y ) . 其中,g(x,y)表示坐标(x,y)处的灰度值,b(x,y)表示g(x,y)二值化的结果,T(x,y)表示二值化阈值,(2d+1)×(2d+1)为求取阈值的窗口模板,S、T'为某一临界值,取值范围均为[0,128]。最后,对所得的二值化图像进行滤波处理,去除表格图像中的噪声,得到去噪图像;优选地,采用中值滤波方法去除表格图像中的“椒盐”噪声,当然也不排除采用诸如最大值滤波、最小值滤波和修正后的阿尔法均值滤波等方式去除噪声。如图4所示,是待识别表格的示意图,图5是经过步骤S21预处理后的待识别表格的示意图。
步骤S22、提取经步骤S21处理后的待识别表格中的水平线段和垂直线段。
其中,水平线段和垂直线段的提取主要包括以直线线段结构元素进行腐蚀和以膨胀结构元素进行膨胀两步。经过反复实验和验证,下面介绍一种具有较好效果的水平线段和垂直线段的提取方式:对于水平线段的提取,以水平方向直线线段结构元素在水平方向上腐蚀,然后以膨胀结构元素为模板在垂直方向上进行一次膨胀;其中水平方向直线线段结构元素的长度值是一个相对的值,不是绝对的值,不同的机器、不同批次扫描的图像可能会有所不同,因此长度值是一个相比于表格长度的比例值;考虑到表格中的字符有可能会连在一起,为了在腐蚀的过程中能更好的提取出水平线段,因此经实验得出选取水平方向直线线段结构元素的长度值为表格宽度的五分之三左右时效果较好;对水平线段做垂直方向的膨胀是因为在腐蚀时可能出现线段断裂的情况,此时为了将断裂的线段连接起来,就需要进行膨胀处理,即把提取出来的线段加粗;这里只需要使线段加粗一圈即可,因此选取结构元素为: 1 1 1 1 1 1 1 1 1 . 对于垂直线段的提取,以垂直方向直线线段结构元素在垂直方向上腐蚀,然后以膨胀结构元素为模板在水平方向上进行一次膨胀。垂直方向上表格直线线段的提取与水平方向类似,经实验得出垂直直线线段结构元素的长度值为表格单元格高度的七分之五左右时较好;垂直方向上的线段与水平方向类似,选取膨胀结构元素为: 1 1 1 1 1 1 1 1 1 . 图6和图7分别是待识别表格提取的水平线段和垂直线段的示意图。
步骤S23、合并步骤S22提取的水平线段和垂直线段,得到表格框架,如图8所示。
步骤S24、对步骤S23得到的表格框架依次进行取反和细化处理。取反和细化的表格框架的结构示意图分别如图8和9所示。
步骤S25、提取经步骤S24处理后的表格框架中的SUMX、SUMA、SUMB、SUMC、SUMD和SUME。
其中,首先计算细化后的表格框架中的中轴线条数(即:表格单元格个数)SUMX。然后,计算表格的宽W和高H,在宽和高的中点处,把表格图像分成2行2列的四个面积相等的区域:A、B、C和D,并计算A、B、C和D四个局域内的中轴线的条数分别为:SUMA、SUMB、SUMC和SUMD。最后,在表格内部选取一个矩形区域E,该矩形区域E和表格有相同的中心,且高和宽为表格的高和宽的三分之一,并计算该矩形区域E内中轴线的条数SUME。由此得到待识别表格的图像特征F=(SUMX,SUMA,SUMB,SUMC,SUMD,SUME)。
经过图2的方法,成功地从待识别表格中提取出了图像特征,上述图像特征能够很好地反映表格的结构特点,下面介绍一种基于上述图像特征识别表格类型的方法。
请参考图3,是图1中的步骤S12的实施例的流程示意图。其包括:
步骤S31、判断待识别表格的SUMX与表格特征库中表格的SUMX的差的绝对值是否小于第一阈值。
其中,若表格特征库中多个表格的SUMX与待识别表格的SUMX的差的绝对值小于第一阈值,则执行步骤S32。若表格特征库中仅有一个表格的SUMX与待识别表格的SUMX的差的绝对值小于第一阈值,则执行步骤S36:将表格特征库中该仅有的一个表格的类型作为待识别表格的类型。若表格特征库中所有表格的SUMX与待识别表格的SUMX的差的绝对值均不小于第一阀值,则识别失败,此时最有可能的情况是表格特征库中没有与待识别表格的类型相同的表格,此时可以过一步提示由用户对待识别表格的类型进行识别,然后将待识别表格的类型输入***中,***将待识别表格的类型和待识别表格的图像特征对应存入表格特征库中,以丰富表格特征库。
优选地,第一阈值可以为待识别表格的SUMX的十一分之一,下面结合一具体实例对该步骤进行说明。
1、参见表一,假设表格特征库中存储了三种类型的表格的图像特征。
表格类型 SUMX 其余图像特征
类型一 30
类型二 25
类型三 31
2、当待识别表格的SUMX为22时,第一阈值为2。由此可知,表格特征库中三种类型的表格的SUMX与22的差的绝对值均大于2,因此无法识别出待识别表格的类型。
3、当待识别表格的SUMX为31时,第一阈值为2.8。由此可知,表格特征库中类型一和类型三的表格的SUMX的差的绝对值均小于2.8,此时执行步骤S32。
4、当待识别表格的SUMX为25时,第一阈值为2.2。由此可知,表格特征库中仅有类型二的表格的SUMX与25的差的绝对值小于2.2,因此待识别表格的类型为类型二。
步骤S32、判断待识别表格的SUMA、SUMB、SUMC和SUMD与表格特征库中表格的SUMA、SUMB、SUMC和SUMD的差的绝对值是否分别小于第二阈值、第三阈值、第四阈值和第五阈值。
其中,若表格特征库中多个表格的SUMA、SUMB、SUMC和SUMD与待识别表格的SUMA、SUMB、SUMC和SUMD的差的绝对值均小于各自对应的阈值时,执行步骤S33。若表格特征库中仅有一个表格的SUMA、SUMB、SUMC和SUMD与待识别表格的SUMA、SUMB、SUMC和SUMD的差的绝对值均小于各自对应的阈值时,执行步骤S36:将表格特征库中该仅有的一个表格的类型作为待识别表格的类型。若表格特征库中所有表格的SUMA、SUMB、SUMC和SUMD与待识别表格的SUMA、SUMB、SUMC和SUMD的差的绝对值均不小于各自对应的阈值,则识别失败。
优选地,第二阈值可以为待识别表格的SUMA的七分之一,第三阈值可以为待识别表格的SUMB的七分之一,第四阈值可以为待识别表格的SUMC的七分之一,第五阈值可以为待识别表格的SUMD的七分之一,下面结合一具体实例对该步骤进行说明:
1、参见表二,假设表格特征库中存储了三种类型的表格的图像特征。
表格类型 SUMX (SUMA,SUMB,SUMC,SUMD) SUME
类型一 (14,14,13,13)
类型二 (14,13,14,13)
类型三 (7,7,7,7)
2、当待识别表格的(SUMA,SUMB,SUMC,SUMD)=(14,14,14,14)时,第二至第五阈值均为2,则表格特征库中类型一和类型二的表格的SUMA,SUMB,SUMC,SUMD与待识别表格的SUMA,SUMB,SUMC,SUMD分别的差的绝对值均小于对应的阈值,因此执行步骤S33。
3、当待识别表格的(SUMA,SUMB,SUMC,SUMD)=(7,7,7,7)时,第二至第五阈值均为1,则表格特征库中仅有类型三的表格的SUMA,SUMB,SUMC,SUMD与待识别表格的SUMA,SUMB,SUMC,SUMD分别的差的绝对值均小于对应的阈值,因此待识别表格的类型为类型三。
4、当待识别表格的(SUMA,SUMB,SUMC,SUMD)=(21,21,21,21)时,第二至第五阈值均为3,表格特征库中没有任何一种类型的表格的SUMA,SUMB,SUMC,SUMD与待识别表格的SUMA,SUMB,SUMC,SUMD分别的差的绝对值均小于对应的阈值,因此该待识表格的类型无法识别。
步骤S33、判断待识别表格的SUME与表格特征库中表格的SUME的差的绝对值是否小于第六阈值。
其中,若表格特征库中存在多个表格的SUME与待识别表格的SUME的差的绝对值小于第六阈值时,执行步骤S35:将表格特征库中存在的与待识别表格的SUME的差的绝对值最小的表格的类型作为待识别表格的类型;该步骤S35包括两种情况,一种是表格特征库中多个表格的SUME与待识别表格的SUME的差的绝对值均小于第六阈值,则将该多个表格中与待识别表格的SUME的差的绝对值最小的表格的类型作为待识别表格的类型,另一种是表格特征库中仅有一个表格的SUME与待识别表格的SUME的差的绝对值小于第六阈值,则将该仅有的一个表格的类型作为待识别表格的类型。若表格特征库中任何表格的SUME与待识别表格的SUME的差的绝对值均不小于第六阈值时,识别失败。
优选地,第六阈值可以为待识别表格的SUME的五分之一,下面结合一具体实例对该步骤进行说明。
1、参见表三,假设表格特征库中存储了三种类型的表格的图像特征。
表格类型 SUME 其余图像特征
类型一 16
类型二 13
类型三 20
2、当待识别表格的SUME为15时,第六阈值为3。由此可知,表格特征库中类型一和类型二的表格的SUME与15的差均小于3,但类型一的表格的SUME与15的差的绝对值最小,仅为1,因此待识别表格的类型为类型一。
3、当待识别表格的SUME为22时,第六阈值为4.4。由此可知,仅有类型三表格的SUME与22的差的绝值值小于4.4,因此待识别表格的类型为类型三。
4、当待识别表格中的SUME为10时,第六阈值为2。由此可知可知,表格特征库中三种类型的表格的SUME与10的差的绝对值均大于2,因此识别失败。
本实施例中,通过上述匹配方式,只要表格特征库够全面,就可以迅速、准确地识别出待识别表格的类别。
下面介绍本发明的装置的实施例。
请参考图11,是本发明提供的识别装置的实施例的结构示意图。该识别装置可以自动识别表格的类型,其包括:
提取模块1,用于提取待识别表格的图像特征。
识别模块2,用于将提取模块1提取的待识别表格的图像特征与表格特征库中各种类型的表格的图像特征分别匹配,将从表格特征库中匹配到的表格的类型作为待识别表格的类型。
本实施例中,通过在识别装置中预先设置表格特征库,该表格特征库中存储有各种类型的表格的图像特征,然后由提取模块1对待识别的表格提取其图像特征,并通过识别模块2将待识别表格的图像特征与特征库中的各种类型的表格的图像特征进行比较,就可以识别出待识别表格的类型。该过程可以完全自动实现,因此具有识别效率高、识别准确性高等优点。
进一步,在识别装置中需要建立表格特征库,该表格特征库中存储有各种类型的表格的图像特征。在建立表格特征库时,可以采用提取模块1所示的方式或者人工地对已知的各种类型的表格进行图像特征提取,然后将提取的图像特征以及表格类型对应存储到识别装置中的数据库中,完成表格特征库的构建。并且建立的表格特征库是一动态库,可以随时向其中增加或减少表格类型以及对应的图像特征。
进一步,表格的图像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD和SUME。下面结合图12,具体说明SUMX、SUMA、SUMB、SUMC、SUMD和SUME的含义以及提取过程。
请参考图12,是图11中提取模块1的实施例的结构示意图。其包括:
预处理单元11,用于对待识别表格进行预处理。
其中,预处理包括但不限于:分割、二值化和滤波处理。具体地,首先对待识别表格进行分割处理提取其中的表格,即去除表格周围的文字部分,得到纯表格图像。然后对对纯表格图像进行二值化处理,得到二值化图像;优选地,采用局部二值化方法对纯表格图像进行处理,局部二值化方法的步骤主要包括:第一、计算每一点的阈值: M = max - d < k < d - d < l < d g ( x + k , y + l ) , N = min - d < k < d - d < l < d g ( x + k , y + l ) , T ( x , y ) = ( M + N ) / 2 , M - N &GreaterEqual; S T &prime; , M - N < S , 第二、逐点二值化: b ( x , y ) = 0 , g ( x , y ) &le; T ( x , y ) 1 , g ( x , y ) > T ( x , y ) ; 其中,g(x,y)表示坐标(x,y)处的灰度值,b(x,y)表示g(x,y)二值化的结果,T(x,y)表示二值化阈值,(2d+1)×(2d+1)为求取阈值的窗口模板,S、T'为某一临界值,取值范围均为[0,128]。最后,对所得的二值化图像进行滤波处理,去除表格图像中的噪声,得到去噪图像;优选地,采用中值滤波方法去除表格图像中的“椒盐”噪声,当然也不排除采用诸如最大值滤波、最小值滤波和修正后的阿尔法均值滤波等方式去除噪声。如图4所示,是待识别表格的示意图,图5是经过预处理单元11预处理后的待识别表格的示意图。
线段提取单元12,用于提取经预处理单元11处理后的待识别表格中的水平线段和垂直线段。
其中,水平线段和垂直线段的提取主要包括以直线线段结构元素进行腐蚀和以膨胀结构元素进行膨胀两步。经过反复实验和验证,下面介绍一种具有较好效果的水平线段和垂直线段的提取方式:对于水平线段的提取,以水平方向直线线段结构元素在水平方向上腐蚀,然后以膨胀结构元素为模板在垂直方向上进行一次膨胀;其中水平方向直线线段结构元素的长度值是一个相对的值,不是绝对的值,不同的机器、不同批次扫描的图像可能会有所不同,因此长度值是一个相比于表格长度的比例值;考虑到表格中的字符有可能会连在一起,为了在腐蚀的过程中能更好的提取出水平线段,因此经实验得出选取水平方向直线线段结构元素的长度值为表格宽度的五分之三左右时效果较好;对水平线段做垂直方向的膨胀是因为在腐蚀时可能出现线段断裂的情况,此时为了将断裂的线段连接起来,就需要进行膨胀处理,即把提取出来的线段加粗;这里只需要使线段加粗一圈即可,因此选取结构元素为: 1 1 1 1 1 1 1 1 1 . 对于垂直线段的提取,以垂直方向直线线段结构元素在垂直方向上腐蚀,然后以膨胀结构元素为模板在水平方向上进行一次膨胀。垂直方向上表格直线线段的提取与水平方向类似,经实验得出垂直直线线段结构元素的长度值为表格单元格高度的七分之五左右时较好;垂直方向上的线段与水平方向类似,选取膨胀结构元素为: 1 1 1 1 1 1 1 1 1 . 图6和图7分别是待识别表格提取的水平线段和垂直线段的示意图。
线段合并单元13,用于合并线段提取单元12提取的水平线段和垂直线段,得到表格框架,如图8所示。
取反和细化处理单元14,用于对线段合并单元13得到的表格框架依次进行取反和细化处理。取反和细化的表格框架的结构示意图分别如图8和9所示。
特征提取单元15,用于提取经取反和细化单元14处理后的表格框架中的SUMX、SUMA、SUMB、SUMC、SUMD和SUME。
其中,特征提取单元15首先计算细化后的表格框架中的中轴线条数(即:表格单元格个数)SUMX。然后,计算表格的宽W和高H,在宽和高的中点处,把图像分成2行2列的四个面积相等的区域:A、B、C和D,并计算A、B、C和D四个局域内的中轴线的条数分别为:SUMA、SUMB、SUMC和SUMD。最后,在表格内部选取一个矩形区域E,该矩形区域E和表格有相同的中心,且高和宽为表格的高和宽的三分之一,并计算该矩形区域E内中轴线的条数SUME。由此得到待识别表格的图像特征F=(SUMX,SUMA,SUMB,SUMC,SUMD,SUME)。
经过提取模块1成功地从待识别表格中提取出了图像特征,上述图像特征能够很好地反映表格的结构特点,下面介绍一种基于上述图像特征识别表格类型的方式。
请参考图13,是图11中的识别模块2的实施例的结构示意图。其包括:
第一判断单元21,用于判断待识别表格的SUMX与表格特征库中表格的SUMX的差的绝对值是否小于第一阈值。
第一识别单元24,用于当第一判断单元21判断到表格特征库中仅有一个表格的SUMX与待识别表格的SUMX的差的绝对值小于第一阈值,将表格特征库中该仅有的一个表格的类型作为待识别表格的类型。当第一判断单元31判断到表格特征库中所有表格的SUMX与待识别表格的SUMX的差的绝对值均不小于第一阀值,提示识别失败,此时最有可能的情况是表格特征库中没有与待识别表格的类型相同的表格,此时可以过一步提示由用户对待识别表格的类型进行识别,然后将待识别表格的类型输入***中,***将待识别表格的类型和待识别表格的图像特征对应存入表格特征库中,以丰富表格特征库。
第二判断单元22,用于当第一判断单元21判断到表格特征库中多个表格的SUMX与待识别表格的SUMX的差的绝对值小于第一阈值时,继续判断待识别表格的SUMA、SUMB、SUMC和SUMD与表格特征库中表格的SUMA、SUMB、SUMC和SUMD的差的绝对值是否分别小于第二阈值、第三阈值、第四阈值和第五阈值。
第二识别单元25,用于当第二判断单元22判断到表格特征库中仅有一个表格的SUMA、SUMB、SUMC和SUMD与待识别表格的SUMA、SUMB、SUMC和SUMD的差的绝对值均小于各自对应的阈值时,将表格特征库中该仅有的一个表格的类型作为待识别表格的类型。当第二判断单元22判断到表格特征库中所有表格的SUMA、SUMB、SUMC和SUMD与待识别表格的SUMA、SUMB、SUMC和SUMD的差的绝对值均不小于各自对应的阈值,提示识别失败。
第三判断单元23,用于当第二判断单元22判断到表格特征库中多个表格的SUMA、SUMB、SUMC和SUMD与待识别表格的SUMA、SUMB、SUMC和SUMD的差的绝对值均小于各自对应的阈值时,继续判断待识别表格的SUME与表格特征库中表格的SUME的差的绝对值是否小于第六阈值。
第三识别单元26,用于当第三判断单元23判断到表格特征库中存在多个表格的SUME与待识别表格的SUME的差的绝对值小于第六阈值时,将表格特征库中存在的与待识别表格的SUME的差的绝对值最小的表格的类型作为待识别表格的类型。此时包括两种情况,一种是表格特征库中多个表格的SUME与待识别表格的SUME的差的绝对值均小于第六阈值,则将该多个表格中与待识别表格的SUME的差的绝对值最小的表格的类型作为待识别表格的类型,另一种是表格特征库中仅有一个表格的SUME与待识别表格的SUME的差的绝对值小于第六阈值,则将该仅有的一个表格的类型作为待识别表格的类型。当第三判断单元23判断到表格特征库中任何表格的SUME与待识别表格的SUME的差的绝对值均不小于第六阈值时,则提示识别失败。
优选地,第一阈值为待识别表格的SUMX的十一分之一,第二阈值为待识别表格的SUMA的七分之一,第三阈值为待识别表格的SUMB的七分之一,第四阈值为待识别表格的SUMC的七分之一,第五阈值为待识别表格的SUMD的七分之一,第六阈值为待识别表格的SUME的五分之一,以获得最优的识别效果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种自动识别表格类型的方法,其特征在于:包括:
步骤a、提取待识别表格的图像特征;
步骤b、将所述待识别表格的图像特征与表格特征库中表格的图像特征分别匹配,将从所述表格特征库中匹配到的表格的类型作为所述待识别表格的类型;
所述图像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD和SUME,SUMX表示表格中中轴线条数,SUMA、SUMB、SUMC和SUMD分别表示A、B、C和D四个区域内的中轴线条数,SUME表示矩形区域E内的中轴线条数,其中A、B、C和D四个区域为在表格的宽和高的中点处,将表格分为的2行2列的四个面积相等的区域,矩形区域E与表格有相同的中心,且宽和高均为表格的宽和高的三分之一。
2.如权利要求1所述的自动识别表格类型的方法,其特征在于:所述步骤b包括:
步骤b1、判断所述待识别表格的SUMX与所述表格特征库中表格的SUMX的差的绝对值是否小于第一阈值,若所述表格特征库中多个表格的SUMX与所述待识别表格的SUMX的差的绝对值均小于第一阈值,则执行步骤b2,若所述表格特征库中仅有一个表格的SUMX与所述待识别表格的SUMX的差的绝对值小于第一阈值,则将所述表格特征库中该仅有的一个表格的类型作为所述待识别表格的类型;
步骤b2、判断所述待识别表格的SUMA、SUMB、SUMC和SUMD与所述表格特征库中表格的SUMA、SUMB、SUMC和SUMD的差的绝对值是否分别小于第二阈值、第三阈值、第四阈值和第五阈值,若所述表格特征库多个表格的SUMA、SUMB、SUMC和SUMD与所述待识别表格的SUMA、SUMB、SUMC和SUMD的差的绝对值均小于对应的阈值,则执行步骤b3,若所述表格特征库中仅有一个表格的SUMA、SUMB、SUMC和SUMD与所述待识别表格的SUMA、SUMB、SUMC和SUMD的差的绝对值均小于对应的阈值,则将所述表格特征库中该仅有的一个表格的类型作为所述待识别表格的类型;
步骤b3、判断所述待识别表格的SUME与所述表格特征库中表格的SUME的差的绝对值是否小于第六阈值,若所述表格特征库中多个表格的SUME与所述待识别表格的SUME的差的绝对值均小于第六阈值,则将该多个表格中与所述待识别表格的SUME的差的绝对值最小的表格的类型作为所述待识别表格的类型,若所述表格特征库中仅有一个表格的SUME与所述待识别表格的SUME的差的绝对值小于第六阈值,则将该仅有的一个表格的类型作为所述待识别表格的类型。
3.如权利要求2所述的自动识别表格类型的方法,其特征在于:第一阈值为所述待识别表格的SUMX的十一分之一,第二阈值为所述待识别表格的SUMA的七分之一,第三阈值为所述待识别表格的SUMB的七分之一,第四阈值为所述待识别表格的SUMC的七分之一,第五阈值为所述待识别表格的SUMD的七分之一,第六阈值为所述待识别表格的SUME的五分之一。
4.如权利要求1-3中任一项所述的自动识别表格类型的方法,其特征在于:所述步骤a包括:
步骤a1、对待识别表格依次进行分割、二值化和滤波处理;
步骤a2、提取经步骤a1处理后的待识别表格中的水平线段和垂直线段;
步骤a3、合并步骤a2中提取的水平线段和垂直线段得到表格框架;
步骤a4、对步骤a3得到的表格框架依次进行取反和细化处理;
步骤a5、提取经步骤a5处理后的表格框架中的图像特征。
5.如权利要求4所述的自动识别表格类型的方法,其特征在于:所述步骤a2包括:
对经步骤a1处理后的待识别表格,先以水平方向直线线段结构元素在水平方向上腐蚀,然后以膨胀结构元素为模板在垂直方向上进行一次膨胀,所述水平方向直线线段结构元素的长度值为所述待识别表格的宽度的五分之三,所述膨胀结构元素为: 1 1 1 1 1 1 1 1 1 ;
对经步骤a1处理后的待识别表格,先以垂直方向直线线段结构元素在垂直方向上腐蚀,然后以所述膨胀结构元素为模板在水平方向上进行一次膨胀,其中所述垂直方向直线线段结构元素的长度值为所述待识别表格的单元格高度的七分之五。
6.一种识别装置,用于自动识别表格的类型,其特征在于:包括:
提取模块,用于提取待识别表格的图像特征;
识别模块,用于将所述待识别表格的图像特征与表格特征库中表格的图像特征分别匹配,将从所述表格特征库中匹配到的表格的类型作为所述待识别表格的类型;
所述图像特征包括:SUMX、SUMA、SUMB、SUMC、SUMD和SUME,所述SUMX表示表格中中轴线条数,所述SUMA、SUMB、SUMC和SUMD分别表示A、B、C和D四个区域内的中轴线条数,所述SUME表示矩形区域E内的中轴线条数,其中A、B、C和D四个区域为在表格的宽和高的中点处,将表格分为的2行2列的四个面积相等的区域,矩形区域E与表格有相同的中心,且宽和高均为表格的宽和高的三分之一。
7.如权利要求6所述的自动识别表格类型的装置,其特征在于:所述识别模块包括:
第一判断单元,用于判断所述待识别表格的SUMX与所述表格特征库中表格的SUMX的差的绝对值是否小于第一阈值;
第一识别单元,用于当第一判断单元判断到所述表格特征库中仅有一个表格的SUMX与所述待识别表格的SUMX的差的绝对值小于第一阈值,则将所述表格特征库中该仅有的一个表格的类型作为所述待识别表格的类型;
第二判断单元,用于当第一判断单元的判断到所述表格特征库中多个表格的SUMX与所述待识别表格的SUMX的差的绝对值均小于第一阈值时,判断所述待识别表格的SUMA、SUMB、SUMC和SUMD与所述表格特征库中表格的SUMA、SUMB、SUMC和SUMD的差的绝对值是否分别小于第二阈值、第三阈值、第四阈值和第五阈值;
第二识别单元,用于当第二判断单元判断到所述表格特征库中仅有一个表格的SUMA、SUMB、SUMC和SUMD与待识别表格的SUMA、SUMB、SUMC和SUMD的差的绝对值均小于对应的阈值,将所述表格特征库中该仅有的一个表格的类型作为所述待识别表格的类型;
第三判断单元,用于当第二判断单元判断到所述表格特征库中多个表格的SUMA、SUMB、SUMC和SUMD与所述待识别表格的SUMA、SUMB、SUMC和SUMD的差的绝对值均小于对应的阈值时,判断所述待识别表格的SUME与所述表格特征库中表格的SUME的差的绝对值是否小于第六阈值;
第三识别单元,用于当第三判断单元判断到所述表格特征库中多个表格的SUME与所述待识别表格的SUME的差的绝对值均小于第六阈值,则将该多个表格中与所述待识别表格的SUME的差的绝对值最小的表格的类型作为所述待识别表格的类型,以及用于当所述表格特征库中仅有一个表格的SUME与待识别表格的SUME的差的绝对值小于第六阈值,则将该仅有的一个表格的类型作为所述待识别表格的类型。
8.如权利要求7所述的自动识别表格类型的装置,其特征在于:第一阈值为所述待识别表格的SUMX的十一分之一,第二阈值为所述待识别表格的SUMA的七分之一,第三阈值为所述待识别表格的SUMB的七分之一,第四阈值为所述待识别表格的SUMC的七分之一,第五阈值为所述待识别表格的SUMD的七分之一,第六阈值为所述待识别表格的SUME的五分之一。
CN201310013025.0A 2013-01-14 2013-01-14 自动识别表格类型的方法及装置 Expired - Fee Related CN103093218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310013025.0A CN103093218B (zh) 2013-01-14 2013-01-14 自动识别表格类型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310013025.0A CN103093218B (zh) 2013-01-14 2013-01-14 自动识别表格类型的方法及装置

Publications (2)

Publication Number Publication Date
CN103093218A CN103093218A (zh) 2013-05-08
CN103093218B true CN103093218B (zh) 2016-04-06

Family

ID=48205766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310013025.0A Expired - Fee Related CN103093218B (zh) 2013-01-14 2013-01-14 自动识别表格类型的方法及装置

Country Status (1)

Country Link
CN (1) CN103093218B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI536798B (zh) * 2014-08-11 2016-06-01 虹光精密工業股份有限公司 影像分檔方法
CN105426834B (zh) * 2015-11-17 2019-02-22 中国传媒大学 一种基于投影特征与结构特征进行表格图像检测的方法
CN107679024B (zh) * 2017-09-11 2023-04-18 畅捷通信息技术股份有限公司 识别表格的方法、***、计算机设备、可读存储介质
CN108921158A (zh) * 2018-06-14 2018-11-30 众安信息技术服务有限公司 图像校正方法、装置及计算机可读存储介质
CN110738219A (zh) * 2019-10-15 2020-01-31 腾讯科技(深圳)有限公司 图像中线条提取方法和装置、存储介质及电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833579A (zh) * 2010-05-11 2010-09-15 同方知网(北京)技术有限公司 一种自动检测学术不端文献的方法及***
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及***
CN101923643A (zh) * 2010-08-11 2010-12-22 中科院成都信息技术有限公司 通用表格识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MXPA06004481A (es) * 2003-10-21 2006-07-10 United Parcel Service Inc Estructura de datos y sistema de administracion para un super conjunto de bases de datos relacionales.

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及***
CN101833579A (zh) * 2010-05-11 2010-09-15 同方知网(北京)技术有限公司 一种自动检测学术不端文献的方法及***
CN101923643A (zh) * 2010-08-11 2010-12-22 中科院成都信息技术有限公司 通用表格识别方法

Also Published As

Publication number Publication date
CN103093218A (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN103093218B (zh) 自动识别表格类型的方法及装置
CN101499130B (zh) 一种指纹识别方法和指纹识别***
CN101908136B (zh) 一种表格识别处理方法及***
CN111640130A (zh) 表格还原方法及装置
CN104463795A (zh) 一种点阵式dm二维码图像处理方法及装置
CN104063723A (zh) 脱机手写汉字的笔画还原方法及装置
CN103971112A (zh) 图像特征提取方法及装置
CN103761515A (zh) 一种基于lbp的人脸特征提取方法及装置
CN101324923A (zh) 用于人脸识别的特征提取方法和装置
CN103077401A (zh) 一种基于光流上下文直方图的异常行为检测方法及***
CN113657274A (zh) 表格生成方法、装置、电子设备、存储介质及产品
CN103745207A (zh) 一种人脸识别的特征提取方法及装置
CN114862845A (zh) 手机触摸屏的缺陷检测方法、装置、设备及存储介质
CN101917352A (zh) 识别图片垃圾邮件的方法及***
CN103226824A (zh) 维持视觉显著性的视频重定向***
CN109741273A (zh) 一种手机拍照低质图像的自动处理与评分方法
CN100487722C (zh) 一种确定特征的级联分类器的连接顺序和特征阈值的方法
CN102819576A (zh) 一种基于微博的数据挖掘方法及***
CN105095889A (zh) 特征提取、字符识别、引擎生成、信息确定方法及装置
CN107688744A (zh) 基于图像特征匹配的恶意文件分类方法及装置
CN103093227B (zh) 提取表格特征的方法及装置
Vo et al. Distorted music score recognition without staffline removal
CN104376300B (zh) 一种基于网格特征智能匹配残缺汉字的识别方法
CN106203440A (zh) 一种基于复杂网络的灰度图像识别方法
CN102945255A (zh) 跨媒体多视角非完美标签学习方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160406

Termination date: 20170114