CN105590082A - 文档图像识别方法 - Google Patents

文档图像识别方法 Download PDF

Info

Publication number
CN105590082A
CN105590082A CN201410563687.XA CN201410563687A CN105590082A CN 105590082 A CN105590082 A CN 105590082A CN 201410563687 A CN201410563687 A CN 201410563687A CN 105590082 A CN105590082 A CN 105590082A
Authority
CN
China
Prior art keywords
character
file
region
image
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410563687.XA
Other languages
English (en)
Other versions
CN105590082B (zh
Inventor
施水才
程涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TOLS INFORMATION TECHNOLOGY Co.,Ltd.
Original Assignee
BEIJING TRS INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING TRS INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING TRS INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410563687.XA priority Critical patent/CN105590082B/zh
Publication of CN105590082A publication Critical patent/CN105590082A/zh
Application granted granted Critical
Publication of CN105590082B publication Critical patent/CN105590082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

文档图像识别方法,包括图像预处理、获取图像连通区域、连通区域特征抽取、文档图像判别,图像连通区域的获取借助了聚类的思想,应用8连通准则,对灰度值为0和255的像素点分别聚类,准确识别连通区域。连通区域特征包括形状特征、颜色特征,主要分三种方式抽取,依次为疑似字符识别、一致性字符发现、真实字符判断,特征抽取简洁、复杂度低。实现了文档图像的准确、高效的识别,解决了文档图像识别性能低下的问题。

Description

文档图像识别方法
技术领域
本发明涉及多媒体信息处理领域,具体地说,是涉及文档图像识别方法。
背景技术
图像文件中有一类图像以文字、表格等为主要内容的,这些图像是记录在纸张上、电子文档上的文字经过扫描、拍照、截图等方式转化而来的,这类图像通常被定义为文档图像。随着互联网和多媒体技术的迅速发展,文档图像以其固有的优势,一方面能提供较大的信息量,另一方面可以规避现有的采集、监测,越来越多的在互联网上呈现。
为此,对文档图像的识别,挖掘其包含的信息、实现图像内容的监控和预警,是互联网信息挖掘及互联网信息安全规范不可避免的道路。但文档图像通常和大量的非文档图像混杂在一起,以人工方法将文档图像挑选出来,费时费力,且容易产生主观偏见,导致结果不一致;另外有一些自动识别方法,利用文档图像与非文档图像在颜色与纹理上的差异来识别,这些方法主要根据灰度值利用概率模型进行识别,对于彩色图像容易误识别,且需要配置较多的经验参数;随着光学字符识别(OCR)的发展,基于OCR的文档图像识别逐渐受重视,OCR识别虽然准确性高,但是效率比较低,无法满足海量数据时代的需求。
为此,针对当前海量图像识别、监测、检索的实时性需求,本发明提出一种文档图像识别方法,将单个文字看作是文档图像上的一个小区域,基于聚类的思想识别图像上的连通区域,抽取每个区域上的形状特征、颜色特征,设计概率模型,实现文档图像的识别,以解决当前海量图像识别时效率低、准确性不高的问题。
发明内容
本发明要解决的技术问题是提供一种基于区域特征的文档图像识别方法,提高海量图像处理的效率和准确性。
为解决当前海量图像识别的准确性低、效率低的问题,本发明提供了一种文档图像识别方法,该方法包括:
S10,图像预处理,对图像进行去噪和二值化处理;
S20,获取图像连通区域,抽取图像上所有连通区域;
S30,连通区域特征抽取;
S40,文档图像判别。
更进一步,图像连通区域由像素点构成,可定义如下:对于像素点Pij、Pxy,如果满足i-1≤x≤i+1且j-1≤y≤j+1,则Pij、Pxy属于同一个连通区域。
基于聚类思想,采用8连通准则,对图像上灰度为0和255的像素点分别聚类,获取连通区域Rs={R1,R2,…,RA},并统计连通区域个数记为A。
更进一步地,S30,连通区域特征主要从连通区域的形状特征、颜色特征层面抽取。
S301,疑似字符识别;
二值图像的区域填充率FR(Ri),定义为:区域像素点1占所有像素的比值。
疑似字符SCi,定义为:区域长宽比AR(Ri)小于一定阈值,且区域填充率在一定阈值区间的连通区域。疑似字符集记为SCs,可判定如下:
其中,Ri∈Rs,γ、α、β为对应的阈值,满足条件的Ri即为疑似字符SCi,SCs包含于Rs。记图像中疑似字符集SCs总个数为B。
S302,一致性字符发现;
一致性字符是指区域大小相似的疑似字符,区域大小可以通过区域面积来描述;
每个疑似字符在图像上实际是一块块区域,这些区域具有一定的面积值,记每一块区域的面积值为SQ(SCi),这些面积值中一定存在一个或多个面积值,出现的次数最多,则该次数记为C,这些面积值对应的区域即为一致性字符。
S303,真实字符判断;
通过疑似字符的前景色和背景色的色差来判断,其判别方法如下:
δ0(SCi)+δ1(SCi)≤0.6*ABS(E0(SCi)-E1(SCi))
其中,E0(SCi)和δ0(SCi)为疑似字符背景色的均值和方差,E1(SCi)和δ1(SCi)为疑似字符前景色的均值和方差。满足这个条件的疑似字符称为真实字符,其个数记为D。
更进一步,S40,文档图像判别,本发明综合以上特征,设计概率模型来判别文档图像,其判别方法如下:
P=a1*Q(B)+a2*Q(C)+a3*Q(D)+a4*B/A+a5*C/B+a6*D/B
其中:(1)a1,a2,…,a6为经验值,且a1+a2+…+a6=1;(2)
概率值大于一定阈值即被识别为文档图像。
本发明技术方案提供的文档图像识别方法,挖掘文档图像的区域形状特征、颜色特征,设计文档图像判别概率模型,解决了OCR文档图像识别效率低、常用识别方法识别准确性不高的问题,为文档图像信息抽取提供了基础技术保障。
附图说明
图1为本发明实施例提供的文档图像识别方法流程图。
具体实施方案
为使本发明实施例的目的、技术方法、及优点更加清楚明白,以下结合附图对本发明实施例提供的技术方案进行详细说明。
如图1所示为本发明实施例提供的文档图像识别方法流程图。
S10,图像预处理
利用小波去噪法对图像进行去噪处理,保持图像细节,主要实现方式:对图像信号进行小波分解;对经过层次分解后的高频***进行阈值量化;利用二维小波重构图像信号。采用基于局部均值自适应的二值化算法,以像素点局部区域的均值作为阈值,将图像上点的灰度置为0或255,实现图像的二值化。
S20,获取图像连通区域
图像的连通区域,可定义为:对于像素点Pij、Pxy,如果满足i-1≤x≤i+1且j-1≤y≤j+1,则Pij、Pxy属于同一个连通区域;
采用区域生长算法依次完成图像上灰度为0和255的像素点的聚类,获取图像上所有连通区域Rs={R1,R2,…,RA},并统计联通区域个数记为A。
S30,连通区域特征抽取
主要从连通区域的形状特征、颜色特征两个层面抽取特征。
S301,疑似字符识别
二值图像的区域填充率FR(Ri),定义为:区域像素点1占所有像素的比值;
疑似字符SCi,定义为:区域的长宽比AR(Ri)小于一定阈值,填充率达在一定阈值区间的连通区域。可判定如下:
其中,Ri∈Rs,γ、α、β为对应的阈值,一般γ=2,α=0.1,β=0.9,满足条件的Ri即为疑似字符SCi,SCs包含于Rs。记图像中疑似字符集SCs总个数为B。
S302,一致性字符发现
一致性字符是指区域大小相似的疑似字符,区域大小可以通过区域面积来描述;
计算疑似字符的区域面积,并统计每种面积的疑似字符数量,数量最多的区域面积对应的疑似字符即为一致性字符,其个数为C。
S303,真实字符判断
通过疑似字符的前景色和背景色的色差来判断,其判别方法如下:
δ0(SCi)+δ1(SCi)≤0.6*ABS(E0(SCi)-E1(SCi))
其中,E0(SCi)和δ0(SCi)为疑似字符背景色的均值和方差,E1(SCi)和δ1(SCi)为疑似字符前景色的均值和方差。满足这个条件的疑似字符称为真实字符,其个数记为D。
S40,文档图像判别
综合以上多特征,设计概率模型,其判别方法如下:
P=a1*Q(B)+a2*Q(C)+a3*Q(D)+a4*B/A+a5*C/B+a6*D/B
其中:(1)a1,a2,…,a6为经验值,且a1+a2+…+a6=1,可取经验值为{0.2,0.15,0.1,0.25,0.2,0.1};(2)
概率值大于一定阈值即被识别为文档图像,一般取P>0.5。

Claims (8)

1.文档图像识别方法,其特征在于,包括以下步骤:
S10,图像预处理,对图像进行去噪和二值化处理;
S20,获取图像连通区域,抽取图像上所有连通区域;
S30,连通区域内特征抽取;
S40,文档图像判别。
2.根据权利要求1所述的文档图像识别方法,其特征在于,图像连通区域是指,图像上的像素点Pij、Pxy满足i-1≤x≤i+1且j-1≤y≤j+1,则Pij、Pxy属于同一个连通区域。
3.根据权利要求1和权利要求2所述的文档图像识别方法,其特征在于,基于聚类的思想,采用8连通准则,对图像上灰度为0和255的像素点分别聚类,获取连通区域,并统计连通区域个数,记为A。
4.根据权利要求1所述的文档图像识别方法,其特征在于,从区域的形状特征、颜色特征抽取连通区域特征,主要包括:
S301,疑似字符识别;
疑似字符是指区域的长宽比小于一定阈值,填充率在一定阈值区间的连通区域,其中填充率通过区域像素点1占所有像素的比值来描述;
S302,一致性字符发现;
一致性字符是指区域大小相似的疑似字符,区域大小可以通过区域面积来描述,一致性字符的总个数记为C;
S303,真实字符判断;
真实字符通过区域的前景色和背景色的色差来判定。
5.如权利要求1和权利要求4所述的文档图像识别方法,其特征在于,疑似字符识别方法为:
其中,Ri为连通区域,AR(Ri)为区域长宽比,FR(Ri)为区域填充率,γ、α、β为对应的阈值,满足条件的Ri即为疑似字符SCi,记图像中疑似字符集总个数为B。
6.如权利要求1和权利要求4所述的文档图像识别方法,其特征在于,真实字符的判定方法为:
δ0(SCi)+δ1(SCi)≤0.6*ABS(E0(SCi)-E1(SCi))
其中,E0(SCi)和δ0(SCi)为疑似字符背景色的均值和方差,E1(SCi)和δ1(SCi)为疑似字符前景色的均值和方差。
7.满足这个条件的疑似字符称为真实字符,其个数记为D。
8.如权利要求1所述的文档图像识别方法,其特征在于,文档图像判别概率模型设计如下:
P=a1*Q(B)+a2*Q(C)+a3*Q(D)+a4*B/A+a5*C/B+a6*D/B
其中:(1)a1,a2,…,a6为经验值,且a1+a2+…+a6=1;(2)
概率值大于一定阈值即被识别为文档图像。
CN201410563687.XA 2014-10-22 2014-10-22 文档图像识别方法 Active CN105590082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410563687.XA CN105590082B (zh) 2014-10-22 2014-10-22 文档图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410563687.XA CN105590082B (zh) 2014-10-22 2014-10-22 文档图像识别方法

Publications (2)

Publication Number Publication Date
CN105590082A true CN105590082A (zh) 2016-05-18
CN105590082B CN105590082B (zh) 2019-02-22

Family

ID=55929654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410563687.XA Active CN105590082B (zh) 2014-10-22 2014-10-22 文档图像识别方法

Country Status (1)

Country Link
CN (1) CN105590082B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2093709A1 (en) * 2006-11-30 2009-08-26 NEC Corporation Document image feature value generating device, document image feature value generating method, and document image feature value generating program
CN101551859A (zh) * 2008-03-31 2009-10-07 夏普株式会社 图像辨别装置及图像检索装置
CN102880857A (zh) * 2012-08-29 2013-01-16 华东师范大学 一种基于svm的文档图像版式信息识别方法
CN103810471A (zh) * 2012-11-13 2014-05-21 三星电子株式会社 识别文档图像的方法和装置及其拍摄方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2093709A1 (en) * 2006-11-30 2009-08-26 NEC Corporation Document image feature value generating device, document image feature value generating method, and document image feature value generating program
CN101551859A (zh) * 2008-03-31 2009-10-07 夏普株式会社 图像辨别装置及图像检索装置
CN102880857A (zh) * 2012-08-29 2013-01-16 华东师范大学 一种基于svm的文档图像版式信息识别方法
CN103810471A (zh) * 2012-11-13 2014-05-21 三星电子株式会社 识别文档图像的方法和装置及其拍摄方法

Also Published As

Publication number Publication date
CN105590082B (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
EP3455782B1 (en) System and method for detecting plant diseases
CN109145872B (zh) 一种基于CFAR与Fast-RCNN融合的SAR图像舰船目标检测方法
US10198657B2 (en) All-weather thermal-image pedestrian detection method
CN111797712B (zh) 基于多尺度特征融合网络的遥感影像云与云阴影检测方法
EP1359543A2 (en) Method for detecting subject matter regions in images
CN107480643B (zh) 一种智能垃圾分类处理的机器人
CN101923653B (zh) 一种基于多层次内容描述的图像分类方法
CN111027446B (zh) 一种高分辨率影像的海岸线自动提取方法
CN105184808B (zh) 一种光场图像前后景自动分割方法
CN103853724B (zh) 多媒体数据分类方法及装置
CN102163284A (zh) 面向中文环境的复杂场景文本定位方法
CN103886285A (zh) 先验地理信息辅助下的光学遥感影像舰船检测方法
CN104217196A (zh) 一种遥感影像圆形油罐自动检测方法
CN103984946A (zh) 一种基于K-means的高分辨率遥感地图道路提取方法
CN109886168B (zh) 一种基于层阶的地面交通标志识别方法
CN102542293A (zh) 一种针对高分辨率sar图像场景解译的一类提取分类方法
CN104484652A (zh) 一种指纹识别方法
CN108776823A (zh) 基于细胞图像识别的***病灶分析方法
CN109858394A (zh) 一种基于显著性检测的遥感图像水体区域提取方法
CN113781421A (zh) 基于水下的目标识别方法、装置及***
CN115082776A (zh) 一种基于图像识别的电能表自动检测***及方法
CN105354547A (zh) 一种结合纹理和彩色特征的行人检测方法
CN103810487A (zh) 一种海洋航拍图像的目标检测与识别方法及***
CN114120218A (zh) 一种基于边缘计算的河道漂浮物监测方法
CN116311212B (zh) 基于高速摄像机实现运动状态下的船号识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100088 Beijing city Haidian District No. 6 Zhichun Road Jinqiu International Building 14 floor 14B04

Patentee after: TOLS INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 100088 Beijing city Haidian District No. 6 Zhichun Road Jinqiu International Building 14 floor 14B04

Patentee before: BEIJING TRS INFORMATION TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Document image recognition method

Effective date of registration: 20201028

Granted publication date: 20190222

Pledgee: Huaxia Bank Limited by Share Ltd. Zhongguancun Beijing branch

Pledgor: TOLS INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2020990001268

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220805

Granted publication date: 20190222

Pledgee: Huaxia Bank Limited by Share Ltd. Zhongguancun Beijing branch

Pledgor: TOLS INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2020990001268

PC01 Cancellation of the registration of the contract for pledge of patent right