CN104751171A - 基于特征加权的朴素贝叶斯扫描证书图像分类方法 - Google Patents

基于特征加权的朴素贝叶斯扫描证书图像分类方法 Download PDF

Info

Publication number
CN104751171A
CN104751171A CN201510100700.2A CN201510100700A CN104751171A CN 104751171 A CN104751171 A CN 104751171A CN 201510100700 A CN201510100700 A CN 201510100700A CN 104751171 A CN104751171 A CN 104751171A
Authority
CN
China
Prior art keywords
certificate
probability
image
feature
scanning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510100700.2A
Other languages
English (en)
Other versions
CN104751171B (zh
Inventor
龙军
祝莉媛
张昊
刘献如
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201510100700.2A priority Critical patent/CN104751171B/zh
Publication of CN104751171A publication Critical patent/CN104751171A/zh
Application granted granted Critical
Publication of CN104751171B publication Critical patent/CN104751171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于特征加权的朴素贝叶斯扫描证书图像分类方法,通过对经过预处理的证书图像利用Hough变换进行圆章定位、分割、大小调整,提取圆章区域的HSV空间的颜色特征向量及图像长宽比;建立证书图像数据库,对数据库中的每一幅证书图像按照上述步骤进行处理,得到数据库中每幅扫描证书图像的圆章HSV颜色特征向量及图像长宽比,根据得到的特征向量计算证书图像数据库中不同数据组合出现的概率,加权处理后保存数据;根据朴素贝叶斯算法及证书图像数据库中不同数据组合出现的概率计算待分类图像最有可能的图像类别,并且该概率满足设定的阈值要求的,判断图片的分类;本方法能简单快速地对证书图像分类,提高证书图像检索的效率。

Description

基于特征加权的朴素贝叶斯扫描证书图像分类方法
技术领域
本发明涉及一种图像分类方法,特别涉及的是一种扫描证书图像分类方法。
背景技术
最近几年来,图像检索是一个非常受欢迎的话题,其检索对象包括海里游的,在天空中飞翔的及地上走的。图像分类是图像检索的一个预处理过程,可以有效提高图像检索的准确性。尽管已有针对不同种类图像数据集的众多图像分类检索***,但是扫描证书图像分类检索方面则关注较少,而这些扫描证书图像往往是申请奖励或公司拓展的重要辅助材料。为了保证这类证书图像的合法利用,避免同张证书被多次利用,在特殊的扫描证书数据集里的扫描图像查重对于某些检索***是非常重要的,这有点类似于文件的相似性检查。目前适用于比较流行的基于内容的图像分类检索***的图像特征有颜色、纹理、形状以及空间位置关系,但扫描证书图像质量低,种类繁多,版面形式多样,既包含具有特定意义的图像标志,同时又包含对于获奖情况的简明扼要描述,因此,仅仅利用现有算法要实现从海量图像库中查找是否存在与待测证书相似的图像文件是有困难的。因此,我们就得具体分析扫描图像的特征,选取能更好地表述证书图像特点的特征。如何借助计算机技术快速准确对附件证明材料—扫描图像--进行相似性检测是国家科学技术奖励评审迫切需要解决的问题。
发明内容
本发明提供一种扫描证书图像分类方法,能对证书图像进行快速有效的分类,并可以显著提高证书图像检索的准确率。
为实现上述目的,本发明的技术方案如下:
一种基于特征加权的朴素贝叶斯扫描证书图像分类方法,包括如下步骤:
步骤1:建立一个扫描证书图像不同数据组合的似然概率索引;
步骤2:读取待分类扫描证书图像,进行预处理;
步骤3:对经过预处理的证书图像利用Hough变换进行圆章定位,得到圆章外接矩形区域,提取圆章区域的HSV颜色特征向量;
步骤4:对HSV颜色特征向量显著特征项进行加权;
步骤5:计算并记录提取圆章区域的HSV颜色特征向量中不同数据组合出现的概率;
步骤6:根据待分类图像的HSV颜色特征向量、每类扫描证书图像的先验概率及训练过程得到的扫描证书图像不同数据组合的似然概率索引,利用朴素贝叶斯算法计算待分类图像的分类情况,返回满足设定的阈值要求的扫描证书图像作为分类的结果。本发明的有益效果是:本发明基于特征加权的朴素贝叶斯扫描证书图像分类方法,通过对经过预处理的证书图像利用Hough变换进行圆章定位、分割、大小调整,提取圆章区域的HSV空间的颜色特征向量及图像长宽比;建立证书图像数据库,对数据库中的每一幅证书图像按照上述步骤进行处理,得到数据库中每幅扫描证书图像的圆章HSV颜色特征向量及图像长宽比,根据得到的特征向量计算证书图像数据库中不同数据组合出现的概率,加权处理后保存数据;根据朴素贝叶斯算法及证书图像数据库中不同数据组合出现的概率计算待分类图像最有可能的图像类别,并且该概率满足设定的阈值要求的,判断图片的分类;通过本分类方法,能简单快速地对证书图像进行分类,有效提高证书图像检索的效率。
附图说明
图1为本发明实施例图像分类方法的流程图。
具体实施方式
下面结合附图及实例,对本发明做进一步说明。
参见图1,本实施例基于特征加权的朴素贝叶斯扫描证书图像分类方法含有以下步骤:一种基于特征加权的朴素贝叶斯扫描证书图像分类方法,包括如下步骤:
A:输入待分类扫描证书图像,进行预处理;
B:对经过预处理的证书图像利用Hough变换进行圆章定位,得到圆章外接矩形区域,提取圆章区域的HSV颜色特征向量;
C:对HSV颜色特征向量显著特征项进行加权;
D:计算并记录提取圆章区域的HSV颜色特征向量中不同数据组合出现的概率;
证书图像数据库中的每一幅证书图像按照上述步骤A~D进行处理,计算并记录数据库中每类扫描证书图像的先验概率和提取圆章区域的HSV颜色特征向量中不同数据组合出现的概率,即建立一个扫描证书图像不同数据组合的似然概率索引;
E:根据待分类图像的HSV颜色特征向量、每类扫描证书图像的先验概率及训练过程得到的扫描证书图像不同数据组合的似然概率索引,利用朴素贝叶斯算法计算待分类图像的分类情况,返回满足设定的阈值要求的扫描证书图像作为分类的结果;
本方法利用的朴素贝叶斯算法如下:
v NB = arg max P ( v j ) Π i P ( a i | v j )
P ( v j | L k ) = P ( v j ) Π i P ( L i | v j )
本分类方法的目标是在根据待分类图像的圆章特征向量得到证书图像最可能的类别,P(vj)是先验概率,只要计算每个类别出现在证书图像数据库的频率就可以。vNB表示朴素贝叶斯分类器输出的目标值。概括的讲,基于它们在训练数据上的概率,朴素贝叶斯学习方法需要估计不同的P(vj)和P(ai|vj)项,这些估计对应了待学习的假设,然后使用朴素贝叶斯提出的规则来分类。我们使用的朴素贝叶斯算法同其他的分类算法不同之处就在于只需要简单地计算训练样例中不同数据组合的出现频率就可以,不需要搜索。
(Lk0,Lk1...Lk16)是待查询图像的圆章区域的HSV颜色特征向量及图片长宽比,(Li0,Li2...Li16)是数据库中扫描证书图像的圆章区域的HSV颜色特征向量及图片长宽比。
所述步骤A中预处理是利用现有噪声滤除和倾斜校正方法进行预处理;
在所述步骤B中对经过预处理的证书图像利用现有圆章定位的方法,对定位得到的圆章所在的外接矩形进行分割提取,得到圆章区域,提取圆章区域的HSV颜色特征向量;
具体操作步骤如下:
1)利用现有圆章定位的方法,对定位得到的圆章所在的外接矩形进行分割提取,得到圆章区域;
2)将色度H、饱和度S及亮度V三个分量分别非均匀量化为8份、4份和4份:
H = 0 H ∈ [ 315,23 ] 1 H ∈ [ 24,50 ] 2 H ∈ [ 51,75 ] 3 H ∈ [ 76,155 ] 4 H ∈ [ 156,195 ] 5 H ∈ [ 196,275 ] 6 H ∈ [ 276,290 ] 7 H ∈ [ 290,316 ] S = 0 S ∈ [ 0,0.08 ] 1 S ∈ ( 0.08,0.4 ] 2 S ∈ ( 0.4,0.67 ] 3 S ∈ ( 0.67,1.0 ] V = 0 V ∈ [ 0,0.08 ] 1 V ∈ ( 0.08,0.4 ] 2 V ∈ ( 0.4,0.67 ] 3 V ∈ ( 0.67,1.0 ] ;
这样圆章区域的HSV空间被分成LH+LS+LV个区间,LH、LS、LV分别是H、S及V的量化级数,于是我们得到一个十六维的颜色特征向量,加上扫描图像图片长宽比,最终提取一个十七维特征向量;
3)朴素贝叶斯方法是对出现的每一个数据进行统计,统计其出现的频率。为了便于计算,经过反复试验,对所有特征值提取一位数的整数能得到最好的效果。本方法选取的十七维特征用(Lk0,Lk1...Lk16)表示,取值范围为[0,9]之间的整数。
所述步骤C中对特征向量显著特征项进行加权。
图像特征分布具有这样的特性:在同一个图像类别中,如果某个特征的统计分布比较密集,离散程度比较小,那么这个特征相对与这个类别是起支配作用的,是一个重要的特征。相反,如果某个特征统计比较分散,离散程度比较高,就是一个不重要的特征。数据的标准差可以很好地描述数据的离散情况。本方法采用标准差来衡量图像特征权重。wi={wko,wk1...wk16}表示特征向量的权重。样本集中类别为j的第i维的标准差σi,其计算公式为:
σ i = Σ k = 1 n j ( L ki - x i ‾ ) / ( n j - 1 )
nj为j类样本数,Lki为图像类别为j的第k个样本的第i维特征值,为该维特征的平均值。用ei表示特征重要性,ei∈[0,1]为公式:从而得到每个样本每维特征加权的计算方法为: w ki = e i / Σ i = 0 16 e i .
其中,计算并记录提取圆章区域的特征向量中不同数据组合出现的概率,其具体操作步骤如下:
1)统计特征向量中不同数据出现的概率,例如第1类第2维出现4的概率为30%;
2)得到的概率值乘以步骤C中计算出的权重,作为不同数据组合出现的概率保存。
基于特征加权的朴素贝叶斯扫描证书图像分类方法,其具体操作步骤如下:
1)根据步骤D中得到的不同数据组合出现的概率和朴素贝叶斯算法,计算待分类证书图像为每类图像的概率。例如假定A图像为第1类图像,第2维出现数字4,在步骤D保存的概率中找到对应的概率值,将所有出现的数据组合根据步骤D的概率查找并计算出来;
2)得到证书为每一类的概率,并且最大值大于阈值,则判断证书为概率最大的类别。阈值设定为0.048。
本实施例扫描证书图像分类结果如下表。
测试图片数 分类正确张数 分类错误张数 准确率
一类软件著作权扫描证书图像 10 10 0 100%
二类软件著作权扫描证书图像 10 10 0 100%
专利扫描证书图像 10 10 0 100%
其他干扰图像 10 9 1 90%

Claims (7)

1.一种基于特征加权的朴素贝叶斯扫描证书图像分类方法,其特征在于,包括如下步骤:
步骤1:建立一个扫描证书图像不同数据组合的似然概率索引;
步骤2:读取待分类扫描证书图像,进行预处理;
步骤3:对经过预处理的证书图像利用Hough变换进行圆章定位,得到圆章外接矩形区域,提取圆章区域的HSV颜色特征向量;
步骤4:对HSV颜色特征向量显著特征项进行加权;
步骤5:计算并记录提取圆章区域的HSV颜色特征向量中不同数据组合出现的概率;
步骤6:根据待分类图像的HSV颜色特征向量、每类扫描证书图像的先验概率及训练过程得到的扫描证书图像不同数据组合的似然概率索引,利用朴素贝叶斯算法计算待分类图像的分类情况,返回满足设定的阈值要求的扫描证书图像作为分类的结果。
2.根据权利要求1所述的基于特征加权的朴素贝叶斯扫描证书图像分类方法,其特征在于,步骤1建立扫描证书图像不同数据组合的似然概率索引是将证书图像数据库中的每一幅证书图像按照步骤2至5进行处理而获得的。
3.根据权利要求1所述的基于特征加权的朴素贝叶斯扫描证书图像分类方法,其特征在于,所述步骤2中预处理是利用现有噪声滤除和倾斜校正方法。
4.根据权利要求1所述的基于特征加权的朴素贝叶斯扫描证书图像分类方法,其特征在于,所述步骤3的具体操作步骤如下:
1)利用现有圆章定位的方法,对定位得到的圆章所在的外接矩形进行分割提取,得到圆章区域;
2)将色度H、饱和度S及亮度V三个分量分别非均匀量化为8份、4份和4份:
H = 0 H ∈ [ 315,23 ] 1 H ∈ [ 24,50 ] 2 H ∈ [ 51,75 ] 3 H ∈ [ 76,155 ] 4 H ∈ [ 156,195 ] 5 H ∈ [ 196,275 ] 6 H ∈ [ 276,290 ] 7 H ∈ [ 290,316 ] S = 0 S ∈ [ 0,0.08 ] 1 S ∈ ( 0.08,0.4 ] 2 S ∈ ( 0.4,0.67 ] 3 S ∈ ( 0.67,1.0 ] V = 0 V ∈ [ 0,0.08 ] 1 V ∈ ( 0.08,0.4 ] 2 V ∈ ( 0.4,0.67 ] 3 V ∈ ( 0.67,1.0 ] ;
这样圆章区域的HSV空间被分成LH+LS+LV个区间,LH、LS、LV分别是H、S及V的量化级数,得到一个十六维的颜色特征向量,加上扫描图像图片长宽比,最终提取一个十七维特征向量;
3)提取的十七维特征用(Lk0,Lk1...Lk16)表示,取值范围为[0,9]之间的整数。
5.根据权利要求1所述的基于特征加权的朴素贝叶斯扫描证书图像分类方法,其特征在于,所述步骤4对特征向量显著特征项进行加权的具体操作步骤为:采用标准差来衡量图像特征权重,wi={wko,wk1...wk16}表示特征向量的权重,样本集中类别为j的第i维的标准差σi,其计算公式为:
σ i = Σ k = 1 n j ( L ki - x i ‾ ) / ( n j - 1 )
nj为j类样本数,Lki为图像类别为j的第k个样本的第i维特征值,为该维特征的平均值,用ei表示特征重要性,ei∈[0,1]为公式:从而得到每个样本每维特征加权的计算方法为: w ki = e i / Σ i = 0 16 e i .
6.根据权利要求1所述的基于特征加权的朴素贝叶斯扫描证书图像分类方法,其特征在于,所述步骤5计算并记录提取圆章区域的特征向量中不同数据组合出现的概率的具体操作步骤为:统计特征向量中不同数据出现的概率;得到的概率值乘以步骤4中计算出的权重,作为不同数据组合出现的概率保存。
7.根据权利要求1所述的基于特征加权的朴素贝叶斯扫描证书图像分类方法,其特征在于,所述步骤6具体为:根据步骤5中得到的不同数据组合出现的概率和朴素贝叶斯算法,计算待分类证书图像为每类图像的概率;得到证书为每一类的概率,并且最大值大于阈值,则判断证书为概率最大的类别,阈值设定为0.048。
CN201510100700.2A 2015-03-09 2015-03-09 基于特征加权的朴素贝叶斯扫描证书图像分类方法 Active CN104751171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510100700.2A CN104751171B (zh) 2015-03-09 2015-03-09 基于特征加权的朴素贝叶斯扫描证书图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510100700.2A CN104751171B (zh) 2015-03-09 2015-03-09 基于特征加权的朴素贝叶斯扫描证书图像分类方法

Publications (2)

Publication Number Publication Date
CN104751171A true CN104751171A (zh) 2015-07-01
CN104751171B CN104751171B (zh) 2016-04-20

Family

ID=53590824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510100700.2A Active CN104751171B (zh) 2015-03-09 2015-03-09 基于特征加权的朴素贝叶斯扫描证书图像分类方法

Country Status (1)

Country Link
CN (1) CN104751171B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117732A (zh) * 2015-07-24 2015-12-02 中南大学 基于极限学习机的扫描证书图像识别方法
CN108416316A (zh) * 2018-03-19 2018-08-17 中南大学 一种黑烟车的检测方法及***
CN108596276A (zh) * 2018-05-10 2018-09-28 重庆邮电大学 基于特征加权的朴素贝叶斯微博用户分类方法
CN110659654A (zh) * 2019-09-24 2020-01-07 福州大学 一种基于计算机视觉的绘画查重及反抄袭方法
CN110907909A (zh) * 2019-10-30 2020-03-24 南京市德赛西威汽车电子有限公司 一种基于概率统计的雷达目标识别方法
CN112150445A (zh) * 2020-09-27 2020-12-29 西安工程大学 基于贝叶斯阈值的纱线毛羽检测方法
US11080379B2 (en) 2019-02-13 2021-08-03 International Business Machines Corporation User authentication

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745201A (zh) * 2014-01-06 2014-04-23 Tcl集团股份有限公司 一种节目识别方法及装置
CN104079587A (zh) * 2014-07-21 2014-10-01 深圳天祥质量技术服务有限公司 证书识别装置及证书检验***
KR101477649B1 (ko) * 2013-10-08 2014-12-30 재단법인대구경북과학기술원 샘플링과 사후 확률을 이용한 객체 검출 장치 및 그 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101477649B1 (ko) * 2013-10-08 2014-12-30 재단법인대구경북과학기술원 샘플링과 사후 확률을 이용한 객체 검출 장치 및 그 방법
CN103745201A (zh) * 2014-01-06 2014-04-23 Tcl集团股份有限公司 一种节目识别方法及装置
CN104079587A (zh) * 2014-07-21 2014-10-01 深圳天祥质量技术服务有限公司 证书识别装置及证书检验***

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117732A (zh) * 2015-07-24 2015-12-02 中南大学 基于极限学习机的扫描证书图像识别方法
CN105117732B (zh) * 2015-07-24 2018-09-07 中南大学 基于极限学习机的扫描证书图像识别方法
CN108416316A (zh) * 2018-03-19 2018-08-17 中南大学 一种黑烟车的检测方法及***
CN108596276A (zh) * 2018-05-10 2018-09-28 重庆邮电大学 基于特征加权的朴素贝叶斯微博用户分类方法
US11080379B2 (en) 2019-02-13 2021-08-03 International Business Machines Corporation User authentication
CN110659654A (zh) * 2019-09-24 2020-01-07 福州大学 一种基于计算机视觉的绘画查重及反抄袭方法
CN110907909A (zh) * 2019-10-30 2020-03-24 南京市德赛西威汽车电子有限公司 一种基于概率统计的雷达目标识别方法
CN110907909B (zh) * 2019-10-30 2023-09-12 南京市德赛西威汽车电子有限公司 一种基于概率统计的雷达目标识别方法
CN112150445A (zh) * 2020-09-27 2020-12-29 西安工程大学 基于贝叶斯阈值的纱线毛羽检测方法
CN112150445B (zh) * 2020-09-27 2023-12-15 西安工程大学 基于贝叶斯阈值的纱线毛羽检测方法

Also Published As

Publication number Publication date
CN104751171B (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN104751171B (zh) 基于特征加权的朴素贝叶斯扫描证书图像分类方法
CN101551856B (zh) 基于稀疏最小二乘支撑向量机的sar目标识别方法
CN107563442B (zh) 基于稀疏低秩正则图张量化嵌入的高光谱图像分类方法
US8724850B1 (en) Small object detection using meaningful features and generalized histograms
CN102867183B (zh) 一种车辆遗撒物检测方法、装置及智能交通监控***
CN105184298A (zh) 一种快速局部约束低秩编码的图像分类方法
CN102236675A (zh) 图像特征点匹配对处理、图像检索方法及设备
CN103473545A (zh) 一种基于多特征的文本图像相似度度量方法
CN103678274A (zh) 一种基于改进互信息和熵的文本分类特征提取方法
CN104252625A (zh) 样本自适应多特征加权的遥感图像分类方法
CN111339924B (zh) 一种基于超像素和全卷积网络的极化sar图像分类方法
CN104463200A (zh) 一种基于规则挖掘的卫星遥感图像分类方法
CN104317946A (zh) 一种基于多张关键图的图像内容检索方法
Gurnani et al. Flower categorization using deep convolutional neural networks
CN108763262A (zh) 一种商标图形检索方法
CN112633392A (zh) 一种太赫兹人体安检图像目标检测模型训练数据增广方法
CN104008394A (zh) 基于近邻边界最大的半监督高光谱数据降维方法
CN112926592A (zh) 一种基于改进Fast算法的商标检索方法及装置
Huang et al. Superpixel-based change detection in high resolution sar images using region covariance features
CN108985346A (zh) 融合低层图像特征及cnn特征的现勘图像检索方法
CN116796248A (zh) 森林康养环境评估***及其方法
Zhang et al. A training-free, one-shot detection framework for geospatial objects in remote sensing images
Liang et al. Multi-resolution local binary patterns for image classification
CN105303199A (zh) 一种基于内容特征和K-means的数据碎片类型识别方法
Yin et al. Multispectral remote sensing image classification with multiple features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant