CN104866822A - 一种基于sivv特征的文档图像粗分类方法 - Google Patents

一种基于sivv特征的文档图像粗分类方法 Download PDF

Info

Publication number
CN104866822A
CN104866822A CN201510227324.3A CN201510227324A CN104866822A CN 104866822 A CN104866822 A CN 104866822A CN 201510227324 A CN201510227324 A CN 201510227324A CN 104866822 A CN104866822 A CN 104866822A
Authority
CN
China
Prior art keywords
sivv
formula
image
document
windowing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510227324.3A
Other languages
English (en)
Other versions
CN104866822B (zh
Inventor
马廷淮
赵波
张正宇
霍晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Discipline Network Beijing Co ltd
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201510227324.3A priority Critical patent/CN104866822B/zh
Publication of CN104866822A publication Critical patent/CN104866822A/zh
Application granted granted Critical
Publication of CN104866822B publication Critical patent/CN104866822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于SIVV特征的文档图像粗分类方法,包括如下步骤:获取文档图像,预处理,加窗处理,计算文档图像SIVV特征,对每个文档分别计算与其他文档SIVV特征的相关系数,若其中K个文档两两之间相关系数均大于某一阈值,则认为这K个文档属于同一分类。本发明的目的,在于提出一种新的文档图像粗分类方法,无需准确获取文档文本内容,即可将文档图像根据SIVV特征的相关系数自动分成若干类,方法具有鲁棒性好、分类速度快的特点。

Description

一种基于SIVV特征的文档图像粗分类方法
技术领域:
本发明属于文档处理中文档分类领域,特别涉及一种基于SIVV(Spectral ImageValidation and Verification,光谱图像验证与认证)特征的文档图像粗分类方法。
背景技术:
在互联网时代,网络中的文档资料量巨大,人工分类的方式无法完成大规模文档分类工作,使用计算机进行文档自动分类意义重大。互联网中的文档资源有很大部分是图片或PDF格式,并且文档内容形式不再局限于纯文本,准确获取图片或PDF中文本信息的难度较大,传统基于文本内容的分类对于图片或PDF文档分类效果较差。
目前主要的文档图像分类方法可分为三类,基于文本特征的方法,基于图像特征的方法和基于混合特征的方法。
基于文本内容的文档自动分类技术主要可分为两类:基于知识的分类和基于统计的分类(孙斌.信息提取技术概述(中)[J].术语标准化与信息技术,2002,4:008.)。基于知识的文本分类技术需要大量的文本分类规则,所需规则的数目随着***复杂度呈指数上升,无法做到对大数据量的精准分类。基于统计方法的文本分类方法有,K邻近(Guo G,Wang H,Bell D,et al.KNN model-based approach in classification[M]//On TheMove to Meaningful Internet Systems 2003:CoopIS,DOA,and ODBASE.SpringerBerlin Heidelberg,2003:986-996.),支持向量机(SVM),朴素贝叶斯,决策树,神经网络等方法。这些分类方法很大程度上依赖于获得的文本内容的准确性。对于图片或PDF格式的文档,尤其是质量较差的文档图像,很难获得准确的文本信息,导致无法精准分类。
基于图像特征的分类方法(Shin C,Doermann D,Rosenfeld A.Classification ofdocument pages using structure-based features[J].International Journal onDocument Analysis and Recognition,2001,3(4):232-247.),主要利用文档的图像特征,如灰度直方图、区域颜色描述、纹理特征、形状特征等进行分类。常见的图像分类方法有,决策树、支持向量机、遗传算法、贝叶斯、神经网络等。本发明使用的SIVV特征(Libert J M,Orandi S,Grantham J.A 1D Spectral Image Validation/Verification Metric for Fingerprints(NIST IR 7599),National Institute ofStandards and Technology,Gaithersburg,MD,2009[J].)属于图像特征,利用SIVV特征的相关系数,对文档进行粗分类。
基于混合特征的方法(Chen F,Girgensohn A,Cooper M,et al.Genreidentification for office document search and browsing[J].InternationalJournal on Document Analysis and Recognition(IJDAR),2012,15(3):167-182.),结合文档的图像、结构、文本特征进行文档分类。混合方法往往存在时间复杂度高,分类速度慢等问题。
发明内容:
本发明公开一种基于SIVV特征的文档图像粗分类方法,将文档图像根据SIVV特征相关系数自动分成若干类,具有鲁棒性好、准确度高、分类速度快的特点。具体如下:
一种基于SIVV特征的文档图像粗分类方法,步骤如下:
(1)对文档图像进行预处理;
(2)使用与文档图像同等大的2D Blackman窗(如图1所示)分别对每幅图进行加窗处理;
(3)对加窗后图像计算SIVV特征(如图2所示);
(4)计算每幅图两两之间的SIVV特征的相关系数;
(5)若其中K个文档两两之间相关系数r均大于某一阈值,则认为这K个文档属于同一分类。
步骤(2)中,2D Blackman窗通过如下方式获得:
设长度为Q的一维Blackman窗的表达式如下:
w ( q ) = 0.42 - 0.5 cos ( 2 πq Q - 1 ) + 0.08 cos ( 4 πq Q - 1 ) - - - ( 1 )
其中,Q=M,q表示该一维Blackman窗中像素点的序号,且q=1,2,…,Q;将式(1)与式(1)叉乘,得到2D Blackman窗的矩阵形式。
所述步骤(3)的详细内容是:
(31)利用式(2)计算加窗后图像的频谱图:
H ( u , v ) = Σ x = 0 M - 1 Σ y = 0 N - 1 exp [ 2 πiy v N ] exp [ 2 πix u M ] h ( x , y ) - - - ( 2 )
其中,h(x,y)表示加窗后图像中对应坐标(x,y)处的像素值;M、N均取值为加窗后图像的大小;
(32)采用式(3)计算加窗后图像的二维正态化对数功率谱:
P(u,v)=|H(u,v)|2           (3)
(33)采用式(4)将式(3)转换到极坐标系下:
ρ = u 2 + v 2 M 2 + N 2 θ = tan - 1 ( v u ) - - - ( 4 )
采用P(ρ,θ)表示极坐标系下的功率谱,其中,ρ表示对加窗后图像的最大尺度均分;
(34)利用式(5)将所有角度θ下的P求和,得到关于ρ的功率谱:
P ( ρ ) = Σ θ = 0 180 P ( ρ , θ ) - - - ( 5 )
从而,正态化的关于ρ的功率谱表示为:
P N ( ρ ) = P ( ρ ) P ( 0 ) - - - ( 6 )
其中,ρ∈[0,0.5]周期/像素。
所述步骤(32)中,采用的正态化方法有10*lgP(u,v)或
所述方法采用式(7)计算两个SIVV特征相关系数,r∈[0,1],r值越接近1表明两个文档属于同一个分类的可能性越大。
r = Σ i = 1 n ( x i - x ‾ ) ( y i - y ‾ ) Σ i = 1 n ( x i - x ‾ ) 2 · ( y i - y ‾ ) 2 - - - ( 7 )
所述方法分类的阈值可以根据具体任务设定,若其中K个文档两两之间相关系数r均大于这一阈值,则认为这K个文档属于同一分类。
有益效果:
本发明提出了一种新的文档图像粗分类方法,将文档图像根据SIVV特征相关系数自动分成若干类,方法具有鲁棒性好、分类速度快的特点。能够帮助互联网文档提供商准确、快速地对大规模文档进行粗分类。
附图说明:
图1是本发明中2D Blackman窗的示意图;
图2是本发明计算出的文档图像SIVV特征的曲线图。
具体实施方式:
以下将结合附图,对本发明的技术方案进行详细说明。
一种基于SIVV特征的文档图像粗分类方法,包括如下步骤:
(1)对文档图像进行预处理;
在文档分类前,首先将原始文档图像转化为灰度图像,分割出文档有效区域,对有效区域进行去噪,此预处理后的图像作为后续步骤的操作对象;
(2)使用与文档图像同等大的2D Blackman窗(如图1所示)分别对每幅图进行加窗处理;
将预处理后的文档图像与同等大小的2D Blackman窗进行对应元素相乘,得到加窗后的文档图像;其中,2D Blackman窗通过如下方式获得:
设长度为Q的一维Blackman窗的表达式如下:
w ( q ) = 0.42 - 0.5 cos ( 2 πq Q - 1 ) + 0.08 cos ( 4 πq Q - 1 ) - - - ( 1 )
其中,Q=M,q表示该一维Blackman窗中像素点的序号,且q=1,2,…,Q。
将式(1)与式(1)叉乘,得到2D Blackman窗的矩阵形式,2D Blackman窗如图1所示。
(3)对每个加窗后图像计算SIVV特征,SIVV特征曲线图(如图2所示)。具体的计算方法是:
如式(2),采用离散傅里叶变换计算加窗后图像的频谱图:
H ( u , v ) = Σ x = 0 M - 1 Σ y = 0 N - 1 exp [ 2 πiy v N ] exp [ 2 πix u M ] h ( x , y ) - - - ( 2 )
其中,h(x,y)表示加窗后图像中对应坐标(x,y)处的像素值;M、N分别表示加窗后图像的大小。
采用式(3)计算加窗后图像的二维正态化对数功率谱:
P(u,v)=|H(u,v)|2        (3)
其中,可采用的正态化方法有10*lgP(u,v)或
利用式(4)将式(3)直角坐标系下的2D功率谱转换到极坐标系下:
ρ = u 2 + v 2 M 2 + N 2 θ = tan - 1 ( v u ) - - - ( 4 )
采用P(ρ,θ)表示极坐标系下的功率谱,其中,ρ表示对加窗后图像的最大尺度均分,取值范围是[0,0.5]周期/像素。
最后,利用式(5)将所有角度θ下的P求和,得到关于ρ的功率谱:
P ( ρ ) = Σ θ = 0 180 P ( ρ , θ ) - - - ( 5 )
从而,正态化的关于ρ的功率谱表示为:
P N ( ρ ) = P ( ρ ) P ( 0 ) - - - ( 6 )
其中,ρ∈[0,0.5]周期/像素。
(4)采用式(7)计算两个SIVV特征相关系数,r∈[0,1],r值越接近1表明两个文档属于同一个分类的可能性越大。
r = Σ i = 1 n ( x i - x ‾ ) ( y i - y ‾ ) Σ i = 1 n ( x i - x ‾ ) 2 · ( y i - y ‾ ) 2 - - - ( 7 )
(5)若其中K个文档两两之间相关系数r均大于某一阈值,则认为这K个文档属于同一分类。
分类阈值根据具体分类任务设定,一般可设定为0.7至0.9之间。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (6)

1.一种基于SIVV特征的文档图像粗分类方法,其特征在于,有如下步骤:
(1)对文档图像进行预处理;
(2)使用与文档图像同等大的2D Blackman窗分别对每幅图进行加窗处理;
(3)对加窗后图像计算SIVV特征;
(4)计算每幅图两两之间的SIVV特征的相关系数;
(5)若其中K个文档两两之间相关系数r均大于某一阈值,则认为这K个文档属于同一分类。
2.如权利要求1所述的方法,其特征在于,在步骤(2)中,2D Blackman窗通过如下方式获得:
设长度为Q的一维Blackman窗的表达式如下:
w ( q ) = 0.42 - 0.5 cos ( 2 πq Q - 1 ) + 0.08 cos ( 4 πq Q - 1 ) - - - ( 1 )
其中,Q=M,q表示该一维Blackman窗中像素点的序号,且q=1,2,…,Q;
将式(1)与式(1)叉乘,得到2D Blackman窗的矩阵形式。
3.如权利要求1所述的方法,其特征在于,所述步骤(3)的详细内容是:
(31)利用式(2)计算加窗后图像的频谱图:
H ( u , v ) = Σ x = 0 M - 1 Σ y = 0 N - 1 exp [ 2 πiy v H ] exp [ 2 πix u M ] h ( x , y ) - - - ( 2 )
其中,h(x,y)表示加窗后图像中对应坐标(x,y)处的像素值;M、N均取值为加窗后图像的大小;
(32)采用式(3)计算加窗后图像的二维正态化对数功率谱:
P(u,v)=|H(u,v)|2   (3)
(33)采用式(4)将式(3)转换到极坐标系下:
ρ = u 2 + v 2 M 2 + N 2 θ = tan - 1 ( v u ) - - - ( 4 )
采用P(ρ,θ)表示极坐标系下的功率谱,其中,ρ表示对加窗后图像的最大尺度均分;
(34)利用式(5)将所有角度θ下的P求和,得到关于ρ的功率谱:
P ( ρ ) = Σ θ = 0 180 P ( ρ , θ ) - - - ( 5 )
从而,正态化的关于ρ的功率谱表示为:
P N ( ρ ) = P ( ρ ) P ( 0 ) - - - ( 6 )
其中,ρ∈[0,0.5]周期/像素。
4.如1或3所述的方法,其特征在于:所述步骤(32)中,采用的正态化方法有10*lgP(u,v)或 10 * lg P ( u , v ) P ( 0,0 ) .
5.如权利要求1所述的方法,其特征在于,采用式(7)计算两个SIVV特征相关系数,r∈[0,1],r值越接近1表明两个文档属于同一个分类的可能性越,
r = Σ i = 1 n ( x i - x ‾ ) ( y i - y ‾ ) Σ i = 1 n ( x i - x ‾ ) 2 · ( y i - y ‾ ) 2 - - - ( 7 ) .
6.如权利要求1所述的方法,其特征在于,分类的阈值可以根据具体任务设定,若其中K个文档两两之间相关系数r均大于这一阈值,则认为这K个文档属于同一分类。
CN201510227324.3A 2015-05-06 2015-05-06 一种基于sivv特征的文档图像粗分类方法 Active CN104866822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510227324.3A CN104866822B (zh) 2015-05-06 2015-05-06 一种基于sivv特征的文档图像粗分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510227324.3A CN104866822B (zh) 2015-05-06 2015-05-06 一种基于sivv特征的文档图像粗分类方法

Publications (2)

Publication Number Publication Date
CN104866822A true CN104866822A (zh) 2015-08-26
CN104866822B CN104866822B (zh) 2018-08-24

Family

ID=53912643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510227324.3A Active CN104866822B (zh) 2015-05-06 2015-05-06 一种基于sivv特征的文档图像粗分类方法

Country Status (1)

Country Link
CN (1) CN104866822B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5563403A (en) * 1993-12-27 1996-10-08 Ricoh Co., Ltd. Method and apparatus for detection of a skew angle of a document image using a regression coefficient
CN101136981A (zh) * 2006-08-24 2008-03-05 夏普株式会社 图像处理方法和装置、文档读取装置和图像形成装置
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
CN102831244A (zh) * 2012-09-13 2012-12-19 重庆立鼎科技有限公司 一种房产文档图像的分类检索方法
CN104036273A (zh) * 2014-05-22 2014-09-10 南京信息工程大学 一种基于复合窗口sivv特征的指纹图像分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5563403A (en) * 1993-12-27 1996-10-08 Ricoh Co., Ltd. Method and apparatus for detection of a skew angle of a document image using a regression coefficient
CN101136981A (zh) * 2006-08-24 2008-03-05 夏普株式会社 图像处理方法和装置、文档读取装置和图像形成装置
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
CN102831244A (zh) * 2012-09-13 2012-12-19 重庆立鼎科技有限公司 一种房产文档图像的分类检索方法
CN104036273A (zh) * 2014-05-22 2014-09-10 南京信息工程大学 一种基于复合窗口sivv特征的指纹图像分割方法

Also Published As

Publication number Publication date
CN104866822B (zh) 2018-08-24

Similar Documents

Publication Publication Date Title
Hodges et al. Single image dehazing using deep neural networks
CN101526995A (zh) 基于对角子类判决分析的合成孔径雷达目标识别方法
CN103886077B (zh) 短文本的聚类方法和***
CN104239872A (zh) 异态汉字识别方法
Patel et al. Effect on the performance of a support vector machine based machine vision system with dry and wet ore sample images in classification and grade prediction
Das et al. A robust method for detecting copy-move image forgery using stationary wavelet transform and scale invariant feature transform
CN104156730A (zh) 一种基于骨架的抗噪声汉字特征提取方法
CN103714340A (zh) 基于图像分块的自适应特征提取方法
Ramanathan et al. A novel technique for english font recognition using support vector machines
CN105279517A (zh) 基于半监督关系主题模型的弱标签社交图像识别方法
CN101344928B (zh) 用于确定图像区域和对图像进行分类的方法和设备
CN112381458A (zh) 项目评审方法、项目评审装置、设备及存储介质
CN105512682A (zh) 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法
CN104778478A (zh) 一种手写数字识别方法
CN104866822A (zh) 一种基于sivv特征的文档图像粗分类方法
Han et al. Robust and efficient vanishing point detection in unstructured road scenes for assistive navigation
Saravanan et al. Using machine learning principles, the classification method for face spoof detection in artificial neural networks
CN113569934B (zh) Logo分类模型构建方法、***、电子设备及存储介质
CN101937511B (zh) 基于随机并行优化算法的快速图像匹配方法
Paczolay et al. Wlab of university of szeged at lifeclef 2014 plant identification task
Chatterjee et al. Handwritten signature recognition system using euler number
Ismail et al. Support Vector Machine Method to Reduce the Execution Time of Vehicle Plate Recognition System
CN105335762A (zh) 一种基于Legendre矩不变量和PSO-LSSVM分类器的密级标识识别方法
CN109460701A (zh) 一种基于纵横直方图的字体识别方法
CN113609906B (zh) 一种面向文献的表格信息抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200702

Address after: 223600 Tenth Floor of Building A of Shuyang Software Industrial Park, Suqian City, Jiangsu Province

Patentee after: Jiangsu Fenghuang Xueyi Education Technology Co.,Ltd.

Address before: 210044 Nanjing Ning Road, Jiangsu, No. six, No. 219

Patentee before: Nanjing University of Information Science and Technology

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200727

Address after: Room 02214, 2nd floor, building 2, No.68 yard, Beiqing Road, Haidian District, Beijing 100089

Patentee after: BEIJING PHOENIX E-LEARNING TECHNOLOGY CO.,LTD.

Address before: 210044 Nanjing Ning Road, Jiangsu, No. six, No. 219

Patentee before: Nanjing University of Information Science and Technology

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: 100089 room 02114, 2nd floor, building 2, No.68 courtyard, Beiqing Road, Haidian District, Beijing

Patentee after: Discipline network (Beijing) Co.,Ltd.

Address before: 100089 room 02114, 2nd floor, building 2, No.68 courtyard, Beiqing Road, Haidian District, Beijing

Patentee before: BEIJING PHOENIX E-LEARNING TECHNOLOGY CO.,LTD.

CP01 Change in the name or title of a patent holder