CN104866822A

CN104866822A - 一种基于sivv特征的文档图像粗分类方法

Info

Publication number: CN104866822A
Application number: CN201510227324.3A
Authority: CN
Inventors: 马廷淮; 赵波; 张正宇; 霍晶晶
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Discipline Network Beijing Co ltd
Priority date: 2015-05-06
Filing date: 2015-05-06
Publication date: 2015-08-26
Anticipated expiration: 2035-05-06
Also published as: CN104866822B

Abstract

本发明公开一种基于SIVV特征的文档图像粗分类方法，包括如下步骤：获取文档图像，预处理，加窗处理，计算文档图像SIVV特征，对每个文档分别计算与其他文档SIVV特征的相关系数，若其中K个文档两两之间相关系数均大于某一阈值，则认为这K个文档属于同一分类。本发明的目的，在于提出一种新的文档图像粗分类方法，无需准确获取文档文本内容，即可将文档图像根据SIVV特征的相关系数自动分成若干类，方法具有鲁棒性好、分类速度快的特点。

Description

一种基于SIVV特征的文档图像粗分类方法

技术领域：

本发明属于文档处理中文档分类领域，特别涉及一种基于SIVV(Spectral ImageValidation and Verification，光谱图像验证与认证)特征的文档图像粗分类方法。

背景技术:

在互联网时代，网络中的文档资料量巨大，人工分类的方式无法完成大规模文档分类工作，使用计算机进行文档自动分类意义重大。互联网中的文档资源有很大部分是图片或PDF格式，并且文档内容形式不再局限于纯文本，准确获取图片或PDF中文本信息的难度较大，传统基于文本内容的分类对于图片或PDF文档分类效果较差。

目前主要的文档图像分类方法可分为三类，基于文本特征的方法，基于图像特征的方法和基于混合特征的方法。

基于文本内容的文档自动分类技术主要可分为两类：基于知识的分类和基于统计的分类(孙斌.信息提取技术概述(中)[J].术语标准化与信息技术,2002,4:008.)。基于知识的文本分类技术需要大量的文本分类规则，所需规则的数目随着***复杂度呈指数上升，无法做到对大数据量的精准分类。基于统计方法的文本分类方法有，K邻近(Guo G,Wang H,Bell D,et al.KNN model-based approach in classification[M]//On TheMove to Meaningful Internet Systems 2003:CoopIS,DOA,and ODBASE.SpringerBerlin Heidelberg,2003:986-996.)，支持向量机(SVM)，朴素贝叶斯，决策树，神经网络等方法。这些分类方法很大程度上依赖于获得的文本内容的准确性。对于图片或PDF格式的文档，尤其是质量较差的文档图像，很难获得准确的文本信息，导致无法精准分类。

基于图像特征的分类方法(Shin C,Doermann D,Rosenfeld A.Classification ofdocument pages using structure-based features[J].International Journal onDocument Analysis and Recognition,2001,3(4):232-247.),主要利用文档的图像特征，如灰度直方图、区域颜色描述、纹理特征、形状特征等进行分类。常见的图像分类方法有，决策树、支持向量机、遗传算法、贝叶斯、神经网络等。本发明使用的SIVV特征(Libert J M,Orandi S,Grantham J.A 1D Spectral Image Validation/Verification Metric for Fingerprints(NIST IR 7599),National Institute ofStandards and Technology,Gaithersburg,MD,2009[J].)属于图像特征，利用SIVV特征的相关系数，对文档进行粗分类。

基于混合特征的方法(Chen F,Girgensohn A,Cooper M,et al.Genreidentification for office document search and browsing[J].InternationalJournal on Document Analysis and Recognition(IJDAR),2012,15(3):167-182.)，结合文档的图像、结构、文本特征进行文档分类。混合方法往往存在时间复杂度高，分类速度慢等问题。

发明内容：

本发明公开一种基于SIVV特征的文档图像粗分类方法，将文档图像根据SIVV特征相关系数自动分成若干类，具有鲁棒性好、准确度高、分类速度快的特点。具体如下：

一种基于SIVV特征的文档图像粗分类方法，步骤如下：

(1)对文档图像进行预处理；

(2)使用与文档图像同等大的2D Blackman窗(如图1所示)分别对每幅图进行加窗处理；

(3)对加窗后图像计算SIVV特征(如图2所示)；

(4)计算每幅图两两之间的SIVV特征的相关系数；

(5)若其中K个文档两两之间相关系数r均大于某一阈值，则认为这K个文档属于同一分类。

步骤(2)中，2D Blackman窗通过如下方式获得：

设长度为Q的一维Blackman窗的表达式如下：

w (q) = 0.42 - 0.5 \cos (\frac{2 πq}{Q - 1}) + 0.08 \cos (\frac{4 πq}{Q - 1}) - - - (1)

其中，Q＝M，q表示该一维Blackman窗中像素点的序号，且q＝1,2,…,Q；将式(1)与式(1)叉乘，得到2D Blackman窗的矩阵形式。

所述步骤(3)的详细内容是：

(31)利用式(2)计算加窗后图像的频谱图：

H (u, v) = Σ_{x = 0}^{M - 1} Σ_{y = 0}^{N - 1} \exp [2 πiy \frac{v}{N}] \exp [2 πix \frac{u}{M}] h (x, y) - - - (2)

其中，h(x,y)表示加窗后图像中对应坐标(x,y)处的像素值；M、N均取值为加窗后图像的大小；

(32)采用式(3)计算加窗后图像的二维正态化对数功率谱：

P(u,v)＝|H(u,v)|² (3)

(33)采用式(4)将式(3)转换到极坐标系下：

\{\begin{matrix} ρ = \frac{\sqrt{u^{2} + v^{2}}}{\sqrt{M^{2} + N^{2}}} \\ θ = \tan^{- 1} (\frac{v}{u}) \end{matrix} - - - (4)

采用P(ρ,θ)表示极坐标系下的功率谱，其中，ρ表示对加窗后图像的最大尺度均分；

(34)利用式(5)将所有角度θ下的P求和，得到关于ρ的功率谱：

P (ρ) = Σ_{θ = 0}^{180} P (ρ, θ) - - - (5)

从而，正态化的关于ρ的功率谱表示为：

P_{N} (ρ) = \frac{P (ρ)}{P (0)} - - - (6)

其中，ρ∈[0,0.5]周期/像素。

所述步骤(32)中，采用的正态化方法有10*lgP(u,v)或

所述方法采用式(7)计算两个SIVV特征相关系数，r∈[0,1]，r值越接近1表明两个文档属于同一个分类的可能性越大。

r = \frac{Σ_{i = 1}^{n} (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{\sqrt{Σ_{i = 1}^{n} {(x_{i} - \overset{&OverBar;}{x})}^{2} \cdot {(y_{i} - \overset{&OverBar;}{y})}^{2}}} - - - (7)

所述方法分类的阈值可以根据具体任务设定，若其中K个文档两两之间相关系数r均大于这一阈值，则认为这K个文档属于同一分类。

有益效果：

本发明提出了一种新的文档图像粗分类方法，将文档图像根据SIVV特征相关系数自动分成若干类，方法具有鲁棒性好、分类速度快的特点。能够帮助互联网文档提供商准确、快速地对大规模文档进行粗分类。

附图说明：

图1是本发明中2D Blackman窗的示意图；

图2是本发明计算出的文档图像SIVV特征的曲线图。

具体实施方式：

以下将结合附图，对本发明的技术方案进行详细说明。

一种基于SIVV特征的文档图像粗分类方法，包括如下步骤：

(1)对文档图像进行预处理；

在文档分类前，首先将原始文档图像转化为灰度图像，分割出文档有效区域，对有效区域进行去噪，此预处理后的图像作为后续步骤的操作对象；

将预处理后的文档图像与同等大小的2D Blackman窗进行对应元素相乘，得到加窗后的文档图像；其中，2D Blackman窗通过如下方式获得：

设长度为Q的一维Blackman窗的表达式如下：

w (q) = 0.42 - 0.5 \cos (\frac{2 πq}{Q - 1}) + 0.08 \cos (\frac{4 πq}{Q - 1}) - - - (1)

其中，Q＝M，q表示该一维Blackman窗中像素点的序号，且q＝1,2,…,Q。

将式(1)与式(1)叉乘，得到2D Blackman窗的矩阵形式，2D Blackman窗如图1所示。

(3)对每个加窗后图像计算SIVV特征，SIVV特征曲线图(如图2所示)。具体的计算方法是：

如式(2)，采用离散傅里叶变换计算加窗后图像的频谱图：

H (u, v) = Σ_{x = 0}^{M - 1} Σ_{y = 0}^{N - 1} \exp [2 πiy \frac{v}{N}] \exp [2 πix \frac{u}{M}] h (x, y) - - - (2)

其中，h(x,y)表示加窗后图像中对应坐标(x,y)处的像素值；M、N分别表示加窗后图像的大小。

采用式(3)计算加窗后图像的二维正态化对数功率谱：

P(u,v)＝|H(u,v)|² (3)

其中，可采用的正态化方法有10*lgP(u,v)或

利用式(4)将式(3)直角坐标系下的2D功率谱转换到极坐标系下：

\{\begin{matrix} ρ = \frac{\sqrt{u^{2} + v^{2}}}{\sqrt{M^{2} + N^{2}}} \\ θ = \tan^{- 1} (\frac{v}{u}) \end{matrix} - - - (4)

采用P(ρ,θ)表示极坐标系下的功率谱，其中，ρ表示对加窗后图像的最大尺度均分，取值范围是[0，0.5]周期/像素。

最后，利用式(5)将所有角度θ下的P求和，得到关于ρ的功率谱：

P (ρ) = Σ_{θ = 0}^{180} P (ρ, θ) - - - (5)

从而，正态化的关于ρ的功率谱表示为：

P_{N} (ρ) = \frac{P (ρ)}{P (0)} - - - (6)

其中，ρ∈[0,0.5]周期/像素。

(4)采用式(7)计算两个SIVV特征相关系数，r∈[0,1]，r值越接近1表明两个文档属于同一个分类的可能性越大。

r = \frac{Σ_{i = 1}^{n} (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{\sqrt{Σ_{i = 1}^{n} {(x_{i} - \overset{&OverBar;}{x})}^{2} \cdot {(y_{i} - \overset{&OverBar;}{y})}^{2}}} - - - (7)

分类阈值根据具体分类任务设定，一般可设定为0.7至0.9之间。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于SIVV特征的文档图像粗分类方法，其特征在于，有如下步骤：

(1)对文档图像进行预处理；

(2)使用与文档图像同等大的2D Blackman窗分别对每幅图进行加窗处理；

(3)对加窗后图像计算SIVV特征；

(4)计算每幅图两两之间的SIVV特征的相关系数；

2.如权利要求1所述的方法，其特征在于，在步骤(2)中，2D Blackman窗通过如下方式获得：

设长度为Q的一维Blackman窗的表达式如下：

w (q) = 0.42 - 0.5 \cos (\frac{2 πq}{Q - 1}) + 0.08 \cos (\frac{4 πq}{Q - 1}) - - - (1)

其中，Q＝M，q表示该一维Blackman窗中像素点的序号，且q＝1,2,…,Q；

将式(1)与式(1)叉乘，得到2D Blackman窗的矩阵形式。

3.如权利要求1所述的方法，其特征在于，所述步骤(3)的详细内容是：

(31)利用式(2)计算加窗后图像的频谱图：

H (u, v) = Σ_{x = 0}^{M - 1} Σ_{y = 0}^{N - 1} \exp [2 πiy \frac{v}{H}] \exp [2 πix \frac{u}{M}] h (x, y) - - - (2)

(32)采用式(3)计算加窗后图像的二维正态化对数功率谱：

P(u,v)＝|H(u,v)|² (3)

(33)采用式(4)将式(3)转换到极坐标系下：

\{\begin{matrix} ρ = \frac{\sqrt{u^{2} + v^{2}}}{\sqrt{M^{2} + N^{2}}} \\ θ = \tan^{- 1} (\frac{v}{u}) \end{matrix} - - - (4)

(34)利用式(5)将所有角度θ下的P求和，得到关于ρ的功率谱：

P (ρ) = Σ_{θ = 0}^{180} P (ρ, θ) - - - (5)

从而，正态化的关于ρ的功率谱表示为：

P_{N} (ρ) = \frac{P (ρ)}{P (0)} - - - (6)

其中，ρ∈[0,0.5]周期/像素。

4.如1或3所述的方法，其特征在于：所述步骤(32)中，采用的正态化方法有10*lgP(u,v)或

10 * \lg \frac{P (u, v)}{P (0,0)} .

5.如权利要求1所述的方法，其特征在于，采用式(7)计算两个SIVV特征相关系数，r∈[0,1]，r值越接近1表明两个文档属于同一个分类的可能性越,

r = \frac{Σ_{i = 1}^{n} (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{\sqrt{Σ_{i = 1}^{n} {(x_{i} - \overset{&OverBar;}{x})}^{2} \cdot {(y_{i} - \overset{&OverBar;}{y})}^{2}}} - - - (7) .

6.如权利要求1所述的方法，其特征在于，分类的阈值可以根据具体任务设定，若其中K个文档两两之间相关系数r均大于这一阈值，则认为这K个文档属于同一分类。