CN102819747B

CN102819747B - 林业业务图像自动分类方法

Info

Publication number: CN102819747B
Application number: CN201210251256.0A
Authority: CN
Inventors: 汪杭军; 寿韬; 张广群
Original assignee: Zhejiang A&F University ZAFU
Current assignee: Zhejiang A&F University ZAFU
Priority date: 2012-07-18
Filing date: 2012-07-18
Publication date: 2015-07-08
Anticipated expiration: 2032-07-18
Also published as: CN102819747A

Abstract

一种林业业务图像自动分类方法，分为训练和分类两大部分，训练部分经图像转换、在灰度图像上计算关键点集合、关键点主方向确定和特征向量生成来描述关键点、聚类和生产直方图表示图像五个步骤，分类部分经对分类图像的直方图表示、分类器分类两个步骤，最终完成。本方法根据护林员采集到的众多林业业务图像，利用这些图像数据的特点和颜色信息构建合理的视觉词汇本，将图像进行高精度的分类，分成森林火灾、非法使用林地、非法采伐、非法猎捕等七类，分别传递至各职能管理部门，实现对森林的快速、有效、及时的管理，实现森林管理的信息现代化。

Description

林业业务图像自动分类方法

技术领域

本发明涉及一种林业业务图像自动分类方法，属于森林资源监测与信息处理技术领域。

背景技术

林业具有巨大的生态、经济和社会功能，是应对经济全球化发展过程中造成的生态危机和气候变化问题的有效途径。于是对森林资源和生态保护成为各级政府重要的建设内容。而护林员作为林业工作的骨干力量，可将林业现场数据通过手机拍摄后传输到服务器。这些图像数据集中在服务器上能够根据林业业务需求进行快速地分类，并将分类结果发送到相关林业管理部门，从而可以对相关事件进行及时、有效的处理。

这种森林资源监管模式，摈弃了传统的管理手段无法准确及时了解其现状及动态，但要使林业各个管理部门，包括林业执法机构和执法队伍能够全面配合，相互协调，增强决策支持和应急处理能力，其核心是实现林业业务图像的分类。要实现林业业务图像的分类，其理论基础是建立在场景图像分类上的。而场景图像分类是在二十世纪九十年代末开始兴起的一个新的研究领域，2006年在MIT首次召开了场景理解研讨会，明确了场景分类将会是一个新的有前途的研究热点。2005年之前，场景图像分类主要采用基于底层特征(low level features)的方法和基于场景结构的方法；而从2005年至今，场景图像分类主要采用基于图像视觉词汇的方法。

最初的场景分类方法大多基于图像底层特征(图像的全局或者分块的纹理、颜色等特征)，并与监督方法相结合。但是基于低级特征的方法利用空间信息少，使得图像的中低层特征和高层语义之间存在较大的语义鸿沟，目前已经不是场景分类的研究热点。

为了能描述场景图像中各组成部分内容及其相互关系，学者们提出了基于图像局部结构或构建中间语义层的方法来分类图像，从而弥补它们之间存在的语义鸿沟。例如，Lipson等人提出的场景配置模型(scene configuration model)，Smith等人提出的组合区域模板(composite region templates)。Lipson和Smith的方法通过一定的构造组成来描述场景类别，因此在分类图像时，只需要分析测试图像的结构组成即可，无需逐个比较训练样本，这样弥补低级特征方法在表示图像语义信息方面的不足。但其缺点是，模型的设计未必能准确描述图像的语义特性，并且通常需要对图像进行分割，而图像分割本身就是一个比较复杂的问题。另外，Oliva等人使用粗糙度、宽阔度、伸展度等视觉感知属性描述场景的主要内容结构；Vogel等人定义一组局部语义概念，生成局部语义概念模型计算相应语义的出现频率进行场景分类。然后这两人的方法需要对大量的数据进行人工标注，因此限制了它们的应用范围。

Sivic等人在视频场景分类和检索中最早提出了视觉词汇的概念，将文本分类中的词袋方法(bag of words，BOW)应用到图像分类中来。

得到图像的视觉词汇后，可以直接计算BOW表示进行场景分类，也可以在BOW表示上采用文本分类中常用的概率生成主题模型进行建模，这包括Li等人的latent dirichlet allocation(LDA)模型和Bosch等人概率隐含语义分析模型(pLSA)进行无监督的场景分类。pLSA和LDA的无监督分类算法，使得训练数据不需要人工标注。

场景图像分类经过十几年的发展，取得了丰富的成果，但是往往忽略了图像的颜色信息，另外对图像的缩放非常敏感。特别是目前对场景图像分类的研究都停留在一些通用的自然风景图像上，图像不同类别差异较大。而针对林业业务的图像进行自动分类研究还未见报道。

发明内容

本发明要解决的技术问题是提供一种林业业务图像自动分类方法。

本发明所采用的技术方案分为训练和分类两大部分，具体步骤如下：

一、训练

(1)将数据库中每一幅林业业务图像从RGB颜色模型图像分别转换成HSV颜色模型图像和256级灰度图像其中i＝1，2，...，N，N为数据库中训练图像的个数；

(2)在灰度图像上，采用SURF计算关键点集合KP_i(k₁，k₂，...，k_Ni)，，其中Ni表示关键点个数，关键点k_j(x，y，s)中，j＝1，2，...，Ni，x，y表示关键点的位置，s为尺度信息；

(3)关键点描述：按步骤一(2)得到的SURF关键点，求对应像素点在HSV空间中的H颜色分量上的位置，然后分2步来实现这些关键点的描述：

a)关键点主方向确定：在图像上，以每一个关键点为圆心，以s为尺度值计算半径为6s的邻域内的点在x、y方向的Haar小波，Haar小波边长取4s响应，并给这些响应值以关键点为中心的σ＝2s高斯窗进行加权，再将60°范围内的响应相加形成新的矢量，然后遍历整个圆形区域，选择模长最长的矢量的方向为该关键点的主方向；

b)特征向量生成：在图像上，以关键点为中心，将坐标轴旋转到主方向，按照主方向选取边长为20s的正方形区域，并将该区域分成4×4的子区域，在每一个子区域内，按照5×5的大小进行采样，分别计算相对于主方向的水平和垂直方向上的Haar小波响应，记为dx和dy，同样赋予权重系数；然后对每个子区域的响应以及响应的绝对值求和，在每个子区域得到一个4维向量l＝1，...，16，则16个子区域形成一个64维的描述向量

V_{i} = {({(V_{i}^{1})}^{T}, {(V_{i}^{2})}^{T} . . ., {(V_{i}^{16})}^{T})}^{T};

(4)聚类：利用Hierarchical K-means聚类算法对图像数据库中的所有训练图像所提取的特征描述向量V进行聚类，其中聚类数目K∈[3000，8000]，将这些聚类中心形成视觉词汇本；

(5)生成直方图表示图像：用步骤一(4)得到的视觉词汇本表示图像数据库中的所有训练图像，即统计图像中所有关键点特征通过最近邻计算在视觉词汇本中出现的次数，最后图像的关键点在视觉词汇本出现的频率形成的直方图作为图像描述特征；

二、分类

(1)按步骤一(1)、(2)和(3)相同方法，得到待分类图像的所有SURF关键点的对应HSV空间中的H颜色分量，并表示成64维的特征向量，然后使用步骤一(4)获得的视觉词汇本，将该图像表示为直方图；

(2)采用SVM分类器进行分类：将待分类林业业务图像的直方图和步骤一(5)得到的所有训练图像的直方图作为SVM的输入进行分类，得到的分类结果为该图像的林业业务图像的类别。

本发明的有益效果是针对林业业务图像数据的特点，利用了图像中的颜色信息构建合理的视觉词汇本，从而对林业业务图像进行很好地描述。本发明根据林业业务管理的需求，将图像进行高精度的分类，分别将各类信息传递至各职能管理部门，满足林业部门管理的需要，实现快速、及时、准确、有效的管理。

附图说明

附图为本方法的基本流程示意图

具体实施方式

本发明下面结合实施例并参照附图作进一步详述：

用于实施的硬件环境是：Intel Core 2 Duo CPU P8400 2.26G计算机、2GB内存、256M显卡，运行的软件环境是：Windows XP sp3、Visual C++6.0和OpenCV。使用Visual C++6.0结合OpenCV实现本发明提出的方法。图像数据采用了护林员采集的各类林业业务图像2063幅。根据当前林业管理，业务图像分为：森林火灾，非法使用林地，非法采伐，森林病虫害，动物异常死亡，非法猎捕、收购、运输、贩卖野生动物，乱采乱挖珍稀野生植物等7类。

本发明分为训练和分类两大部分，具体步骤如下：

一、训练

(1)将数据库中每一幅林业业务图像从RGB颜色模型图像分别转换成HSV颜色模型图像和256级灰度图像其中i＝1，2，...，N，N为数据库中训练图像的个数，如附图所示；

SURF关键点的检测是基于尺度空间理论，采用近似的Hessian矩阵来检测关键点。其中Hessian矩阵的计算通过用框状滤波器来近似代替高斯滤波二阶导，用积分图像来加速卷积，以提高计算速度。为了使算法具有尺度不变性，检测算子具备在不同尺度下能够找到表示同一个物理位置的关键点的能力，而SURF采用不同尺寸的框状滤波器达到尺度空间分层。从9×9滤波器开始，近似σ＝1.2的高斯二阶偏导，用s表示近似模板的尺度，初始尺度为s＝σ＝1.2。用初始尺度的近似模板对图像做卷积运算得到尺度空间的第一层，然后随着尺度增加，不同尺度大小的滤波器组将对同一图像进行滤波，并可以获得各个尺度的滤波器构成的近似Hessian矩阵的行列式响应图，并由这些图构成金字塔结构的尺度空间。

对于某一像素点，用近似的Hessian矩阵求出极值后，其上一尺度、下一尺度及本尺度可构造一个3×3×3的立体邻域。在三维尺度空间(x，y，s)中，进行非最大值抑制，只有比临近的26个点的响应值都大的点才被选为关键点。最后采用三维二次函数拟合的方法对候选关键点进行精确定位。

该特征反映的是灰度图像的多尺度局部不变特征，它提供了一种具有统计意义上的图像内容描述，因而能准确反映灰度图像的本质属性。

(3)关键点描述：按步骤一(2)得到的SURF关键点，求对应像素点在HSV空间中的H颜色分量上的位置，为保证旋转不变性，然后分2步来实现这些关键点的描述：

b)特征向量生成：在图像上，以关键点为中心，将坐标轴旋转到主方向，按照主方向选取边长为20s的正方形区域，并将该区域分成4×4的子区域，在每一个子区域内，按照5×5的大小进行采样，分别计算相对于主方向的水平和垂直方向上的Haar小波响应，记为dx和dy，同样赋予权重系数；然后对每个子区域的响应以及响应的绝对值求和，在每个子区域得到一个4维向量l＝1，...，16，则16个子区域形成一个64维的描述向量见附图中特征提取部分；

(4)聚类：利用Hierarchical K-means聚类算法对图像数据库中的所有训练图像所提取的特征描述向量V进行聚类，其中聚类数目K∈[3000，8000]，本实施例中取K＝5000。将这些聚类的中心形成视觉词汇本，见附图中聚类并形成视觉词汇本部分；

(5)生成直方图表示图像：用步骤一(4)得到的视觉词汇本表示图像数据库中的所有训练图像，即统计图像中所有关键点特征通过最近邻计算在视觉词汇本中出现的次数，最后图像的关键点在视觉词汇本出现的频率形成的直方图作为图像描述特征，见附图中下半部分形成的直方图示例；

二、分类

(1)按步骤一(1)、(2)和(3)相同方法，得到待分类图像的所有SURF关键点的对应HSV空间中的H颜色分量，并表示成64维的特征向量，然后使用步骤一(4)获得的视觉词汇本，将该图像表示为直方图，见附图所示；

由于林业业务的复杂性，显然不是单一类型特征能够准确描述的。本发明的创新点在于针对林业业务图像数据的特点，通过尺度模型，融入颜色信息，提取不同分辨率下的图像特征，从而构建高效的视觉词汇本，充分利用林业图像的有效信息进行林业业务图像分类。本发明带来的优点是能够根据林业业务需求达到分类的高准确率，从而可实现有关数据信息及形成的辅助决策状况发送到相关林业管理部门进行及时、有效的处理。

Claims

1.一种林业业务图像自动分类方法，分为训练和分类两大部分，其特征是按如下步骤进行：

一、训练

(2)在灰度图像上，采用SURF计算关键点集合KP_i(k₁，k₂，...，k_Ni)，其中Ni表示关键点个数，关键点k_j(x，y，s)中，j＝1，2，...，Ni，x，y表示关键点的位置，s为尺度信息；

b)特征向量生成：在图像上，以关键点为中心，将坐标轴旋转到主方向，按照主方向选取边长为20s的正方形区域，并将该区域分成4×4的子区域，在每一个子区域内，按照5×5的大小进行采样，分别计算相对于主方向的水平和垂直方向上的Haar小波响应，记为dx和dy，同样赋予权重系数；然后对每个子区域的响应以及响应的绝对值求和，在每个子区域得到一个4维向量 l＝1，...，16，则16个子区域形成一个64维的描述向量

二、分类