CN104331717A

CN104331717A - 一种整合特征字典结构与视觉特征编码的图像分类方法

Info

Publication number: CN104331717A
Application number: CN201410693888.1A
Authority: CN
Inventors: 杨育彬; 朱启海
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2014-11-26
Filing date: 2014-11-26
Publication date: 2015-02-04
Anticipated expiration: 2034-11-26
Also published as: CN104331717B

Abstract

本发明公开了一种整合特征字典结构与视觉特征编码的图像分类方法，包含如下步骤：视觉特征提取；特征字典学习；视觉特征编码；特征编码的空间汇合；训练与分类。本发明能获取更为准确的图像特征表示，提升图像分类的准确率。此外，通过将特征字典中的结构信息整合到视觉特征编码过程，得到更有判别性的图像特征表示，因此使得对图像的分类更加有效。本发明实现了高效、准确的图像分类，因此具有较高的使用价值。

Description

一种整合特征字典结构与视觉特征编码的图像分类方法

技术领域

本发明涉及图像分类领域，特别是基于码书模型(Bag-of-Words，BoW)的一种整合特征字典结构与视觉特征编码的图像分类方法

背景技术

随着信息技术的不断飞速发展，各个领域每天都在以惊人的速度产生各种类型的数据，包括文字、图像、视频、音乐等。在丰富多彩的数据信息中，图像因其表现直观生动、内容丰富、信息量大，以及存储与传输方便，备受青睐，并已经成为二十一世纪最重要的信息载体之一。特别是随着照相机、手机、平板等具有拍照功能的移动设备的日益普及，以及社交网络的兴起，人们获取图像的方式越来越多，也进一步促使图像数据急剧增长，快速准确地查找所需图像和高效地管理却因此变得越来越困难。人们迫切希望计算机能帮助人类，对互联网中海量图像所蕴含的语义进行分析，并充分理解图像所表达的内容，从而更有效地对图像进行管理、分类标注，或检索感兴趣的图像。

图像分类作为计算机理解图像最主要的基础技术之一，已经受到了学术界和工业界各研究机构的广泛研究，并在国内外各权威期刊和重要学术会议上作为重要主题，是计算机视觉领域一个极重要的研究课题。图像分类是指按照一定的分类准则将图像智能化地分到一组已有定义类别中的过程，包括物体识别、场景语义分类、行为识别等。图像分类已经成为研究图像语义理解的重要技术手段。科学研究人员已经渐渐意识到以上问题的重要性并不断深入分析。近几年，码书模型为图像高层语义表示带来新的启发，以码书模型为关键技术的图像分类已取得了一定成果，但是仍有许多研究点尚未涉及，仍有巨大的突破空间。基于码书模型的图像分类方法的研究，已经成为当前人工智能、计算机视觉、机器学习和数据挖掘等诸多交叉领域中前沿性的热点，对积极推进社会信息化起到重要作用。在创造了无可替代的社会价值的同时，该领域仍有许多关键技术问题尚未解决，仍有许多功能实现需要进一步完善，因此，如何利用码书模型，更有效地理解和描述图像高层语义，以更灵活地实现图像分类的研究，具有深远的意义。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种整合特征字典结构与视觉特征编码的图像分类方法，利用特征字典中视觉单词的分布信息辅助视觉特征编码，以使编码结果更具有判别性，从而提高图像分类的准确率。

为了解决上述技术问题，本发明公开了一种整合特征字典结构与视觉特征编码的图像分类方法，包含如下步骤：

步骤1，提取图像的视觉特征：对每幅图像进行局部采样，得到一组区域块，提取每块区域的视觉特征，得到每幅图像对应的视觉特征集合，称所有图像的视觉特征集合的整体为所有图像的视觉特征集，记为集合X；

步骤2，特征字典学习：以集合X为输入，使用特征字典学习方法，得到由一组具有代表性的视觉单词组成的特征字典；

步骤3，视觉特征编码：将每幅图像的每个视觉特征表示成视觉单词的线性组合，每个视觉单词对应一个系数，称这组系数为视觉特征的编码；

步骤4，视觉特征编码的空间汇合：以每幅图像的所有视觉特征的编码为输入，使用统计方法，将每幅图像表示为一个向量，该向量就是对应图像的图像特征表示；

步骤5，将步骤4得到的每幅图像的编码作为输入，使用分类模型进行训练和分类，得到分类结果。

步骤1具体包括如下步骤：

对每幅图像I进行局部采样，采用等步长的方式做密集采样，得到若干大小相同的区域块，对每个区域块提取一个视觉特征，使用视觉特征提取方法得到表示该局部块一个视觉特征，视觉特征提取方法包括：方向梯度直方图(Histogram ofOriented Gradient,HOG)，尺度不变特征变换(Scale-invariant feature transform，SIFT)等。得到图像I的视觉特征集合LFS_I，最终得到所有图像的视觉特征集合的整体X＝[x₁,x₂,…,x_N]∈R^d×N，其中，d表示视觉特征的维度，其大小由视觉特征提取技术决定，N表示所有图像的视觉特征的总数，x_i表示第i个视觉特征，i取值1～N。

步骤2具体包括如下步骤：

以集合X为输入，使用特征字典学习方法，得到一组具有代表性的视觉单词组成的特征字典，将该特征字典记为：B＝[b₁,b₂,…,b_M]∈R^d×M，其中M为视觉单词的个数；b_j是一个维度d的列向量，表示第j个视觉单词，j取值1～M。常用的特征字典学习方法包括：k-means，K-SVD等。

步骤3具体包括如下步骤：

本步骤逐一对集合X中的每个视觉特征编码，对于视觉特征x_i，其编码过程如下：

首先，从特征字典B中选出x_i的p个最近邻的视觉单词，即与视觉特征x_i的距离最小的p个视觉单词，记这p个视觉单词组成的特征字典为B_i，p取值1～M，i取值1～N，。

其次，求出特征字典B_i中各视觉单词之间的距离所表示的矩阵D_i和计算视觉特征x_i到特征字典B_i的各视觉单词的距离表示的列向量d_i，i取值1～N。矩阵D_i的第m行s列的元素为B_i中对应视觉单词之间的距离，m，s＝1,2,…,p；d_i的第n个分量d_in表示视觉特征x_i与B_i中第n个视觉单词之间的距离，n＝1,2,…,p。距离计算公式为：σ是一个平滑参数，控制权重的下降速度，σ>0。dist(x_i,B_i)＝[dist(x_i,b_i1),dist(x_i,b_i2),…,dist(x_i,b_ip)]^T，b_il表示Bi的第l个视觉单词，l＝1,2,…,p；每个分量表示视觉特征x_i与视觉单词b_il之间的距离；max(dist(x_i,B_i))表示向量dist(x_i,B_i)的最大分量，从而使d_i中分量的值域为(0,1]。在计算一个视觉单词与其他视觉单词之间的距离时，也使用同样的策略。为加快D_i的求解速度，一次性求出B中各视觉单词之间的距离表示的矩阵D。则D_i就是D的子矩阵，通过直接索引D即可获得不同的D_i，i＝1,2,…,N。

第三，以x_i，d_i，D_i，B_i和两个参数λ和β为输入，λ,β≥0，最小化下式，得到x_i在B_i上的编码

{| | x_{i} - B_{i} z_{i}^{p} | |}_{2}^{2} + λ {| | d_{i} &CircleTimes; z_{i}^{p} | |}_{2}^{2} + β z_{i}^{p^{T}} D_{i} z_{i}^{p};

约束条件：

1^{T} z_{i}^{p} = 1,

其中表示点积，即两个向量对应的分量相乘得到一个新向量；求解得到x_i在这p个视觉单词的编码结果

最后，对编码中的分量排序，得到k个最大的编码系数及其对应的k个视觉单词构成的特征字典k＝1,2,…,p，则视觉特征x_i的编码z_i是一个M维的向量，向量中与对应的分量为其余分量都置为0。

步骤5具体包括如下步骤：

考虑每幅图像中的各视觉特征的空间统计信息，用三层的空间金字塔匹配模型(Spatial Pyramid Matching,SPM)，将一幅图像I的所有视觉特征的编码作为输入，结合最大汇合技术，则该空间金字塔输出一个维度为(2⁰+2²+2⁴)*M的向量，该向量即为I的图像特征表示。

步骤6具体包括如下步骤：

在得到各图像的图像特征表示之后，就可以将它们用于训练和分类。将所有图像的图像特征表示所构成的集合分为训练集和测试集两部分，训练集用于训练分类模型，用训练好的模型对测试集分类。通常选用支持向量机(Support Vector Machine,SVM)作为分类器模型。

本发明针对图像分类领域中的图像视觉特征编码方法，本发明具有如下特征：1)本发明在对视觉特征编码时，不仅考虑了视觉特征和视觉单词之间的关系，还考虑了视觉单词之间关系对视觉特征编码的影响；2)本发明求得的视觉特征编码是一个解析解，不需要迭代优化函数，因此本发明所述的视觉特征编码方法是快速的。

有益效果：本发明充分考虑了特征字典中视觉单词的分布这一结构信息，将该信息用于视觉特征的编码，使得视觉特征的编码更能反映特征字典中的视觉单词的分布。因此，图像的图像特征表示具有很强的判别性，从而提升图像分类的准确率。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明流程图。

图2为视觉特征提取示意图

图3为对一个视觉特征编码的流程图

图4为三层空间金字塔结构示意图。

具体实施方式

如图1所示，本发明公开了一种整合特征字典结构与视觉特征编码的图像分类方法，包含如下步骤：

步骤1，提取图像的视觉特征：对每幅图像进行局部采样，得到一组区域块，提取每块区域的视觉特征，得到每幅图像对应的视觉特征集合，将所有图像的视觉特征集合的整体记为集合X；

步骤3，视觉特征编码：将每幅图像视觉特征表示成视觉单词的线性组合，每个视觉单词对应一个系数，得到视觉特征编码集合；

步骤4，视觉特征编码的空间汇合：以每幅图像的所有视觉特的编码为输入，使用统计方法，将每幅图像表示为一个向量，该向量就是对应图像的图像特征表示；

1、步骤1包括如下步骤：

如图2所示，对于一幅图像I，通常采用等步长密集采样的方式从I抽取若干大小相等的区域块，并对每个区域块提取一个视觉特征，这里的视觉特征是一个d维向量。常用的视觉特征提取方法包括：方向梯度直方图(Histogram of OrientedGradient,HOG)，尺度不变特征变换(Scale-invariant feature transform，SIFT)等。最终得到所有图像的视觉特征集合的整体X＝[x₁,x₂,…,x_N]∈R^d×N，其中，d表示视觉特征的维度，N表示所有图像的视觉特征的总数，x_i表示第i个视觉特征，i取值1～N。X被用于步骤2作为输入，以学习得到特征字典。

2、步骤2包括如下步骤：

在本步骤以集合X为输入，使用特征字典学习方法得到M个d维的视觉单词构成的特征字典B＝[b₁,b₂,…,b_M]∈R^d×M，其中M为视觉单词的个数；b_j是一个维度d的列向量，表示第j个视觉单词，j取值1～M。以k-means方法为例，使用k-means将集合X聚为M个类，每个类中心就是一个视觉单词。

3、步骤3包括如下步骤：

本步骤逐一对集合X中的每个视觉特征编码。

如图3所示的流程图描述了一个视觉特征的编码过程，针对视觉特征x_i，选取视觉特征x_i的由步骤2得到的特征字典B中的p个最近邻的视觉单词，即与视觉特征x_i的距离最小的p个视觉单词，p取值1～M，记这p个视觉单词组成的特征字典为B_i，i取值1～N，求出特征字典B_i中各视觉单词之间的距离所表示的矩阵D_i，矩阵D_i的第m行s列的元素为B_i中对应视觉单词之间的距离，m，s＝1,2,…,p，再计算视觉特征x_i到特征字典B_i的各视觉单词的距离表示的列向量d_i，d_i的第n个分量d_in表示视觉特征x_i与B_i中第n个视觉单词之间的距离，n＝1,2,…,p；以x_i，d_i，D_i，B_i和两个参数λ与β为输入，λ,β≥0，最小化下式，得到x_i在B_i上的编码

{| | x_{i} - B_{i} z_{i}^{p} | |}_{2}^{2} + λ {| | d_{i} &CircleTimes; z_{i}^{p} | |}_{2}^{2} + β z_{i}^{p^{T}} D_{i} z_{i}^{p};

约束条件：

1^{T} z_{i}^{p} = 1,

其中表示点积，即两个向量对应的分量相乘得到一个新向量；求解得到x_i在这p个视觉单词的编码结果最后对编码中的分量排序，得到k个最大的编码系数及其对应的k个视觉单词k＝1,2,…,p，则x_i的编码z_i是一个M维的向量，向量中与对应的分量为其余分量都置为0。

视觉特征x_i在B上的具体编码方法如下：

输入：图像视觉特征x_i，特征字典B＝[b₁,b₂,…,b_M]∈R^d×M，M为B中的视觉单词数以及x_i在B上的编码的维度。x_i的最近邻单词个数p，参数k,λ和β。

编码过程：

1)计算视觉特征x_i与所有视觉单词的距离所表示的M维的向量d′_i；

2)对d′_′中分量按升序排序，并选出p个距离最小的视觉单词构成的集合B_i，及对应的距离d_i；

3)求出B_i中各视觉单词之间的距离所表示的矩阵D_i；

4)根据如下式子求出编码

Ψ＝(x_i1^T-B_i)^T(x_i1^T-B_i)

Θ＝Ψ+λ*diag²(d_i)+βD_i

α＝-(1^TΘ^-11)

{\tilde{z}}_{i}^{p} = α {(ψ + λ * {diag}^{2} (d_{i}) + β D_{i})}^{- 1}

z_{i}^{p} = {(1^{T} {\tilde{z}}_{i}^{p})}^{- 1} {\tilde{z}}_{i}^{p}

其中diag(d_i)表示对角向量是di的对角矩阵。此处1表示分量全为1的列向量；

5)对中的分量按降序排序，得到k个最大的编码系数及其对应的k个视觉单词构成的特征字典则x_i的编码z_i是一个M维的向量，向量中与对应的分量为其余分量都置为0。使用式子z_i＝(1^Tz_i)^-1z_i归一化z_i；

输出：视觉特征x_i的编码z_i。

4、步骤4包括如下步骤：

如图4所示为一个三层的空间金字塔匹配模型，在得到一幅图像的所有视觉特征编码后，采用空间金字塔匹配模型(Spatial Pyramid Matching,SPM)，结合最大汇合(Max Pooling)这一空间汇合技术，以一幅图像的所有视觉特征编码为输入，得到一个向量，该向量就是这幅图像的图像特征表示。具体操作为：以图像中心为原点，使用不同尺度，递归地划分为若干子区域，例如图4中使用三层的空间金字塔匹配模型，一共有2⁰+2²+2⁴＝21个子区域。对于第a个区域，a取值1～21，使用最大汇合技术得到该区域的编码该式子表示这个图像子区域一共有t个视觉特征；a_t表示该区域的第h个视觉特征的编码，h取值1～t；z′_a是一个维度和z_ah相同的列向量，即其维度为M，它的第q个分量是矩阵的对应行的最大值，即q取值1～M。进一步将z′_q归一化，例如使用2范数归一化得z′_q＝z′_q/||z′_q||₂。最后将各子区域的编码依次拼接，得到该图像的图像特征表示。

5、步骤5包括如下步骤：

在得到所有图像的图像特征表示后，用作为训练集的图像的图像特征表示训练SVM分类模型，再使用训练好的SVM模型对用作测试集的图像的图像特征表示分类。

实施例1

本实施例包括以下部分：

1、首先将图像缩小到不超过300×300的尺寸，并转化为灰度图，然后采用密集采样策略，从图像中抽取16×16像素的图像块，每隔6像素抽取一次，对每个图像块提取一个SIFT特征。因此一幅图像可能包含成百上千个特征，取决于提取特征时的图像块大小和间隔大小。

2、首先使用k-均值(k-means)将所有图像视觉特征聚为M个簇，每个簇中心就代表一个视觉单词。设定最近邻视觉单词个数p，密集近邻视觉单词个数k，距离平滑参数σ，正则化参数λ和β。对每个视觉特征编码。

3、使用空间金子匹配模型和最大汇合技术，将每幅图像的所有视觉特征编码汇合为一个向量作为该图像的图像特征表示。并使用支持向量机模型对图像进行训练和分类。

实施例2

对图像提取维度为128的视觉特征，特征字典的大小及视觉单词的的数量设置为1024。分别将p和k设置为10和5。其它的参数设置还包括：λ＝10^-4，β＝10^-4。使用3层的空间金子塔匹配及最大汇合技术。得到每个图像的21504维的图像特征表示。使用作为训练集的图像的图像特征表示训练SVM分类模型，并用训练好的模型对作为测试集的图像的图像特征表示分类，得到最终的分类结果。

本发明提供了一种整合特征字典结构与视觉特征编码的图像分类方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种整合特征字典结构与视觉特征编码的图像分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1包括如下步骤：

对于图像I进行局部采样，每次采样得到一个区域块，每个区域块提取一个视觉特征，得到图像I的视觉特征集合LFS_I，最终得到所有图像的视觉特征集合X＝[x₁,x₂,…,x_N]∈R^d×N，其中，d表示视觉特征的维度，N表示所有图像的视觉特征的总数，x_i表示第i个视觉特征，i取值1～N。

3.根据权利要求2所述的方法，其特征在于，步骤2包括如下步骤：

以集合X为输入，使用特征字典学习方法，得到由一组具有代表性的视觉单词组成的特征字典，将该特征字典记为：B＝[b₁,b₂,…,b_M]∈R^d×M，其中M为视觉单词的个数；b_j是一个维度d的列向量，表示第j个视觉单词，j取值1～M。

4.根据权利要求3所述的方法，其特征在于，步骤3包括如下步骤：

针对视觉特征x_i，选取视觉特征x_i的由步骤2得到的特征字典B中的p个最近邻的视觉单词，即与视觉特征x_i的距离最小的p个视觉单词，p取值1～M，记这p个视觉单词组成的特征字典为B_i，i取值1～N，求出特征字典B_i中各视觉单词之间的距离所表示的矩阵D_i，矩阵D_i的第m行s列的元素为特征字典B_i中对应视觉单词之间的距离，m，s＝1,2,…,p；再计算视觉特征x_i到特征字典B_i的各视觉单词的距离表示的列向量d_i，d_i的第n个分量d_in表示视觉特征x_i与B_i中第n个视觉单词之间的距离，n＝1,2,…,p，以x_i，d_i，D_i，B_i和两个参数λ与β为输入，λ,β≥0，最小化下式，得到x_i在B_i上的编码

{| | x_{i} - B_{i} z_{i}^{p} | |}_{2}^{2} + λ {| | d_{i} &CircleTimes; z_{i}^{p} | |}_{2}^{2} + {βz}_{i}^{p^{T}} D_{i} z_{i}^{p},

约束条件：

1^{T} z_{i}^{p} = 1

其中表示点积，即两个向量对应的分量相乘得到一个新向量；求解得到x_i在这p个视觉单词的编码结果最后对编码中的分量排序，得到k个最大的编码系数及其对应的k个视觉单词构成的特征字典k＝1,2,…,p，则视觉特征x_i的编码z_i是一个M维的向量，向量中与对应的分量为其余分量都置为0。

5.根据权利要求4所述的方法，其特征在于，步骤5包括如下步骤：采用空间金字塔匹配模型，将每幅图像的所有视觉特征的编码汇合成一个向量作为该图像的图像特征表示。

6.根据权利要求5所述方法，其特征在于，步骤6包括如下步骤：得到所有图像的图像特征表示所构成的集合后，将该集合分为训练集和测试集两部分，训练集用于训练分类模型，用训练好的模型对测试集分类。