CN108229505A

CN108229505A - 基于fisher多级字典学习的图像分类方法

Info

Publication number: CN108229505A
Application number: CN201810112205.7A
Authority: CN
Inventors: 朱松豪; 雎学文; 荆晓远; 冷婷
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2018-06-29
Anticipated expiration: 2038-02-05
Also published as: CN108229505B

Abstract

本发明公开了一种基于FISHER多级字典学习的图像分类方法，包括步骤：构建一个图像分类***，导入样本图像，利用超完备字典上的稀疏表示矩阵对每个样本图像进行初步的适当分类；将上述经过超完备字典分类的图像基于FISHER多级字典进行不同层级上的学习，获得每个类别图像的具体信息和共同信息；使用FISHER判别准则的判别式对不同层级上字典的区分能力进行增强，形成最佳的图像分类判别标准；本发明提供的基于FISHER多级字典学习的图像分类方法可以更好地捕捉各种图像相较于其他图像最具有区别性的特征，以及各图像自身具备的最独特的特性，提升了分辨效率和准确率。

Description

基于FISHER多级字典学习的图像分类方法

技术领域

本发明涉及图像处理技术领域，涉及一种图像分类方法，尤其涉及一种基于FISHER多级字典学习的图像分类方法。

背景技术

疏编码已经成为计算机视觉和模式识别领域的热门话题，并且已经被广泛应用于处理多种问题，如图像超分辨率，图像去噪，图像检索，图像分类，对象检测，以及事件检测。稀疏编码的核心思想是将每个图像特征向量作为来自过度完整字典的几个原子的线性组合进行编码，稀疏编码的各种应用表明了区分特征在处理不同问题中的重要性。

在过去的十年中，已经发展了很多技术来提高稀疏编码和字典学习的性能，从而在图像分类上产生了许多最新的成果；例如：SRC是一种基于数据自我表示的方法，可以有效地从图像训练集中学习每个测试图像的L1稀疏表示。K‐SVD是一种基于广义K均值聚类的方法，其目的是通过迭代地处理稀疏编码和字典更新的问题，从训练样本中有效地学习一个过完全字典。DK‐SVD是一种基于判别性K‐SVD模型的方法，通过在目标函数中添加一个类别误差项，从训练样本中捕获过度完整的字典，使字典更具有判别性；LC‐SVD是一种基于标签一致 K‐SVD模型的方法，通过在目标函数中引入一个二进制矩阵，迫使相同类别样本的稀疏表示更加相似，不同类别样本的稀疏表示更加不相似；SIDL是一种基于类别唯一字典模型的方法，通过在目标函数中引入一个结构化的非相干正则化项，有助于获得同类的样本的更相似的稀疏表示；SCDL是一种基于监督字典学习模型的方法，其目的是通过学习类别唯一字典和表示残差来提高分类准确性，以使表示系数更加区分；上述提到的图像分别方法可以

发明内容

本发明的主要目的在于解决现有技术中存在的图像分类精准度不够高的问题，提供一种基于FISHER多级字典学习的图像分类方法，具体技术方案如下：

一种基于FISHER多级字典学习的图像分类方法，包括如下步骤：

构建一个图像分类***，导入样本图像，利用超完备字典上的稀疏表示矩阵对每个样本图像进行初步的适当分类；

将上述经过超完备字典分类的图像基于FISHER多级字典进行不同层级上的学习，获得每个类别图像的具体信息和共同信息；

使用FISHER判别准则的判别式对不同层级上字典的区分能力进行增强，形成最佳的图像分类判别标准。

本发明的进一步改进，还包括步骤，通过超完备字典上的稀疏编码将样本图像引导到一个矩阵；其中，所述矩阵中每一类是矢量化训练图像样本。

本发明的进一步改进，所述经过超完备字典分类的图像在FISHER 多级字典的不同层级上进行了类别唯一字典和类别共享字典的学习，用以学习同同一类别内每个图像的细微差别特征和独特判断特征。

本发明的进一步改进，还包括步骤，首先，在所述FISHER字典的一个层级上将每个图像样本分成预设数量的图像块，通过所述图像块构建关联所述类别唯一字典的第一稀疏表示矩阵和关联所述类别共享字典的第二稀疏表示矩阵；

然后，通过所述FISHER字典的另一个层级将所述图像块逐行连接起来。

本发明的进一步改进，确定对应所述类别唯一字典的第一稀疏编码系数矩阵和对应所述类别共享字典的第二稀疏编码系数矩阵。

本发明的进一步改进，所述FISHER多级字典学习还包括优化过程，其中，所述优化过程包括：

确定所述类别共享字典和类别唯一字典，以及与所述类别共享字典对应的第一稀疏编码系数矩阵和与所述类别唯一字典对应的第二编码系数矩阵，并按类别更新所述第一稀疏编码系数矩阵和第二编码系数矩阵的类别；

确定所述第一稀疏编码系数矩阵、第二编码系数矩阵、类别共享字典和所述类别唯一字典，并更新所述FISHER多级字典中不同级别上的所述类别共享字典和所述类别唯一字典。

本发明的进一步改进，还包括步骤，求解更新后所述第一编码系数矩阵、第二编码系数矩阵、类别唯一字典以及所述类别共享字典的表达式。

本发明的进一步改进，所述图像分类***基于CoLBP特征和GSS 特征建立形成。

本发明实施例中，基于CoLBP特征和GSS特征建立一个图像分类***，首先将样本图像导入到图像分类***中，通过超完备字典中的稀疏表示矩阵对样本图像进行初步的分类，同时，通过超完备字典上的稀疏编码将样本图像引导到一个矩阵中，然后在FISHER多级字典的不同层级中进行类别唯一字典和类别共享字典的学习，得到每个图像的细微差别特征和独特判断特征；随后使用FISHER多级字典中的 FISHER判别准则的判别式对不同层级上的类别唯一字典和类别共享字典进行增强，即更新，使其判别能力最佳；最后可得到通过FISHER 多级字典形成的一个新的图像分类准则，实现对不同种类图像的准确分类；本发明可以更好地捕捉每个图像相较于其他图像最具有区别性的特征，以及各图像自身具备的最独特的特性，提升了分辨效率和准确率。

附图说明

图1为本发明所述方法的流程示意图；

图2为本发明所述字典学习的框架示意图；

图3、图4和图5为本发明所述方法与其他方法准确率对比示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例,附图中给出了本发明的较佳实施例。本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例，相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1和图2，在本发明实施例中，提供了一种基于FISHER 多级字典学习的图像分类方法，此方法旨在减少分类错误，保证达到最佳分类效果，所述方法包括步骤：

S1：构建一个图像分类***，导入样本图像，利用超完备字典上的稀疏表示矩阵对每个样本图像进行初步的适当分类；

在本发明实施例中，为了达到图像分类可以达到最佳效果，首先基于CoLBP特征和GSS特征建立一个图像分类***，将预设的样本图像导入至所述图像分类***中，利用超完备合成字典所得到的稀疏表示，通过神经网络，支持向量机或线性分类器等分类方法将每个测试图像分类到适当的类别。

在实施例中，对于基于字典学习的图像分类方法，每个图像被描述为从训练样本中学习的超完备字典内的几个原子的稀疏线性组合，并且利用超完备字典上的稀疏表示矩阵将每个测试样本分类为适当的类别。稀疏编码过程是将训练样本引导到矩阵X的过程，在这个过程中通过正交匹配追踪方法进行稀疏表示学习，以及通过K-奇异值分解方法进行字典原子更新，表示如下：

其中训练集X是L×N矩阵，L是每个训练图像样本的维数，N 是所有训练图像样本的数量，并且X的每一列是矢量化训练图像样本。鉴别合成字典D是一个L×T超完备矩阵，每列是一个原子，D 的每一列是单位L2范数。A是字典D上X的一个T×N稀疏系数矩阵。

S2：将上述经过超完备字典分类的图像基于FISHER多级字典进行不同层级上的学习，获得每个类别图像的具体信息和共同信息；以及使用FISHER判别准则的判别式对不同层级上字典的区分能力进行增强，形成最佳的图像分类判别标准。

在本发明实施例中，所述图像分类方法基于所述FISHER多级字典进行学习，主要学习两个不同级别的类别唯一字典和类别共享字典，其中，第一级的字典学习旨在学习同一类别内每个图像的细微差别特征，而第二级的字典学习旨在学习每个类别的独特判别特征。

详细地，在第一级中，每个图像被分成几个块相应的类别唯一字典类别共享字典在类别唯一字典上关联的稀疏表示矩阵和在类别共享字典上的稀疏表示矩阵通过这些单独的图像块构建；而在第二级中，图像块被逐行连接，以构造类别唯一字典上的稀疏表示矩阵和类别共享字典上的稀疏表示矩阵

假设训练集X＝[X₁,X₂,……,X_C]中有C个类别，X_j€R^L×Nj(j＝1, 2,……,C)是第j个类别训练集，其中L是每个训练样本的维度，Nj 是第j个类别训练样本的数量；那么在类别唯一判别性字典D_j ^u€R^L×Mj上的X_j€R^L×Nj的稀疏系数矩阵是A_j ^u€R^Mj×Nj，其中M_j是D_j ^u和A_j ^u中的原子数目；在类别共享判别性字典D^s€R^L×M上的X€R^L×N的稀疏系数矩阵是A^s€R^M×N，其中M是D_j ^u和A_j ^u中的原子数目，N是所有训练样本的数量。

根据稀疏编码的目的，所产生的判别式字典D应尽可能地用来重构训练样本X，并尽可能地用来区分训练样本的特征。因此，所提出的结构化字典学习模型可以使用以下形式来制定：

其中

以及

其中α₁是控制第二级别的类别唯一系数矩阵和类别共享系数矩阵的贡献的参数，α₂和α₃是控制不同级别的判别系数项f(.)的贡献的参数。

在实施例中，和为约束条件，和为判别系数术语，具体的，用表示第j个训练样本在判别性字典的稀疏系数，其中是第j个类别判别性字典的第j个类别训练样本的稀疏系数，是第j个训练样本在判别性字典上的稀疏系数；为了使类别唯一字典更具有区分性以表示相应的第j个训练样本在此引入以下约束条件：

同样，要很好地描述第j个类别的特征，下述的第二个级别中的常数项也是满足的：

假设第j个训练样本应该由对应的类别唯一字典来表示，而不是其他类别唯一字典这意味着应该是连贯的，以便尽可能小，应该是不相关的，这样几乎是一个零矩阵，并且下面的形式尽可能小：

同样，为了很好地表示第i类超稀疏合成字典中第j类稀疏表示的不一致性，下面的表达形式也应尽可能小：

这里引入项来使上的的稀疏系数更具有判别性。根据 FISHER线性判别准则，上述目的可以通过使由表示的的类内离散最小化以及使由表示的A的类间离散最大化来获得，其中，和的公式如下：

其中和分别是和的均值向量，是第j类训练样本的数量。基于上述分析，判别系数项被表示为：

类似地，判别系数项的表达形式被表示为：

其中

基于上面的等式，所提出的FISHER分级字典模型被定义为：

通过学习有区别的字典和稀疏系数，类别唯一字典和类别共享字典可以更加容易被区分。

更进一步的，在本发明实施例中，FISHER多级字典学习的优化过程可分为三个子过程：

首先通过确定类别共享字典类别唯一字典以及所有其他和在第一级中按类别更新稀疏编码系数矩阵和类别；通过确定类别共享字典类别唯一字典以及所有其他和在第二级中按类别更新稀疏编码系数矩阵和类别。

然后通过确定稀疏编码系数矩阵和类别共享字典在第一级中按类别更新类别唯一字典类别；通过确定稀疏编码系数矩阵和类别唯一字典在第二级中按类别更新类别共享字典类别。

最后通过确定稀疏编码系数矩阵和类别唯一字典更新第一级别的类别共享字典通过确定稀疏编码系数矩阵和类别唯一字典更新第二级别的类别共享字典

在本发明实施例中，更新稀疏系数矩阵，类别唯一字典和以及类别共享字典的具体过程描述如下：

考虑到第一级中的类别共享字典类别唯一字典是固定的，则目标函数(13)被减少为备用编码问题，并且稀疏系数矩阵和按类别更新；在基于第j类训练样本更新和的过程中，所有其他训练样本是固定的，并忽略与和无关的判别性项，从而使目标函数(13)被简化为下面的表达形式：

其中

其中是以均值向量的个副本作为列向量的均值向量矩阵,和是以均值向量和的个副本作为列向量的均值向量矩阵；类似地，通过以的个副本作为列向量来构造，和是以和的个副本作为列向量来构造的。

利用学习过的稀疏表示矩阵和按类别更新类别特定字典和并且所有其他字典和是固定的。此外，稀疏系数矩阵和也需要更新以满足约束和在这种情况下，目标函数(13)被简化为下面的形式：

利用所有更新和确定的稀疏系数矩阵和特定类别字典，目标函数 (13)被简化为以下形式：

具体步骤见算法：

(1)输入：

培训样品X和参数α₁,α₂和α₃；

(2)初始化：

分别采用K-奇异值分解方法对不同层次的分类字典和分类字典进行初始化；利用正交匹配追踪方法分别对不同级别的字典和类别共享字典的相关稀疏表示矩阵进行初始化。

(3)学习程序：

通过迭代投影算法解决问题(14)来确定类别唯一字典和类别共享字典并且更新稀疏表示矩阵类别；问题(16)来确定稀疏表示矩阵和类别共享字典并且更新类别唯一字典和相干稀疏表示矩阵类别；解决问题(17)来确定稀疏表示矩阵和类别唯一字典并且更新类别共享字典

(4)输出：

稀疏系数矩阵和类别唯一字典和类别共享字典

本发明提供的图像分类方法利用给定的类别唯一字典和类别共享类别，可以通过对每个测试样本编码来对它们进行分类，这里使用多线性支持向量机算法作为分类器，通过将不同级别的类别唯一字典的稀疏表示矩阵作为输入特征来训练分类器，对于学习的多重线性支持向量机，使用等额投票法得到每个测试样本的最终分类结果。

结合图3、图4和图5，在本发明实施例中，为了评估所提出的方法的有效性和鲁棒性，在扩展YaleB数据库，AR数据库和STL-10 数据库三个公共视频数据集上进行实验，以证明所提出方法的有效性，具体如下所述：

将所提出的方法的性能与其他六种最先进的方法进行比较，包括基于稀疏表示的方法(简写为SRC)，基于k值奇异值分解方法(简写为K-SVD)，标号一致的基于k值奇异值分解方法(简写为 LC-KSVD)，基于低秩双字典学习的方法(简写为LRDDL)，基于层次化字典学习方法(简写为HDL)，基于Fisher判别字典学习方法(简称为FDDL)，基于局部约束线性编码方法(简写为LCLC)。

几十年来，特征选择问题一直是一个活跃的研究课题，因为特征选择可能对最终的分类结果有很大的影响。在目前的成果中，提取了以下的低级特征作为视觉描述符，包括基于尺度不变特征变换的 36-D金字塔小波纹理和词袋。对于扩展的YaleB数据库和STL-10数据库，第一级别的类别唯一字典和类别共享字典的原子分别设置为 600和150，第二级别的类别唯一字典和类别共享字典的原子分别设置为200和50。对于AR数据库，第一级别的类别唯一字典和类别共享字典的原子分别设置为120和30，第二级别的类别唯一字典和类别共享字典的原子分别设置为60和20。

本发明提出的方法有三个参数，包括α₁，α₂和α₃，优选的，基于交叉验证，这三个参数α₁，α₂和α₃分别被设置为0.5,0.2和0.1。

扩展YaleB数据库由来自38个人的2414张人脸图像组成，每个人有大约64张图像，这些图像在实验室控制的各种照明条件下被捕获，尺寸是192×168像素；对于每个类别，随机选择25个图像来构造训练集，剩下的作为测试集；图3中列出了本文所提出的方法和其他现有技术方法的实验结果，从图3可以看出，所提出的方法获得了最高的准确率，这表明本文所提出的方法比其他先进的方法构造出更具辨别度的类别唯一字典和类别共享字典。

AR数据库由126个人的4000多幅面部图像组成，对于每个人， 26个大小为60×43像素的正面图像在两个不同场景中被捕获，对于每一个人，在第一种场景的各种照明条件和表情变化下随机选择7个图像构建训练样本，在第二个场景中选择7个与第一个场景条件相同的图像构建测试样本，图4中列出了本文所提出的方法和其他现有技术方法的实验结果。

从图4可以得出与图3相同的结论，与其他现有技术方法相比，本发明所提出的方法构造了更具辨别度的类别唯一字典和类别共享字典。

STL-10数据库由9000张96×96像素的图像组成，包括飞机、船、汽车、树干、鸟、猫、狗、鹿、马、猴等十大类的物体，这9000 张图像包含1000个训练图像和8000个测试图像，每个图像包含100 个训练图像和800个测试图像。

图5中列出了本文所提出的方法和其他现有技术方法的实验结果，从图4和图3可以得出类似的结论，本发明所提出的图像分类方法与其他最先进的方法想比，可以更好地捕获每个类别的最具有区别性的特征。

以上仅为本发明的较佳实施例，但并不限制本发明的专利范围，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明专利保护范围之内。

Claims

1.基于FISHER多级字典学习的图像分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于FISHER多级字典学习的图像分类方法，其特征在于，还包括步骤，通过超完备字典上的稀疏编码将样本图像引导到一个矩阵；其中，所述矩阵中每一类是矢量化训练图像样本。

3.根据权利要求1所述的基于FISHER多级字典学习的图像分类方法，其特征在于，所述经过超完备字典分类的图像在FISHER多级字典的不同层级上进行了类别唯一字典和类别共享字典的学习，用以学习同同一类别内每个图像的细微差别特征和独特判断特征。

4.根据权利要求3所述的基于FISHER多级字典学习的图像分类方法，其特征在于，还包括步骤，首先，在所述FISHER字典的一个层级上将每个图像样本分成预设数量的图像块，通过所述图像块构建关联所述类别唯一字典的第一稀疏表示矩阵和关联所述类别共享字典的第二稀疏表示矩阵；

5.根据权利要求4所述的基于FISHER多级字典学习的图像分类方法，其特征在于，确定对应所述类别唯一字典的第一稀疏编码系数矩阵和对应所述类别共享字典的第二稀疏编码系数矩阵。

6.根据权利要求5所述的基于FISHER多级字典学习的图像分类方法，其特征在于，所述FISHER多级字典学习还包括优化过程，其中，所述优化过程包括：

7.根据权利要求6所述的基于FISHER多级字典学习的图像分类方法，其特征在于，还包括步骤，求解更新后所述第一编码系数矩阵、第二编码系数矩阵、类别唯一字典以及所述类别共享字典的表达式。

8.根据权利要求1所述的基于FISHER多级字典学习的图像分类方法，其特征在于，所述图像分类***基于CoLBP特征和GSS特征建立形成。