CN109447098B

CN109447098B - 一种基于深度语义嵌入的图像聚类算法

Info

Publication number: CN109447098B
Application number: CN201810982183.XA
Authority: CN
Inventors: 郭军; 袁璇; 许鹏飞; 柏浩; 刘宝英; 陈锋
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2022-03-18
Anticipated expiration: 2038-08-27
Also published as: CN109447098A

Abstract

本发明的一种基于深度语义嵌入的图像聚类算法，包括如下步骤：步骤1：将图像数据集分为训练集和测试集，并获得各自的数据特征空间；步骤2：求图像数据从步骤1得到的训练集的数据特征空间映射到训练集的语义空间的映射函数，通过映射函数得到测试集的语义空间；步骤3：对步骤2得到的结果作为输入层，通过自编码进行融合降维，得到低维的带有语义信息和原始特征的嵌入空间；步骤4：利用KL散度函数，在步骤4得到的低维的带有语义信息和原始特征的嵌入空间内进行聚类，如果KL散度函数收敛，则结束；否则返回步骤3，并更新步骤3的输入层。本发明有效改善了数据特征的可判别性，提高了聚类效果。

Description

一种基于深度语义嵌入的图像聚类算法

技术领域

本发明属于图像聚类与深度学习技术领域，具体涉及一种基于深度语义嵌入的图像聚类算法。

背景技术

在机器学习和计算机视觉领域，高维图像聚类是一个巨大的挑战。传统的聚类算法主要是聚焦于距离函数的优化以及分组算法的研究，这类算法包括k-means算法，高斯混合模型以及光谱聚类等。然而这些算法受限于线性嵌入很难去处理更复杂的高维数据的聚类任务。因此，为了解决更复杂的高维数据的聚类问题，融合了降维的聚类算法应运而生。

不同于上述传统的聚类算法，深度聚类算法通过学习更典型的数据特征从而可以获得更可观的聚类结果。现有的深度聚类算法分为两种方法：第一种方法是更注重于特征提取，特征提取即为通过降维算法获得更典型更低维的特征表达，在此基础上再利用传统的聚类算法来进行聚类，该方法取得了一定的聚类效果。第二种方法是集中于特征提取与聚类的结合操作，这种做法既提取了典型的特征表达又对聚类算法进行了一定的改进，使得特征提取与聚类更加的兼容，获得了更好地聚类效果。在使用第二种方法时，提出了一种重要的降维算法即自编码算法。相比于传统的降维算法，自编码有多种形式，例如传统自编码，稀疏自编码，降噪自编码等。这些不同的自编码其实就是原始数据的重构过程，通过使重构函数最小化来提取最典型的数据低维特征表达。自编码一般都包含三层网络结构，分别为输入层，输出层，以及隐藏层。我们可以通过增加隐藏层的层数来改变自编码网络的内部结构，从而获得高维数据更复杂的特征关系。

然而，即使自编码是通过分析高维数据复杂的特征关系来进行降维，对高维图像数据而言，也避免不了会丢失一些有识别力的信息。因此弥补缺失的有用信息，成为了聚类算法亟待解决的问题。

发明内容

针对现有技术中存在的问题，一种基于深度语义嵌入的图像聚类算法，包括：

步骤1：将图像数据集分为训练集和测试集，并分别提取训练集和测试集的特征作为各自的数据特征空间；

步骤2：求得图像数据从步骤1得到的训练集的数据特征空间映射到训练集的语义空间的映射函数，通过映射函数得到测试集的语义空间；

步骤3：对步骤2得到的测试集的语义空间及步骤1提取到的测试集的数据特征空间进行深度语义嵌入联合，并将联合后的测试集的语义空间和测数据特征空间作为升维的输入层，然后通过自编码对升维的输入层进行融合降维，得到低维的带有语义信息和原始特征的嵌入空间；

步骤4：利用KL散度函数，在步骤3得到的降维后的带有语义信息和原始特征的嵌入空间内进行聚类，如果KL散度函数收敛，则结束；否则返回步骤3，并更新步骤3的输入层。

进一步的，步骤1包括如下子步骤：

步骤1.1：将带视觉属性的图像数据集分为训练集和测试集，且训练集和测试集的类别无交集，视觉属性相关联；

步骤1.2：采用卷积神经网络GooleNet分别提取训练集和测试集的特征，并将得到的训练集和测试集的特征分别作为各自的数据特征空间。

进一步的，步骤2包括如下子步骤：

步骤2.1：通过公式1构建数据从数据特征空间映射到语义空间的模型，对公式1利用Sylvester函数求得映射函数W：

其中，X表示训练集的数据特征空间,S表示训练集的语义空间，W表示数据从特征空间映射到语义空间的映射函数，W^T表示数据从语义空间映射到原始特征空间的映射函数，δ表示权重系数取值为50000，F表示求矩阵的范式；

步骤2.2：利用步骤2.1得到的映射函数W通过公式2，得到测试集的语义空间：

S_u＝WU (公式2)

其中，U是数据测试集，S_u是测试集的语义空间。

进一步的，步骤3包括如下子步骤：

步骤3：对步骤2得到的测试集的语义空间及步骤1提取到的测试集的数据特征空间进行深度语义嵌入联合，并将联合后的测试集的语义空间和测数据特征空间T作为升维的输入层，然后通过由多层去噪自编码器组成的堆叠编码器对升维的输入层进行降维，最终得到低维语义嵌入特征层Z。

进一步的，步骤4包括如下子步骤：

步骤4.1：在步骤3得到的降维后的带有语义信息和原始特征的嵌入空间内，利用公式3所示的KL散度函数进行聚类：

式中，P表示软分配，Q表示辅助目标分配，z_i表示语义嵌入点，μ_j表示聚类中心点,L表示收敛函数符号；i表示第i个样本，取值范围为：1至测试集的总样本个数，j表示第j类别，取值范围为：1至测试集的总类别数；p_ij表示第i个样本分配到第j类的概率，q_ij表示第i个样本分配到第j类的辅助目标概率。

步骤4.2：通过随机梯度下降算法进行迭代，如果KL散度函数收敛，则结束迭代；否则每次迭代后先通过公式4更新语义嵌入点z_i和聚类中心点μ_j，然后将更新后的z_i带入步骤3的输入层中返回执行步骤3；

所述的随机梯度下降算法中的更新公式为：

式中：λ表示学习率，取值为0.1。

本发明提供的技术方案带来的有益效果是：

提出了一种基于深度神经网络的自编码方法来进行原始特征与语义信息的提取和嵌入，从而得到一个低维的带有语义信息和原始特征的嵌入空间。最后在更低维的嵌入语义信息的特征空间完成图像的聚类任务，有效改善了数据特征的可判别性，提高了聚类效果。

附图说明

图1为本发明方法的流程图；

图2为提取语义特征的结构图；

图3为深度语义嵌入的堆叠自编码；

图4为AWA数据集的聚类accuracy结果；

图5为CUB数据集的聚类accuracy结果；

图6为SUN数据集的聚类accuracy结果；

图7为AWA数据集的聚类NMI结果；

图8为CUB数据集的聚类NMI结果；

图9为SUN数据集的聚类NMI结果。

具体实施方式

首先介绍三种带属性的图像数据集AwA、SUN和CUB：

动物视觉属性数据集(AWA)：它是从各大图片网站收集了50类动物图片，共30475张。其中40类的所有样本作为训练数据，总共24295个样例，其他10类样本作为测试数据，共6180个样本。同时，数据集定义了85个属性，并为每个训练样例提供了利用先验知识定义的属性值。

CUB数据集：加利福尼亚理工学院鸟类数据库，这个数据库总共包含11788个样例，分为200个类别。根据实验需要，选取175类的样本作为训练数据，其余25类的样本作为测试数据使用。同时这个数据集包含312个属性，同样每个训练样例提供了人工定义的属性值。

SUN数据集：SUN数据集主要是在SUN类别数据库的基础上创建的，样本总共有14340个，共有类别717类，一般研究者们选择645/72，和707/10两种分片方式来分训练数据和测试数据的类别。本实验选择707个类别作为训练数据，其余10类作为测试数据。这个数据及包含102个属性，同样每个训练样例提供了人工定义的属性值。

以下给出本发明的具体实施方式，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

一种基于深度语义嵌入的图像聚类方法，包括以下步骤：

步骤1：将图像数据集分为训练集和测试集，并分别提取训练集和测试集的特征作为各自的数据特征空间，包括如下子步骤：

步骤1.2：采用卷积神经网络GooleNet分别提取训练集和测试集的特征，并将得到的训练集和测试集的特征分别作为各自的数据特征空间；

具体的，步骤1.2中每个训练集或测试集提取出1024维特征。

该步骤优点：本方法将视觉属性作为语义空间去连接不同的图像对象是因为，相较于其他的属性，图像的视觉属性能够提供更多有识别力的信息，这些信息可以直观的被理解，它不受图像的压缩，旋转，缩放的影响，可以被多种目标物体共享，同时它也容易被获取。在现实生活中，人类擅长通过一些和未见过的物体带有相同属性的物体来识别这些未曾见过的目标物体，例如我们可以通过曾经见过的鸟类它们共有的属性特征来识别未见过的鸟的种类。将人类的这个特性应用在本方法中，我们将视觉属性作为连接训练集和测试集的枢纽，使得我们能够把训练集中得到的结论直接用在测试集中。

步骤2：求得图像数据从步骤1得到的训练集的数据特征空间映射到训练集的语义空间的映射函数，通过映射函数得到测试集的语义空间，包括如下子步骤：

步骤2.1：通过公式1构建数据从特征空间映射到语义空间的模型，对公式1利用Sylvester函数可以求得映射矩阵W：

其中，X表示训练集的数据特征空间,S表示训练集的语义空间，W表示数据从特征空间映射到语义空间的映射函数，W^T表示数据从语义空间映射到原始特征空间的映射函数，δ表示权重系数取值为50000，F表示求矩阵的范式。

具体的，对于步骤2.1，在对公式1进行求解时，

首先，定义方法的目标函数为：

对上式进行WX＝S的替换，可变换函数形式为：

定义一个权重系数δ来解决WX＝S这个约束条件，把目标函数变为标准的二次方程，便于求解，得到：

对这个函数进行求导，最终得到：

-S(X^T-S^TW)+δ(WX-S)X^T＝0

SS^TW+δWXX^T＝SX^T+δSX^T

上式满足Sylvester函数的基本形式，通过该函数解出映射函数W。

S_u＝WU (公式2)

其中，U是数据测试集，S_u是测试集的语义空间。

该步骤优点：将训练集输入到一个基本的三层自编码网络结构中，根据训练集的数据原始特征和语义特征去提取测试集的语义空间，即X是输入层，W是隐藏层，用属性来作为数据的语义表达。在学习映射函数的过程中，X'是重构后的训练集特征空间，表示我们通过重建数据的限制也就是最小化重构错误率来保证所求的语义空间尽可能准确表达数据本身，使得语义特征提取更准确。

步骤3：对步骤2得到的测试集的语义空间及步骤1提取到的测试集的数据特征空间进行深度语义嵌入联合，并将联合后的测试集的语义空间和测数据特征空间作为升维的输入层，然后通过自编码对升维的输入层进行融合降维，得到低维的带有语义信息和原始特征的嵌入空间，其中：

所述堆叠编码器包含编码和解码的过程，每一层是一个去噪自编码器，对数据进行随机映射，让数据的某些维度设为0.采用逐层训练的方式，每一层的输出作为下一层的输入去继续进行训练，所有层编码训练完成即完成编码过程。解码过程是通过逆向训练来微调参数，以达到最小化重建损失函数的目的。本方法采用三层去噪自编码器，最终形成一个包含三个中间层h₁,h₂,h₃的深度自编码器。

我们首先利用测试集的原始特征与完整语义表达的融合T∈R^(d+s)×n作为输入层，R^(d+s)×n表示一个n行(d+s)列的矩阵，定义一个非线性映射函数f_θ，其中θ是迭代过程的权重参数，并利用零均值高斯分布初始化θ，目的是为了获得最终的低维语义嵌入特征层Z∈P^k ^×n，P^k×n表示一个n行k列的矩阵，其中k是最终提取的低维带语义嵌入的特征维度，z_i＝f_θ(t_i)∈Z,t_i∈T。那么解码阶段t_i'＝f'_θ'(z_i)∈T,z_i∈Z，利用反向传播算法来微调参数，以达到最小化重建损失函数的目的。最终形成一个包含三个中间层h₁,h₂,h₃的深度自编码器。

该步骤优点：通过这个三层复杂的中间网络更能表达高维数据复杂的特征关系，使得最终提取的带语义嵌入的低维特征更能代表数据本身，以此为基础来进行图像聚类，从而提升聚类效果。

步骤4：利用KL散度函数，在步骤4得到的降维后的带有语义信息和原始特征的嵌入空间内进行聚类，如果KL散度函数收敛，则结束；否则返回步骤3，并更新步骤3的输入层，具体包括如下子步骤：

式中，P表示软分配，代表低维的语义嵌入特征点z_i和每个聚类中心点μ_j的相似性概率，Q表示辅助目标分配，强调数据点分布带有高置信度，归一化每个中心的损失贡献，从而保证聚类分布的可信度，z_i表示语义嵌入点，μ_j表示聚类中心点,L表示收敛函数符号；i表示第i个样本，取值范围为：1至测试集的总样本个数，j表示第j类别，取值范围为：1至测试集的总类别数；p_ij表示第i个样本分配到第j类的概率，q_ij表示第i个样本分配到第j类的辅助目标概率。

在第一次聚类操作时，利用k-means聚类算法初始化聚类中心

其中c是聚类个数。

该步骤优点：KL聚类中，辅助目标分布是由软分配派生出来的，这种方法既强调数据点分布要带有高置信度，又强化预测，还能规范每个质心的损失贡献，以防止大类扭曲隐藏的特征空间，最终能够使KL优化过程同时改进聚类与特征表达。

步骤4.2：通过随机梯度下降算法进行迭代，如果KL散度函数收敛，则结束迭代；否则每次迭代后先通过公式4更新语义嵌入点z_i和聚类中心点μ_j，然后将更新后的z_i带入步骤4的输入层中返回执行步骤4，随机梯度下降算法中的更新公式为：

其中，最小化重构率为

当它的值小于0.1时则停止更新参数z_i。

该步骤优点：随机梯度下降算法(SGD)能把数据集分成N个batch，每次更新都利用一个batch的数据，可以使公式3更快地达到收敛。

下面将本方法应用在具体的数据集上来证明其更为突出的聚类效果。

(1)表中所示是三个数据集的具体信息。

数据集	样本个数	语义空间	语义维度	标签/无标签
					AwA	30475	属性	85	40/10
CUB	11788	属性	312	175/25
					SUN	14340	属性	102	707/10

表1

(2)评价标准：按照我们的聚类算法具体实施步骤，完成图像聚类任务。我们用准确率(ACC)和归一化互信息(NMI)作为聚类性能的评估标准，下面简单介绍一下两种评估标准。

ACC:对于数据集中的第i个样本，如果定义g_i作为最终获得的簇标签，h_i作为真实的标签。那么ACC的计算公式如下：

其中N是训练集中的样本个数，map(g_i)是映射函数，用于把获得的簇标签映射到真正标签上。δ是一个实现x和y匹配的函数，如果x＝y，那么δ(x,y)＝1，反之是0.

NMI：归一化信息是另一个重要的聚类评估标准。对于任意两个变量C和D，

其中I(C,D)用来计算C和D的共同信息，H(C)和H(D)是分别计算C和D熵的函数。我们定义t_l作为簇

中的样本个数，

作为第h个真实的类中的样本个数,其中t_l.h是簇

和第h个真实的类之间交叉的样本数。那么，可以通过下面的公式计算NMI：

(3)结果分析：

算法	AWA	CUB	SUN
				K-means	0.8427	0.4703	0.7417
K-means++	0.8436	0.4649	0.8
				SAE+k-means	0.9159	0.4969	0.845
DEC	0.9125	0.4902	0.8449
				DSEC	0.9307	0.5138	0.875

表2

表2展示了所有的方法在三个数据集中的聚类精确度(accuracy)，从表中我们可以看到我们的方法优于其他算法，尤其在AwA和SUN数据集中更为明显。这意味着基于深度神经网络的深度自编码在高维数据聚类任务中具有举足轻重的作用。通过对比SAE+k-means算法和DEC算法，说明语义表达在图像聚类中跟像素特征同样重要，说明语义嵌入的实现使得最终获取的低维特征更能表达数据本身。

图3、图4、图5描述了三个数据集在DEC和DSEC算法中聚类accuracy的结果。

从图中看出两种算法都随着迭代次数的增加acc值逐渐增高，最终达到收敛。我们的方法比DEC算法效果好，同时从AwA和CUB数据集上可以看出我们的算法迭代次数稍微比DEC多一点，花费的时间也相对多一点。这是因为在自编码的输入层我们的输入维度包含语义特征，相对而言维度比原始特征维度更高。SUN数据集由于数据样本比较少，两种算法的迭代次数没有明显差别，花费的时间差别也不大。

算法	AWA	CUB	SUN
				K-means	0.8373	0.6059	0.775
K-means++	0.8364	0.6009	0.8096
				DEC	0.9029	0.6304	0.8118
DSEC	0.9212	0.6447	0.8374

表3

表3展示了所有的聚类方法在三个数据集中NMI标准下的聚类结果。从图中可以看出深度聚类算法DEC和我们的DSEC算法明显优于其他传统聚类算法。同时我们的算法比DEC算法聚类性能高两个百分点左右。

图7，图8，图9展示了DEC和DSEC两种算法在NMI标准下的迭代收敛过程。从图中我们同样看出我们的算法优于DEC算法。

Claims

1.一种基于深度语义嵌入的图像聚类算法，其特征在于，包括：

步骤2：求得图像数据从步骤1得到的训练集的数据特征空间到训练集的语义空间的映射函数，通过映射函数得到测试集的语义空间；

步骤3：对步骤2得到的测试集的语义空间及步骤1提取到的测试集的数据特征空间进行深度语义嵌入联合，并将联合后的测试集的语义空间和测数据特征空间T作为升维的输入层，然后通过由多层去噪自编码器组成的堆叠编码器对升维的输入层进行降维，最终得到低维语义嵌入特征层Z；

步骤4：利用KL散度函数，在步骤3得到的降维后的带有语义信息和原始特征的嵌入空间内进行聚类，如果KL散度函数收敛，则结束；否则返回步骤3，并更新步骤3的输入层；

步骤4包括如下子步骤：

步骤4.1：在步骤3得到的低维语义嵌入特征层Z，利用公式3所示的KL散度函数进行聚类：

式中，P表示软分配，Q表示辅助目标分配，z_i表示语义嵌入点，μ_j表示聚类中心点,L表示收敛函数符号；i表示第i个样本，取值范围为：1至测试集的总样本个数，j表示第j类别，取值范围为：1至测试集的总类别数；p_ij表示第i个样本分配到第j类的概率，q_ij表示第i个样本分配到第j类的辅助目标概率；

所述的随机梯度下降算法中的更新公式为：

式中：λ表示学习率且取值为0.1。

2.如权利要求1所述的基于深度语义嵌入的图像聚类算法，其特征在于，步骤1包括如下子步骤：

3.如权利要求1所述的基于深度语义嵌入的图像聚类算法，其特征在于，步骤2包括如下子步骤：

其中，X表示训练集的数据特征空间,S表示训练集的语义空间，W表示数据从特征空间映射到语义空间的映射函数，W^T表示数据从语义空间映射到原始特征空间的映射函数，δ表示权重系数且取值为50000，F表示求矩阵的范式；

S_u＝WU (公式2)

其中，U是数据测试集，S_u是测试集的语义空间。