CN104933438A

CN104933438A - 一种基于自编码神经网络的图像聚类方法

Info

Publication number: CN104933438A
Application number: CN201510293670.1A
Authority: CN
Inventors: 谭轼; 武艳娇; 黄利今
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-06-01
Filing date: 2015-06-01
Publication date: 2015-09-23

Abstract

本发明公开一种基于自编码神经网络的图像聚类方法，主要用于非监督学习的图像聚类等领域。此方法包括初始化网络，更新聚类网络两个部分，主要涉及到图像聚类过程。首先，利用自编码网络组成八层神经网络，并通过随机初始化得到初始权重，同时对数据随机分组得到初始的图像聚类中心；然后，在自编码网络模型中加入类内和类间聚类约束，利用加入聚类约束的目标函数对模型进行训练以更新网络结构；最后，利用更新过的网络得到对应图像的特征，在特征层进行聚类，更新聚类分组。该方法提出的在自编码神经网络中加入的类内聚类约束可以让同一类的样本在特征空间分布更加紧致，而加入的类间约束则可以让不属于同类的样本在特征空间高度可分，借助于自编码网络的高度非线性的映射能力和非监督学习能力，非常适合图像聚类。利用该方法可以实现优于传统图像聚类算法的性能。

Description

一种基于自编码神经网络的图像聚类方法

[技术领域]

本发明涉及图像处理、机器学习，特别涉及基于自编码神经网络的图像聚类方法。

[背景技术]

随着信息处理需求的增长，图像聚类亟需高效准确的算法。传统类算法如K均值算法等均存在准确率低和计算复杂度高的限制。随着非监督学习和自编码神经网络的兴起，基于自编码神经网络的图像聚类得到了研究者的重视。

不同的聚类约束直接影响聚类效果，我们提出一种新的基于自编码神经网络且同时考虑类内和类间约束的聚类算法。该方法可以将图像从原始数据空间通过自编码网络映射到特征空间，并在特征空间加入类内和类间约束，通过迭代更新自编码网络以得到最佳聚类效果。其中，类内约束可以保证同类样本的紧致分布，类间约束可以达到不同类样本互相远离。这种方法既实现了将图像从原始空间映射到特征空间，也实现了在特征空间的类内和类间约束，很好的解决了大数据背景下的图像聚类问题。

[发明内容]

为了解决现有技术存在的问题，本发明的目的是提供一种基于自编码神经网络的图像聚类方法，如图1所示，包括以下步骤：

步骤S1，利用八层自编码网络建立聚类网络结构，并利用此网络的权重作为初始权重。

步骤S2，在自编码网络的编码层加入类内和类间约束函数，使同类样本靠近其聚类中心，不同聚类中心相互远离。

步骤S3，将所有样本随机分组，并分别通过自编码网络映射到特征空间，然后计算所有组的特征表达的平均值，作为该组的聚类中心。

步骤S4，利用加入类内约束和类间约束训练自编码网络，更新网络权重，进行图像聚类。

步骤S5，利用S4得到的更新后的网络，计算所有样本的特征表达，与之前的聚类中心进行比较，将样本分配至距离最近的聚类中心。

步骤S6，利用S5中得到特征表达按新的分组计算每组的特征表达的均值作为新的聚类中心。

步骤S7，利用S6中更新的聚类中心代替S2中聚类约束函数的聚类中心。

步骤S8，转到S4并循环，直到达到训练次数或聚类网络收敛。

根据本发明的方法，可以将样本从原始图像空间通过自编码神经网络投影至特征空间，并在特征空间加入类内和类间约束，使得样本在特征空间的类内分布更加紧致，不同聚类中心互相远离，实现了较好的图像聚类结果。

[附图说明]

图1是基于自编码神经网络的图像聚类方法的流程图。

[具体实施方式]

以下结合附图详细说明本发明技术方案中所涉及的各个细节问题。应当指出的是，所描述的实施例仅旨在便于理解，对本发明不起任何限定作用。图1是本发明的流程图，如图1所示，所述方法包括以下步骤：

步骤S1，建立八层的自编码神经网络，网络的传递函数均为s i gmoi d函数。其中前4层为编码网络，后4层为解码网络，初始网络权重随机给定。

步骤S2，加入在自编码网络的编码层加入类内和类间约束函数，这样整个网络的目标函数包含三个部分：自编码约束、类内约束、类间约束。目标函数可具体表示为：

其中是对应第n个样本x_n在特征空间的聚类中心，c_i表示第i个聚类中心，f(x_n)表示样本x_n在经过编码网络在特征空间的表达，表示样本的特征表达f(x_n)经过解码网络的输出。

步骤S3，将所有样本随机分为k组，得到每个样本的初始聚类标签L＝[l₁,l₂,…,l_N]，其中N表示N个样本，l表示样本的标签，即所属的分类。然后，将所有样本通过初始网络得到对应的特征层表达，计算每组表达的均值作为初始的聚类中心C。

步骤S4，利用所有样本迭代训练自编码神经网络，优化步骤S2中的目标函数。

步骤S5，利用更新后的网络权重，重新计算所有样本的特征表达，并与之前的聚类中心进行比较，根据距离远近重新分组。

步骤S6，利用更新后分组中的样本计算每组均值，作为更新后的聚类中心。

步骤S7，利用更新后的聚类中心更新目标函数的约束。

步骤S8，转到步骤S4并循环迭代，直到自编码网络收敛，或者训练次数达到上限。

[实施例]

为了详细说明本发明的具体实施方式，以某大型手写数字图像数据集为例说明。该数据集包含5000张图像，分别包括0-9共10类不同的数字图像，每张图像大小为30*30。利用提出的聚类方法对该数据库进行图像聚类，将样本在非监督的情况下分为10类。具体步骤如下：

步骤S1，利用八层自编码网络建立聚类网络结构，网络结构为(900-500-200-100-30-100-200-500-900)，网络的传递函数均为sigmoid函数。其中前4层为编码网络，后4层为解码网络，初始网络权重随机给定。

步骤S2，在自编码网络的编码层加入类内和类间约束函数，使同类样本靠近其聚类中心，不同聚类中心相互远离。这样整个网络的目标函数包含三个部分：自编码约束、类内约束、类间约束。目标函数具体表示为：

其中是对应第n个样本x_n在特征空间的聚类中心，c_i表示第i个聚类中心，f(x_n)表示样本样本x_n在经过编码网络在特征空间的表达，表示样本的特征表达f(x_n)经过解码网络的输出。

步骤S3，将所有5000个样本随机分为10组，得到每个样本的初始聚类标签L＝[l₁,l₂,…,l_N]，其中N表示N个样本，l表示样本的标签，即所属的分类。然后，将所有样本通过初始网络得到对应的特征层表达，计算每组表达的均值作为初始的10个聚类中心C。

步骤S5，利用更新后的网络权重，重新计算所有样本的特征表达，并与之前的10个聚类中心进行比较，根据距离远近重新分为10组。

步骤S6，利用更新后分组中的样本计算10个分组的均值，作为更新后的10个聚类中心。

步骤S7，利用更新后的聚类中心更新步骤S2中目标函数的约束。

步骤S8，转到步骤S4并循环迭代，直到自编码网络收敛，或者训练次数达到50次。

以上所述，仅为本发明的具体实施方式之一，本发明的保护范围并不局限于此。任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或者替换，都应涵盖在本发明的范围之内。因此，本发明的保护范围应以权利要求书的保护范围为准。

Claims

1.一种基于自编码神经网络的图像聚类方法，主要包括步骤：

步骤S8，转到S4并循环，直到达到训练次数或聚类网络收敛。

2.根据权利要求1所述的方法，利用自编码神经网络进行图像聚类。

3.根据权利要求1所述的方法，同时利用类内和类间约束加入自编码网络的目标函数作为聚类约束。