CN104933438A - 一种基于自编码神经网络的图像聚类方法 - Google Patents

一种基于自编码神经网络的图像聚类方法 Download PDF

Info

Publication number
CN104933438A
CN104933438A CN201510293670.1A CN201510293670A CN104933438A CN 104933438 A CN104933438 A CN 104933438A CN 201510293670 A CN201510293670 A CN 201510293670A CN 104933438 A CN104933438 A CN 104933438A
Authority
CN
China
Prior art keywords
network
clustering
class
cluster centre
utilizes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510293670.1A
Other languages
English (en)
Inventor
谭轼
武艳娇
黄利今
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510293670.1A priority Critical patent/CN104933438A/zh
Publication of CN104933438A publication Critical patent/CN104933438A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种基于自编码神经网络的图像聚类方法,主要用于非监督学习的图像聚类等领域。此方法包括初始化网络,更新聚类网络两个部分,主要涉及到图像聚类过程。首先,利用自编码网络组成八层神经网络,并通过随机初始化得到初始权重,同时对数据随机分组得到初始的图像聚类中心;然后,在自编码网络模型中加入类内和类间聚类约束,利用加入聚类约束的目标函数对模型进行训练以更新网络结构;最后,利用更新过的网络得到对应图像的特征,在特征层进行聚类,更新聚类分组。该方法提出的在自编码神经网络中加入的类内聚类约束可以让同一类的样本在特征空间分布更加紧致,而加入的类间约束则可以让不属于同类的样本在特征空间高度可分,借助于自编码网络的高度非线性的映射能力和非监督学习能力,非常适合图像聚类。利用该方法可以实现优于传统图像聚类算法的性能。

Description

一种基于自编码神经网络的图像聚类方法
[技术领域]
本发明涉及图像处理、机器学习,特别涉及基于自编码神经网络的图像聚类方法。
[背景技术]
随着信息处理需求的增长,图像聚类亟需高效准确的算法。传统类算法如K均值算法等均存在准确率低和计算复杂度高的限制。随着非监督学习和自编码神经网络的兴起,基于自编码神经网络的图像聚类得到了研究者的重视。
不同的聚类约束直接影响聚类效果,我们提出一种新的基于自编码神经网络且同时考虑类内和类间约束的聚类算法。该方法可以将图像从原始数据空间通过自编码网络映射到特征空间,并在特征空间加入类内和类间约束,通过迭代更新自编码网络以得到最佳聚类效果。其中,类内约束可以保证同类样本的紧致分布,类间约束可以达到不同类样本互相远离。这种方法既实现了将图像从原始空间映射到特征空间,也实现了在特征空间的类内和类间约束,很好的解决了大数据背景下的图像聚类问题。
[发明内容]
为了解决现有技术存在的问题,本发明的目的是提供一种基于自编码神经网络的图像聚类方法,如图1所示,包括以下步骤:
步骤S1,利用八层自编码网络建立聚类网络结构,并利用此网络的权重作为初始权重。
步骤S2,在自编码网络的编码层加入类内和类间约束函数,使同类样本靠近其聚类中心,不同聚类中心相互远离。
步骤S3,将所有样本随机分组,并分别通过自编码网络映射到特征空间,然后计算所有组的特征表达的平均值,作为该组的聚类中心。
步骤S4,利用加入类内约束和类间约束训练自编码网络,更新网络权重,进行图像聚类。
步骤S5,利用S4得到的更新后的网络,计算所有样本的特征表达,与之前的聚类中心进行比较,将样本分配至距离最近的聚类中心。
步骤S6,利用S5中得到特征表达按新的分组计算每组的特征表达的均值作为新的聚类中心。
步骤S7,利用S6中更新的聚类中心代替S2中聚类约束函数的聚类中心。
步骤S8,转到S4并循环,直到达到训练次数或聚类网络收敛。
根据本发明的方法,可以将样本从原始图像空间通过自编码神经网络投影至特征空间,并在特征空间加入类内和类间约束,使得样本在特征空间的类内分布更加紧致,不同聚类中心互相远离,实现了较好的图像聚类结果。
[附图说明]
图1是基于自编码神经网络的图像聚类方法的流程图。
[具体实施方式]
以下结合附图详细说明本发明技术方案中所涉及的各个细节问题。应当指出的是,所描述的实施例仅旨在便于理解,对本发明不起任何限定作用。图1是本发明的流程图,如图1所示,所述方法包括以下步骤:
步骤S1,建立八层的自编码神经网络,网络的传递函数均为s i gmoi d函数。其中前4层为编码网络,后4层为解码网络,初始网络权重随机给定。
步骤S2,加入在自编码网络的编码层加入类内和类间约束函数,这样整个网络的目标函数包含三个部分:自编码约束、类内约束、类间约束。目标函数可具体表示为:
其中是对应第n个样本xn在特征空间的聚类中心,ci表示第i个聚类中心,f(xn)表示样本xn在经过编码网络在特征空间的表达,表示样本的特征表达f(xn)经过解码网络的输出。
步骤S3,将所有样本随机分为k组,得到每个样本的初始聚类标签L=[l1,l2,…,lN],其中N表示N个样本,l表示样本的标签,即所属的分类。然后,将所有样本通过初始网络得到对应的特征层表达,计算每组表达的均值作为初始的聚类中心C。
步骤S4,利用所有样本迭代训练自编码神经网络,优化步骤S2中的目标函数。
步骤S5,利用更新后的网络权重,重新计算所有样本的特征表达,并与之前的聚类中心进行比较,根据距离远近重新分组。
步骤S6,利用更新后分组中的样本计算每组均值,作为更新后的聚类中心。
步骤S7,利用更新后的聚类中心更新目标函数的约束。
步骤S8,转到步骤S4并循环迭代,直到自编码网络收敛,或者训练次数达到上限。
[实施例]
为了详细说明本发明的具体实施方式,以某大型手写数字图像数据集为例说明。该数据集包含5000张图像,分别包括0-9共10类不同的数字图像,每张图像大小为30*30。利用提出的聚类方法对该数据库进行图像聚类,将样本在非监督的情况下分为10类。具体步骤如下:
步骤S1,利用八层自编码网络建立聚类网络结构,网络结构为(900-500-200-100-30-100-200-500-900),网络的传递函数均为sigmoid函数。其中前4层为编码网络,后4层为解码网络,初始网络权重随机给定。
步骤S2,在自编码网络的编码层加入类内和类间约束函数,使同类样本靠近其聚类中心,不同聚类中心相互远离。这样整个网络的目标函数包含三个部分:自编码约束、类内约束、类间约束。目标函数具体表示为:
其中是对应第n个样本xn在特征空间的聚类中心,ci表示第i个聚类中心,f(xn)表示样本样本xn在经过编码网络在特征空间的表达,表示样本的特征表达f(xn)经过解码网络的输出。
步骤S3,将所有5000个样本随机分为10组,得到每个样本的初始聚类标签L=[l1,l2,…,lN],其中N表示N个样本,l表示样本的标签,即所属的分类。然后,将所有样本通过初始网络得到对应的特征层表达,计算每组表达的均值作为初始的10个聚类中心C。
步骤S4,利用所有样本迭代训练自编码神经网络,优化步骤S2中的目标函数。
步骤S5,利用更新后的网络权重,重新计算所有样本的特征表达,并与之前的10个聚类中心进行比较,根据距离远近重新分为10组。
步骤S6,利用更新后分组中的样本计算10个分组的均值,作为更新后的10个聚类中心。
步骤S7,利用更新后的聚类中心更新步骤S2中目标函数的约束。
步骤S8,转到步骤S4并循环迭代,直到自编码网络收敛,或者训练次数达到50次。
以上所述,仅为本发明的具体实施方式之一,本发明的保护范围并不局限于此。任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或者替换,都应涵盖在本发明的范围之内。因此,本发明的保护范围应以权利要求书的保护范围为准。

Claims (3)

1.一种基于自编码神经网络的图像聚类方法,主要包括步骤:
步骤S1,利用八层自编码网络建立聚类网络结构,并利用此网络的权重作为初始权重。
步骤S2,在自编码网络的编码层加入类内和类间约束函数,使同类样本靠近其聚类中心,不同聚类中心相互远离。
步骤S3,将所有样本随机分组,并分别通过自编码网络映射到特征空间,然后计算所有组的特征表达的平均值,作为该组的聚类中心。
步骤S4,利用加入类内约束和类间约束训练自编码网络,更新网络权重,进行图像聚类。
步骤S5,利用S4得到的更新后的网络,计算所有样本的特征表达,与之前的聚类中心进行比较,将样本分配至距离最近的聚类中心。
步骤S6,利用S5中得到特征表达按新的分组计算每组的特征表达的均值作为新的聚类中心。
步骤S7,利用S6中更新的聚类中心代替S2中聚类约束函数的聚类中心。
步骤S8,转到S4并循环,直到达到训练次数或聚类网络收敛。
2.根据权利要求1所述的方法,利用自编码神经网络进行图像聚类。
3.根据权利要求1所述的方法,同时利用类内和类间约束加入自编码网络的目标函数作为聚类约束。
CN201510293670.1A 2015-06-01 2015-06-01 一种基于自编码神经网络的图像聚类方法 Pending CN104933438A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510293670.1A CN104933438A (zh) 2015-06-01 2015-06-01 一种基于自编码神经网络的图像聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510293670.1A CN104933438A (zh) 2015-06-01 2015-06-01 一种基于自编码神经网络的图像聚类方法

Publications (1)

Publication Number Publication Date
CN104933438A true CN104933438A (zh) 2015-09-23

Family

ID=54120598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510293670.1A Pending CN104933438A (zh) 2015-06-01 2015-06-01 一种基于自编码神经网络的图像聚类方法

Country Status (1)

Country Link
CN (1) CN104933438A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086805A (zh) * 2018-07-12 2018-12-25 华南理工大学 一种基于深度神经网络和成对约束的聚类方法
CN109983480A (zh) * 2016-11-15 2019-07-05 谷歌有限责任公司 使用聚类损失训练神经网络
CN110309853A (zh) * 2019-05-20 2019-10-08 湖南大学 基于变分自编码器的医学图像聚类方法
CN110858812A (zh) * 2018-08-24 2020-03-03 ***通信集团浙江有限公司 网元割接值守方法及装置
WO2021197032A1 (zh) * 2020-04-01 2021-10-07 支付宝(杭州)信息技术有限公司 聚类***及其方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050216207A1 (en) * 2004-03-24 2005-09-29 Illumina, Inc. Artificial intelligence and global normalization methods for genotyping
CN103530689A (zh) * 2013-10-31 2014-01-22 中国科学院自动化研究所 一种基于深度学习的聚类方法
CN104618852A (zh) * 2015-01-28 2015-05-13 广东电网有限责任公司电力调度控制中心 基于层次聚类的数据汇聚方法和***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050216207A1 (en) * 2004-03-24 2005-09-29 Illumina, Inc. Artificial intelligence and global normalization methods for genotyping
CN103530689A (zh) * 2013-10-31 2014-01-22 中国科学院自动化研究所 一种基于深度学习的聚类方法
CN104618852A (zh) * 2015-01-28 2015-05-13 广东电网有限责任公司电力调度控制中心 基于层次聚类的数据汇聚方法和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHUNFENG SONG 等: "Auto-encoder Based Data Clustering", 《LECTURE NOTES IN COMPUTER SCIENCE(LNCS)》 *
孙艳丰 等: "基于改进Fisher准则的深度卷积神经网络识别算法", 《北京工业大学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109983480A (zh) * 2016-11-15 2019-07-05 谷歌有限责任公司 使用聚类损失训练神经网络
CN109983480B (zh) * 2016-11-15 2023-05-26 谷歌有限责任公司 使用聚类损失训练神经网络
CN109086805A (zh) * 2018-07-12 2018-12-25 华南理工大学 一种基于深度神经网络和成对约束的聚类方法
CN109086805B (zh) * 2018-07-12 2020-07-28 华南理工大学 一种基于深度神经网络和成对约束的聚类方法
CN110858812A (zh) * 2018-08-24 2020-03-03 ***通信集团浙江有限公司 网元割接值守方法及装置
CN110309853A (zh) * 2019-05-20 2019-10-08 湖南大学 基于变分自编码器的医学图像聚类方法
WO2021197032A1 (zh) * 2020-04-01 2021-10-07 支付宝(杭州)信息技术有限公司 聚类***及其方法

Similar Documents

Publication Publication Date Title
CN103530689B (zh) 一种基于深度学习的聚类方法
CN110059878B (zh) 基于cnn lstm光伏发电功率预测模型及其构建方法
CN111159426B (zh) 一种基于图卷积神经网络的产业图谱融合方法
CN104933438A (zh) 一种基于自编码神经网络的图像聚类方法
CN112101430B (zh) 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法
WO2022083009A1 (zh) 一种基于异源数据差补融合的定制产品性能预测方法
CN111259738B (zh) 人脸识别模型构建方法、人脸识别方法及相关装置
CN110543563B (zh) 一种层次型文本分类方法及***
CN110728295B (zh) 半监督式的地貌分类模型训练和地貌图构建方法
CN108510083A (zh) 一种神经网络模型压缩方法以及装置
CN109697451A (zh) 相似图像聚类方法及装置、存储介质、电子设备
CN112487724B (zh) 基于分区和改进cnn-ca模型的城市动态扩张模拟方法
CN104850864A (zh) 一种基于卷积神经网络的非监督图像识别方法
CN104318271B (zh) 一种基于适应性编码和几何平滑汇合的图像分类方法
Yao et al. Clustering of typical wind power scenarios based on K-means clustering algorithm and improved artificial bee colony algorithm
Zhang et al. Improvement of K-means algorithm based on density
Wan et al. A self-adaptive multi-objective harmony search based fuzzy clustering technique for image segmentation
CN108614932B (zh) 基于边图的线性流重叠社区发现方法、***及存储介质
CN117078312B (zh) 一种基于人工智能的广告投放管理方法及***
CN115115021A (zh) 基于模型参数异步更新的个性化联邦学习方法
CN112183721A (zh) 一种基于自适应差分进化的组合水文预测模型的构建方法
CN114880527B (zh) 一种基于多预测任务的多模态知识图谱表示方法
CN113704565B (zh) 基于全局区间误差的学习型时空索引方法、装置及介质
CN116363446A (zh) 一种零样本图像分类方法、装置、终端及介质
CN114463569A (zh) 一种基于优化自适应度量学习的图像匹配方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150923