CN113723456A - 一种基于无监督机器学习的天文图像自动化分类方法及*** - Google Patents

一种基于无监督机器学习的天文图像自动化分类方法及*** Download PDF

Info

Publication number
CN113723456A
CN113723456A CN202110853849.3A CN202110853849A CN113723456A CN 113723456 A CN113723456 A CN 113723456A CN 202110853849 A CN202110853849 A CN 202110853849A CN 113723456 A CN113723456 A CN 113723456A
Authority
CN
China
Prior art keywords
astronomical
astronomical image
probability
layer
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110853849.3A
Other languages
English (en)
Other versions
CN113723456B (zh
Inventor
邹志强
韩杨
吴家皋
张芷瑞
洪舒欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110853849.3A priority Critical patent/CN113723456B/zh
Publication of CN113723456A publication Critical patent/CN113723456A/zh
Application granted granted Critical
Publication of CN113723456B publication Critical patent/CN113723456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于无监督机器学习的天文图像自动化分类方法及***。方法包括:对待分类天文图像数据进行预处理;将预处理后的天文图像数据输入训练好的卷积自编码网络模型,提取天文图像特征,得到天文图像特征集;将得到的天文图像特征集输入图像特征聚类模型,输出每个天文图像属于每个聚类簇的概率;对已经聚类成簇的天文图像进行人工打分,得到每个聚类簇属于每个类的概率;将每个天文图像属于每个聚类簇的概率与每个聚类簇属于每个类的概率相乘,得到每个天文图像属于每个类的概率,再通过阈值筛选完成分类。本发明能够本发明以较小的代价在没有数据标签的情况下获得较高的天文图像数据分类准确率。

Description

一种基于无监督机器学习的天文图像自动化分类方法及***
技术领域
本发明涉及一种基于无监督机器学习的天文图像自动化分类方法及***,属于天文图像智能处理技术领域。
背景技术
星系形成与演化是天体物理学中一个重要的科学问题,同时星系形态是星系的形成与演化中重要的参考指标,它与许多物理参数,包括质量、恒星形成历史和质量分布有很强的相关性。在Galaxy zoo1.0项目收集了来自斯隆数字天空调查的近90万个星系的简单形态,由成千上万的志愿者历时数月完成了星系形态的分类。随着科学技术的发展,观测设备不断升级,例如LSST(Large Synoptic Survey Telescope美国大视场时空巡天项目)、EUCLID(欧盟欧几里得空间站巡天项目)、CSST(China Space Station Telescope中国巡天太空望远镜项目)等项目的建立,我们将迈向大尺度巡天时代,届时天文领域的数据集会以指数速度增长。例如Galaxy zoo 2.0项目从SDSS中搜集了1.6亿的星系用来确定星系形态进而研究星系的形成与演化,面对庞大的星系图像数据集,使用人眼观测的方法并不能有效解决这一问题,因此天文学家们把目光转向了一种自动分类方法。
近些年来机器学习、深度学习等方法在星系形态分类领域有了一定的尝试和应用。2010年,Gauci等人提出了将决策树学习算法和随机森林算法相结合的星系形态分类模型。2015年,Ferrari等人采用线性判别分析(LDA)技术进行星系形态分类。机器学习算法通常需要复杂的特征工程,需要先在数据集上执行探索性的数据分析,然后通过降维将数据传递给机器学习算法,同时为得到最好的实验结果,需要选择最佳的特征,为避免特征工程这一复杂的过程,天文学家开始尝试深度学习来解决星系形态分类任务。
2006年Hinton提出了深度学习的概念,通过构建多层的人工神经网络,在各个领域做出了积极贡献。深度学习通过多个非线性层对输入的数据进行特征提取和抽象,进而对图像进行分类。尽管深度学习在星系分类领域取得了的不小的成就,但是深度学习方法训练模型时,对训练集的数据标签有着强烈的依赖,但是现实情况是,为天文图像标记标签是一件专业性很强的工作,而且需要消耗专家大量的时间成本,此外,使用人工给天文图像打标签,在一定程度上引入了对天文图像的人为偏见,而这些人为偏见往往难以被人们发现。
发明内容
发明目的:随着天文大数据时代的到来,天文图片将呈指数增长,短时间内获得大量的有标签天文数据将变得不那么实际,届时有监督机器学习技术会存在诸多不足,本发明的目的在于提供一种基于无监督机器学习的天文图像自动化分类方法及***,以解决在数据没有标签的情况下难以直接对天文图像进行准确分类的问题。
要实现上述发明内容,必须要解决几个核心问题:(1)目前存在的天文图像分类方法中考虑的数据大多需要人工对数据集进行标记,例如Galaxy zoo数据集被发布在网站上,以众包的形式让天文爱好者去共同完成分类工作,这种众包方式不仅耗时,也会带入人为偏见;(2)无监督分类方法大多局限于聚类模型。由于天文图像是高维图像数据,其数据往往以三维图像呈现,面对大量的高维数据,一般的聚类模型会陷入维度诅咒或者难以处理如此大规模、高纬度的天文图像数据。
技术方案:为实现上述目的,本发明采用的技术方案为:
一方面,本发明提供了一种基于无监督机器学习的天文图像自动化分类方法,包括:
对待分类天文图像数据进行预处理;
将预处理后的天文图像数据输入训练好的卷积自编码网络模型,提取天文图像特征,得到天文图像特征集;
将得到的天文图像特征集输入图像特征聚类模型,输出每个天文图像属于每个聚类簇的概率;
对已经聚类成簇的天文图像进行人工打分,得到每个聚类簇属于每个类的概率;
将每个天文图像属于每个聚类簇的概率与每个聚类簇属于每个类的概率相乘,得到每个天文图像属于每个类的概率,再通过阈值筛选完成分类。
进一步地,所述卷积自编码网络模型包括编码器和解码器,所述编码器包括依次连接的输入层、第一卷积层、第一注意力模块、第一下采样层、第二卷积层、第二注意力模块、第二下采样层、第三卷积层、第三注意力模块、第三下采样层、第四卷积层、第四注意力模块、第四下采样层;所述解码器包括依次连接的第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层、第五隐藏层、reshape层、第五卷积层、第一上采样层、第六卷积层、第二上采样层、第七卷积层、第三上采样层、第八卷积层和输出层,其中各卷积层使用ReLU激活函数,第四卷积层和第八卷积层使用Sigmoid激活函数。
进一步地,所述第一卷积层包含128个4*4的卷积核,第二卷积层包含64个4*4的卷积核,第三卷积层包含32个3*3的卷积核,第四卷积层包含16个3*3的卷积核,第五卷积层包含32个3*3的卷积核,第六卷积层包含32个3*3的卷积核,第七卷积层包含64个4*4的卷积核,第八卷积层包含3个4*4的卷积核,第一下采样层、第二下采样层、第三下采样层、第四下采样层、第一上采样层、第二上采样层、第三上采样层的大小均为2*2,第一隐藏层包含128个神经元节点,第二隐藏层包含64个神经元节点,第三隐藏层包含32个神经元节点,第四隐藏层包含64个神经元节点,第五隐藏层包含128个神经元节点。
进一步地,所述卷积自编码网络模型的训练方法包括:
获取一组天文图像数据;
对获取到的一组天文图像数据进行预处理;
以预处理后的天文图像数据为训练数据集,以交叉熵损失函数为目标函数,以目标函数值趋于最小为目标,通过Adam优化算法进行参数寻优,训练得到所述卷积自编码网络模型。
进一步地,所述对获取到的一组天文图像数据进行预处理,包括:对所述一组天文图像数据中每个天文图像进行中心点裁剪、随机裁剪、降维。
进一步地,所述对获取到的一组天文图像数据进行预处理,还包括:当经中心点裁剪、降维后某个天文图像对应类别的天文图像样本数量不足时,将经中心点裁剪、降维后得到的该天文图像进行随机翻转,得到新的天文图像,并加入至训练数据集中。
进一步地,所述图像特征聚类模型采用高斯混合模型搭建,并确定聚类的Component的数量,所述将得到的天文图像特征集输入图像特征聚类模型,输出每个天文图像属于每个聚类簇的概率,包括:
S1,对于输入的天文图像特征集中的每个特征数据,根据以下公式,估计每个特征数据由每个Component生成的概率:
Figure BDA0003183353100000051
其中,γ(i,k)表示第i个特征数据由第k个Component生成的概率;featurepi表示输入的天文图像特征集中的第i个特征数据;μk和Σk为第k个Component的参数;πk表示第k个Component的混合系数;K表示Component的数量;πj表示第j个Component的混合系数,其中
Figure BDA0003183353100000052
N()表示高斯分布;μj和Σj为第j个Component的参数;
S2,基于估计出的γ(i,k),根据以下公式求出最大似然所对应的第k个Component的参数值:
Figure BDA0003183353100000061
Figure BDA0003183353100000062
重复迭代S1和S2,直到似然函数的值收敛为止,使用概率模型得到每一个特征数据属于每个聚类簇的概率。
进一步地,所述对已经聚类成簇的天文图像进行人工打分,得到每个聚类簇属于每个类的概率,包括:
对于已经聚类成簇的天文图像,通过专家根据经验给不同的聚类簇进行分类,得到每个聚类簇属于每个类的概率。
进一步地,所述将每个天文图像属于每个聚类簇的概率与每个聚类簇属于每个类的概率相乘,得到每个天文图像属于每个类的概率,包括:
将每个天文图像属于每个聚类簇的概率矩阵与每个聚类簇属于每个类的概率矩阵相乘,得到每个天文图像属于每个类的概率。
另一方面,本发明提供了一种基于无监督机器学习的天文图像自动化分类***,包括:
预处理模块,配置为对待分类天文图像数据进行预处理;
卷积自编码网络模型,配置为将预处理后的天文图像数据作为输入,提取天文图像特征,得到天文图像特征集;
图像特征聚类模型,配置为将提取得到的天文图像特征集作为输入,输出每个天文图像属于每个聚类簇的概率;
人工打分模块,配置为对已经聚类成簇的天文图像进行人工打分,得到每个聚类簇属于每个类的概率;
图像特征分类模型,配置为将每个天文图像属于每个聚类簇的概率与每个聚类簇属于每个类的概率相乘,得到每个天文图像属于每个类的概率,再通过阈值筛选完成分类。
有益效果:本发明提供的一种基于无监督机器学习的天文图像自动化分类方法及***,相对于现有技术,具有以下优点:
(1)由于当前解决天文图像分类问题,深度学习方法往往需要大规模的有标签天文图像数据作为训练集,如果使用人工给海量天文图像打标签,天文学家将要为此付出大量的时间,本发明可以直接学习提取无标签天文图像的特征,然后使用这些特征做进一步分类,将大大减小人工打标签成本,提高效率;
(2)由于天文图像数据维度高、特征多,卷积神经网络在特征提取上具有优势,池化层可以逐层降低输出向量维度,上采样层可以逐层放大输出向量维度,本发明提出了一种基于卷积神经网络的卷积自编码器,针对图像数据的高维度特点,发挥卷积的优势,有效地提高了天文图像分类的准确性。
附图说明
图1为本发明实施例的一种基于无监督机器学习的天文图像自动化分类方法的流程图;
图2为本发明实施例中天文图像预处理的流程图;
图3为本发明实施例中卷积自编码网络模型的结构图。
具体实施方式
下面结合具体实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如前所述,随着天文大数据时代的到来,天文图片将呈指数增长,短时间内获得大量的有标签天文数据将变得不那么实际,在数据没有标签的情况下难以直接对天文图像进行准确分类。
为此,在一实施例中,本发明提供了一种基于无监督机器学习的天文图像自动化分类方法。如图1所述,该方法包括:
步骤1,对天文图像数据进行预处理;
因为本发明实施例中使用Galaxyzoo数据,其中图像数据都为高维彩色图片,所以需要对其进行一定预处理。
使用图像处理算法对天文图像数据进行中心点裁剪、翻转等预处理,初步降低天文图像的维度,并做一些数据增广的工作。
如图2所示,天文图像预处理算法具体包括:
输入:一组天文图像数据T={P1,P2,P3,…,Pn},Pi表示第i个天文图像样本
输出:经过预处理之后的天文图像数据集
a1.对天文图像进行遍历,设置循环变量i从1到n,n表示天文图像的总数,初始时i=1;
a2.对每一个天文图像样本进行遍历,对遍历到的图像样本Pi进行中心裁剪并替换Pi,跳转到a3;
a3.进一步调整Pi的大小,随机裁剪Pi并替换Pi之后,再将Pi调整成统一的大小,并将调整大小后的Pi加入到预处理后的数据集中,跳转到a4;
a4.当Pi对应类别的天文图像样本数量尚不足够时,跳转到a5,否则跳转至a6;
a5.随机旋转a3中调整大小后的Pi得到新的Pi,并将新的Pi添加到预处理后的数据集中,跳转到a4;
a6.执行i=i+1;
a7.当i<n时,跳转至a2,否则完成天文图像的预处理。
步骤2,将预处理后的天文图像数据输入训练好的卷积自编码网络模型,提取天文图像特征,得到天文图像特征集;
为了进一步降低天文图像数据的维度并获得有效的天文图像数据特征,本实施例搭建卷积自编码网络模型训练天文图像数据,最终可以使用模型中间某一隐藏层的输出特征来表示输入该模型的图片特征。
利用卷积自编码网络模型提取天文图像特征,包括:
b1.基于卷积神经网络,搭建卷积自编码器的编码器部分,输入预处理之后的天文图像Pi,提取特征构成低维特征向量featurep
b2.基于卷积神经网络,搭建卷积自编码器的解码器部分,上采样特征向量featurep,将低维特征向量featurep还原到Pi维度,输出P′i
b3.搭建卷积自编码网络模型:
输入:经过预处理之后的天文图像Pi拼接成的三通道天文图像输入N={P1,P2,P3,...,Pn}
输出:天文图像特征集
具体包括:
1.1)通过输入层、卷积层、下采样层、全连接层和扁平层等搭建编码器;
1.2)通过编码器提取输入向量N中的各样本Pi的特征featurep
1.3)通过Reshape层、卷积层、上采样层和全连接层等搭建解码器;
1.4)使用编码器提取到的特征featurep,将低维特征向量featurep还原到Pi维度,输出P′i
如图3所示,卷积自编码网络模型的具体结构包括:
第一部分(输入层):输入数据为预处理之后的天文图像,包括红绿蓝三个通道的图片特征,输入维度为12288,经过reshape,输出是维度为64*64*3的数据;
第二部分(第一卷积层):是一个包含128个卷积核的卷积层,经过ReLU激活函数处理,得到维度为64*64*128的数据;
第三部分(第一注意力模块):是一个包含关注通道特征的通道注意力机制和关注空间特征的空间注意力机制的注意力模块,输入输出都是维度为64*64*128的数据;
第四部分(第一下采样层):是一个大小为2*2的下采样层,得到维度为32*32*128的数据;
第五部分(第二卷积层):是一个包含64个卷积核的卷积层,经过ReLU激活函数处理,得到维度为32*32*64的数据;
第六部分(第二注意力模块):是一个包含关注通道特征的通道注意力机制和关注空间特征的空间注意力机制的注意力模块,输入输出都是维度为32*32*64的数据;
第七部分(第二下采样层):是一个大小为2*2的下采样层,得到维度为16*16*64的数据;
第八部分(第三卷积层):是一个包含32个卷积核的卷积层,经过ReLU激活函数处理,得到维度为16*16*32的数据;
第九部分(第三注意力模块):是一个包含关注通道特征的通道注意力机制和关注空间特征的空间注意力机制的注意力模块,输入输出都是维度为16*16*32的数据;
第十部分(第三下采样层):是一个大小为2*2的下采样层,得到维度为8*8*32的数据;
第十一部分(第四卷积层):是一个包含16个卷积核的卷积层,经过ReLU激活函数处理,得到维度为8*8*16的数据;
第十二部分(第四注意力模块):是一个包含关注通道特征的通道注意力机制和关注空间特征的空间注意力机制的注意力模块,输入输出都是维度为8*8*16的数据;
第十三部分(第四下采样层):是一个大小为2*2的下采样层,得到维度为4*4*16的数据;
第十四部分(第一隐藏层):是一个包含128个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为128的数据;
第十五部分(第二隐藏层):是一个包含64个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为64的数据;
第十六部分(第三隐藏层):是一个包含32个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为32的数据;
第十七部分(第四隐藏层):是一个包含64个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为64的数据;
第十八部分(第五隐藏层):是一个包含128个神经元节点的隐藏层,经过ReLU激活函数处理,得到维度为128的数据;
第十九部分:是一个reshape层,得到维度为4*4*8的数据;
第二十部分(第五卷积层):是一个包含16个卷积核点的卷积层,经过ReLU激活函数处理,得到维度为4*4*16的数据;
第二十一部分(第一上采样层):是一个大小为2*2的上采样层,得到维度为8*8*16的数据;
第二十二部分(第六卷积层):是一个包含32个卷积核的卷积层,经过ReLU激活函数处理,得到维度为16*16*32的数据;
第二十三部分(第二上采样层):是一个大小为2*2的上采样层,得到维度为32*32*32的数据;
第二十四部分(第七卷积层):是一个包含64个卷积核的卷积层,经过ReLU激活函数处理,得到维度为32*32*64的数据;
第二十五部分(第三上采样层):是一个大小为2*2的上采样层,得到维度为64*64*64的数据;
第二十六部分(第八卷积层):是一个包含3个卷积核的卷积层,经过Sigmoid激活函数处理,得到维度为64*64*3的数据;
第二十七部分:是输出层,输出维度为64*64*3的数据。
1.5)优化方法及损失函数
在上述模型构建后,训练该模型,其中设置训练样本的批大小为128,选用交叉熵损失函数,在卷积层中使用ReLU激活函数,在编码器和解码器的最后一层使用Sigmoid激活函数,由激活函数完成非线性变换,在编码器卷积层之后加入注意力机制,提高模型提取特征的能力,通过Adam优化算法进行参数寻优,其中学习率为0.001,衰减项1e-08,动量0.9,迭代次数分别设置为300来获得最佳模型。
b4.通过深度学习迭代训练网络,得到训练好权重的卷积自编码器网络。
步骤3,将步骤2得到的天文图像特征集输入图像特征聚类模型,输出每个天文图像属于每个聚类簇的概率;
建立图像特征聚类模型:
输入:图像特征样本集{featurep1,featurep2,featurep3,...,featurepn},其中n为样本的总数目
输出:每个天文图像属于每个聚类簇的概率
1.1)基于高斯混合模型,搭建聚类模型,并确定聚类的Component的数量为K;
1.2)对于输入的样本集中的样本featurepi,估计featurepi由每个Component生成的概率,对于每个featurepi,其属于第k个Component的生成概率为:
Figure BDA0003183353100000141
其中,γ(i,k)表示第i个特征数据由第k个Component生成的概率;featurepi表示输入的天文图像特征集中的第i个特征数据;μk和∑k为第k个Component的参数;πk表示第k个Component的混合系数;πj表示第j个Component的混合系数,其中
Figure BDA0003183353100000142
N()表示高斯分布;μj和∑j为第j个Component的参数。
采用迭代法,在计算γ(i,k)的时候假定μk和∑k均已知,可以取初始值或者取上一次迭代所得的值;
1.3)估计每个Component的参数,假设上一步得到的γ(i,k)就是正确的“featurepi由Component k生成的概率”,考虑所有的数据样本,就可以看作Component生成了γ(1,k)featurep1,γ(2,k)featurep2,...,γ(n,k)featurepn这些点。由于每个Component都是一个标准的高斯分布,就可以求出最大似然所对应的参数值:
Figure BDA0003183353100000143
Figure BDA0003183353100000144
1.4)重复迭代1.2)和1.3),直到似然函数的值收敛为止,使用概率模型可以得到每一个输入样本属于每个聚类簇的概率{p1,p2,p3,...,pn};
步骤4,对已经聚类成簇的天文图像进行人工打分,得到每个聚类簇属于每个类的概率;
建立图像聚类簇的人工打分模型:
对于已经聚类成簇的星系图像,专家再通过他们自己的经验来给不同的簇分类,其结果对应每个聚类簇属于每个类的概率,即{c1,c2,c3,...,cL},其中L表示星系图像类别的数目;
步骤5,将每个天文图像属于每个聚类簇的概率与每个聚类簇属于每个类的概率相乘,得到每个天文图像属于每个类的概率,再通过阈值筛选完成分类。
建立图像特征分类模型:
对于步骤3中得到的每一个输入样本属于每个聚类簇的概率{p1,p2,p3,...,pn},以及步骤4得到的每个聚类簇属于每个类的概率,即{c1,c2,c3,...,cL},将这两个矩阵相乘,就能得到每个样本属于每个类的概率,再通过阈值筛选就可以完成分类工作。
在另一实施例中,本发明提供了一种基于无监督机器学习的天文图像自动化分类***,包括:
预处理模块,配置为对待分类天文图像数据进行预处理;
卷积自编码网络模型,配置为将预处理后的天文图像数据作为输入,提取天文图像特征,得到天文图像特征集;
图像特征聚类模型,配置为将提取得到的天文图像特征集作为输入,输出每个天文图像属于每个聚类簇的概率;
人工打分模块,配置为对已经聚类成簇的天文图像进行人工打分,得到每个聚类簇属于每个类的概率;
图像特征分类模型,配置为将每个天文图像属于每个聚类簇的概率与每个聚类簇属于每个类的概率相乘,得到每个天文图像属于每个类的概率,再通过阈值筛选完成分类。
相对于现有技术,在本发明中无监督天文图像分类的方法融合了神经网络、卷积自编码器、聚类模型等知识,让模型本身去学习提取天文图像的特征,而无需任何人工标签数据,不仅减少了人工成本,也避免了人为偏见对模型分类的影响,使得模型在较小的计算代价下也能获得较高的分类准确率。
以上已以较佳实施例公布了本发明,然其并非用以限制本发明,凡采取等同替换或等效变换的方案所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种基于无监督机器学习的天文图像自动化分类方法,其特征在于,包括:
对待分类天文图像数据进行预处理;
将预处理后的天文图像数据输入训练好的卷积自编码网络模型,提取天文图像特征,得到天文图像特征集;
将得到的天文图像特征集输入图像特征聚类模型,输出每个天文图像属于每个聚类簇的概率;
对已经聚类成簇的天文图像进行人工打分,得到每个聚类簇属于每个类的概率;
将每个天文图像属于每个聚类簇的概率与每个聚类簇属于每个类的概率相乘,得到每个天文图像属于每个类的概率,再通过阈值筛选完成分类。
2.根据权利要求1所述的一种基于无监督机器学习的天文图像自动化分类方法,其特征在于,所述卷积自编码网络模型包括编码器和解码器,所述编码器包括依次连接的输入层、第一卷积层、第一注意力模块、第一下采样层、第二卷积层、第二注意力模块、第二下采样层、第三卷积层、第三注意力模块、第三下采样层、第四卷积层、第四注意力模块、第四下采样层;所述解码器包括依次连接的第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层、第五隐藏层、reshape层、第五卷积层、第一上采样层、第六卷积层、第二上采样层、第七卷积层、第三上采样层、第八卷积层和输出层,其中各卷积层使用ReLU激活函数,第四卷积层和第八卷积层使用Sigmoid激活函数。
3.根据权利要求2所述的一种基于无监督机器学习的天文图像自动化分类方法,其特征在于,所述第一卷积层包含128个4*4的卷积核,第二卷积层包含64个4*4的卷积核,第三卷积层包含32个3*3的卷积核,第四卷积层包含16个3*3的卷积核,第五卷积层包含32个3*3的卷积核,第六卷积层包含32个3*3的卷积核,第七卷积层包含64个4*4的卷积核,第八卷积层包含3个4*4的卷积核,第一下采样层、第二下采样层、第三下采样层、第四下采样层、第一上采样层、第二上采样层、第三上采样层的大小均为2*2,第一隐藏层包含128个神经元节点,第二隐藏层包含64个神经元节点,第三隐藏层包含32个神经元节点,第四隐藏层包含64个神经元节点,第五隐藏层包含128个神经元节点。
4.根据权利要求1所述的一种基于无监督机器学习的天文图像自动化分类方法,其特征在于,所述卷积自编码网络模型的训练方法包括:
获取一组天文图像数据;
对获取到的一组天文图像数据进行预处理;
以预处理后的天文图像数据为训练数据集,以交叉熵损失函数为目标函数,以目标函数值趋于最小为目标,通过Adam优化算法进行参数寻优,训练得到所述卷积自编码网络模型。
5.根据权利要求4所述的一种基于无监督机器学习的天文图像自动化分类方法,其特征在于,所述对获取到的一组天文图像数据进行预处理,包括:对所述一组天文图像数据中每个天文图像进行中心点裁剪、随机裁剪、降维。
6.根据权利要求5所述的一种基于无监督机器学习的天文图像自动化分类方法,其特征在于,所述对获取到的一组天文图像数据进行预处理,还包括:当经中心点裁剪、降维后某个天文图像对应类别的天文图像样本数量不足时,将经中心点裁剪、降维后得到的该天文图像进行随机翻转,得到新的天文图像,并加入至训练数据集中。
7.根据权利要求1所述的一种基于无监督机器学习的天文图像自动化分类方法,其特征在于,所述图像特征聚类模型采用高斯混合模型搭建,并确定聚类的Component的数量,所述将得到的天文图像特征集输入图像特征聚类模型,输出每个天文图像属于每个聚类簇的概率,包括:
S1,对于输入的天文图像特征集中的每个特征数据,根据以下公式,估计每个特征数据由每个Component生成的概率:
Figure FDA0003183353090000031
其中,γ(i,k)表示第i个特征数据由第k个Component生成的概率;featurepi表示输入的天文图像特征集中的第i个特征数据;μk和Σk为第k个Component的参数;πk表示第k个Component的混合系数;K表示Component的数量;πj表示第j个Component的混合系数,其中
Figure FDA0003183353090000032
N()表示高斯分布;μj和Σj为第j个Component的参数;
S2,基于估计出的γ(i,k),根据以下公式求出最大似然所对应的第k个Component的参数值:
Figure FDA0003183353090000041
Figure FDA0003183353090000042
重复迭代S1和S2,直到似然函数的值收敛为止,使用概率模型得到每一个特征数据属于每个聚类簇的概率。
8.根据权利要求1所述的一种基于无监督机器学习的天文图像自动化分类方法,其特征在于,所述对已经聚类成簇的天文图像进行人工打分,得到每个聚类簇属于每个类的概率,包括:
对于已经聚类成簇的天文图像,通过专家根据经验给不同的聚类簇进行分类,得到每个聚类簇属于每个类的概率。
9.根据权利要求1所述的一种基于无监督机器学习的天文图像自动化分类方法,其特征在于,所述将每个天文图像属于每个聚类簇的概率与每个聚类簇属于每个类的概率相乘,得到每个天文图像属于每个类的概率,包括:
将每个天文图像属于每个聚类簇的概率矩阵与每个聚类簇属于每个类的概率矩阵相乘,得到每个天文图像属于每个类的概率。
10.一种基于无监督机器学习的天文图像自动化分类***,其特征在于,包括:
预处理模块,配置为对待分类天文图像数据进行预处理;
卷积自编码网络模型,配置为将预处理后的天文图像数据作为输入,提取天文图像特征,得到天文图像特征集;
图像特征聚类模型,配置为将提取得到的天文图像特征集作为输入,输出每个天文图像属于每个聚类簇的概率;
人工打分模块,配置为对已经聚类成簇的天文图像进行人工打分,得到每个聚类簇属于每个类的概率;
图像特征分类模型,配置为将每个天文图像属于每个聚类簇的概率与每个聚类簇属于每个类的概率相乘,得到每个天文图像属于每个类的概率,再通过阈值筛选完成分类。
CN202110853849.3A 2021-07-28 2021-07-28 一种基于无监督机器学习的天文图像自动化分类方法及*** Active CN113723456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110853849.3A CN113723456B (zh) 2021-07-28 2021-07-28 一种基于无监督机器学习的天文图像自动化分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110853849.3A CN113723456B (zh) 2021-07-28 2021-07-28 一种基于无监督机器学习的天文图像自动化分类方法及***

Publications (2)

Publication Number Publication Date
CN113723456A true CN113723456A (zh) 2021-11-30
CN113723456B CN113723456B (zh) 2023-10-17

Family

ID=78674118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110853849.3A Active CN113723456B (zh) 2021-07-28 2021-07-28 一种基于无监督机器学习的天文图像自动化分类方法及***

Country Status (1)

Country Link
CN (1) CN113723456B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919204A (zh) * 2019-02-23 2019-06-21 华南理工大学 一种面向噪声图像的深度学习聚类方法
WO2020041503A1 (en) * 2018-08-24 2020-02-27 Arterys Inc. Deep learning-based coregistration
CN111582389A (zh) * 2020-05-11 2020-08-25 昆明能讯科技有限责任公司 一种基于卷积自编码网络的杆塔点云数据自动分类方法
US20200272857A1 (en) * 2019-02-22 2020-08-27 Neuropace, Inc. Systems and methods for labeling large datasets of physiologial records based on unsupervised machine learning
CN111859978A (zh) * 2020-06-11 2020-10-30 南京邮电大学 一种基于深度学习的情感文本生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020041503A1 (en) * 2018-08-24 2020-02-27 Arterys Inc. Deep learning-based coregistration
US20200272857A1 (en) * 2019-02-22 2020-08-27 Neuropace, Inc. Systems and methods for labeling large datasets of physiologial records based on unsupervised machine learning
CN109919204A (zh) * 2019-02-23 2019-06-21 华南理工大学 一种面向噪声图像的深度学习聚类方法
CN111582389A (zh) * 2020-05-11 2020-08-25 昆明能讯科技有限责任公司 一种基于卷积自编码网络的杆塔点云数据自动分类方法
CN111859978A (zh) * 2020-06-11 2020-10-30 南京邮电大学 一种基于深度学习的情感文本生成方法

Also Published As

Publication number Publication date
CN113723456B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN109615582B (zh) 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
CN111476713B (zh) 基于多深度卷积神经网络融合的天气图像智能识别方法及***
CN108875674B (zh) 一种基于多列融合卷积神经网络的驾驶员行为识别方法
CN106845401B (zh) 一种基于多空间卷积神经网络的害虫图像识别方法
CN111696101A (zh) 一种基于SE-Inception的轻量级茄科病害识别方法
CN109993100B (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN110321862B (zh) 一种基于紧致三元损失的行人再识别方法
CN114038037B (zh) 基于可分离残差注意力网络的表情标签修正和识别方法
CN106845528A (zh) 一种基于K‑means与深度学习的图像分类算法
CN111639719A (zh) 基于时空运动和特征融合的足迹图像检索方法
CN110991349B (zh) 一种基于度量学习的轻量级车辆属性识别方法
CN110287882A (zh) 一种基于深度学习的大菊品种图像识别方法
CN114359727A (zh) 基于轻量级优化Yolo v4的茶叶病害识别方法及***
CN106326925A (zh) 一种基于深度学习网络的苹果病变图像识别方法
CN109859771A (zh) 一种联合优化深层变换特征与聚类过程的声场景聚类方法
CN115294075A (zh) 一种基于注意力机制的octa图像视网膜血管分割方法
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
CN114863572A (zh) 一种多通道异构传感器的肌电手势识别方法
CN113378962B (zh) 一种基于图注意力网络的服装属性识别方法与***
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN110688966A (zh) 语义指导的行人重识别方法
CN114511849B (zh) 一种基于图注意力网络的葡萄疏果识别方法
CN115100509B (zh) 基于多分支块级注意力增强网络的图像识别方法及***
CN116310369A (zh) 一种基于多图像注意力特征融合的农作物虫害最优视角识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant