CN106951918B - 一种用于冷冻电镜分析的单颗粒图像聚类方法 - Google Patents
一种用于冷冻电镜分析的单颗粒图像聚类方法 Download PDFInfo
- Publication number
- CN106951918B CN106951918B CN201710116076.4A CN201710116076A CN106951918B CN 106951918 B CN106951918 B CN 106951918B CN 201710116076 A CN201710116076 A CN 201710116076A CN 106951918 B CN106951918 B CN 106951918B
- Authority
- CN
- China
- Prior art keywords
- class
- image
- similarity
- network
- classes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种用于冷冻电镜分析的单颗粒图像聚类方法。一种单颗粒图像聚类方法,用于单颗粒图像分析,包括:步骤一:接受用户输入初始类数目k0,最终类的数目kn和输入数据集,随机初始化数据集为k0个类,计算类中心,对输入数据集建立共享K最近邻网络;步骤二:进行一次KMeans聚类,度量输入图像和类中心相似度时,将类中心加入网络中,并更新网络,计算节点之间的基于网络的相似性;步骤三:判断当前类的数目K是否等于用户输入kn,如果是,输出各个类和类平均图像,并退出,否则***最大的类并返回步骤二继续执行。
Description
技术领域
本发明属于结构生物学分析技术领域,特别涉及一种用于冷冻电镜分析的单颗粒图像聚类方法。
背景技术
冷冻电镜技术是一种把样本置入超冷的环境中再利用电子显微镜进行二维图像采样进而生成样本三维模型的技术。与X射线晶体学和核磁共振技术这两种成熟的结构生物学研究手段相比,冷冻电镜技术具有可直接获得分子的形貌信息和相位信息,能够解析那些不适合应用X射线晶体学和核磁共振技术进行分析的蛋白质等优点。随着生物样品制备技术的完善,电子显微镜设备的进步以及数字图像处理技术的发展,电子显微学已经成为一种公认的研究生物大分子、超分子复合体及亚细胞结构的有力手段。
最常用的冷冻电镜方法是单颗粒图像分析,单颗粒图像分析是将大量的二维投影图像生成三维模型的技术。但是目前电子显微镜得到的图像信噪比极低,所以为了得到比较精确的三维模型必须收集大量的单颗粒图像数据,在数千到数万张图像的量级。所以,在进行三维重构之前需要对图像进行聚类,从而确保每一类中的图像属于从同一投影方向生成的投影图。而单颗粒图像的特点表现为信噪比极低,常常低于1/30,所以传统的图像聚类算法在单颗粒图像上已经不再适用。
目前常用的单颗粒图像聚类算法大多是基于KMeans算法的变种。SPIDER软件采用的是首先滤波去噪,然后对像素空间进行PCA降维,最后采用***的KMeans方法进行聚类。EMAN2软件采用的是,对图像进行特征提取,然后在特征空间进行KMeans聚类。XMIPP软件采用的是直接在像素空间进行***的KMeans聚类,但是聚类准则是XMIPP提出的一种特殊的方法。
不论是在特征空间还是像素空间进行聚类,现在流行的算法的相似性度量都是两两相似性度量,即两幅图像的相似性的得出只需要这两幅图像。但是由于单颗粒图像的噪声很大,导致两两相似性的度量结果已经不再可靠。由于相似性度量是聚类中最基本的问题,一旦相似性度量不准确,之后的步骤也就失去了意义。
再者,输入的单颗粒图像数据本身具有类的结构信息,变现为属于同一类的图像之间距离比较近,只是由于噪声的影响类间距离变小,类内距离变大,这使得用传统的方法难以区分类。
发明内容
本发明提供一种用于冷冻电镜分析的单颗粒图像聚类方法,采用网络的方法,利用全局的结构信息来抑制噪声的影响。
一种单颗粒图像聚类方法,用于单颗粒图像分析,包括以下步骤:
步骤一:接受用户输入初始类数目k0,最终类的数目kn和输入数据集,随机初始化数据集为k0个类,计算类中心,对输入数据集建立共享K最近邻网络;
步骤二:进行一次KMeans聚类,度量输入图像和类中心相似度时,将类中心加入网络中,并更新网络,计算节点之间的基于网络的相似性(structural similarity);
步骤三:判断当前类的数目K是否等于用户输入kn,如果是,输出各个类和类平均图像,并退出,否则***最大的类并返回步骤二继续执行。
步骤二的具体实现包括:
进行一次Kmeans,即对每一个输入图像,计算该图像和所有类中心的Jaccard相似性并指派该图像属于相似性最大的类中心代表的类,对所有图像指派结束之后更新类中心和共享K最近邻网络,再对每幅图像进行指派,如此重复直到收敛或者迭代次数达到设定的上限;
建立共享K最近邻网络时有如下公式(1):
sim(Xi,C)>sim(Xi,Xj),sim(Ci,Cj)>sim(Ci,Xi) (1)
其中C为类平均图像,Xi,Xj,为任意两幅输入图像,sim是建立共享K最近邻网络时采用的两两相似性计算方法,
每个类维护一个共享K最近邻网络,该网络是在原来的共享K最近邻网络的基础上加入当前类中心图像得到的,
其中Jaccard相似性度量方法为:
其中Sxy为两幅图像的Jaccard相似性,Γ(x)为x的邻域。
进一步的,***最大的类时,统计类中的图像和类平均图像的Jaccard相似性,将相似性值按高低排列,取前50%为一类,剩下的为一类,并分别计算这两类的类中心等信息,然后删除原来的类信息,保留两个新生成的类。
本发明的基于网络相似性度量的单颗粒图像聚类算法,是在单颗粒图像聚类领域首次应用了基于网络的相似性度量方法,与目前领域内存在的其他各类方法相比,运算时间大致相同的情况下具有更高的精度。本发明旨在解决低信噪比情况下的单颗粒图像聚类问题。
本发明与现有领域内的方法相比,其显著优点:采用基于网络的相似性度量方法,使得算法在低信噪比的情况下仍然适用。
附图说明
图1是本发明基于网络相似性度量的单颗粒图像聚类算法的***结构图。
图2是本发明实施例中数据集的四幅代表图像。
图3是本发明实施例中得到的类中心图像。
图4是本发明实施例中类中心的真实值。
具体实施方式
下面结合附图对本发明作进一步的说明。
图1给出了本发明的单颗粒图像聚类方法***结构图:
首先初始化类中心,对输入数据建立共享K最近邻网络。接下来的步骤从算法顶层来看是一个***的KMeans算法。从算法细节来看,我们采用基于网络的相似性作为KMeans中的相似性度量方法。下面进行具体阐述:
第一步:接受用户输入初始类数目k0,最终类的数目kn和输入数据集。初始化数据集为k0个类,初始化类中心。对输入数据集建立共享K最近邻网络。
第二步:进行一次KMeans。即对每一个输入图像,计算该图像和所有类中心的Jaccard相似性并指派该图像属于相似性最大的类中心代表的类。对所有图像指派结束之后更新类中心和共享K最近邻网络,再对每幅图像进行指派,如此重复直到收敛或者迭代次数达到设定的上限。
由于单颗粒图像的信噪比很低但类平均图像的信噪比很高,所以我们在建立共享K最近邻网络时导致有如下结果:
sim(Xi,C)>sim(Xi,Xj),sim(Ci,Cj)>sim(Ci,Xi) (1)
其中C为类平均图像,Xi,Xj,为任意两幅输入图像,sim是建立共享K最近邻网络时采用的两两相似性计算方法,这里我们采用correntropy。
所以,如果我们一次性把所有类平均图像加入输入图像的网络中,类平均图像一定是互相连接的,这些不必要的边在网络中会带来干扰,这与我们考察类平均图像和输入图像的相似性的目的相违背。所以,我们采取的方式是每个类维护一个共享K最近邻网络,这个网络是在原来的共享K最近邻网络的基础上加入当前类中心图像得到的。
其中Jaccard相似性度量方法为:
其中Sxy为两幅图像的Jaccard相似性。Γ(x)为x的邻域。
第三步:判断当前的类的数目是否达到用户输入kn,如果达到则输出各个类和类中心,退出,否则***最大的类,更新当前类的数目,返回执行第二步。
***最大的类时,我们统计类中的图像和类平均图像的Jaccard相似性,将相似性值按高低排列,取前50%为一类,剩下的为一类,并分别计算这两类的类中心等信息。然后删除原来的类信息,保留两个新生成的类。
实例:
现有一个数据集,包含四个类,每个类有60幅图像,信噪比为1/30。我们每个类选取一副图像显示如图2所示。
使用本发明方法的软件处理结果输出如下:
真实类1 | 真实类2 | 真实类3 | 真实类4 | |
输出类1 | 55 | 1 | 0 | 0 |
输出类2 | 4 | 54 | 3 | 0 |
输出类3 | 0 | 5 | 54 | 0 |
输出类4 | 1 | 0 | 3 | 60 |
所以,我们得到本方法的准确率为92.92%。
输出的类中心图像为图3。
类中心的真实值为图4所示。
从结果可以看出,本方法有效的对低信噪比的单颗粒图像进行聚类,在当前数据集中的准确率达到了92.92%。
上述实施例不以任何方式限制本发明,凡是采用等同替换或等效变换的方式获得的技术方案均落在本发明的保护范围内。
Claims (4)
1.一种单颗粒图像聚类方法,用于单颗粒图像分析,其特征在于,包括以下步骤:
步骤一:接受用户输入初始类数目k0,最终类的数目kn和输入数据集,随机初始化数据集为k0个类,计算类中心,对输入数据集建立共享K最近邻网络;
步骤二:进行一次KMeans聚类,度量输入图像和类中心相似度时,将类中心加入网络中,并更新网络,基于网络的相似性作为KMeans中的相似性度量方法;
步骤三:判断当前类的数目K是否等于用户输入kn,如果是,输出各个类和类平均图像,并退出,否则***最大的类并返回步骤二继续执行。
2.如权利要求1所述的单颗粒图像聚类方法,其特征在于,步骤二的具体实现包括:
进行一次Kmeans,即对每一个输入图像,计算该图像和所有类中心的Jaccard相似性并指派该图像属于相似性最大的类中心代表的类,对所有图像指派结束之后更新类中心和共享K最近邻网络,再对每幅图像进行指派,如此重复直到收敛或者迭代次数达到设定的上限;
建立共享K最近邻网络时有如下公式(1):
sim(Xi,C)>sim(Xi,Xj),sim(Ci,Cj)>sim(Ci,Xi) (1)
其中C为类平均图像,Xi,Xj,为任意两幅输入图像,sim是建立共享K最近邻网络时采用的两两相似性计算方法,
每个类维护一个共享K最近邻网络,该网络是在原来的共享K最近邻网络的基础上加入当前类中心图像得到的,
其中Jaccard相似性度量方法为:
其中Sxy为两幅图像的Jaccard相似性,Γ(x)为x的邻域。
3.如权利要求2所述的单颗粒图像聚类方法,其特征在于,***最大的类时,统计类中的图像和类平均图像的Jaccard相似性,将相似性值按高低排列,取前50%为一类,剩下的为一类,并分别计算这两类的类中心等信息,然后删除原来的类信息,保留两个新生成的类。
4.如权利要求1所述的单颗粒图像聚类方法,其特征在于,所述单颗粒图像分析用于冷冻电镜生物学分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710116076.4A CN106951918B (zh) | 2017-03-01 | 2017-03-01 | 一种用于冷冻电镜分析的单颗粒图像聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710116076.4A CN106951918B (zh) | 2017-03-01 | 2017-03-01 | 一种用于冷冻电镜分析的单颗粒图像聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106951918A CN106951918A (zh) | 2017-07-14 |
CN106951918B true CN106951918B (zh) | 2020-04-28 |
Family
ID=59468153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710116076.4A Active CN106951918B (zh) | 2017-03-01 | 2017-03-01 | 一种用于冷冻电镜分析的单颗粒图像聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106951918B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108898180B (zh) * | 2018-06-28 | 2020-09-01 | 中国人民解放军国防科技大学 | 一种面向单颗粒冷冻电镜图像的深度聚类方法 |
CN111461054B (zh) * | 2020-04-14 | 2021-04-27 | 上海月新生科信息科技有限公司 | 一种关于冷冻电镜单颗粒分析数据全流程自动分析的方法 |
CN112465067B (zh) * | 2020-12-15 | 2022-07-15 | 上海交通大学 | 基于图卷积自编码器的冷冻电镜单颗粒图像聚类实现方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069797A (zh) * | 2015-08-13 | 2015-11-18 | 上海交通大学 | 基于掩膜的冷冻电镜三维密度图分辨率检测方法 |
CN105488509A (zh) * | 2015-11-19 | 2016-04-13 | Tcl集团股份有限公司 | 基于局部色度特征的图像聚类方法及*** |
WO2016142674A1 (en) * | 2015-03-06 | 2016-09-15 | Micromass Uk Limited | Cell population analysis |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8473279B2 (en) * | 2008-05-30 | 2013-06-25 | Eiman Al-Shammari | Lemmatizing, stemming, and query expansion method and system |
-
2017
- 2017-03-01 CN CN201710116076.4A patent/CN106951918B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016142674A1 (en) * | 2015-03-06 | 2016-09-15 | Micromass Uk Limited | Cell population analysis |
CN105069797A (zh) * | 2015-08-13 | 2015-11-18 | 上海交通大学 | 基于掩膜的冷冻电镜三维密度图分辨率检测方法 |
CN105488509A (zh) * | 2015-11-19 | 2016-04-13 | Tcl集团股份有限公司 | 基于局部色度特征的图像聚类方法及*** |
Non-Patent Citations (4)
Title |
---|
一种***式的 k -means 聚类算法;楼佳;《杭州电子科技大学学报》;20090831;54-57页 * |
基于三种近邻网络的聚类算法研究;马闯;《佳木斯大学学报》;20140930;779-782页 * |
基于相似中心的 k-cmeans 文本聚类算法;许厚金;《计算机工程与设计》;20101231;1802-1805页 * |
基于近邻图的 k-means 初始中心选择调优算法;胡湘萍;《计算机应用与软件》;20140430;178-181页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106951918A (zh) | 2017-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hua et al. | Faster parallel core maintenance algorithms in dynamic graphs | |
Xia et al. | Research on parallel adaptive canopy-k-means clustering algorithm for big data mining based on cloud platform | |
US20230306761A1 (en) | Methods for identifying cross-modal features from spatially resolved data sets | |
CN112669463B (zh) | 三维点云的曲面重建方法、计算机设备和计算机可读存储介质 | |
Kylberg et al. | Segmentation of virus particle candidates in transmission electron microscopy images | |
Dinh et al. | Consistent feature selection for analytic deep neural networks | |
CN110032761B (zh) | 一种冷冻电镜单颗粒成像数据的分类方法 | |
CN101061951A (zh) | 利用图像数据对组织进行分类的方法和设备 | |
CN106951918B (zh) | 一种用于冷冻电镜分析的单颗粒图像聚类方法 | |
Zeng et al. | A study on multi-kernel intuitionistic fuzzy C-means clustering with multiple attributes | |
CN116012364B (zh) | Sar图像变化检测方法和装置 | |
WO2020168648A1 (zh) | 一种图像分割方法、装置及计算机可读存储介质 | |
CN113177592B (zh) | 一种图像分割方法、装置、计算机设备及存储介质 | |
CN103226595A (zh) | 基于贝叶斯混合公共因子分析器的高维数据的聚类方法 | |
Beagum et al. | Nonparametric de‐noising filter optimization using structure‐based microscopic image classification | |
CN112634149A (zh) | 一种基于图卷积网络的点云去噪方法 | |
AU2014328463A1 (en) | Manifold diffusion of solutions for kinetic analysis of pharmacokinetic data | |
CN115311502A (zh) | 基于多尺度双流架构的遥感图像小样本场景分类方法 | |
CN110415339B (zh) | 计算输入三维形体间的匹配关系的方法和装置 | |
Hao et al. | VP-Detector: A 3D multi-scale dense convolutional neural network for macromolecule localization and classification in cryo-electron tomograms | |
Sparling et al. | Arbitrary image reinflation: A deep learning technique for recovering 3D photoproduct distributions from a single 2D projection | |
JP2008152619A (ja) | データ処理装置およびデータ処理プログラム | |
CN116310194A (zh) | 一种配电站房三维模型重建方法、***、设备和存储介质 | |
CN111179254B (zh) | 一种基于特征函数和对抗学习的域适应医学图像分割方法 | |
Sharma et al. | Brain region segmentation using low MSE based active contour model and convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |