CN110197193A - 一种多参数流式数据自动分群方法 - Google Patents

一种多参数流式数据自动分群方法 Download PDF

Info

Publication number
CN110197193A
CN110197193A CN201910204433.1A CN201910204433A CN110197193A CN 110197193 A CN110197193 A CN 110197193A CN 201910204433 A CN201910204433 A CN 201910204433A CN 110197193 A CN110197193 A CN 110197193A
Authority
CN
China
Prior art keywords
parameter
data
matrix
stream data
iteration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910204433.1A
Other languages
English (en)
Inventor
孟晓辰
祝连庆
娄小平
董明利
于明鑫
刘锋
宋言明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201910204433.1A priority Critical patent/CN110197193A/zh
Publication of CN110197193A publication Critical patent/CN110197193A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种多参数流式数据自动分群方法,包括如下步骤:步骤一:基于t‑SNE的多参数数据分群:输入待降维多参数流式数据,设定需要降到的维数d以及损失函数参数困惑度;对样本矩阵X进行初始化,计算相应矩阵之间的距离,使用固定的困惑度计算条件概率pj|i;进入循环迭代:计算低维度下的联合概率,计算梯度;迭代寻优,更新低维数据,迭代结束后得到的矩阵即为降维后的主成分参数矩阵;步骤二:将主成分参数矩阵数据使用K‑means算法聚类:随机选取个聚类质心点作为初始质心。

Description

一种多参数流式数据自动分群方法
技术领域
本发明涉及一种流式细胞仪检测人体外周血细胞并对血细胞多参数数据进行快速自动分群的方法,属于生物医学检测领域。
技术背景
流式细胞术(flow cytometry)是一种能够对悬浮的细胞或者其他微粒进行多参数、快速分析或分选的技术。随着医学领域的发展,疾病的诊断越来越深入,流式细胞仪能够检测的参数也成倍增加,对多参数流式细胞数据进行快速、准确的分析是提高临床诊断效率的关键。流式细胞仪包括光学***、流动室及液流驱动***、光电检测***和信号处理***四大部分,其中,信号处理***的一部分工作是要对大量多色多参数流式数据进行分析,分析难度大,传统对多色流式数据分析的方法是根据细胞的散射光或荧光的特性,使用专用软件采用人工设门的方法,分析的过程是根据经验选取两组荧光信号特征参数作为横纵坐标,绘制二维散点图,在图中划定目标细胞类型的区域范围进行分析,但随着细胞参数的增多,传统人工设门的方法已无法人们临床检测的需要,其主要存在以下问题:
(1)人工设门缺乏客观性。专家凭借自身经验从多种荧光特征中选取两个绘制散点图,且圈门和做出细胞类群的判断也因人而异,没有量化标准。
(2)分析结果可重复性差。针对不同的数据,人工设门方法并没有标准统一的画法。
(3)需要操作者有专业背景。流式数据分析软件是流式细胞仪专用软件,涉及到的医学知识是一般使用者不具备的,存在局限性。
(4)对多维数据间的特征差异无法进行准确识别。数据分析只能显示二维特征,并寻找差异,而多色多参数高维流式数据的特征只能在多维空间才能显示出来。
(5)过程繁琐、效率低、资源浪费巨大。人工分析过程不仅消耗人力,浪费时间,而且分析结果往往可靠性差。
针对人工设门存在的缺点,一些专家学者对流式细胞数据的自动分析方法进行了探索,但是大多是研究对细胞自动聚类的方法,很少有考虑到细胞类群的分布状态。例如,最早用于流式细胞自动分群的方法K-means算法,通过计算样本点间的欧氏距离划分样本数据,实现聚类;Sugar和Sealfon提出了基于渗透理论的非监督密度轮廓聚类算法(unsupervised density contour clustering algorithm),通过构建样本数据直方图寻找数据峰,实现了流式数据中多种形状细胞类群的快速聚类分析;Qian等人提出了基于网格划分和合并(grid-based partitioning and merging)类群识别算法,该算法依据数据密度特征识别二维数据中不规则分布的类群细胞;Aghae等提出基于层次聚类思想;还有高斯混合模型等。
发明内容
本发明针对呈非对称且有拖尾分布的细胞类群,提出了一种基于流行学习的t分布邻域嵌入算法(t-SNE)的多参数流式数据进行自动分群方法。
本专利的目的是通过下述技术方案实现的。
一种多参数流式数据自动分群方法,其特征在于,包括如下步骤:
步骤一:基于t-SNE的多参数数据分群:
输入待降维多参数流式数据,设定需要降到的维数d以及损失函数参数困惑度;
对样本矩阵X进行初始化,计算相应矩阵之间的距离,使用固定的困惑度计算条件概率pj|i
令联合概率分布pij=(pi|j+pj|i)/2n,随机初始化低维数据;
进入循环迭代:计算低维度下的联合概率,计算梯度;迭代寻优,更新低维数据,迭代结束后得到的矩阵即为降维后的主成分参数矩阵;
步骤二:将主成分参数矩阵数据使用K-means算法聚类:
随机选取K个聚类质心点作为初始质心;
对于每一个样例,计算其应该属于的类,计算其到k个质心中每一个的距离,然后选取距离最近的类作为样例所述的类别;对于每一个类,重新计算该类的质心直到其不变或者变化很小,若达到迭代次数或类群质心不发生改变,结束聚类;重复上述过程直到收敛,即得出分类标签。
进一步的改进,所述维数d为2或3。
进一步的改进,所述困惑度为30。
采用本发明的分析方法,结果更加清晰准确,并且操作简单。优于人工设门和其他计算方法。
附图说明
图1:t-SNE算法处理多参数流式细胞数据流程图;
图2:K-means算法实现细胞聚类
图3:拟合四种细胞类群的分布图;
图4:细胞分群策略和专家分析结果;
图5:t-SNE算法降低维度与聚类指标的关系图;
图6:本发明方法处理得到的自动分群结果;
图7:四类细胞利用KPCA和t-SNE分群准确率对比;
图8:本发明方法利用评价指标计算结果。
具体实施方式
本发明针对呈非对称且有拖尾分布的细胞类群,提出了一种基于流行学习的t分布邻域嵌入算法(t-SNE)的多参数流式数据进行自动分群方法。t-SNE算法具有性能良好、计算复杂度低、可视化效果好等特点,目前已被应用于图像检测、故障监测、声音识别等方面。使用t-SNE算法对原始数据降维,能够更大程度获得数据的特征信息,并提取出贡献度最高特征主成分,选取前两组或三组主成分数据作为坐标轴,绘制可视化散点图。在自动聚类方面,使用K-means算法与降维算法结合,实现样本数据的自动聚类。
t-SNE算法是使样本数据位于一个统计流形上,并将样本点映射到概率分布上,使高维和低维空间里的两个概率分布之间尽可能的相似。在低维空间下,两点之间的相似度使用t分布替代高斯分布来表达,而实验样本中的数据包括单核白细胞和破碎的细胞及杂质类群是呈非对称分布且有拖尾的,使用t分布来表征受异常值影响更小,较好的表征数据的整体特征,这也恰好满足细胞分群需求。
基于t-SNE的多参数数据分群主要步骤如下:
第1步:输入待降维多参数流式数据,设定需要降到的维数d(即选取的主成分数量)以及损失函数参数困惑度perplexity=30(默认值);
第2步:对样本矩阵X进行初始化,计算相应矩阵之间的距离,使用固定的困惑度计算条件概率pj|i
第3步:令联合概率分布pij=(pi|j+pj|i)/2n,随机初始化低维数据;
第4步:开始优化,进入循环迭代:
·计算低纬度下的联合概率,计算梯度
·迭代寻优,更新低维数据,迭代结束后得到的矩阵即为降维后新的主成分参数矩阵。
将降维后的细胞数据使用K-means算法聚类,此算法采用欧氏距离来衡量样本与各个簇的相似度,具体算法描述如下:
第1步:K是聚类数,随机选取K个聚类质心点作为初始质心;
第2步:重复下面过程直到收敛,得出分类标签:
①对于每一个样例,计算其应该属于的类,计算其到k个质心中每一个的距离,然后选取距离最近的类别样例新的类别
②对于每一个类,重新计算该类的质心直到其不变或者变化很小若达到迭代次数或类群质心不发生改变,结束聚类。
本发明实验数据由实验室现有的美国BD公司(Bect on,Dickinson and Company)的FACSCalibur流式细胞仪测得。人体外周血细胞包括淋巴细胞、嗜中性粒细胞、单核白细胞和破碎细胞及其杂质,表面分子为CD3、CD19、CD56和CD5,分别用异硫氰酸荧光素(FITC)、藻红蛋白(PE)、异藻蓝蛋白(APC)、多甲藻黄素-叶绿素-蛋白复合物(PerCP)标记,实验样本包含3800个细胞。流式数据包括14个参数,分别为前向散射光、侧向散射光和四色荧光的脉冲高度(height,H),脉冲面积(area,A)和脉冲宽度(width,W)。首先基于统计学理论拟合四类细胞的类群分布,然后利用算法进行分群实验,得出分群结果。

Claims (3)

1.一种多参数流式数据自动分群方法,其特征在于,包括如下步骤:
步骤一:基于t-SNE的多参数数据分群:
输入待降维多参数流式数据,设定需要降到的维数d以及损失函数参数困惑度;
对样本矩阵X进行初始化,计算相应矩阵之间的距离,使用固定的困惑度计算条件概率pj|i
令联合概率分布pij=(pi|j+pj|i)/2n,随机初始化低维数据;
进入循环迭代:计算低维度下的联合概率,计算梯度;迭代寻优,更新低维数据,迭代结束后得到的矩阵即为降维后的主成分参数矩阵;
步骤二:将主成分参数矩阵数据使用K-means算法聚类:
随机选取K个聚类质心点作为初始质心;
对于每一个样例,计算其应该属于的类,计算其到k个质心中每一个的距离,然后选取距离最近的类作为样例所述的类别;对于每一个类,重新计算该类的质心直到其不变或者变化很小,若达到迭代次数或类群质心不发生改变,结束聚类;重复上述过程直到收敛,即得出分类标签。
2.如权利要求1所述的一种多参数流式数据自动分群方法,其特征在于,所述维数d为2或3。
3.如权利要求1所述的一种多参数流式数据自动分群方法,其特征在于,所述困惑度为30。
CN201910204433.1A 2019-03-18 2019-03-18 一种多参数流式数据自动分群方法 Pending CN110197193A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910204433.1A CN110197193A (zh) 2019-03-18 2019-03-18 一种多参数流式数据自动分群方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910204433.1A CN110197193A (zh) 2019-03-18 2019-03-18 一种多参数流式数据自动分群方法

Publications (1)

Publication Number Publication Date
CN110197193A true CN110197193A (zh) 2019-09-03

Family

ID=67751769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910204433.1A Pending CN110197193A (zh) 2019-03-18 2019-03-18 一种多参数流式数据自动分群方法

Country Status (1)

Country Link
CN (1) CN110197193A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610212A (zh) * 2019-09-20 2019-12-24 云南电网有限责任公司电力科学研究院 一种配电网的变压器的故障分类方法和故障分类装置
CN113188981A (zh) * 2021-04-30 2021-07-30 天津深析智能科技发展有限公司 一种多因子细胞因子自动分析方法
CN114545167A (zh) * 2022-02-23 2022-05-27 四川大学 一种基于t-SNE算法的电缆终端局放脉冲分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096066A (zh) * 2016-08-17 2016-11-09 盐城工学院 基于随机近邻嵌入的文本聚类方法
CN106548205A (zh) * 2016-10-21 2017-03-29 北京信息科技大学 一种流式细胞数据快速自动分群及圈门方法
CN106548204A (zh) * 2016-11-01 2017-03-29 北京信息科技大学 流式细胞仪数据快速自动分群方法
US20180372726A1 (en) * 2017-05-16 2018-12-27 The Chinese University Of Hong Kong Integrative single-cell and cell-free plasma rna analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096066A (zh) * 2016-08-17 2016-11-09 盐城工学院 基于随机近邻嵌入的文本聚类方法
CN106548205A (zh) * 2016-10-21 2017-03-29 北京信息科技大学 一种流式细胞数据快速自动分群及圈门方法
CN106548204A (zh) * 2016-11-01 2017-03-29 北京信息科技大学 流式细胞仪数据快速自动分群方法
US20180372726A1 (en) * 2017-05-16 2018-12-27 The Chinese University Of Hong Kong Integrative single-cell and cell-free plasma rna analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟晓辰等: "基于t 分布邻域嵌入算法的流式数据自动分群方法", 《生物医学工程学杂志》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610212A (zh) * 2019-09-20 2019-12-24 云南电网有限责任公司电力科学研究院 一种配电网的变压器的故障分类方法和故障分类装置
CN113188981A (zh) * 2021-04-30 2021-07-30 天津深析智能科技发展有限公司 一种多因子细胞因子自动分析方法
CN114545167A (zh) * 2022-02-23 2022-05-27 四川大学 一种基于t-SNE算法的电缆终端局放脉冲分类方法

Similar Documents

Publication Publication Date Title
US6944338B2 (en) System for identifying clusters in scatter plots using smoothed polygons with optimal boundaries
CN110197193A (zh) 一种多参数流式数据自动分群方法
CN108961208A (zh) 一种聚集白细胞分割计数***及方法
CN106248559A (zh) 一种基于深度学习的白细胞五分类方法
US20240044904A1 (en) System, method, and article for detecting abnormal cells using multi-dimensional analysis
US20170322137A1 (en) Method and system for characterizing particles using a flow cytometer
JP4521490B2 (ja) 類似パターン検索装置、類似パターン検索方法、類似パターン検索プログラム、および分画分離装置
CN108509982A (zh) 一种处理二分类不平衡医学数据的方法
CN101981446A (zh) 用于使用支持向量机分析流式细胞术数据的方法和***
CN108052886B (zh) 一种小麦条锈病菌夏孢子自动统计计数方法
US9183237B2 (en) Methods and apparatus related to gate boundaries within a data space
CN110059568A (zh) 基于深层卷积神经网络的多类白细胞自动识别方法
CN112347894B (zh) 基于迁移学习和高斯混合模型分离的单株植被提取方法
Moraes et al. A decision-tree approach for the differential diagnosis of chronic lymphoid leukemias and peripheral B-cell lymphomas
CN112017743B (zh) 一种疾病风险评测报告自动生成平台及应用
CN113316713A (zh) 颗粒分析仪的自适应分选
CN107389536A (zh) 基于密度‑距离中心算法的流式细胞粒子分类计数方法
CN104200114A (zh) 流式细胞仪数据快速分析方法
CN108257124A (zh) 一种基于图像的白细胞计数方法和***
CN106548203A (zh) 一种多参数流式细胞数据快速自动分群和设门方法
CN108038352A (zh) 结合差异化分析和关联规则挖掘全基因组关键基因的方法
CN110163869A (zh) 一种图像重复元素分割方法、智能设备及存储介质
CN115270874A (zh) 一种基于密度估计的流式细胞分类和计数的方法和***
US11841314B2 (en) Method and system for characterizing particles using an angular detection in a flow cytometer
CN112348360A (zh) 一种基于大数据技术的中药生产工艺参数分析***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190903