CN111009285A - 一种基于相似性网络融合算法的生物数据网络处理方法 - Google Patents
一种基于相似性网络融合算法的生物数据网络处理方法 Download PDFInfo
- Publication number
- CN111009285A CN111009285A CN201910451766.4A CN201910451766A CN111009285A CN 111009285 A CN111009285 A CN 111009285A CN 201910451766 A CN201910451766 A CN 201910451766A CN 111009285 A CN111009285 A CN 111009285A
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- similarity
- type
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于相似性网络融合算法的生物数据网络处理方法,属于生物信息分析技术领域。所述方法通过首先对生物多种遗传信息如mRNA,miRNA,lncRNA等构建相似性网络,再使用SNF算法对相似矩阵进行融合,创建可用的样本网络,利用谱聚类进行聚类,分析网络之间的关系,从而用于疾病致病机理的发现,早期诊断和后期治疗等领域。本发明方法能够利用不同类型的数据的互补性得到更为综合的结果,大大优于单一数据的分析和建立,为后续的综合分析建立基础。
Description
技术领域
本发明涉及一种基于相似性网络融合算法的生物数据网络处理方法,属于生物信息分析技术领域。
背景技术
伴随着人类基因组计划的发展,生物信息学也在迅速完善和发展。高通量测序技术的发展促进了更全面更深入地对基因组进行分析。随着测序成本的不断降低,包括基因组学、转录组学等在内的多组学数据不断积累,海量生物学数据有助于全面地有效地挖掘其中所蕴含的生物学知识,为生物信息分析提供了丰富的数据资源,同时也带来了新的挑战。随着具备大数据特征的生物学数据的不断积累及精准医疗战略计划的开启,生物信息分析的重要性也日益增长,对当前相关领域的发展具有重大的推动意义。而如何通过生物实验数据挖掘出生物网络的潜在变化,一直是以***的方法研究生命现象的热点和难点。常规的方法往往只能同时针对某一生物类型数据进行分析,而无法同时对多种生物类型数据进行分析,无法利用不同类型数据蕴含的不同特征。
肖斌(《Luminal亚型乳腺癌细胞与正常乳腺细胞的circRNA表达谱差异分析》,南方医科大学学报,2018,38(8),1014-1019.)等报道的是一种单因素的生物信息分析。通过两种细胞的circRNA表达谱,提取数据后,对采集到的阵列图像进行分位数归一化和后续数据处理,进行火山图和聚类热图分析,得到Luminal亚型乳腺癌细胞与正常乳腺细胞的circRNA表达差异较大,其中表达上调或下调的circRNA有望成为Luminal亚型乳腺癌诊断的新靶标的结论。然而在实际的疾病基因关系中,通常是由多种类型基因相互影响共同作用于细胞进而产生疾病,单一数据的分析存在一定的局限性。
刘玉智(《表达谱芯片与DNA甲基化芯片综合分析探索鼻咽癌发生、发展的分子靶标》,临床检验杂志,2018,(8),574-578.)分别分析基因表达芯片数据和DNA甲基化芯片数据,利用R语言的相关工具包对表达谱芯片进行差异表达分析,对DNA甲基化芯片进行差异甲基化位点分析,利用DAVID数据库对筛选出的差异表达基因进行基因功能分析和信号通路分析,最后筛选出4个与鼻咽癌发生、发展相关的分子靶标和潜在的治疗靶点。虽然这篇文章已经运用到多种类型数据,获得了鼻咽癌相关治疗靶点,但是其实质仍是对单一类型数据进行数据处理,并没有在同一时间融合多种数据的特征进行数据分析。
发明内容
为了解决目前存在的只能从单一类型数据进行分析而没有在同一时间融合多种类型的数据的特征进行数据分析从而确定疾病亚型的问题,本发明提供了一种基于相似性网络融合算法的生物数据网络处理方法。
一种生物数据网络处理方法,所述方法包括:
S1:根据不同生物数据类型的样本数据集分别构建各个类型对应的样本相似性矩阵;
S2:根据S1构建的各个类型对应的样本相似性矩阵,采用SNF算法构建多种类型的样本数据的融合相似性矩阵;
S3:采用谱聚类方法将S2得到的多种类型的样本数据对应的融合相似性矩阵进行聚类确定样本数据所属子类。
可选的,所述S1包括:
对包含有不同生物数据类型的样本数据集中的每一类型数据进行归一化处理;
归一化后计算同一类型的样本间的欧式距离,构建距离矩阵;
采用高斯热核函数构建各个类型的样本数据的样本相似性矩阵。
可选的,所述欧式距离dij计算公式为:
其中,样本数据集共包含M个类型的样本数据,样本个数为n,mv为每个类型的样本数据所包含的基因数量,v=1…M,xik代表样本i的第k个基因,i、j取值范围为[1,n],k取值范围为[1,mv];xjk代表样本j的第k个基因。
可选的,所述采用高斯热核函数构建各个类型的样本数据的样本相似性矩阵,包括:
每个类型的样本数据的样本相似性矩阵记为wv,则各个类型的样本数据的样本相似性矩阵为:
其中,μ为一个超参数,取值范围为[0.3,0.8];εij为用于消除缩放比例问题的参数。
可选的,εij定义为:
其中,Ni代表除样本i之外的样本,mean(d(i,Ni))为样本xi到其他样本Ni的距离均值。
可选的,所述S2包括:
在得到S1构建的各个类型对应的样本相似性矩阵wv后,根据下述公式得到各个类型的样本数据对应的归一化权值矩阵P(v):
∑f≠iwif表示样本i与同一类型的样本数据中其他所有样本的相似性之和,f取值范围为[1,n];
定义用来测量局部亲和力的核矩阵S,记各个类型的样本数据对应的核矩阵为S(v):
采用SNF算法更新每个数据类型对应的样本相似性矩阵wv,迭代预定次数后,得到更新后的P(v)′:
其中,∑k≠vP(k)表示除了当前数据类型v之外的所有数据类型对应的归一化矩阵P(v)之和;
融合所有数据类型的相似性矩阵得到融合相似性矩阵P:
可选的,所述迭代预定次数为迭代10-20次。
可选的,所述方法还包括:根据样本相似性矩阵得到样本相似性网络。
本发明的第二个目的在于提供上述方法在分析疾病亚型鉴定方面的应用。
本发明的第三个目的在于提供上述方法在生物信息分析技术领域内的应用。
本发明有益效果是:
通过采用SNF算法,通过首先对生物多种遗传信息如mRNA,miRNA,lncRNA等构建相似性网络,再使用SNF算法对相似矩阵进行融合,创建可用的样本网络,利用谱聚类进行聚类,分析网络之间的关系,从而用于疾病致病机理的发现,早期诊断和后期治疗等领域。本发明方法能够利用不同类型的数据的互补性得到更为综合的结果,大大优于单一数据的分析和建立,为后续的综合分析建立基础。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明通过SNF算法进行融合得到的融合相似性矩阵对应的融合相似性网络示意图。
图2是本发明构建的样本相似性网络图。
图3是本发明使用谱聚类对融合相似性矩阵进行聚类分析结果图。
图4是对图3所示的聚类分析结果标出明显方块后的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一:
本实施例提供一种基于相似性网络融合算法的生物数据网络处理方法,为详细进行说明,本实施例以采用mRNA,miRNA,lncRNA三种类型数据作为数据集为例,分别以这些数据构建相似性矩阵进行融合,再构建样本网络进行分析。下述过程中输入的是胰腺癌患者共177个样本的mRNA,miRNA,lncRNA三种类型的数据,该样本数据来源于TCGA数据库(https://www.cancer.gov/tcga)。
本实施例提供的基于相似性网络融合算法的生物数据网络处理方法,包括:
(1)分别构建各个类型样本数据对应的样本相似性矩阵以及样本相似性网络;
假设样本数据集为{x1,x2,...,xn},该样本数据集共包含M个类型的样本数据,样本个数为n,每个类型的样本数据所包含的基因数量分别为mv(v=1…M);本实施例中n=177,M=3,mRNA,miRNA,lncRNA三种类型的样本数据中分别包含的基因数量分别为m1=8073,m2=557,m3=17914。
首先,对上述177个样本的mRNA,miRNA,lncRNA不同类型的生物数据集中的每一类型数据进行归一化处理,归一化后计算样本间的欧式距离,构建距离矩阵,再由高斯热核函数构建各个类型的样本数据的样本相似性矩阵wv,其中v=1…M。则三个类型的样本数据分别对应的样本相似性矩阵分别为w1,w2,w3;
为描述简便,下述以构建一个类型的样本数据对应的样本相似性矩阵以及样本相似性网络个过程为例进行说明,多种类型则需要分别对每个类型的样本数据进行下述过程。
归一化公式为:
u为均值,σ为标准差,x为样本数据。
欧式距离计算公式为:
i、j取值范围为[1,n],本实施例中i,j∈(1,177),xik代表样本i的第k个基因,k取值范围为[1,mv]。
由高斯热核函数构建每个类型的样本数据的样本相似性矩阵wv为:
其中,wij表示样本i与样本j的相似性,μ是一个超参数,取值范围为[0.3,0.8];dij表示样本i与样本j的欧几里得距离;εij是用于消除缩放比例问题的参数,εij定义为
其中,Ni代表除样本i之外的样本,mean(d(i,Ni))为样本xi到其他样本Ni的距离均值;
在得到每个类型的样本数据的样本相似性矩阵wv后,以图的形式进行表示,得出每个类型的样本数据对应的样本相似性网络。
(2)相似网络融合
在得到以不同生物数据类型构建的样本相似性矩阵w后,利用相似网络融合(similarity network fusion,SNF)算法,迭代更新状态矩阵,状态矩阵即每次迭代时输入的样本相似性矩阵,最终得到多种类型的样本数据的融合相似性矩阵,构建融合样本网络,从而进行下一步分析。
SNF算法是使用样本网络作为整合基础,为每个数据类型构建样本相似性网络,并使用非线性组合方法将这些网络集成到单个相似性的网络中的方法。SNF算法超越了目前捕获连续的表型的分型策略,大大优于单一数据的分析和建立,在识别肿瘤亚型,预测生存时是十分有效的。
基于SNF算法的相似网络迭代融合,使上述各个数据类型很好地整合在一起,从而从一个全面的角度进一步挖掘生物信息。
在得到各个数据类型的样本相似性矩阵wv后,根据下述公式得到各个类型的样本数据对应的归一化权值矩阵P(v):
∑f≠iwif表示样本i与同一类型的样本数据中其他所有样本的相似性之和,f取值范围为[1,n];
该归一化矩阵P(v)不受对角线自相似性的影响,避免了数值的不稳定性。
定义用来测量局部亲和力的核矩阵S,记各个类型的样本数据对应的核矩阵为S(v):
采用SNF算法更新每个数据类型对应的样本相似性矩阵wv,迭代预定次数后,预定次数取10-20次,得到更新后的P(v)′:
其中,∑k≠vP(k)表示除了当前数据类型v之外的所有数据类型对应的归一化矩阵P(v)之和;
本实施例中3个类型对应的样本相似性矩阵
在M个样本相似性网络上进行数据的特征融合过程中,如果两个样本i和j在所有数据类型中都是相似的,那么它们的相似性将通过融合过程得到增强,反之亦然。融合所有数据类型的相似性矩阵得到融合相似性矩阵P:
融合相似性矩阵P对应的融合相似性网络如图1所示,由它构建样本相似性网络,如图2所示。
(3)谱聚类
用谱聚类方法将上述得到的融合相似性矩阵P聚类而得到子类。
假设聚类总数为C,每一个样本xi拥有一个标签指示向量yi∈{0,1}C,当xi属于第c个聚类时,c的取值范围为[1,C],
yi(k)=1
否则,
yi(k)=0
s.t.QTQ=I
其中Q=Y(YTY)-1/2为规模划分矩阵;L+=I-D-1/2PD-1/2表示融合相似性矩阵P的标准化拉普拉斯矩阵;矩阵D是融合相似性矩阵P对应的相似性网络的度的矩阵,对角线元素为对应位置节点的度,非对角线元素设置为0。目标函数可以用特征向量分解问题来表征。通过计算最小的k特征向量,并对约简后的数据应用k-均值算法,得到样本的聚类,分析结果如图3所示,样本已被聚类为三个子类,对比图1,图3中可以看出三个明显的大小不一的方块,每个方块代表一个子类,将这三个明显方块标出示意图如图4所示。
本发明通过采用SNF算法,通过计算样本相似性、进行相似性网络融合来创建一个生物信息的全面视图的计算模型。SNF算法可以保持较高的信噪比,使各个数据类型可以很好地整合在一起。而谱聚类算法可分析网络节点间的关系。本发明方法能够集中多种数据类型的特征,解决了单数据分析的局限性,为后续的综合分析诸如疾病亚型鉴定等建立了基础。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种生物数据网络处理方法,其特征在于,所述方法包括:
S1:根据不同生物数据类型的样本数据集分别构建各个类型对应的样本相似性矩阵;
S2:根据S1构建的各个类型对应的样本相似性矩阵,采用SNF算法构建多种类型的样本数据的融合相似性矩阵;
S3:采用谱聚类方法将S2得到的多种类型的样本数据对应的融合相似性矩阵进行聚类确定样本数据所属子类。
2.根据权利要求1所述的方法,其特征在于,所述S1包括:
对包含有不同生物数据类型的样本数据集中的每一类型数据进行归一化处理;
归一化后计算同一类型的样本间的欧式距离,构建距离矩阵;
采用高斯热核函数构建各个类型的样本数据的样本相似性矩阵。
6.根据权利要求5所述的方法,其特征在于,所述S2包括:
在得到S1构建的各个类型对应的样本相似性矩阵wv后,根据下述公式得到各个类型的样本数据对应的归一化权值矩阵P(v):
∑f≠iwif表示样本i与同一类型的样本数据中其他所有样本的相似性之和,f取值范围为[1,n];
定义用来测量局部亲和力的核矩阵S,记各个类型的样本数据对应的核矩阵为S(v):
采用SNF算法更新每个数据类型对应的样本相似性矩阵wv,迭代预定次数后,得到更新后的P(v)′:
其中,∑k≠vP(k)表示除了当前数据类型v之外的所有数据类型对应的归一化矩阵P(v)之和;
融合所有数据类型的相似性矩阵得到融合相似性矩阵P:
7.根据权利要求6所述的方法,其特征在于,所述迭代预定次数为迭代10-20次。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:根据样本相似性矩阵得到样本相似性网络。
9.权利要求1-8任一所述的方法在分析疾病亚型鉴定方面的应用。
10.权利要求1-8任一所述的方法在生物信息分析技术领域内的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910451766.4A CN111009285A (zh) | 2019-05-28 | 2019-05-28 | 一种基于相似性网络融合算法的生物数据网络处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910451766.4A CN111009285A (zh) | 2019-05-28 | 2019-05-28 | 一种基于相似性网络融合算法的生物数据网络处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111009285A true CN111009285A (zh) | 2020-04-14 |
Family
ID=70111524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910451766.4A Pending CN111009285A (zh) | 2019-05-28 | 2019-05-28 | 一种基于相似性网络融合算法的生物数据网络处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111009285A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112071369A (zh) * | 2020-09-10 | 2020-12-11 | 暨南大学附属第一医院(广州华侨医院) | 模块标记物挖掘方法、装置、计算机设备及存储介质 |
CN113723537A (zh) * | 2021-09-02 | 2021-11-30 | 安阳师范学院 | 一种基于鲁棒的对称非负矩阵分解的微生物数据聚类方法 |
CN115631799A (zh) * | 2022-12-20 | 2023-01-20 | 深圳先进技术研究院 | 样本表型的预测方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392247A (zh) * | 2014-11-07 | 2015-03-04 | 上海交通大学 | 一种用于数据聚类的相似性网络融合快速方法 |
CN106203471A (zh) * | 2016-06-22 | 2016-12-07 | 南京航空航天大学 | 一种基于融合Kendall Tau距离度量的谱聚类方法 |
-
2019
- 2019-05-28 CN CN201910451766.4A patent/CN111009285A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392247A (zh) * | 2014-11-07 | 2015-03-04 | 上海交通大学 | 一种用于数据聚类的相似性网络融合快速方法 |
CN106203471A (zh) * | 2016-06-22 | 2016-12-07 | 南京航空航天大学 | 一种基于融合Kendall Tau距离度量的谱聚类方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112071369A (zh) * | 2020-09-10 | 2020-12-11 | 暨南大学附属第一医院(广州华侨医院) | 模块标记物挖掘方法、装置、计算机设备及存储介质 |
CN112071369B (zh) * | 2020-09-10 | 2021-08-03 | 暨南大学附属第一医院(广州华侨医院) | 模块标记物挖掘方法、装置、计算机设备及存储介质 |
CN113723537A (zh) * | 2021-09-02 | 2021-11-30 | 安阳师范学院 | 一种基于鲁棒的对称非负矩阵分解的微生物数据聚类方法 |
CN115631799A (zh) * | 2022-12-20 | 2023-01-20 | 深圳先进技术研究院 | 样本表型的预测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7487163B2 (ja) | がんの進化の検出および診断 | |
CN111009285A (zh) | 一种基于相似性网络融合算法的生物数据网络处理方法 | |
Song et al. | scLM: automatic detection of consensus gene clusters across multiple single-cell datasets | |
Dass et al. | Classification of lung cancer subtypes by data mining technique | |
CN111913999B (zh) | 基于多组学与临床数据的统计分析方法、***和存储介质 | |
CN112086199B (zh) | 基于多组学数据的肝癌数据处理*** | |
Suo et al. | Application of clustering analysis in brain gene data based on deep learning | |
Zhang et al. | SCCLRR: a robust computational method for accurate clustering single cell RNA-seq data | |
Wen et al. | Multi-dimensional data integration algorithm based on random walk with restart | |
Shi et al. | Multi-view subspace clustering analysis for aggregating multiple heterogeneous omics data | |
Xu et al. | A systematic review of computational methods for predicting long noncoding RNAs | |
Tran et al. | Omics-based deep learning approaches for lung cancer decision-making and therapeutics development | |
Maind et al. | Identifying condition specific key genes from basal-like breast cancer gene expression data | |
Feng et al. | Multi-omics data fusion via a joint kernel learning model for cancer subtype discovery and essential gene identification | |
Zou et al. | DEMOC: a deep embedded multi-omics learning approach for clustering single-cell CITE-seq data | |
Liu et al. | A Network Hierarchy-Based method for functional module detection in protein–protein interaction networks | |
CN112768001A (zh) | 一种基于流形学习和主曲线的单细胞轨迹推断方法 | |
Maddouri et al. | Deep graph representations embed network information for robust disease marker identification | |
CN117457065A (zh) | 一种基于单细胞多组学数据识别表型相关细胞类型的方法和*** | |
CN116631496A (zh) | 一种基于多层异构图的miRNA靶标预测方法及***和应用 | |
Yang et al. | Characterization of essential genes by topological properties in the perturbation sensitivity network | |
CN112086187B (zh) | 一种基于复杂网络的疾病进展路径挖掘方法 | |
Tang et al. | Multi-Omics Data Mining Techniques: Algorithms and Software | |
CN113421614A (zh) | 一种基于张量分解的lncRNA-疾病关联预测方法 | |
Soleimani et al. | Classification of cancer types based on microRNA expression using a hybrid radial basis function and particle swarm optimization algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |