CN110459264B

CN110459264B - 基于梯度增强决策树预测环状rna与疾病相关性的方法

Info

Publication number: CN110459264B
Application number: CN201910711870.2A
Authority: CN
Inventors: 雷秀娟; 方增强; 张宇辰
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2022-08-16
Anticipated expiration: 2039-08-02
Also published as: CN110459264A

Abstract

本发明公开了基于梯度增强决策树预测环状RNA与疾病相关性的方法，通过将环状RNA‑疾病关系网络转化为无向图、计算环状RNA碱基序列相似性、功能注释语义相似性以及表达相似性，计算疾病功能以及语义相似性，采用多网络融合算法整合多种环状RNA相似性网络以及加权平均整合疾病相似性网络，提取融合后的环状RNA和疾病相似性网络以及环状RNA‑疾病关系网络的统计学特征，将融合后的环状RNA和疾病相似性网络转换成无权图的图相关特征，环状RNA碱基序列特征以及环状RNA‑疾病关系网络隐式向量特征，训练梯度增强决策树学习机，预测潜在环状RNA‑疾病关系。本发明方法能准确地预测出潜在环状RNA‑疾病关系；且提高了环状RNA‑疾病关系的预测准确率。

Description

基于梯度增强决策树预测环状RNA与疾病相关性的方法

技术领域

本发明属于生物信息技术领域，具体涉及一种基于梯度增强决策树预测环状RNA与疾病相关性的方法。

背景技术

环状RNA是一种短的非编码RNA，环状RNA分子中没有游离在外的5’-cap端和3’-polaydenylated尾端结构，而是一种封闭的环状结构，相比于以5’cap端和3’tail结尾的线性RNA，这是最大的不同。正是因为这种封闭的环状结构使得环状RNA在生物体中更难被检测到。与此同时，封闭的环状结构使环状RNA相比于线性RNA更加稳定，进而可以被为标记某些疾病的生物标志物。随着碱基序列检测技术和高通量技术的发展，越来越多的环状RNA和疾病的关系被揭露。许多研究结果表明，环状RNA可以作为竞争性内源性RNA或小RNA的海绵，这些使得环状RNA作为疾病的生物标志物产生提供更多的可能。其次，通过分离翻译起始位置来调节蛋白质表达。环状RNA也可以对选择性剪接和转录过程产生影响，并参与调节亲本基因的表达。更重要的是，环状RNA还可以充当视黄醇结合蛋白(RBP)海绵，可以加强MBL蛋白和环状MBL[10]之间的相互作用，或者作为模板参与翻译过程。此外，越来越多的证据和研究表明，环状RNA在疾病诊断和治疗中发挥着重要作用，特别是针对于各种癌症、心血管疾病、糖尿病等，目前环状RNA与疾病相关性研究是一个较为前沿的工作，这些研究也能够通过环状RNA-微小RNA-mRNA通路来探索潜在的未知关系。

近年来，环状RNA其他生物分子之间的如环状RNA-微小RNA、环状RNA-长非编码RNA等的复杂联系。为了更好地促进环状RNA的研究，构建了一些有用的数据库来收集环状RNA的信息，circBase(http://www.circbase.org/)、circ2traits(http://gyanxet.beta.com/circdb/)和circ2disease(http://bioinfo.snnu.edu.cn/circr2disease/)。由于环状RNA具有特殊的封闭环状结构，因此具有很高的抗核酸酶能力。封闭环状结构也使得环状RNA半衰期比通常的线性RNAs更长，RNA半衰期存在的差异更能成为推断环状RNA与疾病相互作用关系的一个标志特性。虽然传统的RNA碱基序列计算技术已经被广泛地应用于疾病相关基因的检测，并采用高通量技术加以验证，在这些先进技术的帮助下我们获得一些准确的实验结果，但这些技术仍然是非常的昂贵和耗时的。与此同时，预测潜在环状RNA和疾病相互作用关系的计算模型现在也很少。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于梯度增强决策树预测环状RNA与疾病相关性的方法，本发明通过从多生物数据融合的环状RNA和疾病网络中提取的环状RNA和疾病的相互左右对的特征向量在梯度增强决策树训练，提高了环状RNA-疾病相互作用关系预测准确率。

为了达到上述目的，本发明采用以下技术方案予以实现：

基于梯度增强决策树预测环状RNA与疾病相关性的方法，包括以下步骤：

(1)人类环状RNA-疾病关系提取

将环状RNA-疾病关系转换成一个无向图，相互作用关系的邻接矩阵A，邻接矩阵中的A(i,j)表示为一个环状RNA-疾病关系对实体，如果在环状RAN i和疾病j之间存在相互作用关系，则A(i,j)＝1，反之A(i,j)＝0；

(2)环状RNA序列相似性提取及计算

通过python包集成的Needleman-Wunsch方法，计算每一对环状RNA之间的序列相似性分数，构建环状RNA的碱基序列相似性矩阵Seq_CS；

(3)环状RNA功能注释语义相似性

在人类蛋白质参考数据库中下载环状RNA靶点作用基因的本体注释数据，根据基因筛选出其对应的本体数据，将环状RNA靶点作用基因和处理完的带有本体数据的基因进行匹配，再通过一种基于信息内容的方法来计算环状RNA功能注释语义相似性得分，构建环状RNA功能注释语义相似性矩阵Fun_CS，Fun_CS矩阵中的Fun_CS(n,m)为环状RNAn和环状RNAm之间的功能注释语义相似性得分；

(4)环状RNA表达谱相似性

在exoRBase数据库中下载环状RNA在人类组织中32个不同位点的基因表达量数据，环状RNA的基因表达谱数据被表示为一个维度为32的向量，再通过皮尔森相关系数计算两个环状RNA之间的相关性，从而构建环状RNA表达谱相似性矩阵ES；

(5)多种环状RNA相似性融合

通过多网络融合算法，将在步骤(2)、(3)、(4)中获取的环状RNA碱基序列相似性矩阵Seq_CS、功能语义相似性矩阵Fun_CS以及表达谱相似性矩阵ES合并成一个综合环状RNA相似性网络，在将环状RNA序列相似，功能注释相似性以及表达谱相似性网络融合之前，对这三个相似性网络进行归一化处理；

(6)计算疾病功能相似性

在DisGeNet数据库中下载疾病相关的基因数据，在人类在线孟德尔遗传数据库中下载疾病表型相关基因数据，以此计算疾病功能相似性；

(7)计算疾病语义相似性

将筛选出来的疾病在Disease Ontology数据库中对应成相应的DOID，再通过一个R语言的集成包计算疾病语义相似性DSS，再将疾病功能相似性和语义相似性融合；

(8)构建环状RNA-疾病特征向量

在构建完环状RNA疾病关系邻接矩阵，融合多数据的环状RNA相似性矩阵以及疾病相似性矩阵，提取环状RNA-疾病关系对的以下四种不同的特征，分别包括多数据网络融合的环状RNA和疾病相似网络统计学特征、将环状RNA和疾病相似性网络转换成邻接矩阵之后的图特征、环状RNA核酸序列数据生物含义特征、疾病相似网络和环状RNA疾病关联矩阵中的隐式向量特征，将四种特征压缩成每对环状RNA-疾病特征向量；

(9)训练梯度增强决策树回归模型

通过步骤(8)构建每对环状RNA-疾病相互作用的特征向量，在负样本中随机抽取与正样本数量相同的负样本，负样本指未知环状RNA-疾病关系的样本，正样本指已知环状RNA-疾病关系的样本，将这些正负样本输入到梯度增强决策树学习机中来训练，最后将未确定的环状RNA-疾病关系特征向量输入到训练好的模型中预测环状RNA-疾病存在关系的可能性。

进一步地，步骤(5)中按式(1)来将每个环状RNA相似性网络对应的矩阵归一化：

式中P(i,j)表示的是归一化之后的相似性网络对应的矩阵，W(i,j)表示的是原始的相似性网络对应的矩阵，M代表原始相似性网络对应的矩阵的个数，按式(2)计算归一化后的相似性网络对应的矩阵的局部相似性：

式中S(i，j)代表的是局部相似性网络对应的矩阵，W^M代表的是第M个环状RNA相似网络，W^M(i,j)代表是第M个环状RNA相似网络中的环状RNA i和j的相似性得分，V(i)代表的是环状RNA i前20个相似的环状RNA集合，k代表的是集合V(i)中的一个环状RNA，W^M(i,k)第M个环状RNA相似网络中的环状RNA i和k的相似性得分，然后按式(3)来计算全局相似性：

式中

代表的是经过t次迭代之后产生的相似性矩阵的全局相似性，S⁽ⁱ⁾代表的是第i个环状RNA局部相似性网络，M代表的是环状RNA相似性网络的数量，(S⁽ⁱ⁾)^T代表的的S⁽ⁱ⁾的转置，

代表的是除了第i个环状RNA相似性网络其他环状RNA相似性网络，然后按式(4)将整合了局部和全局的相似进行融合；

式中P代表将M个环状RNA相似性网络整合之后的环状RNA相似性网络。

进一步地，步骤(6)中按式(5)计算疾病功能相似性：

式中

和

分别代表两个疾病相关的基因集合。

进一步地，步骤(7)中按式(6)将疾病功能相似性和语义相似性融合：

DS(i,j)＝α·DFS(i,j)+(1-α)·DSS(i,j) 式(6)

式中α代表疾病功能相似性和语义相似性融合权重因子，DS(i,j)代表的是整合后的疾病相似性网络，DFS(i,j)代表的是一对疾病的功能相似性得分，DSS(i,j)代表的是一对疾病的语义相似性得分。

进一步地，步骤(8)中环状RNA-疾病特征向量的构建方法具体为：

为了提取环状RNA-疾病关系中的融合了多种环状RNA相似性网络P、疾病相似性整合矩阵DS和环状RNA-疾病相互作用关系网络A中的统计学信息特征，首先通过计算环状RNA-疾病相互作用关系矩阵A中第i列或第j行的和来计算环状RNA i和疾病j的邻居个数F1.num.nei，根据环状RNA相似性矩阵P和疾病相似性矩阵DS计算环状RNA i和疾病j的平均相似度F1.sim.ave，此外，环状RNA i和疾病j相似性的分布特征，即F1.dis.num，将相似度得分根据分布划分为5个区间，统计每个区间的相似性分的数量；

为了提取环状RNA和疾病的从图的角度来提取融合了多种环状RNA相似矩阵P和疾病相似性整合矩阵DS的特征，首先将多网络融合环状RNA相似性矩阵P和疾病相似性矩阵DS各自求和计算出对应的平均相似性，环状RNA相似矩阵P和疾病相似矩阵DS转换为无权重图，对于重新构建的无权图得到环状RNA i和疾病j的邻居数，表示为F2.num.nei，根据多网络融合环状RNA相似性矩阵P和疾病相似性矩阵DS，计算环状RNA i和疾病j的相似度得分排在前十的邻居，表示为F2.k.sim，对于提取出环状RNA相似性网络和疾病相似性网络的统计学特征，通过相似性排在前10个环状RNA和疾病的邻居节点来计算第一类特征的平均值，即F2.ave.feat1，并且通过环状RNA和疾病对应的相似性值加权，表示为F2.w.ave.feat1，为了得到更多的环状RNA和疾病的无权重图的信息，计算多网络融合环状RNA相似性矩阵P和疾病相似性矩阵DS中每个节点的中间中心性、紧密中心性和特征向量中心性，分别表示为F2.bc、F2.cc和F2.ec；

为了提取环状RNA的碱基核苷酸序列中的特性来计算其生物学特征，核酸序列中GC碱基的含量作为生物学特性的一个重要指标，表示为F3.gc.cont，碱基序列的k-mer特征也被用来计算环状RNA的生物特征，表示为F3.base.k-mer；

为了提取环状RNA-疾病关联矩阵A中的隐式向量特征，采用奇异值分解算法分解环状RNA-疾病的隐式向量，表示为F4.svd，此外，从环状RNA-疾病关联矩阵A中获取一对环状RNA和疾病的相关疾病和环状RNA数量，用F4.c.d.num和F4.d.c.num来分别表示一对环状RNA和疾病的相关疾病和环状RNA的数量，进而计算环状RNA-疾病关系矩阵中每个环状RNA和疾病节点的中间中心性、紧密中心性和特征向量中心性，分别表示为F4.c.d.bc、F4.c.d.cc和F4.c.d.ec；

在提取了多网络融合的环状RNA相似网络P的统计学特征F₁、将多网络融合的环状RNA相似网络P和疾病相似网络DS转换成对应的无权重图的图特征F₂、环状RNA的碱基序列的生物特征F₃以及环状RNA-疾病关联网络A的隐式向量特征F₄所有信息后，构建每对环状RNA-疾病的特征向量，将四类特征合并为每个环状RNA-疾病关联关系的特征向量，按式(7)所示：

F(c(i),d(j))＝[F₁,F₂,F₃,F₄] 式(7)

式中F(c(i),d(j))代表的是环状RNA i和疾病j关系对特征向量。

进一步地，步骤(3)中，环状RNA之间的功能注释语义相似性得分，由式(8)得到：

式中，C_i和C_j分别代表环状RNA i和j靶点基因相关的本体数据集合，P(C_i)和P(C_j)分别代表环状RNA i和j靶点基因相关的本体数据集合数量和使用的本体数据数量的比值，P(C_i∪j)表示的是环状RNA i和j共有的靶点基因相关的本体数据的数量与使用中的本体数据数量之间的比例。

进一步地，步骤(4)中，环状RNA之间的表达谱相似性得分，由式(9)得到：

式中，N是环状RNA表达位点的数量，C_it代表的是第i个环状RNA在t位点的表达量值，

代表的是第i个环状RNA的平均表达量，C_jt代表的是第j个环状RNA在t位点的表达量值，

代表的是第j个环状RNA的平均表达量。

与现有技术相比，本发明具有以下有益效果：

1、本发明采用利用环状RNA的碱基序列，人体不同位点的表达谱数据以及相关靶点基因对应的基因本体数据，分别采用了序列比对算法，信息量和皮尔森相关系数建立了三种不同的环状RNA相似性网络。进而再采用了一种网络融合算法，考虑了每个网络的局部信息和全局影响，将三个网络融合成一个环状RNA相似性网络。对于疾病，利用疾病相关的基因数据和表型数据，分别采用JACCARD算法和DOSE算法计算了疾病功能相似性和语义相似性。对两个疾病相似性网络采用加权平均的方式进行融合。多数据的综合考虑和有效的融合算法，使得更多的环状RNA和疾病数据的信息被考虑，减少了信息的损失，提高了潜在环状RNA-疾病关系预测准确率。

2、本发明在通过在多数据融合的环状RNA相似性网络，疾病相似性网络以及环状RNA-疾病相互作用网络提取了四类不同特征分别是，环状RNA和疾病相似性网络统计学特征，将环状RNA，疾病相似性网络转换成对应的无权重图的图论相关特征，环状RNA碱基序列相关特征以及环状RNA-疾病相互作用网络的隐式向量特征，进而采用梯度增强决策树学习机对相关的正负样本训练，提高了潜在环状RNA-疾病关系预测准确率。

3、采用本发明能够有效地基于多数据融合的多元网络中提取出环状RNA-疾病对特征输入梯度增强决策树学习机训练来预测潜在环状RNA-疾病关系，为进一步分析环状RNA和疾病的复杂关系以及生物学功能奠定了基础。此研究不仅有助于理解细胞的运作机理和生命活动机制，也为探讨重大疾病的机理、疾病的诊断、临床治疗、预防以及新药物的开发提供前期的理论分析，这将为合成生物学与***医学的研究与发展提供重要的理论指导和应用价值。

附图说明

图1为本发明的基于梯度增强决策树预测环状RNA与疾病相关性的方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

如图1所示，本发明基于梯度增强决策树预测环状RNA与疾病相关性的方法，包括以下步骤：

以下通过具体实施例对本发明进一步详细说明：

下面是以预测从circ2Disease数据库中获取的环状RNA，疾病数据建立的环状RNA-疾病相互作用关系网络为例的一种基于梯度增强决策树预测环状RNA与疾病相关性的方法，具体操作如下：

本实施例以采自circR2Disease数据库提供的环状RNA-疾病相互作用数据作为仿真数据集，根据环状RNA的碱基序列数据，人类组织表达谱数据和相关靶点基因的本体数据，筛选出总共包括140个环状RNA-疾病相关系，132个环状RNA和40个疾病数据。环状RNA碱基序列数据从circBase数据库中获取，人类组织表达谱数据在exoRbase数据库中获取以及基因本体数据从HPRD数据库中获取；疾病相关基因数据从DisGENet数据库和OMIM的数据库中下载，语义相似性数据将疾病名称输入在Disease Ontology数据库中转换成对应的DOID，再利用DOSE R语言包工具计算。实验平台为Windows 10操作***，Intel酷睿i5-7400双核3.00GHz处理器，8GB物理内存，用pyCharm2017软件实现本发明的方法。

具体步骤如下：

1、人类环状RNA-疾病关系提取

将根据环状RNA和疾病相似性数据筛选出包含了132和环状RNA，40个疾病以及140环状RNA-疾病关系转换成一个无向图，相互作用关系的邻接矩阵A，A(i,j)表示为一个环状RNA-疾病关系对实体，如果在环状RAN i和疾病j之间存在相互作用关系A(i,j)＝1，反之A(i,j)＝0；

2、环状RNA序列相似性提取及计算

3、环状RNA功能注释语义相似性

在人类蛋白质参考数据库(HPRD)中下载环状RNA靶点作用基因的本体注释数据，根据基因筛选出其对应的本体数据，将环状RNA靶点作用基因和处理完的带有本体数据的基因进行匹配，再通过一种基于信息内容的方法来计算环状RNA功能注释语义相似性得分，构建环状RNA功能注释语义相似性矩阵Fun_CS,Fun_CS(i,j)为环状RNA i和环状RNA j之间的功能注释语义相似性得分，Fun_CS可由式(1)：

式中，C_i和C_j分别代表环状RNA i和j靶点基因相关的本体数据集合，P(C_i)和P(C_j)分别代表环状RNA i和j靶点基因相关的本体数据集合数量和使用的本体数据数量的比值，P(C_i∪j)表示的是环状RNA i和j共有的靶点基因相关的本体数据的数量与使用中的本体数据数量之间的比例；

4、环状RNA表达谱相似性

在exoRBase数据库中下载环状RNA在人类组织中32个不同位点的基因表达量数据，环状RNA的基因表达谱数据可以被表示为一个维度为32的向量，再通过皮尔森相关系数计算两个环状RNA之间的相关性，从而构建环状RNA表达谱相似性矩阵ES，可由式(2)：

式中N是环状RNA表达位点的数量，Cit代表的是第i个环状RNA在t位点的表达量值，

代表的是第i个环状RNA的平均表达量，Cjt代表的是第j个环状RNA在t位点的表达量值，

代表的是第j个环状RNA的平均表达量；

5、多种环状RNA相似性融合

通过多网络融合算法，将在(2)、(3)、(4)步中获取的环状RNA序列相似性、功能语义相似性以及表达谱相似性合并成一个综合环状RNA相似性网络，在将多种相似性网络融合之前，需要对每个相似性网络进行归一化处理，为了避免归一化的矩阵出现为行之和为一和对角线上元素为一，这里按式(3)来将不同的相似性矩阵归一化：

式中P(i,j)表示的是归一化之后的相似性矩阵，W(i,j)表示的是原始的相似性矩阵，M代表原始相似性矩阵的个数，按式(4)计算归一化后的相似性矩阵的局部相似性：

式中S(i，j)代表的是局部相似性矩阵，V(i)代表的是环状RNA i前K个相似的环状RNA集合，然后按式(5)来计算全局相似性：

式中P_t ⁽ⁱ⁾代表的是每个相似性矩阵的全局相似性，最后按式(6)将整合了局部和全局的相似进行融合：

6、计算疾病功能相似性

在DisGeNet数据库中下载疾病相关的基因数据，为了保证数据的可靠性，人类在线孟德尔遗传数据(OMIM)中下载了疾病表型相关基因数据，按式(7)来计算疾病功能相似性：

式中

和

分别代表疾病i和j相关的基因集合；

7、计算疾病语义相似性

将筛选出来的疾病在Disease Ontology数据库中对应成相应的DOID，再通过一个R语言的集成包(DOSE)计算疾病语义相似性DSS，再按式(8)将疾病功能相似性和语义相似性融合：

DS(i,j)＝α·DFS(i,j)+(1-α)·DSS(i,j) 式(8)

式中α代表疾病功能相似性和语义相似性融合权重因子；

8、环状RNA-疾病特征向量构建

环状RNA-疾病对的特征主要分为以下四种不同的特征，分别包括多数据网络融合的环状RNA相似网络、环状RNA核酸序列数据、疾病相似网络和环状RNA疾病关联矩阵，以下是环状RNA-疾病特征向量具体的构建方法：

为了提取环状RNA i和疾病j的第一类特征，提取融合了多种环状RNA相似性网络P、疾病相似性整合矩阵DS和环状RNA-疾病相互作用关系网络统计学信息。通过计算环状RNA-疾病相互作用关系矩阵A中第i列或第j行的和来计算环状RNA i和疾病j的邻居个数，F1.num.nei，根据环状RNA相似性矩阵P和疾病相似性矩阵DS计算环状RNA i和疾病j的平均相似度，F1.sim.ave，此外，环状RNA i和疾病j相似性的分布特征，即F1.dis.num，将相似度得分根据分布划分为5个区间；

为了环状RNA i或疾病j的第二类特征，从图的角度来提取多网络融合环状RNA相似矩阵P和疾病相似性矩阵DS的特征，首先将相似性矩阵P和DS按照其对应的平均相似性，环状RNA相似矩阵P和疾病相似矩阵DS转换为无权重图，对于重新构建的无权图得到环状RNA i和疾病j的邻居数，表示为F2.num.nei，根据带权相似度矩阵P和DS，计算环状RNA i和疾病j的相似度得分排在前十的邻居，可表示为F2.k.sim，对于提取出的第一类环状RNA和疾病特征，通过相似性排在前10个环状RNA和疾病的邻居节点来计算第一类特征的平均值，即F2.ave.feat1，并且通过环状RNA和疾病对应的相似性值加权，如F2.w.ave.feat1，为了得到更多的环状RNA和疾病的无权重图的信息，计算矩阵P和DS中每个节点的中间中心性、紧密中心性和特征向量中心性，分别可以表示为F2.bc、F2.cc和F2.ec；

为了构建环状RNA的第三个特征，采用环状RNA的碱基核苷酸序列来计算其生物学特征，核酸序列中GC碱基的含量可以作为生物学特性的一个重要指标，F3.gc.cont，碱基序列的k-mer特征也被用来计算环状RNA的生物特征，表示为F3.base.k-mer；

为了从环状RNA-疾病关联矩阵A提取第四类特征，采用奇异值分解(SVD)算法分解环状RNA-疾病的隐式向量，表示为F4.svd,此外，为了获得到环状RNA i和疾病j邻居数目，分别称为F4.c.d.num和F4.d.c.num，进而计算环状RNA-疾病关系矩阵中每个环状RNA和疾病节点的中间中心性、紧密中心性和特征向量中心性，分别表示为F4.c.d.bc、F4.c.d.cc和F4.c.d.ec；

在提取了circRNA相似网络、疾病相似网络和circRNA疾病关联网络的所有信息后，构建了每对circRNA疾病的特征向量，将四类特征合并为每个环状RNA-疾病关联关系的特征向量，按式(9)所示：

F(c(i),d(j))＝[F₁,F₂,F₃,F₄] 式(9)

9、训练梯度增强决策树回归模型

通过步骤(9)构建每对环状RNA-疾病相互作用的特征向量，在负样本中随机抽取与正样本数量相同的负样本，将这些正负样本输入到模型中来训练梯度增强决策数学习机，最后将未确定的环状RNA-疾病关系特征向量输入到训练好的模型中预测环状RNA-疾病存在关系的可能性。

为了验证本发明的有效性，发明人采用本发明实施例1基于梯度增强决策树预测环状RNA与疾病相关性的方法对circR2Disease数据库中的环状RNA-疾病关系进行预测，对环状RNA-疾病关系网络中的已知的作用关系实施留一交叉验证，以此来分析本发明的预测性能，结果见表1-3，表1显示了与当前其他关系预测方法预测的环状RNA-疾病潜在关系的结果进行预测精确率(precision)、召回率(recall)、准确率(accuracy)以及f1-measure的比较，表2显示了与其它关系预测方法在前k个预测结果中，环状RNA-疾病关系预测正确数据的比较。表3列出了本发明预测出的前10个潜在环状RNA-乳腺癌关系在其他数据库或相关文献中的验证。

表1显示了采用本发明预测出的环状RNA-疾病关系与circR2Disease数据中标准数据进行比较的精确率(precision)、召回率(recall)、准确率(accuracy)以及f1-measure的比较，以及与其它10种关系预测方法的预测结果的比较。由表1可以看出，与其他方法相比，本发明方法能更有效地预测环状RNA-疾病潜在关系，本发明方法都有最高的预测召回率(recall)、准确率(accuracy)以及f1-measure。表2显示了预测出的环状RNA-疾病潜在关系得分在前80,100,120,140,160,180以及200时，本发明方法和其他10种方法在也在对应的前80,100,120,140,160,180以及200时的预测正确环状RNA-疾病潜在关系数量的比较结果。由表2可以看出，与其他方法相比，本发明在前80,100,120,140,160,180,200中的正确预测环状RNA-疾病数量都是最高的，预测结果最好。表3本发明预测出的前10个潜在环状RNA-乳腺癌关系在其他数据库或相关文献中的验证情况，由表3可以看出在预测的前十个和乳腺癌相关的环状RNA中，被其他数据库和相关文献验证的环状RNA有7个，'hsa_circRNA_103454/hsa_circ_0067103'，'hsa_circ_0006411'，以及'circRNA_100984/hsa_circ_0002019'，'YBL093C'等3个是预测出的乳腺癌潜在相关的环状RNA。由表1、表2和表3可以看出，本发明能够准确、有效地预测出潜在的环状RNA-疾病关系。

表1本发明与其他关系预测方法识别的关键蛋白质在准确率上的比较

表2本发明和其他方法在前k预测环状RNA-疾病结果正确数量的比较

表3本发明预测出的潜在环状RNA-乳腺癌关系在其他数据库/文献中的验证

综上所述，本发明基于梯度增强决策树预测环状RNA与疾病相关性的方法，通过将环状RNA-疾病关系网络转化为无向图、计算环状RNA碱基序列相似性、功能注释语义相似性以及表达相似性，计算疾病功能以及语义相似性，采用多网络融合算法整合多种环状RNA相似性网络以及加权平均整合疾病相似性网络，提取融合后的环状RNA和疾病相似性网络以及环状RNA-疾病关系网络的统计学特征，将融合后的环状RNA和疾病相似性网络转换成无权图的图相关特征，环状RNA碱基序列特征以及环状RNA-疾病关系网络隐式向量特征，训练梯度增强决策树学习机，预测潜在环状RNA-疾病关系。本发明方法能准确地预测出潜在环状RNA-疾病关系；仿真实验结果表明，灵敏度、特异性、F测度、阳性预测值、阴性预测值以及正确率等指标较优；与其他关系预测方法相比，在多数据融合的相似性网络中提取特征，进而采用梯度增强决策树学习机训练预测环状RNA-疾病潜在关系，提高了环状RNA-疾病关系的预测准确率。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.基于梯度增强决策树预测环状RNA与疾病相关性的方法，其特征在于，包括以下步骤：

(1)人类环状RNA-疾病关系提取

将环状RNA-疾病关系转换成一个无向图，生成一个相互作用关系的环状RNA-疾病关系邻接矩阵A，邻接矩阵中的A(i,j)表示为一个环状RNA-疾病关系对实体，如果在环状RANi和疾病j之间存在相互作用关系，则A(i,j)＝1，反之A(i,j)＝0；

(2)环状RNA序列相似性提取及计算

(3)环状RNA功能注释语义相似性

在人类蛋白质参考数据库中下载环状RNA靶点作用基因的本体注释数据，根据基因筛选出其对应的本体数据，将环状RNA靶点作用基因和处理完的带有本体数据的基因进行匹配，再通过一种基于信息内容的方法来计算环状RNA功能注释语义相似性分数，构建环状RNA功能语义相似性矩阵Fun_CS，Fun_CS矩阵中的Fun_CS(n,m)为环状RNAn和环状RNAm之间的功能注释语义相似性分数；

(4)环状RNA表达谱相似性

在exoRBase数据库中下载环状RNA在人类组织中32个不同位点的基因表达谱数据，环状RNA的基因表达谱数据被表示为一个维度为32的向量，再通过皮尔森相关系数计算两个环状RNA之间的相关性，从而构建环状RNA表达谱相似性矩阵ES；

(5)多种环状RNA相似性融合

通过多网络融合算法，将在步骤(2)、(3)、(4)中获取的环状RNA碱基序列相似性矩阵Seq_CS、功能语义相似性矩阵Fun_CS以及表达谱相似性矩阵ES合并成一个融合多数据的环状RNA相似性矩阵，在将环状RNA碱基序列相似性矩阵Seq_CS、功能语义相似性矩阵Fun_CS以及表达谱相似性矩阵ES融合之前，对这三个矩阵对应的相似性矩阵进行归一化处理；

(6)计算疾病功能相似性

在DisGeNet数据库中下载疾病相关的基因数据，在人类在线孟德尔遗传数据库中下载疾病表型相关基因数据，以此计算疾病功能相似性矩阵；

步骤(6)中按式(5)计算疾病功能相似性：

式中

和

分别代表两个疾病相关的基因集合；

(7)计算疾病语义相似性

将筛选出来的疾病在DiseaseOntology数据库中对应成相应的DOID，再通过一个R语言的集成包计算疾病语义相似性矩阵DSS，再将疾病功能相似性矩阵和疾病语义相似性矩阵融合成一个疾病相似性矩阵；

步骤(7)中按式(6)将疾病功能相似性和语义相似性融合：

DS(i,j)＝α·DFS(i,j)+(1-α)·DSS(i,j) 式(6)

式中α代表疾病功能相似性和语义相似性融合权重因子，DS(i,j)代表的是融合后的疾病相似性矩阵，DFS(i,j)代表的是一对疾病的功能相似性分数，DSS(i,j)代表的是一对疾病的语义相似性分数；

(8)构建环状RNA-疾病特征向量

在构建完环状RNA-疾病关系邻接矩阵，融合多数据的环状RNA相似性矩阵以及疾病相似性矩阵，提取环状RNA-疾病关系对的以下四种不同的特征，分别包括融合多数据的环状RNA相似性矩阵、疾病相似性矩阵和环状RNA-疾病关系邻接矩阵的统计学特征；融合多数据的环状RNA相似性矩阵和疾病相似性矩阵转换为无权重图之后的图特征；环状RNA核酸序列数据生物含义特征；以及环状RNA-疾病关系邻接矩阵中的隐式向量特征；

(9)训练梯度增强决策树回归模型