CN112530520A - 一种基于评分机制与LightGBM的CircRNA功能预测方法 - Google Patents

一种基于评分机制与LightGBM的CircRNA功能预测方法 Download PDF

Info

Publication number
CN112530520A
CN112530520A CN201910246871.4A CN201910246871A CN112530520A CN 112530520 A CN112530520 A CN 112530520A CN 201910246871 A CN201910246871 A CN 201910246871A CN 112530520 A CN112530520 A CN 112530520A
Authority
CN
China
Prior art keywords
circrna
function
lightgbm
scoring mechanism
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910246871.4A
Other languages
English (en)
Inventor
邓怡云
王高平
戴宪华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910246871.4A priority Critical patent/CN112530520A/zh
Publication of CN112530520A publication Critical patent/CN112530520A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

为克服现有技术的不足,本发明的目的在于利用评分机制结合LightGBM方法对circRNA的功能进行预测。本发明为解决其问题所采用的技术方案主要步骤是:(1)将大数据样本的circRNA以(.bed)文件形式输入。(2)将circRNA(.bed)文件映射到全人类基因组(hg19版本)上,得到circRNA序列信息(.fasta)文件。(3)提出了一种特征融合算法,对CircRNA特征进行融合。(4)将特征输入至A类判决***,将编码蛋白型circRNA区分出来。(5)其它CircRNA分别经过三个模型,依照顺序判别CircRNA各项功能,得到预测概率值。(6)根据评分机制,将上述所得到的三个预测概率值,通过B类判决***,得到最终的circRNA功能分类预测结果。

Description

一种基于评分机制与LightGBM的CircRNA功能预测方法
技术领域
本发明涉及生物信息学技术领域,特别是涉及CircRNA功能预测的领域。
背景技术
CircRNA在生物学中具有多种功能,如富含miRNA结合位点,在细胞中起到了海绵体的作用;通过与蛋白质结合来调控蛋白质的活性;有些CircRNA甚至可以被翻译成蛋白质。因此它也成为了近年来比较重要的潜在生物标记物,而对于其功能的识别是一件繁琐的事情,传统方法常利用实验法根据CircRNA已存在的多种功能对新CircRNA的功能进行一一检验,这种方法费时费力,并且对于大批量的CircRNA功能识别十分困难。目前暂未有任何一种方法来***CircRNA的功能,从而针对性地检验其某种功能,进而分析它在临床医学中的具体作用。
发明内容
为克服现有技术的不足,本发明的目的在于利用评分机制结合LightGBM方法对CircRNA的功能进行预测。它充分利用已发现的CircRNA各种功能的大数据信息,从机器学习的方法训练出模型,利用模型,可实现只需要简便输入需要进行功能预测的DNA或RNA 相关序列,就可以预测出CircRNA具有哪一种具体的功能,经实验验证准确率高达85%以上,极大地省去了对新发现的CircRNA的所有功能—检验所浪费的实验时间和器材损耗的经济成本,能对实验项目的进行起到事半功倍的效果。
本发明为解决其问题所采用的技术方案主要步骤是:
S1.将大数据样本的CircRNA以(.bed)文件形式输入,其中包含染色体号、序列起始位点、正负链标记。
S2.将CircRNA(.bed)文件根据起始位点等相关信息映射到全人类基因组(hg19版本)上。得到具体的CircRNA序列信息(.fasta)文件。
S3.提出了一种特征融合算法,用于根据CircRNA所表达的具体功能作为特征标签,并且提取相应功能的表达过程中相关的所有特征作为特征向量,进行融合处理。如miRNA结合位点、甲基化、连接数等特征。
S4.将相关的特征输入至判断“编码蛋白型”CircRNA的A类判决***,并根据A类判决***的流程将“编码蛋白型”CircRNA区分出来。
S5.在S4中判定为“非编码蛋白型”的CircRNA,将继续进入下一步的判决,分别经过三个由LightGBM二分类算法所构建的模型,依照顺序判别CircRNA各项功能。经过三个***分别得到一个预测概率值。
S6.根据评分机制,将上述所得到的三个预测概率值,通过我们提出的B类判决***中的“可信值计算”得到相应的分数,再通过评分机制输出最终的CircRNA功能分类预测结果。
S7.在整个过程中,对于三个LightGBM算法所构建的二分类模型,我们通过调整树的最大深度max_depth、叶子可能具有的最小记录数min_data_in_leaf、每次迭代时用的数据比例bagging_fraction等参数,以获取模型最佳参数。
与现有技术相比,本发明的有益效果是:
本发明使用的算法,通过理论推导,提出了评价机制,并且三个利用LightGBM方法的二分类模型中都用到了LightGBM的核心算法GOSS,来对样本数据进行抽样,EFB对特征数量进行采样,最后通过调整树的最大深度、叶子的最小记录数等,获取模型最佳参数。
本发明利用CircRNA功能表达时所涉及到的多种特征,如甲基化、增强子等信息。通过提取这些特征,并采用多特征融合的算法将多种特征组合起来,作为特征信息的输入。
本发明提供的方法,可应用于预测新发现的CircRNA可能具有的功能类型,在准确率以及计算速度、算法稳定度等方面有较大的改进提高,能够更好地适用于实际CircRNA功能预测的工作中。
附图说明
图1发明流程图
图2发明使用图
图3LightGBM核心算法图
图4为LightGBM的参数解决过拟合等问题的调优步骤
图5最佳参数ROC曲线图
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合实施例及其附图对本发明作进一步说明。
参照图1本实施例基于评价机制与LightGBM的CircRNA功能方法的流程图。本发明为解决其问题所采用的技术方案主要步骤是:
S1.将大数据样本的CircRNA以(.bed)文件形式输入,其中包含染色体号、序列起始位点、正负链标记。
S2.将CircRNA(.bed)文件根据起始位点等相关信息映射到全人类基因组(hg19版本)上。得到具体的CircRNA序列信息(.fasta)文件。
S3.提出了一种特征融合算法,用于根据CircRNA所表达的具体功能作为特征标签,并且提取相应功能的表达过程中相关的所有特征作为特征向量,进行融合处理。如miRNA结合位点、甲基化、连接数等特征。
S4.将相关的特征输入至判断“编码蛋白型”CircRNA的A类判决***,并根据A类判决***的流程将“编码蛋白型”CircRNA区分出来。
S5.在S4中判定为“非编码蛋白型”的CircRNA,将继续进入下一步的判决,分别经过三个由LightGBM二分类算法所构建的模型,依照顺序判别CircRNA各项功能。经过三个***分别得到一个预测概率值。
S6.根据评分机制,将上述所得到的三个预测概率值,通过我们提出的B类判决***中的“可信值计算”得到相应的分数,再通过评分机制输出最终的CircRNA功能分类预测结果。
S7.在整个过程中,对于三个LightGBM算法所构建的二分类模型,我们通过调整树的最大深度max_depth、叶子可能具有的最小记录数min_data_in_leaf、每次迭代时用的数据比例bagging_fraction等参数,以获取模型最佳参数。
参见图2为发明使用图,即在训练好参数模型之后,对于新的CircRNA进行功能预测的流程图。
参见图3,为LightGBM的核心算法流程图。
S1.LightGBM的主要算法包含了GOSS和EFB,分别为大样本数据环境下,降低数据量以及降低特征维度,加快计算速度。如下为GOSS算法的流程:
输入:CircRNA大样本训练数据,迭代步数d,大梯度数据的采样率a(0<a<1),小梯度数据的采样率b(0<a<1),选择损失函数和弱学习器类;
具体过程为以下步骤:
(1)按照样本的梯度绝对值对样本进行降序排列。
(2)选取(1)中排序结果的前a*100%的样本生成一个大梯度样本点的子集;
(3)对剩下的样本集合(1-a)*100%的样本,随机的选取b*(1-a)*100%个样本点,生成一个小梯度样本点的集合;
(4)将大梯度样本和采样的小梯度样本合并;
(5)将小梯度样本乘上一个权重系数;
(6)使用上述的采样的样本,学习一个新的弱学习器;
(7)不断地重复(1)~(6)步骤直到达到规定的迭代次数或者收敛为止。
输出:训练好的强学习器;
以上的GOSS算法采用了数据抽样的方式,这种随机性增加了弱学习器的多样性,从而有利于提高训练的模型泛化能力。
S2.EFB算法,首先将输入:经特征融合算法处理过的总特征集合F,最大冲突数K,图G;
具体过程为以下步骤:
(1)构造一个带有权值的边组成的图,其权值对应于特征之间的总冲突值;
(2)按非零值计数的规则将特征进行降序排列;
(3)检查有序列表中的所有特征,并将其分配给具有小冲突的现有bundling(由控制),或更新并分配给一个新的bundling。
输出:特征捆绑集合bundles。
S3.Histogram(直方图)算法。直方图算法的主要过程是先把连续的特征值离散化成k 个整数,并且构造一个宽度为k的直方图。遍历数据时,再将离散化后的值作为索引,在直方图中累积统计量。在遍历一次数据后,直方图累积了需要的统计量,最后根据直方图的离散值,遍历寻找最优分割点。Histogram算法有如下的一些优点:
(1)相对于其他算法(如xgboost中的pre-sorted算法),减少了分割增益的计算量。
(2)通过直方图相减进一步地加速了模型的训练。
LightGBM有以下主要特性:
S1.LightGBM通过leaf-wise策略来生长树。即从当前所有的叶子中,选择***增益最大的叶子进行***,以此类推进行循环。与Level-wise相比,在***次数相同的情况下,Leaf-wise可以减小较多的误差,得到更好的精度。但是,当样本量数量不够多的时候,leaf-wise有可能会造成过拟合。所以,LightGBM可以利用参数max_depth来限制树的深度降低过拟合的可能。
S2.在对特征进行并行划分,以达到特征降维,加快计算速度的步骤时,LightGBM不会再垂直地划分样本数据,即使得每个Worker都持有全部数据。各个Worker都知道如何划分数据。LightGBM中特征并行的主要流程如下:
(1)每个Worker都在本地的特征集上寻找最佳的划分点{特征,阈值};
(2)对本地进特征集进行各个划分的通信整合并得到最佳划分;
(3)执行最佳划分策略。
S3.LightGBM中通过减少数据并行过程中的通讯开销,来减少数据并行的开销:LightGBM使用Reduce scatter的方式将不同Worker相互不重叠的不同特征进行整合。然后Worker从本地整合直方图中寻找最佳划分并将其同步到全局的最佳划分中。
参见图4,为在训练过程中,对LightGBM出现过拟合等问题时的参数调优方法。在进行训练时,机器学习出现了一些问题,为了得到最佳参数和最好效果,即对模型调整参数变量,以下为针对具体问题的调优方法与步骤:
S1.在训练过程中,为了得到更快的训练速度,将调整以下参数变量:
(1)通过设置bagging_fraction和bagging_freq参数来使用bagging方法;
(2)通过设置feature_fraction参数来使用特征的子抽样;
(3)减小max_bin;
(4)使用save_binary在以后的学习过程对数据进行加速加载。
S2.为了得到更快的准确率,调整以下参数变量:
(1)使用较大的max_bin和num_iterations,num_leaves;
(2)使用较小的learning_rate。
S3.出现过拟合时,为处理过拟合情况,
(1)使用较小的max_bin和num_leaves;
(2)通过设置bagging_fraction和bagging_freq来使用bagging;
(3)通过设置feature_fraction来使用特征子抽样;
(4)使用更多的训练数据;
(6)使用lambda_l1,lambda_l2和min_split_gain来使用正则;
(7)尝试max_depth来避免生成过深的树。
参见图5为选择最佳特征组合和最佳参数,经由评价机制下LightGBM得到的CircRNA 三个功能预测模型的最佳ROC图。

Claims (2)

1.一种基于评分机制与LightGBM的CircRNA功能预测方法,其特征在于:
此种方法包括了LightGBM算法和评分机制,并且首次提出利用机器学习的方法,将circRNA在生物体内所表达的功能进行分类预测,利用了lightGBM算法并与评分机制相结合对经多特征融合方法处理的原始实验验证的大数据样本进行训练,最终将得到的模型用于后续新的circRNA的功能预测。
2.根据权利要求1所述的一种基于评分机制与LightGBM的CircRNA功能预测方法,其特征在于,包括以下步骤:
S1.将大数据样本的circRNA以(.bed)文件形式输入,其中包含染色体号、序列起始位点、正负链标记。
S2.将circRNA(.bed)文件根据起始位点等相关信息映射到全人类基因组(hg19版本)上。得到具体的circRNA序列信息(.fasta)文件。
S3.提出了一种特征融合算法,用于根据circRNA所表达的具体功能作为特征标签,并且提取相应功能的表达过程中相关的所有特征作为特征向量,进行融合处理。如miRNA结合位点、甲基化、连接数等特征。
S4.将相关的特征输入至判断“编码蛋白型”CircRNA的A类判决***,并根据A类判决***的流程将“编码蛋白型”circRNA区分出来。
S5.在S4中判定为“非编码蛋白型”的CircRNA,将继续进入下一步的判决,分别经过三个由lightGBM二分类算法所构建的模型,依照顺序判别CircRNA各项功能。经过三个***分别得到一个预测概率值。
S6.根据评分机制,将上述所得到的三个预测概率值,通过我们提出的B类判决***中的“可信值计算”得到相应的分数,再通过评分机制输出最终的circRNA功能分类预测结果。
S7.在整个过程中,对于三个lightGBM算法所构建的二分类模型,我们通过调整树的最大深度max_depth、叶子可能具有的最小记录数min_data_in_leaf、每次迭代时用的数据比例bagging_fraction等参数,以获取模型最佳参数。
CN201910246871.4A 2019-09-17 2019-09-17 一种基于评分机制与LightGBM的CircRNA功能预测方法 Pending CN112530520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910246871.4A CN112530520A (zh) 2019-09-17 2019-09-17 一种基于评分机制与LightGBM的CircRNA功能预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910246871.4A CN112530520A (zh) 2019-09-17 2019-09-17 一种基于评分机制与LightGBM的CircRNA功能预测方法

Publications (1)

Publication Number Publication Date
CN112530520A true CN112530520A (zh) 2021-03-19

Family

ID=74973916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910246871.4A Pending CN112530520A (zh) 2019-09-17 2019-09-17 一种基于评分机制与LightGBM的CircRNA功能预测方法

Country Status (1)

Country Link
CN (1) CN112530520A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344272A (zh) * 2021-06-08 2021-09-03 汕头大学 一种基于机器学习的circRNA与miRNA、RBP相互作用关系的预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180217991A1 (en) * 2015-06-17 2018-08-02 Istella S.P.A. A method to rank documents by a computer, using additive ensembles of regression trees and cache optimisation, and search engine using such a method
CN109543109A (zh) * 2018-11-27 2019-03-29 山东建筑大学 一种融合时间窗技术和评分预测模型的推荐算法
CN109657977A (zh) * 2018-12-19 2019-04-19 重庆誉存大数据科技有限公司 一种风险识别方法和***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180217991A1 (en) * 2015-06-17 2018-08-02 Istella S.P.A. A method to rank documents by a computer, using additive ensembles of regression trees and cache optimisation, and search engine using such a method
CN109543109A (zh) * 2018-11-27 2019-03-29 山东建筑大学 一种融合时间窗技术和评分预测模型的推荐算法
CN109657977A (zh) * 2018-12-19 2019-04-19 重庆誉存大数据科技有限公司 一种风险识别方法和***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344272A (zh) * 2021-06-08 2021-09-03 汕头大学 一种基于机器学习的circRNA与miRNA、RBP相互作用关系的预测方法

Similar Documents

Publication Publication Date Title
CN111192631B (zh) 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和***
US20190156915A1 (en) Method, apparatus, device and storage medium for predicting protein binding site
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111815432B (zh) 金融服务风险预测方法及装置
CN110692101A (zh) 用于比对靶向的核酸测序数据的方法
CN112669905B (zh) 基于数据增强的rna序列编码潜力预测方法及***
CN114093422B (zh) 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其***
CN104966106A (zh) 一种基于支持向量机的生物年龄分步预测方法
CN113764034A (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN115116624A (zh) 基于半监督迁移学习的药物敏感性预测方法和装置
CN112530520A (zh) 一种基于评分机制与LightGBM的CircRNA功能预测方法
Rasheed et al. LSH-Div: Species diversity estimation using locality sensitive hashing
CN114881131A (zh) 一种生物序列处理和模型训练方法
CN113053461B (zh) 一种基于靶标的基因簇定向挖掘方法
CN111755070A (zh) 一种基于级联判决***的CircRNA功能预测方法
CN103559423B (zh) 一种甲基化作用的预测方法、装置
CN106021992A (zh) 位置相关变体识别计算流水线
Azad et al. Effects of choice of DNA sequence model structure on gene identification accuracy
CN114758721B (zh) 一种基于深度学习的转录因子结合位点定位方法
CN110246541A (zh) 一种基于LightGBM的circRNA鉴别方法
CN103310128B (zh) 考虑种子片段的长度的碱基序列处理***及方法
CN114566215A (zh) 一种双端成对的剪接位点预测方法
CN114187963A (zh) 全长环状rna上蛋白绑定核苷酸位点的预测方法
CN114999566A (zh) 基于词向量表征和注意力机制的药物重定位方法及***
Nair et al. Hybridizing deep neural network for genes expression classification using histone modification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210319

WD01 Invention patent application deemed withdrawn after publication