CN111370055A - 内含子保留预测模型建立方法及其预测方法 - Google Patents

内含子保留预测模型建立方法及其预测方法 Download PDF

Info

Publication number
CN111370055A
CN111370055A CN202010146731.2A CN202010146731A CN111370055A CN 111370055 A CN111370055 A CN 111370055A CN 202010146731 A CN202010146731 A CN 202010146731A CN 111370055 A CN111370055 A CN 111370055A
Authority
CN
China
Prior art keywords
intron
prediction model
training
sequence
splice site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010146731.2A
Other languages
English (en)
Other versions
CN111370055B (zh
Inventor
李洪东
郑剑涛
林翠香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010146731.2A priority Critical patent/CN111370055B/zh
Publication of CN111370055A publication Critical patent/CN111370055A/zh
Application granted granted Critical
Publication of CN111370055B publication Critical patent/CN111370055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种内含子保留预测模型建立方法,包括收集内含子保留相关的模拟数据和真实数据;定义基因组中所有独立内含子集合并作为标准模板;获取得到的模拟数据中所设定的内含子序列读数分布模式图片数据集并处理得到处理后的数据集;将处理后的数据集按照设定比例划分为训练集和测试集;采用训练集训练神经网络模型得到最终建立的神经网络内含子保留预测模型。本发明还公开了包括所述内含子保留预测模型建立方法的预测方法。本发明能够基于内含子保留读数分布模式对内含子进行可视化以及预测,而且可靠性高,准确性好。

Description

内含子保留预测模型建立方法及其预测方法
技术领域
本发明具体设计一种内含子保留预测模型建立方法及其预测方法。
背景技术
内含子保留是可变剪接的一种,是指前体mRNA中的内含子没有被剪接出来而保留在成熟mRNA中。内含子保留以前被认为是错误剪接的结果,得到的关注较少。最近有许多研究表明:内含子保留与基因表达调控和复杂疾病(如阿尔茨海默病)相关;并且随着高通量测序技术的发展,目前已经有许多可用于内含子保留检测的方法提出,以iREAD和IRFinder较为突出。其中iREAD通过假设内含子保留的读数是均匀分布的,计算熵值来检测内含子保留,相应的过滤指标较为严格。IRFinder则通过计算IR-ratio指示内含子出现在转录本中的比例来检测内含子保留。
尽管上述的方法已经成功地应用到了真实环境中,但是,根据序列特征来进行分析,或多或少会受限于内含子保留可能引起的偏差而导致方法鲁棒性不足,从而使得目前的方法可靠性不高,制约了相关技术的发展。
发明内容
本发明的目的之一在于提供一种可靠性高且准确性好的内含子保留预测模型建立方法。
本发明的目的之二在于提供一种包括了所述内含子保留预测模型建立方法的预测方法。
本发明提供的这种内含子保留预测模型建立方法,包括如下步骤:
S1.收集内含子保留相关的模拟数据和真实数据;
S2.定义基因组中所有独立内含子集合并作为标准模板;
S3.获取步骤S1得到的模拟数据中所设定的内含子序列读数分布模式图片数据集,并进行预处理得到处理后的数据集;
S4.将步骤S3得到的处理后的数据集按照设定比例划分为训练集和测试集;
S5.采用步骤S4得到的训练集训练神经网络模型,从而得到最终建立的神经网络内含子保留预测模型。
所述的内含子保留预测模型建立方法,还包括如下步骤:
S6.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S4得到的测试集上计算神经网络内含子保留预测模型的评价参数;
S7.获取步骤S1得到的真实数据的内含子序列读数分布模式图片测试集;
S8.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S7得到的测试集上预测内含子保留结果,从而得到预测内含子保留集合;
S9.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W1个碱基、内含子侧N1个碱基,共W1+N1个碱基的5’端序列;
S10.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W2个碱基、内含子侧N2个碱基,共W2+N2个碱基的3’端序列;
S11.根据步骤S9获得的W1+N1个碱基的5’端序列和步骤S10获得的W2+N2个碱基的3’端序列,计算剪接位点强度,从而得到5’端平均剪接位点强度值和3’端平均剪接位点强度值;
S12.根据步骤S11得到的5’端平均剪接位点强度值和3’端平均剪接位点强度值,对步骤S5建立的神经网络内含子保留预测模型进行评价。
步骤S1所述的收集内含子保留相关的模拟数据和真实数据,具体为采用BEER算法生成含有确定内含子数目的模拟数据序列文件SIMU30;所述模拟数据序列文件SIMU30的测序深度为三千万,读数长度为100个碱基,设定生成基因15000个,内含子69338个;以及从阿尔茨海默病加速药物合作项目的Tau和APP小鼠模型研究中的一个真实数据序列文件APP,测序深度为一亿,读数长度为101个碱基。
步骤S2所述的定义基因组中所有独立内含子集合并作为标准模板,具体为采用如下步骤进行定义:
A.从GRCm38小鼠基因组的release-75版本的注释gtf文件,提取所有的独立内含子集合Independent_intron;所述独立内含子的定义为不与任何同型外显子重叠的内含子;
B.在步骤A得到的独立内含子集合Independent_intron中,以基因为单位,合并坐标区间有重叠的内含子,得到最终的独立内含子集合intron cluster。
步骤A所述的提取所有的独立内含子集合Independent_intron,具体为合并一个染色体中的所有外显子,然后从基因区域删除所有外显子,从而得到所有的独立内含子。
步骤S3所述的获取步骤S1得到的模拟数据中所设定的内含子序列读数分布模式图片数据集,并进行预处理得到处理后的数据集,具体为采用如下步骤获取数据集并进行数据:
a.将步骤S1得到的模拟数据序列文件SIMU30中的每个内含子进行IGV可视化,得到初步的可视化图像;
b.分别保存每个内含子5’端和3’端左、右各20个碱基,长度一共为40个碱基的两段序列可视化图像;可视化图像的高度为100mm,同时对代表碱基丰度的条形图高度进行标准化处理;
c.对于步骤b得到的图像,裁剪整张图像的纵长为131~231像素的部分,以及横长280~1070像素的部分;
d.将步骤c裁剪得到的图像进行横向合并,从而得到最终的处理后的数据集。
步骤S4所述的将步骤S3得到的处理后的数据集按照设定比例划分为训练集和测试集,具体为在步骤S1得到的模拟数据序列文件SIMU30中,定义序列总读数大于第一设定值、FPKM(每百万读数中匹配到基因中每千个碱基的片段数,Fragments Per KilobaseMillion)大于第二设定值且连续读数大于第三设定值的内含子为正样本,剩余的内含子为负样本;然后在正负样本中,随机抽取X2个正样本和X2个负样本,构成最终的数据集;然后按照设定的比例将数据集划分为训练集和测试集;X2为正整数。
步骤S5所述的神经网络模型,具体为VGG16网络结构模型。
步骤S5所述的采用步骤S4得到的训练集训练神经网络模型,从而得到最终建立的神经网络内含子保留预测模型,具体为采用如下步骤训练模型:
(1)获得在ImageNet任务上已经训练好的VGG16网络结构模型以及对应的权重参数文件;所述网络结构模型工包括13个卷积层;
(2)加载步骤(1)得到的网络及权重作为预训练网络,但冻结该网络从而保证该网络不参与训练;
(3)定义一个二分类网络,在步骤S4得到的训练集上进行训练;所述二分类网络共有3层,前2层为全连接层,神经元个数分别为256和64,每层后面接一个Dropout层防止过拟合,随机丢弃神经元的概率分别设为0.5和0.3。最后一层为sigmoid层,用于二分类;
(4)分类网络训练好后,解冻预训练网络的后3层卷积层,再次用步骤S4所得训练集对分类网络和预训练网络一起训练,并调整权重;
(5)设定模型训练过程的参数如下:
模型训练总的参数数目为3300万,其中可训练参数数目为2600万,不可训练参数数目为700万;
损失函数为二分类交叉熵损失,计算公式为
Figure BDA0002401015310000051
其中i为每个样本,ti为样本i的真实标签;yi为样本i的预测标签;
优化器为RMSprop,学习率为2e-5,迭代次数为30;
评价指标为accuracy,计算公式为:
Figure BDA0002401015310000052
其中Truepositive为预测为正且真实为正的样本数;Turenegative为预测为负且真实为负的样本数;Allsamples为总样本数;
设置ReduceLROnPlateau每2次迭代监测学习率,若监测到学习率未下降,则调整学习率降低50%;
设置若评价指标accuracy在10次迭代中均未下降,则提前停止迭代。
步骤S6所述的在步骤S4得到的测试集上计算神经网络内含子保留预测模型的评价参数,具体为在步骤S4得到的测试集上计算神经网络内含子保留预测模型的AUC值。
步骤S7所述的获取步骤S1得到的真实数据的内含子序列读数分布模式图片测试集,具体为将步骤S1得到的真实数据的序列文件APP输入到预测工具iREAD和预测工具IRFinder中,分别得到两组内含子保留预测集合IR1和IR2;将IR1和IR2根据匹配坐标区间长度最大的规则映射到独立内含子集合intron cluster上,再取两者交集,得到交集IC;然后,将交集IC中的各内含子坐标进行IGV可视化、图片裁剪和合并操作,从而得到真实数据的内含子序列读数分布模式图片测试集real_test。
步骤S11所述的根据步骤S9获得的W1+N1个碱基的5’端序列和步骤S10获得的W2+N2个碱基的3’端序列,计算剪接位点强度,从而得到5’端平均剪接位点强度值和3’端平均剪接位点强度值,具体为将步骤S9得到的5’端序列score5ss序列集合和步骤S10得到的3’端序列score3ss序列集合输入到MaxEntScan模型中,采用最大熵模型进行打分,从而得到给定的剪接位点强度值;然后对5’端序列和3’端序列所对应的剪接位点强度取平均值,从而得到最终的5’端平均剪接位点强度值和3’端平均剪接位点强度值。
步骤S12所述的根据步骤S11得到的5’端平均剪接位点强度值和3’端平均剪接位点强度值,对步骤S5建立的神经网络内含子保留预测模型进行评价,具体为若神经网络内含子保留预测模型的5’端平均剪接位点强度值和3’端平均剪接位点强度值越小,则神经网络内含子保留预测模型的预测效果越好。
本发明还提供了一种包括上述内含子保留预测模型建立方法的预测方法,具体还包括如下步骤:
S13.采用步骤S5得到的神经网络内含子保留预测模型,对内含子保留结果进行预测。
本发明提供的这种内含子保留预测模型建立方法及其预测方法,基于内含子保留读数分布模式的内含子保留深度学***均剪接位点强度来衡量整体预测效果优劣;因此,本发明方法能够基于内含子保留读数分布模式对内含子进行可视化以及预测,而且可靠性高,准确性好。
附图说明
图1为本发明的内含子保留预测模型建立方法的方法流程示意图。
图2为本发明的内含子保留读数分布模式可视化结果示意图。
图3为本发明的深度学习模型VGG16结构示意图。
图4为本发明的预测方法流程示意图。
具体实施方式
如图1所示为本发明的内含子保留预测模型建立方法的方法流程示意图:本发明提供的这种内含子保留预测模型建立方法,包括如下步骤:
S1.收集内含子保留相关的模拟数据和真实数据;具体为采用BEER算法生成含有确定内含子数目的模拟数据序列文件SIMU30;所述模拟数据序列文件SIMU30的测序深度为三千万,读数长度为100个碱基,设定生成基因15000个,内含子69338个;以及从阿尔茨海默病加速药物合作项目的Tau和APP小鼠模型研究中的一个真实数据序列文件APP,测序深度为一亿,读数长度为101个碱基;
S2.定义基因组中所有独立内含子集合并作为标准模板;本发明具体可以应用于小鼠,因此所述的基因组可以为小鼠基因组;具体采用如下步骤进行定义:
A.从GRCm38小鼠基因组的release-75版本的注释gtf文件,提取所有的独立内含子集合Independent_intron;所述独立内含子的定义为不与任何同型外显子重叠的内含子;
其中,提取所有的独立内含子集合Independent_intron,具体为合并一个染色体中的所有外显子,然后从基因区域删除所有外显子,从而得到所有的独立内含子;
B.在步骤A得到的独立内含子集合Independent_intron中,以基因为单位,合并坐标区间有重叠的内含子,得到最终的独立内含子集合intron cluster;
S3.获取步骤S1得到的模拟数据中所设定的内含子序列读数分布模式图片数据集,并进行预处理得到处理后的数据集;具体为采用如下步骤获取数据集并进行数据:
a.将步骤S1得到的模拟数据序列文件SIMU30中的每个内含子进行IGV可视化,得到初步的可视化图像;
b.由于每个内含子长度不定,且差异极大,因此分别保存每个内含子5’端和3’端左、右各20个碱基,长度一共为40个碱基的两段序列可视化图像;可视化图像的高度为100mm,同时对代表碱基丰度的条形图高度进行标准化处理;
c.对于步骤b得到的图像,单段序列的可视化图像原始纵长621像素,横长1150像素,因此裁剪整张图像的纵长为131~231像素的部分,以及横长280~1070像素的部分;
d.将步骤c裁剪得到的图像进行横向合并,从而得到最终的处理后的数据集;可视化结果如图2所示;
S4.将步骤S3得到的处理后的数据集按照设定比例划分为训练集和测试集;具体为在步骤S1得到的模拟数据序列文件SIMU30中,定义序列总读数大于第一设定值(比如10)、FPKM(每百万读数中匹配到基因中每千个碱基的片段数,Fragments Per KilobaseMillion)大于第二设定值(比如0.3)且连续读数大于第三设定值(比如1)的内含子为正样本,剩余的内含子为负样本;然后在正负样本中,随机抽取X2(比如5000)个正样本和X2个负样本,构成最终的数据集;然后按照设定的比例(比如7:3)将数据集划分为训练集和测试集;X2为正整数。
S5.采用步骤S4得到的训练集训练神经网络模型,从而得到最终建立的神经网络内含子保留预测模型;在具体实施时,预测模型优选为VGG16模型;且在选用VGG16为预测模型时,可以采用如下步骤训练模型:
(1)获得在ImageNet任务上已经训练好的VGG16网络结构模型(如图3所示)以及对应的权重参数文件;所述网络结构模型工包括13个卷积层;
(2)加载步骤(1)得到的网络及权重作为预训练网络,但冻结该网络从而保证该网络不参与训练;
(3)定义一个二分类网络,在步骤S4得到的训练集上进行训练;所述二分类网络共有3层,前2层为全连接层,神经元个数分别为256和64,每层后面接一个Dropout层防止过拟合,随机丢弃神经元的概率分别设为0.5和0.3。最后一层为sigmoid层,用于二分类;
(4)分类网络训练好后,解冻预训练网络的后3层卷积层,再次用步骤S4所得训练集对分类网络和预训练网络一起训练,并调整权重;
(5)设定模型训练过程的参数如下:
模型训练总的参数数目为3300万,其中可训练参数数目为2600万,不可训练参数数目为700万;
损失函数为二分类交叉熵损失,计算公式为
Figure BDA0002401015310000101
其中i为每个样本,ti为样本i的真实标签;yi为样本i的预测标签;
优化器为RMSprop,学习率为2e-5,迭代次数为30;
评价指标为accuracy,计算公式为:
Figure BDA0002401015310000102
其中Truepositive为预测为正且真实为正的样本数;Turenegative为预测为负且真实为负的样本数;Allsamples为总样本数;
设置ReduceLROnPlateau每2次迭代监测学习率,若监测到学习率未下降,则调整学习率降低50%;
设置若评价指标accuracy在10次迭代中均未下降,则提前停止迭代
S6.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S4得到的测试集上计算神经网络内含子保留预测模型的评价参数(优选为AUC值);
S7.获取步骤S1得到的真实数据的内含子序列读数分布模式图片测试集;具体为将步骤S1得到的真实数据的序列文件APP输入到预测工具iREAD和预测工具IRFinder中,分别得到两组内含子保留预测集合IR1和IR2;将IR1和IR2根据匹配坐标区间长度最大的规则映射到独立内含子集合intron cluster上,再取两者交集,得到交集IC;然后,将交集IC中的各内含子坐标进行IGV可视化、图片裁剪和合并等操作,从而得到真实数据的内含子序列读数分布模式图片测试集real_test;
S8.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S7得到的测试集上预测内含子保留结果,从而得到预测内含子保留集合;
S9.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W1个碱基、内含子侧N1个碱基,共W1+N1个碱基的5’端序列;
S10.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W2个碱基、内含子侧N2个碱基,共W2+N2个碱基的3’端序列;
S11.根据步骤S9获得的W1+N1个碱基的5’端序列和步骤S10获得的W2+N2个碱基的3’端序列,计算剪接位点强度,从而得到5’端平均剪接位点强度值和3’端平均剪接位点强度值;具体为将步骤S9得到的5’端序列score5ss序列集合和步骤S10得到的3’端序列score3ss序列集合输入到MaxEntScan模型中,采用最大熵模型进行打分,从而得到给定的剪接位点强度值;然后对5’端序列和3’端序列所对应的剪接位点强度取平均值,从而得到最终的5’端平均剪接位点强度值和3’端平均剪接位点强度值;
S12.根据步骤S11得到的5’端平均剪接位点强度值和3’端平均剪接位点强度值,对步骤S5建立的神经网络内含子保留预测模型进行评价;具体为若神经网络内含子保留预测模型的5’端平均剪接位点强度值和3’端平均剪接位点强度值越小,则神经网络内含子保留预测模型的预测效果越好。
以下对本发明方法进行验证:
在模拟数据SIMU30和真实数据集APP上对本发明进行评价,同时与本发明相比较的工具有iREAD和IRFinder。
1)SIMU30模拟数据集实验分析
对于SIMU30模拟数据的3000个测试集样本,本发明在其上的预测Accuracy达到0.925,AUC达到0.975;
2)APP真实数据集实验分析
由于真实数据缺乏金标准,一方面只能以其他方法的预测标签为真实标签,测试本发明VGG16模型的AUC与其他方法的差距;另一方面可以自定义其他的评价指标,来验证本发明的有效性。AUC评价方面,本发明VGG16模型在预测真实数据图片测试集real_test后,与iREAD和IRFinder的比较见表1。real_test共68326个样本,在以iREAD为金标准时,正样本数为2816,负样本数为65510,此时本发明VGG16模型的AUC优于IRFinder。在以IRFinder为金标准时,正样本数为19044,负样本数为49282,此时本发明也优于iREAD。
表1本发明与iREAD和IRFinder的AUC评价结果示意表
Figure BDA0002401015310000121
另外,本发明还定义了5’端和3’端剪接位点强度来衡量VGG16模型预测效果,平均剪接位点强度越低,模型整体预测效果更好。平均剪接位点强度评价结果见表2。
表2本发明与iREAD和IRFinder的平均剪接位点强度评价结果示意表
Figure BDA0002401015310000131
从表2中结果来看,虽然本发明的结果在平均剪接位点强度方面略差于IRFinder和iREAD,但是注意到,随着参与计算平均剪接位点强度的内含子数增加,IRFinder和iREAD的平均剪接位点强度是随之增加的,而本发明是降低的。由此反映了本发明设计的VGG16模型在鲁棒性方面优于IRFinder和iREAD。
如图4所示为本发明的预测方法流程示意图:本发明提供的这种包括上述内含子保留预测模型建立方法的预测方法,具体包括如下步骤:
S1.收集内含子保留相关的模拟数据和真实数据;具体为采用BEER算法生成含有确定内含子数目的模拟数据序列文件SIMU30;所述模拟数据序列文件SIMU30的测序深度为三千万,读数长度为100个碱基,设定生成基因15000个,内含子69338个;以及从阿尔茨海默病加速药物合作项目的Tau和APP小鼠模型研究中的一个真实数据序列文件APP,测序深度为一亿,读数长度为101个碱基;
S2.定义基因组中所有独立内含子集合并作为标准模板;具体为采用如下步骤进行定义:
A.从GRCm38小鼠基因组的release-75版本的注释gtf文件,提取所有的独立内含子集合Independent_intron;所述独立内含子的定义为不与任何同型外显子重叠的内含子;
其中,提取所有的独立内含子集合Independent_intron,具体为合并一个染色体中的所有外显子,然后从基因区域删除所有外显子,从而得到所有的独立内含子;
B.在步骤A得到的独立内含子集合Independent_intron中,以基因为单位,合并坐标区间有重叠的内含子,得到最终的独立内含子集合intron cluster;
S3.获取步骤S1得到的模拟数据中所设定的内含子序列读数分布模式图片数据集,并进行预处理得到处理后的数据集;具体为采用如下步骤获取数据集并进行数据:
a.将步骤S1得到的模拟数据序列文件SIMU30中的每个内含子进行IGV可视化,得到初步的可视化图像;
b.由于每个内含子长度不定,且差异极大,因此分别保存每个内含子5’端和3’端左、右各20个碱基,长度一共为40个碱基的两段序列可视化图像;可视化图像的高度为100mm,同时对代表碱基丰度的条形图高度进行标准化处理;
c.对于步骤b得到的图像,单段序列的可视化图像原始纵长621像素,横长1150像素,因此裁剪整张图像的纵长为131~231像素的部分,以及横长280~1070像素的部分;
d.将步骤c裁剪得到的图像进行横向合并,从而得到最终的处理后的数据集;可视化结果如图2所示;
S4.将步骤S3得到的处理后的数据集按照设定比例划分为训练集和测试集;具体为在步骤S1得到的模拟数据序列文件SIMU30中,定义序列总读数大于第一设定值(比如10)、FPKM(每百万读数中匹配到基因中每千个碱基的片段数,Fragments Per KilobaseMillion)大于第二设定值(比如0.3)且连续读数大于第三设定值(比如1)的内含子为正样本,剩余的内含子为负样本;然后在正负样本中,随机抽取X2(比如5000)个正样本和X2个负样本,构成最终的数据集;然后按照设定的比例(比如7:3)将数据集划分为训练集和测试集;X2为正整数。
S5.采用步骤S4得到的训练集训练神经网络模型,从而得到最终建立的神经网络内含子保留预测模型;在具体实施时,预测模型优选为VGG16模型;且在选用VGG16为预测模型时,可以采用如下步骤训练模型:
(1)获得在ImageNet任务上已经训练好的VGG16网络结构模型(如图3所示)以及对应的权重参数文件;所述网络结构模型工包括13个卷积层;
(2)加载步骤(1)得到的网络及权重作为预训练网络,但冻结该网络从而保证该网络不参与训练;
(3)定义一个二分类网络,在步骤S4得到的训练集上进行训练;所述二分类网络共有3层,前2层为全连接层,神经元个数分别为256和64,每层后面接一个Dropout层防止过拟合,随机丢弃神经元的概率分别设为0.5和0.3。最后一层为sigmoid层,用于二分类;
(4)分类网络训练好后,解冻预训练网络的后3层卷积层,再次用步骤S4所得训练集对分类网络和预训练网络一起训练,并调整权重;
(5)设定模型训练过程的参数如下:
模型训练总的参数数目为3300万,其中可训练参数数目为2600万,不可训练参数数目为700万;
损失函数为二分类交叉熵损失,计算公式为
Figure BDA0002401015310000151
其中i为每个样本,ti为样本i的真实标签;yi为样本i的预测标签;
优化器为RMSprop,学习率为2e-5,迭代次数为30;
评价指标为accuracy,计算公式为:
Figure BDA0002401015310000161
其中Truepositive为预测为正且真实为正的样本数;Turenegative为预测为负且真实为负的样本数;Allsamples为总样本数;
设置ReduceLROnPlateau每2次迭代监测学习率,若监测到学习率未下降,则调整学习率降低50%;
设置若评价指标accuracy在10次迭代中均未下降,则提前停止迭代
S6.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S4得到的测试集上计算神经网络内含子保留预测模型的评价参数(优选为AUC值);
S7.获取步骤S1得到的真实数据的内含子序列读数分布模式图片测试集;具体为将步骤S1得到的真实数据的序列文件APP输入到预测工具iREAD和预测工具IRFinder中,分别得到两组内含子保留预测集合IR1和IR2;将IR1和IR2根据匹配坐标区间长度最大的规则映射到独立内含子集合intron cluster上,再取两者交集,得到交集IC;然后,将交集IC中的各内含子坐标进行IGV可视化、图片裁剪和合并等操作,从而得到真实数据的内含子序列读数分布模式图片测试集real_test;
S8.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S7得到的测试集上预测内含子保留结果,从而得到预测内含子保留集合;
S9.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W1个碱基、内含子侧N1个碱基,共W1+N1个碱基的5’端序列;
S10.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W2个碱基、内含子侧N2个碱基,共W2+N2个碱基的3’端序列;
S11.根据步骤S9获得的W1+N1个碱基的5’端序列和步骤S10获得的W2+N2个碱基的3’端序列,计算剪接位点强度,从而得到5’端平均剪接位点强度值和3’端平均剪接位点强度值;具体为将步骤S9得到的5’端序列score5ss序列集合和步骤S10得到的3’端序列score3ss序列集合输入到MaxEntScan模型中,采用最大熵模型进行打分,从而得到给定的剪接位点强度值;然后对5’端序列和3’端序列所对应的剪接位点强度取平均值,从而得到最终的5’端平均剪接位点强度值和3’端平均剪接位点强度值;
S12.根据步骤S11得到的5’端平均剪接位点强度值和3’端平均剪接位点强度值,对步骤S5建立的神经网络内含子保留预测模型进行评价;具体为若神经网络内含子保留预测模型的5’端平均剪接位点强度值和3’端平均剪接位点强度值越小,则神经网络内含子保留预测模型的预测效果越好;
S13.采用步骤S5得到的神经网络内含子保留预测模型,对内含子保留结果进行预测。

Claims (14)

1.一种内含子保留预测模型建立方法,包括如下步骤:
S1.收集内含子保留相关的模拟数据和真实数据;
S2.定义基因组中所有独立内含子集合并作为标准模板;
S3.获取步骤S1得到的模拟数据中所设定的内含子序列读数分布模式图片数据集,并进行预处理得到处理后的数据集;
S4.将步骤S3得到的处理后的数据集按照设定比例划分为训练集和测试集;
S5.采用步骤S4得到的训练集训练神经网络模型,从而得到最终建立的神经网络内含子保留预测模型。
2.根据权利要求1所述的内含子保留预测模型建立方法,其特征在于还包括如下步骤:
S6.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S4得到的测试集上计算神经网络内含子保留预测模型的评价参数;
S7.获取步骤S1得到的真实数据的内含子序列读数分布模式图片测试集;
S8.根据步骤S5得到的神经网络内含子保留预测模型,在步骤S7得到的测试集上预测内含子保留结果,从而得到预测内含子保留集合;
S9.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W1个碱基、内含子侧N1个碱基,共W1+N1个碱基的5’端序列;
S10.获取步骤S8得到的预测内含子保留集合中,启示坐标外显子侧W2个碱基、内含子侧N2个碱基,共W2+N2个碱基的3’端序列;
S11.根据步骤S9获得的W1+N1个碱基的5’端序列和步骤S10获得的W2+N2个碱基的3’端序列,计算剪接位点强度,从而得到5’端平均剪接位点强度值和3’端平均剪接位点强度值;
S12.根据步骤S11得到的5’端平均剪接位点强度值和3’端平均剪接位点强度值,对步骤S5建立的神经网络内含子保留预测模型进行评价。
3.根据权利要求2所述的内含子保留预测模型建立方法,其特征在于步骤S1所述的收集内含子保留相关的模拟数据和真实数据,具体为采用BEER算法生成含有确定内含子数目的模拟数据序列文件SIMU30;所述模拟数据序列文件SIMU30的测序深度为三千万,读数长度为100个碱基,设定生成基因15000个,内含子69338个;以及从阿尔茨海默病加速药物合作项目的Tau和APP小鼠模型研究中的一个真实数据序列文件APP,测序深度为一亿,读数长度为101个碱基。
4.根据权利要求3所述的内含子保留预测模型建立方法,其特征在于步骤S2所述的定义基因组中所有独立内含子集合并作为标准模板,具体为采用如下步骤进行定义:
A.从GRCm38小鼠基因组的release-75版本的注释gtf文件,提取所有的独立内含子集合Independent_intron;所述独立内含子的定义为不与任何同型外显子重叠的内含子;
B.在步骤A得到的独立内含子集合Independent_intron中,以基因为单位,合并坐标区间有重叠的内含子,得到最终的独立内含子集合intron cluster。
5.根据权利要求4所述的内含子保留预测模型建立方法,其特征在于步骤A所述的提取所有的独立内含子集合Independent_intron,具体为合并一个染色体中的所有外显子,然后从基因区域删除所有外显子,从而得到所有的独立内含子。
6.根据权利要求5所述的内含子保留预测模型建立方法,其特征在于步骤S3所述的获取步骤S1得到的模拟数据中所设定的内含子序列读数分布模式图片数据集,并进行预处理得到处理后的数据集,具体为采用如下步骤获取数据集并进行数据:
a.将步骤S1得到的模拟数据序列文件SIMU30中的每个内含子进行IGV可视化,得到初步的可视化图像;
b.分别保存每个内含子5’端和3’端左、右各20个碱基,长度一共为40个碱基的两段序列可视化图像;可视化图像的高度为100mm,同时对代表碱基丰度的条形图高度进行标准化处理;
c.对于步骤b得到的图像,裁剪整张图像的纵长为131~231像素的部分,以及横长280~1070像素的部分;
d.将步骤c裁剪得到的图像进行横向合并,从而得到最终的处理后的数据集。
7.根据权利要求6所述的内含子保留预测模型建立方法,其特征在于步骤S4所述的将步骤S3得到的处理后的数据集按照设定比例划分为训练集和测试集,具体为在步骤S1得到的模拟数据序列文件SIMU30中,定义序列总读数大于第一设定值、FPKM大于第二设定值且连续读数大于第三设定值的内含子为正样本,剩余的内含子为负样本;然后在正负样本中,随机抽取X2个正样本和X2个负样本,构成最终的数据集;然后按照设定的比例将数据集划分为训练集和测试集;X2为正整数。
8.根据权利要求7所述的内含子保留预测模型建立方法,其特征在于步骤S5所述的神经网络模型,具体为VGG16网络结构模型。
9.根据权利要求8所述的内含子保留预测模型建立方法,其特征在于步骤S5所述的采用步骤S4得到的训练集训练神经网络模型,从而得到最终建立的神经网络内含子保留预测模型,具体为采用如下步骤训练模型:
(1)获得在ImageNet任务上已经训练好的VGG16网络结构模型以及对应的权重参数文件;所述网络结构模型工包括13个卷积层;
(2)加载步骤(1)得到的网络及权重作为预训练网络,但冻结该网络从而保证该网络不参与训练;
(3)定义一个二分类网络,在步骤S4得到的训练集上进行训练;所述二分类网络共有3层,前2层为全连接层,神经元个数分别为256和64,每层后面接一个Dropout层防止过拟合,随机丢弃神经元的概率分别设为0.5和0.3;最后一层为sigmoid层,用于二分类;
(4)分类网络训练好后,解冻预训练网络的后3层卷积层,再次用步骤S4所得训练集对分类网络和预训练网络一起训练,并调整权重;
(5)设定模型训练过程的参数如下:
模型训练总的参数数目为3300万,其中可训练参数数目为2600万,不可训练参数数目为700万;
损失函数为二分类交叉熵损失,计算公式为
Figure FDA0002401015300000041
其中i为每个样本,ti为样本i的真实标签;yi为样本i的预测标签;
优化器为RMSprop,学习率为2e-5,迭代次数为30;
评价指标为accuracy,计算公式为:
Figure FDA0002401015300000051
其中Truepositive为预测为正且真实为正的样本数;Turenegative为预测为负且真实为负的样本数;Allsamples为总样本数;
设置ReduceLROnPlateau每2次迭代监测学习率,若监测到学习率未下降,则调整学习率降低50%;
设置若评价指标accuracy在10次迭代中均未下降,则提前停止迭代。
10.根据权利要求9所述的内含子保留预测模型建立方法,其特征在于步骤S6所述的在步骤S4得到的测试集上计算神经网络内含子保留预测模型的评价参数,具体为在步骤S4得到的测试集上计算神经网络内含子保留预测模型的AUC值。
11.根据权利要求10所述的内含子保留预测模型建立方法,其特征在于步骤S7所述的获取步骤S1得到的真实数据的内含子序列读数分布模式图片测试集,具体为将步骤S1得到的真实数据的序列文件APP输入到预测工具iREAD和预测工具IRFinder中,分别得到两组内含子保留预测集合IR1和IR2;将IR1和IR2根据匹配坐标区间长度最大的规则映射到独立内含子集合intron cluster上,再取两者交集,得到交集IC;然后,将交集IC中的各内含子坐标进行IGV可视化、图片裁剪和合并操作,从而得到真实数据的内含子序列读数分布模式图片测试集real_test。
12.根据权利要求11所述的内含子保留预测模型建立方法,其特征在于步骤S11所述的根据步骤S9获得的W1+N1个碱基的5’端序列和步骤S10获得的W2+N2个碱基的3’端序列,计算剪接位点强度,从而得到5’端平均剪接位点强度值和3’端平均剪接位点强度值,具体为将步骤S9得到的5’端序列score5ss序列集合和步骤S10得到的3’端序列score3ss序列集合输入到MaxEntScan模型中,采用最大熵模型进行打分,从而得到给定的剪接位点强度值;然后对5’端序列和3’端序列所对应的剪接位点强度取平均值,从而得到最终的5’端平均剪接位点强度值和3’端平均剪接位点强度值。
13.根据权利要求12所述的内含子保留预测模型建立方法,其特征在于步骤S12所述的根据步骤S11得到的5’端平均剪接位点强度值和3’端平均剪接位点强度值,对步骤S5建立的神经网络内含子保留预测模型进行评价,具体为若神经网络内含子保留预测模型的5’端平均剪接位点强度值和3’端平均剪接位点强度值越小,则神经网络内含子保留预测模型的预测效果越好。
14.一种包括权利要求1~13之一所述的内含子保留预测模型建立方法的预测方法,具体还包括如下步骤:
S13.采用步骤S5得到的神经网络内含子保留预测模型,对内含子保留结果进行预测。
CN202010146731.2A 2020-03-05 2020-03-05 内含子保留预测模型建立方法及其预测方法 Active CN111370055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010146731.2A CN111370055B (zh) 2020-03-05 2020-03-05 内含子保留预测模型建立方法及其预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010146731.2A CN111370055B (zh) 2020-03-05 2020-03-05 内含子保留预测模型建立方法及其预测方法

Publications (2)

Publication Number Publication Date
CN111370055A true CN111370055A (zh) 2020-07-03
CN111370055B CN111370055B (zh) 2023-05-23

Family

ID=71208615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010146731.2A Active CN111370055B (zh) 2020-03-05 2020-03-05 内含子保留预测模型建立方法及其预测方法

Country Status (1)

Country Link
CN (1) CN111370055B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220082545A (ko) * 2020-12-10 2022-06-17 중앙대학교 산학협력단 전사체 분석을 이용한 인트론 유지 검출을 통해 퇴행성 뇌 질환을 진단하는 방법
WO2023238973A1 (ko) * 2022-06-10 2023-12-14 중앙대학교 산학협력단 전사체 분석을 이용한 인트론 유지 검출을 통해 퇴행성 뇌 질환을 진단하는 방법

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999066302A2 (en) * 1998-06-17 1999-12-23 Musc Foundation For Research Development Recognition of protein coding regions in genomic dna sequences
US20030077586A1 (en) * 2001-08-30 2003-04-24 Compaq Computer Corporation Method and apparatus for combining gene predictions using bayesian networks
WO2008097632A2 (en) * 2007-02-08 2008-08-14 Jiv An Biologics, Inc. Methods for determining splice variant types and amounts
US20120185172A1 (en) * 2011-01-18 2012-07-19 Barash Joseph Method, system and apparatus for data processing
CN105975809A (zh) * 2016-05-13 2016-09-28 万康源(天津)基因科技有限公司 一种影响rna剪接的snv检测方法
CN107849547A (zh) * 2015-05-16 2018-03-27 建新公司 深内含子突变的基因编辑
CN110010201A (zh) * 2019-04-16 2019-07-12 山东农业大学 一种rna选择性剪接位点识别方法及***
WO2019226804A1 (en) * 2018-05-23 2019-11-28 Envisagenics, Inc. Systems and methods for analysis of alternative splicing
CN110800062A (zh) * 2017-10-16 2020-02-14 因美纳有限公司 用于变体分类的深度卷积神经网络

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999066302A2 (en) * 1998-06-17 1999-12-23 Musc Foundation For Research Development Recognition of protein coding regions in genomic dna sequences
US20030077586A1 (en) * 2001-08-30 2003-04-24 Compaq Computer Corporation Method and apparatus for combining gene predictions using bayesian networks
WO2008097632A2 (en) * 2007-02-08 2008-08-14 Jiv An Biologics, Inc. Methods for determining splice variant types and amounts
US20120185172A1 (en) * 2011-01-18 2012-07-19 Barash Joseph Method, system and apparatus for data processing
CN107849547A (zh) * 2015-05-16 2018-03-27 建新公司 深内含子突变的基因编辑
CN105975809A (zh) * 2016-05-13 2016-09-28 万康源(天津)基因科技有限公司 一种影响rna剪接的snv检测方法
CN110800062A (zh) * 2017-10-16 2020-02-14 因美纳有限公司 用于变体分类的深度卷积神经网络
WO2019226804A1 (en) * 2018-05-23 2019-11-28 Envisagenics, Inc. Systems and methods for analysis of alternative splicing
CN112912961A (zh) * 2018-05-23 2021-06-04 恩维萨基因学公司 用于分析可变剪接的***和方法
CN110010201A (zh) * 2019-04-16 2019-07-12 山东农业大学 一种rna选择性剪接位点识别方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONG-DONG LI等: "iREAD: a tool for intron retention detection from RNA-seq data" *
邢永强;张利绒;罗辽复;陈伟;: "老鼠基因组盒式外显子和内含子保留型可变剪接位点预测" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220082545A (ko) * 2020-12-10 2022-06-17 중앙대학교 산학협력단 전사체 분석을 이용한 인트론 유지 검출을 통해 퇴행성 뇌 질환을 진단하는 방법
KR102605084B1 (ko) 2020-12-10 2023-11-24 중앙대학교 산학협력단 전사체 분석을 이용한 인트론 유지 검출을 통해 퇴행성 뇌 질환을 진단하는 방법
WO2023238973A1 (ko) * 2022-06-10 2023-12-14 중앙대학교 산학협력단 전사체 분석을 이용한 인트론 유지 검출을 통해 퇴행성 뇌 질환을 진단하는 방법

Also Published As

Publication number Publication date
CN111370055B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN110785814A (zh) 使用深度神经网络预测测序结果的质量
CN106909901A (zh) 从图像中检测物体的方法及装置
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
CN112687327B (zh) 一种基于多任务和多模态的癌症生存分析***
US11461584B2 (en) Discrimination device and machine learning method
US20220277811A1 (en) Detecting False Positive Variant Calls In Next-Generation Sequencing
CN111370055A (zh) 内含子保留预测模型建立方法及其预测方法
CN110110663A (zh) 一种基于人脸属性的年龄识别方法及***
EP4016533A1 (en) Method and apparatus for machine learning based identification of structural variants in cancer genomes
CN113228191A (zh) 识别胚胎中染色体异常的***和方法
CN114822698B (zh) 一种基于知识推理的生物学大样本数据集分析方法及***
CN111180013B (zh) 检测血液病融合基因的装置
CN116401555A (zh) 双胞识别模型的构建方法、***及存储介质
CN116959585B (zh) 基于深度学习的全基因组预测方法
CN115831219B (zh) 一种质量预测方法、装置、设备及存储介质
CN112488188A (zh) 一种基于深度强化学习的特征选择方法
WO2023124779A1 (zh) 基于三代测序数据检测点突变的分析方法和装置
CN114446393B (zh) 用于预测肝癌特征类型的方法、电子设备和计算机存储介质
CN111045920A (zh) 一种工作量感知的多分支软件变更级缺陷预测方法
CN115167965A (zh) 交易进度条的处理方法及装置
CN115064270A (zh) 一种基于影像组学图像特征的肝癌复发预测方法
CN113782092A (zh) 一种生存期预测模型的生成方法及装置、存储介质
CN113449018A (zh) 一种基于云平台的统计分析及可视化***
KR102072894B1 (ko) 인트론과 엑손 구분에 기반한 이상 서열 식별 방법
CN114705148B (zh) 基于二次筛选的道路弯曲点检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant