CN110010201A - 一种rna选择性剪接位点识别方法及*** - Google Patents

一种rna选择性剪接位点识别方法及*** Download PDF

Info

Publication number
CN110010201A
CN110010201A CN201910305376.6A CN201910305376A CN110010201A CN 110010201 A CN110010201 A CN 110010201A CN 201910305376 A CN201910305376 A CN 201910305376A CN 110010201 A CN110010201 A CN 110010201A
Authority
CN
China
Prior art keywords
rna
data
site
neural network
alternative splicing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910305376.6A
Other languages
English (en)
Inventor
孙晓勇
李�瑞
魏庆功
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Agricultural University
Original Assignee
Shandong Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Agricultural University filed Critical Shandong Agricultural University
Priority to CN201910305376.6A priority Critical patent/CN110010201A/zh
Publication of CN110010201A publication Critical patent/CN110010201A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Image Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种RNA选择性剪接位点识别方法及***,该方法包括以下步骤:选取RNA选择性剪接位点数据和非RNA选择性剪接位点数据,并对其进行预处理,利用预处理后的数据构建训练集、验证集与测试集,并生成相应的标签;搭建卷积神经网络与循环神经网络相结合的深度学习神经网络模型;利用训练集中数据训练深度学习神经网络模型;采用训练后的深度学习神经网络模型对测试集中数据进行识别,得到RNA剪接位点和非RNA剪接位点。本发明可以快速准确的识别并预测新的RNA选择性剪接位点。

Description

一种RNA选择性剪接位点识别方法及***
技术领域
本公开涉及RNA选择性剪接位点识别技术领域,尤其涉及一种基于深度学习算法的RNA选择性剪接位点识别方法及***。
背景技术
真核基因由多个外显子(编码区)和内含子(非编码区)组成。基因剪接位点是指一对外显子和内含子之间的边界。外显子-内含子边界称为“供体(Donor)”,内含子-外显子边界称为“受体(Accepter)”。前体mRNA删除内含子,并通过选择性剪接连接外显子,使基因最终表达为蛋白质,如图1所示。
基因剪接是基因转录过程的重要组成部分,在转录组研究中起着关键作用。选择性剪接直接影响着基因表达的蛋白质多样性,能够准确的识别供体受体对于破解蛋白质主要结构、功能和相互作用是很重要的,也是生物信息的人工智能识别中的一项重要任务。
发明人在研发过程中发现,现有采用生物测序的方式识别剪接位点往往费用非常昂贵,并且时间较久,浅层的机器学习识别准确率则并不理想。
发明内容
为了克服上述现有技术的不足,本公开提供了一种基于深度学习算法的RNA选择性剪接位点识别方法及***,采用深度学习算法,构建一个对RNA剪接位点的序列识别并判断的深度学习神经网络模型,利用深度学习神经网络模型对RNA剪接位点信息进行识别,更加快速和方便。
本公开的第一方面的一种RNA选择性剪接位点识别方法的技术方案是:
一种RNA选择性剪接位点识别方法,该方法包括以下步骤:
选取RNA选择性剪接位点数据和非RNA选择性剪接位点数据,并对其进行预处理,利用预处理后的数据构建训练集、验证集与测试集,并生成相应的标签;
搭建卷积神经网络与循环神经网络相结合的深度学习神经网络模型;
利用训练集中数据训练深度学习神经网络模型;
采用训练后的深度学习神经网络模型对测试集中数据进行识别,得到RNA剪接位点和非RNA剪接位点。
本公开的第二方面的一种RNA选择性剪接位点识别***的技术方案是:
一种RNA选择性剪接位点识别***,该***包括:
数据选取模块,用于选取RNA选择性剪接位点数据和非RNA选择性剪接位点数据,并对其进行预处理,利用预处理后的数据构建训练集、验证集与测试集,并生成相应的标签;
模型搭建模块,用于搭建深度卷积神经网络和循环神经网络相结合的深度学习神经网络模型;
模型训练模块,用于利用训练集中数据训练深度学习神经网络模型,提取并保存训练结果的权重参数;
剪接位点识别模块,用于采用训练后的深度学习神经网络模型对测试集中数据进行识别,得到RNA剪接位点和非RNA剪接位点。
本公开的第三方面的一种计算机可读存储介质的技术方案是:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的RNA选择性剪接位点识别方法中的步骤。
本公开的第四方面的一种计算机可读存储介质的技术方案是:
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如上所述的RNA选择性剪接位点识别方法中的步骤。
通过上述技术方案,本公开的有益效果是:
(1)本公开提出的深度学习神经网络模型将深度卷积神经网络(CNN)和循环神经网络(RNN)相结合,与传统的机器学习模型相比,提高了RNA剪接位点识别的准确率;
(2)本公开利用验证集验证深度学习神经网络模型的学习特征的准确度,通过反复调参,得到最优深度学习神经网络模型,利用最优深度学习神经网络模型可以快速准确的识别并预测新的RNA选择性剪接位点;
(3)本公开利用训练后的深度学习神经网络模型可对测试集中数据进行二分类识别和三分类识别,即能够识别RNA剪接位点与非剪接位点,还能够同时进行识别RNA受体剪接位点,RNA供体剪接位点与非剪接位点,成本低,提高了剪接位点识别的工作效率。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本申请,并不构成对本公开的不当限定。
图1是真核基因结构示意图;
图2是实施例一RNA选择性剪接位点识别方法的流程图;
图3是实施例一数据提取的流程图;
图4是实施例一数据预处理的流程图;
图5是实施例一数据集的结构图;
图6是实施例三RNA选择性剪接位点识别***的结构框图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
名词解释:
(1)RNA选择性剪接(也叫可变剪接)是指从一个mRNA前体中通过不同的剪接方式(选择不同的剪接位点组合)产生不同的mRNA剪接异构体的过程,使得最终的蛋白产物会表现出不同或者是相互拮抗的功能和结构特性,或者在相同的细胞中由于表达水平的不同而导致不同的表型。
(2)Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。
实施例一
本实施例提供一种基于深度学习算法的RNA选择性剪接位点识别方法,该方法包括以下步骤:数据获取,并预处理数据,以符合用于深度学习模型训练的数据格式;设计卷积神经网络与循环神经网络相结合的深度学习神经网络模型,并对深度学习神经网络进行训练,得到理想的训练数据识别结果后保存模型结构和权重参数;在模型训练成功后,可以进行对RNA选择性剪接位点序列进行识别,以进行RNA选择性剪接位点的判断。
为了使本领域的技术人员更好地了解本申请的技术方案,下面对本实施例提出的RNA选择性剪接位点识别方法进行详细说明。
请参阅附图2,所述RNA选择性剪接位点识别方法包括以下步骤:
S101,选取剪接位点数据,并对剪接位点数据进行预处理,利用预处理后的数据构建包含训练集、验证集与测试集的碱基对数据集,生成相应的标签。
具体地,所述步骤101中,选取的剪接位点数据包含两类:RNA选择性剪接位点数据和非RNA选择性剪接位点数据。每类剪接位点数据对象设有三种属性,分别为:data_accept、data_donor和label。获取到RNA选择性剪接位点数据和非RNA选择性剪接位点数据后,采用四位独热编码对获取的数据进行编码,并对编码后的数据进行归一化处理,形成待检测数据。
具体地,所述步骤101的具体实现过程如下:
S1011,获取RNA选择性剪接位点数据和非RNA选择性剪接位点数据。
请参阅附图3,所述步骤1011中,获取RNA选择性剪接位点数据,其具体实现方式如下:
以RNA供体剪接位点作为中心,选取上游和下游的200nt(nt代表核苷酸数)数据序列作为RNA供体选择性剪接位点数据(Data_donor_site),以RNA受体剪接位点作为中心,选取上游和下游的200nt(nt代表核苷酸数)数据序列作为RNA受体选择性剪接位点数据(Data_accepter_site)。
具体地,所述步骤1011中,获取非RNA选择性剪接位点数据,其具体实现方式如下:
选择RNA供体剪接位点与RNA受体剪接位点之间的中心处作为剪接位点的对照组,即非RNA剪接位点;
以非RNA剪接位点作为中心,选取上游和下游的200nt(nt代表核苷酸数)数据序列作为非RNA选择性剪接位点数据(Non_Site)。
S1012,对获取的RNA选择性剪接位点数据和非RNA选择性剪接位点数据进行编码和归一化处理。
具体地,所述步骤1012中,采用四位独热编码对获取的400个RNA选择性剪接位点数据和200个非RNA选择性剪接位点数据进行编码,得到1600位二进制序列。
请参阅附图4,RNA选择性剪接位点数据A、T、G、C分别对应0001、1000、0010、0100四位二进制数,非RNA选择性剪接位点数据的全部编码为0000。
对编码后得到的1600位二进制序列进行归一化处理,得到4*400的矩阵,即经过预处理后的剪接位点数据。
S1013,构建包含训练集与验证集的碱基对数据集,生成相应的标签。
请参阅附图5,对于二分类深度学习神经网络模型,所述训练集包括80%的RNA受体选择性剪接位点数据与非RNA选择性剪接位点数据的混合数据,或者80%的RNA供体选择性剪接位点数据与非RNA选择性剪接位点数据的混合数据,用于训练深度学习神经网络模型,学习数据的特征。所述验证集包括10%的RNA受体选择性剪接位点数据与非RNA选择性剪接位点数据的混合数据,或者10%的RNA供体选择性剪接位点数据与非RNA选择性剪接位点数据的混合数据,用于验证在训练过程中深度学习神经网络模型学习到的特征是否准确。所述测试集包括10%的RNA受体选择性剪接位点数据与非RNA选择性剪接位点数据的混合数据,或者10%的RNA供体选择性剪接位点数据与非RNA选择性剪接位点数据的混合数据,用于测试深度学习神经网络模型最终学习的程度,其准确率也代表模型对剪接位点的识别能力。
二分类深度学习神经网络模型用于识别RNA剪接位点与非剪接位点,包括两种:一种是RNA受体剪接位点与非剪接位点的识别,另一种是RNA供体剪接位点与非剪接位点的识别,二分类的标签是0对应非剪接位点,1对应剪接位点。
S102,搭建深度卷积神经网络(cnn)和循环神经网络(cnn)相结合的深度学习神经网络模型。
具体地,所述步骤102中,采用Keras搭建深度卷积神经网络和循环神经网络的深度学习神经网络模型,根据输入的数据的尺寸,向深度卷积神经网络和循环神经网络中分别***若干层卷积层、若干层池化层、若干循环层、若干层全连接层以及激活函数,分别建立两个新的神经网络,将上述两个神经网络的输出层相连,并输入一个全连接层,构建深度学习神经网络模型。
具体地,所述搭建深度卷积神经网络(cnn)和循环神经网络(cnn)相结合的深度学习神经网络模型的具体实现方式如下:
S1021,基于深度学习算法方法,搭建一个1D深度卷积神经网络,激活函数使用relu。
S1022,在步骤1021得到的卷积神经网络的基础上,向该卷积神经网络添加一层卷积层。
S1023,在步骤1022得到的卷积神经网络的基础上,向该卷积神经网络添加一层池化层。
S1024,在步骤1023得到的卷积神经网络的基础上,向该卷积神经网络添加一层循环层。
S1025,在步骤1024得到的卷积神经网络的基础上,向该卷积神经网络添加一层全连接层,组成一个深度卷积神经网络和循环神经网络的深度学习神经网络。
S1026,在步骤1025得到的深度学习神经网络的后面添加若干层全连接层,激活函数使用relu,接入输出层,激活函数使用sigmoid,完成深度学习神经网络模型搭建。
本实施例所搭建的深度学习神经网络模型,结合了卷积神经网络(CNN)与循环神经网络(RNN),由于卷积神经网络具有深层次的结构的特性,循环神经网络具备记忆功能的特性,因此将卷积神经网络与循环神经网络相结合可以同时具备时间与空间特性,能够更全面学习数据特征。
S103,将训练集中数据输入所述深度学习神经网络模型,对深度学习神经网络模型进行训练,训练完成后,提取并保存训练结果的权重参数。
具体地,所述步骤103,对深度学习神经网络模型进行训练,其具体实现方式如下:
S1031,将步骤101中得到的相应标签的训练集中混合数据输入步骤102得到的深度学习神经网络模型中。
S1032,使用训练集中全部样本训练深度学习神经网络模型若干个次后,验证准确率不再上升,即停止训练,采用验证集中数据验证该深度学习神经网络模型的准确度。
S1033,反复调参,直到得到最优深度学习神经网络模型。
在本实施例中,所述权重参数包括每种网络的层数,以及每层网络中的卷积核数、输出维度、激活函数等,控制模型训练的损失函数(loss)、优化器(optimizer)、评估模型方式(metrics)、设置训练与验证数据的比例(validation_split)、训练周期次数(epochs)、每一批次的数据项数(batch_size)等。
S104,利用步骤103得到的最优深度学习神经网络模型对测试集中数据进行二分类识别。
在本实施例中,二分类识别方法为RNA选择性剪接位点与非RNA选择性剪接位点之间的识别分类方法。二分类设有三种属性,为Data_accepter_site、Non_site和label或Data_donor_site、Non_site和label。
具体地,所述步骤104的具体实现方式如下:
利用最优深度学习神经网络模型对测试集中数据进行识别分类,得到识别分类结果为RNA受体剪接位点与非剪接位点,或RNA供体剪接位点与非剪接位点。
本实施例提出的基于深度学习算法的RNA选择性剪接位点识别方法,具有很高的识别准确率,可以帮助生物信息学方面进行识别选择性剪接位点,通过最优深度学习神经网络模型就可进行选择性剪接位点的识别,为RNA剪接位点的识别提供了便利。
实施例二
本实施例提供一种基于深度学习算法的RNA选择性剪接位点识别方法,实现了RNA受体剪接位点、RNA供体剪接位点与非剪接位点识别。
所述RNA选择性剪接位点识别方法包括以下步骤:
S201,获取剪接位点数据,并对剪接位点数据进行预处理,利用预处理后的数据构建包含训练集、验证集与测试集的碱基对数据集,生成相应的标签。
具体地,所述步骤201中,获取的剪接位点数据包含两类:RNA选择性剪接位点数据和非RNA选择性剪接位点数据。每类剪接位点数据对象设有三种属性,分别为:data_accept、data_donor和label。获取到RNA选择性剪接位点数据和非RNA选择性剪接位点数据后,采用四位独热编码对获取的数据进行编码,并对编码后的数据进行归一化处理,形成待检测数据。
具体地,所述步骤201的具体实现过程如下:
S2011,获取RNA选择性剪接位点数据和非RNA选择性剪接位点数据。
请参阅附图3,所述步骤2011中,获取RNA选择性剪接位点数据,其具体实现方式如下:
以RNA供体剪接位点作为中心,选取上游和下游的200nt(nt代表核苷酸数)作为RNA供体选择性剪接位点数据(Data_donor_site),以RNA受体剪接位点作为中心,选取上游和下游的200nt(nt代表核苷酸数)作为RNA受体选择性剪接位点数据(Data_accepter_site)。
具体地,所述步骤2011中,获取非RNA选择性剪接位点数据,其具体实现方式如下:
选择RNA供体剪接位点与RNA受体剪接位点之间的中心处作为剪接位点的对照组,即非RNA剪接位点;
以非RNA剪接位点作为中心,选取上游和下游的200nt(nt代表核苷酸数)作为非RNA选择性剪接位点数据(Non_Site)。
S2012,对获取的RNA选择性剪接位点数据和非RNA选择性剪接位点数据进行编码和归一化处理。
具体地,所述步骤2012中,采用四位独热编码对获取的400个RNA选择性剪接位点数据和200个非RNA选择性剪接位点数据进行编码,得到1600位二进制序列。
请参阅附图4,RNA选择性剪接位点数据A、T、G、C分别对应0001、1000、0010、0100四位二进制数,非RNA选择性剪接位点数据的全部编码为0000。
对编码后得到的1600位二进制序列进行归一化处理,得到4*400的矩阵,即经过预处理后的剪接位点数据。
S2013,构建包含训练集与验证集的碱基对数据集,生成相应的标签。
请参阅附图5,对于三分类深度学习神经网络模型,所述训练集包括80%的RNA受体选择性剪接位点数据、RNA供体选择性剪接位点数据和非RNA选择性剪接位点数据的混合数据,用于训练深度学习神经网络模型,学习数据的特征。所述验证集包括10%的RNA受体选择性剪接位点数据、RNA供体选择性剪接位点数据和非RNA选择性剪接位点数据的混合数据,用于验证在训练过程中深度学习神经网络模型学习到的特征是否准确。所述测试集包括10%的RNA受体选择性剪接位点数据、RNA供体选择性剪接位点数据和非RNA选择性剪接位点数据的混合数据,用于测试深度学习神经网络模型最终学习的程度,其准确率也代表模型对剪接位点的识别能力。
三分类深度学习神经网络模型是用于同时进行识别RNA受体剪接位点,RNA供体剪接位点与非剪接位点。三分类的标签是0对应非剪接位点,1对应受体剪接位点,2对应供体剪接位点。
S202,搭建深度卷积神经网络(cnn)和循环神经网络(cnn)相结合的深度学习神经网络模型。
具体地,所述步骤202中,采用Keras搭建深度卷积神经网络和循环神经网络的深度学习神经网络模型,根据待输入的数据的尺寸,向深度卷积神经网络和循环神经网络中分别***若干层卷积层、若干层池化层、若干循环层、若干层全连接层以及激活函数,分别建立两个新的神经网络,将上述两个神经网络的输出层相连,并输入一个全连接层,构建深度学习神经网络模型。
具体地,所述搭建深度卷积神经网络(cnn)和循环神经网络(cnn)相结合的深度学习神经网络模型的具体实现方式如下:
S2021,基于深度学习算法方法,搭建一个1D深度卷积神经网络,激活函数使用relu。
S2022,在步骤2021得到的卷积神经网络的基础上,向该卷积神经网络添加一层卷积层。
S2023,在步骤2022得到的卷积神经网络的基础上,向该卷积神经网络添加一层池化层。
S2024,在步骤2023得到的卷积神经网络的基础上,向该卷积神经网络添加一层循环层。
S2025,在步骤2024得到的卷积神经网络的基础上,向该卷积神经网络添加一层全连接层,组成一个新的卷积神经网络。
S2026,同时,搭建循环神经网络,向循环神经网络中依次添加若干层卷积层、若干层池化层、若干循环层、若干层全连接层,形成新的卷积神经网络,形成新的循环神经网络。
S2027,将得到的新的卷积神经网络和循环神经网络的输出层相连,得到深度卷积神经网络和循环神经网络相结合的深度学习神经网络。
S2028,在步骤2027得到的深度学习神经网络的后面添加若干层全连接层,激活函数使用relu,接入输出层,激活函数使用sigmoid,完成深度学习神经网络模型搭建。
本实施例所搭建的深度学习神经网络模型,结合了卷积神经网络(CNN)与循环神经网络(RNN),由于卷积神经网络具有深层次的结构的特性,循环神经网络具备记忆功能的特性,因此将卷积神经网络与循环神经网络相结合可以同时具备时间与空间特性,能够更全面学习数据特征。
S203,将训练集中数据输入所述深度学习神经网络模型,对深度学习神经网络模型进行训练,训练完成后,提取并保存训练结果的权重参数。
具体地,所述步骤203,对深度学习神经网络模型进行训练,其具体实现方式如下:
S2031,将步骤201中得到的相应标签的训练集中混合数据输入步骤202得到的深度学习神经网络模型中。
S2032,使用训练集中全部样本训练深度学习神经网络模型若干个次后,验证准确率不再上升,即停止训练,采用验证集中数据验证该深度学习神经网络模型的准确度。
S2033,反复调参,直到得到最优二分类深度学习神经网络模型或三分类深度学习神经网络模型。
在本实施例中,所述权重参数包括每种网络的层数,以及每层网络中的卷积核数、输出维度、激活函数等,控制模型训练的损失函数(loss)、优化器(optimizer)、评估模型方式(metrics)、设置训练与验证数据的比例(validation_split)、训练周期次数(epochs)、每一批次的数据项数(batch_size)等。
S204,利用步骤203得到的最优深度学习神经网络模型对测试集中数据进行三分类识别。
在本实施例中,三分类识别方法为RNA供体选择性剪接位点、RNA受体选择性剪接位点与非剪RNA选择性接位点之间的识别分类。三分类设有四种属性:Data_accepter_site、Data_donor_site、Non_site和label。
具体地,所述步骤104的具体实现方式如下:
利用最优深度学习神经网络模型对测试集中数据进行三分类识别,得到识别分类结果为RNA受体剪接位点、RNA供体剪接位点与非RNA剪接位点。
本实施例提出的基于深度学习算法的RNA选择性剪接位点识别方法,具有很高的识别准确率,可以帮助生物信息学方面进行识别选择性剪接位点,通过最优深度学习神经网络模型就可进行选择性剪接位点的识别,为RNA受体剪接位点、RNA供体剪接位点的识别提供了便利。
实施例三
请参阅附图6,本实施例提供了一种RNA选择性剪接位点识别***,该***包括:
数据选取模块,用于选取RNA选择性剪接位点数据和非RNA选择性剪接位点数据,并对其进行预处理,利用预处理后的数据构建训练集、验证集与测试集,并生成相应的标签。
模型搭建模块,用于搭建卷积神经网络与循环神经网络相结合的深度学习神经网络模型。
模型训练模块,用于利用训练集中数据训练深度学习神经网络模型;利用验证集中数据验证训练后的深度学习神经网络模型的学习数据特征的准确度;反复调整权重参数,直到得到最优深度学习神经网络模型。
剪接位点识别模块,用于采用训练后的深度学习神经网络模型对测试集中数据进行二分类识别,得到RNA受体剪接位点与非剪接位点,或RNA供体剪接位点与非剪接位点;或者,采用训练后的深度学习神经网络模型对测试集中数据进行三分类识别,得到RNA受体剪接位点、RNA供体剪接位点和非剪接位点。
在本实施例中,所述数据选取模块,具体用于:
以RNA供体剪接位点作为中心,选取其上游和下游一定长度的数据序列作为RNA供体选择性剪接位点数据;
以RNA受体剪接位点作为中心,选取其上游和下游一定长度的数据序列作为RNA受体选择性剪接位点数据;
选择RNA供体剪接位点与RNA受体剪接位点之间的中心作为非RNA剪接位点;
以非RNA剪接位点作为中心,选取其上游和下游一定长度的数据序列作为非RNA选择性剪接位点数据。
采用四位独热编码对选取的RNA选择性剪接位点数据和非RNA选择性剪接位点数据进行编码,得到二进制序列;并对编码后得到的二进制序列进行归一化处理。
在本实施例中,所述模型搭建模块具体用于:
基于深度学习算法方法,搭建卷积神经网络;向深度卷积神经网络中依次添加若干层卷积层、若干层池化层、若干循环层、若干层全连接层,形成新的卷积神经网络;
搭建循环神经网络,向循环神经网络中依次添加若干层卷积层、若干层池化层、若干循环层、若干层全连接层,形成新的卷积神经网络,形成新的循环神经网络;
将得到的新的卷积神经网络和循环神经网络的输出层相连,得到深度卷积神经网络和循环神经网络相结合的深度学习神经网络;
在得到的深度学习神经网络的输出层添加若干层全连接层,得到深度学习神经网络模型。
实施例四
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时实现如上所述的RNA选择性剪接位点识别方法中的步骤。
实施例五
本实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如上所述的RNA选择性剪接位点识别方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.一种RNA选择性剪接位点识别方法,其特征是,该方法包括以下步骤:
选取RNA选择性剪接位点数据和非RNA选择性剪接位点数据,并对其进行预处理,利用预处理后的数据构建训练集、验证集与测试集,并生成相应的标签;
搭建卷积神经网络与循环神经网络相结合的深度学习神经网络模型;
利用训练集中数据训练深度学习神经网络模型;
采用训练后的深度学习神经网络模型对测试集中数据进行识别,得到RNA剪接位点和非RNA剪接位点。
2.根据权利要求1所述的RNA选择性剪接位点识别方法,其特征是,所述RNA选择性剪接位点数据和非RNA选择性剪接位点数据的获取方法为:
以RNA供体剪接位点作为中心,选取其上游和下游一定长度的数据序列作为RNA供体选择性剪接位点数据;
以RNA受体剪接位点作为中心,选取其上游和下游一定长度的数据序列作为RNA受体选择性剪接位点数据;
选择RNA供体剪接位点与RNA受体剪接位点之间的中心作为非RNA剪接位点;
以非RNA剪接位点作为中心,选取其上游和下游一定长度的数据序列作为非RNA选择性剪接位点数据。
3.根据权利要求1所述的RNA选择性剪接位点识别方法,其特征是,对选取的RNA选择性剪接位点数据和非RNA选择性剪接位点数据进行预处理的步骤包括:
采用四位独热编码对选取的RNA选择性剪接位点数据和非RNA选择性剪接位点数据进行编码,得到二进制序列;并对编码后得到的二进制序列进行归一化处理。
4.根据权利要求1所述的RNA选择性剪接位点识别方法,其特征是,所述训练集、验证集和测试集分别包括预处理后的RNA受体选择性剪接位点数据与非RNA选择性剪接位点数据的混合数据,或者预处理后的RNA供体选择性剪接位点数据与非RNA选择性剪接位点数据的混合数据;非剪接位点对应的标签为0;剪接位点对应的标签为1;
或者,所述训练集、验证集和测试集分别包括预处理后的RNA受体选择性剪接位点数据、RNA供体选择性剪接位点数据与非RNA选择性剪接位点数据;非剪接位点对应的标签为0;受体剪接位点对应的标签为1;供体剪接位点对应的标签为2。
5.根据权利要求1所述的RNA选择性剪接位点识别方法,其特征是,所述搭建深度卷积神经网络和循环神经网络相结合的深度学习神经网络模型的步骤包括:
基于深度学习算法方法,搭建卷积神经网络;向深度卷积神经网络中依次添加若干层卷积层、若干层池化层、若干循环层、若干层全连接层,形成新的卷积神经网络;
搭建循环神经网络,向循环神经网络中依次添加若干层卷积层、若干层池化层、若干循环层、若干层全连接层,形成新的卷积神经网络,形成新的循环神经网络;
将得到的新的卷积神经网络和循环神经网络的输出层相连,得到深度卷积神经网络和循环神经网络相结合的深度学习神经网络;
在得到的深度学习神经网络的输出层添加若干层全连接层,得到深度学习神经网络模型。
6.根据权利要求1所述的RNA选择性剪接位点识别方法,其特征是,还包括:
利用验证集中数据验证训练后的深度学习神经网络模型的学习数据特征的准确度;
反复调整权重参数,直到得到最优深度学习神经网络模型。
7.根据权利要求1所述的RNA选择性剪接位点识别方法,其特征是,采用训练后的深度学习神经网络模型对测试集中数据进行二分类识别,得到RNA受体剪接位点与非剪接位点,或RNA供体剪接位点与非剪接位点;
或者,采用训练后的深度学习神经网络模型对测试集中数据进行三分类识别,得到RNA受体剪接位点、RNA供体剪接位点和非剪接位点。
8.一种RNA选择性剪接位点识别***,其特征是,该***包括:
数据选取模块,用于选取RNA选择性剪接位点数据和非RNA选择性剪接位点数据,并对其进行预处理,利用预处理后的数据构建训练集、验证集与测试集,并生成相应的标签;
模型搭建模块,用于搭建深度卷积神经网络和循环神经网络相结合的深度学习神经网络模型;
模型训练模块,用于利用训练集中数据训练深度学习神经网络模型,提取并保存训练结果的权重参数;
剪接位点识别模块,用于采用训练后的深度学习神经网络模型对测试集中数据进行识别,得到RNA剪接位点和非RNA剪接位点。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时实现如权利要求1-7中任一项所述的RNA选择性剪接位点识别方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的RNA选择性剪接位点识别方法中的步骤。
CN201910305376.6A 2019-04-16 2019-04-16 一种rna选择性剪接位点识别方法及*** Pending CN110010201A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910305376.6A CN110010201A (zh) 2019-04-16 2019-04-16 一种rna选择性剪接位点识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910305376.6A CN110010201A (zh) 2019-04-16 2019-04-16 一种rna选择性剪接位点识别方法及***

Publications (1)

Publication Number Publication Date
CN110010201A true CN110010201A (zh) 2019-07-12

Family

ID=67172275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910305376.6A Pending CN110010201A (zh) 2019-04-16 2019-04-16 一种rna选择性剪接位点识别方法及***

Country Status (1)

Country Link
CN (1) CN110010201A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619926A (zh) * 2019-08-07 2019-12-27 复旦大学附属肿瘤医院 一种识别全部rna剪切位点的分析方法及分析***
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111370055A (zh) * 2020-03-05 2020-07-03 中南大学 内含子保留预测模型建立方法及其预测方法
CN112700305A (zh) * 2020-12-31 2021-04-23 云舟生物科技(广州)有限公司 基于载体构建的商品搭配推荐方法、存储介质及电子设备
CN113178227A (zh) * 2021-04-30 2021-07-27 西安交通大学 多组学融合剪接位点的识别方法及***、设备和存储介质
CN114566215A (zh) * 2022-02-25 2022-05-31 桂林电子科技大学 一种双端成对的剪接位点预测方法
WO2022188785A1 (zh) * 2021-03-08 2022-09-15 中国科学院上海营养与健康研究所 融合深度学习模型的单细胞转录组计算分析方法和***
CN115331732A (zh) * 2022-10-11 2022-11-11 之江实验室 基于图神经网络的基因表型训练、预测方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590432A (zh) * 2017-07-27 2018-01-16 北京联合大学 一种基于循环三维卷积神经网络的手势识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590432A (zh) * 2017-07-27 2018-01-16 北京联合大学 一种基于循环三维卷积神经网络的手势识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIUQUAN DU ET AL.: "《DeepSS:Exploring Splice Site Motif Through Conv olutional Neural Network Directly From DNA Sequence》", 《IEEE ACESS》 *
孙永山: "《基于序列模式挖掘识别基因剪接位点的研究》", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *
方圆等: "《基于混合卷积神经网络和循环神经网络的入侵检测模型》", 《计算机应用》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619926A (zh) * 2019-08-07 2019-12-27 复旦大学附属肿瘤医院 一种识别全部rna剪切位点的分析方法及分析***
CN110619926B (zh) * 2019-08-07 2023-03-31 复旦大学附属肿瘤医院 一种识别全部rna剪切位点的分析方法及分析***
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111370055A (zh) * 2020-03-05 2020-07-03 中南大学 内含子保留预测模型建立方法及其预测方法
CN112700305A (zh) * 2020-12-31 2021-04-23 云舟生物科技(广州)有限公司 基于载体构建的商品搭配推荐方法、存储介质及电子设备
WO2022188785A1 (zh) * 2021-03-08 2022-09-15 中国科学院上海营养与健康研究所 融合深度学习模型的单细胞转录组计算分析方法和***
CN113178227A (zh) * 2021-04-30 2021-07-27 西安交通大学 多组学融合剪接位点的识别方法及***、设备和存储介质
CN114566215A (zh) * 2022-02-25 2022-05-31 桂林电子科技大学 一种双端成对的剪接位点预测方法
CN114566215B (zh) * 2022-02-25 2024-03-22 桂林电子科技大学 一种双端成对的剪接位点预测方法
CN115331732A (zh) * 2022-10-11 2022-11-11 之江实验室 基于图神经网络的基因表型训练、预测方法及装置

Similar Documents

Publication Publication Date Title
CN110010201A (zh) 一种rna选择性剪接位点识别方法及***
US10885439B1 (en) Automated neural network generation using fitness estimation
CN113178227B (zh) 多组学融合剪接位点的识别方法及***、设备和存储介质
CN104751842B (zh) 深度神经网络的优化方法及***
CN110352436A (zh) 用于神经网络训练的具有迟滞更新的电阻处理单元
CN109448795B (zh) 一种circRNA的识别方法及装置
CN108733644B (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
CN103258147B (zh) 一种基于gpu的并行演化超网络dna微阵列基因数据分类***及方法
CN106156857B (zh) 变分推理的数据初始化的方法和装置
CN102622535A (zh) 一种基于多序列比对遗传算法的处理方法及装置
CN108465244A (zh) 用于竞速类ai模型的ai参数配置方法、装置、设备及存储介质
CN106874655A (zh) 基于多标记学习和贝叶斯网络的中医症型分类预测方法
CN106796533A (zh) 自适应地选择执行模式的***和方法
CN103914632A (zh) 一种快速估计基因组育种值的方法和应用
CN110110753A (zh) 基于精英花授粉算法和ReliefF的有效混合特征选择方法
CN110399487A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN113221950A (zh) 基于自监督图神经网络的图聚类方法、装置及存储介质
CN112163671A (zh) 一种新能源场景生成方法及***
CN105574213A (zh) 一种基于数据挖掘技术的微博推荐方法及装置
CN104463221A (zh) 适用于支持向量机训练的不平衡样本加权方法
CN109063418A (zh) 疾病预测分类器的确定方法、装置、设备及可读存储介质
Su et al. Optimizing spaced repetition schedule by capturing the dynamics of memory
CN108764296A (zh) 基于K-means与多任务关联学习结合的多分类方法
CN106126973A (zh) 基于r‑svm和tpr规则的基因功能预测方法
Kiesmueller et al. Online identification of learner problem solving strategies using pattern recognition methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190712

RJ01 Rejection of invention patent application after publication