CN109859798B - 一种细菌中sRNA与其靶标mRNA相互作用的预测方法 - Google Patents

一种细菌中sRNA与其靶标mRNA相互作用的预测方法 Download PDF

Info

Publication number
CN109859798B
CN109859798B CN201910053867.6A CN201910053867A CN109859798B CN 109859798 B CN109859798 B CN 109859798B CN 201910053867 A CN201910053867 A CN 201910053867A CN 109859798 B CN109859798 B CN 109859798B
Authority
CN
China
Prior art keywords
srna
mrna
sequence
rna sequence
dataset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910053867.6A
Other languages
English (en)
Other versions
CN109859798A (zh
Inventor
樊永显
崔娟
张龙
张向文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201910053867.6A priority Critical patent/CN109859798B/zh
Publication of CN109859798A publication Critical patent/CN109859798A/zh
Application granted granted Critical
Publication of CN109859798B publication Critical patent/CN109859798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种细菌中sRNA与其靶标mRNA相互作用的预测方法,包括如下步骤:1)数据收集和整理;2)特征提取,将数据集转换为矩阵;3)F‑score特征优化;4)训练构建SVM模型并进行预测得出预测结果。这种方法能有效表征RNA序列信息、提高sRNA‑靶标mRNA相互作用预测精度,同时,这种方法还具有成本低、耗时少、预测速度快的优点。

Description

一种细菌中sRNA与其靶标mRNA相互作用的预测方法
技术领域
本发明涉及生物信息学中序列相互作用的分类预测,具体是一种细菌中sRNA与其靶标mRNA相互作用的预测方法。
背景技术
非编码RNA(non-coding RNA,简称ncRNA)是一种不编码蛋白质的RNA,自从具有某些调控功能的ncRNA被快速相继识别出以来,ncRNA在分子生物学中引起了越来越多的关注。调控ncRNA与信使RNA(messenger RNA,简称mRNA)相互作用抑制或激活翻译成蛋白质,导致基因表达的调节障碍,从而导致疾病的发生。在这种调控中,较为流行的就包括细菌中的小RNA(small RNA,简称sRNA),它与靶标mRNA通过碱基配对形成某种复杂的二级结构,直接或者间接的影响着生物体内基因的表达。随着后基因时代被识别出的sRNA数量越来越多,要想尽可能的了解sRNA的功能,就必须考虑sRNA在生物体内与它的靶标mRNA相互作用的调控。目前为止尽管有一些sRNA的功能得到证实,但还是有相当一部分的sRNA的功能是未知的,因此识别sRNA靶标对识别研究sRNA的功能具有重要的意义。但是通过生物学的方法来识别sRNA与其靶标mRNA的相互作用是十分有限的。因此应用计算机技术结合生物学信息来预测sRNA-mRNA相互作用对发现和认识sRNA功能有十分重要的意义。
当前主要使用两类方法来预测sRNA与靶基因的相互作用:普通的RNA-RNA相互作用模型和专门用于sRNA-靶标mRNA相互作用预测模型。普通的RNA-RNA相互作用模型大多数仅提供两个RNA分子之间的结合位点,而不确定两个RNA分子是否具有相互作用,如:RNAcofold、RNAup、RNAduplex等(Lorenz R,Bernhart S H,Siederdissen C H Z,etal.ViennaRNA Package 2.0[J].Algorithms for Molecular Biology,2011,6(1):26.)。事实上,即便两条随机选择的RNA序列也可以呈现许多潜在的结合位点,但是我们不能保证两个RNA序列相互作用。查阅文献发现,目前专门用于sRNA-靶标mRNA相互作用预测的模型为数不多。其中,sTarPicker(Ying X,Cao Y,Wu J,et al.sTarPicker:A Method forEfficient Prediction of Bacterial sRNA Targets Based on a Two-Step Model forHybridization[J].PLOS ONE,2011,6.)使用RNA-RNA分子之间的热力学稳定性特征和靶点可接近性特征预测sRNA和靶标mRNA之间是否具有相互作用。这种方法取得了不错的预测精度,但其特征繁多且难以提取。IntaRNA(Busch A,Richter A S,Backofen R.IntaRNA:efficient prediction of bacterial sRNA targets incorporating target siteaccessibility and seed regions[J].Bioinformatics,2008,24(24):2849-2856.)由用户自定义的种子序列计算结合位点的可接近能,从而判断sRNA和靶标mRNA是否相互作用。这种方法在识别sRNA和其靶标mRNA是否相互作用方面有很大的贡献,但它们依赖更多的生化实验数据特征。
发明内容
本发明的目的是针对现有技术的不足,而提供一种细菌中sRNA与其靶标mRNA相互作用的预测方法。这种方法能有效表征RNA序列信息、提高sRNA-靶标mRNA相互作用预测精度,同时,这种方法还具有成本低、耗时少、预测速度快的优点。
实现本发明目的的技术方案是:
一种细菌中sRNA与其靶标mRNA相互作用的预测方法,与现有技术不同处在于,包括如下步骤:
1)数据收集和整理:从sRNATarBase 3.0数据库获取sRNA-mRNA相互作用数据集,将数据集中的mRNA一级序列与NCBI数据库中相应的mRNA全基因组序列进行比对,截取mRNA在起始密码子上游80nt和下游50nt之间的序列片段,所述起始密码子为AUG,然后,连接sRNA序列和mRNA序列形成一个序列对,每个序列对由一条sRNA序列连接一条mRNA序列组成,形如:sRNA-bbbbbb-mRNA,其中,b为连接符号,整理后的数据集包括有相互作用的正样本RNA序列对241个和没有相互作用的负样本RNA序列对185个;
2)特征提取,将数据集转换为矩阵:其过程为:
(1)采用k-元组核苷酸的方法配置数据集中的RNA序列对,K-元组的K可以取1,2,3,…,k,…,m;其中m趋近无穷大,RNA序列中一共有A,C,G,U四种核糖核苷酸,任意先后取K个核苷酸为一组,共有4k种组合,比如K=2时,共有42=16种组合,依次为AA,AC,AG,AU,CA,…,UU,通过k-元组核苷酸的方法,对数据集中每个样本RNA序列对,从第一个核苷酸开始,从左到右取K个相邻的核苷酸,然后右移一个核苷酸,取后面相邻的K个核苷酸,重复这样的操作(L-K+1)次遍历整条RNA序列对,L为每个样本RNA序列对的长度,依据公式(1)统计整条RNA序列对中每一种K核苷酸组合出现的频率,将4k种组合出现的频率转化成4k维的向量,得到矩阵D中第1至4k维向量,该阶段特征向量表示如公式(2):
Figure GDA0004230548120000021
Figure GDA0004230548120000022
其中,
Figure GDA0004230548120000023
代表数据集中第i个样本的第j种K核苷酸组合在整条RNA序列对中出现的次数,
Figure GDA0004230548120000024
代表数据集中第i个样本的第j种K核苷酸组合在整条RNA序列对中出现的频率,Di表示数据集中第i个样本RNA序列对的特征向量,T表示转置;
(2)提取数据集中RNA二级结构的三元组点-括号图信息:由RNAfold软件预测出sRNA-bbbbbb-mRNA序列形成的二级结构,预测结果的第一行是sRNA-bbbbbb-mRNA序列,第二行是序列对应的由点-括号图表示的二级结构,在二级结构中每个核苷酸只有匹配和未匹配两种状态,其中靠近RNA序列5’端的核苷酸匹配用“(”表示,靠近RNA序列3’端的核苷酸匹配用“)”表示,未匹配用“.”表示,为了简化编码,将核苷酸匹配都使用“(”来表示、“b”为连接sRNA与靶标mRNA的字符,因此“b”及其对应的匹配状态都被删除,不予考虑,将预测结果中序列对应的二级结构转换为编码单元序列,其中,编码单元由序列二级结构中三个相邻核苷酸的匹配状态所组成,共有23=8种编码单元形式,分别为“(((”、“((.”、“(..”、“…”、“(.(”、“..(”、“.(.”、“.((”,提取每个编码单元对应的第二个核苷酸即:A、C、G、U,并将该核苷酸与编码单元组合形成一个三联体,共有4×8=32种三联体形式,对软件预测结果中点-括号图表示的二级结构,从第一个匹配状态开始,从左到右取三个相邻核苷酸的匹配状态,然后右移一个核苷酸,取后面相邻的三个核苷酸的匹配状态,重复这样的操作(L-3+1)次遍历整条RNA编码单元序列,L为每个样本RNA序列对的长度,依据公式(3)计算RNA编码单元序列中每种三联体出现的频率,将32种三联体频率特征转化成32维的向量,添加到公式(2)得到的4k维向量中,得到矩阵D中第4k+1至4k+32维向量,对应这一阶段的特征向量表示如公式(4):
Figure GDA0004230548120000031
Figure GDA0004230548120000032
其中,si,j代表数据集中第i个样本的第j种三联体编码单元在整条RNA序列对中出现的次数,pi,j代表数据集中第i个样本的第j种三联体编码单元在整条RNA序列对中出现的频率;
(3)添加能量信息:所述能量信息包括:单个碱基的自由能ei、sRNA和mRNA结合前后能量的差值Δei及sRNA和mRNA结合位点的可接近能量ΔAcci,其中,
单个碱基的自由能ei由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE除以这个样本RNA序列对的长度L获得,表示如公式(5):
Figure GDA0004230548120000033
sRNA-mRNA结合前后能量的差值Δei由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE减去这个样本RNA序列对中sRNA序列和mRNA序列分别单独形成稳定的分子内二级结构时的能量获得,表示如公式(6):
Δei=MFE-ES-EM (6),
其中,ES表示sRNA序列单独形成稳定的分子内二级结构时释放的能量,Em表示mRNA序列单独形成稳定的分子内二级结构时释放的能量;
sRNA结合位点的可接近能量由sRNA序列中未配对碱基的自由能减去sRNA序列中配对碱基的自由能获得,表示如公式(7),mRNA结合位点的可接近能量由同样的方法获得,表示如公式(8),数据集中第i个样本RNA序列对的sRNA和mRNA结合位点的可接近能量表示如公式(9):ΔSAcc=ΔEsunpaired-ΔEspaired (7),
ΔMAcc=ΔEmunpaired-ΔEmpaired (8),
ΔAcci=ΔSAcc+ΔMAcc (9),
其中,ΔEsunpaired表示sRNA序列中未配对碱基的自由能,ΔEspaired表示sRNA序列中配对碱基的自由能,ΔEmunpaired表示mRNA序列中未配对碱基的自由能,ΔEmpaired表示mRNA序列中配对碱基的自由能,将三个能量值转化成3维的向量,添加到公式(4)得到的4k+32维向量中,得到矩阵D中第4k+32+1至4k+32+3维向量,对应这一阶段的特征向量表示如公式(10):
Figure GDA0004230548120000041
(4)获取特定碱基组合信息:包括:数据集中每一个样本RNA序列对中A+U,G+C,A+C的含量比例,分别表示如公式(11)、(12)和(13):
Figure GDA0004230548120000042
Figure GDA0004230548120000043
Figure GDA0004230548120000044
其中,
Figure GDA0004230548120000045
分别表示数据集中第i个样本RNA序列对中A+U,G+C,A+C的总含量,/>
Figure GDA0004230548120000046
分别表示数据集中第i个样本RNA序列对中A+U,G+C,A+C的含量比例,将三个特定碱基组合特征转化成3维的向量,添加到公式(10)得到的4k+32+3维向量中,得到矩阵D中第4k+32+3+1至4k+32+3+3维向量,对应这一阶段的特征向量表示如公式(14):/>
Figure GDA0004230548120000047
最终,得到矩阵
Figure GDA0004230548120000048
其中n表示数据集中的样本总个数,4k+32+3+3表示每个样本进行特征提取后被转换成的维数;
3)F-score特征优化:采用F-score方法对步骤2)得到的矩阵
Figure GDA0004230548120000049
中的特征进行选择优化,保留矩阵/>
Figure GDA00042305481200000410
中包含较高识别度信息的特征,删除矩阵/>
Figure GDA00042305481200000411
中包含较低识别度信息的特征,其公式(15)如下:
Figure GDA0004230548120000051
其中,其中n+表示正样本的总数,n-表示负样本的总数,
Figure GDA0004230548120000052
表示正样本的第i个特征的平均值,/>
Figure GDA0004230548120000053
表示负样本的第i个特征的平均值,/>
Figure GDA0004230548120000054
表示所有样本的平均值,/>
Figure GDA0004230548120000055
表示正数据集中的第k个样本的第i个特征,/>
Figure GDA0004230548120000056
表示负数据集中第k个样本的i个特征,Fi的值越大,表明第i个特征包含识别度信息越高,对分类的影响越大,将Fi按照从大到小的顺序排名,选择对分类影响大的特征作为样本数据特征;
4)训练构建SVM模型并进行预测得出预测结果:采用SVM算法,进行5折交叉验证实验,在5折交叉验证实验中,将数据集随机分为5组,依次选择其中的一组作为测试集,将剩下的作为训练集,利用训练集训练并构建SVM分类器,然后将测试集输入SVM分类器,得到分类结果。
本技术方案结合sTarPicker中的特征提取方法,并且加入新的特征,对数据集进行特征提取编码,从而得到我们需要的数据格式,多样的提取数据特征的方法造成了高维的数据,因此,采用F-score特征选择方法解决这一问题,最终,利用特征选择保留下来的特征数据,训练构建预测模型,结合预测模型得到分类结果。
本技术方案与现有预测技术相比,其显著优点有两个:
(1)在充分考虑已有的特征外,为了更加有效的描述RNA信息,本技术方案提取了K-元组核苷酸特征和基于RNA二级结构点-括号图的三联体特征;
(2)采用F-score特征选择方法降低特征向量的维度,减少计算时间,避免过拟合现象的出现。
这种方法能有效表征RNA序列信息、提高sRNA-靶标mRNA相互作用预测精度,同时,这种方法还具有成本低、耗时少、预测速度快的优点。
附图说明
图1为实施例中方法流程示意框图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
参照图1,一种细菌中sRNA与其靶标mRNA相互作用的预测方法,包括如下步骤:
1)数据收集和整理:从sRNATarBase 3.0数据库获取sRNA-mRNA相互作用数据集,将数据集中的mRNA一级序列与NCBI数据库中相应的mRNA全基因组序列进行比对,截取mRNA在起始密码子上游80nt和下游50nt之间的序列片段,所述起始密码子为AUG,然后,连接sRNA序列和mRNA序列形成一个序列对,每个序列对由一条sRNA序列连接一条mRNA序列组成,形如:sRNA-bbbbbb-mRNA,其中,b为连接符号,整理后的数据集包括有相互作用的正样本RNA序列对241个和没有相互作用的负样本RNA序列对185个;
2)特征提取,将数据集转换为矩阵:其过程为:
假设数据集中第i个样本序列Di有L个核苷酸,如公式(16):
Di=R1R2R3R4R5…RL (16),
(1)采用k-元组核苷酸的方法配置数据集中的RNA序列对Di,K-元组的K可以取1,2,3,…,k,…,m;其中m趋近无穷大,RNA序列中一共有A,C,G,U四种核糖核苷酸,任意先后取K个核苷酸为一组,共有4k种组合,本例中,K取3,对数据集中每个样本RNA序列对,从第一个核苷酸开始,从左到右取3个相邻的核苷酸,然后右移一个核苷酸,取后面相邻的3个核苷酸,重复这样的操作(L-3+1)次遍历整条RNA序列对,L为每个样本RNA序列对的长度,依据公式(1)统计整条RNA序列对中每一种3核苷酸组合出现的频率,将64种组合出现的频率转化成64维的向量,得到矩阵D中第1至64维向量,该阶段特征向量表示如公式(2):
Figure GDA0004230548120000061
其中,
Figure GDA0004230548120000062
代表数据集中第i个样本的第j种3核苷酸组合在整条RNA序列对中出现的次数,/>
Figure GDA0004230548120000063
代表数据集中第i个样本的第j种3核苷酸组合在整条RNA序列对中出现的频率,Di表示数据集中第i个样本RNA序列对的特征向量,T表示转置;
(2)提取数据集中RNA二级结构的三元组点-括号图信息:由RNAfold软件预测出sRNA-bbbbbb-mRNA序列形成的二级结构,预测结果的第一行是sRNA-bbbbbb-mRNA序列,第二行是序列对应的由点-括号图表示的二级结构,在二级结构中每个核苷酸只有匹配和未匹配两种状态,其中靠近RNA序列5’端的核苷酸匹配用“(”表示,靠近RNA序列3’端的核苷酸匹配用“)”表示,未匹配用“.”表示,为了简化编码,将核苷酸匹配都使用“(”来表示、“b”为连接sRNA与靶标mRNA的字符,因此“b”及其对应的匹配状态都被删除,不予考虑,将预测结果中序列对应的二级结构转换为编码单元序列,其中,编码单元由序列二级结构中三个相邻核苷酸的匹配状态所组成,共有23=8种编码单元形式,分别为“(((”、“((.”、“(..”、“…”、“(.(”、“..(”、“.(.”、“.((”,提取每个编码单元对应的第二个核苷酸即:A、C、G、U,并将该核苷酸与编码单元组合形成一个三联体,共有4×8=32种三联体形式,对软件预测结果中点-括号图表示的二级结构,从第一个匹配状态开始,从左到右取三个相邻核苷酸的匹配状态,然后右移一个核苷酸,取后面相邻的三个核苷酸的匹配状态,重复这样的操作(L-3+1)次遍历整条RNA编码单元序列,L为每个样本RNA序列对的长度,依据公式(3)计算RNA编码单元序列中每种三联体出现的频率,将32种三联体频率特征转化成32维的向量,添加到公式(2)得到的64维向量中,得到矩阵D中第65至96维向量,对应这一阶段的特征向量表示如公式(4):
Figure GDA0004230548120000071
Figure GDA0004230548120000072
其中,si,j代表数据集中第i个样本的第j种三联体编码单元在整条RNA序列对中出现的次数,pi,j代表数据集中第i个样本的第j种三联体编码单元在整条RNA序列对中出现的频率;
(3)添加能量信息:所述能量信息包括:单个碱基的自由能ei、sRNA和mRNA结合前后能量的差值Δei及sRNA和mRNA结合位点的可接近能量ΔAcci,其中,
单个碱基的自由能ei由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE除以这个样本RNA序列对的长度L获得,表示如公式(5):
Figure GDA0004230548120000073
sRNA-mRNA结合前后能量的差值Δei由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE减去这个样本RNA序列对中sRNA序列和mRNA序列分别单独形成稳定的分子内二级结构时的能量获得,,表示如公式(6):
Δei=MFE-ES-EM (6),
其中,ES表示sRNA序列单独形成稳定的分子内二级结构时释放的能量,Em表示mRNA序列单独形成稳定的分子内二级结构时释放的能量;
sRNA结合位点的可接近能量由sRNA序列中未配对碱基的自由能减去sRNA序列中配对碱基的自由能获得,表示如公式(7),mRNA结合位点的可接近能量由同样的方法获得,表示如公式(8),数据集中第i个样本RNA序列对的sRNA和mRNA结合位点的可接近能量表示如公式(9):
ΔSAcc=ΔEsunpaired-ΔEspaired (7),
ΔMAcc=ΔEmunpaired-ΔEmpaired (8),
ΔAcci=ΔSAcc+ΔMAcc (9),
其中,ΔEsunpaired表示sRNA序列中未配对碱基的自由能,ΔEspaired表示sRNA序列中配对碱基的自由能,ΔEmunpaired表示mRNA序列中未配对碱基的自由能,ΔEmpaired表示mRNA序列中配对碱基的自由能,将三个能量值转化成3维的向量,添加到公式(4)得到的96维向量中,得到矩阵D中第97至99维向量,对应这一阶段的特征向量表示如公式(10):
Figure GDA0004230548120000081
(4)获取特定碱基组合信息:包括:数据集中每一个样本RNA序列对中A+U,G+C,A+C的含量比例,分别表示如公式(11)、(12)和(13):
Figure GDA0004230548120000082
Figure GDA0004230548120000083
Figure GDA0004230548120000084
其中,
Figure GDA0004230548120000085
分别表示数据集中第i个样本RNA序列对中A+U,G+C,A+C的总含量,/>
Figure GDA0004230548120000086
分别表示数据集中第i个样本RNA序列对中A+U,G+C,A+C的含量比例,将三个特定碱基组合特征转化成3维的向量,添加到公式(10)得到的99维向量中,得到矩阵D中第100至102维向量,对应这一阶段的特征向量表示如公式(14):
Figure GDA0004230548120000087
数据集共有426个数据,所以最终得到包含生物信息的矩阵D426*102,矩阵D426*102表示如公式(17):
Figure GDA0004230548120000088
3)F-score特征优化:采用F-score方法对步骤2)得到的矩阵D426*102中的特征进行选择优化,保留矩阵D426*102中包含较高识别度信息的特征,删除矩阵D426*102中包含较低识别度信息的特征,其公式(15)如下:
Figure GDA0004230548120000089
其中,其中n+表示正样本的总数,n-表示负样本的总数,
Figure GDA00042305481200000810
表示正样本的第i个特征的平均值,/>
Figure GDA00042305481200000811
表示负样本的第i个特征的平均值,/>
Figure GDA00042305481200000812
表示所有样本的平均值,/>
Figure GDA00042305481200000813
表示正数据集中的第k个样本的第i个特征,/>
Figure GDA00042305481200000814
表示负数据集中第k个样本的i个特征,Fi的值越大,表明第i个特征包含识别度信息越高,将Fi按照从大到小的顺序排名,选择对分类影响大的特征作为样本数据特征,最终将特征矩阵D426*102的维度降到53维,表示为矩阵D426*53
4)训练构建SVM模型并进行预测得出预测结果:采用经典的机器学***均的分类结果准确率,如表1所示,表1分类结果准确率表明:基于本例所用特征提取方法,SVM算法明显优于随机森林算法(RandomForests algorithm,简称RF)和K-近邻算法(K-nearest neighbor algorithm,简称KNN)。SVM是一种有效的监督模式识别方法,在生物信息学领域得到了广泛的应用,SVM的基本思想是将数据转化为高维特征空间,然后确定最优的分离超平面,在本例中,采用Chang和Lin编写的免费软件包LIBSVM,使用径向基核函数来获得最佳的分类超平面,通过网格搜索的优化方法最终确定正则化参数C和核宽度参数γ的取值:C=32,γ=0.125。
表1.基于不同K-元组核苷酸,不同机器学习算法的实验结果对比
Figure GDA0004230548120000091
由表1可以看出,使用本例方法基于SVM对细菌中sRNA-mRNA相互作用预测可以取得不错的预测精度,同时K=3时,SVM可以取得相对较好的预测精度,这也解释了为何本例在步骤2)的(1)特征提取中选择K的取值为3。

Claims (1)

1.一种细菌中sRNA与其靶标mRNA相互作用的预测方法,其特征在于,包括如下步骤:
1)数据收集和整理:从sRNATarBase 3.0数据库获取sRNA-mRNA相互作用数据集,将数据集中的mRNA一级序列与NCBI数据库中相应的mRNA全基因组序列进行比对,截取mRNA在起始密码子上游80nt和下游50nt之间的序列片段,所述起始密码子为AUG,然后,连接sRNA序列和mRNA序列形成一个序列对,每个序列对由一条sRNA序列连接一条mRNA序列组成,即:sRNA-bbbbbb-mRNA,其中,b为连接符号,整理后的数据集包括有相互作用的正样本RNA序列对241个和没有相互作用的负样本RNA序列对185个;
2)特征提取,将数据集转换为矩阵:其过程为:
(1)采用k-元组核苷酸的方法配置数据集中的RNA序列对,K-元组的K取1,2,3,…,k,…,m;其中m趋近无穷大,RNA序列中一共有A,C,G,U四种核糖核苷酸,任意先后取K个核苷酸为一组,共有4k种组合,对数据集中每个样本RNA序列对,从第一个核苷酸开始,从左到右取K个相邻的核苷酸,然后右移一个核苷酸,取后面相邻的K个核苷酸,重复这样的操作(L-K+1)次遍历整条RNA序列对,L为每个样本RNA序列对的长度,依据公式(1)统计整条RNA序列对中每一种K核苷酸组合出现的频率,将4k种组合出现的频率转化成4k维的向量,得到矩阵D中第1至4k维向量,该阶段特征向量表示如公式(2):
Figure FDA0004230548110000011
Figure FDA0004230548110000012
其中,
Figure FDA0004230548110000013
代表数据集中第i个样本的第j种K核苷酸组合在整条RNA序列对中出现的次数,/>
Figure FDA0004230548110000014
代表数据集中第i个样本的第j种K核苷酸组合在整条RNA序列对中出现的频率,Di表示数据集中第i个样本RNA序列对的特征向量,T表示转置;
(2)提取数据集中RNA二级结构的三元组点-括号图信息:由RNAfold软件预测出sRNA-bbbbbb-mRNA序列形成的二级结构,预测结果的第一行是sRNA-bbbbbb-mRNA序列,第二行是序列对应的由点-括号图表示的二级结构,在二级结构中每个核苷酸只有匹配和未匹配两种状态,其中靠近RNA序列5’端的核苷酸匹配用“(”表示,靠近RNA序列3’端的核苷酸匹配用“)”表示,未匹配用“.”表示,将核苷酸匹配都使用“(”来表示、“b”为连接sRNA与靶标mRNA的字符,因此“b”及其对应的匹配状态都被删除,不予考虑,将预测结果中序列对应的二级结构转换为编码单元序列,其中,编码单元由序列二级结构中三个相邻核苷酸的匹配状态所组成,共有23=8种编码单元形式,分别为“(((”、“((.”、“(..”、“…”、“(.(”、“..(”、“.(.”、“.((”,提取每个编码单元对应的第二个核苷酸即:A、C、G、U,并将该核苷酸与编码单元组合形成一个三联体,共有4×8=32种三联体形式,对软件预测结果中点-括号图表示的二级结构,从第一个匹配状态开始,从左到右取三个相邻核苷酸的匹配状态,然后右移一个核苷酸,取后面相邻的三个核苷酸的匹配状态,重复这样的操作(L-3+1)次遍历整条RNA编码单元序列,L为每个样本RNA序列对的长度,依据公式(3)计算RNA编码单元序列中每种三联体出现的频率,将32种三联体频率特征转化成32维的向量,添加到公式(2)得到的4k维向量中,得到矩阵D中第4k+1至4k+32维向量,对应这一阶段的特征向量表示如公式(4):
Figure FDA0004230548110000021
Figure FDA0004230548110000022
其中,si,j代表数据集中第i个样本的第j种三联体编码单元在整条RNA序列对中出现的次数,pi,j代表数据集中第i个样本的第j种三联体编码单元在整条RNA序列对中出现的频率;
(3)添加能量信息:所述能量信息包括:单个碱基的自由能ei、sRNA和mRNA结合前后能量的差值Δei及sRNA和mRNA结合位点的可接近能量ΔAcci,其中,
单个碱基的自由能ei由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE除以这个样本RNA序列对的长度L获得,表示如公式(5):
Figure FDA0004230548110000023
sRNA-mRNA结合前后能量的差值Δei由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE减去这个样本RNA序列对中sRNA序列和mRNA序列分别单独形成稳定的分子内二级结构时的能量获得,表示如公式(6):
Δei=MFE-ES-EM (6),
其中,ES表示sRNA序列单独形成稳定的分子内二级结构时释放的能量,Em表示mRNA序列单独形成稳定的分子内二级结构时释放的能量;
sRNA结合位点的可接近能量由sRNA序列中未配对碱基的自由能减去sRNA序列中配对碱基的自由能获得,表示如公式(7),mRNA结合位点的可接近能量由同样的方法获得,表示如公式(8),数据集中第i个样本RNA序列对的sRNA和mRNA结合位点的可接近能量表示如公式(9):
ΔSAcc=ΔEsunpaired-ΔEspaired (7),
ΔMAcc=ΔEmunpaired-ΔEmpaired (8),
ΔAcci=ΔSAcc+ΔMAcc (9),
其中,ΔEsunpaired表示sRNA序列中未配对碱基的自由能,ΔEspaired表示sRNA序列中配对碱基的自由能,ΔEmunpaired表示mRNA序列中未配对碱基的自由能,ΔEmpaired表示mRNA序列中配对碱基的自由能,将三个能量值转化成3维的向量,添加到公式(4)得到的4k+32维向量中,得到矩阵D中第4k+32+1至4k+32+3维向量,对应这一阶段的特征向量表示如公式(10):
Figure FDA0004230548110000031
(4)获取特定碱基组合信息:包括:数据集中每一个样本RNA序列对中A+U,G+C,A+C的含量比例,分别表示如公式(11)、(12)和(13):
Figure FDA0004230548110000032
Figure FDA0004230548110000033
Figure FDA0004230548110000034
其中,
Figure FDA0004230548110000035
分别表示数据集中第i个样本RNA序列对中A+U,G+C,A+C的总含量,/>
Figure FDA0004230548110000036
分别表示数据集中第i个样本RNA序列对中A+U,G+C,A+C的含量比例,
将三个特定碱基组合特征转化成3维的向量,添加到公式(10)得到的4k+32+3维向量中,得到矩阵D中第4k+32+3+1至4k+32+3+3维向量,对应这一阶段的特征向量表示如公式(14):
Figure FDA0004230548110000037
最终,得到矩阵
Figure FDA0004230548110000038
其中n表示数据集中的样本总个数,4k+32+3+3表示每个样本进行特征提取后被转换成的维数;
3)F-score特征优化:采用F-score方法对步骤2)得到的矩阵
Figure FDA0004230548110000039
中的特征进行选择优化,保留矩阵/>
Figure FDA00042305481100000310
中包含较高识别度信息的特征,删除矩阵/>
Figure FDA00042305481100000311
中包含较低识别度信息的特征,其公式(15)如下:
Figure FDA00042305481100000312
其中,其中n+表示正样本的总数,n-表示负样本的总数,
Figure FDA00042305481100000313
表示正样本的第i个特征的平均值,/>
Figure FDA00042305481100000314
表示负样本的第i个特征的平均值,/>
Figure FDA00042305481100000315
表示所有样本的平均值,/>
Figure FDA00042305481100000316
表示正数据集中的第k个样本的第i个特征,/>
Figure FDA0004230548110000041
表示负数据集中第k个样本的i个特征,Fi的值越大,表明第i个特征包含识别度信息越高,将Fi按照从大到小的顺序排名,选择对分类影响大的特征作为样本数据特征;
4)训练构建SVM模型并进行预测得出预测结果:采用SVM算法,进行5折交叉验证实验,在5折交叉验证实验中,将数据集随机分为5组,依次选择其中的一组作为测试集,将剩下的作为训练集,利用训练集训练并构建SVM分类器,然后将测试集输入SVM分类器,得到分类结果。
CN201910053867.6A 2019-01-21 2019-01-21 一种细菌中sRNA与其靶标mRNA相互作用的预测方法 Active CN109859798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910053867.6A CN109859798B (zh) 2019-01-21 2019-01-21 一种细菌中sRNA与其靶标mRNA相互作用的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910053867.6A CN109859798B (zh) 2019-01-21 2019-01-21 一种细菌中sRNA与其靶标mRNA相互作用的预测方法

Publications (2)

Publication Number Publication Date
CN109859798A CN109859798A (zh) 2019-06-07
CN109859798B true CN109859798B (zh) 2023-06-23

Family

ID=66895364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910053867.6A Active CN109859798B (zh) 2019-01-21 2019-01-21 一种细菌中sRNA与其靶标mRNA相互作用的预测方法

Country Status (1)

Country Link
CN (1) CN109859798B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379464B (zh) * 2019-07-29 2023-05-12 桂林电子科技大学 一种细菌中dna转录终止子的预测方法
CN111951889B (zh) * 2020-08-18 2023-12-22 安徽农业大学 一种rna序列中m5c位点的识别预测方法及***
CN113140255B (zh) * 2021-04-19 2022-05-10 湖南大学 一种预测植物lncRNA-miRNA相互作用的方法
CN113344272B (zh) * 2021-06-08 2022-06-21 汕头大学 一种基于机器学习的circRNA与miRNA、RBP相互作用关系的预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004066183A2 (en) * 2003-01-22 2004-08-05 European Molecular Biology Laboratory Microrna
JP2007082436A (ja) * 2005-09-20 2007-04-05 Bioinformatics Institute For Global Good Inc 機能性RNAが制御するターゲットmRNAの予測・同定方法及びその利用方法
KR20180017827A (ko) * 2016-08-11 2018-02-21 인하대학교 산학협력단 염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 시스템

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7243112B2 (en) * 2001-06-14 2007-07-10 Rigel Pharmaceuticals, Inc. Multidimensional biodata integration and relationship inference
US20040002083A1 (en) * 2002-01-29 2004-01-01 Ye Ding Statistical algorithms for folding and target accessibility prediction and design of nucleic acids
EP2101275A1 (en) * 2008-03-10 2009-09-16 Koninklijke Philips Electronics N.V. Method for polynucleotide design and selection
EP3209803A4 (en) * 2014-10-21 2018-06-13 Ubiome, Inc. Method and system for microbiome-derived diagnostics and therapeutics
CN104765846B (zh) * 2015-04-17 2018-01-23 西安电子科技大学 一种基于特征提取算法的数据特征分类方法
CN106148324B (zh) * 2015-05-12 2019-05-10 中国科学院上海生命科学研究院 Rna-rna相互作用的分析鉴定方法及其应用
US10443103B2 (en) * 2015-09-16 2019-10-15 Innomedicine, LLC Chemotherapy regimen selection
CN105930687A (zh) * 2016-04-11 2016-09-07 中国人民解放军第三军医大学 一种可在细菌全基因组水平预测外膜蛋白质的方法
CN106599615B (zh) * 2016-11-30 2019-04-05 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种预测miRNA靶基因的序列特征分析方法
CN107742063A (zh) * 2017-10-20 2018-02-27 桂林电子科技大学 一种原核生物σ54启动子的预测方法
CN108090327B (zh) * 2017-12-20 2022-03-29 吉林大学 包含三维自由能的外源性miRNA调控靶基因预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004066183A2 (en) * 2003-01-22 2004-08-05 European Molecular Biology Laboratory Microrna
JP2007082436A (ja) * 2005-09-20 2007-04-05 Bioinformatics Institute For Global Good Inc 機能性RNAが制御するターゲットmRNAの予測・同定方法及びその利用方法
KR20180017827A (ko) * 2016-08-11 2018-02-21 인하대학교 산학협력단 염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RIsearch: fast RNA-RNA interaction search using a simplified nearest-neighbor energy model;Anne Wenzel等;Bioinformatics;第28卷(第21期);第2738-2746页 *
成熟microRNA识别及其功能预测方法研究;王颖;中国博士学位论文全文数据库 (基础科学辑)(第6期);全文 *

Also Published As

Publication number Publication date
CN109859798A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
CN109859798B (zh) 一种细菌中sRNA与其靶标mRNA相互作用的预测方法
Chen et al. Identifying 2′-O-methylationation sites by integrating nucleotide chemical properties and nucleotide compositions
Cary et al. Graph-theoretic approach to RNA modeling using comparative data.
CN111462820A (zh) 基于特征筛选和集成算法的非编码rna预测方法
Su et al. Integrating thermodynamic and sequence contexts improves protein-RNA binding prediction
CN105808976A (zh) 一种基于推荐模型的miRNA靶基因预测方法
Tang et al. Fast and accurate microRNA search using CNN
Chakraborty et al. Predicting MicroRNA sequence using CNN and LSTM stacked in Seq2Seq architecture
Yao et al. plantMirP: an efficient computational program for the prediction of plant pre-miRNA by incorporating knowledge-based energy features
CN105095688A (zh) 检测人体肠道宏基因组的细菌群落及丰度的方法
CN117012282A (zh) 一种基于图注意力网络的rna-疾病相关性预测方法
CN114373508B (zh) 一种基于16S rDNA序列的菌种鉴定方法
Luo et al. Multi-relation graph embedding for predicting mirna-target gene interactions by integrating gene sequence information
CN115249538B (zh) 一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法
Korfiati et al. Predicting human miRNA target genes using a novel computational intelligent framework
Fan et al. iterb-PPse: Identification of transcriptional terminators in bacterial by incorporating nucleotide properties into PseKNC
CN111755074B (zh) 一种酿酒酵母菌中dna复制起点的预测方法
Kasukurthi et al. SURFr: Algorithm for identification and analysis of ncRNA-derived RNAs
Kaur et al. A fast and novel approach based on grouping and weighted mRMR for feature selection and classification of protein sequence data
CN111951889A (zh) 一种rna序列中m5c位点的识别预测方法及***
Tran et al. Network representation of large-scale heterogeneous RNA sequences with integration of diverse multi-omics, interactions, and annotations data
Lee Deep learning-based microrna target prediction using experimental negative data
Gerniers et al. MicroCellClust 2: a hybrid approach for multivariate rare cell mining in large-scale single-cell data
Giansanti et al. Comparing deep and machine learning approaches in bioinformatics: a miRNA-target prediction case study
Khalfaoui et al. DropLasso: A robust variant of Lasso for single cell RNA-seq data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant