CN109859798B - 一种细菌中sRNA与其靶标mRNA相互作用的预测方法 - Google Patents
一种细菌中sRNA与其靶标mRNA相互作用的预测方法 Download PDFInfo
- Publication number
- CN109859798B CN109859798B CN201910053867.6A CN201910053867A CN109859798B CN 109859798 B CN109859798 B CN 109859798B CN 201910053867 A CN201910053867 A CN 201910053867A CN 109859798 B CN109859798 B CN 109859798B
- Authority
- CN
- China
- Prior art keywords
- srna
- mrna
- sequence
- rna sequence
- dataset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108020004999 messenger RNA Proteins 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000003993 interaction Effects 0.000 title claims abstract description 34
- 108020004566 Transfer RNA Proteins 0.000 title claims abstract description 18
- 241000894006 Bacteria Species 0.000 title claims abstract description 10
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 70
- 239000011159 matrix material Substances 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 238000013480 data collection Methods 0.000 claims abstract description 4
- 239000002773 nucleotide Substances 0.000 claims description 59
- 125000003729 nucleotide group Chemical group 0.000 claims description 59
- 239000013598 vector Substances 0.000 claims description 55
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 238000002790 cross-validation Methods 0.000 claims description 7
- 238000002474 experimental method Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 4
- 108091081024 Start codon Proteins 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 108091032955 Bacterial small RNA Proteins 0.000 description 46
- 230000006870 function Effects 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 3
- 230000001580 bacterial effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 108091027963 non-coding RNA Proteins 0.000 description 2
- 102000042567 non-coding RNA Human genes 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 108020004417 Untranslated RNA Proteins 0.000 description 1
- 102000039634 Untranslated RNA Human genes 0.000 description 1
- 238000010170 biological method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000008482 dysregulation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000009711 regulatory function Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种细菌中sRNA与其靶标mRNA相互作用的预测方法,包括如下步骤:1)数据收集和整理;2)特征提取,将数据集转换为矩阵;3)F‑score特征优化;4)训练构建SVM模型并进行预测得出预测结果。这种方法能有效表征RNA序列信息、提高sRNA‑靶标mRNA相互作用预测精度,同时,这种方法还具有成本低、耗时少、预测速度快的优点。
Description
技术领域
本发明涉及生物信息学中序列相互作用的分类预测,具体是一种细菌中sRNA与其靶标mRNA相互作用的预测方法。
背景技术
非编码RNA(non-coding RNA,简称ncRNA)是一种不编码蛋白质的RNA,自从具有某些调控功能的ncRNA被快速相继识别出以来,ncRNA在分子生物学中引起了越来越多的关注。调控ncRNA与信使RNA(messenger RNA,简称mRNA)相互作用抑制或激活翻译成蛋白质,导致基因表达的调节障碍,从而导致疾病的发生。在这种调控中,较为流行的就包括细菌中的小RNA(small RNA,简称sRNA),它与靶标mRNA通过碱基配对形成某种复杂的二级结构,直接或者间接的影响着生物体内基因的表达。随着后基因时代被识别出的sRNA数量越来越多,要想尽可能的了解sRNA的功能,就必须考虑sRNA在生物体内与它的靶标mRNA相互作用的调控。目前为止尽管有一些sRNA的功能得到证实,但还是有相当一部分的sRNA的功能是未知的,因此识别sRNA靶标对识别研究sRNA的功能具有重要的意义。但是通过生物学的方法来识别sRNA与其靶标mRNA的相互作用是十分有限的。因此应用计算机技术结合生物学信息来预测sRNA-mRNA相互作用对发现和认识sRNA功能有十分重要的意义。
当前主要使用两类方法来预测sRNA与靶基因的相互作用:普通的RNA-RNA相互作用模型和专门用于sRNA-靶标mRNA相互作用预测模型。普通的RNA-RNA相互作用模型大多数仅提供两个RNA分子之间的结合位点,而不确定两个RNA分子是否具有相互作用,如:RNAcofold、RNAup、RNAduplex等(Lorenz R,Bernhart S H,Siederdissen C H Z,etal.ViennaRNA Package 2.0[J].Algorithms for Molecular Biology,2011,6(1):26.)。事实上,即便两条随机选择的RNA序列也可以呈现许多潜在的结合位点,但是我们不能保证两个RNA序列相互作用。查阅文献发现,目前专门用于sRNA-靶标mRNA相互作用预测的模型为数不多。其中,sTarPicker(Ying X,Cao Y,Wu J,et al.sTarPicker:A Method forEfficient Prediction of Bacterial sRNA Targets Based on a Two-Step Model forHybridization[J].PLOS ONE,2011,6.)使用RNA-RNA分子之间的热力学稳定性特征和靶点可接近性特征预测sRNA和靶标mRNA之间是否具有相互作用。这种方法取得了不错的预测精度,但其特征繁多且难以提取。IntaRNA(Busch A,Richter A S,Backofen R.IntaRNA:efficient prediction of bacterial sRNA targets incorporating target siteaccessibility and seed regions[J].Bioinformatics,2008,24(24):2849-2856.)由用户自定义的种子序列计算结合位点的可接近能,从而判断sRNA和靶标mRNA是否相互作用。这种方法在识别sRNA和其靶标mRNA是否相互作用方面有很大的贡献,但它们依赖更多的生化实验数据特征。
发明内容
本发明的目的是针对现有技术的不足,而提供一种细菌中sRNA与其靶标mRNA相互作用的预测方法。这种方法能有效表征RNA序列信息、提高sRNA-靶标mRNA相互作用预测精度,同时,这种方法还具有成本低、耗时少、预测速度快的优点。
实现本发明目的的技术方案是:
一种细菌中sRNA与其靶标mRNA相互作用的预测方法,与现有技术不同处在于,包括如下步骤:
1)数据收集和整理:从sRNATarBase 3.0数据库获取sRNA-mRNA相互作用数据集,将数据集中的mRNA一级序列与NCBI数据库中相应的mRNA全基因组序列进行比对,截取mRNA在起始密码子上游80nt和下游50nt之间的序列片段,所述起始密码子为AUG,然后,连接sRNA序列和mRNA序列形成一个序列对,每个序列对由一条sRNA序列连接一条mRNA序列组成,形如:sRNA-bbbbbb-mRNA,其中,b为连接符号,整理后的数据集包括有相互作用的正样本RNA序列对241个和没有相互作用的负样本RNA序列对185个;
2)特征提取,将数据集转换为矩阵:其过程为:
(1)采用k-元组核苷酸的方法配置数据集中的RNA序列对,K-元组的K可以取1,2,3,…,k,…,m;其中m趋近无穷大,RNA序列中一共有A,C,G,U四种核糖核苷酸,任意先后取K个核苷酸为一组,共有4k种组合,比如K=2时,共有42=16种组合,依次为AA,AC,AG,AU,CA,…,UU,通过k-元组核苷酸的方法,对数据集中每个样本RNA序列对,从第一个核苷酸开始,从左到右取K个相邻的核苷酸,然后右移一个核苷酸,取后面相邻的K个核苷酸,重复这样的操作(L-K+1)次遍历整条RNA序列对,L为每个样本RNA序列对的长度,依据公式(1)统计整条RNA序列对中每一种K核苷酸组合出现的频率,将4k种组合出现的频率转化成4k维的向量,得到矩阵D中第1至4k维向量,该阶段特征向量表示如公式(2):
(2)提取数据集中RNA二级结构的三元组点-括号图信息:由RNAfold软件预测出sRNA-bbbbbb-mRNA序列形成的二级结构,预测结果的第一行是sRNA-bbbbbb-mRNA序列,第二行是序列对应的由点-括号图表示的二级结构,在二级结构中每个核苷酸只有匹配和未匹配两种状态,其中靠近RNA序列5’端的核苷酸匹配用“(”表示,靠近RNA序列3’端的核苷酸匹配用“)”表示,未匹配用“.”表示,为了简化编码,将核苷酸匹配都使用“(”来表示、“b”为连接sRNA与靶标mRNA的字符,因此“b”及其对应的匹配状态都被删除,不予考虑,将预测结果中序列对应的二级结构转换为编码单元序列,其中,编码单元由序列二级结构中三个相邻核苷酸的匹配状态所组成,共有23=8种编码单元形式,分别为“(((”、“((.”、“(..”、“…”、“(.(”、“..(”、“.(.”、“.((”,提取每个编码单元对应的第二个核苷酸即:A、C、G、U,并将该核苷酸与编码单元组合形成一个三联体,共有4×8=32种三联体形式,对软件预测结果中点-括号图表示的二级结构,从第一个匹配状态开始,从左到右取三个相邻核苷酸的匹配状态,然后右移一个核苷酸,取后面相邻的三个核苷酸的匹配状态,重复这样的操作(L-3+1)次遍历整条RNA编码单元序列,L为每个样本RNA序列对的长度,依据公式(3)计算RNA编码单元序列中每种三联体出现的频率,将32种三联体频率特征转化成32维的向量,添加到公式(2)得到的4k维向量中,得到矩阵D中第4k+1至4k+32维向量,对应这一阶段的特征向量表示如公式(4):
其中,si,j代表数据集中第i个样本的第j种三联体编码单元在整条RNA序列对中出现的次数,pi,j代表数据集中第i个样本的第j种三联体编码单元在整条RNA序列对中出现的频率;
(3)添加能量信息:所述能量信息包括:单个碱基的自由能ei、sRNA和mRNA结合前后能量的差值Δei及sRNA和mRNA结合位点的可接近能量ΔAcci,其中,
单个碱基的自由能ei由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE除以这个样本RNA序列对的长度L获得,表示如公式(5):
sRNA-mRNA结合前后能量的差值Δei由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE减去这个样本RNA序列对中sRNA序列和mRNA序列分别单独形成稳定的分子内二级结构时的能量获得,表示如公式(6):
Δei=MFE-ES-EM (6),
其中,ES表示sRNA序列单独形成稳定的分子内二级结构时释放的能量,Em表示mRNA序列单独形成稳定的分子内二级结构时释放的能量;
sRNA结合位点的可接近能量由sRNA序列中未配对碱基的自由能减去sRNA序列中配对碱基的自由能获得,表示如公式(7),mRNA结合位点的可接近能量由同样的方法获得,表示如公式(8),数据集中第i个样本RNA序列对的sRNA和mRNA结合位点的可接近能量表示如公式(9):ΔSAcc=ΔEsunpaired-ΔEspaired (7),
ΔMAcc=ΔEmunpaired-ΔEmpaired (8),
ΔAcci=ΔSAcc+ΔMAcc (9),
其中,ΔEsunpaired表示sRNA序列中未配对碱基的自由能,ΔEspaired表示sRNA序列中配对碱基的自由能,ΔEmunpaired表示mRNA序列中未配对碱基的自由能,ΔEmpaired表示mRNA序列中配对碱基的自由能,将三个能量值转化成3维的向量,添加到公式(4)得到的4k+32维向量中,得到矩阵D中第4k+32+1至4k+32+3维向量,对应这一阶段的特征向量表示如公式(10):
(4)获取特定碱基组合信息:包括:数据集中每一个样本RNA序列对中A+U,G+C,A+C的含量比例,分别表示如公式(11)、(12)和(13):
其中,分别表示数据集中第i个样本RNA序列对中A+U,G+C,A+C的总含量,/>分别表示数据集中第i个样本RNA序列对中A+U,G+C,A+C的含量比例,将三个特定碱基组合特征转化成3维的向量,添加到公式(10)得到的4k+32+3维向量中,得到矩阵D中第4k+32+3+1至4k+32+3+3维向量,对应这一阶段的特征向量表示如公式(14):/>
其中,其中n+表示正样本的总数,n-表示负样本的总数,表示正样本的第i个特征的平均值,/>表示负样本的第i个特征的平均值,/>表示所有样本的平均值,/>表示正数据集中的第k个样本的第i个特征,/>表示负数据集中第k个样本的i个特征,Fi的值越大,表明第i个特征包含识别度信息越高,对分类的影响越大,将Fi按照从大到小的顺序排名,选择对分类影响大的特征作为样本数据特征;
4)训练构建SVM模型并进行预测得出预测结果:采用SVM算法,进行5折交叉验证实验,在5折交叉验证实验中,将数据集随机分为5组,依次选择其中的一组作为测试集,将剩下的作为训练集,利用训练集训练并构建SVM分类器,然后将测试集输入SVM分类器,得到分类结果。
本技术方案结合sTarPicker中的特征提取方法,并且加入新的特征,对数据集进行特征提取编码,从而得到我们需要的数据格式,多样的提取数据特征的方法造成了高维的数据,因此,采用F-score特征选择方法解决这一问题,最终,利用特征选择保留下来的特征数据,训练构建预测模型,结合预测模型得到分类结果。
本技术方案与现有预测技术相比,其显著优点有两个:
(1)在充分考虑已有的特征外,为了更加有效的描述RNA信息,本技术方案提取了K-元组核苷酸特征和基于RNA二级结构点-括号图的三联体特征;
(2)采用F-score特征选择方法降低特征向量的维度,减少计算时间,避免过拟合现象的出现。
这种方法能有效表征RNA序列信息、提高sRNA-靶标mRNA相互作用预测精度,同时,这种方法还具有成本低、耗时少、预测速度快的优点。
附图说明
图1为实施例中方法流程示意框图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
参照图1,一种细菌中sRNA与其靶标mRNA相互作用的预测方法,包括如下步骤:
1)数据收集和整理:从sRNATarBase 3.0数据库获取sRNA-mRNA相互作用数据集,将数据集中的mRNA一级序列与NCBI数据库中相应的mRNA全基因组序列进行比对,截取mRNA在起始密码子上游80nt和下游50nt之间的序列片段,所述起始密码子为AUG,然后,连接sRNA序列和mRNA序列形成一个序列对,每个序列对由一条sRNA序列连接一条mRNA序列组成,形如:sRNA-bbbbbb-mRNA,其中,b为连接符号,整理后的数据集包括有相互作用的正样本RNA序列对241个和没有相互作用的负样本RNA序列对185个;
2)特征提取,将数据集转换为矩阵:其过程为:
假设数据集中第i个样本序列Di有L个核苷酸,如公式(16):
Di=R1R2R3R4R5…RL (16),
(1)采用k-元组核苷酸的方法配置数据集中的RNA序列对Di,K-元组的K可以取1,2,3,…,k,…,m;其中m趋近无穷大,RNA序列中一共有A,C,G,U四种核糖核苷酸,任意先后取K个核苷酸为一组,共有4k种组合,本例中,K取3,对数据集中每个样本RNA序列对,从第一个核苷酸开始,从左到右取3个相邻的核苷酸,然后右移一个核苷酸,取后面相邻的3个核苷酸,重复这样的操作(L-3+1)次遍历整条RNA序列对,L为每个样本RNA序列对的长度,依据公式(1)统计整条RNA序列对中每一种3核苷酸组合出现的频率,将64种组合出现的频率转化成64维的向量,得到矩阵D中第1至64维向量,该阶段特征向量表示如公式(2):
其中,代表数据集中第i个样本的第j种3核苷酸组合在整条RNA序列对中出现的次数,/>代表数据集中第i个样本的第j种3核苷酸组合在整条RNA序列对中出现的频率,Di表示数据集中第i个样本RNA序列对的特征向量,T表示转置;
(2)提取数据集中RNA二级结构的三元组点-括号图信息:由RNAfold软件预测出sRNA-bbbbbb-mRNA序列形成的二级结构,预测结果的第一行是sRNA-bbbbbb-mRNA序列,第二行是序列对应的由点-括号图表示的二级结构,在二级结构中每个核苷酸只有匹配和未匹配两种状态,其中靠近RNA序列5’端的核苷酸匹配用“(”表示,靠近RNA序列3’端的核苷酸匹配用“)”表示,未匹配用“.”表示,为了简化编码,将核苷酸匹配都使用“(”来表示、“b”为连接sRNA与靶标mRNA的字符,因此“b”及其对应的匹配状态都被删除,不予考虑,将预测结果中序列对应的二级结构转换为编码单元序列,其中,编码单元由序列二级结构中三个相邻核苷酸的匹配状态所组成,共有23=8种编码单元形式,分别为“(((”、“((.”、“(..”、“…”、“(.(”、“..(”、“.(.”、“.((”,提取每个编码单元对应的第二个核苷酸即:A、C、G、U,并将该核苷酸与编码单元组合形成一个三联体,共有4×8=32种三联体形式,对软件预测结果中点-括号图表示的二级结构,从第一个匹配状态开始,从左到右取三个相邻核苷酸的匹配状态,然后右移一个核苷酸,取后面相邻的三个核苷酸的匹配状态,重复这样的操作(L-3+1)次遍历整条RNA编码单元序列,L为每个样本RNA序列对的长度,依据公式(3)计算RNA编码单元序列中每种三联体出现的频率,将32种三联体频率特征转化成32维的向量,添加到公式(2)得到的64维向量中,得到矩阵D中第65至96维向量,对应这一阶段的特征向量表示如公式(4):
其中,si,j代表数据集中第i个样本的第j种三联体编码单元在整条RNA序列对中出现的次数,pi,j代表数据集中第i个样本的第j种三联体编码单元在整条RNA序列对中出现的频率;
(3)添加能量信息:所述能量信息包括:单个碱基的自由能ei、sRNA和mRNA结合前后能量的差值Δei及sRNA和mRNA结合位点的可接近能量ΔAcci,其中,
单个碱基的自由能ei由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE除以这个样本RNA序列对的长度L获得,表示如公式(5):
sRNA-mRNA结合前后能量的差值Δei由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE减去这个样本RNA序列对中sRNA序列和mRNA序列分别单独形成稳定的分子内二级结构时的能量获得,,表示如公式(6):
Δei=MFE-ES-EM (6),
其中,ES表示sRNA序列单独形成稳定的分子内二级结构时释放的能量,Em表示mRNA序列单独形成稳定的分子内二级结构时释放的能量;
sRNA结合位点的可接近能量由sRNA序列中未配对碱基的自由能减去sRNA序列中配对碱基的自由能获得,表示如公式(7),mRNA结合位点的可接近能量由同样的方法获得,表示如公式(8),数据集中第i个样本RNA序列对的sRNA和mRNA结合位点的可接近能量表示如公式(9):
ΔSAcc=ΔEsunpaired-ΔEspaired (7),
ΔMAcc=ΔEmunpaired-ΔEmpaired (8),
ΔAcci=ΔSAcc+ΔMAcc (9),
其中,ΔEsunpaired表示sRNA序列中未配对碱基的自由能,ΔEspaired表示sRNA序列中配对碱基的自由能,ΔEmunpaired表示mRNA序列中未配对碱基的自由能,ΔEmpaired表示mRNA序列中配对碱基的自由能,将三个能量值转化成3维的向量,添加到公式(4)得到的96维向量中,得到矩阵D中第97至99维向量,对应这一阶段的特征向量表示如公式(10):
(4)获取特定碱基组合信息:包括:数据集中每一个样本RNA序列对中A+U,G+C,A+C的含量比例,分别表示如公式(11)、(12)和(13):
其中,分别表示数据集中第i个样本RNA序列对中A+U,G+C,A+C的总含量,/>分别表示数据集中第i个样本RNA序列对中A+U,G+C,A+C的含量比例,将三个特定碱基组合特征转化成3维的向量,添加到公式(10)得到的99维向量中,得到矩阵D中第100至102维向量,对应这一阶段的特征向量表示如公式(14):
数据集共有426个数据,所以最终得到包含生物信息的矩阵D426*102,矩阵D426*102表示如公式(17):
3)F-score特征优化:采用F-score方法对步骤2)得到的矩阵D426*102中的特征进行选择优化,保留矩阵D426*102中包含较高识别度信息的特征,删除矩阵D426*102中包含较低识别度信息的特征,其公式(15)如下:
其中,其中n+表示正样本的总数,n-表示负样本的总数,表示正样本的第i个特征的平均值,/>表示负样本的第i个特征的平均值,/>表示所有样本的平均值,/>表示正数据集中的第k个样本的第i个特征,/>表示负数据集中第k个样本的i个特征,Fi的值越大,表明第i个特征包含识别度信息越高,将Fi按照从大到小的顺序排名,选择对分类影响大的特征作为样本数据特征,最终将特征矩阵D426*102的维度降到53维,表示为矩阵D426*53;
4)训练构建SVM模型并进行预测得出预测结果:采用经典的机器学***均的分类结果准确率,如表1所示,表1分类结果准确率表明:基于本例所用特征提取方法,SVM算法明显优于随机森林算法(RandomForests algorithm,简称RF)和K-近邻算法(K-nearest neighbor algorithm,简称KNN)。SVM是一种有效的监督模式识别方法,在生物信息学领域得到了广泛的应用,SVM的基本思想是将数据转化为高维特征空间,然后确定最优的分离超平面,在本例中,采用Chang和Lin编写的免费软件包LIBSVM,使用径向基核函数来获得最佳的分类超平面,通过网格搜索的优化方法最终确定正则化参数C和核宽度参数γ的取值:C=32,γ=0.125。
表1.基于不同K-元组核苷酸,不同机器学习算法的实验结果对比
由表1可以看出,使用本例方法基于SVM对细菌中sRNA-mRNA相互作用预测可以取得不错的预测精度,同时K=3时,SVM可以取得相对较好的预测精度,这也解释了为何本例在步骤2)的(1)特征提取中选择K的取值为3。
Claims (1)
1.一种细菌中sRNA与其靶标mRNA相互作用的预测方法,其特征在于,包括如下步骤:
1)数据收集和整理:从sRNATarBase 3.0数据库获取sRNA-mRNA相互作用数据集,将数据集中的mRNA一级序列与NCBI数据库中相应的mRNA全基因组序列进行比对,截取mRNA在起始密码子上游80nt和下游50nt之间的序列片段,所述起始密码子为AUG,然后,连接sRNA序列和mRNA序列形成一个序列对,每个序列对由一条sRNA序列连接一条mRNA序列组成,即:sRNA-bbbbbb-mRNA,其中,b为连接符号,整理后的数据集包括有相互作用的正样本RNA序列对241个和没有相互作用的负样本RNA序列对185个;
2)特征提取,将数据集转换为矩阵:其过程为:
(1)采用k-元组核苷酸的方法配置数据集中的RNA序列对,K-元组的K取1,2,3,…,k,…,m;其中m趋近无穷大,RNA序列中一共有A,C,G,U四种核糖核苷酸,任意先后取K个核苷酸为一组,共有4k种组合,对数据集中每个样本RNA序列对,从第一个核苷酸开始,从左到右取K个相邻的核苷酸,然后右移一个核苷酸,取后面相邻的K个核苷酸,重复这样的操作(L-K+1)次遍历整条RNA序列对,L为每个样本RNA序列对的长度,依据公式(1)统计整条RNA序列对中每一种K核苷酸组合出现的频率,将4k种组合出现的频率转化成4k维的向量,得到矩阵D中第1至4k维向量,该阶段特征向量表示如公式(2):
其中,代表数据集中第i个样本的第j种K核苷酸组合在整条RNA序列对中出现的次数,/>代表数据集中第i个样本的第j种K核苷酸组合在整条RNA序列对中出现的频率,Di表示数据集中第i个样本RNA序列对的特征向量,T表示转置;
(2)提取数据集中RNA二级结构的三元组点-括号图信息:由RNAfold软件预测出sRNA-bbbbbb-mRNA序列形成的二级结构,预测结果的第一行是sRNA-bbbbbb-mRNA序列,第二行是序列对应的由点-括号图表示的二级结构,在二级结构中每个核苷酸只有匹配和未匹配两种状态,其中靠近RNA序列5’端的核苷酸匹配用“(”表示,靠近RNA序列3’端的核苷酸匹配用“)”表示,未匹配用“.”表示,将核苷酸匹配都使用“(”来表示、“b”为连接sRNA与靶标mRNA的字符,因此“b”及其对应的匹配状态都被删除,不予考虑,将预测结果中序列对应的二级结构转换为编码单元序列,其中,编码单元由序列二级结构中三个相邻核苷酸的匹配状态所组成,共有23=8种编码单元形式,分别为“(((”、“((.”、“(..”、“…”、“(.(”、“..(”、“.(.”、“.((”,提取每个编码单元对应的第二个核苷酸即:A、C、G、U,并将该核苷酸与编码单元组合形成一个三联体,共有4×8=32种三联体形式,对软件预测结果中点-括号图表示的二级结构,从第一个匹配状态开始,从左到右取三个相邻核苷酸的匹配状态,然后右移一个核苷酸,取后面相邻的三个核苷酸的匹配状态,重复这样的操作(L-3+1)次遍历整条RNA编码单元序列,L为每个样本RNA序列对的长度,依据公式(3)计算RNA编码单元序列中每种三联体出现的频率,将32种三联体频率特征转化成32维的向量,添加到公式(2)得到的4k维向量中,得到矩阵D中第4k+1至4k+32维向量,对应这一阶段的特征向量表示如公式(4):
其中,si,j代表数据集中第i个样本的第j种三联体编码单元在整条RNA序列对中出现的次数,pi,j代表数据集中第i个样本的第j种三联体编码单元在整条RNA序列对中出现的频率;
(3)添加能量信息:所述能量信息包括:单个碱基的自由能ei、sRNA和mRNA结合前后能量的差值Δei及sRNA和mRNA结合位点的可接近能量ΔAcci,其中,
单个碱基的自由能ei由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE除以这个样本RNA序列对的长度L获得,表示如公式(5):
sRNA-mRNA结合前后能量的差值Δei由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE减去这个样本RNA序列对中sRNA序列和mRNA序列分别单独形成稳定的分子内二级结构时的能量获得,表示如公式(6):
Δei=MFE-ES-EM (6),
其中,ES表示sRNA序列单独形成稳定的分子内二级结构时释放的能量,Em表示mRNA序列单独形成稳定的分子内二级结构时释放的能量;
sRNA结合位点的可接近能量由sRNA序列中未配对碱基的自由能减去sRNA序列中配对碱基的自由能获得,表示如公式(7),mRNA结合位点的可接近能量由同样的方法获得,表示如公式(8),数据集中第i个样本RNA序列对的sRNA和mRNA结合位点的可接近能量表示如公式(9):
ΔSAcc=ΔEsunpaired-ΔEspaired (7),
ΔMAcc=ΔEmunpaired-ΔEmpaired (8),
ΔAcci=ΔSAcc+ΔMAcc (9),
其中,ΔEsunpaired表示sRNA序列中未配对碱基的自由能,ΔEspaired表示sRNA序列中配对碱基的自由能,ΔEmunpaired表示mRNA序列中未配对碱基的自由能,ΔEmpaired表示mRNA序列中配对碱基的自由能,将三个能量值转化成3维的向量,添加到公式(4)得到的4k+32维向量中,得到矩阵D中第4k+32+1至4k+32+3维向量,对应这一阶段的特征向量表示如公式(10):
(4)获取特定碱基组合信息:包括:数据集中每一个样本RNA序列对中A+U,G+C,A+C的含量比例,分别表示如公式(11)、(12)和(13):
将三个特定碱基组合特征转化成3维的向量,添加到公式(10)得到的4k+32+3维向量中,得到矩阵D中第4k+32+3+1至4k+32+3+3维向量,对应这一阶段的特征向量表示如公式(14):
其中,其中n+表示正样本的总数,n-表示负样本的总数,表示正样本的第i个特征的平均值,/>表示负样本的第i个特征的平均值,/>表示所有样本的平均值,/>表示正数据集中的第k个样本的第i个特征,/>表示负数据集中第k个样本的i个特征,Fi的值越大,表明第i个特征包含识别度信息越高,将Fi按照从大到小的顺序排名,选择对分类影响大的特征作为样本数据特征;
4)训练构建SVM模型并进行预测得出预测结果:采用SVM算法,进行5折交叉验证实验,在5折交叉验证实验中,将数据集随机分为5组,依次选择其中的一组作为测试集,将剩下的作为训练集,利用训练集训练并构建SVM分类器,然后将测试集输入SVM分类器,得到分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910053867.6A CN109859798B (zh) | 2019-01-21 | 2019-01-21 | 一种细菌中sRNA与其靶标mRNA相互作用的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910053867.6A CN109859798B (zh) | 2019-01-21 | 2019-01-21 | 一种细菌中sRNA与其靶标mRNA相互作用的预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109859798A CN109859798A (zh) | 2019-06-07 |
CN109859798B true CN109859798B (zh) | 2023-06-23 |
Family
ID=66895364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910053867.6A Active CN109859798B (zh) | 2019-01-21 | 2019-01-21 | 一种细菌中sRNA与其靶标mRNA相互作用的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109859798B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110379464B (zh) * | 2019-07-29 | 2023-05-12 | 桂林电子科技大学 | 一种细菌中dna转录终止子的预测方法 |
CN111951889B (zh) * | 2020-08-18 | 2023-12-22 | 安徽农业大学 | 一种rna序列中m5c位点的识别预测方法及*** |
CN113140255B (zh) * | 2021-04-19 | 2022-05-10 | 湖南大学 | 一种预测植物lncRNA-miRNA相互作用的方法 |
CN113344272B (zh) * | 2021-06-08 | 2022-06-21 | 汕头大学 | 一种基于机器学习的circRNA与miRNA、RBP相互作用关系的预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004066183A2 (en) * | 2003-01-22 | 2004-08-05 | European Molecular Biology Laboratory | Microrna |
JP2007082436A (ja) * | 2005-09-20 | 2007-04-05 | Bioinformatics Institute For Global Good Inc | 機能性RNAが制御するターゲットmRNAの予測・同定方法及びその利用方法 |
KR20180017827A (ko) * | 2016-08-11 | 2018-02-21 | 인하대학교 산학협력단 | 염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 시스템 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7243112B2 (en) * | 2001-06-14 | 2007-07-10 | Rigel Pharmaceuticals, Inc. | Multidimensional biodata integration and relationship inference |
US20040002083A1 (en) * | 2002-01-29 | 2004-01-01 | Ye Ding | Statistical algorithms for folding and target accessibility prediction and design of nucleic acids |
EP2101275A1 (en) * | 2008-03-10 | 2009-09-16 | Koninklijke Philips Electronics N.V. | Method for polynucleotide design and selection |
EP3209803A4 (en) * | 2014-10-21 | 2018-06-13 | Ubiome, Inc. | Method and system for microbiome-derived diagnostics and therapeutics |
CN104765846B (zh) * | 2015-04-17 | 2018-01-23 | 西安电子科技大学 | 一种基于特征提取算法的数据特征分类方法 |
CN106148324B (zh) * | 2015-05-12 | 2019-05-10 | 中国科学院上海生命科学研究院 | Rna-rna相互作用的分析鉴定方法及其应用 |
US10443103B2 (en) * | 2015-09-16 | 2019-10-15 | Innomedicine, LLC | Chemotherapy regimen selection |
CN105930687A (zh) * | 2016-04-11 | 2016-09-07 | 中国人民解放军第三军医大学 | 一种可在细菌全基因组水平预测外膜蛋白质的方法 |
CN106599615B (zh) * | 2016-11-30 | 2019-04-05 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种预测miRNA靶基因的序列特征分析方法 |
CN107742063A (zh) * | 2017-10-20 | 2018-02-27 | 桂林电子科技大学 | 一种原核生物σ54启动子的预测方法 |
CN108090327B (zh) * | 2017-12-20 | 2022-03-29 | 吉林大学 | 包含三维自由能的外源性miRNA调控靶基因预测方法 |
-
2019
- 2019-01-21 CN CN201910053867.6A patent/CN109859798B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004066183A2 (en) * | 2003-01-22 | 2004-08-05 | European Molecular Biology Laboratory | Microrna |
JP2007082436A (ja) * | 2005-09-20 | 2007-04-05 | Bioinformatics Institute For Global Good Inc | 機能性RNAが制御するターゲットmRNAの予測・同定方法及びその利用方法 |
KR20180017827A (ko) * | 2016-08-11 | 2018-02-21 | 인하대학교 산학협력단 | 염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 시스템 |
Non-Patent Citations (2)
Title |
---|
RIsearch: fast RNA-RNA interaction search using a simplified nearest-neighbor energy model;Anne Wenzel等;Bioinformatics;第28卷(第21期);第2738-2746页 * |
成熟microRNA识别及其功能预测方法研究;王颖;中国博士学位论文全文数据库 (基础科学辑)(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109859798A (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109859798B (zh) | 一种细菌中sRNA与其靶标mRNA相互作用的预测方法 | |
Chen et al. | Identifying 2′-O-methylationation sites by integrating nucleotide chemical properties and nucleotide compositions | |
Cary et al. | Graph-theoretic approach to RNA modeling using comparative data. | |
CN111462820A (zh) | 基于特征筛选和集成算法的非编码rna预测方法 | |
Su et al. | Integrating thermodynamic and sequence contexts improves protein-RNA binding prediction | |
CN105808976A (zh) | 一种基于推荐模型的miRNA靶基因预测方法 | |
Tang et al. | Fast and accurate microRNA search using CNN | |
Chakraborty et al. | Predicting MicroRNA sequence using CNN and LSTM stacked in Seq2Seq architecture | |
Yao et al. | plantMirP: an efficient computational program for the prediction of plant pre-miRNA by incorporating knowledge-based energy features | |
CN105095688A (zh) | 检测人体肠道宏基因组的细菌群落及丰度的方法 | |
CN117012282A (zh) | 一种基于图注意力网络的rna-疾病相关性预测方法 | |
CN114373508B (zh) | 一种基于16S rDNA序列的菌种鉴定方法 | |
Luo et al. | Multi-relation graph embedding for predicting mirna-target gene interactions by integrating gene sequence information | |
CN115249538B (zh) | 一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法 | |
Korfiati et al. | Predicting human miRNA target genes using a novel computational intelligent framework | |
Fan et al. | iterb-PPse: Identification of transcriptional terminators in bacterial by incorporating nucleotide properties into PseKNC | |
CN111755074B (zh) | 一种酿酒酵母菌中dna复制起点的预测方法 | |
Kasukurthi et al. | SURFr: Algorithm for identification and analysis of ncRNA-derived RNAs | |
Kaur et al. | A fast and novel approach based on grouping and weighted mRMR for feature selection and classification of protein sequence data | |
CN111951889A (zh) | 一种rna序列中m5c位点的识别预测方法及*** | |
Tran et al. | Network representation of large-scale heterogeneous RNA sequences with integration of diverse multi-omics, interactions, and annotations data | |
Lee | Deep learning-based microrna target prediction using experimental negative data | |
Gerniers et al. | MicroCellClust 2: a hybrid approach for multivariate rare cell mining in large-scale single-cell data | |
Giansanti et al. | Comparing deep and machine learning approaches in bioinformatics: a miRNA-target prediction case study | |
Khalfaoui et al. | DropLasso: A robust variant of Lasso for single cell RNA-seq data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |