CN109859798B

CN109859798B - 一种细菌中sRNA与其靶标mRNA相互作用的预测方法

Info

Publication number: CN109859798B
Application number: CN201910053867.6A
Authority: CN
Inventors: 樊永显; 崔娟; 张龙; 张向文
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2023-06-23
Anticipated expiration: 2039-01-21
Also published as: CN109859798A

Abstract

本发明公开了一种细菌中sRNA与其靶标mRNA相互作用的预测方法，包括如下步骤：1）数据收集和整理；2）特征提取，将数据集转换为矩阵；3）F‑score特征优化；4）训练构建SVM模型并进行预测得出预测结果。这种方法能有效表征RNA序列信息、提高sRNA‑靶标mRNA相互作用预测精度，同时，这种方法还具有成本低、耗时少、预测速度快的优点。

Description

一种细菌中sRNA与其靶标mRNA相互作用的预测方法

技术领域

本发明涉及生物信息学中序列相互作用的分类预测，具体是一种细菌中sRNA与其靶标mRNA相互作用的预测方法。

背景技术

非编码RNA(non-coding RNA,简称ncRNA)是一种不编码蛋白质的RNA，自从具有某些调控功能的ncRNA被快速相继识别出以来，ncRNA在分子生物学中引起了越来越多的关注。调控ncRNA与信使RNA(messenger RNA，简称mRNA)相互作用抑制或激活翻译成蛋白质，导致基因表达的调节障碍，从而导致疾病的发生。在这种调控中，较为流行的就包括细菌中的小RNA(small RNA，简称sRNA)，它与靶标mRNA通过碱基配对形成某种复杂的二级结构，直接或者间接的影响着生物体内基因的表达。随着后基因时代被识别出的sRNA数量越来越多，要想尽可能的了解sRNA的功能，就必须考虑sRNA在生物体内与它的靶标mRNA相互作用的调控。目前为止尽管有一些sRNA的功能得到证实，但还是有相当一部分的sRNA的功能是未知的，因此识别sRNA靶标对识别研究sRNA的功能具有重要的意义。但是通过生物学的方法来识别sRNA与其靶标mRNA的相互作用是十分有限的。因此应用计算机技术结合生物学信息来预测sRNA-mRNA相互作用对发现和认识sRNA功能有十分重要的意义。

当前主要使用两类方法来预测sRNA与靶基因的相互作用：普通的RNA-RNA相互作用模型和专门用于sRNA-靶标mRNA相互作用预测模型。普通的RNA-RNA相互作用模型大多数仅提供两个RNA分子之间的结合位点，而不确定两个RNA分子是否具有相互作用，如：RNAcofold、RNAup、RNAduplex等(Lorenz R,Bernhart S H,Siederdissen C H Z,etal.ViennaRNA Package 2.0[J].Algorithms for Molecular Biology,2011,6(1):26.)。事实上，即便两条随机选择的RNA序列也可以呈现许多潜在的结合位点，但是我们不能保证两个RNA序列相互作用。查阅文献发现，目前专门用于sRNA-靶标mRNA相互作用预测的模型为数不多。其中，sTarPicker(Ying X,Cao Y,Wu J,et al.sTarPicker:A Method forEfficient Prediction of Bacterial sRNA Targets Based on a Two-Step Model forHybridization[J].PLOS ONE,2011,6.)使用RNA-RNA分子之间的热力学稳定性特征和靶点可接近性特征预测sRNA和靶标mRNA之间是否具有相互作用。这种方法取得了不错的预测精度，但其特征繁多且难以提取。IntaRNA(Busch A,Richter A S,Backofen R.IntaRNA:efficient prediction of bacterial sRNA targets incorporating target siteaccessibility and seed regions[J].Bioinformatics,2008,24(24):2849-2856.)由用户自定义的种子序列计算结合位点的可接近能，从而判断sRNA和靶标mRNA是否相互作用。这种方法在识别sRNA和其靶标mRNA是否相互作用方面有很大的贡献，但它们依赖更多的生化实验数据特征。

发明内容

本发明的目的是针对现有技术的不足，而提供一种细菌中sRNA与其靶标mRNA相互作用的预测方法。这种方法能有效表征RNA序列信息、提高sRNA-靶标mRNA相互作用预测精度，同时，这种方法还具有成本低、耗时少、预测速度快的优点。

实现本发明目的的技术方案是：

一种细菌中sRNA与其靶标mRNA相互作用的预测方法，与现有技术不同处在于，包括如下步骤：

1)数据收集和整理：从sRNATarBase 3.0数据库获取sRNA-mRNA相互作用数据集，将数据集中的mRNA一级序列与NCBI数据库中相应的mRNA全基因组序列进行比对，截取mRNA在起始密码子上游80nt和下游50nt之间的序列片段，所述起始密码子为AUG，然后，连接sRNA序列和mRNA序列形成一个序列对，每个序列对由一条sRNA序列连接一条mRNA序列组成，形如：sRNA-bbbbbb-mRNA，其中，b为连接符号，整理后的数据集包括有相互作用的正样本RNA序列对241个和没有相互作用的负样本RNA序列对185个；

2)特征提取，将数据集转换为矩阵：其过程为：

(1)采用k-元组核苷酸的方法配置数据集中的RNA序列对，K-元组的K可以取1，2，3，…，k，…，m；其中m趋近无穷大，RNA序列中一共有A,C,G,U四种核糖核苷酸，任意先后取K个核苷酸为一组，共有4^k种组合，比如K＝2时，共有4²＝16种组合，依次为AA,AC,AG,AU,CA,…,UU，通过k-元组核苷酸的方法，对数据集中每个样本RNA序列对，从第一个核苷酸开始，从左到右取K个相邻的核苷酸，然后右移一个核苷酸，取后面相邻的K个核苷酸，重复这样的操作(L-K+1)次遍历整条RNA序列对，L为每个样本RNA序列对的长度，依据公式(1)统计整条RNA序列对中每一种K核苷酸组合出现的频率，将4^k种组合出现的频率转化成4^k维的向量，得到矩阵D中第1至4^k维向量，该阶段特征向量表示如公式(2):

其中，

代表数据集中第i个样本的第j种K核苷酸组合在整条RNA序列对中出现的次数，

代表数据集中第i个样本的第j种K核苷酸组合在整条RNA序列对中出现的频率，Dⁱ表示数据集中第i个样本RNA序列对的特征向量，T表示转置；

(2)提取数据集中RNA二级结构的三元组点-括号图信息：由RNAfold软件预测出sRNA-bbbbbb-mRNA序列形成的二级结构，预测结果的第一行是sRNA-bbbbbb-mRNA序列，第二行是序列对应的由点-括号图表示的二级结构，在二级结构中每个核苷酸只有匹配和未匹配两种状态，其中靠近RNA序列5’端的核苷酸匹配用“(”表示，靠近RNA序列3’端的核苷酸匹配用“)”表示，未匹配用“.”表示，为了简化编码，将核苷酸匹配都使用“(”来表示、“b”为连接sRNA与靶标mRNA的字符，因此“b”及其对应的匹配状态都被删除，不予考虑，将预测结果中序列对应的二级结构转换为编码单元序列，其中，编码单元由序列二级结构中三个相邻核苷酸的匹配状态所组成，共有2³＝8种编码单元形式，分别为“(((”、“((.”、“(..”、“…”、“(.(”、“..(”、“.(.”、“.((”，提取每个编码单元对应的第二个核苷酸即：A、C、G、U，并将该核苷酸与编码单元组合形成一个三联体，共有4×8＝32种三联体形式，对软件预测结果中点-括号图表示的二级结构，从第一个匹配状态开始，从左到右取三个相邻核苷酸的匹配状态，然后右移一个核苷酸，取后面相邻的三个核苷酸的匹配状态，重复这样的操作(L-3+1)次遍历整条RNA编码单元序列，L为每个样本RNA序列对的长度，依据公式(3)计算RNA编码单元序列中每种三联体出现的频率，将32种三联体频率特征转化成32维的向量，添加到公式(2)得到的4^k维向量中，得到矩阵D中第4^k+1至4^k+32维向量，对应这一阶段的特征向量表示如公式(4)：

其中，s_i,j代表数据集中第i个样本的第j种三联体编码单元在整条RNA序列对中出现的次数，p_i,j代表数据集中第i个样本的第j种三联体编码单元在整条RNA序列对中出现的频率；

(3)添加能量信息：所述能量信息包括：单个碱基的自由能e_i、sRNA和mRNA结合前后能量的差值Δe_i及sRNA和mRNA结合位点的可接近能量ΔAcc_i，其中，

单个碱基的自由能e_i由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE除以这个样本RNA序列对的长度L获得，表示如公式(5)：

sRNA-mRNA结合前后能量的差值Δe_i由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE减去这个样本RNA序列对中sRNA序列和mRNA序列分别单独形成稳定的分子内二级结构时的能量获得，表示如公式(6)：

Δe_i＝MFE-E_S-E_M (6)，

其中，E_S表示sRNA序列单独形成稳定的分子内二级结构时释放的能量，Em表示mRNA序列单独形成稳定的分子内二级结构时释放的能量；

sRNA结合位点的可接近能量由sRNA序列中未配对碱基的自由能减去sRNA序列中配对碱基的自由能获得，表示如公式(7)，mRNA结合位点的可接近能量由同样的方法获得，表示如公式(8)，数据集中第i个样本RNA序列对的sRNA和mRNA结合位点的可接近能量表示如公式(9)：ΔSAcc＝ΔEs_unpaired-ΔEs_paired (7)，

ΔMAcc＝ΔEm_unpaired-ΔEm_paired (8)，

ΔAcc_i＝ΔSAcc+ΔMAcc (9)，

其中，ΔEs_unpaired表示sRNA序列中未配对碱基的自由能，ΔEs_paired表示sRNA序列中配对碱基的自由能，ΔEm_unpaired表示mRNA序列中未配对碱基的自由能，ΔEm_paired表示mRNA序列中配对碱基的自由能，将三个能量值转化成3维的向量，添加到公式(4)得到的4^k+32维向量中，得到矩阵D中第4^k+32+1至4^k+32+3维向量，对应这一阶段的特征向量表示如公式(10)：

(4)获取特定碱基组合信息：包括：数据集中每一个样本RNA序列对中A+U,G+C,A+C的含量比例，分别表示如公式(11)、(12)和(13)：

其中，

分别表示数据集中第i个样本RNA序列对中A+U,G+C,A+C的总含量，/>

分别表示数据集中第i个样本RNA序列对中A+U,G+C,A+C的含量比例，将三个特定碱基组合特征转化成3维的向量，添加到公式(10)得到的4^k+32+3维向量中，得到矩阵D中第4^k+32+3+1至4^k+32+3+3维向量，对应这一阶段的特征向量表示如公式(14)：/>

最终，得到矩阵

其中n表示数据集中的样本总个数，4^k+32+3+3表示每个样本进行特征提取后被转换成的维数；

3)F-score特征优化：采用F-score方法对步骤2)得到的矩阵

中的特征进行选择优化，保留矩阵/>

中包含较高识别度信息的特征，删除矩阵/>

中包含较低识别度信息的特征，其公式(15)如下：

其中，其中n⁺表示正样本的总数，n^-表示负样本的总数，

表示正样本的第i个特征的平均值，/>

表示负样本的第i个特征的平均值，/>

表示所有样本的平均值，/>

表示正数据集中的第k个样本的第i个特征，/>

表示负数据集中第k个样本的i个特征，F_i的值越大，表明第i个特征包含识别度信息越高，对分类的影响越大，将F_i按照从大到小的顺序排名，选择对分类影响大的特征作为样本数据特征；

4)训练构建SVM模型并进行预测得出预测结果：采用SVM算法，进行5折交叉验证实验，在5折交叉验证实验中，将数据集随机分为5组，依次选择其中的一组作为测试集，将剩下的作为训练集，利用训练集训练并构建SVM分类器，然后将测试集输入SVM分类器,得到分类结果。

本技术方案结合sTarPicker中的特征提取方法，并且加入新的特征，对数据集进行特征提取编码，从而得到我们需要的数据格式，多样的提取数据特征的方法造成了高维的数据，因此，采用F-score特征选择方法解决这一问题，最终，利用特征选择保留下来的特征数据，训练构建预测模型，结合预测模型得到分类结果。

本技术方案与现有预测技术相比，其显著优点有两个：

(1)在充分考虑已有的特征外，为了更加有效的描述RNA信息，本技术方案提取了K-元组核苷酸特征和基于RNA二级结构点-括号图的三联体特征；

(2)采用F-score特征选择方法降低特征向量的维度，减少计算时间，避免过拟合现象的出现。

这种方法能有效表征RNA序列信息、提高sRNA-靶标mRNA相互作用预测精度，同时，这种方法还具有成本低、耗时少、预测速度快的优点。

附图说明

图1为实施例中方法流程示意框图。

具体实施方式

下面结合附图和实施例对本发明的内容作进一步的阐述，但不是对本发明的限定。

实施例：

参照图1，一种细菌中sRNA与其靶标mRNA相互作用的预测方法，包括如下步骤：

2)特征提取，将数据集转换为矩阵：其过程为：

假设数据集中第i个样本序列Dⁱ有L个核苷酸，如公式(16)：

Dⁱ＝R₁R₂R₃R₄R₅…R_L (16)，

(1)采用k-元组核苷酸的方法配置数据集中的RNA序列对Dⁱ，K-元组的K可以取1，2，3，…，k，…，m；其中m趋近无穷大，RNA序列中一共有A,C,G,U四种核糖核苷酸，任意先后取K个核苷酸为一组，共有4^k种组合，本例中，K取3，对数据集中每个样本RNA序列对，从第一个核苷酸开始，从左到右取3个相邻的核苷酸，然后右移一个核苷酸，取后面相邻的3个核苷酸，重复这样的操作(L-3+1)次遍历整条RNA序列对，L为每个样本RNA序列对的长度，依据公式(1)统计整条RNA序列对中每一种3核苷酸组合出现的频率，将64种组合出现的频率转化成64维的向量，得到矩阵D中第1至64维向量，该阶段特征向量表示如公式(2):

其中，

代表数据集中第i个样本的第j种3核苷酸组合在整条RNA序列对中出现的次数，/>

代表数据集中第i个样本的第j种3核苷酸组合在整条RNA序列对中出现的频率，Dⁱ表示数据集中第i个样本RNA序列对的特征向量，T表示转置；

(2)提取数据集中RNA二级结构的三元组点-括号图信息：由RNAfold软件预测出sRNA-bbbbbb-mRNA序列形成的二级结构，预测结果的第一行是sRNA-bbbbbb-mRNA序列，第二行是序列对应的由点-括号图表示的二级结构，在二级结构中每个核苷酸只有匹配和未匹配两种状态，其中靠近RNA序列5’端的核苷酸匹配用“(”表示，靠近RNA序列3’端的核苷酸匹配用“)”表示，未匹配用“.”表示，为了简化编码，将核苷酸匹配都使用“(”来表示、“b”为连接sRNA与靶标mRNA的字符，因此“b”及其对应的匹配状态都被删除，不予考虑，将预测结果中序列对应的二级结构转换为编码单元序列，其中，编码单元由序列二级结构中三个相邻核苷酸的匹配状态所组成，共有2³＝8种编码单元形式，分别为“(((”、“((.”、“(..”、“…”、“(.(”、“..(”、“.(.”、“.((”，提取每个编码单元对应的第二个核苷酸即：A、C、G、U，并将该核苷酸与编码单元组合形成一个三联体，共有4×8＝32种三联体形式，对软件预测结果中点-括号图表示的二级结构，从第一个匹配状态开始，从左到右取三个相邻核苷酸的匹配状态，然后右移一个核苷酸，取后面相邻的三个核苷酸的匹配状态，重复这样的操作(L-3+1)次遍历整条RNA编码单元序列，L为每个样本RNA序列对的长度，依据公式(3)计算RNA编码单元序列中每种三联体出现的频率，将32种三联体频率特征转化成32维的向量，添加到公式(2)得到的64维向量中，得到矩阵D中第65至96维向量，对应这一阶段的特征向量表示如公式(4)：

sRNA-mRNA结合前后能量的差值Δe_i由数据集中第i个样本RNA序列对形成稳定二级结构时的最小自由能MFE减去这个样本RNA序列对中sRNA序列和mRNA序列分别单独形成稳定的分子内二级结构时的能量获得，，表示如公式(6)：

Δe_i＝MFE-E_S-E_M (6)，

sRNA结合位点的可接近能量由sRNA序列中未配对碱基的自由能减去sRNA序列中配对碱基的自由能获得，表示如公式(7)，mRNA结合位点的可接近能量由同样的方法获得，表示如公式(8)，数据集中第i个样本RNA序列对的sRNA和mRNA结合位点的可接近能量表示如公式(9)：

ΔSAcc＝ΔEs_unpaired-ΔEs_paired (7)，

ΔMAcc＝ΔEm_unpaired-ΔEm_paired (8)，

ΔAcc_i＝ΔSAcc+ΔMAcc (9)，

其中，ΔEs_unpaired表示sRNA序列中未配对碱基的自由能，ΔEs_paired表示sRNA序列中配对碱基的自由能，ΔEm_unpaired表示mRNA序列中未配对碱基的自由能，ΔEm_paired表示mRNA序列中配对碱基的自由能，将三个能量值转化成3维的向量，添加到公式(4)得到的96维向量中，得到矩阵D中第97至99维向量，对应这一阶段的特征向量表示如公式(10)：

其中，

分别表示数据集中第i个样本RNA序列对中A+U,G+C,A+C的含量比例，将三个特定碱基组合特征转化成3维的向量，添加到公式(10)得到的99维向量中，得到矩阵D中第100至102维向量，对应这一阶段的特征向量表示如公式(14)：

数据集共有426个数据，所以最终得到包含生物信息的矩阵D_426*102，矩阵D_426*102表示如公式(17)：

3)F-score特征优化：采用F-score方法对步骤2)得到的矩阵D_426*102中的特征进行选择优化，保留矩阵D_426*102中包含较高识别度信息的特征，删除矩阵D_426*102中包含较低识别度信息的特征，其公式(15)如下：

其中，其中n⁺表示正样本的总数，n^-表示负样本的总数，

表示正样本的第i个特征的平均值，/>

表示负样本的第i个特征的平均值，/>

表示所有样本的平均值，/>

表示正数据集中的第k个样本的第i个特征，/>

表示负数据集中第k个样本的i个特征，F_i的值越大，表明第i个特征包含识别度信息越高，将F_i按照从大到小的顺序排名，选择对分类影响大的特征作为样本数据特征，最终将特征矩阵D_426*102的维度降到53维，表示为矩阵D_426*53；

4)训练构建SVM模型并进行预测得出预测结果：采用经典的机器学***均的分类结果准确率，如表1所示，表1分类结果准确率表明：基于本例所用特征提取方法，SVM算法明显优于随机森林算法(RandomForests algorithm，简称RF)和K-近邻算法(K-nearest neighbor algorithm，简称KNN)。SVM是一种有效的监督模式识别方法，在生物信息学领域得到了广泛的应用，SVM的基本思想是将数据转化为高维特征空间，然后确定最优的分离超平面，在本例中，采用Chang和Lin编写的免费软件包LIBSVM，使用径向基核函数来获得最佳的分类超平面，通过网格搜索的优化方法最终确定正则化参数C和核宽度参数γ的取值：C＝32，γ＝0.125。

表1.基于不同K-元组核苷酸，不同机器学习算法的实验结果对比

由表1可以看出，使用本例方法基于SVM对细菌中sRNA-mRNA相互作用预测可以取得不错的预测精度，同时K＝3时,SVM可以取得相对较好的预测精度,这也解释了为何本例在步骤2)的(1)特征提取中选择K的取值为3。

Claims

1.一种细菌中sRNA与其靶标mRNA相互作用的预测方法，其特征在于，包括如下步骤：

1)数据收集和整理：从sRNATarBase 3.0数据库获取sRNA-mRNA相互作用数据集，将数据集中的mRNA一级序列与NCBI数据库中相应的mRNA全基因组序列进行比对，截取mRNA在起始密码子上游80nt和下游50nt之间的序列片段，所述起始密码子为AUG，然后，连接sRNA序列和mRNA序列形成一个序列对，每个序列对由一条sRNA序列连接一条mRNA序列组成，即：sRNA-bbbbbb-mRNA，其中，b为连接符号，整理后的数据集包括有相互作用的正样本RNA序列对241个和没有相互作用的负样本RNA序列对185个；

2)特征提取，将数据集转换为矩阵：其过程为：

(1)采用k-元组核苷酸的方法配置数据集中的RNA序列对，K-元组的K取1，2，3，…，k，…，m；其中m趋近无穷大，RNA序列中一共有A,C,G,U四种核糖核苷酸，任意先后取K个核苷酸为一组，共有4^k种组合，对数据集中每个样本RNA序列对，从第一个核苷酸开始，从左到右取K个相邻的核苷酸，然后右移一个核苷酸，取后面相邻的K个核苷酸，重复这样的操作(L-K+1)次遍历整条RNA序列对，L为每个样本RNA序列对的长度，依据公式(1)统计整条RNA序列对中每一种K核苷酸组合出现的频率，将4^k种组合出现的频率转化成4^k维的向量，得到矩阵D中第1至4^k维向量，该阶段特征向量表示如公式(2):

其中，

代表数据集中第i个样本的第j种K核苷酸组合在整条RNA序列对中出现的次数，/>

(2)提取数据集中RNA二级结构的三元组点-括号图信息：由RNAfold软件预测出sRNA-bbbbbb-mRNA序列形成的二级结构，预测结果的第一行是sRNA-bbbbbb-mRNA序列，第二行是序列对应的由点-括号图表示的二级结构，在二级结构中每个核苷酸只有匹配和未匹配两种状态，其中靠近RNA序列5’端的核苷酸匹配用“(”表示，靠近RNA序列3’端的核苷酸匹配用“)”表示，未匹配用“.”表示，将核苷酸匹配都使用“(”来表示、“b”为连接sRNA与靶标mRNA的字符，因此“b”及其对应的匹配状态都被删除，不予考虑，将预测结果中序列对应的二级结构转换为编码单元序列，其中，编码单元由序列二级结构中三个相邻核苷酸的匹配状态所组成，共有2³＝8种编码单元形式，分别为“(((”、“((.”、“(..”、“…”、“(.(”、“..(”、“.(.”、“.((”，提取每个编码单元对应的第二个核苷酸即：A、C、G、U，并将该核苷酸与编码单元组合形成一个三联体，共有4×8＝32种三联体形式，对软件预测结果中点-括号图表示的二级结构，从第一个匹配状态开始，从左到右取三个相邻核苷酸的匹配状态，然后右移一个核苷酸，取后面相邻的三个核苷酸的匹配状态，重复这样的操作(L-3+1)次遍历整条RNA编码单元序列，L为每个样本RNA序列对的长度，依据公式(3)计算RNA编码单元序列中每种三联体出现的频率，将32种三联体频率特征转化成32维的向量，添加到公式(2)得到的4^k维向量中，得到矩阵D中第4^k+1至4^k+32维向量，对应这一阶段的特征向量表示如公式(4)：