CN110706743A

CN110706743A - 一种平衡采样与图检索的蛋白质互作网络模体检测方法

Info

Publication number: CN110706743A
Application number: CN201910972705.2A
Authority: CN
Inventors: 林丽美; 黄艳泽; 余辉; 李金娥
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-01-17

Abstract

一种平衡采样与图检索的蛋白质互作网络模体检测方法，包括以下步骤:1.采用蒙特卡罗‑马尔科夫链方法的交换算法交换算法构建与真实蛋白质互作网络具有相同度分布的随机网络模型；2.在真实蛋白质互作网络与随机网络模型中进行k规模子图查找，通过平衡采样查找算法能查找出尽可能多的k规模子图；3.根据已查找出的子图构建图检索存储结构，采用对称条件和同构结点映射存储所有k规模子图；4.确定网络模体。统计存储结构中所有k规模子图出现的频率，并通过网络模体统计意义评价确定该子图是否为网络模体。

Description

一种平衡采样与图检索的蛋白质互作网络模体检测方法

技术领域

本发明涉生物信息研究领域，特别是涉及基于平衡采样与图检索的蛋白质互作网络模体检测方法。

背景技术

蛋白质是一切生命的基础，它几乎在生物进化和生命活动的整个过程中都发挥着至关重要的作用。蛋白质通过与其他蛋白质发生相互作用组成的复杂生物网络就是蛋白质互作网络，蛋白质互作网络对生物***的进化、物种多样性的发展等领域有着非常重要的作用。而随着计算机技术在生物信息学中的应用，利用高通量技术、文献挖掘搜索以及计算机预测等已经产生了大量的蛋白质相互作用的数据；在蛋白质互作网络中，网络模体是构建整个生物网络的砖块，是一些具有特定性质小规模子图；网络模体的研究有助于揭示生物网络的进化设计原理，而且对于研究生物网络的功能、结构设计原理以及生物体的演化规律等复杂的生物难题提供了新的线索和方法；最开始网络模体定义的提出是Milo^[1]在2002年发表于Science一文提出的，并且提出了最原始网络模体查找Mfinder算法；紧接着，Schreiber等人提出了MAVisto算法^[2],这是在原网络中确定一个顶点作为根节点，然后基于搜索树向下挖掘子图进行子图枚举的穷举算法。随后Wernicke等人提出来的Fanmod^[3]算法，这种算法提出了子图搜索方法和子图抽样算法；所述的这些算法都具有一定缺陷，例如时间复杂度与计算复杂比较高，存储空间要求比较多；基于以上所述科研工作者之前的工作研究，本发明提出了本发明用于更好的解决网络模体查找问题，在减少大规模模体检测时间的同时，最大限度的节约储存子图结构需要的存储空间，能够提高对于蛋白质互作网络模体的检测效率。

发明内容

本发明的目的在于克服现有技术的不足，提供一种平衡采样与图检索的蛋白质互作网络模体检测方法；该方法使用的是基于平衡采样与图检索算法，该方法首先通过平衡采样算法采样查找k规模子图，在为这些已知的k规模子图构建图检索存储结构，在已构建的存储结构中统计所有k规模子图出现的频率，并通过网络模体统计意义评价标准判断其是否为网络模体。

为了实现上述目的，本发明采用的技术方案是：

一种平衡采样与图检索的蛋白质互作网络模体检测方法，其特征在于，包括以下步骤：

S1、根据已知的真实蛋白质互作网络的度分布，构建1000个具有相同度分布序列随机网络模型；

S2、在任意一个的真实蛋白质互作网络或具有相同度分布的随机网络模型中，查找所有规模大小为k的子图；根据已查找出的k规模子图信息构建图检索存储结构；

S3、在图检索存储结构中检索真实蛋白质互作网络与具有相同度分布的随机网络模型中所有k规模子图，并统计所述k规模子图的出现次数，通过网络模体统计意义评价来确定该k规模子图是否为网络模体；

其中，所述查找k规模大小的子图指的是挖掘出所有节点个数为k的子图。

进一步的，所述一种平衡采样与图检索的蛋白质互作网络模体检测方法，其中所述构建1000个具有相同度分布序列随机网络模型采用蒙特卡罗-马尔可夫链的交换算法的方法进行构建。

进一步的，所述一种平衡采样与图检索的蛋白质互作网络模体检测方法，在所述步骤S2在k规模子图中查找节点个数为k的子图包含以下具体步骤：

S31、有序的标记网络中的每一个顶点，选择第一个结点作为整个搜索树的根节点；

S32、把算法当前选择到的结点加入到子图顶点集合，把当前被算法选择到的节点的所有后序邻居结点加入到待扩展集合；

S33、当待扩展集合中顶点为当前结点时，计算当前结点的抽样概率值

其中|V_Extension|是当前子图的待扩展集合的大小，V_max[k]是当前结点所在层次所有结点待扩展集合大小的相对最大值，并生成随机数R；随机数R指的是随机选择待扩展集合中的一个结点；之后把所述待扩展集合中的一个节点随机选入加入子图顶点的集合；

S34、将被抽样选中的所述带扩展集合中的一个结点加入到子图顶点集合并且从带扩展集合中删除，把选中的所述带扩展集合中的一个结点后序所有相邻节点加入到带扩展集合，依次扩展顶点数，直到子图达到k规模。

进一步的，所述一种平衡采样与图检索的蛋白质互作网络模体检测方法，在所述步骤S2构建图检索存储结构包含以下具体步骤：

S45、对于查找出的k规模子图构建生成具有唯一标识的邻接矩阵；

S46、在每一次迭代更新中，找到具有最小索引结点所对应的另一个同构结点，并且加入对称条件，从而避免重复***所述的同构结点；

S47、通过具有唯一标识的邻接矩阵以及对称条件迭代***所有结点，直至存储完所有k规模子图。

进一步的，所述一种平衡采样与图检索的蛋白质互作网络模体检测方法，在所述步骤S3确定网络模体的方法包含以下步骤：

S51、所述的真实蛋白质互作网络中将初始化一个空的匹配集合；产生匹配需搜索的k规模子图集合；首先产生一个候选集合，若遍历当前的结点为根节点的子结点，图中所有的结点则都为候选结点，并将所述的候选节点加入候选集合；若遍历当前的结点不是根节点的子结点，则选择大于最小索引结点以及邻居结点个数的结点的邻居作为候选结点；遍历整个候选集合，对于当前候选集合中出现与祖先结点有最多的链接关系的节点，则将所述最多链接关系的节点加入匹配集合；

S52、在所述真实蛋白质互作网络中遍历所有匹配的集合，沿着所有存在的树的路径以递归的方式搜索子图，直至子图达到到k规模；

S53、统计在所述真实蛋白质互作网络与具有相同度分布的随机网站中的k规模子图频率；

S54、根据统计意义评价标准

其中f_real表示k规模子图在真实蛋白质互作网络中出现的频率次数，

和σ(f_random)分别表示子图在1000个随机网络模型中平均频率和标准差；当z-score值大于2.0时，所述的k规模子图被认定为网络模体。

有益效果：

1、通过平衡采样算法来查找k规模子图，极大地缩短了查找子图时间，并且保证了尽可能多的k规模子图能被采样查找到；

2、利用图检索存储结构，同时解决了子图同构问题以及统计k规模子图频率问题；

3、极大地缩短了网络模体检测算法的时间复杂度以及减少了存储子图结构的空间；

4、最后在真实PPI网络的实验结果表明所提出的方法不仅显著优于最先进的方法，而且还能更有效、准确地检测网络模体。通过分析表明，本发明所提供的一种平衡采样与图检索的蛋白质互作网络模体检测方法更有效率，具有较好的应用和推广作用。

附图说明

图1为本发明一种平衡采样与图检索的蛋白质互作网络模体检测方法的流程示意图；

图2为本发明所用的产生1000组具有相同度分布的随机网络模型示意图；

图3为本发明所用的平衡采样算法过程图；

图4为本发明所用的构造图检索存储结构过程图；

图5为本发明所用的基于图检索存储结构的k规模子图频率统计过程图；

图6蒙特卡罗交换步骤过程图。

具体实施方式

以下结合附图和具体实施方式对本发明做进一步详细说明：

在蛋白质互作网络中，网络模体的识别具相当广泛的应用和重要意义。对网络模体的研究表明拥有相似功能的网络具有相同的模体，即模体是功能的载体，而功能是模体的表现形式，将模体和功能相结合能促进***生物学研究，能指导研究生物网络进化过程中的功能选择，或者设计具有特定功能的生物网络。通常，蛋白质互作网络被建模为无向图G＝(V,E)，其中V和E分别代表蛋白质节点集合和蛋白质节点之间的相互作用集合。下面提出本发明研究的网络模体的定义。

结构网络模体(网络模体)给定一组参数{P,U,D,N}和N个与真实网络G类似的随机网络模型，那么子图G_S被称为结构网络模体需满足以下三个条件：

(1)

(过表达)

(2)f_real(G_S)≥U(最小频率)

(3)

(最小偏向)

上述公式意思是通过使用N(取值为1000)个随机网络来判断k规模子图的结构统计意义：k规模子图G_S在随机网络中出现的平均次数

大于它在真实网络中出现次数f_real(G_S)的概率不超过P(取值为0.01)；k规模子图G_S在真实网络中至少出现的次数U(取值为4)次；k规模子图G_S在真实网络中出现的次数f_real(G_S)与它在随机网络中出现的平均次数

之差至少是

的D(取值为0.1)倍。对于满足以上三个条件的k规模子图，能够被认为是模体；参数{P,U,D,N}使用的具体值为{0.01,4,0.1,1000}，也就是说，通过使用1000个随机网络模型来判断子图G_S的结构统计意义；子图G_S在一个随机网络模型中出现的次数大于它在真实蛋白质互作网络中出现的次数的概率不大于0.01；子图G_S在真实蛋白质互作网络中出现的次数大于4次；子图G_S在真实网络中出现的次数f_real(G_S)与它在随机网络模型中出现的平均次数之差至少是

的0.1倍；相反，不具有结构统计意义的子图称为反模体；因此，网络模体检测可分为四个流程：构建随机网络模型，子图查找，子图同构，网络模体统计意义评价。

本发明提出的一种平衡采样与图检索的蛋白质互作网络模体检测方法。已知的真实蛋白质互作网络指代的具体是通过蛋白质互作数据库，例如DIP数据库、InAct数据库、MINT数据中获取到的真实蛋白质互作数据，通过这些蛋白质互作数据能够得到一个真实生物的蛋白质互作网络，例如常见的酵母蛋白质互作网络；对于网络模体的检测，首先采取交换算法产生1000组具有相同度分布的随机网络模型；交换算法指的是具体采用的是蒙特卡罗马尔科夫链方法的交换算法；首先采用马尔科夫链来产生一个随机网络模型，然后在该网络上执行一系列的蒙特卡罗交换步：在网络中随机选择一对边(A→B,C→D)，接着将两条边的终端点交换(A→D,C→B)；步骤如图6所示；首先对于原始的真实生物网络图ABCDEF，其中AB之间有边，CD之间有边，其中结点A,B,D的度是2，C的度是1，进行第一次交换，A与D相连，C与B相连；此时能够观察发现，其中结点A,B,D的度还是2，C的度还是1；第一次交换图中C与B相连，E与F相连，进行第二次交换，C与E相连，F与B相连，用此进行交换QE次，从而得到了一个度完全与真实网络度相同的随机网络；需要注意的是交换操作不能产生多重边或自环，否则取消该次交换；整个交换的过程被重复执行QE次，其中E表示网络中的边数，且需要选择足够大的Q值(Q＝100)确保马尔科夫链呈现出较好的均衡性。

其次本发明基于蛋白质互作网络的模体检测方式能适用于任意一个真实蛋白质互作网络，无论是结构比较简单的免疫球蛋白质互作网络，还是比较复杂的酵母蛋白质互作网络，都能检测到网络模体；在真实蛋白质互作网络与1000组随机网络模型中进行子图查找，接着依据已查找到的子图构建图检索存储结构，最后在统计存储结构的所有子图出现的频率，通过网络模体统计意义评价来确定其是否为网络模体。

如图1所示的流程图：本发明公开了一种平衡采样与图检索的蛋白质互作网络模体检测方法，其包括以下步骤：

1构建随机网络模型；如图2所示，根据已知的真实蛋白质互作网络的度分布，为其构建1000个具有相同度分布序列随机网络模型；箭头在图论中表示出度和入度，在蛋白质网络表示的是该蛋白质向另一个蛋白质之间传递信息；通过蒙特卡罗马尔科夫链交换方法产生出1000个随机网络模型，并且保证这1000个随机网络模型与真实的蛋白质互作网络具有相同的度分布序列。其中相同的度分布序列意思就是这1000个随机网络模型中的任意节点的度与该真实网络中节点的度是相等的；选择1000个随机网络模型的总数量是因为在2002年的Science杂志内Milo等人发表的关于网络模体的文章中在网络模体的定义里，规定了检测网络模体是与1000个随机网络模型相比较，这是确保了在被找出来的网络模体不是随机出现的重复性子图的前提下，保证了整个网络模体检测算法的计算复杂度与时间复杂度不会太高；因为随机网络模型数量越多，检测算法的时间复杂度和计算复杂度就越高；所以Milo等人得出需要与1000个具有相同度分布的随机网络模型进行比较是最合理的。

2k-规模子图查找如图3所示。对于任意一个复杂的真实蛋白质互作网络或具有相同度分布的随机网络模型，查找所有规模大小为k的子图指的是挖掘出所有结点个数为k的子图；要寻找到所有3规模的图，也就是最下方的所有如图3规模子图；算法开始首先对图G进行有序标记，然后选择第一个结点作为根节点也就是树根，然后在计算抽样概率P的时候，因为第一个结点是根节点所以待扩展结点集合为空，那么抽样概率P就是所有在该层所有待扩展结点集合绝对值大小，在此时就是1，它的待扩展集合是{2,3,4,5}，绝对值为4最大；所以根据抽样概率就选择到了1，把它加入子图顶点集合，再通过生成随机数R，随机选择1的待扩展集合中的结点；例如2，所以{1,2}就是子图顶点集合，把2从之前的待扩展集合删除，加入2的待扩展集合，也就是1,2的共同邻居，这边就是{3,4,5,6,7}；这时，能够得到了3规模子图{1,2,3},{1,2,4},{1,2,5},{1,2,6},{1.2,7}，通过类推就能得到其他3规模子图。

步骤2中k规模子图查找的具体步骤为：

2.1有序的标记网络中的每一个顶点，然后选择第一个结点作为整个搜索树的根节点；

2.2把算法当前选择到的结点加入到子图顶点集合，把当前被算法选择到的节点的所有后序邻居结点加入到待扩展集合；

2.3待扩展集合中顶点为当前结点，计算当前结点的抽样概率值

2.4将被抽样选中的所述带扩展集合中的一个结点加入到子图顶点集合，将选中的当前所述带扩展集合中的一个结点从带扩展集合中删除，把选中的当前结点的后序邻点加入到带扩展集合，依次扩展顶点数，直到子图达到k规模；

3构建图检索存储结构如图4所示。根据已查找出的k规模子图信息，为其构建图检索存储结构；步骤3中构建图检索存储结构的具体方法为：

3.1对查找出的k规模子图构建具有唯一标识的邻接矩阵；如图4右侧所示；图4右边是对应左边的存储过程，用邻接矩阵来表示，这样能更加地表明图4右边的4规模子图的存储流程；

图4上方的#1，#2，#3图案表示的是邻接矩阵，所述图案内的0代表与另外一个结点没有边相连，1代表有，一般用邻接矩阵表示一个图。

3.2在每一次迭代中，找到具有最小索引结点所对应的的另一个同构的结点，加入对称条件，所述的对称条件指的是在查找同样规模子图时，不可避免的会遇到子图对称问题，即同样规模子图会被多次重复找到，虽然最后能通过除以自同构的数量来获得实际频率，但是这样操作浪费大量宝贵的计算时间；所以在所述的建图检索储存结构内进行迭代的时候，将会采用对称条件来保证每一个子图只会被寻找到一次；对称条件就是对于两个同构的点之间生成(a＜b)形式的一组条件，指示位置a中的顶点应该小于位置b中的顶点的索引，这时算法只需要每次寻找索引最小的顶点开始遍历到整个子图就能保证该子图只会被寻找到一次，避免重复***该结点；

3.3通过唯一标识的邻接矩阵以及对称条件迭代***所有结点，能得到需要该规模子图的结构；而对称条件通过寻找索引最小顶点避免了重复多次***相同结构的子图，这样就能保证每个规模的子图只会被存储***一次，大大地减少了存储子图的时间复杂度与计算复杂度，直至存储完所有k规模子图；

4确定网络模体如图5所示。在图检索存储结构检索真实蛋白质互作网络与具有相同度分布的随机网络模型中所有k规模子图，并统计其出现的次数，通过网络模体统计意义评价来确定该k规模子图是否为网络模体；例如对于图5左边的#1子图，在图5右边是通过树的第一个分支寻找得到的步骤4中的具体步骤就是通过所述的分支寻找的具体办法，从而来确定网络模体，所述步骤4具体方法为：

4.1初始化一个空的匹配集合；如图5右侧上方所示；

4.2产生匹配需搜索的k规模子图集合。首先产生一个候选集合，若当前遍历的结点为根节点的子结点，那么图所有的结点都为候选结点，意思是当前所有节点都能作为#1子图的节点；再把所述的候选节点加入候选集合；若当前遍历的结点不是根节点的子结点，选择大于最小索引结点以及邻居结点个数的结点的邻居作为候选结点，遍历整个候选集合；这句话的意思是假如存在一个最小索引节点a，它的邻居节点个数记作|a|，存在一个节点b，它的邻居节点个数记作|b|，当节点b的索引大于节点a的索引并且|b|＞|a|，这时候选择的节点就是节点b的邻居节点；对于当前候选集合中出现与祖先结点有最多的链接关系的结点，选择加入匹配集合，能够节省出更大的储存空间；参考图5中右边的树形结构图，第二个小正方形里出现的黑色节点就是根节点，所述的根节点作为一个树的根，是首次出现的节点。在第三个小正方形里有两个节点，其黑色节点称为空白节点的孩子节点，相应的空白节点黑色的节点的祖先节点，也叫做父亲节点，所述的父亲节点的意思是黑色节点是连接在空白节点之后的，能被看做是父亲与孩子之间的关系；在图5右边储存的时候，能够观察到图上的节点都是储存具有多个孩子节点的公共祖先节点，例如#1和#2的子图，它们都具有第5曾最左边的父亲节点；通过所述4.2步骤的方式，我们可以保证在整个复杂网络中都可以只寻找到此类子图，不会出现同构子图，并且还极大节省了存储空间

4.3遍历匹配集合，沿着所有可能存在的树的路径递归的搜索子图，直至子图达到k规模；

4.4统计在真实蛋白质互作网络与具有相同度分布的随机网站中的k规模子图频率；

4.5根据统计意义评价标准

和σ(f_random)分别表示子图在1000个随机网络模型中平均频率和标准差，z-score值大于2.0时，该k规模子图被认定为网络模体；例如，通过计算子图比如#1出现的次数，通过统计方法Z-score来判断该子图是否为模体。

5.本发明采用以上技术方案，构建1000个与真实蛋白质互作网络具有相同度分布的随机网络模型，在真实蛋白质互作网络与随机网络模型分别进行k规模子图查找，确定网络中存在的k规模子图，并为其构建图检索存储结构，在统计存储结构中的子图出现频率时，同时解决子图同构问题，最后通过统计意义评价确定是否为网络模体；并且在构建图检索存储结构时，采取对称条件以及相同结点同构映射，大大降低了检索的时间复杂度，而且存储结构是基于拥有祖先结点的存储方式，极大地减少了存储结构空间。本发明能够通过平衡采样算法来查找k规模子图，极大地缩短了查找子图时间，并且保证了尽可能多的k规模子图能被采样查找到；利用图检索存储结构，同时解决了子图同构问题以及统计k规模子图频率问题；并且极大地缩短了网络模体发现算法的时间复杂度以及减少了存储子图结构的空间。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种平衡采样与图检索的蛋白质互作网络模体检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种平衡采样与图检索的蛋白质互作网络模体检测方法，其特征在于：所述构建1000个具有相同度分布序列随机网络模型采用蒙特卡罗-马尔可夫链的交换算法的方法进行构建。

3.根据权利要求1所述一种平衡采样与图检索的蛋白质互作网络模体检测方法，其特征在于，所述步骤S2在k规模子图中查找节点个数为k的子图包含以下具体步骤：

S33、当待扩展集合中顶点为当前结点时，计算当前结点的抽样概率值其中|V_Extension|是当前子图的待扩展集合的大小，V_max[k]是当前结点所在层次所有结点待扩展集合大小的相对最大值，并生成随机数R；随机数R指的是随机选择待扩展集合中的一个结点；之后把所述待扩展集合中的一个节点随机选入加入子图顶点的集合；

4.根据权利要求1所述一种平衡采样与图检索的蛋白质互作网络模体检测方法，其特征在于，所述步骤S2构建图检索存储结构包含以下具体步骤：

5.根据权利要求1所述一种平衡采样与图检索的蛋白质互作网络模体检测方法，其特征在于，所述步骤S3确定网络模体的方法包含以下步骤：

S54、根据统计意义评价标准

其中f_real表示k规模子图在真实蛋白质互作网络中出现的频率次数，和σ(f_random)分别表示子图在1000个随机网络模型中平均频率和标准差；当z-score值大于2.0时，所述的k规模子图被认定为网络模体。