CN104657626A

CN104657626A - 一种利用文本数据构建蛋白质相互作用网络的方法

Info

Publication number: CN104657626A
Application number: CN201510086244.0A
Authority: CN
Inventors: 朱斐; 刘全; 王辉; 凌兴宏; 杨洋; 伏玉琛
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-02-25
Filing date: 2015-02-25
Publication date: 2015-05-27
Also published as: WO2016134659A1

Abstract

本发明公开了一种利用文本数据构建蛋白质相互作用网络的方法，其特征在于，包括：⑴建立蛋白质集合；⑵记录蛋白质集合中所有蛋白质两两发生相互作用的概率值；⑶根据概率值的大小构建初始网络结构；⑹反复选择蛋白质，给定正或负作用反馈值，在初始网络结构上不断迭代，获得最终网络结构。本发明采用反复选择、相互作用的方式，以正反馈、负反馈和禁止反馈基础，通过强化学习来构建一个作用网络的概率图，与生物知识和生物数据无缝结合。

Description

一种利用文本数据构建蛋白质相互作用网络的方法

技术领域

本发明涉及一种生物学领域，尤其涉及一种利用文本数据构建蛋白质相互作用网络的方法。

背景技术

生物***包含很多不同层面和不同组织形式的网络。生命***复杂性最重要的特征不仅在于其组成成分的复杂性，更在于各组成成分之间关系的复杂性。故而，在分析生物分子网络时，不仅需要充分了解网络中的各个分子实体，更重要的是理解各分子实体之间的相互关系。蛋白质是一类重要的生物分子，通过彼此之间的相互作用构成蛋白质相互作用网络来参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节，是很多生物功能实现的基础。蛋白质之间的相互作用在形成几乎所有生命***、调控各种生理/病理进程中发挥至关重要的作用。蛋白质相互作用不仅为研究未知蛋白质的生物学功能提供了线索，也为充分了解一个细胞或一个生物途径的生物学机制，提供了必要的信息。在生物医学中，研究蛋白质间相互作用有非常重要的现实意义。***分析某类疾病相关的蛋白质的相互作用关系，对于了解生物***中这些蛋白质的工作原理，了解在特殊生理状态下生物信号和能量物质代谢的反应机制，以及了解疾病相关蛋白质之间的功能联系都有重要意义。

目前，有多种方法用于构建蛋白质相互作用网络，主要包括在高通量实验的基础上建立相互作用网络,利用文献中已有的数据挖掘相互作用网络，通过计算技术预测的方法建立相互作用网络等。然而，总体而言，很多构建蛋白质间相互作用网络的方法存在不足。

首先，在高通量实验的基础上建立蛋白质相互作用网络一般会受到费用的制约。很多高通量实验的方法在研究某个疾病时，仍然是局限于少量的蛋白质，没有从更广泛的蛋白质图谱的角度去构造和分析，其主要原因在于，分析蛋白质间相互作用的生化实验费用高，导致了只能选取少量蛋白质，无法以全部蛋白质作为广泛的候选蛋白质进行分析研究。而选取少量的蛋白质进行分析研究，不仅极有可能遗漏与该疾病相关的蛋白质，错过一些生物医学事实，而且分析研究的视角和思路会受到局限，更难发现新信息和新知识。

其次，单纯利用文献数据的方法建立蛋白质相互作用网络会受到数据质量及其相关生物分析的影响。有时来源于不同文献的数据会对同一种生物现象做出不同的生物解释和结论；而有时同一批数据又会有不同的生物解释和结论。这是由于人们对复杂生物现象理解不够全面导致了从不同角度去分析同一个现象会产生不同的解释和结论。因此在研究分析复杂生物问题，如构建蛋白质相互作用网络时，需要充分整合不同来源的数据和相关信息，对各种信息加以甄别，去伪存真，从而加深对其疾病机理多层次和深层次上的全面理解。

另外，很多构建蛋白质间相互作用网络的计算方法偏重于计算模型的设计和改进，却未能很好地融合生物知识和生物事实，以至于出现一些与生物基本知识和事实相悖的错误结论。

发明内容

本发明目的是提供一种利用文本数据构建蛋白质相互作用网络的方法，既能融合现有生物领域知识，又能充分利用后基因时代所得到的数据，同时兼顾复杂网络特性的新的蛋白质间相互作用网络构建方法。

为达到上述目的，本发明采用的技术方案是：一种利用文本数据构建蛋白质相互作用网络的方法，包括：

⑴建立蛋白质集合；

⑵记录蛋白质集合中所有蛋白质两两发生相互作用的概率值；

⑶根据概率值的大小构建初始网络结构；

⑸反复选择蛋白质，给定正作用或负作用反馈值，在初始网络结构上不断迭代，获得最终蛋白质相互作用网络的网络结构。

上述技术方案为，所述“所有蛋白质两两发生相互作用的概率值”为，在蛋白质集合中任意选择一个蛋白质作为主交互蛋白质，与其他蛋白质为被交互蛋白质，所述主交互蛋白质与每一个被交互蛋白质交互，形成一个作用关系，而后更换主交互蛋白质，再次与其他被交互蛋白质进行交互，形成另一个作用关系，如此循环，循环次数达到预定值，且在重复选择的情况下，以迭代的方式计算，获得最终作用关系作为对应两个蛋白质交互的概率值。

上述技术方案为，所述“重复选择的情况”为，蛋白质集合中的某一个蛋白质与另一个蛋白质相互作为主、被交互蛋白质交互作用的情况，以及重复再被相互选择交互作用的情况。

进一步的技术方案，所述预定值为:每一个集合内的蛋白质均作为主交互蛋白质与其他被交互蛋白质进行过交互，或者循环一个较长时间段内不再有更新，或者达到额定的迭代步数中的一种或几种。

上述技术方案为，所述构建初始网络结构为：蛋白质集合中的每一个蛋白质作为一个节点，两两发生相互作用作为边，其边值越大，则两两之间存在相互作用的概率越大，反之则越小，在构建的过程中，边值大的交互被增强，直至一个较长时间段内不再有更新，反之则被减弱，直至概率值为零，最终获得由节点与边构建的网络结构；通过构建的初始网络结构，再进一步获取最终网络结构。

进一步的技术方案，所述最终网络结构为:通过使用熵权法构建网络，计算每个蛋白质节点的熵权值，再计算网络熵权值，熵权值越小，表示网络稳定，更新初始网络结构。

上述技术方案为，所述蛋白质集合的建立:

a.通过生物医学文献数据库中获得所需要的文本；

b.从蛋白质相互作关系数据库中获取蛋白质名及其标识号；

c.根据步骤b获得的蛋白质名，识别出步骤a中获得的所述文本内的蛋白质名，并标注相应的标识号；

d.构建所述蛋白质集合P＝{p_i}，其中p_i表示第i个蛋白质所对应的标识号。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

1.本发明采用反复尝试交互作用，增加或减弱两两交互作用的边值，构建的网络结构作为动态性的结果出现，确保了复杂生物网络应具备的无标度特性；

2.采用本发明的构建方法，符合生物问题未知性的特点，在未知随机环境中获得最佳行为，构建具有未知性的蛋白质相互作用网络，可以保证网络收敛到一个最佳的稳定状态；

3.在建立网络的过程中无缝地与生物知识和生物数据结合，强化生物事实，而非随机构建网络，确保网络符合生物复杂网络的基本特性。

附图说明

图1是利用文本数据构建蛋白质相互作用网络方法实施步骤流程图；

图2是利用文本数据使用平均奖赏值的强化学习方法构建蛋白质相互作用网络的节点度概率分布示意图；

图3是利用文本数据使用平均奖赏值的强化学习方法构建蛋白质相互作用网络的节点度概率密度分布示意图。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：参见图1所示，一种利用文本数据构建蛋白质相互作用网络的方法，包括：

⑴建立蛋白质集合；

⑶根据概率值的大小构建初始网络结构；

⑷反复选择蛋白质，给定正作用或负作用反馈值，在初始网络结构上不断迭代，获得最终蛋白质相互作用网络的网络结构。

所述蛋白质集合的建立:

a.通过生物医学文献数据库中获得所需要的文本；

b.从蛋白质相互作关系数据库中获取蛋白质名及其标识号；

所述“所有蛋白质两两发生相互作用的概率值”为，在蛋白质集合中任意选择一个蛋白质作为主交互蛋白质，与其他蛋白质为被交互蛋白质，所述主交互蛋白质与每一个被交互蛋白质交互，形成一个作用关系，而后更换主交互蛋白质，再次与其他被交互蛋白质进行交互，形成另一个作用关系，如此循环，循环次数达到预定值，且在重复选择的情况下，以迭代的方式计算，获得最终作用关系作为对应两个蛋白质交互的概率值。

所述“重复选择的情况”为，蛋白质集合中的某一个蛋白质与另一个蛋白质相互作为主、被交互蛋白质交互作用的情况，以及重复再被相互选择交互作用的情况。

所述预定值为:每一个集合内的蛋白质均作为主交互蛋白质与其他被交互蛋白质进行过交互，或者循环一个较长时间段内不再有更新，或者达到额定的迭代步数中的一种或几种。

所述构建网络结构方式为：蛋白质集合中的每一个蛋白质作为一个节点，两两发生相互作用作为边，其边值越大，则两两之间存在相互作用的概率越大，反之则越小，在构建的过程中，边值大的交互被增强，直至一个较长时间段内不再有更新，反之则被减弱，直至概率值为零，最终获得由节点与边构建的网络结构，该网络结构是作用网络是作为学习行为动态性的结果出现的。

所述最终网络结构为:通过使用熵权法构建网络，计算每个蛋白质节点的熵权值，再计算网络熵权值，熵权值越小，表示网络稳定，更新初始网络结构。

本实施例中采用的是强化学习方法构建网络结构，在强化学习的框架中建立蛋白质相互作用网络，节点表示蛋白质，记为节点1，……，节点n，边表示蛋白质之间的一个作用。一个节点在强化学习agent的决策下，得到一个动作，该动作可能是该蛋白质和其他蛋白质存在合作关系，表示相关的两个蛋白质之间有相互作用；也可能是该蛋白质和其他蛋白质存在互斥关系，表示相关的两个蛋白质之间不能有相互作用；也有可能不能确定相关的两个蛋白质之间是否有相互作用。节点在每次进行交互的尝试后都会得到一个奖赏，奖赏的值决定哪些交互将会被增强。反复进行选择。随着时间的推进，蛋白质调整策略，也可以再次决策策略，同时引入随机性，进行探索，以适应环境。得到令人不满意结果的结果时，可以选择更改策略，或选择更改其他蛋白质。这样，既允许了蛋白质相互作用网络的演化，也考虑到了个体策略的演化。最终的蛋白质相互作用网络是作为agent学习行为动态性的结果出现的。

某个节点i随机选择访问其他节点，选择概率是由每个节点被其他节点所赋予的相对选择权重计算而得到的。每个节点都很好选择访问其他节点的策略，并且每次都有一个强化。节点i有一个选择权重向量〈w_i1,…,w_iN〉来计算选择其他各点的概率，其计算的方式为由于每一时间加入的新节点以某个概率连接已存在的节点i，所以任意一个节点i在t时刻的选择权重向量w_i(t)是一个随机变量，而且若节点i在t-1时刻的选择权重为w_i(t-1)，则它在t时刻的选择权重w_i(t)只取决于它在t-1时刻的选择权重。在t刻时能连接新节点，与t-1时刻之前的历史无关。

绝大多数强化学习算法都有一个对agent在给定一个状态(或状态动作对)时估计该状态(或在状态执行给定动作)好坏程度的函数，称为值函数。函数V^h为策略h的状态值函数。在策略h下，在状态x采取动作u的值为从状态x开始，采取动作u，然后遵循策略h的期望回报，记为Q^h(x,u)。Q^π为策略h的动作值函数，用来衡量在状态x采取动作u的好坏程度。

V值和Q值需要随着时间步进行更新。常用的方法是利用折扣累计奖赏。但这种方法存在的一些不足，如需要人工确定折扣因子、参数的设定以及与应用相关等。在网络演化的过程中，表示作用关系的节点之间的边的形成应该和其出现的先后顺序无关。然而，在实际情况下，有很多因素会造成演化顺序不同，如数据读入的先后顺序等。但在相互作用网络的构建中，不管中间的演化顺序如何变化，同一组数据，相同的方法，应得到最终一致的结果。因此，不适合使用折扣累计奖赏的方法。鉴于此，需要使用一种与网络演化顺序无关的Q值和V值计算方法来评估所构建的网络。

我们通过使用熵来衡量随机性或不规则性，以度量网络的稳定性。熵越大，随机性就越大。而熵越小，则随机性就越小，符合生物***的变化状态。如果wd_i表示节点i的加权度(weighted degree，wd)，则节点i的局部熵(localentropy，le)定义如式1所示。

le (i) = \frac{1}{\log {wd}_{i}} \underset{j &Element; N (i)}{Σ} w_{ij} \log w_{ij} - - - (1)

其中，wd_i是与节点i相关的所有节点的发生作用的权重之和，w_ij是节点i和节点j之间的边的权重。

一个网络的网络熵(network entropy，ne)是所有节点的熵之和，如式2所示。

ne = \underset{i &Element; V}{Σ} le (i) - - - (2)

经过长期迭代，最终形成的蛋白质相互作用网络并非随机网络，是具有一个稳定的拓扑结构的，因此，最优拓扑的蛋白质相互作用具有的最小的网络熵，从而可获得最为稳定的最终网络结构。

具体实现步骤为：

步骤(1)：使用生物医学文献数据库PubMed所提供的E-utility接口从生物医学文献数据库PubMed中获得所需要的文本；

步骤(2)：从蛋白质相互作用关系数据数据库DIP、IntAct和STRING中下载得到蛋白质名及其标识号；

步骤(3)：识别出文本中的蛋白质名，使用标识号表示；

步骤(4)：用户给出需要构建的蛋白质相互作用网络中的蛋白质集合P＝{p_i}，其中p_i表示第i个蛋白质所对应的标识号；

步骤(5)：取蛋白质集合P＝{p_i}中所有任意两个蛋白质，构成候选的蛋白质作用对集all_pairs；

步骤(6)：设定可用候选的蛋白质作用对集avaiable_pairs＝all_pairs；

步骤(7)：如果可用候选的蛋白质作用集avaiable_pairs还有未处理的作用对，任取其中的一个作用对(p_i,p_j)，进入下一步，否则转入步骤(14)；

步骤(8)：从可用候选的蛋白质作用对集中去除作用对(p_i,p_j)，avaiable_pairs＝avaiable_pairs-{(p_i,p_j)}；

步骤(9)：初始化蛋白质p_i和蛋白质p_j发生相互作用的权重weight(p_i,p_j)＝0.0；

步骤(10)：分别在蛋白质相互作用关系数据数据库DIP、IntAct和STRING中搜索蛋白质p_i，p_j之间的相互作用情况；

步骤(11)：如果在DIP数据库中有蛋白质p_i,p_j之间的相互作用，则weight(p_i,p_j)＝weight(p_i,p_j)+预设定的奖赏值；否则，如果在DIP数据库中明确表示蛋白质p_i,p_j之间的没有相互作用，则weight(p_i,p_j)＝weight(p_i,p_j)-预设定的惩罚值；否则如果在DIP数据库中没有搜索到蛋白质p_i,p_j发生相互作用的信息，则weight(p_i,p_j)值保持不变；

步骤(12)：如果在IntAct数据库中有蛋白质p_i,p_j之间的相互作用，则weight(p_i,p_j)＝weight(p_i,p_j)+预设定的奖赏值；否则，如果在IntAct数据库中明确表示蛋白质p_i,p_j之间的没有相互作用，则weight(p_i,p_j)＝weight(p_i,p_j)-预设定的惩罚值；否则如果在IntAct数据库中没有搜索到蛋白质pi,pj发生相互作用的信息，则weight(p_i,p_j)值保持不变；

步骤(13)：如果在STRING数据库中有蛋白质p_i,p_j之间的相互作用，则weight(p_i,p_j)＝weight(p_i,p_j)+预设定的奖赏值；否则，如果在STRING数据库中明确表示蛋白质p_i,p_j之间的没有相互作用，则weight(p_i,p_j)＝weight(p_i,p_j)-预设定的惩罚值；否则如果在STRING数据库中没有搜索到蛋白质p_i,p_j发生相互作用的信息，则weight(p_i,p_j)值保持不变；

由于蛋白质相互作用关系数据数据库DIP、IntAct和STRING中包含了丰富的生物领域知识，通过初始值的设定，可以将已知信息的蛋白质相互作用的权重调高，将已知不可能发生蛋白质相互作用的作用对权重降低。

步骤(14)：得到富含生物医学知识的蛋白质作用网络以及初始化权重矩阵，N＝(p_i,p_j,weight(p_i,p_j))中；

步骤(15)：初始化候选蛋白质集candidate_protein，将所有蛋白质加入初始化候选蛋白质集；

步骤(16)：从候选蛋白质集candidate_protein中任选一个蛋白质p_i；

步骤(17)：从候选蛋白质集candidate_protein中去除蛋白质p_i，candidate_protein＝candidate_protein-{p_i}；

步骤(18)：初始化成对蛋白质集candidate_pair_protein，将所有蛋白质加入初始化候选蛋白质集；

步骤(19)：如果成对蛋白质集candidate_pair_protein不为空，则从候选成对蛋白质集candidate_pair_protein中任选一个成对蛋白质p_j；否则转到步骤(17)；

步骤(20)：利用公式计算当前的网络熵；

步骤(21)：使用贪心策略选择蛋白质p_i,p_j之间是否有相互作用；

步骤(22)：如果Q_f小于Q’，则认为p_i,p_j之间没有相互作用，设置weight(p_i,p_j)＝0.0；否则认为p_i,p_j之间有相互作用，weight(p_i,p_j)＝Q_f；

步骤(23)：更新蛋白质p_i,p_j之间有相互作用的概率为

步骤(24)：使用新的weight(p_i,p_j)值，更新蛋白质相互作用网络N；

步骤(25)：当达到额定的迭代步数后，不再更新，得到最终网络结构。

终止条件可以是矩阵weight在一个较长时间段内不更新或已经达到了预定的迭代步数。矩阵weight可以用于动作的选择，即节点间相互作用的选择，其选择概率为：因此最终得到的矩阵weight可以视为网络的拓扑结构，矩阵weight的更新过程可以看成是构建网络的演化过程。

Claims

1.一种利用文本数据构建蛋白质相互作用网络的方法，其特征在于，包括：

⑴建立蛋白质集合；

⑶根据概率值的大小构建初始网络结构；

2.根据权利要求1所述的蛋白质相互作用网络构建方法，其特征在于：所述“所有蛋白质两两发生相互作用的概率值”为，在蛋白质集合中任意选择一个蛋白质作为主交互蛋白质，与其他蛋白质为被交互蛋白质，所述主交互蛋白质与每一个被交互蛋白质交互，形成一个作用关系，而后更换主交互蛋白质，再次与其他被交互蛋白质进行交互，形成另一个作用关系，如此循环，循环次数达到预定值，且在重复选择的情况下，以迭代的方式计算，获得最终作用关系作为对应两个蛋白质交互的概率值。

3.根据权利要求2所述的蛋白质相互作用网络构建方法，其特征在于：所述“重复选择的情况”为，蛋白质集合中的某一个蛋白质与另一个蛋白质相互作为主、被交互蛋白质交互作用的情况，以及重复再被相互选择交互作用的情况。

4.根据权利要求2所述的蛋白质相互作用网络构建方法，其特征在于：所述预定值为:每一个集合内的蛋白质均作为主交互蛋白质与其他被交互蛋白质进行过交互，或者循环一个较长时间段内不再有更新，或者达到额定的迭代步数中的一种或几种。

5.根据权利要求1所述的蛋白质相互作用网络构建方法，其特征在于：所述构建初始网络结构为：蛋白质集合中的每一个蛋白质作为一个节点，两两发生相互作用作为边，其边值越大，则两两之间存在相互作用的概率越大，反之则越小，在构建的过程中，边值大的交互被增强，直至一个较长时间段内不再有更新，反之则被减弱，直至概率值为零，最终获得由节点与边构建的网络结构；通过构建的初始网络结构，再进一步获取最终网络结构。

6.根据权利要求5所述的蛋白质相互作用网络构建方法，其特征在于：所述最终网络结构为:通过使用熵权法构建网络，计算每个蛋白质节点的熵权值，再计算网络熵权值，熵权值越小，表示网络稳定，更新初始网络结构。

7.根据权利要求1所述的蛋白质相互作用网络构建方法，其特征在于：所述蛋白质集合的建立:

a.通过生物医学文献数据库中获得所需要的文本；

b.从蛋白质相互作关系数据库中获取蛋白质名及其标识号；