CN108629159B

CN108629159B - 一种用于发现阿尔兹海默症致病关键蛋白质的方法

Info

Publication number: CN108629159B
Application number: CN201810454364.5A
Authority: CN
Inventors: 唐毅; 王凤珍; 刘明宇; 吴金华; 张雷
Original assignee: Liaoning University
Current assignee: Liaoning University
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2021-11-26
Anticipated expiration: 2038-05-14
Also published as: CN108629159A

Abstract

一种用于发现阿尔兹海默症致病关键蛋白质的方法，其步骤为：1)、收集阿尔兹海默症文献信息，建立文献数据库；2)、建立蛋白质词典；3)、从文献数据库中提取蛋白质的信息，建立蛋白质矩阵；4)、基于蛋白质矩阵，剔除在网络结构分中与其他蛋白质关联性较小于的蛋白质，得到矩阵中的蛋白质网络特征；5)、根据蛋白质网络特征，计算得到蛋白质社群结构；6)、在蛋白质社群结构中，算得到蛋白质相似性；7)、基于蛋白质相似性的结果，挖掘关键蛋白质。本发明通过上述方法，提供了一种研究效率高，节约生物实验成本的阿尔兹海默症致病关键蛋白质的发现方法。

Description

一种用于发现阿尔兹海默症致病关键蛋白质的方法

技术领域

本发明涉及生物学和医学领域，特别涉及一种数据挖掘方法，用于寻找可能导致阿尔兹海默症发生的关键蛋白质。本方法是理解阿尔兹海默症发生原因与机制的重要手段，亦是数据挖掘方法在生物学、医学方面的应用。

背景技术

阿尔茨海默症又称老年痴呆症，属于神经退行性疾病，通常表现为进行性记忆力减退和获得性知识丧失，乃至丧失生活自理能力，是威胁人类健康的重大疾病。阿尔茨海默症产生的原因与机制广受关注，某些蛋白质如β-淀粉样蛋白和Tau蛋白被认为是导致其发生的重要因素。围绕阿尔茨海默症致病蛋白质已开展大量研究，积累了大量实验数据。

但当前阿尔茨海默症发生机理尚不完全清楚，致病蛋白质之间如何发生相互作用进而导致疾病发生的过程未被充分揭示。如何利用大量实验数据、发现蛋白质相互作用网络，寻找关键致病蛋白质，是当前面临的重要挑战。

因此，建立一种用于发现阿尔兹海默症致病关键蛋白质的数据挖掘方法，对于揭示阿尔茨海默症发生机制，理解蛋白质与人类健康复杂关系，解决人类重大疾病方面具有重要意义。

发明内容

本发明的目的是针对阿尔兹海默症已有大量实验数据与文献报道，但致病蛋白质网络尚未被充分揭示的特点，提出一种数据挖掘方法，用于发现阿尔兹海默症致病关键蛋白质，为阿尔兹海默症机制研究及后续药物开发提供科学依据。

为了实现上述目的，本发明采用的技术方案为：一种用于发现阿尔兹海默症致病关键蛋白质的方法，其特征在于，其步骤为：

1)、收集阿尔兹海默症文献信息，建立文献数据库；

2)、建立蛋白质词典，具体包括有蛋白质名称，分类信息，及相互引用关系；

3)、从步骤1)中的文献数据库中提取蛋白质的信息，建立蛋白质矩阵，并以步骤2)中的蛋白质词典作为蛋白质矩阵的依据和标准；

4)、基于蛋白质矩阵，剔除在网络结构分中与其他蛋白质关联性较小于的蛋白质，计算得到矩阵中的蛋白质网络特征；

5)、根据蛋白质网络特征，以矩阵内蛋白质之间相互作用距离作为依据，计算得到蛋白质社群结构；

6)、在蛋白质社群结构中，依据节点相似性进行计算，得到蛋白质相似性；

7)、基于蛋白质相似性的结果，挖掘关键蛋白质。

步骤3)中具体为：利用蛋白质词典及文本数据挖掘方法，以在文本中同时出现2种及 2种以上蛋白质视为蛋白质共现作为依据，从步骤1)中的文献数据库中提取蛋白质的信息。

步骤4)中关联性较小于的蛋白质具体指处于蛋白质网络边缘的蛋白质。

本发明专利的有益效果为：

由于阿尔兹海默症相关蛋白质数量巨大，利用实验方法寻找关键蛋白质，带有一定的盲目性，本发明则可以提高研究针对性。在本发明方法提出的关键蛋白质基础上，开展实验研究，能避免在数千种蛋白质中进行实验，只需要在几种或者几十种蛋白质中开展实验，从而简化或者节省了相应的生物实验需要的大量人力和时间，有助于提高研究效率，节约成本。

附图说明

图1：实施例1中点中心度频度图。

具体实施方式

一种用于发现阿尔兹海默症致病关键蛋白质的方法，其特征在于，其步骤为：

1)、收集阿尔兹海默症文献信息，建立文献数据库；

3)、从步骤1)中的文献数据库中提取蛋白质的信息，具体为利用蛋白质词典及文本数据挖掘方法，以在文本中同时出现2种及2种以上蛋白质视为蛋白质共现作为依据，从步骤1)中的文献数据库中提取蛋白质的信息；之后，建立蛋白质矩阵，并以步骤2)中的蛋白质词典作为蛋白质矩阵的依据和标准；

4)、基于蛋白质矩阵，剔除在网络结构分中与其他蛋白质关联性较小于的蛋白质，关联性较小于的蛋白质具体指处于蛋白质网络边缘的蛋白质，之后，计算得到矩阵中的蛋白质网络特征；

7)、基于蛋白质相似性的结果，挖掘关键蛋白质。

实施例1：阿尔兹海默症致病关键蛋白质研究

1)收集阿尔兹海默症相关文献，构建文献数据库

收集到27682篇阿尔兹海默症相关文献。标记结果以MEDLINE形式导出文件，文件内容主要包含题目、摘要、作者、文章发表时间等，然后经过Python编程处理，提取文章摘要信息，以27682篇文献摘要作为数据源。

2)构建蛋白质词典

构建的蛋白质词典具有58006个蛋白质的信息，包括蛋白质名称或描述，分类数据和引用信息等。

3)从文献数据库中提取蛋白质，构建蛋白质矩阵

利用Python编程技术，共挖掘到549个蛋白质的1061个相互作用，以此构建矩阵，矩阵维数为549*549。由于某些蛋白质与其他蛋白质不存在相互作用，即网络中蛋白质不连通。我们提取最大蛋白质网络，该蛋白质网络包括412个蛋白质，占全部网络蛋白质的75％。

4)基于上述矩阵，计算蛋白质网络特征

根据蛋白质矩阵，计算蛋白质网络特征。包括聚类系数(Ci)、点中心度(CD)。聚类系数是表示一个图形中节点聚集程度的系数。在节点数为N的网络中，某个节点的聚集系数定义为：对于节点Vi，其与k个邻点之间的实际连接数L与k个节点之间所有可能存在的连接数量的比值，k为节点周围的邻接节点数量。公式为(1)。该网络中聚类系数为 0.22，点中心度公式为(2),其中x_ij表示节点i与其他j个节点之间直接联系的数量。计算结果表明，点中心度在1到64之间，具体频度分布见图1。

5)计算蛋白质社群结构

利用贪心算法计算蛋白质相互作用的距离，寻找蛋白质社群结构。研究中的贪心算法包括2个阶段，第一阶段，去掉所有蛋白质网络中的边，以节点为基本社区单元，网络中的每个连通部分作为一个社区，将还未加入网络的边分别重新加回网络，每次加入一条边，如果加入网络的边连接了两个不同的社区，则合并两个社区，并计算形成新社区划分的模块度增量。选择使模块度增量最大或者减小最少的两个社区进行合并，，直到网络社区划分的模块度不再增长。第2个阶段，遍历每种社区划分对应的模块度值，选取模块度最大的社区划分作为网络的最优划分。本研究中模块度公式为Q＝∑_i(e_ii-a_i ²)。a_i＝∑_je_ij，a_i表示与社区i中节点相连的边占所有边的比例。e_ii表示社区内部的边的比例。本研究中，阿尔兹海默症蛋白质网络中共有23个社群。

6)计算蛋白质网络结构中的蛋白质相似性

利用节点相似性算法，计算蛋白质相似性。根据我们的算法，Keratin,type IIcytoskeletal 8与Urokinase plasminogen activator surface receptor具有最高的相似性。算法具体如下sim(x,y)＝|Γ(x)∩Γ(y)|。式中，Γ(x)表示节点x的邻居节点集合，Γ(y)表示节点y的邻居节点集合，sim(x,y)表示节点x和节点y的相似性。

7)基于上述相似性结果，挖掘关键蛋白质。

根据相似性结果，发现尿激酶纤溶酶原激活物表面受体与角蛋白、T细胞受体相关的跨膜蛋白及白介素相关因子之间、白细胞介素相关因子与胱天蛋白酶-3、基序趋化因子、代谢型谷氨酸受体具有网络结构，其中存在潜在的关键蛋白质。

Claims

1.一种用于发现阿尔兹海默症致病关键蛋白质的方法，其特征在于，其步骤为：

1）、收集阿尔兹海默症文献信息，建立文献数据库；

2）、建立蛋白质词典，具体包括有蛋白质名称，分类信息，及相互引用关系；

3）、从步骤1）中的文献数据库中提取蛋白质的信息，建立蛋白质矩阵，并以步骤2）中的蛋白质词典作为蛋白质矩阵的依据和标准；

4）、基于蛋白质矩阵，剔除在网络结构中与其他蛋白质关联性小的蛋白质，计算得到矩阵中的蛋白质网络特征：包括聚类系数、点中心度；关联性小的蛋白质具体指处于蛋白质网络边缘的蛋白质；

5）、根据蛋白质网络特征，以矩阵内蛋白质之间相互作用距离作为依据，计算得到蛋白质社群结构；

6）、在蛋白质社群结构中，依据节点相似性进行计算，得到蛋白质相似性；

7）、基于蛋白质相似性的结果，挖掘关键蛋白质。

2.权利要求1所述的一种用于发现阿尔兹海默症致病关键蛋白质的方法，其特征在于：步骤3）中具体为：利用蛋白质词典及文本数据挖掘方法，以在文本中同时出现2种及2种以上蛋白质视为蛋白质共现作为依据，从步骤1）中的文献数据库中提取蛋白质的信息。