CN108629159B - 一种用于发现阿尔兹海默症致病关键蛋白质的方法 - Google Patents
一种用于发现阿尔兹海默症致病关键蛋白质的方法 Download PDFInfo
- Publication number
- CN108629159B CN108629159B CN201810454364.5A CN201810454364A CN108629159B CN 108629159 B CN108629159 B CN 108629159B CN 201810454364 A CN201810454364 A CN 201810454364A CN 108629159 B CN108629159 B CN 108629159B
- Authority
- CN
- China
- Prior art keywords
- protein
- proteins
- alzheimer
- disease
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Genetics & Genomics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Peptides Or Proteins (AREA)
Abstract
一种用于发现阿尔兹海默症致病关键蛋白质的方法,其步骤为:1)、收集阿尔兹海默症文献信息,建立文献数据库;2)、建立蛋白质词典;3)、从文献数据库中提取蛋白质的信息,建立蛋白质矩阵;4)、基于蛋白质矩阵,剔除在网络结构分中与其他蛋白质关联性较小于的蛋白质,得到矩阵中的蛋白质网络特征;5)、根据蛋白质网络特征,计算得到蛋白质社群结构;6)、在蛋白质社群结构中,算得到蛋白质相似性;7)、基于蛋白质相似性的结果,挖掘关键蛋白质。本发明通过上述方法,提供了一种研究效率高,节约生物实验成本的阿尔兹海默症致病关键蛋白质的发现方法。
Description
技术领域
本发明涉及生物学和医学领域,特别涉及一种数据挖掘方法,用于寻找可能导致阿尔兹海默症发生的关键蛋白质。本方法是理解阿尔兹海默症发生原因与机制的重要手段,亦是数据挖掘方法在生物学、医学方面的应用。
背景技术
阿尔茨海默症又称老年痴呆症,属于神经退行性疾病,通常表现为进行性记忆力减退和获得性知识丧失,乃至丧失生活自理能力,是威胁人类健康的重大疾病。阿尔茨海默症产生的原因与机制广受关注,某些蛋白质如β-淀粉样蛋白和Tau蛋白被认为是导致其发生的重要因素。围绕阿尔茨海默症致病蛋白质已开展大量研究,积累了大量实验数据。
但当前阿尔茨海默症发生机理尚不完全清楚,致病蛋白质之间如何发生相互作用进而导致疾病发生的过程未被充分揭示。如何利用大量实验数据、发现蛋白质相互作用网络,寻找关键致病蛋白质,是当前面临的重要挑战。
因此,建立一种用于发现阿尔兹海默症致病关键蛋白质的数据挖掘方法,对于揭示阿尔茨海默症发生机制,理解蛋白质与人类健康复杂关系,解决人类重大疾病方面具有重要意义。
发明内容
本发明的目的是针对阿尔兹海默症已有大量实验数据与文献报道,但致病蛋白质网络尚未被充分揭示的特点,提出一种数据挖掘方法,用于发现阿尔兹海默症致病关键蛋白质,为阿尔兹海默症机制研究及后续药物开发提供科学依据。
为了实现上述目的,本发明采用的技术方案为:一种用于发现阿尔兹海默症致病关键蛋白质的方法,其特征在于,其步骤为:
1)、收集阿尔兹海默症文献信息,建立文献数据库;
2)、建立蛋白质词典,具体包括有蛋白质名称,分类信息,及相互引用关系;
3)、从步骤1)中的文献数据库中提取蛋白质的信息,建立蛋白质矩阵,并以步骤2)中的蛋白质词典作为蛋白质矩阵的依据和标准;
4)、基于蛋白质矩阵,剔除在网络结构分中与其他蛋白质关联性较小于的蛋白质,计算得到矩阵中的蛋白质网络特征;
5)、根据蛋白质网络特征,以矩阵内蛋白质之间相互作用距离作为依据,计算得到蛋白质社群结构;
6)、在蛋白质社群结构中,依据节点相似性进行计算,得到蛋白质相似性;
7)、基于蛋白质相似性的结果,挖掘关键蛋白质。
步骤3)中具体为:利用蛋白质词典及文本数据挖掘方法,以在文本中同时出现2种及 2种以上蛋白质视为蛋白质共现作为依据,从步骤1)中的文献数据库中提取蛋白质的信息。
步骤4)中关联性较小于的蛋白质具体指处于蛋白质网络边缘的蛋白质。
本发明专利的有益效果为:
由于阿尔兹海默症相关蛋白质数量巨大,利用实验方法寻找关键蛋白质,带有一定的盲目性,本发明则可以提高研究针对性。在本发明方法提出的关键蛋白质基础上,开展实验研究,能避免在数千种蛋白质中进行实验,只需要在几种或者几十种蛋白质中开展实验,从而简化或者节省了相应的生物实验需要的大量人力和时间,有助于提高研究效率,节约成本。
附图说明
图1:实施例1中点中心度频度图。
具体实施方式
一种用于发现阿尔兹海默症致病关键蛋白质的方法,其特征在于,其步骤为:
1)、收集阿尔兹海默症文献信息,建立文献数据库;
2)、建立蛋白质词典,具体包括有蛋白质名称,分类信息,及相互引用关系;
3)、从步骤1)中的文献数据库中提取蛋白质的信息,具体为利用蛋白质词典及文本数据挖掘方法,以在文本中同时出现2种及2种以上蛋白质视为蛋白质共现作为依据,从步骤1)中的文献数据库中提取蛋白质的信息;之后,建立蛋白质矩阵,并以步骤2)中的蛋白质词典作为蛋白质矩阵的依据和标准;
4)、基于蛋白质矩阵,剔除在网络结构分中与其他蛋白质关联性较小于的蛋白质,关联性较小于的蛋白质具体指处于蛋白质网络边缘的蛋白质,之后,计算得到矩阵中的蛋白质网络特征;
5)、根据蛋白质网络特征,以矩阵内蛋白质之间相互作用距离作为依据,计算得到蛋白质社群结构;
6)、在蛋白质社群结构中,依据节点相似性进行计算,得到蛋白质相似性;
7)、基于蛋白质相似性的结果,挖掘关键蛋白质。
实施例1:阿尔兹海默症致病关键蛋白质研究
1)收集阿尔兹海默症相关文献,构建文献数据库
收集到27682篇阿尔兹海默症相关文献。标记结果以MEDLINE形式导出文件,文件内容主要包含题目、摘要、作者、文章发表时间等,然后经过Python编程处理,提取文章摘要信息,以27682篇文献摘要作为数据源。
2)构建蛋白质词典
构建的蛋白质词典具有58006个蛋白质的信息,包括蛋白质名称或描述,分类数据和引用信息等。
3)从文献数据库中提取蛋白质,构建蛋白质矩阵
利用Python编程技术,共挖掘到549个蛋白质的1061个相互作用,以此构建矩阵,矩阵维数为549*549。由于某些蛋白质与其他蛋白质不存在相互作用,即网络中蛋白质不连通。我们提取最大蛋白质网络,该蛋白质网络包括412个蛋白质,占全部网络蛋白质的75%。
4)基于上述矩阵,计算蛋白质网络特征
根据蛋白质矩阵,计算蛋白质网络特征。包括聚类系数(Ci)、点中心度(CD)。聚类系数是表示一个图形中节点聚集程度的系数。在节点数为N的网络中,某个节点的聚集系数定义为:对于节点Vi,其与k个邻点之间的实际连接数L与k个节点之间所有可能存在的连接数量的比值,k为节点周围的邻接节点数量。公式为(1)。该网络中聚类系数为 0.22,点中心度公式为(2),其中xij表示节点i与其他j个节点之间直接联系的数量。计算结果表明,点中心度在1到64之间,具体频度分布见图1。
5)计算蛋白质社群结构
利用贪心算法计算蛋白质相互作用的距离,寻找蛋白质社群结构。研究中的贪心算法包括2个阶段,第一阶段,去掉所有蛋白质网络中的边,以节点为基本社区单元,网络中的每个连通部分作为一个社区,将还未加入网络的边分别重新加回网络,每次加入一条边,如果加入网络的边连接了两个不同的社区,则合并两个社区,并计算形成新社区划分的模块度增量。选择使模块度增量最大或者减小最少的两个社区进行合并,,直到网络社区划分的模块度不再增长。第2个阶段,遍历每种社区划分对应的模块度值,选取模块度最大的社区划分作为网络的最优划分。本研究中模块度公式为Q=∑i(eii-ai 2)。ai=∑jeij,ai表示与社区i中节点相连的边占所有边的比例。eii表示社区内部的边的比例。本研究中,阿尔兹海默症蛋白质网络中共有23个社群。
6)计算蛋白质网络结构中的蛋白质相似性
利用节点相似性算法,计算蛋白质相似性。根据我们的算法,Keratin,type IIcytoskeletal 8与Urokinase plasminogen activator surface receptor具有最高的相似性。算法具体如下sim(x,y)=|Γ(x)∩Γ(y)|。式中,Γ(x)表示节点x的邻居节点集合,Γ(y)表示节点y的邻居节点集合,sim(x,y)表示节点x和节点y的相似性。
7)基于上述相似性结果,挖掘关键蛋白质。
根据相似性结果,发现尿激酶纤溶酶原激活物表面受体与角蛋白、T细胞受体相关的跨膜蛋白及白介素相关因子之间、白细胞介素相关因子与胱天蛋白酶-3、基序趋化因子、代谢型谷氨酸受体具有网络结构,其中存在潜在的关键蛋白质。
Claims (2)
1.一种用于发现阿尔兹海默症致病关键蛋白质的方法,其特征在于,其步骤为:
1)、收集阿尔兹海默症文献信息,建立文献数据库;
2)、建立蛋白质词典,具体包括有蛋白质名称,分类信息,及相互引用关系;
3)、从步骤1)中的文献数据库中提取蛋白质的信息,建立蛋白质矩阵,并以步骤2)中的蛋白质词典作为蛋白质矩阵的依据和标准;
4)、基于蛋白质矩阵,剔除在网络结构中与其他蛋白质关联性小的蛋白质,计算得到矩阵中的蛋白质网络特征:包括聚类系数、点中心度;关联性小的蛋白质具体指处于蛋白质网络边缘的蛋白质;
5)、根据蛋白质网络特征,以矩阵内蛋白质之间相互作用距离作为依据,计算得到蛋白质社群结构;
6)、在蛋白质社群结构中,依据节点相似性进行计算,得到蛋白质相似性;
7)、基于蛋白质相似性的结果,挖掘关键蛋白质。
2.权利要求1所述的一种用于发现阿尔兹海默症致病关键蛋白质的方法,其特征在于:步骤3)中具体为:利用蛋白质词典及文本数据挖掘方法,以在文本中同时出现2种及2种以上蛋白质视为蛋白质共现作为依据,从步骤1)中的文献数据库中提取蛋白质的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810454364.5A CN108629159B (zh) | 2018-05-14 | 2018-05-14 | 一种用于发现阿尔兹海默症致病关键蛋白质的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810454364.5A CN108629159B (zh) | 2018-05-14 | 2018-05-14 | 一种用于发现阿尔兹海默症致病关键蛋白质的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108629159A CN108629159A (zh) | 2018-10-09 |
CN108629159B true CN108629159B (zh) | 2021-11-26 |
Family
ID=63692995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810454364.5A Active CN108629159B (zh) | 2018-05-14 | 2018-05-14 | 一种用于发现阿尔兹海默症致病关键蛋白质的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108629159B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640468B (zh) * | 2020-05-18 | 2021-08-24 | 天士力国际基因网络药物创新中心有限公司 | 一种基于复杂网络筛选疾病相关蛋白的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279397A (zh) * | 2015-10-26 | 2016-01-27 | 华东交通大学 | 一种识别蛋白质相互作用网络中关键蛋白质的方法 |
CN107885971A (zh) * | 2017-10-30 | 2018-04-06 | 陕西师范大学 | 采用改进花授粉算法识别关键蛋白质的方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100499752B1 (ko) * | 2003-12-18 | 2005-07-07 | 한국전자통신연구원 | 유전자 온톨로지를 이용한 단백질 상호작용 네트워크의개념화 방법 |
WO2007038414A2 (en) * | 2005-09-27 | 2007-04-05 | Indiana University Research & Technology Corporation | Mining protein interaction networks |
CN104992078B (zh) * | 2015-06-17 | 2018-02-16 | 西安理工大学 | 一种基于语义密度的蛋白质网络复合物识别方法 |
CN107784196B (zh) * | 2017-09-29 | 2021-07-09 | 陕西师范大学 | 基于人工鱼群优化算法识别关键蛋白质的方法 |
CN108009403A (zh) * | 2017-11-24 | 2018-05-08 | 中国地质大学(武汉) | 基于多源数据融合及多目标优化的蛋白质复合物识别方法 |
-
2018
- 2018-05-14 CN CN201810454364.5A patent/CN108629159B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279397A (zh) * | 2015-10-26 | 2016-01-27 | 华东交通大学 | 一种识别蛋白质相互作用网络中关键蛋白质的方法 |
CN107885971A (zh) * | 2017-10-30 | 2018-04-06 | 陕西师范大学 | 采用改进花授粉算法识别关键蛋白质的方法 |
Non-Patent Citations (4)
Title |
---|
基于PPI网络的关键蛋白质识别方法研究及应用;洪海燕;《中国优秀硕士学位论文全文数据基础科学辑》;20180215;第三章第3.2节 * |
基于蛋白质网络的关键蛋白质识别方法研究;王峘;《中国优秀硕士学位论文全文数据基础科学辑》;20120415;A006-62 * |
复杂网络社团检测算法及其应用研究;王玙;《中国博士学位论文全文数据库基础科学辑》;20150115;A002-19 * |
阿尔兹海默症发病相关蛋白互作网络构建与通路分析;徐煜宸等;《http://www.hanspub.org/journal/hjbmhttps://doi.org/10.12677/hjbm.2018.82003》;20180409;第1-4节 * |
Also Published As
Publication number | Publication date |
---|---|
CN108629159A (zh) | 2018-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Harenberg et al. | Community detection in large‐scale networks: a survey and empirical evaluation | |
Qi et al. | An effective and efficient hierarchical K-means clustering algorithm | |
Geva et al. | Identification of protein complexes from co-immunoprecipitation data | |
Thankachan et al. | A provably efficient algorithm for the k-mismatch average common substring problem | |
US10474690B2 (en) | Disjunctive rule mining with finite automaton hardware | |
Yang et al. | R2C: improving ab initio residue contact map prediction using dynamic fusion strategy and Gaussian noise filter | |
CN105740387B (zh) | 一种基于作者频繁模式的科技文献推荐方法 | |
CN103488637A (zh) | 一种基于动态社区挖掘进行专家检索的方法 | |
Liu et al. | NSRGRN: a network structure refinement method for gene regulatory network inference | |
CN102799616A (zh) | 大规模社会网络中的离群点检测方法 | |
Gong et al. | Persistent spectral simplicial complex-based machine learning for chromosomal structural analysis in cellular differentiation | |
CN108629159B (zh) | 一种用于发现阿尔兹海默症致病关键蛋白质的方法 | |
Ali et al. | Detection of gene ontology clusters using biclustering algorithms | |
JP2023546645A (ja) | シングルセルゲノミクスデータセットからの細胞のサブサンプリング方法及びシステム | |
Zhuo et al. | Predicting ncRNA–protein interactions based on dual graph convolutional network and pairwise learning | |
Consoli et al. | A quartet method based on variable neighborhood search for biomedical literature extraction and clustering | |
Zervou et al. | Structural classification of proteins based on the computationally efficient recurrence quantification analysis and horizontal visibility graphs | |
CN106844338B (zh) | 基于属性间依赖关系的网络表格的实体列的检测方法 | |
Boomija et al. | Comparison of partition based clustering algorithms | |
Kanj et al. | Shared nearest neighbor clustering in a locality sensitive hashing framework | |
CN105162648B (zh) | 基于骨干网络扩展的社团检测方法 | |
Lopez et al. | Extracting biological knowledge by fuzzy association rule mining | |
Kaushik et al. | Rapid and enhanced remote homology detection by cascading hidden Markov model searches in sequence space | |
Alipanahi et al. | Disentangled long-read de Bruijn graphs via optical maps | |
Prasanna et al. | Efficient and accurate discovery of colossal pattern sequences from biological datasets: a Doubleton Pattern Mining Strategy (DPMine) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |