CN110335639B - 一种跨转录因子的转录因子结合位点预测算法及装置 - Google Patents
一种跨转录因子的转录因子结合位点预测算法及装置 Download PDFInfo
- Publication number
- CN110335639B CN110335639B CN201910511069.3A CN201910511069A CN110335639B CN 110335639 B CN110335639 B CN 110335639B CN 201910511069 A CN201910511069 A CN 201910511069A CN 110335639 B CN110335639 B CN 110335639B
- Authority
- CN
- China
- Prior art keywords
- transcription factor
- dna
- dna fragments
- target
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种跨转录因子的转录因子结合位点预测算法及装置,所述方法包括如下步骤:步骤1:预测所有转录因子中能够与DNA结合的氨基酸,称为DNA结合位点,预测的DNA结合位点主要用于衡量不同转录因子的标注数据在目标转录因子模型训练过程中的贡献;步骤2:从由预测的DNA结合位点组成的序列中学习转录因子的表示向量;步骤3:从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系;步骤4:从DNA片段的序列特征中学习DNA片段的低阶依存关系;步骤5:将学习的转录因子向量表示、DNA片段的高阶依存关系和低阶依存关系拼接成特征向量并输入多层感知器中对目标DNA片段分类,判定其是否为目标转录因子的结合位点。
Description
技术领域
本发明涉及生物信息学技术领域,具体涉及一种跨转录因子的转录因子结合位点预测算法及装置。
背景技术
转录因子结合位点为DNA 中能够被转录因子结合的碱基对片段。因为转录因子与DNA 间的相互作用在基因表达调控中起着重要的作用,所以转录因子结合位点预测对基因调控网络和包括生长控制、细胞周期进程和发展以及分化的细胞功能等在内的基本细胞过程的理解具有非常重要的作用。
现有技术中的方法大都使用PWM 来识别转录因子结合位点,但是PWM的基本假设是结合位点中所有位置处的碱基对都是独立参与该结合位点与相应转录因子间的相互作用。为了将结合位点中不同位置处碱基对间相互关系融于预测中,一种新的表示方法DWM被提出用于表示结合位点。除DWM 外,Mathelier 和Wasserman 提出了一种基于HMM的预测方法TFFM,该方法可通过HMM 模型的转移概率建模结合位点中相邻位置碱基对间的相互作用。
为预测目标转录因子在一个特定细胞类型中的结合位点,当前存在预测方法均需要大量的目标转录因子在特定细胞类型中标注数据。目标转录因子在特定细胞类型中的标注数据需要通过ChIP-seq或者ChIP-chip等生物实验方法获取。由于ChIP-seq 或者ChIP-chip 等生物实验方法执行的时间代价和经济成本非常高,所以对于人类和其他生命体的大量转录因子而言,只有小部分转录因子在少数深入研究的细胞类型中具有标注数据,而大部分的转录因子在任何细胞类型中都不存在标注数据。因此,对于转录因子在细胞类型中没有标注数据的情况,当前的预测方法无法用于预测转录因子在其目标细胞类中的结合位点。
尽管大部分转录因子都具有不同的氨基酸序列和生物功能,但是部分不同的转录因子仍然具有相似的氨基酸序列和生物功能。由于不同转录因子间相似的氨基酸序列会在DNA 序列上产生相似度的结合位点,且不同转录因子间相似的生物功能也一定程度上归功于DNA 序列上相似的结合位点,所以部分不同的转录因子在目标细胞类型中会存在相似的结合位点。
发明内容
基于不同转录因子在目标细胞类型结合位点间存在共有特征,本发明的目的是提出了一种跨转录因子的转录因子结合位点预测算法及装置。对于不具备标注数据的目标转录因子,该装置可通过目标细胞类型中其他转录因子的标注数据来预测其在目标细胞类型中的结合位点。
为了达到上述目的,本发明提供了一种跨转录因子的转录因子结合位点预测方法,所述方法包括如下步骤:
步骤1:预测所有转录因子中能够与DNA结合的氨基酸,称为DNA结合位点,预测的DNA结合位点主要用于衡量不同转录因子的标注数据在目标转录因子模型训练过程中的贡献;
步骤2:从由预测的DNA结合位点组成的序列中学习转录因子的表示向量;
步骤3:从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系;
步骤4:从DNA片段的序列特征中学习DNA片段的低阶依存关系;
步骤5:将学习的转录因子向量表示、DNA片段的高阶依存关系和低阶依存关系拼接成特征向量并输入多层感知器中对目标DNA片段分类,判定其是否为目标转录因子的结合位点。
进一步地,所述步骤1中,预测转录因子中DNA结合位点具体包括:
步骤101:利用PSI-BLAST计算目标转录因子氨基酸序列的位置特异性打分矩阵,位置特异性打分矩阵即为目标转录因子的进化特征;
步骤102:将目标转录因子由其所有氨基酸的one-hot向量拼接表示,利用卷积神经网络从其中学习模式特征;
步骤103:将学习的目标转录因子的模式特征与其序列特征和进化特征拼接成特征向量输入多层感知器中预测氨基酸是否为DNA结合位点。
进一步地,所述多层感知器由全连接层和softmax分类器组成。
进一步地,所述步骤2中使用长短记忆网络模型从由预测的DNA结合位点组成的序列中学习转录因子的表示向量。
进一步地,所述步骤3中使用卷积神经网络模型从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系。
进一步地,所述步骤4中使用卷积神经网络模型从DNA片段的序列特征中学习DNA片段的低阶依存关系。
一种跨转录因子的结合位点预测装置,所述装置包括如下模块:
DNA结合位点预测的模块,用于预测所有转录因子中能够与DNA结合的氨基酸,称为DNA结合位点,预测的DNA结合位点主要用于衡量不同转录因子的标注数据在目标转录因子模型训练过程中的贡献;
学习转录因子的表示向量的模块,用于从由预测的DNA结合位点组成的序列中学习转录因子的表示向量;
学习DNA片段的高阶依存关系的模块,用于从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系;
学习DNA片段的低阶依存关系的模块,用于从DNA片段的序列特征中学习DNA片段的低阶依存关系;
结合位点判断模块,用于将学习的转录因子向量表示、DNA片段的高阶依存关系和低阶依存关系拼接成特征向量并输入多层感知器中对目标DNA片段分类,判定其是否为目标转录因子的结合位点。
本发明的有益效果是:对于不存在标注数据的目标转录因子,本发明所提出的跨转录因子的结合位点预测装置可通过目标细胞类型中其他转录因子的标注数据来预测其在目标细胞类型中的结合位点。基于该装置预测的多种转录因子的结合位点,本发明可以用于为仅有少量转录因子存在已知结合位点的细胞类型预测基因表达水平。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的方法流程图。
图2为本发明的基于主体间性的异质网络构建示意图。
图3为本发明的预测转录因子中DNA结合位点示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
通过目标细胞类型中其他转录因子的标注数据来预测其中不具备标注数据的转录因子的结合位点是本发明的关键点。本发明在跨转录因子结合位点预测方法中使用预测DNA结合位点来衡量不同转录因子的标注数据在训练过程中的贡献。
实施例一
参阅图1、图2,本发明实施例一提供了一种跨转录因子的结合位点预测方法,主要步骤有:
一、 利用卷积神经网络模型预测所有转录因子中能够与DNA结合的氨基酸,称为DNA结合位点,预测的DNA结合位点主要用于衡量不同转录因子的标注数据在目标转录因子模型训练过程中的贡献。
二、 使用长短记忆网络模型(LSTM)从由预测的DNA结合位点组成的序列中学习转录因子的表示向量。
三、 使用卷积神经网络模型从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系。
四、 使用卷积神经网络模型从DNA片段的序列特征中学习DNA片段的低阶依存关系。
五、 将学习的转录因子向量表示、DNA片段的高阶依存关系和低阶依存关系拼接成特征向量并输入由全连接层和softmax分类器组成的多层感知器中对目标DNA片段分类,判定其是否为目标转录因子的结合位点。
参阅附图3,在上述方法步骤一中,预测转录因子中DNA结合位点的步骤如下:
1. 利用PSI-BLAST计算目标转录因子氨基酸序列的位置特异性打分矩阵,位置特异性打分矩阵即为目标转录因子的进化特征;
2. 将目标转录因子由其所有氨基酸的one-hot向量拼接表示,利用卷积神经网络从其中学习模式特征;
3. 将学习的目标转录因子的模式特征与其序列特征和进化特征拼接成特征向量输入多层感知器中预测氨基酸是否为DNA目标转录因子的结合位点。
实施例二
本发明实施例二提供了一种跨转录因子的结合位点预测装置,主要包括如下模块:
DNA结合位点预测的模块,用于利用卷积神经网络模型预测所有转录因子中能够与DNA结合的氨基酸,称为DNA结合位点,预测的DNA结合位点主要用于衡量不同转录因子的标注数据在目标转录因子模型训练过程中的贡献。
学习转录因子的表示向量的模块,用于使用长短记忆网络模型(LSTM)从由预测的DNA结合位点组成的序列中学习转录因子的表示向量。
学习DNA片段的高阶依存关系的模块,用于使用卷积神经网络模型从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系。
学习DNA片段的低阶依存关系的模块,用于使用卷积神经网络模型从DNA片段的序列特征中学习DNA片段的低阶依存关系。
结合位点判断模块,用于将学习的转录因子向量表示、DNA片段的高阶依存关系和低阶依存关系拼接成特征向量并输入由全连接层和softmax分类器组成的多层感知器中对目标DNA片段分类,判定其是否为目标转录因子的结合位点。
所属领域的技术人员可以清楚的了解到,为了描述的方便和简洁,上述描述的装置、模块和单元的具体工作过程,可以参考前述方法实施例的对应过程,在此不再赘述。
附图中的流程图和框图显示了根据本发明的多个实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图和框图中的每个方框可以代表一个模块、程序段或代码的一部分,包含一个或多个用于实现逻辑功能的计算机可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。也要注意的是,框图和流程图中的每个方框或方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明,上述实施例仅是为说明所作的举例,而并非对实施方式的限定。对于本领域技术人员来说,在上述说明的基础上,还可以做出其它不同形式的变化或变动,而这些变化或变动将是显而易见的,处于本发明的保护范围之中。
Claims (10)
1.一种跨转录因子的转录因子结合位点预测方法,其特征在于,所述方法包括如下步骤:
步骤1:预测所有转录因子中能够与DNA结合的氨基酸,称为DNA结合位点,预测的DNA结合位点主要用于衡量不同转录因子的标注数据在目标转录因子模型训练过程中的贡献;
步骤2:从由预测的DNA结合位点组成的序列中学习转录因子的表示向量;
步骤3:从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系;
步骤4:从DNA片段的序列特征中学习DNA片段的低阶依存关系;
步骤5:将学习的转录因子向量表示、DNA片段的高阶依存关系和低阶依存关系拼接成特征向量并输入多层感知器中对目标DNA片段分类,判定其是否为目标转录因子的结合位点。
2.如权利要求1所述的方法,其特征在于,所述步骤1中,预测转录因子中DNA结合位点具体包括:
步骤101:利用PSI-BLAST计算目标转录因子氨基酸序列的位置特异性打分矩阵,位置特异性打分矩阵即为目标转录因子的进化特征;
步骤102:将目标转录因子由其所有氨基酸的one-hot向量拼接表示,利用卷积神经网络从其中学习模式特征;
步骤103:将学习的目标转录因子的模式特征与其序列特征和进化特征拼接成特征向量输入多层感知器中预测氨基酸是否为DNA结合位点。
3.如权利要求1或2所述的方法,其特征在于,所述多层感知器由全连接层和softmax分类器组成。
4.如权利要求1所述的方法,其特征在于,所述步骤2中使用长短记忆网络模型从由预测的DNA结合位点组成的序列中学习转录因子的表示向量。
5.如权利要求1所述的方法,其特征在于,所述步骤3中使用卷积神经网络模型从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系。
6.如权利要求1所述的方法,其特征在于,所述步骤4中使用卷积神经网络模型从DNA片段的序列特征中学习DNA片段的低阶依存关系。
7.一种跨转录因子的结合位点预测装置,其特征在于,所述装置包括如下模块:
DNA结合位点预测的模块,用于预测所有转录因子中能够与DNA结合的氨基酸,称为DNA结合位点,预测的DNA结合位点主要用于衡量不同转录因子的标注数据在目标转录因子模型训练过程中的贡献;
学习转录因子的表示向量的模块,用于从由预测的DNA结合位点组成的序列中学习转录因子的表示向量;
学习DNA片段的高阶依存关系的模块,用于从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系;
学习DNA片段的低阶依存关系的模块,用于从DNA片段的序列特征中学习DNA片段的低阶依存关系;
结合位点判断模块,用于将学习的转录因子向量表示、DNA片段的高阶依存关系和低阶依存关系拼接成特征向量并输入多层感知器中对目标DNA片段分类,判定其是否为目标转录因子的结合位点。
8.如权利要求7所述的装置,其特征在于,所述DNA结合位点预测的模块具体包括:
利用PSI-BLAST计算目标转录因子氨基酸序列的位置特异性打分矩阵的子模块,其中,位置特异性打分矩阵即为目标转录因子的进化特征;
将目标转录因子由其所有氨基酸的one-hot向量拼接表示,利用卷积神经网络从其中学习模式特征的子模块;
将学习的目标转录因子的模式特征与其序列特征和进化特征拼接成特征向量输入多层感知器中预测氨基酸是否为DNA结合位点的子模块。
9.如权利要求7所述的装置,其特征在于,使用长短记忆网络模型从由预测的DNA结合位点组成的序列中学习转录因子的表示向量;使用卷积神经网络模型从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系;使用卷积神经网络模型从DNA片段的序列特征中学习DNA片段的低阶依存关系。
10.一种计算机程序产品,包括计算机程序指令,当所述指令由处理器执行时,用于实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910511069.3A CN110335639B (zh) | 2019-06-13 | 2019-06-13 | 一种跨转录因子的转录因子结合位点预测算法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910511069.3A CN110335639B (zh) | 2019-06-13 | 2019-06-13 | 一种跨转录因子的转录因子结合位点预测算法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110335639A CN110335639A (zh) | 2019-10-15 |
CN110335639B true CN110335639B (zh) | 2021-10-29 |
Family
ID=68141143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910511069.3A Active CN110335639B (zh) | 2019-06-13 | 2019-06-13 | 一种跨转录因子的转录因子结合位点预测算法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110335639B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096732A (zh) * | 2021-05-11 | 2021-07-09 | 同济大学 | 一种基于深度嵌入卷积神经网络的模体挖掘方法 |
CN113593634B (zh) * | 2021-08-06 | 2022-03-11 | 中国海洋大学 | 一种融合dna形状特征的转录因子结合位点预测方法 |
CN114758721B (zh) * | 2022-04-28 | 2022-11-18 | 广西科学院 | 一种基于深度学习的转录因子结合位点定位方法 |
CN114639441B (zh) * | 2022-05-18 | 2022-08-05 | 山东建筑大学 | 一种基于带权多粒度扫描的转录因子结合位点预测方法 |
CN116403645B (zh) * | 2023-03-03 | 2024-01-09 | 阿里巴巴(中国)有限公司 | 转录因子结合位点的预测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103390119A (zh) * | 2013-07-03 | 2013-11-13 | 哈尔滨工程大学 | 一种转录因子结合位点识别方法 |
CN103425900A (zh) * | 2012-05-21 | 2013-12-04 | 上海聚类生物科技有限公司 | 一种基于统计显著性能快速识别基因组转录因子结合位点的*** |
CN107151708A (zh) * | 2017-07-05 | 2017-09-12 | 昆明医科大学第附属医院 | 多功能转录调控因子ctcf的dna结合位点ctcf_13的应用 |
-
2019
- 2019-06-13 CN CN201910511069.3A patent/CN110335639B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425900A (zh) * | 2012-05-21 | 2013-12-04 | 上海聚类生物科技有限公司 | 一种基于统计显著性能快速识别基因组转录因子结合位点的*** |
CN103390119A (zh) * | 2013-07-03 | 2013-11-13 | 哈尔滨工程大学 | 一种转录因子结合位点识别方法 |
CN107151708A (zh) * | 2017-07-05 | 2017-09-12 | 昆明医科大学第附属医院 | 多功能转录调控因子ctcf的dna结合位点ctcf_13的应用 |
Non-Patent Citations (1)
Title |
---|
《Structure-Based Prediction of Transcription Factor Binding Sites》;Jun-tao Guo;《TSINGHUA SCIENCE AND TECHNOLOGY》;20141231;第19卷(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110335639A (zh) | 2019-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335639B (zh) | 一种跨转录因子的转录因子结合位点预测算法及装置 | |
Al-Ajlan et al. | CNN-MGP: convolutional neural networks for metagenomics gene prediction | |
Imoto et al. | Combining microarrays and biological knowledge for estimating gene networks via Bayesian networks | |
Wu et al. | Evolving RBF neural networks for rainfall prediction using hybrid particle swarm optimization and genetic algorithm | |
WO2019041333A1 (zh) | 蛋白质结合位点的预测方法、装置、设备及存储介质 | |
JP2019535057A5 (zh) | ||
Yuan et al. | Predicting gene expression from sequence: a reexamination | |
CN112733997A (zh) | 基于woa-lstm-mc的水文时间序列预测优化方法 | |
Hoang et al. | Splice sites detection using chaos game representation and neural network | |
CN110491443B (zh) | 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法 | |
CN116110234A (zh) | 基于人工智能的车流量预测方法、装置及其应用 | |
CN108427865A (zh) | 一种预测LncRNA和环境因素关联关系的方法 | |
Ahmed et al. | Prediction of protein-protein interactions in arabidopsis thaliana using partial training samples in a machine learning framework | |
CN112784999A (zh) | 基于注意力机制的mobilenet-v1知识蒸馏方法、存储器及终端设备 | |
KR20180087069A (ko) | 자가 학습을 통한 약물-단백질간 관계 예측을 위한 모델링 기법 | |
CN116975686A (zh) | 训练学生模型的方法、行为预测方法和装置 | |
Hassani et al. | Active learning for microRNA prediction | |
CN114300036A (zh) | 遗传变异致病性预测方法、装置、存储介质及计算机设备 | |
Li et al. | Fractional calculus & machine learning methods based rubber stress-strain relationship prediction | |
Zhou et al. | An artificial neural network method for combining gene prediction based on equitable weights | |
CN117976047B (zh) | 基于深度学习的关键蛋白质预测方法 | |
Gao et al. | Evolutionary polymorphic neural network in chemical process modeling | |
CN114512188B (zh) | 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法 | |
CN116959578A (zh) | 蛋白质相互作用的预测方法、装置、设备、介质及产品 | |
CN118280440A (zh) | 一种转录因子结合位点的预测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |