CN110335639B

CN110335639B - 一种跨转录因子的转录因子结合位点预测算法及装置

Info

Publication number: CN110335639B
Application number: CN201910511069.3A
Authority: CN
Inventors: 徐睿峰; 周继云; 杜嘉晨; 陆勤
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2021-10-29
Anticipated expiration: 2039-06-13
Also published as: CN110335639A

Abstract

本发明提供了一种跨转录因子的转录因子结合位点预测算法及装置，所述方法包括如下步骤：步骤1：预测所有转录因子中能够与DNA结合的氨基酸，称为DNA结合位点，预测的DNA结合位点主要用于衡量不同转录因子的标注数据在目标转录因子模型训练过程中的贡献；步骤2：从由预测的DNA结合位点组成的序列中学习转录因子的表示向量；步骤3：从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系；步骤4：从DNA片段的序列特征中学习DNA片段的低阶依存关系；步骤5：将学习的转录因子向量表示、DNA片段的高阶依存关系和低阶依存关系拼接成特征向量并输入多层感知器中对目标DNA片段分类，判定其是否为目标转录因子的结合位点。

Description

一种跨转录因子的转录因子结合位点预测算法及装置

技术领域

本发明涉及生物信息学技术领域，具体涉及一种跨转录因子的转录因子结合位点预测算法及装置。

背景技术

转录因子结合位点为DNA 中能够被转录因子结合的碱基对片段。因为转录因子与DNA 间的相互作用在基因表达调控中起着重要的作用，所以转录因子结合位点预测对基因调控网络和包括生长控制、细胞周期进程和发展以及分化的细胞功能等在内的基本细胞过程的理解具有非常重要的作用。

现有技术中的方法大都使用PWM 来识别转录因子结合位点，但是PWM的基本假设是结合位点中所有位置处的碱基对都是独立参与该结合位点与相应转录因子间的相互作用。为了将结合位点中不同位置处碱基对间相互关系融于预测中，一种新的表示方法DWM被提出用于表示结合位点。除DWM 外，Mathelier 和Wasserman 提出了一种基于HMM的预测方法TFFM，该方法可通过HMM 模型的转移概率建模结合位点中相邻位置碱基对间的相互作用。

为预测目标转录因子在一个特定细胞类型中的结合位点，当前存在预测方法均需要大量的目标转录因子在特定细胞类型中标注数据。目标转录因子在特定细胞类型中的标注数据需要通过ChIP-seq或者ChIP-chip等生物实验方法获取。由于ChIP-seq 或者ChIP-chip 等生物实验方法执行的时间代价和经济成本非常高，所以对于人类和其他生命体的大量转录因子而言，只有小部分转录因子在少数深入研究的细胞类型中具有标注数据，而大部分的转录因子在任何细胞类型中都不存在标注数据。因此，对于转录因子在细胞类型中没有标注数据的情况，当前的预测方法无法用于预测转录因子在其目标细胞类中的结合位点。

尽管大部分转录因子都具有不同的氨基酸序列和生物功能，但是部分不同的转录因子仍然具有相似的氨基酸序列和生物功能。由于不同转录因子间相似的氨基酸序列会在DNA 序列上产生相似度的结合位点，且不同转录因子间相似的生物功能也一定程度上归功于DNA 序列上相似的结合位点，所以部分不同的转录因子在目标细胞类型中会存在相似的结合位点。

发明内容

基于不同转录因子在目标细胞类型结合位点间存在共有特征，本发明的目的是提出了一种跨转录因子的转录因子结合位点预测算法及装置。对于不具备标注数据的目标转录因子，该装置可通过目标细胞类型中其他转录因子的标注数据来预测其在目标细胞类型中的结合位点。

为了达到上述目的，本发明提供了一种跨转录因子的转录因子结合位点预测方法，所述方法包括如下步骤：

步骤1：预测所有转录因子中能够与DNA结合的氨基酸，称为DNA结合位点，预测的DNA结合位点主要用于衡量不同转录因子的标注数据在目标转录因子模型训练过程中的贡献；

步骤2：从由预测的DNA结合位点组成的序列中学习转录因子的表示向量；

步骤3：从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系；

步骤4：从DNA片段的序列特征中学习DNA片段的低阶依存关系；

步骤5：将学习的转录因子向量表示、DNA片段的高阶依存关系和低阶依存关系拼接成特征向量并输入多层感知器中对目标DNA片段分类，判定其是否为目标转录因子的结合位点。

进一步地，所述步骤1中，预测转录因子中DNA结合位点具体包括：

步骤101：利用PSI-BLAST计算目标转录因子氨基酸序列的位置特异性打分矩阵，位置特异性打分矩阵即为目标转录因子的进化特征；

步骤102：将目标转录因子由其所有氨基酸的one-hot向量拼接表示，利用卷积神经网络从其中学习模式特征；

步骤103：将学习的目标转录因子的模式特征与其序列特征和进化特征拼接成特征向量输入多层感知器中预测氨基酸是否为DNA结合位点。

进一步地，所述多层感知器由全连接层和softmax分类器组成。

进一步地，所述步骤2中使用长短记忆网络模型从由预测的DNA结合位点组成的序列中学习转录因子的表示向量。

进一步地，所述步骤3中使用卷积神经网络模型从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系。

进一步地，所述步骤4中使用卷积神经网络模型从DNA片段的序列特征中学习DNA片段的低阶依存关系。

一种跨转录因子的结合位点预测装置，所述装置包括如下模块：

DNA结合位点预测的模块，用于预测所有转录因子中能够与DNA结合的氨基酸，称为DNA结合位点，预测的DNA结合位点主要用于衡量不同转录因子的标注数据在目标转录因子模型训练过程中的贡献；

学习转录因子的表示向量的模块，用于从由预测的DNA结合位点组成的序列中学习转录因子的表示向量；

学习DNA片段的高阶依存关系的模块，用于从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系；

学习DNA片段的低阶依存关系的模块，用于从DNA片段的序列特征中学习DNA片段的低阶依存关系；

结合位点判断模块，用于将学习的转录因子向量表示、DNA片段的高阶依存关系和低阶依存关系拼接成特征向量并输入多层感知器中对目标DNA片段分类，判定其是否为目标转录因子的结合位点。

本发明的有益效果是：对于不存在标注数据的目标转录因子，本发明所提出的跨转录因子的结合位点预测装置可通过目标细胞类型中其他转录因子的标注数据来预测其在目标细胞类型中的结合位点。基于该装置预测的多种转录因子的结合位点，本发明可以用于为仅有少量转录因子存在已知结合位点的细胞类型预测基因表达水平。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的方法流程图。

图2为本发明的基于主体间性的异质网络构建示意图。

图3为本发明的预测转录因子中DNA结合位点示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

通过目标细胞类型中其他转录因子的标注数据来预测其中不具备标注数据的转录因子的结合位点是本发明的关键点。本发明在跨转录因子结合位点预测方法中使用预测DNA结合位点来衡量不同转录因子的标注数据在训练过程中的贡献。

实施例一

参阅图1、图2，本发明实施例一提供了一种跨转录因子的结合位点预测方法，主要步骤有：

一、利用卷积神经网络模型预测所有转录因子中能够与DNA结合的氨基酸，称为DNA结合位点，预测的DNA结合位点主要用于衡量不同转录因子的标注数据在目标转录因子模型训练过程中的贡献。

二、使用长短记忆网络模型(LSTM)从由预测的DNA结合位点组成的序列中学习转录因子的表示向量。

三、使用卷积神经网络模型从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系。

四、使用卷积神经网络模型从DNA片段的序列特征中学习DNA片段的低阶依存关系。

五、将学习的转录因子向量表示、DNA片段的高阶依存关系和低阶依存关系拼接成特征向量并输入由全连接层和softmax分类器组成的多层感知器中对目标DNA片段分类，判定其是否为目标转录因子的结合位点。

参阅附图3，在上述方法步骤一中，预测转录因子中DNA结合位点的步骤如下：

1. 利用PSI-BLAST计算目标转录因子氨基酸序列的位置特异性打分矩阵，位置特异性打分矩阵即为目标转录因子的进化特征；

2. 将目标转录因子由其所有氨基酸的one-hot向量拼接表示，利用卷积神经网络从其中学习模式特征；

3. 将学习的目标转录因子的模式特征与其序列特征和进化特征拼接成特征向量输入多层感知器中预测氨基酸是否为DNA目标转录因子的结合位点。

实施例二

本发明实施例二提供了一种跨转录因子的结合位点预测装置，主要包括如下模块：

DNA结合位点预测的模块，用于利用卷积神经网络模型预测所有转录因子中能够与DNA结合的氨基酸，称为DNA结合位点，预测的DNA结合位点主要用于衡量不同转录因子的标注数据在目标转录因子模型训练过程中的贡献。

学习转录因子的表示向量的模块，用于使用长短记忆网络模型(LSTM)从由预测的DNA结合位点组成的序列中学习转录因子的表示向量。

学习DNA片段的高阶依存关系的模块，用于使用卷积神经网络模型从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系。

学习DNA片段的低阶依存关系的模块，用于使用卷积神经网络模型从DNA片段的序列特征中学习DNA片段的低阶依存关系。

结合位点判断模块，用于将学习的转录因子向量表示、DNA片段的高阶依存关系和低阶依存关系拼接成特征向量并输入由全连接层和softmax分类器组成的多层感知器中对目标DNA片段分类，判定其是否为目标转录因子的结合位点。

所属领域的技术人员可以清楚的了解到，为了描述的方便和简洁，上述描述的装置、模块和单元的具体工作过程，可以参考前述方法实施例的对应过程，在此不再赘述。

附图中的流程图和框图显示了根据本发明的多个实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图和框图中的每个方框可以代表一个模块、程序段或代码的一部分，包含一个或多个用于实现逻辑功能的计算机可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。也要注意的是，框图和流程图中的每个方框或方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明，上述实施例仅是为说明所作的举例，而并非对实施方式的限定。对于本领域技术人员来说，在上述说明的基础上，还可以做出其它不同形式的变化或变动，而这些变化或变动将是显而易见的，处于本发明的保护范围之中。

Claims

1.一种跨转录因子的转录因子结合位点预测方法，其特征在于，所述方法包括如下步骤：

步骤4：从DNA片段的序列特征中学习DNA片段的低阶依存关系；

2.如权利要求1所述的方法，其特征在于，所述步骤1中，预测转录因子中DNA结合位点具体包括：

3.如权利要求1或2所述的方法，其特征在于，所述多层感知器由全连接层和softmax分类器组成。

4.如权利要求1所述的方法，其特征在于，所述步骤2中使用长短记忆网络模型从由预测的DNA结合位点组成的序列中学习转录因子的表示向量。

5.如权利要求1所述的方法，其特征在于，所述步骤3中使用卷积神经网络模型从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系。

6.如权利要求1所述的方法，其特征在于，所述步骤4中使用卷积神经网络模型从DNA片段的序列特征中学习DNA片段的低阶依存关系。

7.一种跨转录因子的结合位点预测装置，其特征在于，所述装置包括如下模块：

8.如权利要求7所述的装置，其特征在于，所述DNA结合位点预测的模块具体包括：

利用PSI-BLAST计算目标转录因子氨基酸序列的位置特异性打分矩阵的子模块，其中，位置特异性打分矩阵即为目标转录因子的进化特征；

将目标转录因子由其所有氨基酸的one-hot向量拼接表示，利用卷积神经网络从其中学习模式特征的子模块；

将学习的目标转录因子的模式特征与其序列特征和进化特征拼接成特征向量输入多层感知器中预测氨基酸是否为DNA结合位点的子模块。

9.如权利要求7所述的装置，其特征在于，使用长短记忆网络模型从由预测的DNA结合位点组成的序列中学习转录因子的表示向量；使用卷积神经网络模型从DNA片段的组蛋白修饰特征中学习DNA片段的高阶依存关系；使用卷积神经网络模型从DNA片段的序列特征中学习DNA片段的低阶依存关系。

10.一种计算机程序产品，包括计算机程序指令，当所述指令由处理器执行时，用于实现如权利要求1-6中任一项所述的方法。