CN116884495A - 一种基于扩散模型的长尾染色质状态预测方法 - Google Patents

一种基于扩散模型的长尾染色质状态预测方法 Download PDF

Info

Publication number
CN116884495A
CN116884495A CN202310991350.8A CN202310991350A CN116884495A CN 116884495 A CN116884495 A CN 116884495A CN 202310991350 A CN202310991350 A CN 202310991350A CN 116884495 A CN116884495 A CN 116884495A
Authority
CN
China
Prior art keywords
dna sequence
chromatin state
noise
diffusion model
chromatin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310991350.8A
Other languages
English (en)
Other versions
CN116884495B (zh
Inventor
张永清
刘宇航
牛颢
龙树全
丁春利
杨显华
邹权
龚美琴
朱桂全
王紫轩
袁豪
吕嘉珩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SICHUAN INSTITUTE OF COMPUTER SCIENCES
Chengdu University of Information Technology
Original Assignee
SICHUAN INSTITUTE OF COMPUTER SCIENCES
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SICHUAN INSTITUTE OF COMPUTER SCIENCES, Chengdu University of Information Technology filed Critical SICHUAN INSTITUTE OF COMPUTER SCIENCES
Priority to CN202310991350.8A priority Critical patent/CN116884495B/zh
Publication of CN116884495A publication Critical patent/CN116884495A/zh
Application granted granted Critical
Publication of CN116884495B publication Critical patent/CN116884495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于扩散模型的长尾染色质状态预测方法,包括S1、获取原始DNA序列,并对原始DNA序列进行处理得到DNA编码数据;S2、基于所述DNA编码数据构建DNA序列扩散模型;S3、结合UNet的噪声预测器,进行有条件的DNA序列扩散模型的逆向过程,得到具有不同染色质状态类别的平衡数据集;S4、基于所述平衡数据集,采用反向传播算法构建染色质状态预测模型。本发明利用基于DNA序列扩散模型从噪音中生成尾部类别染色质状态的DNA序列,从而实现样本平衡;然后,利用类别样本平衡的数据集训练染色质状态预测模型,染色质状态预测模型能够有效捕捉基于基因的语法规则,从而精确预测染色质状态。

Description

一种基于扩散模型的长尾染色质状态预测方法
技术领域
本发明属于染色质状态预测的技术领域,具体涉及一种基于扩散模型的长尾染色质状态预测方法。
背景技术
染色质状态是指染色质在不同细胞类型中的不同结构和功能状态。由于其广泛的功能,如反映细胞的功能和状态,越来越受到人们的关注。DNA序列的表观遗传学修饰是决定染色质状态的主要因素。例如,现有技术通过绘制9个染色质标记,定义了15种具有不同生物学作用的染色质状态。类似地,现有技术通过使用ChIP-seq数据从6个组蛋白标记中定义了18种染色质状态。这些研究表明,染色质状态呈长尾分布,某些状态比其他状态更丰富。例如,增强子的数量明显大于绝缘子。尽管有如ChIP-seq的基因组分析能够揭示染色质状态,但它需要更昂贵和耗时的实验。因此,迫切需要长尾染色质状态预测的计算方法。
目前,通过深度学***衡,从而在实际情况下导致偏差。其他方法直接预测长尾染色质状态,导致头类和尾类之间的不平衡。
长尾学习旨在从遵循长尾类分布的许多样本中训练出性能良好的模型。然而,在实际应用中,经过训练的模型通常偏向于头类,导致尾类的性能较差。
现有技术中广泛使用的染色质状态预测分析方法依然存在一些不足之处:
第一点,现有的染色质状态预测方法通常忽略了染色质状态的长尾分布,难以同时兼顾头部类别的染色质状态和尾部类别染色质状态的预测,导致了方法的实用性有一定局限。
第二点,大量研究表明基因有其自身的语法规则,大量的模体(motif)是构成基因语言的“词组”,解析基因的语法规则是解析染色质状态并推测基因功能的主要一步。然而现有的染色质状态预测方法难以有效地捕捉这些模体之间的相对位置和长距离依赖关系,进而无法精准地解析基因语法、刻画染色质状态。
发明内容
本发明的目的在于针对现有技术中的上述不足,提供一种基于扩散模型的长尾染色质状态预测方法,以解决现有类别不平衡数据对染色质状态预测的限制的问题。
为达到上述目的,本发明采取的技术方案是:
一种基于扩散模型的长尾染色质状态预测方法,其包括以下步骤:
S1、获取原始DNA序列,并对所述原始DNA序列进行处理得到DNA编码数据;
S2、基于所述DNA编码数据构建DNA序列扩散模型;
S3、结合UNet的噪声预测器,进行有条件的DNA序列扩散模型的逆向过程,得到具有不同染色质状态类别的平衡数据集;
S4、基于所述平衡数据集,采用反向传播算法构建染色质状态预测模型。
进一步地,步骤S1中包括:
获取原始DNA序列对应的染色质状态,并将获取的不同长度的原始DNA序列的左右端进行扩增或截取处理,得到长度为L的DNA序列;
采用独热编码方法将长度为L的DNA序列转换为L×4的编码矩阵数据。
进一步地,步骤S2中的DNA序列扩散模型包括前向过程和后向过程;
前向过程包括:
在给定前一个扩散步状态的条件下,预测当前扩散步状态的概率分布q(xt|xt-1):
其中,为分别具有均值和方差/>βtI的高斯分布;xt为在第t次添加噪声之后的每个DNA序列的载体,xt-1为在第t-1次添加噪声之后的每个DNA序列的载体,当t=0时,x0为独热编码后的L×4的矩阵数据;βt为超参数,I为单位矩阵;∈t-1为从第t-1次采样中获得的基本噪声;at=1-βt,/> 为权重,at为扩散步t时a的取值,ai为扩散步i时a的取值,a为一个超参数;∈为t个方差不同的高斯分布相加得到的新的高斯分布,即扩散步t时的噪声。
进一步地,后向过程包括:
在给定在第t次添加噪声之后的每个DNA序列的载体xt、细胞类型、染色质状态的条件下,预测在第t-1次添加噪声之后的每个DNA序列的载体xt-1的概率分布p(xt-1|xt,c):
其中,μ(xt,c)和βtI分别为的均值和方差;c为条件,即当前DNA序列对应的细胞类型和染色质状态;
采用固定方差βtI,使用UNet神经网络去拟合均值μ(xt,c),实现对扩散步t时刻的噪声预测,UNet神经网络的损失函数为LDM
其中,∈θ为基于UNet神经网络的噪声预测器在参数θ下神经网络预测的噪声;为对于参数θ期望,θ为UNet神经网络的参数。
进一步地,步骤S3包括:
S3.1、从标准正态分布中生成L×4的含噪声的DNA序列,基于DNA序列扩散模型对L×4的含噪声的DNA序列进行迭代,直至t=0;
S3.2、根据L×4的含噪声的DNA序列、细胞类型和染色质状态条件c、扩散步t,采用噪声预测器预测输出DNA序列的噪声预测值;
S3.3、采用L×4的含噪声的DNA序列减去当前噪声预测器预测输出的DNA序列的噪声预测值;
S3.4、重复步骤S3.2和步骤S3.3,直到t=0,生成具有特定细胞类型、染色质状态的DNA序列;
S3.5、重复步骤S3.2、步骤S3.3和步骤S3.4,直至得到具有不同染色质状态类别的平衡数据集。
进一步地,染色质状态预测模型包括:
模体感知卷积模块,用于提取DNA序列模体,其包括3层卷积网络,每层所述卷积网络包括一个卷积层,一个ReLU激活层,一个dropout层和一个最大池化层Maxpool,其计算过程为:
s(l1)=Conv(x(l))
s(l2)=Dropout(ReLU(s(l1)),0.2)
s(l3)=Maxpool(s(l2))
其中,s(l1)和x(l)分别为第l个卷积网络的输入和输出, 为平衡数据集;s(l2)为dropout层的输出;s(l3)为最大池化层Maxpool的输出;Conv()为卷积运算,ReLU()为激活函数,Dropout()为防止过拟合函数,取值0.2;Maxpool()为最大池化层;
空洞卷积模块,用于学习DNA序列语法;
自注意模块,用于捕捉DNA序列语法内部的相关性;
分类模块,用于为每个DNA序列构建染色质状态,并预测输出染色质状态。
进一步地,空洞卷积模块包括3层空洞卷积网络,每层所述空洞卷积网络包括一个空洞卷积层,一个ReLU激活层和一个dropout层,其计算过程为:
z(l1)=dConv(s(l3))
z(l2)=Dropout(ReLU(z(l1)),0.2)
其中,z(l1)为第l个空洞卷积网络的输出,z(l2)为dropout层的输出。
进一步地,自注意模块包括两个Transformer编码层,其计算过程为:
h(l1)=LayerNorm(z(l2)+MultiHead(z(l2)))
h(l2)=LayerNorm(h(l1)+FFN(h(l1)))
其中,h(l1)为第l个Transformer编码层的输出;LayerNorm()为层次归一化;MultiHead()为多头自注意力机制;FFN()为前馈神经网络,h(l2)为前馈神经网络的输出。
进一步地,分类模块的计算过程为:
y=Activation(MLP(h(l2)))
其中,y为预测输出的染色质状态,Activation()为分类模块激活函数,MLP()为全连接层。
进一步地,DNA序列扩散模型的损失函数为:
其中,LD为重新加权传统的softmax交叉熵损失函数;C为类别;pj为类j的概率,yj为真正的类标签;w为权重;
其中:
其中,μ为手动选择的经验值。
本发明提供的基于扩散模型的长尾染色质状态预测方法,具有以下有益效果:
本发明利用基于DNA序列扩散模型从噪音中生成尾部类别染色质状态的DNA序列,从而实现样本平衡;然后,利用类别样本平衡的数据集训练染色质状态预测模型,染色质状态预测模型能够有效捕捉基于基因的语法规则,从而精确预测染色质状态。
本发明在DNA序列扩散模型训练中,提出了一种均衡损失,通过增加对生成样本的惩罚从而减小真实样本与生成样本间的偏差带来的影响。
本发明提出的样本平衡方法为长尾染色质状态预测提供了一个简单、通用、模型无关的解决方案;此外,染色质状态预测模型,包含卷积、空洞卷积、自注意力等神经网络算子,能够有效的学习基因的语法规则,从而实现染色质状态的精准分类。
附图说明
图1为本发明基于扩散模型的长尾染色质状态预测方法的流程图。
图2为本发明基于扩散模型的长尾染色质状态预测方法的框架图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1
本实施例提供一种基于扩散模型的长尾染色质状态预测方法,本实施例通过DNA序列扩散模型来生成长尾类的伪样本,进行数据平衡,以解决类别不平衡数据对染色质状态预测的限制;由于通过DNA序列扩散模型生成的样本可能与真实样本之间存在偏差,给出一种均衡损失函数,通过增加对生成样本的惩罚从而减小真实样本与生成样本间的偏差带来的影响,参考图1,其具体包括以下步骤:
步骤S1、获取原始DNA序列,并对所述原始DNA序列进行处理得到DNA编码数据,其具体包括:
获取原始DNA序列对应的染色质状态,并将获取的不同长度的原始DNA序列的左右端进行扩增或截取处理,得到长度为L的DNA序列;
采用独热编码方法将长度为L的DNA序列转换为L×4的编码矩阵数据。
步骤S2、基于DNA编码数据构建DNA序列扩散模型,将处理后的DNA编码数据穿入扩散模型中训练,得到DNA序列扩散模型;
DNA序列扩散模型包括前向过程和后向过程,均为一个参数马尔可夫链,前向过程是逐渐向数据中添加高斯噪声的模糊过程,直到它变成随机噪声,后向步骤是通过噪声预测器逐渐恢复数据的去噪过程;
前向过程为逐渐将高斯噪声添加到原始数据中,直到数据变为纯噪声,其具体包括:
在给定前一个扩散步状态的条件下,预测当前扩散步状态的概率分布q(xt|xt-1):
其中,为分别具有均值和方差/>βtI的高斯分布;xt为在第t次添加噪声之后的每个DNA序列的载体,xt-1为在第t-1次添加噪声之后的每个DNA序列的载体,当t=0时,x0为独热编码后的L×4的矩阵数据;βt为超参数,是一个常数,取值在0和1之间;I为单位矩阵;∈t-1为从第t-1次采样中获得的基本噪声;at=1-βt,/> 为权重,at为扩散步t时a的取值,ai为扩散步i时a的取值,a为一个超参数;∈为t个方差不同的高斯分布相加得到的新的高斯分布,即扩散步t时的噪声,设q(x0)为DNA序列的真实数据分布,x0是从q(x0)中采样的真实DNA序列。
后向过程是通过从高斯分布逐渐去噪来学习数据分布p(x),相当于学习长度为T的马尔可夫链的逆过程,在反向过程中添加“条件”来构建一个通用模型,该模型可以在不同的细胞类型中生成不同的染色质状态序列,定义该通用模型为p(xt-1|xt,c),其具体为:
在给定在第t次添加噪声之后的每个DNA序列的载体xt、细胞类型、染色质状态的条件下,预测在第t-1次添加噪声之后的每个DNA序列的载体xt-1的概率分布p(xt-1|xt,c):
其中,μ(xt,c)和βtI分别为的均值和方差;c为条件,即当前DNA序列对应的细胞类型和染色质状态;
具体的,采用固定方差βtI,使用UNet神经网络去拟合均值μ(xt,c),实现对扩散步t时刻的噪声预测,UNet神经网络的损失函数为LDM
其中,∈θ为基于UNet神经网络的噪声预测器在参数θ下神经网络预测的噪声;为对于参数θ期望,θ为UNet神经网络的参数。
本实施例鉴于真实序列和生成序列之间可能存在偏差,提出均衡损失,旨在减少DNA真实序列和DNA生成序列之间的偏差影响,采用重新加权传统的softmax交叉熵损失函数来实现,该函数即为DNA序列扩散模型的损失函数,即均衡损失函数为:
其中,LD为重新加权传统的softmax交叉熵损失函数;C为类别;pj为类j的概率,yj为真正的类标签;w为权重;
其中:
其中,μ为手动选择的经验值:
然后通过AdamW优化算法对DNA序列扩散模型的损失函数进行优化,直至在验证集中损失达到最小,便停止训练。
步骤S3、结合UNet的噪声预测器,进行有条件的DNA序列扩散模型的逆向过程,得到具有不同染色质状态类别的平衡数据集,其具体包括:
步骤S3.1、从标准正态分布中生成L×4的含噪声的DNA序列,基于DNA序列扩散模型对L×4的含噪声的DNA序列进行迭代,直至t=0;
步骤S3.2、根据L×4的含噪声的DNA序列、细胞类型和染色质状态条件c、扩散步t,采用噪声预测器预测输出DNA序列的噪声预测值;
步骤S3.3、采用L×4的含噪声的DNA序列减去当前噪声预测器预测输出的DNA序列的噪声预测值;
步骤S3.4、重复步骤S3.2和步骤S3.3,直到t=0,生成具有特定细胞类型、染色质状态的DNA序列;
步骤S3.5、重复步骤S3.2、步骤S3.3和步骤S3.4,直至得到具有不同染色质状态类别的平衡数据集
步骤S4、基于平衡数据集,基于反向传播算法进行染色质状态预测模型的训练,以构建染色质状态预测模型,染色质状态预测模型以平衡数据集中的DNA序列为输入,其具体包括:
模体感知卷积模块,用于提取DNA序列模体,其包括3层卷积网络,每层卷积网络包括一个卷积层,一个ReLU激活层,一个dropout层和一个最大池化层Maxpool,其计算过程为:
s(l1)=Conv(x(l))
s(l2)=Dropout(ReLU(s(l1)),0.2)
s(l3)=Maxpools(l2))
其中,s(l1)和x(l)分别为第l个卷积网络的输入和输出, 为平衡数据集;s(l2)为dropout层的输出;s(l3)为最大池化层Maxpool的输出;Conv()为卷积运算,ReLU()为激活函数,Dropout()为防止过拟合函数,取值0.2;Maxpool()为最大池化层;
空洞卷积模块,用于学习DNA序列语法,其包括3层空洞卷积网络,每层所述空洞卷积网络包括一个空洞卷积层,一个ReLU激活层和一个dropout层,其计算过程为:
z(l1)=dConv(s(l3))
z(l2)=Dropout(ReLU(z(l1)),0.2)
其中,z(l1)为第l个空洞卷积网络的输出,z(l2)为dropout层的输出。
自注意模块,用于捕捉DNA序列语法内部的相关性,其包括两个Transformer编码层,其计算过程为:
h(l1)=LayerNorm(z(l2)+MultiHead(z(l2)))
h(l2)=LayerNorm(h(l1)+FFN(h(l1)))
其中,h(l1)为第l个Transformer编码层的输出;LayerNorm()为层次归一化;MultiHead()为多头自注意力机制;FFN()为前馈神经网络,h(l2)为前馈神经网络的输出。
分类模块,用于为每个DNA序列构建染色质状态,并预测输出染色质状态。
其包含一层全连接神经网络和一个激活函数,分类模块的计算过程为:
y=Activation(MLP(h(l2)))
其中,y为预测输出的染色质状态,Activation()为分类模块激活函数,MLP()为全连接层。
进一步地,进行实验一和实验二,对比本发明方法与现有技术的其它方法;
实验一:本发明提出的基于扩散模型的长尾染色质预测方法显著提高预测准确率。
表一总结了本发明提出的长尾染色质状态预测方法与三种对比方法:DeepSEA(方法一),DanQ(方法二),Sei(方法三),并在ChromHMM数据集中的比较结果,如表1所示。
表1染色质状态预测的准确率
原始数据 基于扩散模型实现数据平衡
方法一 0.657 0.671
方法二 0.667 0.683
方法三 0.654 0.676
本发明 0.676 0.691
从表1中得到的主要观察结果如下:
(1)采用本发明扩散模型的方法实现染色质状态的数据平衡,在全部四种方法中性能均有提升。这表明,本发明提出基于扩散模型的数据平衡方法是与模型无关的,该策略可以被不同模型广泛采用。
(2)本发明提出的染色质状态预测模型优于其他三种方法。这表明,本发明提出的方法更能有效捕捉染色质特征,从而实现染色质状态预测。
实验二:本发明提出的均衡损失可以有效减轻真实样本和生成样本之间偏差带来的影响
表2总结了本发明提出的均衡损失在四种方法中的比较结果。
表2染色质状态预测的准确率
不使用均衡损失 使用均衡损失
方法一 0.671 0.706
方法二 0.683 0.719
方法三 0.676 0.702
本发明 0.691 0.732
从表2中得到的主要观察结果如下:
(1)采用本发明提出的均衡损失,在全部四种方法中性能均有提升。这表明,本发明提出的均衡损失是与模型无关的。使用本发明提出的基于扩散模型的样本平衡方法配合均衡损失策略,可以被不同模型广泛采用。
(2)本发明的提出的染色质状态预测方法优于对比方法。
综上,本发明给出了基于扩散模型的框架,该框架能够生成不同细胞不同染色质状态的伪样本实现类别样本平衡,从而解决染色质状态预测中的长尾问题;并提出了一种均衡损失,它通过增加对伪样本的惩罚,以减轻真实样本和伪样本之间的偏差带来的影响;本发明的染色质状态预测模型有效捕捉了DNA序列中的模体,从而学习基因的语法规则,进而实现更精准地预测染色质状态;除此,本发明支持在多GPU并行运算,可用于超大规模染色质状态的分析。
虽然结合附图对发明的具体实施方式进行了详细地描述,但不应理解为对本专利的保护范围的限定。在权利要求书所描述的范围内,本领域技术人员不经创造性劳动即可做出的各种修改和变形仍属本专利的保护范围。

Claims (10)

1.一种基于扩散模型的长尾染色质状态预测方法,其特征在于,包括以下步骤:
S1、获取原始DNA序列,并对所述原始DNA序列进行处理得到DNA编码数据;
S2、基于所述DNA编码数据构建DNA序列扩散模型;
S3、结合UNet的噪声预测器,进行有条件的DNA序列扩散模型的逆向过程,得到具有不同染色质状态类别的平衡数据集;
S4、基于所述平衡数据集,采用反向传播算法构建染色质状态预测模型。
2.根据权利要求1所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述步骤S1中包括:
获取原始DNA序列对应的染色质状态,并将获取的不同长度的原始DNA序列的左右端进行扩增或截取处理,得到长度为L的DNA序列;
采用独热编码方法将长度为L的DNA序列转换为L×4的编码矩阵数据。
3.根据权利要求2所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述步骤S2中的DNA序列扩散模型包括前向过程和后向过程;
所述前向过程包括:
在给定前一个扩散步状态的条件下,预测当前扩散步状态的概率分布q(xt|xt-1):
其中,为分别具有均值和方差/>方差βtI的高斯分布;xt为在第t次添加噪声之后的每个DNA序列的载体,xt-1为在第t-1次添加噪声之后的每个DNA序列的载体,当t=0时,x0为独热编码后的L×4的矩阵数据;βt为超参数,I为单位矩阵;∈t-1为从第t-1次采样中获得的基本噪声;at=1-βt,/> 为权重,at为扩散步t时a的取值,ai为扩散步i时a的取值,a为一个超参数;∈为t个方差不同的高斯分布相加得到的新的高斯分布,即扩散步t时的噪声。
4.根据权利要求3所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述后向过程包括:
在给定在第t次添加噪声之后的每个DNA序列的载体xt、细胞类型、染色质状态的条件下,预测在第t-1次添加噪声之后的每个DNA序列的载体xt-1的概率分布p(xt-1|xt,c):
其中,μ(xt,c)和βtI分别为的均值和方差;c为条件,即当前DNA序列对应的细胞类型和染色质状态;
采用固定方差βtI,使用UNet神经网络去拟合均值μ(xt,c),实现对扩散步t时刻的噪声预测,UNet神经网络的损失函数为LDM
其中,∈θ为基于UNet神经网络的噪声预测器在参数θ下神经网络预测的噪声;为对于参数θ期望,θ为UNet神经网络的参数。
5.根据权利要求4所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述步骤S3包括:
S3.1、从标准正态分布中生成L×4的含噪声的DNA序列,基于DNA序列扩散模型对L×4的含噪声的DNA序列进行迭代,直至t=0;
S3.2、根据L×4的含噪声的DNA序列、细胞类型和染色质状态条件c、扩散步t,采用噪声预测器预测输出DNA序列的噪声预测值;
S3.3、采用L×4的含噪声的DNA序列减去当前噪声预测器预测输出的DNA序列的噪声预测值;
S3.4、重复步骤S3.2和步骤S3.3,直到t=0,生成具有特定细胞类型、染色质状态的DNA序列;
S3.5、重复步骤S3.2、步骤S3.3和步骤S3.4,直至得到具有不同染色质状态类别的平衡数据集。
6.根据权利要求1所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述染色质状态预测模型包括:
模体感知卷积模块,用于提取DNA序列模体,其包括3层卷积网络,每层所述卷积网络包括一个卷积层,一个ReLU激活层,一个dropout层和一个最大池化层Maxpool,其计算过程为:
s(l1)=Conv(x(l))
s(l2)=Dropout(ReLU(s(l1)),0.2)
s(l3)=Maxpool(s(l2))
其中,s(l1)和x(l)分别为第l个卷积网络的输入和输出, 为平衡数据集;s(l2)为dropout层的输出;s(l3)为最大池化层Maxpool的输出;Conv()为卷积运算,ReLU()为激活函数,Dropout()为防止过拟合函数,取值0.2;Maxpool()为最大池化层;
空洞卷积模块,用于学习DNA序列语法;
自注意模块,用于捕捉DNA序列语法内部的相关性;
分类模块,用于为每个DNA序列构建染色质状态,并预测输出染色质状态。
7.根据权利要求6所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述空洞卷积模块包括3层空洞卷积网络,每层所述空洞卷积网络包括一个空洞卷积层,一个ReLU激活层和一个dropout层,其计算过程为:
z(l1)=dConv(s(l3))
z(l2)=Dropout(ReLU(z(l1)),0.2)
其中,z(l1)为第l个空洞卷积网络的输出,z(l2)为dropout层的输出。
8.根据权利要求7所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述自注意模块包括两个Transformer编码层,其计算过程为:
h(l1)=LayerNorm(z(l2)+MultiHead(z(l2)))
h(l2)=LayerNorm(h(l1)+FFN(h(l1)))
其中,h(l1)为第l个Transformer编码层的输出;LayerNorm()为层次归一化;MultiHead()为多头自注意力机制;FFN()为前馈神经网络,h(l2)为前馈神经网络的输出。
9.根据权利要求8所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述分类模块的计算过程为:
y=Activation(MLP(h(l2)))
其中,y为预测输出的染色质状态,Activation()为分类模块激活函数,MLP()为全连接层。
10.根据权利要求4所述的基于扩散模型的长尾染色质状态预测方法,其特征在于,所述DNA序列扩散模型的损失函数为:
其中,LD为重新加权传统的softmax交叉熵损失函数;C为类别;pj为类j的概率,yj为真正的类标签;w为权重;
其中:
其中,μ为手动选择的经验值。
CN202310991350.8A 2023-08-07 2023-08-07 一种基于扩散模型的长尾染色质状态预测方法 Active CN116884495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310991350.8A CN116884495B (zh) 2023-08-07 2023-08-07 一种基于扩散模型的长尾染色质状态预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310991350.8A CN116884495B (zh) 2023-08-07 2023-08-07 一种基于扩散模型的长尾染色质状态预测方法

Publications (2)

Publication Number Publication Date
CN116884495A true CN116884495A (zh) 2023-10-13
CN116884495B CN116884495B (zh) 2024-03-08

Family

ID=88264587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310991350.8A Active CN116884495B (zh) 2023-08-07 2023-08-07 一种基于扩散模型的长尾染色质状态预测方法

Country Status (1)

Country Link
CN (1) CN116884495B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN114023300A (zh) * 2021-11-03 2022-02-08 四川大学 一种基于扩散概率模型的中文语音合成方法
WO2022189771A1 (en) * 2021-03-11 2022-09-15 Oxford University Innovation Limited Generating neural network models, classifying physiological data, and classifying patients into clinical classifications
CN115831217A (zh) * 2022-11-23 2023-03-21 四川大学 基于多模态融合的染色质拓扑关联结构域边界预测方法
CN116153404A (zh) * 2023-02-28 2023-05-23 成都信息工程大学 一种单细胞ATAC-seq数据分析方法
CN116312765A (zh) * 2023-02-15 2023-06-23 成都信息工程大学 基于多阶段的非编码变异对增强子活性影响预测方法
CN116416491A (zh) * 2023-03-14 2023-07-11 福建福清核电有限公司 一种基于轻量化扩散模型的遥感伪样本生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
WO2022189771A1 (en) * 2021-03-11 2022-09-15 Oxford University Innovation Limited Generating neural network models, classifying physiological data, and classifying patients into clinical classifications
CN114023300A (zh) * 2021-11-03 2022-02-08 四川大学 一种基于扩散概率模型的中文语音合成方法
CN115831217A (zh) * 2022-11-23 2023-03-21 四川大学 基于多模态融合的染色质拓扑关联结构域边界预测方法
CN116312765A (zh) * 2023-02-15 2023-06-23 成都信息工程大学 基于多阶段的非编码变异对增强子活性影响预测方法
CN116153404A (zh) * 2023-02-28 2023-05-23 成都信息工程大学 一种单细胞ATAC-seq数据分析方法
CN116416491A (zh) * 2023-03-14 2023-07-11 福建福清核电有限公司 一种基于轻量化扩散模型的遥感伪样本生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程哲;白茜;张浩;王世普;梁宇;: "使用深层卷积神经网络提高Hi-C数据分辨率", 计算机科学, no. 1, 15 June 2020 (2020-06-15) *

Also Published As

Publication number Publication date
CN116884495B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
Zhang et al. NAS-AMR: Neural architecture search-based automatic modulation recognition for integrated sensing and communication systems
CN111564179B (zh) 一种基于三元组神经网络的物种生物学分类方法及***
CN113255832B (zh) 双分支多中心的长尾分布识别的方法
CN113852432A (zh) 基于rcs-gru模型的频谱预测感知方法
CN113591978B (zh) 一种基于置信惩罚正则化的自我知识蒸馏的图像分类方法、设备及存储介质
CN113840297B (zh) 一种基于射频机器学习模型驱动的频谱预测方法
CN111144552A (zh) 一种粮食品质多指标预测方法及装置
CN111355633A (zh) 一种基于pso-delm算法的比赛场馆内手机上网流量预测方法
CN108764546B (zh) 一种基于学术大数据的论文影响力预测方法
CN114596726B (zh) 基于可解释时空注意力机制的停车泊位预测方法
CN116192307A (zh) 非高斯噪声下分布式协同的多天线协作频谱智能感知方法、***、设备及介质
CN111010222A (zh) 一种基于深度学习的大规模mimo下行用户调度方法
CN116884495B (zh) 一种基于扩散模型的长尾染色质状态预测方法
CN109978013B (zh) 一种用于人物动作识别的深度聚类方法
CN117251705A (zh) 一种每日天然气负荷预测方法
CN114973350B (zh) 一种源域数据无关的跨域人脸表情识别方法
CN116243248A (zh) 基于多标签分类网络的多分量干扰信号识别方法
CN113132482B (zh) 一种基于强化学习的分布式消息***参数自适应优化方法
CN111476408B (zh) 一种电力通信设备状态预测方法及***
CN114357869A (zh) 一种基于数据关系学习和预测的多目标优化代理模型设计方法及***
CN110188692B (zh) 一种有效目标快速识别的强化循环级联方法
CN113139464A (zh) 一种电网故障检测方法
CN113343796A (zh) 一种基于知识蒸馏的雷达信号调制方式识别方法
CN112926646A (zh) 数据批量标准化方法、计算设备和计算机可读存储介质
CN113627556B (zh) 一种图像分类的实现方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant