CN116844632B - 一种用于确定抗体序列结构的方法与设备 - Google Patents
一种用于确定抗体序列结构的方法与设备 Download PDFInfo
- Publication number
- CN116844632B CN116844632B CN202310833816.1A CN202310833816A CN116844632B CN 116844632 B CN116844632 B CN 116844632B CN 202310833816 A CN202310833816 A CN 202310833816A CN 116844632 B CN116844632 B CN 116844632B
- Authority
- CN
- China
- Prior art keywords
- protein
- sequence
- antibody
- structure prediction
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 186
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 186
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000000455 protein structure prediction Methods 0.000 claims abstract description 35
- 230000009466 transformation Effects 0.000 claims abstract description 13
- 230000015654 memory Effects 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 239000000427 antigen Substances 0.000 claims description 3
- 102000036639 antigens Human genes 0.000 claims description 3
- 108091007433 antigens Proteins 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 8
- 108010047041 Complementarity Determining Regions Proteins 0.000 description 7
- 230000005291 magnetic effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000005481 NMR spectroscopy Methods 0.000 description 3
- 150000001413 amino acids Chemical class 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000002424 x-ray crystallography Methods 0.000 description 3
- 238000000205 computational method Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010205 computational analysis Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 230000005847 immunogenicity Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000000329 molecular dynamics simulation Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请的目的是提供一种用于确定抗体序列结构的方法与设备,该方法包括:基于深度自注意力变换网络架构,利用第一蛋白质序列,训练蛋白质语言模型;基于蛋白质语言模型,以及第二蛋白质序列与对应的蛋白质结构信息,训练蛋白质结构预测模型;再在蛋白质结构预测模型的基础上,利用抗体序列与对应的抗体结构信息,训练抗体结构预测模型;并利用该抗体结构预测模型,确定相应的抗体结构预测信息。本申请利用蛋白质语言模型,先训练通用的蛋白质结构预测模型再结合抗体结构对该模型进行调整,确定相应的抗体结构预测模型来进行抗体结构的预测,从而减少对抗体样本的数量需求、提升抗体结构预测模型的泛化性、提高结构预测准确性和效率。
Description
技术领域
本申请涉及生物信息学技术领域,尤其涉及一种用于确定抗体序列结构的技术。
背景技术
抗体是一种重要的蛋白质,广泛应用于医药、生物学等领域。抗体结构可以提供对抗体的分子结构、构象和特定功能位点的信息,有助于理解抗体的特定结构与其功能之间的关系。通过对抗体结构进行预测和分析,可以为药物设计提供有价值的信息,通过计算模拟和分析,以改进抗体的特性,例如增强结合亲和力、减少免疫原性、提高稳定性等。目前,主流的抗体结构获取方法是通过X射线晶体学、核磁共振等技术来获取抗体结构,但是这些实验在时间和金钱上都耗费巨大。虽然现在已经出现利用深度神经网络、大规模结构采样等计算方法来预测抗体结构的方法,但是由于抗体互补决定区(ComplementarityDetermining Region,CDR)极其多样化、目前已知结构的抗体样本相对较少,限制了上述计算方法预测抗体结构的准确性与普适性。
发明内容
本申请的一个目的是提供一种用于确定抗体序列结构的方法与设备。
根据本申请的一个方面,提供了一种用于确定抗体序列结构的方法,该方法包括:
基于深度自注意力变换网络架构,利用第一蛋白质序列,训练获得蛋白质语言模型;
基于所述蛋白质语言模型,以及第二蛋白质序列与所述第二蛋白质序列对应的蛋白质结构信息,训练获得蛋白质结构预测模型;
基于所述蛋白质语言模型,以及抗体序列与所述抗体序列对应的抗体结构信息,在所述蛋白质结构预测模型的基础上,训练获得抗体结构预测模型;
基于目标抗体序列,利用所述蛋白质语言模型以及所述抗体结构预测模型,确定所述目标抗体序列对应的抗体结构预测信息。
根据本申请的一个方面,提供了一种用于确定抗体序列结构的计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如上所述任一方法的步骤。
根据本申请的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上所述任一方法的步骤。
根据本申请的一个方面,提供了一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如上所述任一方法的步骤。
根据本申请的一个方面,提供了一种用于确定抗体序列结构的设备,该设备包括:
一一模块,用于基于深度自注意力变换网络架构,利用第一蛋白质序列,训练获得蛋白质语言模型;
一二模块,用于基于所述蛋白质语言模型,以及第二蛋白质序列与所述第二蛋白质序列对应的蛋白质结构信息,训练获得蛋白质结构预测模型;
一三模块,用于基于所述蛋白质语言模型,以及抗体序列与所述抗体序列对应的抗体结构信息,在所述蛋白质结构预测模型的基础上,训练获得抗体结构预测模型;
一四模块,用于基于目标抗体序列,利用所述蛋白质语言模型以及所述抗体结构预测模型,确定所述目标抗体序列对应的抗体结构预测信息。
与现有技术相比,本申请通过基于深度自注意力变换网络架构,利用第一蛋白质序列,训练获得蛋白质语言模型;基于所述蛋白质语言模型,以及第二蛋白质序列与所述第二蛋白质序列对应的蛋白质结构信息,训练获得蛋白质结构预测模型;基于所述蛋白质语言模型,以及抗体序列与所述抗体序列对应的抗体结构信息,在所述蛋白质结构预测模型的基础上,训练获得抗体结构预测模型;基于目标抗体序列,利用所述蛋白质语言模型以及所述抗体结构预测模型,确定所述目标抗体序列对应的抗体结构预测信息。本申请利用蛋白质语言模型,先训练通用的蛋白质结构预测模型再结合抗体结构对该模型进行调整,确定相应的抗体结构预测模型来进行抗体结构的预测,从而减少对抗体样本的数量需求、提升抗体结构预测模型的泛化性、提高结构预测准确性和效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个实施例的一种用于确定抗体序列结构的方法流程图;
图2示出根据本申请一个实施例的一种用于确定抗体序列结构的设备结构图;
图3示出可被用于实施本申请中所述的各个实施例的示例性***。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(例如,中央处理器(Central Processing Unit,CPU))、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(Flash Memory)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase-Change Memory,PCM)、可编程随机存取存储器(Programmable Random Access Memory,PRAM)、静态随机存取存储器(Static Random-Access Memory,SRAM)、动态随机存取存储器(Dynamic Random AccessMemory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能光盘(Digital Versatile Disc,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作***,如Android操作***、iOS操作***等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程逻辑器件(Programmable Logic Device,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、数字信号处理器(Digital Signal Processor,DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(AdHoc网络)等。优选地,所述设备还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。
当然,本领域技术人员应能理解上述设备仅为举例,其他现有的或今后可能出现的设备如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
在本申请的描述中,“多个”的含义是两个或者更多,除非另有明确具体的限定。
图1示出根据本申请一个实施例的一种用于确定抗体序列结构的方法流程图,该方法包括:步骤S11、步骤S12、步骤S13和步骤S14。在步骤S11中,设备1基于深度自注意力变换网络架构,利用第一蛋白质序列,训练获得蛋白质语言模型;在步骤S12中,设备1基于所述蛋白质语言模型,以及第二蛋白质序列与所述第二蛋白质序列对应的蛋白质结构信息,训练获得蛋白质结构预测模型;在步骤S13中,设备1基于所述蛋白质语言模型,以及抗体序列与所述抗体序列对应的抗体结构信息,在所述蛋白质结构预测模型的基础上,训练获得抗体结构预测模型;在步骤S14中,设备1基于目标抗体序列,利用所述蛋白质语言模型以及所述抗体结构预测模型,确定所述目标抗体序列对应的抗体结构预测信息。
在步骤S11中,设备1基于深度自注意力变换网络架构,利用第一蛋白质序列,训练获得蛋白质语言模型。在一些实施例中,所述设备1包括但不限于具有信息处理或者计算能力的用户设备、网络设备,例如,平板电脑、计算机、服务器。在一些实施例中,所述深度自注意力变换网络包括Transformer模型。所述第一蛋白质序列包括多个已编码为所述Transformer模型可以读取的形式的蛋白质序列。
在一些实施例中,所述步骤S11包括:设备1基于深度自注意力变换网络架构,利用掩码机制结合所述第一蛋白质序列,训练获得所述蛋白质语言模型。例如,对所述第一蛋白质序列中各蛋白质序列中的部分氨基酸位点进行掩码(mask),将被掩码的蛋白质序列输入所述蛋白质语言模型,来预测被掩码的氨基酸的类型,以此来进行模型训练。在一些实施例中,在所述蛋白质语言模型的训练过程中,设备1可以采用监督学习方法,通过最小化损失函数来优化所述蛋白质语言模型的模型参数。所述损失函数可以采用交叉熵损失函数。
在一些实施例中,所述步骤S11还包括:步骤S111(未示出),设备1获取第三蛋白质序列;步骤S112(未示出),设备1对所述第三蛋白质序列执行预处理操作,得到所述第一蛋白质序列。在一些实施例中,所述设备1可以从相应蛋白质数据库(例如,UniProt、Proteinatlas、或者InterPro等蛋白质数据库)或者相关文献(例如,相关论文、报告、或者专利文献等)中提取相应的蛋白质序列作为所述第三蛋白质序列。在一些实施例中,为了保障蛋白质语言模型的训练质量,设备1可以对第三蛋白质序列进行相应预处理操作,将预处理得到的第一蛋白质序列用于模型训练。在一些实施例中,所述预处理操作包括以下至少任一项:去除所述第三蛋白质序列中重复序列;对所述第三蛋白质序列进行过滤;对所述第三蛋白质序列进行标准化处理;按照预设形式对所述第三蛋白质序列进行编码。在一些实施例中,对于第三蛋白质序列中相同的蛋白质序列,设备1可以仅保留其中一个蛋白质序列。在一些实施例中,设备1还可以过滤第三蛋白质序列中的低质量蛋白质序列。例如,设备1可以基于蛋白质序列的序列长度,过滤掉不满足序列长度要求的蛋白质序列。在一些实施例中,对于来源不同的蛋白质序列,其表达形式各异,所述设备1还可以对这些蛋白质序列进行标准化处理,将其转换为相同的表达形式。在一些实施例中,设备1还可以对所述第三蛋白质序列中各蛋白质序列进行编码(例如,基于蛋白质序列的氨基酸组成进行one-hot编码),将所述第三蛋白质序列转换为所述深度自注意力变换网络易于利用的形式。
在一些实施例中,所述预处理操作包括对所述第三蛋白质序列进行过滤,所述步骤S112包括:设备1基于所述第三蛋白质序列中各蛋白质序列间的相似度信息,确定多个蛋白质聚类;基于所述多个蛋白质聚类,确定相应的第一蛋白质序列。例如,设备1可以利用MMseqs2(Many-against-Manysequencesearching,多对多序列搜索)、CD-HIT、或者PSI-BLAST等算法确定第三蛋白质序列中各蛋白质序列间的相似度信息。基于所述相似度信息进行聚类,确定多个蛋白质聚类。设备1可以从每个蛋白质聚类中选取一个或多个蛋白质序列来组成相应的第一蛋白质序列。
在步骤S12中,设备1基于所述蛋白质语言模型,以及第二蛋白质序列与所述第二蛋白质序列对应的蛋白质结构信息,训练获得蛋白质结构预测模型。在一些实施例中,所述设备1先获取用于训练的所述第二蛋白质序列以及相应的所述蛋白质结构信息。再利用所述第二蛋白质序列以及相应的所述蛋白质结构信息进行蛋白质结构预测模型的训练。例如,所述第二蛋白质序列可以从相应蛋白质数据库(例如,UniProt、Proteinatlas、或者InterPro等蛋白质数据库)或者相关文献(例如,相关论文、报告、或者专利文献等)中提取。与前述第三蛋白质序列的处理类似,所述设备1也可以通过相似的预处理操作对所述第二蛋白质序列进行处理,使得经预处理操作后第二蛋白质序列更利于后续模型训练。所述蛋白质结构信息可以来自于实验(例如,X射线晶体学、核磁共振等)测定,也可以通过现有的蛋白质结构预测方法(例如,AlphaFold2、RoseTTAFold等)确定。为便于模型训练,所述蛋白质结构信息可以使用三维坐标表示。
在一些实施例中,所述步骤S12包括:步骤S121(未示出),设备1基于所述蛋白质语言模型,确定所述第二蛋白质序列对应的第一编码信息;步骤S122(未示出),设备1基于所述第一编码信息以及所述第二蛋白质序列对应的蛋白质结构信息,训练获得所述蛋白质结构预测模型。例如,设备1先将所述第二蛋白质序列输入蛋白质语言模型,得到相应的第一编码信息(embedding)。所述第一编码信息包含蛋白质序列的共进化信息。设备1基于包含共进化信息的所述第一编码信息以及所述蛋白质结构信息来进行蛋白质结构预测模型的训练,有利于提高所述蛋白质结构预测模型的结构预测准确性。在一些实施例中,设备1基于设计的深度学习模型,利用所述第一编码信息进行相应的蛋白质结构预测,来进行模型训练,获得所述蛋白质结构预测模型。所述深度学习模型包括但不限于基于注意力机制的模型(例如,Transformer模型)。在一些实施例中,所述步骤S122包括:设备1基于所述第一编码信息以及所述第二蛋白质序列对应的蛋白质结构信息,通过最小化损失函数来训练获得所述蛋白质结构预测模型。例如,在训练过程中,设备1可以通过最小化损失函数来优化所述蛋白质结构预测模型的模型参数。所述损失函数包括但不限于均方误差损失函数或结构相关性损失函数。
在步骤S13中,设备1基于所述蛋白质语言模型,以及抗体序列与所述抗体序列对应的抗体结构信息,在所述蛋白质结构预测模型的基础上,训练获得抗体结构预测模型。在一些实施例中,所述设备1先获取用于训练的所述抗体序列以及相应的所述抗体结构信息。再在所述步骤S12获取的蛋白质结构预测模型的基础上进行模型训练,得到相应的抗体结构预测模型。所述抗体序列可以从相应抗体数据库或者文献中获取。与前述第三蛋白质序列的处理类似,所述设备1也可以通过相似的预处理操作对所述抗体序列进行处理。所述抗体结构信息通过实验(例如,X射线晶体学、核磁共振等)测定。为便于模型训练,所述抗体结构信息可以使用三维坐标表示。本方案在蛋白质结构预测模型的基础上进行抗体结构预测模型的训练,可以有效提升获得的抗体结构预测模型的性能,避免由于测定抗体结构信息需要耗费大量时间、资源,可用于训练的已知抗体结构信息的抗体序列相对较少,直接基于抗体序列及相应结构得到的模型往往准确性与普适性不佳的情况。
在一些实施例中,所述步骤S13包括:设备1基于所述蛋白质语言模型,确定抗体序列对应的第二编码信息;基于所述第二编码信息以及所述抗体序列对应的抗体结构信息,在所述蛋白质结构预测模型的基础上,训练获得所述抗体结构预测模型。例如,设备1先将所述抗体序列输入所述蛋白质语言模型,得到相应的第二编码信息(embedding)。所述第二编码信息包含蛋白质序列的共进化信息。设备1基于步骤S12中获得的蛋白质结构预测模型来进行训练。在训练过程中,设备1同样可以通过最小化损失函数来优化相应的模型参数。所述损失函数包括但不限于均方误差损失函数或结构相关性损失函数。在一些实施例中,考虑到预测抗体序列互补决定区(Complementarity Determining Region,CDR)的复杂性,在训练过程中,可以增加抗体序列互补决定区的权重,以获得对抗体序列互补决定区更好的预测效果。
在步骤S14中,设备1基于目标抗体序列,利用所述蛋白质语言模型以及所述抗体结构预测模型,确定所述目标抗体序列对应的抗体结构预测信息。在一些实施例中,所述步骤S14包括:设备1基于所述蛋白质语言模型,确定目标抗体序列对应的第三编码信息;基于所述第三编码信息,利用所述抗体结构预测模型,确定所述目标抗体序列对应的抗体结构预测信息。例如,所述设备1可以先对所述目标抗体序列进行编码(例如,基于目标抗体序列的氨基酸组成进行one-hot编码),将所述目标抗体序列转换为所述蛋白质语言模型易于利用的形式。再通过所述蛋白质语言模型获取所述目标抗体序列对应的第三编码信息。然后基于所述抗体结构预测模型进行所述目标抗体序列的抗体结构预测。
在一些实施例中,所述方法还包括:步骤S15(未示出),设备1对所述抗体结构预测信息进行结构优化,确定相应的目标抗体结构预测信息。例如,对于步骤S14中获得的抗体结构预测信息,所述设备1可以基于分子动力学模拟、统计或者经验能量函数等方法对所述抗体结构预测信息进行优化。通过迭代调整抗体结构预测信息中各原子的位置信息,以最终获取能量最低的目标抗体结构预测信息。
在一些实施例中,所述步骤S15包括:设备1基于所述抗体结构预测信息,结合所述目标抗体序列对应的目标抗原序列,构建相应的复合物结构;基于所述复合物结构,对所述抗体结构预测信息进行结构优化,确定相应的目标抗体结构预测信息。例如,在对所述抗体结构预测信息进行结构优化时,所述设备1可以将所述目标抗体序列与对应的目标抗原序列结合,构建相应的复合物结构。基于该复合物结构,对所述目标抗体序列对应的互补决定区的结构进行优化,以进一步提升结构优化效果。
图2示出根据本申请一个实施例的一种用于确定抗体序列结构的设备结构图,所述设备1包括一一模块11、一二模块12、一三模块13和一四模块14。所述一一模块11基于深度自注意力变换网络架构,利用第一蛋白质序列,训练获得蛋白质语言模型;所述一二模块12基于所述蛋白质语言模型,以及第二蛋白质序列与所述第二蛋白质序列对应的蛋白质结构信息,训练获得蛋白质结构预测模型;所述一三模块13基于所述蛋白质语言模型,以及抗体序列与所述抗体序列对应的抗体结构信息,在所述蛋白质结构预测模型的基础上,训练获得抗体结构预测模型;所述一四模块14基于目标抗体序列,利用所述蛋白质语言模型以及所述抗体结构预测模型,确定所述目标抗体序列对应的抗体结构预测信息。在此,所述图2示出的一一模块11、一二模块12、一三模块13和一四模块14对应的具体实施方式分别与前述步骤S11、步骤S12、步骤S13和步骤S14的具体实施例相同或相近,故不再赘述,以引用方式包含于此。
在一些实施例中,所述一一模块11包括一一一单元111(未示出)和一一二单元112(未示出)。所述一一一单元111获取第三蛋白质序列;所述一一二单元112对所述第三蛋白质序列执行预处理操作,得到所述第一蛋白质序列。在此,该一一一单元111和一一二单元112的具体实施方式分别与前述步骤S111和步骤S112的具体实施例相同或相近,故不再赘述,以引用方式包含于此。
在一些实施例中,所述一二模块12包括一二一单元121(未示出)和一二二单元122(未示出)。所述一二一单元121基于所述蛋白质语言模型,确定所述第二蛋白质序列对应的第一编码信息;所述一二二单元122基于所述第一编码信息以及所述第二蛋白质序列对应的蛋白质结构信息,训练获得所述蛋白质结构预测模型。在此,该一二一单元121和一二二单元122的具体实施方式分别与前述步骤S121和步骤S122的具体实施例相同或相近,故不再赘述,以引用方式包含于此。
在一些实施例中,所述设备1还包括:一五模块15(未示出),对所述抗体结构预测信息进行结构优化,确定相应的目标抗体结构预测信息。在此,该一五模块15的具体实施方式与前述步骤S15的具体实施方式相同或相近,故不再赘述,以引用方式包含于此。
图3示出了可被用于实施本申请中所述的各个实施例的示例性***;如图3所示在一些实施例中,***300能够作为各所述实施例中的任意一个设备。在一些实施例中,***300可包括具有指令的一个或多个计算机可读介质(例如,***存储器或NVM/存储设备320)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如,(一个或多个)处理器305)。
对于一个实施例,***控制模块310可包括任意适当的接口控制器,以向(一个或多个)处理器305中的至少一个和/或与***控制模块310通信的任意适当的设备或组件提供任意适当的接口。
***控制模块310可包括存储器控制器模块330,以向***存储器315提供接口。存储器控制器模块330可以是硬件模块、软件模块和/或固件模块。
***存储器315可被用于例如为***300加载和存储数据和/或指令。对于一个实施例,***存储器315可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,***存储器315可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,***控制模块310可包括一个或多个输入/输出(I/O)控制器,以向NVM/存储设备320及(一个或多个)通信接口325提供接口。
例如,NVM/存储设备320可被用于存储数据和/或指令。NVM/存储设备320可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备320可包括在物理上作为***300被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备320可通过网络经由(一个或多个)通信接口325进行访问。
(一个或多个)通信接口325可为***300提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。***300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
对于一个实施例,(一个或多个)处理器305中的至少一个可与***控制模块310的一个或多个控制器(例如,存储器控制器模块330)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器305中的至少一个可与***控制模块310的一个或多个控制器的逻辑封装在一起以形成***级封装(SiP)。对于一个实施例,(一个或多个)处理器305中的至少一个可与***控制模块310的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器305中的至少一个可与***控制模块310的一个或多个控制器的逻辑集成在同一模具上以形成片上***(SoC)。
在各个实施例中,***300可以但不限于是:服务器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,***300可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,***300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
除上述各实施例介绍的方法和设备外,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机代码,当所述计算机代码被执行时,如前任一项所述的方法被执行。
本申请还提供了一种计算机程序产品,当所述计算机程序产品被计算机设备执行时,如前任一项所述的方法被执行。
本申请还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序;
当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前任一项所述的方法。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个***传送到另一***的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如,光纤、同轴等))和能传播能量波的无线(未有导的传输)介质,诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。
作为示例而非限制,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括,但不限于,易失性存储器,诸如随机存储器(RAM,DRAM,SRAM);以及非易失性存储器,诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM);以及磁性和光学存储设备(硬盘、磁带、CD、DVD);或其它现在已知的介质或今后开发的能够存储供计算机***使用的计算机可读信息/数据。
在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (9)
1.一种用于确定抗体序列结构的方法,其中,所述方法包括:
基于深度自注意力变换网络架构,利用第一蛋白质序列,训练获得蛋白质语言模型,其中,所述基于深度自注意力变换网络架构,利用第一蛋白质序列,训练获得蛋白质语言模型包括:基于深度自注意力变换网络架构,利用掩码机制结合所述第一蛋白质序列,训练获得所述蛋白质语言模型,其中,所述深度自注意力变换网络包括Transformer模型,所述第一蛋白质序列包括多个已编码为所述Transformer模型可读取的形式的蛋白质序列;
基于所述蛋白质语言模型,以及第二蛋白质序列与所述第二蛋白质序列对应的蛋白质结构信息,训练获得蛋白质结构预测模型,其中,所述基于所述蛋白质语言模型,以及第二蛋白质序列与所述第二蛋白质序列对应的蛋白质结构信息,训练获得蛋白质结构预测模型包括:基于所述蛋白质语言模型,确定所述第二蛋白质序列对应的第一编码信息;基于所述第一编码信息以及所述第二蛋白质序列对应的蛋白质结构信息,训练获得所述蛋白质结构预测模型;
基于所述蛋白质语言模型,以及抗体序列与所述抗体序列对应的抗体结构信息,在所述蛋白质结构预测模型的基础上,训练获得抗体结构预测模型,其中,所述基于所述蛋白质语言模型,以及抗体序列与所述抗体序列对应的抗体结构信息,在所述蛋白质结构预测模型的基础上,训练获得抗体结构预测模型包括:基于所述蛋白质语言模型,确定抗体序列对应的第二编码信息;基于所述第二编码信息以及所述抗体序列对应的抗体结构信息,在所述蛋白质结构预测模型的基础上,训练获得所述抗体结构预测模型;
基于目标抗体序列,利用所述蛋白质语言模型以及所述抗体结构预测模型,确定所述目标抗体序列对应的抗体结构预测信息,其中,所述基于目标抗体序列,利用所述蛋白质语言模型以及所述抗体结构预测模型,确定所述目标抗体序列对应的抗体结构预测信息包括:基于所述蛋白质语言模型,确定目标抗体序列对应的第三编码信息;基于所述第三编码信息,利用所述抗体结构预测模型,确定所述目标抗体序列对应的抗体结构预测信息。
2.根据权利要求1所述的方法,其中,所述基于深度自注意力变换网络架构,利用第一蛋白质序列,训练获得蛋白质语言模型还包括:
获取第三蛋白质序列;
对所述第三蛋白质序列执行预处理操作,得到所述第一蛋白质序列。
3.根据权利要求2所述的方法,其中,所述预处理操作包括以下至少任一项:
去除所述第三蛋白质序列中重复序列;
对所述第三蛋白质序列进行过滤;
对所述第三蛋白质序列进行标准化处理;
按照预设形式对所述第三蛋白质序列进行编码。
4.根据权利要求3所述的方法,其中,所述预处理操作包括对所述第三蛋白质序列进行过滤,所述对所述第三蛋白质序列执行预处理操作,得到所述第一蛋白质序列包括:
基于所述第三蛋白质序列中各蛋白质序列间的相似度信息,确定多个蛋白质聚类;
基于所述多个蛋白质聚类,确定相应的第一蛋白质序列。
5.根据权利要求1所述的方法,其中,所述基于所述第一编码信息以及所述第二蛋白质序列对应的蛋白质结构信息,训练获得所述蛋白质结构预测模型包括:
基于所述第一编码信息以及所述第二蛋白质序列对应的蛋白质结构信息,通过最小化损失函数来训练获得所述蛋白质结构预测模型。
6.根据权利要求1所述的方法,其中,所述方法还包括:
对所述抗体结构预测信息进行结构优化,确定相应的目标抗体结构预测信息。
7.根据权利要求6所述的方法,其中,所述对所述抗体结构预测信息进行结构优化,确定相应的目标抗体结构预测信息包括:
基于所述抗体结构预测信息,结合所述目标抗体序列对应的目标抗原序列,构建相应的复合物结构;
基于所述复合物结构,对所述抗体结构预测信息进行结构优化,确定相应的目标抗体结构预测信息。
8.一种用于确定抗体序列结构的计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如权利要求1至7中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310833816.1A CN116844632B (zh) | 2023-07-07 | 2023-07-07 | 一种用于确定抗体序列结构的方法与设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310833816.1A CN116844632B (zh) | 2023-07-07 | 2023-07-07 | 一种用于确定抗体序列结构的方法与设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116844632A CN116844632A (zh) | 2023-10-03 |
CN116844632B true CN116844632B (zh) | 2024-02-09 |
Family
ID=88168594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310833816.1A Active CN116844632B (zh) | 2023-07-07 | 2023-07-07 | 一种用于确定抗体序列结构的方法与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844632B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022194434A1 (en) * | 2021-03-16 | 2022-09-22 | Deepmind Technologies Limited | Predicting complete protein representations from masked protein representations |
CN115527605A (zh) * | 2022-11-04 | 2022-12-27 | 南京理工大学 | 基于深度图模型的抗体结构预测方法 |
CN116189776A (zh) * | 2022-12-20 | 2023-05-30 | 重庆邮电大学 | 一种基于深度学习的抗体结构生成方法 |
CN116189769A (zh) * | 2022-12-12 | 2023-05-30 | 百图生科(北京)智能技术有限公司 | 神经网络的训练方法和预测蛋白质结构的方法 |
WO2023107580A1 (en) * | 2021-12-08 | 2023-06-15 | The Johns Hopkins University | Generative language models and related aspects for peptide and protein sequence design |
-
2023
- 2023-07-07 CN CN202310833816.1A patent/CN116844632B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022194434A1 (en) * | 2021-03-16 | 2022-09-22 | Deepmind Technologies Limited | Predicting complete protein representations from masked protein representations |
WO2023107580A1 (en) * | 2021-12-08 | 2023-06-15 | The Johns Hopkins University | Generative language models and related aspects for peptide and protein sequence design |
CN115527605A (zh) * | 2022-11-04 | 2022-12-27 | 南京理工大学 | 基于深度图模型的抗体结构预测方法 |
CN116189769A (zh) * | 2022-12-12 | 2023-05-30 | 百图生科(北京)智能技术有限公司 | 神经网络的训练方法和预测蛋白质结构的方法 |
CN116189776A (zh) * | 2022-12-20 | 2023-05-30 | 重庆邮电大学 | 一种基于深度学习的抗体结构生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116844632A (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3612989B1 (en) | Flexible hardware for high throughput vector dequantization with dynamic vector length and codebook size | |
Yuan et al. | A comprehensive review of binary neural network | |
WO2022022173A1 (zh) | 药物分子属性确定方法、装置及存储介质 | |
CN110852438B (zh) | 模型生成方法和装置 | |
You et al. | Prediction of protein-protein interactions from amino acid sequences using a novel multi-scale continuous and discontinuous feature set | |
CN111656375A (zh) | 使用量子经典计算硬件用于量子计算使能的分子从头算模拟的方法和*** | |
CN111209903A (zh) | 一种人脸检测的方法与设备 | |
Zhuang et al. | Structured binary neural networks for image recognition | |
Lin et al. | Tiny machine learning: progress and futures [feature] | |
CN113887821A (zh) | 一种用于风险预测的方法和装置 | |
Ali et al. | DBP‐iDWT: Improving DNA‐Binding Proteins Prediction Using Multi‐Perspective Evolutionary Profile and Discrete Wavelet Transform | |
CN111209468A (zh) | 一种用于生成关键词的方法与设备 | |
CN116844632B (zh) | 一种用于确定抗体序列结构的方法与设备 | |
CN112686316A (zh) | 一种用于确定标签的方法与设备 | |
CN116646001B (zh) | 基于联合式跨域注意力模型预测药物靶标结合性的方法 | |
Zhang et al. | Phenotype classification using proteome data in a data-independent acquisition tensor format | |
Luo et al. | A Caps-UBI model for protein ubiquitination site prediction | |
CN117037917A (zh) | 细胞类型预测模型训练方法、细胞类型预测方法和装置 | |
Sarikas et al. | Gas adsorption meets deep learning: voxelizing the potential energy surface of metal-organic frameworks | |
CN117672364A (zh) | 一种用于预测蛋白质突变稳定性的方法、设备及介质 | |
CN109670158B (zh) | 一种用于根据资讯数据生成文本内容的方法与设备 | |
WO2020114375A1 (zh) | 一种用于生成和识别二维码的方法与设备 | |
CN118395979A (zh) | 一种用于确定实体名称的方法、设备、介质及程序产品 | |
CN114363893B (zh) | 一种用于确定热点分享密码失效的方法与设备 | |
CN116844637A (zh) | 一种获取第一源抗体序列对应的第二源蛋白质序列的方法与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |