CN114898811A - 蛋白质训练模型的训练方法及装置、电子设备和存储介质 - Google Patents

蛋白质训练模型的训练方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114898811A
CN114898811A CN202210583278.0A CN202210583278A CN114898811A CN 114898811 A CN114898811 A CN 114898811A CN 202210583278 A CN202210583278 A CN 202210583278A CN 114898811 A CN114898811 A CN 114898811A
Authority
CN
China
Prior art keywords
training
protein
sequence
model
training model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210583278.0A
Other languages
English (en)
Inventor
唐杰
肖易佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202210583278.0A priority Critical patent/CN114898811A/zh
Publication of CN114898811A publication Critical patent/CN114898811A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本公开公开了蛋白质训练模型的训练方法及装置、电子设备和存储介质,涉及数据处理技术领域,主要技术方案包括:将蛋白质数据输入预训练模型,其中,所述蛋白质数据为未标记的蛋白质数据,基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列,基于所述预训练模型对所述预训练用蛋白质序列进行训练,以获取所述预训练模型输出至少一种蛋白质预测任务。与相关技术相比,基于预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列,并基于预训练用蛋白质序列进行训练,实现对蛋白质的结构和/或性质的高效预测。

Description

蛋白质训练模型的训练方法及装置、电子设备和存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种蛋白质训练模型的训练方法及装置、电子设备和存储介质。
背景技术
蛋白质是生命体不可缺少的组成部分,是生物催化(如淀粉酶)、运输(如血红蛋白)、免疫(如抗体)、运动(如肌动蛋白)等一系列生命活动的承担者。蛋白质结构、性质信息的对生命科学的研究至关重要。传统的测量方法基于湿实验进行,对人力和物力要求高,而且测量周期较长。高通量测序技术的出现,使得蛋白质序列数据呈现爆发式增长。由于蛋白质序列和文本序列的相似性,研究人员使用自然语言处理模型来建模蛋白质序列,并且在蛋白质性质、结构预测方面取得了不错的表现。自然语言处理领域的大规模预训练模型,在自然语言处理的下游任务上取得了优异的表现,说明在合理的训练条件下,随着规模的增长,大规模预训练模型仍然可收敛,并取得更加优异的表现。同样,扩大蛋白质语言模型的规模,也可以提高模型建模蛋白质序列的能力。
传统的蛋白质结构的分析范式是实验性的,经典方法包括X射线晶体学、电子显微镜和核磁共振光谱学分析等。实验方法费时费力,严重依赖硬件仪器。例如,X射线晶体学包括蛋白质纯化、蛋白质结晶、X射线衍射、衍射图案分析和三维结构重建,上述实施方式效率较低。高通量测序的进步提供了高效且经济的测序手段,海量的无标记数据使计算机分析成为可能。
发明内容
本公开提供了一种蛋白质训练模型的训练方法、装置、电子设备和存储介质。其主要目的在于基于大规模蛋白质语言模型实现高效对蛋白质的结构和性质的预测。
根据本公开的第一方面,提供了一种蛋白质训练模型的训练方法,包括:
将蛋白质数据输入预训练模型;其中,所述蛋白质数据为未标记的蛋白质数据;
基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列;
基于所述预训练模型对所述预训练用蛋白质序列进行训练,以获取所述预训练模型输出至少一种蛋白质预测任务。
可选的,所述方法还包括:
基于带标记的样本蛋白质序列,对所述预训练模型输出的至少一种蛋白质预测任务进行调整。
可选的,所述基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列包括:
若确定预训练用蛋白质序列的长度存在差异,则使用序列间分隔符将至少两条预训练用蛋白质序列拼接为一条预训练用蛋白质序列;
确定拼接的预训练用蛋白质序列的长度是否等于或者大于预训练模型的最大处理序列长度;
若是,则停止预训练用蛋白质序列的拼接,并根据预训练用蛋白质序列的顺序,添加预设填充符,使添加所述预设填充符的预训练用蛋白质序列的长度等于所述预训练模型的最大处理序列长度。
可选的,所述预测任务包括二级结构预测任务、分类预测任务、远程同源性检测任务、荧光性预测任务以及稳定性预测任务中的至少一种。
可选的,所述预训练模型的损失函数采用掩码语言模型损失函数;
所述预训练模型为多序列预训练模型。
根据本公开的第一方面,提供了一种蛋白质训练模型的训练方法,其中,包括:
根据本公开的第二方面,提供了一种蛋白质训练模型的训练装置,包括:
输入单元,用于将蛋白质数据输入预训练模型;其中,所述蛋白质数据为未标记的蛋白质数据;
拼接单元,用于基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列;
训练单元,用于基于所述预训练模型对所述预训练用蛋白质序列进行训练,以获取所述预训练模型输出至少一种蛋白质预测任务。
可选的,所述装置还包括:
调整单元,用于基于带标记的样本蛋白质序列,对所述预训练模型输出的至少一种蛋白质预测任务进行调整。
可选的,所述训练单元包括:
拼接模块,用于当确定预训练用蛋白质序列的长度存在差异时,使用序列间分隔符将至少两条预训练用蛋白质序列拼接为一条预训练用蛋白质序列;
确定模块,用于确定拼接的预训练用蛋白质序列的长度是否等于或者大于预训练模型的最大处理序列长度;
停止模块,用于当所述确定模块确定拼接的预训练用蛋白质序列的长度等于或者大于预训练模型的最大处理序列长度时,停止预训练用蛋白质序列的拼接;
添加模块,用于根据预训练用蛋白质序列的顺序,添加预设填充符,使添加所述预设填充符的预训练用蛋白质序列的长度等于所述预训练模型的最大处理序列长度。
可选的,所述预测任务包括二级结构预测任务、分类预测任务、远程同源性检测任务、荧光性预测任务以及稳定性预测任务中的至少一种。
可选的,所述预训练模型的损失函数采用掩码语言模型损失函数;
所述预训练模型为多序列预训练模型。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如前述第一方面所述的方法。
本公开提供的蛋白质训练模型的训练方法、装置、电子设备和存储介质,将蛋白质数据输入预训练模型,基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列,基于所述预训练模型对所述预训练用蛋白质序列进行训练,以获取所述预训练模型输出至少一种蛋白质预测任务。与相关技术相比,本申请实施例基于预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列,并基于预训练用蛋白质序列进行训练,实现高效对蛋白质的结构和/或性质的预测。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例所提供的一种蛋白质训练模型的训练方法的流程示意图;
图2为本公开实施例提供的一种蛋白质训练模型的训练装置的结构示意图;
图3为本公开实施例提供的另一种蛋白质训练模型的训练装置的结构示意图;
图4为本公开实施例提供的示例电子设备300的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本公开实施例的蛋白质训练模型的训练方法、装置、电子设备和存储介质。
图1为本公开实施例所提供的一种蛋白质训练模型的训练方法的流程示意图。
如图1所示,该方法包含以下步骤:
步骤101,将蛋白质数据输入预训练模型,其中,所述蛋白质数据为未标记的蛋白质数据。
蛋白质数据包含多个氨基酸,本申请实施例需要解决的问题可以形式化定义为,输入是一条长度为n的蛋白质数据S=Seq{a1,a2,…an},其中ai表示蛋白质数据中的第i个氨基酸。本申请实施例中基于预训练模型输出是对蛋白质的结构和性质的预测T,预训练蛋白质语言模型为M,预测分为以下两步。
第一步,蛋白质编码;将待预测蛋白序列输入预训练语言模型进行编码:输入是蛋白质序列S,输出是蛋白质的编码向量Vh,h表示编码器的隐变量维度Vh=M(S)。
第二步,任务预测,在步骤103中详细说明。
步骤102,基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列。
由于蛋白质序列长短不一,且方差大(长度从102-104不等),会造成不同设备间的负载不均衡,出现短的序列样本等待长的序列样本的情况。本申请实施例采用多序列拼接的方法,提高训练效率。
步骤103,基于所述预训练模型对所述预训练用蛋白质序列进行训练,以获取所述预训练模型输出至少一种蛋白质预测任务。
呈由步骤101,任务预测包括二级结构预测任务、分类预测任务、远程同源性检测任务、荧光性预测任务以及稳定性预测任务中的至少一种。
其中:
二级结构预测:预测目标为每个氨基酸的二级结构,第i个氨基酸对应的标签为ti。下游预测模型为多层全连接神经网络P。
hi=M(S)i
ti=P(hi)
接触预测:预测目标蛋白质的接触图,为n×n的0-1二元矩阵(Tn×n),描述了氨基酸对之间的距离关系:若氨基酸对在三维空间中的距离小于阈值
Figure BDA0003664994020000051
则认为氨基酸对“接触”(标记为1),否则认为“分离”(标记为0)。下游预测模型为多层全连接神经网络P。氨基酸对(ai,aj)对应的标签为t(i,j)
单序列模型:输入为单条蛋白质序列S
hi=M(S)i
hj=M(S)i
t(i,j)=P(concat[hi,hj])
这里的concat[hi,hj]表示将hi,hj拼接为一个向量。
多序列模型:模型骨架采用MSA transformer。使用hhblits工具包对输入的单条蛋白质序列S进行同源性搜索,获得m-1条长度为n的同源蛋白质,组成MSA(multiplesequence alignments)矩阵M=Mat{{a11,a12,…a1n},{a21,a22,…a2n}…{am1,am2,…amn}},aij表示蛋白质序列中的i条蛋白质的第j个氨基酸。
预测时,获取MSAtransformer模型中所有行注意力头的注意力图(attentionmap),对于L层、每层H个注意力头的模型而言,可获取L×H个注意力图[M1,1,M1,2,…ML,H]。在微调数据集上训练回归模型R,最终预测目标由这L×H个注意力图加权得到
T=R([M1,1,M1,2,…ML,H])
远程同源性:预测目标是蛋白质序列所属fold,为序列级分类任务,蛋白质序列S的预测标签为t。下游预测模型为多层全连接神经网络P。
h=M(S)
t=P(h)
荧光性预测:绿色萤光蛋白(Green fluorescent protein,GFP)包含238个氨基酸,可用于生物显微等。对GFP的准确建模,能发掘蛋白质的荧光特性,辅助蛋白质工程设计。输入是GFP的突变体S′,预测目标是突变体的荧光强度t′,为序列级回归任务。下游预测模型为多层全连接神经网络P。
h′=M(S′)
t′=P(h′)
稳定性预测:蛋白质保持其自然构象的极限浓度,反映了蛋白质的稳定性。对于口服类生物活性药(蛋白质类)而言,稳定性尤为重要:高稳定性可以保障药物在到达靶点前不被消化道降解。对蛋白质稳定性的建模,可以辅助蛋白质类药物的设计。蛋白质序列S的预测标签为t。下游预测模型为多层全连接神经网络P。
h=M(S)
t=P(h)
本公开提供的蛋白质训练模型的训练方法,将蛋白质数据输入预训练模型,基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列,基于所述预训练模型对所述预训练用蛋白质序列进行训练,以获取所述预训练模型输出至少一种蛋白质预测任务。与相关技术相比,本申请实施例基于预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列,并基于预训练用蛋白质序列进行训练,实现高效对蛋白质的结构和/或性质的预测。
进一步的,为了提高预测的准确率,在执行完步骤103之后,基于带标记的样本蛋白质序列,对所述预训练模型输出的至少一种蛋白质预测任务进行调整。作为本申请实施例的一种可行方式,下游任务的模型微调需要准备lmdb格式的微调数据。使用者需预设文件夹下实现数据加载代码xxx(task).py文件,同时在eval_utils.py内实现下游任务的预测模型,即可进行下游微调。
实际应用中的,本申请实施例继承了Megatron-LM框架的数据预处理模式:蛋白质包含单序列蛋白质与多序列蛋白质。
对于单序列蛋白质数据,记训练集为{S1,S2,S3,…SN}。将每条序列处理为一个字典对象,其中"text"键对应蛋白质的序列。若需要输入蛋白质序列的更多信息,使用者可以在字典内加入其他的key-value对实现。
对于多序列蛋白质数据,蛋白质分子在不断地进化中,和生物种群一样,蛋白质分子也会发生突变,具体而言包括替换、***、删除,经过自然筛选能稳定存续的分子具有共性(如稳定性)。一组进化上相关联的等长蛋白质,被称作多序列(MSA,multiplesequencealignments)样本。同源蛋白序列间的相似与差异信息可被用于蛋白质结构建模。MSA样本中包含的共进化信息在蛋白质结构建模方面具有天然的优势。
对于多序列模型,需要预先使用生物信息学工具,构建多序列模型的输入MSA数据。本申请实施例采用RaptorX-3DModeling提供的序列搜索工具,进行MSA数据构建。
在执行步骤102执行基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列时,可以采用但不局限于以下方式:若确定预训练用蛋白质序列的长度存在差异,则使用序列间分隔符将至少两条预训练用蛋白质序列拼接为一条预训练用蛋白质序列,确定拼接的预训练用蛋白质序列的长度是否等于或者大于预训练模型的最大处理序列长度,若是,则停止预训练用蛋白质序列的拼接,并根据预训练用蛋白质序列的顺序,添加预设填充符,使添加所述预设填充符的预训练用蛋白质序列的长度等于所述预训练模型的最大处理序列长度。需要说明的事,最终拼接的结果不超过最大长度,即当前待拼接的序列长度与已拼接的序列长度需小于预训练模型的最大处理序列长度。
本申请实施例采用多序列拼接的方法,提高训练效率。细节描述如下:
设模型最大处理序列长度为L,蛋白质数据库D={S0,S1,S2,…,Sn-1},其中Sk表示第k条蛋白序列。使用"[CLS]"符号作为序列间分隔符,模型最大能接受的蛋白质长度为MAX_LEN,将多条蛋白质拼接为一条蛋白质,伪代码如下:
Figure BDA0003664994020000081
为了便于理解,假设,预训练模型的最大处理序列长度为10,蛋白数据库里,蛋白序列的长度分别为1、2、3、5、4,在执行拼接时,拼接长度为:1+2+3=6,6+5=11>10(最大处理序列长度),此时可用的拼接蛋白序列为长度1+2+3对应的序列,在拼接后的蛋白序列(长度为6)后面4个用预设填充符pad来补齐,4是最大处理序列长度与当前拼接后的蛋白序列的长度的差得到。
作为本申请实施例的一种可实现方式,如果一个预训练用蛋白质序列的长度就大于预训练模型的最大处理序列长度,则无需执行拼接过程,直接将该预训练用蛋白质序列作为一训练样本进行训练即可。
相对应的,在模型计算注意力矩阵时,需分隔开不同序列的注意力矩阵;在进行对注意力矩阵进行softmax操作时,需将范围限制在蛋白质序列内
可选的,所述预训练模型的损失函数采用掩码语言模型损失函数;
对于单序列模型:输入为单序列蛋白X,m(x)指被遮住的位置集合。默认遮盖的比例为15%。
Figure BDA0003664994020000091
对于多序列模型:输入为蛋白质MSA矩阵X,(m,i)指被遮住地位置为MSA矩阵的第m行第i列,mask为被遮住的位置集合。默认遮盖的比例为15%,θ为模型参数。
Figure BDA0003664994020000092
与上述的蛋白质训练模型的训练方法相对应,本发明还提出一种蛋白质训练模型的训练装置。由于本发明的装置实施例与上述的方法实施例相对应,对于装置实施例中未披露的细节可参照上述的方法实施例,本发明中不再进行赘述。
图2为本公开实施例提供的一种蛋白质训练模型的训练装置的结构示意图,如图2所示,包括:
输入单元21,用于将蛋白质数据输入预训练模型;其中,所述蛋白质数据为未标记的蛋白质数据;
拼接单元22,用于基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列;
训练单元23,用于基于所述预训练模型对所述预训练用蛋白质序列进行训练,以获取所述预训练模型输出至少一种蛋白质预测任务。
本公开提供的蛋白质训练模型的训练装置,将蛋白质数据输入预训练模型,基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列,基于所述预训练模型对所述预训练用蛋白质序列进行训练,以获取所述预训练模型输出至少一种蛋白质预测任务。与相关技术相比,本申请实施例基于预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列,并基于预训练用蛋白质序列进行训练,实现高效对蛋白质的结构和/或性质的预测。
进一步地,在本实施例一种可能的实现方式中,如图3所示,所述装置还包括:
调整单元24,用于基于带标记的样本蛋白质序列,对所述预训练模型输出的至少一种蛋白质预测任务进行调整。
进一步地,在本实施例一种可能的实现方式中,如图3所示,所述训练单元23包括:
拼接模块231,用于当确定预训练用蛋白质序列的长度存在差异时,使用序列间分隔符将至少两条预训练用蛋白质序列拼接为一条预训练用蛋白质序列;
确定模块232,用于确定拼接的预训练用蛋白质序列的长度是否等于或者大于预训练模型的最大处理序列长度;
停止模块233,用于当所述确定模块确定拼接的预训练用蛋白质序列的长度等于预训练模型的最大处理序列长度时,停止预训练用蛋白质序列的拼接;
添加模块234,用于根据预训练用蛋白质序列的顺序,添加预设填充符,使添加所述预设填充符的预训练用蛋白质序列的长度等于所述预训练模型的最大处理序列长度。
进一步地,在本实施例一种可能的实现方式中,所述预测任务包括二级结构预测任务、分类预测任务、远程同源性检测任务、荧光性预测任务以及稳定性预测任务中的至少一种。
进一步地,在本实施例一种可能的实现方式中,所述预训练模型的损失函数采用掩码语言模型损失函数;
所述预训练模型为多序列预训练模型。
需要说明的是,前述对方法实施例的解释说明,也适用于本实施例的装置,原理相同,本实施例中不再限定。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图4所示,设备400包括计算单元401,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)402中的计算机程序或者从存储单元408加载到RAM(Random AccessMemory,随机访问/存取存储器)403中的计算机程序,来执行各种适当的动作和处理。在RAM403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。I/O(Input/Output,输入/输出)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如蛋白质训练模型的训练方法。例如,在一些实施例中,蛋白质训练模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时,可以执行上文描述的方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行前述蛋白质训练模型的训练方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上***的***)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (13)

1.一种蛋白质训练模型的训练方法,其特征在于,包括:
将蛋白质数据输入预训练模型;其中,所述蛋白质数据为未标记的蛋白质数据;
基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列;
基于所述预训练模型对所述预训练用蛋白质序列进行训练,以获取所述预训练模型输出至少一种蛋白质预测任务。
2.根据权利要求1所述的训练方法,其特征在于,所述方法还包括:
基于带标记的样本蛋白质序列,对所述预训练模型输出的至少一种蛋白质预测任务进行调整。
3.根据权利要求1所述的训练方法,其特征在于,所述基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列包括:
若确定预训练用蛋白质序列的长度存在差异,则使用序列间分隔符将至少两条预训练用蛋白质序列拼接为一条预训练用蛋白质序列;
确定拼接的预训练用蛋白质序列的长度是否等于或者大于预训练模型的最大处理序列长度;
若是,则停止预训练用蛋白质序列的拼接,并根据预训练用蛋白质序列的顺序,添加预设填充符,使添加所述预设填充符的预训练用蛋白质序列的长度等于所述预训练模型的最大处理序列长度。
4.根据权利要求1所述的训练方法,其特征在于,所述预测任务包括二级结构预测任务、分类预测任务、远程同源性检测任务、荧光性预测任务以及稳定性预测任务中的至少一种。
5.根据权利要求1-4中任一项所述的训练方法,其特征在于,所述预训练模型的损失函数采用掩码语言模型损失函数;
所述预训练模型为多序列预训练模型。
6.一种蛋白质训练模型的训练装置,其特征在于,包括:
输入单元,用于将蛋白质数据输入预训练模型;其中,所述蛋白质数据为未标记的蛋白质数据;
拼接单元,用于基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列;
训练单元,用于基于所述预训练模型对所述预训练用蛋白质序列进行训练,以获取所述预训练模型输出至少一种蛋白质预测任务。
7.根据权利要求6所述的训练装置,其特征在于,所述装置还包括:
调整单元,用于基于带标记的样本蛋白质序列,对所述预训练模型输出的至少一种蛋白质预测任务进行调整。
8.根据权利要求6所述的训练装置,其特征在于,所述训练单元包括:
拼接模块,用于当确定预训练用蛋白质序列的长度存在差异时,使用序列间分隔符将至少两条预训练用蛋白质序列拼接为一条预训练用蛋白质序列;
确定模块,用于确定拼接的预训练用蛋白质序列的长度是否等于或者大于预训练模型的最大处理序列长度;
停止模块,用于当所述确定模块确定拼接的预训练用蛋白质序列的长度等于或者大于预训练模型的最大处理序列长度时,停止预训练用蛋白质序列的拼接;
添加模块,用于根据预训练用蛋白质序列的顺序,添加预设填充符,使添加所述预设填充符的预训练用蛋白质序列的长度等于所述预训练模型的最大处理序列长度。
9.根据权利要求6所述的训练装置,其特征在于,所述预测任务包括二级结构预测任务、分类预测任务、远程同源性检测任务、荧光性预测任务以及稳定性预测任务中的至少一种。
10.根据权利要求6-9中任一项所述的训练装置,其特征在于,所述预训练模型的损失函数采用掩码语言模型损失函数;
所述预训练模型为多序列预训练模型。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。
13.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。
CN202210583278.0A 2022-05-26 2022-05-26 蛋白质训练模型的训练方法及装置、电子设备和存储介质 Pending CN114898811A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210583278.0A CN114898811A (zh) 2022-05-26 2022-05-26 蛋白质训练模型的训练方法及装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210583278.0A CN114898811A (zh) 2022-05-26 2022-05-26 蛋白质训练模型的训练方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114898811A true CN114898811A (zh) 2022-08-12

Family

ID=82726716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210583278.0A Pending CN114898811A (zh) 2022-05-26 2022-05-26 蛋白质训练模型的训练方法及装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114898811A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115458040A (zh) * 2022-09-06 2022-12-09 北京百度网讯科技有限公司 蛋白质的生成方法、装置、电子设备及存储介质
CN115512763A (zh) * 2022-09-06 2022-12-23 北京百度网讯科技有限公司 多肽序列的生成方法、多肽生成模型的训练方法和装置
CN115565607A (zh) * 2022-10-20 2023-01-03 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备
CN116343905A (zh) * 2022-12-30 2023-06-27 抖音视界有限公司 蛋白质特征的预处理方法、装置、介质及设备
CN117174177A (zh) * 2023-06-25 2023-12-05 北京百度网讯科技有限公司 蛋白质序列生成模型的训练方法、装置及电子设备
CN117672364A (zh) * 2023-12-19 2024-03-08 上海分子之心智能科技有限公司 一种用于预测蛋白质突变稳定性的方法、设备及介质
WO2024125466A1 (zh) * 2022-12-12 2024-06-20 百图生科股份有限公司 神经网络的训练方法和预测蛋白质结构的方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115458040A (zh) * 2022-09-06 2022-12-09 北京百度网讯科技有限公司 蛋白质的生成方法、装置、电子设备及存储介质
CN115512763A (zh) * 2022-09-06 2022-12-23 北京百度网讯科技有限公司 多肽序列的生成方法、多肽生成模型的训练方法和装置
CN115458040B (zh) * 2022-09-06 2023-09-01 北京百度网讯科技有限公司 蛋白质的生成方法、装置、电子设备及存储介质
CN115512763B (zh) * 2022-09-06 2023-10-24 北京百度网讯科技有限公司 多肽序列的生成方法、多肽生成模型的训练方法和装置
CN115565607A (zh) * 2022-10-20 2023-01-03 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备
CN115565607B (zh) * 2022-10-20 2024-02-23 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备
WO2024125466A1 (zh) * 2022-12-12 2024-06-20 百图生科股份有限公司 神经网络的训练方法和预测蛋白质结构的方法
CN116343905A (zh) * 2022-12-30 2023-06-27 抖音视界有限公司 蛋白质特征的预处理方法、装置、介质及设备
CN116343905B (zh) * 2022-12-30 2024-01-16 抖音视界有限公司 蛋白质特征的预处理方法、装置、介质及设备
CN117174177A (zh) * 2023-06-25 2023-12-05 北京百度网讯科技有限公司 蛋白质序列生成模型的训练方法、装置及电子设备
CN117672364A (zh) * 2023-12-19 2024-03-08 上海分子之心智能科技有限公司 一种用于预测蛋白质突变稳定性的方法、设备及介质
CN117672364B (zh) * 2023-12-19 2024-05-14 上海分子之心智能科技有限公司 一种用于预测蛋白质突变稳定性的方法、设备及介质

Similar Documents

Publication Publication Date Title
CN114898811A (zh) 蛋白质训练模型的训练方法及装置、电子设备和存储介质
US20230011678A1 (en) Method for predicting protein-protein interaction
Zhang et al. A novel smart contract vulnerability detection method based on information graph and ensemble learning
Peng et al. Hierarchical Harris hawks optimizer for feature selection
CN107220296A (zh) 问答知识库的生成方法、神经网络的训练方法以及设备
CN115116559B (zh) 氨基酸中原子坐标的确定及训练方法、装置、设备和介质
CN114564593A (zh) 多模态知识图谱的补全方法、装置和电子设备
Deb et al. Surrogate modeling approaches for multiobjective optimization: methods, taxonomy, and results
CN112905801A (zh) 基于事件图谱的行程预测方法、***、设备及存储介质
CN114420309B (zh) 建立药物协同作用预测模型的方法、预测方法及对应装置
CN113409898B (zh) 分子结构获取方法、装置、电子设备及存储介质
CN112527383A (zh) 用于生成多任务模型的方法、装置、设备、介质和程序
CN112784591A (zh) 数据的处理方法、装置、电子设备和存储介质
CN112786108A (zh) 分子理解模型的训练方法、装置、设备和介质
CN114743600A (zh) 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法
Miháliková et al. Best-practice aspects of quantum-computer calculations: A case study of the hydrogen molecule
Hu et al. Smart Materials Prediction: Applying Machine Learning to Lithium Solid-State Electrolyte
US20240079098A1 (en) Device for predicting drug-target interaction by using self-attention-based deep neural network model, and method therefor
JP2023007370A (ja) ソート学習モデルの訓練方法、ソート方法、装置、デバイス及び媒体
Downey et al. alineR: An R package for optimizing feature-weighted alignments and linguistic distances
Wang et al. An Ensemble Framework to Forest Optimization Based Reduct Searching
CN112949433B (zh) 视频分类模型的生成方法、装置、设备和存储介质
CN115206421B (zh) 药物重定位方法、重定位模型的训练方法及装置
CN116525006A (zh) 单细胞分类方法、装置、设备及存储介质
CN116564401A (zh) 一种模型训练、细胞分割***、方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination