CN113762416B - 基于多模态深度编码的抗原免疫原性预测方法和*** - Google Patents
基于多模态深度编码的抗原免疫原性预测方法和*** Download PDFInfo
- Publication number
- CN113762416B CN113762416B CN202111204465.5A CN202111204465A CN113762416B CN 113762416 B CN113762416 B CN 113762416B CN 202111204465 A CN202111204465 A CN 202111204465A CN 113762416 B CN113762416 B CN 113762416B
- Authority
- CN
- China
- Prior art keywords
- features
- standard
- sequence
- model
- peptide
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Peptides Or Proteins (AREA)
- Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
Abstract
本发明公开了一种基于多模态深度编码的抗原免疫原性预测方法和***,包括:1)包含较全面HLA等位基因个数;2)可变长肽段编码方式,涵盖主要HLA‑I结合肽段长度;3)考虑抗原受体谱系对肽段免疫原性的影响;4)包含肽段和MHC序列的物理和氨基酸组成特征;5)多模态特征融合得到预测分数并进行预测。不同于以往的仅基于生物实验或较单一化的数据模态的预测模型,本***方案能高效地融合多模态信息,进行更加准确高效的预测。基于真实数据结果表面,其TOP‑10结果具有较高水平的PPV值,能够更好的应用在真实的药物研发生产环境。
Description
技术领域
本发明涉及生物信息学领域,尤其涉及一种基于深度编码与多模态融合的预测新生抗原免疫原性的方法和***。
背景技术
免疫治疗已成为一种很有希望的癌症治疗策略。各种形式的免疫治疗可以增强免疫***以抵抗癌症,或者使免疫***更容易识别并摧毁癌细胞,或减慢其生长。有效的靶向免疫治疗需要精确的预测哪些癌症特异性新肽段最有可能引起免疫反应。
CD8+T细胞免疫反应是识别和杀死感染细胞和恶性肿瘤细胞的关键。过去的十年中癌症免疫治疗表明,利用增强CD8+T细胞的介导对癌细胞的控制和清除具有临床意义。在分子水平层面,CD8+T细胞对肽表位的识别基于一系列特定事件。首先,肽段被蛋白酶从源蛋白上切割,转运到内质网中并与HLA-I分子结合。稳定结合后,肽-HLA-I(pHLA)复合物被呈现在细胞表面。随后,T细胞受体(TCR)可以与pHLA复合物结合,从而启动免疫突触的形成,并最终导致被感染或恶性细胞的死亡。
基于HLA呈递-CD8+T细胞识别原理的癌症疫苗是当今医学与药物学的热点问题。肿瘤疫苗教导免疫***将传染性病原体或癌细胞识别为需要消除的外来物质。癌细胞表面存在特殊的蛋白质,通过靶向这些蛋白质,免疫***可以特异性地消除癌细胞,同时不伤害正常的细胞。此外,疫苗还能防止癌症复发,清除治疗后残留的癌细胞。肿瘤疫苗的分类方法有很多种,依据治疗原理可以划分为预防性和治疗性疫苗两大类,治疗性肿瘤疫苗还可以依据靶点类型和疫苗成药载体的不同进行划分。
其中以mRNA作为载体的治疗性肿瘤疫苗有以下几点突出优势:(1)mRNA可以同时编码多种抗原,具有MHCI和MHCII结合表位的完整蛋白质,以促进体液和细胞适应性免疫反应,提供更强化的抗肿瘤免疫力。(2)与DNA疫苗相比,mRNA疫苗是非整合的,高度可降解的,没有***诱变潜力。(3)与蛋白质或细胞介导的疫苗相比,mRNA的IVT产生不含细胞和致病性病毒成分,没有感染可能性,正在进行临床试验测试的大多数mRNA疫苗通常具有良好的耐受性,罕有注射部位反应。(4)mRNA癌症疫苗的另一个优点是快速和可扩展的制造。
随着两种用于预防COVID-19的mRNA-LNP疫苗获得批准,mRNA技术路线的可行性和优势已经得到了广泛的认可,并且随着资本的关注以及越来越多的研究人员的参与,mRNA疫苗乃至mRNA药物开发正在经历相当大的爆发式发展。其中一个关键的核心技术点,就是预测mRNA疫苗的核心靶标:新生抗原(Neoantigen)的肿瘤特异性抗原TSA。Neoantigen来源于肿瘤细胞中的随机体细胞突变,不存在于正常细胞中。Neoantigen可被宿主免疫***识别为“非自身”的序列,引发强烈的免疫反应。预测个性化HLA新生抗原(Neoantigen)疫苗的主要步骤如下:
(1)鉴定和确认在患者肿瘤中表达的特异性免疫原性非同义体细胞突变。对肿瘤组织进行活组织检查以进行全外显子组或转录组测序。可以通过比较肿瘤和匹配的健康组织的序列来鉴定肿瘤的非同义体细胞突变,例如点突变和***缺失。
(2)使用主要组织相容性复合物(MHC)I和II类表位预测算法,分析和鉴定具有最高免疫原性的突变。
(3)基于体外结合测定结果进一步证实候选抗原的排序列表。
步骤(2)中,为了准确预测新生抗原免疫原性,需要知道1)哪些肽段会与MHC结合2)哪些pHLA能够引起免疫反应。当前已经开发了大量的HLA-肽段结合预测工具来预测哪些肽段将与特定的NHC进行结合。然而,仅凭MHC结合预测不足以推断免疫原性,因为此类工具无法预测哪些肽将触发T细胞反应。当前Neoantigen疫苗开发的难点之一是为什么某些被感染或癌症特异性表达的并且被HLA-I呈递到细胞表面的肽段能给被CD8+T细胞识别并引发特定的免疫反应,而有些则不能。随着人工智能技术在生物信息学中的广泛应用,已经有领域内学者开始尝试利用数据驱动的机器学习方法,填补这一空缺。
其中代表性的工作与技术有,韩国延世大学团队的工作(参考文献:Kim S,KimHS,Kim E,et al.Neopepsee:accurate genome-level prediction of neoantigens byharnessing sequence and amino acid immunogenicity information.Ann Oncol.2018;29(4):1030-1036.doi:10.1093/annonc/mdy022)基于14个独立特征开发的机器学习算法来预测肽段免疫原性。拉霍拉学院团队的工作(参考文献:Vita R,Mahajan S,Overton JA,et al.The Immune Epitope Database(IEDB):2018update.Nucleic Acids Res.2019;47(D1):D339-D343.doi:10.1093/nar/gky1006)通过考虑Kullback-Leibler散度和氨基酸偏好的位置加权计算模式来预测肽段免疫原性。浙江大学团队的工作(参考文献:Wu J,WangW,Zhang J,et al.DeepHLApan:A Deep Learning Approach for Neoantigen PredictionConsidering Both HLA-Peptide Binding and Immunogenicity.Front Immunol.2019;10:2559.Published 2019Nov 1.doi:10.3389/fimmu.2019.02559)基于IEDB数据,采用深度学习算法,来预测肽段免疫原性。
以上提到的现有主流pHLA新生抗原免疫原性预测方法,具有以下局限性:1)只考虑有限的HLA等位基因个数;2)未考虑不同受试者抗原受体谱系对肽段免疫原性的影响;3)这些算法基本未考虑肽段和MHC氨基酸序列的物理和组成特征。这些方法输出的结果,可能无法完全反应触发T细胞反应的pHLA特征;4)较单一化的数据模态与数据模型,使其无法充分利用生物信息大数据所蕴含的多模态信息,并缺少可扩展性。
发明内容
本发明针对背景技术中存在的问题,提出了一种基于多模态深度编码的抗原免疫原性预测方法和***。
技术方案:
本发明首先公开了一种基于多模态深度编码的抗原免疫原性预测方法,它包括以下步骤:
S1、特征选择:选定与抗原免疫原性相关的特征,作为待融合特征;
S2、归一化处理:设置隐嵌入维度作为不同待融合特征的最终输入维度,将S1中获取的待融合特征进行变换和尺度缩放,获得标准特征;
S3、特征融合:将维度相同的标准特征作线性融合操作,融合后的特征向量/矩阵输入深度神经网络,进行非线性变换与融合,获得抗原免疫原性的最终特征分数;
S4、构建预测模型:特征融合,构建包含最终特征分数的预测模型和优化模型;
S5、求解优化模型,获得最优参数的预测模型;
S6、使用最优参数的预测模型进行抗原免疫原性预测。
优选的,根据S1中特征选择的不同,S2中选定相应的归一化处理方案,以获取格式、维度统一,便于融合的标准特征,具体为:
-序列特征;使用主成分分解PCA对AAindex数据库中的AAindex1数据进行变换,选取变换后的12个主成分特征,为输入的序列进行编码作为序列特征的标准特征;
-互作特征:基于AAindex数据库中的AAindex3矩阵,进行序列比对,获取比对分数,通过尺度缩放获取互作特征的标准特征;
-物理特征:表示序列的电荷、疏水性、不稳定性特征,通过尺度缩放获得物理特征的标准特征;
-组分特征:表示序列氨基酸组分特征,统计其标准氨基酸编码出现的次数作为组分特征的标准特征。
具体的,S1中待融合特征选择为:肽段序列特征、HLA-I序列特征、抗原受体-肽段互作特征、肽段物理特征、肽段氨基酸组分特征。
具体的,S2中:
肽段序列特征通过以下方法获得标准特征:采用主成分分解PCA对AAindex数据库中的AAindex1特征进行变换,选取变换后的12个主成分特征,对肽段的蛋白组成氨基酸进行编码作为肽段序列特征;
HLA-I序列特征通过以下方法获得标准特征:采用主成分分解PCA对AAindex数据库中的AAindex1特征进行变换,选取变换后的12个主成分特征,对HLA-I序列的蛋白组成氨基酸进行编码作为HLA-I序列特征;
抗原受体-肽段互作特征通过以下方法获得标准特征:基于AAindex数据库中的AAindex3特征,进行序列比对,获取比对分数,通过尺度缩放获得标准化特征,作为抗原受体-肽段互作特征;
肽段物理特征通过尺度缩放获得标准特征,以保证模型训练优化过程的数值稳定性;
肽段氨基酸组分特征通过以下方法获得标准特征:统计肽段中标准氨基酸编码出现的次数,作为肽段氨基酸组分特征。
具体的,抗原受体-肽段互作特征的尺度变化公式为:
式中,p表示抗原受体-肽段互作分数,p′表示作为标准特征的抗原受体-肽段互作分数。
具体的,肽段物理特征的尺度变化公式为:
式中,x表示肽段物理特征分数,x′表示作为标准特征的肽段物理特征分数。
具体的,S3特征融合中,所述线性融合操作包括点乘、或加和、或组合成特征矩阵。
具体的,S4中构建优化模型:
式中,f是含可学习参数的预测模型;W表示该模型中可学习参数,包括各融合特征获取时方案权重;xn表示输入的特定数据,yn是训练数据中免疫原性可信度数值;N表示样本总数。
优选的,S5中求解优化模型:多次遍历所有训练数据,利用基于随机梯度优化方法的优化器进行优化,得到最优的模型参数,获得预测模型fW。
优选的,采用Beta分布,对IEDB数据库中具有实验验证的免疫原性结果进行编码,转换为回归拟合问题,基于此来提高训练模型可靠性;所述训练数据经过包括重抽样、剔除负样本的数据处理,避免使用的训练的数据正负样本量不平衡的问题。
本发明还公开了一种基于多模态深度编码的新抗原免疫原性预测***,它包括:
-数据收集模块,整理IEDB数据库中具有免疫原性验证结果的肽段及其MHC-I配体数据对;
-数据集构建,根据整理的IEDB数据库中具有免疫原性验证结果的肽段及其MHC-I配体数据对,构建正负样本。
-数据建模模块,构建预测模型并求解预测模型。
优选的,所述数据建模模块包括:
-特征选择模块,选定与肽段免疫原性相关的特征,作为待融合特征;
-归一化处理模块,将待融合特征进行变换和尺度缩放,获得标准特征;
-特征融合模块,将多模态的标准特征输入深度神经网络进行融合,得到肽段免疫原性最终特征分数;
-预测模型构建模块,构建包含最终特征分数的预测模型和优化模型;
-预测模型求解模块,计算获得最优参数的预测模型。
优选的,所述特征融合模块中,采用可变长的维度的输入设计,以便未来加入更多新模态特征的接口。
优选的,采用Beta分布,对IEDB数据库中具有实验验证的免疫原性结果进行编码,转换为回归拟合问题,基于此来提高训练模型可靠性;所述训练数据经过包括重抽样、剔除负样本的数据处理,避免使用的训练的数据正负样本量不平衡的问题。
更优的,它还包括:
-测试模块,整理包含在文献中但不包含在数据集构建模块出现的数据,以待优化得到最优模型后,验证测试模型的对于未曾见过的免疫原性数据对的预测效果。
本发明的有益效果
本发明提出了一种基于多模态深度编码的抗原免疫原性预测方法和***,包括:1)基于抗体结合部位信息,包含更多HLA等位基因个数;2)可变长肽段编码方式,涵盖主要HLA结合肽段长度;3)考虑抗原受体谱系对肽段免疫原性的影响;4)包含肽段和MHC序列的物理和氨基酸组成特征;5)采用Beta分布,对IEDB数据库中具有实验验证的免疫原性结果进行编码,转换为回归拟合问题,基于此来提高训练模型可靠性;6)基于归一化处理,最终能得到格式、维度统一,便于融合的特征向量;7)基于可变长的维度的输入设计,以便未来加入更多新模态特征的接口。未来加入的新特征只要是能被现有机器学习方法进行编码的,理论上没有任何限制,这也是我们模型“可拓展性”优点的体现。
附图说明
图1多模态深度编码的抗原免疫原性预测方法计算流程图
图2多模态深度编码的抗原免疫原性预测***总结构图
图3为10折交叉验证AUC评估结果图
图4为10折交叉验证AUC-PR评估结果图
具体实施方式
下面结合实施例对本发明作进一步说明,但本发明的保护范围不限于此:
如图1所示,本发明提出的多模态深度编码的抗原免疫原性预测***分为四部分,下面针对数据收集,数据集构建,模型建构与优化和模型测试进行详细阐述。
(a)数据收集
该模块为根据IEDB数据库(参考文献:Vita R,Mahajan S,Overton JA,et al.TheImmune Epitope Database(IEDB):2018update.Nucleic Acids Res.2019;47(D1):D339-D343.doi:10.1093/nar/gky1006)公开资源,整理与HLA-I免疫原性有关结果,具体包括:
I.选定T-cellassay中的linearpeptide;
II.选定Host Organism为Homo sapiens;
III.选定拥有完整HLA等位基因命名的HLA-I等位基因型;
IV.选取肽段长度为9或者10;
V.选定具有QualitativeMeasure信息的数据行;过滤缺失NumberofSubjectsTested或NumberofSubjectsResponded数值的数据行;过滤重复及结论冲突的数据行;
(b)数据集构建
基于(a)中的方法收集HLA-I免疫原性的正负样本,构建模型训练数据集,具体如下:
I.使用抗体结合部位序列,代表HLA-I序列;
II.采用主成分分解PCA,对AAindex数据库中的AAindex1特征进行变换,选取变换后的12个主成分特征,对肽段和HLA中组分氨基酸进行编码;
III.使用开源计算R包Peptides(参考文献:Osorio D,Rondon-Villarreal P,Torres R(2015).“Peptides:A Package for Data Mining of AntimicrobialPeptides.”The R Journal,7(1),4-14.ISSN2073-4859.),计算肽段的序列的电荷、疏水性、不稳定性物理特征,并进行尺度缩放;
IV.基于AAindex数据库中的AAindex3特征,将肽段与公开人类TCR数据集进行序列比对,获取比对分数;获取每一个肽段对应比对值分数的平均值,并进行尺度缩放;
V.统计每一个肽段对应的标准氨基酸编码个数。
VI.基于(a)中的方法收集HLA-I免疫原性的正负样本中,QualitativeMeasure取值为以下五种类型:Negative,Positive,Positive-High,Positive-Intermediate,Positive-Low,分别对应:无免疫原性;有免疫原性;强免疫原性;中等免疫原性及弱免疫原性,基于其对应的Number of Subiects Tested和Number of Subjects Responded信息,使用如下Beta分布,生成10000个随机数,取这些值的均值作为免疫原性分数,进行免疫原性编码:
其中,T表示Number of Subjects Tested值;S表示Number of SubjectsResponded值。以immuscore值表征每行数据免疫原性程度。
选取以下文章中免疫原性结果,构建公共验证数据集,公共验证数据集数据集HLA及肽段编码方式同模型训练数据集:
1)TESLA数据集:Wells DK,van Buuren MM,Dang KK,et al.Key Parameters ofTumor Epitope Immunogenicity Revealed Through a Consortium Approach ImproveNeoantigen Prediction.Cell.2020;183(3):818-834.e13.doi:10.1016/j.cell.2020.09.015
2)Emma数据集:Jappe EC,Garde C,Ramarathinam SH,et al.Thermostabilityprofiling of MHC-bound peptides:a new dimension in immunopeptidomics and aidfor immunotherapy design.Nat Commun.2020;11(1):6305.Published 2020 Dec 9.doi:10.1038/s41467-020-20166-4
3)Ott数据集:Ott PA,Hu Z,Keskin DB,et a1.An immunogenic personalneoantigen vaccine for patients with melanoma[published correction appears inNature.2018 Mar14;555(7696):402].Nature.2017;547(7662):217-221.doi:10.1038/nature22991
4)Bulik-Sullivan数据集:Bulik-Sullivan,B.,Busby,J.,Palmer,C.et a1.Deeplearningusing tumor HLA peptide mass spectrometry datasets improvesneoantigen identification.Nat Biotechnol 37,55-63(2019).doi.org/10.1038/nbt.4313
5)Robbins数据集:Robbins PF,Lu YC,El-Gamil M,et al.Mining exomicsequencing data to identifymutated antigens recognized by adoptivelytransferred tumor-reactive T cells.Nat Med.2013;19(6):747-752.doi:10.1038/nm.3161
(c)基于深度编码和多模态数据的模型建构与优化
如图2的计算流程图所示,我们对模块(b)中的数据集进行编码、并建立模型。具体实施如下:
I.选择K-折交叉验证(k-fold cross validatio)的统计学方法构建模型训练、测试数据集。
II.构建深度学习模型,模型结构如图2。将肽段氨基酸组成、肽段物理特征、TCR-肽段比对、编码肽段和编码HLA输入特征融合层,获得如下优化模型:
其中,f是含可学习参数的预测模型;W表示该模型中可学习参数,具体包括循环编码肽段;xn表示输入的特定数据,yn是训练数据中免疫原性可信度数值,既immuscore值;N表示样本总数。
III.最优模型的求解,采用批次随机梯度下降策略(参考文献:Goyal,Priya,etal.″Accurate.large minibatch sgd:Training imagenet in 1 hour.″arXiv preprintarXiv:1706.02677(2017).):在多个轮次中,将训练数据分批次输入模型,计算如上的损失函数与梯度,并利用梯度下降更新模型。具体来说,我们采用ADMA优化器(参考文献:Kingma,Diederik P.,and Jimmy Ba.″Adam:A method for stochastic optimization.″arXiv preprint arXiv:1412.6980(2014).),其用一阶梯度估计高阶梯度,并能自动调节优化的步长,是模型优化过程更加稳定与稳健。
(d)模型测试与机器学习评价指标
I.模型评估
评估和交叉验证是测量模型性能的标准方法。它们都生成可检查或与其他模型比较的评估指标。
我们采用接收者操作特征曲线(receiver operating characteristic curve,简称ROC曲线)下面积AUC与准确度-召回率(Precision-Recall,简称PR)曲线下面积AUC-PR来评价优化后模型的预测能力与性能(表1):
表1预测模型评价指标
评价指标 | 描述 |
AUC | ROC曲线下而积 |
AUC-PR | PR曲线下面积 |
此处,采用10折交叉验证,将模型训练数据集拆分为10部分,其中一个部分保留用于测试,其他9部分用于训练。此过程重复10次。
如图3为10折交叉验证AUC评估结果,如图4为10折交叉验证AUC-PR评估结果。可以看到,模型在每一折上都具有很高的AUC值和AUC-PR值,均值分别为0.82和0.8。证明模型具有很好的泛化能力,能够很好的应对实际生产研发中的预测问题。
II.模型对比
1.基于真实数据集TESLA数据集,将模型与两个广泛使用的免疫原性预测模型IEDB和DeepHLApan进行比较。评价指标设定如下(表2):以0.5为阈值,计算灵敏度与精准度PPV,评估结果见表3。根据打分结果降序排列,我们分别选取了前20(Top20)及前50(Top50)计算PPV,可见本模型immu-D的结果是三种方法中最优的。基于全部数据,计算灵敏度,本模型immu-D也是最高的,两倍于DeepHLApan的结果。
表2模型比较评估指标-1
评价指标 | 描述 |
灵敏度 | 真阳性/(真阳性+假阴性) |
精准度/PPV | 真阳性/(真阳性+假阳性) |
表3模型比较评估结果-1
2.基于真实数据集Emma数据集,将模型与其文中提到的模型StabilityPredictor,MixMHCpred,NetMHCpan-4.0(EL),NetMHCpan-4.0(BA),MHCFlurry进行比较。评价指标设定如下(表4):以0.5为阈值,计算AUC与精准度PPV,评估结果见表3。根据打分结果降序排列,我们分别选取了前10(Top10)计算PPV。结果表明(表5),在AUC基本持平的情况下,本模型immu-D与基于复杂实验结果构建的模型StabilityPredictor具有相同的PPV值,远优于其余四个模型结果。
表4模型比较评估指标-2
评价指标 | 描述 |
AUC | ROC曲线下面积 |
精准度/PPV | 真阳性/(真阳性+假阳性) |
表5模型比较评估结果-2
PPV-Topl0 | AUC | |
Stability Predictor | 0.9 | 0.75 |
MixMHCpred | 0.7 | 0.7 |
NetMHCpan-4.0(EL) | 0.6 | 0.68 |
NetMHCpan-4.0(BA) | 0.6 | 0.67 |
MHCFlurry | 0.7 | 0.65 |
immu-D | 0.9 | 0.66 |
III.真实数据结果展示
真实生产环境下,由于相关的限制,通常只会对部分候选肽段进行后续实验验证。为了验证模型在实际生产中的作用,我们以精准度PPV为判别指标,分别计算模型在前10(Top10)、前20(Top20)、前30(Top30)及整体数据上的表现,结果见表6。从结果可知,即使在高阳性-阴性比数据上,我们的模型也能很好的捕获阳性结果。其也佐证了我们模型在真实生产环境下的价值。
表6真实数据结果
应当理解的是,本发明的应用不限于上述的据力。对本领域从业技术人员来说,可以根据上述说明加以改进或者变换,特别是基本模型选取、免疫指标构建方法及相关特征值的添加。所有这些改进和变换,以及参数相关的调节和选取,都应属于本发明所附权利要求的保护范围。
Claims (12)
1.一种基于多模态深度编码的抗原免疫原性预测方法,其特征在于它包括以下步骤:
S1、特征选择:选定与抗原免疫原性相关的特征,作为待融合特征;待融合特征选择为:肽段序列特征、HLA-I序列特征、抗原受体-肽段互作特征、肽段物理特征、肽段氨基酸组分特征;
S2、归一化处理:设置隐嵌入维度作为不同待融合特征的最终输入维度,将S1中获取的待融合特征进行变换和尺度缩放,获得标准特征;根据S1中特征选择的不同,S2中选定相应的归一化处理方案,以获取格式、维度统一,便于融合的标准特征,具体为:
-序列特征;使用主成分分解PCA对AAindex数据库中的AAindex1数据进行变换,选取变换后的12个主成分特征,为输入的序列进行编码作为序列特征的标准特征;
-互作特征:基于AAindex数据库中的AAindex3矩阵,进行序列比对,获取比对分数,通过尺度缩放获取互作特征的标准特征;
-物理特征:表示序列的电荷、疏水性、不稳定性特征,通过尺度缩放获得物理特征的标准特征;
-组分特征:表示序列氨基酸组分特征,统计其标准氨基酸编码出现的次数作为组分特征的标准特征;
S3、特征融合:将维度相同的标准特征作线性融合操作,融合后的特征向量/矩阵输入深度神经网络,进行非线性变换与融合,获得抗原免疫原性的最终特征分数;
S4、构建预测模型:特征融合,构建包含最终特征分数的预测模型和优化模型;
S5、求解优化模型,获得最优参数的预测模型;
S6、使用最优参数的预测模型进行抗原免疫原性预测。
2.根据权利要求1所述的方法,其特征在于S2中:
肽段序列特征通过以下方法获得标准特征:采用主成分分解PCA对AAindex数据库中的AAindex1特征进行变换,选取变换后的12个主成分特征,对肽段的蛋白组成氨基酸进行编码作为肽段序列特征;
HLA-I序列特征通过以下方法获得标准特征:采用主成分分解PCA对AAindex数据库中的AAindex1特征进行变换,选取变换后的12个主成分特征,对HLA-I序列的蛋白组成氨基酸进行编码作为HLA-I序列特征;
抗原受体-肽段互作特征通过以下方法获得标准特征:基于AAindex数据库中的AAindex3特征,进行序列比对,获取比对分数,通过尺度缩放获得标准化特征,作为抗原受体-肽段互作特征;
肽段物理特征通过尺度缩放获得标准特征,以保证模型训练优化过程的数值稳定性;
肽段氨基酸组分特征通过以下方法获得标准特征:统计肽段中标准氨基酸编码出现的次数,作为肽段氨基酸组分特征。
5.根据权利要求1所述的方法,其特征在于S3特征融合中,所述线性融合操作包括点乘、或加和、或组合成特征矩阵。
7.根据权利要求1所述的方法,其特征在于S5中求解优化模型:多次遍历所有训练数据,利用基于随机梯度优化方法的优化器进行优化,得到最优的模型参数,获得预测模型fW。
8.根据权利要求7所述的方法,其特征在于采用Beta分布,对IEDB数据库中具有实验验证的免疫原性结果进行编码,转换为回归拟合问题,基于此来提高训练模型可靠性;所述训练数据经过包括重抽样、剔除负样本的数据处理,避免使用的训练的数据正负样本量不平衡的问题。
9.一种基于多模态深度编码的抗原免疫原性预测***,其特征在于它包括:
-数据收集模块,整理IEDB数据库中具有免疫原性验证结果的肽段及其MHC-I配体数据对;
-数据集构建,根据整理的IEDB数据库中具有免疫原性验证结果的肽段及其MHC-I配体数据对,构建正负样本;
-数据建模模块,构建预测模型并求解预测模型;
所述数据建模模块包括:
-特征选择模块,选定与肽段免疫原性相关的特征,作为待融合特征;待融合特征选择为:肽段序列特征、HLA-I序列特征、抗原受体-肽段互作特征、肽段物理特征、肽段氨基酸组分特征;
-归一化处理模块,将待融合特征进行变换和尺度缩放,获得标准特征;
-特征融合模块,将多模态的标准特征输入深度神经网络进行融合,得到肽段免疫原性最终特征分数;标准特征,具体为:
-序列特征;使用主成分分解PCA对AAindex数据库中的AAindex1数据进行变换,选取变换后的12个主成分特征,为输入的序列进行编码作为序列特征的标准特征;
-互作特征:基于AAindex数据库中的AAindex3矩阵,进行序列比对,获取比对分数,通过尺度缩放获取互作特征的标准特征;
-物理特征:表示序列的电荷、疏水性、不稳定性特征,通过尺度缩放获得物理特征的标准特征;
-组分特征:表示序列氨基酸组分特征,统计其标准氨基酸编码出现的次数作为组分特征的标准特征;
-预测模型构建模块,构建包含最终特征分数的预测模型和优化模型;
-预测模型求解模块,计算获得最优参数的预测模型。
10.根据权利要求9所述的***,其特征在于所述特征融合模块中,采用可变长的维度的输入设计,以便未来加入更多新模态特征的接口。
11.根据权利要求9所述的***,其特征在于采用Beta分布,对IEDB数据库中具有实验验证的免疫原性结果进行编码,转换为回归拟合问题,基于此来提高训练模型可靠性;所述训练数据经过包括重抽样、剔除负样本的数据处理,避免使用的训练的数据正负样本量不平衡的问题。
12.根据权利要求9所述的***,其特征在于它还包括:
-测试模块,整理包含在文献中但不包含在数据集构建模块出现的数据,以待优化得到最优模型后,验证测试模型的对于未曾见过的免疫原性数据对的预测效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111204465.5A CN113762416B (zh) | 2021-10-15 | 2021-10-15 | 基于多模态深度编码的抗原免疫原性预测方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111204465.5A CN113762416B (zh) | 2021-10-15 | 2021-10-15 | 基于多模态深度编码的抗原免疫原性预测方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113762416A CN113762416A (zh) | 2021-12-07 |
CN113762416B true CN113762416B (zh) | 2023-05-30 |
Family
ID=78799669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111204465.5A Active CN113762416B (zh) | 2021-10-15 | 2021-10-15 | 基于多模态深度编码的抗原免疫原性预测方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762416B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105843A (zh) * | 2019-12-31 | 2020-05-05 | 杭州纽安津生物科技有限公司 | 一种hla i型分子与多肽的亲和力预测方法 |
CN113139568A (zh) * | 2021-02-22 | 2021-07-20 | 杭州深睿博联科技有限公司 | 一种基于主动学习的类别预测模型建模方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107209934B (zh) * | 2014-12-03 | 2021-03-30 | 文塔纳医疗***公司 | 用于定量分析异质生物标志物分布的方法、***和装置 |
TWI765875B (zh) * | 2015-12-16 | 2022-06-01 | 美商磨石生物公司 | 新抗原辨識、製造及用途 |
WO2017184590A1 (en) * | 2016-04-18 | 2017-10-26 | The Broad Institute Inc. | Improved hla epitope prediction |
KR20190140935A (ko) * | 2017-04-19 | 2019-12-20 | 그릿스톤 온콜로지, 인코포레이티드 | 신생항원 동정, 제조, 및 용도 |
CN107704727B (zh) * | 2017-11-03 | 2020-01-31 | 杭州风起智能科技有限公司 | 基于肿瘤新抗原特征值的新抗原活性预测和排序方法 |
US20210104294A1 (en) * | 2019-10-02 | 2021-04-08 | The General Hospital Corporation | Method for predicting hla-binding peptides using protein structural features |
CN113160887B (zh) * | 2021-04-23 | 2022-06-14 | 哈尔滨工业大学 | 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法 |
-
2021
- 2021-10-15 CN CN202111204465.5A patent/CN113762416B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105843A (zh) * | 2019-12-31 | 2020-05-05 | 杭州纽安津生物科技有限公司 | 一种hla i型分子与多肽的亲和力预测方法 |
CN113139568A (zh) * | 2021-02-22 | 2021-07-20 | 杭州深睿博联科技有限公司 | 一种基于主动学习的类别预测模型建模方法及装置 |
Non-Patent Citations (2)
Title |
---|
Predicting HLA class II antigen presentation through integrated deep learning;BinBin Chen et al.;《Nature Biotechnology》;1332-1343 * |
基于长短期记忆网络的抗癌肽的预测;方春;孙福振;李彩虹;宋莉;;山东理工大学学报(自然科学版)(03);37-42 * |
Also Published As
Publication number | Publication date |
---|---|
CN113762416A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113160887B (zh) | 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法 | |
Mei et al. | A comprehensive review and performance evaluation of bioinformatics tools for HLA class I peptide-binding prediction | |
Pogorelyy et al. | Detecting T cell receptors involved in immune responses from single repertoire snapshots | |
Dhanda et al. | Prediction of IL4 inducing peptides | |
Zeng et al. | Quantification of uncertainty in peptide-MHC binding prediction improves high-affinity peptide selection for therapeutic design | |
Xu et al. | DLpTCR: an ensemble deep learning framework for predicting immunogenic peptide recognized by T cell receptor | |
Cheng et al. | BERTMHC: improved MHC–peptide class II interaction prediction with transformer and multiple instance learning | |
CN115997254A (zh) | 基于注意力的神经网络用以预测肽结合、呈递和免疫原性 | |
EP3633681B1 (en) | Method and system for binding affinity prediction and method of generating a candidate protein-binding peptide | |
CN110752041B (zh) | 基于二代测序的新生抗原预测方法、装置和存储介质 | |
US20220076783A1 (en) | Methods and Systems for the Precise Identification of Immunogenic Tumor Neoantigens | |
JP2020518083A (ja) | 免疫原性がん特異的エピトープのためのランク付けシステム | |
CN113762417B (zh) | 基于深度迁移的对hla抗原呈递预测***的增强方法 | |
CN114649054A (zh) | 基于深度学习的抗原亲和力预测方法和*** | |
EP4229640A1 (en) | Method, system and computer program product for determining peptide immunogenicity | |
Yohannes et al. | Clustering based approach for population level identification of condition-associated T-cell receptor β-chain CDR3 sequences | |
CN113762416B (zh) | 基于多模态深度编码的抗原免疫原性预测方法和*** | |
CN113807468B (zh) | 基于多模态深度编码的hla抗原呈递预测方法和*** | |
Zhang et al. | iTCep: a deep learning framework for identification of T cell epitopes by harnessing fusion features | |
Wang et al. | TLimmuno2: predicting MHC class II antigen immunogenicity through transfer learning | |
Hassan et al. | Meta-IL4: An ensemble learning approach for IL-4-inducing peptide prediction | |
Pei et al. | IConMHC: a deep learning convolutional neural network model to predict peptide and MHC-I binding affinity | |
Toussaint et al. | Towards in silico design of epitope-based vaccines | |
Zhang et al. | Accurate TCR-pMHC interaction prediction using a BERT-based transfer learning method | |
CN112805784A (zh) | 用于基于新抗原的免疫治疗的靶向抗原表位的方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230614 Address after: Room 201, 2nd Floor, Building A-4, Building 16, Shuwu, No. 73 Tanmi Road, Jiangbei New District, Nanjing City, Jiangsu Province, 211899 Patentee after: Nanjing Chengshi Biomedical Technology Co.,Ltd. Address before: 210000 room 209, floor 2, building D-2, building 16, tree house, No. 73, tanmi Road, Jiangbei new area, Nanjing, Jiangsu Patentee before: Nanjing Chengshi Biotechnology Co.,Ltd. |