CN108601731A

CN108601731A - 新抗原的鉴别、制造及使用

Info

Publication number: CN108601731A
Application number: CN201680080924.4A
Authority: CN
Inventors: R·耶冷斯凯; A·德里蒂; B·布里克-沙利文; J·巴斯比
Original assignee: Millstone Cancer Biotech Corp
Current assignee: Millstone Cancer Biotech Corp; Gritstone Bio Inc
Priority date: 2015-12-16
Filing date: 2016-12-16
Publication date: 2018-09-28
Also published as: EP3389630A1; EP4299136A3; US20190034585A1; IL259931A; RU2729116C2; US10055540B2; AU2023204618A1; JP2019501967A; TW201733598A; EP4299136A2; HK1257865A1; US20180330055A1; PH12018501267A1; US20210098077A1; IL305238A; US11183286B2; IL259931B1; MX2018007204A; US20170199961A1; BR112018012374A2

Abstract

本文公开了一种用于基于个体的肿瘤突变确定等位基因、新抗原及疫苗组合物的***和方法。还公开了用于从肿瘤获得高质量测序数据的***和方法。此外，本文也描述了用于在多态性基因组数据中鉴别体细胞变化的***和方法。最后，本文描述了独特的癌症疫苗。

Description

新抗原的鉴别、制造及使用

相关申请的交叉引用

本申请要求2015年12月16日提交的美国临时申请62/268,333、2016年4月4日提交的美国临时申请62/317,823、2016年8月26日提交的美国临时申请62/379,986、2016年9月13日提交的美国临时申请62/394,074及2016年11月23日提交的美国临时申请62/425,995的权益和优先权，各案以引用的方式整体并入用于所有目的。

背景技术

基于肿瘤特异性新抗原的治疗性疫苗作为新一代个性化癌症免疫疗法具有广阔的前景。^1-3鉴于产生新抗原的可能性相对较高，具有高突变负荷的癌症，如非小细胞肺癌(NSCLC)和黑素瘤成为此类疗法的特别值得关注的靶标。^4，5早期有证据显示，基于新抗原的疫苗接种能够引起T细胞反应⁶并且靶向新抗原的细胞疗法在某些情况下能够在选择的患者中引起肿瘤消退。⁷

新抗原疫苗设计的一个问题是在受试者肿瘤内存在的众多编码突变中，哪种突变可以产生“最佳的”治疗性新抗原，例如能够引起抗肿瘤免疫并使肿瘤消退的抗原。

提出的初步方法并入了使用下一代测序的基于突变的分析、RNA基因表达及候选新抗原肽的MHC结合亲和力预测⁸。然而，提出的这些方法都无法模拟整个表位产生过程，该过程除含有基因表达和MHC结合外，还含有许多步骤(例如TAP转运、蛋白酶体裂解和/或TCR识别)⁹。因此，现有的方法可能会有低阳性预测值(PPV)降低的问题。(图1A)

事实上，多个研究团队所进行的关于由肿瘤细胞呈递的肽的分析显示，预计使用基因表达和MHC结合亲和力呈递的肽中不到5％可以在肿瘤表面MHC上发现^10，11(图1B)。近期观察到的仅针对突变数量的检查点抑制剂反应无法提高对结合受限的新抗原的预测准确性进一步支持了结合预测与MHC呈递之间的这一低相关性。¹²

现有的呈递预测方法的这一低阳性预测值(PPV)提出了有关基于新抗原的疫苗设计的问题。如果使用PPV低的预测方法来设计疫苗，则大多数患者不太可能接受治疗性新抗原，且少数患者可能要接受一种以上新抗原(即使假设所有呈递的肽都具有免疫原性)。因此，用当前方法进行新抗原疫苗接种不太可能在众多具有肿瘤的受试者中取得成功。(图1C)

此外，先前的方法仅使用顺式作用突变来产生候选新抗原，而在很大程度上忽视了考虑neo-ORF的其它来源，包括在多种肿瘤类型中出现且导致许多基因异常剪接的剪接因子突变¹³，及产生或移除蛋白酶裂解位点的突变。

最后，由于文库构建、外显子组和转录组捕捉、测序或数据分析的条件并非最佳条件，故肿瘤基因组和转录组分析的标准方法可能会遗漏产生候选新抗原的体细胞突变。同样，标准肿瘤分析方法可能会无意中促成序列伪影或生殖系多态现象作为新抗原，而分别导致疫苗能力的低效使用或自身免疫的风险。

发明内容

本文公开了一种鉴别和选择用于个性化癌症疫苗的新抗原的优化方法。首先，提出了使用下一代测序(NGS)鉴别新抗原候选物的优化的肿瘤外显子组和转录组分析方法。这些方法建立在标准NGS肿瘤分析方法的基础之上，以确保在所有类别的基因组变化内推进最高敏感性和特异性的新抗原候选物。其次，提出了选择高PPV新抗原的新颖方法来克服特异性问题并确保打算包括在疫苗中的新抗原较大可能地引发抗肿瘤免疫。取决于实施方案，这些方法包括训练的统计回归或非线性深度学习模型，这些模型共同地模拟肽-等位基因定位以及多种长度的肽的独立等位基因基元(per-allele motif)，在不同长度的肽中共有统计强度。非线性深度学习模型可以专门设计和训练用于将同一细胞中的不同MHC等位基因处理为独立的，由此解决了线性模型所具有的不同MHC等位基因会相互干扰的问题。最后，解决了基于新抗原的个性化疫苗设计和制造的其它需要考虑的问题。

附图说明

参照以下描述和附图将更好地理解本发明的这些和其它特征、方面及优势，在附图中：

图1A显示当前用于鉴别新抗原的临床方法。

图1B显示＜5％的预测结合肽被呈递在肿瘤细胞上。

图1C显示新抗原预测特异性问题的影响。

图1D显示结合预测不足以进行新抗原鉴别。

图1E显示MHC-I呈递的机率随肽长度的变化。

图1F显示由Promega动态范围标准(dynamic range standard)生成的示例性肽谱。

图1G显示添加特征如何增加模型阳性预测值。

图2A是根据一个实施方案，用于鉴别患者体内肽呈递的可能性的环境的概述。

图2B和2C示出了根据一个实施方案的获得呈递信息的方法。

图3是一个高级框图，示出了根据一个实施方案的呈递鉴别***的计算机逻辑组件。

图4示出了根据一个实施方案的一组示例训练数据。

图5示出了与MHC等位基因相关联的示例网络模型。

图6示出了MHC等位基因共享的示例网络模型。

图7示出了使用示例网络模型生成与一个MHC等位基因相关联的肽的呈递可能性。

图8示出了使用示例网络模型生成与一个MHC等位基因相关联的肽的呈递可能性。

图9示出了使用示例网络模型生成与多个MHC等位基因相关联的肽的呈递可能性。

图10示出了使用示例网络模型生成与多个MHC等位基因相关联的肽的呈递可能性。

图11示出了使用示例网络模型生成与多个MHC等位基因相关联的肽的呈递可能性。

图12示出了使用示例网络模型生成与多个MHC等位基因相关联的肽的呈递可能性。

图13示出了各种示例呈递模型的性能结果。

图14示出了用于实施图1和3中所示实体的示例计算机。

具体实施方式

I.定义

一般说来，权利要求书和说明书中使用的术语意图解释为具有与本领域普通技术人员所理解的普通含义。为清楚起见，以下定义某些术语。如果普通含义与所提供的定义之间存在矛盾，应使用所提供的定义。

如本文所使用，术语“抗原”是诱导免疫反应的物质。

如本文所使用，术语“新抗原”是具有至少一个使其不同于相应野生型亲本抗原的变化的抗原，例如，该变化是肿瘤细胞突变或肿瘤细胞特异性翻译后修饰。新抗原可以包括多肽序列或核苷酸序列。突变可以包括移码或非移码***缺失、错义或无义取代、剪接位点变化、基因组重排或基因融合，或产生neoORF的任何基因组或表达变化。突变还可以包括剪接变体。肿瘤细胞特异性翻译后修饰可以包括异常磷酸化。肿瘤细胞特异性翻译后修饰还可以包括蛋白酶体产生的剪接抗原。参见Liepe等人，A large fraction of HLA class Iligands are proteasome-generated spliced peptides；Science.2016 Oct 21；354(6310)：354-358。

如本文所使用，术语“肿瘤新抗原”是存在于受试者的肿瘤细胞或组织中但不存在于受试者的相应正常细胞或组织中的新抗原。

如本文所使用，术语“基于新抗原的疫苗”是基于一个或多个新抗原，例如多个新抗原的疫苗构建体。

如本文所使用，术语“候选新抗原”是产生可以代表新抗原的新序列的突变或其它异常。

如本文所使用，术语“编码区”是基因中编码蛋白质的部分。

如本文所使用，术语“编码突变”是在编码区中存在的突变。

如本文所使用，术语“ORF”是指开放阅读框。

如本文所使用，术语“NEO-ORF”是由突变或其它异常如剪接而产生的肿瘤特异性ORF。

如本文所使用，术语“错义突变”是导致一个氨基酸被另一个氨基酸取代的突变。

如本文所使用，术语“无义突变”是导致一个氨基酸被终止密码子取代的突变。

如本文所使用，术语“移码突变”是导致蛋白质框架改变的突变。

如本文所使用，术语“***缺失”是一个或多个核酸的***或缺失。

如本文在两个或更多个核酸或多肽序列的情况下使用的术语“同一性”百分比是指当比较并对准达到最大对应性时，如使用以下描述的序列比较算法(例如BLASTP和BLASTN，或技术人员可用的其它算法)之一测量或通过目测检查得到的两个或更多个序列或子序列具有指定百分比的核苷酸或氨基酸残基是相同的。取决于应用，“同一性”百分比可以存在于所比较的序列的某一区域内，例如在功能结构域内，或者存在于待比较的两个序列的全长内。

为进行序列比较，通常，一个序列充当参考序列，以与测试序列相比较。当使用序列比较算法时，将测试序列和参考序列输入计算机，必要时指定子序列座标，并且指定序列算法程序参数。然后，序列比较算法基于指定的程序参数计算测试序列相对于参考序列的序列同一性百分比。或者，可以通过组合在所选序列位置(例如序列基元)处特定核苷酸，或对于翻译的序列来说特定氨基酸的存在或不存在来确定序列相似性或不相似性。

用于比较的最佳序列比对可以例如通过Smith和Waterman，Adv.Appl.Math.2：482(1981)的局部同源性算法；Needleman和Wunsch，J.Mol.Biol.48：443(1970)的同源性比对算法；Pearson和Lipman，Proc.Nat′l.Acad.Sci.USA 85：2444(1988)的相似性搜索方法；这些算法的计算机化实施(Wisconsin Genetics软件包中的GAP、BESTFIT、FASTA和TFASTA；Genetics Computer Group，575 Science Dr.，Madison，Wis.)；或通过目测检查(一般参见Ausubel等人，见下文)来进行。

适于测定序列同一性和序列相似性百分比的算法的一个实例是Altschul等人，J.Mol.Biol.215：403-410(1990)中描述的BLAST算法。执行BLAST分析的软件通过NationalCenter for Biotechnology Information公开可用。

如本文所使用，术语“无终止或通读”是导致天然终止密码子移除的突变。

如本文所使用，术语“表位”是抗原中通常由抗体或T细胞受体结合的特定部分。

如本文所使用，术语“免疫原性”是例如通过T细胞、B细胞或两者引发免疫反应的能力。

如本文所使用，术语“HLA结合亲和力”、“MHC结合亲和力”意思指特定抗原与特定MHC等位基因之间的结合亲和力。

如本文所使用，术语“诱饵(bait)”是用于自样品富集特定DNA或RNA序列的核酸探针。

如本文所使用，术语“变体”是受试者的核酸与用作对照的参考人基因组之间的差异。

如本文所使用，术语“变体识别(variant call)”是对通常由测序确定的变体存在的算法确定。

如本文所使用，术语“多态现象”是生殖系变体，即，在个体的所有带有DNA的细胞中所发现的变体。

如本文所使用，术语“体细胞变体”是在个体的非生殖系细胞中产生的变体。

如本文所使用，术语“等位基因”是基因的一种形式，或是基因序列的一种形式，或是蛋白质的一种形式。

如本文所使用，术语“HLA型”是HLA基因等位基因的互补序列。

如本文所使用，术语“无义介导的衰变”或“NMD”是由过早终止密码子引起的细胞对mRNA的降解。

如本文所使用，术语“躯干突变”是起源于肿瘤发展早期且存在于大多数肿瘤细胞中的突变。

如本文所使用，术语“亚克隆突变”是起源于肿瘤发展后期且仅存在于一小部分肿瘤细胞中的突变。

如本文所使用，术语“外显子组”是编码蛋白质的基因组的子组。外显子组可以是基因组的全体外显子。

如本文所使用，术语“逻辑回归”是由统计得到的二进制数据的回归模型，其中因变量等于1的机率的分对数被建模为因变量的线性函数。

如本文所使用，术语“神经网络”是用于分类或回归的机器学习模型，由多层线性变换，继之以通常通过随机梯度下降和反向传播训练的逐元素非线性组成。

如本文所使用，术语“蛋白质组”是由细胞、细胞群或个体表达和/或翻译的所有蛋白质的集合。

如本文所使用，术语“肽组”是由MHC-I或MHC-II呈递于细胞表面上的所有肽的集合。肽组可以指一个细胞或一组细胞(例如肿瘤肽组，意思指构成肿瘤的所有细胞的肽组的联合)的特性。

如本文所使用，术语“ELISPOT”意思指酶联免疫吸附斑点测定，这是一种用于监测人和动物的免疫反应的常用方法。

如本文所使用，术语“dextramer”是在流式细胞术中用于抗原特异性T细胞染色的基于葡聚糖的肽-MHC多聚体。

如本文所使用，术语“耐受性或免疫耐受性”是对一种或多种抗原，例如自身抗原免疫无反应性的状态。

如本文所使用，术语“中枢耐受性”是通过缺失自身反应性T细胞克隆或通过促进自身反应性T细胞克隆分化成免疫抑制性调控性T细胞(Treg)而在胸腺中经历的耐受性。

如本文所使用，术语“外周耐受性”是通过使经历中枢耐受性而存活的自身反应性T细胞下调或无反应性(anergizing)，或通过促进这些T细胞分化成Treg而在外周经历的耐受性。

术语“样品”可以包括借助于包括静脉穿刺、***、***、按摩、活组织检查、针抽吸、灌洗样品、刮取、手术切口或干预在内的手段，或本领域中已知的其它手段从受试者获取单个细胞或多个细胞，或细胞碎片，或体液等分试样。

术语“受试者”涵盖细胞、组织或生物体、人或非人，无论是体内、离体还是体外，雄性还是雌性的。术语受试者包括含人在内的哺乳动物。

术语“哺乳动物”涵盖人和非人两种，并且包括但不限于人、非人灵长类动物、犬科动物、猫科动物、鼠科动物、牛科动物、马科动物及猪科动物。

术语“临床因素”是指受试者状况，例如疾病活动性或严重程度的量度。“临床因素”涵盖受试者健康状况的所有标志物，包括非样品标志物，和/或受试者的其它特征，如但不限于年龄和性别。临床因素可以是能通过在确定条件下评价来自受试者的一个样品(或样品群)或受试者而获得的分数、一个值或一组值。临床因素也可以由标志物和/或如基因表达替代物之类其它参数进行预测。临床因素可以包括肿瘤类型、肿瘤亚型和吸烟史。

缩写：MHC：主要组织相容性复合物；HLA：人白细胞抗原或人MHC基因座；NGS：下一代测序；PPV：阳性预测值；TSNA：肿瘤特异性新抗原；FFPE：***固定、石蜡包埋；NMD：无义介导的衰变；NSCLC：非小细胞肺癌；DC：树突状细胞。

除非上下文另外清楚地规定，否则如本说明书和所附权利要求中所使用，单数形式“一个(种)(a/an)”和“所述”包括多个参照物。

本文中未直接定义的任何术语应理解为具有与本发明领域内所理解的通常与之相关的含义。本文论述的某些术语是为了向从业人员描述本发明各方面的组合物、装置、方法等以及其制备或使用提供额外的指导。应了解，相同的事物可以按超过一种方式表示。因此，替代性措辞和同义词可以用于本文所论述的任一个或多个术语。无论本文中是否阐述或论述术语都无关紧要。提供了一些同义词或可取代的方法、材料等。除非明确陈述，否则对一个或数个同义词或等效物的叙述不排除其它同义词或等效物的使用。实例，包括术语实例的使用只是出于说明的目的，且并非在本文中限制本发明各方面的范围和含义。

说明书正文内引用的所有参考文献、颁布的专利和专利申请都是以引用的方式整体并入本文中用于所有目的。

II.鉴别新抗原的方法

本文公开了用于鉴别来自受试者肿瘤的新抗原的方法，这些新抗原可能被呈递于肿瘤细胞表面和/或可能是免疫原性的。举个例子，一种此类方法可以包括以下步骤：从受试者的肿瘤细胞获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一种，其中该肿瘤核苷酸测序数据被用于获得代表新抗原集合中每一新抗原的肽序列的数据，并且其中每一种新抗原的肽序列包含至少一个使其不同于相应野生型亲本肽序列的变化；将每一种新抗原的肽序列输入一个或多个呈递模型中以产生所述新抗原各自被一个或多个MHC等位基因呈递于受试者肿瘤细胞的肿瘤细胞表面或肿瘤中存在的细胞上的数字可能性集合，该数字可能性集合已被至少基于接收到的质谱数据进行鉴别；及基于该数字可能性集合选择该新抗原集合的子集，以产生选定的新抗原的集合。

呈递模型可以包括针对包含相应标记集合的参考数据集合(又称为训练数据集)训练的统计回归或机器学习(例如深度学习)模型，其中该参考数据集合是从多个不同受试者中的每一个获得，其中任选地，一些受试者可以患有肿瘤，且其中该参考数据集合包含以下至少一个：代表来自肿瘤组织的外显子组核苷酸序列的数据、代表来自正常组织的外显子组核苷酸序列的数据、代表来自肿瘤组织的转录组核苷酸序列的数据、代表来自肿瘤组织的蛋白质组序列的数据和代表来自肿瘤组织的MHC肽组序列的数据，以及代表来自正常组织的MHC肽组序列的数据。参考数据可以另外包括工程改造成表达预定MCH等位基因且随后暴露于合成蛋白质的单等位基因细胞系、正常和肿瘤人细胞系，以及新鲜和冷冻原始样品的质谱数据、测序数据、RNA测序数据和蛋白质组数据，以及T细胞测定(例如ELISPOT)。在某些方面，参考数据集合包括每种形式的参考数据。

呈递模型可以包含至少部分自参考数据集合得到的特征集合，并且其中该特征集合包含等位基因依赖性特征和等位基因非依赖性特征中的至少一种。在某些方面，包括每一特征。

树突状细胞呈递天然T细胞特征可以包括以下至少一种：以上描述的特征。疫苗中抗原的剂量和类型(例如肽、mRNA、病毒等)：(1)树突状细胞(DC)摄取抗原类型的途径(例如内吞作用、微胞吞作用)；和/或(2)抗原被DC摄取的功效。疫苗中佐剂的剂量和类型。疫苗抗原序列的长度。疫苗施用的次数和部位。基线患者免疫功能(例如，通过近期感染史、血液计数等度量)。对于RNA疫苗：(1)树突状细胞中mRNA蛋白质产物的转换率；(2)如在体外或体内实验中测量的在树突状细胞吸收后mRNA的翻译速率；和/或(3)如在体内或体外实验中测量的在树突状细胞吸收后mRNA翻译的数量或次数。肽中蛋白酶裂解基元的存在，任选地对通常在树突状细胞中表达的蛋白酶提供额外权重(如通过RNA-seq或质谱法测量)。典型的活化树突状细胞中蛋白酶体和免疫蛋白酶体的表达水平(可以通过RNA-seq、质谱法、免疫组织化学或其它标准技术测量)。相关个体中特定MHC等位基因的表达水平(例如通过RNA-seq或质谱法测量)，任选具体地在活化树突状细胞或其它免疫细胞中测量。在表达特定MHC等位基因的其他个体中特定MHC等位基因呈递肽的机率，任选具体地在活化树突状细胞或其它免疫细胞中测量。在其他个体中由同一家族分子(例如HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)中的MHC等位基因呈递肽的机率，任选具体地在活化树突状细胞或其它免疫细胞中测量。

免疫耐受逃避特征可以包括以下至少一种：通过对一种或数种细胞类型进行蛋白质质谱直接测量自身肽组。通过采用自身蛋白质所有k-mer(例如5-25)子串的联合来估计自身肽组。使用与上述应用于所有非突变自身蛋白质的呈递模型类似的呈递模型估计自身肽组，任选地考虑生殖系变体。

排序可以至少部分基于数字可能性，使用由至少一个模型提供的多种新抗原来进行。在排序后，可以根据选择标准进行选择，以选出排序的新抗原的子集。在选择后，可以提供排序的肽的子集作为输出。

选定的新抗原的集合的数量可以是20。

呈递模型可以表示以下两项之间的依赖性：MHC等位基因中的一对特定等位基因和在肽序列特定位置处特定氨基酸的存在；与在肿瘤细胞表面上由该对MHC等位基因中的特定等位基因呈递在该特定位置处包含特定氨基酸的此类肽序列的可能性。

本文公开的方法还可以包括将一个或多个呈递模型应用于相应新抗原的肽序列以生成一个或多个MHC等位基因各自的依赖性分数，所述依赖性分数指示该MHC等位基因是否将至少基于相应新抗原的肽序列中氨基酸的位置呈递相应新抗原。

本文公开的方法还可以包括变换依赖性分数以产生每一MHC等位基因的相应独立等位基因可能性，由此指示相应MHC等位基因将呈递相应新抗原的可能性；及组合独立等位基因可能性以产生数字可能性。

该变换依赖性分数的步骤可以将相应新抗原的肽序列的呈递建模为相互排斥的。

本文公开的方法还可以包括变换依赖性分数的组合以产生数字可能性。

该变换依赖性分数的组合的步骤可以将相应新抗原的肽序列的呈递建模为在MHC等位基因之间存在干扰。

该数字可能性集合可以通过至少一个等位基因非相互作用特征进一步鉴别，并且本文公开的方法也可以包括将不与一个或多个呈递模型中的一个相互作用的等位基因应用于等位基因非相互作用特征以产生等位基因非相互作用特征的依赖性分数，所述依赖性分数指示相应新抗原的肽序列是否将基于等位基因非相互作用特征而被呈递。

本文公开的方法也可以包括将该一个或多个MHC等位基因中每一MHC等位基因的依赖性分数与等位基因非相互作用特征的依赖性分数组合；变换每一MHC等位基因的组合的依赖性分数以产生该MHC等位基因的相应独立等位基因可能性，由此指示相应MHC等位基因将呈递相应新抗原的可能性；及组合独立等位基因可能性以产生数字可能性。

本文公开的方法还可以包括变换每一MHC等位基因的依赖性分数与等位基因非相互作用特征的依赖性分数的组合以产生数字可能性。

呈递模型的数字参数集合可以基于训练数据集进行训练，该训练数据集包括被鉴别为存在于多个样品中的至少一个训练肽序列集合以及与每一训练肽序列相关的一个或多个MHC等位基因，其中训练肽序列是通过对从来源于该多个样品的MHC等位基因洗脱的分离的肽进行质谱法来鉴别。

样品也可以包括工程改造成表达单个I类或II类MHC等位基因的细胞系。

样品还可以包括工程改造成表达多个I类或II类MHC等位基因的细胞系。

样品还可以包括从多个患者获得或得到的人细胞系。

样品还可以包括从多个患者获得的新鲜或冷冻的肿瘤样品。

样品还可以包括从多个患者获得的新鲜或冷冻的组织样品。

样品还可以包括使用T细胞测定鉴别的肽。

训练数据集可以另外包括与以下相关的数据：样品中存在的训练肽集合的肽丰度；样品中训练肽集合的肽长度。

训练数据集可以通过经由比对，将训练肽序列的集合与包含已知蛋白质序列的集合的数据库相比较而产生，其中训练蛋白质序列的集合比训练肽序列长并且包括训练肽序列。

训练数据集可以基于对细胞系进行或已进行核苷酸测序以获得来自细胞系的外显子组、转录组或全基因组测序数据中的至少一种来产生，该测序数据包括至少一个含变化的核苷酸序列。

训练数据集可以基于获得来自正常组织样品的外显子组、转录组或全基因组测序数据中的至少一种来产生。

训练数据集可以另外包括与样品相关的蛋白质组序列相关的数据。

训练数据集可以另外包括与样品相关的MHC肽组序列相关的数据。

训练数据集可以另外包括与分离的肽中的至少一个的肽-MHC结合亲和力测量值相关的数据。

训练数据集可以另外包括与分离的肽中的至少一个的肽-MHC结合稳定性测量值相关的数据。

训练数据集可以另外包括与样品相关的转录组相关的数据。

训练数据集可以另外包括与样品相关的基因组相关的数据。

训练肽序列的长度可以在k-mer范围内，其中k对于I类MHC介于8-15之间(包括端点在内)或对于II类MHC介于9-30之间(包括端点在内)。

本文公开的方法还可以包括使用独热编码方案(one-hot encoding scheme)编码肽序列。

本文公开的方法还可以包括使用左填充独热编码方案编码训练肽序列。

治疗患有肿瘤的受试者的方法包括进行权利要求1所述的步骤，并且还包括获得包含选定的新抗原的集合的肿瘤疫苗，及将该肿瘤疫苗施用给受试者。

本文还公开了一种用于制造肿瘤疫苗的方法，该方法包括以下步骤：自受试者的肿瘤细胞获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一种，其中该肿瘤核苷酸测序数据被用于获得代表新抗原集合中每一新抗原的肽序列的数据，并且其中每一种新抗原的肽序列包含至少一个使其不同于相应野生型亲本肽序列的突变；将每一新抗原的肽序列输入一个或多个呈递模型中以产生所述新抗原各自被一个或多个MHC等位基因呈递于受试者肿瘤细胞的肿瘤细胞表面上的数字可能性集合，该数字可能性集合已被至少基于接收到的质谱数据进行鉴别；及基于该数字可能性集合选择该新抗原集合的子集，以产生选定的新抗原的集合；以及制造或制得包含该选定的新抗原的集合的肿瘤疫苗。

本文还公开了一种包括选定的新抗原的集合的肿瘤疫苗，该选定的新抗原的集合是通过进行包括以下步骤的方法选择：自受试者的肿瘤细胞获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一种，其中该肿瘤核苷酸测序数据被用于获得代表新抗原集合中每一种新抗原的肽序列的数据，并且其中每一新抗原的肽序列包含至少一个使其不同于相应野生型亲本肽序列的突变；将每一新抗原的肽序列输入一个或多个呈递模型中以产生新抗原各自被一个或多个MHC等位基因呈递于受试者肿瘤细胞的肿瘤细胞表面上的数字可能性集合，该数字可能性集合已被至少基于接收到的质谱数据进行鉴别；及基于该数字可能性集合选择该新抗原集合的子集，以产生选定的新抗原的集合；以及制造或制得包含该选定的新抗原的集合的肿瘤疫苗。

肿瘤疫苗可以包含核苷酸序列、多肽序列、RNA、DNA、细胞、质粒或载体中的一种或多种。

肿瘤疫苗可以包括呈递于肿瘤细胞表面上的一种或多种新抗原。

肿瘤疫苗可以包含在受试者体内具有免疫原性的一种或多种新抗原。

肿瘤疫苗不包含诱导针对受试者体内的正常组织的自体免疫反应的一种或多种新抗原。

肿瘤疫苗可以包含佐剂。

肿瘤疫苗可以包含赋形剂。

本文公开的方法还可以包括基于呈递模型，选择在肿瘤细胞上呈递的可能性相对于未被选择的新抗原有所增加的新抗原。

本文公开的方法还可以包括基于呈递模型，选择能够在受试者体内诱导肿瘤特异性免疫反应的可能性相对于未被选择的新抗原有所增加的新抗原。

本文公开的方法还可以包括基于呈递模型，选择能够被专职抗原呈递细胞(APC)呈递至天然T细胞的可能性相对于未被选择的新抗原有所增加的新抗原，任选地其中该APC是树突状细胞(DC)。

本文公开的方法还可以包括基于呈递模型，选择经历中枢或外周耐受性抑制的可能性相对于未被选择的新抗原有所降低的新抗原。

本文公开的方法还可以包括基于呈递模型，选择能够在受试者体内诱导针对正常组织的自体免疫反应的可能性相对于未被选择的新抗原有所降低的新抗原。

外显子组或转录组核苷酸序列数据可以通过对肿瘤组织进行测序来获得。

测序可以是下一代测序(NGS)或任何大规模平行测序方法。

数字可能性集合可以通过至少MHC等位基因相互作用特征进一步鉴别，这些特征包括以下中的至少一种：预测的MHC等位基因与新抗原编码肽结合的亲和力；预测的新抗原编码肽-MHC复合物的稳定性；新抗原编码肽的序列和长度；如通过质谱蛋白组学或其它手段所评估的在来自表达特定MHC等位基因的其他个体的细胞中呈递具有类似序列的新抗原编码肽的机率；在相关受试者中特定MHC等位基因的表达水平(例如通过RNA-seq或质谱法测量)；在表达特定MHC等位基因的其他不同受试者中不依赖于总体新抗原编码肽序列而由特定MHC等位基因呈递的机率；在其他不同受试者中不依赖于总体新抗原编码肽序列而由同一家族分子(例如HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)中的MHC等位基因呈递的机率。

数字可能性集合通过至少MHC等位基因非相互作用特征进一步鉴别，这些特征包括以下中的至少一种：在源蛋白质序列内侧接新抗原编码肽的C末端和N末端序列；新抗原编码肽中蛋白酶裂解基元的存在，任选地根据相应蛋白酶在肿瘤细胞中的表达(如通过RNA-seq或质谱法测量)进行加权；如在适当细胞类型中测量的源蛋白的转换率；通过RNA-seq或蛋白质组质谱法测量，或根据在DNA或RNA序列数据中检测到的生殖系或体细胞剪接突变的注释所预测的源蛋白的长度，任选地考虑在肿瘤细胞中表达水平最高的特定剪接变体(“同功型”)；肿瘤细胞中蛋白酶体、免疫蛋白酶体、胸腺蛋白酶体或其它蛋白酶的表达水平(可以通过RNA-seq、蛋白质组质谱法或免疫组织化学法测量)；新抗原编码肽的源基因的表达(例如通过RNA-seq或质谱法测量)；在细胞周期各阶段期间新抗原编码肽的源基因的典型组织特异性表达；源蛋白和/或其结构域的综合特征目录，如例如可见于uniProt或PDBhttp：//www.rcsb.org/pdb/home/home.do中；描述含有该肽的源蛋白结构域的特性的特征，例如：二级或三级结构(例如α螺旋对比β折叠)；选择性剪接；在其他不同受试者中来自相关新抗原编码肽的源蛋白的肽的呈递机率；由于技术偏差而不会被质谱法检测到或过量表示肽的机率；通过RNASeq测量(无需含有该肽的源蛋白)的提供有关肿瘤细胞、基质或肿瘤浸润淋巴细胞(TIL)的状态的信息的各种基因模块/路径的表达；肿瘤细胞中新抗原编码肽的源基因的拷贝数；肽结合至TAP的机率或该肽与TAP的结合亲和力的测量值或预测值；肿瘤细胞中TAP的表达水平(可以通过RNA-seq、蛋白质组质谱法、免疫组织化学法测量)；肿瘤突变的存在或不存在，这些突变包括但不限于：已知癌症驱动基因如EGFR、KRAS、ALK、RET、ROS1、TP53、CDKN2A、CDKN2B、NTRK1、NTRK2、NTRK3中，及编码抗原呈递机器中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体的组分的任何基因)中的突变。呈递依赖于在肿瘤中经历功能丧失性突变(loss-of-function mutation)的抗原呈递机器组分的肽具有降低的呈递机率；功能性生殖系多态性的存在或不存在，包括但不限于：在编码抗原呈递机器中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体的组分的任何基因)中的功能性生殖系多态性；肿瘤类型(例如NSCLC、黑素瘤)；临床肿瘤亚型(例如鳞状肺癌对比非鳞状肺癌)；吸烟史；相关肿瘤类型或临床亚型中肽的源基因的典型表达；任选地通过驱动突变进行分层。

该至少一个突变可以包括移码或非移码***缺失、错义或无义取代、剪接位点变化、基因组重排或基因融合，或产生neoORF的任何基因组或表达变化。

肿瘤细胞可以选自由以下组成的组：肺癌、黑素瘤、乳癌、卵巢癌、***癌、肾癌、胃癌、结肠癌、睾丸癌、头颈癌、胰腺癌、脑癌、B细胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病和T细胞淋巴细胞性白血病、非小细胞肺癌和小细胞肺癌。

本文公开的方法还可以包括获得包括该选定的新抗原的集合或其子集的肿瘤疫苗，任选地还包括将该肿瘤疫苗施用给受试者。

当呈多肽形式时，该选定的新抗原的集合中的至少一种新抗原可以包括以下至少一项：以低于1000nM的IC50值的与MHC的结合亲和力；对于1类MHC多肽，长度是8-15个，即8、9、10、11、12、13、14或15个氨基酸；在亲本蛋白质序列中该多肽内或附近存在促进蛋白酶体裂解的序列基元的存在；及促进TAP转运的序列基元的存在。

本文还公开了产生用于鉴别可能在肿瘤细胞的肿瘤细胞表面上呈递的一种或多种新抗原的模型的方法，所述方法包括以下步骤：接收质谱数据，该质谱数据包括与从来源于多个样品的主要组织相容性复合物(MHC)洗脱的多个分离肽相关的数据；通过至少鉴别样品中存在的训练肽序列的集合和与各训练肽序列相关的一个或多个MHC来获得训练数据集；使用包含训练肽序列的训练数据集来训练呈递模型的数字参数集合，该呈递模型提供来自肿瘤细胞的肽序列被一个或多个MHC等位基因呈递于肿瘤细胞表面上的多个数字可能性。

呈递模型可以表示以下两者之间的依赖性：在肽序列的特定位置处特定氨基酸的存在；与在肿瘤细胞上由MHC等位基因中的一个呈递特定位置处包含特定氨基酸的肽序列的可能性。

样品还可以包括从多个患者获得或得到的人细胞系。

样品还可以包括从多个患者获得的新鲜或冷冻的肿瘤样品。

样品还可以包括使用T细胞测定鉴别的肽。

本文公开的方法也可以包括基于训练肽序列，通过经由比对将训练肽序列集合与包含已知蛋白质序列的集合的数据库相比较来获得训练蛋白质序列的集合，其中该训练蛋白质序列的集合比训练肽序列长并且包括训练肽序列。

本文公开的方法还可以包括对细胞系进行或已进行质谱法以从该细胞系获得外显子组、转录组或全基因组核苷酸测序数据中的至少一种，该核苷酸测序数据包括至少一个含突变的蛋白质序列。

本文公开的方法还可以包括：使用独热编码方案编码训练肽序列。

本文公开的方法还可以包括由正常组织样品获得外显子组、转录组和全基因组正常核苷酸测序数据中的至少一种，及使用正常核苷酸测序数据训练呈递模型的参数集合。

训练数据集可以另外包含与样品相关的蛋白质组序列有关的数据。

训练数据集可以另外包含与样品相关的MHC肽组序列有关的数据。

训练数据集可以另外包含与分离肽中的至少一个的肽-MHC结合亲和力测量值相关的数据。

训练数据集可以另外包含与分离肽中的至少一个的肽-MHC结合稳定性测量值相关的数据。

训练数据集可以另外包含与样品相关的转录组相关的数据。

训练数据集可以另外包含与样品相关的基因组相关的数据。

本文公开的方法还可以包括对参数集合进行逻辑回归。

本文公开的方法还可以包括使用深度学习算法确定该参数集合的值。

本文公开了用于鉴别可能在肿瘤细胞的肿瘤细胞表面上呈递的一种或多种新抗原的方法，所述方法包括执行以下步骤：接收质谱数据，该质谱数据包括与从来源于多个新鲜或冷冻肿瘤样品的主要组织相容性复合物(MHC)洗脱的多个分离肽相关的数据；通过至少鉴别存在于肿瘤样品中并且被呈递于一个或多个与每一训练肽序列相关的MHC等位基因上的训练肽序列的集合来获得训练数据集；基于训练肽序列获得训练蛋白质序列集合；及使用训练蛋白质序列和训练肽序列来训练呈递模型的数字参数集合，该呈递模型提供来自肿瘤细胞的肽序列被一个或多个MHC等位基因呈递于肿瘤细胞表面上的多个数字可能性。

呈递模型可以表示以下两项之间的依赖性：MHC等位基因中的一对特定等位基因和肽序列特定位置处特定氨基酸的存在；与在肿瘤细胞表面上由该对MHC等位基因中的特定等位基因呈递在该特定位置处包含特定氨基酸的此类肽序列的可能性。

本文公开的方法还可以包括选择新抗原子集，其中选择该新抗原子集是因为相对于一个或多个不同的肿瘤新抗原，其各自在肿瘤细胞表面上呈递的可能性较高。

本文公开的方法还可以包括选择新抗原子集，其中选择该新抗原子集是因为相对于一个或多个不同的肿瘤新抗原，其各自能够在受试者体内诱导肿瘤特异性免疫反应的可能性较高。

本文公开的方法还可以包括选择新抗原子集，其中选择该新抗原子集是因为相对于一个或多个不同的肿瘤新抗原，其各自能够被专职抗原呈递细胞(APC)呈递于天然T细胞的可能性较高，任选地其中该APC是树突状细胞(DC)。

本文公开的方法还可以包括选择新抗原子集，其中选择该新抗原子集是因为相对于一个或多个不同的肿瘤新抗原，其各自经历中枢或外周耐受性抑制的可能性较低。

本文公开的方法还可以包括选择新抗原子集，其中选择该新抗原子集是因为相对于一个或多个不同的肿瘤新抗原，其各自能够在受试者体内诱导针对正常组织的自体免疫反应的可能性较低。

本文公开的方法还可以包括选择新抗原子集，其中选择该新抗原子集是因为其各自在肿瘤细胞中以不同于APC的方式进行翻译后修饰的可能性较低，任选地其中该APC是树突状细胞(DC)。

除非另外指示，否则本文中方法的实践将采用在本领域的技术范围内的蛋白质化学、生物化学、重组DNA技术及药理学的常规方法。这些技术在文献中有完整解释。参见例如，T.E.Creighton，Proteins：Structures and Molecular Properties(W.H.Freeman andCompany，1993)；A.L.Lehninger，Biochemistry(Worth Publishers，Inc.，现行版)；Sambrook等人，Molecular Cloning：A Laboratory Manual(第2版，1989)；Methods InEnzymology(S.Colowick和N.Kaplan编辑，Academic Press，Inc.)；Remington′sPharmaceutical Sciences，第18版(Easton，Pennsylvania：Mack Publishing Company，1990)；Carey和Sundberg Advanced Organic Chemistry第3版(Plenum Press)第A和B卷(1992)。

III.鉴别新抗原中的肿瘤特异性突变

本文还公开了用于鉴别某些突变(例如癌细胞中存在的变体或等位基因)的方法。确切地说，这些突变可以存在于患有癌症的受试者的癌细胞的基因组、转录组、蛋白质组或外显子组中，但不存在于受试者的正常组织中。

若肿瘤中的基因突变仅导致肿瘤中蛋白质的氨基酸序列改变，则认为这些突变可用于免疫靶向肿瘤。有用的突变包括：(1)导致蛋白质中的氨基酸不同的非同义突变；(2)通读突变，其中终止密码子被修饰或缺失，导致翻译得到在C末端具有新肿瘤特异性序列的较长蛋白质；(3)导致在成熟mRNA中包括内含子且由此产生独特肿瘤特异性蛋白质序列的剪接位点突变；(4)产生在2种蛋白质的接合处具有肿瘤特异性序列的嵌合蛋白的染色体重排(即，基因融合)；(5)产生具有新肿瘤特异性蛋白质序列的新开放阅读框的移码突变或缺失。突变还可以包括非移码***缺失、错义或无义取代、剪接位点变化、基因组重排或基因融合，或产生neoORF的任何基因组或表达变化中的一种或多种。

在肿瘤细胞中具有突变的肽或由例如剪接位点突变、移码突变、通读突变或基因融合突变产生的突变多肽可以通过对肿瘤和正常细胞中的DNA、RNA或蛋白质进行测序来鉴别。

突变还可以包括先前鉴别的肿瘤特异性突变。已知的肿瘤突变可以见于癌症体细胞突变目录(Catalogue of Somatic Mutations in Cancer，COSMIC)数据库。

多种方法可用于检测个体的DNA或RNA中特定突变或等位基因的存在。本领域中的改进之处在于提供准确、容易且便宜的大规模SNP基因分型。举例来说，已描述若干技术，包括动态等位基因特异性杂交(DASH)、微板阵列对角线凝胶电泳(microplate arraydiagonal gel electrophoresis，MADGE)、焦磷酸测序、寡核苷酸特异性连接、TaqMan***以及各种DNA“芯片”技术，如Affymetrix SNP芯片。这些方法通常通过PCR扩增靶基因区。一些其它的方法基于通过侵袭式裂解产生小信号分子，随后进行质谱法或固定化挂锁探针(padlock probe)和滚环扩增。本领域中已知用于检测特定突变的若干方法概述于下。

基于PCR的检测手段可以包括同时多重扩增多个标志物。举例来说，本领域中众所周知，选择PCR引物产生尺寸不重叠且可以同时分析的PCR产物。或者，可用以不同方式标记且由此可以通过不同方式检测的引物扩增不同标志物。当然，基于杂交的检测手段能够以不同方式检测样品中的多个PCR产物。本领域中已知能够多重分析多个标志物的其它技术。

已经开发出数种方法来促进基因组DNA或细胞RNA中单核苷酸多态性的分析。举例来说，可以通过使用专用的核酸外切酶抗性核苷酸检测单碱基多态性，如例如Mundy，C.R.(美国专利第4,656,127号)中所公开的。根据该方法，与紧靠多态性位点3′端的等位基因序列互补的引物能够与从特定动物或人获得的靶分子杂交。如果靶分子上的多态性位点含有与存在的特定核酸外切酶抗性核苷酸衍生物互补的核苷酸，则该衍生物将被合并至杂交引物的末端上。此类合并使得引物对核酸外切酶具有抗性，并由此允许其检测。由于样品的核酸外切酶抗性衍生物的身份是已知的，故引物对核酸外切酶产生抗性的发现披露，靶分子多态性位点中存在的核苷酸与反应中使用的核苷酸衍生物互补。该方法的优势在于，它不需要测定大量无关的序列数据。

可以使用基于溶液的方法来确定多态性位点的核苷酸的身份。Cohen，D.等人(法国专利2,650,840；PCT申请第WO91/02087号)。如在美国专利第4,656,127号的Mundy方法中所述，采用与紧靠多态性位点3′端的等位基因序列互补的引物。该方法使用标记过的双脱氧核苷酸衍生物来确定该位点的核苷酸的身份，如果与多态性位点的核苷酸互补，则该核苷酸将被合并至引物末端上。

Goelet，P.等人(PCT申请第92/15712号)描述了一种替代性方法，称为遗传位点分析(Genetic Bit Analysis)或GBA。Goelet，P.等人的方法使用了标记过的终止子和与在多态性位点3′端的序列互补的引物的混合物。由此通过存在于所评价靶分子的多态性位点中的核苷酸来确定合并的标记过的终止子并且该终止子与存在于所评价靶分子的多态性位点中的核苷酸互补。与Cohen等人(法国专利2,650,840；PCT申请第WO91/02087号)的方法相比，Goelet，P.等人的方法可以是非均相测定，其中引物或靶分子被固定于固相。

已描述数种引物引导的用于测定DNA中的多态性位点的核苷酸并入程序(Komher，J.S.等人，Nucl.Acids.Res.17：7779-7784(1989)；Sokolov，B.P.，Nucl.Acids Res.18：3671(1990)；Syvanen，A.-C.等人，Genomics 8：684-692(1990)；Kuppuswamy，M.N.等人，Proc.Natl.Acad.Sci.(U.S.A.)88：1143-1147(1991)；Prezant，T.R.等人，Hum.Mutat.1：159-164(1992)；Ugozzoli，L.等人，GATA 9：107-112(1992)；Nyren，P.等人，Anal.Biochem.208：171-175(1993))。这些方法与GBA的不同之处在于，它们利用并入经过标记的脱氧核苷酸来区别多态性位点处的碱基。在此类形式中，由于信号与并入的脱氧核苷酸的数量成比例，故在同一核苷酸的操作中出现的多态现象可以产生与该操作的长度成比例的信号(Syvanen，A.-C.等人，Amer.J.Hum.Genet.52：46-59(1993))。

许多方案直接从数百万个独立DNA或RNA分子中并行获得序列信息。实时单分子边合成边测序技术依赖于荧光核苷酸的检测，因为这些核苷酸被并入与测序模板互补的新生DNA链中。在一种方法中，将30-50个碱基长度的寡核苷酸以5′端共价锚定至玻璃盖玻片上。这些锚定链执行两种功能。首先，如果模板被配置成具有与表面结合的寡核苷酸互补的捕捉尾部，则其充当靶模板链的捕捉位点。这些锚定链还充当模板引导的引物延伸的引物，形成序列读取的基础。捕捉引物用作固定位点以便使用多个合成、检测以及染料-连接子化学裂解以移除染料的循环进行序列测定。每个循环由添加聚合酶/标记过得核苷酸混合物、冲洗、成像及染料裂解组成。在一种替代方法中，聚合酶被修饰成具有荧光供体分子并且被固定于玻璃载片上，而各核苷酸用附接至γ-磷酸的受体萤光部分进行颜色编码。当核苷酸被并入从头合成的链中时，该***检测荧光标记的聚合酶与荧光修饰的核苷酸之间的相互作用。还存在其它边合成边测序技术。

任何适合的边合成边测序平台都可以用于鉴别突变。如上文所描述，目前有四个主要的边合成边测序平台：来自Roche/454 Life Sciences的基因组测序仪、来自Illumina/Solexa的1G分析仪、来自Applied BioSystems的SOLiD***以及来自HelicosBiosciences的Heliscope***。Pacific BioSciences和VisiGen Biotechnologies也描述过边合成边测序平台。在一些实施方案中，使所测序的多个核酸分子结合至支撑物(例如固体支撑物)上。为了将核酸固定于支撑物上，可以在模板的3′和/或5′端添加捕捉序列/通用引发位点。可以通过使捕捉序列与共价附接至支撑物的互补序列杂交而使核酸结合至支撑物。捕捉序列(又称为通用捕捉序列)是与附接至支撑物的序列互补的核酸序列，该序列还可以充当通用引物。

作为捕捉序列的替代，可以将偶合对(如抗体/抗原、受体/配体，或抗生物素-生物素对，如例如美国专利申请第2006/0252077号中所述)的一个成员连接至各片段以将其捕捉在涂有该偶合对的相应第二成员的表面上。

在捕捉后，可以例如实施例和美国专利第7,283,337号中所描述，通过例如单分子检测/测序，包括模板依赖性边合成边测序对该序列进行分析。在边合成边测序时，使表面结合的分子在聚合酶存在下暴露于多个标记过得核苷酸三磷酸。模板序列由并入正在生长的链的3′端的标记过的核苷酸的顺序决定。这可以实时进行或者可以按分步重复模式进行。对于实时分析，可以将不同光学标记并入各核苷酸并且可以利用多种激光器刺激并入的核苷酸。

测序还可以包括其它大规模平行测序或下一代测序(NGS)技术和平台。大规模平行测序技术和平台的其它实例有Illumina HiSeq或MiSeq、Thermo PGM或Proton、Pac BioRS II或Sequel、Qiagen公司的Gene Reader及Oxford Nanopore MinION。可以使用当前其它类似的大规模平行测序技术，以及这些技术的改进形式。

所有细胞类型或组织都可以用于获得用于本文所描述的方法中的核酸样品。举例来说，DNA或RNA样品可以从肿瘤或体液，例如利用已知技术(例如静脉穿刺)获得的血液，或唾液获得。或者，可以对干燥样品(例如毛发或皮肤)进行核酸测试。此外，可以从肿瘤获得一份测序样品，并且可以从正常组织获得另一份测序样品，其中正常组织与肿瘤同属相同组织类型。可以从肿瘤获得一份测序样品，并且可以从正常组织获得另一份测序样品，其中正常组织与肿瘤属于不同组织类型。

肿瘤可以包括以下一种或多种：肺癌、黑素瘤、乳癌、卵巢癌、***癌、肾癌、胃癌、结肠癌、睾丸癌、头颈癌、胰腺癌、脑癌、B细胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病和T细胞淋巴细胞性白血病、非小细胞肺癌和小细胞肺癌。

或者，可以使用蛋白质质谱法鉴别或验证结合至肿瘤细胞上的MHC蛋白质的突变肽的存在。肽可以用酸从肿瘤细胞或从自肿瘤免疫沉淀的HLA分子洗脱，并且接着使用质谱法鉴别。

IV.新抗原

新抗原可以包括核苷酸或多肽。举例来说，新抗原可以是编码多肽序列的RNA序列。因此，可用于疫苗中的新抗原包括核苷酸序列或多肽序列。

本文公开了包含通过本文所公开的方法鉴别的肿瘤特异性突变的分离的肽、包含已知肿瘤特异性突变的肽，以及通过本文所公开的方法鉴别的突变多肽或其片段。新抗原肽可以在其编码序列背景下描述，其中新抗原包括编码相关多肽序列的核苷酸序列(例如DNA或RNA)。

由新抗原核苷酸序列编码的一个或多个多肽可以包含以下至少一种：以低于1000nM的IC50值的与MHC的结合亲和力；对于长度是8-15个，即8、9、10、11、12、13、14或15个氨基酸的I类MHC肽，在该肽内或附近存在促进蛋白酶体裂解的序列基元；及存在促进TAP转运的序列基元。

一个或多个新抗原可以被呈递于肿瘤表面上。

一个或多个新抗原可以在患肿瘤的受试者中具有免疫原性，例如能够在该受试者体内引起T细胞反应或B细胞反应。

在产生用于患肿瘤的受试者的疫苗的情况下，可以考虑排除在受试者体内诱导自体免疫反应的一个或多个新抗原。

至少一个新抗原肽分子的尺寸可以包括但不限于约5个、约6个、约7个、约8个、约9个、约10个、约11个、约12个、约13个、约14个、约15个、约16个、约17个、约18个、约19个、约20个、约21个、约22个、约23个、约24个、约25个、约26个、约27个、约28个、约29个、约30个、约31个、约32个、约33个、约34个、约35个、约36个、约37个、约38个、约39个、约40个、约41个、约42个、约43个、约44个、约45个、约46个、约47个、约48个、约49个、约50个、约60个、约70个、约80个、约90个、约100个、约110个、约120个或更多个氨基分子残基，以及由其中可衍生的任何范围。在特定实施例方案中，新抗原肽分子等于或少于50个氨基酸。

新抗原肽和多肽可以：对于I类MHC是15个或更少残基长度并且通常由介于约8个与约11个之间的残基，特别是9个或10个残基组成；对于II类MHC是15-24个残基。

必要时，可以通过若干方式设计出更长的肽。在一种情况下，当预测出或已知肽在HLA等位基因上呈递的可能性时，较长的肽可以由以下任一种组成：(1)朝各相应基因产物的N末端和C末端延伸2-5个氨基酸的个别呈递的肽；(2)一些或全部呈递肽与各自的延伸序列的串接。在另一情况下，当测序披露在肿瘤中存在较长的(＞10个残基)新表位序列(例如由产生新颖肽序列的移码、通读或包括内含子引起)时，较长的肽将由以下组成：(3)由新颖肿瘤特异性氨基酸组成的整个延伸段，由此绕过了对基于计算或体外测试来选择HLA呈递最强的较短肽的需求。在两种情况下，较长链的使用使患者细胞能够进行内源性加工并且可以产生更有效的抗原呈递和T细胞反应的诱导作用。

新抗原肽和多肽可以被呈递于HLA蛋白质上。在一些方面，新抗原肽和多肽是以高于野生型肽的亲和力呈递于HLA蛋白质上。在一些方面，新抗原肽或多肽的IC50值可以是至少低于5000nM、至少低于1000nM、至少低于500nM、至少低于250nM、至少低于200nM、至少低于150nM、至少低于100nM、至少低于50nM或更低。

在一些方面，新抗原肽和多肽当施用给受试者时不会诱导自体免疫反应和/或激发免疫耐受性。

还提供了包含至少两个或更多个新抗原肽的组合物。在一些实施方案中，该组合物含有至少两个不同的肽。至少两个不同的肽可以来源于同一多肽。不同的多肽意味着，该肽的长度、氨基酸序列或两者不同。这些肽来源于已知或被发现含有肿瘤特异性突变的任何多肽。可以作为新抗原肽的来源的适合多肽可以见于例如COSMIC数据库。COSMIC策划了有关人癌症中的体细胞突变的全面信息。肽含有肿瘤特异性突变。在一些方面，肿瘤特异性突变是特定癌症类型的驱动突变。

具有所希望的活性或特性的新抗原肽和多肽可以被修饰成用于提供某些所希望的属性，例如改良的药理学特征，同时增加或至少保持未修饰肽的大体上所有生物活性以结合所希望的MHC分子并活化适当T细胞。举例来说，新抗原肽和多肽可以经历各种变化，如保守性或非保守性取代，其中此类变化可能在其使用中提供某些优势，如改良的MHC结合、稳定性及呈递。保守性取代意思指氨基酸残基被在生物上和/或化学上类似的另一氨基酸残基置换，例如一个疏水性残基被另一个置换，或一个极性残基被另一个置换。.取代包括如Gly、Ala；Val、Ile、Leu、Met；Asp、Glu；Asn、Gln；Ser、Thr；Lys、Arg；及Phe、Tyr等的组合。单氨基酸取代的影响还可以使用D-氨基酸探测。此类修饰可以使用众所周知的肽合成程序进行，如例如Merrifield，Science 232：341-347(1986)，Barany&Merrifield，ThePeptides，Gross&Meienhofer编辑(N.Y.，Academic Press)，第1-284页(1979)；及Stewart和Young，Solid Phase Peptide Synthesis，(Rockford，Ill.，Pierce)，第2版(1984)中所述。

用各种氨基酸模拟物或非天然氨基酸修饰肽和多肽特别适用于增加该肽和多肽的体内稳定性。稳定性可以通过多种方式测定。举例来说，使用肽酶和各种生物介质如人血浆和血清测试稳定性。参见例如，Verhoef等人，Eur.J.Drug Metab Pharmacokin.11：291-302(1986)。肽的半衰期可以使用25％人血清(v/v)测定，按常规方式测定。方案大致如下。在使用前，通过离心使汇集的人血清(AB型，未热灭活)脱脂。接着，用RPMI组织培养基将该血清稀释至25％并用于测试肽稳定性。按预定时间间隔，取出少量反应溶液并添加至6％三氯乙酸水溶液或乙醇中。冷却混浊的反应样品(4℃)，保持15分钟，然后离心以使沉淀的血清蛋白聚结。接着，通过反相HPLC，使用稳定性特异性色谱条件测定肽的存在。

这些肽和多肽可以经过修饰以提供除改良的血清半衰期外的所希望的属性。举例来说，可以通过将这些肽连接至含有至少一个能够诱导T辅助细胞反应的表位的序列来增强其诱导CTL活性的能力。免疫原性肽/T辅助偶联物可以借助于间隔子分子连接。间隔子通常包含在生理条件下大体上不带电荷的相对较小的中性分子，如氨基酸或氨基酸模拟物。这些间隔子通常选自例如Ala、Gly或由非极性氨基酸或中性极性氨基酸组成的其它中性间隔子。应理解，任选存在的间隔子无需包含相同残基且因此可以是异低聚物或同低聚物。当存在时，间隔子通常是至少一个或二个残基，更通常是三个至六个残基。或者，可以在无间隔子情况下将肽连接至T辅助肽。

新抗原肽可以直接地或通过间隔子在肽的氨基或羧基末端连接至T辅助细胞。新抗原肽或T辅助肽的氨基末端可以被酰基化。示例性T辅助肽包括破伤风类毒素830-843、流感307-319、疟疾环子孢子382-398和378-389。

蛋白质或肽可以通过本领域技术人员已知的任何技术制备，包括通过标准分子生物学技术表达蛋白质、多肽或肽、从天然来源分离蛋白质或肽，或化学合成蛋白质或肽。先前已公开对应于各种基因的核苷酸和蛋白质、多肽和肽序列，并且可以见于本领域普通技术人员已知的计算机化数据库。一种此类数据库是位于美国国家卫生研究院(NationalInstitutes of Health)网站的国家生物技术信息中心(National Center forBiotechnology Information)的Genbank和GenPept数据库。已知基因的编码区可以使用本文所公开或本领域普通技术人员已知的技术扩增和/或表达。或者，本领域技术人员已知蛋白质、多肽和肽的各种市售制剂。

在另一方面，新抗原包括了编码新抗原肽或其部分的核酸(例如多核苷酸)。该多核苷酸可以是例如单链和/或双链DNA、cDNA、PNA、CAN、RNA(例如mRNA)，或多核苷酸的天然或稳定化形式，如例如具有硫代磷酸酯主链的多核苷酸，或其组合，并且该多核苷酸可以含有或可以不含内含子。又另一方面提供了一种能够表达多肽或其部分的表达载体。用于不同细胞类型的表达载体是本领域众所周知的并且可以在无过度实验情况下进行选择。一般来说，将DNA以适当取向和正确的表达阅读框***表达载体，如质粒中。必要时，可以将DNA连接至能被所希望的宿主识别的适当转录和翻译调控性控制核苷酸序列，不过此类控制一般在表达载体中可用。接着，通过标准技术将载体***宿主中。相关指导可见于例如Sambrook等人(1989)Molecular Cloning，A Laboratory Manual，Cold Spring HarborLaboratory，Cold Spring Harbor，N.Y.

IV.疫苗组合物

本文还公开了一种能够引起特异性免疫反应，例如肿瘤特异性免疫反应的免疫原性组合物，例如疫苗组合物。疫苗组合物通常包含多个例如使用本文所描述的方法选择的新抗原。疫苗组合物又可以称为疫苗。

疫苗可以含有个数在1个与30个之间的肽，即2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个不同的肽；6、7、8、9、1011、12、13或14个不同肽；或12、13或14个不同的肽。肽可以包括翻译后修饰。疫苗可以含有个数在1个与100个之间或更多个核苷酸序列，即2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94，95、96、97、98、99、100或更多个不同的核苷酸序列；6、7、8、9、1011、12、13或14个不同的核苷酸序列；或12、13或14个不同的核苷酸序列。疫苗可以含有个数在1个与30个之间的新抗原序列，即2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、2R、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94，95、96、97、98、99、100或更多个不同的新抗原序列；6、7、8、9、1011、12、13或14个不同的新抗原序列；或12、13或14个不同的新抗原序列。

在一个实施方案中，不同肽和/或多肽或其编码核苷酸序列的选择使得这些肽和/或多肽能够与不同MHC分子，如不同的I类MHC分子缔合。在一些方面，一种疫苗组合物包含能够与最常出现的I类MHC分子缔合的肽和/或多肽的编码序列。因此，疫苗组合物可以包含能够与至少2个优选的、至少3个优选的或至少4个优选的I类MHC分子缔合的不同片段。

该疫苗组合物能够引起特异性细胞毒性T细胞反应和/或特异性辅助T细胞反应。

疫苗组合物还可以包含佐剂和/或载剂。有用的佐剂和载剂的实例提供于下文中。组合物可以与载剂缔合，如例如蛋白质或抗原呈递细胞，如能够将肽呈递至T细胞的树突状细胞(DC)。

佐剂是混合至疫苗组合物中增加或以其它方式改变针对新抗原的免疫反应的任何物质。载剂可以是能够与新抗原缔合的支架结构，例如多肽或多糖。任选地，佐剂是共价或非共价缀合的。

佐剂增加针对抗原的免疫反应的能力通常通过免疫介导的反应的显著或实质上增加，或疾病症状的减少来表现。举例来说，体液免疫的增加通常表现为针对抗原所产生的抗体的效价的显著增加，并且T细胞活性增加通常表现为细胞增殖，或细胞毒性，或细胞因子分泌的增加。佐剂也可以通过例如将主要体液或Th反应变成主要细胞或Th反应来改变免疫反应。

适合的佐剂包括但不限于，1018 ISS、矾、铝盐、Amplivax、AS15、BCG、CP-870，893、CpG7909、CyaA、dSLIM、GM-CSF、IC30、IC31、咪喹莫特(Imiquimod)、ImuFact IMP321、ISPatch、ISS、ISCOMATRIX、JuvImmune、LipoVac、MF59、单磷酰脂质A、Montanide IMS 1312、Montanide ISA 206、Montanide ISA 50V、Montanide ISA-51、OK-432、OM-174、OM-197-MP-EC、ONTAK、PepTel载体***、PLG微粒、雷西莫特(resiquimod)、SRL172、病毒颗粒和其它类病毒颗粒、YF-17D、VEGF捕捉剂、R848、β-葡聚糖、Pam3Cys、Aquila的来源于皂素的QS21刺激子(Aquila Biotech，Worcester，Mass.，USA)、分枝杆菌提取物和合成细菌细胞壁模拟物，以及其它专用佐剂，如Ribi的Detox.Quil或Superfos。佐剂，如不完全弗氏佐剂或GM-CSF是有用的。先前已描述若干专用于树突状细胞的免疫佐剂(例如MF59)和其制备方法(DupuisM等人，Cell Immunol.1998；186(1)：18-27；Allison A C；Dev Biol Stand.1998；92：3-11)。也可以使用细胞因子。若干细胞因子与以下直接相关：影响树突状细胞向淋巴组织(例如TNF-α)的迁移；加速树突状细胞成熟成为T淋巴细胞的有效抗原呈递细胞(例如GM-CSF、IL-1及IL-4)(美国专利第5,849,589号，特定地以引用的方式整体并入本文中)及充当免疫佐剂(例如IL-12)(Gabrilovich D I等人，J Immunother Emphasis Tumor Immunol.1996(6)：414-418)。

也已经报导过CpG免疫刺激性寡核苷酸能增强佐剂在疫苗环境中的作用。也可以使用其它TLR结合分子，如RNA结合性TLR 7、TLR 8和/或TLR 9。

有用佐剂的其它实例包括但不限于，化学修饰的CpG(例如CpR、Idera)、聚(I：C)(例如聚i：CI2U)、非CpG细菌DNA或RNA以及免疫活性小分子和抗体，如环磷酰胺、舒尼替尼(sunitinib)、贝伐单抗(bevacizumab)、西乐葆(celebrex)、NCX-4016、西地那非(sildenafil)、他达那非(tadalafil)、伐地那非(vardenafil)、索拉非尼(sorafinib)、XL-999、CP-547632、帕佐盘尼(pazopanib)、ZD2171、AZD2171、伊匹单抗(ipilimumab)、曲美单抗(tremelimumab)及SC58175，这些可以起到治疗作用和/或充当佐剂。佐剂和添加剂的量和浓度可以由熟练技术人员容易地确定，无需过度实验。其它佐剂包括集落刺激因子，如粒细胞巨噬细胞集落刺激因子(GM-CSF，沙格司亭(sargramostim))。

疫苗组合物可以包含超过一种不同的佐剂。此外，治疗组合物可以包含任何佐剂物质，包括上述任一种或其组合。另外，预期疫苗和佐剂可以一起施用或按任何适当的次序分开施用。

载剂(或赋形剂)可以独立于佐剂而存在。载剂的功能可以是例如增加特定突变体的分子量以增加活性或免疫原性；赋予稳定性、增加生物活性或增加血清半衰期。此外，载剂可以帮助将肽呈递至T细胞。载剂可以是本领域技术人员已知的任何适合的载剂，例如蛋白质或抗原呈递细胞。载剂蛋白可以是但不限于匙孔血蓝蛋白、血清蛋白如转铁蛋白、牛血清白蛋白、人血清白蛋白、甲状腺球蛋白或卵白蛋白、免疫球蛋白或激素，如胰岛素或棕榈酸。对于人的免疫，载剂一般是对人生理学上可接受的载剂并且是安全的。不过，破伤风类毒素及/或白喉类毒素是适合的载剂。或者，载剂可以是葡聚糖，例如琼脂糖。

细胞毒性T细胞(CTL)识别呈结合至MHC分子的肽形式的抗原，而非整个外来抗原本身。MHC分子本身位于抗原呈递细胞的细胞表面上。因此，如果存在肽抗原、MHC分子和APC的三聚体复合物，则可能活化CTL。相应地，如果该肽不仅用于活化CTL，而且如果另外添加具有相应MHC分子的APC，则其可以增强免疫反应。因此，在一些实施方案中，疫苗组合物另外含有至少一种抗原呈递细胞。

新抗原也可以被包括在基于病毒载体的疫苗平台中，如牛痘、禽痘、自复制型α病毒、马拉巴病毒(marabavirus)、腺病毒(参见例如Tatsis等人，Adenoviruses，MolecularTherapy(2004)10，616-629)或慢病毒，包括但不限于第二代、第三代和/或混合第二/第三代慢病毒和设计成靶向特定细胞类型或受体的任何一代重组慢病毒(参见例如，Hu等人，Immunization Delivered by Lentiviral Vectors for Cancer and InfectiousDiseases，Immunol Rev.(2011)239(1)：45-61；Sakuma等人，Lentiviral vectors：basicto translational，Biochem J.(2012)443(3)：603-18；Cooper等人，Rescue of splicing-mediated intron loss maximizes expression in lentiviral vectors containingthe human ubiquitin C promoter，Nucl.Acids Res.(2015)43(1)：682-690；Zufferey等人，Self-Inactivating Lentivirus Vector for Safe and Efficient In Vivo GeneDelivery，J.Virol.(1998)72(12)：9873-9880)。取决于以上提到的基于病毒载体的疫苗平台的包装能力，此方法可以递送编码一个或多个新抗原肽的一个或多个核苷酸序列。这些序列可以侧接非突变序列，可以由连接子分开，或者可以在前面具有一个或多个靶向亚细胞区室的序列(参见例如，Gros等人，Prospective identification of neoantigen-specific lymphocytes in the peripheral blood of melanoma patients，Nat Med.(2016)22(4)：433-8；Stronen等人，Targeting of cancer neoantigens with donor-derived T cell receptor repertoires，Science.(2016)352(6291)：1337-41；Lu等人，Efficient identification of mutated cancer antigens recognized by T cellsassociated with durable tumor regressions，Clin Cancer Res.(2014)20(13)：3401-10)。在引入宿主中后，受感染的细胞表达新抗原，并由此引起针对肽的宿主免疫(例如CTL)反应。可用于免疫方案的牛痘载体和方法描述于例如美国专利第4,722,848号中。另一载体是卡介苗(Bacille Calmette Guerin，BCG)。BCG载体描述于Stover等人(Nature 351：456-460(1991))中。根据本文的描述，本领域技术人员将显而易见可用于新抗原的治疗性施用或免疫的多种其它疫苗载体，例如，伤寒沙门氏菌(Salmonella typhi)载体。

IV.A.有关疫苗设计和制造的其它考虑因素

IV.A.1.确定涵盖所有肿瘤亚克隆的肽集合

躯干肽(Truncal peptide)，意思指由所有或大部分肿瘤亚克隆呈递的肽，将优先被包括在疫苗中。⁵³任选地，如果不存在预测会以较高机率呈递并具有免疫原性的躯干肽，或者如果预测能够以较高机率呈递并具有免疫原性的躯干肽的数量足够小以致可以在疫苗中包括其它非躯干肽，则可以通过估计肿瘤亚克隆的数量和属性并选择肽以使该疫苗所涵盖的肿瘤亚克隆的数量最大来对其它肽进行优先排序。⁵⁴

IV.A.2.新抗原优先排序

与疫苗技术可以支持的量相比，在应用所有以上新抗原过滤器后，仍有许多候选新抗原可包括在疫苗中。另外，可以保留有关新抗原分析的各个方面的不确定性，并且在候选疫苗新抗原的不同特性之间可能存在折中。因此，可以考虑用整合式多维模型代替在选择过程的每个步骤中的预定过滤器，该多维模型将候选新抗原放入具有至少以下轴的空间中并使用整合方法优化选择。

1.自体免疫或耐受的风险(生殖系的风险)(通常优选较低的自体免疫风险)。

2.测序伪影的机率(通常优选较低的伪影机率)。

3.免疫原性的机率(通常优选较高的免疫原性机率)。

4.呈递机率(通常优选较高的呈递机率)。

5.基因表达(通常优选较高表达)。

6.HLA基因的覆盖率(参与呈递新抗原集合的HLA分子数量增多可以降低肿瘤通过HLA分子下调或突变而逃避免疫攻击的机率)。

V.治疗和制造方法

还提供了一种通过向受试者施用一个或多个新抗原，如使用本文所公开的方法鉴别的多个新抗原来诱导受试者的肿瘤特异性免疫反应、针对肿瘤接种疫苗、治疗和或缓解受试者的癌症症状的方法。

在一些方面，受试者被诊断患有癌症或有发生癌症的风险。受试者可以是需要肿瘤特异性免疫反应的人、狗、猫、马或任何动物。肿瘤可以是任何实体肿瘤，如***肿瘤、卵巢肿瘤、***肿瘤、肺肿瘤、肾肿瘤、胃肿瘤、结肠肿瘤、睾丸肿瘤、头颈部肿瘤、胰腺肿瘤、脑肿瘤、黑素瘤及其它组织器官肿瘤；以及血液肿瘤，如淋巴瘤和白血病，包括急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病、T细胞淋巴细胞性白血病及B细胞淋巴瘤。

新抗原的施用量应足以诱导CTL反应。

新抗原可以单独施用或与其它治疗剂组合施用。治疗剂是例如化学治疗剂、放射或免疫疗法。针对特定癌症的任何适合的治疗性治疗都可以施用。

此外，还可以向受试者施用抗免疫抑制/免疫刺激剂，如检查点抑制剂。举例来说，还可以向受试者施用抗CTLA抗体或抗PD-1或抗PD-L1。抗体阻断CTLA-4或PD-L1可以增强针对患者体内癌细胞的免疫反应。确切地说，经显示，当遵循疫苗接种方案时，有效阻断CTLA-4。

可以确定包括在疫苗组合物中的各新抗原的最佳量和最佳剂量方案。举例来说，可以制备供静脉内(i.v.)注射、皮下(s.c.)注射、皮内(i.d.)注射、腹膜内(i.p.)注射、肌肉内(i.m.)注射的新抗原或其变体。注射方法包括皮下(s.c.)、皮内(i.d.)、腹腔(i.p.)、肌内(i.m.)及静脉内。DNA或RNA注射方法包括皮内、肌内、皮下、腹腔及静脉内。本领域技术人员已知施用疫苗组合物的其它方法。

疫苗可以被设计成使得组合物中存在的新抗原的选择、数量和/或量具有组织、癌症和/或患者特异性。举例来说，肽的确切选择可以由给定组织中亲本蛋白质的表达模式来指导。该选择可以取决于癌症的具体类型、疾病状态、先前的治疗方案、患者的免疫状态及当然要考虑的患者的HLA单倍型。此外，根据特定患者的个人需要，疫苗还可以含有个性化组分。实例包括根据特定患者体内新抗原的表达来改变新抗原的选择或遵循第一轮治疗方案调整后续治疗。

对于打算用作癌症疫苗的组合物，在正常组织中大量表达的具有类似正常自身肽的新抗原应当避免或以少量存在于本文所描述的组合物中。另一方面，如果已知患者的肿瘤大量表达某一新抗原，则用于治疗此癌症的相应药物组合物可以大量存在和/或可以包括超过一种对于此特定新抗原或此新抗原的路径具有特异性的新抗原。

可以将包含新抗原的组合物施用给患上癌症的个体。在治疗应用中，组合物是以足以引起针对肿瘤抗原的有效CTL反应及治愈或至少部分停滞症状和/或并发症的量施用给患者。适于实现此目的的量定义为“治疗有效剂量”。有效用于此用途的量将取决于例如组成、施用方式、所治疗的疾病的分期和严重程度、患者的体重和一般健康状态，以及处方医师的判断。应了解，组合物一般可以用于严重疾病状态，也就是说，危及生命或可能危及生命的状况，特别是当癌症已经转移的时候。在此类情况下，考虑到要使外来物质最少以及新抗原的相对无毒性质，治疗医师有可能并且会感觉需要施用大体上过量的这些组合物。

对于治疗用途，施用可以在检测到或手术移除肿瘤时开始。这之后是增加剂量，直到至少症状大体上减轻并且之后持续一段时间。

用于治疗性治疗的药物组合物(例如疫苗组合物)意图用于肠胃外、表面、鼻、口或局部施用。药物组合物可以通过肠胃外施用，例如静脉内、皮下、皮内或肌肉内施用。这些组合物可以施用到手术切除的部位处以诱导针对肿瘤的局部免疫反应。本文公开了供肠胃外施用的组合物，这些组合物包含新抗原溶液并且疫苗组合物被溶解或悬浮于可接受的载剂，例如水性载剂中。可以使用多种水性载剂，例如水、缓冲水、0.9％生理盐水、0.3％甘氨酸、透明质酸等。这些组合物可以通过众所周知的常规灭菌技术灭菌，或者可以经历无菌过滤。由此得到的水溶液可以被包装起来按原样使用，或者被冻干；冻干的制剂在施用之前与无菌溶液组合。必要时，这些组合物可以含有药学上可接受的辅助物质以接近生理条件，如pH调节剂和缓冲剂、张力调节剂、润湿剂等，例如乙酸钠、乳酸钠、氯化钠、氯化钾、氯化钙、脱水山梨糖醇单月桂酸酯、三乙醇胺油酸酯等。

新抗原还可以通过脂质体施用，使脂质体靶向特定细胞组织，如淋巴组织。脂质体还可用于增加半衰期。脂质体包括乳液、泡沫状物、胶束、不溶性单层、液晶、磷脂分散体、薄层状层等。在这些制剂中，待递送的新抗原是单独或与结合至例如淋巴细胞间普遍存在的受体的分子如结合至CD45抗原的单克隆抗体，或与其它治疗或免疫原性组合物缀合作为脂质体的一部分并入。因此，填充有所希望的新抗原的脂质体可以被引导至淋巴细胞部位，接着脂质体递送所选治疗性/免疫原性组合物。脂质体可以由标准囊泡形成脂质形成，这些脂质一般包括中性和带负电的磷脂以及固醇如胆固醇。脂质的选择一般通过考虑例如脂质体尺寸、酸不稳定性和脂质体在血流中的稳定性来指导。如例如Szoka等人，Ann.Rev.Biophys.Bioeng.9；467(1980)；美国专利第4,235,871号、第4,501,728号、第4,501,728号、第4,837,028号及第5,019,369号中所述，有多种可用于制备脂质体的方法。

为靶向免疫细胞，打算并入脂质体中的配体可以包括例如对所希望的免疫***细胞的细胞表面决定子具有特异性的抗体或其片段。脂质体悬浮液可以经静脉内、局部、表面等途径施用，其剂量尤其根据施用方式、所递送的肽及所治疗疾病的分期等而变化。

出于治疗或免疫接种目的，还可以向患者施用编码肽的核酸和任选地一种或多种本文所描述的肽。常常使用多种方法将核酸递送给患者。举例来说，核酸可以直接被递送，如“裸DNA”。这一方法描述于例如Wolff等人，Science 247：1465-1468(1990)以及美国专利第5,580,859号和第5,589,466号。核酸还可以使用例如美国专利第5,204,253号中所描述的冲击递送法(ballistic delivery)施用。可以施用仅包含DNA的粒子。或者，可以使DNA附着至粒子，如金粒子。用于递送核酸序列的方法可以包括病毒载体、mRNA载体及DNA载体，利用或不利用电穿孔。

核酸也可以与阳离子性化合物，如阳离子性脂质形成复合物来递送。脂质介导的基因递送方法描述于例如9618372WOAWO 96/18372；9324640WOAWO 93/24640；Mannino和Gould-Fogerite，BioTechniques 6(7)：682-691(1988)；美国专利第5,279,833号；Rose美国专利第5,279,833号；9106309WOAWO 91/06309；及Felgner等人，Proc.Natl.Acad.Sci.USA 84：7413-7414(1987)。

新抗原也可以被包括在基于病毒载体的疫苗平台中，如牛痘、禽痘、自复制型α病毒、马拉巴病毒、腺病毒(参见例如Tatsis等人，Adenoviruses，Molecular Therapy(2004)10，616-629)或慢病毒，包括但不限于第二代、第三代和/或混合第二/第三代慢病毒和设计成靶向特定细胞类型或受体的任何一代重组慢病毒(参见例如，Hu等人，ImmunizationDelivered by Lentiviral Vectors for Cancer and Infectious Diseases，ImmunolRev.(2011)239(1)：45-61；Sakuma等人，Lentiviral vectors：basic to translational，Biochem J.(2012)443(3)：603-18；Cooper等人，Rescue of splicing-mediated intronloss maximizes expression in lentiviral vectors containing the humanubiquitin C promoter，Nucl.Acids Res.(2015)43(1)：682-690；Zufferey等人，Self-Inactivating Lentivirus Vector for Safe and Efficient In Vivo Gene Delivery，J.Virol.(1998)72(12)：9873-9880)。取决于以上提到的基于病毒载体的疫苗平台的包装能力，此方法可以递送编码一个或多个新抗原肽的一个或多个核苷酸序列。这些序列可以侧接非突变序列，可以由连接子分开，或者可以在前面具有一个或多个靶向亚细胞区室的序列(参见例如，Gros等人，Prospective identification of neoantigen-specificlymphocytes in the peripheral blood of melanoma patients，Nat Med.(2016)22(4)：433-8；Stronen等人，Targeting of cancer neoantigens with donor-derived T cellreceptor repertoires，Science.(2016)352(6291)：1337-41；Lu等人，Efficientidentification of mutated cancer antigens recognized by T cells associatedwith durable tumor regressiohs，Clin Cancer Res.(2014)20(13)：3401-10)。在引入宿主中后，受感染的细胞表达新抗原，并由此引起针对肽的宿主免疫(例如CTL)反应。可用于免疫方案的牛痘载体和方法描述于例如美国专利第4,722,848号中。另一载体是卡介苗(BCG)。BCG载体描述于Stover等人(Nature 351：456-460(1991))中。根据本文的描述，本领域技术人员将显而易见可用于新抗原的治疗性施用或免疫的多种其它疫苗载体。

施用核酸的方式使用了编码一个或多个表位的微型基因构建体。为了产生用于在人细胞中表达的编码所选CTL表位的DNA序列(微型基因)，对这些表位的氨基酸序列进行逆翻译。使用人密码子用法表指导各氨基酸的密码子选择。将这些表位编码DNA序列直接邻接，产生连续多肽序列。为了优化表达和/或免疫原性，可以将另外的元件并入微型基因设计中。可以被逆翻译并且包括在微型基因序列中的氨基酸序列的实例包括：辅助T淋巴细胞、表位、前导(信号)序列及内质网滞留信号。此外，通过邻近CTL表位包括合成(例如聚丙氨酸)或天然存在的侧接序列可以改善CTL表位的MHC呈递。通过组装编码微型基因正链和负链的寡核苷酸，将微型基因序列转化成DNA。使用众所周知的技术，在适当条件下合成、磷酸化、纯化重叠寡核苷酸(30-100个碱基长)并使其退火。使用T4 DNA连接酶接合寡核苷酸的末端。接着，可以将这一编码CTL表位多肽的合成微型基因克隆至所希望的表达载体中。

可以使用多种配制物制备注射用纯化质粒DNA。这些方法中最简单的方法是在无菌磷酸盐缓冲生理盐水(PBS)中使冻干的DNA复水。多种方法已有描述，并且新技术也可以使用。如上文所述，核酸宜用阳离子性脂质配制。此外，还可以使统称为保护性、相互作用性、非缩合性(PINC)的糖酯、促融脂质体、肽和化合物与纯化的质粒DNA形成复合物以影响各种变量，如稳定性、肌肉内分散或向特定器官或细胞类型的运输。

还公开了一种制造肿瘤疫苗的方法，该方法包括执行本文所公开的方法的各个步骤；及产生包含多个新抗原或该多个新抗原的子集的肿瘤疫苗。

本文所公开的新抗原可以使用本领域中已知的方法制造。举例来说，本文所公开的产生新抗原或载体(例如包括至少一个编码一个或多个新抗原的序列的载体)的方法可以包括在适于表达该新抗原或载体的条件下培养宿主细胞，其中该宿主细胞包含至少一个编码该新抗原或载体的多核苷酸；及纯化该新抗原或载体。标准纯化方法包括色谱技术、电泳技术、免疫技术、沉淀、透析、过滤、浓缩及等电聚焦技术。

宿主细胞可以包括中国仓鼠卵巢(CHO)细胞、NS0细胞、酵母或HEK293细胞。宿主细胞可以用一个或多个多核苷酸转化，该一个或多个多核苷酸包含至少一个编码本文所公开的新抗原或载体的核酸序列，任选地其中分离的多核苷酸另外包含可操作地连接到该至少一个编码新抗原或载体的核酸序列的启动子序列。在某些实施方案中，该分离的多核苷酸可以是cDNA。

VI.新抗原鉴别

VI.A新抗原候选物的鉴别。

有关以NGS分析肿瘤和正常外显子组和转录组的研究方法已有描述且被应用于新抗原鉴别邻域中。^6，14，15以下实施例考虑了在临床环境中对于新抗原鉴别具有较高灵敏度和特异性的某些优化措施。这些优化措施可以分为两个领域，即与实验室方法有关的优化和与NGS数据分析有关的优化。

VI.A.1.实验室方法优化

此处提出的方法改进通过将所开发的有关可靠地评估靶癌症组中的癌症驱动基因的概念¹⁶扩展至新抗原鉴别所需的全外显子组和全转录组环境，解决了从肿瘤含量较低并且体积较小的临床试样中高准确性发现新抗原的难题。确切地说，这些改进包括：

1.靶向整个肿瘤外显子组的深度(＞500×)独特平均覆盖率，以检测由于肿瘤含量低或处于亚克隆状态而以低突变等位基因频率存在的突变。

2.靶向整个肿瘤外显子组的均匀覆盖率，其中在＜100×下覆盖＜5％的碱基，由此通过例如以下方式使遗漏新抗原的可能性最低：

a.采用基于DNA的捕捉探针和个别探针QC¹⁷

b.包括针对覆盖较少的区域的额外诱饵

3.靶向整个正常外显子组的均匀覆盖率，其中在＜20×下覆盖＜5％的碱基，由此对于体细胞/生殖系状态可能有最少的新抗原未被分类(并因此不能用作TSNA)

4.为了使需要测序的总量减到最少，序列捕捉探针应被设计成仅针对基因编码区，因为非编码RNA不会产生新抗原。其它优化包括：

a.针对HLA基因的补充探针，这些基因富含GC并且通过标准外显子组测序很难捕捉¹⁸

b.排除由于如表达水平不足、蛋白酶体消化欠佳或不常见的序列特征等因素而被预测产生极少或不产生候选新抗原的基因。

5.肿瘤RNA将通常同样在高深度(＞100M个读段)下测序，以便能够进行变体检测、基因和剪接变体(“同功型”)表达水平的定量，及融合物检测。来自FFPE样品的RNA将使用基于探针的富集方法¹⁹，使用与捕捉DNA中的外显子组相同或类似的探针进行提取。

VI.A.2.NGS数据分析优化

分析方法的改进解决了常用研究突变调用方法灵敏度和特异性欠佳的问题，并且特别考虑到了在临床环境中与新抗原鉴别相关的定制。这些包括：

1.使用HG38参考人基因组或后续版本进行比对，因为相对于先前的基因组版本，该基因组含有多个MHC区域组装体，较佳地反映了群体多态性。

2.通过合并由不同程序得到的结果⁵，克服单个变体调用程序的局限性20

a.利用一套工具，检测肿瘤DNA、肿瘤RNA及正常DNA中的单核苷酸变体和***缺失，该套工具包括：基于肿瘤与正常DNA的比较的程序，如Strelka²¹和Mutect²²；和并入了肿瘤DNA、肿瘤RNA及正常DNA的程序，如UNCeqR，特别适用于低纯度样品²³。

b.***缺失将利用执行局部再组装的程序测定，如Strelka和ABRA²⁴。

c.结构重排将使用专用工具测定，如Pindel²⁵或Breakseq²⁶。

3.为了检测并防止样品调换，将在选定的多态性位点数量下，比较来自同一患者的样品中的变体调用。

4.针对伪调用的广泛过滤将例如通过以下方式进行：

a.移除在正常DNA中发现的变体，在低覆盖率下可能使用不严格的检测参数，并且在***缺失情况下使用容许的接近标准。

b.移除由低定位质量或低碱基质量引起的变体²⁷。

c.移除来源于反复出现的测序伪影的变体，即使在相应的正常情况下未观察到²⁷。实例包括主要在一条链上检测到的变体。

d.移除不相关的对照物集合中检测到的变体²⁷

5.使用seq2HLA²⁸、ATHLATES²⁹或Optitype之一，从正常外显子组中准确地调用HLA，并且还将外显子组与RNA测序数据组合²⁸。其它可能的优化包括采用专用于HLA分型的分析，如长读段DNA测序³⁰，或调适用于接合RNA片段的方法以保持连续性³¹。

6.针对由肿瘤特异性剪接变体产生的neo-ORF的稳健检测将通过使用CLASS³²、Bayesembler³³、StringTie³⁴或类似程序以其参考引导的模式，根据RNA-seq数据组装转录物来进行(即，使用已知的转录物结构而非尝试在每个实验中重新构建整个转录物)。尽管Cufflinks³⁵通常被用于此目的，但它常常会不合情理地产生大量剪接变体，其中有许多比全长基因要短得多，并且无法回收简单的阳性对照。编码序列及无义介导的衰变可能性将通过如SpliceR³⁶和MAMBA³⁷等工具，利用重新引入的突变序列测定。基因表达将利用如Cufflinks³⁵或Express(Roberts和Pachter，2013)等工具测定。野生型和突变体特异性表达计数和/或相对水平将利用开发用于这些目的的工具，如ASE³⁸或HTSeq³⁹测定。可能的过滤步骤包括：

a.移除被认为表达不足的候选neo-ORF。

b.移除被预测会触发无义介导的衰变(NMD)的候选neo-ORF。

7.仅在RNA中观察到的无法直接验证为肿瘤特异性抗原的候选新抗原(例如neoORF)将根据额外参数，例如通过考虑以下因素而归类为可能是肿瘤特异性的：

a.存在仅支持肿瘤DNA的顺式作用移码或剪接位点突变

b.在剪接因子中存在仅证实肿瘤DNA的反式作用突变。举例来说，在利用R625突变型SF3B1进行的三个独立公布的实验中，尽管一个实验检查到葡萄膜黑素瘤患者⁴⁰，第二个实验检查到葡萄膜黑素瘤细胞系⁴¹，而第三个实验检查到乳癌患者⁴²，但展现最大剪接差异的基因是一致的。

c.对于新剪接同功型，在RNASeq数据中存在确证的“新”剪接-接合读段。

d.对于新重排，有确证在肿瘤DNA中存在而在正常DNA中不存在的近似外显子读段

e.基因表达概略中缺乏，如GTEx⁴³(即，使得不太可能为生殖系起源)

8.通过直接比较组装的DNA肿瘤与正常读段(或来自这些读段的k-mer)来补充基于参考基因组比对的分析以避免基于比对和注释的错误和伪影。(例如对于在生殖系变体或重复序列***缺失附近出现的体细胞变体)

在具有聚腺苷酸化RNA的样品中，RNA-seq数据中病毒和微生物RNA的存在将使用RNA CoMPAS5⁴⁴或类似方法评估，以鉴别可以预测患者响应的其它因素。

VI.B.HLA肽的分离和检测

HLA-肽分子的分离在溶胞和溶解组织样品之后，使用经典免疫沉淀(IP)方法进行(55-58)。使用澄清的溶解产物进行HLA特异性IP。

免疫沉淀是使用偶合至珠粒的抗体进行，其中该抗体对HLA分子具有特异性。对于全I类HLA免疫沉淀，使用全I类CR抗体，对于II类HLA-DR，使用HLA-DR抗体。在过夜培育期间，将抗体共价连接至NHS-琼脂糖珠粒。在共价连接后，洗涤珠粒并等分试样用于IP。(59，60)

将澄清的组织溶解产物添加至抗体珠粒中进行免疫沉淀。免疫沉淀后，从溶解产物移除珠粒，并储存溶解产物用于另外的实验，包括另外的IP。洗涤IP珠粒以移除非特异性结合并使用标准技术，从珠粒洗脱下HLA/肽复合物。使用分子量旋转柱或C18分级分离，从肽移除蛋白质组分。通过SpeedVac蒸发使所得肽变干并且在一些情形中在-20C下储存以待MS分析。

干燥的肽在适于反相色谱法的HPLC缓冲液中复水并装载至C-18微毛细管HPLC柱上以在Fusion Lumos质谱仪(Thermo)中进行梯度洗脱。在Orbitrap检测器中在高分辨率下收集肽质/荷比(m/z)的MS1谱，随后在所选离子经历HCD片段化后，在离子阱检测器中收集MS2低分辨率扫描谱。另外，可以使用CID或ETD片段化方法，或三种技术的任何组合获得MS2谱，以达到该肽的较高氨基酸覆盖率。还可以在Orbitrap检测器中用高分辨率质量精度测量MS2谱。

使用Comet(61，62)，针对蛋白质数据库搜索由各分析得到的MS2谱并使用Percolator(63-65)对肽鉴别进行评分。

VI.B.1.支持全面HLA肽测序的MS检测限研究。

使用肽YVYVADVAAK，利用装载至LC柱上的不同量的肽确定检测限。测试肽的量是1pmol、100fmol、10fmol、1fmol及100amol。(表1)结果显示于图1F中。这些结果表明，最低检测限(LoD)是埃摩尔(attomol)范围(10^-18)，动态范围跨五个数量级，并且信噪比看来足以在低飞摩尔(femtomol)范围(10^-15)内进行测序。

VII.呈递模型

VII.A.***综述

图2A是根据一个实施方案，用于鉴别患者体内肽呈递的可能性的环境100的概述。环境100提供背景以便引入呈递鉴别***160，该***本身包括呈递信息存储器165。

呈递鉴别***160是一个或多个在如以下关于图14所论述的计算***中体现的计算机模型，其接收与MHC等位基因集合有关的肽序列并测定这些肽序列将被该相关MHC等位基因集合中的一个或多个MHC等位基因呈递的可能性。这在多种情形中都适用。呈递鉴别***160的一个具体使用情形是，它能够接收与来自患者110的肿瘤细胞的MHC等位基因集合有关的候选新抗原的核苷酸序列，并测定这些候选新抗原将被该肿瘤的相关MHC等位基因中的一个或多个呈递和/或在患者110的免疫***中诱导免疫原性反应的可能性。可以选出被***160测定具有高可能性的候选新抗原用于包括在疫苗118中，此类抗肿瘤免疫反应可以由提供肿瘤细胞的患者110的免疫***引发。

呈递鉴别***160通过一个或多个呈递模型测定呈递可能性。确切地说，呈递模型生成给定肽序列是否将由相关MHC等位基因集合呈递的可能性，并且这是基于存储在存储器165中的呈递信息生成的。举例来说，呈递模型可以生成肽序列“YVYVADVAAK”是否将由等位基因HLA-A*02：01、HLA-B*07：02、HLA-B*08：03、HLA-C*01：04、HLA-A*06：03、HLA-B*01：04的集合呈递于样品的细胞表面上的可能性。呈递信息165含有关于肽是否结合至不同类型的MHC等位基因以使得这些肽被MHC等位基因呈递的信息，该信息在模型中是根据肽序列中氨基酸的位置确定。呈递模型可以基于呈递信息165预测未被识别的肽序列的呈递是否会与相关MHC等位基因集合相关联。

VII.B.呈递信息

图2示出了根据一个实施方案的获得呈递信息的方法。呈递信息165包括两个通用信息类别：等位基因相互作用信息和等位基因非相互作用信息。等位基因相互作用信息包括影响与MHC等位基因的类型相关的肽序列的呈递的信息。等位基因非相互作用信息包括影响与MHC等位基因的类型无关的肽序列的呈递的信息。

VII.B.1.等位基因相互作用信息

等位基因相互作用信息主要包括经过鉴别的肽序列，已知这些肽序列已经被来自人、小鼠等的一个或多个经过鉴别的MHC分子呈递。值得注意的是，这可能包括或可能不包括从肿瘤样品获得的数据。可以从表达单个MHC等位基因的细胞鉴别出所呈递的肽序列。在这一情形中，所呈递的肽序列一般是从单个等位基因细胞系收集，这些细胞系被工程改造成表达预定MHC等位基因并且随后暴露于合成蛋白质。在MHC等位基因上呈递的肽是通过如酸洗脱等技术分离并通过质谱法鉴别。图2B示出了这一情形的一个实施例，其中分离出在预定MHC等位基因HLA-A*01：01上呈递的示例肽YEMFNDKS并通过质谱法鉴别。由于在此情况下，肽是通过被工程改造成表达单一预定MHC蛋白质的细胞鉴别，故呈递的肽与其所结合的MHC蛋白质之间的直接关联是确定已知的。

也可以从表达多个MHC等位基因的细胞收集所呈递的肽序列。通常，在人体中，一种细胞表达6种不同类型的MHC分子。如此呈递的肽序列可以从被工程改造成表达多个预定MHC等位基因的多等位基因细胞系鉴别到。还可以从组织样品，如正常组织样品或肿瘤组织样品鉴别如此呈递的肽序列。特别就这一情形来说，MHC分子可以从正常或肿瘤组织免疫沉淀。在多个MHC等位基因上呈递的肽可类似地通过如酸洗脱等技术分离并通过质谱法鉴别。图2C示出了此种情形的一个实施例，其中将六个示例肽YEMFNDKSF、HROEIFSHDFJ、FJIEJFOESS、NEIOREIREI、JFKSIFEMMSJDSSU及KNFLENFIESOFI呈递于所鉴别的MHC等位基因HLA-A*01：01、HLA-A*02：01、HLA-B*07：02、HLA-B*08：01、HLA-C*01：03及HLA-C*01：04并且分离，并通过质谱法鉴别。相对于单等位基因细胞系，呈递的肽与其所结合的MHC蛋白质之间的直接关联可能是未知的，因为结合肽是在鉴别之前与MHC分子分离。

等位基因相互作用信息还可以包括质谱离子流，其取决于肽-MHC分子复合物的浓度和肽电离效率。电离效率以序列依赖性方式随肽而变化。一般来说，电离效率随肽而在约两个数量级内变化，而肽-MHC复合物的浓度在比其更大的范围内变化。

等位基因相互作用信息还可以包括给定MHC等位基因与给定肽之间结合亲和力的测量或预测。一个或多个亲和力模型可以生成此类预测。举例来说，再看回图1D中所示的实施例，呈递信息165可以包括肽YEMFNDKSF与等位基因HLA-A*01：01之间的1000nM的结合亲和力预测值。IC50＞1000nm的肽很少被MHC呈递，且较低的IC50值使呈递机率增加。

等位基因相互作用信息也可以包括该MHC复合物稳定性的测量或预测。一个或多个稳定性模型可以生成此类预测。较稳定的肽-MHC复合物(即，半衰期较长的复合物)比较可能在肿瘤细胞上及在遭遇疫苗抗原的抗原呈递细胞上以高拷贝数呈递。举例来说，再看回图2C中所示的实施例，呈递信息165可以包括分子HLA-A*01：01的半衰期是1小时的稳定性预测值。

等位基因相互作用信息也可以包括测量或预测的肽-MHC复合物的形成反应速率。以较高速率形成的复合物比较可能以高浓度呈递于细胞表面上。

等位基因相互作用信息还可以包括肽的序列和长度。I类MHC分子通常偏好呈递长度介于8与15个肽之间的肽。所呈递的肽中有60-80％的长度是9个。有关来自数个细胞系的呈递肽的长度的直方图显示于图5中。

等位基因相互作用信息还可以包括新抗原编码肽上激酶序列基元的存在，以及新抗原编码肽上特定翻译后修饰的不存在或存在。激酶基元的存在会影响翻译后修饰的机率，该翻译后修饰可能增强或干扰MHC结合。

等位基因相互作用信息还可以包括翻译后修饰过程中所涉及的蛋白质，例如激酶的表达水平或活性水平(如由RNA seq、质谱法或其它方法所测量或预测)。

等位基因相互作用信息还可以包括来自表达特定MHC等位基因的其他个体的细胞中具有相似序列的肽的呈递机率，这可通过质谱蛋白组学或其它手段评估。

等位基因相互作用信息还可以包括所讨论的个体中特定MHC等位基因的表达水平(例如，如通过RNA-seq或质谱法测量)。相较于最强地结合至以低水平表达的MHC等位基因的肽，最强地结合至以高水平表达的MHC等位基因的肽比较可能被呈递。

等位基因相互作用信息还可以包括不依赖于总体新抗原编码肽序列而在表达特定MHC等位基因的其他个体中由特定MHC等位基因呈递的机率。

等位基因相互作用信息还可以包括不依赖于总体肽序列而在其他个体中由同一家族分子(例如HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)中的MHC等位基因呈递的机率。举例来说，HLA-C分子的表达水平通常低于HLA-A或HLA-B分子，且由此可推断，由HLA-C呈递肽的机率低于由HLA-A或HLA-B呈递的机率11。

等位基因相互作用信息还可以包括特定MHC等位基因的蛋白质序列。

以下部分中所列的任何MHC等位基因非相互作用信息也可以按MHC等位基因相互作用信息的方式进行建模。

VII.B.2.等位基因非相互作用信息

等位基因非相互作用信息可以包括在源蛋白质序列内侧接新抗原编码肽的C末端序列。C末端侧接序列可能影响肽的蛋白酶体加工。不过，C末端侧接序列是在肽转运至内质网并遇到细胞表面上的MHC等位基因之前，在蛋白酶体作用下自该肽裂解得到。因此，MHC分子接收不到有关C末端侧接序列的信息，且由此，C末端侧接序列的影响不会随MHC等位基因类型而变化。举例来说，再参看图2C中所示的实施例，呈递信息165可以包括从肽的源蛋白鉴别到的呈递肽FJIEJFOESS的C末端侧接序列FOEIFNDKSLDKFJI。

等位基因非相互作用信息也可以包括mRNA定量测量。举例来说，可以获得与提供质谱训练数据相同的样品的mRNA定量数据。如稍后参照图13H所描述，RNA表达水平被鉴别为肽呈递的强预测因子。在一个实施方案中，mRNA定量测量值是由软件工具RSEM鉴别得到。有关RSEM软件工具的详细实施方式可见于Bo Li及Colin N.Dewey.RSEM：accuratetranscript quantification from RNA-Seq data with or without a referencegenome.BMC Bioinformatics，12：323，2011年8月。在一个实施方案中，mRNA定量是以每一百万条定位读段数中每千碱基转录物的片段数(FPKM)为单位度量。

等位基因非相互作用信息还可以包括在源蛋白质序列内侧接所述肽的N末端序列。

等位基因非相互作用信息还可以包括在该肽中蛋白酶裂解基元的存在，任选地根据肿瘤细胞中相应蛋白酶的表达(如通过RNA-seq或质谱法测量)加权。含有蛋白酶裂解基元的肽不太可能被呈递，因为这些肽比较容易被蛋白酶降解，并因此在细胞内不太稳定。

等位基因非相互作用信息还可以包括如在适当细胞类型中测量的源蛋白的转换率。转换率较快(即，半衰期较短)会增加呈递机率；不过，如果在不相似的细胞类型中测量，则此特征的预测能力较低。

等位基因非相互作用信息还可以包括如通过RNA-seq或蛋白质组质谱法所测量，或如根据在DNA或RNA序列数据中检测到的生殖系或体细胞剪接突变的注释所预测的源蛋白的长度，任选地考虑在肿瘤细胞中表达水平最高的特定剪接变体(“同功型”)。

等位基因非相互作用信息还可以包括肿瘤细胞中蛋白酶体、免疫蛋白酶体、胸腺蛋白酶体或其它蛋白酶的表达水平(可以通过RNA-seq、蛋白质组质谱法或免疫组织化学分析测量)。不同的蛋白酶体具有不同的裂解位点偏好。与表达水平成比例的各类型蛋白酶体的裂解偏好将被给予较大权重。

等位基因非相互作用信息还可以包括肽的源基因的表达水平(例如通过RNA-seq或质谱法测量)。可能的优化措施包括调整表达水平测量值以说明肿瘤样品内基质细胞和肿瘤浸润淋巴细胞的存在。来自表达水平较高的基因的肽比较可能被呈递。来自表达水平不可检测的基因的肽可以不予考虑。

等位基因非相互作用信息还可以包括如由无义介导的衰变模型，例如来自Rivas等人，Science 2015的模型所预测的新抗原编码肽的源mRNA将经历无义介导的衰变的机率。

等位基因非相互作用信息还可以包括在各种细胞周期阶段期间肽的源基因的典型肿瘤特异性表达水平。以总体较低水平表达(如通过RNA-seq或质朴蛋白质组学所测量)但已知在特定细胞周期阶段期间高水平表达的基因所产生的呈递肽可能多于以极低水平稳定表达的基因。

等位基因非相互作用信息还可以包括例如uniProt或PDB http：//www.rcsb.org/ pdb/home/home.do中提供的源蛋白特征的综合目录。这些特征尤其可以包括：蛋白质的二级和三级结构、亚细胞定位11、基因本体(Gene ontology，GO)项。确切地说，这一信息可以含有在蛋白质水平上起作用的注释，例如5’UTR长度；及在特定残基水平上起作用的注释，例如在残基300与310之间的螺旋基元。这些特征还可以包括转角基元、折叠基元和无序残基。

等位基因非相互作用信息还可以包括描述含有该肽的源蛋白的结构域的特性的特征，例如：二级或三级结构(例如α螺旋对比β折叠)；选择性剪接。

等位基因非相互作用信息还可以包括描述在该肽的源蛋白中该肽的位置处存在或不存在呈递热点的特征。

等位基因非相互作用信息还可以包括其他个体中来自相关肽的源蛋白的肽的呈递机率(在调整这些个体中源蛋白的表达水平及这些个体的不同HLA类型的影响之后)。

等位基因非相互作用信息还可以包括由于技术偏差而无法通过质谱法检测到或过量表示该肽的机率。

通过基因表达测定如RNASeq、微阵列、靶向组如Nanostring所测量的各种基因模块/路径的表达，或通过如RT-PCR等测定(无需含有该肽的源蛋白)所测量的基因模块的单基因/多基因代表提供了有关肿瘤细胞、基质或肿瘤浸润淋巴细胞(TIL)的状态的信息。

等位基因非相互作用信息还可以包括肿瘤细胞中肽的源基因的拷贝数。举例来说，在肿瘤细胞中经历纯合子缺失的基因的肽可以指定为呈递机率是零。

等位基因非相互作用信息还可以包括肽结合至TAP的机率或肽与TAP的结合亲和力测量值或预测值。比较可能结合至TAP的肽，或以较高亲和力结合TAP的肽比较可能被呈递。

等位基因非相互作用信息还可以包括肿瘤细胞中TAP的表达水平(可以通过RNA-seq、蛋白质组质谱法、免疫组织化学分析测量)。较高的TAP表达水平会增加所有肽的呈递机率。

等位基因非相互作用信息还可以包括肿瘤突变的存在或不存在，包括但不限于：

i.已知癌症驱动基因，如EGFR、KRAS、ALK、RET、ROS1、TP53、CDKN2A、CDKN2B、NTRK1、NTRK2、NTRK3中的驱动突变

ii.编码抗原呈递机器中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体的组分的任何基因)中的突变。呈递依赖于肿瘤中经历功能丧失性突变的抗原呈递机器组分的肽具有降低的呈递机率。

存在或不存在功能性生殖系多态现象，包括但不限于：

i.编码抗原呈递机器中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体的组分的任何基因)中的功能性生殖系多态现象

等位基因非相互作用信息还可以包括肿瘤类型(例如NSCLC、黑素瘤)。

等位基因非相互作用信息还可以包括HLA等位基因的已知功能，如由例如HLA等位基因的后缀所反映。举例来说，等位基因名称HLA-A*24：09N中的N后缀指示未表达并因此不可能呈递表位的无效等位基因；完整HLA等位基因后缀命名法描述于https：// www.ebi.ac.uk/ipd/imgt/hla/nomenclature/suffixes.html。

等位基因非相互作用信息还可以包括临床肿瘤亚型(例如鳞状肺癌对比非鳞状肺癌)。

等位基因非相互作用信息也可以包括吸烟史。

等位基因非相互作用信息还可以包括晒伤史、太阳曝晒史或暴露于其它诱变剂的历史。

等位基因非相互作用信息还可以包括肽的源基因在相关肿瘤类型或临床亚型中的典型表达，任选地利用驱动基因突变分层。通常在相关肿瘤类型中高水平表达的基因比较可能被呈递。

等位基因非相互作用信息还可以包括所有肿瘤中，或同一类型肿瘤中，或来自具有至少一个共有MHC等位基因的个体的肿瘤中，或具有至少一个共有MHC等位基因的个体体内的同一类型肿瘤中的突变频率。

就突变的肿瘤特异性肽而言，用于预测呈递机率的特征清单也可以包括突变注释(例如错义、通读、移码突变、融合等)或预测该突变是否会引起无义介导的衰变(NMD)。举例来说，来自因纯合子早期终止突变而在肿瘤细胞中不翻译的蛋白质区段的肽可以指定为呈递机率是零。NMD使mRNA翻译减少，由此降低呈递机率。

VII.C.呈递鉴别***

图3是一个高级框图，示出了根据一个实施方案的呈递鉴别***160的计算机逻辑组件。在本示例实施方案中，呈递鉴别***160包括数据管理模块312、编码模块314、训练模块316及预测模块320。呈递鉴别***160还包括训练数据存储器170和呈递模型存储器175。该模型管理***160的一些实施方案具有与此处所描述不同的模块。类似地，这些模块的功能分布可能不同于此处描述的模块。

VII.C.1.数据管理模块

数据管理模块312根据呈递信息165生成数组训练数据170。每组训练数据含有多个数据实例，其中每个数据实例i含有一组自变量zⁱ，这些自变量包括至少一个呈递或不呈递肽序列pⁱ、一个或多个与该肽序列pⁱ相关联的相关MHC等位基因aⁱ；和一个因变量yⁱ，该因变量表示呈递鉴别***160有意预测自变量的新值的信息。

在本说明书其余部分通篇提到的一个特定的实施方式中，因变量yⁱ是一种二元标记，指示肽pⁱ是否被该一个或多个相关MHC等位基因aⁱ呈递。不过，应理解，在其它实施方式中，取决于自变量zⁱ，因变量yⁱ可以表示呈递鉴别***160有意进行预测的任何其它类别的信息。举例来说，在另一实施方案中，因变量yⁱ还可以是指示所鉴别的数据实例的质谱离子电流的数值。

数据实例i的肽序列pⁱ是具有k_i个氨基酸的序列，其中k_i可以在随数据实例i而在一定范围内变化。举例来说，该范围对于I类MHC可以是8-15，或对于II类MHC是9-30。在***160的一个具体实施方案中，一个训练数据集中的所有肽序列pⁱ可以具有相同长度，例如9。肽序列中氨基酸的数量可以取决于MHC等位基因的类型(例如人体中的MHC等位基因等)而变化。数据实例i的MHC等位基因aⁱ指示存在的与相应肽序列pⁱ相关的MHC等位基因。

数据管理模块312还可以包括另外的等位基因相互作用变量，如与训练数据170中所包含的肽序列pⁱ和相关MHC等位基因aⁱ有关的结合亲和力bⁱ和稳定性预测值sⁱ。举例来说，训练数据170可以含有肽pⁱ与以aⁱ指示的各相关MHC分子之间的结合亲和力预测值bⁱ。在另一个实施例中，训练数据170可以含有以aⁱ指示的各MHC等位基因的稳定性预测值sⁱ。

数据管理模块312还可以包括等位基因非相互作用变量wⁱ，如与肽序列pⁱ有关的C末端侧接序列和mRNA定量测量值。

数据管理模块312还鉴别不被MHC等位基因呈递的肽序列，以生成训练数据170。一般来说，这涉及在呈递之前，鉴别包括呈递肽序列在内的源蛋白的“较长”序列。当呈递信息含有工程改造的细胞系时，数据管理模块312鉴别这些细胞所暴露的合成蛋白质中未呈递于细胞的MHC等位基因上的一系列肽序列。当呈递信息含有组织样品时，数据管理模块312鉴别作为呈递肽序列的来源的源蛋白，并且鉴别源蛋白中未呈递于组织样品细胞的MHC等位基因上的一系列肽序列。

数据管理模块312还可以利用随机氨基酸序列人工产生肽，并将所产生的序列鉴别为不呈递于MHC等位基因上的肽。这可以通过随机产生肽序列实现，使得数据管理模块312能够容易地生成大量有关不呈递于MHC等位基因上的肽的合成数据。由于实际上，只有少量肽序列被MHC等位基因呈递，故合成产生的肽序列很有可能不会被MHC等位基因呈递，即使这些序列被包括在细胞加工的蛋白质中。

图4示出了根据一个实施方案的一组示例性训练数据170A。确切地说，训练数据170A中的前3个数据实例指示由包含等位基因HLA-C*01：03以及3个肽序列QCEIOWARE、FIEUHFWI及FEWRHRJTRUJR的单等位基因细胞系得到的肽呈递信息。训练数据170A中的第四个数据实例指示由包含等位基因HLA-B*07：02、HLA-C*01：03、HLA-A*01：01和一个肽序列QIEJOEIJE的多等位基因细胞系得到的肽信息。第一个数据实例指示，肽序列QCEIOWARE不被等位基因HLA-C*01：03呈递。如前两段所论述，肽序列可以由数据管理模块312随机产生，或从呈递肽的源蛋白鉴别得到。训练数据170A还包括肽序列-等位基因对的1000nM的结合亲和力预测值以及半衰期是1小时的稳定性预测值。训练数据170A还包括等位基因非相互作用变量，如肽FJELFISBOSJFIE的C末端侧接序列，以及10²FPKM的mRNA定量测量值。第四个数据实例指示，肽序列QIEJOEIJE被等位基因HLA-B*07：02、HLA-C*01：03或HLA-A*01：01之一呈递。训练数据170A还包括各等位基因的结合亲和力预测值和稳定性预测值，以及该肽的C末端侧接序列和该肽的mRNA定量测量值。

VII.C.2.编码模块

编码模块314将训练数据170中所包含的信息编码成可以用于产生一个或多个呈递模型的数字表示。在一个实施方案中，编码模块314在预定的20字母氨基酸字母表内独热编码序列(例如肽序列或C末端侧接序列)。确切地说，具有k_i个氨基酸的肽序列pⁱ表示为具有20·k_i个元素的行向量，其中pⁱ _20·(j-1)+1pⁱ _20·(j-1)+2，...，pⁱ _20·j当中对应于字母表中在肽序列第j位的氨基酸的单一元素的值是1。另外，其余元素的值是0。举个例子，对于给定的字母表{A，C，D，E，F，G，H，I，K，L，M，N，P，Q，R，S，T，V，W，Y}，数据实例i的具有3个氨基酸的肽序列EAF可以由具有60个元素的行向量表示pⁱ＝[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 00 0]。C末端侧接序列cⁱ，以及MHC等位基因的蛋白质序列d_h和呈递信息中的其它序列数据都可以按与上文所描述类似的方式编码。

当训练数据170含有氨基酸长度不同的序列时，编码模块314也可以通过添加PAD字符以扩充预定字母表，将肽编码成相等长度的向量。举例来说，这可以通过用PAD字符对肽序列进行左侧填充，直到该肽序列的长度达到训练数据170中具有最大长度的肽序列来进行。因此，当具有最大长度的肽序列具有k_max个氨基酸时，编码模块314将各序列以数字方式表示为具有(20+1)·k_max个元素的行向量。举个例子，对于扩充的字母表{PAD，A，C，D，E，F，G，H，I，K，L，M，N，P，Q，R，S，T，V，W，Y}和k_max＝5的最大氨基酸长度，该具有3个氨基酸的相同示例肽序列可以由具有105个元素的行向量表示：pⁱ＝[1 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 00 0 0 0 0 0 0 0 0 0 0 0 0]。C末端侧接序列cⁱ或其它序列数据可以按与上文描述类似的方式编码。因此，肽序列pⁱ或cⁱ的每个自变量或每一列表示在该序列特定位置处特定氨基酸的存在。

尽管以上编码序列数据的方法是参照具有氨基酸序列的序列描述，但该方法可以类似地扩展至其它类型的序列数据，如DNA或RNA序列数据等。

编码模块314还将数据实例i的一个或多个MHC等位基因aⁱ编码成具有m个元素的行向量，其中每个元素h＝1，2，...，m对应于唯一鉴别的MHC等位基因。对应于所鉴别的数据实例i的MHC等位基因的元素的值是1。另外，其余元素的值是0。举个例子，m＝4种唯一鉴别的MHC等位基因类型{HLA-A*01：01，HLA-C*01：08，HLA-B*07：02，HLA-C*01：03}当中对应于多等位基因细胞系的数据实例i的等位基因HLA-B*07：02和HLA-C*01：03可以由具有4个元素的行向量表示：aⁱ＝[0 0 1 1]，其中a₃ ⁱ＝1和a₄ ⁱ＝1。尽管本文中用4种鉴别的MHC等位基因类型描述该实施例，但MHC等位基因类型的数量实际上可以是数百或数千。如先前所论述，每个数据实例i通常含有最多6种不同的与肽序列p_i相关的MHC等位基因类型。

编码模块314还将每个数据实例i的标记y_i编码为具有来自集合{0，1}的值的二元变量，其中值1指示肽xⁱ由相关的MHC等位基因aⁱ中的一个呈递，而值0指示肽xⁱ不被任何相关的MHC等位基因aⁱ呈递。当因变量y_i表示质谱离子电流时，编码模块314可以另外使用各种函数，如对[0，∞]之间的离子电流具有[-∞，∞]范围的对数函数等缩放这些值。

编码模块314可以将有关肽p_i和相关MHC等位基因h的一对等位基因相互作用变量x_h ⁱ表示为行向量，其中等位基因相互作用变量的数字表示相继地串接。举例来说，编码模块314可以将x_h ⁱ表示为等于[pⁱ]、[pⁱb_h ⁱ]、[pⁱs_h ⁱ]或[pⁱb_h ⁱs_h ⁱ]的行向量，其中b_h ⁱ是肽p_i和相关MHC等位基因h的结合亲和力预测值，并且类似地s_h ⁱ是关于稳定性。或者，等位基因相互作用变量的一个或多个组合可以个别地存储(例如以个别向量或矩阵形式)。

在一个实例中，编码模块314通过将结合亲和力的测量值或预测值并入等位基因相互作用变量x_h ⁱ中来表示结合亲和力信息。

在一个实例中，编码模块314通过将结合稳定性的测量值或预测值并入等位基因相互作用变量x_h ⁱ中来表示结合稳定性信息。

在一个实例中，编码模块314通过将结合缔合速率的测量值或预测值并入等位基因相互作用变量x_h ⁱ中来表示结合缔合速率信息。

在一个实例中，编码模块314将肽长度表示为向量其中是指示函数，并且L_k表示肽p_k的长度。向量T_k可以被包括在等位基因相互作用变量x_h ⁱ中。

在一个实例中，编码模块314通过将基于RNA-seq的MHC等位基因表达水平并入等位基因相互作用变量x_h ⁱ中来表示MHC等位基因的RNA表达信息。

类似地，编码模块314可以将等位基因非相互作用变量wⁱ表示为行向量，其中等位基因非相互作用变量的数字表示相继地串接。举例来说，wⁱ可以是等于[cⁱ]或[cⁱmⁱwⁱ]的行向量，其中wⁱ是除肽pⁱ的C末端侧接序列和与该肽相关的mRNA定量测量值mⁱ外，还表示任何其它等位基因非相互作用变量的行向量。或者，等位基因非相互作用变量的一个或多个组合可以个别地存储(例如以个别向量或矩阵形式)。

在一实例中，编码模块314通过将转换率或半衰期并入等位基因非相互作用变量wⁱ中来表示肽序列的源蛋白的转换率。

在一个实例中，编码模块314通过将蛋白质长度并入等位基因非相互作用变量wⁱ中来表示源蛋白或同功型的长度。

在一个实例中，编码模块314通过将包括β1_i、β2_i、β5_i亚单元在内的免疫蛋白酶体特异性蛋白酶体亚单元的平均表达水平并入等位基因非相互作用变量wⁱ中来表示免疫蛋白酶体的活化情况。

在一个实例中，编码模块314通过将源蛋白的丰度并入等位基因非相互作用变量wⁱ中来表示肽的源蛋白或者肽的基因或转录物的RNA-seq丰度(通过如RSEM等技术以FPKM、TPM为单位定量)。

在一个实例中，编码模块314通过将利用Rivas等人，Science，2015中的模型估计的肽的源转录物会经历无义介导的衰变(NMD)的机率并入等位基因非相互作用变量wⁱ中来表示此机率。

在一个实例中，编码模块314例如通过使用例如路径中每个基因的RSEM，以TPM为单位定量该路径中基因的表达水平，接着计算该路径中所有基因的概括统计量，例如平均值，以此表示经RNA-seq评估的基因模块或路径的活化状态。该平均值可以并入等位基因非相互作用变量wⁱ中。

在一个实例中，编码模块314通过将拷贝数并入等位基因非相互作用变量wⁱ中来表示源基因的拷贝数。

在一个实例中，编码模块314通过将测量的或预测的TAP结合亲和力值例如以纳摩尔浓度为单位)包括在等位基因非相互作用变量wⁱ中来表示TAP结合亲和力。

在一个实例中，编码模块314通过将利用RNA-seq测量(并利用例如RSEM，以TPM为单位定量)的TAP表达水平包括在等位基因非相互作用变量wⁱ中来表示TAP表达水平。

在一个实例中，编码模块314在等位基因非相互作用变量wⁱ中将肿瘤突变表示为指示变量的向量(即，如果肽p^k来自具有KRAS G12D突变的样品，则d^k＝1，否则是0)。

在一个实例中，编码模块314将抗原呈递基因中的生殖系多态性表示为指示变量的向量(即，如果肽p^k来自在TAP中具有物种生殖系多态性的样品，则d^k＝1)。这些指示变量都可以被包括在等位基因非相互作用变量wⁱ中。

在一个实例中，编码模块314根据肿瘤类型(例如NSCLC、黑素瘤、结肠直肠癌等)的字母表将肿瘤类型表示为长度一独热编码的向量。这些独热编码的变量都可以被包括在等位基因非相互作用变量wⁱ中。

在一个实例中，编码模块314通过用不同后缀处理有4个数字的HLA等位基因来表示MHC等位基因后缀。举例来说，出于该模型的目的，HLA-A*24：09N被认为是与HLA-A*24：09不同的等位基因。或者，由于以N后缀结尾的HLA等位基因不表达，故可以将以N为后缀的MHC等位基因对所有肽的呈递机率设置成零。

在一个实例中，编码模块314根据肿瘤亚型(例如肺腺癌、肺鳞状细胞癌等)的字母表将肿瘤亚型表示为长度一独热编码的向量。这些独热编码的变量都可以被包括在等位基因非相互作用变量wⁱ中。

在一个实例中，编码模块314将吸烟史表示为二元指示变量(如果患者有吸烟史，则d^k＝1，否则是0)，该变量可以包括在等位基因非相互作用变量wⁱ中。或者，可以根据吸烟严重程度的字母表，将吸烟史编码为长度一独热编码的变量。举例来说，吸烟状态可以在1-5级量表上评级，其中1指示非吸烟者，并且5指示当前多量吸烟者。由于吸烟史主要与肺部肿瘤相关，故当训练有关多种肿瘤类型的模型时，此变量也可以在患者有吸烟史时定义为等于1并且肿瘤类型是肺部肿瘤，否则是零。

在一个实例中，编码模块314将晒伤史表示为二元指示变量(如果患者有重度晒伤史，则d^k＝1，否则是0)，该变量可以包括在等位基因非相互作用变量wⁱ中。由于重度晒伤主要与黑素瘤相关，故当训练有关多种肿瘤类型的模型时，此变量也可以在患者有重度晒伤史时定义为等于1并且肿瘤类型是黑素瘤，否则是零。

在一个实例中，编码模块314通过使用参考数据库如TCGA将有关人基因组中各基因或转录物的特定基因或转录物的表达水平分布表示为表达水平分布的概括统计量(例如平均值、中值)。确切地说，对于肿瘤类型是黑素瘤的样品中的肽p^k，不仅可以将肽p^k的源基因或转录物的基因或转录物表达水平测量值包括在等位基因非相互作用变量wⁱ中，而且还包括通过TCGA测量的黑素瘤中肽p^k的源基因或转录物的平均和/或中值基因或转录物表达水平。

在一个实例中，编码模块314根据突变类型(例如错义突变、移码突变、NMD诱导的突变等)的字母表将突变类型表示为长度一独热编码的变量。这些独热编码的变量都可以被包括在等位基因非相互作用变量wⁱ中。

在一个实例中，编码模块314在等位基因非相互作用变量wⁱ中将蛋白质的蛋白质水平特征表示为源蛋白的注释值(例如5’UTR长度)。在另一个实例中，编码模块314通过在等位基因非相互作用变量wⁱ中包括指示变量来表示残基水平的源蛋白注释，即，如果肽p^k与螺旋基元重叠则等于1，否则是0，或者如果肽p^k完全包含在螺旋基元内则等于1。在另一个实例中，表示肽p^k中包含在螺旋基元注释内的残基的比例的特征可以包括在等位基因非相互作用变量wⁱ中。

在一个实例中，编码模块314将人蛋白质组中蛋白质或同功型的类型表示为指示向量o^k，该向量的长度等于人蛋白质组中蛋白质或同功型的数量，并且如果肽p^k来自蛋白质i，则相应元素o^k _i是1，否则是0。

编码模块314还可以将有关肽p_i和相关MHC等位基因h的变量zⁱ的总体集合表示为行向量，其中等位基因相互作用变量xⁱ和等位基因非相互作用变量wⁱ的数字表示相继地串接。举例来说，编码模块314可以将z_h ⁱ表示为等于[x_h ⁱwⁱ]或[w_ix_h ⁱ]的行向量。

VIII.训练模块

训练模块316构建一个或多个呈递模型，这些模型生成肽序列是否会被与这些肽序列相关的MHC等位基因呈递的可能性。确切地说，给定肽序列p^k及与肽序列p^k相关联的一组MHC等位基因a^k，每个呈递模型生成估计值u_k，指示肽序列p^k会被与一个或多个相关MHC等位基因a^k呈递的可能性。

VIII.A.综述

训练模块316基于由存储在165中的呈递信息产生的存储于存储器170中的训练数据集来构建一个或多个呈递模型。一般来说，不管呈递模型的具体类型如何，所有呈递模型都捕捉训练数据170中自变量与因变量之间的相关性以使损失函数减到最小。确切地说，损失函数表示训练数据170中一个或多个数据实例S的因变量y_i∈S与由呈递模型生成的数据实例S的估计可能性u_i∈S值之间的偏差。在本说明书其余部分通篇所提到的一个特定实施方式中，损失函数(y_i∈S，u_i∈S；θ)是由以下等式(1a)提供的负对数可能性函数：

不过，实际上，可以使用另一损失函数。举例来说，当对质谱离子电流进行预测时，损失函数是由以下等式1b提供的均方损失：

呈递模型可以是一种参数模型，其中一个或多个参数θ在数学上指明自变量与因变量之间的相关性。通常，使损失函数(y_i∈S，u_i∈S；θ)最小的参数型呈递模型的各种参数是通过基于梯度的数值优化算法，如批量梯度算法、随机梯度算法等来确定。或者，呈递模型可以是非参数模型，其中模型结构是由训练数据170决定并且并不严格基于固定参数集合。

VIII.B.独立等位基因模型

训练模块316可以在独立等位基因(per-allele)基础上构建呈递模型以预测肽的呈递可能性。在此情况下，训练模块316可以基于由表达单个MHC等位基因的细胞产生的训练数据170中的数据实例S训练呈递模型。

在一个实施方式中，训练模块316通过下式使特定等位基因h对于肽p^k的估计呈递可能性u_k建模：

其中肽序列x_h ^k表示编码的有关肽p^k和相应MHC等位基因h的等位基因相互作用变量，f(·)是任何函数，并且为便于说明，在本文通篇称为变换函数。此外，g_h(·)是任何函数，为便于说明，在本文通篇称为相关性函数(dependency function)，并且基于所测定的MHC等位基因h的一组参数θ_h产生等位基因相互作用变量x_h ^k的相关性分数。有关各MHC等位基因h的参数集合θ_h的值可以通过使关于θ_h的损失函数减到最小来测定，其中i是由表达单个MHC等位基因h的细胞所产生的训练数据170的子集S中的每个实例。

相关性函数g_h(x_h ^k；θ_h)的输出值表示至少基于等位基因相互作用特征x_h ^k，并且确切地说，基于肽p^k的肽序列中氨基酸的位置的针对MHC等位基因h的相关性分数，其指示MHC等位基因h将呈递相应新抗原。举例来说，如果MHC等位基因h可能呈递肽p^k，则MHC等位基因h的相关性分数可能具有较高值，而如果不可能呈递，则可能具有较低值。变换函数f(·)将输入，并且更确切地说，在此情形中将由g_h(x_h ^k；θ_h)生成的相关性分数变换成适当值以指示肽p^k将由MHC等位基因呈递的可能性。

在本说明书其余部分通篇提到的一个特定实施方式中，f(·)是对于适当域范围具有在[0，1]内的范围的函数。在一个实施例中，f(·)是由下式提供的expit函数：

作为另一个实施例，当域z的值等于或大于0时，f(·)也可以是由下式提供的双曲正切函数：

f(z)＝tanh(z) (5)

或者，当质谱离子电流的预测值超出范围[0，1]时，f(·)可以是任何函数，如恒等函数、指数函数、对数函数等。

因此，可以通过将有关MHC等位基因h的相关性函数g_h(·)应用于肽序列p^k的编码形式以产生相应相关性分数来产生肽序列p^k将由MHC等位基因h呈递的独立等位基因可能性。相关性分数可以由变换函数f(·)变换以产生肽序列p^k将由MHC等位基因h呈递的独立等位基因可能性。

VIII.B.1有关等位基因相互作用变量的相关性函数

在本发明通篇提到的一个特定实施方案中，相关性函数g_h(·)是由下式提供的仿射函数：

该函数将x_h ^k中的每个等位基因相互作用变量与所测定的相关MHC等位基因h的参数集合θ_h中的相应参数线性地组合。

在本说明书通篇提到的另一个特定实施方式中，相关性函数g_h(·)是由下式提供的网络函数：

以具有分一层或多层布置的一系列节点的网络模型NN_h(·)表示。一个节点可以通过连接而连接至其它节点，这些连接各自在参数集合θ_h中具有相关参数。在一个特定节点处的值可以表示为通过与该特定节点相关联的激活函数所映射的相关参数加权的连接至该特定节点的节点值的总和。由于呈递模型可以并入具有不同氨基酸序列长度的非线性和工艺数据，与仿射函数相比，网络模型是有利的。确切地说，通过非线性建模，网络模型可以捕捉在肽序列不同位置处的氨基酸之间的相互作用以及这一相互作用如何影响肽呈递。

一般来说，网络模型NN_h(·)可以被构造成前馈网络，如人工神经网络(ANN)、卷积神经网络(CNN)、深度神经网络(DNN)，和/或循环网络，如长短期记忆网络(LSTM)、双向循环网络、深度双向循环网络等。

在本说明书其余部分通篇提到的一个实例中，h＝1，2，...，m中的每个MHC等位基因与独立网络模型相关联，并且NN_h(·)表示来自与MHC等位基因h相关联的网络模型的输出。

图5示出了与任意MHC等位基因h＝3相关联的示例网络模型NN₃(·)。如图5中所示，关于MHC等位基因h＝3的网络模型NN₃(·)包括在层l＝1处的三个输入节点、在层l＝2处的四个节点、在层l＝3处的两个节点及在层l＝4处的一个输出节点。网络模型NN₃(·)与一组十个参数θ₃(1)，θ₃(2)，...，θ₃(10)相关。网络模型NN₃(·)接收关于MHC等位基因h＝3的三个等位基因相互作用变量x₃ ^k(1)、x₃ ^k(2)及x₃ ^k(3)的输入值(包括编码的多肽序列数据和所用任何其它训练数据的个别数据实例)并输出值NN₃(x₃ ^k)。

在另一个实施例中，鉴别的MHC等位基因h＝1，2，...，m与单个网络模型NN_H(·)相关联，并且NN_h(·)表示与MHC等位基因h相关的单个网络模型的一个或多个输出。在此类实例中，参数集合θ_h可以对应于该单个网络模型的一组参数，并因此，参数集合θ_h可以是所有MHC等位基因共有的。

图6A示出了MHC等位基因h＝1，2，...，m共享的示例网络模型NN_H(·)。如图6A中所示，网络模型NN_H(·)包括m个输出节点，各自对应于MHC等位基因。网络模型NN₃(·)接收有关MHC等位基因h＝3的等位基因相互作用变量x₃ ^k并输出m值，包括对应于MHC等位基因h＝3的值NN₃(x₃ ^k)。

在又另一实例中，单个网络模型NN_H(·)可以是在给定MHC等位基因h的等位基因相互作用变量x_h ^k和编码的蛋白质序列d_h情况下，输出相关性分数的网络模型。在此类实例中，参数集合θ_h也可以对应于该单个网络模型的一组参数，并因此，参数集合θ_h可以是所有MHC等位基因共有的。因此，在此类实例中，NN_h(·)可以表示在给定该单个网络模型的输入[x_h ^kd_h]情况下，该单个网络模型NN_H(·)的输出。由于训练数据中未知的MHC等位基因的肽呈递可能性只能通过鉴别其蛋白质序列进行预测，故此类网络模型是有利的。

图6B示出了MHC等位基因共享的示例网络模型NN_H(·)。如图6B中所示，网络模型NN_H(·)接收MHC等位基因h＝3的等位基因相互作用变量和蛋白质序列作为输入，并输出对应于MHC等位基因h＝3的相关性分数NN₃(x₃ ^k)。

在又另一个实施例中，相关性函数g_h(·)可以表示为：

其中g’_h(x_h ^k；θ’_h)是具有一组参数θ’_h的仿射函数、网络函数等，其中有关MHC等位基因的等位基因相互作用变量的一组参数的偏差参数θ_h ⁰表示MHC等位基因h的基线呈递机率。

在另一个实施方式中，偏差参数θ_h ⁰可以是MHC等位基因h的基因家族共有的。也就是说，MHC等位基因h的偏差参数θ_h ⁰可以等于θ_基因(h) ⁰，其中基因(h)是MHC等位基因h的基因家族。举例来说，MHC等位基因HLA-A*02：01、HLA-A*02：02及HLA-A*02：03可以指定给“HLA-A”基因家族，并且这些MHC等位基因各自的偏差参数θ_h ⁰可以是共有的。

再回到等式(2)，作为一个实施例，在使用仿射相关性函数g_h(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝3呈递的可能性可以由下式得到：

其中x₃ ^k是鉴别的MHC等位基因h＝3的等位基因相互作用变量，并且θ₃是通过损失函数最小化测定的MHC等位基因h＝3的参数集合。

作为另一个实施例，在使用独立网络变换函数g_h(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝3呈递的可能性可以由下式得到：

其中x₃ ^k是鉴别的MHC等位基因h＝3的等位基因相互作用变量，并且θ₃是测定的与MHC等位基因h＝3相关联的网络模型NN₃(·)的参数集合。

图7示出了使用示例网络模型NN₃(·)生成与MHC等位基因h＝3相关联的肽p^k的呈递可能性。如图7中所示，网络模型NN₃(·)接收有关MHC等位基因h＝3的等位基因相互作用变量x₃ ^k并生成输出NN₃(x₃ ^k)。该输出由函数f(·)映射以产生估计的呈递可能性u_k。

VIII.B.2.具有等位基因非相互作用变量的独立等位基因

在一个实施方式中，训练模块316并入等位基因非相互作用变量并通过下式使肽p^k的估计呈递可能性u_k建模：

其中w^k表示肽p^k的编码的等位基因非相互作用变量，g_w(·)是基于测定的等位基因非相互作用变量的一组参数θ_w的等位基因非相互作用变量w^k的函数。确切地说，有关各MHC等位基因h的参数集合θ_h和有关等位基因非相互作用变量的参数集合θ_w的值可以通过使关于θ_h和θ_w的损失函数减到最小来测定，其中i是由表达单个MHC等位基因的细胞所产生的训练数据170的子集S中的每个实例。

相关性函数g_w(w^k；θ_w)的输出表示基于等位基因非相互作用变量的影响的等位基因非相互作用变量的相关性分数，其指示肽p^k是否会由一个或多个MHC等位基因呈递。举例来说，如果肽p^k与已知会积极地影响肽p^k的呈递的C末端侧接序列相关，则等位基因非相互作用变量的相关性分数可能具有较高值，并且如果肽p^k与已知会不利地影响肽p^k的呈递的C末端侧接序列相关，则可能具有较低值。

根据等式(8)，可以通过将有关MHC等位基因h的函数g_h(·)应用于肽序列p^k的编码形式以产生等位基因相互作用变量的相应相关性分数来产生肽序列p^k将由MHC等位基因h呈递的独立等位基因可能性。有关等位基因非相互作用变量的函数g_w(·)也应用于等位基因非相互作用变量的编码形式以产生等位基因非相互作用变量的相关性分数。将两个分数合并，并通过变换函数f(·)变换该合并的分数以产生肽序列p^k将由MHC等位基因h呈递的独立等位基因可能性。

或者，训练模块316可以通过将等位基因非相互作用变量w^k添加至等式(2)中的等位基因非相互作用变量x_h ^k中，来将等位基因非相互作用变量w^k包括在预测值中。因此，呈递可能性可以由下式得到：

VIII.B.3有关等位基因非相互作用变量的相关性函数

与有关等位基因相互作用变量的相关性函数g_h(·)类似，有关等位基因非相互作用变量的相关性函数g_w(·)可以是仿射函数或网络函数，其中独立网络模型与等位基因非相互作用变量w^k相关联。

确切地说，相关性函数g_w(·)是由下式提供的仿射函数：

g_w(w^k；θ_w)＝w^k·θ_w，

该函数将等位基因非相互作用变量w^k与参数集合θ_w中的相应参数线性地组合。

相关性函数g_w(·)还可以是由下式提供的网络函数：

g_h(w^k；θ_w)＝NN_w(w^k；θ_w)，

该函数是由具有参数集合θ_w中的相关参数的网络模型NN_w(·)表示。

在另一个实施例中，有关等位基因非相互作用变量的相关性函数g_w(·)可以由下式提供：

其中g’_w(w^k；θ’_w)是仿射函数，具有等位基因非相互作用参数集合θ’_w的网络函数等，m^k是肽p^k的mRNA定量测量值，h(·)是变换该定量测量值的函数，并且θ_w ^m是有关等位基因非相互作用变量的参数集合中的一个参数，该参数与mRNA定量测量值组合以生成有关mRNA定量测量值的相关性分数。在本说明书其余部分通篇所提到的一个特定实施方案中，h(·)是对数函数，不过实际上，h(·)可以是多种不同函数中的任一种。

在又另一个实例中，有关等位基因非相互作用变量的相关性相关性函数g_w(·)可以由下式提供：

其中g’_w(w^k；θ’_w)是仿射函数、具有等位基因非相互作用参数集合θ’_w的网络函数等，o^k是以上描述的表示人蛋白质组中有关肽p^k的蛋白质和同功型的指示向量，并且θ_w ^o是有关等位基因非相互作用变量的参数集合中的一组参数，其与指示向量组合。在一种变化形式中，当o^k的维度和参数集合θ_w ^o明显较高时，可以在测定参数值时将参数正则项，如添加至损失函数中，其中||·||表示L1范数、L2范数、组合等。超参数λ的最佳值可以通过适当方法测定。

再回到等式(8)，作为一个实施例，在使用仿射变换函数g_h(·)、g_w(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝3呈递的可能性可以由下式产生：

其中w^k是所鉴别的肽p^k的等位基因非相互作用变量，并且θ_w是测定的等位基因非相互作用变量的参数的集合。

作为另一个实施例，在使用网络变换函数g_h(·)、g_w(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝3呈递的可能性可以由下式得到：

其中w^k是所鉴别的肽p^k的等位基因相互作用变量，并且θ_w是测定的等位基因非相互作用变量的参数的集合。

图8示出了使用示例网络模型NN₃(·)和NN_w(·)生成与MHC等位基因h＝3相关联的肽p^k的呈递可能性。如图8中所示，网络模型NN₃(·)接收有关MHC等位基因h＝3的等位基因相互作用变量x₃ ^k并生成输出NN₃x₃ ^k)。网络模型NN_w(·)接收有关肽p^k的等位基因非相互作用变量w^k并生成输出NN_w(w^k)。将输出合并，并由函数f(·)映射以产生估计的呈递可能性u_k。

VIII.C.多等位基因模型

训练模块316还可以在存在两个或更多个MHC等位基因的多等位基因环境中构建呈递模型以预测肽的呈递可能性。在此情况下，训练模块316可以基于由表达单个MHC等位基因的细胞、表达多个MHC等位基因的细胞或其组合产生的训练数据170中的数据实例S训练呈递模型。

VIII.C.1.实施例1：独立等位基因模型的最大值

在一个实施方式中，训练模块316使与一组多个MHC等位基因H相关联的肽p^k的估计呈递可能性u_k随基于表达单等位基因的细胞所测定的集合H中每个MHC等位基因h的呈递可能性u_k ^h∈H的变化建模，如上文结合等式(2)-(11)所描述。确切地说，呈递可能性u_k可以是u_k ^h∈H的任何函数。在一个实施方式中，如等式(12)中所示，该函数是最大值函数，并且呈递可能性u_k可以测定为集合H中每个MHC等位基因h的呈递可能性最大值。

VIII.C.2.实施例2.1：和的函数(Funciton-of-Sums)模型

在一个实施方式中，训练模块316通过下式使肽p^k的估计呈递可能性u_k建模：

其中元素a_h ^k对于与肽序列p^k相关的多个MHC等位基因H是1，并且x_h ^k表示编码的有关肽p^k和相应MHC等位基因的等位基因相互作用变量。有关各MHC等位基因h的参数集合θ_h的值可以通过使关于θ_h的损失函数减到最小来测定，其中i是由表达单个MHC等位基因的细胞和/或表达多个MHC等位基因的细胞所产生的训练数据170的子集S中的每个实例。相关性函数g_h可以呈以上VIII.B.1部分中介绍的相关性函数g_h中的任一种的形式。

根据等式(13)，可以通过将相关性函数g_h(·)应用于有关MHC等位基因H中的每一个的肽序列p^k的编码形式以产生等位基因相互作用变量的相应分数来产生肽序列p^k将由一个或多个MHC等位基因h呈递的呈递可能性。将每个MHC等位基因h的分数合并，并通过变换函数f(·)变换以产生肽序列p^k将由MHC等位基因集合H呈递的呈递可能性。

等式(13)的呈递模型与等式(2)的独立等位基因模型的不同之处在于，每个肽p^k的相关等位基因的数量可以大于1。换句话说，对于与肽序列p^k相关的多个MHC等位基因H，a_h ^k中超过一个元素值可以是1。

举个例子，在使用仿射变换函数g_h(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝2、h＝3呈递的可能性可以由下式得到：

其中x₂ ^k、x₃ ^k是鉴别的MHC等位基因h＝2、h＝3的等位基因相互作用变量，并且θ₂、θ₃是测定的MHC等位基因h＝2、h＝3的参数的集合。

作为另一个实例，在使用网络变换函数g_h(·)、g_w(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝2、h＝3呈递的可能性可以由下式得到：

其中NN₂(·)、NN₃(·)是鉴别的MHC等位基因h＝2、h＝3的网络模型，并且θ₂、θ₃是测定的MHC等位基因h＝2、h＝3的参数的集合。

图9示出了使用示例网络模型NN₂(·)和NN₃(·)生成与MHC等位基因h＝2、h＝3相关联的肽p^k的呈递可能性。如图9中所示，网络模型NN₂(·)接收有关MHC等位基因h＝2的等位基因相互作用变量x₂ ^k并生成输出NN₂(x₂ ^k)，并且网络模型NN₃(·)接收有关MHC等位基因h＝3的等位基因相互作用变量x₃ ^k并生成输出NN₃(x₃ ^k)。将输出合并，并由函数f(·)映射以产生估计的呈递可能性u_k。

VIII.C.3.实施例2.2：利用等位基因非相互作用变量的和的函数模型

其中w^k表示编码的有关肽p^k的等位基因非相互作用变量。确切地说，有关各MHC等位基因h的参数集合θ_h和有关等位基因非相互作用变量的参数集合θ_w的值可以通过使关于θ_h和θ_w的损失函数减到最小来测定，其中i是由表达单个MHC等位基因的细胞和/或表达多个MHC等位基因的细胞所产生的训练数据170的子集S中的每个实例。相关性函数g_w可以呈以上VIII.B.3部分中介绍的相关性函数g_w中的任一种的形式。

因此，根据等式(14)，可以通过将函数g_h(·)应用于有关MHC等位基因H中的每一个的肽序列p^k的编码形式以产生有关每个MHC等位基因h的等位基因相互作用变量的相应相关性分数来产生肽序列p^k将由一个或多个MHC等位基因H呈递的呈递可能性。有关等位基因非相互作用变量的函数g_w(·)也应用于等位基因非相互作用变量的编码形式以产生等位基因非相互作用变量的相关性分数。将分数合并，并通过变换函数f(·)变换该合并的分数以产生肽序列p^k将由MHC等位基因H呈递的呈递可能性。

在等式(14)的呈递模型中，每个肽p^k的相关等位基因的数量可以大于1。换句话说，对于与肽序列p^k相关的多个MHC等位基因H，a_h ^k中超过一个元素的值可以是1。

举个例子，在使用仿射变换函数g_h(·)、g_w(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝2、h＝3呈递的可能性可以由下式得到：

作为另一个实施例，在使用网络变换函数g_h(·)、g_w(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝2、h＝3呈递的可能性可以由下式得到：

图10示出了使用示例网络模型NN₂(·)、NN₃(·)及NN_w(·)生成与MHC等位基因h＝2、h＝3相关联的肽p^k的呈递可能性。如图10中所示，网络模型NN₂(·)接收有关MHC等位基因h＝2的等位基因相互作用变量x₂ ^k并生成输出NN₂(x₂ ^k)。网络模型NN₃(·)接收有关MHC等位基因h＝3的等位基因相互作用变量x₃ ^k并生成输出NN₃(x₃ ^k)。网络模型NN_w(·)接收有关肽p^k的等位基因非相互作用变量w^k并生成输出NN_w(w^k)。将输出合并，并由函数f(·)映射以产生估计的呈递可能性u_k。

或者，训练模块316可以通过将等位基因非相互作用变量w^k添加至等式(15)的等位基因非相互作用变量x_h ^k中，来将等位基因非相互作用变量w^k包括在预测值中。因此，呈递可能性可以由下式得到：

VIII.C.4.实施例3.1：使用隐式独立等位基因可能性的模型

在另一个实施方式中，训练模块316通过下式使肽p^k的估计呈递可能性u_k建模：

其中元素a_h ^k对于与肽序列p^k相关联的多个MHC等位基因h∈H是1，u’_k ^h是MHC等位基因h的隐式独立等位基因呈递可能性，向量v是其中元素v_h对应于a_h ^k·u’_k ^h的向量，s(·)是映射元素v的函数，并且r(·)是限幅函数(clipping function)，其将输入值削减至给定范围中。如以下更详细地描述，s(·)可以是求和函数或二阶函数，但应理解在其它实施方案中，s(·)可以是任何函数，如最大值函数。有关隐式独立等位基因可能性的参数集合θ的值可以通过使关于θ的损失函数减到最小来测定，其中i是由表达单个MHC等位基因的细胞和/或表达多个MHC等位基因的细胞所产生的训练数据170的子集S中的每个实例。

使等式(17)的呈递模型中的呈递可能性随各自对应于肽p^k将由个别MHC等位基因h呈递的可能性的隐式独立等位基因呈递可能性u’_k ^h的变化建模。隐式独立等位基因可能性与VIII.B部分的独立等位基因呈递可能性的不同之处在于，有关隐式独立等位基因可能性的参数可以从多等位基因环境习得，其中除单等位基因环境外，呈递肽与相应MHC等位基因之间的直接关联也是未知的。因此，在多等位基因环境中，呈递模型不仅可以估计肽p^k是否会由作为整体的一组MHC等位基因H呈递，而且还可以提供指示最可能呈递肽p^k的MHC等位基因h的个别可能性u’_k ^h∈H。其优势在于，呈递模型可以在无有关表达单MHC等位基因的细胞的训练数据存在下产生隐式可能性。

在本说明书其余部分通篇提到的一个特定实施方式中，r(·)是具有范围[0，1]的函数。举例来说，r(·)可以是限幅函数：

r(z)＝min(max(z，0)，1)，

其中选择z与1之间的最小值作为呈递可能性u_k。在另一个实施方式中，当域z的值等于或大于0时，r(·)是由下式提供的双曲正切函数：

r(z)＝tanh(z)。

VIII.C.5.实施例3.2：函数的和(Sum-of-Functions)模型

在一个特定实施方式中，s(·)是求和函数，并且呈递可能性是通过对隐式独立等位基因呈递可能性求和得到：

在一个实施方式中，MHC等位基因h的隐式独立等位基因呈递可能性是由下式得到：

由此通过下式估计出呈递可能性：

根据等式(19)，可以通过将函数g_h(·)应用于有关MHC等位基因H中的每一个的肽序列p^k的编码形式以产生等位基因相互作用变量的相应相关性分数来产生肽序列p^k将由一个或多个MHC等位基因H呈递的呈递可能性。每个相关性分数都先通过函数f(·)变换以产生隐式独立等位基因呈递可能性u’_k ^h。将独立等位基因可能性u’_k ^h合并，并且可以将限幅函数应用于合并的可能性以将值削减至范围[0，1]中以产生肽序列p^k将由MHC等位基因集合H呈递的呈递可能性。相关性函数g_h可以呈以上VIII.B.1部分中介绍的相关性函数g_h中的任一种的形式。

图11示出了使用示例网络模型NN₂(·)和NN₃(·)生成与MHC等位基因h＝2、h＝3相关联的肽p^k的呈递可能性。如图9中所示，网络模型NN₂(·)接收有关MHC等位基因h＝2的等位基因相互作用变量x₂ ^k并生成输出NN₂(x₂ ^k)，并且网络模型NN₃(·)接收有关MHC等位基因h＝3的等位基因相互作用变量x₃ ^k并生成输出NN₃(x₃ ^k)。每个输出由函数f(·)映射以产生估计的呈递可能性u_k。

在另一个实施方式中，当预测质谱离子电流的对数时，r(·)是对数函数并且f(·)是指数函数。

VIII.C.6.实施例3.3：利用等位基因非相互作用变量的函数的和模型

由此通过下式产生呈递可能性：

以并入等位基因非相互作用变量对肽呈递的影响。

根据等式(21)，可以通过将函数g_h(·)应用于有关MHC等位基因H中的每一个的肽序列p^k的编码形式以产生有关每个MHC等位基因h的等位基因相互作用变量的相应相关性分数来产生肽序列p^k将由一个或多个MHC等位基因H呈递的呈递可能性。有关等位基因非相互作用变量的函数g_w(·)也应用于等位基因非相互作用变量的编码形式以产生等位基因非相互作用变量的相关性分数。将等位基因非相互作用变量的分数与等位基因相互作用变量的各个相关性分数合并。每个合并的分数都通过函数f(·)变换以产生隐式独立等位基因呈递可能性。将隐式可能性合并，并且可以将限幅函数应用于合并的输出以将值削减至范围[0，1]中以产生肽序列p^k将由MHC等位基因集合H呈递的呈递可能性。相关性函数g_w可以呈以上VIII.B.3部分中介绍的相关性函数g_w中的任一种的形式。

图12示出了使用示例网络模型NN₂(·)、NN₃(·)及NN_w(·)生成与MHC等位基因h＝2、h＝3相关联的肽p^k的呈递可能性。如图12中所示，网络模型NN₂(·)接收有关MHC等位基因h＝2的等位基因相互作用变量x₂ ^k并生成输出NN₂(x₂ ^k)。网络模型NN_w(·)接收有关肽p^k的等位基因非相互作用变量并生成输出NN_w(w^k)。将输出合并，并且通过函数f(·)映射。网络模型NN₃(·)接收有关MHC等位基因h＝3的等位基因相互作用变量x₃ ^k并生成输出NN₃(x₃ ^k)，再次将该输出与同一网络模型NN_w(·)的输出NN_w(w^k)合并，并且通过函数f(·)映射。将两个输出合并以产生估计的呈递可能性u_k。

在另一个实施方式中，MHC等位基因h的隐式独立等位基因呈递可能性由下式得到：

由此通过下式得到呈递可能性：

VIII.C.7.实施例4：二阶模型

在一个实施方式中，s(·)是二阶函数，并且肽p^k的估计呈递可能性u_k是由下式得到：

其中元素u’_k ^h是MHC等位基因h的隐式独立等位基因可能性。有关隐式独立等位基因可能性的参数集合θ的值可以通过使关于θ的损失函数减到最小来测定，其中i是由表达单个MHC等位基因的细胞和/或表达多个MHC等位基因的细胞所产生的训练数据170的子集S中的每个实例。隐式独立等位基因呈递可能性可以呈以上描述的等式(18)、(20)及(22)中所示的任何形式。

在一方面，等式(23)的模型可以暗示存在肽p^k将同时由两个MHC等位基因呈递的可能，其中两个HLA等位基因的呈递在统计学上是独立的。

根据等式(23)，肽序列p^k将由一个或多个MHC等位基因H呈递的呈递可能性可以通过组合隐式独立等位基因呈递可能性并自总和中减去每对MHC等位基因将同时呈递肽p^k的可能性以产生肽序列p^k将由MHC等位基因H呈递的呈递可能性来产生。

举个例子，在使用仿射变换函数g_h(·)鉴别的m＝4种不同的HLA等位基因当中，肽p^k将由HLA等位基因h＝2、h＝3呈递的可能性可以由下式得到：

其中x₂ ^k、x₃ ^k是鉴别的HLA等位基因h＝2、h＝3的等位基因相互作用变量，并且θ₂、θ₃是测定的HLA等位基因h＝2、h＝3的参数的集合。

作为另一个实施例，在使用网络变换函数g_h(·)、g_w(·)鉴别的m＝4种不同的HLA等位基因当中，肽p^k将由HLA等位基因h＝2、h＝3呈递的可能性可以由下式得到：

其中NN₂(·)、NN₃(·)是鉴别的HLA等位基因h＝2、h＝3的网络模型，并且θ₂、θ₃是测定的HLA等位基因h＝2、h＝3的参数的集合。

IX.实施例5：预测模块

预测模块320接收序列数据并使用呈递模型在序列数据中选择候选新抗原。确切地说，序列数据可以是从患者的肿瘤组织细胞中提取的DNA序列、RNA序列和/或蛋白质序列。预测模块320将序列数据处理成具有8-15个氨基酸的多个肽序列p^k。举例来说，预测模块320可以将给定序列“IEFROEIFJEF”处理成具有9个氨基酸的三个肽序列“IEFROEIFJ”、“EFROEIFJE”及“FROEIFJEF”。在一个实施方案中，预测模块320可以通过将从患者的正常组织细胞提取的序列数据与从患者的肿瘤组织细胞提取的序列数据相比较以鉴别含有一个或多个突变的部分，由此鉴别出作为突变肽序列的候选新抗原。

呈递模块320将一个或多个呈递模型应用于处理的肽序列以估计这些肽序列的呈递可能性。确切地说，预测模块320可以通过将呈递模型应用于候选新抗原来选择一个或多个可能被呈递于肿瘤HLA分子上的候选新抗原肽序列。在一个实施方式中，呈递模块320选出估计呈递可能性超过预定阈值的候选新抗原序列。在另一个实施方式中，呈递模块选出N个具有最高估计呈递可能性的候选新抗原序列(其中N一般是可以在疫苗中递送的表位的最大数量)。包括选择用于给定患者的候选新抗原的疫苗可以注射到患者体内以诱导免疫反应。

X.实施例6：显示出示例呈递模型性能的实验结果

基于测试数据T测试以上描述的各种呈递模型的有效性，测试数据是未用于训练呈递模型的训练数据170的子集或来自训练数据170的具有与训练数据170类似的变量和数据结构的独立数据集。

指示呈递模型的性能的相关度量是：

阳性预测值

其指示正确预测的会在相关HLA等位基因上呈递的肽实例的数量与预测会在HLA等位基因上呈递的肽实例的数量的比率。在一个实施方式中，如果相应可能性估计值u_i大于或等于给定阈值t，则预测测试数据T中的肽pⁱ会在一个或多个相关HLA等位基因上呈递。指示呈递模型的性能的另一相关度量是：

其指示正确预测的会在相关HLA等位基因上呈递的肽实例的数量与已知会在HLA等位基因上呈递的肽实例的数量的比率。指示呈递模型的性能的另一相关度量是接受者操作特征曲线(receiver operating characteristic，ROC)的曲线下面积(AUC)。ROC将召回率相对于假阳性率(FPR)作图，FPR是由下式提供：

X.A.基于质谱数据的呈递模型性能与现有技术模型的比较

图13A比较如本文所述的示例呈递模型与现有技术模型的基于多等位基因质谱数据预测肽呈递的性能结果。结果显示，示例呈递模型在预测肽呈递方面的性能明显优于基于亲和力和稳定性预测值的现有技术模型。

确切地说，使用仿射相关性函数g_h(·)和expit函数f(·)，图13A显示为“MS”的示例呈递模型是等式(12)中显示的独立等位基因呈递模型的最大值。示例呈递模型是基于来自IEDB数据集的单等位基因HLA-A*02：01质谱数据的子集(数据集“D1”)(数据可以见于http：//www.iedb.org/doc/mhc ligand full.zip)及来自IEDB数据集的单等位基因HLA-B*07：02质谱数据的子集(数据集“D2”)(数据可以见于http：//www.iedb.org/doc/mhc ligand full.zip)。自训练数据中去除测试集中来自源蛋白的含有呈递肽的所有肽，由此该示例呈递模型不是简单地记录呈递抗原的序列。

图13A中显示为“亲和力”的模型是与现有技术模型类似的模型，该模型基于亲和力预测值NETMHCpan预测肽呈递。NETMHCpan的实施方式详细提供于http：// www.cbs.dtu.dk/services/NetMHCpan/。图13A中显示为“稳定性”的模型是与现有技术模型类似的模型，该模型基于稳定性预测值NETMHCstab预测肽呈递。NETMHCstab的实施方式详细提供于http：//www.cbs.dtu.dk/services/NetMHCstab-1.0/。测试数据是来自Bassani-Sternberg数据集的多等位基因JY细胞系HLA-A*02：01和HLA-B*07：02质谱数据的子集(数据集“D3”)(数据可以见于www.ebi.ac.uk/pride/archive/projects/PXD000394)。误差条(如实线所指示)显示95％置信区间。

如图13A的结果所示，相对于基于MHC结合亲和力预测值或MHC结合稳定性预测值预测肽呈递的现有技术模型，基于质谱数据训练的示例呈递模型在10％召回率下具有明显较高的PPV值。确切地说，示例呈递模型的PPV比基于亲和力预测值的模型高约14％，并且其PPV比基于稳定性预测值的模型高约12％。

这些结果证明，相较于基于MHC结合亲和力或MHC结合稳定性预测值预测肽呈递的现有技术模型，示例呈递模型具有明显较佳的性能，即使该示例成模型不是基于含有呈递肽的蛋白质序列进行训练的。

X.B.基于T细胞表位数据的呈递模型性能与现有技术模型的比较

图13B比较如本文所述的另一示例呈递模型与现有技术模型的基于T细胞表位数据预测肽呈递的性能结果。T细胞表位数据含有被MHC等位基因呈递于细胞表面上并且被T细胞识别的肽序列。结果显示，即使示例呈递模型是基于质谱数据训练，该示例呈递模型在预测T细胞表位方面的性能仍明显优于基于亲和力和稳定性预测值的现有技术模型。换句话说，图13B的结果指示，示例呈递模型不仅在基于质谱测试数据预测肽呈递方面的性能优于现有技术模型，而且示例呈递模型在预测实际上由T细胞识别的表位方面的性能也明显优于现有技术模型。由此表明，本文所提供的多种呈递模型可以更好地鉴别可能在免疫***中诱导免疫反应的抗原。

确切地说，使用仿射相关性函数g_h(·)和expit函数f(·)，图13B显示为“MS”的示例呈递模型是基于数据集D1的子集训练的等式(2)中显示的独立等位基因呈递模型。自训练数据中去除测试集中来自源蛋白的含有呈递肽的所有肽，由此该呈递模型不是简单地记录呈递抗原的序列。

将这些模型分别应用于测试数据，该测试数据是基于HLA-A*02：01 T细胞表位数据的质谱数据的子集(数据集“D4”)(数据可见于www.iedb.org/doc/tcell full v3.zip)。图13B中显示为“亲和力”的模型是与现有技术模型类似的模型，该模型基于亲和力预测值NETMHCpan预测肽呈递，而图13B中显示为“稳定性”的模型是与现有技术模型类似的模型，该模型基于稳定性预测值NETMHCstab预测肽呈递。误差条(如实线所指示)显示95％置信区间。

如图13A的结果所示，相较于基于MHC结合亲和力或MHC结合稳定性预测值预测肽呈递的现有技术模型，基于质谱数据训练的独立等位基因呈递模型在10％召回率下具有明显较高的PPV值，即使该呈递模型不是基于含有呈递肽的蛋白质序列训练的。确切地说，独立等位基因呈递模型的PPV比基于亲和力预测值的模型高约9％，并且其PPV比基于稳定性预测值的模型高约8％。

这些结果证明，基于质谱数据训练的示例呈递模型在预测被T细胞识别的表位方面的性能明显优于现有技术模型。

X.C.基于质谱数据的不同呈递模型性能的比较

图13C比较示例和的函数模型(等式(13))、示例函数的和模型(等式(19))及示例二阶模型(等式(23))基于多等位基因质谱数据预测肽呈递的性能结果。结果显示，函数的和模型和二阶模型的性能优于和的函数模型。这是因为和的函数模型暗示，多等位基因环境中的等位基因会干扰彼此的肽呈递，而实际上，肽呈递是有效地独立的。

确切地说，图13C中标记为“和的S型函数”的示例呈递模型是使用网络相关性函数g_h(·)、恒等函数f(·)和expit函数r(·)的和的函数模型。标记为“S型函数的和”的示例模型是利用网络相关性函数g_h(·)、expit函数f(·)和恒等函数r(·)的等式(19)中的函数的和模型。标记为“双曲正切”的示例模型是利用网络相关性函数g_h(·)、expit函数f(·)和双曲正切函数r(·)的等式(19)中的函数的和模型。标记为“二阶”的示例模型是使用含网络相关性函数g_h(·)和expit函数f(·)的等式(18)中显示的隐式独立等位基因呈递可能性形式的等式(23)中的二阶模型。每个模型都是基于数据集D1、D2及D3的子集训练。将示例呈递模型应用于测试数据，该测试数据是不与训练数据重叠的数据集D3的随机子集。

如图13C中所示，第一列是指当将各呈递模型应用于测试集时ROC的AUC，第二列是指可能性损失的负对数值，并且第三列是指在10％召回率下的PPV。如图13C中所示，呈递模型“S型函数的和”、“双曲正切”和“二阶”的性能在10％召回率下约15-16％PPV下大致相当，而模型“和的S型函数”的性能在约11％下略微较低。

如先前VIII.C.4部分中所论述，结果显示，“S型模型的和”、“双曲正切”和“二阶”呈递模型相较于“和的S型函数”模型具有较高PPV值，因为这些模型正确地解释了多等位基因环境中的每个MHC等位基因如何独立地呈递肽。

X.D.在存在和不存在基于单等位基因质谱数据训练的情况下呈递模型性能的比较

图13D比较了利用与不利用单等位基因质谱数据训练的两个示例呈递模型有关以多等位基因质谱数据预测肽呈递的性能结果。结果指示，在无单等位基因数据下训练的示例呈递模型的性能与利用单等位基因数据训练的示例呈递模型的性能相当。

“利用A2/B7单等位基因数据”的示例模型是利用网络相关性函数g_h(·)、expit函数f(·)和恒等函数r(·)的等式(19)中的“S型函数的和”呈递模型。该模型是基于数据集D3的子集以及来自IEDB数据库的多个MHC等位基因的单等位基因质谱数据(数据可见于：http：//www.iedb.org/doc/mhc_ligand_full.zip)训练。“不利用A2/B7单等位基因数据”的示例模型是相同模型，但基于多等位基因D3数据集的子集训练，无等位基因HLA-A*02：01和HLA-B*07：02的单等位基因质谱数据，而是利用其它等位基因的单等位基因质谱数据。在多等位基因训练数据内，细胞系HCC1937表达HLA-B*07：02，但不表达HLA-A*02：01，而细胞系HCT116表达HLA-A*02：01，但不表达HLA-B*07：02。将示例呈递模型应用于测试数据，该测试数据是数据集D3的随机子集，而且不与训练数据重叠。

“相关性”一列是指表明肽是否在测试数据中的相应等位基因上呈递的实际标记与预测用标记之间的相关性。如图13D中所示，基于MHC等位基因HLA-A*02：01的隐式独立等位基因呈递可能性预测的性能明显优于基于MHC等位基因HLA-A*02：01而非MHC等位基因HLA-B*07：02的单等位基因测试数据预测的性能。MHC等位基因HLA-B*07：02显示类似结果。

这些结果指示，呈递模型的隐式独立等位基因呈递可能性可以正确地预测并区分结合基元与个别MHC等位基因，即使在训练数据中不了解这些肽与每一个别MHC等位基因之间的直接关联。

X.E.在不基于单等位基因质谱数据训练情况下独立等位基因预测性能的比较

图13E显示基于图13D中所示分析中保持的等位基因HLA-A*02：01和HLA-B*07：02的单等位基因质谱数据，图13D中所示的“不利用A2/B7单等位基因数据”和“利用A2/B7单等位基因数据”示例模型的性能。结果指示，即使该示例呈递模型是在不利用这两个等位基因的单等位基因质谱数据情况下训练，但该模型仍能够学习到各MHC等位基因的结合基元。

如图13E中所示，“A2模型预测B7”指示当基于有关MHC等位基因HLA-A*02：01的隐式独立等位基因呈递可能性估计值，针对单等位基因HLA-B*07：02数据预测肽呈递时该模型的性能。类似地，“A2模型预测A2”指示当基于有关MHC等位基因HLA-A*02：01的隐式独立等位基因呈递可能性估计值，针对单等位基因HLA-A*02：01数据预测肽呈递时该模型的性能。“B7模型预测B7”指示当基于有关MHC等位基因HLA-B*07：02的隐式独立等位基因呈递可能性估计值，针对单等位基因HLA-B*07：02数据预测肽呈递时该模型的性能。“B7模型预测A2”指示当基于有关MHC等位基因HLA-B*07：02的隐式独立等位基因呈递可能性估计值，针对单等位基因HLA-A*02：01数据预测肽呈递时该模型的性能。

如图13E中所示，有关HLA等位基因的隐式独立等位基因可能性的预测能力明显高于预定等位基因的预测能力，并且明显低于其它HLA等位基因的预测能力。与图13D中显示的结果类似，示例呈递模型正确地学习到区别个别等位基因HLA-A*02：01和HLA-B*07：02的肽呈递，即使肽呈递与这些等位基因之间的直接关联在多等位基因训练数据中不存在。

X.F.独立等位基因预测中频繁出现的锚定残基匹配已知的典型锚定基元

图13F显示在图13D中所示的“不利用A2/B7单等位基因数据”示例模型所预测的九聚体当中，在2位和9位处共同的锚定残基。如果估计可能性超过5％，则预测这些肽会被呈递。结果显示，所鉴别的在MHC等位基因HLA-A*02：01和HLA-B*07：02上呈递的肽中最常见的锚定残基与先前已知的这些MHC等位基因的锚定基元相配。由此指示，正如预期，基于肽序列的特定氨基酸位置，示例呈递模型正确地学习到肽结合。

如图13F中所示，已知在2位处的氨基酸L/M和在9位处的氨基酸V/L是HLA-A*02：01的典型锚定残基基元(如https：//link.springer.com/article/10.1186/1745-7580-4-2的表4中所示)，并且已知2位处的氨基酸P和9位处的氨基酸L/V是HLA-B*07：02的典型锚定残基基元。在该模型鉴别的肽的2位和9位处最常见的锚定残基基元与已知该两个HLA等位基因的典型锚定残基基元相配。

X.G.利用和不利用等位基因非相互作用变量的呈递模型性能的比较

图13G比较了并入C末端和N末端侧接序列作为等位基因相互作用变量的示例呈递模型与并入C末端和N末端侧接序列作为等位基因非相互作用变量的示例呈递模型之间的性能结果。结果显示，并入C末端和N末端侧接序列作为等位基因非相互作用变量使模型性能明显改善。更确切地说，鉴别所有不同MHC等位基因共有的适用于肽呈递的特征并使其建模，由此使所有MHC等位基因共有这些等位基因非相互作用变量的统计强度以改善呈递模型性能是非常有意义的。

示例“等位基因相互作用”模型是使用等式(22)中的隐式独立等位基因呈递可能性形式的函数的和模型，其并入C末端和N末端侧接序列作为等位基因相互作用变量，且利用网络相关性函数g_h(·)和expit函数f(·)。示例“等位基因非相互作用”模型是等式(21)中所示的函数的和模型，其并入C末端和N末端侧接序列作为等位基因非相互作用变量，且利用网络相关性函数g_h(·)和expit函数f(·)。等位基因非相互作用变量通过独立网络相关性函数g_w(·)建模。两个模型都是基于数据集D3的子集以及来自IEDB数据库的多个MHC等位基因的单等位基因质谱数据(数据可见于：http：//www.iedb.org/doc/mhc_ligand_full.zip)训练。将呈递模型分别应用于测试数据集，该测试数据集是不与训练数据重叠的数据集D3的随机子集。

如图13G中所示，在示例呈递模型中并入C末端和N末端侧接序列作为等位基因非相互作用变量使PPV值相对于将其建模为等位基因相互作用变量有约3％提高。一般来说，这是因为“等位基因非相互作用”示例呈递模型能够通过利用独立网络相关性函数，在极少增加计算能力情况下使影响建模而在所有MHC等位基因中共有等位基因非相互作用变量的统计强度。

X.H.呈递肽与mRNA定量之间的相关性

图13H示出了基于肿瘤细胞的质谱数据进行mRNA定量得到基因呈递肽的百分率之间的相关性。结果显示，mRNA表达与肽呈递之间存在较强相关性。

确切地说，图13G中的横轴指示以每百万条读段数的转录物数(TPM)的四分位数表示的mRNA表达水平。图13G中的竖轴指示由相应mRNA表达水平四分位数中的基因呈递的表位的百分率。每条实线是有关自肿瘤样品得到的两个测量值的曲线，其与相应质谱数据和mRNA表达测量值相关联。如图13G中所示，mRNA表达与相应基因中肽的百分率之间存在较强正相关性。确切地说，RNA表达的顶四分位数中的基因呈递肽的可能性是底四分位数的超过20倍。此外，通过RNA未检测到基因基本上不呈递肽。

结果指示，通过并入mRNA定量测量值可以大幅改善呈递模型的性能，因为这些测量值有利地预测肽呈递。

X.I.在并入RNA定量数据的情况下呈递模型性能的比较

图13I显示两个示例呈递模型的性能，其中之一是基于质谱肿瘤细胞数据训练，另一个并入mRNA定量数据和质谱肿瘤细胞数据。正如由图13H预期的，结果指示，由于mRNA表达是肽呈递的有力指标，通过在示例呈递模型中并入mRNA定量测量值使性能明显改善。

“MHCflurry+RNA过滤器”是与基于亲和力预测值预测肽呈递的当前现有技术模型类似的模型。它是使用MHCflurry以及标准基因表达过滤器实施，该过滤器利用mRNA定量测量值移除蛋白质中小于3.2FPKM的所有肽。MHCflurry的实施方式详细提供于https：// github.com/hammerlab/mhcflurry/，和http：//biorxiv.org/content/early/2016/05/ 22/054775。“示例模型，无RNA”模型是利用网络相关性函数g_h(·)、网络相关性函数g_w(·)和expit函数f(·)的等式(21)中所示的“S型函数的和”示例呈递模型。“示例模型，无RNA”模型通过网络相关性函数g_w(·)并入C末端侧接序列作为等位基因非相互作用变量。

“示例模型，有RNA”模型是利用网络相关性函数g_h(·)、在等式(10)中通过对数函数并入mRNA定量数据的网络相关性函数g_w(·)，及expit函数f(·)的等式(19)中显示的“S型函数的和”呈递模型。“示例模型，有RNA”模型通过网络相关性函数”g_w(·)并入C末端侧接序列作为等位基因非相互作用变量并通过对数函数并入mRNA定量测量值。

每个模型都是基于来自IEDB数据集的单等位基因质谱数据、来自Bassani-Sternberg数据集的多等位基因质谱数据的7个细胞系及20个质谱肿瘤样品进行训练。将每个模型应用于包括5,000个提供的来自7个肿瘤样品的蛋白质的测试集，其构成来自总计52,156,840个肽的9,830个呈递肽。

如图13I的前两个条形图所示，“示例模型，无RNA”模型在20％召回率下PPV值是21％，而现有技术模型的PPV值是约3％。由此指示PPV值的18％的初始性能改善，甚至在不并入mRNA定量测量值下也是如此。如图13I的第三个条形图中所示，将mRNA定量数据并入呈递模型中的“示例模型，有RNA”模型显示约30％的PPV值，相较于不利用mRNA定量测量值的示例呈递模型，性能增加近10％。

因此，结果指示，正如自图13H中的发现所预期的，mRNA表达实际上是肽预测的有力预测器，其能够在极少增加计算复杂度情况下明显改善呈递模型的性能。

X.J.测定的有关MHC等位基因HLA-C＊16：04的参数的实施例

图13J比较了在不同肽长度下，由关于图13I描述的“示例模型，有RNA”呈递模型产生的结果与当预测肽呈递时不考虑长度的现有技术模型预测的结果之间的肽呈递机率。结果指示，图13I的“示例模型，有RNA”示例呈递模型捕捉不同长度肽间的可能性变化。

横轴指示长度是8、9、10及11的肽样品。竖轴指示视肽长度而定的肽呈递机率。曲线“实际测试数据机率”显示在样品测试数据集中视肽长度变化的呈递肽的比例。呈递可能性随肽长度而变化。举例来说，如图13J中所示，具有典型HLA-A2 L/V锚定基元的10mer肽的呈递可能性比具有相同锚定残基的9mer肽低约3倍。曲线“忽略长度的模型”指示在将忽略肽长度的现有技术模型应用于相同测试数据集进行呈递预测时预测的测量值。这些模型可以是NetMHC在4.0版之前的版本、NetMHCpan在3.0版之前的版本及MHCflurry，不考虑肽呈递随肽长度的变化。如图13J中所示，呈递肽的比例在不同肽长度值间是恒定的，指示这些模型将无法捕捉肽呈递随长度的变化。曲线“Gritstone，有RNA”指示由“Gritstone，有RNA”呈递模型产生的测量值。如图13J中所示，由“Gritstone，有RNA”模型产生的测量值近似地遵循“实际测试数据机率”中显示的测量值并且正确地说明在长度8、9、10及11下的不同肽呈递程度。

因此，结果显示，如本文中所示的示例呈递模型不仅产生有关9mer肽的改善的预测，而且还改善对在8-15个之间的其它长度的肽的预测，这些肽在I类HLA等位基因中的呈递肽中占高达40％。

X.K.测定的有关MHC等位基因HLA-C＊16：04的参数的实施例

以下显示所测定的有关以h表示的MHC等位基因HLA-C*16：04的独立等位基因呈递模型(等式(2))的变化形式的一组参数：

其中relu(·)是修正线性单元(RELU)函数，并且W_h ¹、b_h ¹、W_h ²及b_h ²是测定的该模型的参数θ的集合。等位基因相互作用变量x_h ^k由肽序列组成。W_h ¹的维度是(231×256)，b_h ¹的维度是(1×256)，W_h ²的维度是(256×1)，并且b_h ²是标量。出于证实的目的，b_h ¹、b_h ²、W_h ¹及W_h ²的值列于下。

b_h ¹：

[-1.25887644 -0.84448904 -1.71391594 -1.38860381 -1.15529644 -2.42168117 -1.98687959 -0.8488462 -1.6607399 -1.12956274 -2.08983159 -0.53710765 -0.49313864 -1.15045631 -0.48757577 -0.55577797 -0.31031775 -0.70026076 -1.04614675 -1.3850919 -1.82895124 -1.15633833 -1.2794342 -2.40924239 -1.38725305 -1.98276925 -1.45160246 -0.81624526 -0.59441668 -1.86188185 -0.83900708 -1.33677316 -1.68388879 -1.1717515 -1.27319682 -1.05872869 -1.34773123 -1.61631954 -0.82552254 -1.64032412 -1.26584375 -0.56390315 -1.00684011 -1.16896808 -2.27648878 -0.66619354 -2.08268309 -0.90704113 -1.17440355 -1.06266129 -1.14868402 -0.98686731 -1.1801722 -1.41404176 -0.92722374 -0.61310995 -1.69453728 -1.26077592 -1.80019915 -0.55121636 -1.42537642 -2.1196804 -1.32291269 -1.30997157 -0.8173914 -1.23448598 -0.92230183 -1.04590237 -0.68719882 -0.99965096 -1.85294855 -0.67477435 -1.31483507 -1.21778536 -1.18890083 -0.80372357 -1.90210617 -1.85402811 -1.05570829 -1.345541 -0.68872309 -1.91153145 -1.15126705 -0.9407478 -1.01246905 -1.36009204 -1.15897787 -1.38631177 -0.87737125 -0.81053489 -0.5077101 -0.36021063 -1.06372654 -1.03310466 -1.15494275 -2.19268966 -0.80285913 -0.79190463 -0.93620723 -1.30614185 -1.85568225 -2.38452196 -1.67495275 -0.70025575 -0.98393178 -1.83200908 -1.07078218 -0.98362595 -0.71674275 -2.04092884 -0.81029147 -0.92036235 -1.75404763 -1.45618188 -0.87118417 -0.54004192 -1.65154266 -1.28891158 -1.98474801 -1.20875657 -1.51076365 -1.44827867 -1.60024345 -1.5518645 -1.22961164 -1.33044851 -1.78681803 -1.60184741 -1.70247972 -1.48592603 -1.19963896 -2.06061363 -1.59096014 -1.18787074 -1.19529891 -0.61437321 -0.92168951 -0.91861475 -1.55775297 -1.57438934 -1.76918828 -2.1351223 -1.28325438 -1.17691207 -0.9070273 -0.92114311 -1.37144518 -1.05090868 -1.00942171 -1.12824321 -0.94788575 -1.27639067 -1.39774501 -1.06832922 -1.03379047 -1.49880815 -1.23712206 -1.15053117 -1.34290957 -1.66009867 -0.92846054 -0.97625399 -0.77744013 -1.93288314 -1.11750412 -0.97511715 -0.74683744 -1.13343358 -1.20803583 -1.436432 -1.50354922 -1.00136673 -2.01420403 -1.2733649 -0.92629886 -1.29439116 -1.64390576 -1.23867738 -0.88478297 -0.85971212 -1.85386622 -1.53856933 -2.06025767 -1.88411045 -1.49906313 -1.32475007 -1.117347 -1.68465662 -0.69363773 -1.5894047 -1.97358358 -2.59916759 -1.35396743 -2.30461049 -0.99292755 -1.27674675 -0.86507457 -0.94777668 -1.35009873 -1.47957981 -0.66513908 -1.06404948 -1.06712294 -1.72618425 -1.63874471 -1.46202075 -0.89948207 -1.20573676 -1.24084079 -1.19317305 -0.93100727 -1.02617919 -0.76241934 -1.87542462 -1.03179228-1.45539415 -1.36384034 -0.96758604 -0.86005205 -0.80283695 -1.1137774 -1.53601909 -1.13732922 -1.12731791 -1.23490679 -1.33152759 -1.02586186 -1.44582832 -1.92057085 -1.30637109 -2.32667851 -1.57416546 -1.30796921 -0.70605123 -2.00818539 -1.46872818 -0.92903972 -1.57068658 -1.23099935 -1.05193675 -1.35168147 -0.52318192 -0.8894254 -1.69644272 -1.18933356 -1.11279356 -1.06844199 -1.36696768 -1.31789732 -1.63881576 -0.56565195 -0.52174371 -0.93638539 -2.07027268 -1.60358965 -1.22863901]

b_h ²：

-2.88706302643

W_h ²：

[-1.35359335 -0.578529 -0.13680433 0.17503858 -0.20488028 -0.54827738-0.2597248 -1.73813021 -1.02167261 0.09387285 -0.63083726 -0.40662372 -0.47041351 -0.32108155 0.11540248 -0.10392507 -0.27698821 0.03336413 -0.72273839 -0.53308272 -0.25452602 -0.68693435 -0.11388378 -1.02962244 -1.22807848 -0.56124699 -0.56379735 -0.18465492 0.14469336 -0.41948733 -1.01185989 -1.1557889 -0.70585167 -0.54171222 -0.14044708 -0.4110463 -0.90434784 -0.61688143 -0.99438584 -1.55196273 -0.94430661 -0.39086425 -0.99821037 0.33283517 -0.69542056 0.14739829 -0.47792649 0.27000278 -0.64110023 -1.90988696 -0.37607646 0.11039938 -0.7492047 -0.17413628 -1.15171742 -0.68284678 -0.06158932 -1.04064727 -0.7101987 -0.86431879 -0.67057228 -0.68295568 0.08244683 -0.86153275 -0.31266105 -0.21919173 -0.79513979 0.17517358 -0.29372135 -1.68132675 -0.6964252 -0.479926850.00768639 -0.3944906 -0.99549603 -1.29167581 -0.82665157 -0.661383750.14107071 -0.89010292 -0.49536058 -0.90695 -0.84300721 -0.85446638 -0.99457145 -0.84283727 -1.26285946 -0.7482127 -1.32341206 -0.14178833 -0.47957143 0.22300801 0.22044657 -0.07665028 0.19888243 -0.686866880.09093325 0.20991775 -0.47505447 -1.29607451 -0.79738855 -0.6163758 -0.25245398 -0.24964713 -0.70785236 -0.14511365 0.23526534 -1.37460887 -0.42035979 -0.76954895 0.01340491 -0.23353948 -1.45486987 -2.102533820.31412357 0.05441735 -1.16719246 -0.53678679 -1.21121192 0.36880198 -1.7501055 -1.08759594 -1.03163946 -0.87725466 -1.04990077 -0.23935798 -0.70022678 -0.30579087 -1.51719499 -0.05505106 -0.30621436 -0.37509263 -0.35138479 0.08471824 -0.30281609 -0.40951991 -0.88454992 0.045063550.12505099 -0.79208314 -0.98382056 -0.73998731 -0.68265402 -0.30925721 -0.30487028 -0.18522757 -0.51589108 -0.14071934 -0.58638161 -0.37126878 -0.36587363 -1.98553813 -0.52241606 -0.33231446 -1.05311215 -1.14458430.1126269 -0.18052928 -0.87758267 -1.06622291 -1.76154435 -0.16173303 -1.38007092 -0.67007738 -0.95604581 -0.71263856 0.04040499 -0.847063240.3145974 -0.89040732 -0.75084466 -2.24529719 -0.90706474 0.08718969 -2.26292086 -0.43557408 -0.16575792 -1.28786123 -0.76409894 -1.2387414 -1.00480986 -1.59728515 -1.76675069 -0.45098865 0.37770402 -2.14156651 0.17127-1.07672346 -0.63889885 -1.85108674 0.09201332 -0.64665085 -1.47701621 -0.27428123 0.11656716 -0.71997839 0.25774828 -0.65556616 -0.12599011 -1.19412673 0.05263189 -0.25015593 0.15155405 -0.71724749 -1.8973484 -0.01961765 -0.85265714 -0.54098094 -1.15418613 -0.55546618 -0.95463139 -1.48755825 -1.03432381 -0.82399344 -0.91085857 0.0421642 -0.55967122 -0.70061207 0.24029407 -0.97962326 -0.75661993 -0.6151405 -1.64357328 -1.16723275 -0.04848668 -0.62112832 -0.91200793 -0.5882951-0.500342070.01658128 -0.58651829 -0.12295453 -0.13033544 0.07790214 -0.678482 -0.62363708 0.08507859 -0.94984204 0.00797078 -1.03968978 0.01618595 -0.11407378 0.2762318 -0.7622599 -1.18186867 -0.71437931 0.25219718 -1.02577722 -0.3844451 -0.210338 -0.34110329 -1.00708425 -0.23432316 -0.29608929 0.1013524 -0.40958044]

XI.示例计算机

图14示出了用于实施图1和3中所示实体的示例计算机1400。计算机1400包括耦合至芯片组1404的至少一个处理器1402。芯片组1404包括内存控制器集线器1420和输入/输出(I/O)控制器集线器1422。内存1406和图形适配器1412耦合至内存控制器集线器1420，并且显示器1418耦合至图形适配器1412。存储装置1408、输入装置1414和网络适配器1416耦合至I/O控制器集线器1422。计算机1400的其它实施方案具有不同的架构。

存储装置1408是非暂时性计算机可读存储介质，如硬盘驱动器、致密光盘只读存储器(CD-ROM)、DVD或固态内存装置。内存1406保存处理器1402所使用的指令和数据。输入接口1414是触摸屏界面、鼠标、轨迹球或其它类型的指向装置、键盘或其某一组合，并且用于将数据输入计算机1400中。在一些实施方案中，计算机1400可以被配置成通过用户的示意动作从输入接口1414接收输入(例如命令)。图形适配器1412将图像和其它信息显示于显示器1418上。网络适配器1416将计算机1400耦合至一个或多个计算机网络。

计算机1400被调适成执行计算机程序模块以提供本文所述的功能。如本文所使用，术语“模块”是指用于提供指定功能的计算机程序逻辑。因此，模块可以在硬件、固件和/或软件中实施。在一个实施方案中，程序模块被存储于存储装置1408上，装载至内存1406中并由处理器1402执行。

图1的实体所使用的计算机1400的类型可以根据实施方案和实体所需的处理能力而变化。举例来说，呈递鉴别***160可以在单一计算机1400或在通过网络，如在服务器群中彼此通信的多台计算机1400中运行。计算机1400可以缺少以上描述的组件中的一些，如图形适配器1412和显示器1418。

参考文献

1.Desrichard，A.，Snyder，A.&Chan，T.A.Cancer Neoantigens andApplications for Immunotherapy.Clin.Cancer Res.Off.J.Am.Assoc.Cancer Res.(2015).doi：10.1158/1078-0432.CCR-14-3175

2.Schumacher，T.N.&Schreiber，R.D.Neoantigens in cancerimmunotherapy.Science 348，69-74(2015).

3.Gubin，M.M.，Artyomov，M.N.，Mardis，E.R.&Schreiber，R.D.Tumorneoantigens：building a framework for personalized cancerimmunotherapy.J.Clin.Invest.125，3413-3421(2015).

4.Rizvi，N.A.et al.Cancer immunology.Mutational landscape determinessensitivity to PD-1 blockade in non-small cell lung cancer.Science 348，124-128(2015).

5.Snyder，A.et al.Genetic basis for clinical response to CTLA-4blockade in melanoma.N.Engl.J.Med.371，2189-2199(2014).

6.Carreno，B.M.et al.Cancer immunotherapy.A dendritic cell vaccineincreases the breadth and diversity of melanoma neoantigen-specific Tcells.Science 348，803-808(2015).

7.Tran，E.et al.Cancer immunotherapy based on mutation-specific CD4+ Tcells in a patient with epithelial cancer.Science 344，641-645(2014).

8.Hacohen，N.&Wu，C.J.-Y.United States Patent Application：0110293637-COMPOSITIONS AND METHODS OF IDENTIFYING TUMOR SPECIFIC NEOANTIGENS.(A1).at<http：//appft1.uspto.gov/netacgi/nph-Parser？Sect1＝PTO1&Sect2＝HITOFF&d＝PG01&p＝1&u＝/netahtml/PTO/srchnum.html&r＝1&f＝G&l＝50&s1＝20110293637.PGNR.>

9.Lundegaard，C.，Hoof，I.，Lund，O.&Nielsen，M.State of the art andchallenges in sequence based T-cell epitope prediction.Immunome Res.6 Suppl2，S3(2010).

10.Yadav，M.et al.Predicting immunogenic tumour mutations by combiningmass spectrometry and exome sequencing.Nature 515，572-576(2014).

11.Bassani-Sternberg，M.，Pletscher-Frankild，S.，Jemsen，L.J.&Mann，M.Massspectrometry of human leukocyte antigen class I peptidomes reveals strongeffects of protein abundance and turnover on antigenpresentation.Mol.Cell.Proteomics MCP 14，658-673(2015).

12.Van Allen，E.M.et al.Genomic correlates of response to CTLA-4blockade in metastatic melanoma.Science 350，207-211(2015).

13.Yoshida，K.&Ogawa，S.Splicing factor mutations and cancer.WileyInterdiscip.Rev.RNA 5，445-459(2014).

14.Cancer Genome Atlas Research Network.Comprehensive molecularprofiling of lung adenocarcinoma.Nature 511，543-550(2014).

15.Rajasagi，M.et al.Systcmatic identification of personal tumor-specific neoantigens in chronic lymphocytic leukemia.Blood 124，453-462(2014).

16.Downing，S.R.et al.United States Patent Application：0120208706-OPTIMIZATION OF MULTIGENE ANALYSIS OF TUMOR SAMPLES.(A1).at<http：//appft1.uspto.gov/netacgi/nph-Parser？Sect1＝PTO1&Sect2＝HITOFF&d＝PG01&p＝1&u＝/netahtml/PTO/srchnum.html&r＝1&f＝G&l＝50&s1＝20120208706.PGNR.>

17.Target Capture for NextGen Sequencing-IDT.at<http：//www.idtdna.com/pages/products/nextgen/target-capture>

18.Shukla，S.A.et al.Comprehensive analysis of cancer-associatedsomatic mutations in class I HLA genes.Nat.Biotechnol.33，1152-1158(2015).

19.Cieslik，M.et al.The use of exome capture RNA-seq for highlydegraded RNA with application to clinical cancer sequencing.Genome Res.25，1372-1381(2015).

20.Bodini，M.et al.The hidden genomic landscape of acute myeloidleukemia：subclonal strueture revealed by undetected mutatiohs.Blood 125，600-605(2015).

21.Saunders，C.T.et al.Strelka：accurate somatic small-variant callingfrom sequenced tumor-normal sample pairs.Bioinforma.Oxf.Engl.28，1811-1817(2012).

22.Cibulskis，K.et al.Sensitive detection of somatic point mutationsin impure and heterogeneous cancer samples.Nat.Biotechnol.31，213-219(2013).

23.Wilkerson，M.D.et al.Integrated RNA and DNA sequencing improvesmutation detection in low purity tumors.Nucleic Acids Res.42，e107(2014).

24.Mose，L.E.，Wilkerson，M.D.，Hayes，D.N.，Perou，C.M.&Parker，J.S.ABRA：improved coding indel detection via assembly-basedrealignment.Bioinforma.Oxf.Engl.30，2813-2815(2014).

25.Ye，K.，Schulz，M.H.，Long，Q.，Apweiler，R.&Ning，Z.Pindel：a patterngrowth approach to detect break points of large deletions and medium sizedinsertions from paired-end short reads.Bioinforma.Oxf.Engl.25，2865-2871(2009).

26.Lam，H.Y.K.et al.Nucleotide-resolution analysis of structuralvariants using BreakSeq and a breakpoint library.Nat.Biotechnol.28，47-55(2010).

27.Frampton，G.M.et al.Development and validation of a clinical cancergenomic profiling test based on massively parallel DNAsequencing.Nat.Biotechnol.31，1023-1031(2013).

28.Baegel，S.et al.HLA typing from RNA-Seq sequence reads.GenomeMed.4，102(2012).

29.Liu，C.et al.ATHLATES：accurate typing of human leukocyte antigenthrough exome sequencing.Nucleic Acids Res.41，e142(2013).

30.Mayor，N.P.et al.HLA Typing for the Next Generation.PloS One 10，e0127153(2015).

31.Roy，C.K.，Olson，S.，Graveley，B.R.，Zamore，P.D.&Moore，M.J.Assessinglong-distance RNA sequence conneetivity via RNA-templated DNA-DNAligation.eLife 4，(2015).

32.Song，L.&Florea，L.CLASS：constrained transeript assembly of RNA-seqreads.BMC Bioinformatics 14 Suppl 5，S14(2013).

33.Maretty，L.，Sibbesen，J.A.&Krogh，A.Bayesian transcriptomeassembly.Genome Biol.15，501(2014).

34.Pertea，M.et al.StringTie enables improved reconstruction of atranscriptome from RNA-seq reads.Nat.Biotechnol.33，290-295(2015).

35.Roberts，A.，Pimentel，H.，Trapnell，C.&Pachter，L.Identification ofnovel transcripts in annotated genomes using RNA-Seq.Bioinforma.Oxf.Engl.(2011).doi：10.1093/bioinformatics/btr355

36.Vitting-Seerup，K.，Porse，B.T.，Sandelin，A.&Waage，J.spliceR：an Rpackage for classification of alternative splicing and prediction of codingpotential from RNA-seq data.BMC Bioinformatics 15，81(2014).

37.Rivas，M.A.et al.Human genomics.Efiect of predicted protein-truncating genetic variants on the human transeriptome.Science 348，666-669(2015).

38.Skelly，D.A.，Johansson，M.，Madeoy，J.，Wakefield，J.&Akey，J.M.Apowerful and flexible statistical framework for testing hypotheses of allele-specific gene expression from RNA-seq data.Genome Res.21，1728-1737(2011).

39.Anders，S.，Pyl，P.T.&Huber，W.HTSeq--a Python framework to work withhigh-throughput sequencing data.Bioinforma.Oxf.Engl.31，166-169(2015).

40.Furney，S.J.et al.SF3B1 mutations are associated with alternativesplicing in uveal melanoma.Cancer Discov.(2013).doi：10.1158/2159-8290.CD-13-0330

41.Zhou，Q.et al.A chemical genetics approach for the functionalassessment of novel cancer genes.Cancer Res.(2015).doi：10.1158/0008-5472.CAN-14-2930

42.Maguire，S.L.et al.SF3B1 mutations constitute a novel therapeutictarget in breast cancer.J.Pathol.235，571-580(2015).

43.Carithers，L.J.et al.A Novel Approach to High-Quality PostmortemTissue Procurement：The GTEx Project.Biopreservation Biobanking 13，311-319(2015).

44.Xu，G.et al.RNA CoMPASS：a dual approach for pathogen and hosttranscriptome analysis of RNA-seq datasets.PloS One 9，e89445(2014).

45.Andreatta，M.&Nielsen，M.Gapped sequence alignment using artificialneural networks：application to the MHC class I system.Bioinforma.Oxf.Engl.(2015).doi：10.1093/bioinformatics/btv639

46.K.W.，Rasmussen，M.，Buus，S.&Nielsen，M.NetMHCstab-predictingstability of peptide-MHC-I complexes；impacts for cytotoxic T lymphocyteepitope discovery.Immunology 141，18-26(2014).

47.Larsen，M.V.et al.An integrative approach to CTL epitopeprediction：a combined algorithm integrating MHC class I binding，TAP transportefficiency，and proteasomal cleavage predictions.Eur.J.Immunol.35，2295-2303(2005).

48.Nielsen，M.，Lundegaard，C.，Lund，O.&C.The role of theproteasome in generating cytotoxic T-cell epitopes：insights obtained fromimproved predictions of proteasomal cleavage.Immunogenetics 57，33-41(2005).

49.Boisvert，F.-M.et al.A Quantitative Spatial Proteomics Analysis ofProteome Turnover in Human Cells.Mol.Cell.Proteomics 11，M111.011429-M111.011429(2012).

50.Duan，F.et al.Genomic and bioinformatic profiling of mutationalneoepitopes reveals new rules to predict anticancerimmunogenicity.J.Exp.Med.211，2231-2248(2014).

51.Janeway’s Immunobiology：9780815345312：Medicine&Health [email protected]<http：//www.amazon.com/Janeways-Immunobiology-Kenneth-Murphy/dp/0815345313>

52.Calis，J.J.A.et al.Properties of MHC Class I Presented PeptidesThat Enhance Immunogenicity.PLoS Comput.Biol.9，e1003266(2013).

53.Zhang，J.et al.Intratumor heterogeneity in localized lungadenocarcinomas delineated by multiregion sequencing.Science 346，256-259(2014)

54.Walter，M.J.et al.Clonal architecture of secondary acute myeloidleukemia.N.Engl.J.Med.366，1090-1098(2012).

55.Hunt DF，Henderson RA，Shabanowitz J，Sakaguchi K，Michel H，Sevilir N，Cox AL，Appella E，Engelhard VH.Characterization of peptides bound to the classI MHC molecule HLA-A2.1 by mass spectrometry.Science 1992.255：1261-1263.

56.Zarling AL，Polefrone JM，Evans AM，Mikesh LM，Shabanowitz J，Lewis ST，Engelhard VH，Hunt DF.Identification of class I MHC-associated phosphopeptidesas targets for cancer immunotherapy._Proc Natl Acad Sci U S A.2006 Oct 3；103(40)：14889-94.

57.Bassani-Sternberg M，Pletscher-Frankild S，Jensen LJ，Mann M.Massspectrometry of human leukocyte antigen class I peptidomes reveals strongeffects of protein abundance and turnover on antigen presentation.Mol CellProteomics.2015 Mar；14(3)：658-73.doi：10.1074/mcp.M114.042812.

58.Abelin JG，Trantham PD，Penny SA，Patterson AM，Ward ST，Hildebrand WH，Cobbold M，Bai DL，Shabanowitz J，Hunt DF.Complementary IMAC enrichment methodsfor HLA-associated phosphopeptide identification by mass spectrometry.NatProtoc.2015 Sep；10(9)：1308-18.doi：10.1038/nprot.2015.086.Epub 2015 Aug 6

59.Barnstable CJ，Bodmer WF，Brown G，Galfre G，Milstein C，Williams AF，Ziegler A.Production of monoclonal antibodies to group A erythrocytes，HLA andother human cell surface antigens-new tools for genetic analysis.Cell.1978May；14(1)：9-20.

60.Goldman JM，Hibbin J，Kcarney L，Orchard K，Th′ng KH.HLA-DR monoclonalantibodies inhibit the proliferation of normal and chronic granulocyticleukaemia myeloid progenitor cells.Br J Haematol.1982 Nov；52(3)：411-20.

61.Eng JK，Jahan TA，Hoopmann MR.Comet：an open-source MS/MS sequencedatabase search tool.Proteomics.2013 Jan；13(1)：22-4.doi：10.1002/pmic.201200439.Epub 2012 Dec 4.

62.Eng JK，Hoopmann MR，Jahan TA，Egertson JD，Noble WS，MacCoss MJ.Adeeper look into Comet--implementation and features.J Am Soc MassSpectrom.2015 Nov；26(11)：1865-74.doi：10.1007/s13361-015-1179-x.Epub 2015 Jun27.

63.LukasJesse Canterbury，Jason Weston，William Stafford Noble andMichael J.MacCoss.Semi-supervised learning for peptide identification fromshotgun proteomics datasets.Nature Methods 4：923-925，November 2007

64.LukasJohn D.Storey，Michael J.MacCoss and William StaffordNoble.Assigning confidence measures to peptides identified by tandem massspectrometry.Journal of Proteome Research，7(1)：29-34，January 2008

65.LukasJohn D.Storey and William Stafford Noble.Nonparametricestimation of posterior error probabilities associated with peptidesidentified by tandem mass spectrometry.Bioinformatics，24(16)：i42-i48，August2008

66.Bo Li and Colin N.Dewey.RSEM：accurate transcript quantificationfrom RNA-Seq data with or without a referenfe genome.BMC Bioinformatics，12：323，August 2011

67.Hillary Pearson，Tariq Daouda，Diana Paola Granados，Chantal Durette，Eric Bonneil，Mathieu Courcelles，Anja Rodenbrock，Jean-Philippe Laverdure，CarolineSylvie Mader，Sébastien Lemieux，Pierre Thibault，and ClaudePerreault.MHC class I-associated peptides derive from selective regiohs ofthe human genome.The Journal of Clinical Investigation，2016，

68.Juliane Liepe，Fabio Marino，John Sidney，Anita Jeko，DanielE.Bunting，Alessandro Sette，Peter M.Kloetzel，Michael P.H.Stumpf，AlbertJ.R.Heck，Michele Mishto.A large fraction of HLA class I ligands areproteasome-generated spliced peptides.Science，21，October 2016.

Claims

1.一种用于鉴别来自受试者的肿瘤细胞中可能呈递于所述肿瘤细胞表面上的一种或多种新抗原的方法，包括以下步骤：

从所述受试者的肿瘤细胞获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一种，其中所述肿瘤核苷酸测序数据被用于获得代表新抗原集合中每一种新抗原的肽序列的数据，并且其中每一种新抗原的肽序列包含至少一个使其不同于相应野生型亲本肽序列的变化；

将每一种新抗原的肽序列输入一个或多个呈递模型中以产生所述新抗原各自被一个或多个MHC等位基因呈递于所述受试者的所述肿瘤细胞的所述肿瘤细胞表面上的数字可能性集合，所述数字可能性集合已被至少基于接收到的质谱数据进行鉴别；及

基于所述数字可能性集合，选择所述新抗原集合的子集，以产生选定的新抗原的集合。

2.根据权利要求1所述的方法，其中所述集合的选定的新抗原的数量是20个。

3.根据权利要求1至2中任一项所述的方法，其中所述呈递模型表示以下各项之间的依赖性：

所述MHC等位基因中一对特定等位基因和肽序列特定位置处特定氨基酸的存在；与

在所述肿瘤细胞表面上由所述对MHC等位基因中的特定等位基因呈递在所述位置处包含所述特定氨基酸的此类肽序列的可能性。

4.根据权利要求1至3中任一项所述的方法，其中输入所述肽序列包括：

将所述一个或多个呈递模型应用于相应新抗原的肽序列，以至少基于所述相应新抗原的肽序列的氨基酸位置生成所述一个或多个MHC等位基因各自的依赖性分数，所述依赖性分数指示所述MHC等位基因是否会呈递所述相应新抗原。

5.根据权利要求4所述的方法，其另外包括：

变换所述依赖性分数以得到每一MHC等位基因的相应独立等位基因可能性，由此指示相应MHC等位基因会呈递所述相应新抗原的可能性；及

将所述独立等位基因可能性组合以产生所述数字可能性。

6.根据权利要求5所述的方法，其中所述变换所述依赖性分数将所述相应新抗原的肽序列的呈递建模为相互排斥的。

7.根据权利要求4至6中任一项所述的方法，其另外包括：

变换所述依赖性分数的组合以产生所述数字可能性。

8.根据权利要求7所述的方法，其中所述变换所述依赖性分数的组合将所述相应新抗原的肽序列的呈递建模为在MHC等位基因之间存在干扰。

9.根据权利要求4至8中任一项所述的方法，其中数字可能性集合通过至少一个等位基因非相互作用特征进一步鉴别，并且另外包括：

将不与所述一个或多个呈递模型中的一个相互作用的等位基因应用于所述等位基因非相互作用特征，以产生所述等位基因非相互作用特征的依赖性分数，所述依赖性分数指示所述相应新抗原的肽序列是否将基于所述等位基因非相互作用特征而被呈递。

10.根据权利要求9所述的方法，其另外包括：

将所述一个或多个MHC等位基因中每个MHC等位基因的依赖性分数与所述等位基因非相互作用特征的依赖性分数组合；

变换每个MHC等位基因的所述组合的依赖性分数以产生所述MHC等位基因的相应独立等位基因可能性，由此指示所述相应MHC等位基因将呈递所述相应新抗原的可能性；及

将组合所述独立等位基因可能性以产生所述数字可能性。

11.根据权利要求9至10中任一项所述的方法，其另外包括：

变换所述MHC等位基因中每一个的所述依赖性分数与所述等位基因非相互作用特征的所述依赖性分数的组合以产生所述数字可能性。

12.根据权利要求1至11中任一项所述的方法，其中所述呈递模型的数字参数集合是基于训练数据集进行训练，所述训练数据集包括被鉴别为存在于多个样品中的至少一个训练肽序列集合以及与每一训练肽序列相关的一个或多个MHC等位基因，其中所述训练肽序列是通过对从来源于所述多个样品的MHC等位基因洗脱的分离的肽进行质谱法来鉴别。

13.根据权利要求12所述的方法，其中所述训练数据集还包括有关所述肿瘤细胞的mRNA表达水平的数据。

14.根据权利要求12至13中任一项所述的方法，其中所述样品包括被工程改造成表达单个I类或II类MHC等位基因的细胞系。

15.根据权利要求12至14中任一项所述的方法，其中所述样品包括被工程改造成表达多个I类或II类MHC等位基因的细胞系。

16.根据权利要求12至15中任一项所述的方法，其中所述样品包括从多个患者获得或得到的人细胞系。

17.根据权利要求12至16中任一项所述的方法，其中所述样品包括从多个患者获得的新鲜或冷冻的肿瘤样品。

18.根据权利要求12至17中任一项所述的方法，其中所述样品包括从多个患者获得的新鲜或冷冻的组织样品。

19.根据权利要求12至18中任一项所述的方法，其中所述样品包括使用T细胞测定鉴别的肽。

20.根据权利要求12至19中任一项所述的方法，其中所述训练数据集还包含与以下相关的数据：

所述样品中存在的训练肽集合的肽丰度；

所述样品中存在的训练肽集合的肽长度。

21.根据权利要求12至20中任一项所述的方法，其中所述训练数据集是通过经由比对，将训练肽序列的集合与包含已知蛋白质序列的集合的数据库相比较而产生，其中所述训练蛋白质序列的集合比所述训练肽序列长并且包括所述训练肽序列。

22.根据权利要求12至21中任一项所述的方法，其中所述训练数据集是基于对细胞系进行或已进行质谱法以获得来自所述细胞系的外显子组、转录组或全基因组测序数据中的至少一种而产生，所述肽测序数据包括至少一个含变化的蛋白质序列。

23.根据权利要求12至22中任一项所述的方法，其中所述训练数据集是基于获得来自正常组织样品的外显子组、转录组或全基因组正常核苷酸测序数据中的至少一种而产生。

24.根据权利要求12至23中任一项所述的方法，其中所述训练数据集还包含与所述样品相关的蛋白质组序列相关的数据。

25.根据权利要求12至24中任一项所述的方法，其中所述训练数据集还包含与所述样品相关的MHC肽组序列相关的数据。

26.根据权利要求12至25中任一项所述的方法，其中所述训练数据集还包含与所述分离的肽中的至少一个的肽-MHC结合亲和力测量值相关的数据。

27.根据权利要求12至26中任一项所述的方法，其中所述训练数据集还包含与所述分离的肽中的至少一个的肽-MHC结合稳定性测量值相关的数据。

28.根据权利要求12至27中任一项所述的方法，其中所述训练数据集还包含与所述样品相关的转录组相关的数据。

29.根据权利要求12至28中任一项所述的方法，其中所述训练数据集还包含与所述样品相关的基因组相关的数据。

30.根据权利要求12至29中任一项所述的方法，其中所述训练肽序列的长度在k-mer范围内，其中k在8-15之间(包括端点在内)。

31.根据权利要求12至30中任一项所述的方法，其另外包括使用独热编码方案编码所述肽序列。

32.根据权利要求31所述的方法，其还包括使用左填充独热编码方案编码所述训练肽序列。

33.一种治疗患有肿瘤的受试者的方法，其包括进行权利要求1至32所述的步骤中的任一个，并且还包括获得包含选定的新抗原的集合的肿瘤疫苗，及将所述肿瘤疫苗施用给所述受试者。

34.一种制造肿瘤疫苗的方法，其包括进行权利要求1至33所述的步骤中的任一个，并且还包括产生或已产生包含所述选定的新抗原的集合的肿瘤疫苗。

35.一种肿瘤疫苗，包含根据权利要求1至32中任一项所述的选定的新抗原的集合，所述新抗原的集合是通过进行根据权利要求1至32中任一项所述的方法进行选择。

36.根据权利要求35所述的疫苗，其中所述肿瘤疫苗包含核苷酸序列、多肽序列、RNA、DNA、细胞、质粒或载体中的一种或多种。

37.根据权利要求35至36中任一项所述的疫苗，其中所述肿瘤疫苗包含呈递于肿瘤细胞表面上的一种或多种新抗原。

38.根据权利要求35至37中任一项所述的疫苗，其中所述肿瘤疫苗包含在受试者体内具有免疫原性的一种或多种新抗原。

39.根据权利要求35至38中任一项所述的疫苗，其中所述肿瘤疫苗不包含诱导针对所述受试者体内正常组织的自体免疫反应的一种或多种新抗原。

40.根据权利要求35至39中任一项所述的疫苗，其中所述肿瘤疫苗还包含佐剂。

41.根据权利要求35至40中任一项所述的疫苗，其中所述肿瘤疫苗还包含赋形剂。

42.根据权利要求1至41中任一项所述的方法，其中选择所述选定的新抗原的集合包括基于所述呈递模型，选择在所述肿瘤细胞表面上呈递的可能性相对于未选择的新抗原有所增加的新抗原。

43.根据权利要求1至42中任一项所述的方法，其中选择所述选定的新抗原的集合包括基于所述呈递模型，选择能够在所述受试者体内诱导肿瘤特异性免疫反应的可能性相对于未选择的新抗原有所增加的新抗原。

44.根据权利要求1至43中任一项所述的方法，其中选择所述选定的新抗原的集合包括基于所述呈递模型，选择能够被专职抗原呈递细胞(APC)呈递至天然T细胞的可能性相对于未选择的新抗原有所增加的新抗原，任选地其中所述APC是树突状细胞(DC)。

45.根据权利要求1至44中任一项所述的方法，其中选择所述选定的新抗原的集合包括基于所述呈递模型，选择经历中枢或外周耐受性抑制的可能性相对于未选择的新抗原有所降低的新抗原。

46.根据权利要求1至45中任一项所述的方法，其中选择所述选定的新抗原的集合包括基于所述呈递模型，选择能够在所述受试者体内诱导针对正常组织的自体免疫反应的可能性相对于未选择的新抗原有所降低的新抗原。

47.根据权利要求1至46中任一项所述的方法，其中外显子组或转录组核苷酸测序数据是通过对所述肿瘤组织进行测序来获得。

48.根据权利要求1至47中任一项所述的方法，其中所述测序是下一代测序(NGS)或任何大规模平行测序方法。

49.根据权利要求1至48中任一项所述的方法，其中所述数字可能性集合通过至少MHC等位基因相互作用特征进一步鉴别，所述特征包括以下中的至少一种：

a.预测的所述MHC等位基因与所述新抗原编码肽结合的亲和力；

b.预测的所述新抗原编码肽-MHC复合物的稳定性；

c.所述新抗原编码肽的序列和长度；

d.如通过质谱蛋白质组学或其它手段所评估的在来自表达特定MHC等位基因的其他个体的细胞中呈递具有类似序列的新抗原编码肽的机率；

e.在相关受试者中所述特定MHC等位基因的表达水平(例如，如通过RNA-seq或质谱法测量)；

f.在表达所述特定MHC等位基因的其他不同受试者中不依赖于总体新抗原编码肽序列而由所述特定MHC等位基因呈递的机率；

g.在其他不同受试者中不依赖于总体新抗原编码肽序列而由同一家族分子(例如HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)中的MHC等位基因呈递的机率。

50.根据权利要求1至49中任一项所述的方法，其中所述数字可能性集合通过至少MHC等位基因非相互作用特征进一步鉴别，所述特征包括以下中的至少一种：

a.在其源蛋白质序列内侧接所述新抗原编码肽的C末端和N末端序列；

b.所述新抗原编码肽中蛋白酶裂解基元的存在，任选地根据所述肿瘤细胞中相应蛋白酶的表达(如通过RNA-seq或质谱法测量)进行加权；

c.如在适当细胞类型中测量的所述源蛋白的转换率；

d.如通过RNA-seq或蛋白质组质谱法所测量，或如根据在DNA或RNA序列数据中检测到的生殖系或体细胞剪接突变的注释所预测的所述源蛋白的长度，任选地考虑在所述肿瘤细胞中表达水平最高的特定剪接变体(“同功型”)；

e.所述肿瘤细胞中蛋白酶体、免疫蛋白酶体、胸腺蛋白酶体或其它蛋白酶的表达水平(可以通过RNA-seq、蛋白质组质谱法或免疫组织化学法测量)；

f.所述新抗原编码肽的源基因的表达(例如通过RNA-seq或质谱法测量)；

g.在细胞周期的各种阶段期间所述新抗原编码肽的源基因的典型组织特异性表达；

h.所述源蛋白和/或其结构域的综合特征目录，如例如可见于uniProt或PDB http://www.rcsb.org/pdb/home/home.do；

i.描述含有所述肽的源蛋白的结构域的特性的特征，例如：二级或三级结构(例如α螺旋对比β折叠)；选择性剪接；

j.在其他不同受试者中来自相关新抗原编码肽的源蛋白的肽的呈递机率；

k.由于技术偏差而无法通过质谱法检测到或过量表示所述肽的机率；

l.通过RNASeq测量(无需含有所述肽的源蛋白)的提供有关所述肿瘤细胞、基质或肿瘤浸润淋巴细胞(TIL)状态的信息的各种基因模块/路径的表达；

m.所述肿瘤细胞中所述新抗原编码肽的源基因的拷贝数；

n.所述肽结合至所述TAP的机率或所述肽与所述TAP的结合亲和力的测量值或预测值；

o.所述肿瘤细胞中TAP的表达水平(可以通过RNA-seq、蛋白质组质谱法、免疫组织化学法测量)；

p.肿瘤突变的存在或不存在，所述肿瘤突变包括但不限于：

ii.编码抗原呈递机器中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体的组分的任何基因)中的突变；呈递依赖于肿瘤中经历功能丧失性突变的抗原呈递机器组分的肽具有降低的呈递机率；

q.功能性生殖系多态性的存在或不存在，包括但不限于：

i.编码抗原呈递机器中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体的组分的任何基因)中功能性生殖系多态性

r.肿瘤类型(例如NSCLC、黑素瘤)；

s.临床肿瘤亚型(例如鳞状肺癌对比非鳞状肺癌)；

t.吸烟史；

u.在相关肿瘤类型或临床亚型中所述肽的源基因的典型表达，任选地通过驱动基因突变进行分层。

51.根据权利要求1至50中任一项所述的方法，其中所述至少一个突变是移码或非移码***缺失、错义或无义取代、剪接位点变化、基因组重排或基因融合，或产生neoORF的任何基因组或表达变化。

52.根据权利要求1至51中任一项所述的方法，其中所述肿瘤细胞选自由以下组成的组：肺癌、黑素瘤、乳癌、卵巢癌、***癌、肾癌、胃癌、结肠癌、睾丸癌、头颈癌、胰腺癌、脑癌、B细胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病和T细胞淋巴细胞性白血病、非小细胞肺癌和小细胞肺癌。

53.根据权利要求1至52中任一项所述的方法，其另外包括获得包含所述选定的新抗原的集合或其子集的肿瘤疫苗，任选地还包括将所述肿瘤疫苗施用给所述受试者。

54.根据权利要求1至53中任一项所述的方法，其中当呈多肽形式时，所述选定的新抗原的集合中的至少一种新抗原包含以下至少一项：以低于1000nM的IC50值的与MHC的结合亲和力；对于1类MHC多肽，长度是8-15个，即8、9、10、11、12、13、14或15个氨基酸；在亲本蛋白质序列中所述多肽内或附近促进蛋白酶体裂解的序列基元的存在；及促进TAP转运的序列基元的存在。

55.一种产生用于鉴别可能在肿瘤细胞的肿瘤细胞表面上呈递的一种或多种新抗原的模型的方法，包括执行以下步骤：

接收质谱数据，所述质谱数据包括与从来源于多个样品的主要组织相容性复合物(MHC)洗脱的多个分离的肽相关的数据；

通过至少鉴别所述样品中存在的训练肽序列的集合和与各训练肽序列相关的一个或多个MHC来获得训练数据集；

使用包含所述训练肽序列的所述训练数据集来训练呈递模型的数字参数集合，所述呈递模型提供来自所述肿瘤细胞的肽序列被一个或多个MHC等位基因呈递于所述肿瘤细胞表面上的多个数字可能性。

56.根据权利要求55所述的方法，其中所述呈递模型表示以下两者之间的依赖性：

在肽序列的特定位置处特定氨基酸的存在；与

在所述肿瘤细胞上由所述MHC等位基因中的一个呈递在所述特定位置处含有所述特定氨基酸的肽序列的可能性。

57.根据权利要求55至56中任一项所述的方法，其中所述样品包括被工程改造成表达单个I类或II类MHC等位基因的细胞系。

58.根据权利要求55至57中任一项所述的方法，其中所述样品包括被工程改造成表达多个I类或II类MHC等位基因的细胞系。

59.根据权利要求55至58中任一项所述的方法，其中所述样品包括从多个患者获得或得到的人细胞系。

60.根据权利要求55至59中任一项所述的方法，其中所述样品包括从多个患者获得的新鲜或冷冻的肿瘤样品。

61.根据权利要求55至60中任一项所述的方法，其中所述样品包括使用T细胞测定鉴别的肽。

62.根据权利要求55至61中任一项所述的方法，其中所述训练数据集还包括与以下相关的数据：

所述样品中存在的训练肽集合的肽丰度；

所述样品中存在的训练肽集合的肽长度。

63.根据权利要求55至62中任一项所述的方法，其中获得所述训练数据集包括：

基于所述训练肽序列，通过经由比对将所述训练肽序列集合与包含已知蛋白质序列的集合的数据库相比较来获得训练蛋白质序列的集合，其中所述训练蛋白质序列的集合比所述训练肽序列长并且包括所述训练肽序列。

64.根据权利要求55至63中任一项所述的方法，其中获得所述训练数据集包括：

对细胞系进行或已进行质谱法以从所述细胞系获得外显子组、转录组或全基因组核苷酸测序数据中的至少一种，所述核苷酸测序数据包括至少一个含突变的蛋白质序列。

65.根据权利要求55至64中任一项所述的方法，其中训练所述呈递模型的参数集合包括：

使用独热编码方案编码所述训练肽序列。

66.根据权利要求55至65中任一项所述的方法，其另外包括：

由正常组织样品获得外显子组、转录组及全基因组正常核苷酸测序数据中的至少一种；及

使用所述正常核苷酸测序数据训练所述呈递模型的参数集合。

67.根据权利要求55至66中任一项所述的方法，其中所述训练数据集还包含与所述样品相关的蛋白质组序列相关的数据。

68.根据权利要求55至67中任一项所述的方法，其中所述训练数据集还包含与所述样品相关的MHC肽组序列相关的数据。

69.根据权利要求55至68中任一项所述的方法，其中所述训练数据集还包含与所述分离的肽中的至少一个的肽-MHC结合亲和力测量值相关的数据。

70.根据权利要求55至69中任一项所述的方法，其中所述训练数据集还包含与所述分离的肽中的至少一个的肽-MHC结合稳定性测量值相关的数据。

71.根据权利要求55至70中任一项所述的方法，其中所述训练数据集还包含与所述样品相关的转录组相关的数据。

72.根据权利要求55至71中任一项所述的方法，其中所述训练数据集还包含与所述样品相关的基因组相关的数据。

73.根据权利要求55至72中任一项所述的方法，其中训练所述数字参数集合还包括：

对所述参数集合进行逻辑回归。

74.根据权利要求55至73中任一项所述的方法，其中所述训练肽序列的长度在k-mer范围内，其中k在8-15之间(包括端点在内)。

75.根据权利要求55至74中任一项所述的方法，其中训练所述呈递模型的数字参数集合包括：

使用左填充独热编码方案编码所述训练肽序列。

76.根据权利要求55至75中任一项所述的方法，其中训练所述数字参数集合还包括：

使用深度学习算法确定所述参数集合的值。

77.一种产生用于鉴别可能在肿瘤细胞的肿瘤细胞表面上呈递的一种或多种新抗原的模型的方法，其包括执行以下步骤：

接收质谱数据，所述质谱数据包括与从来源于多个新鲜或冷冻肿瘤样品的主要组织相容性复合物(MHC)洗脱的多个分离的肽相关的数据；

通过至少鉴别存在于所述样品中且被呈递于一个或多个与各训练肽序列相关的MHC等位基因上训练肽序列集合来获得训练数据集；

基于所述训练肽序列，获得训练蛋白质序列集合；及

使用所述训练蛋白质序列和所述训练肽序列来训练呈递模型的数字参数集合，所述呈递模型提供来自所述肿瘤细胞的肽序列被一个或多个MHC等位基因呈递于所述肿瘤细胞表面上的多个数字可能性。

78.根据权利要求77所述的方法，其中所述呈递模型表示以下两者之间的依赖性：