TW202000693A - 利用泛對偶基因(pan-allele)模型之新抗原鑑別 - Google Patents

利用泛對偶基因(pan-allele)模型之新抗原鑑別 Download PDF

Info

Publication number
TW202000693A
TW202000693A TW108106921A TW108106921A TW202000693A TW 202000693 A TW202000693 A TW 202000693A TW 108106921 A TW108106921 A TW 108106921A TW 108106921 A TW108106921 A TW 108106921A TW 202000693 A TW202000693 A TW 202000693A
Authority
TW
Taiwan
Prior art keywords
mhc
peptide
dual gene
gene
dual
Prior art date
Application number
TW108106921A
Other languages
English (en)
Inventor
湯瑪士 法蘭西斯 布雪
蘇利文 布萊登 布理克
珍妮佛 巴斯比
莫伊卡 斯科博恩
羅門 葉嫩史基
Original Assignee
美商葛利史東腫瘤科技公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商葛利史東腫瘤科技公司 filed Critical 美商葛利史東腫瘤科技公司
Publication of TW202000693A publication Critical patent/TW202000693A/zh

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B30/00Methods of screening libraries
    • C40B30/04Methods of screening libraries by measuring the ability to specifically bind a target molecule, e.g. antibody-antigen binding, receptor-ligand binding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/435Assays involving biological materials from specific organisms or of a specific nature from animals; from humans
    • G01N2333/705Assays involving receptors, cell surface antigens or cell surface determinants
    • G01N2333/70503Immunoglobulin superfamily, e.g. VCAMs, PECAM, LFA-3
    • G01N2333/70539MHC-molecules, e.g. HLA-molecules
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Zoology (AREA)
  • Urology & Nephrology (AREA)
  • Microbiology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Hematology (AREA)
  • Cell Biology (AREA)

Abstract

本發明提供一種鑑別新抗原之方法,該等新抗原可藉由受試者之腫瘤細胞表面上之MHC對偶基因呈遞。該等腫瘤新抗原及MHC對偶基因之肽序列藉由將該受試者之腫瘤細胞定序來獲得。將該等腫瘤新抗原及MHC對偶基因之肽序列輸入至機器學習呈遞模型以產生腫瘤新抗原之呈遞可能性,各呈遞可能性表示新抗原由該受試者之腫瘤細胞表面上之MHC對偶基因中之至少一者呈遞的可能性。基於該等呈遞可能性選擇新抗原之子集。

Description

利用泛對偶基因(PAN-ALLELE)模型之新抗原鑑別
基於腫瘤特異性新抗原之治療性疫苗及T-細胞療法作為下一代個人化癌症免疫療法有極大前景。1–3 具有高突變負擔之癌症(諸如非小細胞肺癌(NSCLC)及黑色素瘤)為此種療法之特別有吸引力靶,考慮到新抗原產生之相對更大可能性。4,5 早期證據顯示基於新抗原之疫苗接種可引起T-細胞反應6 及靶向新抗原之T-細胞療法可在經選定患者之某些情況下造成腫瘤消退。7 MHC I類及MHC II類均對T-細胞反應有影響70-71
然而,新抗原及識別新抗原之T-細胞之鑑別已變成評估腫瘤反應77,110 、檢查腫瘤進化111 及設計下一代個人化療法112 之中心挑戰。目前新抗原鑑別技術係費時且費力84,96 或不夠精確87,91–93 。雖然最近已證明識別新抗原之T-細胞為TIL之主要組分84,96,113,114 且於癌症患者之外周血中循環107 ,目前鑑別新抗原反應性T-細胞之方法具有下列三個限制之一些組合:(1)其依賴於難以獲得之臨床樣品,諸如TIL97,98 或白血球採集物(leukaphereses)107 (2)其要求不實用地篩選大的肽庫95 或(3)其依賴於MHC多聚體,該等多聚體可對僅少量MHC對偶基因實際上可得。
此外,已提出使用下一代定序、RNA基因表現及候選新抗原肽之MHC結合親和力之預測併入基於突變之分析的初始方法8 。然而,此等提出之方法可無法建模完整抗原決定基產生過程,該過程除了基因表現及MHC結合外尚包含許多步驟(例如,TAP轉運、蛋白酶體裂解、MHC結合、肽-MHC複合體至細胞表面之轉運、及/或對MHC-I之TCR識別;內吞或自噬、經由細胞外或溶酶體蛋白酶(例如,組織蛋白酶)之裂解、與CLIP肽競爭HLA-DM催化之HLA結合、肽-MHC複合體至細胞表面之轉運及/或對MHC-II之TCR識別)9 。因此,現有方法可遭受降低之低陽性預測值(PPV)。(圖1A)
的確,藉由多組進行之藉由腫瘤細胞呈遞之肽之分析已顯示,使用基因表現及MHC結合親和力預測為待呈遞之肽之<5%可在腫瘤表面MHC上發現10,11 (圖1B)。結合預測與MHC呈遞之間之此低相關性進一步藉由以下最近觀察結果得以加強:缺少單獨結合限制性新抗原對於多個突變中之檢查點抑制劑反應之預測精確度提高12
用於預測呈遞之現有方法之此低陽性預測值(PPV)提出關於基於新抗原之疫苗設計及基於新抗原之T-細胞療法之問題。若使用具有低PPV之預測設計疫苗,則大多數患者不可接受治療性新抗原及較少數仍可接受一個以上(即使假設所有呈遞肽係免疫原性)。類似地,若基於具有低PPV之預測設計治療性T-細胞,則大多數患者不可接受對腫瘤新抗原具反應性之T-細胞及使用下游實驗室技術後預測鑑別預測性新抗原之時間及物理資源成本可係過高。因此,利用目前方法之新抗原疫苗接種及T-細胞療法於患有腫瘤之大量受試者中不可能成功。(圖1C)
此外,先前方法僅使用順式作用突變產生候選新抗原,及很大程度上忽略考慮neo-ORF之額外來源,包括剪接因子之突變(其於多個腫瘤類型中發生且導致許多基因之異常剪接13 )及產生或移除蛋白酶裂解位點之突變。
最後,腫瘤基因組及轉錄組分析之標準方法可錯失產生候選新抗原之體細胞突變,這歸因於庫構建、外顯子組及轉錄組捕獲、定序或資料分析之次優條件。同樣,標準腫瘤分析方法可無意地促進序列偽影或生殖系多態性作為新抗原,其分別導致無效使用疫苗容量或自體免疫風險。
本文中揭示一種鑑別及選擇用於個人化癌症疫苗、用於T細胞療法或二者之新抗原之最佳化方法。首先,解決使用下一代定序(NGS)最佳化用於新抗原候選鑑別之腫瘤外顯子組及轉錄組分析方法。此等方法建立在NGS腫瘤分析之標準方法上以確保最高敏感性及特異性新抗原候選跨所有類別之基因組改變增加。其次,提出高-PPV新抗原選擇之新穎方法以克服特異性問題並確保針對疫苗納入增加之新抗原及/或作為T細胞療法之靶之新抗原更可能引起抗腫瘤免疫。取決於實施例,此等方法包括訓練統計回歸或非線性深度學習模型,該模型經配置以基於泛對偶基因預測跨不同長度之肽共用統計強度之多個長度之肽之呈遞。該模型能預測肽將藉由任何MHC對偶基因(包括該模型在訓練期間先前尚未遇到之未知MHC對偶基因)呈遞之概率。特定言之,可設計及訓練該等非線性深度學習模型以將相同細胞中之不同MHC對偶基因處理為獨立,從而解決利用線性模型其將彼此干擾之問題。最後,解決針對基於新抗原之個人化疫苗設計及製造及針對用於T細胞療法之個人化新抗原特異性T細胞之產生的額外考慮。
本文中所揭示之模型勝過在結合親和力上訓練之申請專利當時之技術水平之預測因子及基於MS肽資料之早期預測因子高達一個數量級。藉由更可靠地預測肽之呈遞,該模型使能使用臨床實務方法更時間有效且成本有效鑑別用於個人化療法之新抗原特異性或腫瘤抗原特異性T細胞,該臨床實務方法使用有限體積之患者外周血,每例患者篩選幾個肽且不必要地依賴MHC多聚體。然而,於另一實施例中,可使用本文中所揭示之模型以使能使用MHC多聚體藉由減少結合至MHC多聚體之肽之數目更時間有效且成本有效鑑別腫瘤抗原特異性T細胞,為鑑別新抗原特異性T細胞或腫瘤抗原特異性T細胞需篩選該等MHC多聚體。
本文中所揭示之模型對TIL新抗原決定基資料集及預期新抗原反應性T細胞鑑別任務之預測性能證明,現在可藉由建模HLA處理及呈遞獲得治療上可用之新抗原決定基預測。總之,此工作提供用於靶向抗原之免疫療法之實用電腦模擬抗原鑑別,從而加速治癒患者之進展。
I. 定義
一般而言,意欲將本申請專利範圍及本說明書中所用之術語解釋為具有由一般技術者所理解之普通含義。以下定義某些術語以提供額外清晰。在普通含義與所提供定義之間衝突之情況下,將使用所提供定義。
如本文中所用,術語「抗原」為誘導免疫反應之物質。
如本文中所用,術語「新抗原」為具有至少一種改變之抗原,該改變使其有別於對應野生型、親本抗原,例如經由腫瘤細胞中之突變或對腫瘤細胞特異性之轉譯後修飾。新抗原可包含多肽序列或核苷酸序列。突變可包括框移或非框移***或缺失、錯義或無義取代、剪接位點改變、基因組重排或基因融合或產生neoORF之任何基因組或表現改變。突變亦可包括剪接變異體。對腫瘤細胞特異性之轉譯後修飾可包括異常磷酸化。對腫瘤細胞特異性之轉譯後修飾亦可包括產生蛋白酶體之剪接抗原。參見Liepe等人,A large fraction of HLA class I ligands are proteasome-generated spliced peptides; Science. 2016年10月21日;354(6310):354-358。
如本文中所用,術語「腫瘤新抗原」為存在於受試者之腫瘤細胞或組織中但非存在於受試者之對應正常細胞或組織中之新抗原。
如本文中所用,術語「基於新抗原之疫苗」為基於一或多個新抗原(例如,複數個新抗原)之疫苗構築體。
如本文中所用,術語「候選新抗原」為產生可表示新抗原之新序列之突變或其他畸變。
如本文中所用,術語「編碼區」為編碼蛋白質之基因之部分。
如本文中所用,術語「編碼突變」為發生於編碼區中之突變。
如本文中所用,術語「ORF」意指開放閱讀框。
如本文中所用,術語「NEO-ORF」為自突變或其他畸變(諸如剪接)產生之腫瘤特異性ORF。
如本文中所用,術語「錯義突變」為造成自一個胺基酸至另一個胺基酸之取代之突變。
如本文中所用,術語「無義突變」為造成自胺基酸至終止密碼子之取代之突變。
如本文中所用,術語「框移突變」為造成蛋白質框架之改變之突變。
如本文中所用,術語「***或缺失」為一或多個核酸之***或缺失。
如本文中所用,於兩個或更多個核酸或多肽序列之上下文中,術語「同一性」百分比係指當針對最大對應度比較及比對時,具有相同核苷酸或胺基酸殘基之特定百分比之兩個或更多個序列或子序列,如使用下述序列比較演算法(例如,BLASTP及BLASTN或對熟習者可得之其他演算法)中之一者或藉由目視檢查所量測。取決於應用,「同一性」百分比可於正比較之序列之區域上,例如,在功能域上存在,或,或者存在於待比較之兩個序列之全長上存在。
針對序列比較,通常一個序列充當比較測試序列之參考序列。當使用序列比較演算法時,將測試序列及參考序列輸入至電腦中,若必要,則指定子序列座標,及指定序列演算法程式參數。然後基於所指定之程式參數,該序列比較演算法計算測試序列相對於參考序列之序列同一性百分比。或者,可藉由特定核苷酸之組合之存在或不存在或針對轉譯序列,在選定序列位置處之胺基酸(例如,序列模體)建立序列相似性或不同。
可(例如)藉由Smith及Waterman, Adv. Appl. Math. 2:482 (1981)之局部同源演算法,藉由Needleman及Wunsch, J. Mol. Biol. 48:443 (1970)之同源比對演算法,藉由Pearson及Lipman, Proc. Nat'l. Acad. Sci. USA 85:2444 (1988)之對相似方法之搜索,藉由此等演算法之電腦化實施(GAP, BESTFIT, FASTA, and TFASTA in the Wisconsin Genetics Software Package, Genetics Computer Group, 575 Science Dr., Madison, Wis.)或藉由目視檢查(一般參見Ausubel等人,在下)來進行序列之最佳比對用於比較。
適用於測定序列同一性百分比及序列相似性之演算法之一實例為BLAST演算法,其述於Altschul等人,J. Mol. Biol. 215:403-410 (1990)中。用於進行BLAST分析之軟體係通過國家生物技術資訊中心(National Center for Biotechnology Information)公開可得。
如本文中所用,術語「不終止或通讀」為造成自然終止密碼子之移除之突變。
如本文中所用,術語「抗原決定基」為通常藉由抗體或T細胞受體結合之抗原之特定部分。
如本文中所用,術語「免疫原性」為(例如)經由T細胞、B細胞或二者引起免疫反應之能力。
如本文中所用,術語「HLA結合親和力」「MHC結合親和力」意指特異性抗原與特異性MHC對偶基因之間之結合親和力。
如本文中所用,術語「誘餌」為用於濃化來自樣品之DNA或RNA之特異性序列的核酸探針。
如本文中所用,術語「變異體」為受試者之核酸與作為對照使用之參考人類基因組之間之差異。
如本文中所用,術語「變異體調用」為通常自定序演算法測定變異體之存在。
如本文中所用,術語「多態性」為生殖系變異體,即,於個體之所有含DNA細胞中發現之變異體。
如本文中所用,術語「體細胞變異體」為於個體之非生殖系細胞中產生之變異體。
如本文中所用,術語「對偶基因」為基因版本或基因序列版本或蛋白質版本。
如本文中所用,術語「HLA類型」為HLA基因對偶基因之補充。
如本文中所用,術語「無義介導之衰變」或「NMD」為mRNA藉由細胞之降解,由於早熟終止密碼子。
如本文中所用,術語「軀幹突變」為源於腫瘤早期發展之突變且存在於腫瘤細胞之大部分。
如本文中所用,術語「次選殖突變」為源於腫瘤晚期發展之突變且僅存在於腫瘤細胞之子集中。
如本文中所用,術語「外顯子組」為編碼蛋白質之基因組之子集。外顯子組可為基因組之集體外顯子。
如本文中所用,術語「邏輯回歸」為來自統計學之二進位資料之回歸模型,其中將因變數等於一者之概率之分數對數建模為因變數之線性函數。
如本文中所用,術語「神經網路」為用於分類或回歸之機器學習模型,其由線性轉換,接著通常經由隨機梯度下降及反向傳播訓練之要素方式非線性之多層組成。
如本文中所用,術語「蛋白質組」為藉由細胞、細胞組或個體表現及/或轉譯之所有蛋白質之集合。
如本文中所用,術語「肽組」為藉由細胞表面上之MHC-I或MHC-II呈遞之所有肽之集合。肽組可係指細胞或細胞集合之性質(例如,腫瘤肽組意指包含腫瘤之所有細胞之肽組之聯合)。
如本文中所用,術語「ELISPOT」意指酶聯免疫吸附墨點檢定–其為監測人類及動物中之免疫反應之常見方法。
如本文中所用,術語「dextramer」為用於流式細胞計中之抗原特異性T-細胞染色之基於右旋糖苷之肽-MHC多聚體。
如本文中所用,術語「MHC多聚體」為包含多個肽-MHC單體單元之肽-MHC複合體。
如本文中所用,術語「MHC四聚體」為包含四個肽-MHC單體單元之肽-MHC複合體。
如本文中所用,術語「耐受或免疫耐受」為對一或多個抗原(例如,自體抗原)之免疫非反應性之狀態。
如本文中所用,術語「中心耐受」為於胸腺中藉由缺失自體反應性T細胞純系或藉由促進自體反應性T細胞純系分化成免疫抑制調節T細胞(Treg)影響之耐受。
如本文中所用,術語「外周耐受」為於外周中藉由下調中心耐受存活之自體反應性T細胞或使該等自體反應性T細胞無應答或促進此等T細胞分化成Treg影響之耐受。
術語「樣品」可包括藉助包括以下之取自受試者之單一細胞或多個細胞或細胞片段或等分試樣之體液:靜脈穿刺、***、射出、按摩、活組織檢查、針吸、灌洗樣品、刮、手術切口或介入或此項技術中已知之其他方法。
術語「受試者」涵蓋細胞、組織或生物體、人類或非人類,無論是否於活體內、離體或於活體外、雄性或雌性。術語受試者包括哺乳動物(包括人類)。
術語「哺乳動物」涵蓋人類及非人類二者且包括(但不限於)人類、非人類靈長類動物、犬科動物、貓科動物、鼠科動物、牛科動物、馬科動物及豬科動物。
術語「臨床因素」係指受試者之病狀(例如,疾病活性或嚴重度)之量度。「臨床因素」涵蓋受試者之健康狀態之所有標誌物(包括非樣品標誌物)及/或受試者之其他特徵,諸如(不限於)年齡及性別。臨床因素可為可自受試者或確定病狀下之受試者之樣品(或樣品群體)之評價獲得的分數、值或值集。臨床因素亦可藉由標誌物及/或其他參數(諸如基因表現替代物)預測。臨床因素可包括腫瘤類型、腫瘤子型及吸煙史。
縮略語:MHC:主要組織相容性複合體;HLA:人類白血球抗原或人類MHC基因座;NGS:下一代定序;PPV:陽性預測值;TSNA:腫瘤特異性新抗原;FFPE:經福馬林固定,經石蠟包埋;NMD:無義介導之衰變;NSCLC:非小細胞肺癌;DC:樹突狀細胞。
應注意,如本說明書及隨附申請專利範圍中所用,除非上下文中另有明確指示,否則單數形式「一」、「一個」及「該」包括複數指代物。
應瞭解,本文中未直接定義之任何術語具有通常與如本發明之技術內所理解之其相關的含義。本文中討論某些術語以於描述本發明態樣之組合物、裝置、方法及類似者及如何製備或使用其方面對從業者提供額外指導。應瞭解可以超過一種方式陳述相同事情。因此,替代語言及同義詞可用於本文中所討論之術語中之任一者或多者。無論本文中是否詳細闡述或討論術語,無任何意義。提供一些同義詞或可替代方法、材料及類似者。除非明確指定,否則一或幾個同義詞或等效物之詳述不排除其他同義詞或等效物之使用。本文中使用實例(包括術語之實例)僅係用於說明目的且不限制本發明之態樣之範圍及含義。
出於所有目的,本說明書主體內所引用之所有參考文獻、發行之專利及專利申請案之全文以引用的方式併入本文中。II. 鑑別新抗原之方法
本文中揭示鑑別來自受試者之一或多個腫瘤細胞之至少一個新抗原的方法,該至少一個新抗原可在該等腫瘤細胞之表面上藉由一或多個MHC對偶基因呈遞。該方法包括自受試者之腫瘤細胞以及正常細胞獲得外顯子組、轉錄組及/或全基因組核苷酸定序資料。使用此核苷酸定序資料獲得一新抗原集中之各新抗原之肽序列。藉由比較來自腫瘤細胞之核苷酸定序資料與來自正常細胞之核苷酸定序資料鑑別該新抗原集。具體而言,該新抗原集中之各新抗原之肽序列包括使其有別於自受試者之正常細胞鑑別之對應野生型肽序列的至少一個改變。該方法還包括將該新抗原集中之各新抗原之肽序列編碼至對應數值向量中。各數值向量包含描述組成該肽序列之胺基酸及該肽序列中之胺基酸之位置的資訊。該方法還包括自受試者之腫瘤細胞獲得外顯子組、轉錄組及/或全基因組核苷酸定序資料。使用此核苷酸定序資料獲得受試者之一或多個MHC對偶基因各者之肽序列。將該受試者之一或多個MHC對偶基因各者之肽序列編碼為對應數值向量。各數值向量包含資訊,該資訊描述組成該MHC對偶基因之肽序列之胺基酸及該MHC對偶基因之肽序列中之胺基酸之位置。該方法還包括將編碼新抗原各者之肽序列之數值向量及編碼一或多個MHC對偶基因各者之肽序列之數值向量輸入至機器學習呈遞模型中以產生該新抗原集中之各新抗原之呈遞可能性。各呈遞可能性表示對應新抗原藉由受試者之腫瘤細胞表面上之一或多個MHC對偶基因呈遞的可能性。該機器學習呈遞模型包含複數個參數及函數。基於訓練資料集鑑別該等複數個參數。該訓練資料集包括針對複數個樣品中之各樣品,藉由質譜法獲得之標記,該質譜法量測結合至經鑑別為於該樣品中呈遞之MHC對偶基因集中之至少一個MHC對偶基因之肽的存在;編碼為數值向量之訓練肽序列,該等數值向量包括描述組成該等肽之胺基酸及該等肽中之胺基酸之位置的資訊;及編碼為數值向量之訓練肽序列,該等數值向量包含描述組成結合至該樣品之該等肽之至少一個MHC對偶基因之胺基酸及MHC對偶基因肽中之胺基酸之位置的資訊。該函數表示作為輸入藉由機器學習呈遞模型接收之數值向量與作為輸出藉由機器學習呈遞模型基於數值向量及複數個參數產生之呈遞可能性之間的關係。該方法還包括基於呈遞可能性選擇該新抗原集之子集以產生經選定之新抗原集及返回該經選定之新抗原集。
於一些實施例中,將編碼新抗原各者之肽序列之數值向量及編碼一或多個MHC對偶基因各者之肽序列之數值向量輸入至機器學習呈遞模型中包括將該機器學習呈遞模型應用於該新抗原之肽序列及該一或多個MHC對偶基因之肽序列以產生該一或多個MHC對偶基因各者之相依性分數。MHC對偶基因之相依性分數基於肽序列之特定位置處之特定胺基酸,指示MHC對偶基因是否將呈遞新抗原。於另外實施例中,將編碼新抗原各者之肽序列之數值向量及編碼一或多個MHC對偶基因各者之肽序列之數值向量輸入至機器學習呈遞模型中還包括轉換該等相依性分數以產生各MHC對偶基因之對應按對偶基因可能性,該按對偶基因可能性指示對應MHC對偶基因將呈遞對應新抗原之可能性,及將該等按對偶基因可能性組合以產生新抗原之呈遞可能性。於一些實施例中,轉換相依性分數將新抗原之呈遞建模為跨一或多個MHC對偶基因之互相排斥。於替代實施例中,將編碼新抗原各者之肽序列之數值向量及編碼一或多個MHC對偶基因各者之肽序列之數值向量輸入至機器學習呈遞模型中還包括轉換相依性分數之組合以產生呈遞可能性。於此等實施例中,轉換相依性分數之組合將新抗原之呈遞建模為一或多個MHC對偶基因之間之干涉。
於一些實施例中,該呈遞可能性集進一步藉由一或多個對偶基因非相互作用特徵鑑別。於此等實施例中,該方法還包括將該機器學習呈遞模型應用於對偶基因非相互作用特徵以產生對偶基因非相互作用特徵之相依性分數。該相依性分數指示對應新抗原之肽序列是否將基於對偶基因非相互作用特徵呈遞。於一些實施例中,該方法還包括將一或多個MHC對偶基因之各MHC對偶基因之相依性分數與對偶基因非相互作用特徵之相依性分數組合,轉換各MHC對偶基因之組合之相依性分數以產生各MHC對偶基因之按對偶基因可能性,及組合該等按對偶基因可能性以產生呈遞可能性。MHC對偶基因之該按對偶基因可能性指示MHC對偶基因將呈遞對應新抗原之可能性。於替代實施例中,該方法還包括將MHC對偶基因各者之相依性分數與對偶基因非相互作用特徵之相依性分數組合,及轉換該等組合之相依性分數以產生呈遞可能性。
於一些實施例中,該一或多個MHC對偶基因包括兩個或更多個不同MHC對偶基因。
於一些實施例中,該等肽序列包括具有除了9個胺基酸外之長度之肽序列。
於一些實施例中,編碼肽序列包括使用獨熱編碼方案編碼肽序列。
於一些實施例中,複數個樣品包括以下中之至少一者:經工程改造以表現單個MHC對偶基因之細胞株、經工程改造以表現複數個MHC對偶基因之細胞株、獲自或源自複數例患者之人類細胞株、獲自複數例患者之新鮮或冷凍腫瘤樣品及獲自複數例患者之新鮮或冷凍組織樣品。
於一些實施例中,該訓練資料集還包括與該等肽中之至少一者之肽-MHC結合親和力測量值相關之資料及與該等肽中之至少一者之肽-MHC結合穩定性測量值相關之資料中之至少一者。
於一些實施例中,該呈遞可能性集進一步藉由受試者中之一或多個MHC對偶基因之表現水平(如藉由RNA-seq或質譜法所量測)鑑別。
於一些實施例中,該呈遞可能性集進一步藉由包括該新抗原集中之新抗原與一或多個MHC對偶基因之間之預測親和力及新抗原編碼之肽-MHC複合體之預測穩定性中之至少一者的特徵鑑別。
於一些實施例中,該數值可能性集進一步藉由包括其源蛋白序列內側接新抗原編碼之肽序列之C-端序列及其源蛋白序列內側接新抗原編碼之肽序列之N-端序列中之至少一者的特徵鑑別。
於一些實施例中,選擇該經選定之新抗原集包括基於機器學習呈遞模型選擇相對於未經選定之新抗原具有在腫瘤細胞表面呈遞之增加之可能性的新抗原。
於一些實施例中,選擇該經選定之新抗原集包括基於機器學習呈遞模型選擇相對於未經選定之新抗原具有能誘導受試者之腫瘤特異性免疫反應之增加之可能性的新抗原。
於一些實施例中,選擇該經選定之新抗原集包括基於該呈遞模型選擇相對於未經選定之新抗原具有能藉由專業抗原呈遞細胞(APC)呈遞至初始T細胞之增加之可能性的新抗原。於此等實施例中,視情況該APC為樹突狀細胞(DC)。
於一些實施例中,選擇該經選定之新抗原集包括基於機器學習呈遞模型選擇相對於未經選定之新抗原具有經由中心或外周耐受經受抑制之降低之可能性的新抗原。
於一些實施例中,選擇該經選定之新抗原集包括基於機器學習呈遞模型選擇相對於未經選定之新抗原具有能誘導受試者之正常組織之自體免疫反應之降低之可能性的新抗原。
於一些實施例中,該一或多個腫瘤細胞係選自由以下組成之群:肺癌、黑色素瘤、乳癌、卵巢癌、***癌、腎癌、胃癌、結腸癌、睾丸癌、頭頸癌、胰癌、腦癌、B細胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴球性白血病及T細胞淋巴球性白血病、非小細胞肺癌及小細胞肺癌。
於一些實施例中,該方法還包括產生用於自該經選定之新抗原集構建個人化癌症疫苗之輸出。於此等實施例中,用於個人化癌症疫苗之輸出可包括編碼該經選定之新抗原集之至少一個肽序列或至少一個核苷酸序列。
於一些實施例中,該機器學習呈遞模型為神經網路模型。於此等實施例中,該神經網路模型可為包含於一或多個層中排列之一系列節點之單個神經網路模型。該單個神經網路模型可經配置以接收編碼多個不同MHC對偶基因之肽序列之數值向量。於此等實施例中,該神經網路模型可藉由更新該神經網路模型之參數來訓練。於一些實施例中,該機器學習呈遞模型可為包含一或多個節點層之深度學習模型。
於一些實施例中,訓練肽序列不包括受試者之MHC對偶基因之肽序列,該訓練肽序列編碼為包含關於組成結合至該樣品之該等肽之至少一個MHC對偶基因之複數個胺基酸及至少一個MHC對偶基因中之胺基酸之位置集之資訊之數值向量,該肽序列經輸入至機器學習呈遞模型以產生該新抗原集之該呈遞可能性集。
於本文中所揭示之某些態樣中,結合至訓練資料集之複數個樣品之各樣品之肽的至少一個MHC對偶基因屬於受試者之一或多個MHC對偶基因所屬之基因家族。
於一些實施例中,結合至訓練資料集之複數個樣品之各樣品之肽的至少一個MHC對偶基因包括一個MHC對偶基因。於替代實施例中,結合至訓練資料集之複數個樣品之各樣品之肽的至少一個MHC對偶基因包括一個以上MHC對偶基因。
於一些實施例中,該一或多個MHC對偶基因為I類MHC對偶基因。
本文中亦揭示電腦系統,該電腦系統包括電腦處理器及存儲電腦程式指令之記憶體,當該等電腦程式指令藉由電腦處理器執行時,該等指令造成電腦處理器執行上述方法之一實施例。III. 鑑別新抗原之腫瘤特異性突變
本文中亦揭示鑑別某些突變(例如,癌細胞中呈遞之變異體或對偶基因)之方法。特定言之,此等突變可於患有癌症之受試者之癌細胞之基因組、轉錄組、蛋白質組或外顯子組中呈遞,但是不於該受試者之正常組織中呈遞。
若腫瘤中之基因突變導致腫瘤中之專門蛋白質之胺基酸序列之變化,則可認為其可用於腫瘤之免疫靶向。可用突變包括:(1)導致蛋白質中之不同胺基酸之非同義突變;(2)通讀突變,其中終止密碼子經修飾或缺失,導致具有C-端處之新穎腫瘤特異性序列之更長蛋白質之轉譯;(3) 剪接位點突變,其導致納入內含子於成熟mRNA中及因此獨特腫瘤特異性蛋白質序列;(4) 染色體重排,其產生具有2種蛋白質連接處之腫瘤特異性序列之嵌合蛋白 (即,基因融合);(5) 框移突變或缺失,其導致具有新穎腫瘤特異性蛋白質序列之新穎開放閱讀框。突變亦可包括下列中之一或多者:非框移***或缺失、錯義或無義取代、剪接位點改變、基因組重排或基因融合或產生neoORF之任何基因組或表現改變。
產生於(例如)腫瘤細胞中之剪接位點突變、框移突變、通讀突變或基因融合突變之具有突變之肽或突變多肽可藉由將相對於正常細胞之腫瘤中之DNA、RNA或蛋白質定序來鑑別。
突變亦可包括經先前鑑別之腫瘤特異性突變。已知腫瘤突變可見於癌症中之體細胞突變目錄(Catalogue of Somatic Mutations in Cancer,COSMIC)資料庫。
各種方法可用於檢測個體之DNA或RNA中之特定突變或對偶基因之存在。此領域之進展已提供精確、容易且便宜的大規模SNP基因分型。例如,已描述若干技術,包括動態對偶基因特異性雜交(DASH)、微板陣列對角凝膠電泳(MADGE)、焦磷酸定序、寡核苷酸特異性連接、TaqMan系統以及各種DNA「晶片」技術,諸如Affymetrix SNP晶片。此等方法利用目標基因區之擴增,通常藉由PCR。仍其他方法,基於藉由侵入性切割,接著質譜法或固定掛鎖探針及滾環擴增之小信號分子之產生。以下概述檢測特異性突變之技術中已知之方法中之若干。
基於PCR之檢測意指可包括複數個標誌物之同時多重擴增。例如,選擇PCR引子以產生大小不重疊且可經同時分析之PCR產物係此項技術中熟知。或者,可利用經差別標示及因此各者可經差別檢測之引子擴增不同標誌物。當然,基於雜交之檢測意指允許樣品中之多個PCR產物之差別檢測。其他技術係此項技術中已知以允許複數個標誌物之多重分析。
已開發若干方法以促進基因組DNA或細胞RNA中之單個核苷酸多態性之分析。例如,單鹼基多態性可藉由使用專用抗核酸外切酶核苷酸檢測,如(例如)於Mundy, C. R. (美國專利案第4,656,127號)中所揭示。根據該方法,允許與立即至多態位點之對偶基因序列3'互補之引子與獲自特定動物或人類之靶分子雜交。若靶分子上之多態位點含有與存在之特定抗核酸外切酶核苷酸衍生物互補之核苷酸,則將該衍生物併入至雜交引子之末端。此併入致使引子抗核酸外切酶,及從而允許其檢測。因為樣品之抗核酸外切酶衍生物之同一性係已知,所以引子已變得抗核酸外切酶之發現揭示存在於靶分子之多態位點中之核苷酸與反應中使用之核苷酸衍生物之特徵互補。此方法具有不需要測定大量外來序列資料之優點。
基於溶液之方法可用於測定多態位點之核苷酸之同一性。Cohen, D.等人(法國專利2,650,840;PCT申請案第WO91/02087號)。如於美國專利案第4,656,127號之Mundy方法中,採用與立即至多態位點之對偶基因序列3'互補之引子。該方法使用經標記二去氧核苷酸衍生物測定該位點之核苷酸之同一性,若該等衍生物與多態位點之核苷酸互補,則將其併入引子之末端。藉由Goelet, P.等人(PCT申請案第92/15712號)描述被稱為Genetic Bit分析或GBA之替代方法。Goelet, P.等人之方法使用經標記終止子及引子之混合物,該引子與至多態位點之序列3'互補。因此藉由存在於正在評價之靶分子之多態位點中之核苷酸及與該核苷酸互補測定併入之的經標記終止子。與Cohen等人(法國專利2,650,840;PCT申請案第WO91/02087號)之方法相反,Goelet, P.等人之方法可為非均相檢定,其中將引子或靶分子固定於固相中。
已描述用於檢定DNA中之多態位點之若干引子導引之核苷酸併入程序(Komher, J. S.等人,Nucl. Acids. Res. 17:7779-7784 (1989);Sokolov, B. P., Nucl. Acids Res. 18:3671 (1990);Syvanen, A.-C.等人,Genomics 8:684-692 (1990);Kuppuswamy, M. N.等人,Proc. Natl. Acad. Sci. (U.S.A.) 88:1143-1147 (1991);Prezant, T. R.等人,Hum. Mutat. 1:159-164 (1992);Ugozzoli, L.等人,GATA 9:107-112 (1992);Nyren, P.等人,Anal. Biochem. 208:171-175 (1993))。此等方法不同於GBA,因為其利用經標記去氧核苷酸之併入來區分多態位點上之鹼基。以此形式,因為信號與併入之去氧核苷酸之數目成比率,所以發生於相同核苷酸之運行中之多態性可導致與該運行之長度成比率之信號(Syvanen, A.-C.等人,Amer. J. Hum. Genet. 52:46-59 (1993))。
許多措施直接自數百萬DNA或RNA之個別分子並行獲得序列資訊。藉由合成技術之即時單分子定序依賴螢光核苷酸之檢測,因為其經併入與正在定序之模板互補之DNA新生股。於一方法中,將長度為30至50個鹼基之寡核苷酸在5'端處共價錨定至玻璃蓋片。此等錨定股進行兩種功能。首先,若利用與表面結合寡核苷酸互補之捕獲尾配置模板,則其充當目標模板股之捕獲位元點。其亦充當用於形成序列閱讀之基礎之模板導向之引子延伸的引子。捕獲引子作為序列測定之固定位置位點起作用,該序列測定使用染料-連接子之合成、檢測及化學裂解之多個循環以移除染料。各循環由以下組成:添加聚合酶/經標記核苷酸混合物、將染料沖洗、成像及切割。於替代方法中,將聚合酶用螢光供體分子修飾及固定在載玻片上,同時將各核苷酸用連接至γ-磷酸鹽之受體螢光部分進行顏色編碼。當核苷酸重新併入鏈中時,系統檢測螢光標記之聚合酶與螢光修飾之核苷酸之間之相互作用。其他合成定序技術亦存在。
可使用任何適宜合成定序平臺鑑別突變。如上所述,四個主要合成定序平臺係目前可得:來自Roche/454 Life Sciences之基因組定序儀、來自Illumina/Solexa之1G分析儀、來自Applied BioSystems之SOLiD系統及來自Helicos Biosciences之Heliscope系統。亦已藉由Pacific BioSciences及VisiGen Biotechnologies描述合成定序平臺。於一些實施例中,使正在定序之複數個核酸分子結合至擔體(例如,固體擔體)。為將核酸固定在擔體上,可在模板之3'及/或5'端添加捕獲序列/通用引發位點。核酸可藉由使捕獲序列與共價連接至擔體之互補序列雜交結合至擔體。捕獲序列(亦稱作通用捕獲序列)為與連接至可雙重充當通用引子之擔體之序列互補之核酸序列。
作為捕獲序列之替代,可將偶合對(諸如,例如,抗體/抗原、受體/配位體或抗生物素蛋白(avidin)-生物素對,如於(例如)美國專利申請案第2006/0252077號中所述)之一員連接至各片段以待在塗覆有該偶合對之各自第二成員之表面上捕獲。
於捕獲後,可(例如)藉由(例如)如於實例中及於美國專利案第7,283,337號中所述之單分子檢測/定序(包括模板依賴性合成定序)分析該序列。於合成定序中,在聚合酶之存在下,將表面結合分子暴露於複數個經標記核苷酸三磷酸。藉由併入生長鏈之3'端之經標記核苷酸之順序測定模板之序列。此可即時完成或可以分步重複模式完成。針對即時分析,可併入各核苷酸之不同光學標記且可利用多鐳射來刺激併入之核苷酸。
定序亦可包括其他大規模並行定序或下一代定序(NGS)技術及平臺。大規模並行定序技術及平臺之額外實例為Illumina HiSeq或MiSeq、Thermo PGM或Proton、Pac Bio RS II或Sequel、Qiagen’s Gene Reader及Oxford Nanopore MinION。可使用額外類似目前大規模並行定序技術以及此等技術之後代。
可利用任何細胞類型或組織獲得於本文中所述方法中使用之核酸樣品。例如,DNA或RNA樣品可獲自腫瘤或體液(例如,藉由已知技術(例如,靜脈穿刺)獲得之血液或唾液)。或者,可在乾樣品(例如,毛髮或皮膚)上進行核酸測試。此外,可自腫瘤獲得樣品用於定序及可自正常組織獲得另一樣品用於定序,其中該正常組織為與該腫瘤相同之組織類型。可自腫瘤獲得樣品用於定序及可自正常組織獲得另一樣品用於定序,其中該正常組織為相對於該腫瘤之不同組織類型。
腫瘤可包括下列中之一或多者:肺癌、黑色素瘤、乳癌、卵巢癌、***癌、腎癌、胃癌、結腸癌、睾丸癌、頭頸癌、胰癌、腦癌、B細胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴球性白血病及T細胞淋巴球性白血病、非小細胞肺癌及小細胞肺癌。
或者,可使用蛋白質質譜法鑑別或驗證結合至腫瘤細胞上之MHC蛋白之突變肽的存在。肽可自腫瘤細胞或自腫瘤免疫沉澱之HLA分子酸溶離,及然後使用質譜法鑑別。IV. 新抗原
新抗原可包括核苷酸或多肽。例如,新抗原可為編碼多肽序列之RNA序列。因此可用於疫苗之新抗原可包含核苷酸序列或多肽序列。
本文中揭示包含藉由本文中所揭示方法鑑別之腫瘤特異性突變之單離肽、包含已知腫瘤特異性突變之肽及藉由本文中所揭示方法鑑別之突變體多肽或其片段。新抗原肽可述於其編碼序列之上下文中,其中新抗原包含編碼相關多肽序列之核苷酸序列(例如,DNA或RNA)。
藉由新抗原核苷酸序列編碼之一或多個多肽可包括以下中之至少一者:以小於1000 nM之IC50 值與MHC之結合親和力,針對8至15、8、9、10、11、12、13、14或15個胺基酸長度之MHC I類肽,肽內或附近存在促進蛋白酶體裂解之序列模體之及存在促進TAP轉運之序列模體。針對6至30、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30個胺基酸長度之MHC II類肽,該肽內或附近存在促進藉由細胞外或溶酶體蛋白酶(例如,組織蛋白酶)之裂解或HLA-DM催化之HLA結合之序列模體。
一或多個新抗原可在腫瘤之表面上呈遞。
一或多個新抗原於患有腫瘤之受試者中可係免疫原性,例如,能引起受試者之T細胞反應或B細胞反應。
誘導受試者之自體免疫反應之一或多個新抗原可自針對患有腫瘤之受試者之疫苗產生背景中考慮排除。
至少一個新抗原肽分子之尺寸可包括(但不限於)約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約20、約21、約22、約23、約24、約25、約26、約27、約28、約29、約30、約31、約32、約33、約34、約35、約36、約37、約38、約39、約40、約41、約42、約43、約44、約45、約46、約47、約48、約49、約50、約60、約70、約80、約90、約100、約110、約120或更多個胺基分子殘基,及其中可衍生之任何範圍。於特定實施例中,新抗原肽分子係等於或小於50個胺基酸。
新抗原肽及多肽可為:針對MHC I類,長度為15個殘基或更少及通常由約8與約11個殘基之間(特定言之,9或10個殘基)組成;針對MHC II類,6至30個殘基(包含端值)。
若所需,則可以若干方式設計更長肽。於一種情況下,當HLA對偶基因上之肽之呈遞可能性經預測或已知時,更長肽可由以下中之任一者組成:(1)具有2至5個胺基酸朝向各對應基因產物之N端及C端擴展之個別呈遞肽;(2)具有針對各者之擴展序列之呈遞肽中之一些或所有的濃度。於另一種情況下,當定序揭示腫瘤中存在長的(>10個殘基)新抗原決定模體列(例如,由於導致新穎肽序列之框移、通讀或內含子納入)時,更長肽將由以下組成:(3)新穎腫瘤特異性胺基酸之全拉伸——因此繞過最強呈遞HLA之較短肽之計算選擇或基於活體外測試之選擇的需要。於兩種情況下,更長肽之使用允許藉由患者-細胞之內源處理及可導致更有效抗原呈遞及T細胞反應之誘導。
新抗原肽及多肽可在HLA蛋白上呈遞。於一些態樣中,新抗原肽及多肽在具有較野生型肽更大親和力之HLA蛋白上呈遞。於一些態樣中,新抗原肽或多肽可具有以下之IC50:至少小於5000 nM、至少小於1000 nM、至少小於500 nM、至少小於250 nM、至少小於200 nM、至少小於150 nM、至少小於100 nM、至少小於50 nM或更少。
於一些態樣中,當投與給受試者時,新抗原肽及多肽不誘導自體免疫反應及/或調用免疫耐受。
亦提供包含至少兩種或更多種新抗原肽之組合物。於一些實施例中,該組合物含有至少兩種不同肽。至少兩種不同肽可衍生自相同多肽。不同多肽意指肽因長度、胺基酸序列或二者變化。該等肽衍生自已知或已發現含有腫瘤特異性突變之任何多肽。可衍生新抗原肽之適宜多肽可見於(例如) COSMIC資料庫中。COSMIC管理人類癌症中之體細胞突變之綜合資訊。該肽含有腫瘤特異性突變。於一些態樣中,該腫瘤特異性突變為針對特定癌症類型之驅動子突變。
可修飾具有所需活性或性質之新抗原肽及多肽以提供某些所需屬性(例如,改善之藥理學特性),同時增加或至少實質上保留未經修飾之肽之所有生物活性以結合期望MHC分子並激活適宜T細胞。例如,新抗原肽及多肽可經受各種變化,諸如取代(保守或非保守),其中此等變化可提供其使用之某些優點,諸如改善之MHC結合、穩定性或呈遞。保守取代意指用生物上及/或化學上相似之另一個胺基酸殘基置換胺基酸殘基,例如,將一個疏水性殘基置換成另一個,或將一個極性殘基置換成另一個。該等取代包括諸如以下之組合:Gly、Ala;Val、Ile、Leu、Met;Asp、Glu;Asn、Gln;Ser、Thr;Lys、Arg;及Phe、Tyr。亦可使用D-胺基酸探測單胺基酸取代之效應。可使用如於(例如) Merrifield, Science 232:341-347 (1986), Barany及Merrifield,The Peptides, Gross及Meienhofer編輯(N.Y., Academic Press),第1至284頁(1979)及Stewart及Young,Solid Phase Peptide Synthesis, (Rockford, Ill., Pierce),第二版(1984)中所述之熟知肽合成程序作出此等修飾。
肽及多肽利用各種胺基酸類似物或非天然胺基酸之修飾可特定言之可用於增加活體內肽及多肽之穩定性。可以許多方法檢定穩定性。例如,已使用肽酶及各種生物培養基(諸如人類血漿及血清)測試穩定性。參見,例如,Verhoef等人,Eur. J. Drug Metab Pharmacokin. 11:291-302 (1986)。可使用25%人類血清(v/v)檢定方便地測定肽之半衰期。方案一般係如下。在使用之前藉由離心破壞混合人類血清(AB型,非熱滅活)。然後將該血清用RPMI組織培養基稀釋至25%並用於測試肽穩定性。在預定時間間隔移除少量反應溶液並添加至6%三氟乙酸水溶液或乙醇中。將混濁反應樣品冷卻(4℃) 15分鐘及然後旋轉以使沉澱血清蛋白成小球。然後藉由逆相HPLC使用穩定性特定層析條件測定肽之存在。
可修飾肽及多肽以提供除了改善之血清半衰期外之所需屬性。例如,肽誘導CTL活性之能力可藉由連接至序列而增強,該序列含有能誘導T輔助細胞反應之至少一個抗原決定基。免疫原肽/T輔助偶聯物可藉由間隔子分子連接。間隔子通常包括相對小的中性分子(諸如胺基酸或胺基酸類似物),其在生理條件下實質上不帶電。間隔子通常選自(例如) Ala、Gly或非極性胺基酸或中極性胺基酸之其他中性間隔子。應瞭解視情況存在之間隔子不需要包含相同殘基及因此可為異寡聚物或同寡聚物。當存在時,間隔子通常將為至少一或兩個殘基,更通常三至六個殘基。或者,可在無間隔子之情況下將該肽連接至T輔助肽。
可將新抗原肽直接或經由肽之胺基或羧基末端處之間隔子連接至T輔助肽。可將新抗原肽或T輔助肽之胺基末端醯化。示例性T輔助肽包括破傷風類毒素830-843、流行性感冒307-319、瘧疾環子孢子382-398及378-389。
可藉由熟習此項技術者已知之任何技術製備蛋白質或肽,該技術包括蛋白質、多肽或肽通過標準分子生物技術之表現、蛋白質或肽自天然來源之單離或蛋白質或肽之化學合成。對應於各種基因之核苷酸及蛋白質、多肽及肽序列先前已經揭示且可見於一般技術者已知之電腦化資料庫。一個此資料庫為位於國立衛生研究院(National Institutes of Health)網站上之National Center for Biotechnology Information's Genbank and GenPept資料庫。可使用本文中所揭示或如為一般技術者已知之技術擴增及/或表現已知基因之編碼區。或者,蛋白質、多肽及肽之各種商業製劑為一般技術者已知。
於另一態樣中,新抗原包括編碼新抗原肽或其部分之核酸(例如,多核苷酸)。多核苷酸可為(例如) DNA、cDNA、PNA、CNA、RNA (例如,mRNA)、單股及/或雙股或初始或穩定形式之多核苷酸(諸如,例如,具有硫代磷酸酯主鏈之多核苷酸)或其組合且其可含有或可不含有內含子。仍另一態樣提供能表現多肽或其部分之表現載體。不同細胞類型之表現載體係此項技術中熟知且可在無不當實驗之情況下選擇。一般而言,以用於表現之正確方向及正確閱讀框將DNA***表現載體(諸如質體)中。若需要,則可將DNA連接至藉由期望宿主識別之適宜轉錄及轉譯調節對照核苷酸序列,雖然此等對照物一般於表現載體中可得。然後將該載體通過標準技術引入該宿主中。指導可見於(例如) Sambrook等人,(1989) Molecular Cloning, A Laboratory Manual, Cold Spring Harbor Laboratory, Cold Spring Harbor, N.Y中。IV. 疫苗組合物
本文中亦揭示一種能引起特異性免疫反應(例如,腫瘤特異性免疫反應)之免疫原組合物(例如,疫苗組合物)。疫苗組合物通常包含複數個新抗原,例如,使用本文中所述方法選擇之新抗原。亦可將疫苗組合物稱作疫苗。
疫苗可含有1與30個之間的肽,2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30個不同肽,6、7、8、9、10、11、12、13或14個不同肽,或12、13或14個不同肽。肽可包括轉譯後修飾。疫苗可含有1與100個之間或更多個核苷酸序列,2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100或更多個不同核苷酸序列,6、7、8、9、10、11、12、13或14個不同核苷酸序列,或12、13或14個不同核苷酸序列。疫苗可含有1與30個之間的新抗原序列,2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100或更多個不同新抗原序列,6、7、8、9、10、11、12、13或14個不同新抗原序列,或12、13或14個不同新抗原序列。
於一實施例中,選擇編碼其之不同肽及/或多肽或核苷酸序列使得該等肽及/或多肽能與不同MHC分子(諸如不同MHC I類分子及/或不同MHC II類分子)締合。於一些態樣中,一種疫苗組合物包含能與最頻繁出現之MHC I類分子及/或MHC II類分子締合之肽及/或多肽之編碼序列。因此,疫苗組合物可包含能與至少2個較佳、至少3個較佳或至少4個較佳MHC I類分子及/或MHC II類分子締合之不同片段。
疫苗組合物可能引起特異性細胞毒性T細胞反應及/或特異性輔助T細胞反應。
疫苗組合物還可包含佐劑及/或載體。下文中給定可用佐劑及載體之實例。組合物可與諸如(例如)蛋白質或抗原呈遞細胞(諸如例如,能呈遞肽至T細胞之樹突狀細胞(DC))之載體締合。
佐劑為進入疫苗組合物之其摻合物增加或以其他方式修飾對新抗原之免疫反應的任何物質。載體可為支架結構(例如,多肽或多醣),其能締合新抗原。視情況,共價或非共價偶聯佐劑。
佐劑增加對抗原之免疫反應之能力通常藉由免疫介導反應之顯著或實質增加或疾病症狀之減少而顯現。例如,體液免疫之增加通常藉由提高至抗原之抗體效價之顯著增加而顯現,及T細胞活性之增加通常於增加之細胞增生或細胞毒性或細胞介素分泌中顯現。佐劑亦可(例如)藉由將主要體液或Th反應改變為主要細胞或Th反應來改變免疫反應。
適宜佐劑包括(但不限於) 1018 ISS、明礬、鋁鹽、Amplivax、AS15、BCG、CP-870,893、CpG7909、CyaA、dSLIM、GM-CSF、IC30、IC31、咪喹莫特(Imiquimod)、ImuFact IMP321、IS Patch、ISS、ISCOMATRIX、JuvImmune、LipoVac、MF59、單磷醯脂質A、Montanide IMS 1312、Montanide ISA 206、Montanide ISA 50V、Montanide ISA-51、OK-432、OM-174、OM-197-MP-EC、ONTAK、PepTel載體系統、PLG微粒子、瑞喹莫德(resiquimod)、SRL172、病毒小體及其他類病毒粒子、YF-17D、VEGF阱、R848、β-葡聚糖、Pam3Cys、衍生自皂角苷之Aquila's QS21促病毒素(Aquila Biotech, Worcester, Mass., USA)、分枝桿菌(mycobacterial)提取物及合成細菌細胞壁類似物及其他專有佐劑(諸如Ribi's Detox. Quil或Superfos)。諸如不完全弗氏(Freund's)或GM-CSF之佐劑係可用。先前已描述特定用於樹突狀細胞及其製備之若干免疫學佐劑(例如,MF59) (Dupuis M等人,Cell Immunol. 1998; 186(1):18-27;Allison A C; Dev Biol Stand. 1998; 92:3-11)。亦可使用細胞介素。已直接連接若干細胞介素以影響樹突狀細胞遷移至淋巴組織(例如,TNF-α),加速樹突狀細胞成熟為T淋巴球之有效抗原呈遞細胞(例如,GM-CSF、IL-1及IL-4) (美國專利案第5,849,589號,其全文明確地以引用的方式併入本文中)及充當免疫佐劑(例如,IL-12) (Gabrilovich D I等人,J Immunother Emphasis Tumor Immunol. 1996 (6):414-418)。
亦已報導CpG免疫刺激寡核苷酸以增強佐劑於疫苗設置中之作用。亦可使用其他TLR結合分子(諸如結合RNA之TLR 7、TLR 8及/或TLR 9)。
可用佐劑之其他實例包括(但不限於)經化學修飾之CpG (例如,CpR、Idera)、Poly(I:C)(例如,polyi:CI2U)、非CpG細菌DNA或RNA以及免疫活性小分子及抗體(諸如環磷醯胺、舒尼替尼(sunitinib)、貝伐單抗(bevacizumab)、西樂葆(celebrex)、NCX-4016、西地那非(sildenafil)、他達拉非(tadalafil)、伐地那非(vardenafil)、索拉非尼(sorafinib)、XL-999、CP-547632、帕唑帕尼(pazopanib)、ZD2171、AZD2171、易普利單抗(ipilimumab)、曲美目單抗(tremelimumab)及SC58175),其可治療上起作用及/或作為佐劑。可藉由熟習技工在無不當實驗之情況下容易地確定佐劑及添加劑之量及濃度。額外佐劑包括群落刺激因子,諸如顆粒球巨噬細胞群落刺激因子(Granulocyte Macrophage Colony Stimulating Factor) (GM-CSF,沙莫司亭(sargramostim))。
疫苗組合物可包含一種以上不同佐劑。此外,治療組合物可包含任何佐劑物質(包括以上中之任一者或其組合)。亦期望可一起或以任何適宜順序分開投與疫苗及佐劑。
載體(或賦形劑)可獨立於佐劑存在。載體之功能可(例如)為增加特定突變體之分子量以增加活性或免疫原性,賦予穩定性,增加生物活性或增加血清半衰期。此外,載體可幫助呈遞肽至T細胞。載體可為熟習此項技術者已知之任何適宜載體,例如,蛋白質或抗原呈遞細胞。載體蛋白可為(但不限於)鑰孔血藍素、血清蛋白(諸如鐵傳遞蛋白、牛血清白蛋白、人血清白蛋白、甲狀腺球蛋白或卵白蛋白)、免疫球蛋白或激素(諸如胰島素或棕櫚酸)。針對人類之免疫,載體一般為為人類及安全可接受之生理上可接受之載體。然而,破傷風類毒素及/或白喉類毒素為適宜載體。或者,載體可為右旋糖苷,例如,瓊脂糖。
細胞毒性T-細胞(CTL)識別結合至MHC分子之肽之形式之抗原而非完整外來抗原本身。MHC分子本身位於抗原呈遞細胞之細胞表面。因此,若存在肽抗原、MHC分子及APC之三聚複合體,則CTL之激活係可能。相應地,若不僅使用肽激活CTL,而且若額外添加具有各自MHC分子之APC,則其可增強免疫反應。因此,於一些實施例中,疫苗組合物額外含有至少一個抗原呈遞細胞。
新抗原亦可包含於基於病毒載體之疫苗平臺,諸如牛痘、禽痘、自我複製甲病毒、馬拉病毒(marabavirus)、腺病毒(參見,例如,Tatsis等人,Adenoviruses,Molecular Therapy (2004) 10, 616-629)或慢病毒(包括但不限於第二代、第三代或雜交第二代/第三代慢病毒及經設計以靶向特定細胞類型或受體之任何代之重組慢病毒) (參見,例如,Hu等人,Immunization Delivered by Lentiviral Vectors for Cancer and Infectious Diseases,Immunol Rev. (2011) 239(1): 45-61;Sakuma等人,Lentiviral vectors: basic to translational,Biochem J. (2012) 443(3):603-18;Cooper等人,Rescue of splicing-mediated intron loss maximizes expression in lentiviral vectors containing the human ubiquitin C promoter,Nucl. Acids Res. (2015) 43 (1): 682-690;Zufferey等人,Self-Inactivating Lentivirus Vector for Safe and Efficient In Vivo Gene Delivery,J. Virol. (1998) 72 (12): 9873-9880)。取決於上述基於病毒載體之疫苗平臺之包裝能力,此方法可遞送編碼一或多個新抗原肽之一或多個核苷酸序列。該等序列可側接非突變序列,可藉由連接子分離或可在前面具有靶向亞細胞隔室之一或多個序列(參見,例如,Gros等人,Prospective identification of neoantigen-specific lymphocytes in the peripheral blood of melanoma patients,Nat Med. (2016) 22 (4):433-8;Stronen等人,Targeting of cancer neoantigens with donor-derived T-cell receptor repertoires,Science. (2016) 352 (6291):1337-41;Lu等人,Efficient identification of mutated cancer antigens recognized by T-cells associated with durable tumor regressions,Clin Cancer Res. (2014) 20( 13):3401-10)。引入宿主後,受感染之細胞表現新抗原,及從而引起對肽之宿主免疫(例如,CTL)反應。可用於免疫方案中之疫苗載體及方法述於(例如)美國專利案第4,722,848號中。另一載體為BCG (卡介苗)。BCG載體述於Stover等人(Nature 351:456-460 (1991))中。可用於新抗原之治療投與或免疫之各種其他疫苗載體(例如,傷寒沙門氏桿菌(Salmonella typhi)載體及類似者)將自本文中描述對熟習此項技術者顯而易見。IV.A. 疫苗設計及製造之額外考量 IV.A.1. 測定覆蓋所有腫瘤亞株 (subclone) 之肽
軀幹肽,意指藉由所有或大多數腫瘤亞株呈遞之彼等,將優先納入疫苗中。53 視情況,若不存在經預測具有高概率呈遞及免疫原性之軀幹肽,或若經預測具有高概率呈遞及免疫原性之軀幹肽之數目係足夠小使得額外非軀幹肽可包含於疫苗中,則另外肽可藉由評估腫瘤亞株之數目及同一性及選擇肽優先處理以便使疫苗覆蓋之腫瘤亞株之數目最大化。54 IV.A.2. 新抗原優先排序
於應用所有以上新抗原過濾後,更多候選新抗原仍可用於疫苗納入,而非疫苗技術可支持。此外,關於新抗原分析之各態樣之不確定可保留並且候選疫苗新抗原之不同性質之間之權衡可存在。因此,代替選擇過程之各步驟之預定過濾,可考慮整合之多維模型,該模型將候選新抗原置於具有至少下列軸之空間中及使用積分方法最佳化選擇。 1.自體免疫或耐受之風險(生殖系之風險) (更低自體免疫之風險通常係較佳) 2.定序偽影之概率(更低偽影之概率通常係較佳) 3.免疫原性之概率(更高免疫原性之概率通常係較佳) 4.呈遞概率(更高呈遞概率通常係較佳) 5.基因表現(更高表現通常係較佳) 6.HLA基因之覆蓋度(涉及一新抗原集之呈遞之更大數目之HLA分子可降低腫瘤將經由HLA分子之下調或突變逃避免疫攻擊的概率) 7.HLA種類之覆蓋度(覆蓋HLA-I及HLA-II二者可增加治療反應之概率且降低腫瘤逃避之概率)V. 治療及製造方法
亦提供一種藉由對受試者投與一或多種新抗原(諸如使用本文中所揭示方法鑑別之複數個新抗原)誘導該受試者之腫瘤特異性免疫反應、抗腫瘤疫苗接種、治療或減輕該受試者之癌症症狀之方法。
於一些態樣中,受試者已經診斷為患有癌症或有發展癌症之風險。受試者可為人類、狗、貓、馬或任何動物,其中腫瘤特異性免疫反應係所需。腫瘤可為諸如乳、卵巢、***、肺、腎、胃、結腸、睾丸、頭頸、胰、腦之任何實體腫瘤、黑色素瘤及其他組織器官腫瘤及血液腫瘤(諸如淋巴瘤及白血病,包括急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴球性白血病、T細胞淋巴球性白血病及B細胞淋巴瘤)。
可以足以誘導CTL反應之量投與新抗原。
可單獨或與其他治療劑組合投與新抗原。治療劑為(例如)化療劑、放射或免疫療法。可投與針對特定癌症之任何適宜療法治療。
此外,可對受試者另外投與抗免疫抑制劑/免疫刺激劑(諸如檢查點抑制劑)。例如,可對受試者另外投與抗CTLA抗體或抗PD-1或抗PD-L1。CTLA-4或PD-L1藉由抗體之阻斷可增強對患者之癌細胞之免疫反應。特定言之,當按照疫苗接種方案時,已顯示CTLA-4阻斷有效。
可測定待包含於疫苗組合物中之各新抗原之最佳量及最佳給藥方案。例如,可製備新抗原或其變異體用於靜脈內(i.v.)注射、皮下(s.c.)注射、皮內(i.d.)注射、腹膜內(i.p.)注射、肌肉內(i.m.)注射。注射方法包括s.c.、i.d.、i.p.、i.m.及i.v.。DNA或RNA注射之方法包括i.d.、i.m.、s.c.、i.p.及i.v.。投與疫苗組合物之其他方法為熟習此項技術者已知。
可編譯疫苗使得存在於組合物中之新抗原之選擇、數目及/或量係組織、癌症及/或患者特異性。例如,肽之精確選擇可藉由給定組織中之親本蛋白之表現模式指導。該選擇可取決於癌症之特定類型、疾病之狀態、早期治療方案、患者之免疫狀態及當然,患者之HLA-單倍型。此外,根據特定患者之個人需要,疫苗可含有個性化組分。實例包括根據特定患者中之新抗原之表現改變新抗原之選擇或於第一輪治療或治療方案後調整二次治療。
針對作為癌症疫苗使用之組合物,具有於正常組織中大量表現之類似正常自身肽之新抗原可避免或於本文中所述組合物中少量存在。另一方面,若已知患者之腫瘤表現大量某個新抗原,則用於治療此癌症之各自醫藥組合物可大量存在及/或可包含特異性針對此特別新抗原或此新抗原之路徑之一種以上新抗原。
可對已患癌症之個體投與包含新抗原之組合物。於治療應用中,以足以引起對腫瘤抗原之有效CTL反應及治癒或至少部分停止症狀及/或併發症之量對患者投與組合物。將足以實現此之量定義為「治療上有效劑量」。用於此用途之有效量將取決於(例如)組合物、投與方式、正在治療之疾病之階段及嚴重度、患者之重量及一般健康狀況及處方醫師之判斷。應記住一般可於嚴重疾病狀態中(即,威脅生命或潛在威脅生命之情況,尤其當癌症已轉移時)採用組合物。於此等情況下,鑑於最小化外來物質及新抗原之相對無毒性質,藉由治療醫師投與實質上過量之此等組合物係可能且可認為可取。
針對治療用途,投與可在腫瘤之檢測或手術移除時開始。此後加強劑量直至至少症狀實質上減輕且此後持續一段時間。
用於療法治療之醫藥組合物(例如,疫苗組合物)意欲用於非經腸、外用、鼻、口或局部投與。可非經腸(例如,經靜脈內、經皮下、經皮內或經肌肉內)投與醫藥組合物。可在誘導對腫瘤之局部免疫反應之手術切除的位點處投與組合物。本文中揭示包含新抗原溶液之用於非經腸投與之組合物及將疫苗組合物溶解或懸浮於可接受之載劑(例如,水性載劑)中。可使用各種水性載劑,例如,水、緩衝水、0.9%鹽水、0.3%甘胺酸、透明質酸及類似者。此等組合物可藉由習知、熟知滅菌技術滅菌或可經無菌過濾。可將所得水溶液包裝用作在投與之前與無菌溶液組合之凍乾製劑或經凍乾。該等組合物可含有如接近生理條件所需之醫藥上可接受之輔助物質,諸如pH調節劑及緩衝劑、張力調節劑、潤濕劑及類似者,例如,乙酸鈉、乳酸鈉、氯化鈉、氯化鉀、氯化鈣、脫水山梨糖醇單月桂酸酯、三乙醇胺油酸酯等。
新抗原亦可經由脂質體投與,該等脂質體將其靶向特定細胞組織,諸如淋巴組織。脂質體亦可用於增加半衰期。脂質體包括乳液、發泡體、膠束、不溶性單層、液晶、磷脂分散體、片狀層及類似者。於此等製劑中,單獨或與分子結合併入待遞送之新抗原作為脂質體之部分,該分子結合至(例如)淋巴樣細胞中普遍存在之受體(諸如結合至CD45抗原之單株抗體)或與其他治療或免疫原組合物結合。因此,填充有所需新抗原之脂質體可指向淋巴樣細胞之位點,然後脂質體在該處遞送所選治療/免疫原組合物。脂質體可自標準囊泡形成脂質而形成,該等囊泡形成脂質一般包括中性及帶負電荷磷脂及固醇(諸如膽固醇)。脂質之選擇一般藉由以下之考量指導:例如,脂質體大小、酸不穩定性及血流中之脂質體之穩定性。各種方法可用於製備脂質體,如於(例如) Szoka等人,Ann. Rev. Biophys. Bioeng. 9; 467 (1980),美國專利案第4,235,871號、第4,501,728號、第4,501,728號、第4,837,028號及第5,019,369號中所述。
用於靶向免疫細胞,待併入脂質體之配位體可包括(例如)特定用於所需免疫系統細胞之細胞表面決定因子之抗體或其片段。脂質體懸浮液可以劑量經靜脈內、局部、外用等投與,該劑量根據尤其投與方式、正在遞送之肽及所治療之疾病之階段變化。
出於治療或免疫目的,編碼肽及視情況本文中所述肽中之一或多者之核酸亦可對患者投與。許多方法方便地用於遞送核酸給患者。例如,核酸可作為「裸DNA」直接遞送。此方法述於(例如) Wolff等人,Science 247: 1465-1468 (1990)以及美國專利案第5,580,859號及第5,589,466號中。亦可使用如(例如)於美國專利案第5,204,253號中所述之彈道遞送投與核酸。可投與僅包含DNA之粒子。或者,DNA可黏附至粒子(諸如金粒子)。用於遞送核酸序列之方法可包括具有電穿孔或不具有電穿孔之病毒載體、mRNA載體及DNA載體。
亦可遞送與陽離子化合物(諸如陽離子脂質)錯合之核酸。脂質介導之基因遞送方法述於(例如) 9618372WOAWO 96/18372;9324640WOAWO 93/24640;Mannino及Gould-Fogerite, BioTechniques 6(7): 682-691 (1988);美國專利案第5,279,833號Rose美國專利案第5,279,833號;9106309WOAWO 91/06309;及Felgner等人,Proc. Natl. Acad. Sci. USA 84: 7413-7414 (1987)中。
新抗原亦可包含於基於病毒載體之疫苗平臺,諸如牛痘、禽痘、自我複製α病毒、馬拉病毒、腺病毒(參見,例如,Tatsis等人,Adenoviruses,Molecular Therapy (2004) 10, 616-629)或慢病毒,包括(但不限於)第二代、第三代或雜交第二代/第三代慢病毒及經設計以靶向特定細胞類型或受體之任何代之重組慢病毒(參見,例如,Hu等人,Immunization Delivered by Lentiviral Vectors for Cancer and Infectious Diseases,Immunol Rev. (2011) 239(1): 45-61;Sakuma等人,Lentiviral vectors: basic to translational,Biochem J. (2012) 443(3):603-18;Cooper等人,Rescue of splicing-mediated intron loss maximizes expression in lentiviral vectors containing the human ubiquitin C promoter,Nucl. Acids Res. (2015) 43 (1): 682-690;Zufferey等人,Self-Inactivating Lentivirus Vector for Safe and Efficient In Vivo Gene Delivery,J. Virol. (1998) 72 (12): 9873-9880)。取決於上述基於病毒載體之疫苗平臺之包裝能力,此方法可遞送編碼一或多個新抗原肽之一或多個核苷酸序列。該等序列可側接非突變序列,可藉由連接子分離或可在前面具有靶向亞細胞隔室之一或多個序列(參見,例如,Gros等人,Prospective identification of neoantigen-specific lymphocytes in the peripheral blood of melanoma patients,Nat Med. (2016) 22 (4):433-8;Stronen等人,Targeting of cancer neoantigens with donor-derived T-cell receptor repertoires,Science. (2016) 352 (6291):1337-41;Lu等人,Efficient identification of mutated cancer antigens recognized by T-cells associated with durable tumor regressions,Clin Cancer Res. (2014) 20( 13):3401-10)。引入宿主後,受感染細胞表現新抗原及從而引起對肽之宿主免疫(例如,CTL)反應。可用於免疫方案之疫苗載體及方法述於(例如)美國專利案第4,722,848號中。另一載體為BCG (卡介苗)。BCG載體述於Stover等人(Nature 351:456-460 (1991))中。可用於新抗原之治療投與或免疫之各種其他疫苗載體(例如,傷寒沙門氏菌載體及類似者)將自本文中描述對熟習此項技術者顯而易見。
一種投與核酸之方式使用編碼一或多個抗原決定基之微基因構築體。為創建用於人類細胞中表現之編碼所選CTL抗原決定基(微基因)之DNA序列,該等抗原決定基之胺基酸序列經逆轉譯。使用人類密碼子使用表指導各胺基酸之密碼子選擇。此等編碼抗原決定基之DNA序列經直接鄰接,產生連續多肽序列。為最佳化表現及/或免疫原性,可將額外元件併入微基因設計。可經逆轉譯且包含於微基因序列中之胺基酸序列之實例包括:輔助T淋巴細胞、抗原決定基、先導(信號)序列及內質網滯留信號。此外,CTL抗原決定基之MHC呈遞可藉由包含鄰近CTL抗原決定基之合成(例如,聚丙胺酸)或天然產生之側接序列改善。藉由組裝編碼微基因之正及負股之寡核苷酸將微基因序列轉化成DNA。使用熟知技術在適宜條件下合成重疊寡核苷酸(30至100個鹼基長),將其磷酸化、純化及黏附。使用T4 DNA連接酶將寡核苷酸之末端連接。然後可將編碼CTL抗原決定基多肽之此合成微基因選殖至所需表現載體。
可使用各種調配物製備純化質體DNA用於注射。此等最簡單為凍乾DNA於無菌磷酸鹽緩衝鹽水(PBS)中之重新構建。已描述各種方法且新技術可變得可得。如上所指出,利用陽離子脂質方便地調配核酸。此外,亦可將統稱為保護性、交互作用、非縮合(PINC)之糖脂、融合脂質體、肽及化合物複合成純化質體DNA以影響變數(諸如穩定性、肌肉內分散或轉運至特定器官或細胞類型)。
亦揭示一種製造腫瘤疫苗之方法,其包括進行本文中所揭示之方法之步驟;及產生包含複數個新抗原或複數個新抗原之子集之腫瘤疫苗。
可使用此項技術中已知之方法製造本文中所揭示之新抗原。例如,產生本文中所揭示之新抗原或載體(例如,包含編碼一或多個新抗原之至少一個序列之載體)之方法可包括在適於表現新抗原或載體之條件下培養宿主細胞,其中該宿主細胞包含編碼新抗原或載體之至少一個多核苷酸,及將該新抗原或載體純化。標準純化方法包括層析技術、電泳、免疫學、沉澱、透析、過濾、濃縮及層析聚焦技術。
宿主細胞可包括中國倉鼠卵巢(Chinese Hamster Ovary,CHO)細胞、NS0細胞、酵母或HEK293細胞。可將宿主細胞用包含編碼本文中所揭示之新抗原或載體之至少一個核酸序列之一或多個多核苷酸轉換,視情況其中該經單離之多核苷酸還包含以操作方式連接至編碼該新抗原或載體之至少一個核酸序列之啟動子序列。於某些實施例中,該經單離之多核苷酸可為cDNA。VI. 新抗原鑑別 VI.A. 新抗原候選鑑別
已描述及於新抗原鑑別空間中應用腫瘤及正常外顯子及轉錄組之NGS分析之研究方法。6,14,15 以下實例考慮針對臨床環境中之新抗原鑑別之更大敏感性及特異性的某些最佳化。可將此等最佳化分成兩個區域,與實驗室製程有關之彼等及與NGS資料分析有關之彼等。VI.A.1. 實驗室製程最佳化
本文中所呈現之製程改進藉由擴展開發用於靶向癌症小組16 中之可靠癌症驅動基因評估至新抗原鑑別所需之全外顯子組及轉錄組環境之觀念來解決來自具有低腫瘤含量及小體積之臨床樣品之高精度新抗原發現的挑戰。具體而言,此等改進包括: 1.跨腫瘤外顯子組之靶向深度(>500x)獨特平均覆蓋度以檢測在由於低腫瘤含量或次選殖狀態之低突變體對偶基因頻率下呈遞之突變。 2.跨腫瘤外顯子組之靶向均勻覆蓋度,在<100x下覆蓋<5%之鹼基,使得最少可能新抗原藉由(例如)以下錯失: a.採用利用個別探針QC17 之基於DNA之捕獲探針 b.包含低覆蓋區域之額外誘餌 3.跨正常外顯子组之靶向均勻覆蓋度,在<20x下覆蓋<5%之鹼基,使得最少新抗原可對體細胞/生殖系狀態保持未分類(及因此不可用作TSNA) 4.為最小化所需定序之總量,將設計序列捕獲探針僅用於基因之編碼區,因為非編碼RNA不可產生新抗原。額外最佳化包括: a. HLA基因之增補探針,其係富含GC且藉由標準外顯子组定序差捕獲18 b.经預測產生少量或無候選新抗原之基因之排除,由於諸如不充分表現、藉由蛋白酶體次最佳消化或異常序列特徵之因素。 5.腫瘤RNA同樣將在高深度(>100M讀數)下定序以使變異體能檢測、基因及剪接變異體(「同功異型物」)表現之定量及融合檢測。將使用基於探針之濃化19 利用用於捕獲DNA中之外顯子组之相同或相似探針提取來自FFPE樣品之RNA。VI.A.2.NGS 資料分析最佳化
分析方法之改進解決常見研究突變調用方法之次最佳敏感性及特異性,且特別考慮臨床環境中之新抗原鑑別相關之定製。此等包括: 1.使用HG38參考人類基因組或後期版本用於比對,因為其含有與先前基因組釋放相比更好反映群體多態性之多個MHC區域組件。 2.藉由合併不同程式5 之結果克服單變異體調用者20 之限制 a.單核苷酸變異體及***或缺失將利用一套工具自腫瘤DNA、腫瘤RNA及正常DNA檢測,該等工具包括:基於腫瘤及正常DNA之比較之程序(諸如Strelka21 及Mutect22 );及併入腫瘤DNA、腫瘤RNA及正常DNA之程序(諸如UNCeqR),其於低純度樣品中係特別有利23 。 b.***或缺失將利用進行局部再組裝之程序(諸如Strelka及ABRA24 )檢測。 c.結構重排將使用專用工具(諸如Pindel25 或Breakseq26 )檢測。 3.為檢測及預防樣品交換,將在選定數目之多態位點處比較來自相同患者之樣品之變異體調用。 4.人工調用之擴展過濾將(例如)藉由以下進行: a.移除於正常DNA中發現之變異體,可在低覆蓋之情況下利用鬆弛檢測參數及在***或缺失之情況下利用容許接近準則 b.移除由於低圖譜分析品質或低鹼基品質27 之變異體。 c.移除源自再現定序偽影之變異體,即使於對應正常27 中未觀察到。實例包括主要在一股上檢測到之變異體。 d.移除於不相關對照組27 中檢測到之變異體 5.來自正常外顯子組之精確HLA調用,其使用seq2HLA28 、ATHLATES29 或Optitype中之一者且亦將外顯子組與RNA定序資料28 組合。額外潛在最佳化包括採用用於HLA分型之專用檢定(諸如長閱讀DNA定序30 )或連接RNA片段以保留連續性之方法之調適31 。 6.產生自腫瘤特異性剪接變異體之neo-ORF之穩健檢測將藉由組裝來自RNA-seq資料之轉錄本使用CLASS32 、Bayesembler33 、StringTie34 或其參考指導模式中之類似程式(即,使用除了試圖自各實驗再建其完整轉錄本外之已知轉錄本結構)進行。雖然出於此目的,經常使用Cufflinks35 ,其頻繁產生難以置信之大量剪接變異體,其中之許多遠短於全長基因,且可無法回收簡單陽性對照。編碼序列及無義介導之衰變位勢將利用工具(諸如SpliceR36 及MAMBA37 )利用再引入之突變體序列檢測。基因表現將利用工具(諸如Cufflinks35 或Express (Roberts及Pachter,2013))檢測。野生型及突變特異性表現計數及/或相對水平將利用出於此等目的開發之工具(諸如ASE38 或HTSeq39 )檢測。位勢過濾步驟包括: a.移除視為不充分表現之候選neo-ORF。 b.移除經預測觸發無義介導之衰變(NMD)之候選neo-ORF。 7.不能被直接驗證為腫瘤特異性之僅於RNA中觀察到之候選新抗原(例如,neoORF)將根據額外參數,例如,藉由考慮以下歸類為可能腫瘤特異性: a.支持僅腫瘤DNA順式作用框移或剪接位點突變之存在 b.證實剪接因子中之僅腫瘤DNA反式作用突變之存在。例如,於利用R625-突變體SF3B1之三個獨立公開實驗中,展示最差異剪接之基因係一致的,即使一個實驗檢查葡萄膜黑色素瘤患者40 ,第二個檢查葡萄膜黑色素瘤細胞株41 及第三個檢查乳癌患者42 。 c.針對新穎剪接同功異型物,證實RNASeq資料中之「新穎」剪接接合閱讀之存在。 d.針對新穎重排,證實腫瘤DNA中之近端外顯子閱讀之存在,其不存在於正常DNA中 e.不存在於基因表現概要,諸如GTEx43 (即,使生殖系起源可能性減少) 8.藉由直接比較經組裝之DNA腫瘤與正常閱讀(或來自此等閱讀之k-mer數)來補充基於參考基因組比對之分析以避免基於比對及註解之誤差及人為誤差。(例如,針對生殖系變異體或重複背景***或缺失附近產生之體細胞變異體)
於具有聚腺苷化RNA之樣品中,對可預測患者反應之額外因素之鑑別,將使用RNA CoMPASS44 或類似方法評估RNA-seq資料中之病毒及微生物RNA之存在。VI.B. HLA 肽之單離及檢測
於組織樣品之裂解及增溶後使用經典免疫沉澱(IP)方法進行HLA-肽分子之單離55-58 。使用澄清裂解物用於HLA特異性IP。
使用偶合至珠之抗體進行免疫沉澱,其中該抗體對HLA分子係特異性。針對泛I類HLA免疫沉澱,使用泛I類CR抗體,針對II類HLA - DR,使用HLA-DR抗體。抗體在過夜培育期間共價連接至NHS-瓊脂糖珠。於共價連接後,將該等珠洗滌及取等分試樣用於IP。59, 60 亦可利用不共價連接至珠之抗體進行免疫沉澱。通常使用塗覆有蛋白A及/或蛋白G之瓊脂糖或磁珠進行此以將抗體保持在管柱上。可用於選擇性濃化MHC/肽複合體之一些抗體列於以下。
Figure 108106921-A0304-0001
將澄清組織裂解物添加至抗體珠中用於免疫沉澱。於免疫沉澱後,將該等珠自裂解物移除及將該裂解物儲存用於額外實驗,包括額外IP。將該等IP珠洗滌以移除非特異性結合及使用標準技術將HLA/肽複合體自珠溶離。使用分子量自旋管柱或C18分級分離將蛋白質組分自肽移除。將所得肽藉由SpeedVac蒸發至乾及於一些情況下,在MS分析之前儲存在-20℃下。
將經乾燥之肽於適用於逆相層析之HPLC緩衝液中再構成並負載於C-18微毛細管HPLC管柱上用於聚變螢光金屬氧化物半導體質譜儀(Fusion Lumos mass spectrometer,Thermo)中之梯度溶離。於Orbitrap檢測器中在高解析度下收集肽之MS1光譜(質量/電荷(m/z)),接著於選定離子之HCD片段化後於離子阱檢測器中收集MS2低解析度掃描。此外,可使用CID或ETD片段化方法或三種技術之任何組合獲得MS2光譜以達成肽之更大胺基酸覆蓋。亦可利用Orbitrap檢測器之高解析度質量精度量測MS2光譜。
使用Comet對蛋白質資料庫搜索來自各分析之MS2光譜61, 62 及使用Percolator對肽鑑別評分63-65 。使用PEAKS工作室(Bioinformatics Solutions Inc.)進行額外定序及可使用其他搜尋引擎或定序方法,包括光譜匹配及重新定序75VI.B.1. 支持全面 HLA 肽定序之 MS 檢測極限研究
使用肽YVYVADVAAK,使用負載於LC管柱上之不同量之肽確定檢測極限。所測試之肽之量為1 pmol、100 fmol、10 fmol、1 fmol及100 amol。(表1)結果示於圖1F中。此等結果指示最低檢測極限(LoD)係於阿托莫耳(attomol)範圍(10-18 )內,動態範圍跨越五個數量級,及訊雜比似乎足以在低毫微微莫耳(femtomol)範圍(10-15 )下定序。
Figure 108106921-A0304-0002
VII . 呈遞模型 VII.A. 系統概觀
圖2A為根據一實施例之用於鑑別患者中之肽呈遞可能性之環境100的概觀。環境100提供環境以引入呈遞鑑別系統160,其自身包含呈遞資訊存儲165。
呈遞鑑別系統160為於如下關於圖38所討論之電腦系統中所實施之一或電腦模型,該電腦系統接收與MHC對偶基因集相關之肽序列並確定該等肽序列將藉由該組相關MHC對偶基因中之一或多者呈遞之可能性。呈遞鑑別系統160可應用於I類及II類MHC對偶基因二者。此可用於各種環境中。呈遞鑑別系統160之一種特定使用情況為其能接受與來自患者110之腫瘤細胞之MHC對偶基因集相關之候選新抗原的核苷酸序列並確定該等候選新抗原將藉由腫瘤之相關MHC對偶基因中之一或多者呈遞及/或誘導患者110之免疫系統中之免疫原反應的可能性。可選擇如由系統160所確定之具有高可能性之彼等候選新抗原用於納入疫苗118,可自提供腫瘤細胞之患者110之免疫系統引起此抗腫瘤免疫反應。此外,可產生具有對具有高呈遞可能性之候選新抗原反應之TCR之T細胞用於T細胞療法中,從而亦引起來自患者110之免疫系統之抗腫瘤免疫反應。
呈遞鑑別系統160通過一或多個呈遞模型確定呈遞可能性。具體而言,該等呈遞模型產生給定肽序列是否將針對相關MHC對偶基因集呈遞及基於存儲165中存儲之呈遞資訊產生之可能性。例如,該等呈遞模型可產生肽序列「YVYVADVAAK」是否將針對樣品之細胞表面上之該對偶基因集HLA-A*02:01、HLA-A*03:01、HLA-B*07:02、HLA-B*08:03、HLA-C*01:04呈遞之可能性。作為另一實例,該等呈遞模型亦可產生肽序列「YVYVADVAAK」是否將藉由具有HLA對偶基因序列「AYANGPW」、「UIIKNFDL」、「WRTSAOGH」之HLA對偶基因呈遞之可能性。呈遞資訊165含有關於肽是否結合至不同類型之MHC對偶基因使得彼等肽藉由MHC對偶基因呈遞之資訊,其於該等模型中取決於肽序列中之胺基酸之位置確定。該呈遞模型可預測未經識別之肽序列是否將與基於呈遞資訊165之相關MHC對偶基因集相關呈遞。如先前所述,該等呈遞模型可應用於I類及II類MHC對偶基因二者。
整篇本說明書使用術語「HLA覆蓋度」。如整篇說明書所用,「HLA覆蓋度」可應用於個體及/或個體之群。如應用於個體,「HLA覆蓋度」係指於呈遞模型存在之個體之基因組內發現之HLA對偶基因的比率。例如,針對具有HLA類型A*02:01、A*02:01、B*07:02、B*07:02、C*07:02、C*07:02之純合子個體,若存在針對對偶基因A*02:01及B*07:02但非C*07:02之呈遞模型,則該個體之HLA覆蓋度為4/6。
如應用於個體群,「HLA覆蓋度」係指對呈遞模型存在之個體HLA覆蓋度之各可能水平,群體中之個體之比率。於人類個體之情況下,各人類基因組含有六個HLA對偶基因。因此,個體HLA覆蓋度之可能水平包括0/6、1/6、2/6、…、6/6。因此,例如,於個體群中,若群體中之一半個體具有2/6之個體HLA覆蓋度及群體中之一半個體具有6/6之個體HLA覆蓋度,則群體中之HLA覆蓋度為針對個體HLA覆蓋度0/6為0%,針對個體HLA覆蓋度1/6為0%,針對個體HLA覆蓋度2/6為50%,針對個體HLA覆蓋度3/6為0%,針對個體HLA覆蓋度4/6為0%,針對個體HLA覆蓋度5/6為0%,及針對個體HLA覆蓋度6/6為50%。
如下關於第VIII節進一步詳細所述,訓練呈遞模型之目標為達成群體之各個體之最高可能HLA覆蓋度,及因此達成群體之HLA覆蓋度使得具有更高個體HLA覆蓋度之群體之個體的比率儘可能高。VII.B. 呈遞 資訊
圖2A說明根據實施例之一種獲得呈遞資訊之方法。該呈遞資訊165包含兩種一般資訊類別:對偶基因相互作用資訊及對偶基因非相互作用資訊。對偶基因相互作用資訊包括影響取決於MHC對偶基因之類型之肽序列之呈遞的資訊。對偶基因非相互作用資訊包括影響獨立於MHC對偶基因之類型之肽序列之呈遞的資訊。VII.B.1. 對偶基因相互作用資訊
對偶基因相互作用資訊主要包括經鑑別之肽序列,已知該等肽序列藉由來自人類、小鼠等之一或多個經鑑別之MHC分子呈遞。應注意,此可包括或可不包括獲自腫瘤樣品之資料。可自表現單個MHC對偶基因之細胞鑑別該等呈遞肽序列。於此情況下,一般自經工程改造以表現預定MHC對偶基因及隨後暴露於合成蛋白之單對偶基因細胞株收集該等呈遞肽序列。在MHC對偶基因上呈遞之肽藉由諸如酸溶離之技術單離及通過質譜法鑑別。圖2B顯示此之實例,其中在預定MHC對偶基因HLA-DRB1*12:01上呈遞之實例肽YEMFNDKSQRAPDDKMF經單離及通過質譜法鑑別。因為於此情況下,肽通過經工程改造以表現單一預定MHC蛋白之細胞鑑別,已確知在呈遞肽與結合其之MHC蛋白之間之直接關聯。
該等呈遞肽序列亦可自表現多個MHC對偶基因之細胞收集。通常於人類中,細胞表現6種不同類型之MHC-I及多達12種不同類型之MHC-II分子。可自經工程改造以表現多個預定MHC對偶基因之多個對偶基因細胞株鑑別此等呈遞肽序列。亦可自來自正常組織樣品或腫瘤組織樣品之組織樣品鑑別此等呈遞肽序列。特定言之於此情況下,MHC分子可自正常組織或腫瘤組織免疫沉澱。在多個MHC對偶基因上呈遞之肽可類似地藉由諸如酸溶離之技術單離及通過質譜法鑑別。圖2C顯示此之實例,其中六種實例肽,YEMFNDKSF、HROEIFSHDFJ、FJIEJFOESS、NEIOREIREI、JFKSIFEMMSJDSSUIFLKSJFIEIFJ及KNFLENFIESOFI在經鑑別之I類MHC對偶基因HLA-A*01:01、HLA-A*02:01、HLA-B*07:02、HLA-B*08:01及II類MHC對偶基因HLA-DRB1*10:01、HLA-DRB1:11:01上呈遞及經單離及通過質譜法鑑別。與單對偶基因細胞株相比,在呈遞肽與結合其之MHC蛋白之間之直接關聯可係未知,因為結合肽在經識別之前自MHC分子單離。
對偶基因相互作用資訊亦可包括取決於肽-MHC分子複合體之濃度及肽之電離效率二者之質譜離子流。電離效率以序列相依方式自肽至肽變化。一般地,電離效率自肽至肽變化在約兩個數量級,而肽-MHC複合體之濃度在較電離效率變化更大範圍變化。
對偶基因相互作用資訊亦可包括在給定MHC對偶基因與給定肽之間之結合親和力之測量值或預測。(72, 73, 74)一或多個親和力模型可產生此等預測。例如,回到圖1D中所示之實例,呈遞資訊165可包括肽YEMFNDKSF與I類對偶基因HLA-A*01:01之間之1000 nM之結合親和力預測。具有IC50 > 1000 nm之少數肽藉由MHC呈遞,及更低IC50值增加呈遞之概率。呈遞資訊165可包括肽KNFLENFIESOFI與II類對偶基因HLA-DRB1:11:01之間之結合親和力預測。
對偶基因相互作用資訊亦可包括MHC複合體之穩定性之測量值或預測。一或多個穩定性模型可產生此等預測。更穩定肽-MHC複合體(即,具有更長半衰期之複合體)更可能在腫瘤細胞上及在遇到疫苗抗原之抗原呈遞細胞上以高複本數呈遞。例如,回到圖2C中所示之實例,呈遞資訊165可包括針對I類分子HLA-A*01:01之1小時之半衰期之穩定性預測。呈遞資訊165亦可包括II類分子HLA-DRB1:11:01之半衰期之穩定性預測。
對偶基因相互作用資訊亦可包括肽-MHC複合體之形成反應之量測或預測速率。在更高速率下形成之複合體更可能在高濃度下在細胞表面呈遞。
對偶基因相互作用資訊亦可包括肽之序列及長度。MHC I類分子通常較佳地呈遞具有8與15個肽之間之長度的肽。60至80%之呈遞肽具有長度9。MHC II類分子通常較佳地呈遞具有6與30個肽之間之長度的肽。
對偶基因相互作用資訊亦可包括編碼肽之新抗原上之激酶序列模體之存在,及編碼肽之新抗原上之特定轉譯後修飾之不存在或存在。激酶模體之存在影響轉譯後修飾之概率,其可增強或干擾MHC結合。
對偶基因相互作用資訊亦可包括參與轉譯後修飾過程之蛋白質之表現或活性水平,例如,激酶(如自RNA seq、質譜法或其他方法所量測或預測)。
對偶基因相互作用資訊亦可包括來自表現特定MHC對偶基因之其他個體之細胞中之具有相似序列之肽的呈遞概率,如藉由質譜蛋白質組學或其他方法所評估。
對偶基因相互作用資訊亦可包括所討論之個體中之特定MHC對偶基因的表現水平(例如,如藉由RNA-seq或質譜法所量測)。最強結合至在高水平下表現之MHC對偶基因之肽較最強結合至在低水平下表現之MHC對偶基因之肽更可能呈遞。
對偶基因相互作用資訊亦可包括藉由表現特定MHC對偶基因之其他個體中之特定MHC對偶基因呈遞之總新抗原編碼的肽-序列-獨立概率。
對偶基因相互作用資訊亦可包括藉由其他個體中之相同家族分子(例如,HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)中之MHC對偶基因呈遞之總肽-序列-獨立概率。例如,HLA-C分子通常較HLA-A或HLA-B分子在更低水平下表現,及因此,肽藉由HLA-C之呈遞較藉由HLA-A或HLA-B之呈遞事前更少可能。針對另一實例,HLA-DP通常較HLA-DR或HLA-DQ在更低水平下表現;因此,肽藉由HLA-DP之呈遞較藉由HLA-DR或HLA-DQ之呈遞事前更少可能。
對偶基因相互作用資訊亦可包括特定MHC對偶基因之蛋白質序列。
亦可將下節中所列之任何MHC對偶基因非相互作用資訊建模為MHC對偶基因相互作用資訊。VII.B.2. 對偶基因非相互作用資訊
對偶基因非相互作用資訊可包括其源蛋白序列內側接新抗原編碼之肽的C-端序列。針對MHC-I,C-端側接序列可影響肽之蛋白酶體處理。然而,C-端側接序列藉由蛋白酶體自肽裂解,然後將肽轉運至內質網及遇到細胞表面上之MHC對偶基因。因此,MHC分子未接收關於C-端側接序列之資訊,及因此,C-端側接序列之作用不可取決於MHC對偶基因類型變化。例如,回到圖2C中所示之實例,呈遞資訊165可包括自肽之源蛋白鑑別之呈遞肽FJIEJFOESS之C-端側接序列FOEIFNDKSLDKFJI。
對偶基因非相互作用資訊亦可包括mRNA定量測量值。例如,可針對提供質譜訓練資料之相同樣品獲得mRNA定量資料。如後面所述,RNA表現經鑑別為肽呈遞之強預測因子。於一實施例中,自軟體工具RSEM鑑別mRNA定量測量值。RSEM軟體工具之詳細實施可見於Bo Li及Colin N. Dewey.RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome . BMC Bioinformatics, 12:323,2011年8月。於一實施例中,以每百萬圖譜分析閱讀之轉錄本之每千鹼基對之片段數(FPKM)的單位量測mRNA定量。
對偶基因非相互作用資訊亦可包括其源蛋白序列內側接肽之N-端序列。
對偶基因非相互作用資訊亦可包括肽序列之源基因。可將該源基因定義為肽序列之Ensembl蛋白家族。於其他實例中,可將該源基因定義為肽序列之源DNA或源RNA。例如,可將源基因表示為一串編碼蛋白質之核苷酸或或者基於已知編碼特定蛋白質之已知DNA或RNA序列之命名組更分類表示。於另一實例中,對偶基因非相互作用資訊亦可包括源轉錄本或同功異型物或自資料庫(諸如Ensembl或RefSeq)提取之肽序列之潛在源轉錄本或同功異型物集。
對偶基因非相互作用資訊亦可包括肽序列來源之細胞之組織類型、細胞類型或腫瘤類型。
對偶基因非相互作用資訊亦可包括根據腫瘤細胞中之對應蛋白酶之表現視情況加權之肽中之蛋白酶裂解模體的存在(如藉由RNA-seq或質譜法所量測)。含有蛋白酶裂解模體之肽更少可能呈遞,因為其將更容易藉由蛋白酶降解,及因此將於細胞內更不穩定。
對偶基因非相互作用資訊亦可包括源蛋白之周轉率,如於適宜細胞類型中所量測。較快周轉率(即,較低半衰期)增加呈遞概率;然而,若於不同細胞類型中量測,則此特徵之預測力係低的。
對偶基因非相互作用資訊亦可包括源蛋白之長度,視情況考慮於腫瘤細胞中最高度表現之特異性剪接變異體(「同功異型物」),如藉由RNA-seq或蛋白質組質譜法所量測,或如自DNA或RNA序列資料中所檢測之生殖系或體細胞剪接突變之註解所預測。
對偶基因非相互作用資訊亦可包括腫瘤細胞中之蛋白酶體、免疫蛋白酶體、胸腺蛋白酶體或其他蛋白酶之表現水平(其可藉由RNA-seq、蛋白質組質譜法或免疫組織化學量測)。不同蛋白酶體具有不同裂解位點偏好。將對與其表現水平成比例之各類型之蛋白酶體之裂解偏好提供更多權重。
對偶基因非相互作用資訊亦可包括肽之源基因之表現(例如,如藉由RNA-seq或質譜法所量測)。可能最佳化包括調整經量測表現以說明腫瘤樣品內之基質細胞及腫瘤浸潤淋巴細胞之存在。更可能呈遞來自更高度表現基因之肽。來自具有無法檢測之表現水平之基因之肽可自考量排除。
對偶基因非相互作用資訊亦可包括編碼肽之新抗原之源mRNA將遭受無義介導之衰變之概率,如藉由無義介導之衰變之模型(例如,來自Rivas等人,Science 2015之模型)所預測。
對偶基因非相互作用資訊亦可包括在細胞週期之各種階段期間肽之源基因之典型組織特異性表現。在總體低水平(如藉由RNA-seq或質譜法蛋白質組學所量測)下表現但是已知在細胞週期之特定階段期間在高水平下表現之基因可較在極低水平下穩定表現之基因產生更多呈遞肽。
對偶基因非相互作用資訊亦可包括如於(例如) uniProt或PDB http://www.rcsb.org/pdb/home/home.do中所給定之源蛋白之特徵之綜合目錄。此等特徵可尤其包括:蛋白質之二級及三級結構、亞細胞局域化11、基因本體論(GO)術語。具體而言,此資訊可含有在蛋白質水平下作用之註解(例如,5’ UTR長度)及在特異性殘基之水平下作用之註解(例如,在殘基300與310之間之螺旋模體)。此等特徵亦可包括轉模體、褶板模體及無序殘基。
對偶基因非相互作用資訊亦可包括描述含有肽之源蛋白之域之性質的特徵,例如:二級或三級結構(例如,α螺旋相對於β褶板);替代剪接。
對偶基因非相互作用資訊亦可包括新抗原之肽序列與新抗原之源基因之複數個k-mer區塊中之一或多個k-mer區塊之間的關聯(如於受試者之核苷酸定序資料中存在)。在呈遞模型之訓練期間,將新抗原之肽序列與新抗原之核苷酸定序資料之k-mer區塊之間之此等關聯輸入至該模型中,及藉由該模型部分使用以學習模型參數,該等參數表示與訓練肽序列相關之k-mer區塊之呈遞熱點之存在或不存在。然後,在訓練後之模型使用期間,將測試肽序列與測試肽序列之源基因之一或多個k-mer區塊之間之關聯輸入至該模型中,及在訓練期間藉由該模型學習之參數使該呈遞模型能作出關於測試肽序列之呈遞可能性之更精確預測。
一般而言,表示針對k-mer區塊之呈遞熱點之存在或不存在之模型之參數表示於控制所有其他變數(例如,肽序列、RNA表現、於HLA-結合肽中常見之胺基酸等)後,該k-mer區塊將產生呈遞肽之殘餘傾向。表示針對k-mer區塊之呈遞熱點之存在或不存在之參數可為二進位係數(例如,0或1)或沿標度之模擬係數(例如,0與1之間,包含端值)。於任一種情況下,較大係數(例如,更接近1或1)表示在控制其他因素下,k-mer區塊將產生呈遞肽之更大可能性,然而較低係數(例如,更接近0或0)表示k-mer區塊將產生呈遞肽之更低可能性。例如,具有低熱點係數之k-mer區塊可為來自具有高RNA表現之基因之k-mer區塊,其具有於HLA-結合肽中常見之胺基酸,其中源基因產生許多其他呈遞肽,但是呈遞肽於k-mer區塊中罕見。因為已可藉由其他參數(例如,於HLA結合肽中常見之k-mer區塊或更大鹼基上之RNA表現)說明肽存在之其他來源,此等熱點參數提供新的分離資訊,該資訊不對藉由其他參數捕獲之資訊「雙重計數」。
對偶基因非相互作用資訊亦可包括肽自其他個體中之所討論之肽之源蛋白呈遞的概率(於調整彼等個體中之源蛋白之表現水平及彼等個體之不同HLA類型之影響後)。
對偶基因非相互作用資訊亦可包括由於技術偏見肽將藉由質譜法未檢測到或過度表示之概率。
如藉由基因表現檢定(諸如RNASeq、微陣列、靶向面板(諸如Nanostring)或基因模組之單/多基因代表)所量測之各種基因模組/路徑之表現藉由諸如RT-PCR (其不需要含有肽之源蛋白)之檢定量測,該等檢定提供關於腫瘤細胞、基質或腫瘤浸潤淋巴細胞(TIL)狀態之資訊。
對偶基因非相互作用資訊亦可包括腫瘤細胞中之肽之源基因的複本數目。例如,可將來自遭受腫瘤細胞中之純合子缺失之基因的肽指定為零之呈遞概率。
對偶基因非相互作用資訊亦可包括肽結合至TAP之概率或肽與TAP之經量測或經預測之結合親和力。更可能結合至TAP之肽或結合具有更高親和力之TAP之肽更可能藉由MHC-I呈遞。
對偶基因非相互作用資訊亦可包括腫瘤細胞中之TAP之表現水平(其可藉由RNA-seq、蛋白質組質譜法、免疫組織化學量測)。針對MHC-I,更高TAP表現水平增加所有肽之呈遞概率。
對偶基因非相互作用資訊亦可包括腫瘤突變之存在或不存在,其包括(但不限於): i.已知癌症驅動基因(諸如EGFR、KRAS、ALK、RET、ROS1、TP53、CDKN2A、CDKN2B、NTRK1、NTRK2、NTRK3)中之驅動子突變 ii.於編碼涉及抗原呈遞機制之蛋白質之基因(例如,B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或編碼蛋白酶體或免疫蛋白酶體之組分之基因中之任一者)中。其呈遞依賴於遭受腫瘤中之功能喪失型突變之抗原呈遞機制之組分的肽具有降低之呈遞概率。
功能生殖系多態性之存在或不存在包括(但不限於): i.於編碼涉及抗原呈遞機制之蛋白質之基因(例如,B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或編碼蛋白酶體或免疫蛋白酶體之組分之基因中之任一者)中。
對偶基因非相互作用資訊亦可包括腫瘤類型(例如,NSCLC、黑色素瘤)。
對偶基因非相互作用資訊亦可包括如藉由(例如) HLA對偶基因尾綴所反映之HLA對偶基因之已知功能性。例如,對偶基因名稱HLA-A*24:09N中之N尾綴指示不表現之無效對偶基因及因此不可能呈遞抗原決定基;在https://www.ebi.ac.uk/ipd/imgt/hla/nomenclature/suffixes.html下描述全HLA對偶基因尾綴命名法。
對偶基因非相互作用資訊亦可包括臨床腫瘤亞型(例如,鱗狀肺癌相對於非鱗狀)。
對偶基因非相互作用資訊亦可包括吸煙史。
對偶基因非相互作用資訊亦可包括曬傷、陽光暴露或暴露於其他誘變劑之歷史。
對偶基因非相互作用資訊亦可包括視情況藉由驅動子突變分層之相關腫瘤類型或臨床亞型中之肽之源基因的典型表現。更可能呈遞通常於相關腫瘤類型中在高水平下表現之基因。
對偶基因非相互作用資訊亦可包括所有腫瘤中,或相同類型之腫瘤中,或來自具有至少一個共用MHC對偶基因之個體之腫瘤中,或具有至少一個共用MHC對偶基因之個體中之相同類型之腫瘤中之突變頻率。
於突變腫瘤特異性肽之情況下,用於預測呈遞概率之特徵之清單亦可包括突變註解(例如,錯義、通讀、框移、融合等)或預測該突變是否導致無義介導之衰變(NMD)。例如,由於純合子早期停止突變,可將來自腫瘤細胞中未轉譯之蛋白質片段之肽指定為零之呈遞概率。NMD導致降低之mRNA轉譯,其降低呈遞概率。VII.C. 呈遞鑑別系統
圖3為高階方塊圖,該圖說明根據一實施例之呈遞鑑別系統160之電腦邏輯組件。於此實例實施例中,呈遞鑑別系統160包括資料管理模組312、編碼模組314、訓練模組316及預測模組320。呈遞鑑別系統160亦包括訓練資料存儲170及呈遞模型存儲175。模型管理系統160之一些實施例具有與本文中所述彼等不同之模組。類似地,該等功能可以與本文中所述不同之方式在該等模組中分佈。VII.C.1. 資料管理模組
該資料管理模組312自呈遞資訊165產生訓練資料集170。各組訓練資料含有複數個資料實例,其中各資料實例i 含有包含至少一個呈遞或非呈遞肽序列 pi 與該肽序列 pi 相關之一或多個相關MHC對偶基因 ai 及/或與該肽序列 pi 相關之一或多個MHC對偶基因序列 di 之獨立變數集 zi ,及表示呈遞鑑別系統160關注預測獨立變數之新值之資訊的因變數yi
於整篇說明書之其餘部分提及之一特定實施中,因變數yi 為二進位標記,其指示肽 pi 是否藉由一或多個相關MHC對偶基因 ai 及/或藉由與一或多個MHC對偶基因序列 di 相關之一或多個MHC對偶基因呈遞。然而,應瞭解,於其他實施中,因變數 yi 可表示任何其他種類之資訊,該資訊為呈遞鑑別系統160關注預測對獨立變數 zi 之相依性。例如,於另一實施中,因變數 yi 亦可為指示針對資料實例鑑別之質譜離子流之數值。
針對資料實例 i 之肽序列 pi ki 胺基酸之序列,其中ki 可在資料實例i 之間在範圍內變化。例如,針對MHC I類範圍可為8至15或針對MHC II類範圍可為6至30。於系統160之一特定實施中,訓練資料集中之所有肽序列 pi 可具有相同長度,例如,9。肽序列中之胺基酸之數目可取決於MHC對偶基因之類型(例如,人類中之MHC對偶基因等)變化。針對資料實例i 之MHC對偶基因 ai 指示存在哪些MHC對偶基因與對應肽序列 pi 相關。類似地,於一些實施例中,針對資料實例i 之MHC對偶基因序列 di 指示存在哪些MHC對偶基因序列與對應肽序列 pi 相關。
資料管理模組312亦可包括額外對偶基因相互作用變數,諸如結合親和力 bi 及穩定性 si 預測連同訓練資料170中含有之肽序列 pi 及相關MHC對偶基因 ai 。例如,訓練資料170可含有肽 pi ai 中所指示之相關MHC分子各者之間之結合親和力預測 bi 。作為另一實例,該訓練資料170可含有針對 ai 中所指示之MHC對偶基因各者之穩定性預測 si
該資料管理模組312亦可包括對偶基因非相互作用變數 wi ,諸如C-端側接序列及mRNA定量測量值連同肽序列 pi
該資料管理模組312亦鑑別不藉由MHC對偶基因呈遞之肽序列以生成訓練資料170。一般地,此涉及鑑別源蛋白之「更長」序列,該等序列包括在呈遞之前之呈遞肽序列。當呈遞資訊含有經工程改造之細胞株時,該資料管理模組312鑑別合成蛋白中之一系列肽序列,該等細胞經暴露至不在該等細胞之MHC對偶基因上呈遞之該合成蛋白。當呈遞資訊含有組織樣品時,該資料管理模組312鑑別呈遞肽序列起源之源蛋白,且鑑別不在該等組織樣品細胞之MHC對偶基因上呈遞之源蛋白中之一系列肽序列。
該資料管理模組312亦可利用胺基酸之隨機序列人工生成肽及鑑別生成之序列,因為肽不在MHC對偶基因上呈遞。此可藉由隨機生成肽序列允許該資料管理模組312容易生成不在MHC對偶基因上呈遞之肽之大量合成資料實現。因為於現實中,小百分比之肽序列藉由MHC對偶基因呈遞,以合成方式生成之肽序列高度不可能藉由MHC對偶基因呈遞,即使其包含於由細胞處理之蛋白質中。
圖4說明根據一實施例之訓練資料170A之實例組。具體而言,訓練資料170A中之前3個資料實例指示來自涉及對偶基因HLA-C*01:03及3個肽序列QCEIOWAREFLKEIGJ、FIEUHFWI及 FEWRHRJTRUJR之單對偶基因細胞株之肽呈遞資訊。請注意,於訓練資料170A之替代實施例中,HLA對偶基因類型可藉由HLA對偶基因序列替代。例如,對偶基因類型HLA-C*1:03可藉由針對對偶基因HLA-C*1:03之胺基酸序列替代。訓練資料170A中之第四資料實例指示來自涉及對偶基因HLA-B*07:02、HLA-C*01:03、HLA-A*01:01及肽序列QIEJOEIJE之多對偶基因細胞株之肽資訊。第一資料實例指示肽序列QCEIOWARE不藉由對偶基因HLA-DRB3:01:01呈遞。如前兩段中所討論,陰性標記之肽序列可藉由資料管理模組312隨機生成或自呈遞肽之源蛋白鑑別。訓練資料170A亦包括針對肽序列-對偶基因對之1000 nM之結合親和力預測及1小時之半衰期之穩定性預測。訓練資料170A亦包括對偶基因非相互作用變數,諸如肽FJELFISBOSJFIE之C-端側接序列及102 TPM之mRNA定量測量值。第四資料實例指示肽序列QIEJOEIJE藉由對偶基因HLA-B*07:02、HLA-C*01:03或HLA-A*01:01中之一者呈遞。訓練資料170A亦包括針對對偶基因各者之結合親和力預測及穩定性預測,以及肽之C-端側接序列及肽之mRNA定量測量值。於另一實施例中,訓練資料170A亦可包括額外對偶基因非相互作用變數,諸如經呈遞肽之肽家族。VII.C.2. 編碼模組
編碼模組314將包含於訓練資料170中之資訊編碼至數值表示中,可使用該數值表示以生成一或多個呈遞模型。於一實施中,編碼模組314獨熱編碼超過預定20個字母胺基酸字母表之序列(例如,肽序列及/或C-端側接序列及/或MHC對偶基因序列)。具體而言,將具有ki 個胺基酸之肽序列 pi 表示為20ki 個元素之列向量,其中對應於肽序列之j-th 位置處之胺基酸之字母表之pi 20∙(j-1)+1 pi 20∙(j-1)+2 pi 20∙j 中的單元素具有1之值。否則,剩餘元素具有0之值。作為實例,針對給定字母表{A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y},資料實例i 之3個胺基酸之肽序列EAF可由60個元素之列向量 pi =[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]表示。C-端側接序列 ci 以及針對MHC對偶基因之蛋白質序列 di ,及呈遞資訊中之其他序列資料可如上所述類似地編碼。
當該訓練資料170含有不同長度之胺基酸之序列時,編碼模組314可藉由添加PAD字元以擴展預定字母表將肽進一步編碼至等長度向量中。例如,此可藉由利用PAD字元左墊肽序列直至肽序列之長度達到具有訓練資料170中之最大長度之肽序列來進行。因此,當具有最大長度之肽序列具有kmax 個胺基酸時,編碼模組314數位上表示作為(20+1 )∙ kmax 個元素之列向量之各序列。作為實例,針對擴展之字母表{PAD, A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}及kmax =5 之最大胺基酸長度,3個胺基酸之相同實例肽序列EAF可由105個元素之列向量 pi =[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]表示。C-端側接序列 ci 、針對MHC對偶基因之蛋白質序列 di 或其他序列資料可如上所述類似地編碼。因此,肽序列 pi ci di 中之各獨立變數或行表示該序列之特定位置處之特定胺基酸之存在。
雖然參考具有胺基酸序列之序列描述以上編碼序列資料之方法,但是可將該方法類似地擴展至其他類型之序列資料,諸如DNA或RNA序列資料及類似者。
編碼模組314亦將資料實例i 之一或多個MHC對偶基因a i 編碼為m 個元素之列向量,其中各元素h=1, 2, …, m 對應於經獨特鑑別之MHC對偶基因。對應於針對資料實例i 鑑別之MHC對偶基因之元素具有1之值。否則,剩餘元素具有0之值。作為實例,對應於m=4 個經獨特鑑別之MHC對偶基因類型{HLA-A*01:01、HLA-C*01:08、HLA-B*07:02、HLA-DRB1*10:01 }中之多對偶基因細胞株之資料實例i 的對偶基因HLA-B*07:02及HLA-DRB1*10:01可由4個元素之列向量 ai =[0 0 1 1]表示,其中a3 i =1且a4 i =1。雖然本文中利用4個經鑑別之MHC對偶基因類型描述實例,但是於實務中MHC對偶基因類型之數目可為上百個或上千個。如先前所討論,各資料實例i 通常含有與肽序列 pi 相關之至多6種不同MHC對偶基因類型。
編碼模組314亦將各資料實例i 之標記yi 編碼為具有來自{0, 1}組之值之二進位變數,其中1之值指示肽 xi 藉由相關MHC對偶基因 ai 中之一者呈遞,及0之值指示肽 xi 不藉由相關MHC對偶基因 ai 中之任一者呈遞。當因變數yi 表示質譜粒子流時,編碼模組314可使用各種函數(諸如針對在[0, ∞)之間之粒子流值具有(-∞, ∞)之範圍之對數(log)函數)額外標度該等值。
編碼模組314可將針對肽pi 之一對對偶基因相互作用變數 xh i 及相關MHC對偶基因h 表示為列向量,其中將對偶基因相互作用變數之數值表示一個接一個地連在一起。例如,編碼模組314可將 xh i 表示為等於[pi ][pi bh i ][pi sh i ][pi bh i sh i ] 之列向量,其中bh i 為肽pi 及相關MHC對偶基因h 之結合親和力預測,及類似地針對sh i 用於穩定性。或者,可將對偶基因相互作用變數之一或多個組合個別存儲(例如,作為個別向量或矩陣)。
於一實例中,編碼模組314藉由將結合親和力之量測值或預測值併入對偶基因相互作用變數 xh i 中來表示結合親和力資訊。
於一實例中,編碼模組314藉由將結合穩定性之量測值或預測值併入對偶基因相互作用變數 xh i 中來表示結合穩定性資訊。
於一實例中,編碼模組314藉由將結合率之量測值或預測值併入對偶基因相互作用變數 xh i 中來表示結合率資訊。
於一實例中,針對藉由I類MHC分子呈遞之肽,編碼模組314將肽長度表示為向量 Tk =[𝟙(Lk =8) 𝟙(Lk =9) 𝟙(Lk =10) 𝟙(Lk =11) 𝟙(Lk =12) 𝟙(Lk =13) 𝟙(Lk =14) 𝟙(Lk =15)],其中𝟙為指示函數,且Lk 表示肽 pk 之長度。可將向量 Tk 包含於對偶基因相互作用變數 xh i 中。於另一實例中,針對藉由II類MHC分子呈遞之肽,編碼模組314將肽長度表示為向量 Tk =[ 𝟙(Lk =6) 𝟙(Lk =7) 𝟙(Lk =8) 𝟙(Lk =9) 𝟙(Lk =10) 𝟙(Lk =11) 𝟙(Lk =12) 𝟙(Lk =13) 𝟙(Lk =14) 𝟙(Lk =15) 𝟙(Lk =16) 𝟙(Lk =17) 𝟙(Lk =18) 𝟙(Lk =19) 𝟙(Lk =20) 𝟙(Lk =21) 𝟙(Lk =22) 𝟙(Lk =23) 𝟙(Lk =24) 𝟙(Lk =25) 𝟙(Lk =26) 𝟙(Lk =27) 𝟙(Lk =28) 𝟙(Lk =29) 𝟙(Lk =30)],其中𝟙為指示函數,且Lk 表示肽 pk 之長度。可將向量 Tk 包含於對偶基因相互作用變數 xh i 中。
於一實例中,編碼模組314藉由將MHC對偶基因之基於RNA-seq之表現水平併入對偶基因相互作用變數 xh i 中來表示MHC對偶基因之RNA表現資訊。
類似地,編碼模組314可將對偶基因非相互作用變數 wi 表示為列向量,其中將對偶基因非相互作用變數之數值表示一個接一個地連在一起。例如, wi 可為等於[ci ][ci mi wi ] 之列向量,其中 wi 為表示除了肽 pi 之C-端側接序列及與該肽相關之mRNA定量測量值 mi 外之任何其他對偶基因非相互作用變數的列向量。或者,可將對偶基因非相互作用變數之一或多個組合個別存儲(例如,作為個體向量或矩陣)。
於一實例中,編碼模組314藉由將周轉率或半衰期併入對偶基因非相互作用變數 wi 中來表示肽序列之源蛋白之周轉率。
於一實例中,編碼模組314藉由將蛋白質長度併入對偶基因非相互作用變數 wi 中來表示源蛋白或同功異型物之長度。
於一實例中,編碼模組314藉由將包含β1 iβ2 iβ5 i 亞基之免疫蛋白酶體特異性蛋白酶體亞基之平均表現併入對偶基因非相互作用變數 wi 中來表示免疫蛋白酶體之激活。
於一實例中,編碼模組314表示肽之源蛋白或肽之基因或轉錄本之RNA-seq豐度(藉由諸如RSEM之技術以FPKM、TPM為單位定量)可將源蛋白之豐度併入對偶基因非相互作用變數 wi 中。
於一實例中,編碼模組314表示肽源之轉錄本將經歷無義介導之衰變(NMD)之概率,如藉由(例如) Rivas等人,Science, 2015中之模型藉由將此概率併入對偶基因非相互作用變數 wi 中所評估。
於一實例中,編碼模組314表示藉由(例如)以TPM為單位定量路徑中之基因之表現,使用(例如)針對路徑中之基因各者之RSEM,然後計算概要統計(例如,跨路徑中之基因之平均值)經由RNA-seq評估之基因模組或路徑的激活狀態。可將該平均值併入對偶基因非相互作用變數 wi 中。
於一實例中,編碼模組314藉由將複本數目併入對偶基因非相互作用變數 wi 中來表示源基因之複本數目。
於一實例中,編碼模組314藉由將量測或預測之TAP結合親和力(例如,以奈莫耳為單位)包含於對偶基因非相互作用變數 wi 中來表示TAP結合親和力。
於一實例中,編碼模組314藉由將藉由RNA-seq量測(及藉由(例如) RSEM以TPM為單位定量)之TAP表現水平包含於對偶基因非相互作用變數 wi 中來表示TAP表現水平。
於一實例中,編碼模組314將腫瘤突變表示為對偶基因非相互作用變數 wi 中之指示變數之向量(即,若肽 pk 來自具有KRAS G12D突變之樣品,則 dk = 1及否則, dk = 0)。
於一實例中,編碼模組314將抗原呈遞基因中之生殖系多態性表示為指示變數之向量(即,若肽 pk 來自具有TAP中之特異性生殖系多態性之樣品,則 dk = 1)。可將此等指示變數包含於對偶基因非相互作用變數 wi 中。
於一實例中,編碼模組314將腫瘤類型表示為超過腫瘤類型(例如,NSCLC、黑色素瘤、結腸直腸癌等)字母表之長度1之獨熱編碼向量。可將此等獨熱編碼之變數包含於對偶基因非相互作用變數 wi 中。
於一實例中,編碼模組314藉由利用不同尾綴處理4-數位HLA對偶基因表示MHC對偶基因尾綴。例如,出於模型之目的,認為HLA-A*24:09N為來自HLA-A*24:09之不同等位基因。或者,針對所有肽,可將藉由N-尾綴之MHC對偶基因呈遞之概率設置為零,因為以N尾綴結束之HLA對偶基因不表現。
於一實例中,編碼模組314將腫瘤亞型表示為超過腫瘤亞型(例如,肺腺癌、肺鱗狀細胞癌等)字母表之長度1之獨熱編碼向量。可將此等獨熱編碼之變數包含於對偶基因非相互作用變數 wi 中。
於一實例中,編碼模組314將吸煙史表示二進位指示變數(若患者有吸煙史,則 dk = 1,及否則 dk =0),可將該變數包含於對偶基因非相互作用變數 wi 中。或者,可將吸煙史編碼為超過吸煙嚴重度字母表之長度1之獨熱編碼之變數。例如,吸煙狀態可按1至5標度評定,其中1指示不吸煙者,及5指示目前重度吸煙者。因為吸煙史主要與肺腫瘤有關,所以當在多腫瘤類型上訓練模型時,若患者有吸煙史且該腫瘤類型為肺腫瘤,則亦可將此變數定義為等於1及否則為0。
於一實例中,編碼模組314將曬傷史表示為二進位指示變數(若患者有嚴重曬傷史,則 dk = 1及否則 dk = 0),可將該變數包含於對偶基因非相互作用變數 wi 中。因為嚴重曬傷主要與黑色素瘤有關,所以當在多腫瘤類型上訓練模型時,若患者有嚴重曬傷史且該腫瘤類型為黑色素瘤,則亦可將此變數定義為等於1及否則為0。
於一實例中,編碼模組314藉由使用參考資料庫(諸如TCGA)將人類基因組中之各基因或轉錄本之特定基因或轉錄本之表現水平的分佈表示為表現水平分佈之概要統計(例如,平均值、中值)。具體而言,針對具有腫瘤類型黑色素瘤之樣品中之肽 pk ,可不僅包含對偶基因非相互作用變數 wi 中之肽 pk 源之基因或轉錄本之量測的基因或轉錄本表現水平,而且包含黑色素瘤中之肽 pk 源之基因或轉錄本之平均及/或中間基因或轉錄本表現,如藉由TCGA所量測。
於一實例中,編碼模組314將突變類型表示為超過突變類型(例如,錯義、框移、NMD-誘導等)字母表之長度1之獨熱編碼之變數。可將此等獨熱編碼之變數包含於對偶基因非相互作用變數 wi 中。
於一實例中,編碼模組314將蛋白質之蛋白質水平特徵表示為對偶基因非相互作用變數 wi 中之源蛋白之註解(例如,5’ UTR長度)之值。於另一實例中,編碼模組314藉由包含指示變數來表示肽 pi 之源蛋白之殘留水平註解,若肽 pi 與螺旋模體重疊,則該指示變數等於1及否則為0,或若肽 pi 完全包含於對偶基因非相互作用變數 wi 之螺旋模體內,則該指示變數等於1。於另一實例中,可將表示螺旋模體註解內含有之肽 pi 中之殘基之比率的特徵包含於對偶基因非相互作用變數 wi 中。
於一實例中,編碼模組314將人類蛋白質組中之蛋白質或同功異型物之類型表示為具有等於人類蛋白質組中之蛋白質或同功異型物之數目之長度的指示向量 ok ,及若肽 pk 來自蛋白質i ,則對應元素ok i 為1及否則為0。
於一實例中,編碼模組314將肽 pi 之源基因G =基因( pi )表示為具有L 個可能類別之分類變數,其中L 表示索引源基因之數目之上限1、2、…、L
於一實例中,編碼模組314將肽 pi 之組織類型、細胞類型、腫瘤類型或腫瘤組織學類型T= 組織( pi )表示為具有M 個可能類別之分類變數,其中M 表示索引類型之數目之上限1、2、…、M 。組織之類型可包括(例如)肺組織、心臟組織、腸組織、神經組織及類似者。細胞之類型可包括樹突狀細胞、巨噬細胞、CD4 T細胞及類似者。腫瘤之類型可包括肺腺癌、肺鱗狀細胞癌、黑色素瘤、非霍奇金氏(Hodgkin)淋巴瘤及類似者。
編碼模組314亦可將肽 pi 及相關MHC對偶基因h 之整組變數 zi 表示為列向量,其中將對偶基因相互作用變數 xi 及對偶基因非相互作用變數 wi 之數值表示一個接一個地連在一起。例如,編碼模組314可將 zh i 表示為等於[xh i wi ][wi xh i ] 之列向量。VIII. 訓練模組
訓練模組316構建一或多個呈遞模型,該等模型產生肽序列是否將藉由與肽序列相關之MHC對偶基因呈遞之可能性。具體而言,給定肽序列 pk 及與該肽序列 pk 相關之MHC對偶基因集 ak 及/或MHC對偶基因序列 dk ,各呈遞模型產生指示肽序列 pk 將藉由相關MHC對偶基因 ak 中之一或多者呈遞之可能性的估計uk VIII.A. 概觀
訓練模組316基於自165中所存儲之呈遞資訊產生之存儲170中存儲之訓練資料集構建一或多個呈遞模型。一般而言,不管呈遞模型之特定類型,所有呈遞模型捕獲訓練資料170中之獨立變數與因變數之間之依賴性使得損失函數經最小化。具體而言,該損失函數𝓁(yi S , ui S ; θ )表示針對訓練資料170中之一或多個資料實例S 之因變數yi S 之值與針對藉由呈遞模型產生之資料實例S 之預估可能性ui S 之值之間的差異。於整篇說明書之其餘部分提及之一特定實施中,該損失函數(yi S , ui S ; θ )為藉由如下方程式(1a)給定之負對數可能性函數:
Figure 02_image001
然而,於實務中,可使用另一損失函數。例如,當對質譜粒子流作出預測時,該損失函數為藉由如下方程式1b給定之平均平方損失:
Figure 02_image003
該呈遞模型可為參數模型,其中一或多個參數 θ 算數地指定獨立變數與因變數之間之依賴性。通常,通過基於梯度之數值最佳化演算法(諸如分批梯度演算法、隨機梯度演算法及類似者)確定最小化損失函數(yi S , ui S ; θ )之參數型呈遞模型之各種參數。或者,該呈遞模型可為非參數模型,其中該模型結構自訓練資料170確定且不嚴格基於固定參數集。VIII.B. 按對偶基因 (Per-Allele) 模型
訓練模組316可構建呈遞模型以預測基於按對偶基因之肽之呈遞可能性。於此情況下,訓練模組316可訓練基於自表現單個MHC對偶基因之細胞產生之訓練資料170中之資料實例S 的呈遞模型。
於一實施中,訓練模組316藉由以下建模針對肽 pk 針對特異性對偶基因h 之預估呈遞可能性uk
Figure 02_image005
其中 xh k 表示針對肽 pk 及對應MHC對偶基因h 之編碼之對偶基因相互作用變數,f (∙)為任何函數,且出於描述之方便,遍及本文被稱作轉換函數。另外,gh (∙)為任何函數,出於描述之方便,遍及本文被稱作相依函數,及產生基於針對MHC對偶基因h 確定之參數集 θh 之對偶基因相互作用變數 xh k 的相依性分數。各MHC對偶基因h 之該參數集 θh 之值可藉由最小化關於 θh 之損失函數來確定,其中i 為自表現單個MHC對偶基因h 之細胞產生之訓練資料170之子集S 中的各實例。
相依函數gh ( xh k ;θh )之輸出表示MHC對偶基因h 之相依性分數,該分數指示MHC對偶基因h 是否將基於至少對偶基因相互作用特徵 xh k ,及特定言之,基於肽 pk 之肽序列之胺基酸的位置呈遞對應新抗原。例如,若MHC對偶基因h 可能呈遞肽 pk ,則MHC對偶基因h 之相依性分數可具有高的值,及若呈遞係不可能,則可具有低的值。轉換函數f (∙)轉換輸入,及更具體而言,於此情況下,將藉由gh ( xh k ; θh )產生之相依性分數轉換成適宜值以指示肽 pk 將藉由MHC對偶基因呈遞之可能性。
於整篇說明書之其餘部分提及之一特定實施中,f (∙)為具有適宜域範圍之[0, 1]內之範圍之函數。於一實例中,f (∙)為藉由以下給定之場外(expit)函數:
Figure 02_image007
作為另一實例,f (∙)亦可為藉由以下給定之雙曲正切函數:
Figure 02_image009
當域z 之值等於或大於0時。或者,當對具有範圍[0, 1]外之值之質譜離子流作出預測時,f (∙)可為任何函數,諸如恆等函數、指數函數、對數函數及類似者。
因此,肽序列 pk 將藉由MHC對偶基因h 呈遞之按對偶基因可能性可藉由將MHC對偶基因h之相依函數gh (∙)應用於肽序列 pk 之編碼版本以生成對應相依性分數而產生。該相依性分數可藉由轉換函數f (∙)轉換以產生肽序列 pk 將藉由MHC對偶基因h 呈遞之按對偶基因可能性。VIII.B.1 對偶基因相互作用變數之相依函數
於整篇說明書提及之一特定實施中,該相依函數gh (∙)為藉由以下給定之仿射函數:
Figure 02_image011
該仿射函數將 xh k 中之各對偶基因相互作用變數與針對相關MHC對偶基因h 確定之該參數集 θh 中之對應參數線性組合。
於整篇說明書提及之另一特定實施中,該相依函數gh (∙)為藉由以下給定之網路函數:
Figure 02_image013
該函數藉由具有排列於一或多個層中之一系列節點之網路模型NNh (∙)表示。一個節點可通過各者具有該參數集 θh 中之相關參數之連接連接至其他節點。可將一個特定節點處之值表示為連接至藉由與特定節點相關之激活函數映射之相關參數加權之特定節點之節點之值的總和。與仿射函數相反,網路模型係有利的,因為呈遞模型可併入具有不同胺基酸序列長度之非線性及過程資料。具體而言,通過非線性建模,網路模型可捕獲肽序列中之不同位置處之胺基酸之間之相互作用及此相互作用如何影響肽呈遞。
總之,可將網路模型NNh (∙)構造為前饋網路,諸如人工神經網路(ANN)、卷積神經網路(CNN)、深層神經網路(DNN)及/或重複網路(諸如,長短期記憶網路(LSTM)、雙向重複網路、深層雙向重複網路及類似者)。
於整篇說明書之其餘部分提及之一實例中,h=1,2,…, m 中之各MHC對偶基因係與單獨網路模型相關,及NNh (∙)表示自與MHC對偶基因h 相關之網路模型之輸出。
圖5說明與任意MHC對偶基因h= 3相關之實例網路模型NN3 (∙)。如圖5中所示,針對MHC對偶基因h=3 之網路模型NN3 (∙)包括層l=1 處之三個輸入節點,層l=2 處之四個節點,層l=3 處之兩個節點及層l=4 處之一個輸出節點。該網路模型NN3 (∙)係與十個參數集θ3 (1) θ3 (2) θ3 (10)相關。該網路模型NN3 (∙)接收針對MHC對偶基因h=3 之三個對偶基因相互作用變數x3 k (1)、x3 k (2)及x3 k (3)之輸入值(個別資料實例包括編碼之多肽序列資料及使用之任何其他訓練資料)並輸出值NN3 (x3 k )。網路函數亦可包括一或多個網路模型,該等模型各者將不同對偶基因相互作用變數作為輸入。
於另一實例中,經鑑別之MHC對偶基因h=1, 2, …, m 係與單網路模型NNH (∙)相關,且NNh (∙)表示與MHC對偶基因h 相關之單網路模型之一或多個輸出。於此實例中,該參數集 θh 可對應於該單網路模型之參數集,及因此,該參數集 θh 可藉由所有MHC對偶基因共用。
圖6說明藉由MHC對偶基因h=1,2, …,m 共享之實例網路模型NNH (∙)。如圖6中所示,該網路模型NNH (∙)包含各者對應於MHC對偶基因之m 個輸出節點。該網路模型NN3 (∙)接收針對MHC對偶基因h=3 之對偶基因相互作用變數 x3 k 並輸出包含對應於MHC對偶基因h=3 之值NN3 (x3 k )之m 個值。
於又一實例中,可將相依函數 gh (∙) 表示為:
Figure 02_image015
其中g’h ( xh k ; θ’h )為具有參數集 θ’h 之仿射函數、具有針對MHC對偶基因之對偶基因相互作用變數之該參數集中之偏置參數 θh 0 的網路函數或類似者,該偏置參數表示MHC對偶基因h 之基線呈遞概率。
於另一實施中,偏置參數 θh 0 可根據MHC對偶基因h 之基因家族共享。即,MHC對偶基因h 之偏置參數 θh 0 可等於 θ 基因 (h) 0 ,其中基因(h )為MHC對偶基因h 之基因家族。例如,可將I類MHC對偶基因HLA-A*02:01、HLA-A*02:02及HLA-A*02:03分配至「HLA-A」之基因家族,及可共享此等MHC對偶基因各者之偏置參數 θh 0 。作為另一實例,可將II類MHC對偶基因HLA-DRB1:10:01、HLA-DRB1:11:01及HLA-DRB3:01:01分配至「HLA-DRB」之基因家族,及可共享此等MHC對偶基因各者之偏置參數 θh 0
回到方程式(2),作為實例,使用仿射相依函數gh (∙),肽 pk 將藉由m=4 個不同經鑑別之MHC對偶基因中之MHC對偶基因h=3 呈遞之可能性可藉由以下產生:
Figure 02_image017
其中 x3 k 為針對MHC對偶基因h=3 之經鑑別之對偶基因相互作用變數,且 θ3 為針對MHC對偶基因h=3 通過損失函數最小化確定之參數集。
作為另一實例,使用分開網路轉換函數gh (∙),肽 pk 將藉由m=4 個不同經鑑別之MHC對偶基因中之MHC對偶基因h=3 呈遞之可能性可藉由以下產生:
Figure 02_image019
其中 x3 k 為針對MHC對偶基因h=3 之經鑑別之對偶基因相互作用變數,且 θ3 為針對與MHC對偶基因h=3 相關之網路模型NN3 (∙)確定之參數集。
圖7說明使用實例網路模型NN3 (∙),產生與MHC對偶基因h= 3相關之肽 pk 之呈遞可能性。如圖7中所示,該網路模型NN3 (∙)接收針對MHC對偶基因h=3 之對偶基因相互作用變數 x3 k 並產生輸出NN3 ( x3 k )。將該輸出藉由函數 f (∙) 映射以產生預估呈遞可能性uk VIII.B.2. 利用對偶基因非相互作用變數之按對偶基因
於一實施中,訓練模組316併入對偶基因非相互作用變數及藉由以下建模肽 pk 之預估呈遞可能性uk
Figure 02_image021
其中 wk 表示針對肽 pk 之經編碼之對偶基因非相互作用變數,gw (∙)為基於針對對偶基因非相互作用變數確定之參數集 θw 之對偶基因非相互作用變數 wk 的函數。具體而言,針對各MHC對偶基因h 之該參數集 θh 之值及針對對偶基因非相互作用變數之該參數集 θw 之值可藉由最小化關於 θh θw 之損失函數來確定,其中i 為自表現單個MHC對偶基因之細胞產生之訓練資料170之子集S 中的各實例。
相依函數gw ( wk ;θw )之輸出表示對偶基因非相互作用變數之相依性分數,該分數指示肽 pk 是否將藉由基於對偶基因非相互作用變數之影響之一或多個MHC對偶基因呈遞。例如,若肽 pk 係與已知正面影響肽 pk 之呈遞之C-端側接序列相關,則對偶基因非相互作用變數之相依性分數可具有高的值,及若肽 pk 係與已知負面影響肽 pk 之呈遞之C-端側接序列相關,則對偶基因非相互作用變數之相依性分數可具有低的值。
根據方程式(7),肽序列 pk 將藉由MHC對偶基因h 呈遞之按對偶基因可能性可藉由將MHC對偶基因h 之函數gh (∙)應用於肽序列 pk 之編碼版本以產生對偶基因相互作用變數之對應相依性分數而產生。亦將對偶基因非相互作用變數之函數gw (∙)應用於對偶基因非相互作用變數之編碼版本以產生對偶基因非相互作用變數之相依性分數。將兩個分數組合,及將組合之分數藉由轉換函數f (∙)轉換以產生肽序列 pk 將藉由MHC對偶基因h 呈遞之按對偶基因可能性。
或者,訓練模組316可包含對偶基因非相互作用變數 wk ,藉由添加該對偶基因非相互作用變數 wk 至方程式(2)中之對偶基因相互作用變數 xh k 中預測。因此,該呈遞可能性可藉由以下給定:
Figure 02_image023
VIII.B.3 對偶基因非相互作用變數之相依函數
類似於對偶基因相互作用變數之相依函數gh (∙),對偶基因非相互作用變數之相依函數gw (∙)可為仿射函數或網路函數,其中單獨網路模型係與對偶基因非相互作用變數 wk 相關。
具體而言,該相依函數gw (∙)為藉由以下給定之仿射函數:
Figure 02_image025
該函數將 wk 中之對偶基因非相互作用變數與參數集 θw 中之對應參數線性組合。
相依函數gw (∙)亦可為藉由以下給定之網路函數:
Figure 02_image027
其由具有參數集 θw 中之相關參數之網路模型NNw (∙)表示。該網路函數亦可包括各者將不同對偶基因非相互作用變數作為輸入之一或多個網路模型。
於另一實例中,對偶基因非相互作用變數之相依函數gw (∙)可藉由以下給定:
Figure 02_image029
其中g’w ( wk ; θ’w )為具有對偶基因非相互作用參數集 θ’w 之仿射函數、網路函數或類似者,mk 為肽 pk 之mRNA定量量測值,h (∙)為轉換定量量測值之函數,且θw m 為對偶基因非相互作用變數之參數集中之參數,將該參數與mRNA定量測量值組合以產生mRNA定量測量值之相依性分數。於整篇說明書之其餘部分提及之一特定實施例中,h (∙)為對數函數,然而於實務中,h (∙)可為各種不同函數中之任一者。
於又一實例中,對偶基因非相互作用變數之相依函數gw (∙)可藉由以下給定:
Figure 02_image031
其中g’w ( wk ; θ’w )為具有對偶基因非相互作用參數集 θ’w 之仿射函數、網路函數或類似者, ok 為第VII.C.2節中所述之指示向量,其表示針對肽 pk 之人類蛋白質組中之蛋白質及同功異型物,且 θw o 為與該指示向量組合之對偶基因非相互作用變數之參數集中之參數集。於一變化中,當 ok 及參數集 θw o 之維度係顯著高時,當測定該等參數之值時,可將參數正則化項(諸如
Figure 02_image033
,其中||∙||表示L1規範、L2規範、組合或類似者)添加至損失函數中。可通過適宜方法測定超參數λ之最佳值。
於又一實例中,對偶基因非相互作用變數之相依函數gw (∙)可藉由以下給定:
Figure 02_image035
其中g’w ( wk ; θ’w )為具有對偶基因非相互作用參數集 θ’w 之仿射函數、網路函數或類似者,若肽 pk 係來自如上關於對偶基因非相互作用變數所述之源基因l ,則𝟙 (基因( pk =l ))為等於1之指示函數,且 θw l 為指示源基因l 之「抗原性」之參數。於一變化中,當L 係顯著高,及因此參數 θw l=1, 2, …, L 之數目係顯著高時,當測定該等參數之值時,可將參數正則化項(諸如
Figure 02_image037
,其中||∙||表示L1規範、L2規範、組合或類似者)添加至損失函數中。可通過適宜方法測定超參數λ之最佳值。
於又一實例中,對偶基因非相互作用變數之相依函數 gw (∙) 可藉由以下給定:
Figure 02_image039
其中g’w ( wk ; θ’w )為具有對偶基因非相互作用參數集 θ’w 之仿射函數、網路函數或類似者,若肽 pk 係來自源基因l 及若肽 pk 係來自如上關於對偶基因非相互作用變數所述之組織類型m ,則𝟙 (基因( pk )=l ,組織( pk )=m )為等於1之指示函數,且 θw lm 為指示源基因l 與組織類型m 之組合之抗原性的參數。具體而言,針對組織類型m 之基因l 之抗原性可表示組織類型m 之細胞於控制RNA表現及肽序列環境後呈遞來自基因l 之肽之殘餘傾向。
於一變化中,當LM 係顯著高,及因此參數 θw lm=1, 2, …, LM 之數目係顯著高時,當測定該等參數之值時,可將參數正則化項(諸如
Figure 02_image041
,其中||∙||表示L1規範、L2規範、組合或類似者)添加至損失函數中。可通過適宜方法測定超參數λ之最佳值。於另一變化中,當測定該等參數之值時,可將參數正則化項添加至損失函數中使得相同源基因之參數在組織類型之間無顯著差異。例如,諸如以下之懲罰項:
Figure 02_image043
(其中
Figure 02_image045
為跨源基因l 之組織類型之平均抗原性)可懲罰損失函數中之跨不同組織類型之抗原性的標準偏差。
於又一實例中,對偶基因非相互作用變數之相依函數 gw (∙) 可藉由以下給定:
Figure 02_image047
其中g’w ( wk ; θ’w )為具有對偶基因非相互作用參數集 θ’w 之仿射函數、網路函數或類似者,若肽 pk 係來自如上關於對偶基因非相互作用變數所述之源基因l ,則𝟙 (基因( pk =l ))為等於1之指示函數,且 θw l 為指示源基因l 之「抗原性」之參數,及若肽 pk 係來自蛋白質組映射m ,則𝟙 (loc( pk =m ))為等於1之指示函數,且
Figure 02_image049
為指示蛋白質組映射m 為呈遞「熱點」之程度之參數。於一實施例中,蛋白質組映射可包括來自相同蛋白質之n 個鄰近肽之區塊,其中n 為經由適宜方法(諸如網格搜索交叉驗證)確定之模型之超參數。
於實務中,可將方程式(9)、(10)、(11)、(12a)及(12b)中任一者之額外項組合以產生對偶基因非相互作用變數之相依函數gw (∙)。例如,可將方程式(9)中之指示mRNA定量測量值之項h (∙)及方程式(11)、(12a)及(12b)中之指示源基因抗原性之項連同任何其他仿射函數或網路函數加總在一起以產生對偶基因非相互作用變數之相依函數。
回到方程式(7),作為實例,使用仿射轉換函數gh (∙)、gw (∙),肽 pk 將藉由m=4 個不同經鑑別之MHC對偶基因中之MHC對偶基因h=3 呈遞的可能性可藉由以下產生:
Figure 02_image051
其中 wk 為肽 pk 之經鑑別之對偶基因非相互作用變數,且 θw 為針對對偶基因非相互作用變數確定之參數集。
作為另一實例,使用網路轉換函數gh (∙)、gw (∙),肽 pk 將藉由m=4 個不同經鑑別之MHC對偶基因中之MHC對偶基因h=3 呈遞的可能性可藉由以下產生:
Figure 02_image053
其中 wk 為肽 pk 之經鑑別之對偶基因相互作用變數,且 θw 為針對對偶基因非相互作用變數確定之參數集。
圖8說明使用實例網路模型NN3 (∙)及NNw (∙)產生與MHC對偶基因h= 3相關之肽 pk 之呈遞可能性。如圖8中所示,該網路模型NN3 (∙)接收針對MHC對偶基因h=3 之對偶基因相互作用變數 x3 k 並產生輸出NN3 ( x3 k )。該網路模型NNw (∙)接收針對肽 pk 之對偶基因非相互作用變數 wk 並產生輸出NNw ( wk )。將該等輸出組合並藉由函數f (∙)映射以產生預估呈遞可能性uk VIII.C. 多對偶基因模型
訓練模組316亦可構建呈遞模型以預測存在兩個或更多個MHC對偶基因之多對偶基因環境中之肽之呈遞可能性。於此情況下,訓練模組316可訓練基於自表現單個MHC對偶基因之細胞、表現多個MHC對偶基因之細胞或其組合產生之訓練資料170中之資料實例S 的呈遞模型。VIII.C.1. 實例 1 :按對偶基因模型之最大值
於一實施中,訓練模組316將與多個MHC對偶基因集H 相關之肽 pk 之預估呈遞可能性uk 建模為針對基於表現單對偶基因之細胞確定之該集H 中之MHC對偶基因h 各者確定之呈遞可能性uk h H 的函數,如以上結合方程式(2)至(10)所述。具體而言,該呈遞可能性uk 可為uk h H 之任何函數。於一實施中,如方程式(11)、(12a)及(12b)中所示,該函數為最大值函數,及可將該呈遞可能性uk 確定為該組H 中之各MHC對偶基因h 之呈遞可能性的最大值。
Figure 02_image055
VIII.C.2. 實例 2.1 :和函數模型
於一實施中,訓練模組316藉由以下建模肽 pk 之預估呈遞可能性uk
Figure 02_image057
其中元素ah k 針對與肽序列 pk 相關之多個MHC對偶基因H 為1且 xh k 表示針對肽 pk 及對應MHC對偶基因之編碼之對偶基因相互作用變數。針對各MHC對偶基因h 之參數集 θh 之值可藉由最小化關於 θh 之損失函數來確定,其中i 為自表現單個MHC對偶基因之細胞及/或表現多個MHC對偶基因之細胞產生之訓練資料170之子集S中的各實例。相依函數 gh 可呈以上第VIII.B.1節中引入之相依函數 gh 中之任一者的形式。
根據方程式(13),肽序列 pk 將藉由一或多個MHC對偶基因h 呈遞之呈遞可能性可藉由將相依函數gh (∙)應用於針對MHC對偶基因H 各者之肽序列 pk 之編碼版本以產生對偶基因相互作用變數之對應分數而產生。將各MHC對偶基因h 之分數組合,及藉由轉換函數f (∙)轉換以產生肽序列 pk 將藉由該組MHC對偶基因H 呈遞之呈遞可能性。
方程式(13)之呈遞模型不同於方程式(2)之按對偶基因模型,因為各肽 pk 之相關對偶基因之數目可大於1。換言之,ah k 中之一個以上元素可針對與肽序列 pk 相關之多個MHC對偶基因H 具有1之值。
作為實例,使用仿射轉換函數gh (∙),肽 pk 將藉由m=4 個不同經鑑別之MHC對偶基因中之MHC對偶基因h=2 h=3 呈遞之可能性可藉由以下產生:
Figure 02_image059
其中 x2 k x3 k 為針對MHC對偶基因h=2 h=3 之經鑑別之對偶基因相互作用變數,且 θ2 θ3 為針對MHC對偶基因h=2 h=3 確定之參數集。
作為另一實例,使用網路轉換函數gh (∙)、gw (∙),肽 pk 將藉由m=4 個不同經鑑別之MHC對偶基因中之MHC對偶基因h=2 h=3 呈遞之可能性可藉由以下產生:
Figure 02_image061
其中NN2 (∙) NN3 (∙)為針對MHC對偶基因h=2 h=3 之經鑑別之網路模型,且 θ2 θ3 為針對MHC對偶基因h=2 h=3 確定之參數集。
圖9說明使用實例網路模型NN2 (∙)及NN3 (∙)產生與MHC對偶基因h= 2、h= 3相關之肽 pk 之呈遞可能性。如圖9中所示,該網路模型NN2 (∙)接收針對MHC對偶基因h=2 之對偶基因相互作用變數 x2 k 並產生輸出NN2 ( x2 k )及該網路模型式NN3 (∙)接收針對MHC對偶基因h=3 之對偶基因相互作用變數 x3 k 並產生輸出NN3 ( x3 k )。將該等輸出組合及藉由函數f (∙)映射以產生預估呈遞可能性uk VIII.C.3. 實例 2.2 :利用對偶基因非相互作用變數之和函數模型
於一實施中,訓練模組316將對偶基因非相互作用變數合並且藉由以下建模肽 pk 之預估呈遞可能性uk
Figure 02_image063
其中 wk 表示針對肽 pk 之經編碼之對偶基因非相互作用變數。具體而言,針對各MHC對偶基因h 之參數集 θh 及針對對偶基因非相互作用變數之參數集 θw 之值可藉由最小化關於 θh θw 之損失函數來確定,其中i 為自表現單個MHC對偶基因之細胞及/或表現多個MHC對偶基因之細胞產生之訓練資料170之子集S中的各實例。相依函數 gw 可呈以上第VIII.B.3節中引入之相依函數 gw 中之任一者的形式。
因此,根據方程式(14),肽序列 pk 將藉由一或多個MHC對偶基因H 呈遞之呈遞可能性可藉由將函數gh (∙)應用於MHC對偶基因H 各者之肽序列 pk 之編碼版本以產生針對各MHC對偶基因h 之對偶基因相互作用變數之對應相依性分數而產生。亦將對偶基因非相互作用變數之函數gw (∙)應用於對偶基因非相互作用變數之編碼版本以產生對偶基因非相互作用變數之相依性分數。將該等分數組合,及將組合之分數藉由轉換函數f (∙)轉換以產生肽序列 pk 將藉由MHC對偶基因H 呈遞之呈遞可能性。
於方程式(14)之呈遞模型中,針對各肽 pk 之相關對偶基因之數目可大於1。換言之,ah k 中之一個以上元素可針對與肽序列 pk 相關之多個MHC對偶基因H 具有1之值。
作為實例,使用仿射轉換函數gh (∙)、gw (∙),肽 pk 將藉由m=4 個不同經鑑別之MHC對偶基因中之MHC對偶基因h=2 h=3 呈遞之可能性可藉由以下產生:
Figure 02_image065
其中 wk 為針對肽 pk 之經鑑別之對偶基因非相互作用變數,且 θw 為針對對偶基因非相互作用變數確定之參數集。
作為另一實例,使用網路轉換函數gh (∙)、gw (∙),肽 pk 將藉由m=4 個不同經鑑別之MHC對偶基因中之MHC對偶基因h=2 h=3 呈遞之可能性可藉由以下產生:
Figure 02_image067
其中 wk 為針對肽 pk 之經鑑別之對偶基因相互作用變數,且 θw 為針對對偶基因非相互作用變數確定之參數集。
圖10說明使用實例網路模型NN2 (∙)、NN3 (∙)及NNw (∙)產生與MHC對偶基因h= 2、h= 3相關之肽 pk 之呈遞可能性。如圖10中所示,該網路模型NN2 (∙)接收針對MHC對偶基因h=2 之對偶基因相互作用變數 x2 k 且產生輸出NN2 ( x2 k )。該網路模型NN3 (∙)接收針對MHC對偶基因h=3 之對偶基因相互作用變數 x3 k 且產生輸出NN3 ( x3 k )。該網路模型NNw (∙)接收針對肽 pk 之對偶基因非相互作用變數 wk 且產生輸出NNw ( wk )。將該等輸出組合並藉由函數f (∙)映射以產生預估呈遞可能性uk
或者,訓練模組316可包含對偶基因非相互作用變數 wk ,藉由將該對偶基因非相互作用變數 wk 添加至方程式(15)中之對偶基因相互作用變數 xh k 中預測。因此,呈遞可能性可藉由以下給定:
Figure 02_image069
VIII.C.4. 實例 3.1 :使用內隱按對偶基因可能性之模型
於另一實施中,訓練模組316藉由以下建模肽 pk 之預估呈遞可能性uk
Figure 02_image071
其中元ah k 針對與肽序列 pk 相關之多個MHC對偶基因h H 為1,u’k h 為MHC對偶基因h 之內隱按對偶基因呈遞可能性,向量 v 為其中元素vh 對應於ah k ∙ u’k h 之向量,s (∙)為映射 v 之元素之函數,且r (∙)為剪輯輸入至給定範圍之值之剪輯函數。如下更詳細所述,s (∙)可為和函數或二階函數,但是應瞭解,於其他實施例中,s (∙)可為任何函數,諸如最大值函數。針對內隱按對偶基因可能性之參數集 θ 之值可藉由最小化關於 θ 之損失函數來確定,其中i 為自表現單個MHC對偶基因之細胞及/或表現多個MHC對偶基因之細胞產生之訓練資料170之子集S中的各實例。
可將方程式(16)之呈遞模型中之呈遞可能性建模為各者對應於肽 pk 將藉由個別MHC對偶基因h 呈遞之可能性之內隱按對偶基因呈遞可能性u’k h 的函數。該內隱按對偶基因可能性有別於第VIII.B節之按對偶基因呈遞可能性,因為內隱按對偶基因可能性之參數可自多對偶基因環境學習,其中經呈遞之肽與對應MHC對偶基因之間之直接關聯係未知,除了單對偶基因環境外。因此,於多對偶基因環境中,該呈遞模型不但可評估肽 pk 是否將藉由作為整體之MHC對偶基因集H 呈遞,而且亦可提供指示哪些MHC對偶基因h 最可能呈遞肽 pk 之個別可能性u’k h H 。此之優點為該呈遞模型可在無表現單個MHC對偶基因之細胞之訓練資料下產生內隱可能性。
於整篇說明書之其餘部分中提及之一特定實施中,r (∙)為具有範圍[0, 1]之函數。例如,r (∙)可為剪輯函數:
Figure 02_image073
其中選擇z 與1之間之最小值作為呈遞可能性uk 。於另一實施中,當域z 之值等於或大於0時,r (∙)為藉由以下給定之雙曲正切函數:
Figure 02_image075
VIII.C.5. 實例 3.2 :和函數模型
於一特定實施中,s (∙)為和函數,且呈遞可能性藉由加總內隱按對偶基因呈遞可能性來給定:
Figure 02_image077
於一實施中,MHC對偶基因h 之內隱按對偶基因呈遞可能性藉由以下產生:
Figure 02_image079
使得呈遞可能性藉由以下評估:
Figure 02_image081
根據方程式(19),肽序列 pk 將藉由一或多個MHC對偶基因H 呈遞之呈遞可能性可藉由將函數gh (∙)應用於針對MHC對偶基因H 各者之肽序列 pk 之編碼版本以產生對偶基因相互作用變數之對應相依性分數而產生。將各相依性分數首先藉由函數f (∙)轉換以產生內隱按對偶基因呈遞可能性u’k h 。將該等按對偶基因可能性u’k h 組合,及可將剪輯函數應用於該等組合可能性以將值剪輯至範圍[0, 1]以產生肽序列 pk 將藉由該組MHC對偶基因H 呈遞之呈遞可能性。相依函數 gh 可呈以上第VIII.B.1節中引入之相依函數 gh 中之任一者的形式。
作為實例,使用仿射轉換函數gh (∙),肽 pk 將藉由m=4 個不同經鑑別之MHC對偶基因中之MHC對偶基因h=2 h=3 呈遞之可能性可藉由以下產生:
Figure 02_image083
其中 x2 k x3 k 為針對MHC對偶基因h=2 h=3 之經鑑別之對偶基因相互作用變數,且 θ2 θ3 為針對MHC對偶基因h=2 h=3 確定之參數集。
作為另一實例,使用網路轉換函數gh (∙)、gw (∙),肽 pk 將藉由m=4 個不同經鑑別之MHC對偶基因中之MHC對偶基因h=2 h=3 呈遞之可能性可藉由以下產生:
Figure 02_image085
其中NN2 (∙)、NN3 (∙)為針對MHC對偶基因h=2 h=3 之經鑑別之網路模型,且 θ2 θ3 為針對MHC對偶基因h=2 h=3 確定之參數集。
圖11說明使用實例網路模型NN2 (∙)及NN3 (∙)產生與MHC對偶基因h= 2、h= 3相關之肽 pk 之呈遞可能性。如圖11中所示,該網路模型NN2 (∙)接收針對MHC對偶基因h=2 之對偶基因相互作用變數 x2 k 且產生輸出NN2 ( x2 k )及該網路模型NN3 (∙)接收針對MHC對偶基因h=3 之對偶基因相互作用變數 x3 k 且產生輸出NN3 ( x3 k )。將各輸出藉由函數f (∙)映射且組合以產生預估呈遞可能性uk
於另一實施中,當對質譜離子流之對數作出預測時,r (∙)為對數函數且f (∙)為指數函數。VIII.C.6. 實例 3.3 :具有對偶基因非相互作用變數之和函數模型
於一實施中,MHC對偶基因h 之內隱按對偶基因呈遞可能性藉由以下產生:
Figure 02_image087
使得呈遞可能性藉由以下產生:
Figure 02_image089
以合併對偶基因非相互作用變數對肽呈遞之影響。
根據方程式(21),肽序列 pk 將藉由一或多個MHC對偶基因H 呈遞之呈遞可能性可藉由將函數gh (∙)應用於針對MHC對偶基因H 各者之肽序列 pk 之編碼版本以產生針對各MHC對偶基因h 之對偶基因相互作用變數之對應相依性分數而產生。亦將對偶基因非相互作用變數之函數gw (∙)應用於對偶基因非相互作用變數之編碼版本以產生對偶基因非相互作用變數之相依性分數。將對偶基因非相互作用變數之分數組合至對偶基因相互作用變數之相依性分數各者。將該等組合分數各者藉由函數f (∙)轉換以產生內隱按對偶基因呈遞可能性。將該等內隱可能性組合,及可將剪輯函數應用於組合輸出以將值剪輯至範圍[0,1]以產生肽序列 pk 將藉由MHC對偶基因H 呈遞之呈遞可能性。相依函數 gw 可呈以上第VIII.B.3節中引入之相依函數 gw 中之任一者的形式。
作為實例,使用仿射轉換函數gh (∙)、gw (∙),肽 pk 將藉由m=4 個不同經鑑別之MHC對偶基因中之MHC對偶基因h=2 h=3 呈遞之可能性可藉由以下產生:
Figure 02_image091
其中 wk 為針對肽 pk 之經鑑別之對偶基因非相互作用變數,且 θw 為針對對偶基因非相互作用變數確定之參數集。
作為另一實例,使用網路轉換函數gh (∙)、gw (∙),肽 pk 將藉由m=4 個不同經鑑別之MHC對偶基因中之MHC對偶基因h=2 h=3 呈遞之可能性可藉由以下產生:
Figure 02_image093
其中 wk 為針對肽 pk 之經鑑別之對偶基因相互作用變數,且 θw 為針對對偶基因非相互作用變數確定之參數集。
圖12說明使用實例網路模型NN2 (∙)、NN3 (∙)及NNw (∙)產生與MHC對偶基因h=2 h= 3相關之肽 pk 之呈遞可能性。如圖12中所示,該網路模型NN2 (∙)接收針對MHC對偶基因h=2 之對偶基因相互作用變數 x2 k 且產生輸出NN2 ( x2 k )。該網路模型NNw (∙)接收針對肽 pk 之對偶基因非相互作用變數 wk 且產生輸出NNw ( wk )。將該等輸出組合及藉由函數f (∙)映射。該網路模型NN3 (∙)接收針對MHC對偶基因h=3 之對偶基因相互作用變數 x3 k 且產生輸出NN3 ( x3 k ),將該輸出再次與相同網路模型NNw (∙)之輸出NNw ( wk )組合及藉由函數f (∙)映射。將兩種輸出組合以產生預估呈遞可能性uk
於另一實施中,MHC對偶基因h 之內隱按對偶基因呈遞可能性藉由以下產生:
Figure 02_image095
使得呈遞可能性藉由以下產生:
Figure 02_image097
VIII.C.7. 實例 4 :二階模型
於一實施中,s (∙)為二階函數,且肽 pk 之預估呈遞可能性uk 藉由以下給定:
Figure 02_image099
其中元u’k h 為MHC對偶基因h 之內隱按對偶基因呈遞可能性。針對內隱按對偶基因可能性之參數集 θ 之值可藉由最小化關於 θ 之損失函數來確定,其中i 為自表現單個MHC對偶基因之細胞及/或表現多個MHC對偶基因之細胞產生之訓練資料170之子集S中的各實例。該等內隱按對偶基因呈遞可能性可呈上述方程式(18)、(20)及(22)中所示之任何形式。
於一態樣中,方程式(23)之模型可暗示存在肽 pk 將同時藉由兩個MHC對偶基因呈遞之可能性,其中藉由兩個HLA對偶基因之呈遞係統計上獨立的。
根據方程式(23),肽序列 pk 將藉由一或多個MHC對偶基因H 呈遞之呈遞可能性可藉由組合內隱按對偶基因呈遞可能性並自總和減去各對MHC對偶基因將同時呈遞肽 pk 之可能性以產生肽序列 pk 將藉由MHC對偶基因H 呈遞之呈遞可能性而產生。
作為實例,使用仿射轉換函數gh (∙),肽 pk 將藉由m=4 個不同經鑑別之HLA對偶基因中之HLA對偶基因h=2 h=3 呈遞之可能性可藉由以下產生:
Figure 02_image101
其中 x2 k x3 k 為針對HLA對偶基因h=2 h=3 之經鑑別之對偶基因相互作用變數,且 θ2 θ3 為針對HLA對偶基因h=2 h=3 確定之參數集。
作為另一實例,使用網路轉換函數gh (∙)、gw (∙),肽 pk 將藉由m=4 個不同經鑑別之HLA對偶基因中之HLA對偶基因h=2 h=3 呈遞之可能性可藉由以下產生:
Figure 02_image103
其中NN2 (∙)、NN3 (∙)為針對HLA對偶基因h=2 h=3 之經鑑別之網路模型,且 θ2 θ3 為針對HLA對偶基因h=2 h=3 確定之參數集。 VIII.D.泛對偶基因模型
與按對偶基因模型相比,泛對偶基因模型為能預測肽基於泛對偶基因之呈遞可能性之呈遞模型。具體而言,不像能預測肽將藉由先前用於訓練按對偶基因模型之一或多個已知MHC對偶基因呈遞之概率之按對偶基因模型,該泛對偶基因模型為能預測肽將藉由任何MHC對偶基因呈遞之概率之呈遞模型,該MHC對偶基因包括該模型先前在訓練期間未遇到之未知MHC對偶基因。
簡言之,該泛對偶基因模型藉由訓練模組316訓練。類似於訓練按對偶基因模型,訓練模組316可基於自表現單個MHC對偶基因之細胞、表現多個MHC對偶基因之細胞或其組合產生之訓練資料170中之資料實例S訓練該泛對偶基因呈遞模型。然而,並非使用特定MHC對偶基因或MHC對偶基因特定集 ak h 訓練該泛對偶基因呈遞模型,訓練模組316使用訓練資料170中可得之所有MHC對偶基因肽序列 dh 訓練該泛對偶基因呈遞模型。具體而言,訓練模組316基於訓練資料170中可得之MHC對偶基因之胺基酸之位置訓練該泛對偶基因呈遞模型。
於已訓練該泛對偶基因模型後,當將肽序列及已知或未知MHC對偶基因肽序列輸入至該模型以確定該已知或未知MHC對偶基因將呈遞該肽之概率時,該模型能藉由使用利用相似MHC對偶基因肽序列訓練期間學習之資訊來精確預測此概率。例如,使用不含有任何出現之A*02:07對偶基因之訓練資料170訓練之泛對偶基因模型仍可藉由利用相似對偶基因(例如,A*02基因家族中之對偶基因)訓練期間學習之資訊來精確預測肽藉由A*02:07對偶基因之呈遞。以此方式,單個呈遞泛對偶基因模型可預測任何MHC對偶基因上之肽之呈遞可能性。VIII.D.2. 泛對偶基因模型之優勢
泛對偶基因呈遞模型之主要優勢為該泛對偶基因呈遞模型較按對偶基因呈遞模型具有更大通用性。如上所指出,按對偶基因模型能預測肽將藉由用於訓練按對偶基因模型之一或多個經鑑別之MHC對偶基因呈遞的概率。換言之,按對偶基因模型係與一或多個已知MHC對偶基因之有限集相關。
因此,給定含有一或多個MHC對偶基因特定集之樣品,為測定肽藉由該MHC對偶基因特定集呈遞之概率,選擇使用使用該MHC對偶基因特定集訓練之按對偶基因模型。換言之,當依賴按對偶基因模型預測肽將藉由MHC對偶基因呈遞之概率時,可僅對已於訓練資料170中出現之MHC對偶基因作出預測。因為大量MHC對偶基因存在(特定言之,相同基因家族內之較小變化),將需要極大量訓練樣品以訓練待配備之按對偶基因呈遞模型作出對所有MHC對偶基因之肽呈遞預測。
相比之下,泛對偶基因模型不限於對在其上訓練之一或多個MHC對偶基因特定集作出預測。相反,在使用期間,該泛對偶基因模型能藉由使用在利用相似MHC對偶基因肽序列訓練期間學習之資訊來精確預測先前所見及/或先前未見之MHC對偶基因將呈遞給定肽之概率。因此,該泛對偶基因模型與一或多個MHC對偶基因特定集不相關,且能預測肽將藉由任何MHC對偶基因呈遞之概率。泛對偶基因模型之此通用性意指可使用單個模型預測任何肽將藉由任何MHC對偶基因呈遞之可能性。因此,泛對偶基因模型之使用減少為最大化如上第VII.A.節中所定義之個體HLA覆蓋度及群體HLA度覆蓋二者所需之訓練資料的量。VIII.D.3. 泛對偶基因模型之使用
以下第VIII.D.4.至VIII.D.7.節中之討論關注使用泛對偶基因模型預測肽將藉由一或多個MHC對偶基因呈遞之概率。出於簡便,此討論在假設泛對偶基因模型已藉由訓練模組316訓練下操作。以下關於第VIII.D.8.節更詳細討論泛對偶基因模型之訓練。
此外,以下第VIII.D.4.至VIII.D.6.節中之討論關於使用泛對偶基因模型預測肽將藉由給定樣品中之單個MHC對偶基因及/或多個MHC對偶基因呈遞之可能性。然而,如下關於第VIII.D.7.節進一步詳細所述,在使用泛對偶基因模型預測肽將藉由樣品中之單個MHC對偶基因呈遞之可能性與使用泛對偶基因模型預測肽將藉由樣品中之多個MHC對偶基因呈遞之可能性之間存在細微差異。
簡言之,當使用泛對偶基因模型預測肽將藉由單個MHC對偶基因呈遞之可能性時,對該泛對偶基因模型提供一組輸入,如下更詳細所述,及該泛對偶基因模型產生單個輸出。
另一方面,當使用泛對偶基因模型預測肽將藉由多個MHC對偶基因呈遞之可能性時,對多個MHC對偶基因之各MHC對偶基因迭代使用該泛對偶基因模型。具體而言,當使用該泛對偶基因模型預測肽將藉由多個MHC對偶基因呈遞之可能性時,對該泛對偶基因模型提供與多個MHC對偶基因之第一個MHC對偶基因相關之第一組輸入,及該泛對偶基因模型產生該第一個MHC對偶基因之第一個輸出。然後,對該泛對偶基因模型提供與多個MHC對偶基因之第二個MHC對偶基因相關之第二組輸入,及該泛對偶基因模型產生該第二個MHC對偶基因之第二個輸出。對多個MHC對偶基因之各MHC對偶基因迭代進行此過程。最後,將藉由針對多個MHC對偶基因之各MHC對偶基因之泛對偶基因模型產生之輸出組合以產生多個MHC對偶基因呈遞給定肽之單個概率,如關於第VIII.D.7.節所述。 VIII.D.4.泛對偶基因模型之概觀
於一實施中,使用泛對偶基因模型評估針對對偶基因h 之肽 pk 之呈遞可能性uk 。於一些實施例中,泛對偶基因模型藉由以下方程式表示:
Figure 02_image105
其中 pk 表示肽序列, dh 表示MHC對偶基因h 之肽序列,f (∙)為任何轉換函數,且gH (∙)為任何相依函數。該泛對偶基因模型基於針對所有MHC對偶基因確定之共享參數集 θH 產生肽序列 pk 及MHC對偶基因肽序列 dh 之相依性分數。在泛對偶基因模型之訓練期間學習該組共享參數 θH 之值及以下第VIII.D.8.節中更詳細討論。
相依函數gH ([ pk dh ]; θH )之輸出表示MHC對偶基因h 之相依性分數,該分數指示MHC對偶基因h 是否將基於至少肽序列 pk 之胺基酸之位置及MHC對偶基因肽序列 dh 之胺基酸之位置呈遞肽 pk 。例如,若MHC對偶基因h 可能呈遞輸入MHC對偶基因肽序列 dh 給定之肽 pk ,則MHC對偶基因h 之相依性分數可具有高的值,及若呈遞係不可能,則可具有低的值。轉換函數f (∙)轉換該輸入,及更具體而言,於此情況下,將藉由gH ([ pk dh ]; θH )產生之相依性分數轉換成適宜值以指示肽 pk 將藉由MHC對偶基因h 呈遞之可能性。
於整篇說明書之其餘部分提及之一特定實施中,f (∙)為具有適宜域範圍之[0, 1]內之範圍之函數。於一實例中,f (∙)為場外函數。作為另一實例,當域z 之值等於或大於0時,f (∙)亦可為雙曲正切函數。或者,當對具有範圍[0, 1]外之值之質譜粒子流作出預測時,f (∙)可為任何函數,諸如恆等函數、指數函數、對數函數及類似者。
因此,肽序列 pk 將藉由MHC對偶基因h 呈遞之可能性可藉由將相依函數gH (∙)應用於肽序列 pk 之經編碼版本及MCH對偶基因肽序列 dh 之編碼版本以產生對應相依性分數而產生。該相依性分數可藉由轉換函數f (∙)轉換以產生肽序列 pk 將藉由MHC對偶基因h 呈遞之可能性。 VIII.D.5.對偶基因相互作用變數之相依函數
於整篇說明書提及之一特定實施中,該相依函數gH (∙)為藉由以下給定之仿射函數:
Figure 02_image107
其中
Figure 02_image109
為截距,
Figure 02_image111
表示肽 pk 之位置i 處之殘基,
Figure 02_image113
表示MHC對偶基因h 之位置j 處之殘基,1[] 表示指示變數,若同類項內部之條件真的,則其值為1及否則為0,若肽 pk 之位置i 處之胺基酸為胺基酸k
Figure 02_image115
係真及否則為假,若MHC對偶基因h 之位置j 處之胺基酸為胺基酸l ,則
Figure 02_image117
係真及否則為假,
Figure 02_image119
表示所建模之肽之長度,
Figure 02_image121
表示模型中考慮之MHC殘基之數目,且
Figure 02_image123
為係數,該係數描述具有在肽之位置i 處之殘基k 及在MHC對偶基因之位置j 處之殘基l 對呈遞可能性的貢獻。此為獨熱編碼之肽序列及獨熱編碼之MHC對偶基因序列之線性模型,具有針對所有肽殘基及MHC對偶基因殘基之肽殘基-MHC殘基相互作用。
於整篇說明書提及之另一特定實施中,該相依函數gH (∙)為藉由以下給定之網路函數:
Figure 02_image125
其藉由具有於一或多個層中排列之一系列節點之網路模型NNH (∙)表示。節點可通過各者具有參數 θH 集中之相關參數之連接連接至其他節點。可將一特定節點處之值表示為連接至藉由與該特定節點相關之激活函數映射之相關參數加權之特點節點之節點值的總和。與仿射函數相比,網路模型係有利的,因為該呈遞模型可將具有不同長度之胺基酸序列之非線性及處理資料合併。具體而言,通過非線性建模,網路模型可捕獲肽序列中之不同位置處之胺基酸之間之相互作用,以及MHC對偶基因肽序列中之不同位置處之胺基酸之間之相互作用,及此等相互作用如何影響肽呈遞。
一般而言,可將網路模型NNH (∙)構造為前饋網路,諸如人工神經網路(ANN)、卷積神經網路(CNN)、深層神經網路(DNN)及/或重複網路(諸如長短期記憶網路(LSTM)、雙向重複網路、深層雙向重複網路及類似者)。
於一實例中,該單個網路模型NNH (∙)可為輸出經編碼之肽序列 pk 及MHC對偶基因h 之經編碼之蛋白質序列 dh 給定之相依性分數的網路模型。於此實例中,該參數 θH 集可對應於單個網路模型之參數集,及因此,該參數集 θH 可藉由所有MHC對偶基因共享。因此,於此實例中,NNH (∙)可表示該單個網路模型之任何輸入[ pk dh ] 給定之該單個網路模型NNH (∙)之輸出。如上所討論,此網路模型係有利的,因為訓練資料中未知之MHC對偶基因之肽呈遞概率可僅藉由鑑別MHC對偶基因之蛋白質序列來預測。
圖13說明由MHC對偶基因共享之實例網路模型NNH (∙)。如圖13中所示,該網路模型NNH (∙)接收肽序列 pk 及MHC對偶基因h 之蛋白質序列 dh 作為輸入,且輸出對應於MHC對偶基因h 之相依性分數NNH ([ pk dh ])。
圖14說明實例網路模型NNH (∙)。如圖14中所示,該網路模型NNH (∙)包括層l=1 處之四個輸入節點、層l=2 處之五個節點、層l=3 處之兩個節點、及層l=4 處之一個輸出節點。於替代實施例中,該網路模型NNH (∙)可含有任何數目之層,且各層可含有任何數目之節點。該網路模型NNH (∙)係與一組十三個非零參數θH (1), θH (2), …, θH (13)相關。此等參數説明通過該網路模型轉換自節點至節點傳播之值。
如圖14中所示,該網路模型NNH (∙)之層l=1 處之四個輸入節點接收包括經編碼之多肽序列資料及經編碼之MHC對偶基因肽序列資料之輸入值。該經編碼之多肽序列資料含有肽之胺基酸序列,及該經編碼之MHC對偶基因肽序列資料含有可(或不可)呈遞肽之MHC對偶基因之胺基酸序列。於某些實施例中,一旦經由層l=1 處之輸入節點輸入至該網路模型NNH (∙),就將經編碼之多肽序列連接至該網路模型NNH (∙)之層內之經編碼之MHC對偶基因肽序列之前面。然後根據該等參數值將此等輸入值通過該網路模型NNH (∙)傳播。於一些實施例中,網路模型NNH (∙)之層包括兩個完全連接之密集網路層。於其他實施例中,此等兩個完全連接之密集網路層之第一層包含具有修正線性單元激活函數之64至128個節點。於甚至其他實施例中,此等兩個完全連接之密集網路層之第二層包含具有線性輸出之單個節點。於此等實施例中,此單個節點可為網路模型NNH (∙)之輸出節點。最後,該網路模型NNH (∙)輸出值NNH ([pk dh ­ ] )。此輸出表示MHC對偶基因h 之相依性分數,該分數指示MHC對偶基因h 是否將呈遞肽序列 pk 。網路函數亦可包括各者採用不同對偶基因相互作用變數(例如,肽序列)作為輸入之一或多個網路模型。
於又一實例中,可將該相依函數gH (∙)表示為:
Figure 02_image127
其中g’H ([ pk dh ]; θ’H )為具有參數集 θ’H 之仿射函數、具有表示任何MHC對偶基因呈遞之基線概率之針對對偶基因相互作用變數之共享參數集 θH 中之偏置參數 θH 0 的網路函數或類似者。
於另一實施中,該偏置參數 θH 0 可根據MHC對偶基因h 之基因家族共享。即,MHC對偶基因h 之偏置參數 θH 0 可等於 θ 基因 (h) 0 ,其中基因 (h )為MHC對偶基因h 之基因家族。例如,可將I類MHC對偶基因HLA-A*02:01、HLA-A*02:02及HLA-A*02:03指定為「HLA-A」之基因家族,及可共享此等MHC對偶基因各者之偏置參數 θH 0 。作為另一實例,可將II類MHC對偶基因HLA-DRB1:10:01、HLA-DRB1:11:01及HLA-DRB3:01:01指定為「HLA-DRB」之基因家族,及可共享此等MHC對偶基因各者之偏置參數 θH 0 。如上所討論,基因家族可為與MHC對偶基因h 相關之對偶基因相互作用變數中之一者。
回到方程式(23),作為實例,使用仿射相依函數gH (∙),肽 pk 將藉由MHC對偶基因h 呈遞之可能性可藉由以下產生:
Figure 02_image129
其中
Figure 02_image109
為截距,
Figure 02_image111
表示肽 pk 之位置i 處之殘基,
Figure 02_image113
表示MHC對偶基因h 之位置j 處之殘基,1[] 表示指示變數,若同類項內部之條件係真的,則其值為1及否則為0,若肽 pk 之位置i 處之胺基酸為胺基酸k
Figure 02_image115
係真的及否則為假,若MHC對偶基因h 之位置j 處之胺基酸為胺基酸l ,則
Figure 02_image117
係真的及否則為假,
Figure 02_image119
表示所建模之肽之長度,
Figure 02_image121
表示模型中考慮之MHC殘基之數目,且
Figure 02_image123
為係數,該係數描述具有在肽之位置i 處之殘基k 及在MHC對偶基因之位置j 處之殘基l 對呈遞可能性的貢獻。此為獨熱編碼之肽序列及獨熱編碼之MHC對偶基因序列之線性模型,具有針對所有肽殘基及MHC對偶基因殘基之肽殘基-MHC殘基相互作用。
作為另一實例,使用網路轉換函數gH (∙),肽 pk 將藉由MHC對偶基因h 呈遞之可能性可藉由以下產生:
Figure 02_image131
其中 pk 表示肽序列, dh 表示MHC對偶基因h 之肽序列,且 θH 為針對與所有MHC對偶基因相關之網路模型NNH (∙)確定之參數集。
圖15說明使用實例共享網路模型NNH (∙)產生與MHC對偶基因h 相關之肽 pk 之呈遞可能性。如圖15中所示,該共享網路模型NNH (∙)接收肽序列 pk 及MHC對偶基因肽序列 dh ,並產生輸出NNH ([ pk dh ])。該輸出藉由函數f (∙)映射以產生預估呈遞可能性uk 。 VIII.D.6.對偶基因非相互作用變數
如上所討論,對偶基因非相互作用變數包括影響獨立於MHC對偶基因之類型之肽之呈遞的資訊。例如,對偶基因非相互作用變數可包括肽之N端及C端上之蛋白質序列、呈遞肽之蛋白質家族、肽之源基因之RNA表現水平及任何額外對偶基因非相互作用變數。
於一實施中,訓練模組316以如關於按對偶基因模型及多對偶基因模型所述之類似方式將對偶基因非相互作用變數併入泛對偶基因呈遞模型中。例如,於一些實施例中,可將對偶基因非相互作用變數作為輸入輸入至自針對對偶基因相互作用變數使用之相依函數分離之相依函數中。於此等實施例中,可將兩個單獨相依函數之輸出加總,及可將所得總和輸入至轉換函數以產生呈遞預測。以上第VIII.B.2.、VIII.B.3.、VIII.C.3.及VIII.C.6.中討論將對偶基因非相互作用變數併入泛對偶基因模型中之此等實施例以及其他。 VIII.D.7.多對偶基因樣品
如上所述,測試樣品可含有多個MHC對偶基因而非單個MHC對偶基因。事實上,取自自然之大多數樣品包含一個以上MHC對偶基因。例如,各人類基因組含有六個MHC I類基因座。因此,含有人類基因組之樣品可含有至多六個不同MHC I類對偶基因。因此,含有多個MHC對偶基因而非單個MHC對偶基因之樣品為現實測試案例之典型樣品。
於測試樣品含有多個MHC對偶基因之實施例中,可採用以上第VIII.D.4.至VIII.D.6.節中所述之泛對偶基因模型來確定來自測試樣品之給定肽藉由多個MHC對偶基因呈遞之概率。然而,如上簡述,當使用該泛對偶基因模型預測肽將藉由多個MHC對偶基因呈遞之可能性時,針對多個MHC對偶基因之各MHC對偶基因反復使用上述泛對偶基因模型。換言之,針對多個MHC對偶基因之各MHC對偶基因,可將MHC對偶基因肽序列及肽序列獨立地輸入至藉由所有MHC對偶基因共享之相依函數中。基於此等輸入,藉由該相依函數產生對應於MHC對偶基因之輸出。針對多個MHC對偶基因之各MHC對偶基因迭代進行此過程。因此,多個MHC對偶基因之各MHC對偶基因係獨立地與相依函數之輸出相關。然後將與多個MHC對偶基因之各MHC對偶基因相關之輸出組合。
可如關於第VIII.C.至VIII.C.7.節所述,將與多個MHC對偶基因之各MHC對偶基因相關之相依函數之輸出組合。如關於第VIII.C.至VIII.C.7.節所述,組合相依函數之多個輸出之方式可變化。例如,於一些實施例中,可將相依函數迭代之輸出加總,及可將所得總和輸入至轉換函數以產生呈遞預測。可將捕獲此實施例之方程式寫作:
Figure 02_image133
其中T為含有多個對偶基因之樣品中之獨特MHC對偶基因之總數目。於替代實施例中,可將相依函數反覆運算之各個別輸出輸入至轉換函數中,及可將自該等轉換函數之所得輸出加總以產生呈遞預測。可將捕獲此替代實施例之方程式寫作:
Figure 02_image135
此等實施例以及其他(其中將相依函數之多個輸出組合以預測肽將於多對偶基因環境中呈遞之概率)進一步於以上第VIII.C.至VIII.C.7.節中討論。 VIII.D.8.泛對偶基因模型之訓練
訓練泛對偶基因模型涉及最佳化與相依函數相關之共享參數集 θH 之各參數之值。具體而言,將參數 θH 最佳化使得相依函數能輸出相依性分數,該等分數精確指示給定MHC對偶基因是否將呈遞給定肽序列。
為最佳化參數 θH 之值,使用訓練資料170。如上所提及,用於訓練該模型之該訓練資料170可包括含有表現單個MHC對偶基因之細胞之訓練樣品,含有表現多個MHC對偶基因之細胞之訓練樣品,或含有表現單個MHC對偶基因及多個MHC對偶基因二者之組合之細胞之訓練樣品。因此,將來自訓練資料170之各資料實例i 輸入至泛對偶基因模型中,及更具體而言,輸入至泛對偶基因模型之相依函數中。例如,於某些實施例中,可將MHC對偶基因肽序列及肽序列輸入至泛對偶基因模型中。然後該泛對偶基因模型如同以上關於第VIII.D.3.至VIII.D.7.節所述之常規使用之模型處理此等輸入。然而,不像第VIII.D.3.至VIII.D.7.節中描述之泛對偶基因模型之操作期間,在泛對偶基因模型之訓練期間,亦將肽呈遞之已知結果輸入至該模型中。換言之,亦將標記yi 輸入至該模型中。於輸入至該泛對偶基因模型中之訓練樣品含有表現多個MHC對偶基因之細胞之實施例中,針對該樣品中之多個MHC對偶基因之各對偶基因將yi 設置為1。
於使用資料實例i 對泛對偶基因模型各次迭代後,該模型確定MHC對偶基因呈遞肽之預測概率與已知標記yi 之間之差異。然後,為最小化此差異,該泛對偶基因模型修改參數 θH 。換言之,該泛對偶基因模型藉由最小化關於 θH 之損失函數來確定參數 θH 之值。當該泛對偶基因模型達成某個水平之預測精度時,該訓練完成且該模型如第VIII.D.3.至VIII.D.7.節中所述隨時可用。 VIII.D.9.泛對偶基因模型實例
下列實例比較實例按對偶基因呈遞模型及實例泛對偶基因呈遞模型之預測精度(即,陽性預測值)。於此實例中,使用相同訓練資料集訓練該按對偶基因呈遞模型及該泛對偶基因呈遞模型。於訓練後,使用六個測試樣品測試該按對偶基因呈遞模型及該泛對偶基因呈遞模型。請注意,該訓練資料集含有各測試樣品中測試之各MHC對偶基因之充足訓練資料。下表2顯示當使用該按對偶基因模型及該泛對偶基因模型時,在40%召回率下之預測精度(或陽性預測值)。因為於六個樣品中測試之各MHC對偶基因之充足訓練資料,該按對偶基因模型略勝於該泛對偶基因模型平均0.04精度。
Figure 108106921-A0304-0003
2
然而,可於關於圖16至22所討論之替代實驗中觀察到泛對偶基因模型預測不包含於用於訓練該模型之訓練資料集中之MHC對偶基因之呈遞可能性的能力。
圖16至22描述經設計以測試泛對偶基因模型預測未經訓練之MHC對偶基因將呈遞給定肽之概率之能力的實驗結果。特定言之,圖16至18描述經設計以測試包括神經網路模型之泛對偶基因模型預測未經訓練之MHC對偶基因將呈遞給定肽之概率之能力的實驗結果。另一方面,圖19至22描述經設計以測試包括非神經網路模型之泛對偶基因模型預測未經訓練之MHC對偶基因將呈遞給定肽之概率之能力的實驗結果。
首先轉向與圖16至18相關之實驗,為證明包括神經網路模型之泛對偶基因模型預測未經訓練之MHC對偶基因將呈遞給定肽之概率之能力,將藉由包括未在測試下利用MHC對偶基因訓練之神經網路模型之泛對偶基因模型產生的預測與藉由在測試下利用MHC對偶基因訓練之相同泛對偶基因模型產生之預測相比。換言之,該等泛對偶基因模型之間之獨特差異為訓練其之訓練資料集。尚未在包含所測試之HLA對偶基因之樣品上訓練之泛對偶基因模型的預測精度相對於已在包含所測試之HLA對偶基因之樣品上訓練之泛對偶基因的預測精度越高,則泛對偶基因模型預測未用於訓練該泛對偶基因模型之MHC對偶基因之呈遞可能性之能力越高。
如上所指出,在用不同訓練資料集訓練之前,與圖16至18相關之實驗內使用之泛對偶基因模型係相同。亦如上所指出,與圖16至18相關之實驗內使用之泛對偶基因模型各者包括神經網路模型作為其相依函數。於泛對偶基因模型中使用之神經網路模型含有單個隱層。神經網路模型之隱層之間之激活函數為修正線性單元(ReLU)函數,f(x) = max(0, x)。神經網路模型之最後一層包括線性激活層,f(x) = x。神經網路模型之每個分網路之隱單元之數目係取決於至該神經網路模型之輸入。具體而言,針對經構建以接收mRNA豐度之神經網路模型,該神經網路模型之mRNA豐度分網路中之隱單元之數目為16。針對經構建以接收經編碼之側接序列之神經網路模型,該神經網路模型之側接序列分網路中之隱單元之數目為32。針對經構建以接收經編碼之多肽序列之神經網路模型,該神經網路模型之多肽序列分網路中之隱單元之數目為256。針對經構造以接收經編碼之多肽序列及經編碼之MHC對偶基因肽序列之神經網路模型(如於泛對偶基因模型之情況下),該神經網路模型之多肽及MHC對偶基因肽序列分網路中之隱單元之數目為128。
與圖16至18相關之各實驗包含獨特測試樣品,各獨特測試樣品包含不同HLA對偶基因。為證明藉由此等實驗產生之結果不限於特定基因座,選擇來自三個基因座A、B及C各者之對偶基因。因此,第一測試樣品含有HLA-A對偶基因,第二樣品含有HLA-B對偶基因,及第三樣品含有HLA-C對偶基因。具體而言,第一測試樣品含有HLA對偶基因A*02:03,第二測試樣品含有HLA對偶基因B*54:01,及第三測試樣品含有HLA對偶基因C*08:02。此等HLA對偶基因各者之蛋白質序列係獲自由Anthony Nolan Research Institute維護之HLA蛋白質序列之資料庫(https://www.ebi.ac.uk/ipd/mgt/hla/)。
針對三種樣品各者,將特定HLA對偶基因之蛋白質序列及所討論之肽之蛋白質序列輸入至尚未使用HLA對偶基因訓練之第一泛對偶基因模型中,及輸入至已使用HLA對偶基因訓練之第二相同泛對偶基因模型中。該等泛對偶基因模型輸出HLA對偶基因將呈遞肽之經預測之概率。將此等經預測之概率與肽呈遞之已知結果(即,標記yi )相比以產生圖16至18中所示之精度/召回曲線。具體而言,圖16對應於藉由第一測試樣品之泛對偶基因模型輸出之資料,圖17對應於藉由第二測試樣品之泛對偶基因模型輸出之資料,及圖18對應於藉由第三測試樣品之泛對偶基因模型輸出之資料。於各圖中,藍色線證明已在包含所測試之HLA對偶基因之樣品上訓練之泛對偶基因模型的精度/召回曲線,及橙色線證明尚未在包含所測試之HLA對偶基因之任何樣品上訓練之泛對偶基因模型的精度/召回曲線。此外,各圖指示經訓練及未經訓練之泛對偶基因模型二者之平均預測精度(即,陽性預測值)。例如,如圖18中所見,已在包含所測試之HLA對偶基因之樣品上訓練之泛對偶基因模型之平均預測精度為0.256及尚未在包含所測試之HLA對偶基因之樣品上訓練之泛對偶基因模型之平均預測精度為0.231。
如圖16至18中所示,即使由橙色線表示之泛對偶基因模型在測試下從未看到HLA對偶基因,此等泛對偶基因模型能達成與在訓練期間在測試下已看到HLA對偶基因之由藍色線表示之泛對偶基因模型可比較的表現。因此,此等結果證明包括神經網路模型之泛對偶基因模型精確預測不用於訓練該泛對偶基因模型之HLA對偶基因之呈遞可能性的能力。
接下來轉向與圖19至22相關之實驗,為證明包括非神經網路模型之泛對偶基因模型預測未經訓練之MHC對偶基因將呈遞給定肽之概率的能力,於各實驗中比較四個模型之表現。該等四個模型包括:如上關於圖16至18所述之包括神經網路模型之泛對偶基因呈遞模型、由1,000個樹組成之現成隨機森林模型、擬合多元高斯(Gaussians)之現成二次判別分析(QDA)模型及擬合針對各對偶基因之明顯前饋完全連接之神經網路之目前申請專利當時之技術水平的MHC 1類結合親和力模型MHCFlurry。該隨機森林模型及二次判別模型均基於包括非神經網路模型之泛對偶基因模型建構。
與圖19至22相關之各實驗包含測試樣品,且各測試樣品包含HLA對偶基因。為證明藉由此等實驗產生之結果不限於特定基因座,選擇來自三個基因座A、B及C各者之對偶基因。因此,第一測試樣品及第二測試樣品含有HLA-A對偶基因,第三樣品含有HLA-B對偶基因,及第四樣品含有HLA-C對偶基因。具體而言,第一測試樣品及第二測試樣品含有HLA對偶基因A*02:01,第三測試樣品含有HLA對偶基因B*44:02,及第四測試樣品含有HLA對偶基因C*08:02。此等HLA對偶基因各者之蛋白質序列係獲自由Anthony Nolan Research Institute維護之HLA蛋白質序列之資料庫(https://www.ebi.ac.uk/ipd/mgt/hla/ )。
在訓練用於預測四種測試樣品各者之呈遞可能性之四種模型期間,將泛對偶基因呈遞模型、隨機森林模型及二次判別模型各者在單對偶基因資料上訓練,該單對偶基因資料由來自31個不同對偶基因之9聚體組成且包括HLA-A、HLA-B及HLA-C。另一方面,MHCFlurry模型藉由其作者使用IEDB及BD2013結合親和力資料集之子集(包括來自HLA-A、HLA-B及HLA-C之對偶基因)訓練。將各對偶基因利用8個神經網路之系集個別建模,及將對偶基因名稱直接傳遞至模型以選擇哪種對偶基因子模型用於產生呈遞預測。[76]。
用於訓練四種測試樣品各者之四種模型之特定對偶基因係取決於給定測試樣品內含有之HLA對偶基因。具體而言,針對含有HLA對偶基因A*02:01之第一測試樣品,用於訓練該等四種模型以預測HLA對偶基因A*02:01之呈遞可能性之訓練資料包括該HLA對偶基因A*02:01。針對含有HLA對偶基因A*02:01之第二測試樣品,用於訓練該等四種模型以預測HLA對偶基因A*02:01之呈遞可能性之訓練資料不包括該HLA對偶基因A*02:01。針對含有HLA對偶基因B*44:02之第三測試樣品,用於訓練該等四種模型以預測HLA對偶基因A*44:02之呈遞可能性之訓練資料不包括該HLA對偶基因B*44:02。針對含有HLA對偶基因C*08:02之第四測試樣品,用於訓練該等四種模型以預測HLA對偶基因A*08:02之呈遞可能性之訓練資料不包括該HLA對偶基因C*08:02。
在對四種樣品各者測試期間,在保留單對偶基因資料集上測試各模型,該資料集包含給定樣品中之HLA對偶基因,且由約250,000個肽組成(計算經呈遞肽及未經呈遞肽二者)。具體而言,在對四種樣品各者測試期間,泛對偶基因呈遞模型、隨機森林模型及二次判別模型各者接收相同輸入。特定言之,針對四種樣品各者,該泛對偶基因呈遞模型、該隨機森林模型及該二次判別模型各者接收該樣品內之HLA對偶基因之34聚體獨熱編碼之HLA對偶基因蛋白質序列,及所討論之肽之9聚體獨熱編碼(即,二值化)之蛋白質序列。另一方面,針對四種樣品各者,該MHCFlurry模型接收該樣品內之HLA對偶基因之名稱,及所討論之肽之9聚體獨熱編碼(即,二值化)之蛋白質序列。如上所述,該等模型之間之輸入中之此差異為構造MHCFlurry模型以使用對偶基因名稱選擇哪種對偶基因子模型用於產生呈遞預測之事實的結果。
於此等輸入至四種模型後,然後該等四種模型各者輸出HLA對偶基因將呈遞肽之預測之概率。將此等預測之概率與肽呈遞之已知結果(即,標記yi )相比以產生圖19至22中所示之精度/召回曲線。具體而言,圖19對應於藉由第一測試樣品之四種模型各者輸出之資料,圖20對應於藉由第二測試樣品之四種模型各者輸出之資料,圖21對應於藉由第三測試樣品之四種模型各者輸出之資料,及圖22對應於藉由第四測試樣品之四種模型各者輸出之資料。於各圖中,藍色線證明泛對偶基因模型之精度/召回曲線,橙色線證明MHCFlurry模型之精度/召回曲線,綠色線證明隨機森林模型之精度/召回曲線,及紅色線證明二次判別模型之精度/召回曲線。此外,各圖指示該等模型各者之平均預測精度(即,陽性預測值)。例如,如圖19中所見,泛對偶基因模型之平均預測精度為0.32。
如圖19至22中所示,均使用包含非神經網路模型之泛對偶基因模型架構之隨機森林模型及二次判別模型均進行約兩次,以及MHCFlurry模型。此外,包含神經網路模型之泛對偶基因呈遞模型進行約兩次,以及使用包含非神經網路模型之泛對偶基因模型架構之隨機森林模型及二次判別模型。換言之,包含神經網路模型之泛對偶基因呈遞模型相對於其他模型達成最高精度。然而,使用包含非神經網路模型之泛對偶基因模型架構之隨機森林模型及二次判別模型仍勝過定製按對偶基因結合親和力模型MHCFlurry。因此,此等結果證明泛對偶基因模型架構可極好推廣至如基於決策樹之隨機森林及貝葉斯(Bayesian)方法(如二次判別分析)變化之其他非神經網路機器學習模型,同時仍提供高水平之預測精度。
此外,如圖20至22中進一步所示,即使泛對偶基因呈遞模型、隨機森林模型及二次判別模型在測試下從未見到HLA對偶基因,此等模型(包括均使用包含非神經網路模型之泛對偶基因模型架構之隨機森林模型及二次判別模型)能達成對應於圖19之模型之可比較的表現,其在訓練期間在測試下已看到HLA對偶基因。因此,此等結果證明包含非神經網路之泛對偶基因模型架構精確預測不用於訓練該模型之HLA對偶基因之呈遞可能性的能力。IX. 實例 5 :預測模組
預測模組320使用呈遞模型接收序列資料並選擇該序列資料中之候選新抗原。具體而言,序列資料可為自患者之腫瘤組織細胞提取之DNA序列、RNA序列及/或蛋白質序列。預測模組320將序列資料處理成針對MHC-I具有8至15個胺基酸或針對MHC-II具有6至30個胺基酸之複數個肽序列 pk 。例如,預測模組320可將給定序列「IEFROEIFJEF」處理成具有9個胺基酸之三種肽序列「IEFROEIFJ」、「EFROEIFJE」及「FROEIFJEF」。於一實施例中,預測模組320可藉由將自患者之正常組織細胞提取之序列資料與自患者之腫瘤組織細胞提取之序列資料比較以鑑別含有一或多個突變之部分來鑑別為突變肽序列之候選新抗原。
預測模組320將呈遞模型中之一或多者應用於經處理之肽序列以評估肽序列之呈遞可能性。具體而言,預測模組320可藉由將呈遞模型應用於候選新抗原來選擇可能在腫瘤HLA分子上呈遞之一或多個候選新抗原肽序列。於一實施中,預測模組320選擇具有在預定臨限值以上之預估呈遞可能性之候選新抗原序列。於另一實施中,該呈遞模型選擇具有最高預估呈遞可能性之v 個候選新抗原序列(其中v 一般為可於疫苗中遞送之抗原決定基之最大數目)。可將包含針對給定患者之經選定之候選新抗原之疫苗注射至該患者中以誘導免疫反應。X. 實例 6 :患者選擇模組
患者選擇模組324基於患者是否滿足納入標準選擇用於疫苗治療及/或T-細胞療法之患者子集。於一實施例中,基於如藉由呈遞模型產生之患者新抗原候選之呈遞可能性確定該納入標準。藉由調整該納入標準,患者選擇模組324可基於其新抗原候選之呈遞可能性調整將接受疫苗及/或T-細胞療法之患者之數目。具體而言,嚴格納入標準導致將利用疫苗及/或T-細胞療法治療之患者之更少數目,但是可導致接受有效治療(例如,1或多個腫瘤特異性新抗原(TSNA)及/或1或多個新抗原響應性T-細胞)之經疫苗及/或T-細胞療法治療之患者之更高比率。另一方面,寬鬆納入標準導致將利用疫苗及/或利用T-細胞療法治療之患者之更高數目,但是可導致接受有效治療之經疫苗及/或T-細胞療法治療之患者之更低比率。患者選擇模組324基於將接受治療之患者之目標比率與接受有效治療之患者之比率之間的所需平衡修改納入標準。
於一些實施例中,用於選擇接受疫苗治療之患者之納入標準與用於接受T-細胞療法之患者之納入標準相同。然而,於替代實施例中,用於選擇接受疫苗治療之患者之納入標準可與用於選擇接受T-細胞療法之患者之納入標準不同。下列第X.A節及第X.B節各自討論用於選擇接受疫苗治療之患者之納入標準及用於選擇接受T-細胞療法之患者之納入標準。X.A. 針對疫苗治療之患者選擇
於一實施例中,患者係與v 個新抗原候選之對應治療子集相關,該等新抗原候選可潛在地包含於針對具有疫苗容量v 之患者之定製疫苗中。於一實施例中,患者之治療子集為具有如藉由呈遞模型所測定之最高呈遞可能性之新抗原候選。例如,若疫苗可包含v =20個抗原決定基,則該疫苗可包含具有如藉由呈遞模型所測定之最高呈遞可能性之各患者之治療子集。然而,應瞭解,於其他實施例中,患者之治療子集可基於其他方法確定。例如,患者之治療子集可自患者之新抗原候選組隨機選擇或可基於建模肽序列之結合親和力或穩定性之目前申請專利當時之技術水平模型或包含來自呈遞模型之呈遞可能性及關於彼等肽序列之親和力或穩定性資訊之因素的一些組合部分確定。
於一實施例中,若患者之腫瘤突變負擔等於最小突變負擔或在最小突變負擔以上,則患者選擇模組324確定該患者滿足納入標準。患者之腫瘤突變負擔(TMB)指示腫瘤外顯子組中之非同義突變之總數目。於一實施中,若患者之TMB之絕對數目等於預定臨限值或在預定臨限值以上,則患者選擇模組324可選擇該患者用於疫苗治療。於另一實施中,若患者之TMB係於針對患者組測定之TMB值中之臨限值百分位內,則該患者選擇模組324可選擇該患者用於疫苗治療。
於另一實施例中,若基於患者之治療子集之患者之效用得分等於最小效用得分或在最小效用得分以上,則患者選擇模組324確定該患者滿足納入標準。於一實施中,該效用得分為來自治療子集之呈遞新抗原之預估數目的量度。
呈遞新抗原之預估數目可藉由將新抗原呈遞建模為一或多個概率分佈之隨機變數來預測。於一實施中,患者i 之效用得分為來自治療子集或其一些函數之呈遞新抗原候選之期望數目。作為實例,可將各新抗原之呈遞建模為伯努利(Bernoulli)隨機變數,其中呈遞(成功)概率藉由新抗原候選之呈遞可能性給定。具體而言,針對各者具有最高呈遞可能性ui1 ui2 、…、uiv v 個新抗原候選 pi1 pi2 piv 之治療子集Si ,新抗原候選 pij 之呈遞藉由隨機變數Aij 給定,其中:
Figure 02_image137
呈遞新抗原之期望數目藉由加總各新抗原候選之呈遞可能性給定。換言之,可將患者i 之效用得分表示為:
Figure 02_image139
該患者選擇模組324選擇具有等於最小功效或在最小功效以上之效用得分之患者子集用於疫苗治療。
於另一實施中,患者i 之效用得分為將呈遞至少臨限值數目之新抗原k 之概率。於一實例中,將新抗原候選之治療子集Si 中之呈遞新抗原之數目建模為泊松二項(Poisson Binomial)隨機變數,其中呈遞(成功)概率藉由抗原決定基各者之呈遞可能性給定。具體而言,患者i 之呈遞新抗原之數目可藉由隨機變數Ni 給定,其中:
Figure 02_image141
其中PBD(∙)表示泊松二項分佈。將呈遞至少臨限值數目之新抗原k 之概率藉由加總呈遞新抗原之數目Ni 將等於k 或在k 以上之概率給定。換言之,可將患者i 之效用得分表示為:
Figure 02_image143
該患者選擇模組324選擇具有等於最小功效或在最小功效以上之效用得分之患者子集用於疫苗治療。
於另一實施中,患者i 之效用得分為具有對患者之HLA對偶基因中之一或多者之固定臨限值(例如,500 nM)以下之結合親和力或預測親和力之新抗原候選之治療子集Si 中之新抗原的數目。於一實例中,該固定臨限值為自1000 nM至10 nM之範圍。視情況,該效用得分可僅計算如經由RNA-seq表現之檢測到之彼等新抗原。
於另一實施中,患者i 之效用得分為具有對患者之HLA對偶基因中之一或多者之結合親和力在隨機肽對該HLA對偶基因之結合親和力之臨限值百分位或臨限值百分位以下之新抗原候選之治療子集Si 中之新抗原的數目。於一實例中,該臨限值百分位為自第10個百分位至第0.1個百分位之範圍。視情況,該效用得分可僅計算如經由RNA-seq表現之檢測到之彼等新抗原。
應瞭解關於方程式(25)及(27)說明之產生效用得分之實例僅係說明性,且該患者選擇模組324可使用其他統計或概率分佈以產生效用得分。X.B. 針對 T- 細胞療法之患者選擇
於另一實施例中,代替或除了接受疫苗治療外,患者可接受T-細胞療法。如同疫苗治療,於患者接受T-細胞療法之實施例中,該患者可與如上所述之v 個新抗原候選之對應治療子集相關。v 個新抗原候選之此治療子集可用於活體外鑑別來自患者之T細胞,該等T細胞對v 個新抗原候選中之一或多者反應。然後可將此等經鑑別之T細胞擴增及融合至患者中用於定製之T-細胞療法。
可在兩個不同時間點選擇患者接受T-細胞療法。第一點係於使用該等模型對患者預測v 個新抗原候選之治療子集後,但是在對v 個新抗原候選之預測治療子集特異性之T細胞之活體外篩選之前。第二點係於對v 個新抗原候選之預測治療子集特異性之T細胞之活體外篩選後。
首先,可於對患者預測v 個新抗原候選之治療子集後,但是在對v 個新抗原候選之預測子集特異性之患者之T細胞的活體外鑑別之前選擇患者接受T-細胞療法。具體而言,因為來自患者之新抗原特異性T細胞之活體外篩選可係昂貴的,所以若患者更可能具有新抗原特異性T-細胞,則可期望僅選擇患者以篩選新抗原特異性T-細胞。為在活體外T-細胞篩選步驟之前選擇患者,可使用用於選擇用於疫苗治療之患者之相同標準。具體而言,於一些實施例中,若患者之腫瘤突變負擔等於如上所述之最小突變負擔或在最小突變負擔以上,則該患者選擇模組324可選擇該患者接受T-細胞療法。於另一實施例中,若基於患者之v 個新抗原候選之治療子集之患者之效用得分等於如上所述之最小效用得分或在最小效用得分以上,則該患者選擇模組324可選擇該患者接受T-細胞療法。
其次,除了或代替在對v 個新抗原候選之預測子集特異性之患者之T細胞的活體外鑑別之前選擇患者接受T-細胞療法,亦可於對v 個新抗原候選之預測治療子集特異性之T細胞的活體外鑑別後選擇患者接受T-細胞療法。具體而言,若在用於新抗原鑑別之患者之T-細胞之活體外篩選期間,針對患者鑑別至少臨限值數量之新抗原特異性TCR,則可選擇該患者接受T-細胞療法。例如,只有在針對患者鑑別至少兩個新抗原特異性TCR之情況下,或只有在針對兩個不同新抗原鑑別新抗原特異性TCR之情況下,可選擇該患者接受T-細胞療法。
於另一實施例中,只有在藉由患者之TCR識別患者之v 個新抗原候選之治療子集之至少臨限值數量之新抗原的情況下,可選擇該患者接受T-細胞療法。例如,只有在藉由患者之TCR識別患者之v 個新抗原候選之治療子集之至少一個新抗原的情況下,可選擇該患者接受T-細胞療法。於其他實施例中,只有在患者之至少臨限值數量之TCR經鑑別為對特定HLA限制類別之新抗原肽具有新抗原特異性的情況下,可選擇該患者接受T-細胞療法。例如,只有在患者之至少一個TCR經鑑別為新抗原特異性HLA I類限制性新抗原肽的情況下,可選擇該患者接受T-細胞療法。
於甚至其他實施例中,只有在藉由患者之TCR識別至少臨限值數量之特定HLA限制類別之新抗原肽的情況下,可選擇該患者接受T-細胞療法。例如,只有在藉由患者之TCR識別至少一個HLA I類限制性新抗原肽之情況下,可選擇該患者接受T-細胞療法。作為另一實例,只有在藉由患者之TCR識別至少兩個HLA II類限制性新抗原肽之情況下,可選擇該患者接受T-細胞療法。以上標準之任何組合亦可用於於對患者之v 個新抗原候選之預測治療子集特異性之T-細胞的活體外鑑別後選擇患者接受T-細胞療法。XI. 實例 7 :顯示實例患者選擇表現之實驗結果
第X節中所述之患者選擇方法的有效性藉由在各者與模擬新抗原候選之測試集相關之模擬患者集上進行患者選擇來測試於,其中已知模擬新抗原之子集存在於質譜資料中。具體而言,測試集中之各模擬新抗原候選係與標記相關,該標記指示新抗原是否於來自Bassani-Sternberg資料集(資料集「D1」) (資料可見於www.ebi.ac.uk/pride/archive/projects/PXD0000394中)之多對偶基因JY細胞株HLA-A*02:01及HLA-B*07:02質譜資料集中呈遞。如下結合圖23A更詳細所述,基於非小細胞肺癌(NSCLC)患者中之突變負擔之已知頻率分佈,模擬患者之許多新抗原候選自人類蛋白質組取樣。
使用訓練集訓練相同HLA對偶基因之按對偶基因呈遞模型,該訓練集為來自IEDB資料集(資料集「D2」) (資料可見於http://www.iedb.org/doc/mhc_ligand_full.zip 中)之單對偶基因HLA-A*02:01及HLA-B*07:02質譜資料之子集。具體而言,各對偶基因之呈遞模型為方程式(8)中所示之按對偶基因模型,該方程式利用網路相依函數gh (∙)gw (∙) 及場外函數f(∙) 將N-端及C-端側接序列合併為對偶基因非相互作用變數。對偶基因HLA-A*02:01之呈遞模型產生給定肽將在對偶基因HLA-A*02:01上呈遞之呈遞可能性、給定肽序列作為對偶基因相互作用變數及N-端及C-端側接序列作為對偶基因非相互作用變數。對偶基因HLA-B*07:02之呈遞模型產生給定肽將在對偶基因HLA-B*07:02上呈遞之呈遞可能性、給定肽序列作為對偶基因相互作用變數及N-端及C-端側接序列作為對偶基因非相互作用變數。
如下列實例及參考圖23A至23E所述,將各種模型(諸如用於肽結合預測之訓練呈遞模型及目前申請專利當時之技術水平模型)應用於各模擬患者之新抗原候選之測試集以基於該等預測鑑別患者之不同治療子集。滿足納入標準之患者經選擇用於疫苗治療,且與包含抗原決定基於患者之治療子集中之定製疫苗相關。治療子集之大小根據不同疫苗容量變化。在用於訓練呈遞模型之訓練集與模擬新抗原候選之測試集之間不引入重疊。
於下列實例中,分析具有包含於疫苗中之抗原決定基中之至少一定數目之呈遞新抗原之選定患者的比率。此統計指示模擬疫苗遞送將引起患者之免疫反應之潛在新抗原的有效性。具體而言,若於質譜資料集D2中存在新抗原,則呈遞測試集中之模擬新抗原。具有呈遞新抗原之患者之高比率指示經由新抗原疫苗藉由誘導免疫反應成功治療之潛力。XI.A. 實例 7A NSCLC 癌症患者之突變負擔之頻率分佈
圖23A說明NSCLC患者之突變負擔之樣品頻率分佈。可(例如)在癌症基因組圖譜(TCGA) (https://cancergenome.nih.gov )下發現突變負擔及不同腫瘤類型(包括NSCLC)之突變。x-軸表示各患者中之非同義突變之數目,且y-軸表示具有給定數目之非同義突變之樣品患者之比率。圖23A中之樣品頻率分佈顯示3至1786個突變之範圍,其中30%之患者具有少於100個突變。雖然於圖23A中未顯示,但是研究指示突變負擔於吸煙者中相較於非吸煙者中係更高,及突變負擔可為負載於患者中之新抗原之強的指標。
如在以上第XI節之開始所介紹,將許多模擬患者各者與新抗原候選之測試集相關聯。各患者之測試集藉由自圖23A中針對各患者所示之頻率分佈對突變負擔mi 取樣而產生。針對各突變,隨機選擇來自人類蛋白質組之21-mer肽序列以表示模擬突變序列。針對患者i 之新抗原候選序列之測試集藉由鑑別跨21-mer之突變之各(8, 9, 10, 11)-mer肽序列產生。各新抗原候選係與標記相關,該標記指示新抗原候選序列是否存在於質譜D1資料集中。例如,存在於資料集D1中之新抗原候選序列可與標記「1」相關,而不存在於資料集D1中之序列可與標記「0」相關。如下更詳細所述,圖23B至23E說明基於測試集中之患者之經呈遞之新抗原之患者選擇的實驗結果。XI.B. 實例 7B :具有基於突變負擔納入標準之新抗原呈遞之選定患者的比例
圖23B說明針對基於患者是否滿足最小突變負擔之納入標準選擇之患者之模擬疫苗中之經呈遞之新抗原的數目。鑑別於對應測試中具有至少一定數量之經呈遞之新抗原之選定患者的比例。
於圖23B中,x-軸指示基於最小突變負擔自疫苗治療排除之患者之比率,如藉由標記「突變之最小數目」所指示。例如,「突變之最小數目」200處之資料點指示患者選擇模組324僅選擇具有至少200個突變之突變負擔之模擬患者之子集。作為另一實例,「突變之最小數目」300處之資料點指示患者選擇模組324選擇具有至少300個突變之模擬患者之較低比率。y-軸指示與無任何疫苗容量v 之測試集中之至少一定數量之經呈遞之新抗原相關之選定患者的比率。具體而言,上圖顯示呈遞至少1個新抗原之選定患者之比率,中圖顯示呈遞至少2個新抗原之選定患者之比率,及下圖顯示呈遞至少3個新抗原之選定患者之比率。
如圖23B中所指示,具有經呈遞之新抗原之選定患者之比率隨著更高突變負擔顯著增加。此指示作為納入標準之突變負擔可有效用於選擇患者,新抗原疫苗對該等患者更可能成功誘導免疫反應。XI.C. 實例 7C :藉由呈遞模型鑑別之疫苗之新抗原呈遞相對於藉由申請專利當時之技術水平模型鑑別之疫苗之新抗原呈遞的比較
圖23C比較與包含基於呈遞模型鑑別之治療子集之疫苗相關之選定患者與與包含透過目前申請專利當時之技術水平模型鑑別之治療子集之疫苗相關之選定患者之間之模擬疫苗中之經呈遞之新抗原的數目。左圖假設受限疫苗容量v =10,及右圖假設受限疫苗容量v= 20。基於指示經呈遞之新抗原之預期數目之效用得分選擇患者。
於圖23C中,實線指示與包含基於對偶基因HLA-A*02:01及HLA-B*07:02之呈遞模型鑑別之治療子集之疫苗相關的患者。針對各患者之治療子集藉由將呈遞模型各者應用於測試集中之序列及鑑別具有最高呈遞可能性之v 個新抗原候選來鑑別。虛線指示與包含基於單對偶基因HLA-A*02:01之目前申請專利當時之技術水平模型NETMHCpan鑑別之治療子集之疫苗相關的患者。在http://www.cbs.dtu.dk/services/NetMHCpan 詳細提供NETMHCpan之實施細節。針對各患者之治療子集藉由將NETMHCpan模型應用於測試集中之序列及鑑別具有最高預估結合親和力之v 個新抗原候選來鑑別。兩個圖之x-軸指示基於預期效用得分自疫苗治療排除之患者之比率,該等評分指示基於呈遞模型鑑別之治療子集中之經呈遞之新抗原之預期數目。如參考第X節中之方程式(25)所述測定預期效用得分。y-軸指示呈遞包含於疫苗中之至少一定數量之新抗原(1、2或3個新抗原)之選定患者的比率。
如圖23C中所指示,與包含基於呈遞模型之治療子集之疫苗相關之患者較與包含基於申請專利當時之技術水平模型之治療子集之疫苗相關之患者以顯著更高速率接受含有經呈遞之新抗原之疫苗。例如,如右圖中所示,與基於呈遞模型之疫苗相關之80%之選定患者相較於與基於目前申請專利當時之技術水平模型之疫苗相關之僅40%之選定患者接受疫苗中之至少一種經呈遞之新抗原。結果指示如本文中所述之呈遞模型有效用於選擇可能引起治療腫瘤之免疫反應之疫苗之新抗原候選。XI.D. 實例 7D HLA 覆蓋度對通過呈遞模型鑑別之疫苗之新抗原呈遞的影響
圖23D比較與包含基於HLA-A*02:01之單按對偶基因呈遞模型鑑別之治療子集之疫苗相關之選定患者與與包含基於HLA-A*02:01及HLA-B*07:02之按對偶基因呈遞模型二者鑑別之治療子集之疫苗相關之選定患者之間之模擬疫苗中之經呈遞之新抗原的數目。將疫苗容量設置為v =20個抗原決定基。針對各實驗,基於不同治療子集測定之預期效用得分選擇患者。
於圖23D中,實線指示與包含基於HLA對偶基因HLA-A*02:01及HLA-B*07:02之呈遞模型二者之治療子集之疫苗相關的患者。針對各患者之治療子集藉由將呈遞模型各者應用於測試集中之序列及鑑別具有最高呈遞可能性之v 個新抗原候選來鑑別。虛線指示與包含基於HLA對偶基因HLA-A*02:01之單呈遞模型之治療子集之疫苗相關的患者。針對各患者之治療子集藉由將僅單個HLA對偶基因之呈遞模型應用於測試集中之序列及鑑別具有最高呈遞可能性之v 個新抗原候選來鑑別。針對實線圖,x-軸指示基於藉由兩種呈遞模型鑑別之治療子集之預期效用得分自疫苗治療排除之患者的比率。針對虛線圖,x-軸指示基於藉由單個呈遞模型鑑別之治療子集之預期效用得分自疫苗治療排除之患者的比率。y-軸指示呈遞至少一定數量之新抗原(1、2或3個新抗原)之選定患者的比率。
如圖23D中所指示,與包含藉由兩種HLA對偶基因之呈遞模型鑑別之治療子集之疫苗相關之患者較與包含藉由單個呈遞模型鑑別之治療子集之疫苗相關之患者在顯著更高速率下呈遞新抗原。結果指示建立具有高HLA對偶基因覆蓋度之呈遞模型之重要性。XI.E. 實例 7E :藉由突變負擔選擇之患者之新抗原呈遞相對於藉由經呈遞之新抗原之預期數目選擇之患者之新抗原呈遞的比較
圖23E比較基於突變負擔選擇之患者與藉由預期效用得分選擇之患者之間之模擬疫苗中之經呈遞之新抗原的數目。基於藉由具有v=20 個抗原決定基之大小之呈遞模型鑑別之治療子集測定預期效用得分。
於圖23E中,實線指示基於與包含藉由呈遞模型鑑別之治療子集之疫苗相關之預期效用得分選擇的患者。針對各患者之治療子集藉由將呈遞模型應用於測試集中之序列及鑑別具有最高呈遞可能性之v=20 個新抗原候選來鑑別。基於第X節中之方程式(25)之治療子集鑑別之呈遞可能性測定預期效用得分。虛線指示基於與亦包含藉由呈遞模型鑑別之治療子集之疫苗相關之突變負擔選擇的患者。x-軸指示基於實線圖之預期效用得分自疫苗治療排除之患者的比率,及基於虛線圖之突變負擔排除之患者的比率。y-軸指示接受含有至少一定數量之經呈遞之新抗原(1、2或3個新抗原)之疫苗之選定患者的比率。 如圖23E中所指示,基於預期效用得分選擇之患者較基於突變負擔選擇之患者在更高速率下接受含有經呈遞之新抗原之疫苗。然而,基於突變負擔選擇之患者較未經選擇之患者在更高速率下接受含有經呈遞之新抗原之疫苗。因此,突變負擔為用於成功新抗原疫苗治療之有效患者選擇標準,儘管預期效用得分係更有效。XII. 實例 8 :質譜訓練模型對留存質譜資料之評價
因為藉由腫瘤細胞之HLA肽呈遞為抗腫瘤免疫91,96,97 之關鍵需求,以便使用此等及公開可得資料92,98,99 產生具有成對I類HLA肽序列、HLA類型及轉錄組RNA-seq (方法)之人類腫瘤及正常組織樣品之大的(N=74例患者)整合資料集以訓練新穎深度學習模型100 以預測人類癌症中之抗原呈遞。在免疫療法開發所關注之若干腫瘤類型中及基於組織可得性選擇樣品。質譜法在肽水平FDR<0.1 (範圍344-11,301)下鑑別平均3,704個肽/樣品。該等肽遵循特徵I類HLA長度分佈:長度8至15個aa,具有9之模態長度(56%之肽)。與先前報導一致,預測大多數肽(中值79%)藉由MHCflurry90 在標準500 nM親和力臨限值下結合至少一個患者HLA對偶基因,但是具有跨樣品之實質可變性(例如,一個樣品中之33%之肽具有經預測之親和力>500nM)。50 nM之常用101 「強結合劑」臨限值捕獲中值僅42%之經呈遞之肽。轉錄組定序產生平均131 M獨特閱讀/樣品及68%之基因在至少一個樣品中之至少1個轉錄本/百萬(TPM)之水平下表現,其強調大且不同樣品集之值以觀察最大數目之基因表現。藉由HLA之肽呈遞與mRNA表現強烈相關。觀察到超出可藉由單獨RNA表現或序列之差異解釋之肽呈遞率之顯著且可複製基因間差異。觀察到之HLA類型匹配來自患者之歐洲血統組佔優勢之樣品之期望。
針對各患者,陽性標記之資料點為經由質譜法檢測之肽,及陰性標記之資料點為來自該樣品中未經由質譜法檢測之參考蛋白質組(SwissProt)之肽。將資料分成訓練、驗證及測試集(方法)。該訓練集由來自101個樣品(於此研究中新近描述69個及先前公開32個)之142,844個經HLA呈遞之肽(FDR<~0.02)組成。該驗證集(用於早期停止)由來自相同101個樣品之18,004個經呈遞之肽組成。使用兩個質譜資料集用於測試:(1)腫瘤樣品測試集,其由來自自訓練資料剔除之5個額外腫瘤樣品(2個肺、2個結腸、1個卵巢)之571個經呈遞之肽組成,及(2)單對偶基因細胞株測試集,其由來自鄰近但是有別於訓練資料中包含之單對偶基因肽之位置之基因組定位窗(嵌段)之2,128個經呈遞的肽組成(參見關於訓練/測試劃分之另外細節的方法)。
使用此等及公開可得HLA肽資料92,98,99 訓練神經網路(NN)模型以預測HLA抗原呈遞。具體而言,於實例9中,使用以上資料訓練以上第VIII.D節中所討論之泛對偶基因模型以預測HLA抗原呈遞。另一方面,於實例11中,使用以上資料訓練以下詳細所述之對偶基因特異性模型以預測HLA抗原呈遞。於實例10中,使用以上資料訓練以上第VIII.D節中所討論之泛對偶基因模型及以下詳細所述之對偶基因特異性模型二者以預測HLA抗原呈遞。
特定言之,於實例10及11中,為自腫瘤質譜資料學習對偶基因特異性模型,其中各肽可藉由六個HLA對偶基因中之任一者呈遞,開發能共同學習對偶基因肽定位及對偶基因特異性呈遞模體(參見以下第XVII.B節)之新穎網路架構。訓練資料鑑別53個HLA對偶基因之預測模型。與先前工作相比92,104 ,此等模型捕獲HLA呈遞對多個長度之肽之各序列位置的依賴。該模型亦利用mRNA豐度正確學習對基因RNA表現及基因特異性呈遞傾向之臨界依賴性及學習獨立組合以產生最低表現之最少呈遞傾向基因與最高表現之最多呈遞傾向基因之間之呈遞率之至多約60倍差異之呈遞的每基因傾向。另外觀察到該模型預測IEDB88 中之HLA/肽複合體之量測之穩定性(針對10個對偶基因,p<1e-10),甚至於對經預測之結合親和力之控制後(針對所測試之8/10個對偶基因,p<0.05)。共同地,此等特徵形成改善之免疫原性HLA I類肽之預測之基礎。XIII. 實例 9 :誘導呈遞熱點建模之實驗結果
為具體評價於建模HLA呈遞中使用呈遞熱點參數之效益,將合併呈遞熱點參數之泛對偶基因神經網路呈遞模型之表現與不合併呈遞熱點參數之泛對偶基因神經網路呈遞模型之表現相比。基礎神經網路架構針對兩種泛對偶基因模型係相同且與以上第VII至VIII節中所述之泛對偶基因呈遞模型相同。簡言之,該等泛對偶基因模型包含肽及側接胺基酸序列參數、RNA定序轉錄資料(TPM)、蛋白質家族資料、每樣品鑑別及HLA-A、B、C類型。針對各泛對偶基因模型使用5個網路之系集。包含呈遞熱點參數之泛對偶基因模型使用以上第VIII.B.3節中所述之方程式12b,具有10之每基因蛋白質組區塊大小及肽長度8至12。
藉由使用以上第XII節中所述之質譜資料集進行實驗來比較該等兩種泛對偶基因模型。具體而言,出於公平評價競爭模型之目的,自模型訓練及驗證留存五種樣品。將其餘樣品隨機分成90%用於模型訓練及10%用於驗證該訓練。
圖24比較當在五種留存測試樣品上測試該等泛對偶基因模型時,使用呈遞熱點參數之泛對偶基因呈遞模型及不使用呈遞熱點參數之泛對偶基因呈遞模型在40%召回下之陽性預測值(PPV)。如圖24中所示,合併呈遞熱點參數之泛對偶基因呈遞模型一貫勝過不併入呈遞熱點參數之泛對偶基因呈遞模型。XIV. 實例 10 :追溯性新抗原 T- 細胞資料之模型評價
吾人然後評價泛對偶基因模型之HLA肽呈遞之精確預測是否可轉譯成鑑別人類腫瘤CD8 T-細胞抗原決定基(即,免疫療法靶)之能力。定義用於此評價之適宜測試資料集係挑戰性,因為其需藉由T細胞識別且藉由腫瘤細胞表面上之HLA呈遞之肽。此外,正規表現評估不僅需要陽性標記之(即,經T-細胞識別之)肽,而且需要足夠數目之陰性標記之(即,經測試之但是未經識別之)肽。質譜資料集定址腫瘤呈遞,但是非T-細胞識別;相反,引發或疫苗接種後之T-細胞檢定定址T-細胞前驅體之存在及T-細胞識別但是非腫瘤呈遞(例如,源基因於腫瘤中在太低水平下表現而不支持肽之呈遞之強結合肽於投與疫苗後,可產生強CD8 T-細胞反應,但是非治療上可用靶,因為其不藉由腫瘤呈遞)。
為獲得適宜資料集,吾人收集經公開之來自滿足所需標準之4個最近研究之CD8 T-細胞抗原決定基:研究A140 檢查患有胃腸腫瘤之9例患者中之TIL並報導於自體DC中使用縱排微基因(TMG)方法藉由IFN-y ELISPOT測試之12/1,053個體細胞SNV突變之T-細胞識別。研究B84 亦使用TMG並報導6/574個SNV藉由來自4例黑色素瘤患者之CD8+PD-1+循環淋巴細胞之T-細胞識別。研究C141 使用脈衝肽刺激評估來自3例黑色素瘤患者之TIL及發現對5/381個經測試之SNV突變之反應。研究D108 使用TMG檢定之組合及利用最小抗原決定基肽脈衝來評估來自一例乳癌患者之TIL並報導2/62個SNV之識別。經組合之資料集由來自17例患者之2,023個經檢定之SNV組成,該等患者包含具有先已存在之T-細胞反應之26個TSNA。重要的是,因為該資料集主要包括藉由腫瘤浸潤之淋巴細胞之新抗原識別,成功預測暗示不僅鑑別能引發如文獻81,82,141 中之T-細胞之新抗原,而且更嚴格地鑑別藉由腫瘤呈遞至T-細胞之新抗原的能力。
吾人使用具有基因表現>2 TPM臨限值之標準HLA結合親和力預測按呈遞概率之順序將突變排序,如藉由RNA-seq、第VIII.B節中所述之對偶基因特異性神經網路模型及第VIII.D節中所述之泛對偶基因神經網路模型所檢定。因為抗原特異性免疫療法之容量受限於靶向特異性之數目(例如,目前個人化疫苗編碼約10至20個突變6, 81, 82 ),吾人藉由計算各患者之排名前5、10或20之突變中之先已存在之T細胞反應的數目來比較預測方法。此等結果述於圖25A中。具體而言,圖25A比較針對使用具有基因表現>2 TPM臨限值之標準HLA結合親和力預測鑑別之排名前5、10及20之體細胞突變,藉由T-細胞(例如,預存在之T-細胞反應)識別之體細胞突變之比率,如藉由針對包含12種不同測試樣品之測試集之RNA-seq、對偶基因特異性神經網路模型及泛對偶基因神經網路模型所檢定。
如所期望,結合親和力預測僅包含優先突變中之少數預存在之T-細胞反應,例如,前20中9/26 (35%)。相比之下,大多數(19/26,73%)預存在之T-細胞反應藉由對偶基因特異性模型及泛對偶基因NN模型二者排名前20 (圖25A)。此等結果證實泛對偶基因模型鑑別人類腫瘤CD8 T-細胞抗原決定基之能力,其具有與對偶基因特異性模型可比較之精度(統計上不顯著)。
吾人然後評價在最小新抗原決定基之水平下之突變(即,覆蓋突變之8-11聚體經識別),因為其可用於鑑別T-細胞/TCR用於細胞療法。換言之,將最小新抗原決定基使用具有基因表現>2 TPM臨限值之標準HLA結合親和力預測按呈遞概率之順序排序,如藉由RNA-seq、第VIII.B節中所述之對偶基因特異性神經網路模型及第VIII.D節中所述之泛對偶基因神經網路模型所檢定。如上所提及,因為抗原特異性免疫療法技術上受限於靶向特異性之數目,藉由計算具有至少一個預存在之T-細胞反應之各患者之排名前5、10或20之最小新抗原決定基中之先已存在之T細胞反應的數目來比較預測方法。陽性標記之抗原決定基為經證實為經由基於肽之免疫原最小抗原決定基之彼等(代替,或除了基於TMG之檢定),及陰性實例為於基於肽之檢定中未識別之所有抗原決定基及未識別之微基因中含有之所有跨越突變之抗原決定基。結果述於圖25B中。
具體而言,圖25B比較針對使用具有基因表現>2 TPM臨限值之標準HLA結合親和力預測鑑別之排名前5、10及20之最小新抗原決定基,藉由T-細胞(例如,預存在之T-細胞反應)識別之最小新抗原決定基之比率,如藉由針對包含12種不同測試樣品之測試集之RNA-seq、對偶基因特異性神經網路模型及泛對偶基因神經網路模型所檢定,各測試樣品取自具有至少一個預存在之T-細胞反應之患者。
如圖25B中所示,當評價在最小抗原決定基之水平下之突變時,泛對偶基因模型繼續與對偶基因特異性模型可比較地表現。XIV.A. 資料
吾人自Gros等人84 、Tran等人140 、Stronen等人141 、及Zacharakis等人之補充資訊獲得突變細胞、HLA類型及T-細胞識別資料。推理腫瘤RNA表現跨不同患者與相同腫瘤類型相關,替換來自TCGA之腫瘤類型匹配患者之RNA-seq資料,該資料用於神經網路預測及用於在結合親和力預測之前之RNA表現過濾二者。腫瘤類型匹配之RNA-seq資料之添加改善預測性能。
針對突變-水平分析(圖25A),Gros等人、Tran等人及Zacharakis等人之陽性標記之資料點為藉由TMG檢定或最小抗原決定基肽-脈衝檢定二者中之患者T-細胞識別之突變。陰性標記之資料點為於TMG檢定中所測試之所有其他突變。針對Stronen等人,陽性標記之突變為藉由至少一個經識別之肽跨越之突變,及陰性資料點為於四聚體檢定中測試但未識別之所有突變。針對Gros、Tran及Zacharakis資料,將突變藉由加總呈遞概率或取跨所有突變-跨越肽之最小結合親和力排序,因為突變之25mer TMG檢定測試跨越該突變之所有肽之T-細胞識別。針對Stronen資料,將突變藉由加總呈遞概率或取跨四聚體檢定中所測試之所有突變-跨越肽之最小結合親和力排序。
針對抗原決定基-水平分析,陽性標記之資料點為藉由肽-脈衝或四聚體檢定中之患者T-細胞識別之所有最小抗原決定基,及陰性資料點為不藉由肽-脈衝或四聚體檢定中之T-細胞識別之所有最小抗原決定基及不藉由患者T-細胞識別之來自所測試之TMG之所有突變-跨越肽。於Gros等人、Tran等人及Zacharakis等人之情況下,自分析移除跨越未經由肽-脈衝檢定測試之TMG分析中識別之突變之最小抗原決定基肽,因為未實驗上測定此等肽之T-細胞識別狀態。XV. 實例 11 :癌症患者中之新抗原反應性 T- 細胞之鑑別
此實例證明改善之預測可使自常規患者樣品之新抗原能鑑別。為此,自患有轉移性NSCLC之經歷抗-PD(L)1療法之9例患者分析存檔FFPE腫瘤活組織檢查及5至30ml外周血(補充表1:圖26A至C中研究之N=9例患者之患者人口統計學及治療資訊。關鍵區域包括腫瘤階段及亞型、接受之抗-PD1療法及NGS結果之概述)。腫瘤全外顯子組定序、腫瘤轉錄組定序及經匹配之正常外顯子組定序導致平均198個體細胞突變/患者(SNV及短***或缺失),其中平均118個表現(方法,補充表1)。應用全MS模型以優先20個新抗原決定基/患者用於對先已存在之抗腫瘤T-細胞反應測試。為將分析集中在可能CD8反應上,合成優先肽作為8-11mer最小抗原決定基(方法),及然後利用合成肽培養外周血單核細胞(PBMC),簡言之活體外刺激(IVS)培養物以擴增新抗原-反應性T-細胞(補充表2)。於兩週後,使用IFN-γ ELISpot對優先新抗原決定基評估抗原特異性T-細胞之存在。於充足PBMC係可得之7例患者中,亦進行分開實驗以完全或部分去卷積經識別之特異性抗原。結果述於圖26A至C及27A至30中。
圖26A描述對9例患者之患者特異性新抗原肽池之T-細胞反應的檢測。針對各患者,將經預測之新抗原組合至10個肽之2個池中,各者根據模型排序及任何序列相同性(將相同肽分離至不同池中)。然後,針對各患者,將患者之經活體外擴增之PBMC用IFN-γ ELISpot中之2個患者-特異性新抗原肽池刺激。將圖26A中之數據表示為斑點形成單元(SFU)/105 個經平板接種之細胞,其中減去背景(對應DMSO陰性對照)。圖30中顯示背景量測(DMSO陰性對照)。針對患者1-038-001、1-050-001、1-001-002、CU04、1-024-001、1-024-002及CU05顯示單孔(患者1-038-001、CU02、CU03及1-050-001)或具有平均及標準偏差之複製(所有其他患者)對同源肽池#1及#2之反應。針對患者CU02及CU03,細胞數目允許僅對特異性肽池#1測試。認為具有值>背景以上之2倍增加之樣品係陽性及用星星指定(反應性供體包括患者1-038-001、CU04、1-024-001、1-024-002及CU02)。無反應供體包括患者1-050-001、1-001-002、CU05及CU03。圖15C描述具有來自於IFN-γ ELISpot中利用DMSO陰性對照、PHA陽性對照、CU04特異性新抗原肽池#1、CU04特異性肽1、CU04特異性肽6及CU04特異性肽8刺激之患者CU04之活體外擴增之PBMC之ELISpot孔的照片。
圖27A至B描述來自利用HLA匹配之健康供體中之患者新抗原之對照實驗之結果。此等實驗之結果驗證活體外培養條件僅擴增先已存在之活體內啟動之記憶T-細胞,而非使能活體外重新啟動。
圖28描述對各供體及圖26A中所述之各活體外擴增之PHA陽性對照之T-細胞反應的檢測。針對各供體及圖26A中之各活體外擴增,將經活體外擴增之患者PBMC用PHA刺激用於最大T-細胞激活。將圖28中之數據表示為斑點形成單元(SFU)/105 個經平板接種之細胞,其中減去背景(對應DMSO陰性對照)。針對患者1-038-001、1-050-001、1-001-002、CU04、1-024-001、1-024-002、CU05及CU03顯示單孔或生物複製之反應。針對患者CU02不進行利用PHA之測試。將來自患者CU02之細胞包含至分析中,作為對指示活性及功能T-細胞之肽池#1之陽性反應(圖26A)。如圖26A中所示,對肽池具反應性之供體包括患者1-038-001、CU04、1-024-001及1-024-002。亦如圖26A中所示,對肽池不具反應性之供體包括患者1-050-001、1-001-002、CU05及CU03。
圖29A描述對患者CU04之池#2中之各個別患者特異性新抗原肽之T-細胞反應的檢測。圖29A亦描述對患者CU04之PHA陽性對照之T-細胞反應的檢測。(此為陽性對照資料,亦顯示於圖28中。)針對患者CU04,將該患者之經活體外擴增之PBMC於IFN-γ ELISpot中用來自患者CU04之池#2之患者特異性個別新抗原肽刺激。亦將該患者之經活體外擴增之PBMC於IFN-γ ELISpot中用PHA刺激作為陽性對照。將數據表示為斑點形成單元(SFU)/105 個經平板接種之細胞,其中減去背景(對應DMSO陰性對照)。
圖29B描述對患者CU04之三次訪問各者及對患者1-024-002之兩次訪問各者(各訪問發生在不同時間點)之個別患者特異性新抗原肽之T-細胞反應的檢測。針對兩種患者,將該患者之經活體外擴增之PBMC於IFN-γ ELISpot中用患者特異性個別新抗原肽刺激。針對各患者,將各訪問之數據表示為累積(附加)斑點形成單元(SFU)/105 個經平板接種之細胞,其中減去背景(對應DMSO對照)。將患者CU04之資料顯示為減去背景之自3次訪問之累積SFU。針對患者CU04,針對首次訪問(T0)及於首次訪問(T0)後2個月(T0 + 2個月)及14個月(T0 + 14個月)之隨後訪問顯示減去背景之SFU。將患者1-024-002之資料顯示為減去背景之自2次訪問之累積SFU。針對患者1-024-002,針對首次訪問(T0)及於首次訪問(T0)後1個月(T0 + 1個月)之隨後訪問顯示減去背景之SFU。認為具有值>背景以上之2倍增加之樣品係陽性及用星星指定。
圖29C描述對患者CU04之兩次訪問各者及對患者1-024-002之兩次訪問各者(各訪問發生在不同時間點)之個別患者特異性新抗原肽及患者特異性新抗原肽池之T-細胞反應的檢測。針對兩種患者,將該患者之經活體外擴增之PBMC於IFN-γ ELISpot中用患者特異性個別新抗原肽以及患者特異性新抗原肽池刺激。具體而言,針對患者CU04,將患者CU04之經活體外擴增之PBMC於IFN-γ ELISpot中用CU04-特異性個別新抗原肽6及8以及用CU04-特異性新抗原肽池刺激,及針對患者1-024-002,將患者1-024-002之經活體外擴增之PBMC於IFN-γ ELISpot中用1-024-002-特異性個別新抗原肽16以及用1-024-002-特異性新抗原肽池刺激。將圖29C之數據表示為斑點形成單元(SFU)/105 個經平板接種之細胞,其中減去背景(對應DMSO對照)用於具有平均值及範圍之各技術複製。將患者CU04之資料顯示為減去背景之自2次訪問之SFU。針對患者CU04,針對首次訪問(T0;技術一式三份)及於首次訪問(T0)後2個月(T0 + 2個月;技術一式三份)之隨後訪問顯示減去背景之SFU。將患者1-024-002之資料顯示為減去背景之自2次訪問之SFU。針對患者1-024-002,針對首次訪問(T0;技術一式三份)及於首次訪問(T0)後1個月(T0 + 1個月;技術一式兩份,除了用患者1-024-002-特異性新抗原肽池刺激之樣品外)之隨後訪問顯示減去背景之SFU。
圖30描述對圖26A之患者之兩個患者特異性新抗原肽池及DMSO陰性對照之T-細胞反應的檢測。針對各患者,將該患者之經活體外擴增之PBMC於IFN-γ ELISpot中用兩個患者特異性新抗原肽池刺激。針對各供體及各活體外擴增,亦將經活體外擴增之患者PBMC於IFN-γ ELISpot中用DMSO刺激作為陰性對照。將圖30中之數據表示為斑點形成單元(SFU)/105 個經平板接種之細胞,其中包含背景(對應DMSO陰性對照)用於患者特異性新抗原肽池及對應DMSO對照。針對患者1-038-001、1-050-001、1-001-002、CU04、1-024-001、1-024-002及CU05顯示單孔(1-038-001、CU02、CU03及1-050-001)或具有生物複製之標準偏差之平均(所有其他樣品)對同源肽池#1及#2的反應。針對患者CU02及CU03,細胞數目允許僅對特異性肽池#1測試。認為具有值>背景以上之2倍增加之樣品係陽性及用星星指定(反應性供體包括患者1-038-001、CU04、1-024-001、1-024-002及CU02)。無反應性供體包括患者1-050-001、1-001-002、CU05及CU03。
如上關於圖27A至B簡要討論,為驗證活體外培養條件僅擴增先已存在之活體內啟動之記憶T-細胞,而非使能活體外重新啟動,利用HLA匹配之健康供體中之新抗原進行一系列對照實驗。於圖27A至B中及於補充表4中描述此等實驗之結果。使用IVS培養技術,此等實驗之結果證實健康供體中不存在重新啟動及不存在可檢測之新抗原特異性T-細胞反應。
相比之下,使用IFN-γ ELISpot於利用患者特異性肽池(圖26A及29至30)測試之大多數(5/9,56%)患者中鑑別先已存在之新抗原反應性T-細胞。在細胞數目許可完全或部分測試個別新抗原同源肽之7例患者中,4例患者對所測試之新抗原肽中之至少一者反應,及所有此等患者具有對應池反應(圖26B)。利用個別新抗原測試之其餘3例患者(患者1-001-002、1-050-001及CU05)不具有對單一肽之可檢測之反應(資料未顯示),其證實此等患者對新抗原池缺少可見反應(圖26A)。在4例反應患者中,來自單次訪問之樣品對具有反應之2例患者(患者1-024-001及1-038-001)可得,而來自多次訪問之樣品對具有反應之其他2例患者(CU04及1-024-002)可得。針對具有來自多次訪問之樣品之2例患者,來自3次訪問(患者CU04)或2次訪問(患者1-024-002)之累積(附加)斑點形成單元(SFU)示於圖26B中及於圖29B中藉由訪問分解。來自相同訪問之額外PBMC樣品亦對患者1-024-002及CU04可得,及重複IVS培養及ELISpot證實對患者特異性新抗原反應(圖29C)。
總之,在如藉由對圖26A中之10個肽之池之反應所示鑑別至少一個經T-細胞識別之新抗原決定基的患者中,經識別之新抗原決定基之數目平均為至少2個/患者(於5例患者中鑑別最少10個抗原決定基,計算不可作為1個經識別之肽去卷積之經識別之池)。除了藉由ELISpot測試IFN-γ反應外,亦測試培養上清液用於藉由ELISA之顆粒酶B及用於藉由MSD細胞激素多重檢定之TNF-α、IL-2及IL-5。來自具有陽性ELISpot之4/5患者之細胞分泌3種或更多種分析物,包括顆粒酶B (補充表3),其指示新抗原特異性T-細胞之多功能性。重要的是,因為組合預測及IVS方法不依賴於有限組之可得MHC多聚體,所以跨限制性HLA對偶基因廣泛測試反應。此外,與鑑別經識別之突變之縱排微基因篩選相比,此方法直接鑑別最小抗原決定基,及需要單獨去卷積步驟以鑑別最小抗原決定基。總之,新抗原鑑別產量可比得上先前最佳方法96 ,該等最佳方法利用機採樣品測試對所有突變之TIL,同時利用常規5至30 mL全血篩選僅20個合成肽。XV.A.
定製、重組凍乾肽係購自JPT Peptide Technologies (Berlin, Germany)或Genscript (Piscataway, NJ, USA)及於無菌DMSO (VWR International, Pittsburgh, PA, USA)中在10至50 mM下再構成,等分及儲存在-80℃下。XV.B. 人類外周血單核細胞 (PBMC)
來自健康供體之經冷藏保存之HLA-型PBMC (證實HIV、HCV及HBV血清反應陰性)係購自Precision for Medicine (Gladstone, NJ, USA)或Cellular Technology, Ltd. (Cleveland, OH, USA)及儲存於液氮中直至使用。新鮮血液樣品係購自Research Blood Components (Boston, MA, USA),將來自AllCell (Boston, MA, USA)之leukopak及PBMC在冷藏保存之前藉由Ficoll-Paque密度梯度(GE Healthcare Bio, Marlborough, MA, USA)單離。根據本地臨床標準操作程式(SOP)及方案批准之IRB,將患者PBMC在本地臨床處理中心處理。批准IRB為Quorum Review IRB、Comitato Etico Interaziendale A.O.U. San Luigi Gonzaga di Orbassano及Comité Ético de la Investigación del Grupo Hospitalario Quirón en Barcelona。
簡言之,將PBMC通過密度梯度離心單離、洗滌、計數及於CryoStor CS10 (STEMCELL Technologies, Vancouver, BC, V6A 1B6, Canada)中以5 x 106 個細胞/ml冷藏保存。將經冷藏保存之細胞於cryoport中裝運並轉移以在到達時於LN2 中儲存。於補充表1中列出患者人口統計學。將經冷藏保存之細胞解凍及於含有全能核酸酶(Benzonase) (EMD Millipore, Billerica, MA, USA)之OpTmizer T-細胞擴增基礎培養基(Gibco, Gaithersburg, MD, USA)中洗滌兩次及於不含全能核酸酶之OpTmizer T-細胞擴增基礎培養基中洗滌一次。使用Guava ViaCount試劑及Guava easyCyte HT細胞計(EMD Millipore)上之模組評估細胞計數及活力。隨後將細胞以濃度及於適用於進程檢定之培養基中再懸浮(參見下節)。XV.C. 活體外刺激 (IVS) 培養
於同源肽及IL-2之存在下,以藉由Ott等人81 應用之類似方法將來自健康供體或患者樣品之先已存在之T-細胞擴增。簡言之,使解凍之PBMC靜置過夜及於24孔組織培養板中於肽池(10 µM/肽,10個肽/池)之存在下於含有10 IU/ml rhIL-2 (R&D Systems Inc., Minneapolis, MN)之ImmunoCult™-XF T-細胞擴增培養基(STEMCELL Technologies)中刺激14天。將細胞以2 x 106 個細胞/孔接種及每2至3天藉由置換2/3之培養基飼養。一個患者樣品顯示偏離協定及應認為潛在假陰性:解凍後,患者CU03不產生足夠數目之細胞及將細胞以2 x 105 個細胞/肽池(比每個方案少10倍)接種。XV.D. IFN g 酶聯免疫斑點 (ELISpot) 檢定
藉由ELISpot檢定142 進行產生IFNg之T-細胞之檢測。簡言之,收穫PBMC (離體或於活體外擴增後),於無血清RPMI (VWR International)中洗滌及於對照或同源肽之存在下於OpTmizer T-細胞擴增基礎培養基中(離體)或於ImmunoCult™-XF T-細胞擴增培養基(擴增之培養物)中於塗覆有抗人類IFNg捕獲抗體(Mabtech, Cincinatti, OH, USA)之ELISpot Multiscreen板(EMD Millipore)中培養。於5% CO2 、37℃加濕培育器中,於18小時培育後,將細胞自板移除及使用抗人類IFNg檢測抗體(Mabtech)、維沙坦(Vectastain)抗生物素蛋白過氧化物酶複合體(Vector Labs, Burlingame, CA, USA)及AEC受質(BD Biosciences, San Jose, CA, USA)檢測膜結合IFNg。允許將ELISpot板乾燥,避光儲存及送至Zellnet Consulting, Inc., Fort Lee, NJ, USA用於標準化評價143 。將數據表示為斑點形成單元(SFU)/經平板接種之細胞數目。XV.E. 顆粒酶 B ELISA MSD 多重檢定
使用3重檢定MSD U-PLEX Biomarker檢定(目錄號K15067L-2)進行ELISpot上清液中之分泌之IL-2、IL-5及TNF-α的檢定。根據製造商之說明進行檢定。使用針對各細胞激素之已知標準之連續稀釋計算分析物濃度(pg/ml)。針對圖形資料表示,將標準曲線之最小範圍以下之值表示為等於零。根據製造商之說明使用顆粒酶B DuoSet® ELISA (R & D Systems, Minneapolis, MN)進行ELISpot上清液中之顆粒酶B之檢測。簡言之,將ELISpot上清液於樣品稀釋劑中1:4稀釋及與顆粒酶B之連續稀釋標準同時運行以計算濃度(pg/ml)。針對圖形資料表示,將標準曲線之最小範圍以下之值表示為等於零。XV.F. IVS 檢定之陰性對照實驗 來自健康供體中所測試之腫瘤細胞株之新抗原
圖27A說明來自健康供體中所測試之腫瘤細胞株之新抗原之IVS檢定的陰性對照實驗。於IVS培養中利用肽池刺激健康供體PBMC,該等肽池含有陽性對照肽(先前暴露於傳染性疾病)、源自腫瘤細胞株之HLA匹配之新抗原(未暴露)及源自病原體之肽,供體對該等病原體係血清反應陰性。於利用DMSO (陰性對照,黑色圓圈)、PHA及常見傳染性疾病肽(陽性對照,紅色圓圈)、新抗原(未暴露,淺藍色圓圈)或HIV及HCV肽(證實供體係血清反應陰性,海軍藍,A及B)刺激後,隨後藉由IFNγ ELISpot (105 個細胞/孔)分析擴增之細胞。將資料顯示為斑點形成單元(SFU)/105 個經接種之細胞。顯示具有平均值及SEM之生物複製。未觀察到對新抗原或對源自病原體之肽之反應,供體尚未暴露於該等病原體(血清反應陰性)。XV.G. IVS 檢定之陰性對照實驗 來自健康供體中所測試之患者之新抗原
圖27A說明來自針對健康供體中之反應性所測試之患者之新抗原之IVS檢定的陰性對照實驗。評估健康供體中對HLA匹配之新抗原肽池之T-細胞反應。左圖:將健康供體PBMC於離體IFN-γ ELISpot中用對照(DMSO、CEF及PHA)或HLA匹配之源自患者之新抗原肽刺激。將數據表示為斑點形成單元(SFU)/針對一式三份孔之2 x 105 個經平板接種之細胞。右圖:將於新抗原池或CEF池之存在下擴增之IVS培養後之健康供體PBMC於IFN-γ ELISpot中用對照(DMSO、CEF及PHA)或HLA匹配之源自患者之新抗原肽池刺激。將數據表示為SFU/針對一式三份孔之1 x 105 個經平板接種之細胞。未看到對健康供體中之新抗原之反應。XV.H. 補充表 2 :用於 NSCLC 患者中之 T- 細胞識別所測試之肽
圖26A至C中研究針對N=9例患者所測試之新抗原肽之細節(來自NSCLC患者之新抗原反應性T-細胞之鑑別)。關鍵區域包括源突變、肽序列及池及觀察到之個別肽響應。「最可能限制」行指示模型預測之哪些對偶基因最可能呈遞各肽。亦包含各患者之所有突變肽中之此等肽的排序,如利用結合親和力預測(方法)所計算。
存在藉由全MS模型高排名且藉由CD8 T-細胞識別之四種肽,該等CD8 T-細胞具有低的經預測之結合親和力或藉由結合親和力預測低排名。
針對此等肽中之三者,此由該模型與MHCflurry 1.2.0之間之HLA覆蓋之差異造成。預測肽YEHEDVKEA藉由HLA-B*49:01呈遞,該HLA-B*49:01不藉由MHCflurry 1.2.0覆蓋。類似地,預測肽SSAAAPFPL及FVSTSDIKSM藉由HLA-C*03:04呈遞,該HLA-C*03:04亦不藉由MHCflurry 1.2.0覆蓋。線上NetMHCpan 4.0 (BA)預測因子(原則上覆蓋所有對偶基因之泛特異性結合親和力預測因子)將SSAAAPFPL列為HLA-C*03:04之強結合劑(23.2 nM,針對患者1-024-002排名第2),預測FVSTSDIKSM對HLA-C*03:04之弱結合(943.4 nM,針對患者1-024-002排名第39)及YEHEDVKEA對HLA-B*49:01之弱結合(3387.8 nM),但是對HLA-B*41:01之更強結合(208.9 nM,針對患者1-038-001排名第11),該HLA-B*41:01亦存在於此患者中但是不由該模型覆蓋。因此,在此等三種肽中,FVSTSDIKSM將藉由結合親和力預測錯失,SSAAAPFPL將經捕獲,及YEHEDVKEA之HLA限制係不確定。
將肽特異性T-細胞反應去卷積之其餘五種肽來自患者,其中如由該模型所測定之最可能呈遞對偶基因亦藉由MHCflurry 1.2.0覆蓋。在此等五種肽中,4/5具有比標準500 nM臨限值更強之經預測之結合親和力且排名前20,雖然具有較自該模型之排名稍微更低排名(肽DENITTIQF、QDVSVQVER、EVADAATLTM、DTVEYPYTSF藉由該模型各自排名第0、4、5、7相對於藉由MHCflurry之2、14、7及9)。肽GTKKDVDVLK藉由CD8 T-細胞識別且藉由該模型排名第1,但是具有藉由MHCflurry之排名70及經預測之結合親和力2169 nM。
總之,藉由全MS模型高排名之個別經識別之肽之6/8亦使用結合親和力預測高排名且具有經預測之結合親和力<500nM,而個別經識別之肽之2/8將錯失,若使用結合親和力預測代替全MS模型。XV.I. 補充表 3 :對來自 NSCLC 新抗原肽之 ELISpot 上清液之 MSD 細胞激素多重檢定及 ELISA 檢定
針對顆粒酶B (ELISA)、TNFα、IL-2及IL-5 (MSD)顯示來自陽性ELISpot (IFNγ)之上清液中所檢測之分析物。將值顯示為來自技術複製之平均pg/ml。將陽性值以斜體顯示。顆粒酶B ELISA:認為相對於DMSO背景之值≥1.5倍係陽性。U-Plex MSD檢定:認為相對於DMSO背景之值≥1.5倍係陽性。XV.J. 補充表 4 IVS 對照實驗中之新抗原及傳染性疾病抗原決定基
於IVS對照實驗中所測試之腫瘤細胞株新抗原及病毒肽之細節示於圖27A至B中。關鍵區域包括源細胞株或病毒、肽序列及經預測之呈遞HLA對偶基因。XV.K. 資料
用於訓練及測試預測模型(圖25A至B)之MS肽資料集係在MassIVE Archive (massive.ucsd.edu),登錄號MSV000082648下可得。藉由ELISpot測試之新抗原肽(圖26A至C及27A至B)包含於手稿(補充表2及4)中。XVI. 實例 8 11 之方法 XVI.A. 質譜法 XVI.A.1. 樣品
用於質譜分析之歸檔之冷凍組織樣品獲自商業來源,包括BioServe (Beltsville, MD)、ProteoGenex (Culver City, CA)、iSpecimen (Lexington, MA)及Indivumed (Hamburg, Germany)。亦在Hopital Marie Lannelongue (Le Plessis-Robinson, France)下在藉由Comité de Protection des Personnes, Ile-de-France VII批准之研究協定下自患者前瞻性收集樣品子集。XVI.A.2. HLA 免疫沉澱
於組織樣品之裂解及溶解後使用建立之免疫沉澱(IP)方法進行HLA-肽分子之單離87,124-126 。將新鮮冷凍組織粉碎(CryoPrep;Covaris, Woburn, MA),添加裂解緩衝液(1% CHAPS、20 mM Tris-HCl、150 mM NaCl、蛋白酶及磷酸酶抑制劑,pH=8)以溶解組織及將所得溶液在4℃下離心2小時成為球碎片。將澄清裂解物用於HLA特異性IP。如先前所述使用抗體W6/32進行免疫沉澱127 。將裂解物添加至抗體珠中及在4℃下旋轉過夜用於免疫沉澱。於免疫沉澱後,將該等珠自裂解物移除。將IP珠洗滌以移除非特異性結合及將HLA/肽複合體用2N乙酸自該等珠溶離。使用分子量自旋管柱將蛋白質組分自肽移除。將所得肽藉由SpeedVac蒸發至乾及在MS分析之前儲存在-20℃下。XVI.A.3. 肽定序
將經乾燥之肽於HPLC緩衝液A中再構成並負載於C-18微毛細管HPLC管柱上用於進入質譜儀中梯度溶離。使用0至40%B之梯度(溶劑A – 0.1%甲酸,溶劑B- 0.1%甲酸/ 80%乙腈)於180分鐘中至Fusion Lumos質譜儀(Thermo)中溶離肽。於具有120,000解析度之Orbitrap檢測器中收集肽質量/電荷(m/z)之MS1光譜,接著於選定離子之HCD碎斷後於Orbitrap或離子阱檢測器中收集20個MS2低解析度掃描。使用資料依賴性獲取模式及於離子之MS2選擇後30秒之動態排除進行MS2離子之選擇。將針對MS1掃描之自動增益控制(AGC)設置為4x105及針對MS2掃描設置為1x104。用於定序HLA肽,可選擇+1、+2及+3電荷狀態用於MS2片段化。
對蛋白質資料庫使用Comet128,129 搜索來自各分析之MS2光譜及使用Percolator130–132 對肽鑑別評分。XVI.B. 機器學習 XVI.B.1. 資料編碼
針對各樣品,訓練資料點為來自參考蛋白質組之所有8至11mer (包含端值)肽,該蛋白質組對樣品中所表現之一個基因精確圖譜分析。整體訓練資料集藉由連接來自各訓練樣品之訓練資料集形成。選擇長度8至11,因為此長度範圍捕獲所有HLA I類呈遞肽之約95%;然而,可使用相同方法學,以計算需求之適度增加為代價實現將長度12至15添加至模使中。使用獨熱編碼方案將肽及側接序列向量化。藉由利用填補字元擴大胺基酸字母表及將所有肽填充至最大長度11來將多個長度(8至11)之肽表示為固定長度向量。將訓練肽之源蛋白之RNA豐度表示為獲自RSEM133 之同功異型物-水平轉錄本之對數/百萬(TPM)評估。針對各肽,以對含有該肽之同功異型物各者之每同功異型物TPM評估之總和計算按肽TPM。將來自在0 TPM下表現之基因之肽自訓練資料排除,及在測試時,將來自非表現基因之肽指定為0之呈遞概率。最後,將各肽指定Ensembl蛋白質家族ID,及各獨特Ensembl蛋白質家族ID對應於每基因呈遞傾向截距(參見下節)。XVII.B.2. 模型架構之說明書
全呈遞模型具有下列函數形式:
Figure 02_image145
其中k 指示資料集中之HLA對偶基因,其自1至m 運行,且
Figure 02_image147
為指示變數,若對偶基因k 存在於衍生肽i 之樣品中,則其值為1及否則為0。請注意針對給定肽i ,除了
Figure 02_image147
中之至多6個(6對應於肽i 之起源之樣品之HLA類型)外全部將為零。在
Figure 02_image149
下,例如,利用
Figure 02_image151
=
Figure 02_image153
剪輯概率之和。
將按對偶基因呈遞概率如下建模:
Figure 02_image155
其中該等變數具有下列含義:
Figure 02_image157
為s形(亦稱場外)函數,
Figure 02_image159
為肽i 之獨熱編碼之中間填充之胺基酸序列,
Figure 02_image161
為建模肽序列對呈遞概率之貢獻之具有線性最後層激活的神經網路,
Figure 02_image163
為其源蛋白中之肽i 之獨熱編碼之側接序列,
Figure 02_image165
為建模側接序列對呈遞概率之貢獻之具有線性最後層激活的神經網路,
Figure 02_image167
為TPM單元中之肽i 之源mRNA之表現,
Figure 02_image169
為肽i 之起源之樣品(即,患者),
Figure 02_image171
為每樣品截距,
Figure 02_image173
為肽i 之源蛋白,及
Figure 02_image175
為每蛋白質截距(亦稱每基因呈遞傾向)。
針對結果部分中所述之模型,成分神經網路具有下列架構: •
Figure 02_image177
各者為單隱層多層感知器(MLP)之一個輸出節點,該MLP具有輸入尺寸231 (11個殘基x 21個可能字元/殘基,包含填補字元),寬度256,隱藏層中之修正線性單元(ReLU)激活,輸出層中之線性激活,及訓練資料集中之每HLA對偶基因a 之一個輸出節點。 •
Figure 02_image165
為具有輸入尺寸210 (N-端側接序列之5個殘基+ C-端側接序列之5個殘基x 21個可能字元/殘基,包含填補字元),寬度32,隱藏層中之修正線性單元(ReLU)激活及輸出層中之線性激活之單隱層MLP。 •
Figure 02_image179
為具有輸入尺寸1,寬度16,隱藏層中之修正線性單元(ReLU)激活及輸出層中之線性激活之單隱層MLP。
請注意模型之一些組分(例如,
Figure 02_image181
)取決於特定HLA對偶基因,但是許多組分(
Figure 02_image165
Figure 02_image179
Figure 02_image171
Figure 02_image175
)不取決於特定HLA對偶基因。將前者稱作「對偶基因相互作用」及將後者稱作「對偶基因非相互作用」。基於生物事前知識選擇建模為對偶基因相互作用或非相互作用之特徵:HLA對偶基因參見肽,因此應將肽序列建模為對偶基因相互作用,但是無關於源蛋白之資訊,將RNA表現或側接序列傳遞給HLA分子(因為肽在其遇到內質網中之HLA時自其源蛋白分離),因此應將此等特徵建模為對偶基因非相互作用。於Keras v2.0.4134 及Theano v0.9.0135 中實施該模型。
肽MS模型使用相同去卷積程式作為全MS模型(方程式1),但是使用僅考慮肽序列及HLA對偶基因之降階按對偶基因模型產生按對偶基因呈遞概率:
Figure 02_image183
肽MS模型使用與結合親和力預測相同之特徵,但是該模型之權重在不同資料類型(即,質譜資料相對於HLA-肽結合親和力資料)上訓練。因此,比較肽MS模型與全MS模型之預測表現揭示非肽特徵(即,RNA豐度、側接序列、基因ID)對總體預測表現之貢獻,及比較肽MS模型與結合親和力模型之預測表現揭示改良之肽序列之建模對總體預測表現之重要性。XVI.B.3. 訓練 / 驗證 / 測試劃分 吾人使用下列程式確保無肽出現於一個以上訓練/驗證/測試集中:首先自出現於一個以上蛋白質中之參考蛋白質組移除所有肽,然後將該蛋白質組劃分成10個鄰近肽之區塊。將各區塊獨特分配給訓練、驗證或測試集。以此方式,無肽出現於一個以上訓練、驗證或測試集中。該驗證集僅用於早期停止。XVI.B.4. 模型訓練
針對模型訓練,獨立建模所有肽,其中按肽損失為陰性伯努利對數可能性損失函數(亦稱作對數損失)。形式上,肽i 對總體損失之貢獻為
Figure 02_image185
其中
Figure 02_image187
為肽i 之標記;即,若呈遞肽i ,則
Figure 02_image189
及否則為0,及
Figure 02_image191
表示獨立同分佈二元觀察向量y 給定之參數
Figure 02_image193
之伯努利可能性。該模型藉由最小化損失函數來訓練。
為減少訓練時間,藉由隨機移除經陰性標記之訓練資料之90%,產生一個呈遞肽/約2000個非呈遞肽之總體訓練集類別平衡來調整類別平衡。使用Glorot統一程式61初始化及使用ADAM62隨機優化器利用Nvidia Maxwell TITAN X GPU上之標準參數訓練模型權重。由總資料之10%組成之驗證集係用於早期停止。每季度在驗證集上評價該模型及於第一季度後停止模型訓練,其中驗證損失(即,驗證集上之陰性伯努利對數可能性)未減少。
全呈遞模型為10個模型複本之系集,其中各複本利用系集內之每個模型之模型權重之不同隨機初始化在相同訓練資料之雜亂無章複本上獨立訓練。在測試時,取藉由模型複本之概率輸出之平均值產生預測。XVI.B.5. 模體標識
使用weblogolib Python API v3.5.0138 產生模體標識。為產生結合親和力標識,自2017年7月之免疫抗原決定基資料庫(IEDB88 )下載mhc_ligand_full.csv檔案及留存滿足下列標準之肽:量度以奈莫耳(nM)為單位,參考日期在2000年後,目標類型等於「線性肽」及來自權威20-字母胺基酸字母表之肽中之所有殘基。使用具有習知結合臨限值500 nM以下之經量測之結合親和力之經過濾之肽的子集產生標識。針對於IEDB中具有太少結合劑之對偶基因對,不產生標識。為產生表示學習呈遞模型之標識,針對各對偶基因及各肽長度預測2,000,000個隨機肽之模型預測。針對各對偶基因及各長度,藉由學習呈遞模型使用排名前1% (即,前20,000名)之肽產生標識。重要的是,來自IEDB之此結合親和力資料不用於模型訓練或測試中,而是僅用於學習之模體之比較。XVI.B.6. 結合親和力預測
吾人使用來自MHCflurry v1.2.0139 (開放源)之僅結合親和力預測因子、具有比得上模型之NetMHC家族之表現之GPU相容性HLA I類結合親和力預測因子預測肽-MHC結合親和力。為組合跨多個HLA對偶基因之單肽之結合親和力預測,選擇最小結合親和力。為組合跨多個肽之結合親和力(即,為將藉由如圖25A至B中之多個突變肽跨越之突變排序),選擇跨該等肽之最小結合親和力。針對T-細胞資料集上之RNA表現臨限值,使用在TPM>1下之自TCGA至臨限值之腫瘤類型匹配之RNA-seq資料。將所有原始T-細胞資料集於原始出版物中在TPM>0上過濾,因此不使用在TPM>0上過濾之TCGA RNA-seq資料。XVI.B.7. 呈遞預測
為組合跨多個HLA對偶基因之單個肽之呈遞概率,如於方程式1中鑑別概率之和。為組合跨多個肽之呈遞概率(即,為將藉由如圖25A至B中之多個肽跨越之突變排序),鑑別呈遞概率之和。概率上,若將肽之呈遞視作獨立同分佈伯努利隨機變數,則概率之和對應於經呈遞之突變肽之預期數目:
Figure 02_image195
其中
Figure 02_image197
藉由將訓練呈遞模型應用於抗原決定基j 獲得,且
Figure 02_image199
表示跨越突變i 之突變抗原決定基之數目。例如,針對遠離其源基因末端之SNVi ,針對跨越突變抗原決定基之總共
Figure 02_image201
,存在8個跨越8-mer、9個跨越9-mer、10個跨越10-mer及11個跨越11-mer。XVI.C. 下一代定序 XVI.C.1. 樣品
針對冷凍切除腫瘤之轉錄組分析,RNA係獲自與用於MS分析相同之組織樣品(腫瘤或鄰近正常細胞)。針對進行抗-PD1療法之患者之新抗原外顯子組及轉錄組分析,DNA及RNA係獲自存檔FFPE腫瘤活組織檢查。針對正常外顯子組及HLA分型,使用鄰近正常匹配之血液或PBMC獲得正常DNA。XVI.C.2. 核酸提取及庫構建
按照製造商建議之程序,使用Qiagen Dneasy管柱(Hilden, Germany)將源自血液之正常細胞/生殖系DNA單離。根據製造商建議之程序,使用Qiagen Allprep DNA/RNA單離套組將來自組織樣品之DNA及RNA單離。將DNA及RNA藉由Picogreen及Ribogreen Fluorescence (Molecular Probes)定量,將各自具有>50 ng產量之樣品推進至庫構建。按照製造商建議之方案,藉由聲學剪切(Covaris, Woburn, MA),接著DNA Ultra II (NEB, Beverly, MA)庫製備套組產生DNA定序庫。藉由熱片段化及利用RNA Ultra II (NEB)之庫構建產生腫瘤RNA定序庫。將所得庫藉由Picogreen (Molecular Probes)定量。XVI.C.3. 全外顯子組捕獲
使用xGEN全外顯子組小組(Integrated DNA Technologies)進行DNA及RNA定序庫二者之外顯子濃化。將1至1.5 µg源自正常DNA或腫瘤DNA或RNA之庫用作輸入並允許雜交大於12小時,接著鏈黴抗生物素純化。將捕獲之庫藉由PCR最低程度擴增及藉由NEBNext Library Quant Kit (NEB)定量。將捕獲之庫在等莫耳濃度下彙集及使用c-bot (Illumina)聚集及在HiSeq4000 (Illumina)上在75個鹼基對端定序至>500x腫瘤外顯子組、>100x正常外顯子組及>100M閱讀腫瘤轉錄組之目標獨特平均覆蓋度。XVI.C.4. 分析
使用BWA-MEM144 (v. 0.7.13-r1126)將外顯子組閱讀(FFPE腫瘤及匹配之正常細胞)與參考人類基因組(hg38)比對。使用STAR (v. 2.5.1b)將RNA-seq閱讀(FFPE及冷凍腫瘤組織樣品)與基因組及GENCODE轉錄本(v. 25)比對。使用具有相同參考轉錄本之RSEM133 (v. 1.2.31)將RNA表現定量。使用Picard (v. 2.7.1)標記重複比對及計算比對度量。針對利用GATK145 (v. 3.5-0)之基本質量評分再校準後之FFPE腫瘤樣品,使用成對腫瘤-正常外顯子組利用FreeBayes146 (1.0.2)測定取代及短***或缺失變數。篩檢程序包括對偶基因頻率>4%;中間鹼基質量>25,支援閱讀之最小圖譜分析質量30及具有獲得之充分覆蓋之正常細胞中之交替閱讀計數<=2。亦必須在兩股上檢測變數。排除發生於重複區域中之體細胞變異。使用RefSeq轉錄本利用snpEff147 (v. 4.2)進行轉譯及註釋。將腫瘤RNA比對中驗證之非同義、非停止變異體推進至新抗原預測。使用Optitype148 1.3.1產生HLA類型。XVI.C.5. 27A B :用於 IVS 對照實驗之腫瘤細胞株及匹配之正常細胞
按照銷售者之說明,使均購自ATCC (Manassas, VA)之腫瘤細胞株H128、H122、H2009、H2126、Colo829及其正常供體匹配之對照細胞株BL128、BL2122、BL2009、BL2126及Colo829BL生長至1083 至1084 個細胞,然後速凍用於核酸提取及定序。一般如上所述進行NGS處理,不同之處在於使用MuTect149 (3.1-0)僅用於取代突變檢測。補充表4中列出IVS對照檢定中所使用之肽。XVI.D. II 類模型概念證明
為證明泛對偶基因神經網路(NN)模型預測藉由MHC II類分子呈遞之能力,使用人類B細胞淋巴瘤樣品(n =39)進行實驗。39種樣品各者包含HLA-DR分子,更具體而言,HLA-DRB1分子、HLA-DRB3分子、HLA-DRB4分子及/或HLA-DRB5分子。留出該等樣品中之四者作為測試集及使用其他35種樣品用於訓練及驗證。訓練集由長度為9至20個胺基酸(AA)之20,136個經呈遞之肽組成,包含13及14個胺基酸長之模型。驗證集及測試集各自由2,279及301個經呈遞之肽組成。
MHC II類泛對偶基因NN模型架構與MHC I類泛對偶基因NN模型架構相同,具有3種例外:(1) II類模型接受至多4個獨特HLA-DRB對偶基因/樣品(代替HLA-A、HLA-B、HLA-C之6個對偶基因),(2) II類模型在更長肽序列上訓練,9-20聚體代替8-11聚體,及(3)按對偶基因模型適合針對各對偶基因之區別子網路模型,然而泛對偶基因模型藉由使用所有對偶基因之共享密集網路共享對偶基因之間之知識。將泛對偶基因模型之表現與對偶基因特異性NN模型比較。將兩種模型在相同肽上訓練。兩種NN模型之間之模型輸入之獨特差異為泛對偶基因模型使用34長度AA序列描述HLA類型,然而對偶基因特異性模型使用標準HLA命名法(例如,HLA-DRB1*01:01)。
圖31A至D顯示針對泛對偶基因模型及對偶基因特異性模型之測試樣品各者之精度-召回曲線。具體而言,圖31A描述針對泛對偶基因模型及對偶基因特異性模型之測試樣品0各者之精度-召回曲線。圖31B描述針對泛對偶基因模型及對偶基因特異性模型之測試樣品1各者之精度-召回曲線。圖31C描述針對泛對偶基因模型及對偶基因特異性模型之測試樣品2各者之精度-召回曲線。圖31D描述針對泛對偶基因模型及對偶基因特異性模型之測試樣品4各者之精度-召回曲線。如圖31A至D中所示,兩種NN模型達成可比較(統計上不顯著)陽性預測值評分,及同樣針對接受者操作特性曲線下之面積(ROC AUC) (亦參見下表3及4)。此證明泛對偶基因模型之能力匹配對偶基因特異性模型於MHC II類肽呈遞預測之任務中之表現。
Figure 108106921-A0304-0004
3
Figure 108106921-A0304-0005
4 XVII. 實例 12 :對來自 NSCLC 患者之外周血之新抗原特異性記憶 T- 細胞之 TCR 定序
圖32描述一種對來自NSCLC患者之外周血之新抗原特異性記憶T-細胞之TCR定序的方法。於ELISpot培育後收集來自NSCLC患者CU04之外周血單核細胞(PBMC) (以上關於圖26A至30所述)。具體而言,如上所討論,將來自患者CU04之2次訪問之活體外擴增之PBMC於IFN-γ ELISpot中利用CU04-特異性個別新抗原肽(圖29C)、利用CU04-特異性新抗原肽池(圖29C)及利用DMSO陰性對照(圖30)刺激。於培育後及在添加檢測抗體之前,將PBMC轉移至新培養板及在ELISpot檢定完成期間保持於培育器中。基於ELISpot結果鑑別陽性(反應性)孔。如圖32中所示,經鑑別之陽性孔包括利用CU04-特異性個別新抗原肽8刺激之孔及利用CU04-特異性新抗原肽池刺激之孔。將來自此等陽性孔及陰性對照(DMSO)孔之細胞組合及用磁力標記之抗體針對CD137染色用於使用Miltenyi磁性單離管柱濃化。
使用10x基因組單細胞解析成對免疫TCR分析方法將如上所述經單離及擴增之經CD137-濃化及耗儘之T-細胞片段定序。具體而言,將活的T細胞分隔成單細胞乳液用於隨後單細胞cDNA生成及全長TCR分析(通過恆定區之5’ UTR –確保α及β成對)。一種方法利用在轉錄本之5’端處轉換寡核苷酸之分子條碼模板,第二種方法利用3’端處之分子條碼恆定區寡核苷酸,及第三種方法將RNA聚合酶啟動子與TCR之5’端或3’端偶合。所有此等方法使能在單細胞水平下鑑別及去卷積α及β TCR對。所得條碼cDNA轉錄本經歷最佳化酶促及庫構建工作流程以減少偏差並確保細胞之池內之純系型的精確表示。將庫在Illumina’s MiSeq或HiSeq4000儀器(成對-端150個循環)上定序用於約5至5萬個閱讀/細胞之目標定序深度。補充表5中描述所得TCR核酸序列。藉由基於正交錨-PCR之TCR定序方法(Archer)證實補充表5中所述之TCRa及TCRb鏈之存在。此特定方法具有使用有限細胞數目作為輸入及當與基於10x基因組之TCR定序相比時更少酶促操作之優點。
使用10x軟體及定製電腦模擬管線分析定序輸出以鑑別亦如補充表5中所示之T-細胞受體(TCR) α及β鏈對。補充表5另外列出最普遍TCR純系型之α及β可變(V)區、連接(J)區、恆定(C)區及β多樣性(D)區及CDR3胺基酸序列。將純系型定義為獨特CDR3胺基酸序列之α、β鏈對。針對以2個細胞以上頻率存在之單α及單β鏈對,將純系型過濾以產生患者CU04中之純系型/目標肽之最終清單(補充表5)。
總言之,使用以上關於圖32所述之方法,鑑別來自患者CU04之外周血之記憶CD8+ T-細胞,該等細胞對如上關於第XV節中之實例11所討論之經鑑別之患者CU04之腫瘤新抗原係新抗原特異性。將此等經鑑別之新抗原-特異性T-細胞之TCR定序。及此外,鑑別經定序之TCR,該等TCR對如藉由以上呈遞模型所鑑別之患者CU04之腫瘤新抗原係新抗原特異性。XVIII. 實例 13 :使用用於 T- 細胞療法之新抗原特異性記憶 T- 細胞
於鑑別對藉由患者之腫瘤呈遞之新抗原係新抗原特異性的T-細胞及/或TCR後,可將此等經鑑別之新抗原特異性T-細胞及/或TCR用於患者之T-細胞療法。具體而言,可使用此等經鑑別之新抗原特異性T-細胞及/或TCR產生治療數量之新抗原特異性T-細胞用於在T-細胞療法期間融入患者中。本文第XVIII.A.及XVIII.B.節中討論產生用於患者之T-細胞療法之治療數量之新抗原特異性T-細胞的兩種方法。第一種方法包括擴增來自患者樣品之經鑑別之新抗原特異性T-細胞(第XVIII.A.節)。第二種方法包括將經鑑別之新抗原特異性T-細胞之TCR定序及將經定序之TCR選殖至新的T-細胞中(第XVIII.B.節)。亦可使用本文中未明確提及之產生用於T-細胞療法之新抗原特異性T-細胞的替代方法以產生用於T-細胞療法之治療數量之新抗原特異性T-細胞。一旦經由此等方法中之一或多者獲得新抗原特異性T-細胞,就可將此等新抗原特異性T-細胞融合至患者中用於T-細胞療法。XVIII.A. 鑑別及擴增用於 T- 細胞療法之來自患者樣品之新抗原特異性記憶 T- 細胞
用於產生用於患者之T-細胞療法之治療數量之新抗原特異性T-細胞的第一種方法包括擴增來自患者樣品之經鑑別之新抗原特異性T-細胞。
具體而言,為將新抗原特異性T-細胞擴增至用於患者之T-細胞療法之治療數量,使用如上所述之呈遞模型鑑別最可能藉由患者之癌細胞呈遞之新抗原肽集。此外,自患者獲得含有T-細胞之患者樣品。該患者樣品可包括患者之外周血、腫瘤浸潤淋巴細胞(TIL)或淋巴結細胞。
於患者樣品包括患者之外周血之實施例中,可使用下列方法將新抗原特異性T-細胞擴增至治療數量。於一實施例中,可進行引發。於另一實施例中,可使用上述方法中之一或多者鑑別已經激活之T-細胞。於另一實施例中,可進行引發及鑑別已經激活之T-細胞二者。引發及鑑別已經激活之T-細胞二者之優點為將表示之特異性之數目最大化。引發及鑑別已經激活之T-細胞二者之缺點為此方法係困難且費時。於另一實施例中,可將不一定被激活之新抗原特異性細胞單離。於此等實施例中,亦可進行此等新抗原特異性細胞之抗原特異性或非特異性擴增。於收集此等經引發之T-細胞後,可使該等經引發之T-細胞接受快速擴增方案。例如,於一些實施例中,可使該等經引發之T-細胞接受Rosenberg快速擴增方案(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2978753/https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2305721/ ) 153 , 154
於患者樣品包括患者之TIL之實施例中,可使用下列方法將新抗原特異性T-細胞擴增至治療數量。於一實施例中,可將新抗原特異性TIL離體四聚體/多聚體分類,及然後可使經分類之TIL接受如上所述之快速擴增方案。於另一實施例中,可進行TIL之新抗原非特異性擴增,然後可將新抗原特異性TIL四聚體分類,及然後可使經分類之TIL接受如上所述之快速擴增方案。於另一實施例中,可在使TIL接受快速擴增方案之前進行抗原特異性培養。(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4607110/https://onlinelibrary.wiley.com/doi/pdf/10.1002/eji.201545849 ) 155 , 156
於一些實施例中,可修改Rosenberg快速擴增方案。例如,可將抗PD1及/或抗41BB添加至TIL培養中以模擬更快速擴增。(https://jitc.biomedcentral.com/articles/10.1186/s40425-016-0164-7 ) 157 XVIII.B. 鑑別新抗原特異性 T- 細胞、對經鑑別之新抗原特異性 T- 細胞之 TCR 定序及將經定序之 TCR 選殖至新的 T- 細胞中
用於產生用於患者之T-細胞療法之治療數量之新抗原特異性T-細胞的第二種方法包括鑑別來自患者樣品之新抗原特異性T-細胞,將經鑑別之新抗原特異性T-細胞之TCR定序,及將經定序之TCR選殖至新的T-細胞中。
首先,自患者樣品鑑別新抗原特異性T-細胞,及將經鑑別之新抗原特異性T-細胞之TCR定序。可自其單離T細胞之患者樣品可包括血液、淋巴結或腫瘤中之一或多者。更具體而言,可自其單離T細胞之患者樣品可包括外周血單核細胞(PBMC)、腫瘤浸潤細胞(TIL)、解離腫瘤細胞(DTC)、經活體外引發之T細胞及/或自淋巴結單離之細胞中之一或多者。此等細胞可係新鮮及/或經冷凍。PBMC及經活體外引發之T細胞可獲自癌症患者及/或健康受試者。
於獲得患者樣品後,可將該樣品擴增及/或引發。可實施各種方法擴增及啟動患者樣品。於一實施例中,可在肽或串聯微基因之存在下模擬新鮮及/或冷凍PBMC。於另一實施例中,可在肽或串聯微基因之存在下利用抗原呈遞細胞(APC)模擬及啟動新鮮及/或冷凍經單離之T-細胞。APC之實例包括B-細胞、單核細胞、樹突狀細胞、巨噬細胞或人工抗原呈遞細胞(諸如於https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2929753中評論之呈遞相關HLA及共刺激分子之細胞或珠)。於另一實施例中,可在細胞激素(例如,IL-2、IL-7及/或IL-15)之存在下刺激PBMC、TIL及/或經單離之T-細胞。於另一實施例中,可在最大刺激物、細胞激素及/或飼養細胞之存在下刺激TIL及/或經單離之T-細胞。於此等實施例中,T細胞可藉由激活標誌物及/或多聚體(例如,四聚體)單離。於另一實施例中,可利用刺激因子及/或共刺激因子標誌物(例如,CD3抗體、CD28抗體及/或珠(例如,DynaBead))刺激TIL及/或經單離之T細胞。於另一實施例中,可使用快速擴增方案在飼養細胞上在IL-2之高劑量下於富有培養基中擴增DTC。
然後,鑑別及單離新抗原特異性T細胞。於一些實施例中,將T細胞自患者樣品離體單離無需先前擴增。於一實施例中,可使用以上關於第XVII.節中所述之方法鑑別來自患者樣品之新抗原特異性T細胞。於替代實施例中,藉由陽性選擇之特定細胞群體之濃化或藉由陰性選擇之特定細胞群體之耗儘進行單離。於一些實施例中,藉由利用一或多個抗體或其他結合劑培育細胞實現陽性或陰性選擇,該等結合劑特異性結合至各自在經陽性或陰性選擇之細胞上表現或在相對較高水平(標誌物 )下表現(標誌物+)之一或多個表面標誌物。
於一些實施例中,藉由在非T細胞(諸如B細胞、單核細胞或其他白細胞(諸如CD14))上表現之標誌物之陰性選擇將T細胞自PBMC樣品分離。於一些態樣中,使用CD4+或CD8+選擇步驟分離CD4+輔助T-細胞及CD8+細胞毒性T-細胞。可藉由對在一或多個初始T-細胞、記憶T-細胞及/或效應T-細胞子群體上表現或相對較高程度表現之標誌物之陽性或陰性選擇將此等CD4+及CD8+群體進一步分成子群體。
於一些實施例中,CD8+細胞(諸如)藉由基於與各自子群體相關之表面抗原之陽性或陰性選擇進一步濃化或耗儘初始幹細胞、中樞記憶幹細胞、效應記憶幹細胞及/或中樞記憶幹細胞。於一些實施例中,進行中樞記憶T (TCM)細胞之濃化以增加功效(諸如改善長期生存、擴增及/或於投與後之移植物移入),於一些態樣中,該功效於此等子群體中係特別穩健的。參見Terakura等人(2012) Blood. 1:72-82;Wang等人(2012) J Immunother. 35(9):689-701。於一些實施例中,組合經TCM濃化之CD8+ T-細胞及CD4+ T-細胞進一步增強功效。
於實施例中,記憶T細胞存在於CD8+外周血淋巴細胞之CD62L+及CD62L-子集二者中。PBMC可(諸如)使用抗-CD8抗體及抗-CD62L抗體濃化或耗儘CD62L-CD8+及/或CD62L+CD8+片段。
於一些實施例中,中樞記憶T (TCM)細胞之濃化係基於CD45RO、CD62L、CCR7、CD28、CD3及/或CD127之陽性或高表面表現;於一些態樣中,其係基於對表現或高度表現CD45RA及/或顆粒酶B之細胞之陰性選擇。於一些態樣中,藉由表現CD4、CD14、CD45RA之細胞之耗儘及對表現CD62L之細胞之陽性選擇或濃化進行對TCM細胞濃化之CD8+群體之單離。於一態樣中,以基於CD4表現選擇之細胞之陰性片段開始進行中樞記憶T (TCM)細胞之濃化,使該細胞接受基於CD14及CD45RA之表現之陰性選擇及基於CD62L之陽性選擇。於一些態樣中,同時進行此等選擇及於其他態樣中,依序(以任一順序)進行此等選擇。於一些態樣中,於製備CD8+細胞群體或子群體中使用之相同基於CD4表現之選擇步驟亦用於產生CD4+細胞群體或子群體,使得來自基於CD4之分離之陽性及陰性片段二者經留存及於方法之隨後步驟中(視情況,於一或多個其他陽性或陰性選擇步驟後)使用。
於一特定實例中,使PBMC樣品或其他白細胞樣品接受CD4+細胞之選擇,其中保留陰性及陽性片段二者。然後使陰性片段接受基於CD14及CD45RA或ROR1之表現之陰性選擇,及基於中樞記憶T-細胞(諸如CD62L或CCR7)之標誌物特徵之陽性選擇,其中以任一順序進行該等陽性及陰性選擇。
藉由鑑別具有細胞表面抗原之細胞群體將CD4+ T輔助細胞分成初始細胞、中樞記憶細胞及效應細胞。CD4+淋巴細胞可藉由標準方法獲得。於一些實施例中,初始CD4+ T淋巴細胞為CD45RO-、CD45RA+、CD62L+、CD4+ T-細胞。於一些實施例中,中樞記憶CD4+細胞為CD62L+及CD45RO+。於一些實施例中,效應CD4+細胞為CD62L-及CD45RO-。
於一實例中,為藉由陰性選擇對CD4+細胞濃化,單株抗體混合物通常包括CD14、CD20、CD11b、CD16、HLA-DR及CD8之抗體。於一些實施例中,使抗體或結合搭檔結合至固體擔體或基質(諸如磁珠或順磁珠)以允許分離細胞進行陽性及/或陰性選擇。例如,於一些實施例中,使用免疫磁性(或親和力-磁性)分離技術(於Methods in Molecular Medicine,第58卷:Metastasis Research Protocols,第2卷:Cell Behavior In Vitro and In Vivo,第17至25頁藉由S. A. Brooks and U. Schumacher Humana Press Inc., Totowa, N.J.編輯中所評論)將細胞及細胞群體分離或單離。
於一些態樣中,將待分離之細胞樣品或組合物用小的、可磁化或磁回應物質(諸如磁回應粒子或微粒,諸如順磁珠(例如,諸如Dynabead或MACS珠))培育。磁回應物質(例如,粒子)一般直接或間接連接至結合搭檔,例如,特異性結合至分子之抗體,例如,在細胞上呈遞之表面標誌物、期望分離(例如,期望陰性或陽性選擇)之細胞或細胞群體。
於一些實施例中,磁性粒子或磁珠包括結合至特異性結合成員(諸如抗體或其他結合搭檔)之磁回應物質。存在許多熟知於磁性分離方法中使用之磁回應物質。適宜磁性粒子包括於Molday美國專利案第4,452,773號中及於歐洲專利說明書EP 452342 B中(其以引用的方式併入本文中)所述之彼等。膠體大小粒子(諸如於Owen美國專利案第4,795,698號及Liberti等人,美國專利案第5,200,084號中所述之彼等)為其他實例。
一般在抗體或結合搭檔或分子,諸如二級抗體或特異性結合至此等抗體或結合搭檔之其他試劑,連接至特異性結合至細胞表面分子(若在樣品內之細胞上呈遞)之磁性粒子或磁珠之其他試劑之條件下進行培育。
於一些態樣中,將樣品放置於磁場中,及具有連接其上之磁回應或可磁化粒子之彼等細胞將被磁鐵吸引及自未經標記之細胞分離。針對陽性選擇,保留被磁鐵吸引之細胞;針對陰性選擇,保留未被吸引之細胞(未經標記之細胞)。於一些態樣中,在相同選擇步驟期間進行陽性及陰性選擇之組合,其中將該等陽性及陰性片段保留及進一步處理或接受進一步分離步驟。
於某些實施例中,將該等磁回應粒子於初級抗體或其他結合搭檔、二級抗體、凝集素、酵素或鏈黴抗生物素中塗覆。於某些實施例中,將該等磁性粒子經由對一或多個標誌物特異性之初級抗體之塗覆連接至細胞。於某些實施例中,利用初級抗體或結合搭檔標記細胞而非珠,及然後添加經細胞類型特異性二級抗體或其他結合搭檔(例如,鏈黴抗生物素)塗覆之磁性粒子。於某些實施例中,將經鏈黴抗生物素塗覆之磁性粒子結合經生物素化初級或二級抗體使用。
於一些實施例中,將該等磁回應粒子左連接至待隨後培育、培養及/或工程改造之細胞中;於一些態樣中,將該等粒子左連接至細胞用於對患者投與。於一些實施例中,自細胞移除可磁化或磁回應粒子。自細胞移除可磁化粒子之方法係已知且包括(例如)使用競爭未經標記之抗體、可磁化粒子或偶聯至可裂解連接子之抗體等。於一些實施例中,該等可磁化粒子係可生物降解。
於一些實施例中,基於親和力之選擇係經由磁性激活之細胞分選(MACS) (Miltenyi Biotech, Auburn, Calif.)。磁性激活之細胞分選(MACS)系統能高純度選擇具有連接其上之磁化粒子之細胞。於某些實施例中,MACS以模式操作,其中於施加外部磁場後,將非目標及目標物質依序溶離。即,將連接至磁化粒子之細胞保持於位置中,同時將未經連接之物質溶離。然後,於此第一個溶離步驟完成後,將困在磁場中及防止被溶離之物質以某種方式釋放使得其可經溶離及恢復。於某些實施例中,將非大T細胞標記及自不同細胞群體耗儘。
於某些實施例中,使用進行方法之單離、細胞製備、分離、處理、培育、培養及/或調配步驟中之一或多者之系統、設備或裝置進行單離或分離。於一些態樣中,使用該系統於封閉或無菌環境中進行此等步驟各者(例如)以最小化誤差、使用者操作及/或污染。於一實例中,該系統為如國際專利申請案公開號WO2009/072003或US 20110003380 A1中所述之系統。
於一些實施例中,該系統或裝置於系集或自含系統中及/或以自動化或可程式設計方式進行單離、處理、工程改造及調配步驟中之一或多者(例如,所有)。於一些態樣中,該系統或裝置包含與系統或裝置通信之電腦及/或電腦程式,其允許使用者程式設計、控制、評估處理、單離、工程改造及調配步驟之結果及/或調整處理、單離、工程改造及調配步驟之各種態樣。
於一些態樣中,例如,針對細胞於封閉且無菌系統中在臨床級別水平下之自動分離,使用CliniMACS系統(Miltenyi Biotic)進行分離及/或其他步驟。元件可包括積體微電腦、磁分離裝置、蠕動泵及各種夾緊閥。於一些態樣中,積體電腦控制儀器之所有元件且指導系統進行標準化序列之重複程式。於一些態樣中,磁分離裝置包括可移動之永久磁鐵及選擇管柱之支架。蠕動泵控制整個管組之流率及與夾緊閥一起確保緩衝液通過系統之可控流動及細胞之連續懸浮。
於一些態樣中,該CliniMACS系統使用於無菌非熱原溶液中供給之抗體偶合之可磁化粒子。於一些實施例中,於將細胞用磁性粒子標記後,將該等細胞洗滌以移除過量粒子。然後將細胞製備袋連接至管組,該管組轉而連接至含有緩衝液之袋及細胞收集袋。該管組由預組裝之無菌管(包含預管柱及分離管柱)組成且僅用於單一用途。於啟動分離程序後,系統自動將細胞樣品應施加至分離管柱。將經標記之細胞保留於管柱內,同時藉由一系列洗滌步驟移除未經標記之細胞。於一些實施例中,利用本文中所述方法使用之細胞群體未經標記且不保留於管柱中。於一些實施例中,利用本文中所述方法使用之細胞群體經標記且保留於管柱中。於一些實施例中,於移除磁場後,將利用本文中所述方法使用之細胞群體自管柱溶離,及收集於細胞收集袋內。
於某些實施例中,使用CliniMACS Prodigy系統(Miltenyi Biotec)進行分離及/或其他步驟。於一些態樣中,將該CliniMACS Prodigy系統配備允許自動洗滌及細胞藉由離心分級分離之細胞處理裝置。該CliniMACS Prodigy系統亦可包含車載相機及圖像識別軟體,該軟體藉由識別源細胞產品之宏觀層確定最佳細胞分級分離終點。例如,可將外周血自動分離成紅細胞、白細胞及血漿層。該CliniMACS Prodigy系統亦可包含積體細胞培養室,其實現細胞培養方案,諸如,例如,細胞分化及擴增、抗原負載及長期細胞培養。輸入埠可允許培養基之無菌移除及補充及可使用積體顯微鏡監測細胞。參見,例如,Klebanoff等人(2012) J Immunother. 35(9): 651-660,Terakura等人(2012) Blood. 1:72-82及Wang等人(2012) J Immunother. 35(9):689-701。
於一些實施例中,經由流式細胞計收集及濃化(或耗儘)本文中所述細胞群體,其中將經多細胞表面標誌物染色之細胞帶入流體流中。於一些實施例中,經由製備級(FACS)分選收集及濃化(或耗儘)本文中所述細胞群體。於某些實施例中,藉由使用微電機系統(MEMS)晶片與基於FACS之檢測系統組合收集及濃化(或耗儘)本文中所述細胞群體(參見,例如,WO 2010/033140,Cho等人(2010) Lab Chip 10, 1567-1573;及Godin等人(2008) J Biophoton. 1(5):355-376)。於兩種情況下,可將細胞用多個標誌物標記,允許經良好定義之T-細胞子集在高純度下之單離。
於一些實施例中,將抗體或結合搭檔用一或多個可檢測標誌物標記以促進陽性及/或陰性選擇之分離。例如,分離可基於結合至經螢光標記之抗體。於一些實例中,於流體流中,諸如藉由螢光激活之細胞分選(FACS) (包括製備級(FACS)及/或微電機系統(MEMS)晶片) (例如)與流式細胞計檢測系統組合進行基於對一或多個細胞表面標誌物特異性之抗體或其他結合搭檔之結合之細胞的分離。此等方法允許同時基於多個標誌物之陽性及陰性選擇。
於一些實施例中,該等製備方法包括在單離、培育及/或工程改造之前或之後冷凍(例如,冷藏保存)細胞之步驟。於一些實施例中,冷凍及隨後解凍步驟移除粒細胞及在某種程度上,細胞群體中之單核細胞。於一些實施例中,例如,於移除血漿及血小板之洗滌步驟後,將細胞懸浮於冷凍溶液中。於一些態樣中,可使用任何各種已知冷凍溶液及參數。一個實例涉及使用含有20% DMSO及8%人血清白蛋白(HSA)之PBS或其他適宜細胞冷凍介質。然後可將此用介質1:1稀釋使得DMSO及HAS之最終濃度各自為10%及4%。其他實例包括Cryostor®、CTL-Cryo™ ABC冷凍介質及類似者。然後以1度/分鐘之速率將細胞冷凍至-80℃並儲存於液氮儲罐之蒸汽相中。
於一些實施例中,所提供之方法包括培植、培育、培養及/或遺傳工程改造步驟。例如,於一些實施例中,提供培育及/或工程改造經耗儘之細胞群體及培養引發組合物之方法。
因此,於一些實施例中,將細胞群體於培養引發組合物中培育。可於培養容器(諸如裝置、室、孔、管柱、管、管組、閥、小瓶、培養皿、袋)或用於培養或培植細胞之其他容器中進行培育及/或工程改造。
於一些實施例中,在遺傳工程改造之前或連同遺傳工程改造培育及/或培養細胞。培育步驟可包括培養、培植、刺激、激活及/或繁殖。於一些實施例中,在刺激條件或刺激劑之存在下培育組合物或細胞。此等條件包括經設計以誘導群體中細胞之增生、擴增、激活及/或生存,模擬抗原暴露及/或引發細胞用於遺傳工程改造(諸如引入重組抗原受體)之彼等。
該等條件可包括下列中之一或多者:特定培養基、溫度、氧含量、二氧化碳含量、時間、物劑(例如,營養素、胺基酸、抗生素)、離子及/或刺激因子(諸如細胞激素、趨化因子、抗原、結合搭檔、融合蛋白、重組可溶性受體)及經設計以激活細胞之任何其他物劑。
於一些實施例中,刺激條件或物劑包括能激活TCR複合體之細胞內信號傳導域之一或多種物劑(例如,配位體)。於一些態樣中,該物劑打開或引發T-細胞中之TCR/CD3細胞內信號傳導級聯。此等物劑可包括抗體(諸如對TCR組分及/或(例如)結合至固體擔體(諸如珠)之共刺激受體(例如,抗-CD3、抗-CD28)特異性之彼等)及/或一或多種細胞激素。視情況,擴增方法可另外包括將抗-CD3及/或抗CD28抗體添加至培養基中之步驟(例如,以至少約0.5 ng/ml之濃度)。於一些實施例中,刺激劑包括IL-2及/或IL-15,例如,至少約10個單位/mL之IL-2濃度。
於一些態樣中,根據諸如頒與Riddell等人之美國專利案第6,040,177號,Klebanoff等人(2012) J Immunother. 35(9): 651-660,Terakura等人(2012) Blood. 1:72-82及/或Wang等人(2012) J Immunother. 35(9):689-701中所述之彼等之技術進行培育。
於一些實施例中,藉由添加至培養引發組合物飼養細胞,諸如非***外周血單核細胞(PBMC)中(例如,使得所得細胞群體含有至少約5、10、20或40或更多個待擴增之初始群體中之各T淋巴細胞之PBMC飼養細胞)及培育培養物(例如,持續足以擴增T-細胞數目之時間)擴增T-細胞。於一些態樣中,該等非***飼養細胞可包括經γ-照射之PBMC飼養細胞。於一些實施例中,將PBMC用約3000至3600雷德(rad)範圍之γ射線照射以防止細胞***。於一些實施例中,將PBMC飼養細胞用絲裂黴素(Mytomicin) C滅活。於一些態樣中,在添加T-細胞群體之前,將飼養細胞添加至培養基中。
於一些實施例中,刺激條件包括適用於人類T淋巴細胞生長之溫度,例如,至少約25攝氏度,一般至少約30度,及一般在或約37攝氏度。視情況,培育可另外包括添加非***EBV-轉化之類淋巴母細胞(LCL)作為飼養細胞。可將LCL用約6000至10,000雷德範圍之γ射線照射。於一些態樣中,以任何適宜量(諸如至少約10:1之LCL飼養細胞與初始T淋巴細胞之比率)提供LCL飼養細胞。
於實施例中,藉由利用抗原刺激初始或抗原特異性T淋巴細胞獲得抗原特異性T-細胞(諸如抗原特異性CD4+及/或CD8+ T-細胞)。例如,可藉由自感染受試者單離T-細胞及利用相同抗原刺激活體外細胞產生對巨細胞病毒抗原抗原特異性T-細胞株或純系。
於一些實施例中,於利用功能檢定(例如,ELISpot)刺激後鑑別及/或單離新抗原特異性T-細胞。於一些實施例中,將新抗原特異性T-細胞藉由細胞內細胞激素染色藉由分選多功能細胞單離。於一些實施例中,使用激活標誌物(例如,CD137、CD38、CD38/HLA-DR雙陽性及/或CD69)鑑別及/或單離新抗原特異性T-細胞。於一些實施例中,使用I類或II類多聚體及/或激活標誌物鑑別及/或單離新抗原特異性CD8+、自然殺手T-細胞、記憶T-細胞及/或CD4+ T-細胞。於一些實施例中,使用記憶標誌物(例如,CD45RA、CD45RO、CCR7、CD27及/或CD62L)鑑別及/或單離新抗原特異性CD8+及/或CD4+ T-細胞。於一些實施例中,鑑別及/或單離增生細胞。於一些實施例中,鑑別及/或單離經激活之T-細胞。
於鑑別來自患者樣品之新抗原特異性T-細胞後,將經鑑別之新抗原特異性T-細胞之新抗原特異性TCR定序。為將新抗原特異性TCR定序,首先必須鑑別該TCR。鑑別T-細胞之新抗原特異性TCR之一種方法可包括使該T-細胞與包含至少一個新抗原之HLA-多聚體(例如,四聚體)接觸;及經由該HLA-多聚體與TCR之間之結合鑑別該TCR。鑑別新抗原特異性TCR之另一種方法可包括獲得包含該TCR之一或多個T-細胞;利用在至少一個抗原呈遞細胞(APC)上呈遞之至少一個新抗原激活該一或多個T-細胞;及經由與至少一個新抗原相互作用激活之一或多個細胞之選擇鑑別該TCR。
於鑑別新抗原特異性TCR後,可將該TCR定序。於一實施例中,以上關於第XVII節所述之方法可用於將TCR定序。於另一實施例中,可將TCR之TCRa及TCRb批量定序及然後基於頻率配對。於另一實施例中,可使用Howie等人,Science Translational Medicine 2015 (doi: 10.1126/scitranslmed.aac5624)之方法將TCR定序及配對。於另一實施例中,可使用Han等人,Nat Biotech 2014 (PMID 24952902, doi 10.1038/nbt.2938)之方法將TCR定序及配對。於另一實施例中,可使用藉由https://www.biorxiv.org/content/early/2017/05/05/134841https://patents.***.com/patent/US20160244825A1/158 ,159 所述之方法獲得成對TCR序列。
於另一實施例中,T細胞純系群體可藉由限制稀釋產生,及然後可將T細胞純系群體之TCRa及TCRb定序。於又一實施例中,可將T-細胞分類至具有孔之板上使得每孔存在一個T細胞,及然後可將各孔中之各T細胞之TCRa及TCRb定序及配對。
接下來,於自患者樣品鑑別新抗原特異性T-細胞及將經鑑別之新抗原特異性T-細胞之TCR定序後,將經定序之TCR選殖至新的T-細胞中。此等經選殖之T-細胞含有新抗原特異性受體,例如,含有包含TCR之細胞外域。亦提供此等細胞之群體及含有此等細胞之組合物。於一些實施例中,將此等細胞之組合物或群體濃化,諸如其中表現TCR之細胞占組合物或某個類型之細胞(諸如T-細胞或CD8+或CD4+細胞)中之總細胞之至少1、5、10、20、30、40、50、60、70、80、90、91、92、93、94、95、96、97、98、99或超過99%。於一些實施例中,組合物包含至少一個含有本文中所揭示之TCR之細胞。其中該等組合物為用於投與(諸如用於授受性細胞療法)之醫藥組合物及調配物。亦提供對受試者(例如,患者)投與細胞及組合物之治療方法。
因此亦提供表現TCR之經遺傳工程改造之細胞。該等細胞一般為真核細胞,諸如哺乳動物細胞及通常為人類細胞。於一些實施例中,該等細胞係源自血液、骨髓、淋巴或類淋巴器官,為免疫系統之細胞,諸如先天或適應性免疫之細胞,例如,類骨髓或類淋巴細胞(包括淋巴細胞),通常T-細胞及/或NK細胞。其他示例性細胞包括幹細胞,諸如多能及多潛能幹細胞,包括誘導性多潛能幹細胞(iPSC)。該等細胞通常為初級細胞,諸如直接自受試者單離及/或自受試者單離並冷凍之彼等。於一些實施例中,該等細胞包括T-細胞或其他細胞類型(諸如全T-細胞群體、CD4+細胞、CD8+細胞及其子群體)之一或多個子集,諸如藉由以下所定義之彼等:功能、激活狀態、成熟、分化潛能、擴增、再循環、定位及/或持久性能力、抗原特異性、抗原受體之類型、存在於特定器官或隔室中、標誌物或細胞激素分泌特性及/或分化程度。關於所治療之受試者,該等細胞可係異基因及/或自體同源。其中該等方法包括現成方法。於一些態樣中,諸如針對現成技術,該等細胞係多潛能及/或多能,諸如幹細胞,諸如誘導性多潛能幹細胞(iPSC)。於一些實施例中,該等方法包括如上所述自受試者單離細胞、製備、處理、培養及/或工程改造細胞,及在冷藏保存之前或之後將細胞再移入相同患者中。
其中T-細胞及/或CD4+及/或CD8+ T-細胞之子類型及子群體為初始T (TN)細胞、效應T-細胞(TEFF)、記憶T-細胞及其子類型(諸如幹細胞記憶T (TSCM)、中樞記憶T (TCM)、效應記憶T (TEM)或終期分化之效應記憶T-細胞)、腫瘤浸潤淋巴細胞(TIL)、不成熟T-細胞、成熟T-細胞、輔助T-細胞、細胞毒性T-細胞、黏膜相關不變異T (MALT)細胞、天然存在及適應性調節T (Treg)細胞、輔助T-細胞(諸如TH1細胞、TH2細胞、TH3細胞、TH17細胞、TH9細胞、TH22細胞、濾泡輔助T-細胞、α/β T-細胞及δ/γ T-細胞)。
於一些實施例中,該等細胞為自然殺手(NK)細胞。於一些實施例中,該等細胞為單核細胞或粒細胞,例如,骨髓細胞、巨噬細胞、嗜中性白血球、樹突狀細胞、肥大細胞、嗜酸性白血球及/或嗜鹼細胞。
可將該等細胞遺傳修飾以減少表現或敲除內源性TCR。此等修改述於Mol Ther Nucleic Acids. 2012年12月;1(12): e63;Blood. 2011年8月11日;118(6):1495-503;Blood. 2012年6月14日;119(24): 5697-5705;Torikai、Hiroki等人,「HLA and TCR Knockout by Zinc Finger Nucleases: Toward 「off-the-Shelf」 Allogeneic T-Cell Therapy for CD19+ Malignancies..」 Blood 116.21 (2010): 3766;Blood. 2018年1月18日;131(3):311-322. doi: 10.1182/blood-2017-05-787598及WO2016069283中,其全文以引用的方式併入。
可將該等細胞遺傳修飾以促進細胞激素分泌。此等修飾述於Hsu C、Hughes MS、Zheng Z、Bray RB、Rosenberg SA、Morgan RA. Primary human T lymphocytes engineered with a codon-optimized IL-15 gene resist cytokine withdrawal-induced apoptosis and persist long-term in the absence of exogenous cytokine. J Immunol. 2005;175:7226-34;Quintarelli C、Vera JF、Savoldo B、Giordano Attianese GM、Pule M、Foster AE,Co-expression of cytokine and suicide genes to enhance the activity and safety of tumor-specific cytotoxic T lymphocytes. Blood. 2007;110:2793-802;及Hsu C、Jones SA、Cohen CJ、Zheng Z、Kerstann K、Zhou J,Cytokine-independent growth and clonal expansion of a primary human CD8+ T-cell clone following retroviral transduction with the IL-15 gene. Blood. 2007;109:5168-77中。
已顯示T-細胞上之趨化因子受體與腫瘤分泌之趨化因子之錯配導致T-細胞至腫瘤微環境之次優轉運。為提高治療功效,可將該等細胞遺傳修飾以增加腫瘤微環境中之趨化因子之識別。此等修飾之實例述於Moon、EKCarpenito、Csun、Jwang、LCKapoor、VPredina, J Expression of a functional CCR2 receptor enhances tumor localization and tumor eradication by retargeted human T-cells expressing a mesothelin-specific chimeric antibody receptor.Clin Cancer Res. 2011; 17: 4719-4730;及Craddock、JALu、Abear、Apule、Mbrenner、MKRooney、CM等人,Enhanced tumor trafficking of GD2 chimeric antigen receptor T-cells by expression of the chemokine receptor CCR2b.J Immunother. 2010; 33: 780-788中。
可將該等細胞遺傳修飾以增強共刺激/增強受體(諸如CD28及41BB)之表現。
T-細胞療法之不利作用可包括細胞激素釋放症候群及延長之B-細胞耗儘。於受體細胞中引入自殺/安全開關可提高基於細胞之療法之安全特性。因此,可將該等細胞遺傳修飾以包含自殺/安全開關。該自殺/安全開關可為基於表現基因之細胞賦予對物劑(例如,藥物)敏感性之基因,且當細胞與該物劑接觸或暴露於該物劑中時,該基因造成細胞死亡。示例性自殺/安全開關述於Protein Cell. 2017年8月;8(8): 573-589中。該自殺/安全開關可為HSV-TK。該自殺/安全開關可為胞嘧啶脫胺酶、嘌呤核苷酸磷酸化酶或硝基還原酶。該自殺/安全開關可為美國專利申請公開案第US20170166877A1號中所述之RapaCIDeTM 。該自殺/安全開關系統可為Haematologica. 2009年9月;94(9): 1316-1320中所述之CD20/利妥昔單抗(Rituximab)。此等參考文獻之全文以引用的方式併入。
可將TCR引入受體細胞中作為***受體,該***受體僅在雜二聚小分子之存在下組裝。此等系統述於Science. 2015年10月16日;350(6258): aab4077及美國專利案第9,587,020號中,其以引用的方式併入本文中。
於一些實施例中,該等細胞包含一或多個核酸(例如,編碼本文中所揭示之TCR之多核苷酸),其中經由遺傳工程改造引入該多核苷酸,及從而表現如本文中所揭示之重組或經遺傳工程改造之TCR。於一些實施例中,核酸係異源,即,正常不存在於細胞或獲自該細胞之樣品中,諸如獲自另一生物體或細胞者,其(例如)通常未見於正在經工程改造之細胞及/或衍生此細胞之生物體中。於一些實施例中,核酸係非天然存在(諸如自然界中未發現之核酸),包括包含編碼來自多個不同細胞類型之各種域之核酸之嵌合組合者。
核酸可包含經密碼子最佳化之核苷酸序列。不受特定理論或機制之約束,據信核苷酸序列之密碼子最佳化增加mRNA轉錄本之轉譯效率。核苷酸序列之密碼子最佳化可涉及用另一密碼子取代初始密碼子,該另一密碼子編碼相同胺基酸,但是可藉由於細胞內更容易獲得之tRNA轉譯,因此增加轉譯效率。核苷酸序列之最佳化亦可減少將干擾轉譯之二級mRNA結構,因此增加轉譯效率。
可使用構築體或載體將TCR引入受體細胞中。本文中描述示例性構築體。編碼TCR之α及β鏈之多核苷酸可於單一構築體中或於分開構築體中。可將編碼α及β鏈之多核苷酸以操作方式連接至啟動子,例如,異源啟動子。該異源啟動子可為強啟動子,例如,EF1α、CMV、PGK1、Ubc、β肌動蛋白、CAG啟動子及類似者。該異源啟動子可為弱啟動子。該異源啟動子可為可誘導啟動子。示例性可誘導啟動子包括(但不限於) TRE、NFAT、GAL4、LAC及類似者。其他示例性可誘導表現系統述於美國專利案第5,514,578號、第6,245,531號、第7,091,038號及歐洲專利案第0517805號,其全文以引用的方式併入。
用於將TCR引入受體細胞中之構築體亦可包含編碼信號肽(信號肽元素)之多核苷酸。該信號肽可促進經引入之TCR之表面轉運。示例性信號肽包括(但不限於) CD8信號肽、免疫球蛋白信號肽,其中特定實例包括GM-CSF及IgG κ。此等信號肽述於Trends Biochem Sci. 2006年10月;31(10):563-71. Epub 2006年8月21日;及An等人「Construction of a New Anti-CD19 Chimeric Antigen Receptor and the Anti-Leukemia Function Study of the Transduced T-cells.」 Oncotarget 7.9 (2016): 10638-10649. PMC. Web. 2018年8月16日中;其以引用的方式併入本文中。
於一些情況(例如,自單一構築體或開放閱讀框表現α及β鏈之情況或標誌物基因包含於構築體中之情況)下,該構築體可包含核糖體跳躍序列。該核糖體跳躍序列可為2A肽,例如,P2A或T2A肽。示例性P2A及T2A肽述於Scientific Reports第7卷,文章編號:2193 (2017)中,其全文以引用的方式併入本文中。於一些情況下,在2A元素之上游引入FURIN/PACE裂解位點。FURIN/PACE裂解位點述於(例如)http://www.nuolan.net/substrates.html 中。裂解肽亦可為因子Xa裂解位點。於自單一構築體或開放閱讀框表現α及β鏈之情況下,該構築體可包含內部核糖體進入位點(IRES)。
該構築體可另外包含一或多個標誌物基因。示例性標誌物基因包括(但不限於) GFP、螢光素酶、HA、lacZ。該標誌物可為可選擇標誌物,諸如抗生素抗性標誌物、重金屬抗性標誌物或除生物劑抗性標誌物,如為熟習此項技術者所知。該標誌物可為於營養缺陷型宿主中使用之互補標誌物。示例性互補標誌物及營養缺陷型宿主述於Gene. 2001年1月24日;263(1-2):159-69中。此等標誌物可經由IRES、框移序列、2A肽連接子、與TCR之融合表現或自單獨啟動子分開表現。
用於將TCR引入受體細胞中之示例性載體或系統包括(但不限於)腺相關病毒、腺病毒、腺病毒+經改性之牛痘、安卡拉(Ankara)病毒(MVA)、腺病毒+逆轉錄病毒、腺病毒+仙台(Sendai)病毒、腺病毒+牛痘病毒、α病毒(VEE)複製子疫苗、反義寡核苷酸、長雙歧桿菌(Bifidobacterium longum)、CRISPR-Cas9、大腸桿菌(E. coli)、黃病毒屬(Flavivirus)、基因槍(Gene gun)、皰疹病毒屬(Herpesviruses)、單純皰疹病毒(Herpes simplex virus)、乳酸乳球菌(Lactococcus lactis)、電穿孔、慢病毒、脂質轉染法、單核細胞增生李斯特氏菌(Listeria monocytogenes)、麻疹病毒(Measles virus)、經改質之牛痘安卡拉病毒(MVA)、mRNA電穿孔、裸/質體DNA、裸/質體DNA +腺病毒、裸/質體DNA +經改質之牛痘安卡拉病毒(MVA)、裸/質體DNA + RNA轉移、裸/質體DNA +牛痘病毒、裸/質體DNA +水皰性口炎病毒(Vesicular stomatitis virus)、新堡病病毒(Newcastle disease virus)、非病毒、PiggyBacTM (PB)轉位子、基於奈米粒子之系統、脊髓灰質炎病毒(Poliovirus)、痘病毒(Poxvirus)、痘病毒+牛痘病毒、逆轉錄病毒、RNA轉移、RNA轉移+裸/質體DNA、RNA病毒、釀酒酵母(Saccharomyces cerevisiae)、鼠傷寒沙門氏桿菌(Salmonella typhimurium)、塞姆利基森林病毒(Semliki forest virus)、仙台病毒、痢疾志賀氏菌(Shigella dysenteriae)、猿腎病毒(Simian virus)、siRNA、睡美人(Sleeping Beauty)轉位子、變形鏈球菌(Streptococcus mutans)、牛痘病毒、委內瑞拉馬腦炎病毒複製子(Venezuelan equine encephalitis virus replicon)、水皰性口炎病毒及霍亂弧菌(Vibrio cholera)。
於較佳實施例中,將TCR經由腺相關病毒(AAV)、腺病毒、CRISPR-CAS9、皰疹病毒、慢病毒、脂質轉染法、mRNA電穿孔、PiggyBacTM (PB)轉位子、逆轉錄病毒、RNA轉移或睡美人轉位子引入受體細胞中。
於一些實施例中,用於將TCR引入受體細胞中之載體為病毒載體。示例性病毒載體包括腺病毒載體、腺相關病毒(AAV)載體、慢病毒載體、皰疹病毒載體、逆轉錄病毒載體及類似者。本文中描述此等載體。
用於將TCR引入受體細胞中之TCR構築體之示例性實施例示於圖33中。於一些實施例中,TCR構築體自5’-3’方向包含下列多核苷酸序列:啟動子序列、信號肽序列、TCR β可變(TCRβv)序列、TCR β恆定(TCRβc)序列、裂解肽(例如,P2A)、信號肽序列、TCR α可變(TCRαv)序列及TCR α恆定(TCRαc)序列。於一些實施例中,構築體之TCRβc及TCRαc序列包含一或多個鼠科區域,例如,如本文中所述之全鼠科恆定序列或人類è鼠科胺基酸交換。於一些實施例中,該構築體還包含3’之TCRαc序列、裂解肽序列(例如,T2A),接著報告基因。於一實施例中,該構築體自5’-3’方向包含下列多核苷酸序列:啟動子序列、信號肽序列、TCR β可變(TCRβv)序列、含有一或多個鼠科區域之TCR β恆定((TCRβc)序列、裂解肽(例如,P2A)、信號肽序列、TCR α可變(TCRαv)序列及含有一或多個鼠科區域之TCR α恆定(TCRαc)序列、裂解肽(例如,T2A)及報告基因。
圖34描述用於將TCR選殖至表現系統中用於療法開發之示例性P526構築體主鏈核苷酸序列。
圖35描述用於將患者新抗原特異性TCR,純系型1選殖至表現系統中用於療法開發之示例性構築體序列。
圖36描述用於將患者新抗原特異性TCR,純系型3選殖至表現系統中用於療法開發之示例性構築體序列。
亦提供編碼TCR之單離核酸、包含該等核酸之載體及包含該等載體及核酸之宿主細胞以及用於產生該等TCR之重組技術。
核酸可係重組。可在活細胞外面藉由將天然或合成核酸片段連接至可於活細胞中複製之核酸分子或其複製產物來構建重組核酸。出於本文之目的,該複製可為活體外複製或活體內複製。
用於TCR之重組產生,可將編碼該TCR之核酸單離並***可複製載體中用於進一步選殖(即,DNA之擴增)或表現。於一些態樣中,核酸可藉由同源重組(例如,如美國專利案第5,204,244號中所述,其全文以引用的方式併入)產生。
許多不同載體係此項技術中已知。載體組分一般包含下列中之一或多者:信號序列、複製起源、一或多個標誌物基因、增強子元件、啟動子及轉錄終止序列,例如,如美國專利案第5,534,615號中所述,其全文以引用的方式併入。
適用於表現TCR、抗體或其抗原結合片段之示例性載體或構築體包括(例如) pUC系列(Fermentas Life Sciences)、pBluescript系列(Stratagene, LaJolla, CA)、pET系列(Novagen, Madison, WI)、pGEX系列(Pharmacia Biotech, Uppsala, Sweden)及pEX系列(Clontech, Palo Alto, CA)。噬菌體載體(諸如AGTlO、AGTl 1、AZapII (Stratagene)、AEMBL4及ANMl 149)亦適用於表現本文中所揭示之TCR。XIX. 治療概況流程圖
圖37為根據一實施例之方法之流程圖,該方法提供對患者之定製新抗原特異性治療。於其他實施例中,該方法可包括與圖37中所示彼等不同及/或額外步驟。此外,可於各種實施例中以與結合圖37所述之順序不同之順序進行該方法之步驟。
如上所述,使用質譜資料訓練呈遞模型3701。獲得患者樣品3702。於一些實施例中,該患者樣品包括腫瘤活組織檢查及/或患者之外周血。為預測將呈遞來自患者樣品之腫瘤抗原肽之可能性,將步驟3702中獲得之患者樣品定序以鑑別資料以輸入呈遞模型。使用訓練呈遞模型預測來自步驟3702中獲得之患者樣品之腫瘤抗原肽之呈遞可能性3703。基於經預測之呈遞可能性對患者鑑別治療新抗原3704。接下來,獲得另一患者樣品3705。該患者樣品可包括患者之外周血、腫瘤浸潤淋巴細胞(TIL)、淋巴、淋巴結細胞及/或T-細胞之任何其他來源。針對新抗原特異性T-細胞活體內篩選於步驟3705中獲得之患者樣品3706。
在治療過程之此點,患者可接受T-細胞療法及/或疫苗治療。為接受疫苗治療,鑑別患者之T-細胞對其係特異性之新抗原3714。然後,創建包含該經鑑別之新抗原之疫苗3715。最後,對患者投與該疫苗3716。
為接受T-細胞療法,將經歷擴增之新抗原特異性T-細胞及/或新的新抗原特異性T-細胞遺傳工程改造。為擴增新抗原特異性T-細胞用於T-細胞療法,將該等細胞簡單擴增3707及融合3708至患者中。
為遺傳工程改造新的新抗原特異性T-細胞用於T-細胞療法,將活體內鑑別之新抗原特異性T-細胞之TCR定序3709。接下來,將此等TCR序列選殖3710至表現載體中。然後將該表現載體3710轉染3711至新的T-細胞中。擴增該等經轉染之T-細胞3712。及最後,將該等經擴增之T-細胞融合3713至患者中。
患者可接受T-細胞療法及疫苗療法二者。於一實施例中,患者首先接受疫苗療法,然後接受T-細胞療法。此方法之一優點為疫苗療法可增加腫瘤特異性T-細胞之數目及藉由可檢測水平之T-細胞識別之新抗原的數目。
於另一實施例中,患者可接受T-細胞療法,接著接受疫苗療法,其中包含於該疫苗中之抗原決定基之組包括藉由T-細胞療法靶向之抗原決定基中之一或多者。此方法之一優點為疫苗之投與可促進治療性T-細胞之擴增及持久。XX. 實例電腦
圖38說明用於實施圖1及3中所示之實體之實例電腦3800。該電腦3800包含耦合至晶片組3804之至少一個處理器3802。晶片組3804包含記憶體控制器集線器3820及輸入/輸出(I/O)控制器集線器3822。記憶體3806及圖形配接器3812耦合至記憶體控制器集線器3820,及顯示器3818耦合至該圖形配接器3812。存儲裝置3808、輸入裝置3814及網路適配器3816耦合至I/O控制器集線器3822。電腦3800之其他實施例具有不同架構。
存儲裝置3808為非暫時性電腦可讀存儲媒體,諸如硬碟驅動器、光碟唯讀記憶體(CD-ROM)、DVD或固態記憶體設備。記憶體3806持有藉由處理器3802使用之說明及資料。輸入介面3814為觸屏介面、滑鼠、跟蹤球或其他類型之指向裝置、鍵盤或其一些組合,及用於輸入資料至電腦3800中。於一些實施例中,可配置電腦3800以經由使用者之手勢接受來自輸入介面3814之輸入(例如,命令)。圖形配接器3812顯示顯示器3818上之圖像及其他資訊。網路適配器3816將電腦3800耦合至一或多個電腦網路。
電腦3800適應於執行電腦程式模組以提供本文中所述功能。如本文中所用,術語「模組」係指用於提供指定功能之電腦程式邏輯。因此,可在硬體、固件及/或軟體中實施模組。於一實施例中,將程式模組存儲在存儲裝置3808上,加載至記憶體3806中及藉由處理器3802執行。
藉由圖1之實體使用之電腦3800之類型可取決於實施例及實體所需之處理能力變化。例如,呈遞鑑別系統160可於單個電腦3800或彼此通過網路通訊之多個電腦3800中(諸如於伺服器場中)運行。電腦3800可缺少上述組件中之一些,諸如圖形配接器3812及顯示器3818。 參考文獻 1. Desrichard, A.、Snyder, A.及Chan, T. A. Cancer Neoantigens and Applications for Immunotherapy. Clin. Cancer Res. Off. J. Am. Assoc. Cancer Res. (2015). doi:10.1158/1078-0432.CCR-14-3175 2. Schumacher, T. N.及Schreiber, R. D. Neoantigens in cancer immunotherapy. Science 348, 69-74 (2015)。 3. Gubin, M. M.、Artyomov, M. N.、Mardis, E. R.及Schreiber, R. D. Tumor neoantigens: building a framework for personalized cancer immunotherapy. J. Clin. Invest. 125, 3413-3421 (2015)。 4. Rizvi, N. A.等人.Cancer immunology. Mutational landscape determines sensitivity to PD-1 blockade in non-small cell lung cancer. Science 348, 124-128 (2015)。 5. Snyder, A.等人.Genetic basis for clinical response to CTLA-4 blockade in melanoma. N. Engl. J. Med. 371, 2189-2199 (2014)。 6. Carreno, B. M.等人.Cancer immunotherapy. A dendritic cell vaccine increases the breadth and diversity of melanoma neoantigen-specific T-cells. Science 348, 803-808 (2015)。 7. Tran, E.等人.Cancer immunotherapy based on mutation-specific CD4+ T-cells in a patient with epithelial cancer. Science 344, 641-645 (2014)。 8. Hacohen, N.及Wu, C. J.-Y.美國專利申請案:0110293637 - COMPOSITIONS AND METHODS OF IDENTIFYING TUMOR SPECIFIC NEOANTIGENS. (A1).在<http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&l=50&s1=20110293637.PGNR.>下 9. Lundegaard, C.、Hoof, I.、Lund, O.及Nielsen, M. State of the art and challenges in sequence based T-cell epitope prediction. Immunome Res. 6 Suppl 2, S3 (2010)。 10. Yadav, M.等人.Predicting immunogenic tumour mutations by combining mass spectrometry and exome sequencing. Nature 515, 572-576 (2014)。 11. Bassani-Sternberg, M.、Pletscher-Frankild, S.、Jensen, L. J.及Mann, M. Mass spectrometry of human leukocyte antigen class I peptidomes reveals strong effects of protein abundance and turnover on antigen presentation. Mol. Cell. Proteomics MCP 14, 658-673 (2015)。 12. Van Allen, E. M.等人.Genomic correlates of response to CTLA-4 blockade in metastatic melanoma. Science 350, 207-211 (2015)。 13. Yoshida, K.及Ogawa, S. Splicing factor mutations and cancer. Wiley Interdiscip. Rev. RNA 5, 445-459 (2014)。 14. Cancer Genome Atlas Research Network. Comprehensive molecular profiling of lung adenocarcinoma. Nature 511, 543-550 (2014)。 15. Rajasagi, M.等人.Systematic identification of personal tumor-specific neoantigens in chronic lymphocytic leukemia. Blood 124, 453-462 (2014)。 16. Downing, S. R.等人.美國專利申請案:0120208706 - OPTIMIZATION OF MULTIGENE ANALYSIS OF TUMOR SAMPLES. (A1).在<http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&l=50&s1=20120208706.PGNR.>下 17. Target Capture for NextGen Sequencing - IDT.在<http://www.idtdna.com/pages/products/nextgen/target-capture>下 18. Shukla, S. A.等人.Comprehensive analysis of cancer-associated somatic mutations in class I HLA genes. Nat. Biotechnol. 33, 1152-1158 (2015)。 19. Cieslik, M.等人.The use of exome capture RNA-seq for highly degraded RNA with application to clinical cancer sequencing. Genome Res. 25, 1372-1381 (2015)。 20. Bodini, M.等人.The hidden genomic landscape of acute myeloid leukemia: subclonal structure revealed by undetected mutations. Blood 125, 600-605 (2015)。 21. Saunders, C. T.等人.Strelka: accurate somatic small-variant calling from sequenced tumor-normal sample pairs. Bioinforma. Oxf. Engl. 28, 1811-1817 (2012)。 22. Cibulskis, K.等人.Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat. Biotechnol. 31, 213-219 (2013)。 23. Wilkerson, M. D.等人.Integrated RNA and DNA sequencing improves mutation detection in low purity tumors. Nucleic Acids Res. 42, e107 (2014)。 24. Mose, L. E.、Wilkerson, M. D.、Hayes, D. N.、Perou, C. M.及Parker, J. S. ABRA: improved coding indel detection via assembly-based realignment. Bioinforma. Oxf. Engl. 30, 2813-2815 (2014)。 25. Ye, K.、Schulz, M. H.、Long, Q.、Apweiler, R.及Ning, Z. Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads. Bioinforma. Oxf. Engl. 25, 2865-2871 (2009)。 26. Lam, H. Y. K.等人.Nucleotide-resolution analysis of structural variants using BreakSeq and a breakpoint library. Nat. Biotechnol. 28, 47-55 (2010)。 27. Frampton, G. M.等人.Development and validation of a clinical cancer genomic profiling test based on massively parallel DNA sequencing. Nat. Biotechnol. 31, 1023-1031 (2013)。 28. Boegel, S.等人.HLA typing from RNA-Seq sequence reads. Genome Med. 4, 102 (2012)。 29. Liu, C.等人.ATHLATES: accurate typing of human leukocyte antigen through exome sequencing. Nucleic Acids Res. 41, e142 (2013)。 30. Mayor, N. P.等人.HLA Typing for the Next Generation. PloS One 10, e0127153 (2015)。 31. Roy, C. K.、Olson, S.、Graveley, B. R.、Zamore, P. D.及Moore, M. J. Assessing long-distance RNA sequence connectivity via RNA-templated DNA-DNA ligation. eLife 4, (2015)。 32. Song, L.及Florea, L. CLASS: constrained transcript assembly of RNA-seq reads. BMC Bioinformatics 14 Suppl 5, S14 (2013)。 33. Maretty, L.、Sibbesen, J. A.及Krogh, A. Bayesian transcriptome assembly. Genome Biol. 15, 501 (2014)。 34. Pertea, M.等人.StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nat. Biotechnol. 33, 290-295 (2015)。 35. Roberts, A.、Pimentel, H.、Trapnell, C.及Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinforma. Oxf. Engl. (2011). doi:10.1093/bioinformatics/btr355 36. Vitting-Seerup, K.、Porse, B. T.、Sandelin, A.及Waage, J. spliceR: an R package for classification of alternative splicing and prediction of coding potential from RNA-seq data. BMC Bioinformatics 15, 81 (2014)。 37. Rivas, M. A.等人.Human genomics. Effect of predicted protein-truncating genetic variants on the human transcriptome. Science 348, 666-669 (2015)。 38. Skelly, D. A.、Johansson, M.、Madeoy, J.、Wakefield, J.及Akey, J. M. A powerful and flexible statistical framework for testing hypotheses of allele-specific gene expression from RNA-seq data. Genome Res. 21, 1728-1737 (2011)。 39. Anders, S.、Pyl, P. T.及Huber, W. HTSeq--a Python framework to work with high-throughput sequencing data. Bioinforma. Oxf. Engl. 31, 166-169 (2015)。 40. Furney, S. J.等人.SF3B1 mutations are associated with alternative splicing in uveal melanoma. Cancer Discov. (2013). doi:10.1158/2159-8290.CD-13-0330 41. Zhou, Q.等人.A chemical genetics approach for the functional assessment of novel cancer genes. Cancer Res. (2015). doi:10.1158/0008-5472.CAN-14-2930 42. Maguire, S. L.等人.SF3B1 mutations constitute a novel therapeutic target in breast cancer. J. Pathol. 235, 571-580 (2015)。 43. Carithers, L. J.等人.A Novel Approach to High-Quality Postmortem Tissue Procurement: The GTEx Project. Biopreservation Biobanking 13, 311-319 (2015)。 44. Xu, G.等人.RNA CoMPASS: a dual approach for pathogen and host transcriptome analysis of RNA-seq datasets. PloS One 9, e89445 (2014)。 45. Andreatta, M.及Nielsen, M. Gapped sequence alignment using artificial neural networks: application to the MHC class I system. Bioinforma. Oxf. Engl. (2015). doi:10.1093/bioinformatics/btv639 46. Jørgensen, K. W.、Rasmussen, M.、Buus, S.及Nielsen, M. NetMHCstab - predicting stability of peptide-MHC-I complexes; impacts for cytotoxic T lymphocyte epitope discovery. Immunology 141, 18-26 (2014)。 47. Larsen, M. V.等人.An integrative approach to CTL epitope prediction: a combined algorithm integrating MHC class I binding, TAP transport efficiency, and proteasomal cleavage predictions. Eur. J. Immunol. 35, 2295-2303 (2005)。 48. cytotoxic T-cell epitopes: insights obtained from improved predictions of proteasomal cleavage. Immunogenetics 57, 33-41 (2005)。 49. Boisvert, F.-M.等人.A Quantitative Spatial Proteomics Analysis of Proteome Turnover in Human Cells. Mol. Cell. Proteomics 11, M111.011429-M111.011429 (2012)。 50. Duan, F.等人.Genomic and bioinformatic profiling of mutational neoepitopes reveals new rules to predict anticancer immunogenicity. J. Exp. Med. 211, 2231-2248 (2014)。 51. Janeway’s Immunobiology: 9780815345312: Medicine & Health Science Books @ Amazon.com.在<http://www.amazon.com/Janeways-Immunobiology-Kenneth-Murphy/dp/0815345313>下 52. Calis, J. J. A.等人.Properties of MHC Class I Presented Peptides That Enhance Immunogenicity. PLoS Comput. Biol. 9, e1003266 (2013)。 53. Zhang, J.等人.Intratumor heterogeneity in localized lung adenocarcinomas delineated by multiregion sequencing. Science 346, 256-259 (2014) 54. Walter, M. J.等人.Clonal architecture of secondary acute myeloid leukemia. N. Engl. J. Med. 366, 1090-1098 (2012)。 55. Hunt DF、Henderson RA、Shabanowitz J、Sakaguchi K、Michel H、Sevilir N、Cox AL、Appella E、Engelhard VH. Characterization of peptides bound to the class I MHC molecule HLA-A2.1 by mass spectrometry. Science 1992. 255: 1261-1263。 56. Zarling AL、Polefrone JM、Evans AM、Mikesh LM、Shabanowitz J、Lewis ST、 Engelhard VH、Hunt DF. Identification of class I MHC-associated phosphopeptides as targets for cancer immunotherapy. Proc Natl Acad Sci U S A. 2006年10月3日;103(40):14889-94。 57. Bassani-Sternberg M、Pletscher-Frankild S、Jensen LJ、Mann M. Mass spectrometry of human leukocyte antigen class I peptidomes reveals strong effects of protein abundance and turnover on antigen presentation. Mol Cell Proteomics. 2015年3月;14(3):658-73. doi: 10.1074/mcp.M114.042812。 58. Abelin JG、Trantham PD、Penny SA、Patterson AM、Ward ST、Hildebrand WH、Cobbold M、Bai DL、Shabanowitz J、Hunt DF. Complementary IMAC enrichment methods for HLA-associated phosphopeptide identification by mass spectrometry. Nat Protoc. 2015年9月;10(9):1308-18. doi: 10.1038/nprot.2015.086. 2015年8月6日電子出版 59. Barnstable CJ、Bodmer WF、Brown G、Galfre G、Milstein C、Williams AF、Ziegler A. Production of monoclonal antibodies to group A erythrocytes, HLA and other human cell surface antigens-new tools for genetic analysis. Cell. 1978年5月;14(1):9-20。 60. Goldman JM、Hibbin J、Kearney L、Orchard K、Th'ng KH. HLA-DR monoclonal antibodies inhibit the proliferation of normal and chronic granulocytic leukaemia myeloid progenitor cells. Br J Haematol. 1982年11月;52(3):411-20。 61. Eng JK、Jahan TA、Hoopmann MR. Comet: an open-source MS/MS sequence database search tool. Proteomics. 2013年1月;13(1):22-4. doi: 10.1002/pmic.201200439.2012 年12月4日電子出版。 62. Eng JK、Hoopmann MR、Jahan TA、Egertson JD、Noble WS、MacCoss MJ. A deeper look into Comet--implementation and features. J Am Soc Mass Spectrom. 2015年11月;26(11):1865-74. doi: 10.1007/s13361-015-1179-x. 2015年6月27日電子出版。 63. Lukas Käll、Jesse Canterbury、Jason Weston、William Stafford Noble及Michael J. MacCoss. Semi-supervised learning for peptide identification from shotgun proteomics datasets. Nature Methods 4:923 - 925,2007年11月 64. Lukas Käll、John D. Storey、Michael J. MacCoss及William Stafford Noble. Assigning confidence measures to peptides identified by tandem mass spectrometry. Journal of Proteome Research, 7(1):29-34,2008年1月。 65. Lukas Käll、John D. Storey及William Stafford Noble. Nonparametric estimation of posterior error probabilities associated with peptides identified by tandem mass spectrometry. Bioinformatics, 24(16):i42-i48,2008年8月。 66. Bo Li及C. olin N. Dewey. RSEM: accurate transcript quantification from RNA-Seq data with or without a referenfe genome. BMC Bioinformatics, 12:323,2011年8月。 67. Hillary Pearson、Tariq Daouda、Diana Paola Granados、Chantal Durette、Eric Bonneil、Mathieu Courcelles、Anja Rodenbrock、Jean-Philippe Laverdure、Caroline Côté、Sylvie Mader、Sébastien Lemieux、Pierre Thibault及Claude Perreault. MHC class I-associated peptides derive from selective regions of the human genome. The Journal of Clinical Investigation, 2016。 68. Juliane Liepe、Fabio Marino、John Sidney、Anita Jeko、Daniel E. Bunting、Alessandro Sette、Peter M. Kloetzel、Michael P. H. Stumpf、Albert J. R. Heck、Michele Mishto. A large fraction of HLA class I ligands are proteasome-generated spliced peptides. Science, 21,2016年10月。 69. Mommen GP.、Marino, F.、Meiring HD.、Poelen, MC.、van Gaans-van den Brink, JA.、Mohammed S.、Heck AJ.及van Els CA. Sampling From the Proteome to the Human Leukocyte Antigen-DR (HLA-DR) Ligandome Proceeds Via High Specificity. Mol Cell Proteomics 15(4): 1412-1423,2016年4月。 70. Sebastian Kreiter、Mathias Vormehr、Niels van de Roemer、Mustafa Diken、Martin Löwer、Jan Diekmann、Sebastian Boegel、Barbara Schrörs、Fulvia Vascotto、John C. Castle、Arbel D. Tadmor、Stephen P. Schoenberger、Christoph Huber、Özlem Türeci及Ugur Sahin. Mutant MHC class II epitopes drive therapeutic immune responses to caner. Nature 520, 692-696,2015年4月。 71. Tran E.、Turcotte S.、Gros A.、Robbins P.F.、Lu Y.C.、Dudley M.E.、Wunderlich J.R.、 Somerville R.P.、Hogan K.、Hinrichs C.S.、Parkhurst M.R.、Yang J.C.、Rosenberg S.A. Cancer immunotherapy based on mutation-specific CD4+ T-cells in a patient with epithelial cancer. Science 344(6184) 641-645,2014年5月。 72. Andreatta M.、Karosiene E.、Rasmussen M.、Stryhn A.、Buus S.、Nielsen M. Accurate pan-specific prediction of peptide-MHC class II binding affinity with improved binding core identification. Immunogenetics 67(11-12) 641-650,2015年11月。 73. Nielsen, M.、Lund, O. NN-align. An artificial neural network-based alignment algorithm for MHC class II peptide binding prediction. BMC Bioinformatics 10:296,2009年9月。 74. Nielsen, M.、Lundegaard, C.、Lund, O. Prediction of MHC class II binding affinity using SMM-align, a novel stabilization matrix alignment method. BMC Bioinformatics 8:238,2007年7月。 75. Zhang, J.等人.PEAKS DB: de novo sequencing assisted database search for sensitive and accurate peptide identification. Molecular & Cellular Proteomics. 11(4):1-8. 1/2/2012。 76. Snyder, A.等人.Genetic basis for clinical response to CTLA-4 blockade in melanoma. N. Engl. J. Med. 371, 2189-2199 (2014)。 77. Rizvi, N. A.等人.Cancer immunology. Mutational landscape determines sensitivity to PD-1 blockade in non-small cell lung cancer. Science 348, 124-128 (2015)。 78. Gubin, M. M.、Artyomov, M. N.、Mardis, E. R.及Schreiber, R. D. Tumor neoantigens: building a framework for personalized cancer immunotherapy. J. Clin. Invest. 125, 3413-3421 (2015)。 79. Schumacher, T. N.及Schreiber, R. D. Neoantigens in cancer immunotherapy. Science 348, 69-74 (2015)。 80. Carreno, B. M.等人.Cancer immunotherapy. A dendritic cell vaccine increases the breadth and diversity of melanoma neoantigen-specific T-cells. Science 348, 803-808 (2015)。 81. Ott, P. A.等人.An immunogenic personal neoantigen vaccine for patients with melanoma. Nature 547, 217-221 (2017)。 82. Sahin, U.等人.Personalized RNA mutanome vaccines mobilize poly-specific therapeutic immunity against cancer. Nature 547, 222-226 (2017)。 83. Tran, E.等人.T-Cell Transfer Therapy Targeting Mutant KRAS in Cancer. N. Engl. J. Med. 375, 2255-2262 (2016)。 84. Gros, A.等人.Prospective identification of neoantigen-specific lymphocytes in the peripheral blood of melanoma patients. Nat. Med. 22, 433-438 (2016)。 85. The problem with neoantigen prediction. Nat. Biotechnol. 35, 97-97 (2017)。 86. Vitiello, A.及Zanetti, M. Neoantigen prediction and the need for validation. Nat. Biotechnol. 35, 815-817 (2017)。 87. Bassani-Sternberg, M.、Pletscher-Frankild, S.、Jensen, L. J.及Mann, M. Mass spectrometry of human leukocyte antigen class I peptidomes reveals strong effects of protein abundance and turnover on antigen presentation. Mol. Cell. Proteomics MCP 14, 658-673 (2015)。 88. Vita, R.等人.The immune epitope database (IEDB) 3.0. Nucleic Acids Res. 43, D405-412 (2015)。 89. Andreatta, M.及Nielsen, M. Gapped sequence alignment using artificial neural networks: application to the MHC class I system. Bioinforma. Oxf. Engl. 32, 511-517 (2016)。 90. O’Donnell, T. J.等人.MHCflurry: Open-Source Class I MHC Binding Affinity Prediction. Cell Syst. (2018). doi:10.1016/j.cels.2018.05.014 91. Bassani-Sternberg, M.等人.Direct identification of clinically relevant neoepitopes presented on native human melanoma tissue by mass spectrometry. Nat. Commun. 7, 13404 (2016)。 92. Abelin, J. G.等人.Mass Spectrometry Profiling of HLA-Associated Peptidomes in Mono-allelic Cells Enables More Accurate Epitope Prediction. Immunity 46, 315-326 (2017)。 93. Yadav, M.等人.Predicting immunogenic tumour mutations by combining mass spectrometry and exome sequencing. Nature 515, 572-576 (2014)。 94. Stranzl, T.、Larsen, M. V.、Lundegaard, C.及Nielsen, M. NetCTLpan: pan-specific MHC class I pathway epitope predictions. Immunogenetics 62, 357-368 (2010)。 95. Bentzen, A. K.等人.Large-scale detection of antigen-specific T-cells using peptide-MHC-I multimers labeled with DNA barcodes. Nat. Biotechnol. 34, 1037-1045 (2016)。 96. Tran, E.等人.Immunogenicity of somatic mutations in human gastrointestinal cancers. Science 350, 1387-1390 (2015)。 97. Stronen, E.等人.Targeting of cancer neoantigens with donor-derived T-cell receptor repertoires. Science 352, 1337-1341 (2016)。 98. Trolle, T.等人.The Length Distribution of Class I-Restricted T-cell Epitopes Is Determined by Both Peptide Supply and MHC Allele-Specific Binding Preference. J. Immunol. Baltim. Md 1950 196, 1480-1487 (2016)。 99. Di Marco, M.等人.Unveiling the Peptide Motifs of HLA-C and HLA-G from Naturally Presented Peptides and Generation of Binding Prediction Matrices. J. Immunol. Baltim. Md 1950 199, 2639-2651 (2017)。 100. Goodfellow, I.、Bengio, Y.及Courville, A. Deep Learning. (MIT Press, 2016)。 101. Sette, A.等人.The relationship between class I binding affinity and immunogenicity of potential cytotoxic T-cell epitopes. J. Immunol. Baltim. Md 1950 153, 5586-5592 (1994)。 102. Fortier, M.-H.等人.The MHC class I peptide repertoire is molded by the transcriptome. J. Exp. Med. 205, 595-610 (2008)。 103. Pearson, H.等人.MHC class I-associated peptides derive from selective regions of the human genome. J. Clin. Invest. 126, 4690-4701 (2016)。 104. Bassani-Sternberg, M.等人.Deciphering HLA-I motifs across HLA peptidomes improves neo-antigen predictions and identifies allostery regulating HLA specificity. PLoS Comput. Biol. 13, e1005725 (2017)。 105. Andreatta, M.、Lund, O.及Nielsen, M. Simultaneous alignment and clustering of peptide data using a Gibbs sampling approach. Bioinforma. Oxf. Engl. 29, 8-14 (2013)。 106. Andreatta, M.、Alvarez, B.及Nielsen, M. GibbsCluster: unsupervised clustering and alignment of peptide sequences. Nucleic Acids Res. (2017). doi:10.1093/nar/gkx248 107. Gros, A.等人.Prospective identification of neoantigen-specific lymphocytes in the peripheral blood of melanoma patients. Nat. Med. 22, 433-438 (2016)。 108. Zacharakis, N.等人.Immune recognition of somatic mutations leading to complete durable regression in metastatic breast cancer. Nat. Med. 24, 724-730 (2018)。 109. Chudley, L.等人.Harmonisation of short-term in vitro culture for the expansion of antigen-specific CD8+ T-cells with detection by ELISPOT and HLA-multimer staining. Cancer Immunol. Immunother. 63, 1199-1211 (2014)。 110. Van Allen, E. M.等人.Genomic correlates of response to CTLA-4 blockade in metastatic melanoma. Science 350, 207-211 (2015)。 111. Anagnostou, V. 等人.Evolution of Neoantigen Landscape during Immune Checkpoint Blockade in Non-Small Cell Lung Cancer. Cancer Discov. 7, 264-276 (2017)。 112. Carreno, B. M.等人.Cancer immunotherapy. A dendritic cell vaccine increases the breadth and diversity of melanoma neoantigen-specific T-cells. Science 348, 803-808 (2015)。 113. Stevanović, S.等人.Landscape of immunogenic tumor antigens in successful immunotherapy of virally induced epithelial cancer. Science 356, 200-205 (2017)。 114. Pasetto, A.等人.Tumor- and Neoantigen-Reactive T-cell Receptors Can Be Identified Based on Their Frequency in Fresh Tumor. Cancer Immunol. Res. 4, 734-743 (2016)。 115. Gillette, M. A.及Carr, S. A. Quantitative analysis of peptides and proteins in biomedicine by targeted mass spectrometry. Nat. Methods 10, 28-34 (2013)。 116. Boegel, S.、Löwer, M.、Bukur, T.、Sahin, U.及Castle, J. C. A catalog of HLA type, HLA expression, and neo-epitope candidates in human cancer cell lines. Oncoimmunology 3, e954893 (2014)。 117. Johnson, D. B.等人.Melanoma-specific MHC-II expression represents a tumour-autonomous phenotype and predicts response to anti-PD-1/PD-L1 therapy. Nat. Commun. 7, 10582 (2016)。 118. Robbins, P. F.等人.A Pilot Trial Using Lymphocytes Genetically Engineered with an NY-ESO-1-Reactive T-cell Receptor: Long-term Follow-up and Correlates with Response. Clin. Cancer Res. 21, 1019-1027 (2015)。 119. Snyder, A.等人.Genetic basis for clinical response to CTLA-4 blockade in melanoma. N. Engl. J. Med. 371, 2189-2199 (2014)。 120. Calis, J. J. A.等人.Properties of MHC class I presented peptides that enhance immunogenicity. PLoS Comput. Biol. 9, e1003266 (2013)。 121. Duan, F. 等人.Genomic and bioinformatic profiling of mutational neoepitopes reveals new rules to predict anticancer immunogenicity. J. Exp. Med. 211, 2231-2248 (2014)。 122. Glanville, J.等人.Identifying specificity groups in the T-cell receptor repertoire. Nature 547, 94-98 (2017)。 123. Dash, P.等人.Quantifiable predictive features define epitope-specific T-cell receptor repertoires. Nature 547, 89-93 (2017)。 124. Hunt, D. F.等人.Pillars article: Characterization of peptides bound to the class I MHC molecule HLA-A2.1 by mass spectrometry. Science 1992. 255: 1261-1263. J. Immunol. Baltim. Md 1950 179, 2669-2671 (2007)。 125. Zarling, A. L.等人.Identification of class I MHC-associated phosphopeptides as targets for cancer immunotherapy. Proc. Natl. Acad. Sci. U. S. A. 103, 14889-14894 (2006)。 126. Abelin, J. G.等人.Complementary IMAC enrichment methods for HLA-associated phosphopeptide identification by mass spectrometry. Nat. Protoc. 10, 1308-1318 (2015)。 127. Barnstable, C. J.等人.Production of monoclonal antibodies to group A erythrocytes, HLA and other human cell surface antigens-new tools for genetic analysis. Cell 14, 9-20 (1978)。 128. Eng, J. K.、Jahan, T. A.及Hoopmann, M. R. Comet: an open-source MS/MS sequence database search tool. Proteomics 13, 22-24 (2013)。 129. Eng, J. K.等人.A deeper look into Comet--implementation and features. J. Am. Soc. Mass Spectrom. 26, 1865-1874 (2015)。 130. Käll, L.、Storey, J. D.、MacCoss, M. J.及Noble, W. S. Assigning significance to peptides identified by tandem mass spectrometry using decoy databases. J. Proteome Res. 7, 29-34 (2008)。 131. Käll, L.、Storey, J. D.及Noble, W. S. Non-parametric estimation of posterior error probabilities associated with peptides identified by tandem mass spectrometry. Bioinforma. Oxf. Engl. 24, i42-48 (2008)。 132. Käll, L.、Canterbury, J. D.、Weston, J.、Noble, W. S.及MacCoss, M. J. Semi-supervised learning for peptide identification from shotgun proteomics datasets. Nat. Methods 4, 923-925 (2007)。 133. Li, B.及Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics 12, 323 (2011)。 134. Chollet, F.及others. Keras. (2015)。 135. Bastien, F.等人.Understanding the difficulty of training deep feedforward neural networks. Proc. Thirteen. Int. Conf. Artif. Intell. Stat. 249-256 (2010)。 136. Glorot, X.及Bengio, Y. Understanding the difficulty of training deep feedforward neural networks. in Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics 249-256 (2010)。 137. Kingma, D.及Ba, J. Adam: A method for stochastic optimization. ArXiv Prepr. ArXiv14126980 (2014)。 138. Schneider, T. D.及Stephens, R. M. Sequence logos: a new way to display consensus sequences. Nucleic Acids Res. 18, 6097-6100 (1990)。 139. Rubinsteyn, A.、O’Donnell, T.、Damaraju, N.及Hammerbacher, J. Predicting Peptide-MHC Binding Affinities With Imputed Training Data. biorxiv (2016). doi:https://doi.org/10.1101/054775 140. Tran, E.等人.Immunogenicity of somatic mutations in human gastrointestinal cancers. Science 350, 1387-1390 (2015)。 141. Stronen, E.等人.Targeting of cancer neoantigens with donor-derived T-cell receptor repertoires. Science 352, 1337-1341 (2016)。 142. Janetzki, S.、Cox, J. H.、Oden, N.及Ferrari, G. Standardization and validation issues of the ELISPOT assay. Methods Mol. Biol. Clifton NJ 302, 51-86 (2005)。 143. Janetzki, S.等人.Guidelines for the automated evaluation of Elispot assays. Nat. Protoc. 10, 1098-1115 (2015)。 144. Li, H.及Durbin, R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinforma. Oxf. Engl. 25, 1754-1760 (2009)。 145. DePristo, M. A.等人.A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat. Genet. 43, 491-498 (2011)。 146. Garrison, E.及Marth, G. Haplotype-based variant detection from short-read sequencing. arXiv (2012)。 147. Cingolani, P.等人.A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3. Fly (Austin) 6, 80-92 (2012)。 148. Szolek, A.等人.OptiType: precision HLA typing from next-generation sequencing data. Bioinforma. Oxf. Engl. 30, 3310-3316 (2014)。 149. Cibulskis, K.等人.Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat. Biotechnol. 31, 213-219 (2013)。 150. Scholz, E. M.等人.Human Leukocyte Antigen (HLA)-DRB1*15:01 及HLA-DRB5*01:01 Present Complementary Peptide Repertoires. Front. Immunol. 8, 984 (2017)。 151. Ooi, J. D.等人.Dominant protection from HLA-linked autoimmunity by antigen-specific regulatory T-cells. Nature 545, 243-247 (2017)。 152. Karosiene, E.等人.NetMHCIIpan-3.0, a common pan-specific MHC class II prediction method including all three human MHC class II isotypes, HLA-DR, HLA-DP and HLA-DQ. Immunogenetics 65, 711-724 (2013)。 153. Dudley ME、Gross CA、Langhan MM等人.CD8+ enriched 「young」 tumor infiltrating lymphocytes can mediate regression of metastatic melanoma.Clinical cancer research : an official journal of the American Association for Cancer Research . 2010;16(24):6122-6131. doi:10.1158/1078-0432.CCR-10-1297。 154. Dudley ME、Wunderlich JR、Shelton TE、Even J、Rosenberg SA. Generation of Tumor-Infiltrating Lymphocyte Cultures for Use in Adoptive Transfer Therapy for Melanoma Patients.Journal of immunotherapy (Hagerstown, Md : 1997) . 2003;26(4):332-342。 155. Cohen CJ、Gartner JJ、Horovitz-Fried M等人.Isolation of neoantigen-specific T cells from tumor and peripheral lymphocytes.The Journal of Clinical Investigation . 2015;125(10):3981-3991. doi:10.1172/JCI82416。 156. Kelderman, S.、Heemskerk, B.、Fanchi, L.、Philips, D.、Toebes, M.、Kvistborg, P.、Buuren, M. M.、Rooij, N.、Michels, S.、Germeroth, L.、Haanen, J. B.及Schumacher, N. M. (2016), Antigen-specific TIL therapy for melanoma: A flexible platform for personalized cancer immunotherapy. Eur. J. Immunol., 46: 1351-1360. doi:10.1002/eji.201545849。 157. Hall M、Liu H、Malafa M等人.Expansion of tumor-infiltrating lymphocytes (TIL) from human pancreatic tumors.Journal for Immunotherapy of Cancer . 2016;4:61. doi:10.1186/s40425-016-0164-7。 158. Briggs A、Goldfless S、Timberlake S等人.Tumor-infiltrating immune repertoires captured by single-cell barcoding in emulsion.bioRxiv . 2017. doi.org/10.1101/134841。 159.美國專利申請案第20160244825A1號。 補充表1 NSCLS患者之人口統計學
Figure 108106921-A0304-0006
補充表1 NSCLS患者之人口統計學
Figure 108106921-A0304-0007
補充表1 NSCLS患者之人口統計學
Figure 108106921-A0304-0008
補充表1 NSCLS患者之人口統計學
Figure 108106921-A0304-0009
補充表1 NSCLS患者之人口統計學
Figure 108106921-A0304-0010
補充表1 NSCLS患者之人口統計學
Figure 108106921-A0304-0011
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0012
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0013
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0014
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0015
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0016
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0017
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0018
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0019
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0020
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0021
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0022
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0023
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0024
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0025
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0026
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0027
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0028
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0029
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0030
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0031
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0032
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0033
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0034
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0035
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0036
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0037
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0038
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0039
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0040
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0041
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0042
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0043
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0044
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0045
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0046
補充表2 用於NSCLC患者中之T-細胞識別所測試之肽
Figure 108106921-A0304-0047
補充表3
Figure 108106921-A0304-0048
補充表4 IVS對照實驗中之TSNA及傳染性疾病抗原決定基
Figure 108106921-A0304-0049
補充表4 IVS對照實驗中之TSNA及感染性疾病抗原決定基
Figure 108106921-A0304-0050
補充表4 IVS對照實驗中之TSNA及傳染性疾病抗原決定基
Figure 108106921-A0304-0051
補充表5
Figure 108106921-A0304-0052
補充表5
Figure 108106921-A0304-0053
補充表5
Figure 108106921-A0304-0054
110‧‧‧患者 114‧‧‧候選新抗原序列 118‧‧‧疫苗 160‧‧‧呈遞鑑別系統 165‧‧‧呈遞資訊 170‧‧‧訓練資料存儲 175‧‧‧呈遞模型 312‧‧‧資料管理模組 314‧‧‧編碼模組 316‧‧‧訓練模組 320‧‧‧預測模組 324‧‧‧患者選擇模組 3700‧‧‧流程圖 3701‧‧‧步驟 3702‧‧‧步驟 3703‧‧‧步驟 3704‧‧‧步驟 3705‧‧‧步驟 3706‧‧‧步驟 3707‧‧‧步驟 3708‧‧‧步驟 3709‧‧‧步驟 3710‧‧‧步驟 3711‧‧‧步驟 3712‧‧‧步驟 3713‧‧‧步驟 3714‧‧‧步驟 3715‧‧‧步驟 3716‧‧‧步驟 3800‧‧‧電腦 3802‧‧‧處理器 3804‧‧‧晶片組 3806‧‧‧記憶體 3808‧‧‧存儲裝置 3810‧‧‧鍵盤 3812‧‧‧圖形配接器 3814‧‧‧指向裝置/輸入介面/輸入裝置 3816‧‧‧網路適配器 3818‧‧‧顯示器 3820‧‧‧記憶體控制器集線器 3822‧‧‧輸入/輸出(I/O)控制器集線器
本發明之此等及其他特徵、態樣及優點將關於下列描述及附圖變得更好理解,其中:
圖1A顯示新抗原鑑別之目前臨床方法。
圖1B顯示<5%之預測之結合肽在腫瘤細胞上呈遞。
圖1C顯示新抗原預測特異性問題之影響。
圖1D顯示結合預測不足夠用於新抗原鑑別。
圖1E顯示作為肽長度之函數之MHC-I呈遞概率。
圖1F顯示自普羅米加氏(Promega’s)動態範圍標準產生之實例肽譜。
圖1G顯示特徵之添加如何增加模型陽性預測值。
圖2A為根據實施例之用於鑑別患者中之肽呈遞可能性之環境的概觀。
圖2B及2C說明一種根據實施例之獲得呈遞資訊之方法。
圖3為說明根據一實施例之呈遞鑑別系統之電腦邏輯組件的高階方塊圖。
圖4說明根據一實施例之實例訓練資料集。
圖5說明與MHC對偶基因相關之實例網路模型。
圖6說明根據一實施例之由MHC對偶基因共享之實例網路模型NNH (∙)。
圖7說明使用實例網路模型產生與MHC對偶基因相關之肽之呈遞可能性。
圖8說明使用實例網路模型產生與MHC對偶基因相關之肽之呈遞可能性。
圖9說明使用實例網路模型產生與MHC對偶基因相關之肽之呈遞可能性。
圖10說明使用實例網路模型產生與MHC對偶基因相關之肽之呈遞可能性。
圖11說明使用實例網路模型產生與MHC對偶基因相關之肽之呈遞可能性。
圖12說明使用實例網路模型產生與MHC對偶基因相關之肽之呈遞可能性。
圖13說明根據實施例之由MHC對偶基因共享之實例網路模型NNH (∙)。
圖14說明與MHC對偶基因不相關之實例網路模型。
圖15說明使用由MHC對偶基因共享之實例網路模型產生與MHC對偶基因相關之肽之呈遞可能性。
圖16說明針對第一測試樣品,藉由包括神經網路且在包含所測試之HLA對偶基因之樣品上訓練之泛對偶基因模型輸出的精度/召回曲線,及藉由包括神經網路且不在包含所測試之HLA對偶基因之樣品上訓練之泛對偶基因模型輸出的精度/召回曲線。
圖17說明針對第二測試樣品,藉由包括神經網路且在包含所測試之HLA對偶基因之樣品上訓練之泛對偶基因模型輸出的精度/召回曲線,及藉由包括神經網路且不在包含所測試之HLA對偶基因之樣品上訓練之泛對偶基因模型輸出的精度/召回曲線。
圖18說明針對第三測試樣品,藉由包括神經網路且在包含所測試之HLA對偶基因之樣品上訓練之泛對偶基因模型輸出的精度/召回曲線,及藉由包括神經網路且不在包含所測試之HLA對偶基因之樣品上訓練之泛對偶基因模型輸出的精度/召回曲線。
圖19說明藉由在包含所測試之HLA對偶基因之樣品上訓練之包括神經網路之泛對偶基因模型、隨機森林模型、二次判別模型、及MHCFlurry模型輸出的精度/召回曲線。
圖20說明針對第一測試樣品,藉由不在包含所測試之HLA對偶基因之樣品上訓練之包括神經網路之泛對偶基因模型、隨機森林模型、二次判別模型、及MHCFlurry模型輸出的精度/召回曲線。
圖21說明針對第二測試樣品,藉由不在包含所測試之HLA對偶基因之樣品上訓練之包括神經網路之泛對偶基因模型、隨機森林模型、二次判別模型、及MHCFlurry模型輸出的精度/召回曲線。
圖22說明針對第三測試樣品,藉由不在包含所測試之HLA對偶基因之樣品上訓練之包括神經網路之泛對偶基因模型、隨機森林模型、二次判別模型、及MHCFlurry模型輸出的精度/召回曲線。
圖23A說明NSCLC患者中之突變負擔之樣品頻率分佈。
圖23B說明根據實施例之基於患者是否滿足最小突變負擔之納入標準選擇之患者之模擬疫苗中之呈遞新抗原的數目。
圖23C比較根據實施例之於與疫苗相關的經選定患者(包括基於呈遞模型鑑別之治療子集之)與與疫苗相關的經選定患者(包括通過目前申請專利當時之技術水平之模型鑑別之治療子集)之間之模擬疫苗中之呈遞的新抗原的數目。
圖23D比較於與疫苗相關的經選定患者(包括基於針對HLA-A*02:01之單個按對偶基因呈遞模型鑑別之治療子集)與與疫苗相關的經選定患者(包括基於HLA-A*02:01及HLA-B*07:02之兩個按對偶基因呈遞模型鑑別之治療子集)之間之模擬疫苗中之呈遞新抗原的數目。根據實施例,將疫苗容量設置為v =20個抗原決定基。
圖23E比較根據實施例之於基於突變負擔選定之患者與藉由預期效用評分選定之患者之間之模擬疫苗中之呈遞新抗原的數目。
圖24比較當在五種留存測試樣品上測試泛對偶基因模型時,使用呈遞熱點參數之泛對偶基因呈遞模型與不使用呈遞熱點參數之泛對偶基因呈遞模型在40%召回下的陽性預測值(PPV)。
圖25A比較針對使用具有基因表現>2 TPM臨限值之標準HLA結合親和力預測鑑別之排名前5、10及20的體細胞突變,藉由T-細胞(例如,先已存在之T-細胞反應)識別之體細胞突變之比率,如藉由針對包含12種不同測試樣品之測試集之RNA-seq、對偶基因特異性神經網路模型及泛對偶基因神經網路模型所檢定,取自患者之各測試樣品具有至少一個先已存在之T-細胞反應。
圖25B比較針對使用具有基因表現>2 TPM臨限值之標準HLA結合親和力預測鑑別之排名前5、10及20的最小新抗原決定基,藉由T-細胞(例如,先已存在之T-細胞反應)識別之最小新抗原決定基之比率,如藉由針對包含12種不同測試樣品之測試集之RNA-seq、對偶基因特異性神經網路模型及泛對偶基因神經網路模型所檢定,取自患者之各測試樣品具有至少一個先已存在之T-細胞反應。
圖26A描述對九例患者之患者特異性新抗原肽池之T-細胞反應的檢測。
圖26B描述對四例患者之個別患者特異性新抗原肽之T-細胞反應的檢測。
圖26C描述患者CU04之ELISpot孔之實例圖像。
圖27A描述來自HLA-匹配之健康供體中之具有新抗原之對照實驗的結果。
圖27B描述來自HLA-匹配之健康供體中之具有新抗原之對照實驗的結果。
圖28描述對各供體及圖26A中所述之各活體外擴增之PHA陽性對照之T-細胞反應的檢測。
圖29A描述對患者CU04之2號池中之各個別患者特異性新抗原肽之T-細胞反應的檢測。
圖29B描述對患者CU04之三次訪問各者及對患者1-024-002之兩次訪問各者之個別患者特異性新抗原肽之T細胞反應的檢測,各訪問發生在不同時間點。
圖29C描述對患者CU04之兩次訪問各者及對患者1-024-002之兩次訪問各者之個別患者特異性新抗原肽及患者特異性新抗原肽池之T細胞反應的檢測,各訪問發生在不同時間點。
圖30描述對兩個患者特異性新抗原肽池及圖26A之患者之DMSO陰性對照之T-細胞反應的檢測。
圖31A描述測試樣品0各者之精度-召回曲線,該測試樣品0包含用於泛對偶基因及對偶基因特異性模型之II類MHC對偶基因。
圖31B描述測試樣品1各者之精度-召回曲線,該測試樣品1包含用於泛對偶基因及對偶基因特異性模型之II類MHC對偶基因。
圖31C描述測試樣品2各者之精度-召回曲線,該測試樣品2包含用於泛對偶基因及對偶基因特異性模型之II類MHC對偶基因。
圖31D描述測試樣品4各者之精度-召回曲線,該測試樣品4包含用於泛對偶基因及對偶基因特異性模型之II類MHC對偶基因。
圖32描述一種將來自NSCLC患者外周血之新抗原特異性記憶T-細胞之TCR定序的方法。
圖33描述用於將TCR引入受體細胞之TCR構築體之示例性實施例。
圖34描述用於將TCR選殖至表現系統中用於療法開發之示例性P526構築體主鏈核苷酸序列。
圖35描述用於將患者新抗原特異性TCR、純系型1 TCR選殖至表現系統中用於療法開發之示例性構築體序列。
圖36描述用於將患者新抗原特異性TCR、純系型3選殖至表現系統中用於療法開發之示例性構築體序列。
圖37為根據實施例之對患者提供定製、新抗原特異性治療之方法的流程圖。
圖38說明用於實施圖1及3中所示之實體之實例電腦。

Claims (34)

  1. 一種鑑別來自受試者之一或多個腫瘤細胞之至少一種新抗原的方法,該至少一種新抗原可藉由該等腫瘤細胞表面上之一或多個MHC對偶基因呈遞,該方法包括以下步驟: 自該受試者之該等腫瘤細胞及正常細胞獲得外顯子組、轉錄組或全基因組核苷酸定序資料中之至少一者,其中使用該核苷酸定序資料獲得表示藉由比較來自該等腫瘤細胞之該核苷酸定序資料與來自該等正常細胞之該核苷酸定序資料鑑別之一新抗原集各者之肽序列的資料,其中各新抗原之該肽序列包含至少一個改變,該改變使其有別於自該受試者之該等正常細胞鑑別之對應野生型肽序列; 將該等新抗原各者之該等肽序列編碼至對應數值向量中,各數值向量包含關於組成該肽序列之複數個胺基酸及該肽序列中之該等胺基酸之位置集的資訊; 自該受試者之該等腫瘤細胞獲得外顯子組、轉錄組或全基因組核苷酸定序資料中之至少一者,其中使用該核苷酸定序資料獲得表示該受試者之該一或多個MHC對偶基因各者之肽序列的資料; 將該受試者之該一或多個MHC對偶基因各者之該等肽序列編碼至對應數值向量中,各數值向量包含關於組成該肽序列之複數個胺基酸及該肽序列中之該等胺基酸之位置集的資訊; 使用電腦處理器,將編碼該等新抗原各者之該等肽序列之該等數值向量及編碼該一或多個MHC對偶基因各者之該等肽序列之該等數值向量輸入至機器學習呈遞模型以產生該新抗原集之呈遞可能性集,該集之各呈遞可能性表示對應新抗原藉由該受試者之該等腫瘤細胞表面上之該一或多個MHC對偶基因呈遞之可能性,該機器學習呈遞模型包括: 至少基於訓練資料集鑑別之複數個參數,該訓練資料集包括: 針對複數個樣品中之各樣品,藉由質譜法獲得之標記,該質譜法量測結合至經鑑別為存在於該樣品中之MHC對偶基因集中之至少一個MHC對偶基因之肽的存在; 針對該等樣品各者,編碼為數值向量之訓練肽序列,該等數值向量包含關於組成該等肽之複數個胺基酸及該等肽中之該等胺基酸之位置集的資訊;及 針對該等樣品各者,編碼為數值向量之訓練肽序列,該等數值向量包含關於組成結合至該樣品之該等肽之該至少一個MHC對偶基因之複數個胺基酸及該至少一個MHC對偶基因中之該等胺基酸之位置集的資訊; 函數,該函數表示作為輸入接收之編碼該等新抗原各者之該等肽序列之該等數值向量與編碼該一或多個MHC對偶基因各者之該等肽序列之該等數值向量,及作為輸出基於該等數值向量及該等參數產生之該呈遞可能性之間的關係; 基於該呈遞可能性集選擇該新抗原集之子集以產生經選定之新抗原集;及 返回該經選定之新抗原集。
  2. 如請求項1之方法,其中將編碼該等新抗原各者之該等肽序列之該等數值向量及編碼該一或多個MHC對偶基因各者之該等肽序列之該等數值向量輸入至該機器學習呈遞模型包括: 將該機器學習呈遞模型應用至該新抗原之該肽序列及至該一或多個MHC對偶基因之該肽序列以產生該一或多個MHC對偶基因各者之相依性分數,該分數指示該MHC對偶基因是否將基於該等肽序列之該等特定位置處之該等特定胺基酸呈遞該新抗原。
  3. 如請求項2之方法,其中將編碼該等新抗原各者之該等肽序列之該等數值向量及編碼該一或多個MHC對偶基因各者之該等肽序列之該等數值向量輸入至該機器學習呈遞模型還包括: 轉換該等相依性分數以產生各MHC對偶基因之對應按對偶基因可能性,該按對偶基因可能性指示該對應MHC對偶基因將呈遞該對應新抗原之可能性;及 組合該等按對偶基因可能性以產生該新抗原之該呈遞可能性。
  4. 如請求項3之方法,其中轉換該等相依性分數將該新抗原之呈遞建模為跨該一或多個MHC對偶基因互相排斥。
  5. 如請求項2之方法,其中將編碼該等新抗原各者之該等肽序列之該等數值向量及編碼該一或多個MHC對偶基因各者之該等肽序列之該等數值向量輸入至該機器學習呈遞模型還包括: 轉換該等相依性分數之組合以產生該呈遞可能性,其中轉換該等相依性分數之該組合將該新抗原之呈遞建模為該一或多個MHC對偶基因之間之干涉。
  6. 如請求項2至5中任一項之方法,其中該呈遞可能性集進一步藉由至少一個或多個對偶基因非相互作用特徵鑑別,且還包括: 將該機器學習呈遞模型應用至該等對偶基因非相互作用特徵以產生該等對偶基因非相互作用特徵之相依性分數,該分數指示該對應新抗原之該肽序列是否將基於該等對偶基因非相互作用特徵進行呈遞。
  7. 如請求項6之方法,其還包括: 將該一或多個MHC對偶基因之各MHC對偶基因之該相依性分數與該等對偶基因非相互作用特徵之該相依性分數組合; 轉換各MHC對偶基因之該等組合之相依性分數以產生各MHC對偶基因之按對偶基因可能性,該按對偶基因可能性指示該對應MHC對偶基因將呈遞該對應新抗原之可能性;及 組合該等按對偶基因可能性以產生該呈遞可能性。
  8. 如請求項6之方法,其還包括: 將該等MHC對偶基因各者之該等相依性分數與該等對偶基因非相互作用特徵之該相依性分數組合;及 轉換該等組合之相依性分數以產生該呈遞可能性。
  9. 如請求項1至8中任一項之方法,其中該一或多個MHC對偶基因包括兩個或更多個不同MHC對偶基因。
  10. 如請求項1至9中任一項之方法,其中該等肽序列包括具有除了9個胺基酸外之長度之肽序列。
  11. 如請求項1至10中任一項之方法,其中編碼肽序列包括使用獨熱編碼方案編碼該肽序列。
  12. 如請求項1至11中任一項之方法,其中該等複數個樣品包括以下中之至少一者: (a)經工程改造以表現單個MHC對偶基因之一或多個細胞株; (b)經工程改造以表現複數個MHC對偶基因之一或多個細胞株; (c)獲自或源自複數個患者之一或多個人類細胞株; (d)獲自複數個患者之新鮮或冷凍腫瘤樣品;及 (e)獲自複數個患者之新鮮或冷凍組織樣品。
  13. 如請求項1至12中任一項之方法,其中該訓練資料集還包括以下中之至少一者: (a)與該等肽中之至少一者之肽-MHC結合親和力測量值相關聯之資料;及 (b)與該等肽中之至少一者之肽-MHC結合穩定性測量值相關聯之資料。
  14. 如請求項1至13中任一項之方法,其中該呈遞可能性集進一步藉由該受試者中之該一或多個MHC對偶基因之至少表現水平鑑別,該表現水平如藉由RNA-seq或質譜法所量測。
  15. 如請求項1至14中任一項之方法,其中該呈遞可能性集進一步藉由包括以下中之至少一者之特徵鑑別: (a)該新抗原集中之新抗原與該一或多個MHC對偶基因之間之預測的親和力;及 (b)該新抗原編碼之肽-MHC複合體之預測穩定性。
  16. 如請求項1至15中任一項之方法,其中該數值可能性集進一步藉由包括以下中之至少一者之特徵鑑別: (a)其源蛋白序列內側接該新抗原編碼之肽序列的C-端序列;及 (b)其源蛋白序列內側接該新抗原編碼之肽序列的N-端序列。
  17. 如請求項1至16中任一項之方法,其中選擇該經選定之新抗原集包括基於該機器學習呈遞模型選擇相對於未經選定之新抗原具有增加之在該腫瘤細胞表面呈遞之可能性的新抗原。
  18. 如請求項1至17中任一項之方法,其中選擇該經選定之新抗原集包括基於該機器學習呈遞模型選擇相對於未經選定之新抗原具有增加之能誘導該受試者之腫瘤特異性免疫反應之可能性的新抗原。
  19. 如請求項1至18中任一項之方法,其中選擇該經選定之新抗原集包括基於該呈遞模型選擇具有相對於未經選定之新抗原增加之能藉由專業抗原呈遞細胞(APC)呈遞至初始T-細胞之可能性的新抗原,視情況其中該APC為樹突狀細胞(DC)。
  20. 如請求項1至19中任一項之方法,其中選擇該經選定之新抗原集包括基於該機器學習呈遞模型選擇具有相對於未經選定之新抗原降低之經受經由中樞或外周耐受而抑制之可能性的新抗原。
  21. 如請求項1至20中任一項之方法,其中選擇該經選定之新抗原集包括基於該機器學習呈遞模型選擇具有相對於未經選定之新抗原降低之能誘導該受試者之正常組織之自體免疫反應之可能性的新抗原。
  22. 如請求項1至21中任一項之方法,其中該一或多種腫瘤細胞係選自由以下組成之群:肺癌、黑色素瘤、乳癌、卵巢癌、***癌、腎癌、胃癌、結腸癌、睾丸癌、頭頸癌、胰癌、腦癌、B-細胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴球性白血病、及T-細胞淋巴球性白血病、非小細胞肺癌及小細胞肺癌。
  23. 如請求項1至22中任一項之方法,其還包括產生用於自該經選定之新抗原集構建個人化癌症疫苗之輸出。
  24. 如請求項23之方法,其中用於該個人化癌症疫苗之該輸出包括編碼該經選定之新抗原集之至少一個肽序列或至少一個核苷酸序列。
  25. 如請求項1至24中任一項之方法,其中該機器學習呈遞模型為神經網路模型。
  26. 如請求項25之方法,其中該神經網路模型包括包含於一或多個層中排列之一系列節點之單個神經網路模型,該單個神經網路模型經配置以接收編碼多個不同MHC對偶基因之該等肽序列之數值向量。
  27. 如請求項26之方法,其中該神經網路模型藉由更新該神經網路模型之該等參數來訓練。
  28. 如請求項25至27中任一項之方法,其中該機器學習呈遞模型為包含一或多個節點層之深度學習模型。
  29. 如請求項1至28中任一項之方法,其中將該等訓練肽序列經編碼為數值向量,該等數值向量包含關於組成結合至該樣品之該等肽之至少一個MHC對偶基因之複數個胺基酸及該至少一個MHC對偶基因中之該等胺基酸之位置集的資訊,不包括該受試者之MHC對偶基因之肽序列,該肽序列經輸入至該機器學習呈遞模型以產生該新抗原集之該呈遞可能性集。
  30. 如請求項1至29中任一項之方法,其中結合至該訓練資料集之複數個樣品之各樣品之該等肽的該至少一個MHC對偶基因屬於該受試者之該一或多個MHC對偶基因所屬的基因家族。
  31. 如請求項1至30中任一項之方法,其中結合至該訓練資料集之複數個樣品之各樣品之該等肽的該至少一個MHC對偶基因包括一個MHC對偶基因。
  32. 如請求項1至30中任一項之方法,其中結合至該訓練資料集之複數個樣品之各樣品之該等肽的該至少一個MHC對偶基因包括一個以上MHC對偶基因。
  33. 如請求項1至32中任一項之方法,其中該一或多個MHC對偶基因為I類MHC對偶基因。
  34. 一種電腦系統,其包括: 電腦處理器; 記憶存儲電腦程式指令,當藉由該電腦處理器執行時造成該電腦處理器進行以下: 自該受試者之該等腫瘤細胞及正常細胞獲得外顯子組、轉錄組或全基因組核苷酸定序資料中之至少一者,其中使用該核苷酸定序資料以獲得代表新抗原集各者之肽序列的資料,該新抗原集藉由比較來自該等腫瘤細胞之該核苷酸定序資料與來自該等正常細胞之該核苷酸定序資料鑑別,其中各新抗原之該肽序列包含使其有別於自該受試者之該等正常細胞鑑別之該對應野生型肽序列的至少一個改變; 將該等新抗原各者之該等肽序列編碼至對應數值向量中,各數值向量包含關於組成該肽序列之複數個胺基酸及該肽序列中之該等胺基酸之位置集的資訊; 自該受試者之該一或多個MHC對偶基因各者獲得外顯子組、轉錄組或全基因組核苷酸定序資料中之至少一者,其中使用該核苷酸定序資料獲得代表該受試者之該一或多個MHC對偶基因各者之肽序列的資料; 將該受試者之該一或多個MHC對偶基因各者之該等肽序列編碼至對應數值向量中,各數值向量包含關於組成該肽序列之複數個胺基酸及該肽序列中之該等胺基酸之位置集的資訊; 使用電腦處理器,將編碼該等新抗原各者之該等肽序列之該等數值向量及編碼該一或多個MHC對偶基因各者之該等肽序列之該等數值向量輸入至機器學習呈遞模型以產生該新抗原集之呈遞可能性集,該集之各呈遞可能性表示對應新抗原藉由該受試者之該等腫瘤細胞表面上之該一或多個MHC對偶基因呈遞之可能性,該機器學習呈遞模型包括: 至少基於訓練資料集鑑別之複數個參數,該訓練資料集包括: 針對複數個樣品中之各樣品,藉由質譜法獲得之標記,該質譜法量測結合至經鑑別為於該樣品中呈遞之MHC對偶基因集中之至少一個MHC對偶基因之肽的存在; 針對該等樣品各者,編碼為數值向量之訓練肽序列,該等數值向量包含關於組成該等肽之複數個胺基酸及該等肽中之該等胺基酸之位置集的資訊;及 針對該等樣品各者,編碼為數值向量之訓練肽序列,該等數值向量包含關於組成結合至該樣品之該等肽之該至少一個MHC對偶基因之複數個胺基酸及該至少一個MHC對偶基因中之該等胺基酸之位置集的資訊; 函數,該函數表示作為輸入接收之編碼該等新抗原各者之該等肽序列之該等數值向量與編碼該一或多個MHC對偶基因各者之該等肽序列之該等數值向量,與作為輸出基於該等數值向量及該等參數產生之該呈遞可能性之間的關係; 基於該呈遞可能性集選擇該新抗原集之子集以產生經選定之新抗原集;及 返回該經選定之新抗原集。
TW108106921A 2018-02-27 2019-02-27 利用泛對偶基因(pan-allele)模型之新抗原鑑別 TW202000693A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862636061P 2018-02-27 2018-02-27
US62/636,061 2018-02-27

Publications (1)

Publication Number Publication Date
TW202000693A true TW202000693A (zh) 2020-01-01

Family

ID=67806416

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108106921A TW202000693A (zh) 2018-02-27 2019-02-27 利用泛對偶基因(pan-allele)模型之新抗原鑑別

Country Status (10)

Country Link
US (1) US20200411135A1 (zh)
EP (1) EP3759131A4 (zh)
JP (1) JP7480064B2 (zh)
KR (1) KR20200127001A (zh)
CN (1) CN111868080A (zh)
AU (1) AU2019227813A1 (zh)
CA (1) CA3091917A1 (zh)
IL (1) IL276839A (zh)
TW (1) TW202000693A (zh)
WO (1) WO2019168984A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014180490A1 (en) 2013-05-10 2014-11-13 Biontech Ag Predicting immunogenicity of t cell epitopes
WO2016128060A1 (en) 2015-02-12 2016-08-18 Biontech Ag Predicting t cell epitopes useful for vaccination
EP4299136A3 (en) 2015-12-16 2024-02-14 Gritstone bio, Inc. Neoantigen identification, manufacture, and use
AU2018348165A1 (en) 2017-10-10 2020-05-21 Gritstone Bio, Inc. Neoantigen identification using hotspots
EP3714275A4 (en) 2017-11-22 2021-10-27 Gritstone bio, Inc. REDUCTION OF JUNCTION EPITOPIC PRESENTATION FOR NEOANTIGENS
WO2021048400A1 (en) * 2019-09-13 2021-03-18 Evaxion Biotech Aps Method for identifying t-cell epitopes
WO2021091541A1 (en) * 2019-11-05 2021-05-14 Kri Technologies Incorporated Identifying cancer neoantigens for personalized cancer immunotherapy
US20230047716A1 (en) * 2020-01-07 2023-02-16 Korea Advanced Institute Of Science And Technology Method and system for screening neoantigens, and uses thereof
CN111798919B (zh) * 2020-06-24 2022-11-25 上海交通大学 一种肿瘤新抗原预测方法、预测装置及存储介质
US20230398218A1 (en) * 2020-08-13 2023-12-14 Biontech Us Inc. Ras neoantigens and uses thereof
CN112509641B (zh) * 2020-12-04 2022-04-08 河北环境工程学院 一种基于深度学习监测抗生素与金属联合产物的智能方法
CN113255690B (zh) * 2021-04-15 2022-04-12 南昌大学 一种基于轻量级卷积神经网络的复合绝缘子憎水性检测方法
WO2022229966A1 (en) 2021-04-29 2022-11-03 Yeda Research And Development Co. Ltd. T cell receptors directed against ras-derived recurrent neoantigens and methods of identifying same
CN113409888A (zh) * 2021-06-21 2021-09-17 中国科学院自动化研究所 一种肿瘤微环境及肿瘤基因突变检测***、方法及设备
WO2023017768A1 (ja) * 2021-08-10 2023-02-16 日本電気株式会社 情報処理システム及び情報処理方法
EP4148146A1 (en) 2021-09-13 2023-03-15 OncoDNA Method to generate personalized neoantigens of a tumor of a patient
CA3230575A1 (en) 2021-09-13 2023-03-16 Oncodna A rna vaccine comprising an rna pool generated from a double-stranded dna pool
WO2023196966A1 (en) * 2022-04-08 2023-10-12 Gritstone Bio, Inc. Antigen predictions for infectious disease-derived epitopes
CN114821176B (zh) * 2022-04-28 2022-11-01 浙江大学 一种儿童脑部mr图像病毒性脑炎分类***
WO2024015892A1 (en) * 2022-07-13 2024-01-18 The Broad Institute, Inc. Hla-ii immunopeptidome methods and systems for antigen discovery
WO2024036308A1 (en) * 2022-08-12 2024-02-15 Biontech Us Inc. Methods and systems for prediction of hla epitopes
CN116469457B (zh) * 2023-06-14 2023-10-13 普瑞基准科技(北京)有限公司 Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置
CN116453599B (zh) * 2023-06-19 2024-03-19 深圳大学 开放阅读框预测方法、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6931351B2 (en) * 2001-04-20 2005-08-16 International Business Machines Corporation Decision making in classification problems
EP1806358B1 (en) * 2005-09-05 2010-03-17 Immatics Biotechnologies GmbH Tumor-associated peptides binding promiscuously to human leukocyte antigen (HLA) class II molecules
AU2011252795B2 (en) * 2010-05-14 2015-09-03 Dana-Farber Cancer Institute, Inc. Compositions and methods of identifying tumor specific neoantigens
WO2014180490A1 (en) * 2013-05-10 2014-11-13 Biontech Ag Predicting immunogenicity of t cell epitopes
AU2015315005B9 (en) * 2014-09-10 2021-08-12 Genentech, Inc. Immunogenic mutant peptide screening platform
EP4299136A3 (en) * 2015-12-16 2024-02-14 Gritstone bio, Inc. Neoantigen identification, manufacture, and use

Also Published As

Publication number Publication date
AU2019227813A1 (en) 2020-10-01
EP3759131A4 (en) 2021-12-01
CN111868080A (zh) 2020-10-30
CA3091917A1 (en) 2019-09-06
US20200411135A1 (en) 2020-12-31
JP2021514671A (ja) 2021-06-17
WO2019168984A8 (en) 2020-06-04
IL276839A (en) 2020-10-29
EP3759131A1 (en) 2021-01-06
KR20200127001A (ko) 2020-11-09
WO2019168984A1 (en) 2019-09-06
JP7480064B2 (ja) 2024-05-09

Similar Documents

Publication Publication Date Title
TWI816702B (zh) 利用熱點識別新抗原之方法及電腦系統
JP7480064B2 (ja) パンアレルモデルによる新生抗原の特定方法
US20200363414A1 (en) Neoantigen Identification for T-Cell Therapy
US20220154281A1 (en) Identification of neoantigens with mhc class ii model
KR20200016265A (ko) 신생항원 동정, 제조, 및 용도
TW201733598A (zh) 新抗原辨識、製造及用途
CN110636852A (zh) 新抗原的鉴别、制造及使用
JP2021503897A (ja) 新生抗原のためのジャンクションエピトープ提示の低減