CN112309502A - 一种计算肿瘤新抗原负荷的方法及*** - Google Patents

一种计算肿瘤新抗原负荷的方法及*** Download PDF

Info

Publication number
CN112309502A
CN112309502A CN202011098269.XA CN202011098269A CN112309502A CN 112309502 A CN112309502 A CN 112309502A CN 202011098269 A CN202011098269 A CN 202011098269A CN 112309502 A CN112309502 A CN 112309502A
Authority
CN
China
Prior art keywords
sample
normal
tumor
specific
polypeptide sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011098269.XA
Other languages
English (en)
Inventor
万季
沈一鸣
汪健
潘有东
王弈
宋麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Neocura Biotechnology Corp
Original Assignee
Shenzhen Neocura Biotechnology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Neocura Biotechnology Corp filed Critical Shenzhen Neocura Biotechnology Corp
Priority to CN202011098269.XA priority Critical patent/CN112309502A/zh
Priority to US17/151,076 priority patent/US11967399B2/en
Publication of CN112309502A publication Critical patent/CN112309502A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Medical Informatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Cell Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种计算肿瘤新抗原负荷的方法及***,其中方法包括:步骤S1:整合样本正常及肿瘤数据,对特定区间进行测序并检测样本的体细胞突变;步骤S2:对体细胞突变进行注释过滤,并进行翻译得到患者的突变多肽序列;步骤S3:根据样本正常蛋白质组,过滤突变多肽序列,得到新多肽序列;步骤S4:根据样本正常比对数据进行人类白细胞抗原分型分析,得到样本的HLA基因型;本发明的计算肿瘤新抗原负荷的方法,对每一个预测的新抗原进行权重打分,考虑到突变质量、突变频率以及亲和力高低等不同维度信息,能够区别高质量和低质量的新抗原,从而得到一个更能反应样本真实肿瘤新抗原负荷的数值。

Description

一种计算肿瘤新抗原负荷的方法及***
技术领域
本发明涉及肿瘤免疫治疗技术领域,特别涉及一种计算肿瘤新抗原负荷的方法及***。
背景技术
近年来肿瘤免疫治疗的发展为肿瘤的治疗提供了新的手段。其中通过抑制免疫***的抑制信号从而激活免疫***的免疫检查点抑制剂在众多实体肿瘤中均取得了突破性的疗效。与肿瘤靶向治疗类似,免疫检查点抑制剂需要借助特定的分子指标来预估治疗的效果。目前常用的免疫检查点抑制剂疗效相关的分子指标包括PD-1/PD-L1的表达量,微卫星不稳定性以及肿瘤突变负荷。这些分子指标虽然能一定程度上辅助评估免疫检查点抑制剂的疗效,但在临床上却依然存在大量案例的疗效与现有的分子指标阈值不一致的情况。为了进一步提高免疫检查点抑制剂的预估效果,临床上亟需开发更加准确的分子指标。新抗原是能被T细胞识别的肿瘤细胞特异突变生成的多肽片段。与肿瘤突变负荷中涉及的突变未能考虑突变的翻译和患者自身的人类白细胞抗原亚型相比,由患者的新抗原衍生的分子指标将更能反映免疫***的活跃程度,从而能够更加准确的预估免疫检查点抑制剂的疗效;因此亟需一种评估方法,对新抗原的负荷进行评估。
发明内容
本发明目的之一在于提供了一种计算肿瘤新抗原负荷的方法,对每一个预测的新抗原进行权重打分,考虑到突变质量、突变频率以及亲和力高低等不同维度信息,能够区别高质量和低质量的新抗原,从而得到一个更能反应样本真实肿瘤新抗原负荷的数值。
本发明实施例提供的一种计算肿瘤新抗原负荷的方法,包括:
步骤S1:整合样本正常及肿瘤数据,对特定区间进行测序并检测样本的体细胞突变;
步骤S2:对体细胞突变进行注释过滤,并进行翻译得到患者的突变多肽序列;
步骤S3:根据样本正常蛋白质组,过滤突变多肽序列,得到新多肽序列;
步骤S4:根据样本正常比对数据进行人类白细胞抗原分型分析,得到样本的HLA基因型;
步骤S5:预测新多肽序列与HLA基因型的亲和力,得到样本的特异性新抗原;对每一个特异性新抗原进行权重打分并计算样本的肿瘤新抗原负荷TNB。
优选的,步骤S1:整合样本正常及肿瘤数据,对特定区间进行测序并检测样本的体细胞突变;包括:
步骤S101:使用全外显子测序或Panel特定区域测序方法,对样本正常及肿瘤待测数据进行DNA测序,并对测序数据进行比对,得到样本正常及肿瘤基因组;
步骤S102:从样本正常及肿瘤基因组中,获取样本测序区间内的体细胞突变。
优选的,步骤S2:对体细胞突变进行注释过滤,并进行翻译得到患者的突变多肽序列,包括:
步骤S201:对体细胞突变进行注释及过滤,包括去除同义突变、内含子突变;
步骤S202:对过滤后的体细胞突变进行蛋白质翻译,得到样本的突变蛋白质组;
步骤S203:以预设长度,对样本的突变蛋白质组进行切割,得到包含突变位点的样本的候选抗原肽段;候选抗原肽段为突变多肽序列。
优选的,步骤S3:根据样本正常蛋白质组,过滤突变多肽序列,得到新多肽序列,包括:
步骤S301:对样本的正常基因组进行翻译,得到样本的正常蛋白质组;
步骤S302:对候选抗原肽段,在正常蛋白质组中进行查找,过滤正常蛋白质组中存在的部分,得到样本的候选新抗原肽。
优选的,步骤S5:预测新多肽序列与HLA基因型的亲和力,得到样本的特异性新抗原;对每一个特异性新抗原进行权重打分并计算样本的肿瘤新抗原负荷TNB,包括:
步骤S501:对候选新抗原肽与HLA基因型进行亲和力预测,得到样本的特异性新抗原;
步骤S502:基于突变注释信息、突变频率信息、与HLA基因型亲和力信息,对特异性新抗原进行权重计算,得到每一条特异性新抗原的权重值;
步骤S503:对每一条特异性新抗原的权重值进行累计,完成样本的肿瘤新抗原负荷TNB的计算。
本发明还提供一种计算肿瘤新抗原负荷的***,包括:
体细胞突变获取单元,用于整合样本正常及肿瘤数据,对特定区间进行测序并检测样本的体细胞突变;
候选抗原肽获取单元,用于对体细胞突变进行注释过滤,并进行翻译得到患者的突变多肽序列;
候选新抗原肽获取单元,根据样本正常蛋白质组,过滤突变多肽序列,得到新多肽序列;
HLA基因型获取单元,根据样本正常比对数据进行人类白细胞抗原分型分析,得到样本的HLA基因型;
TNB计算单元,用于预测新多肽序列与HLA基因型的亲和力,得到样本的特异性新抗原;对每一个特异性新抗原进行权重打分并计算样本的肿瘤新抗原负荷TNB。
优选的,体细胞突变获取单元执行如下操作:
使用全外显子测序或Panel特定区域测序方法,对样本正常及肿瘤待测数据进行DNA测序,并对测序数据进行比对,得到样本正常及肿瘤基因组;
从样本正常及肿瘤基因组中,获取样本测序区间内的体细胞突变。
优选的,候选抗原肽获取单元执行如下操作:
对体细胞突变进行注释及过滤,包括去除同义突变、内含子突变;
对过滤后的体细胞突变进行蛋白质翻译,得到样本的突变蛋白质组;
以预设长度,对样本的突变蛋白质组进行切割,得到包含突变位点的样本的候选抗原肽段;候选抗原肽段为突变多肽序列。
优选的,候选新抗原肽获取单元执行如下操作:
对样本的正常基因组进行翻译,得到样本的正常蛋白质组;
对候选抗原肽段,在正常蛋白质组中进行查找,过滤正常蛋白质组中存在的部分,得到样本的候选新抗原肽。
优选的,TNB计算单元执行如下操作:
对候选新抗原肽与HLA基因型进行亲和力预测,得到样本的特异性新抗原;
基于突变注释信息、突变频率信息、与HLA基因型亲和力信息,对特异性新抗原进行权重计算,得到每一条特异性新抗原的权重值;
对每一条特异性新抗原的权重值进行累计,完成样本的肿瘤新抗原负荷TNB的计算。
与现有技术相比,本发明的方案具有如下优势:
一、从肿瘤新抗原预测的来源上讲,本发明充分考虑了各种可能的新抗原结果,包括从预测长度上不限于一种、从HLA基因型上不限于I型等方式,扩展了新抗原的筛选范围。
二、从肿瘤新抗原负荷计算准确度上讲,区别与常用的只简单计算新抗原数目从而得到TNB的数值的方法,本方法通过对每一个预测的新抗原进行权重打分,考虑到突变质量、突变频率以及亲和力高低等不同维度信息,能够区别高质量和低质量的新抗原,从而得到一个更能反应样本真实肿瘤新抗原负荷的数值。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种计算肿瘤新抗原负荷的方法的示意图;
图2为本发明实施例中一种计算肿瘤新抗原负荷的方法的应用实例流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种计算肿瘤新抗原负荷的方法,如图1所示,包括:
步骤S1:整合样本正常及肿瘤数据,对特定区间进行测序并检测样本的体细胞突变;
步骤S2:对体细胞突变进行注释过滤,并进行翻译得到患者的突变多肽序列;
步骤S3:根据样本正常蛋白质组,过滤突变多肽序列,得到新多肽序列;
步骤S4:根据样本正常比对数据进行人类白细胞抗原分型分析,得到样本的HLA基因型;
步骤S5:预测新多肽序列与HLA基因型的亲和力,得到样本的特异性新抗原;对每一个特异性新抗原进行权重打分并计算样本的肿瘤新抗原负荷TNB。
上述技术方案的工作原理及有益效果为:
基于每一个特异性新抗原进行权重打分并计算样本的肿瘤新抗原负荷TNB,要保证最后肿瘤新抗原负荷TNB计算的准确性首先必须保证特异性新抗原确定的准确;本发明通过整合、过滤、分析、预测,四步保证特异性新抗原确定的准确。
本发明的计算肿瘤新抗原负荷的方法,对每一个预测的新抗原进行权重打分,考虑到突变质量、突变频率以及亲和力高低等不同维度信息,能够区别高质量和低质量的新抗原,从而得到一个更能反应样本真实肿瘤新抗原负荷的数值。
在一个实施例中,步骤S1:整合样本正常及肿瘤数据,对特定区间进行测序并检测样本的体细胞突变;包括:
步骤S101:使用全外显子测序或Panel特定区域测序方法,对样本正常及肿瘤待测数据进行DNA测序,并对测序数据进行比对,得到样本正常及肿瘤基因组;
步骤S101为测序并获取样本正常及肿瘤基因组:具体为:
如图2所示,分别对样本正常组织及肿瘤组织进行DNA测序,并对测序数据进行比对:
在此步骤中,主要目的为得到样本正常及肿瘤数据的基因组,首先对样本的正常DNA数据以及肿瘤DNA数据进行测序,得到用于后续分析的测序结果文件,再根据测序结果文件,得到样本的正常及肿瘤基因组。可选步骤包括但不限于对测序reads进行质量值过滤、去除接头及引物等步骤。
优选地,本发明中获取样本的正常和肿瘤基因组基于DNA测序数据进行bwa比对。
优选地,使用bwa软件对测序的fastq文件进行比对得到bam文件,再使用GATK软件对bam文件进行去重、行质量值矫正。
命令行及参数:
bwa比对,其示例命令为:
bwa mem\
-R‘@RG\tID:sample\tLB:library\tSM:sample’\
-t 10\
-M bwa.index\
reference.fa\
in.1.fq in.2.fq
其中:
-R代表比对结果头文件
-t代表运行线程数
-M代表所用索引文件
reference.fa代表参考基因组fasta文件,in.1.fq与in.2.fq代表测序数据picard去重
java-jar picard.jar\
MarkDuplicates\
I=in.bam\
O=out.bam\
M=picard1.txt
其中:
I代表输入比对文件
O代表输出比对文件
M代表输出结果统计文件
碱基质量值矫正
java-jar gatk.jar\
BaseRecalibrator\
-R reference.fa\
-I input.bam\
-O out.txt\
--known-sites known.vcf\
其中:
-R代表参考基因组文件
-I代表输入BAM文件
-O代表输出统计结果文件
--known-sites代表已知突变文件
步骤S102:从样本正常及肿瘤基因组中,获取样本测序区间内的体细胞突变。
在此步骤中,利用样本正常基因组以及肿瘤基因组比对文件,可以得到样本肿瘤细胞中包含的体细胞突变及相对应的突变频率信息。
优选地,使用GATK的Mutect2工具对体细胞突变进行检测。
命令行及参数
Mutect2突变检测
java-jar gatk.jar Mutect2\
-R reference.fa\
-I normal.bam\
-I tumor.bam\
-tumor tumor\
-normal normal\
-O sample.vcf
其中:
-R代表参考基因组fasta文件
-I代表输入比对文件
-tumor/-normal代表比对文件中,肿瘤/正常样本的名称
-O代表输出的突变文件
在一个实施例中,步骤S2:对体细胞突变进行注释过滤,并进行翻译得到患者的突变多肽序列,包括:
步骤S201:对体细胞突变进行注释及过滤,包括去除同义突变、内含子突变;
在此步骤中,首先是对S102所获得的样本体细胞突变进行注释工作,包括对突变进行过滤信息的注释,对突变进行蛋白功能的影响注释等,根据注释信息,可以去除发生在内含子上的突变、对翻译的蛋白序列不产生影响的突变等。
优选地,首先对所得的体细胞突变进行注释,可以得到每一类突变的过滤注释信息,如利用GATK的FilterMutectCalls进行突变的注释。
优选地,对所有体细胞突变进行蛋白序列结构功能影响的注释,如利用VEP等工具。
命令行及参数:
一.FilterMutectCalls突变过滤信息注释
java-jar gatk.jar FilterMutectCalls\
-V sample.vcf\
-O sample.2.vcf
其中:
-V代表输入的突变文件
-O代表输出的带有FILTER标签的突变文件
二.VEP突变注释
perl vep.pl\
-i in.vcf\
-o out.txt\
--assembly assembly\
--fork 10
其中:
-i代表输入突变文件
-o代表输出结果文件
--assembly代表参考基因组版本
--fork代表线程数
步骤S202:对过滤后的体细胞突变进行蛋白质翻译,得到样本的突变蛋白质组;
在S01中,根据注释结果,可以过滤掉不产生蛋白质序列变异的体细胞突变,在剩下的能够产生氨基酸变异的结果中,根据基因组突变信息及详细的注释信息,编写代码,构建突变转录本并根据翻译规则翻译成突变蛋白质序列。
步骤S203:以预设长度,对样本的突变蛋白质组进行切割,得到包含突变位点的样本的候选抗原肽段;候选抗原肽段为突变多肽序列。
编写代码,结合S202步得到的突变蛋白序列再结合突变氨基酸位置,以一系列特定长度,对突变蛋白序列进行滑窗处理,得到候选新抗原肽段的集合。如在一段突变蛋白序列上,突变氨基酸的位置为[m,n],在以l为长度进行处理时,最多能够得到的肽段起始位置为(m-l+1,n)。实际操作中,由于突变氨基酸在蛋白上的相对位置与l的设定,要适时过滤肽段起始位置(终止位置)超过蛋白序列首位(末位)氨基酸位置的情况。
优选地,默认设置肽段长度为8-15个氨基酸。
在一个实施例中,步骤S3:根据样本正常蛋白质组,过滤突变多肽序列,得到新多肽序列,包括:
步骤S301:对样本的正常基因组进行翻译,得到样本的正常蛋白质组;
类似的,根据不包含体细胞突变的基因组,根据同样的翻译规则,可以构建出样本正常蛋白质组。
可选地,选择Ensembl发布的release 98版本作为人类正常蛋白组。
可选地,选择样本正常测序数据的基因组,根据翻译规则,获得样本正常蛋白质组。
步骤S302:对候选抗原肽段,在正常蛋白质组中进行查找,过滤正常蛋白质组中存在的部分,得到样本的候选新抗原肽。
编写代码,将S2步骤获取的样本候选抗原肽段,在上述人类正常蛋白组进行查找,去除掉能够查询到的完全一致的候选肽段,保留无法查询到有完全一致匹配的候选肽段,即为样本候选新抗原肽。
步骤S4:根据样本正常比对数据进行人类白细胞抗原分型分析,得到样本的HLA基因型;具体为:
S401,基于样本DNA测序数据,得到样本人类白细胞抗原(HLA)分子分型。
优选地,利用软件HLA-LA对样本测序数据进行HLA分子分型的预测,包含I型及II型预测结果。
命令行及参数:
HLA-LA.pl\
--BAM sample.bam\
--picard_sam2fastq_bin picard-SamToFastq.jar\
--graph PRG_MHC_GRCh38_withIMGT\
--sampleID sample\
--maxThreads 10\
--workingDir odir\
其中:
--BAM代表输入比对文件
--picard_sam2fastq_bin代表picard的SamToFastq工具
--graph代表HLA-LA参考图
--sampleID代表样本名
--maxThreads代表线程数
在一个实施例中,步骤S5:预测新多肽序列与HLA基因型的亲和力,得到样本的特异性新抗原;对每一个特异性新抗原进行权重打分并计算样本的肿瘤新抗原负荷TNB,包括:
步骤S501:对候选新抗原肽与HLA基因型进行亲和力预测,得到样本的特异性新抗原;
编写代码,对S3获得的候选新抗原肽,分别进行I型及II型HLA分型亲和力的预测。步骤S502:基于突变注释信息、突变频率信息、与HLA基因型亲和力信息,对特异性新抗原进行权重计算,得到每一条特异性新抗原的权重值;
本步骤基于S501的亲和力预测结果,针对预测结果中显示有结合可能性的结果。编写代码,结合前述步骤产生的突变频率信息、突变过滤信息、新抗原与HLA亲和力强弱信息等,计算每个新生抗原的权重。如对突变频率以及对来源于不同频率高低区间的新抗原,标注不同的分值;如对注释不同突变过滤信息对新抗原,标注不同的分值;如对预测亲和力的rank结果,标注不同的分值等。最后,将新抗原不同特性的分值进行综合计算,得到每一条新抗原的权重分数。
步骤S503:对每一条特异性新抗原的权重值进行累计,完成样本的肿瘤新抗原负荷TNB的计算。
针对S502的结果,对样本所有新抗原的权重分数进行综合计算,得到样本肿瘤新抗原负荷数。
本发明还提供一种计算肿瘤新抗原负荷的***,包括:
体细胞突变获取单元,用于整合样本正常及肿瘤数据,对特定区间进行测序并检测样本的体细胞突变;
候选抗原肽获取单元,用于对体细胞突变进行注释过滤,并进行翻译得到患者的突变多肽序列;
候选新抗原肽获取单元,根据样本正常蛋白质组,过滤突变多肽序列,得到新多肽序列;
HLA基因型获取单元,根据样本正常比对数据进行人类白细胞抗原分型分析,得到样本的HLA基因型;
TNB计算单元,用于预测新多肽序列与HLA基因型的亲和力,得到样本的特异性新抗原;对每一个特异性新抗原进行权重打分并计算样本的肿瘤新抗原负荷TNB。
上述技术方案的工作原理及有益效果为:
基于每一个特异性新抗原进行权重打分并计算样本的肿瘤新抗原负荷TNB,要保证最后肿瘤新抗原负荷TNB计算的准确性首先必须保证特异性新抗原确定的准确;本发明通过整合、过滤、分析、预测,四步保证特异性新抗原确定的准确。
本发明的计算肿瘤新抗原负荷的***,对每一个预测的新抗原进行权重打分,考虑到突变质量、突变频率以及亲和力高低等不同维度信息,能够区别高质量和低质量的新抗原,从而得到一个更能反应样本真实肿瘤新抗原负荷的数值。
在一个实施例中,体细胞突变获取单元执行如下操作:
使用全外显子测序或Panel特定区域测序方法,对样本正常及肿瘤待测数据进行DNA测序,并对测序数据进行比对,得到样本正常及肿瘤基因组;
从样本正常及肿瘤基因组中,获取样本测序区间内的体细胞突变。
在一个实施例中,候选抗原肽获取单元执行如下操作:
对体细胞突变进行注释及过滤,包括去除同义突变、内含子突变;
对过滤后的体细胞突变进行蛋白质翻译,得到样本的突变蛋白质组;
以预设长度,对样本的突变蛋白质组进行切割,得到包含突变位点的样本的候选抗原肽段;候选抗原肽段为突变多肽序列。
在一个实施例中,候选新抗原肽获取单元执行如下操作:
对样本的正常基因组进行翻译,得到样本的正常蛋白质组;
对候选抗原肽段,在正常蛋白质组中进行查找,过滤正常蛋白质组中存在的部分,得到样本的候选新抗原肽。
在一个实施例中,TNB计算单元执行如下操作:
对候选新抗原肽与HLA基因型进行亲和力预测,得到样本的特异性新抗原;
基于突变注释信息、突变频率信息、与HLA基因型亲和力信息,对特异性新抗原进行权重计算,得到每一条特异性新抗原的权重值;
对每一条特异性新抗原的权重值进行累计,完成样本的肿瘤新抗原负荷TNB的计算。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种计算肿瘤新抗原负荷的方法,其特征在于,包括:
步骤S1:整合样本正常及肿瘤数据,对特定区间进行测序并检测样本的体细胞突变;
步骤S2:对所述体细胞突变进行注释过滤,并进行翻译得到患者的突变多肽序列;
步骤S3:根据样本正常蛋白质组,过滤所述突变多肽序列,得到新多肽序列;
步骤S4:根据样本正常比对数据进行人类白细胞抗原分型分析,得到样本的HLA基因型;
步骤S5:预测所述新多肽序列与所述HLA基因型的亲和力,得到样本的特异性新抗原;对每一个所述特异性新抗原进行权重打分并计算样本的肿瘤新抗原负荷TNB。
2.如权利要求1所述的计算肿瘤新抗原负荷的方法,其特征在于,所述步骤S1:整合样本正常及肿瘤数据,对特定区间进行测序并检测样本的体细胞突变;包括:
步骤S101:使用全外显子测序或Panel特定区域测序方法,对样本正常及肿瘤待测数据进行DNA测序,并对测序数据进行比对,得到样本正常及肿瘤基因组;
步骤S102:从所述样本正常及肿瘤基因组中,获取样本测序区间内的体细胞突变。
3.如权利要求1所述的计算肿瘤新抗原负荷的方法,其特征在于,所述步骤S2:对所述体细胞突变进行注释过滤,并进行翻译得到患者的突变多肽序列,包括:
步骤S201:对所述体细胞突变进行注释及过滤,包括去除同义突变、内含子突变;
步骤S202:对过滤后的所述体细胞突变进行蛋白质翻译,得到样本的突变蛋白质组;
步骤S203:以预设长度,对样本的突变蛋白质组进行切割,得到包含突变位点的样本的候选抗原肽段;所述候选抗原肽段为所述突变多肽序列。
4.如权利要求3所述的计算肿瘤新抗原负荷的方法,其特征在于,所述步骤S3:根据样本正常蛋白质组,过滤所述突变多肽序列,得到新多肽序列,包括:
步骤S301:对样本的正常基因组进行翻译,得到样本的正常蛋白质组;
步骤S302:对所述候选抗原肽段,在所述正常蛋白质组中进行查找,过滤正常蛋白质组中存在的部分,得到样本的候选新抗原肽。
5.如权利要求4所述的计算肿瘤新抗原负荷的方法,其特征在于,所述步骤S5:预测所述新多肽序列与所述HLA基因型的亲和力,得到样本的特异性新抗原;对每一个所述特异性新抗原进行权重打分并计算样本的肿瘤新抗原负荷TNB,包括:
步骤S501:对所述候选新抗原肽与所述HLA基因型进行亲和力预测,得到样本的特异性新抗原;
步骤S502:基于突变注释信息、突变频率信息、与HLA基因型亲和力信息,对所述特异性新抗原进行权重计算,得到每一条所述特异性新抗原的权重值;
步骤S503:对每一条所述特异性新抗原的权重值进行累计,完成样本的肿瘤新抗原负荷TNB的计算。
6.一种计算肿瘤新抗原负荷的***,其特征在于,包括:
体细胞突变获取单元,用于整合样本正常及肿瘤数据,对特定区间进行测序并检测样本的体细胞突变;
候选抗原肽获取单元,用于对所述体细胞突变进行注释过滤,并进行翻译得到患者的突变多肽序列;
候选新抗原肽获取单元,根据样本正常蛋白质组,过滤所述突变多肽序列,得到新多肽序列;
HLA基因型获取单元,根据样本正常比对数据进行人类白细胞抗原分型分析,得到样本的HLA基因型;
TNB计算单元,用于预测所述新多肽序列与所述HLA基因型的亲和力,得到样本的特异性新抗原;对每一个所述特异性新抗原进行权重打分并计算样本的肿瘤新抗原负荷TNB。
7.如权利要求6所述的计算肿瘤新抗原负荷的***,其特征在于,所述体细胞突变获取单元执行如下操作:
使用全外显子测序或Panel特定区域测序方法,对样本正常及肿瘤待测数据进行DNA测序,并对测序数据进行比对,得到样本正常及肿瘤基因组;
从所述样本正常及肿瘤基因组中,获取样本测序区间内的体细胞突变。
8.如权利要求6所述的计算肿瘤新抗原负荷的***,其特征在于,所述候选抗原肽获取单元执行如下操作:
对所述体细胞突变进行注释及过滤,包括去除同义突变、内含子突变;
对过滤后的所述体细胞突变进行蛋白质翻译,得到样本的突变蛋白质组;
以预设长度,对样本的突变蛋白质组进行切割,得到包含突变位点的样本的候选抗原肽段;所述候选抗原肽段为所述突变多肽序列。
9.如权利要求8所述的计算肿瘤新抗原负荷的***,其特征在于,所述候选新抗原肽获取单元执行如下操作:
对样本的正常基因组进行翻译,得到样本的正常蛋白质组;
对所述候选抗原肽段,在所述正常蛋白质组中进行查找,过滤正常蛋白质组中存在的部分,得到样本的候选新抗原肽。
10.如权利要求9所述的计算肿瘤新抗原负荷的***,其特征在于,所述TNB计算单元执行如下操作:
对所述候选新抗原肽与所述HLA基因型进行亲和力预测,得到样本的特异性新抗原;
基于突变注释信息、突变频率信息、与HLA基因型亲和力信息,对所述特异性新抗原进行权重计算,得到每一条所述特异性新抗原的权重值;
对每一条所述特异性新抗原的权重值进行累计,完成样本的肿瘤新抗原负荷TNB的计算。
CN202011098269.XA 2020-10-14 2020-10-14 一种计算肿瘤新抗原负荷的方法及*** Pending CN112309502A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011098269.XA CN112309502A (zh) 2020-10-14 2020-10-14 一种计算肿瘤新抗原负荷的方法及***
US17/151,076 US11967399B2 (en) 2020-10-14 2021-01-15 Method and system for calculating tumor neoantigen burden

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011098269.XA CN112309502A (zh) 2020-10-14 2020-10-14 一种计算肿瘤新抗原负荷的方法及***

Publications (1)

Publication Number Publication Date
CN112309502A true CN112309502A (zh) 2021-02-02

Family

ID=74327050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011098269.XA Pending CN112309502A (zh) 2020-10-14 2020-10-14 一种计算肿瘤新抗原负荷的方法及***

Country Status (2)

Country Link
US (1) US11967399B2 (zh)
CN (1) CN112309502A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113533741A (zh) * 2021-06-23 2021-10-22 深圳市新合生物医疗科技有限公司 基于多肽结构性指标预测新抗原的方法
CN114005489B (zh) * 2021-12-28 2022-03-22 成都齐碳科技有限公司 基于三代测序数据检测点突变的分析方法和装置
CN114464256A (zh) * 2022-02-10 2022-05-10 领星生物科技(上海)有限公司 用于检测肿瘤新抗原负荷的方法、计算设备和计算机存储介质
CN115424740A (zh) * 2022-09-30 2022-12-02 四川大学华西医院 基于ngs和深度学习的肿瘤免疫治疗效果预测***

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240773B (zh) * 2022-09-06 2023-07-28 深圳新合睿恩生物医疗科技有限公司 肿瘤特异环状rna的新抗原鉴定方法及装置、设备、介质
CN117174166B (zh) * 2023-10-26 2024-03-26 北京基石生命科技有限公司 基于三代测序数据的肿瘤新抗原预测方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103827296A (zh) * 2011-07-20 2014-05-28 雅培生物学有限责任公司 用于产生病毒抗原和疫苗的方法
CN108351916A (zh) * 2015-07-14 2018-07-31 个人基因组诊断公司 新生抗原分析
CN108588194A (zh) * 2018-05-28 2018-09-28 北京诺禾致源科技股份有限公司 利用高通量测序数据检测肿瘤突变负荷的方法及装置
CN109706065A (zh) * 2018-12-29 2019-05-03 深圳裕策生物科技有限公司 肿瘤新生抗原负荷检测装置及存储介质
US20190346442A1 (en) * 2016-04-18 2019-11-14 The Broad Institute, Inc. Improved hla epitope prediction
CN110720127A (zh) * 2017-06-09 2020-01-21 磨石肿瘤生物技术公司 新抗原的鉴别、制造及使用
CN111180010A (zh) * 2019-12-27 2020-05-19 北京优迅医学检验实验室有限公司 肿瘤体细胞突变位点检测方法及其装置
CN111755067A (zh) * 2019-03-28 2020-10-09 格源致善(上海)生物科技有限公司 一种肿瘤新生抗原的筛选方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MA40737A (fr) * 2014-11-21 2017-07-04 Memorial Sloan Kettering Cancer Center Déterminants de la réponse d'un cancer à une immunothérapie par blocage de pd-1
CN112292464A (zh) * 2018-04-25 2021-01-29 皇家飞利浦有限公司 肿瘤功能突变和表位负荷作为免疫治疗反应的改进的预测性生物标志

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103827296A (zh) * 2011-07-20 2014-05-28 雅培生物学有限责任公司 用于产生病毒抗原和疫苗的方法
CN108351916A (zh) * 2015-07-14 2018-07-31 个人基因组诊断公司 新生抗原分析
US20190346442A1 (en) * 2016-04-18 2019-11-14 The Broad Institute, Inc. Improved hla epitope prediction
CN110720127A (zh) * 2017-06-09 2020-01-21 磨石肿瘤生物技术公司 新抗原的鉴别、制造及使用
US20200105377A1 (en) * 2017-06-09 2020-04-02 Gritstone Oncology, Inc. Neoantigen identification, manufacture, and use
CN108588194A (zh) * 2018-05-28 2018-09-28 北京诺禾致源科技股份有限公司 利用高通量测序数据检测肿瘤突变负荷的方法及装置
CN109706065A (zh) * 2018-12-29 2019-05-03 深圳裕策生物科技有限公司 肿瘤新生抗原负荷检测装置及存储介质
CN111755067A (zh) * 2019-03-28 2020-10-09 格源致善(上海)生物科技有限公司 一种肿瘤新生抗原的筛选方法
CN111180010A (zh) * 2019-12-27 2020-05-19 北京优迅医学检验实验室有限公司 肿瘤体细胞突变位点检测方法及其装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113533741A (zh) * 2021-06-23 2021-10-22 深圳市新合生物医疗科技有限公司 基于多肽结构性指标预测新抗原的方法
CN114005489B (zh) * 2021-12-28 2022-03-22 成都齐碳科技有限公司 基于三代测序数据检测点突变的分析方法和装置
CN114464256A (zh) * 2022-02-10 2022-05-10 领星生物科技(上海)有限公司 用于检测肿瘤新抗原负荷的方法、计算设备和计算机存储介质
CN115424740A (zh) * 2022-09-30 2022-12-02 四川大学华西医院 基于ngs和深度学习的肿瘤免疫治疗效果预测***
CN115424740B (zh) * 2022-09-30 2023-11-17 四川大学华西医院 基于ngs和深度学习的肿瘤免疫治疗效果预测***

Also Published As

Publication number Publication date
US20220112556A1 (en) 2022-04-14
US11967399B2 (en) 2024-04-23

Similar Documents

Publication Publication Date Title
CN112309502A (zh) 一种计算肿瘤新抗原负荷的方法及***
US20230272483A1 (en) Systems and methods for analyzing circulating tumor dna
CN109033749B (zh) 一种肿瘤突变负荷检测方法、装置和存储介质
Solovyev et al. Automatic annotation of eukaryotic genes, pseudogenes and promoters
Burkhardt et al. q-gram based database searching using a suffix array (QUASAR)
CN110739027B (zh) 一种基于染色质区域覆盖深度的癌症组织定位方法及***
CN113035272A (zh) 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置
CN114446389B (zh) 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用
JP2018512160A (ja) 肺がんのタイピングのための方法
CN107208131A (zh) 用于肺癌分型的方法
WO2024051097A1 (zh) 肿瘤特异环状rna的新抗原鉴定方法及装置、设备、介质
CN116779028A (zh) 基于结构变异检测预测新抗原表位的方法、装置及计算机可读存储介质
US11217329B1 (en) Methods and systems for determining biological sample integrity
CN116167462A (zh) 肝细胞癌预测模型构建方法、肝细胞癌预测方法及装置
CN114067908B (zh) 一种评估单样本同源重组缺陷的方法、装置和存储介质
CN110706747A (zh) 检测肿瘤新生抗原多肽的方法和装置
Wilmott et al. Tumour procurement, DNA extraction, coverage analysis and optimisation of mutation-detection algorithms for human melanoma genomes
CN114464256A (zh) 用于检测肿瘤新抗原负荷的方法、计算设备和计算机存储介质
CN114999653A (zh) 一种非小细胞肺癌免疫治疗疗效的预测模型的训练方法以及预测装置
Müller et al. Sierra platinum: a fast and robust peak-caller for replicated ChIP-seq experiments with visual quality-control and-steering
JP4286075B2 (ja) タンパク質同定処理方法
Esim et al. Determination of malignant melanoma by analysis of variation values
CN111599410B (zh) 一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用
RU2822040C1 (ru) Способ обнаружения вариаций числа копий (cnv) по данным секвенирования полного экзома человека и генома с низким покрытием
CN117174166B (zh) 基于三代测序数据的肿瘤新抗原预测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination