CN110800061A - 用于确定微卫星不稳定性的***和方法 - Google Patents

用于确定微卫星不稳定性的***和方法 Download PDF

Info

Publication number
CN110800061A
CN110800061A CN201880043447.3A CN201880043447A CN110800061A CN 110800061 A CN110800061 A CN 110800061A CN 201880043447 A CN201880043447 A CN 201880043447A CN 110800061 A CN110800061 A CN 110800061A
Authority
CN
China
Prior art keywords
sample
microsatellite
interest
tumor
sequence data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880043447.3A
Other languages
English (en)
Inventor
S·张
A·S·索
S·卡普兰
K·M·克鲁格利亚克
S·比尔克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Illumina Inc
Original Assignee
Illumina Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Illumina Inc filed Critical Illumina Inc
Publication of CN110800061A publication Critical patent/CN110800061A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Immunology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biochemistry (AREA)
  • Software Systems (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Urology & Nephrology (AREA)
  • Biomedical Technology (AREA)
  • Hematology (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Cell Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Primary Health Care (AREA)
  • Oncology (AREA)

Abstract

本文展示用于确定微卫星不稳定性的技术。这些技术包括生成代表或模拟个体目的样品的假定性匹配样品的参比样品数据集。参比样品数据集可以生成自不匹配于目的样品的参比正常样品集合。对于缺少匹配样品的目的样品,参比样品数据集可以用来确定微卫星不稳定性及用来提供目的样品的微卫星不稳定性的存在、不存在或程度的指示。参比样品数据集可以如此生成,从而过滤、掩蔽或否则不考虑与族群之间高程度变异性相关的个体微卫星区域。

Description

用于确定微卫星不稳定性的***和方法
相关申请的交叉引用
本申请要求2017年11月16日提交的名为“微卫星不稳定性评估技术”的美国临时申请号62/587,350的权益和优先权,所述文献的内容通过引用方式完整并入本文用于所有目的。本申请还要求2018年4月3日提交的名为“偏差降低的微卫星不稳定性评估技术”的美国临时申请号62/652,151的权益和优先权,所述文献的内容通过引用方式完整并入本文用于所有目的。
背景
本公开一般地涉及采集自生物样品的数据(如序列数据)领域。更具体地,本公开涉及通过分析生物样品的不依赖于匹配正常样品存在的序列数据,评估微卫星不稳定性的技术。
基因测序已经变成日益重要的遗传研究领域,有希望未来用诊断性应用和其他应用。基因测序数据可以用来鉴定与某些临床结局相关的遗传突变、修饰、变体或多态性,连同其他应用。例如,某些基因变体可能与积极或消极疾病结局相关。另外,受试者随时间推移或相对于匹配正常样品的遗传改变可以提供临床上有用的信息。但是,可能无法对每位受试者获得匹配正常样品。
发明简述
本公开提供了使用来自目的样品的序列数据,检测和表征微卫星不稳定性的改进技术。如本文提供,微卫星不稳定性可以指微卫星重复序列区内存在核酸复制错误,所述微卫星重复序列区是遍及基因组各处存在的短串联重复序列(例如,一个至六个碱基对长度)。尽管微卫星重复可以出现在基因组的非翻译区中,但微卫星也可以存在于编码区中。在DNA复制期间,具有微卫星不稳定性的细胞不能修复DNA复制错误,这转而可以在复制的子代链中导致移码突变。
微卫星不稳定性的存在可能与某些临床病症相关。例如,微卫星不稳定性是称作林奇综合征的遗传性癌症综合征的标志,所述综合征基于错配修复基因(如MLH1、PMS2、MSH2和MSH6)的种系突变。一般将微卫星不稳定性状态在临床实验室中作为诸如结直肠肿瘤和子宫内膜肿瘤的癌类型中有利存活的独立预后因素评估。另外,可以启动某些治疗方案或治疗选项,以针对具有微卫星不稳定性高(MSI-H)认定或具有错配修复缺陷(dMMR)的实体瘤患者施用纳武单抗(nivolumab)或派姆单抗(pembrolizumab)。另外,治疗选项可以是不对根据如本文所确定的微卫星不稳定性评分,具有微卫星稳定认定的实体瘤患者施用派姆单抗。在另一个实施方案中,MSI分型(高、低、稳定)可以用来确定是否患者可以从5-氟尿嘧啶(5-FU)辅助化疗获益。对于结直肠癌患者,5-氟尿嘧啶(5-FU)辅助化疗可能在MSI-H患者中提供有限益处。因此,MSI-H认定可以导致停用或禁用5-氟尿嘧啶(5-FU)辅助化疗。可以向这类患者替代提供亚叶酸、5-FU和奥沙利铂。在另一个实例中,患者的MSI类型可以用来确定是否提供免疫治疗或化疗。
因此,如本文提供,可以分析目的样品的序列数据以确定目的样品中微卫星不稳定性的存在、不存在和/或程度。已评估过微卫星不稳定性的目的样品可以认定为MSI-H、微卫星不稳定性低(MSI-L)或微卫星稳定(MSS)。目的样品可以是肿瘤样品,并且微卫星不稳定性认定或稳定性认定可以提供附加的临床信息。因而,本发明的技术可以作为癌症患者的诊断方案、预后方案和/或治疗方案的部分使用或与前述方案结合使用。
在某些实施方案中,本发明的技术允许评估这样的目的样品,其没有匹配正常组织样品。如本文提供,可以生成这样的参比样品数据集,其代表目的样品的假定性匹配正常样品。参比样品数据集可以充当通用性匹配正常样品。参比样品数据集生成自多位个体的正常组织的序列数据。当检验肿瘤样品时,可以基于组织型、样品来源和其他因素,选择适宜的参比样品数据集。
在某些实施方案中,为了产生可以适用于目的样品的通用性匹配正常样品,所述目的样品不依赖于提供样品的个体的种族背景无关,可以针对具有族群之间相对较高变异性水平的微卫星位点,评估从多种族多位个体(即,包括具有多种不同种族背景的个体)的样品形成的参比样品数据集。可以在参比样品数据集中消除或掩蔽这类位点,因此从用来生成代表目的样品的微卫星不稳定性总评分的分析中消除这些高度可变的位点。以这种方式,正常样品中因族群之间变异性而可变并且不因微卫星不稳定性而可变的位点不向微卫星不稳定性评分引入可能错误的结果。因此,本发明的技术为无匹配正常样品和与样品的种族背景无关的样品提供更准确的微卫星不稳定性评估。在一个实例中,本发明的技术可以用来对不存在种族背景识别信息的样品评估微卫星不稳定性。在另一个实例中,作为假定性匹配正常样品使用并且采用从数据集过滤的种族可变性微卫星区域生成的参比样品数据集可以总体上适用于多种类型的样品,因此消除对适宜参比样品的额外处理步骤或基于提供目的样品的个体的种族背景对适宜参比样品的选择。
在一个实施方案中,提供一种处理微卫星不稳定性的计算机实施方法,所述方法包括步骤:从对应于相应个体的多份参比生物样品采集参考序列数据,每份参比生物样品与多个族群之一相关,参考序列数据包含多个微卫星区域的核苷酸身份信息;使用微处理器,分析参考序列数据,以在多份参比生物样品的多个微卫星区域中每个微卫星区域处生成分布;使用微处理器,确定该分布在多个参比生物样品的多个微卫星区域中每个微卫星区域处的族群变异性,族群变异性基于相对于多个族群的其他族群,评估与每个族群相关的参考序列数据;确定多个微卫星区域的种族无偏微卫星区域,所述种族无偏微卫星区域具有族群变异性低于阈值的分布;使用微处理器,在多个微卫星区域的每个确定的种族无偏微卫星区域处从该分布生成参比样品数据集;使用微处理器,基于比较来自目的样品的序列数据与参比样品数据集,确定微卫星不稳定性,其中不使用来自个体的与目的样品匹配的正常样品,目的样品来自个体的肿瘤样品;并且基于确定的微卫星不稳定性,输出关于治疗选项的信息。
在另一个实施方案中,提供一种计算机实施的方法,所述方法包括步骤:使用微处理器,从对应于相应个体的多个参比生物样品采集基因组参考序列数据;在多个微卫星区域中每个微卫星区域处分析参考序列数据以生成序列的分布;确定分布在多个参比生物样品的多个微卫星区域中每个微卫星区域处的族群变异性,族群变异性包括基因组序列差异;基于多个微卫星区域中每个微卫星区域处的族群变异性,鉴定多个微卫星区域的种族有偏微卫星区域;并且通过从多个参比生物样品的参考序列数据移除或过滤种族有偏微卫星区域,生成参比样品数据集。
在一个实施方案中,提供一种方法,所方法包括步骤:从对应于相应个体的多份参比生物样品采集参考序列数据,并且参考序列数据包含多个微卫星区域的核苷酸身份信息;在多个微卫星区域中每个微卫星区域处分析参考序列数据以生成分布;在多个微卫星区域中每个微卫星区域处从该分布生成参比样品数据集;并且提供指令以基于比较来自目的样品的序列数据与参比样品数据集,评估微卫星不稳定性,其中目的样品来自个体的肿瘤样品并且其中来自个体的与目的样品匹配的正常样品不可获得。
在另一个实施方案中,提供一种***,所述***包含处理器;和存储器存储指令,其中由处理器执行时,所述指令引起处理器访问目的样品的基因组序列数据,其中序列数据包含多个微卫星区域的核苷酸身份信息;接收与目的样品有关的样品信息;基于样品信息,从多个参比样品数据集选择相关的参比样品数据集,其中每个参比样品数据集均从多个微卫星区域的核苷酸身份信息并从多个个体生成;基于比较来自目的样品的序列数据与相关的参比样品数据集,对目的样品的微卫星不稳定性分类;并且基于分类,提供代表目的样品的微卫星不稳定性的指示。
在另一个实施方案中,提供一种***,所述***包含处理器;和存储器存储指令,其中由处理器执行时,所述指令引起处理器访问目的样品的序列数据,目的样品来自对其不可获得匹配正常样品的肿瘤样品,其中序列数据包含多个微卫星区域的核苷酸身份信息;接收目的样品的匹配样品信息;并且当匹配样品信息指示不存在与目的样品匹配的正常组织样品时,根据第一微卫星分析技术分析序列数据,以生成指示目的样品的微卫星不稳定性的第一输出;并且当匹配样品信息指示存在与目的样品匹配的正常组织样品时,根据第二微卫星分析技术分析序列数据,以生成指示目的样品的微卫星不稳定性的第二输出。
在另一个实施方案中,提供一种设置成采集肿瘤样品的肿瘤序列数据的测序装置。该装置包括存储设备,其包含存储其中的可执行应用程序指令;和处理器,其设置成执行存储设备中储存的应用程序指令。应用程序指令包括这样的指令,所述指令引起处理器:从测序装置接收肿瘤序列数据;鉴定肿瘤序列数据中多个微卫星区域的分布;确定肿瘤样品与匹配正常样品不相关;访问参考序列数据;基于比较肿瘤样品的分布与参比样品数据集的参比分布,确定肿瘤样品的微卫星不稳定性类型;并且基于确定肿瘤样品为微卫星不稳定性高类型,提供治疗选项指示。
附图
图1是根据本发明技术的微卫星不稳定性的示意图;
图2是根据本发明技术的设置成采集测序数据的测序装置的框图;
图3是根据本发明技术评估样品的微卫星不稳定性的方法的流程图;
图4是根据本发明技术评估匹配或非匹配目的样品中微卫星不稳定性的工作流程的流程图;
图5A是从结直肠肿瘤组织和匹配正常样品的序列数据提取的映射至微卫星区域的序列读段实例的示意图;
图5B上半小图显示微卫星不稳定性高(MSI-H)样品的已映射读段并且下半小图显示MSI-H样品中肿瘤和正常样品的重复单位长度分布;
图5C上半小图显示微卫星稳定(MSS)样品的已映射读段并且下半小图显示MSS样品中肿瘤和正常样品的重复单位长度分布;
图6显示仅肿瘤样品(y-轴)和肿瘤/正常对(x-轴)的单一微卫星位点的预测准确度;
图7A是基于肿瘤/正常对的微卫星不稳定性评分的箱线图;
图7B是肿瘤/正常对的ROC曲线;
图7C是基于仅肿瘤样品的微卫星不稳定性评分的箱线图;
图7D是仅肿瘤样品的ROC曲线;
图7E是显示与MSS样品相比,非同义肿瘤突变负荷(TMB)更高的MSI-H样品的箱线图;
图8A是来自多种组织型的232份肿瘤/正常样品和使用与这些肿瘤样品中某些样品匹配的一个58份样品正常结直肠癌参比样品数据集时的微卫星不稳定性评分的箱线图,其中基于MSI-PCR根据先前表征作为MSS,红色划圈部分表示MSI-H状态假阳性;
图8B是使用这个58份样品匹配的正常结直肠癌参比样品数据集时,116份结直肠癌匹配的肿瘤/正常样品的微卫星不稳定性评分的箱线图;
图9是使用这个58份样品正常结直肠癌参比样品数据集时,140份正常样品的微卫星不稳定性评分的箱线图,所述正常样品包含来自与四个不同族群(非洲人、南美洲人、东亚人和欧洲人)之一相关的个体的样品;
图10是一种基于种族变异性从参比样品数据集移除偏差的方法的流程图;
图11A显示参比样品数据集中用来评估种族变异性的140份样品内种族性的分布;
图11B显示来自实例技术的结果,所述实例技术使用计算的δJensen-Shannon距离,鉴定参比样品数据集中种族变异性相对高的微卫星区域;
图12是在分析之前从参比样品数据集过滤种族变异性相对高的已鉴定微卫星区域情况下,使用这个58份样品正常结直肠癌参比样品数据集时,140份正常样品的微卫星不稳定性评分的箱线图,所述正常样品包含来自与四个不同族群(非洲人、南美洲人、东亚人和欧洲人)之一相关的个体的样品;
图13是用指示潜在假阳性的红圆圈过滤后,使用这个58份样品正常结直肠癌参比样品数据集时,来自多种组织型的232份肿瘤/正常样品的微卫星不稳定性评分的箱线图;
图14是在过滤种族变异性相对高的已鉴定微卫星区域之前和之后,使用58份非匹配细胞系样品作为参比样品数据集时,与四个不同族群(非洲人、南美洲人、东亚人和欧洲人)之一相关的正常样品的微卫星不稳定性评分的箱线图;
图15是非匹配细胞系样品参比数据集与正常结直肠癌参比样品数据集的种族多样性比较;
图16A是过滤种族变异性相对高的已鉴定微卫星区域后,使用非匹配细胞系样品作为参比样品数据集时,来自多种组织型的232份肿瘤/正常样品的微卫星不稳定性评分的箱线图;
图16B显示图16A的结果的灵敏度和特异性;
图17是78份结直肠癌样品的原始试验和重复试验的比较;
图18显示MSI评分导致参比样品数据集与不同数目的样品相关;
图19显示MSI评分导致参比样品数据集与不同数目的样品相关;
图20显示不同滴定水平的细胞系的MSI评分;
图21是46份细胞系样品(包含四个MSI-H细胞系)的微卫星不稳定性评分的箱线图;
图22显示使用根据本公开之实施方案的微卫星分析技术时,已滴定水平的Lovo细胞的检测限;
图23显示使用根据本公开之实施方案的微卫星分析技术时,已滴定水平的SW48细胞的检测限;
图24显示使用根据本公开之实施方案的改进和更严格微卫星分析技术时,已滴定水平的Lovo细胞的检测限;和
图25显示使用根据本公开之实施方案的改进和更严格微卫星分析技术时,已滴定水平的SW48细胞的检测限。
发明详述
评估肿瘤样品的微卫星不稳定性可以提供关于患者潜在预后或其治疗选项的信息。但是,在临床环境下,目的样品的匹配正常组织并非总是可获得。例如,当采用来自临床试验、病理学档案和传承生物库的人体材料进行分析时,回顾性研究中匹配的正常样品经常不可获得。在这些情况下,需要从没有匹配正常样品的肿瘤组织鉴定和/或评估微卫星不稳定性。另外,使用取自相同个体的匹配正常样品作为生物样品存在某些难题。例如,样品采集中的变量(样品质量、选择的组织部位)可以意味着,参比样品并非真实地代表正常组织。此外,并非全部测试样品均具有可获得的匹配组织或具有足够高测序用质量的匹配组织。另外,给定评估的目的样品可以由具有多种种族背景的个体提供。研究中经常需要这种多变性以显示治疗方案跨整个群体的效果。
一般通过以下方式检测微卫星不稳定性:对某些微卫星(例如,使用n=5或10个标记)进行PCR(MSI-PCR),随后是借助PCR的片段长度分析和分离PCR扩增子的毛细管电泳法。采用MSI-PCR,通过比较肿瘤标记如何从匹配的正常标记中转变,评价每一个体标记。即,通过正常样品和肿瘤样品之间已扩增等位基因的特征的变化检测不稳定性。如果肿瘤样品中与其匹配的正常样品相比,多于30%的微卫星转变,则该肿瘤样品归类作为MSI-高。如果10-20%的微卫星转变,则肿瘤样品归类作为MSI-低。如果相对于匹配的正常样品,无微卫星转变,则肿瘤样品归类作为微卫星稳定。
在另一个实例中,免疫组织化学分析(IHC)可以用来通过识别错配修复缺陷,鉴定具有微卫星不稳定性的样品。但是错配修复IHC和微卫星不稳定性并不总是相关,因为其他的功能丧失基因产生了显示微卫星不稳定性表型的样品(POLE)。当使用IHC筛查错配修复基因时,将鉴定不到因其他的功能丧失基因而显示出微卫星不稳定性的样品。另外,错配修复基因MSH6中的突变倾向于导致肿瘤中更弱的微卫星不稳定性或无微卫星不稳定性。这类MSH6病例可以被微卫星不稳定性测试错过,但可以通过MSH6突变筛选可检测。通常,IHC在筛查导致蛋白质截短或降解的突变方面可靠。然而,IHC不能区分常因错义突变产生的突变蛋白和野生型多肽。MSI-PCR和其他微卫星不稳定性评估技术需要将肿瘤DNA与匹配正常样品比较。另外,已评估标记的数目少可能影响测试灵敏度。
本文提供使用来自目的样品的序列数据的确定微卫星不稳定性的技术。这些技术可以包括即便不可获得目的样品的匹配正常样品,相对于充当假定性匹配正常样品功能的参比样品数据集,分析样品。参比样品数据集可以生成自源于非匹配正常队列的序列数据(即,源于与自其生成目的样品的个体不同的个体的序列数据)。该非匹配正常队列可以充当目的样品的通用性匹配正常。可以针对任何合适数目的微卫星标记,评估该序列数据。公开的技术提供了可以在不依赖来自由其获得测试样品的个体的匹配正常样品存在的情况下使用的参比样品数据集。公开的技术还提供这样的参比样品数据集,其中对所述参比样品数据集筛查在非匹配队列正常样品之间因队列内种族背景变异性而具有高变异性的微卫星区域。以这种方式,参比样品数据集充当任何目的样品的假定性匹配正常样品,无论提供目的样品的个体的种族背景是什么。以这种方式,相对于其他技术,通过鉴定样品中的微卫星不稳定性对样品的评估可以扩展至更广数目的样品,例如,无匹配正常样品的样品。另外,通过使用通用性匹配正常样品,降低分析中因肿瘤/正常样品错配所致用户错误的可能性。即,因为通用性正常样品是用于许多不同肿瘤样品的同一样品,所以将肿瘤样品错误分配给其匹配正常样品的可能性降低。
因此,公开的技术在不使用匹配样品情况下促进更准确的微卫星评估。使用非匹配参比生物样品的集合或队列,生成通用性或代表性非匹配正常样品。代表性非匹配正常样品信息代表可以充当正常样品的虚拟参比,可以针对其对个体肿瘤样品进行比较。代表性非匹配正常样品信息代表这样的微卫星区域集合,其因从中生成非匹配正常样品信息的队列中的种族背景变异性而具有相对低的变异性(例如,低于预定义阈值)。
为此目的,图1是作为下述区域表示的微卫星不稳定性的示意图,所述区域具有由未修复的复制错误引起的不同等位基因。例如,由于复制期间聚合酶滑动,亲本链(以举例方式显示为链12a)可以具有序列为N(n)的微卫星区域14,其中n是重复基序16的数目,而取决于错误的性质,子代链可以具有序列N(n+1),例如,如链12b中那样,或N(n-1),例如,如链12c中那样,这在微卫星区域处产生具有不同长度的等位基因。如本文提供,对微卫星不稳定性的评估可以确定在目的样品的等位基因分布和匹配正常样品(如果可获得)或代表性非匹配正常样品的等位基因分布之间是否存在差别(divergence)。如所示,链12的分布基于微卫星区域14的变异性变动。
图2是测序装置60的示意图,所述测序装置可以结合图1一起用于采集测序数据(例如,目的样品测序数据、非匹配队列测序数据)。这用于评估微卫星不稳定性。序列装置60可以根据任何测序技术来实施,如那些并入在美国专利公开号2007/0166705;2006/0188901;2006/0240439;2006/0281109;2005/0100900;美国专利号7,057,026;WO 05/065814;WO 06/064199;WO 07/010,251中描述的合成测序方法的测序技术,所述文献的公开内容通过引用方式完整并入本文。备选地,通过连接测序技术可以用于测序装置60中。这类技术利用DNA连接酶并入寡核苷酸并识别这类寡核苷酸的掺入,并且在美国专利号6,969,488;美国专利号6,172,218;和美国专利号6,306,597中描述;所述文献的公开内容通过引用方式完整并入本文。一些实施方案可以利用纳米孔测序法,因而靶核酸链或从靶核酸以核酸外切方式移除的核苷酸穿过纳米孔。随着靶核酸或核苷酸穿过纳米孔,可以通过测量孔的电导率波动,鉴定每个类型的碱基(美国专利号7,001,792;Soni和Meller,Clin.Chem.53,1996–2001(2007);Healy,Nanomed.2,459–481(2007);和Cockroft等人J.Am.Chem.Soc.130,818–820(2008),所述文献的公开内容通过引用方式完整并入本文)。另外的其他实施方案包括检测核苷酸掺入延伸产物时释放的质子。例如,基于检测释放质子的测序法可以使用电检测器和从Ion Torrent(Guilford,CT,Life Technologies子公司/ThermoFisher)可商业获得的相关技术或在US 2009/0026082 A1;US 2009/0127589A1;US 2010/0137143 A1;或US 2010/0282617 A1中描述的测序方法和***,所述文献的每一篇通过引用方式完整地并入本文。具体实施方案可以利用涉及实时监测DNA聚合酶活性的方法。可以通过携带荧光团的聚合酶和标记γ-磷酸酯的核苷酸之间的荧光共振能量转移(FRET)相互作用或借助例如Levene等人Science 299,682–686(2003);Lundquist等人Opt.Lett.33,1026–1028(2008);Korlach等人Proc.Natl.Acad.Sci.USA 105,1176–1181(2008)中所述的零模波导,检测核苷酸掺入,所述文献的公开内容通过引用方式完整并入本文。其他合适的备选技术例如包括荧光原位测序(FISSEQ)和大规模平行特征标识测序(MPSS)。在具体的实施方案中,测序装置16可以是来自Illumina(La Jolla,CA)的HiSeq、MiSeq或HiScanSQ。
在所述的实施方案中,测序装置60包括单独的样品处理装置62和连接的分析装置64。但是,如指出那样,这些装置可以作为单一装置实施。另外,分析装置64可以是本地的或与样品处理装置62联网。在所述的实施方案中,可以将生物样品作为样品载玻片70载入样品处理装置62中,其中对所述样品载玻片成像以生成序列数据。例如,与生物样品相互作用的试剂在特定波长响应于成像模块72生成的激发光束发射荧光并且因而返回辐射用于成像。例如,可以由荧光标记的核酸生成荧光组分,所述核酸与组分的互补性分子杂交或与使用聚合酶并入寡核苷酸中的荧光标记的核苷酸杂交。如本领域技术人员将领会,激发样品中染料的波长和它们发射荧光的波长将取决于具体染料的吸收和发射光谱。这种返回的辐射可以穿过导引光学器件反向传播。通常可以向成像模块72的检测光学器件导引这种反束(retrobeam)。
成像模块检测光学器件可以基于任何合适的技术,并且可以例如是基于装置中的光子碰撞位置生成像素化图像数据的电荷耦合器件(CCD)传感器。但是,应当理解,也可以使用任何多种其他检测器,包括但不限于设置为时间延迟积分(TDI)操作的检测器阵列、互补金属氧化物半导体(CMOS)检测器、雪崩光电二极管(APD)检测器、盖革模式光子计数器或任何其他合适的检测器。TDI模式检测可以偶联于如美国专利号7,329,860中所述的行扫描,所述文献通过引用方式并入本文。例如在多种核酸测序方法的背景下本文先前提供的参考文献中描述了其他的可用检测器。
成像模块72可以受处理器控制,例如,经处理器74(例如,微处理器)控制,并且样品接收装置18还可以包括I/O控制器76、内部总线78、非易失性存储器80、RAM 82和任何其他存储器结构,从而存储器能够储存可执行指令,和可以与相对于图2描述的那些类似的其他合适硬件组件。另外,相连的计算机20还可以包括处理器84、I/O控制器86、通讯模块84和包含RAM 88与非易失性存储器90的存储器架构,从而该存储器架构能够储存可执行指令92。硬件组件可以由内部总线94连接,所述内部总线还可以连接至显示器96。在其中测序装置作为一体化装置实施的实施方案中,可以消除某些冗余硬件元件。
图3是评估微卫星不稳定性的方法100的流程图。如显示,可以由用户和/或提供者执行方法100的步骤。例如,用户可以是测序装置的终端用户,如测序装置的所有者、测序装置的承包商、测序装置的用户。用户可以是有兴趣鉴定一份或多份样品中微卫星不稳定性的用户。提供者可以是如本文提供的通用匹配正常参考序列的提供者。另外,在某些实施方案中,用户和提供者可以是同一个实体。即,微卫星评估可以由通用匹配正常参考序列的提供者进行。
在步骤102,采集目的样品并且用于测序的样品制备在步骤104发生。样品制备可以基于样品类型(例如,液态样品、固态样品、FFPE样品、血浆样品)。可以使用如本文提供的测序装置60,在步骤106采集序列数据。在其他实施方案中,可以访问先前采集的序列数据。应当理解,如本文提供的生物样品测序数据(即,目的样品、代表性非匹配正常样品、匹配正常样品)可以处于以下形式:原始数据、提供核苷酸身份的碱基读出数据或已经历经初始或二次分析的数据(序列比对图、二元比对图)。
通过显示器96,分析装置可以提供图形化用户界面,其中使用如本文提供的微卫星不稳定性评估技术,所述图形化用户界面促进用户输入与测序反应有关的信息。例如,用户可以提供与测序轮次中每份样品的名称或识别、样品来源(即,从FFPE样品、冷冻新鲜样品、细胞系制备的核酸)、用来采集序列数据的测序组合(sequence panel)(即,测序探针集合)和目的样品的组织类型有关的输入。用户还可以提供与是否可获得匹配正常样品有关的输入。
本发明的技术促进在没有来自匹配正常样品的测序数据情况下,在步骤108检测或评估生物样品(例如,肿瘤样品)中的微卫星不稳定性。因此,方法100在步骤110从正常队列采集序列数据。在某些实施方案中,在生成和储存后,从多份样品的队列生成的通用性或代表性正常样品序列数据用于在不同和/或后续的时间点分析多份目的样品。用户可以基于与目的样品特征最紧密对齐的队列,访问储存的文件。为此目的,可以采集多个不同正常队列序列数据集合112。不同的正常队列序列数据集合112可以代表不同的样品类型(从正常FFPE样品、冷冻新鲜样品、细胞系制备的核酸)、测序组合、组织类型等。可以从合适容量的队列(至少10位个体、至少20位个体、至少50位个体)采集正常队列序列数据112,以为检查的每个微卫星区域提供足够数目的可用序列。每个队列中的个体(或代表不同个体的样品)可以提供来自可用来采集正常队列序列数据(即,代表性正常样品序列数据)的正常细胞或组织的样品。这些队列代表这样的个体,其不匹配于目的样品,即,为不同的个体。
在一个实施方案中,一旦生成,代表性非匹配正常样品序列数据针对具体的样品制备技术固定下来。即,代表性非匹配正常样品序列数据与生成数据的样品的类型关联。可以对FFPE样品、细胞系、冷冻新鲜样品等生成不同的代表性非匹配正常样品序列数据集合。另外,代表性非匹配正常样品序列数据集合可以由提供者储存并作为分析包的部分在步骤116发送给用户。如果微卫星不稳定性分析由提供者精修,分析包也可以能够从远程服务器接收更新。
在一个实施方案中,正常队列序列数据可以包含来自多位个体的序列数据。可以根据某些质量指标(例如测序深度)在每一个体微卫星区域,评估每种个体序列。例如,仅个体微卫星区域处至少存在预定数目(例如,20个)的测序读段时,才可以使用每一个体序列的序列数据。因此,取决于可获得的测序深度,每一个体序列可以在微卫星区域的某子集处合格并且对于其他子集而言不合格。合格区域用于进一步分析,而掩蔽或不使用不合格区域。在质量评估后,可以汇总队列的个体序列以生成每个微卫星区域处的分布。汇总的正常队列的分布充当代表假定性匹配正常样品的参比样品数据集。
该分析可以用来在步骤120生成微卫星不稳定性评分。微卫星不稳定性评分可以基于目的样品和参比样品数据集之间每个微卫星区域处的分布之间的距离比较(即,统计距离,Jensen-Shannon距离)。在一个实施方案中,微卫星不稳定性评分基于具有高于阈值的距离的众多微卫星区域,其中较大距离表示来自参比样品数据集的差别更大并相对于微卫星区域总数,与正评分相关。具有大于具正评分的预定数值(例如,5%)的百分数的样品可以分类为具有微卫星不稳定性,而具有百分数低于预定数值的样品可以分类为微卫星稳定。另外,基于该百分数,可以认定微卫星不稳定性为高或低。
微卫星不稳定性评估可以作为确定治疗方案的输入,提供给临床医务人员。近年来,免疫检查点抑制蛋白已经在治疗多种癌类型方面显示巨大希望;然而,仅一部分患者响应于这种类型的免疫治疗。通过定量免疫组织化学(IHC)测量的PD-L1蛋白表达是FDA批准用于某些免疫检查点抑制剂的伴随诊断(companion diagnostic)或互补测定法。派姆单抗(KEYTRUDA,Merck&Co.)可以提供给具有微卫星不稳定性高(MSI-H)或具有错配修复缺陷(dMMR)的实体瘤患者。
图4显示用于实例肿瘤样品150的目的样品的实例工作流程。如果匹配正常样品154可获得,则该工作流程推进至肿瘤样品序列数据158的序列分析156和正常样品序列数据162的序列分析160。序列数据可以处于BAM文件、碱基读出数据、图像数据等形式。可以借助其中使用匹配正常样品数据作为比较基础的微卫星不稳定性分析技术进行序列分析(块164)。如果匹配正常样品不可获得,则该工作流程推进至使用来自适宜的非匹配正常队列的参比样品数据集,借助如本文提供的微卫星不稳定性分析技术来分析(块166)。两项技术均产生微卫星不稳定性评分,肿瘤唯一微卫星不稳定性评分168或肿瘤/正常微卫星不稳定性评分170。另外,尽管如此,对于匹配样品,可以将目的样品输入非匹配分析并出于质量目的,将结果与匹配的分析比较。
在一个具体实施方案中,提供了覆盖与实体瘤相关的170基因的测序组合。设计成捕获突变变化,包括单核苷酸变体、***缺失、扩增、剪接变体和融合,该组合被设计成旨在单一测序轮次中靶向来自相同FFPE肿瘤样品的DNA变体和RNA变体。使用53份结肠癌样品(28份MSI-H和25份MSS,如通过MSI-PCR所确定),评价该组合评估103个微卫星基因座的性能,并且性能显示,对于微卫星不稳定性状态,该组合实现与匹配肿瘤/正常对的100%一致性。另外,微卫星不稳定性分析可以用于仅实现与MSI-PCR的98%一致性的非匹配肿瘤样品。另外,与这个结肠样品队列中的MSS样品相比,MSI-H样品具有显著更高的肿瘤突变负荷。总之,靶向微卫星的组合可以从FFPE肿瘤样品准确地确定微卫星不稳定性状态。图5、图6和图7A-E显示来自实验的结果。
对于每个微卫星位点,锚定微卫星重复序列的侧翼序列以确定映射至该区域的读段支持的重复单位的数目。随后,重复单位长度的分布决定每个位点的微卫星不稳定性状态。用不稳定微卫星位点的数目除以评价的总位点的数目,计算最终的微卫星不稳定性评分。图5A显示从二元对齐图文件提取的映射至微卫星区域的读段。图5B在上半小图中显示微卫星不稳定性高(MSI-H)样品的已映射读段并且下半小图显示MSI-H样品中肿瘤和正常样品的重复单元长度分布。图5C在上半小图中显示微卫星稳定(MSS)样品的已映射读段并且下半小图显示MSS样品中肿瘤和正常样品的重复单元长度分布。图6显示测序组合的103位点中每个位点的单一微卫星区域预测值。相对于完整组合,单一位点较不准确。如本文提供,在本发明技术中用来生成微卫星不稳定性评分的微卫星位点或微卫星区域的数目可以是1或更大,5或更大,50或更大,或100或更大。在某些实施方案中,本发明的技术可以在分析中分析1-20、5-20、5-50、10-20、10-50、或50-100个微卫星位点以生成微卫星不稳定性评分。
如所提供,确定目的样品与参比样品数据集之间的Jensen-Shannon距离。对参比样品的全部配对组合(BL_n、n=1..N)如下计算参比Jensen-Shannon距离d1:
BL_n1=Pr[X=x]
BL_n2=Pr[X=x]
JS1=0.5*(sum(BL_n1*log(BL_n1/m1))+sum(BL_n1*log(BL_n1/m1)))
m1=0.5*(BL_n1+BL_n2)
d1=sqrt(JS1)
在目的样品(T)和参比数据集的每份样品之间如下计算检验Jensen-Shannon距离d2:
BL_n=Pr[X=x]
T=Pr[X=x]
JS2=0.5*(sum(BL_n*log(BL_n/m2))+sum(T*log(T/m2)))
m2=0.5*(BL1+T)
d2=sqrt(JS2)
借助单侧t检验在两个Jensen-Shannon距离分布之间进行比较以确立d1<d2,同时FDR<0.05并且d2–d1>0.1。
图7A是基于肿瘤/正常对的微卫星不稳定性评分的箱线图。图7B是肿瘤/正常对的ROC曲线。图7C是基于仅肿瘤样品的微卫星不稳定性评分的箱线图。图7D是仅肿瘤样品的ROC曲线。图7E是显示与MSS样品相比,非同义肿瘤突变负荷(TMB)更高的MSI-H样品的箱线图。
图8A是来自多种组织型的232份肿瘤/正常样品和使用与这些肿瘤样品中某些样品匹配的58份样品正常结直肠癌参比样品数据集时的微卫星不稳定性评分的箱线图。以下对MSI-H和MSS CRC样品从匹配的正常样品生成这个58份样品正常结直肠癌参比样品数据集。样品包括匹配的肿瘤正常对:n=140,92个对具有MSI-PCR结果:
MSI-H肿瘤:n=35(32份CRC和3份UCEC)
MSS肿瘤:n=57(26份CRC和31份UCEC)
总测试样品(92份肿瘤+140份正常=232份样品)
基于MSI-PCR,这些样品表征作为MSI-H(n=35)、MSS(n=54)肿瘤或正常(n=140)。如本文提供那样确定微卫星不稳定性评分。尽管结果总体上与MSI-PCR结果一致,红色划圈部分指示基于MSI截断值评分的MSI-H假阳性。
图8B是使用图8A的这个58份样品匹配的正常结直肠癌参比样品数据集并且显示识别为稳定的MSI评分的更严格分组时,58份结直肠癌匹配的肿瘤/正常样品的微卫星不稳定性评分的箱线图。
图9是使用图8A的这个58份样品正常结直肠癌参比样品数据集时,140份正常样品的微卫星不稳定性评分的箱线图,其中来自个体的样品分入其相关的族群(非洲人、南美洲人、东亚人和欧洲人)。如所示,微卫星不稳定性评分在族群之间变动,表示种族偏差存在于参比样品数据集中的可能性。
图10是一种基于种族变异性从参比样品数据集移除偏差的方法200的流程图。在步骤202,例如,使用如本文提供的测序装置60,可以从具有多位个体的队列参比样品采集参比样品序列数据。多位个体可以与特定种族背景关联(在非限制性实例中,例如,非洲人、南美洲人、东亚人和欧洲人)。在一个例子中,关联可以基于自我报告。在其他实施方案中,可以访问先前采集的参比样品序列数据。在步骤204,分析参考序列数据,以在多个目的微卫星区域中每个微卫星区域处生成分布。在初始的质量控制步骤中,可以从参比样品序列数据过滤来自个体参比样品的具有不足读段覆盖的个体微卫星区域(例如,少于20个特定微卫星区域读段)的数据(例如,删除、掩蔽或否则指示为其他分析步骤中不予考虑)。
在步骤206,确定分布(例如,等位基因分布)在多个参比生物样品的多个微卫星区域中每个微卫星区域处的族群变异性。例如,对于可获得种族背景信息的个体参比样品序列(例如,10个序列,20个序列或更多个)的每者,将序列数据归入队列中代表的族群之一以便分析。应当理解,可以选择队列,以从所需数目在队列中可能总体上均匀分布或可能非均匀分布的族群提供有利的样品混合物。种族变异性可以包括与第一族群相关的样品群组的第一分布序列数据相对于与第二族群相关的样品群组的第二分布序列数据之间的变异性。分布可以是区域接区域分布,从而评估两个或更多个族群之间(例如,在任何质量评估后)在可获得序列数据的每一个体微卫星区域的变异性。在一个实施方案中,在具有足够覆盖率的首次质量评估后,某些个体微卫星区域可以不符合基于少数具有资格的样品评估种族变异性的资格。即,该方法可以包括每族群符合变异性评估资格的样品的截断值(例如,5份或更多份具有足够质量或具有足够读段覆盖的个体样品)。
在步骤208,对于分入每一个体族群的参比样品群组,基于多个微卫星区域中每个微卫星区域处的族群变异性,鉴定多个微卫星区域的种族有偏和/或无偏微卫星区域。在一个实施方案中,确定对特定族群内部特定微卫星区域的微卫星区域序列数据分布的变异性的量度。这个变异性随后与另一个族群的变异性比较。这个变异性随后与另一个族群的变异性比较。族群之间变异性的差异相对巨大的微卫星区域可以指示该区域的内在种族变异性。可以通过任何合适的方法,例如,范围、均数、方差和/或标准差或通过如本文提供的Jensen-Shannon距离,评估变异性。对每个微卫星区域进行这项分析后,可以将具有高于阈值的变异性指标的区域鉴定为具有高的种族偏差或变异性,而可以将具有低于阈值的变异性指标的区域鉴定为具有低或可接受的种族偏差或变异性。在步骤210,通过从多个参比生物样品的参考序列数据移除/过滤种族有偏微卫星区域,从参考序列数据生成参比样品数据集。作为方法200的结果,生成这样的参比样品数据集,其中例如因为种族偏差的鉴定而从进一步分析中排除已测序微卫星区域的一部分。剩余的微卫星区域更不易受与种族背景有关的偏差影响。因此,已经使参比样品数据集更稳健并且独立于偏差,以令其更准确地充当广泛范围的目的样品的假定性匹配正常样品。
图11A显示参比样品数据集中用来评估种族变异性的140份样品内种族划分的分布。图11B显示来自实例技术的结果,所述实例技术使用计算的δJensen-Shannon距离,鉴定参比样品数据集中种族变异性相对高的微卫星区域。如下确定δJensen-Shannon距离:
ΔJSD=avg(JSD之间)–avg(JSD内部)
每个微卫星区域的δJensen-Shannon距离是两个群组之间平均Jensen-Shannon距离和某群组内部平均Jensen-Shannon距离的量值。可以在三个或更多个群组之间进行配对比较。该技术用每个种族划分群体最少5份样品的至少20个支持性读段评估了175个位点(微卫星区域)。基于这个分析,将基于三个种族划分群体之间配对比较,具有>=0.1δJSD的44个位点鉴定为具有高的种族变异性。从用来生成参比样品数据集的序列数据过滤(例如,消除或从中掩蔽)这些位点。
图12是在分析之前从参比样品数据集过滤种族变异性相对高的已鉴定微卫星区域情况下,使用这个58份样品正常结直肠癌参比样品数据集时,140份正常样品的微卫星不稳定性评分的箱线图,所述正常样品包含来自与四个不同族群(非洲人、南美洲人、东亚人和欧洲人)之一相关的个体的样品。与显示相同分析,但不从过滤已鉴定微卫星区域的图9相比,某些族群的MSI评分压缩得更多,从而显示从相对高的种族变异性区域过滤的影响。
图13是用指示潜在假阳性的红圆圈过滤后,使用这个58份样品正常结直肠癌参比样品数据集时,来自多种组织型的232份肿瘤/正常样品的微卫星不稳定性评分的箱线图。过滤后,MSI-H样品具有通常完好的MSI评分,而正常/MSS样品具有较低的MSI评分。图14是在过滤种族变异性相对高的已鉴定微卫星区域之前和之后,使用58分非匹配细胞系样品作为参比样品数据集时,与四个不同族群(非洲人、南美洲人、东亚人和欧洲人)之一相关的正常样品的微卫星不稳定性评分的箱线图。58个非匹配细胞系包括具有以下族群分布的10份IHW细胞系和48个coriell细胞系:
P_AFR(n=22)(非洲人)
P_AMR(n=25)(南美洲人)
P_EUR(n=8)(欧洲人)
P_EAS(n=3)(东亚人)
图15是非匹配细胞系样品参比数据集与正常结直肠癌参比样品数据集的种族多样性比较。细胞系参比样品不与FFPE样品共有基因型,所述FFPE样品与CRC肿瘤样品的一部分匹配。细胞系参比样品数据集代表真实的非匹配样品。另外,细胞系参比样品数据集代表来自原始基线或一般FFPE样品的不同种族划分组成。
图16A是过滤种族变异性相对高的已鉴定微卫星区域后,使用非匹配细胞系样品作为参比样品数据集时,来自多种组织型的232份肿瘤/正常样品的微卫星不稳定性评分的箱线图。图16B显示图16A的结果的灵敏度和特异性。
图17是78份结直肠癌样品的原始试验和重复试验的比较。
图18-图19显示MSI评分导致参比样品数据集与不同数目的样品相关。用随机的10、20、30、40、50份基线样品(随机选自与当前232测试集合不重叠的71份样品(58个细胞系+13份FFPE正常))测试性能。
图20显示不同滴定水平的细胞系的MSI评分,并且图21是46份细胞系样品(包含四个MSI-H细胞系)的微卫星不稳定性评分的箱线图。
结果显示,阻断44个种族划分特异性/有偏位点改善了性能。另外,参比样品数据集不需要是样品类型/种族划分约束的。采用参比样品数据集中n>=30样品时,性能稳健。
可以从可用位点选择可用微卫星位点的子集,以开发更灵敏的检测限。MSI位点选择中的严格性可以改善检测限。图22显示多种已滴定水平的Lovo细胞的细胞系滴定和相关的MSI评分检测限,其中将所述Lovo细胞滴定到具有微卫星稳定性的细胞系。图23显示多种已滴定水平的SW48细胞的细胞系滴定和相关的MSI评分检测限,其中将所述SW48细胞滴定到具有微卫星稳定性的细胞系。稳定细胞中滴定细胞系的模型对肿瘤样品中存在与其他细胞类型混合的肿瘤细胞建模。在滴定和MSI检测丢失之间的所述相关性基于分析100+微卫星位点的分布并且受样品的测序深度限制。尽管对于固态样品,检测限处的所述2.5%或5%滴定可能可接受,但血浆(例如,血浆DNA残渣)中检测微卫星不稳定性可能涉及较低的准确度检测限。
但是,在某些实施方案中,对可用微卫星位点的质量分析可以促进选择具有更高质量或更低变异性的位点子集以实现改进的检测限。采用潜在的不同DNA提取方法,基线、测序深度、微卫星位点质量可能基于样品类型(例如,固态或FPE与液态)变动。图24显示滴定成具有微卫星稳定性的细胞系的Lovo细胞的改进检测限。图25显示滴定成具有微卫星稳定性的细胞系的SW48细胞的改进检测限。图24-图25代表在130个可用位点的所述实例16位点中仅使用具有更高质量的微卫星位点的子集时的分析。将参比数据集的位点选择为每一个***点处如参考序列数据中评估的最低δ分布。因此,在某些实施方案中,通过限制MSI位点至具有更高质量位点的子集,例如,使用δ分布排序并且选择那些具有最低分布的位点,改进检测限5倍。
另外,对MSI位点子集的选择可以基于一个或多个用户输入和/或样品类型。对于样品,如固态样品,使用全部或大部分可用MSI位点所实现的检测限可能足够用。因此,固态样品的指示可以启动如本文提供的分析,使用比样品为血浆或液态样品的用户输入更大的可用MSI位点子集。另外,用户可以在测序或分析装置中能够输入严格性或检测限设置。
所公开实施方案的技术效果包括用于非匹配目的样品的微卫星不稳定性评估改进且更准确。额外的技术效果包括充当分析仅肿瘤样品的假定性匹配正常样品的参比样品数据集的生成改进。从用来确定非匹配目的样品的微卫星不稳定性评分的改进参比样品数据集移除(例如,借助掩蔽或消除)具有高的族群间变异性的位点。以这种方式,参比样品数据集可以用作与个体的种族背景无关的与非匹配目的样品关联的假定性匹配样品,从而提供更稳健的微卫星不稳定性评估技术。
尽管在此仅说明并描述了本公开的某些特征,但是本领域技术人员将想到许多修改和变化。因此,将理解,所附权利要求意在覆盖全部此类修改和变化,因为它们落入本公开的真实精神范围内。

Claims (26)

1.一种确定微卫星不稳定性的***,包含:
处理器;和
存储器存储指令,由处理器执行时,所述指令使得处理器:
访问目的样品的基因组序列数据,目的样品来自对其不可获得匹配正常样品的肿瘤样品,其中序列数据包含多个微卫星区域的核苷酸身份信息;
接收与目的样品有关的样品信息;
基于样品信息,从多个参比样品数据集选择相关的参比样品数据集,其中每个参比样品数据集均从多个微卫星区域的核苷酸身份信息并从多个个体生成;
基于比较来自目的样品的序列数据与相关的参比样品数据集,对目的样品的微卫星不稳定性分类;并且
基于分类,提供代表目的样品的微卫星不稳定性的指示。
2.根据权利要求1所述的***,其中样品信息包含目的样品来源信息,其中基于来源,多个参比样品数据集彼此不同,并且其中基于目的样品来源信息和相关参比样品数据集的来源之间的匹配,选择相关的参比样品数据集。
3.根据权利要求1或权利要求2所述的***,其中相关的参比样品数据集生成自源于多位个体的FFPE样品并且目的样品是FFPE样品。
4.根据权利要求1或权利要求2所述的***,其中相关的参比样品数据集生成自源于多位个体的冷冻新鲜样品并且目的样品是冷冻新鲜样品。
5.根据权利要求1或权利要求2所述的***,其中相关的参比样品数据集生成自源于多位个体的细胞系并且目的样品是细胞系。
6.根据权利要求1至5中任一项所述的***,其中样品信息包含组织类型信息,其中基于组织类型,多个参比样品数据集彼此不同,并且其中基于组织类型信息和相关参比样品数据集的组织类型之间的匹配,进一步选择相关的参比样品数据集。
7.根据权利要求1至6中任一项所述的***,其中样品信息包含用来生成序列数据的测序组合信息,其中基于用来生成参比样品数据集的测序组合,多个参比样品数据集彼此不同,并且其中基于测序组合信息和用来生成相关参比样品数据集的测序组合之间的匹配,进一步选择相关的参比样品数据集。
8.根据权利要求1至7中任一项所述的***,其中相关的参比样品数据集是来自多位个体的汇总数据集。
9.根据权利要求1至8中任一项所述的***,其中多个参比样品数据集生成自多位个体的正常组织。
10.根据权利要求1至9中任一项所述的***,其中目的样品不匹配于用来生成多个参比样品数据集的样品。
11.计算机实施的方法,包括:
使用微处理器,从对应于相应个体的多个参比生物样品采集基因组参考序列数据;
在多个微卫星区域中每个微卫星区域处分析参考序列数据以生成序列的分布;
确定在多个参比生物样品的多个微卫星区域中每个微卫星区域处分布的族群变异性,族群变异性包括基因组序列差异;
基于多个微卫星区域中每个微卫星区域处的族群变异性,鉴定多个微卫星区域的种族有偏微卫星区域;并且
通过从多个参比生物样品的参考序列数据移除或过滤种族有偏微卫星区域,生成参比样品数据集。
12.根据权利要求11所述的方法,还包括:
从对应于相应个体的第二多个参比生物样品采集第二参考序列数据;并且
从第二参考序列数据移除种族有偏微卫星区域,以生成第二参比样品数据集。
13.根据权利要求11或权利要求12所述的方法,还包括提供指令以基于比较来自目的样品的序列数据与参比样品数据集,评估微卫星不稳定性,
其中目的样品来自个体的肿瘤样品并且其中来自个体的与目的样品匹配的正常样品不可获得。
14.根据权利要求11至13中任一项所述的方法,其中多个参比生物样品来自并非来自个体的正常组织。
15.设置成采集肿瘤样品的肿瘤序列数据的测序装置,包含:
存储设备,其包含存储其中的可执行应用程序指令;和
处理器,其设置成执行存储在存储设备中的应用程序指令,其中应用程序指令包含指令,所述指令引起处理器:
从测序装置接收肿瘤序列数据;
鉴定肿瘤序列数据中多个微卫星区域的分布;
确定肿瘤样品与匹配正常样品不相关;
访问参考序列数据;
基于比较肿瘤样品的分布与参比样品数据集的参比分布,确定肿瘤样品的微卫星不稳定性类型;和
基于确定肿瘤样品为微卫星不稳定性高类型,提供治疗选项指示。
16.根据权利要求15所述的测序装置,其中参比数据集包含多个微卫星区域的分布数据并且其中基于分布的比较来确定肿瘤样品的微卫星不稳定性类型包括仅比较多个微卫星区域的子集。
17.根据权利要求16所述的测序装置,其中基于肿瘤样品的样品类型选择子集。
18.根据权利要求17所述的测序装置,其中子集是基于冷冻实体瘤样品类型选择的第一子集和基于血浆肿瘤样品类型选择第二子集,其中第一子集与第二子集不同。
19.根据权利要求17或权利要求18所述的测序装置,其中基于肿瘤样品的癌症类型选择子集。
20.根据权利要求16所述的测序装置,其中基于多个微卫星区域的个体微卫星区域的分布距离排序,选择子集。
21.根据权利要求20所述的测序装置,其中基于多个微卫星区域中具有最低分布距离的个体微卫星区域,选择子集。
22.根据权利要求21所述的测序装置,其中子集代表小于20%的多个微卫星区域。
23.根据权利要求16至22中任一项所述的测序装置,其中应用程序指令包含使得处理器基于确定肿瘤样品为微卫星不稳定性稳定类型提供不同治疗选项指示的指令。
24.用于检测目的样品中微卫星不稳定性的计算机实施方法,包括:
提供目的样品的序列数据,目的样品来自对其不可获得匹配正常样品的肿瘤样品,其中序列数据包含多个微卫星区域的核苷酸身份信息;
提供与目的样品有关的样品信息;
基于样品信息,从多个参比样品数据集选择相关的参比样品数据集,其中每个参比样品数据集均从多个微卫星区域的核苷酸身份信息并从多个个体生成;并且
基于计算机实施比较来自目的样品的序列数据与相关的参比样品数据集,评估目的样品的微卫星不稳定性。
25.根据权利要求24所述的方法,其中方法使用根据权利要求1至10中任一项所述的***或根据权利要求15至23中任一项所述的测序装置。
26.根据权利要求1至10中任一项所述的***或根据权利要求15至23中任一项所述的测序装置检测目的样品中微卫星不稳定性和/或确定目的样品中微卫星不稳定性类型的用途,其中样品已经来自对其不可获得匹配正常样品的肿瘤样品。
CN201880043447.3A 2017-11-16 2018-11-14 用于确定微卫星不稳定性的***和方法 Pending CN110800061A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762587350P 2017-11-16 2017-11-16
US62/587,350 2017-11-16
US201862652151P 2018-04-03 2018-04-03
US62/652,151 2018-04-03
PCT/US2018/061067 WO2019099529A1 (en) 2017-11-16 2018-11-14 Systems and methods for determining microsatellite instability

Publications (1)

Publication Number Publication Date
CN110800061A true CN110800061A (zh) 2020-02-14

Family

ID=64572571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880043447.3A Pending CN110800061A (zh) 2017-11-16 2018-11-14 用于确定微卫星不稳定性的***和方法

Country Status (10)

Country Link
US (1) US20190156922A1 (zh)
EP (1) EP3711056A1 (zh)
JP (1) JP6955035B2 (zh)
KR (2) KR102667912B1 (zh)
CN (1) CN110800061A (zh)
AU (2) AU2018367488B2 (zh)
CA (1) CA3067422C (zh)
IL (1) IL271214A (zh)
NZ (1) NZ759171A (zh)
WO (1) WO2019099529A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190206513A1 (en) * 2017-12-29 2019-07-04 Grail, Inc. Microsatellite instability detection
US20210139950A1 (en) * 2019-11-08 2021-05-13 Life Technologies Corporation Microsatellite instability measurement
WO2021092299A1 (en) * 2019-11-08 2021-05-14 Life Technologies Corporation Systems and assays for assessing microsatellite instability
CN110910957B (zh) * 2019-12-31 2023-06-27 求臻医学科技(浙江)有限公司 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法
KR102529641B1 (ko) * 2020-11-20 2023-05-08 국립암센터 종양세포충실도 보정을 통한 현미부수체 불안정성의 판정방법
WO2022124575A1 (ko) * 2020-12-07 2022-06-16 (주)디엑솜 현미부수체 지역의 서열 길이의 변동계수를 이용한 현미부수체 불안정성 진단방법
KR20230023278A (ko) * 2021-08-10 2023-02-17 (주)디엑솜 현미부수체 지역의 서열 길이의 최대값과 최소값의 차이를 이용한 현미부수체 불안정성 진단방법
CN113744251B (zh) * 2021-09-07 2023-08-29 上海桐树生物科技有限公司 基于自注意力机制从病理图片预测微卫星不稳定性的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080096197A1 (en) * 2004-10-19 2008-04-24 Peter Findeisen Compounds and Methods for Assessment of Microsatellite Instability (Msi) Status
US20120295267A1 (en) * 2011-05-16 2012-11-22 Baylor Research Institute Detecting DNA Mismatch Repair-Deficient Colorectal Cancers
CN104379765A (zh) * 2012-04-10 2015-02-25 非营利性组织佛兰芒综合大学生物技术研究所 用于检测癌症中的微卫星不稳定性和测定与dna碱基切除修复途径抑制的合成致死性的新标记
WO2017112738A1 (en) * 2015-12-22 2017-06-29 Myriad Genetics, Inc. Methods for measuring microsatellite instability
CN107058551A (zh) * 2017-05-04 2017-08-18 北京诺禾致源科技股份有限公司 检测微卫星位点不稳定性的方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
AU2003259350A1 (en) 2002-08-23 2004-03-11 Solexa Limited Modified nucleotides for polynucleotide sequencing
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
WO2005065814A1 (en) 2004-01-07 2005-07-21 Solexa Limited Modified molecular arrays
EP1828412B2 (en) 2004-12-13 2019-01-09 Illumina Cambridge Limited Improved method of nucleotide detection
EP1888743B1 (en) 2005-05-10 2011-08-03 Illumina Cambridge Limited Improved polymerases
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
EP2653861B1 (en) 2006-12-14 2014-08-13 Life Technologies Corporation Method for sequencing a nucleic acid using large-scale FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080096197A1 (en) * 2004-10-19 2008-04-24 Peter Findeisen Compounds and Methods for Assessment of Microsatellite Instability (Msi) Status
US20120295267A1 (en) * 2011-05-16 2012-11-22 Baylor Research Institute Detecting DNA Mismatch Repair-Deficient Colorectal Cancers
CN104379765A (zh) * 2012-04-10 2015-02-25 非营利性组织佛兰芒综合大学生物技术研究所 用于检测癌症中的微卫星不稳定性和测定与dna碱基切除修复途径抑制的合成致死性的新标记
WO2017112738A1 (en) * 2015-12-22 2017-06-29 Myriad Genetics, Inc. Methods for measuring microsatellite instability
CN107058551A (zh) * 2017-05-04 2017-08-18 北京诺禾致源科技股份有限公司 检测微卫星位点不稳定性的方法及装置

Also Published As

Publication number Publication date
JP6955035B2 (ja) 2021-10-27
CA3067422A1 (en) 2019-05-23
NZ759171A (en) 2022-05-27
AU2021282414A1 (en) 2021-12-23
EP3711056A1 (en) 2020-09-23
KR102667912B1 (ko) 2024-05-21
WO2019099529A1 (en) 2019-05-23
US20190156922A1 (en) 2019-05-23
AU2018367488A1 (en) 2019-12-12
KR20200015913A (ko) 2020-02-13
AU2018367488B2 (en) 2021-09-16
JP2020527337A (ja) 2020-09-10
IL271214A (en) 2020-01-30
CA3067422C (en) 2023-08-29
KR102402002B1 (ko) 2022-05-25
KR20220073859A (ko) 2022-06-03

Similar Documents

Publication Publication Date Title
CA3067422C (en) Systems and methods for determining microsatellite instability
AU2021200154B2 (en) Somatic copy number variation detection
CN112805563A (zh) 用于评估和/或治疗癌症的无细胞dna
CN109880910A (zh) 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及***
EP3029153A2 (en) Mesothelioma biomarkers and uses thereof
AU2014348428B2 (en) Chromosomal assessment to diagnose urogenital malignancy in dogs
RU2744604C2 (ru) Способ неинвазивного пренатального выявления эмбриональной хромосомной анеуплоидии по материнской крови
WO2018102827A1 (en) Improved methods of treating lung cancer by predicting responders to cisplatin-pemetrexed combination therapy
NZ787685A (en) Systems and methods for determining microsatellite instability
JP7274504B2 (ja) 多様度指数を確立することで腫瘍バリアント多様度を評価することによるがん予後診断の方法
Yachen et al. Application of personalized differential expression analysis in human cancer proteome
KR20230044439A (ko) 미토콘드리아 dna 품질 관리
WO2022069710A1 (en) Methods for characterizing the limitations of detecting variants in next-generation sequencing workflows
CN115461817A (zh) 基因组测序和检测技术

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination