CN107287285A

CN107287285A - 一种预测同源重组缺失机制及患者对癌症治疗响应的方法

Info

Publication number: CN107287285A
Application number: CN201710190590.2A
Authority: CN
Inventors: 陈丽娟; 王凯; 秦公炜
Original assignee: Shanghai To Biological Technology Co Ltd
Current assignee: Shanghai To Biological Technology Co Ltd
Priority date: 2017-03-28
Filing date: 2017-03-28
Publication date: 2017-10-24

Abstract

本发明公开一种预测同源重组缺失机制及患者对癌症治疗响应的方法，涉及生物信息预测领域，其根据包括大片段INDEL分数、拷贝数变异分数和肿瘤突变负荷分数中的一个或多个的综合值，判断肿瘤样本是否存在同源重组缺失，其中，所述综合值还可以包括杂合缺失变异分数。本发明实现了染色体大片段结构、染色体基因型数目、染色体基因拷贝数、染色体变异间隔和杂合缺失异常，以及染色体端粒不平衡预测，使评估范围更加完善，能够准确地预测HRD，利用综合值还可以确定患者是否对包含PARP抑制剂、DNA损伤抑制剂、拓扑异构酶II/II+抑制剂、拓扑异构酶I抑制剂、放射治疗中的一种或多种的治疗方案发生响应，方法简单，普适性广。

Description

一种预测同源重组缺失机制及患者对癌症治疗响应的方法

技术领域

本发明涉及生物信息领域，尤其涉及一种预测同源重组缺失机制及患者对癌症治疗响应的方法。

背景技术

癌症的发展需要一系列的病变阶段，它的发展过程由基因变异所主导，包括DNA、RNA、蛋白质等多个层面的病变，其中DNA的改变是癌症发生的重要因素，包括单核苷酸变异(Single Nucleotide Polymorphism,SNP)、小的***和缺失(Small INDEL,INDEL为Insertion/Deletion的简称，长度通常小于50bp)、大的结构性变异等常见的变异形式。随着对癌症研究的不断深入，同源重组缺失(Homologous Recombination Deficiency,HRD)机制在不同癌种当中的重要性不断被发现。超过50％的高级别浆液性卵巢癌患者存在明显的DNA修复基因缺失，20-25％***癌存在BRCA1/BRCA2或其它同源重组通路中涉及的基因失活突变。DNA在复制过程中，正常细胞通过同源重组修复机制修复DNA双链断裂，从而保持正常的生长周期，而癌症细胞中由于同源重组(Homologous Recombination,HR)基因发生变异，从而发生同源重组缺失，导致DNA修复发生损伤，从而引起基因不平衡和肿瘤的无限增长。例如，BRCA1(Breast Cancer Type 1,乳腺癌1号基因)或者BRCA2(Breast CancerType 2,乳腺癌2号基因)突变的细胞，缺少野生基因型，从而导致DNA同源重组修复缺失，导致基因发生变异，从而导致癌症发生。

DNA同源重组缺失在许多癌症临床中具有相关性，特别是乳腺癌和卵巢。基于所呈现的DNA修复缺失类型，对于特定的DNA损害物质或者靶向物质，癌症可能表现出增长的敏感性，比如铂类或者PRAP阻断剂(Poly ADP-ribose polymerase inhibitor,PARPi)。PARPs(Poly ADP-ribose polymerases)是DNA修复过程中蛋白修饰的一类酶，其中一些类型可以通过单碱基修复来修补DNA的单链缺失，例如PARP1(Poly ADP-ribose polymerase 1)。通常这些单碱基缺失在复制时可以导致双链上的碱基缺失，而在正常情况下这些情况下可以由同源重组通路中的基因修复，如BRCA1和BRCA2，而不能正常修复的细胞就会发生癌症。PARP阻断剂可以检测到这种缺失，从而使癌症细胞发生毒性，最终走向死亡。BRCA1和BRCA2是与遗传性乳腺癌有关的基因，显示有BRCA1基因突变者患乳腺癌和卵巢癌的风险分别是40％～85％和25％～65％，有BRCA2基因突变者患乳腺癌和卵巢癌的风险分别是40％～85％和15％～20％。这两个基因在同源重组途径和范可尼贫血通路中是非常重要的基因，如果发生突变，则会DNA修复发生缺失，包括同源重组缺失。研究证明，这两个基因发生突变时，这种药物敏感性表现尤为明显。例如，对具有BRCA1和BRCA2突变的病人进行铂类物质或者PARP阻断剂的用药，发现可以得到更好的治疗效果。然而，很多肿瘤并没有明显的BRCA1/BRCA2的突变表征，但具有与BRCA1/2突变的癌症相似的基因表征，也表现出对铂类物质的治疗敏感性。因此，同源重组基因缺失，不仅仅是BRCA1/2缺失，都可能表现出与BRCA1/2缺失相似的药物敏感性。该现象的发现非常具有临床意义，例如，三阴性乳腺癌(TripleNegative Breast Cancer,TNBC)，即***受体(Estrogen Receptor,ER)、孕激素受体(Progesterone Receptor,PR)和原癌基因Her-2均为阴性的乳腺癌。这类乳腺癌占所有乳腺癌病理类型的20％～25％，比其它乳腺癌更具有侵袭性，治疗无很好的愈后。由于缺乏合适的药物治疗靶点，只能进行化疗，而采用哪种化疗物质来进行治疗，是TNBC治疗的一个重大课题。因此，亟待一种基于DNA同源重组缺失(HRD)机制的可靠生物标记，在DNA修复途径层面的基因特征而非基因层次的基因特征，有效地区分病人，针对地使患者接受特定的抗癌治疗，避免接受不必要的毒性损伤。

目前关于HRD研究主要是通过单独计算杂合缺失(Loss of Heterozygosity,LOH)的数目，端粒基因型不平衡(Telomeric Allellic Imbalance,TAI)的数目和大范围的结构转移(Large-scale State Transition,LST)的数目中的一个、两个或三个的值进行，例如申请号为201280070358.0的专利文件仅通过一个值即LOH缺失去评估HRD，又例如，申请号为WO2014165785的专利文件利用三个值的组合去评估HRD，并没有考虑到其它重要类型变异导致同源重组缺失发生的情况。研究表明，不仅LOH可以影响BRCA1/BRCA2调节的DNA操作修复代谢途径或者其它修复相关的代谢途径，还有其它变异类型可以影响到DNA损伤修复，例如INDEL(***和缺失)、CNV(Copy Number Variation,拷贝数变异)、TMB(TumorMutational Burden，肿瘤突变负荷)等，这些变异类型与染色体损伤之间存在相关，从而影响着机体能否成功修复DNA损伤。特别是，同源重组相关代谢途径中的基因发生此类型变异时，会使同源重组机制缺失，例如TP53(Tumor Suppressor Gene,肿瘤抑制基因),BRCA2(Breast Cancer Type 2,乳腺癌2号基因),RET(Rearranged During Transfection,原致癌基因),RB1(Retinoblastoma Gene,视网膜母细胞瘤基因)等基因的拷贝数变异，以及PTEN基因的缺失等等。因此，目前已知算法的计算类型较为固定，不能对同源重组缺失进行更多染色体变异类型的预测。而且，随着高通量测序技术的不断发展和更新，目前研究或应用主要的技术为新一代测序技术，而目前的HRD预测技术主要基于SNP芯片技术，存在数据生产平台与算法预测机制不匹配的技术问题，例如现有技术平台多采用SNP芯片的技术，算法预测所采用的主要是芯片平台仪器自身所产生的数据值来直接进行计算，而测序技术却没有相应的数据值，需要新的计算方式，因此其局限性较大。

发明内容

针对现有技术中存在的染色体变异检测类型少、基因检测范围较为局限，且测序技术与测序平台不匹配的技术问题，本发明提供一种可以同时检测拷贝数变异、杂合缺失变异、大片段INDEL变异、肿瘤突变负荷的同源重组缺失预测方法，该方法不但可以进行大片段INDEL变异的预测，还克服了现有技术中只能检测***片段在25bp以内和缺失片段在50bp以内的小片段变异的技术问题，本发明方法预测准确，操作简单。

为实现本发明的技术目的，本发明提供一种预测同源重组缺失机制的方法，

所述方法是根据包括大片段INDEL分数、拷贝数变异分数和肿瘤突变负荷分数中的一个或多个的综合值，判断肿瘤样本是否存在同源重组缺失；

其中，所述大片段INDEL分数、拷贝数变异分数以及肿瘤突变负荷分数是通过利用癌症相关的靶向基因库设计的探针获得的肿瘤样本和正常样本的基因序列得到的；

其中，所述利用癌症相关的靶向基因库设计的探针获得的肿瘤样本和正常样本的基因序列包括以下步骤：

对癌症相关的基因进行筛选，得到靶向基因库；

根据靶向基因库的基因序列设计探针；

将探针与肿瘤样本DNA和正常样本DNA分别进行杂交，得到目标区域范围内的肿瘤样本DNA片段和正常样本DNA片段，经建库和测序步骤，得到肿瘤样本基因序列和正常样本基因序列；

其中，所述大片段INDEL分数值是根据肿瘤样本基因序列和正常样本基因序列统计得到；

其中，所述拷贝数变异分数值是通过肿瘤样本基因序列和正常样本基因序列统计得到；

其中，所述肿瘤突变负荷分数值是通过对正常样本基因序列和肿瘤样本基因序列进行单碱基水平变异分析得到。

所述综合值还包括杂合缺失变异分数；

其中，所述杂合缺失变异分数值是通过对肿瘤样本目的基因序列进行变异重构统计获得的，包括杂合缺失区域分数值、端粒基因型不平衡区分数分数值以及染色体大片段断裂区域值。

其中，所述癌症相关的基因是指现有技术中由于一个或多个基因发生序列、结构、或其表达和/活性发生变化导致其与正常基因相比有缺陷的基因，致使细胞癌变。

其中，所述癌症相关的基因所建立的靶向基因库应该涵盖重要癌变或所有癌变类型相关的基因。

其中，所述探针的设计是基于靶向基因库中的基因而设计的，设计的探针应该满足特异性的要求，从而实现获取目标区域范围内的基因的目的。

其中，所述将探针与肿瘤样本DNA和正常样本DNA分别进行杂交，得到目标区域范围内的肿瘤样本的DNA片段和正常样本的DNA片段的方法采用生物学方法，具体的杂交过程依据生物学领域常用的方法进行，例如根据《分子生物学》操作。

其中，所述经建库和测序步骤，得到肿瘤样本基因序列和正常样本基因序列是根据DNA建库试剂盒的说明书进行。

特别是，在将肿瘤样本的DNA片段和正常样本的DNA片段进行建库及测序之前，先进行DNA片段化处理，该步骤可以使用片段化仪器进行，例如Covaris M 220。

其中，所述对肿瘤样本目的基因序列进行变异重构包括：

对所述靶向基因库中的SNP位点进行筛选，建立SNP库；

在人类基因组序列中取SNP位置前后500bp构成SNP序列数据库；

利用比对软件将肿瘤样本基因序列和正常样本基因序列分别与所述SNP序列数据库进行比对，得到肿瘤样本基因SNP序列比对结果和正常样本基因SNP序列比对结果；

根据肿瘤样本基因SNP序列比对结果和正常样本基因SNP序列比对结果分别计算肿瘤样本的SNP基因型及其属性值，以及正常样本的SNP基因型及其属性值。

其中，所述筛选条件包括：

SNP在Y染色体上不存在；

不包括线粒体上的SNP；

在东亚人种中最小的基因频率为5％；

在除东亚外的三个人种中，最小的基因频率为1％；

在四个人种中，不会出现明显的平衡缺失。

特别是，所述筛选条件可以根据需要进行调整，可以是以下条件：

SNP在Y染色体上不存在；

不包括线粒体上的SNP；

在高加索人种中最小的基因频率为5％；

在除高加索外的三个人种中，最小的基因频率为1％(例如，中国人，日本人)；

在四个人种中，不会出现明显的平衡缺失。

其中，所述属性值包括Log R值和BAF值。

其中，所述Log R值为样本DNA在SNP位置的基因型拷贝数比值，其计算方法是：

正常样本的属性值计算方式为：

其中：i代表基因组位置(SNP在染色体上发生位置)；

M为正常样本中，所有SNP位点测序序列数目的中位数。

n_normal,,A,i为在正常样本中，i位置基因型为A的测序序列数目，即与参考基因组序列相同基因型的测序序列数目。

n_normal,B,i为在正常样本中，i位置基因型为B的测序序列数目，即与参考基因组序列不同基因型的测序序列数目。

当肿瘤样本中肿瘤含量为100％时，肿瘤样本的属性值计算方式为：

其中，BAF为均一化的基因B的频率，代表基因型不平衡，计算公式如下：

假设肿瘤的含量为ρ，肿瘤样本的属性值进行校正为：

LogR的计算公式校正为：

BAF的计算公式校正为：

其中：i代表基因组位置(SNP在染色体上发生位置)；

M为肿瘤样本中，所有SNP位点测序序列数目的中位数。

n_tumor,A,i为在肿瘤样本中，i位置基因型为A的测序序列数目，即与参考基因组序列相同基因型的测序序列数目。

n_tumor,B,i为在肿瘤样本中，i位置基因型为B的测序序列数目，即与参考基因组序列不同基因型的测序序列数目。

特别是，上述对肿瘤样本目的基因序列进行变异重构的步骤一般通过计算机实现。

其中，所述拷贝数变异分数值是通过肿瘤样本基因序列和正常样本基因序列还包括样本序列预处理过程。

其中，所述预处理过程包括：

将得到肿瘤样本基因序列和正常样本基因序列进行筛选，去除序列中的低质量测序序列及重复序列；

将经过筛选的肿瘤样本基因序列和正常样本基因序列分别与人类参考基因组序列进行比对，得到肿瘤样本基因比对结果和正常样本基因比对结果。

其中，所述低质量的测序序列是指，每条序列中错误率高于1％的碱基数量达到70％以上的碱基序列。

优选地，所述低质量的测序序列还可以是每条序列中错误率高于0.1％的碱基数量达到70％以上的碱基序列。

其中，所述拷贝数变异分数的计算是将所述肿瘤样本基因比对结果和正常样本基因比对结果作为输入，利用拷贝数变异软件进行拷贝数变异分析后，判断肿瘤样本发生扩增和缺失的区域，从而进行计算。

其中，所述大片段INDEL分数的计算是指对***片段长度≥25bp或缺失片段长度≥50bp的区域。

优选地，所述大片段INDEL分数的计算是指对***片段长度≥25bp或缺失片段长度≥100bp的区域。

其中，所述大片段INDEL分数值是根据肿瘤样本基因序列统计得到包括：

对肿瘤样本基因序列和正常样本基因序列分别进行筛选，去除碱基质量小于20的基因序列；

对经过筛选的肿瘤样本基因序列和正常样本基因序列分别进行校正，使肿瘤样本基因序列中的每一条序列均具有高频k-mer；

将经过校正的肿瘤样本基因序列和正常样本基因序列分别进行组装，得到组装序列；

将肿瘤样本组装序列和正常样本组装序列分别与参考序列进行比对，根据比对结果检测肿瘤样本和正常样本断点信息，剔除肿瘤样本包含的正常样本INDEL后,得到肿瘤样本中***或缺失的大片段INDEL分数。

其中，所述根据肿瘤样本基因序列的单碱基水平变异分析结果，计算肿瘤样本的肿瘤突变负荷分数包括：

将预测的肿瘤样本基因序列单碱基水平变异进行基因注释；

根据基因注释结果进行SNP筛选，得到SNP筛选结果；

计算SNP筛选结果中肿瘤样本基因序列发生突变的SNP个数总和以及癌症靶向基因库的编码基因区间大小，从而计算肿瘤突变负荷分数，计算单位为个/MB，公式如下：

其中，N_SNP为筛选后肿瘤样本中SNP个数的总和，计算单位为个；

Size_Target为癌症靶向基因库的编码基因区间大小，计算单位为MB(MillionaireBase，兆B)。

其中，所述根据基因注释结果进行SNP筛选的筛选条件为：

a)去除已知的“驱动突变”位点。“驱动突变”可以是ALK、ROS、EGFR等对癌症发生、发展起重要驱动作用的基因的突变位点；

b)去除生殖细胞突变位点(即在肿瘤样本和正常样本中都发生的突变位点)；

c)去除COSMIC数据库中已知的体细胞突变位点；

d)去除dbSNP数据库中存在的生殖细胞突变位点；

e)去除同一位点出现多种变异碱基的生殖细胞突变位点。

特别是，所述筛选条件可以根据知识或数据库的更新来增加新的突变位点或删除错误的突变位点。

其中，所述综合值是将大片段INDEL分数、拷贝数变异分数和肿瘤突变负荷分数或将大片段INDEL分数、拷贝数变异分数、肿瘤突变负荷分数和杂合缺失变异分数进行求和，或加权求和或其他计算方式得到综合值，根据综合值的大小判断判断肿瘤样本是否存在同源重组缺失。

其中，所述根据综合值的大小判断判断肿瘤样本是否存在同源重组缺失还包括：设定阈值，将所述综合值与设定的阈值进行比较，当综合值大于设定阈值，则判断肿瘤样本发生了同源重组缺失，反之，则判断肿瘤样本没有发生同源重组缺失。

其中，所述对癌症相关的基因进行筛选，包括：选择在癌症发生过程中发挥了重要作用，主导或介导了癌症发生、发展的、起着重要作用的基因。

其中，根据靶向基因库中的基因序列进行探针的设计可以根据本领域常用技术手段进行。

其中，所述利用正常样本基因序列和肿瘤样本基因序列进行SNP分析是通过SNP检测软件进行。

特别是，本发明的预测同源重组缺失机制的方法步骤一般利用计算机实现，尤其是本发明所称的筛选、计算、比较/比对、校正、分析等步骤。

尤其是，本发明方法适用于目前已经被发现的所有类型的肿瘤细胞的同源重组缺失机制预测。

根据本发明提供的方法对肿瘤细胞进行同源重组缺失机制预测，可以有效地、有针对性的制定肿瘤(即癌症)治疗方案。例如对预测具有同源重组缺失的病人进行铂类物质或者PARP阻断剂的用药。

为实现本发明的目的，本发明再一方面提供一种体现在计算机可读介质中的计算机程序产品，当在计算机上执行时，执行步骤包括：

将肿瘤样本组装序列和正常样本组装序列分别与参考序列进行比对，根据比对结果检测肿瘤样本和正常样本断点信息，剔除肿瘤样本包含的正常样本INDEL后,得到肿瘤样本中***或缺失的大片段INDEL分数。；

特别是，所述执行步骤还包括：

利用正常样本基因序列和肿瘤样本基因序列进行SNP分析，判断肿瘤样本是否存在单碱基水平变异；

对肿瘤样本目的基因序列进行变异重构，并根据变异重构结果，计算杂合缺失变异分数；

根据肿瘤样本基因序列和正常样本基因序列，计算拷贝数变异分数；

根据肿瘤样本基因序列，计算大片段INDEL分数；

根据肿瘤样本单碱基水平变异分析结果，计算肿瘤突变负荷分数；

根据所计算的杂合缺失变异分数、拷贝数变异分数、大片段INDEL分数和肿瘤突变负荷分数，判断肿瘤样本是否存在同源重组缺失。

其中，所述正常样本基因序列和肿瘤样本基因序列是通过以下步骤获得：

对癌症相关的基因进行筛选，得到靶向基因库；

根据靶向基因库的基因序列设计探针；

将探针与肿瘤样本DNA和正常样本DNA分别进行杂交，得到目标区域范围内的肿瘤样本DNA片段和正常样本DNA片段，经建库和测序步骤，得到肿瘤样本基因序列和正常样本基因序列。

其中，所述对肿瘤样本目的基因序列进行变异重构的计算机执行步骤包括：

对所述靶向基因库中的SNP位点进行筛选，形成SNP库；

在人类基因组序列中取SNP位置前后500bp构成SNP序列数据库；

将肿瘤样本基因序列和正常样本基因序列分别与所述SNP序列数据库进行比对，得到肿瘤样本基因SNP序列比对结果和正常样本基因SNP序列比对结果；

根据肿瘤样本基因SNP序列比对结果和正常样本基因SNP序列比对结果分别计算肿瘤样本的SNP基因型及其属性值，以及正常样本SNP基因型及其属性值。

其中，所述属性值包括Log R值和BAF值，正常样本和肿瘤样本的属性值分别通过以下计算得到的：

正常样本的属性值计算方式为：

其中：i代表基因组位置(SNP在染色体上发生位置)，M为正常样本中，所有SNP位点测序序列数目的中位数，n_normal,,A,i为在正常样本中，i位置基因型为A的测序序列数目，即与参考基因组序列相同基因型的测序序列数目，n_normal,B,i为在正常样本中，i位置基因型为B的测序序列数目，即与参考基因组序列不同基因型的测序序列数目。

假设肿瘤的含量为ρ，肿瘤样本的属性值计算方式为：

其中：i代表基因组位置(SNP在染色体上发生位置)，M为肿瘤样本中，所有SNP位点测序序列数目的中位数，n_tumor,A,i为在肿瘤样本中，i位置基因型为A的测序序列数目，即与参考基因组序列相同基因型的测序序列数目，n_tumor,B,i为在肿瘤样本中，i位置基因型为B的测序序列数目，即与参考基因组序列不同基因型的测序序列数目。

为实现本发明的目的，本发明又一方面提供一种将预测同源重组缺失机制的方法及计算机程序产品应用于：

a)确定包含有肿瘤细胞的样本中BRCA1和/或BRCA2基因缺陷的可能性；

b)确定包含有肿瘤细胞的样本中存在LOH区域的可能性；

c)确定包含有肿瘤细胞的样本中存在TAI区域的可能性；

d)确定包含有肿瘤细胞的样本中存在LST区域的可能性；

e)确定包含有肿瘤细胞的样本中存在大片段区域***或缺失的可能性；

f)确定包含有肿瘤细胞的样本中存在大片段序列拷贝数增加或缺失的可能性；

g)确定包含有肿瘤细胞的样本存在高肿瘤突变负荷的可能性；

h)确定包含有肿瘤细胞的样本中存在同源重组缺失(即HRD缺陷)的可能性；

i)确定肿瘤患者将会响应包含DNA损伤抑制剂、拓扑异构酶II/II+抑制剂(蒽环类、蒽醌类、鬼臼生物碱类)、拓扑异构酶I抑制剂、放射治疗、或PARP抑制剂的治疗方案的可能性。

其中，所述确定肿瘤患者响应的可能性的方法是：

确定病人样本是否存在大片段***或缺失区域，拷贝数增加或缺失的区域，HRD-LOH区域，HRD-TAI区域，HRD-LST区域，至少有一条染色体中存在这些区域，该肿瘤患者可能将会有治疗响应；

确定病人样本是否存在高肿瘤突变负荷，该肿瘤患者可能将会有治疗响应；

计算病人样本中杂合缺失变异分数、拷贝数变异分数、大片段INDEL分数和肿瘤突变负荷分数，根据统计分析预测，计算OM-SCORE,当OM-SCORE大于参考阈值时，判断肿瘤样本是否存在同源重组缺失；当存在同源重组缺失时，该肿瘤患者可能将会有治疗响应；

判定病人样本中是否存在BRCA1或者BRCA2的基因突变，或者BRCA1和BRCA2同时发生突变，如果发生突变，该肿瘤患者可能将会有治疗响应。

其中，所述DNA损伤抑制剂可以是顺铂(Cisplatin)、卡铂(Carboplatin)、奥沙利铂(Oxaliplatin)、奈达铂(Nedaplatin)、异丙铂(Iproplatin)等；蒽环类可以是柔红霉素(Daunorubicin)、阿霉素(Doxorubicin)、阿柔比星(Anthracyclines)、表阿霉素(Epirubicin)、伊达比星(Idarubicin)、戊柔比星(Valrubicin)；蒽醌类可以是米托蒽醌(Mitoxantrone)、匹杉琼(Pixantrone)等；鬼臼生物碱类可以是依托泊苷(Etoposide)、替尼泊苷(Teniposide)等；

其中，所述拓扑异构酶I抑制剂可以是喜树碱类化合物、吲哚并咔唑类化合物；

其中，所述PARP抑制剂可以是Olaparib、Veliparib、Rucaparib、Iniparib、Niraparib。

其中，所述肿瘤细胞来源可以是任何类型的实体癌或者恶性淋巴瘤，包括子宫癌、膀胱癌、乳腺癌、卵巢癌、肺癌、***癌、结直肠癌、子***、肝癌、胃癌、食管癌、胰腺癌、肾癌、胃癌、脑癌、头颈癌和白血病等等。而最为优先的癌症病症类型来源是乳腺癌、卵巢癌、***癌、胰腺癌。正常样本或肿瘤样本类型可以是细胞系、细胞、组织切片、石蜡包埋的组织、冷冻活检、穿刺活检、全血、血清、血浆、尿液、骨髓、粪便等，其中肿瘤样本优先选择手术切除的新鲜癌症组织、癌症组织活检切片、石蜡包埋的癌症组织切片等。

其中，所述b)确定包含有肿瘤细胞的样本中存在LOH区域的可能性是通过将样本进行基因型重构，判断样本中是否存在杂合缺失区域，即LOH区域，当LOH区域大于参考阈值时，认为该样本存在LOH区域。

其中，所述c)确定包含有肿瘤细胞的样本中存在TAI区域的可能性是通过将样本进行基因型重构，判断样本中是否存在基因型不平衡且延伸至端粒位置的区域，该区域并未跨越着丝点，该区域为TAI区域，该方法可以用来判断样本中存在TAI区域的方法。

其中，所述d)确定包含有肿瘤细胞的样本中存在LST区域的可能性是通过将样本进行基因型重构，过滤掉小于参考阈值的区域后，相邻区域染色体断裂大于参考阈值，则认为样本中存在大片段的染色体断裂，即LST区域。

其中，所述e)确定包含有肿瘤细胞的样本中存在大片段区域的可能性是根据OM-INDEL算法，可以判定样本中是否存在大片段的***或缺失(***片段长度≥25bp，缺失片段长度≥50bp)。

其中，所述f)确定包含有肿瘤细胞的样本中存在大片段序列拷贝数增加或缺失的可能性是将得到肿瘤样本基因序列和正常样本基因序列进行筛选，去除序列中的低质量测序序列及重复序列；将经过筛选的肿瘤样本基因序列和正常样本基因序列分别与人类参考基因组序列进行比对，得到肿瘤样本基因比对结果和正常样本基因比对结果；将所述肿瘤样本基因比对结果和正常样本基因比对结果作为输入，利用拷贝数变异软件进行拷贝数变异分析后，判断该肿瘤样本发生扩增和缺失的区域。

其中，所述g)确定包含有肿瘤细胞的样本存在高或低的肿瘤突变负荷的可能性是将肿瘤样本中发生单碱基水平突变的SNP位点进行基因注释后，对SNP位点进行筛选，去除已知的“驱动突变”位点；去除生殖细胞突变位点；去除COSMIC数据库中已知的体细胞突变位点；去除dbSNP数据库中存在的生殖细胞突变位点；去除同一位点出现多种变异碱基的生殖细胞突变位点。将筛选后发生突变的SNP个数总和以及癌症靶向基因库的编码基因区间大小的求比值，则计算得到肿瘤突变负荷分数。如果肿瘤突变负荷明显偏离人群的肿瘤突变负荷，则可能具有高的肿瘤突变负荷。

尤其是，本发明将上述的预测同源重组缺失机制的方法及计算机程序产品应用于抑制剂响应的用途，其根据计算所得的综合值确定肿瘤患者将会响应包含DNA损伤抑制剂、拓扑异构酶II/II+抑制剂(例如蒽环类、蒽醌类、鬼臼生物碱类)、拓扑异构酶I抑制剂、放射治疗、或PARP抑制剂中的一种或多种的治疗方案的可能性。

其中，DNA损伤抑制剂可以是顺铂(Cisplatin)、卡铂(Carboplatin)、奥沙利铂(Oxaliplatin)、奈达铂(Nedaplatin)、异丙铂(Iproplatin)等；蒽环类可以是柔红霉素(Daunorubicin)、阿霉素(Doxorubicin)、阿柔比星(Anthracyclines)、表阿霉素(Epirubicin)、伊达比星(Idarubicin)、戊柔比星(Valrubicin)；蒽醌类可以是米托蒽醌(Mitoxantrone)、匹杉琼(Pixantrone)等；鬼臼生物碱类可以是依托泊苷(Etoposide)、替尼泊苷(Teniposide)等；拓扑异构酶I抑制剂可以是喜树碱类化合物、吲哚并咔唑类化合物；PARP抑制剂可以是Olaparib、Veliparib、Rucaparib、Iniparib、Niraparib。

为实现本发明的技术目的，本发明再一方面提供一种预测患者对癌症治疗响应的方法，其应用预测同源重组缺失机制的方法所获得的综合值确定患者是否对包含PARP抑制剂、DNA损伤抑制剂、拓扑异构酶II/II+抑制剂、拓扑异构酶I抑制剂、放射治疗中的一种或多种的治疗方案发生响应。

其中，所述应用同源重组缺失机制的方法所获得的综合值确定患者是否对包含PARP抑制剂、DNA损伤抑制剂、拓扑异构酶II/II+抑制剂、拓扑异构酶I抑制剂、放射治疗中的一种或多种的治疗方案发生响应包括：

利用预测同源重组缺失机制的方法确定患者是否存在染色体变异；

利用预测同源重组缺失机制的方法计算发生染色体变异的综合值；

通过综合值与参考阈值的比较结果，确定患者治疗响应的可能性。

其中，所述染色体变异包括染色体大片段结构异常、染色体基因型的异常、染色体基因型数目异常、拷贝数的数目异常、拷贝数的数目比例异常、染色体变异间隔异常、杂合缺失异常或染色体端粒不平衡中的一种或多种。

其中，所述患者治疗响应是指对包含PARP抑制剂、DNA损伤抑制剂、拓扑异构酶II/II+抑制剂、拓扑异构酶I抑制剂、放射治疗中的一种或多种的治疗方案发生响应。

本发明的优点：

1、本方法在HRD预测中创造性地加入了大片段INDEL算法，不仅是在此HRD预测方面具有创新性，且在INDEL预测方面具有开创性的意义，克服了目前由于INDEL预测不全面而导致的预测不准确的缺陷。

2、本发明方法的大片段INDEL算法基于组装概念，在组装时将测序序列间相互比对，避免与参考序列差异造成的错误，因此本发明方法可以得到较长的无测序错误拼接序列，从而准确预测大片段INDEL的同源重组缺失。

3、本发明采用了集CNV、INDEL和TMB为一体或LOH、TAI、LST中任一一种与CNV、INDEL和TMB为一体的OM-SCORE值算法，涵盖了染色体基因型的异常、染色体基因型数目异常、拷贝数的数目比例异常、染色体变异间隔异常、拷贝数数目异常以及染色体大片段***或缺失的异常等多种染色体水平变异，使HRD预测评估范围更加完善，更为准确，为患者制定或选择更加有效的治疗响应方案。

4、本发明提供的方法可以根据计算的分数就可以确定患者对癌症治疗的响应，例如对包含PARP抑制剂、DNA损伤抑制剂、拓扑异构酶II/II+抑制剂、拓扑异构酶I抑制剂、放射治疗一种或多种的治疗方案是否发生响应的预测，，方法简单，操作简便，普适性强。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合具体实施方式对本发明进行进一步的详细描述。

在下面的描述中阐述了很多具体的细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

实施例1肿瘤样本和正常样本的基因序列的获得

1、靶向基因库的获得

1.1样本处理

取得同一病人的肿瘤样本和正常样本，进行DNA提取，利用定量仪器(比如Nanodrop仪器)进行定量，从而确定正常样本DNA和肿瘤样本的DNA质量是否达到后续的测序要求。利用试剂盒进行样本DNA提取，继而进行DNA扩增，分别得到足量的肿瘤DNA样本和正常DNA样本。

其中，样本类型包括但不限于FFPE(石蜡包埋的样本)、组织(从病人身体上切割的组织)样本、血液(从病人身上抽取的血液)样本中的一种，根据样本类型不同，选择不同的试剂盒进行正常样本和肿瘤样本DNA的提取，例如FFPE样本用DNA FFPE试剂盒进行提取，血液样本用DNA Blood试剂盒进行提取。

1.2靶向测序

筛选主导或介导了癌症发生、发展等过程的、起决定性作用的基因，组成靶向基因库，根据靶向基因库中的基因设计探针，利用杂交原理将设计的探针分别与步骤1.1得到的肿瘤DNA样本和正常DNA样本进行杂交，分别筛选获得正常样本目的基因片段和肿瘤样本目的基因片段。根据测序仪测序的操作手册，对获得的正常样本目的基因片段和肿瘤样本目的基因片段分别进行建库操作，即，将杂交获得正常样本目的基因片段和肿瘤样本目的基因片段，利用片段化仪器(例如Covaris M220)进行DNA片段化，并使用DNA建库试剂盒进行建库操作，通过磁珠纯化使DNA片段长度更集中，最后对纯化后的DNA片段进行PCR扩增，获得足够浓度和质量的DNA，得到肿瘤样本DNA文库和正常样本DNA文库，分别对肿瘤样本DNA文库和正常样本DNA文库进行测序，测序过程中先进行文库质量检测，例如选用dsDNA HS Assay试剂盒进行，检测质量合格之后，再利用测序仪(例如，Illumina服务商提供的测序仪Miseq/NextSeq等或Thermo Fisher服务商提供的Ion Proton等)对文库进行基因测序，得到肿瘤样本目的基因序列和正常样本目的基因序列。

其中，所述筛选主导或介导了癌症发生、发展等过程的、起决定性作用的基因包括但不限于，EGFR基因(epidermal growth factor receptor，简称为EGFR,表皮生长因子受体基因)、ALK(Anaplastic lymphoma kinase，简称ALK,间变性淋巴瘤激酶)、BRAF(serine/threonine-protein kinase,简称BRAF,丝/苏氨酸特异性激酶)等。

1.3测序序列数据处理

去掉步骤1.2得到肿瘤样本基因序列和正常样本基因序列中的低质量的测序序列，继而用PICARD软件筛去重复序列，得到处理后的肿瘤样本基因序列和正常样本基因序列。

其中，所述低质量的测序序列是指，每条序列中错误率高于1％的碱基数量达到70％以上的碱基序列。优选地，所述低质量的测序序列还可以是每条序列中错误率高于0.1％的碱基数量达到70％以上的碱基序列。

DNA在复制过程中，正常细胞通过同源重组修复机制修复DNA双链断裂，从而保持正常的生长周期，但同源重组基因发生变异，会发生同源重组缺失，导致DNA修复发生损伤，从而引起基因不平衡和肿瘤的无限增长，导致癌症发生。一般同源重组基因发生变异包括单核苷酸变异(SNP)、小的***和缺失(Small INDEL，***长度通常小于25bp，缺失长度小于50bp)、大的结构性变异等常见的变异形式，为了更为准确的发现样本是否存在同源重组缺失，本发明OM-HRD算法对肿瘤样本进行分析预测，从而发现样本是否存在同源重组缺失(以下简称HRD)。

由于SNP在人类基因组中广泛存在，是人类可遗传的变异中最常见的一种，占90％以上，因此，本发明在基于SNP检测基础上计算肿瘤突变负荷，并且将SNP位点进行基因型重构来判断染色体水平的片段变异，并且结合拷贝数变异，以及大片段缺失检测的手段来判断肿瘤样本中是否存在同源重组缺失。

实施例2大片段INDEL分数值的计算

大片段INDEL分数计算(即OM-INDEL分数)：OM-INDEL分数为发生大片段INDEL(***长度≥25bp和缺失片段长度≥50bp)的区域数目。

算法操作流程如下：

1、选择高质量测序序列

将实施例1获得的肿瘤样本目的基因序列和正常样本目的基因序列分别进行碱基质量筛选，如果一条测序序列有一个或多个碱基质量值低于20，则过滤该序列，得到碱基质量均大于20的肿瘤样本序列和正常样本序列。

本发明的碱基质量筛选适用于较高的测序深度，比如测序深度大于500X～1000X以上的序列，可以降低***测序错误造成的影响。

2、校正碱基错误

收集碱基质量均大于20的肿瘤样本序列和正常样本序列中所有高频k-mer，然后对每一条测序序列进行修正使序列上每一个k-mer均为高频的。

3、序列组装

该步骤应用双向FM-index算法，首先通过搜索测序序列间的首尾交叠来构建交叠图。所述交叠图中的每一个节点是一条测序序列；每一条边代表两个序列的交叠。其次，移除对所述交叠图的连通性无影响的冗余边，处理之后的图成为简化图，使在简化后的交叠图中许多序列将有且只有一个近邻序列；最后，将有且只有一个近邻序列的序列进行合并，得到较长的组装序列。

传统的方法将一条序列打断成固定长度为k的多条序列(即k-mer原理)，再寻找这些固定长度的多条序列之间有重叠，根据重叠情况构建简化图，这种方法需要很大的计算量，一般需要的计算复杂度为O(N²),N为所有测序序列长度的总和。在我们的组装具体实现中，使用双向FM-index这一用于全文索引的数据结构来加速这一过程，去掉了冗余的重叠，极大的减少了内存要求，使得计算复杂度降低到了O(N)。

通过以上算法，得到肿瘤样本序列和正常样本序列组装序列。

4、OM-INDEL分数计算

将肿瘤样本组装序列和正常样本组装序列分别与人类参考序列进行序列比对，基于比对结果，通过检测断点信息输出判断肿瘤样本目的基因序列和正常样本目的基因序列存在的基因长度达到25bp以上的***和50bp以上的缺失，将肿瘤样本包含的正常样本INDEL剔除后,统计得到肿瘤样本中发生长INDEL(***片段长度≥25bp或缺失片段长度≥50bp)的数目，则该数目即为OM-INDEL分数，当OM-INDEL分数为0时，则表示该样本没有发生片段长度≥25bp的***或片段长度≥50bp的缺失，反之，当OM-INDEL分数不为0时，则表示该样本发生了片段长度≥25bp的***或片段长度≥50bp的缺失。

其中，人类参考基因组序列可以从公共数据库进行下载，如UCSC Genome Browser或NCBI Genome Resources，目前常用的版本为HG19或HG38。

实施例3拷贝数变异分数值的计算

拷贝数变异分数值是发生拷贝数扩增和拷贝数缺失的区域数目，即拷贝数变异HRD-CNV。

将实施例1的步骤3得到的正常样本比对结果和肿瘤样本比对结果作为输入，用拷贝数变异软件进行CNV(Copy Number Variants，即拷贝数变异)分析(如，EXCAVATOR)，判断该肿瘤样本在染色体哪些区域发生扩增和缺失，统计发生扩增和缺失区域的数目，该数目即为HRD-CNV分数，当该HRD-CNV分数为0时，表示样本没有发生拷贝数扩增或拷贝数缺失，反之，当HRD-CNV分数不为0时，表示样本发生了拷贝数扩增或拷贝数缺失。

实施例4肿瘤突变负荷分数值的计算

由于SNP在人类基因组中广泛存在，是人类可遗传的变异中最常见的一种，占90％以上，因此，本发明在基于SNP检测基础上计算肿瘤突变负荷，并且将SNP位点进行基因型重构来判断染色体水平的片段变异，并且结合拷贝数变异，以及大片段缺失检测的手段来判断肿瘤样本中是否存在同源重组缺失(以下简称HRD)。

1、SNP分析

利用序列比对软件(如BWA，Burrow Wheeler Transform algorithm)将实施例1处理后的肿瘤基因样本序列和正常基因样本序列分别与人类参考基因组序列进行序列比对。序列比对后，可以得到正常样本序列中的每条序列与人类基因组相同和不同之处的比对结果及肿瘤样本序列中的每条序列与人类基因组相同和不同之处的比对结果，再利用变异检测软件(例如MUTECT变异检测软件)对上述比对结果进行检测，得到肿瘤样本DNA和正常样本单碱基水平的差异结果。

BRCA1和BRCA2基因对DNA损伤修复具有非常重要的作用，如果BRCA1或BRCA2基因发生功能缺失会导致DNA损伤修复能力降低，从而导致发生同源重组缺失，使用铂类或者PRAP阻断剂对病人进行治疗，可以有明显的治疗效果。因此BRCA1或BRCA2基因的SNP突变可以认为是同源重组缺失的辅助判断手段。

例如，在本发明的一个实施例中，以BRCA1为例，检查是否存在该基因的SNP变异时，是将正常样本DNA与肿瘤样本DNA进行序列比对和变异分析，发现正常样本DNA在染色体第17号位的43124096位置碱基序列为A，而肿瘤样本在该位置的碱基序列为G，而且有超过5条的测序序列为在此位置为G碱基的DNA，因此软件算法可以推断，第17号位的43124096位置存在变异，即BRCA1基因存在SNP变异。

2、TMB分数计算

TMB分数为定量计算一个样本中在编码区域发生突变的总数目，即肿瘤突变负荷分数。

将上述SNP分析得到的SNP位点进行基因注释，例如可以采用软件ANNOVAR。根据注释结果进行SNP位点筛选：去除已知的“驱动突变”位点；去除生殖细胞突变位点；去除在COSMIC数据库中已知的体细胞突变SNP位点；去除dbSNP数据库中存在的生殖细胞突变SNP位点；去除同一位点出现多种变异碱基的生殖细胞突变位点。筛选过后，按照公式计算肿瘤突变负荷分数，即TMB分数。该值为连续值分数，分数值区间范围很大，可以是1个/MB～200个/MB，甚至大于200个/MB，通常该值越高，肿瘤突变负荷越大。

实施例5杂合缺失变异分数的计算

1、基因型分析与ASCN重构

1.1、SNP序列数据库的建立

将步骤1.2中的靶向基因库进行SNP位点筛选，形成SNP库，其中筛选条件包括：SNP在Y染色体上不存在；不包括线粒体上的SNP；在东亚人种中最小的基因频率为5％；在除东亚人外的三个人种中，最小的基因频率为1％(例如美洲人，欧洲人，南亚人人等)；在四个人种中，不会出现明显的平衡缺失。

从公共人类基因组序列中，取SNP位置前后500bp构成的SNP序列数据库。

SNP的筛选条件可以根据实例情况进行调整，例如，女性中包括有两条X染色体，有些实例中包括有X染色体对的SNP，而男性中可以包含有X和Y染色体对的SNP，有时根据癌症类型可以去除一些染色体，例如卵巢癌中17号染色体常携带有高水平的LOH，因此可以去掉17号染色体，防止背景噪音太大造成的预测影响。

1.2、基因型分析

利用比对软件(例如BWA、bowtie软件)将步骤1.3得到的正常样本基因序列和肿瘤样本基因序列分别比对到SNP序列数据库中进行比对，分别得到正常样本基因序列比对结果和肿瘤样本基因序列比对结果，根据比对结果计算正常样本和肿瘤样本的SNP基因型和基因型的属性值，属性值包括Log R(Log Ratio,简称LogR)和BAF(B Allele Frequency,B基因型概率，简称BAF)。

其中，LogR为样本DNA在SNP位置的基因型拷贝数比值取Log，代表拷贝数变异情况，正常样本和肿瘤样本的计算公式分别为(1)(2)；BAF为均一化的基因B的频率，代表基因型不平衡，正常样本和肿瘤样本的计算公式分别为(3)(4)；

M为正常样本中，所有SNP位点测序序列数目的中位数，n_normal,,A,i为在正常样本中，i位置基因型为A的测序序列数目，即与参考基因组序列相同基因型的测序序列数目，n_normal,B,i为在正常样本中，i位置基因型为B的测序序列数目，即与参考基因组序列不同基因型的测序序列数目。

由于在实际状况中，肿瘤样本中肿瘤的含量会因为手术操作的不精确性，使肿瘤样本中混杂有正常细胞，而出现含量的差异，因此，本申请计算肿瘤样本中的LogR和BAF是根据肿瘤样本中的肿瘤含量对公式(2)和(4)经过校正得到的：

假设肿瘤的含量为ρ，肿瘤样本进行校正后，计算公式为：

其中：公式中的2表示整体样本的拷贝数，即正常人体细胞的拷贝数2；i代表基因组位置(SNP在染色体上发生位置)；M为肿瘤样本中，所有SNP位点测序序列数目的中位数，n_tumor,A,i为在肿瘤样本中，i位置基因型为A的测序序列数目，即与参考基因组序列相同基因型的测序序列数目，n_tumor,B,i为在肿瘤样本中，i位置基因型为B的测序序列数目，即与参考基因组序列不同基因型的测序序列数目。

当肿瘤含量为100％时，即肿瘤样本完全是由肿瘤细胞所组成的，采用公式(2)和(4)对肿瘤样本进行LogR和BAF计算。

例如，本发明的一个实施例中，假设整体样本中肿瘤样本的含量为100％，对于EGFR基因的染色体第七号位上55019344位置，存在碱基C到T的SNP变异。则该位置SNP基因型为C和T两种。假设在将测序序列与SNP序列数据库，进行比对后，在肿瘤样本所有SNP位点测序序列数目中位数为100，在肿瘤样本中该位置为C的序列有50条(即n_tumor,A,i的值为50)，该位置为T的序列有50条(即n_tumor,B,i的值为50)。则可以计算肿瘤样本该SNP的LogR＝Log2((50+50)/100)＝0，而BAF＝50/(50+50)＝0.5。

1.3、ASCN重构

基于肿瘤样本的Log R和BAF值，利用软件(例如ASCAT)进行基因型重构，即基因型特异的拷贝数变异(Allele Specific Copy Number,简称ASCN)。

2、杂合缺失变异分数的计算

基于基因型特异的拷贝数变异(ASCN)结果，计算杂合缺失变异分数。根据杂合缺失的类型不同分别进行杂合缺失区域计算(即HRD-LOH)、端粒基因型不平衡区域的计算(即HRD-TAI)、染色体大片段断裂区域数目的计算(即HRD-LST)，计算方法如下：

2.1、HRD-LOH分数的计算

LOH区域为杂合缺失区域，当杂合基因型为AB时，则在样本中不存在AB基因型，只存在AA或BB基因型，因此假设在i位置，基因型A的频率为n_A,i，基因型B的频率为n_B,i，则存在n_A,i＝0或n_B,i＝0的关系，而满足这个关系的区域即为关注的LOH区域。LOH区域长度可以是2Mb，3Mb，4Mb，5Mb，6Mb，7Mb，8Mb，9Mb，10Mb，11Mb，12Mb，13Mb，14Mb，15Mb，16Mb，17Mb，18Mb，19Mb，20Mb，21Mb，22Mb，23Mb，24Mb，25Mb，26Mb，27Mb，28Mb，29Mb，30Mb，35Mb，40Mb，45Mb，50Mb或者大于50Mb等等。对LOH区域长度大于参考阈值但是小于染色体全长的基因片段数量进行统计，统计的数目即为HRD-LOH分数，当HRD-LOH分数为0时，表示样本没有发生杂合缺失，反之，当HRD-LOH分数不为0时，表示样本发生了杂合缺失。参考阈值可以是2Mb，3Mb，4Mb，5Mb，6Mb，7Mb，8Mb，9Mb，10Mb，11Mb，12Mb，13Mb，14Mb，15Mb，16Mb，17Mb，18Mb，19Mb，20Mb，21Mb，22Mb，23Mb，24Mb，25Mb，26Mb，27Mb，28Mb，29Mb，30Mb，35Mb，40Mb，45Mb，50Mb或者大于50Mb，推荐的参考阈值为9Mb,10Mb,12Mb,15Mb等，该阈值可以很好的区分符合关注条件的LOH区域。

2.2、HRD-TAI分数的计算

TAI区域为具有基因型不平衡且延伸至端粒位置，但并未跨越着丝点的区域数目。

AI区域为基因型不平衡区域，假设在i位置，基因型A的频率为n_A,i，基因型B的频率为n_B,i，样本倍数为Ploidy,当该区域存在以下关系：n_A,i与n_B,i不相等；n_A,i+n_B,i与Ploidy值不相等；n_A,i或n_B,i两个值的最大值与Ploidy值不相等，将满足关系的区域与着丝点位置相比较，着丝粒的位置信息可以从公共数据库下载，如UCSC Genome Browser。如果满足关系的区域未跨越着丝点，则数目计入HRD-TAI分数，当HRD-TAI分数为0时，则表示样本不存在基因型不平衡，反之，当HRD-TAI分数不为0时，则表示样本存在未跨越着丝点、延伸至端粒位置的基因型不平衡。TAI区域长度可以是2Mb，3Mb，4Mb，5Mb，6Mb，7Mb，8Mb，9Mb，10Mb，11Mb，12Mb，13Mb，14Mb，15Mb，16Mb，17Mb，18Mb，19Mb，20Mb，21Mb，22Mb，23Mb，24Mb，25Mb，26Mb，27Mb，28Mb，29Mb，30Mb，35Mb，40Mb，45Mb，50Mb或者大于50Mb等等。

2.3、HRD-LST分数的计算

LST区域为过滤掉小于参考阈值的区域后，相邻区域染色体断裂大于参考阈值的数目。

染色体断裂的个数估算取决于染色体变异片段长度的大小。通常为小片段染色体断裂和大片段染色体断裂，可以根据染色体变异片段长度大小参考阈值来进行分类。这里主要关注大片段染色体断裂，因此，过滤掉染色体变异片段长度小于参考阈值，进一步来计算LST的数目，当相邻染色体变异片段长度大于参考阈值时，则认为是有LST发生，则增加一个LST的数目，当LST的数目为0时，则表示样本没有发生大于参考阈值染色体断裂，当LST的数目不为0时，则表示样本发生了大于参考阈值染色体断裂。染色体变异片段长度可以是2Mb，3Mb，4Mb，5Mb，6Mb，7Mb，8Mb，9Mb，10Mb，11Mb，12Mb，13Mb，14Mb，15Mb，16Mb，17Mb，18Mb，19Mb，20Mb，21Mb，22Mb，23Mb，24Mb，25Mb，26Mb，27Mb，28Mb，29Mb，30Mb，35Mb，40Mb，45Mb，50Mb或者大于50Mb等等。参考阈值可以是2Mb，3Mb，4Mb，5Mb，6Mb，7Mb，8Mb，9Mb，10Mb，11Mb，12Mb，13Mb，14Mb，15Mb，16Mb，17Mb，18Mb，19Mb，20Mb，21Mb，22Mb，23Mb，24Mb，25Mb，26Mb，27Mb，28Mb，29Mb，30Mb，35Mb，40Mb，45Mb，50Mb或者大于50Mb，推荐的阈值为5Mb,7Mb,10Mb等等，该阈值可以很好的筛选大片段染色体断裂区域。对所有LST区间进行统计，统计得到的数目总和即为HRD-LST分数。

实施例6综合值的计算

综合值的计算是利用统计学的方法将实施例2-4得到的大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)中的一个或多个进行计算。

例如仅计算大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)、肿瘤突变负荷分数(TMB分数)，例如仅计算大片段INDEL分数(即OM-INDEL分数)与拷贝数变异分数(即HRD-CNV分数)，或仅计算拷贝数变异分数(即HRD-CNV分数)与肿瘤突变负荷分数(TMB分数)，或仅计算片段分数(即OM-INDEL分数)与肿瘤突变负荷分数(TMB分数)。

或将实施例2-4得到的大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)、肿瘤突变负荷分数(TMB分数)中的一个或多个与实施例5得到的任一一种杂合缺失变异分数进行计算。

例如将大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)或肿瘤突变负荷分数(TMB分数)分别与HRD-LOH分数进行计算，或将拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)与HRD-LOH分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)和拷贝数变异分数(即HRD-CNV分数)与HRD-LOH分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)和肿瘤突变负荷分数(TMB分数)与HRD-LOH分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)与HRD-LOH分数进行计算；

例如将大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)或肿瘤突变负荷分数(TMB分数)分别与HRD-TAI分数进行计算，或将拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)与HRD-TAI分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)和拷贝数变异分数(即HRD-CNV分数)与HRD-TAI分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)和肿瘤突变负荷分数(TMB分数)与HRD-TAI分数进行计算或将大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)与HRD-TAI分数进行计算；

例如将大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)或肿瘤突变负荷分数(TMB分数)分别与HRD-LST分数进行计算，或将拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)与HRD-LST分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)和拷贝数变异分数(即HRD-CNV分数)与HRD-LST分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)和肿瘤突变负荷分数(TMB分数)与HRD-LST分数进行计算或将大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)与HRD-LST分数进行计算；

例如将大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)或肿瘤突变负荷分数(TMB分数)分别与HRD-LOH分数和HRD-TAI分数进行计算，或将拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)与HRD-LOH分数和HRD-TAI分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)和拷贝数变异分数(即HRD-CNV分数)与HRD-LOH分数和HRD-TAI分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)和肿瘤突变负荷分数(TMB分数)与HRD-LOH分数和HRD-TAI分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)与HRD-LOH分数和HRD-TAI分数进行计算；

例如将大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)或肿瘤突变负荷分数(TMB分数)分别与HRD-TAI分数和HRD-LST分数进行计算，或将拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)与HRD-TAI分数和HRD-LST分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)和拷贝数变异分数(即HRD-CNV分数)与HRD-TAI分数和HRD-LST分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)和肿瘤突变负荷分数(TMB分数)与HRD-TAI分数和HRD-LST分数进行计算或将大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)与HRD-TAI分数和HRD-LST分数进行计算；

或将大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)或肿瘤突变负荷分数(TMB分数)分别与HRD-LOH分数和HRD-LST分数进行计算，或将拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)与HRD-LOH分数和HRD-LST分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)和拷贝数变异分数(即HRD-CNV分数)与HRD-LOH分数和HRD-LST分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)和肿瘤突变负荷分数(TMB分数)与HRD-LOH分数和HRD-LST分数进行计算或将大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)与HRD-LOH分数和HRD-LST分数进行计算；

例如将大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)或肿瘤突变负荷分数(TMB分数)分别与HRD-LOH分数、和HRD-LST分数进行计算，或将拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)与HRD-LOH分数、HRD-TAI分数和HRD-LST分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)和拷贝数变异分数(即HRD-CNV分数)与HRD-LOH分数、HRD-TAI分数和HRD-LST分数进行计算，或将大片段INDEL分数(即OM-INDEL分数)和肿瘤突变负荷分数(TMB分数)与HRD-LOH分数、HRD-TAI分数和HRD-LST分数进行计算或将大片段INDEL分数(即OM-INDEL分数)、拷贝数变异分数(即HRD-CNV分数)和肿瘤突变负荷分数(TMB分数)与HRD-LOH分数和HRD-LST分数进行计算。

其中，HRD-LOH分数可以是0，1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31，32，33，34，35，36，37，38，39，40，41，42，43，44，45，46，47，48，49，50或者大于50等等的数值；HRD-TAI分数可以是0，1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30或者大于30等等的数值；HRD-LST分数可以是0，1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31，32，33，34，35，36，37，38，39，40，41，42，43，44，45，46，47，48，49，50，51，52，53，54，55或者大于55等等的数值；HRD-CNV分数可以是0，1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30或者大于30等等的数值；OM-INDEL分数可以是0，1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20或者大于20等等的数值；TMB分数可以是1～200，甚至大于200的分数值。

利用以上3个或3个以上的分值可以通过多种统计方式计算获得OM-SCORE，例如：

OM-SCORE＝HRD-CNV+OM-INDEL+TMB，通过三个分数的加和来计算OM-SCORE值；

OM-SCORE＝HRD-LOH+HRD-CNV+OM-INDEL+TMB，通过四个分数的加和来计算OM-SCORE值；

OM-SCORE＝HRD-LOH+HRD-LST+HRD-CNV+OM-INDEL+TMB，通过五个分数的加和来计算OM-SCORE值；

OM-SCORE＝HRD-LOH+HRD-TAI+HRD-LST+HRD-CNV+OM-INDEL+TMB，通过六个分数的加和来计算OM-SCORE值；

OM-SCORE＝D*HRD-CNV+E*OM-INDEL+F*TMB，通过三个分数的加权线性组合来计算OM-SCORE值；

OM-SCORE＝B*HRD-TAI+D*HRD-CNV+E*OM-INDEL+F*TMB，通过四个分数的加权线性组合来计算OM-SCORE值；

OM-SCORE＝A*HRD-LOH+B*HRD-TAI+D*HRD-CNV+E*OM-INDEL+F*TMB，通过五个分数的加权线性组合来计算OM-SCORE值；

OM-SCORE＝A*HRD-LOH+B*HRD-TAI+C*HRD-LST+D*HRD-CNV+E*OM-INDEL+F*TMB，通过六个分数的加权线性组合来计算OM-SCORE值；

OM-SCORE＝D*mean(HRD-CNV)+E*mean(OM-INDEL)+F*mean(TMB),通过三个分数的平均值的线性结合来计算OM-SCORE值；

OM-SCORE＝C*mean(HRD-LST)+D*mean(HRD-CNV)+E*mean(OM-INDEL)+F*mean(TMB)，通过四个分数的平均值的线性结合来计算OM-SCORE值。

OM-SCORE＝A*mean(HRD-LOH)+B*mean(HRD-TAI)+D*mean(HRD-CNV)+E*mean(OM-INDEL)+F*mean(TMB)，通过五个分数的平均值的线性结合来计算OM-SCORE值。

OM-SCORE＝A*mean(HRD-LOH)+B*mean(HRD-TAI)+C*mean(HRD-LST)+D*mean(HRD-CNV)+E*mean(OM-INDEL)+F*mean(TMB)，通过六个分数的平均值的线性结合来计算OM-SCORE值。

在一些实例中，也可利用单独的分数来计算OM-SCORE：

OM-SCORE＝A*HRD-LOH

OM-SCORE＝B*HRD-TAI

OM-SCORE＝C*HRD-LST

也可利用其中的分数的组合来计算OM-SCORE：

OM-SCORE＝A*HRD-LOH+B*HRD-TAI

OM-SCORE＝A*HRD-LOH+C*HRD-LST

OM-SCORE＝B*HRD-TAI+C*HRD-LST

OM-SCORE＝A*HRD-LOH+B*HRD-TAI+C*HRD-LST

OM-SCORE＝A*HRD-LOH+B*HRD-TAI+C*HRD-LST+D*HRD-CNV

OM-SCORE＝A*HRD-LOH+B*HRD-TAI+D*HRD-CNV+E*OM-INDEL+F*TMB等等。

以上A，B，C，D，E，F为线性相关的系数，OM-SCORE的计算方法可以由以上统计结合方式进行计算方式计算，但不限于以上所列举方式。

实施例7同源重组缺失预测

根据实施例6得到的OM-SCORE值对同源重组缺失情况进行预测：

当OM-SCORE大于或等于参考阈值而且BRCA1/2发生突变时，则发生同源重组缺失。利用DNA损害物质或者靶向物质(例如，铂类或者PRAP阻断剂)对病人进行治疗，可以有明显的治疗效果。

当OM-SCORE大于或等于参考阈值或者BRCA1/2发生突变时，则发生同源重组缺失。利用DNA损害物质或者靶向物质(例如，铂类或者PRAP阻断剂)对病人进行治疗，可以有明显的治疗效果。

当OM-SCORE小于参考阈值，则没有发生同源重组缺失。

具体的，所述参考阈值来源于相关的参考人群，包括：a)具有与被检测患者相同的癌症；b)具有相同的癌症亚型、具有相似的遗传或其他临床或分子特征的癌症；c)响应特定治疗的人；d)不响应特定治疗的人；e)没有任何癌症或没有被检测患者的癌症的表观健康的人。

其中，步骤3的所述OM-SCORE可以利用多种统计方式来进行计算，参考阈值根据计算方式不同会有所改变：

如果OM-SCORE＝A*HRD-LOH+B*HRD-TAI+C*HRD-LST+D*HRD-CNV+E*OM-INDEL+F*TMB通过六个分数的线性结合来计算OM-SCORE值；根据训练数据集进行模型建立和统计预测，如果OM-SCORE大于参考阈值，则样本预测发生了同源重组缺失，参考阈值可以是30，31，32，33，34，35，36，37，38，39，40，41，42，43，44，45，46，47，48，49，50，51，52，53，54，55或者大于55的数值等等，该阈值可以有效地区分发生同源重组缺失和没有发生同源重组缺失。

如果OM-SCORE＝A*mean(HRD-LOH)+B*mean(HRD-TAI)+C*mean(HRD-LST)+D*mean(HRD-CNV)+E*mean(OM-INDEL)+F*mean(TMB),通过六个分数的平均值的线性结合来计算OM-SCORE值；根据训练数据集进行模型建立和统计预测，如果OM-SCORE值大于参考阈值，则样本发生了同源重组缺失，参考阈值可以是20，21，22，23，24，25，26，27，28，29，30，31，32，33，34，35，36，37，38，39，40，41，42，43，44，45或者大于45的数值等等，该阈值可以有效地区分发生同源重组缺失和没有发生同源重组缺失。

如果根据单个分数计算OM-SCORE分数，参考阈值可以参考单个分数的阈值，可以是4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，25，30，35，40，45或者大于45等等的数值；

如果根据多个分数组合计算OM-SCORE分数，参考阈值可以参考所采用的单个分数的阈值总和或平均值的总和，可以是10，11，12，13，14，15，16，17，18，19，20，25，30，35，40，45或者大于45等等的数值；

一般OM-SCORE值大于或等于1，2，3，4，5，6，7，8，9，10倍或者大于10倍的参考阈值，或者OM-SCORE与参考阈值之间的标准差大于或等于1，2，3，4，5，6，7，8，9，10个或者更大标准差时等等，认为OM-SCORE大于或等于参考阈值，该样本存在同源重组缺失。反之，如果OM-SCORE值小于1，2，3，4，5，6，7，8，9，10倍或者小于10倍的参考阈值，或者OM-SCORE与参考阈值之间的标准差小于1，2，3，4，5，6，7，8，9，10或更大值时等等，认为OM-SCORE大于参考阈值，该样本没有发生同源重组缺失

试验例1染色体大片段缺失分析

取病人A的肿瘤样本和正常样本进行DNA提取，提取方法采用常规技术进行，获得足量的肿瘤样本DNA。取适量肿瘤DNA样本和正常DNA样本，利用本发明实施例1中提到的方法分别进行建库测序，将得到的测序序列分别用实施例1中提到的OM-INDEL算法和常用的INDEL预测软件PINDEL(下载地址：http://gmt.genome.wustl.edu/packages/pindel/)进行INDEL变异分析。将预测出来的INDEL根据区域设计探针进行PCR，将扩增产物采用一代测序方法进行测序，预测结果如下：

表1病人A样本INDEL变异分析结果

其中：表1中DEL代表区域发生缺失现象，INS代表区域发生***现象。表中的数据“1”表示存在染色体变异。

根据表1的测定结果可知，本发明方法可以同时测得样本中存在的6个长INDEL变异的所有染色体变异情况，测定结果与一代测序结果相同，一代测序方法检测INDEL是目前最为可靠的验证方法，可以认为该病人确实存在以上长INDEL情况，而PINDEL算法无法预测出这些大片段INDEL的存在。

可见，本发明方法获得的结果与一代测序结果一致，而且比一代测序更加便捷，通量更大，并且可以检测未知的INDEL。与常用的INDEL算法PINDEL相比较，OM-INDEL可以预测更长的INDEL，包括缺失长度≥50bp或者***长度≥25bp的片段，而PINDEL具有明显的算法缺陷，不能预测大片段的INDEL。因此，本发明方法预测的结果，可以作为统计数据，为HRD研究提供数据基础。

目前流行的INDEL方法是将原始的测序序列比对到参考序列，然后检测两个序列之间的差别，这种方法我们称之为基于比对的变异检测(如PINDEL)。它操作相对简单，利用比对结果来识别可能的INDEL。但是，在差异较大的区域，短测序序列造成的错误比对往往会误导变异检测，从而导致无法预测更大片段的INDEL或者预测出来的INDEL具有明显错误。

而本发明的方法改变了以往的预测方法，开创性了将组装概念应用于INDEL方法。具体地，本申请在对序列进行组装时，在测序序列间相互比对，避免与参考序列差异造成的错误；从而得到组装后的较长的无测序错误拼接的序列，将这样的长序列比对到参考序列可以极大降低比对错误和由其引起的变异检测错误。与以往的INDEL方法相比，本发明的组装的算法有明显优势，尤其在长INDEL方法上，这是因为长INDEL更容易造成短序列的比对错误。

试验例2拷贝数变异分析

取病人B的肿瘤样本和正常样本，分别进行DNA提取，提取方法采用常规技术进行，获得足量的肿瘤样本DNA ZLC1和正常样本DNA ZLC0。

取适量肿瘤样本DNA和正常样本DNA根据实施例1中的方法进行染色体变异分析；

取适量肿瘤样本DNA和正常样本DNA进行常规实验方法的拷贝数变异分析，例如,FISH(Fluorescent In Situ Hybridization,荧光原位杂交技术)和IHC(immunohistochemistry,免疫组织化学)检测方法，采用上述方法的检查结果如表2所示。

表2病人B样本的拷贝数变异分析结果

基因	变异类型	实施例1	FISH	IHC
					HER2	拷贝数扩增	1	存在	存在
MET	拷贝数扩增	1	存在	存在
					ROS1	拷贝数缺失	1	存在	存在

其中，表中的数据“1”表示存在1个拷贝数扩增的染色体变异。

根据表2中的分析结果可以看出，利用本发明方法及现有技术FISH、IHC均可以检测出该病人发生了三个基因的拷贝数异常，包括两个基因的拷贝数扩增和一个基因的拷贝数缺失，可见，利用本发明方法可以准确检测得到样本检测结果，而且与现有技术检测结果一致。由此可见该实施例1所提出的方法具有准确和高效的特征，相较于传统检测方法，更加快捷，稳定性好，完全自动化计算机程序操作，重复性好，检测结果较客观。因此，本发明方法预测结果，可以作为统计数据，为HRD预测提供基础。

试验例3肿瘤突变负荷分数计算

取病人C的肿瘤样本和正常样本，分别进行DNA提取，提取方法采用常规技术进行，获得足量的肿瘤样本DNA BLC1和正常样本DNA BLC0。

取适量肿瘤样本DNA和正常样本DNA根据实施例1中的方法染色体变异分析；

利用SNP分析程序预测SNP后，病人C样本中总共有2500个SNP位点,基因注释后，按照筛选条件过滤后，可以得到540个SNP位点，而癌症靶向基因库编码基因区域大小为36MB,则该样本肿瘤突变负荷分数为540/36＝15个/MB。

试验例4同源重组缺失机制预测

取12个病人的肿瘤样本和正常样本分别进行DNA提取，提取方法采用常规技术进行，获得足量的肿瘤样本DNA和正常样本DNA。按照实施例1-7的方法进行染色体变异分析，预测病人的HRD情况，预测结果如表3所示。

表3病人的HRD预测情况

其中：表3中“无HRD”表示肿瘤样本没有发生同源重组，“HRD”表示肿瘤样本发生了同源重组缺失，“BRCA1+”表示肿瘤样本具有基因BRCA1基因突变，“BRCA2+”表示肿瘤样本具有基因BRCA2突变。OM-SCORE的计算方式可以选自实施例6中的任一一种，本试验例以OM-INDEL分数+HRD-CNV分数+HRD-LOH分数+HRD-TAI分数+HRD-LST分数的计算方式为例，阈值为42，当OM-SCORE值大于阈值42，则表示该肿瘤样本发生了同源重组缺失，小于42则表示不存在同源重组缺失。

根据表3中的数据结果可知，样本A0001、A0004、A0007、A0010的OM-SCORE值均大于阈值42，表示样本发生了同源重组缺失，该结果与样本的临床状态一致，可见本发明方法可以预测HRD，而且方法简单，结果准确，根据检测分析结果，可以预测向样本A0001、A0004、A0007、A0010患者使用铂类或者PRAP阻断剂进行治疗，会发生积极响应。

根据表3结果可知，本发明方法可以准确预测出病人发生同源重组缺失的情况。利用本发明方法计算出的OM-SCORE可以准确地区分有同源重组缺失和无同源重组缺失情况，全部样本的OM-SCORE平均值为42，挑选阈值为42；有同源重组缺失的样本OM-SCORE值都大于阈值42，平均值为82.25；而无同源重组缺失的样本OM-SCORE值都小于阈值42，平均值为21.875。因此，本发明所提供的OM-SCORE计算方法可以有效地对HRD情况进行预测。

另外，还可以从表中可以看出，OM-SCORE值的预测情况与临床所观测到的BRCA1/2突变情况存在一致性，具有BRCA1突变或者BRCA2突变的病人与其它HRD病人相比较，相对具有较高的OM-SCORE值，这一情况符合临床上的推理假设。而且，未发生BRCA1/2突变的病人，如果具有同源重组缺失也可以正确地预测得出，而这部分病人使用该方法进行疾病预测，可以大大地从该方法中获益，针对性地使用DNA阻断剂进行治疗，从而延长生存时间，提高生存率。

试验例5同源重组缺失机制预测

采用试验例4中提取的足量的肿瘤样本DNA和正常样本DNA。按照实施例1-7中的方法进行染色体变异分析，预测病人的HRD情况，预测结果如表4所示。

表4病人的HRD预测情况

其中：表4中“无HRD”表示肿瘤样本没有发生同源重组，“HRD”表示肿瘤样本发生了同源重组缺失，“BRCA1+”表示肿瘤样本具有基因BRCA1基因突变，“BRCA2+”表示肿瘤样本具有基因BRCA2突变。OM-SCORE值的计算可以采用实施例6中的任一一种，在本试验例中，采用的OM-SCORE的计算方式为1.35*OM-INDEL分数+HRD-CNV分数+1.1*TMB分数+0.5*HRD-LOH分数+0.1*HRD-TAI分数+0.1*HRD-LST，阈值为25.9，当OM-SCORE值大于阈值25.9，则表示该肿瘤样本发生了同源重组缺失，小于25.9则表示不存在同源重组缺失。

根据表4中的数据可知，样本A0001、A0004、A0007、A0010的OM-SCORE值均大于阈值25.9，表示样本发生了同源重组缺失，该结果与样本的临床状态一致，可见本发明方法可以预测HRD，而且方法简单，结果准确，根据检测分析结果，可以预测向样本A0001、A0004、A0007、A0010患者使用铂类或者PRAP阻断剂进行治疗，会发生积极响应。

根据表4结果可以得出，本发明方法可以准确预测出病人发生同源重组缺失的情况。利用本发明方法(即实施例1)计算出的OM-SCORE可以准确地区分有同源重组缺失和无同源重组缺失情况，全部样本的OM-SCORE平均值为25.9,挑选阈值为25.9；有同源重组缺失的样本OM-SCORE值都大于阈值25.9，平均值为51.48；而无同源重组缺失的样本OM-SCORE值都小于阈值25.9，平均值为13.13。因此，本发明所提供的OM-SCORE计算方法可以有效地对HRD情况进行预测。

由此，本发明所提供的方法均可以用来检测同源重组缺失机制。目前检测该机制的方法非常稀少，而且检测范围相对狭窄，尤其是对于非BRCA1/2基因变异导致的同源重组缺失没有有效的检测方式。本发明提供了一种新的预测方法，可以使得该机制的检测更为有效，检测范围更大，为病人的疾病早发现、早治疗提供有效的诊断方法。本发明提供的HRD预测时所采用的OM-SCORE值综合了多种染色体水平变异，包括INDEL、CNV、TMB、LOH、TAI和LST，创造性地加入了CNV、INDEL和TMB使的评估范围更加完善，包括染色体基因型的异常、染色体基因型数目异常、拷贝数的数目比例异常、染色体变异间隔异常、拷贝数数目异常以及染色体大片段***或缺失的异常等等，在更为全面的基础上，力求做到准确地预测HRD，从而为患者提供潜在的治疗手段。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之类。

Claims

1.一种预测同源重组缺失机制的方法，其特征在于，所述方法是根据包括大片段INDEL分数、拷贝数变异分数和肿瘤突变负荷分数中的一个或多个的综合值，判断肿瘤样本是否存在同源重组缺失；

对癌症相关的基因进行筛选，得到靶向基因库；

根据靶向基因库的基因序列设计探针；

其中，所述大片段INDEL分数值是根据肿瘤样本基因和正常样本基因序列序列统计得到；

2.如权利要求1所述的方法，其特征在于，所述综合值还包括杂合缺失变异分数；

其中，所述杂合缺失变异分数值是通过对肿瘤样本目的基因序列进行变异重构统计获得的，包括杂合缺失区域分数值、端粒基因型不平衡区域分数值以及染色体大片段断裂区域值中的一种或多种。

3.如权利要求1所述的方法，其特征在于，所述大片段INDEL分数值是根据肿瘤样本基因序列和正常样本基因序列统计得到包括：

对经过筛选的肿瘤样本基因序列和正常样本基因序列分别进行校正，使肿瘤样本基因序列和正常样本基因序列中的每一条序列均具有高频k-mer；

将肿瘤样本组装序列和正常样本组装序列分别与参考序列进行比对，根据比对结果检测肿瘤样本和正常样本断点信息，剔除肿瘤样本包含的正常样本INDEL后，得到肿瘤样本中***或缺失的大片段INDEL分数。

4.如权利要求1所述的方法，其特征在于，所述拷贝数变异分数值是通过肿瘤样本基因序列和正常样本基因序列统计得到包括：

将经过筛选的肿瘤样本基因序列和正常样本基因序列分别与人类参考基因组序列进行比对，得到肿瘤样本基因比对结果和正常样本基因比对结果；

将所述肿瘤样本基因比对结果和正常样本基因比对结果作为输入，利用拷贝数变异软件进行拷贝数变异分析后，判断肿瘤样本发生扩增和缺失的区域，对发生扩增和缺失的区域进行统计，得到拷贝数变异分数。

5.如权利要求1所述的方法，其特征在于，所述肿瘤突变负荷分数值是通过对正常样本基因序列和肿瘤样本基因序列进行单碱基水平变异分析得到包括：

将预测的肿瘤样本基因序列单碱基水平变异进行基因注释；

根据基因注释结果进行SNP筛选，得到去除已知的驱动突变位点、生殖细胞突变位点、COSMIC数据库中已知的体细胞突变SNP位点、dbSNP数据库中存在的生殖细胞突变SNP位点、同一位点出现多种变异碱基的生殖细胞突变位点的SNP筛选结果；

Size_Target为癌症靶向基因库的编码基因区间大小，计算单位为MB(Millionaire Base，兆B)。

6.如权利要求2所述的方法，其特征在于，所述对肿瘤样本目的基因序列进行变异重构包括：

对所述靶向基因库中的SNP位点进行筛选，形成SNP库；

在人类基因组序列中取SNP位置前后500bp构成SNP序列数据库；

7.如权利要求6所述的方法，其特征在于，所述属性值包括为样本DNA在SNP位置的基因型拷贝数比值Log R和代表基因型不平衡的均一化的基因B的频率BAF；

其中，所述Log R值和BAF值是通过以下计算得到的：

正常样本的属性值计算方式为：

肿瘤样本的属性值计算方式为：

其中，i代表基因组位置(SNP在染色体上发生位置)，M为正常样本中，所有SNP位点测序序列数目的中位数，n_normal,,A,i为在正常样本中，i位置基因型为A的测序序列数目，即与参考基因组序列相同基因型的测序序列数目，n_normal,B,i为在正常样本中，i位置基因型为B的测序序列数目，即与参考基因组序列不同基因型的测序序列数目；

假设肿瘤的含量为ρ，肿瘤样本的属性值计算方式校正为：

8.如权利要求1或2任一所述的方法，其特征在于，所述综合值是将大片段INDEL分数、拷贝数变异分数和肿瘤突变负荷分数或将大片段INDEL分数、拷贝数变异分数、肿瘤突变负荷分数和杂合缺失变异分数进行求和，或加权求和或其他计算方式得到综合值，根据综合值的大小判断判断肿瘤样本是否存在同源重组缺失。

9.一种预测患者对癌症治疗响应的方法，其特征在于，其根据权利要求1或2任一所述的方法获得的综合值确定患者是否对包含PARP抑制剂、DNA损伤抑制剂、拓扑异构酶II/II+抑制剂、拓扑异构酶I抑制剂、放射治疗中的一种或多种的治疗方案发生响应。