CN110895959B - 基因拷贝数评估方法、装置、***以及计算机可读介质 - Google Patents

基因拷贝数评估方法、装置、***以及计算机可读介质 Download PDF

Info

Publication number
CN110895959B
CN110895959B CN201911089855.5A CN201911089855A CN110895959B CN 110895959 B CN110895959 B CN 110895959B CN 201911089855 A CN201911089855 A CN 201911089855A CN 110895959 B CN110895959 B CN 110895959B
Authority
CN
China
Prior art keywords
sample
tumor cell
mutation
formula
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911089855.5A
Other languages
English (en)
Other versions
CN110895959A (zh
Inventor
张水荣
施巍炜
王凯
柳文进
黄璐嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Origimed Technology Shanghai Co ltd
Original Assignee
Origimed Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Origimed Technology Shanghai Co ltd filed Critical Origimed Technology Shanghai Co ltd
Priority to CN201911089855.5A priority Critical patent/CN110895959B/zh
Publication of CN110895959A publication Critical patent/CN110895959A/zh
Application granted granted Critical
Publication of CN110895959B publication Critical patent/CN110895959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种能提高对基因拷贝数的评估结果的准确性的基因拷贝数评估方法、装置、***以及计算机可读介质,其中的基因拷贝数评估方法,根据样本中的肿瘤细胞含量和分别对检测样本和对照样本测序分析后得到的包含检测样本和对照样本各自测序深度矫正后的检测矫正测序深度和对照矫正测序深度的测序分析数据,对检测样本中的基因拷贝数进行评估,其特征在于,包括以下步骤:获取样本矫正测序深度和对照矫正测序深度并采用公式(一)计算得到矫正后测序深度比;根据矫正后测序深度比,采用公式(二)计算得到相应的基因拷贝数。

Description

基因拷贝数评估方法、装置、***以及计算机可读介质
技术领域
本发明属于生物领域,具体涉及一种基因拷贝数评估方法、装置、 ***以及计算机可读介质。
背景技术
对肿瘤组织进行基因变异检测分析时往往需要对基因拷贝数进 行分析,然而,肿瘤组织内基因肿瘤细胞也有正常细胞,由于正常细 胞的存在,如果不考虑肿瘤细胞的实际含量,会将正常细胞的含量部 分包括进来,从而会大大影响基因拷贝数的分析结果。
发明内容
本发明提供一种基因拷贝数评估方法、装置、***以及计算机可 读介质,目的在于提高对基因拷贝数评估的准确性。
为了实现上述目的,本发明采用了如下技术方案:
本发明提供一种基因拷贝数评估方法,根据样本中的肿瘤细胞含 量和分别对检测样本和对照样本测序分析后得到的包含检测样本和 对照样本各自测序深度矫正后的检测矫正测序深度和对照矫正测序 深度的测序分析数据,对检测样本中的基因拷贝数进行评估,其特征 在于,包括以下步骤:获取样本矫正测序深度和对照矫正测序深度并 采用公式(一)计算得到矫正后测序深度比;根据矫正后测序深度比, 采用公式(二)计算得到相应的基因拷贝数,其中,公式(一)和 公式(二)分别如下:
Figure BDA0002266527520000021
Figure BDA0002266527520000022
式(一)中,ratio为矫正后测序深度比,
TD为检测样本矫正后的样本矫正测序深度,
CD为对照样本矫正后的对照矫正测序深度;
式(二)中,log2 ratio为以2为底ratio的对数,
purity为检测样本中的肿瘤细胞含量。
本发明提供的基因拷贝数评估方法,其特征在还在于,还包括: 对样本中的肿瘤细胞含量为进行评估后得到的评估后检测样本中的 肿瘤细胞含量,其中,测序分析数据还包含分别对检测样本和对照样 本测序分析得到的与各个突变位点分别对应的各个平均样本突变频 率和与该各个突变位点分别对应的各个对照突变频率,通过以下步骤 对样本中的肿瘤细胞含量进行评估得到评估后检测样本中的肿瘤细 胞含量用于作为公式(二)中的检测样本中的肿瘤细胞含量:逐一获 取满足预定突变条件的突变位点的平均样本突变频率和对照突变频 率,并采用公式(1)计算得到与该突变位点对应的单个肿瘤细胞含 量;一旦得到所有满足预定突变条件的突变位点对应的所有单个肿瘤 细胞含量,就获取该所有单个肿瘤细胞含量并采用公式(2)计算得 到检测样本中的肿瘤细胞含量;根据预定评估规则对公式(2)计算 得到的检测样本中的肿瘤细胞含量评估得到评估后检测样本中的肿 瘤细胞含量,其中,公式(1)和公式(2)分别如下所示,
Figure BDA0002266527520000031
Figure BDA0002266527520000032
公式(1)中,针对一个满足预定突变条件的一个突变位点,P 为计算得到的该突变位点对应的单个肿瘤细胞含量,
VAFa为检测样本中该突变位点对应的样本平均突变频率,
VAFt为样本中该突变位点对应的肿瘤细胞的突变频率,VAFn为 对照样本中该突变位点对应的对照突变频率,
公式(2)中,p为检测样本中的肿瘤细胞含量,n为满足所 述预定突变条件的突变位点的总数,n个突变位点各自对应的单个肿 瘤细胞含量P分别用P1、P2、P3、P4…Pn表示。
本发明提供的基因拷贝数评估方法,其特征在还在于,其中,预 定突变条件为,一个突变位点对应的对照突变频率大于等于0.4并小 于等于0.6。
本发明提供的基因拷贝数评估方法,其特征在还在于:预定评估 规则为:直接将公式(2)计算得到的检测样本中的肿瘤细胞含量评 估为评估后检测样本中的肿瘤细胞含量。
本发明提供的基因拷贝数评估方法,其特征在还在于:其中,预 定评估规则为:采用下述肿瘤细胞含量矫正模型对计算得到的检测样 本中的肿瘤细胞含量进行矫正,并将该矫正后得到的肿瘤细胞含量评 估为评估后检测样本中的肿瘤细胞含量,
y=ax-b (3)
式(3)中,y为矫正后得到的检测样本中的肿瘤细胞含量;
x为计算得到的检测样本中的肿瘤细胞含量p,
a和b为模型参数,a的取值为1.4,b的取值范围为0.23-0.26。
本发明还提供一种基因拷贝数评估装置,其特征在于,包括:矫 正后测序深度计算单元,获取样本矫正测序深度和对照矫正测序深度 并采用公式(一)计算得到矫正后测序深度比;基因拷贝数计算单元, 根据矫正后测序深度比,采用公式(二)计算得到相应的基因拷贝数,
其中,公式(一)和公式(二)分别如下:
Figure BDA0002266527520000041
Figure BDA0002266527520000042
式(一)中,ratio为矫正后测序深度比,
TD为检测样本矫正后的样本矫正测序深度,
CD为对照样本矫正后的对照矫正测序深度;
式(二)中,log2 ratio为以2为底ratio的对数;
purity为检测样本中的肿瘤细胞含量。
本发明提供的基因拷贝数评估装置,其特征还在于,还包括:肿 瘤细胞含量评估单元,用于对样本中的肿瘤细胞含量进行评估得到评 估后样本中的肿瘤细胞含量用于作为公式(二)中的检测样本中的肿 瘤细胞含量的,具有:单个肿瘤细胞含量计算部,逐一获取满足预定 突变条件的突变位点的平均样本突变频率和对照突变频率,并采用公 式(1)计算得到与该突变位点对应的单个肿瘤细胞含量;肿瘤细胞 含量计算部,一旦得到所有满足预定突变条件的突变位点对应的所有 单个肿瘤细胞含量,就获取该所有单个肿瘤细胞含量并采用公式(2) 计算得到检测样本中的肿瘤细胞含量,含量评估部,根据预定评估规则对公式(2)计算得到的检测样本中的肿瘤细胞含量评估得到评估 后检测样本中的肿瘤细胞含量,其中,公式(1)和公式(2)分别如 下所示,
Figure BDA0002266527520000051
Figure BDA0002266527520000052
公式(1)中,针对一个满足预定突变条件的一个突变位点,P 为计算得到的该突变位点对应的单个肿瘤细胞含量,
VAFa为检测样本中该突变位点对应的样本平均突变频率,
VAFt为样本中该突变位点对应的肿瘤细胞的突变频率,VAFn为 对照样本中该突变位点对应的对照突变频率,
公式(2)中,p为计算得到的检测样本中的肿瘤细胞含量, n为满足预定突变条件的突变位点的总数,n个突变位点各自对应的 单个肿瘤细胞含量P分别用P1、P2、P3、P4…Pn表示。
本发明提供的基因拷贝数评估装置,其特征还在于,其中,预定 评估规则为:直接将公式(2)计算得到的检测样本中的肿瘤细胞含 量评估为评估后检测样本中的肿瘤细胞含量。
本发明提供的基因拷贝数评估装置,其特征还在于,其中,预定 评估规则为:采用下述肿瘤细胞含量矫正模型对计算得到的检测样本 中的肿瘤细胞含量进行矫正,并将该矫正后得到的肿瘤细胞含量评估 为评估后检测样本中的肿瘤细胞含量,
y=ax-b (3)
式(3)中,y为矫正后的检测样本中的肿瘤细胞含量p′;
x为计算得到的检测样本中的肿瘤细胞含量p,
a和b为模型参数,
a的取值为1.4,b的取值范围为0.23-0.26。
本发明还一种基因拷贝数评估***,其特征在于,包括:测序分 析装置,用于分别对检测样本和对照样本测序分析得 到用于基因拷贝数评估的测序分析数据;基因拷贝数评估装置,根据 测序分析数据,对检测样本中的基因拷贝数进行评估,其中,基因拷 贝数评估装置为上述的基因拷贝数评估装置。
本发明还提供一种基因拷贝数评估设备,其特征在于,包括: 用于存储计算机程序指令的存储器;以及用于执行计算机程序指令的 处理器,其中,当该计算机程序指令被该处理器执行时,使该设备执 行上述的基因拷贝数评估方法的步骤。
本发明还一种计算机可读介质,其特征在于:计算机可读介质存 储有计算机程序,其中,计算机程序能被处理器执行以实现如权利要 求上述的基因拷贝数评估方法的步骤。
发明作用与效果
本发明提供的基因拷贝数评估方法、装置、***以及计算机 可读介质,由于考虑了肿瘤细胞含量,相比不考虑肿瘤细胞含量的 拷贝数评估,能提高基因拷贝数的评估结果的可靠性。
附图说明
图1为本发明的实施例1涉及的基因拷贝数评估***的结构框 图;
图2是本发明实施例1涉及的肿瘤细胞含量评估模块的结构框 图;
图3为本发明的实施例1所涉及的基因拷贝数评估***的动作 流程图;
图4为本发明的实施例2涉及的基因拷贝数评估***的结构框 图;
图5为对本发明的实施例1涉及的肿瘤细胞含量评估单元和方 法的验证结果。
具体实施方式
以下结合附图来说明本发明的具体实施方式。对于实施例中所用 到的具体方法或材料,本领域技术人员可以在本发明技术思路的基础 上,根据已有的技术进行常规的替换选择,而不仅限于本发明实施例 的具体记载。
实施例中所使用的方法如无特殊说明,均为常规方法;所使用的 材料、试剂等,如无特殊说明,均可从商业途径得到。
以下各个实施例中,所涉及的检测样本来自待检测的对象,具体 来自比如肿瘤组织;而对照样本指来自同一待检测对象作为对照的样 本,具体来自比如血液或癌旁组织。
以下各个实施例中涉及的各种样本的取样和测序过程,均为现有 通用的方法和过程。
实施例1
该实例是对肿瘤细胞含量评估***以及相应的处理过程进行相 应的说明。
图1本发明的实施例1涉及的基因拷贝数评估***的结构框图。
如图1所示,基因拷贝数评估***100包括:测序分析装置1以 及,通过通信网络3与测序分析装置1相通信连接的基因拷贝数评估 装置2。
测序分析装置1用于分别对检测样本和对照样本测序分析得到 用于基因拷贝数评估的测序分析数据,具体地,是基于对检测样本和 对照样本测序的结果,进行分析,得到包含检测样本和对照样本各自 测序深度矫正后的检测矫正测序深度和对照矫正测序深度的测序分 析数据。
具体地,通过以下得到上述检测矫正测序深度和对照矫正测序深 度:
首先,肿瘤样本和对照样本中基因测序深度均一化过程如下:
Figure BDA0002266527520000081
说明:
Dnor:均一化之后的测序深度;
Dgene:基因的测序深度;
Dmin:所有基因中最小测序深度;
Dmax:所有基因中最大测序深度;
肿瘤样本和对照样本中基因测序深度GC含量矫正,每个基因包 括四种碱基A、G、C、T,G、C碱基与四种碱基的比值就是GC含 量,利用局部多项式回归(LOESS和LOWESS)模型将均一化之后 的深度Dnor与GC含量进行拟合,得到拟合模型,再将Dnor代入模型 中进行预测,得到预测值Dpre,Dnor与Dpre比值就是GC矫正之后的 测序深度,即TD(肿瘤样本均一化和GC矫正之后的深度,检测矫 正测序深度)或者CD(对照样本均一化和GC矫正之后的深度,对照矫正测序深度)。
图2为本发明的实施例1涉及的基因拷贝数评估装置的结构框 图。
如图2所示,基因拷贝数评估装置2根据上述的测序分析数据, 对检测样本中的基因拷贝数进行评估,具有:矫正后测序深度计算单 元10、肿瘤细胞含量计算单元20、基因拷贝数计算单元30、基因拷 贝数评估侧暂存单元40、基因拷贝数评估侧通信单元50以及基因拷 贝数评估侧控制单元60。
基因拷贝数评估侧通信单元50从通过通信网络3从测序分析装 置1接收上述测序分析数据。
矫正后测序深度计算单元10从接收的测序分析数据中获取样本 矫正测序深度和对照矫正测序深度,并采用公式(一)计算得到矫正 后测序深度比,公式(一)具体如下所示:
Figure BDA0002266527520000101
式(一)中,ratio为矫正后测序深度比,
TD为检测样本矫正后的样本矫正测序深度,
CD为对照样本矫正后的对照矫正测序深度。
基因拷贝数计算单元30根据矫正后测序深度比,采用公式 (二)计算得到相应的基因拷贝数,公式(二)具体如下所示:
Figure BDA0002266527520000102
Figure BDA0002266527520000103
式(二)中,log2 ratio为以2为底ratio的对数;
purity为检测样本中的肿瘤细胞含量。
本实施例中,还包括肿瘤细胞含量评估单元20,以对样本中的肿 瘤细胞含量进行评估得到评估后样本中的肿瘤细胞含量,作为公式 (二)中的purity(检测样本中的肿瘤细胞含量)。而上述测序分析数 据还包含分别对检测样本和对照样本测序分析得到的与各个突变位 点分别对应的各个平均样本突变频率和与该各个突变位点分别对应 的各个对照突变频率,肿瘤细胞含量评估单元20根据该各个平均样 本突变频率和各个对照突变频率对检测样本中的肿瘤细胞含量进行 评估。
具体地,测序分析装置1还通过以下得到上述的平均样本突变频 率和对照突变频率:通过高通量二代测序平台对检测样本和对照样本 进行测序,测得的序列和人类参考基因组进行比对,针对每一个突变 位点,假设共有M条序列覆盖了该位点,其中有N条序列在该位点 与人类参考基因组不一致,有M-N条序列在该位点与人类参考基因 组一致,那么对于该位点,检测样本的平均突变频率或对照样本的突 变频率为
Figure BDA0002266527520000111
如图2所示,具体地,本实施例中,肿瘤细胞含量评估单元20 具有:单个肿瘤细胞含量计算部21、肿瘤含量计算部22、含量评估 部23、信息存储部24。
信息存储部24将接收的与各个突变位点分别对应的各个平均样 本突变频率和与该各个突变位点分别对应的各个对照突变频率,对应 地存储,具体对应方式如表1所示。
Figure BDA0002266527520000112
单个肿瘤细胞含量计算部21逐一获取满足预定突变条件的突变 位点的平均样本突变频率和对照突变频率,并采用公式(1)计算得 到与该突变位点对应的单个肿瘤细胞含量。
具体地,本实施例中:
单个肿瘤细胞含量计算部21从信息存储部24中对应存储的信
息 中,针对一个突变位点,当判断满足上述的预定突变条件时,就获取 该突变位点对应的平均样本突变频率和对照突变频率,本实施例中, 预定突变条件是:一个突变位点对应的对照突变频率大于等于0.4并 小于等于0.6,也即0.4≤VAFn≤0.6。
例如表1中,对突变位点1,其对应的对照突变频率为0.5,满足 预定突变条件,于是获取对应的平均样本突变频率(0.4)和对照突变 频率(0.5);而对于突变位点2,由于VAFn为0.8,大,0.6,该突变位 点不满足上述预定突变条件,所以舍弃。
之后,采用公式(1)计算得到与该每一个突变位点分别对应的 各个肿瘤细胞含量,为便于表述,此时用“单个肿瘤细胞含量”表示, 也即,针对一个满足预定突变条件的一个突变位点,将获取的对应的 平均样本突变频率和对照突变频率,采用公式(1)进行计算得到该 突变位点相应的单个肿瘤细胞含量,公式(1)如下:
Figure BDA0002266527520000121
公式(1)中,针对一个满足预定突变条件的一个突变位点,
P为计算得到的该突变位点对应的单个肿瘤细胞含量,
VAFa为检测样本中该突变位点对应的样本平均突变频率,
VAFt为检测样本中该突变位点对应的肿瘤细胞的突变频率:当
VAFa小于等于VAFn时,VAFt取值为VAFa/2,
当VAFa大于VAFn时,VAFt取值为(VAFa+1)/2,
VAFn为对照样本中该突变位点对应的对照突变频率。
通过逐一获取各个满足预定突变条件的突变位点,并采用公式(1) 计算,就能得到各个满足预定突变条件的突变位点相应的单个肿瘤细 胞含量。
例如上述表1中,若m=5,则满足预定突变条件的有突变位点1、 突变位点3、突变位点4以及突变位点5,根据上述VAFt取值要求,:
对于突变位点1,VAFt取值为0.4/2=0.2;
对于突变位点3,VAFt取值为(0.55+1)/2=0.78;
对于突变位点4,VAFt取值为(0.5+1)/2=0.75;
对于突变位点5,VAFt取值为0.45/2=0.23。
相应地,该几个突变位点各自的单个肿瘤细胞含量计算得到分别 为:0.33、0.18、0.22以及0.41。
一旦得到所有满足预定突变条件的突变位点对应的所有单个肿 瘤细胞含量,肿瘤含量计算部22就获取计算得到的所有单个肿瘤细 胞含量并采用公式(2)计算得到检测样本中的肿瘤细胞含量,其中, 公式(2)如下所示:
Figure BDA0002266527520000131
公式(2)中,p为计算得到的检测样本中的肿瘤细胞含量, n为满足预定突变条件的突变位点的总数,该n个突变位点各自对应 的单个肿瘤细胞含量P分别为P1、P2、P3、P4…Pn。
例如针对表1中,总共计算得到4(n=4)个单个肿瘤细胞含量, 分别为0.33(P1)、0.18(P2)、0.22(P3)以及0.41(P4),从而计算 得到检测样本中的肿瘤细胞含量p=(0.33+0.18+0.22+0.41)/4=0.285。
含量评估部根据预定评估规则对公式(2)计算得到的检测样本 中的肿瘤细胞含量进行评估得到最后的检测样本中的肿瘤细胞含量, 为了便于说明,本实施例中,评估得到的检测样本中的肿瘤细胞含量 命名为评估后检测样本中的肿瘤细胞含量,本实施例中,预定评估规 则为:直接将公式(2)计算得到的检测样本中的肿瘤细胞含量评估 为评估后检测样本中的肿瘤细胞含量。据此,例如,上述计算得到的 0.285,就直接为上述评估后检测样本中的肿瘤细胞含量。
基因拷贝数评估侧暂存单元40对基因拷贝数评估装置2运行产 生的相关数据或参数进行暂时存储。
基因拷贝数评估侧控制单元60包括控制矫正后测序深度计算单 元10、肿瘤细胞含量计算单元20、基因拷贝数计算单元30、基因拷 贝数评估侧暂存单元40以及基因拷贝数评估侧通信单元50运行的 计算机程序。
图3为本发明的实施例1所涉及的基因拷贝数评估***的动 作流程图。
如图3所示,在本实施例中,基因拷贝数评估***100的动作 流程包含以下步骤:
步骤S1,测序分析装置1得到基因拷贝数评估所需要的测序分 析数据,并通过通信网络3将该测序分析数据发送给基因拷贝数评估 装置2,然后进入步骤S2;
步骤S2,基因拷贝数评估侧通信单元50通过通信网络3,从测 序分析装置1接收上述测序数据,信息存储部24将各个平均样本突 变频率和对照突变频率与相对应的突变位点进行对应地存储,然后进 入步骤S3;
步骤S3,单个肿瘤细胞含量计算部21逐一获取满足预定突变条 件的突变位点的平均样本突变频率和对照突变频率,并采用公式(1) 计算得到与该突变位点对应的单个肿瘤细胞含量,然后进入步骤S4;
步骤S4,基因拷贝数评估侧控制单元60判断是否得到所有满足 预定突变条件的突变位点对应的所有单个肿瘤细胞含量,当判断为是 时,进入步骤S5,当判断为不是时,返回步骤S3;
步骤S5,肿瘤含量计算部22获取计算得到的所有单个肿瘤细胞 含量并采用公式(2)计算得到检测样本中的肿瘤细胞含量,然后进 入步骤S6;
步骤S6,含量评估部根据预定评估规则对公式(2)计算得到的 检测样本中的肿瘤细胞含量进行评估得到评估后检测样本中的肿瘤 细胞含量,然后进入步骤S7;
步骤S7,基因拷贝数计算单元30根据矫正后测序深度比和评估 后检测样本中的肿瘤细胞含量,采用公式(二)计算得到相应的基因 拷贝数。
实施例2
以下是对实施例2的说明。
在实施例2中,对于和实施例1中相同的结构,给予相同的符 号,并省略相同的说明。
图4为本发明的实施例2涉及的基因拷贝数评估装置的结构框 图。
如图4所示,本实施例中,基因拷贝数评估装置4具有矫正后测 序深度计算单元10、肿瘤细胞含量计算单元220、基因拷贝数计算单 元30、基因拷贝数评估侧暂存单元40、基因拷贝数评估侧通信单元 50以及基因拷贝数评估侧控制单元60。
本实施例中,基因拷贝数评估装置4与实施例1的不同之处在 于肿瘤细胞含量计算单元中的含量评估部223采用的预定评估规则, 在于含量评估部223,本实施例中的预定评估规则为:采用下述肿瘤 细胞含量矫正模型对公式(2)计算得到的样本中的肿瘤细胞含量进 行矫正,并将该矫正后得到的肿瘤细胞含量评估为评估后检测样本中 的肿瘤细胞含量,
y=ax-b (3)
式(3)中,y为矫正后得到检测样本中的肿瘤细胞含量;
x为采用公式(2)计算得到的检测样本中的肿瘤细胞含量p;
a和b为模型参数,a的取值为1.4,b的取值范围为0.23-0.26。
实施例3
该实施例为了验证采用实施例1中的肿瘤细胞含量评估***中 的肿瘤细胞含量计算单元20,以及相应的处理过程的评估样本中肿 瘤细胞含量的可靠性。具体如下。
样本选择:选择配对的肿瘤细胞系样本和正常细胞系样本,采购 的商业细胞系如表2,其中肿瘤细胞系都是纯的肿瘤细胞,也就是100% 的肿瘤细胞,正常细胞系都是纯的正常细胞,也就是100%的正常细 胞。
Figure BDA0002266527520000171
通过两种方法进行混样:
方法一:在测序前(实验阶段),将从肿瘤细胞系提取的DNA和 从正常细胞系中提取的DNA按不同比例进行混样,具体比例如表3, 然后对混合后的样本进行目标区域靶向测序。
Figure BDA0002266527520000172
方法二:在数据分析阶段,进行数据抽提混样,具体是:先对表1 中6个纯的细胞系进行测序,得到测序数据,再从测序数据中按比例 抽提数据进行混样,具体比例如表4
Figure BDA0002266527520000181
方法一和方法二的混合方法是为了模拟得到肿瘤组织样本中的 肿瘤细胞的实际含量,也就是说以细胞系混样的实际结果作为参考标 准,通过混样知道了真实的肿瘤细胞含量的话,就可以检验实施例1 中的肿瘤细胞含量评估***以及相应的处理过程的评估样本中肿瘤 细胞含量的可靠性。
所以,本实施例采用现有的FACETS和PureCN算法,并采用实 施例1的肿瘤细胞含量评估***以及相应的处理过程(为便于说明, 命名为OriPurity),分别对方法一和方法二混合后的样本计算或评估 肿瘤细胞含量。其中,正常细胞系即视为对照样本,正常细胞系和配 对的肿瘤细胞系的混合即视为检测样本。
图5为对本发明的实施例1涉及的肿瘤细胞含量评估单元和方 法的验证结果。
采用上述三种方法,分别得到的检测样本中肿瘤细胞含量的结果(x)见表5所示。
Figure BDA0002266527520000191
该结果与混合后实际的肿瘤细胞含量(也即表3和表4中的混合 后的肿瘤细胞含量)做回归分析,结果如图5所示。
图5中,左栏为各种方法对方法一混合计算或评估得到的肿瘤细 胞含量(TestPurity),与方法一混合后实际的肿瘤细胞含量(TruePurity, 表3中的混合后的肿瘤细胞含量)之间的回归分析;右栏为方法二混 合计算或评估得到的肿瘤细胞含量(TestPurity),与方法二混合后实 际的肿瘤细胞含量(TruePurity,表4中的混合后的肿瘤细胞含量)之 间的回归分析;图5中,相关性系数R的取值范围是大于等于-1,小 于等于1,R小于0时,x、y负相关,R等于0时,x、y不相关,R 大于0时,x、y正相关,绝对值越大,说明x、y的相关性越强,模 型越好回归越好;p值越小,x、y的相关性越有统计学意义,越可信。
从图5中可以看出,采用实施例1提供的装置和方法,方法一和 方法二混合检测结果的R均最大,且p均最小,也即说明相比另外两 种方法,实施例一提供的装置和方法得到的肿瘤细胞含量与混合后实 际的肿瘤细胞含量接近度最高,也即最为准确,可靠性更高。
实施例4
本实施例对实施例3中提供的样本1-5,采用方法一混合后,分 别采用实施例1和实施例2中的肿瘤细胞含量评估单元20以及相应 的处理过程分别得到评估的检测样本中的肿瘤细胞含量,结果见表6, 其中:每个样本进行了5个重复,实施例2中b分别取值为0.23、 0.25和0.26,实际肿瘤细胞含量即为前述的方法一混样的混合后的肿 瘤细胞含量。
Figure BDA0002266527520000201
Figure BDA0002266527520000211
从表6中可以看出,实施例1得到的各个肿瘤细胞含量,与实际 的肿瘤细胞含量的平均接近度为59%,实施例2中采用不同的b值 得到的肿瘤细胞含量,与实际的肿瘤细胞含量的平均接近度为79%, 可见,经实施例2矫正后得到的肿瘤细胞含量,更接近实际的肿瘤细 胞含量,相比实施例1未经矫正得到的结果,可靠度提高了20%。
再将上述分别得到的肿瘤细胞含量,分别采用实施例1和实施例 2中的基因拷贝数评估***200以及相应的过程,分别对相应检测样 本中存在拷贝数变异的基因进行拷贝数评估,同时还采用不考虑肿瘤 细胞含量的方法进行拷贝数评估,不考虑肿瘤细胞含量时,公式(二) 中的purity取值为1,结果见表7。
Figure BDA0002266527520000212
Figure BDA0002266527520000221
从表7中看出,实施例1得到的各个拷贝数结果,与实际的拷贝 数结果的平均接近度为74%,实施例2中采用不同的b值得到的拷 贝数结果,与实际的拷贝数结果的平均接近度为77%,不考虑肿瘤细 胞含量的结果与实际的拷贝数结果的平均接近度为53%。
可见,采用本实施例1和实施例2得到的肿瘤细胞含量的进行拷 贝数评估,相比不考虑肿瘤细胞含量的拷贝数评估结果,接近度至少 提高了20%,结果相比不考虑肿瘤细胞含量的拷贝数评估更可靠;而 采用经实施例2矫正后得到的肿瘤细胞含量得到的拷贝数结果,更接 近实际的拷贝数结果,相比实施例1未经矫正得到的结果,可靠度提 高了3%。
实施例的作用与效果
实施例1和实施例2涉及的基因拷贝数评估方法、装置和系 统,从实施例4可以看出,由于考了肿瘤细胞含量,相比不考虑肿 瘤细胞含量的拷贝数评估,能提高基因拷贝数的评估结果的可靠 性;
从实施例3可以看出,实施例1中对肿瘤细胞含量的评估, 相比现有的两种计算肿瘤细胞含量的方法,对检测样本中的肿瘤细 胞含量的评估结果和实际结果之间的回归性更好,也即对检测样本中 的肿瘤细胞含量的分析更可靠,从而本发明提供的基因拷贝数***以 及相应方法中,涉及的肿瘤细胞含量的评估结果能提高基因拷贝数的 评估结果;
而实施例2所涉及的肿瘤细胞含量评估,实际上是对实施例1 的评估结果的进一步矫正,通过实施例4也可以看出,该矫正相比 实施例1,能得到更为准确的肿瘤细胞含量,相应地,采用该肿瘤 细胞含量评估得到的基因拷贝数结果相比实施例1也更准确,也 即实施例2的中涉及的肿瘤细胞含量评估,对检测样本中的肿瘤细 胞含量的分析可靠性高,从而使得在考虑肿瘤细胞含量的基因拷贝 数的应用中的可靠性也更高。
另外,相应的,本发明还公开了一种基因拷贝数评估设备,包 括:用于存储计算机程序指令的存储器以及用于执行计算机程序指令 的处理器,其中,当该计算机程序指令被该处理器执行时,使该设备 执行实施例中的基因拷贝数评估装置运行的方法的步骤。技术部分 的具体内容可参见本文上述实施例,在此不再赘述。
相应的,本发明还公开了一种计算机可读存储介质,计算机可 读存储介质上存储有计算机程序,计算机程序被处理器执行时实 现如上述基因拷贝数评估装置运行的方法的步骤。具体内容可参见 实施例,在此不再赘述。

Claims (12)

1.一种基因拷贝数评估方法,根据样本中的肿瘤细胞含量和测序分析数据对检测样本中的基因拷贝数进行评估,其中,所述测序分析数据包括分别对检测样本和对照样本进行测序分析及测序深度矫正后的检测矫正测序深度和对照矫正测序深度,其特征在于,包括以下步骤:
获取所述检测矫正测序深度和所述对照矫正测序深度并采用公式(一)计算得到矫正后测序深度比;
根据所述矫正后测序深度比,采用公式(二)计算得到相应的所述基因拷贝数,
其中,公式(一)和公式(二)分别如下:
Figure FDA0003554620650000011
Figure FDA0003554620650000012
式(一)中,ratio为矫正后测序深度比,
TD为检测样本矫正后的检测矫正测序深度,
CD为对照样本矫正后的对照矫正测序深度;
式(二)中,log2ratio为以2为底ratio的对数,
purity为所述检测样本中的肿瘤细胞含量。
2.根据权利要求1所述的基因拷贝数评估方法,其特征在于,还包括:
对所述样本中的肿瘤细胞含量为进行评估后得到的评估后检测样本中的肿瘤细胞含量,
其中,所述测序分析数据还包含分别对检测样本和对照样本测序分析得到的与各个突变位点分别对应的各个平均样本突变频率和与该各个突变位点分别对应的各个对照突变频率,
通过以下步骤对所述样本中的肿瘤细胞含量进行评估得到所述评估后检测样本中的肿瘤细胞含量用于作为公式(二)中的所述检测样本中的肿瘤细胞含量:
逐一获取满足预定突变条件的所述突变位点的所述平均样本突变频率和所述对照突变频率,并采用公式(1)计算得到与该所述突变位点对应的单个肿瘤细胞含量;
一旦得到所有满足所述预定突变条件的突变位点对应的所有单个肿瘤细胞含量,就获取该所有所述单个肿瘤细胞含量并采用公式(2)计算得到所述检测样本中的肿瘤细胞含量;
根据预定评估规则对公式(2)计算得到的所述检测样本中的肿瘤细胞含量评估得到评估后检测样本中的肿瘤细胞含量,
其中,公式(1)和公式(2)分别如下所示,
Figure FDA0003554620650000021
Figure FDA0003554620650000022
公式(1)针对一个满足所述预定突变条件的突变位点,
P为计算得到的该突变位点对应的所述单个肿瘤细胞含量,
VAFa为所述检测样本中该突变位点对应的样本平均突变频率,
VAFt为所述样本中该突变位点对应的肿瘤细胞的突变频率,
VAFn为对照样本中该突变位点对应的对照突变频率,
公式(2)中,p为所述检测样本中的肿瘤细胞含量,n为满足所述预定突变条件的突变位点的总数,n个突变位点各自对应的单个肿瘤细胞含量P分别用P1、P2、P3、P4…Pn表示。
3.根据权利要求2所述的基因拷贝数评估方法,其特征在于:
其中,所述预定突变条件为,一个所述突变位点对应的所述对照突变频率大于等于0.4并小于等于0.6。
4.根据权利要求2或3所述的基因拷贝数评估方法,其特征在于:
所述预定评估规则为:直接将公式(2)计算得到的所述检测样本中的肿瘤细胞含量评估为所述评估后检测样本中的肿瘤细胞含量。
5.根据权利要求2或3所述的基因拷贝数评估方法,其特征在于:
其中,所述预定评估规则为:采用下述肿瘤细胞含量矫正模型对所述计算得到的检测样本中的肿瘤细胞含量进行矫正,并将该矫正后得到的肿瘤细胞含量评估为所述评估后检测样本中的肿瘤细胞含量,
y=ax-b (3)
式(3)中,y为所述矫正后得到的检测样本中的肿瘤细胞含量;
x为所述计算得到的检测样本中的肿瘤细胞含量p,
a和b为模型参数,a的取值为1.4,b的取值范围为0.23-0.26。
6.一种基因拷贝数评估装置,根据样本中的肿瘤细胞含量和测序分析数据对检测样本中的基因拷贝数进行评估,其中,所述测序分析数据包括分别对检测样本和对照样本进行测序分析及测序深度矫正后的检测矫正测序深度和对照矫正测序深度,其特征在于,包括:
矫正后测序深度计算单元,获取所述检测矫正测序深度和所述对照矫正测序深度并采用公式(一)计算得到矫正后测序深度比;
基因拷贝数计算单元,根据所述矫正后测序深度比,采用公式(二)计算得到相应的所述基因拷贝数,
其中,公式(一)和公式(二)分别如下:
Figure FDA0003554620650000041
Figure FDA0003554620650000042
式(一)中,ratio为矫正后测序深度比,
TD为检测样本矫正后的检测矫正测序深度,
CD为对照样本矫正后的对照矫正测序深度;
式(二)中,log2ratio为以2为底ratio的对数;
purity为所述检测样本中的肿瘤细胞含量。
7.根据权利要求6所述的基因拷贝数评估装置,其特征在于,还包括:
肿瘤细胞含量评估单元,用于对所述样本中的肿瘤细胞含量进行评估,得到评估后检测样本中的肿瘤细胞含量,
其中,所述测序分析数据还包含分别对检测样本和对照样本测序分析得到的与各个突变位点分别对应的各个平均样本突变频率和与该各个突变位点分别对应的各个对照突变频率,
将所述评估后检测样本中的肿瘤细胞含量用于作为公式(二)中的所述检测样本中的肿瘤细胞含量,所述肿瘤细胞含量评估单元具有:
单个肿瘤细胞含量计算部,逐一获取满足预定突变条件的所述突变位点的所述平均样本突变频率和所述对照突变频率,并采用公式(1)计算得到与该所述突变位点对应的单个肿瘤细胞含量;
肿瘤细胞含量计算部,一旦得到所有满足所述预定突变条件的突变位点对应的所有单个肿瘤细胞含量,就获取该所有所述单个肿瘤细胞含量并采用公式(2)计算得到所述检测样本中的肿瘤细胞含量,
含量评估部,根据预定评估规则对公式(2)计算得到的所述检测样本中的肿瘤细胞含量评估得到所述评估后检测样本中的肿瘤细胞含量,
其中,公式(1)和公式(2)分别如下所示,
Figure FDA0003554620650000051
Figure FDA0003554620650000052
公式(1)针对一个满足所述预定突变条件的突变位点,
P为计算得到的该突变位点对应的所述单个肿瘤细胞含量,
VAFa为所述检测样本中该突变位点对应的样本平均突变频率,
VAFt为所述样本中该突变位点对应的肿瘤细胞的突变频率,
VAFn为对照样本中该突变位点对应的对照突变频率,
公式(2)中,p为计算得到的所述检测样本中的肿瘤细胞含量,n为满足所述预定突变条件的突变位点的总数,n个突变位点各自对应的单个肿瘤细胞含量P分别用P1、P2、P3、P4…Pn表示。
8.根据权利要求7所述的基因拷贝数评估装置,其特征在于:
其中,所述预定评估规则为:直接将公式(2)计算得到的所述检测样本中的肿瘤细胞含量评估为所述评估后检测样本中的肿瘤细胞含量。
9.根据权利要求7所述的基因拷贝数评估装置,其特征在于:其中,所述预定评估规则为:采用下述肿瘤细胞含量矫正模型对所述计算得到的检测样本中的肿瘤细胞含量进行矫正,并将该矫正后得到的肿瘤细胞含量评估为所述评估后检测样本中的肿瘤细胞含量,
y=ax-b (3)
式(3)中,y为矫正后的检测样本中的肿瘤细胞含量p′;
x为所述计算得到的检测样本中的肿瘤细胞含量p,
a和b为模型参数,
a的取值为1.4,b的取值范围为0.23-0.26。
10.一种基因拷贝数评估***,其特征在于,包括:
测序分析装置,用于分别对检测样本和对照样本测序分析得到用于基因拷贝数评估的测序分析数据;
基因拷贝数评估装置,根据所述测序分析数据,对检测样本中的基因拷贝数进行评估,
其中,所述基因拷贝数评估装置为权利要求6-8中任意一项所述的基因拷贝数评估装置。
11.一种基因拷贝数评估设备,其特征在于,包括:
用于存储计算机程序指令的存储器;以及
用于执行计算机程序指令的处理器,
其中,当该计算机程序指令被该处理器执行时,使该设备执行权利要求1至5中任意一项所述的基因拷贝数评估方法的步骤。
12.一种计算机可读介质,其特征在于:
所述计算机可读介质存储有计算机程序,
其中,所述计算机程序能被处理器执行以实现如权利要求1至5中任意一项所述基因拷贝数评估方法的步骤。
CN201911089855.5A 2019-11-08 2019-11-08 基因拷贝数评估方法、装置、***以及计算机可读介质 Active CN110895959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911089855.5A CN110895959B (zh) 2019-11-08 2019-11-08 基因拷贝数评估方法、装置、***以及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911089855.5A CN110895959B (zh) 2019-11-08 2019-11-08 基因拷贝数评估方法、装置、***以及计算机可读介质

Publications (2)

Publication Number Publication Date
CN110895959A CN110895959A (zh) 2020-03-20
CN110895959B true CN110895959B (zh) 2022-05-20

Family

ID=69786541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911089855.5A Active CN110895959B (zh) 2019-11-08 2019-11-08 基因拷贝数评估方法、装置、***以及计算机可读介质

Country Status (1)

Country Link
CN (1) CN110895959B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462816B (zh) * 2020-03-31 2022-05-20 至本医疗科技(上海)有限公司 用于检测胚系基因微缺失微重复的方法、电子设备和计算机存储介质
CN111477276B (zh) * 2020-04-02 2020-12-15 上海之江生物科技股份有限公司 微生物的种特异共有序列的获得方法、装置及应用
CN113823353B (zh) * 2021-08-12 2024-02-09 上海厦维医学检验实验室有限公司 基因拷贝数扩增检测方法、装置及可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106834502A (zh) * 2017-03-06 2017-06-13 明码(上海)生物科技有限公司 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法
CN109887546A (zh) * 2019-01-15 2019-06-14 明码(上海)生物科技有限公司 一种基于二代测序技术的单基因或多基因拷贝数检测***及方法
CN110289047A (zh) * 2019-05-15 2019-09-27 西安电子科技大学 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120141472A1 (en) * 2009-05-29 2012-06-07 Shalini Singh Methods of scoring gene copy number in a biological sample using in situ hybridization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106834502A (zh) * 2017-03-06 2017-06-13 明码(上海)生物科技有限公司 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法
CN109887546A (zh) * 2019-01-15 2019-06-14 明码(上海)生物科技有限公司 一种基于二代测序技术的单基因或多基因拷贝数检测***及方法
CN110289047A (zh) * 2019-05-15 2019-09-27 西安电子科技大学 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Predicting tumor purity from methylation microarray data;Zhang, NQ (Zhang, Naiqian) et al.;《BIOINFORMATICS》;20151209;第31卷(第21期);全文 *
VCF2CNA: A tool for efficiently detecting copy-number alterations in VCF genotype data and tumor purity;Putnam, DK (Putnam, Daniel K.) et al.;《SCIENTIFIC REPORTS》;20190802;第9卷;全文 *
荧光原位杂交检测非小细胞肺癌EGFR基因拷贝数状况分析;郭开华等;《解剖学研究》;20110825(第04期);全文 *

Also Published As

Publication number Publication date
CN110895959A (zh) 2020-03-20

Similar Documents

Publication Publication Date Title
CN110895959B (zh) 基因拷贝数评估方法、装置、***以及计算机可读介质
CN109182525B (zh) 一种微卫星生物标志物组合、检测试剂盒及其用途
Jónás et al. Estimating the effective population size from temporal allele frequency changes in experimental evolution
Campos et al. The effects on neutral variability of recurrent selective sweeps and background selection
CN106676178B (zh) 一种评估肿瘤异质性的方法及***
CN109207594A (zh) 一种基于二代测序的通过血浆检测微卫星稳定状态和基因组变化的方法
Booker et al. Understanding the factors that shape patterns of nucleotide diversity in the house mouse genome
Živković et al. Transition densities and sample frequency spectra of diffusion processes with selection and variable population size
JP2015527057A5 (zh)
EP3293270A1 (en) Reagent kit, apparatus, and method for detecting chromosome aneuploidy
CN104789466B (zh) 检测染色体非整倍性的试剂盒和装置
CN111755068B (zh) 基于测序数据识别肿瘤纯度和绝对拷贝数的方法及装置
CN113096728B (zh) 一种微小残余病灶的检测方法、装置、存储介质及设备
CN115394357B (zh) 用于判断样本配对或污染的位点组合及其筛选方法和应用
KR101936933B1 (ko) 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
CN110853705B (zh) 肿瘤细胞含量评估方法、装置、***以及计算机可读介质
KR101936934B1 (ko) 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
KR101770962B1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
CN109390034B (zh) 一种检测肿瘤组织中正常组织含量和肿瘤拷贝数的方法
CN117153258A (zh) 校正测序数据、检测染色体非整倍体的方法和装置
US20220228209A1 (en) Dna methylation sequencing analysis methods
US20200354798A1 (en) Methods for determining tumor microsatellite instability
US20160265051A1 (en) Methods for Detection of Fetal Chromosomal Abnormality Using High Throughput Sequencing
JP7072825B2 (ja) コピー数計測装置、コピー数計測プログラムおよびコピー数計測方法
CN111627498B (zh) 一种测序数据gc偏向性校正的方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant