CN116072288A

CN116072288A - 用于体细胞诊断辅助决策的解读方法及***

Info

Publication number: CN116072288A
Application number: CN202211680670.3A
Authority: CN
Inventors: 梅园
Original assignee: Shanghai Shenzhi Medical Technology Co ltd
Current assignee: Shanghai Shenzhi Medical Technology Co ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-05-05

Abstract

本申请公开了用于体细胞诊断辅助决策的解读方法及***，所述解读方法包括：上传测序产生的数据；配置生信脚本对上传的数据进行生信分析，得到生信分析结果，并识别出变异位点；根据注释数据库对生信分析结果中识别的变异位点进行注释，以及根据评级数据库对变异位点进行打分评级；根据预设阈值，对经过变异位点注释和打分评级后的变异位点进行筛选；筛选后的变异位点与变异位点信息库中的数据进行匹配，生成解读报告。本申请根据上传的测序数据自动进行生信分析和生成解读报告，实现了肿瘤评级体系的本地化建设，可以辅助临床医生实现精准诊疗。

Description

用于体细胞诊断辅助决策的解读方法及***

技术领域

本发明涉及生物医学技术领域，尤其涉及一种用于体细胞诊断辅助决策的解读方法及***。

背景技术

相关技术中，二代测序(NGS)已成为中国临床肿瘤医生常用检测工具，中国临床肿瘤学会(CSCO)肿瘤生物标志物专家委员会发布的第一个NGS临床应用调研显示，大于30％的肿瘤科医生每月NGS检测量超5个，而中国超过90％临床医生需要NGS报告解读支持。对于医生来说，能否正确理解NGS报告的逻辑结构、抓取关键信息并综合分析，以实际指导临床决策，决定了NGS检测能否为肿瘤患者带来真实的临床获益。

基于NGS技术检测肿瘤体细胞变异的实验流程可概括为以下几个主要环节：样本采集及质量控制、DNA提取、文库制备、测序、基因组数据生成及数据分析。数据分析可进一步拆解为三个流程：变异识别(variant identification)、变异注释及过滤(variantannotation and prioritization)、变异的临床解读(interpretation of clinicalsignificance)。其中，变异识别、变异注释及过滤经由生物信息学工具实现；而临床解读则需要基于严格的分级逻辑，整合当前公共数据库及已发表文献的海量信息，特别是变异-药物敏感性信息，建立基因变异的临床解读知识库，最终将与送检样本的对应癌种及检出的基因变异相匹配的临床意义(如药物敏感性信息)及其证据级别呈现在NGS报告中。可用于指导基因体细胞变异的临床解读的循证分级***，包括2017年美国分子病理学协会(AMP)/美国临床肿瘤学会(ASCO)/美国病理学家协会(CAP)联合制定的体细胞变异解读指南，2018年欧洲肿瘤内科学会(ESMO)发布的分子靶点临床可操作性量表(ESCAT)以及纪念斯隆-凯特琳癌症中心(MSKCC)的精准医疗肿瘤数据库(OncoKB)证据等级规则。

较为常见的方案是生物信息分析员通过一些流程脚本运行各个处理步骤，包含碱基识别和去重复、去除引物序列、去除接头序列、去除低质量碱基、序列比对、去重、***缺失再比对、校正质量评分、变异判读、注释、筛选，然后由遗传咨询师或分子病理医师进行结果解读并出具临床诊断报告。

发明内容

有鉴于此，本发明的目的在于提供一种用于体细胞诊断辅助决策的解读方法及***，可根据不同的NGS试剂盒对分析工具、变异层面、质控参数、过滤参数、评级方法进行配置，并依据循证医学给出体细胞评级的证据依据及得分，根据证据评分设置对应的阈值计算体细胞评级，给出相应的诊断、药物治疗与预后辅助决策支持。

为实现上述目的，本发明采用以下技术方案：

第一个方面，本发明提供了一种用于体细胞诊断辅助决策的解读方法，步骤包括：

上传测序产生的数据；

配置生信脚本对上传的数据进行生信分析，得到生信分析结果，并识别出变异位点；

根据注释数据库对生信分析结果中识别的变异位点进行注释，以及根据评级数据库对变异位点进行打分评级；

根据预设阈值，对经过变异位点注释和打分评级后的变异位点进行筛选；

筛选后的变异位点与变异位点信息库中的数据进行匹配，生成解读报告。

作为优选，所述测序，可以是包括扩增、靶向捕获测序、全外显子测序或全基因组测序中的任意一种或更多种。

作为优选，在上传测序产生的数据之前、过程中或之后，还添加样本信息数据；所述步骤还包括：将样本信息数据与测序产生的数据相关联。例如，所述样本信息数据可以是包括：姓名，性别，年龄，身份证号，送检单位，检测样本，送检医生，送检日期、临床诊断信息、癌种中的任意一种或更多种。

作为优选，添加样本信息数据与上传测序产生的数据的先后顺序不受限制。

作为优选，所述生信分析可以是包括SNPInde突变、拷贝数变异CNV、融合基因Fusion、免疫分析TMB/MSI中的任意一种或更多种。

具体而言，作为优选，例如采用全基因组测序、全外显子测序、大panel试剂盒测序中的一种或更多种数据，可以进行所述SNPIndel突变、拷贝数变异CNV、融合基因Fusion、免疫分析TMB/MSI的生信分析。

作为优选，测序产生的数据的文件格式，可以是包括fastq、fastq.gz、BAM和VCF中的任意一种或多种。

作为优选，如果所述文件格式为fastq或fastq.gz格式，所述生信分析包括如下步骤：

使用Fastp工具和/或FastQC工具对测序产生的文件进行质控过滤，例如，所述质控过滤可以是包括去除低于质量阈值的碱基片段和接头引物，基于测序总数据量、碱基质量分布、read长度分布、Q30中的一个或多个参数对测序数据进行统计；

使用BWA-mem算法将过滤后的reads与参考基因组进行比对，得到比对后的BAM文件，使用samtools工具根据基因组坐标对BAM文件进行排序、去重和统计，再进行BAM文件的分割；

基于GATK原理寻找基因组上的变异位点，同时基于nextflow流程串联生信分析工具对变异位点进行分析。

作为优选，所述评级数据库，基于OncoKB和/或CancerVar肿瘤分级体系。

上述内容中，所述OncoKB肿瘤分级体系，是根据不同证据水平将肿瘤中基因变异信息分为如下数据等级：Tier I、Tier II、Tier III A、Tier III B和Tier VI，其中，

Tier I类：是被FDA批准的肿瘤药物biomarkers的变异；

Tier II类：是NCCN指南或专家共识的，在肿瘤治疗中可作为经FDA批准的肿瘤药物biomarkers的变异；

Tier III A类：是被认可的临床实验证明的，可以作为肿瘤药物治疗疗效潜在的靶标的变异；

Tier III B类：是经调查表明某FDA批准或未批准药物在肿瘤标准治疗中可以作为药物疗效biomarkers，但尚未被专家共识认可的变异；

Tier VI类：是经过高质量的实验或文献报道的可作为肿瘤治疗潜在靶标的变异。

上述内容中，所述CancerVar肿瘤分级体系，是通过使用机器学习的方法，不仅可以识别体细胞癌突变，还可从肿瘤诊断、预后等多个方面对突变进行解释，能够自动生成包括诊断、预后、靶向药物和位点的临床实验的总结性文本。此外对于未公开报告过的致癌突变，可以通过使用OPAI机器学习的方法，预测突变的致癌性以及药物信息、临床证据等相关的临床信息。

作为优选，所述对变异位点进行打分评级，是通过综合OncoKB和CancerVar肿瘤分级体系的评级逻辑，根据注释信息，对检测的变异位点进行肿瘤评级，更优选地，具体包括：

A)获取变异位点在OncoKB数据库和CancerVar数据库这两个评级体系中的评级类别，取较高的评级类别作为此变异位点的肿瘤评级；或者，

B)获取变异位点在OncoKB数据库和CancerVar数据库这两个评级体系中的评级类别、以及评级类别对应的评级标准，将样本的临床信息、测序数据的质量与所述评级类别以及评级类别的评级标准进行关联读取，对肿瘤评级进行人工调整。

作为优选，所述筛选的维度包括：肿瘤评级、证据维度、可信度维度、本地库及人群库频率维度、蛋白影响维度中的任意一种或更多种；其中，肿瘤评级及证据维度包括肿瘤评级、证据评分、靶向药物、化疗药物、临床实验中的任意一种或多种，可信度维度包括质量评分、总深度、突变深度、突变频率中的任意一种或多种，本地库及人群库频率维度包括本地数据库频率、最小MAF、1000genome中的任意一种或多种，蛋白影响维度包括蛋白影响、危害性中的任意一种或多种。

作为优选，所述方法还包括：在生成解读报告之前，对解读结果进行审核，生成初始报告；以及在审核完成后，对初始报告进行复核，复核完成后生成解读报告生成请求。

更优选地，所述审核包括单样本的项目审核、以及配对样本的项目审核；其中，单样本的项目审核包括：SnvlnDel突变结果、拷贝数变异结果、融合基因结果、免疫结果中的任意一种或多种，配对样本的项目审核包括SnvlnDel突变结果、化学药物结果、拷贝数变异结果、融合基因结果、免疫结果中的任意一种或多种；以及

所述复核包括单样本的项目复核、以及配对样本的项目复核；其中，单样本的项目复核包括：SnvlnDel突变结果、拷贝数变异结果、融合基因结果、免疫结果中的任意一种或多种，配对样本的项目复核包括SnvlnDel突变结果、化学药物结果、拷贝数变异结果、融合基因结果、免疫结果中的任意一种或多种。

作为优选，所述变异位点信息库包括临床解读库与突变频率库；

其中，历史解读数据和参考数据库存储于所述临床解读库；

其中，历史检测的变异位点数据存储于所述突变频率库。

作为优选，注释数据库包括PCGR、dbSNP、KEGG、COSMIC、CIVIC、CBMDB、Docm、TSGene、DisGeNet、NCG、Dgidb、Cancer hotspots、oncoKB、MycancerGenome、CKB、Clinicaltrials、refGene、ensGene、knownGene、avsnp、exac、dbnsfp、dbnsfp_interpro、revel、dbscsnv、regsnpintron、gnomad_exome、cytoBand、genomicSuperDups、gwasCatalog、rmsk、clinvar、cosmic和HGMD中的任意一种或更多种。

第二个方面，本发明提供了一种用于体细胞诊断辅助决策的解读***，包括：数据采集模块、生信分析模块、注释与评级模块、筛选与解读模块、报告生成模块、注释数据库、评级数据库、变异位点信息库；其中

数据采集模块用于：接收上传的测序产生的数据；

生信分析模块用于：配置生信脚本对上传的数据进行生信分析，得到生信分析结果，并识别出变异位点；

注释与评级模块用于：根据注释数据库对生信分析结果中识别的变异位点进行注释，以及根据评级数据库对变异位点进行打分评级；

筛选与解读模块用于：根据预设阈值，对经过变异位点注释和打分评级后的变异位点进行筛选；筛选后的变异位点与变异位点信息库中的数据进行匹配；

报告生成模块用于：根据匹配结果生成解读报告。

在一种优选实施例中，所述解读***还包括：试剂盒配置模块、文件管理模块、项目管理模块；其中，

所述试剂盒配置模块，用于对检测试剂盒的接收文件格式、分析的体细胞突变层面与对应的分析流程工具、过滤参数、注释数据库、评级逻辑、报告模板进行配置；

所述文件管理模块，用于将检测试剂盒配置的文件上传，所述测序产生的数据载于所述文件中；

所述项目管理模块，用于通过创建项目，将项目与对应的文件相关联，从而识别出载于所述文件中的测序产生的数据。

作为优选，所述项目管理模块，用于录入样本信息数据，并将所述样本信息数据与所述文件中测序产生的数据相关联。例如，所述样本信息数据可以是包括：姓名，性别，年龄，身份证号，送检单位，检测样本，送检医生，送检日期、临床诊断信息、癌种中的任意一种或更多种。

作为优选，所述文件管理模块，支持fastq、fastq.gz、BAM、VCF格式的文件上传。例如，可以支持文件联系上传、和/或断点续传功能；优选地，可以支持单个文件上传、和/或批量上传功能。

作为优选，所述***还包括质控与过滤模块，用于对文件中的测序数据进行质控、过滤处理。

更优选地，所述质控与过滤模块判断文件格式，如果判断为fastq或fastq.gz格式，则：

作为优选，所述***还包括审核模块，用于根据生信分析结果来配置审核项，并针对每一个审核项生成审核成功和/或失败选项；或者针对所有审核项生成一个审核成功和/或失败选项，如全部成功选项被激活，则生成审核报告，若部分或全部失败选项被激活，则不生成审核报告。

更优选地，所述审核项具有可读写属性，并且在所述审核模块针对审核项写入的内容，替代生信分析结果中对应的内容来载入审核报告中。

更优选地，所述审核包括单样本的项目审核、以及配对样本的项目审核；其中，单样本的项目审核包括：SnvlnDel突变结果、拷贝数变异结果、融合基因结果、免疫结果中的任意一种或多种，配对样本的项目审核包括SnvlnDel突变结果、化学药物结果、拷贝数变异结果、融合基因结果、免疫结果中的任意一种或多种。

作为优选，所述***还包括复核模块，在所述审核模块的全部成功选项被激活后，所述复核模块根据审核项来配置复核项，并针对每一个复核项生成复核成功和/或失败选项；或者针对所有复核项生成一个复核成功和/或失败选项，如全部成功选项被激活，则输出复核报告，若部分或全部失败选项被激活，则不输出复核报告。

更优选地，所述复核项具有可读写属性，并且在所述复核模块针对复核项写入的内容，替代审核报告中对应的内容来载入复核报告中。

更优选地，所述复核包括单样本的项目复核、以及配对样本的项目复核；其中，单样本的项目复核包括：SnvlnDel突变结果、拷贝数变异结果、融合基因结果、免疫结果中的任意一种或多种，配对样本的项目复核包括SnvlnDel突变结果、化学药物结果、拷贝数变异结果、融合基因结果、免疫结果中的任意一种或多种。

Tier I类：是被FDA批准的肿瘤药物biomarkers的变异；

其中，历史解读数据和参考数据库存储于所述临床解读库；

其中，历史检测的变异位点数据存储于所述突变频率库。

作为优选，所述注释数据库包括PCGR、dbSNP、KEGG、COSMIC、CIVIC、CBMDB、Docm、TSGene、DisGeNet、NCG、Dgidb、Cancer hotspots、oncoKB、MycancerGenome、CKB、Clinicaltrials、refGene、ensGene、knownGene、avsnp、exac、dbnsfp、dbnsfp_interpro、revel、dbscsnv、regsnpintron、gnomad_exome、cytoBand、genomicSuperDups、gwasCatalog、rmsk、clinvar、cosmic和HGMD中的任意一种或多种。

与现有技术相比，本发明的技术方案具有以下有益效果：

1)本发明可根据不同的NGS试剂盒对分析工具、变异层面、质控参数、过滤参数、评级方法进行配置，大大提升了灵活度与适配性。

2)在新建项目上传测序数据后，本发明提供的***可自动进行生信分析和生成解读报告，对于没有代码编码能力的人员也可快速进行生信分析，操作使用简单。

3)本发明实现了肿瘤评级体系的本地化建设，通过综合OncoKB和CancerVar肿瘤分级体系的规则，根据变异位点的注释信息，对检测的变异结果自动进行肿瘤评级，提供证据评分，关联位点相关的靶向药物、化疗药物以及相关的临床实验信息，辅助临床医生精准诊疗。

4)本发明实现了本地信息库的构建，包括临床解读库和突变频率库。临床解读库是帮助用户存储历史解读数据以及方便调用的数据库，避免用户录入重复的解读数据，减轻解读人员的工作量；突变频率库是帮助用户存储历史检测的位点突变数据，了解在对应肿瘤类型下位点突变发生的数量及其频率，可以帮助用户更好地理解突变在对应肿瘤类型下的意义。

附图说明

构成本申请的一部分附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：图1是根据本发明实施例示出的一种用于体细胞诊断辅助决策的解读***的具体工作流程示意图。

图2给出了一种点突变(包括小范围***缺失变异)的生信分析结果、解读和肿瘤评级结果。

图3给出了一种拷贝数变异的生信分析结果、解读和肿瘤评级结果。

图4给出了一种融合基因变异的生信分析结果、解读和肿瘤评级结果。

图5给出了肿瘤评级类型查看页面截图实例。

图6给出了一种解读报告的截图实例。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序，应该理解这样使用的数据在适当情况下可以互换。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

国内外有一些产品可以进行自动化的NGS变异识别和变异注释及过滤，但是在变异的临床辅助解读方面多与具体的NGS试剂盒绑定，并没有一个***来帮助临床医生获得一个基于循证和跨癌肿客观评级体系，也无法根据临床的NGS试剂盒类型进行个性化分析流程配置、注释及过滤参数的灵活调整，当出现疑似阳性位点后，遗传咨询师和分子病理医师难以根据分析结果评判结果的真实性，因为原有产品多为一个黑箱，只有评级的等级，没有推导评级的依据与证据评分体系。

为解决上述技术问题，本发明提供一种解决方案，可以辅助临床医生实现精准诊疗。

实施例1

本发明实施例提供了一种用于体细胞诊断辅助决策的解读***，包括：试剂盒配置模块、文件管理模块、项目管理模块、生信分析模块、注释与评级模块、筛选与解读模块、报告生成模块和本地信息库。

各模块具体功能描述如下：

试剂盒配置模块：对检测试剂盒的接收文件格式、分析的体细胞突变层面与对应的分析流程工具、过滤参数、注释数据库、评级逻辑、报告模板进行配置。其中，不同的检测试剂盒支持的上传的文件格式，包括fastq，fastq.gz，BAM和VCF共4种，检测试剂盒是用户根据检测使用的检测试剂盒在***进行配置的。过滤参数与分析工具有关系。根据用户关注的方面，例如人群频率、致病性，化疗/靶向治疗等，选择注释数据库。关于评级逻辑：目前OncoKB和CancerVar评级体系使用较多，Oncokb是首个被FDA部分认可的癌症体细胞变异数据库，CancerVar除收录常见的肿瘤基因和位点外，还支持利用机器学习的方法预测位点的评级。

文件管理模块：对检测试剂盒配置的文件上传，支持fastq、fastq.gz、BAM、VCF格式的文件上传、断点续传、批量上传功能。

项目管理模块：通过新建项目，关联项目相关的样本，包括样本的分子病理号、检测项目类型以及样本的基础信息。其中，样本的基础信息包括姓名、性别、年龄、身份证号、送检单位、检测样本、送检医生、送检日期、临床诊断信息以及癌种(oncotree，https://oncotree.info/)。

生信分析模块：用于配置生信脚本对上传的文件进行生信分析，得到生信分析结果。

注释与评级模块：通过收集、下载和整理肿瘤相关位点、基因、药物等数据库，对变异位点从功能、人群突变频率和数据库收录等多个方面进行注释，同时参考AMP/ASCO/CAP标准的cancervar和MSKCC创建的FDA认可的oncoKB两种主流的评级逻辑，用户可直接采用这两种分级体系，同时也可自定义分级体系。

筛选与解读模块：用于对经过变异位点注释和打分评级后的变异位点进行筛选，过滤多态性位点和假阳性位点，并对筛选后的变异位点进行解读；

结构化报告生成模块：是根据每个检测试剂盒的检测内容和分析筛选后的结果，自动生成结果报告。

本地信息库(即变异位点信息库)：包括临床解读库与突变频率库。临床解读库是帮助用户存储历史解读数据以及方便调用的数据库。突变频率库是帮助用户存储历史检测的位点突变数据，了解在对应肿瘤类型下位点突变发生的数量及其频率，帮助用户更好地理解突变在对应肿瘤类型中的意义。

在一种优选实施例中，所述***还包括：质控与过滤模块，所述质控与过滤模块通过对测序数据进行质控，从配对的reads数量，Q30，GC含量以及回贴read的百分比等维度对测序数据进行质控，同时还可自定义设置过滤参数，例如低质量的Q值阈值，低质量碱基所占百分比，过滤最小read长度等。其中，reads是高通量测序中一个反应获得的测序序列；Q30是指一个碱基的识别可靠性等于99.9％，或者说出错可能性是0.1％；GC含量是指G和C这两中碱基占总碱基的比例；回贴read是指质控后能比对到基因组上的read。

在一种优选实施例中，所述***还包括：审核模块，所述审核模块用于对所述筛选与解读模块输出的解读结果进行审核，生成初始报告，以及在审核完成后，对初始报告进行复核。

具体的，所述审核模块用于根据生信分析结果来配置审核项，并针对每一个审核项生成审核成功和/或失败选项；或者针对所有审核项生成一个审核成功和/或失败选项，如全部成功选项被激活，则生成审核报告，若部分或全部失败选项被激活，则不生成审核报告。作为优选，所述审核项具有可读写属性，并且在所述审核模块针对审核项写入的内容，替代生信分析结果中对应的内容来载入审核报告中。

具体的，在所述审核模块的全部成功选项被激活后，所述复核模块根据审核项来配置复核项，并针对每一个复核项生成复核成功和/或失败选项；或者针对所有复核项生成一个复核成功和/或失败选项，如全部成功选项被激活，则输出复核报告，若部分或全部失败选项被激活，则不输出复核报告。作为优选，所述复核项具有可读写属性，并且在所述复核模块针对复核项写入的内容，替代审核报告中对应的内容来载入复核报告中。

实施例2

本发明实施例还提供了一种用于体细胞诊断辅助决策的解读方法，基于实施例1所述的一种用于体细胞诊断辅助决策的解读***实现。

如图2所示，一种用于体细胞诊断辅助决策的解读方法，具体包括如下步骤S1-S7：

步骤S1，文件上传。

通过扩增、靶向捕获测序、全外显子测序或全基因组测序获得原始的下机数据，然后通过文件管理模块进行文件上传。支持针对不同的检测试剂盒自定义不同的输入文件格式，文件格式包括fastq、fastq.gz、BAM、VCF中的任意一种或多种。

步骤S2，项目管理。

通过添加项目，填写项目相关的样本信息，包括样本的分子病理号、检测项目类型以及样本的基础信息，例如姓名、性别、年龄、身份证号、送检单位、检测样本、送检医生、送检日期、临床诊断信息以及癌种等，通过人工选择每个项目关联的样本数据，关联完成后，提交分析任务即可进行生信分析。

需要说明的是，步骤S2中，在关联之前的操作与步骤S1的操作可互换，可以先创建项目，然后文件上传，再在项目中关联对应的文件，也可以先上传文件，然后在新建项目时直接选择对应的文件。

步骤S3，生信分析。

生信分析的层面包括SNPInde突变、拷贝数变异CNV、融合基因Fusion和免疫分析TMB/MSI，根据不同检测试剂盒进行不同分析层面的配置。例如，全基因组测序、全外显子测序或大panel试剂盒可以进行SNPIndel突变、拷贝数变异CNV、融合基因Fusion和免疫分析TMB/MSI，如果检测试剂盒中未针对SSR和MMR设计探针，则无法进行免疫分析，具体的分析层面与检测试剂盒的探针设计有关。如果输入的是原始的fastq、fastq.gz文件，首先需要对原始数据进行清洗和质控，如果上传的是VCF文件，则直接进行后续的注释和评级等生信分析。

具体地，从原始fastq到生信分析结果主要包括以下分析步骤：

1)数据预处理和质控：使用Fastp/FastQC对测序原始数据进行质控，去除低质量碱基片段和接头引物，从测序总数据量，碱基质量分布，read长度分布，Q30等方面对测序数据进行统计。

2)数据比对：使用BWA-mem将过滤后的reads与参考基因组进行比对，得到比对后的BAM文件，然后使用samtools根据基因组坐标对BAM文件进行排序、去重和统计，再进行BAM文件的分割，将一个大BAM文件分割为多个子BAM文件，大大提升后续分析速度和效率。

3)变异分析：基于GATK最佳实践进行变异位点calling，同时基于nextflow串联多个生信分析工具进行CVN、Fusion、免疫指标等多个层面的分析，包括使用CNVkit进行基因组拷贝数变异分析，使用msisensor进行MSI分析，使用lumpy、AnnotSV进行SV结构变异分析和注释，使用自研的脚本进行TMB分析。

图2给出了一种点突变(包括小范围***缺失变异)的生信分析结果，如EGFR基因、MTOR基因等出现的突变；图3给出了一种拷贝数变异的生信分析结果；图4给出了一种融合基因变异的生信分析结果。

步骤S4，变异位点的注释和肿瘤评级。

1)变异位点的注释：

AnnoVar和snpEFF是目前使用频率最高的两个变异位点注释库，通过对变异位点进行基因组位置、蛋白功能影响、人群突变频率和数据库收录情况的注释，用户可以根据需要选择相应的注释数据库，本***提供的数据库详见表1所示：

表1，***包括的注释数据库列表

2)肿瘤评级

依据AMP/ASCO/CAP的体细胞变异评分标准和指南，本***采用OncoKB和CancerVar两种肿瘤评级体系。其中，OncoKB数据库由纪念斯隆-凯特琳癌症中心MSKCC(Memorial Sloan Kettering Cancer Center)开发和维护，数据来源包括FDA、NCCN、ASCO或ESMO会议论文、肿瘤领域专家共识和论文文献，以及cBioPortal，COSMI等公共数据库，根据不同证据水平将肿瘤中基因变异信息分为4个等级：Tier I、Tier II、Tier III和TierVI，如图1-图3所示。Tier I类是被FDA批准的肿瘤药物biomarkers的变异，Tier II类是NCCN指南或专家共识的，在肿瘤治疗中可作为经FDA批准的肿瘤药物biomarkers的变异，Tier III A类是被认可的临床实验证明的，可以作为肿瘤药物治疗疗效潜在的靶标的变异，Tier III B类是被认可的临床实验证明的，可以作为肿瘤药物治疗疗效潜在的靶标的变异，Tier VI是经过高质量的实验或文献报道的可作为肿瘤治疗潜在靶标的变异。CancerVar是由美国费城儿童医院(CHOP)研究人员开发的辅助解释癌症中体细胞突变的临床意义，通过使用机器学习的方法，不仅可以识别体细胞癌突变，还可从肿瘤诊断、预后等多个方面对突变进行解释，它包括1911个癌症相关基因中的1300万个体细胞变异的临床证据，而且能够自动生成总结性文本，包括诊断、预后、靶向药物和位点的临床实验，从而减少临床医生在解读过程中对位点的分类、评级等工作量，此外对于未公开报告过的致癌突变，通过使用OPAI机器学习的方法，***可以预测突变的致癌性以及药物信息、临床证据等相关的临床信息。

本***通过综合OncoKB和CancerVar两种评级体系，页面可查看位点在这两个评级体系中的评级类别，同时取较高的评级类别作为此位点的肿瘤评级，此外，通过查看评级类型，页面会列出详细的评级标准，解读人员可同时结合样本的临床信息和测序数据的质量进行评级调整，如图5所示的页面截图。其中，解读人员在查看分析结果时，可以在线查看录入样本的临床信息，解读人员根据基础分析的质控统计数据例如Q30、平均测序深度、mapping率评估测序的质量。用户可以根据需求自主选择要使用的肿瘤评级体系，同时还可在此基础上自定义评级的逻辑。如图4所示。

步骤S5，分析结果筛选和数据解读。

结合样本的临床信息、测序质量、IVG视图等对分析结果进行筛选，然后对筛选的结果进行临床意义解读，参照图2-图4，分析结果筛选的维度包括：肿瘤评级及证据(肿瘤评级、证据评分、靶向药物、化疗药物、临床实验)、可信度(质量评分，总深度，突变深度，突变频率)、本地库及人群库频率(本地数据库频率，最小MAF，1000genome等)和蛋白影响(蛋白影响，危害性)。筛选的目的：因为筛选的结果很多，所以需要从中挑选一些可信度较高的结果进行报告，医生可以结合临床信息和测序质量，排除一些假阳性结果。

此外，还可利用oncoKB、PCGR、CancerVar、pharmgkb数据库对注释到靶向药物、化疗药物以及相关的临床实验进行筛选，然后对筛选到的位点进行临床意义的解读，解读完成后，可以收藏此解读信息，用于后期相同位点和临床诊断的临床位点注释，从而有效积累本地临床解读库。

步骤S6，项目审核和复核。

审核模块，被配置为对生信分析任务的解读结果进行审核，生成初始报告，审核完成时提交初始报告的复核请求。其中，单样本的项目审核功能有：SnvlnDel突变结果、拷贝数变异结果、融合基因结果和免疫结果，这四个地方需要审核，根据生信分析项目不同需要审核的内容会相应变化。配对样本的项目审核功能有：SnvlnDel突变结果、化学药物结果、拷贝数变异结果、融合基因结果和免疫结果，根据生信分析项目不同，审核的内容会相应变化。

复核模块，被配置为在收到复核请求时，对初始报告进行复核，复核完成后提交报告生成请求。单样本的项目复核功能有：SnvlnDel突变结果、拷贝数变异结果、融合基因结果和免疫结果，根据检测项目不同，复核的内容会相应变化。配对样本的项目复核功能有：SnvlnDel突变结果、化学药物结果、拷贝数变异结果、融合基因结果和免疫结果，根据检测项目不同，复核的内容会相应变化。步骤S7，生成项目报告。

根据项目审核复核后的结果，按照不同检测试剂盒定义的报告模板，***可以自动生成电子报告，避免传统的人工操作导致的报告错误，如图6所示，解读报告包括了样本来源的相关信息、检测内容和方法，以及根据上述步骤分析的变异结果，同时化学药物结果也会在解读报告中展示，解读报告还可以统计肿瘤细胞占比。

本实施例的方法还包括：于本地建立本地信息库(即变异位点信息库)。

本地信息库包括临床解读库与突变频率库。临床解读库是帮助用户存储历史解读数据以及方便调用的数据库，避免用户录入重复的解读数据，减轻解读人员的工作量。突变频率库是帮助用户存储历史检测的位点突变数据，了解在对应肿瘤类型下位点突变发生的数量及其频率，帮助用户更好的理解突变在对应肿瘤类型中的意义，随着数据的积累和统计，可以有效发现中国人群中常见的假阳性和假阴性变异位点，提高报告结果的准确性，对精准医学的发展具有重要推动作用。

综上所述，本发明提供了一种用于体细胞诊断辅助决策的解读方法及***，可根据不同的NGS试剂盒对分析工具、变异层面、质控参数、过滤参数、评级方法进行配置，大大提升了灵活度与适配性；在新建项目上传测序数据后，本发明提供的***可自动进行生信分析和生成报告，对于没有代码编码能力的人员也可快速进行生信分析，操作使用简单；本发明实现了肿瘤评级体系的本地化建设，通过综合OncoKB和CancerVar肿瘤分级体系的规则，根据位点的注释信息，对检测的变异结果自动进行肿瘤评级，提供证据评分，关联位点相关的靶向药物、化疗药物以及相关的临床实验信息，辅助临床医生精准诊疗；本发明实现了本地信息库的构建，包括临床解读库和突变频率库，临床解读库是帮助用户存储历史解读数据以及方便调用的数据库，避免用户录入重复的解读数据，减轻解读人员的工作量，突变频率库是帮助用户存储历史检测的位点突变数据，了解在对应肿瘤类型下位点突变发生的数量及其频率，可以帮助用户更好地理解突变在对应肿瘤类型下的意义。本发明为临床个性化的用药和治疗提供了辅助决策，提高了分析效率。

需要说明的是，本说明书一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

以上对本发明的具体实施例进行了详细描述，但其只是作为范例，本发明并不限制于以上描述的具体实施例。对于本领域技术人员而言，任何对本发明进行的等同修改和替代也都在本发明的范畴之中。因此，在不脱离本发明的精神和范围下所作的均等变换和修改，都应涵盖在本发明的范围内。

Claims

1.用于体细胞诊断辅助决策的解读方法，其特征在于，包括：

上传测序产生的数据；

2.根据权利要求1所述的解读方法，其特征在于，在上传测序产生的数据之前、过程中或之后，还添加样本信息数据；所述步骤还包括：将样本信息数据与测序产生的数据相关联。

3.根据权利要求1所述的解读方法，其特征在于，所述评级数据库，基于OncoKB和/或CancerVar肿瘤分级体系。

4.根据权利要求3所述的解读方法，其特征在于，所述对变异位点进行打分评级，是通过综合OncoKB和CancerVar肿瘤分级体系的评级逻辑，根据注释信息，对检测的变异位点进行肿瘤评级，具体包括：

5.根据权利要求1所述的解读方法，其特征在于，所述筛选的维度包括：肿瘤评级、证据维度、可信度维度、本地库及人群库频率维度、蛋白影响维度中的任意一种或更多种；其中，

肿瘤评级及证据维度包括肿瘤评级、证据评分、靶向药物、化疗药物、临床实验中的任意一种或多种；

可信度维度包括质量评分、总深度、突变深度、突变频率中的任意一种或多种；

本地库及人群库频率维度包括本地数据库频率、最小MAF、1000genome中的任意一种或多种；

蛋白影响维度包括蛋白影响、危害性中的任意一种或多种。

6.根据权利要求1所述的解读方法，其特征在于，所述方法还包括：在生成解读报告之前，对解读结果进行审核，生成初始报告；以及在审核完成后，对初始报告进行复核，复核完成后生成解读报告生成请求。

7.根据权利要求1所述的解读方法，其特征在于，所述变异位点信息库包括临床解读库与突变频率库；

其中，历史解读数据和参考数据库存储于所述临床解读库；

其中，历史检测的变异位点数据存储于所述突变频率库。

8.用于体细胞诊断辅助决策的解读***，其特征在于，包括：数据采集模块、生信分析模块、注释与评级模块、筛选与解读模块、报告生成模块、注释数据库、评级数据库、变异位点信息库；其中

数据采集模块用于：接收上传的测序产生的数据；

报告生成模块用于：根据匹配结果生成解读报告。

9.根据权利要求8所述的解读***，其特征在于，所述解读***还包括：试剂盒配置模块、文件管理模块、项目管理模块；其中，

10.根据权利要求8所述的解读***，其特征在于，所述***还包括审核模块，用于根据生信分析结果来配置审核项，并针对每一个审核项生成审核成功和/或失败选项；或者针对所有审核项生成一个审核成功和/或失败选项，如全部成功选项被激活，则生成审核报告，若部分或全部失败选项被激活，则不生成审核报告。

11.根据权利要求10所述的解读***，其特征在于，所述***还包括复核模块，在所述审核模块的全部成功选项被激活后，所述复核模块根据审核项来配置复核项，并针对每一个复核项生成复核成功和/或失败选项；或者针对所有复核项生成一个复核成功和/或失败选项，如全部成功选项被激活，则输出复核报告，若部分或全部失败选项被激活，则不输出复核报告。

12.根据权利要求8所述的解读***，其特征在于，所述变异位点信息库包括临床解读库与突变频率库；

其中，历史解读数据和参考数据库存储于所述临床解读库；

其中，历史检测的变异位点数据存储于所述突变频率库。