CN117935933B - Cdkn2a/b纯合性缺失的分析方法及*** - Google Patents

Cdkn2a/b纯合性缺失的分析方法及*** Download PDF

Info

Publication number
CN117935933B
CN117935933B CN202410327353.6A CN202410327353A CN117935933B CN 117935933 B CN117935933 B CN 117935933B CN 202410327353 A CN202410327353 A CN 202410327353A CN 117935933 B CN117935933 B CN 117935933B
Authority
CN
China
Prior art keywords
cdkn2a
matrix
single tumor
standard deviation
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410327353.6A
Other languages
English (en)
Other versions
CN117935933A (zh
Inventor
唐公成
柳毅
赵明玉
牛力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Letu Medical Laboratory Co ltd
Original Assignee
Beijing Letu Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Letu Medical Laboratory Co ltd filed Critical Beijing Letu Medical Laboratory Co ltd
Priority to CN202410327353.6A priority Critical patent/CN117935933B/zh
Publication of CN117935933A publication Critical patent/CN117935933A/zh
Application granted granted Critical
Publication of CN117935933B publication Critical patent/CN117935933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明实施例公开了一种CDKN2A/B纯合性缺失的分析方法及***,获取一定数量的单肿瘤样本,并用FISI进行检测,确定样本的CNKN2A/B纯杂合性缺失类型作为金标准;对单肿瘤样本进行测序处理,得到单肿瘤样本对应的测序数据,并对测序数据进行预处理;基于预处理后的测序数据确定单肿瘤样本的CDKN2A/B区域碱基序列,并提取深度特征和提取kmer特征;基于深度特征和kmer特征获取最终特征变量,将最终特征变量和FISH确定的纯杂合性缺失类型作为Catboost模型的输入、对Catboost模型进行训练,训练后的模型可进行未知样本的纯杂合性预测。该CDKN2A/B纯合性缺失的分析方法解决现有技术中无法准确且高效分析CDKN2A/B纯合性缺失的问题。

Description

CDKN2A/B纯合性缺失的分析方法及***
技术领域
本发明涉及计算机技术领域,具体涉及一种CDKN2A/B纯合性缺失的分析方法、***及电子设备。
背景技术
脑癌是发生在脑组织内的癌症,大量研究表明,细胞周期蛋白依赖性激酶抑制剂2A/B(CDKN2A/B)基因的纯合缺失与多种类型的脑癌的发生发展存在密切关系。CDKN2A也被称为细胞周期蛋白依赖性激酶抑制剂2A,是一种位于人类染色体9p21.3带的基因,在许多组织和细胞类型中广泛表达;该基因编码两种蛋白质,包括INK4家族成员p16(或p16INK4a)和p14arf,这两种蛋白都通过调节细胞周期发挥肿瘤抑制作用;p16抑制细胞周期蛋白依赖性激酶4和6(CDK4和CDK6),从而激活视网膜母细胞瘤(Rb)家族的蛋白质,阻止从G1期到S期的转变;CDKN2B基因与CDKN2A相邻,在多种癌症中经常发生突变、缺失或失调;该基因编码一种细胞周期蛋白依赖性激酶抑制剂,也称为p15Ink4b蛋白,其可与CDK4或CDK6形成复合物,并且阻止细胞周期蛋白D激活CDK激酶,抑制细胞周期G1进程。
多项相关的生存分析均表明,CDKN2A/B的纯合缺失与更短的无进展生存期相关;对脑膜瘤患者的相关研究表明,携带有CDKN2A/B纯合缺失的脑膜瘤患者从手术开始就具有明显更差的预后和更快的疾病进展。因此,CDKN2A/B的缺失状态可作为鉴定高复发风险脑膜瘤患者的分子标志物;伴IDH1或IDH2突变的弥漫浸润性星形细胞胶质瘤中如果出现微血管增生或坏死或CDKN2A/B纯合性缺失,或这3种特征的任意组合,即为CNS WHO 4级,而诊断CNS WHO2或3级的IDH突变型星形细胞瘤需缺少CDKN2A/B纯合性缺失;因此,CDKN2A/B的纯合缺失突变在脑膜瘤和胶质瘤的分子诊断中起着非常重要的作用。
传统的CDKN2A/B纯合缺失检测方法主要为FISH,但是,现有的FISH检测在实验环节、设置对照等有较多的限制因素,成本较高且准确率较低;
因此,需要一种既可以保证准确率又可以节约成本的CDKN2A/B纯合性缺失的分析方法。
发明内容
本发明实施例的目的在于提供一种CDKN2A/B纯合性缺失的分析方法、***及电子设备,用以解决现有技术中无法准确且高效分析CDKN2A/B纯合性缺失的问题。
为实现上述目的,本发明实施例提供一种CDKN2A/B纯合性缺失的分析方法,所述方法具体包括:
获取一定数量的单肿瘤样本,其中,所述单肿瘤样本包括杂合性缺失样本、野生型样本和纯合性缺失样本;
对所述单肿瘤样本进行测序处理,得到所述单肿瘤样本对应的测序数据,并对所述测序数据进行预处理;
基于预处理后的测序数据确定所述单肿瘤样本的CDKN2A/B区域碱基序列,并提取深度特征和提取kmer特征;
将所述深度特征和所述kmer特征进行合并,组成一个矩阵,基于样本类别对所述矩阵进行拆分,得到与所述样本类别数量对应的小矩阵,计算小矩阵的组间标准差与组内标准差,提取组间标准差大于预设值且组内标准差小于预设值的特征作为最终特征变量;
将所述最终特征变量、最终特征变量对应的样本类型作为Catboost模型的输入,对所述Catboost模型进行训练。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步地,所述对所述单肿瘤样本进行测序处理,得到所述单肿瘤样本对应的测序数据,并对所述测序数据进行预处理,包括:
将测序数据与人类参考基因组hg19进行比对处理,以得到按照染色体顺序排序、去除重读序列后的测序数据。
进一步地,所述提取深度特征,包括:
分别计算每个单肿瘤样本对应的CDKN2A/B探针区域平均分布/样本总体平均深度,以得到深度特征。
进一步地,所述提取kmer特征,包括:
选取17bp作为kmer长度,获取CDKN2A/B区域碱基序列的kmer;
提取CDKN2A/B区域碱基序列的kmer中出现样本群体频率大于预设阈值的kmer,以得到kmer特征。
进一步地,所述矩阵的行为单肿瘤样本,列为单肿瘤样本对应的类标签,类标签设置为0.5的表示杂合性缺失,类标签设置为1表示纯合缺失,类标签设置为0的表示野生型。
进一步地,所述基于样本类别对所述矩阵进行拆分,得到与所述样本类别数量对应的小矩阵,计算小矩阵的组间标准差与组内标准差,提取组间标准差大于预设值且组内标准差小于预设值的特征作为特征变量,包括;
基于组间标准差构建组间差异矩阵,其中,所述组间差异矩阵第一列为矩阵的列名,第二列为组间标准差的均值;
基于组内标准差构建组内差异矩阵,其中,所述组内差异矩阵第一列为矩阵的列名,第二列为组内标准差的均值;
提取组间差异矩阵和组内差异矩阵第一列相同的部分,将相同的部分与第二列相除,得到差异系数;
将差异系数按照进行从大到小进行排序,以构建差异列表;
提取所述差异列表的第一列作为候选变量;
提取矩阵中包含所述候选变量的列,按照候选变量从上到下的顺序,构建一个新矩阵;
通过所述新矩阵对所述Catboost模型进行训练,并计算训练完成后的所述Catboost模型的平均准确率;
基于最大平均准确率对应的新矩阵获取特征变量。
进一步地,所述CDKN2A/B纯合性缺失的分析方法,还包括:
提取矩阵中包含特征变量的列,以得到最终数据集;
基于十倍交叉验证方式将所述最终数据集划分为训练集和测试集;
基于所述训练集训练所述Catboost模型;
基于所述测试集评估满足性能条件的所述Catboost模型的分类结果,得到所述Catboost模型所对应的评价指数。
进一步地,所述CDKN2A/B纯合性缺失的分析方法,还包括:
获取待检测CDKN2A/B纯合性缺失的单肿瘤数据;
对所述单肿瘤数据进行测序处理,得到所述单肿瘤数据对应的测序数据,并对所述测序数据进行预处理;
基于预处理后的测序数据确定所述单肿瘤样本的CDKN2A/B区域碱基序列,并提取初始深度特征和初始kmer特征;
将所述初始深度特征和所述初始kmer特征进行合并,组成一个矩阵,基于样本类别对所述矩阵进行拆分,得到与所述样本类别数量对应的小矩阵,计算小矩阵的组间标准差与组内标准差,提取组间标准差大于预设值且组内标准差小于预设值的特征作为目标特征变量;
将所述目标特征变量以及相应的单肿瘤数据对应的类型输入,进行模型训练,通过训练后的模型对待检测CDKN2A/B纯合性缺失的单肿瘤数据进行预测,输出待检测的单肿瘤数据样本对应的纯杂合性缺失类型,其中,所述类型包括杂合性缺失、野生型和纯合性缺失。
一种CDKN2A/B纯合性缺失的分析***,包括:
获取模块,用于获取一定数量的单肿瘤样本,其中,所述单肿瘤样本包括杂合性缺失样本、野生型样本和纯合性缺失样本;
测序处理模块,用于对所述单肿瘤样本进行测序处理,得到所述单肿瘤样本对应的测序数据,并对所述测序数据进行预处理;
特征提取模块,用于基于预处理后的测序数据确定所述单肿瘤样本的CDKN2A/B区域碱基序列,并提取深度特征和提取kmer特征;
特征变量获取模块,用于将所述深度特征和所述kmer特征进行合并,组成一个矩阵,基于样本类别对所述矩阵进行拆分,得到与所述样本类别数量对应的小矩阵,计算小矩阵的组间标准差与组内标准差,提取组间标准差大于预设值且组内标准差小于预设值的特征作为最终特征变量;
模型训练模块,用于将所述最终特征变量、最终特征变量对应的样本类型作为Catboost模型的输入,对所述Catboost模型进行训练;
预测模块,用于将待检测CDKN2A/B纯合性缺失的单肿瘤数据对应的目标特征变量输入至训练完成的Catboost模型中,输出所述单肿瘤数据对应的类型,其中,所述类型包括杂合性缺失、野生型和纯合性缺失。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如所述方法的步骤。
本发明实施例具有如下优点:
本发明中CDKN2A/B纯合性缺失的分析方法,获取一定数量的单肿瘤样本,其中,所述单肿瘤样本包括杂合性缺失样本、野生型样本和纯合性缺失样本;对所述单肿瘤样本进行测序处理,得到所述单肿瘤样本对应的测序数据,并对所述测序数据进行预处理;基于预处理后的测序数据确定所述单肿瘤样本的CDKN2A/B区域碱基序列,并提取深度特征和提取kmer特征;将所述深度特征和所述kmer特征进行合并,组成一个矩阵,基于样本类别对所述矩阵进行拆分,得到与所述样本类别数量对应的小矩阵,计算小矩阵的组间标准差与组内标准差,提取组间标准差大于预设值且组内标准差小于预设值的特征作为特征变量;将所述最终特征变量作为Catboost模型的输入、所述最终特征变量对应的样本类型也作为Catboost模型的输入,对所述Catboost模型进行训练,训练后的模型可用于未知样本预测;解决了现有技术中无法准确且高效分析CDKN2A/B纯合性缺失的问题。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明CDKN2A/B纯合性缺失的分析方法的流程图;
图2为本发明CDKN2A/B纯合性缺失的分析***的架构图;
图3为本发明提供的电子设备实体结构示意图。
其中附图标记为:
获取模块10,测序处理模块20,特征提取模块30,特征变量获取模块40,模型训练模块50,预测模块60,电子设备70,处理器701,存储器702,总线703。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
图1为本发明CDKN2A/B纯合性缺失的分析方法实施例流程图,如图1所示,本发明实施例提供的一种CDKN2A/B纯合性缺失的分析方法包括以下步骤:
S101,获取一定数量的单肿瘤样本,其中,单肿瘤样本包括杂合性缺失样本、野生型样本和纯合性缺失样本;
具体的,选了164例单肿瘤样本,均经过FISH金标准验证,其中单肿瘤样本包括:108杂合性缺失样本(标签为0.5),24例野生型样本(标签为0),31例纯合性缺失样本(标签为1)。
S102,对单肿瘤样本进行测序处理,得到单肿瘤样本对应的测序数据,并对测序数据进行预处理;
具体的,采用捕获芯片进行二代测序,测序仪下机数据为bcl文件,进行数据拆分,获得Fastq数据,其中,捕获芯片中CDKN2A/B探针序列如下:
CDKN2ANM_000077exon3(9:21968176-21968296)
>CCACACATCTTTGACCTCAGGTTTCTAACGCCTGTTTTCTTTCTGCCCTCTGCAGACATCCCCGATTGAAAGAACCAGAGAGGCTCTGAGAAACCTCGGGAAACTTAGATCATCAGTCAC,如SEQ ID NO.1所示;
CDKN2ANM_000077exon2(9:21970901-21971021)
>CTGCCCGTGGACCTGGCTGAGGAGCTGGGCCATCGCGATGTCGCACGGTACCTGCGCGCGGCTGCGGGGGGCACCAGAGGCAGTAACCATGCCCGCATAGATGCCGCGGAAGGTCCCTCA,如SEQ ID NO.2所示;
CDKN2ANM_000077exon2.1(9:21971021-21971141)
>GCCGACCCCGCCACTCTCACCCGACCCGTGCACGACGCTGCCCGGGAGGGCTTCCTGGACACGCTGGTGGTGCTGCACCGGGCCGGGGCGCGGCTGGACGTGCGCGATGCCTGGGGCCGT,如SEQ ID NO.3所示;
CDKN2ANM_000077exon2.2(9:21971141-21971261)
>TTTCCGTCATGCCGGCCCCCACCCTGGCTCTGACCATTCTGTTCTCTCTGGCAGGTCATGATGATGGGCAGCGCCCGAGTGGCGGAGCTGCTGCTGCTCCACGGCGCGGAGCCCAACTGC,如SEQ ID NO.4所示;
CDKN2ANM_000077exon1(9:21974677-21974797)
>GCCTTCGGCTGACTGGCTGGCCACGGCCGCGGCCCGGGGTCGGGTAGAGGAGGTGCGGGCGCTGCTGGAGGCGGGGGCGCTGCCCAACGCACCGAATAGTTACGGTCGGAGGCCGATCCA,如SEQ ID NO.5所示;
CDKN2ANM_000077exon1.1(9:21974797-21974917)
>GGGCTGGCTGGTCACCAGAGGGTGGGGCGGACCGCGTGCGCTCGGCGGCTGCGGAGAGGGGGAGAGCAGGCAGCGGGCGGCGGGGAGCAGCATGGAGCCGGCGGCGGGGAGCAGCATGGA,如SEQ ID NO.6所示;
CDKN2BNM_004936exon2(9:22005989-22006109)
>GCTGCACCGGGCCGGGGCGCGGCTGGACGTGCGCGATGCCTGGGGTCGTCTGCCCGTGGACTTGGCCGAGGAGCGGGGCCACCGCGACGTTGCAGGGTACCTGCGCACAGCCACGGGGGA,如SEQ ID NO.7所示;
CDKN2BNM_004936exon2.1(9:22006109-22006229)
>CGCCCGCGTGGCGGAGCTGCTGCTGCTCCACGGCGCGGAGCCCAACTGCGCAGACCCTGCCACTCTCACCCGACCGGTGCATGATGCTGCCCGGGAGGGCTTCCTGGACACGCTGGTGGT,如SEQ ID NO.8所示;
CDKN2BNM_004936exon2.2(9:22006229-22006349)
>TGCAATTAGGTGTTTCTTTAAATGGCTCCACCTGCCTTGCCCCGGCCGGCATCTCCCATACCTGCCCCCACCCTGGCTCTGACCACTCTGCTCTCTCTGGCAGGTCATGATGATGGGCAG,如SEQ ID NO.9所示;
CDKN2BNM_004936exon1(9:22008797-22008917)
>CGGCAGCGATGAGGGTCTGGCCAGCGCCGCGGCGCGGGGACTAGTGGAGAAGGTGCGACAGCTCCTGGAAGCCGGCGCGGATCCCAACGGAGTCAACCGTTTCGGGAGGCGCGCGATCCA,如SEQ ID NO.10所示;
CDKN2BNM_004936exon1.1(9:22008917-22009037)
>CAGCGTGGGAAAGAAGGGAAGAGTGTCGTTAAGTTTACGGCCAACGGTGGATTATCCGGGCCGCTGCGCGTCTGGGGGCTGCGGAATGCGCGAGGAGAACAAGGGCATGCCCAGTGGGGG,如SEQ ID NO.11所示;
采用fastp(v0.20.0)进行Fastq数据过滤,采用bwa(0.7.17-r1188)将测序数据与人类参考基因组hg19进行比对,通过samtools(Version:1.9)对比对后的结果进行预处理,通过gatk(v4.2.3.0)进行REMOVE_DUPLICATES过程,以得到按照染色体顺序排序、去除重读序列后的测序数据。
fastp是一款用于高通量测序数据质量控制和数据预处理的快速工具。可以对Illumina平台的测序数据进行质量控制、过滤低质量序列、截断3'端低质量序列、去除接头序列等操作,同时还可以统计序列质量分布、GC含量分布、错误率分布、N含量等信息。fastp采用多线程加速,速度快、准确性高,并且支持多种数据输入和输出格式。
Fastq是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式。
BWA (Burrows-Wheeler Aligner)是一个用于DNA序列比对的快速、高效、可扩展的软件工具。它采用了一种基于Burrows-Wheeler Transform (BWT)的算法,可以将长度为几GB的序列数据集与参考序列进行比对。
Samtools 是一组实用程序,用于操作 SAM(序列比对/映射)、BAM 和 CRAM 格式的比对。它在格式之间进行转换,进行排序、合并和索引,并且可以快速检索任何区域中的读取。被广泛应用在分析流程中。
GATK是基因组分析工具包,基于Linux环境,专注于变异发现。
S103,基于预处理后的测序数据确定单肿瘤样本的CDKN2A/B区域碱基序列,并提取深度特征和提取kmer特征;
具体的,所述提取深度特征,包括:
分别计算其中108例杂合性缺失样本,24例野生型样本,31例纯合性缺失样本的CDKN2A/B的11个探针区域,平均分布/样本总体平均深度,记为“CDKN_mean_depth(深度特征)”,每个样本的CDKN_mean_depth是一个长度为11的一个对应(探针区域->探针区域平均深度/样本平均深度)。
所述提取kmer特征,包括:
利用bedtools(v2.25.0)提取CDKN2A/B区域碱基序列,利用python计算区域序列的kmer,kmer长度选取17bp,标记为“CDKN_kmer”,每个样本的CDKN_kmer是一个长度为3160~136978的一个对应(17bp序列->频次,相当于python的一个字典变量或者perl中的一个散列)。
kmer为一段长度为k的DNA片段,是由测序reads剪切一部分得到的,k为一个奇数,k等于几,就为几mer;
例如;测序reads长度为100bp,将100bp打断为17bp的短片段,打断后的17bp短片段为17mer,可以获得(100-17+1)条kmer序列。
提取CDKN_kmer出现人群频率大于90%的kmer,例如:杂合性缺失kmer出现人群次数大于98(10890%/>98)的kmer,野生型大于22(24/>90%/>22)的kmer,纯合缺失大于(3190%/>28)的kmer,作为kmer特征,记为“CDKN_kmer_Clean”。
S104,将深度特征和kmer特征进行合并,组成一个矩阵,基于样本类别对矩阵进行拆分,得到与样本类别数量对应的小矩阵,计算小矩阵的组间标准差与组内标准差,提取组间标准差大于预设值且组内标准差小于预设值的特征作为最终特征变量。
具体的,合并CDKN_mean_depth与CDKN_kmer_Clean,组成一个矩阵,记作“CDKN_matrix”;
所述矩阵的行为单肿瘤样本,样本名用类标签(CDKN_type)替代,类标签设置为0.5的表示杂合性缺失,类标签设置为1表示纯合缺失,类标签设置为0的表示野生型。列为特征变量,包括深度特征与Kmer特征,具体为CDKN_mean_depth值(11列)与CDKN_kmer_Clean值(16455列),标记为“CDKN_matrix”;
基于组间标准差构建组间差异矩阵,基于组内标准差构建组内差异矩阵,其中,提取组间差异矩阵和组内差异矩阵特征变量相同的部分,将相同的部分与第二列相除,得到差异系数;将差异系数按照进行从大到小进行排序,以构建候选变量列表;提取矩阵中包含所述候选变量的列,构建一个新矩阵;具体实施如下:
具体的,将“CDKN_matrix”按照“CDKN_type”拆为三个小矩阵,记为“CDKN_matrix_sub”作为三组,计算三个小矩阵组间标准差与组内标准差的均值。(组间标准差是CDKN_matrix_sub所有行求和/行数,计算“CDKN_type”不同类之间的标准差;组内标准差均值是分别计算三个“CDKN_matrix_sub”内部的标准差,再取均值,最终得到组间差异矩阵和组内差异矩阵,组间差异矩阵标记为“inter-matrix”,第一列“CDKN_matrix”的列名(特征变量名),第二列为组间标准差。组内差异矩阵标记为“intra-matrix”,第一列仍为“CDKN_matrix”的列名(特征变量名),第二列为组内标准差的均值(“CDKN_type”三类求均值);
提取“inter-matrix”与“intra-matrix”第一列相同的部分,并第二列相除作为差异系数,标记为“diversity_factor”;
对“diversity_factor”按照第二列进行从大到小排序,提取前200行,作为差异列表,提取差异列表第一列,作为候选变量,标记为“candidate variable”;
提取“CDKN_matrix”中第一列的“CDKN_type”与包含“candidate variable”的列,且按照“candidate variable”从上到下的顺序,构建一个新矩阵,记为“CDKN_matrix_clean”,“CDKN_matrix_clean”第一列为“样本类标签”,后面为特征变量名,且后面越靠左的列名为“candidate variable”越靠上的变量;
随机提取50%的样本(“CDKN_type”每类分别提取并合并)作为训练集,剩余的样本为预测集,提取三次,记为“repetition_data”;
从“CDKN_matrix_clean”的第1~6列开始,进行Catboost模型训练并预测,计算模型准确率,计算“repetition_data”,求准确率的平均值,记为“mean-accuracy_rate”。每次增加1列,第二次从1~7进行模型训练,计算“mean-accuracy rate”,以此类推;提取最大的“mean-accuracy_rate(平均准确率)”对应“CDKN_matrix_clean”列的集合,作为最终特征变量,记为“characteristic_variable_result”,本次的“characteristic_variable_result”为:
ACCGGCTTGCCGCCGCCCCCCACACGCGCAGCGGGGCCCCAGGCATCGCACGCACCGTGGAGCAGCACGCACCGTGGAGCAGCA,如SEQ ID NO.12所示;
CDKN2ANM_000077exon2_mean_depth
CGGCCCCAGGCATCGCAAGACAGGCTTGCCGGCTCTCCGCACCGTGGAGCATCCGCACCGTGGAGCAGCCCCCACACGCGCAGCGGGGCTCCGCACCGTGGAAGTTGGGCTCCGCACCGAGCCCCCACACGCGCAGGCTCCGCACCGTGGAGCTGGGCTCCGCACCGTGGGGCTCCGCACCGTGGAGCACCGTGGAGCAGCAGCCAGTTGGGCTCCGCACCACCGTGGAGCAGCAGCAACAGGTACCCTGCAACGTGCCGCCGCCCCCCGTGGACAGGCTTGCCGGCTTCAGCCCCCACACGCGCA,如SEQ ID NO.13所示;
CDKN2ANM_000077exon1.1_mean_depth
GCTTGCCGGCTTACAGGACCGGCTTGCAGGCTTAGCAGCCTACATCGATTTGGGGGGGTGGGGGGGGGTGCCGCCGCCCCCCGTTCAGGCTTACCGGCTTGCCGGCGGCGCTGGCCAGATTCCCGCCGCGCCCGGTGCGGCGGCGCTGGCCAGAGGCTTACCGGCTTGCCGCCCTCCCGGACAGCAT,如SEQ ID NO.14所示;
CDKN2BNM_004936exon2.2_mean_depth
TTAAAGAAACACCTCATTTCATCTAATTCGGGGGTTGAGCTCCGCGCCGTGTCATCTAATTCGGGGGGCTTCCCGCCGCGCCCGGCCGCCACGCGGGCACTGTGAGCTCCGCGCCGTGGCCGTGGAGCAGCAGTAGTATTTGGGTGGGTGGGGAGCGGGGTGGGTGGTGGTTGGCAGCCTTAATCGATTACCGGCTGTCCGCCGGAGCAGCAGTAGCTCCGGGCAGCCTACATCGATTAGCCCTCCCGGACAGCAGGGTGGGTGGGGGTGGCGTCCGCCGCTCCCCGTTTCCGCCACGCGGGCACTCCTCCCGGACAGCATCAGTTGGCAGCCTTAATCGCCGGGCAGCATCATGTAGAGTGGCAGGGTCTGTGGGCCCCAGACATCGCGCCGCCGCGCCCCGGTGGCTGTCCATCATCATGACCCTCCGCCACGCGGGCACTGTGCAGTTGGGCTCCGGCGGGCACTGCCCATCAAGTTGAGCTCCGCGCCGCCGGCTTGCCGCCGCCCCACGCGGGCACTGCCCA,GCCACGCGGGCACTGCCCCAGGAAGCCCTCCCGACGCTGTCCATCATCATGTAAAGAAACACCTCATTTACCGGTCGGGTGAGAGAGCAGTAGCTCCGCCACCCTCTGGTGTCCCCCGCCAGGAGCTGTCACACCTTCCCGGACAGCATCATGGGAGCTGTCACACCTTC,如SEQ ID NO.15所示;
S105,将最终特征变量、最终特征变量对应的样本类型作为Catboost模型的输入,对Catboost模型进行训练;
具体的,提取矩阵中包含最终特征变量的列,以得到最终数据集,记为“CDKN_matrix_characteristic_variable_result”,将数据集随机分为10个子集,选取9个子集作为训练集,剩余1个子集作为测试集,使用十倍交叉验证进行训练,最后将结果的平均值作为最终性能评估。准确率为84.11%,特异性91.39%。利用“CDKN_matrix_characteristic_variable_result”全部数据进行模型训练,作为最终模型结果。
本发明实施例提供的一种基于Catboost模型实现CDKN2A/B纯合性缺失的分析方法包括以下步骤:
S201,获取待检测CDKN2A/B纯合性缺失单肿瘤数据;
S202,对所述单肿瘤数据进行测序处理,得到所述单肿瘤数据对应的测序数据,并对所述测序数据进行预处理;
S203,基于预处理后的测序数据确定所述单肿瘤样本的CDKN2A/B区域碱基序列,并提取最终特征变量的值;
S204,将所述样本最终特征变量的值,做成一个特征向量;
S205,将所述特征向量与样本类型输入进行Catboost模型训练,训练完成的Catboost模型中可用于未知样本预测,输出未知样本对应的类型,其中,所述类型包括杂合性缺失、野生型和纯合性缺失。
该CDKN2A/B纯合性缺失的分析方法,获取一定数量的单肿瘤样本,其中,所述单肿瘤样本包括杂合性缺失样本、野生型样本和纯合性缺失样本;对所述单肿瘤样本进行测序处理,得到所述单肿瘤样本对应的测序数据,并对所述测序数据进行预处理;基于预处理后的测序数据确定所述单肿瘤样本的最终特征变量的对应值,将所述特征变量值作为Catboost模型的输入、所述特征变量对应的样本类型也作为Catboost模型的输入,进行模型训练, 训练后的模型可进行未知样本预测。解决了现有技术中无法准确且高效分析CDKN2A/B纯合性缺失的问题,尤其是CDKN2A/B预后检测往往属于用药检测的一小部分,利用已有的NGS数据即可完成检测,不需要进行其它平台检测,一方面节约了成本,另一方面提高了效率。
图2为本发明CDKN2A/B纯合性缺失的分析***实施例架构图;如图2所示,本发明实施例提供的一种CDKN2A/B纯合性缺失的分析***,包括以下步骤:
获取模块10,用于获取一定数量的单肿瘤样本,其中,所述单肿瘤样本包括杂合性缺失样本、野生型样本和纯合性缺失样本;
测序处理模块20,用于对所述单肿瘤样本进行测序处理,得到所述单肿瘤样本对应的测序数据,并对所述测序数据进行预处理;
所述测序处理模块20还用于:
将测序数据与人类参考基因组hg19进行比对处理,以得到按照染色体顺序排序、去除重读序列后的测序数据。
特征提取模块30,用于基于预处理后的测序数据确定所述单肿瘤样本的CDKN2A/B区域碱基序列,并提取深度特征和提取kmer特征;
所述特征提取模块30还用于:
分别计算每个单肿瘤样本对应的CDKN2A/B探针区域平均分布/样本总体平均深度,以得到深度特征。
选取17bp作为kmer长度,获取CDKN2A/B区域碱基序列的kmer;
提取CDKN2A/B区域碱基序列的kmer中出现人群频率大于预设阈值的kmer,以得到kmer特征。
特征变量获取模块40,用于将所述深度特征和所述kmer特征进行合并,组成一个矩阵,基于样本类别对所述矩阵进行拆分,得到与所述样本类别数量对应的小矩阵,计算小矩阵的组间标准差与组内标准差,提取组间标准差大于预设值且组内标准差小于预设值的特征作为最终特征变量;
所述特征变量获取模块40还用于:
基于组间标准差构建组间差异矩阵,其中,所述组间差异矩阵第一列为矩阵的列名,第二列为组间标准差的均值;
基于组内标准差构建组内差异矩阵,其中,所述组内差异矩阵第一列为矩阵的列名,第二列为组内标准差的均值;
提取组间差异矩阵和组内差异矩阵第一列相同的部分,将相同的部分与第二列相除,得到差异系数;
将差异系数按照进行从大到小进行排序,以构建差异列表;
提取所述差异列表的第一列作为候选变量;
提取矩阵中包含所述候选变量的列,按照候选变量从上到下的顺序,构建一个新矩阵;
通过所述新矩阵对所述Catboost模型进行训练,并计算训练完成后的所述Catboost模型的平均准确率;
基于最大平均准确率对应的新矩阵获取特征变量。
模型训练模块50,用于将所述最终特征变量、最终特征变量对应的样本类型作为Catboost模型的输入,对所述Catboost模型进行训练;
所述模型训练模块50还用于:
提取矩阵中包含特征变量的列,以得到最终数据集;
基于十倍交叉验证方式将所述最终数据集划分为训练集和测试集;
基于所述训练集训练所述Catboost模型;
基于所述测试集评估满足性能条件的所述Catboost模型的分类结果,得到所述Catboost模型所对应的评价指数。
预测模块60,用于将待检测CDKN2A/B纯合性缺失的单肿瘤数据对应的目标特征变量输入至训练完成的Catboost模型中,输出所述单肿瘤数据对应的类型,其中,所述类型包括杂合性缺失、野生型和纯合性缺失。
本发明的一种CDKN2A/B纯合性缺失的分析***,通过获取模块10获取一定数量的单肿瘤样本,其中,所述单肿瘤样本包括杂合性缺失样本、野生型样本和纯合性缺失样本;通过测序处理模块20对所述单肿瘤样本进行测序处理,得到所述单肿瘤样本对应的测序数据,并对所述测序数据进行预处理;通过特征提取模块30基于预处理后的测序数据确定所述单肿瘤样本的CDKN2A/B区域碱基序列,并提取深度特征和提取kmer特征;通过特征变量获取模块40将所述深度特征和所述kmer特征进行合并,组成一个矩阵,基于样本类别对所述矩阵进行拆分,得到与所述样本类别数量对应的小矩阵,计算小矩阵的组间标准差与组内标准差,提取组间标准差大于预设值且组内标准差小于预设值的特征作为最终特征变量;通过模型训练模块50将所述最终特征变量作为Catboost模型的输入、所述最终特征变量对应的样本类型也作为Catboost模型的输入,对所述Catboost模型进行训练;通过预测模块60,用于将待预测的样本的目标特征变量输入至训练完成的Catboost模型中,输出待检测样本单肿瘤数据对应的类型,其中,所述类型包括杂合性缺失、野生型和纯合性缺失。该CDKN2A/B纯合性缺失的分析方法解决现有技术中无法准确且高效分析CDKN2A/B纯合性缺失的问题。
图3为本发明实施例提供的电子设备实体结构示意图,如图3所示,电子设备70包括:处理器701(processor)、存储器702(memory)和总线703;
其中,处理器701、存储器702通过总线703完成相互间的通信;
处理器701用于调用存储器702中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取一定数量的单肿瘤样本,其中,所述单肿瘤样本包括杂合性缺失样本、野生型样本和纯合性缺失样本;对所述单肿瘤样本进行测序处理,得到所述单肿瘤样本对应的测序数据,并对所述测序数据进行预处理;基于预处理后的测序数据确定所述单肿瘤样本的CDKN2A/B区域碱基序列,并提取深度特征和提取kmer特征;将所述深度特征和所述kmer特征进行合并,组成一个矩阵,基于样本类别对所述矩阵进行拆分,得到与所述样本类别数量对应的小矩阵,计算小矩阵的组间标准差与组内标准差,提取组间标准差大于预设值且组内标准差小于预设值的特征作为最终特征变量;将所述最终特征变量作为Catboost模型的输入、所述最终特征变量对应的样本类型也作为Catboost模型的输入,对所述Catboost模型进行训练。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的存储介质。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各实施例或者实施例的某些部分的方法。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (9)

1.一种CDKN2A/B纯合性缺失的分析方法,其特征在于,所述方法具体包括:
获取一定数量的单肿瘤样本,其中,所述单肿瘤样本包括杂合性缺失样本、野生型样本和纯合性缺失样本;
对所述单肿瘤样本进行测序处理,得到所述单肿瘤样本对应的测序数据,并对所述测序数据进行预处理;
基于预处理后的测序数据确定所述单肿瘤样本的CDKN2A/B区域碱基序列,并提取深度特征和kmer特征;
将所述深度特征和所述kmer特征进行合并,组成一个矩阵,基于样本类别对所述矩阵进行拆分,得到与所述样本类别数量对应的小矩阵,计算小矩阵的组间标准差与组内标准差,提取组间标准差大于预设值且组内标准差小于预设值的特征作为最终特征变量,包括:
基于组间标准差构建组间差异矩阵,其中,所述组间差异矩阵第一列为矩阵的列名,第二列为组间标准差的均值;
基于组内标准差构建组内差异矩阵,其中,所述组内差异矩阵第一列为矩阵的列名,第二列为组内标准差的均值;
提取组间差异矩阵和组内差异矩阵第一列相同的部分,将相同的部分与第二列相除,得到差异系数;
将差异系数按照从大到小进行排序,以构建差异列表;
提取所述差异列表的第一列作为候选变量;
提取矩阵中包含所述候选变量的列,按照候选变量从上到下的顺序,构建一个新矩阵;
通过所述新矩阵对Catboost模型进行训练,并计算训练完成后的所述Catboost模型的平均准确率;
基于最大平均准确率对应的新矩阵获取最终特征变量;
将所述最终特征变量、最终特征变量对应的样本类型作为Catboost模型的输入,对所述Catboost模型进行训练;
将待检测CDKN2A/B纯合性缺失的单肿瘤数据对应的目标特征变量输入至训练完成的Catboost模型中,输出所述单肿瘤数据对应的类型,其中,所述类型包括杂合性缺失、野生型和纯合性缺失。
2.根据权利要求1所述CDKN2A/B纯合性缺失的分析方法,其特征在于,所述对所述单肿瘤样本进行测序处理,得到所述单肿瘤样本对应的测序数据,并对所述测序数据进行预处理,包括:
将测序数据与人类参考基因组hg19进行比对处理,以得到按照染色体顺序排序、去除重读序列后的测序数据。
3.根据权利要求1所述CDKN2A/B纯合性缺失的分析方法,其特征在于,所述提取深度特征,包括:
分别计算每个单肿瘤样本对应的CDKN2A/B探针区域平均分布/样本总体平均深度,以得到深度特征。
4.根据权利要求1所述CDKN2A/B纯合性缺失的分析方法,其特征在于,所述提取kmer特征,包括:
选取17bp作为kmer长度,获取CDKN2A/B区域碱基序列的kmer;
提取CDKN2A/B区域碱基序列的kmer中出现样本群体频率大于预设阈值的kmer,以得到kmer特征。
5.根据权利要求1所述CDKN2A/B纯合性缺失的分析方法,其特征在于,所述矩阵的行为单肿瘤样本,列为单肿瘤样本对应的类标签,类标签设置为0.5的表示杂合性缺失,类标签设置为1表示纯合缺失,类标签设置为0的表示野生型。
6.根据权利要求5所述CDKN2A/B纯合性缺失的分析方法,其特征在于,所述CDKN2A/B纯合性缺失的分析方法,还包括:
提取矩阵中包含特征变量的列,以得到最终数据集;
基于十倍交叉验证方式将所述最终数据集划分为训练集和测试集;
基于所述训练集训练所述Catboost模型;
基于所述测试集评估满足性能条件的所述Catboost模型的分类结果,得到所述Catboost模型所对应的评价指数。
7.根据权利要求1~6任一项所述CDKN2A/B纯合性缺失的分析方法,其特征在于,所述CDKN2A/B纯合性缺失的分析方法,还包括:
获取待检测CDKN2A/B纯合性缺失的单肿瘤数据;
对所述单肿瘤数据进行测序处理,得到所述单肿瘤数据对应的测序数据,并对所述测序数据进行预处理;
基于预处理后的测序数据确定所述单肿瘤样本的CDKN2A/B区域碱基序列,并提取初始深度特征和初始kmer特征;
将所述初始深度特征和所述初始kmer特征进行合并,组成一个矩阵,基于样本类别对所述矩阵进行拆分,得到与所述样本类别数量对应的小矩阵,计算小矩阵的组间标准差与组内标准差,提取组间标准差大于预设值且组内标准差小于预设值的特征作为目标特征变量;
将所述目标特征变量以及对应的样本类型输入,进行模型训练,通过训练后的模型对待检测CDKN2A/B纯合性缺失的单肿瘤数据进行预测,输出待检测CDKN2A/B纯合性缺失的单肿瘤数据对应的类型,其中,所述类型包括杂合性缺失、野生型和纯合性缺失。
8.一种CDKN2A/B纯合性缺失的分析***,其特征在于,包括:
获取模块,用于获取一定数量的单肿瘤样本,其中,所述单肿瘤样本包括杂合性缺失样本、野生型样本和纯合性缺失样本;
测序处理模块,用于对所述单肿瘤样本进行测序处理,得到所述单肿瘤样本对应的测序数据,并对所述测序数据进行预处理;
特征提取模块,用于基于预处理后的测序数据确定所述单肿瘤样本的CDKN2A/B区域碱基序列,并提取深度特征和kmer特征;
特征变量获取模块,用于将所述深度特征和所述kmer特征进行合并,组成一个矩阵,基于样本类别对所述矩阵进行拆分,得到与所述样本类别数量对应的小矩阵,计算小矩阵的组间标准差与组内标准差,提取组间标准差大于预设值且组内标准差小于预设值的特征作为最终特征变量;
所述特征变量获取模块还用于:
基于组间标准差构建组间差异矩阵,其中,所述组间差异矩阵第一列为矩阵的列名,第二列为组间标准差的均值;
基于组内标准差构建组内差异矩阵,其中,所述组内差异矩阵第一列为矩阵的列名,第二列为组内标准差的均值;
提取组间差异矩阵和组内差异矩阵第一列相同的部分,将相同的部分与第二列相除,得到差异系数;
将差异系数按照从大到小进行排序,以构建差异列表;
提取所述差异列表的第一列作为候选变量;
提取矩阵中包含所述候选变量的列,按照候选变量从上到下的顺序,构建一个新矩阵;
通过所述新矩阵对Catboost模型进行训练,并计算训练完成后的所述Catboost模型的平均准确率;
基于最大平均准确率对应的新矩阵获取最终特征变量;
模型训练模块,用于将所述最终特征变量、最终特征变量对应的样本类型作为Catboost模型的输入,对所述Catboost模型进行训练;
预测模块,用于将待检测CDKN2A/B纯合性缺失的单肿瘤数据对应的目标特征变量输入至训练完成的Catboost模型中,输出所述单肿瘤数据对应的类型,其中,所述类型包括杂合性缺失、野生型和纯合性缺失。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中的任一项所述的方法的步骤。
CN202410327353.6A 2024-03-21 2024-03-21 Cdkn2a/b纯合性缺失的分析方法及*** Active CN117935933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410327353.6A CN117935933B (zh) 2024-03-21 2024-03-21 Cdkn2a/b纯合性缺失的分析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410327353.6A CN117935933B (zh) 2024-03-21 2024-03-21 Cdkn2a/b纯合性缺失的分析方法及***

Publications (2)

Publication Number Publication Date
CN117935933A CN117935933A (zh) 2024-04-26
CN117935933B true CN117935933B (zh) 2024-05-31

Family

ID=90757689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410327353.6A Active CN117935933B (zh) 2024-03-21 2024-03-21 Cdkn2a/b纯合性缺失的分析方法及***

Country Status (1)

Country Link
CN (1) CN117935933B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081318A (zh) * 2019-12-06 2020-04-28 人和未来生物科技(长沙)有限公司 一种融合基因检测方法、***和介质
CN113257343A (zh) * 2021-04-09 2021-08-13 浙江工业大学 一种基于变异系数法的蛋白质dna绑定残基预测方法
CN113724781A (zh) * 2021-11-03 2021-11-30 北京雅康博生物科技有限公司 检测纯合缺失的方法和装置
CN116895380A (zh) * 2023-06-08 2023-10-17 西北工业大学 基于多因素特征融合的疾病风险预测方法MFF-DeepPRS
CN117524301A (zh) * 2024-01-04 2024-02-06 北京泛生子基因科技有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113748467A (zh) * 2019-02-27 2021-12-03 夸登特健康公司 基于等位基因频率的功能丧失计算模型

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081318A (zh) * 2019-12-06 2020-04-28 人和未来生物科技(长沙)有限公司 一种融合基因检测方法、***和介质
CN113257343A (zh) * 2021-04-09 2021-08-13 浙江工业大学 一种基于变异系数法的蛋白质dna绑定残基预测方法
CN113724781A (zh) * 2021-11-03 2021-11-30 北京雅康博生物科技有限公司 检测纯合缺失的方法和装置
CN116895380A (zh) * 2023-06-08 2023-10-17 西北工业大学 基于多因素特征融合的疾病风险预测方法MFF-DeepPRS
CN117524301A (zh) * 2024-01-04 2024-02-06 北京泛生子基因科技有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质

Also Published As

Publication number Publication date
CN117935933A (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
De Coster et al. Towards population-scale long-read sequencing
KR102349921B1 (ko) 시료 미생물의 동정 및 분류 방법
US20220246234A1 (en) Using cell-free dna fragment size to detect tumor-associated variant
Peterson et al. Double digest RADseq: an inexpensive method for de novo SNP discovery and genotyping in model and non-model species
CN103902852A (zh) 基因表达的定量方法及装置
Kuster et al. ngsComposer: an automated pipeline for empirically based NGS data quality filtering
CN113278706B (zh) 一种用于区分体细胞突变和种系突变的方法
Foster et al. A multi-gene region targeted capture approach to detect plant DNA in environmental samples: A case study from coastal environments
CN116486913B (zh) 基于单细胞测序从头预测调控突变的***、设备和介质
CN117935933B (zh) Cdkn2a/b纯合性缺失的分析方法及***
KR102142909B1 (ko) 비침습적 산전 검사에 의한 태아 염색체의 미세결실 또는 미세증폭의 확인 방법
KR20210040714A (ko) 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
D’Agaro New advances in NGS technologies
CN111028885B (zh) 一种检测牦牛rna编辑位点的方法及装置
JP2008161056A (ja) Dna配列解析装置、dna配列解析方法およびプログラム
KR101977976B1 (ko) 앰플리콘 기반 차세대 염기서열 분석기법에서 프라이머 서열을 제거하여 분석의 정확도를 높이는 방법
KR20220064959A (ko) 낮은 빈도 변이의 검출 및 리포팅을 용이하게 하기 위한 dna 라이브러리 생성 방법
Esim et al. Determination of malignant melanoma by analysis of variation values
CN109321646A (zh) 基于ngs读段与参考序列比对的虚拟pcr方法
CN114242158B (zh) ctDNA单核苷酸变异位点检测方法、装置、存储介质及设备
Padre Modeling Sequencing Artifacts in Artificial Low Frequency Cancer Data
KR102319447B1 (ko) Ngs를 이용한 열성유전병 원인 유전변이 판별 방법 및 장치
WO2022262569A1 (zh) 一种用于区分体细胞突变和种系突变的方法
Masárová Struktura repeatomu u vybraných zástupců rodu Boechera (brukvovité)
Lam Characterizing Sequencing Artifacts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant