CN116364178A - 一种体细胞序列数据分类方法及相关设备 - Google Patents

一种体细胞序列数据分类方法及相关设备 Download PDF

Info

Publication number
CN116364178A
CN116364178A CN202310417668.5A CN202310417668A CN116364178A CN 116364178 A CN116364178 A CN 116364178A CN 202310417668 A CN202310417668 A CN 202310417668A CN 116364178 A CN116364178 A CN 116364178A
Authority
CN
China
Prior art keywords
sequence data
somatic
sample
classification
random forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310417668.5A
Other languages
English (en)
Other versions
CN116364178B (zh
Inventor
陈明明
崔哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Nebula Bioinformatics Technology Development Co ltd
Original Assignee
Harbin Nebula Bioinformatics Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Nebula Bioinformatics Technology Development Co ltd filed Critical Harbin Nebula Bioinformatics Technology Development Co ltd
Priority to CN202310417668.5A priority Critical patent/CN116364178B/zh
Publication of CN116364178A publication Critical patent/CN116364178A/zh
Application granted granted Critical
Publication of CN116364178B publication Critical patent/CN116364178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及体细胞变异分类技术领域,具体是涉及一种体细胞序列数据分类方法及相关设备。首先对各组原始序列数据均分别应用各种识别工具,从各组原始序列数据筛选出各个异常预选序列数据;然后依据各个预选序列数据所对应的体细胞变异信息形成阶段,过滤各个预选序列数据,之后提取特征信息,最后对特征信息应用已训练的随机森林模型,得到针对目标序列数据的分类结果。本发明的随机森林模型为由各个决策树集成而成的分类模型,当特征信息输入到随机森林模型之后,每一个决策树都会针对特征信息实施对序列数据的分类,最终实现对体细胞变异的分类。结合每个决策树对序列数据的分类结果,得到最终的针对体细胞的分类结果,提高了分类结果的准确性。

Description

一种体细胞序列数据分类方法及相关设备
技术领域
本发明涉及体细胞变异分类技术领域,具体是涉及一种体细胞序列数据分类方法及相关设备。
背景技术
采集体细胞的含有DNA信息的序列数据,基于对序列数据的识别以识别出肿瘤体细胞变异,现有针对序列数据的识别方法和工具多种多样,其中使用较多工具有Mutect2、Strelka2、Varscan2、SomaticSnipper等,每种工具底层识别机制不尽相同,导致不同工具识别得到的变异结果不一样,这一情况为能够精确识别体细胞变异提出了巨大的挑战,目前常用的方法是同时使用上述不同的工具进行识别,然后再通过人工对上述各种工具得到的体细胞变异结果进行甄别分类,以分类出真正变异的体细胞变异。但是,上述各种工具都是对体细胞的序列数据进行单一识别分类,即只对体细胞的序列数据进行一次识别分类,导致针对体细胞变异的分类结果准确性较低。
综上所述,现有技术针对体细胞变异的分类结果准确性较低。
因此,现有技术还有待改进和提高。
发明内容
为解决上述技术问题,本发明提供了一种体细胞序列数据分类方法及相关设备,解决了现有技术针对体细胞变异的分类结果准确性较低的问题。
为实现上述目的,本发明采用了以下技术方案:
第一方面,本发明提供一种体细胞序列数据分类方法,其中,包括:
对各组原始序列数据均分别应用各种识别工具,从各组所述原始序列数据筛选出各个预选序列数据,所述序列数据用于表征体细胞变异信息,所述识别工具用于识别序列数据是否异常;
依据各个所述预选序列数据所对应的所述体细胞变异信息形成阶段,过滤各个所述预选序列数据,得到目标序列数据;
提取所述目标序列数据的特征信息;
对所述特征信息应用已训练的随机森林模型,得到针对所述目标序列数据的分类结果。
在一种实现方式中,所述对各组原始序列数据均分别应用各种识别工具,从各组所述原始序列数据筛选出各个预选序列数据,所述序列数据用于表征体细胞变异信息,所述识别工具用于识别序列数据是否异常,包括:
对各组原始序列数据均分别应用各种识别工具,得到每一种所述识别工具针对每一组所述原始序列数据的识别结果;
对异常的所述识别结果所对应的各组所述原始序列数据进行并集处理,得到各个预选序列数据,异常的所述识别结果用于表征所述原始序列数据所对应的所述体细胞变异信息异常。
在一种实现方式中,所述依据各个所述预选序列数据所对应的所述体细胞变异信息形成阶段,过滤各个所述预选序列数据,得到目标序列数据,包括:
确定所述体细胞变异信息形成阶段中的胚胎阶段;
从各个所述预选序列数据中过滤掉所述胚胎阶段所对应的预选序列数据,得到目标序列数据。
在一种实现方式中,所述已训练的随机森林模型的训练方式,包括:
构建已知异常分类结果的样本序列数据;
分别提取所述样本序列数据的各个样本特征;
依据各个所述样本特征与所述已知异常分类结果的关联程度,从各个所述样本特征筛选出样本目标特征;
对所述样本序列数据的样本目标特征分别应用所述随机森林模型,得到构成所述随机森林模型的各个决策树输出的训练分类结果;
依据所述已知异常分类结果与各个决策树输出的训练分类结果的匹配程度,得到各个所述决策树的权重;
依据各个所述决策树的权重,构建已训练的随机森林模型。
在一种实现方式中,所述构建已知异常分类结果的样本序列数据,包括:
对未知分类结果的样本序列数据和正常序列数据应用各种识别工具,异常识别结果所对应的所述样本序列数据的识别结果,所述正常序列数据与正常体细胞相对应;
将各种所述识别工具输出的所述异常识别结果所对应的所述样本序列数据进行并集运算,得到预选的所述样本序列数据;
依据所述样本序列数据所对应的体细胞变异信息所在的人群信息和所述体细胞变异信息的形成阶段,过滤预选的所述样本序列数据,得到最终的所述样本序列数据;
依据最终的所述样本序列数据的所述异常识别结果,构建已知异常分类结果的样本序列数据。
在一种实现方式中,所述依据所述已知异常分类结果与各个决策树输出的训练分类结果的匹配程度,得到各个所述决策树的权重,包括:
统计所述训练分类结果中的训练正确分类结果,所述训练正确分类结果等于所述已知异常分类结果;
依据所述训练正确分类结果的数量和所述训练分类结果的总数量,得到所述决策树的错误率;
依据各个所述决策树的所述训练分类结果的总数量和所述错误率,构建各个所述决策树的权重。
在一种实现方式中,所述对所述特征信息应用已训练的随机森林模型,得到针对所述目标序列数据的分类结果,包括:
对所述特征信息应用已训练的随机森林模型,得到构成所述随机森林模型的各个决策树输出的分类结果;
依据各个所述决策树的权重和各个决策树输出的分类结果,得到针对所述目标序列数据的最终分类结果。
在一种实现方式中,还包括:
提取已知分类结果的测试序列数据的测试特征信息;
对所述测试特征信息应用已训练的所述随机森林模型,得到所述随机森林模型输出的测试分类结果;
依据所述测试分类结果与所述已知分类结果的差异性,评估已训练的所述随机森林模型。
第二方面,本发明实施例还提供一种终端设备,其中,所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的体细胞序列数据分类程序,所述处理器执行所述体细胞序列数据分类程序时,实现上述所述的体细胞序列数据分类方法的步骤。
第三方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有体细胞序列数据分类程序,所述体细胞序列数据分类程序被处理器执行时,实现上述所述的体细胞序列数据分类方法的步骤。
有益效果:本发明首先对各组原始序列数据(一个原始序列数据对应一个体细胞的DNA信息)均分别应用各种识别工具,从各组原始序列数据筛选出各个异常预选序列数据;然后依据各个预选序列数据所对应的体细胞变异信息形成阶段,过滤各个预选序列数据,得到目标序列数据;之后提取目标序列数据的特征信息;最后对特征信息应用已训练的随机森林模型,得到针对目标序列数据的分类结果。本发明的随机森林模型为由各个决策树集成而成的分类模型,当特征信息输入到随机森林模型之后,每一个决策树都会针对特征信息实施对序列数据的分类,最终实现对体细胞变异的分类。结合每个决策树对序列数据的分类结果,能够得到最终的针对体细胞变异的分类结果,从而提高了分类结果的准确性。
附图说明
图1为本发明的整体流程图;
图2为本发明实施例中的随机森林模型框架图;
图3为本发明实施例提供的终端设备的内部结构原理框图。
具体实施方式
以下结合实施例和说明书附图,对本发明中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
经研究发现,采集体细胞的含有DNA信息的序列数据,基于对序列数据的识别以识别出肿瘤体细胞变异,现有针对序列数据的识别方法和工具多种多样,其中使用较多工具有Mutect2、Strelka2、Varscan2、SomaticSnipper等,每种工具底层识别机制不尽相同,导致不同工具识别得到的变异结果不一样,这一情况为能够精确识别体细胞变异提出了巨大的挑战,目前常用的方法是同时使用上述不同的工具进行识别,然后再通过人工对上述各种工具得到的体细胞变异结果进行甄别分类,以分类出真正的体细胞变异。但是,上述各种工具都是对体细胞的序列数据进行单一识别分类,即只对体细胞的序列数据进行一次识别分类,导致针对体细胞变异的分类结果准确性较低。
为解决上述技术问题,本发明提供了一种体细胞序列数据分类方法及相关设备,解决了现有技术针对体细胞变异的分类结果准确性较低的问题。具体实施时,首先对各组原始序列数据均分别应用各种识别工具,从各组原始序列数据筛选出各个预选序列数据;然后依据各个预选序列数据所对应的体细胞变异信息形成阶段,过滤各个预选序列数据,得到目标序列数据;之后提取目标序列数据的特征信息;最后对特征信息应用已训练的随机森林模型,得到针对目标序列数据的分类结果。本发明能够提高针对体细胞变异分类准确性。
举例说明,从动物体或人体上采集一块离体的组织(也就是该组织是与活的动物体或人体分离),提取该组织中各个体细胞的原始序列数据。比如有10个体细胞(cv1、cv2、cv3、cv4、cv5、cv6、cv7、cv8、cv9、cv10),这10个体细胞变异中包含了真正的体细胞变异和假阳性体细胞变异,分别提取这10个变异的原始比对数据(包含了体细胞的DNA信息),得到了10组原始序列数据(s1、s2、s3、s4、s5、s6、s7、s8、s9、s10),然后10组原始序列数据均分别应用5种识别工具(Mutect2识别工具、Strelka2识别工具、VarScan2识别工具、SomaticSniper识别工具、VarDict识别工具)。Mutect2识别工具的识别结果是0、0、1、1、1、0、0、1、1、1(比如第一个“0”代表Mutect2识别工具识别原始序列数据s1为正常序列数据,即体细胞cv1没有发生变异;比如第三个“1”代表Mutect2识别工具识别原始序列数据s3为异常序列数据,即体细胞cv3为变异细胞)。Strelka2识别工具的识别结果为1、0、1、1、1、0、0、1、1、1。VarScan2识别工具的识别结果为1、1、1、1、1、0、0、1、1、1。SomaticSniper识别工具的识别结果为1、1、1、1、1、0、0、1、1、0。VarDict识别工具的识别结果为1、1、1、1、0、0、0、1、1、0。对上述5种识别工具的识别结果为“1”的取并集(也就是只要有一种识别工具将某个原始序列数据识别为异常,那么该原始序列数据就是异常的),得到s1、s2、s3、s4、s5、s8、s9、s10为异常序列数据(预选序列数据),即cv1、cv2、cv3、cv4、cv5、cv8、cv9、cv10为变异体细胞。其中变异体细胞cv1是在胚胎时期发生变异导致的而不是在人体出生之后发生变异导致的(即从变异体细胞中过滤掉因胚胎变异导致变异的体细胞,这是由于体细胞变异不同于胚系突变,前者一般是在后天成长过程发生的,为了筛选出真正的(TruePositive)的变异体细胞,需要从识别的潜在体细胞变异中过滤掉胚系突变),因此需要去除变异体细胞cv1所对应的原始序列数据s1,得到目标序列数据s2、s3、s4、s5、s8、s9、s10。分别提取目标序列数据s2、s3、s4、s5、s8、s9、s10的特征信息,分别得到特征信息T2、T3、T4、T5、T8、T9、T10,对特征信息T2、T3、T4、T5、T8、T9、T10分别应用随机森林模型,随机森林模型由多个决策树构成,每一个决策树都会判断其中一个特征信息是否异常,比如所有的决策树都判定特征信息T2异常,那么随机森林针对s2的分类结果为“1”,即在上述五种识别工具得出结论的基础上,随机森林再次确定cv2为变异体细胞。如果随机森林针对s3的分类结果为“0”,即上述五种识别工具针对cv3的识别结果是错误的,随机森林重新将cv3分类为正常体细胞。
示例性方法
本实施例的体细胞序列数据分类方法可应用于终端设备中,所述终端设备可为具有数据处理功能的终端产品,比如电脑等。在本实施例中,如图1中所示,所述体细胞序列数据分类方法具体包括如下步骤:
S100,训练随机森林模型。
随机森林模块由若干个决策树构成,每个决策树都可以针对输入的序列数据(存储了体细胞的DNA信息)进行分类。训练随机森林的目的就是训练各个决策树,根据训练得到的各个决策树的准确率,制定各个决策树的权重。
在一个实施例中,步骤S100包括如下的步骤S101至S1011:
S101,对未知分类结果的样本序列数据和正常序列数据应用各种识别工具,异常识别结果所对应的所述样本序列数据的识别结果,所述正常序列数据与正常体细胞相对应。
S102,将各种所述识别工具输出的所述异常识别结果所对应的所述样本序列数据进行并集运算,得到预选的所述样本序列数据。
样本序列数据来源于肺癌组织样本(若干个体细胞构成组织)的序列数据,人工是无法标记肺癌组织样本中的哪些体细胞是变异的,哪些是没有变异的,因此需要以正常的对照样本(癌旁或其他健康对照样本,即没有生病的人的组织样本)为标准,使用识别工具识别样本序列数据中的哪些样本是代表体细胞发生变异的序列数据(异常识别结果)。将各种识别工具识别出的异常样本序列进行并集运算就得到了预选的样本序列数据。
如图2所示,上述识别工具包括Mutect2识别工具、Strelka2识别工具(Bayesianmodelofadmixture)、VarScan2识别工具、SomaticSniper识别工具、VarDict识别工具。其中Mutect2采用了类似HaplotypeCaller的基于局部重新对比的方法进行体细胞变异识别(其实质是识别细胞的有DNA数据构成的序列数据进行识别,以判断其是否异常);VarScan2识别工具使用了基于启发式的统计方法进行变异识别;SomaticSniper识别工具使用了贝叶斯思想评估变异的可能性;VarDict识别工具综合使用了启发式和统计的方法进行体细胞变异识别。
每种识别工具识别的变异集合CVi
CVi={CVij(1≤j≤Vi)}(1≤i≤5)
其中Vi表示第i中变异识别方法得到的变异个数。
对CVi使用Haplotype比较工具,Hap.py可以校正不同变异的对比坐标,并针对分型结果进行对比。使用Haplotype比较工具对上述5种识别工具得到的变异体细胞对应的样本序列数据进行合并,每次合并Truth和Query的TruePositive,FalsePositive和FalseNegative,最后得到合并的变异集合。
最终的变异集合(预选的样本序列数据)V:
V={vi,1≤i≤N}
式中,N表示变异的样本序列数据的总数量。
S103,依据所述样本序列数据所对应的体细胞信息所在的人群信息和所述体细胞信息的形成阶段,过滤预选的所述样本序列数据,得到最终的所述样本序列数据。
为得到精准的样本体细胞变异所对应的样本序列数据集合,需要对合并得到的变异进行过滤,首先需要过滤掉在大规模人群数据中已经发现和确认的胚系突变。本实施例过滤集成了目标人群数据和世界人群数据。
也就是本实施例先从各个样本序列数据中过滤掉因胚胎变异导致变异的体细胞所对应的样本序列数据,再基于目标人群所具有的体细胞的序列数据的特点进而二次过滤,以得到最终的样本序列数据V′:
V′={V′i,1≤≤N'}
式中,N′过滤之后变异数目。
举例说明,后续训练的随机森林模型需要能够识别出A国(人群信息)的体细胞是否变异,因此需要采用A国人群的体细胞的序列数据作为样本训练后续的随机森林模型。本实施例采用对应人群的样本训练随机森林模型,使得训练之后的随机森林模型能够针对特定的目标人群识别其是否发生体细胞变异。
S104,依据最终的所述样本序列数据的所述异常识别结果,构建已知异常分类结果的样本序列数据。
也就是根据上述5种识别工具识别出异常的样本序列之后,再经过过来,最终的样本序列数据就是训练随机森林模型所需要的已知异常分类结果的样本序列数据。
S105,分别提取所述样本序列数据的各个样本特征。
样本特征包括变异类型(SNP或INDEL)、变异在肿瘤组织中的coverage信息、变异在肿瘤组织中的支持变异的计数、支持变异的读长(Reads)的平均碱基质量(BaseQuality)、包含变异的读长的平均比对质量(Mapping Quality)、变异在正链和负链上的计数信息、参考等位及变异在正常组织上的统计信息,及正链和负链上的计数信息、变异周边点突变和***缺失突变(SNP、INDEL)的数量、肿瘤组织及正常组织的GC含量信息、每种工具统计的变异及参考等位的计数信息、支持变异的读长(reads)在变异周边20bp的A/G/C/T的组成信息、变异过滤标签(Filter)信息(是否标记为通过(PASS))、包含变异的读长(reads)中重复度(duplicates)的比例信息,变异频率信息,每种工具对变异的识别状态及是否标记为体细胞突变(Somatic)等特征。
S106,依据各个所述样本特征与所述已知异常分类结果的关联程度,从各个所述样本特征筛选出样本目标特征。
比如步骤S105中提取了12个特征,这12个特征并不是都适用于随机森林模型,因此需要从12个特征中找到一个与最适用随机森林最适用于随机森林模型根据该特征判断样本序列数据是否异常,该特征就是样本目标特征。
在一个实施例中,采用如下方式确定样本目标特征:
假设在某一个节点(随机森林模型的节点)的样本集合为Qm,Nm为样本数目,对每一个候选分割θ:θ=(j,tm)
式中,j为特征,tm表示阈值。
样本集合Qm分割后形成两个数据集
Figure BDA0004185575740000091
和/>
Figure BDA0004185575740000092
Figure BDA0004185575740000093
Figure BDA0004185575740000094
式中,\表示Qm中除
Figure BDA0004185575740000095
之后的数据集(样本序列数据集合),x为由特征构成的向量,y取值为0和1,0表示样本序列数据异常,1表示样本序列数据正常。
评估特征阈值选择的好坏可以使用LossFunction或Impurity Function。
Figure BDA0004185575740000101
选择使得G最小化的阈值即为所求,即θ*=argminθG(Qm,θ)
逐步迭代,选择特征和阈值,直到分支为叶子节点或是到达指定高度。也就是哪些特征构成的向量所在的数据集θ能够使得G(Qm,θ)最小,那么该特征就是样本目标特征。
在一个实施例中,
Figure BDA0004185575740000102
通过列方式求得:
Figure BDA0004185575740000103
Figure BDA0004185575740000104
Figure BDA0004185575740000105
Figure BDA0004185575740000106
S107,对已知异常分类结果的所述样本序列数据的样本目标特征分别应用所述随机森林模型,得到构成所述随机森林模型的各个决策树输出的训练分类结果。
S108,统计所述训练分类结果中的训练正确分类结果,所述训练正确分类结果等于所述已知异常分类结果。
S109,依据所述训练正确分类结果的数量和所述训练分类结果的总数量,得到所述决策树的错误率εt
Figure BDA0004185575740000107
比如将十个已知异常的样本序列数据输入到一个决策树中,该决策树输出八个异常,那么错误率就是20%。
S1010,依据各个所述决策树的所述训练分类结果的总数量M和所述错误率,构建各个所述决策树的权重αt
Figure BDA0004185575740000111
式中,t为构成随机森林的第t个决策树。
在一个实施例中,用决策树的权重大小与赋予样本序列数据的权重wi t+1,即采用某个样本序列数据得到的决策树输出的分类结果较准确,那么该样本序列数据的权重就大,当需要训练其它随机森林模型时,可以优先考虑该样本序列数据。
Figure BDA0004185575740000112
在一个实施例中,对每个决策树的权重都进行标准化处理,标准化处理之后的权重αt′:
Figure BDA0004185575740000113
式中,
Figure BDA0004185575740000114
S1011,依据各个所述决策树的权重,构建已训练的随机森林模型。
给每个决策树赋予权重,权重大小代表该决策树针对序列数据分类结果的准确性,各个决策树赋予权重之后,就完成了对随机森林模型的训练。
在另一个实施例中,为了防止训练之后的随机森林模型出现过拟合(训练集上的误差叫做训练误差,测试集上的误差叫做泛化误差。所谓过拟合,就是训练误差很小,但是泛化误差很大),会对随机森林模型中的决策树进行剪枝,剪枝的具体过程如下:
首先对生成算法生成的树从叶子节点开始,逐步去除直到根节点,这样形成一个子树序列,然后使用交叉验证的方法对子树序列进行分类准确性测量,然后选择合适的子树代替原来的树。
该实施例中,采用交叉验证的方法评估随机森林模型的过拟合程度,具体过程如下:提取已知分类结果的测试序列数据的测试特征信息;对所述测试特征信息应用已训练的所述随机森林模型,得到所述随机森林模型输出的测试分类结果;依据所述测试分类结果与所述已知分类结果的差异性,评估已训练的所述随机森林模型。
评估结果F1:
Figure BDA0004185575740000121
式中,TP为测试序列数据为变异的,且随机森林模型针对测试序列数据的特征输出的结果也是为变异的;FP为测试序列数据为正常的,且随机森林模型针对测试序列数据的特征输出的结果为变异的;FN为测试序列数据为变异的,且随机森林模型针对测试序列数据的特征输出的结果也是正常的义。
还可以采用ACC或MCC以及Specificity评估模型的准确性:
Figure BDA0004185575740000122
式中,TN为为测试序列数据为正常的,且随机森林模型针对测试序列数据的特征输出的结果也为正常的。
Figure BDA0004185575740000123
Figure BDA0004185575740000124
S200,对各组原始序列数据均分别应用各种识别工具,从各组所述原始序列数据筛选出各个预选序列数据,所述序列数据用于表征体细胞变异信息,所述识别工具用于识别序列数据是否异常。
在一个实施例中,步骤S200包括如下步骤S201和S202:
S201,对各组原始序列数据均分别应用各种识别工具,得到每一种所述识别工具针对每一组所述原始序列数据的识别结果。
一个原始序列数据对应一个体细胞,识别原始序列数据是否异常,就是识别体细胞是否发生变异。
S202,对异常的所述识别结果所对应的各组所述原始序列数据进行并集处理,得到各个预选序列数据,异常的所述识别结果用于表征所述原始序列数据所对应的所述体细胞信息异常。
该步骤和步骤S102相同,此处不再赘述。
S300,依据各个所述预选序列数据所对应的所述体细胞信息形成阶段,过滤各个所述预选序列数据,得到目标序列数据。
在一个实施例中,步骤S300包括如下的步骤S301和S302:
S301,确定所述体细胞变异信息形成阶段中的胚胎阶段。
S302,从各个所述预选序列数据中过滤掉所述胚胎阶段所对应的预选序列数据,得到目标序列数据。
比如,有十个体细胞,其中有三个体细胞的序列数据已明确是在胚胎阶段变异而形成的序列数据,因此可以去除这部分序列数据,以避免随机森林模型错误分类这部分序列数据。
S400,提取所述目标序列数据的特征信息。
该特征信息为步骤S106筛选出的目标特征。
S500,对所述特征信息应用已训练的随机森林模型,得到针对所述目标序列数据的分类结果。
在一个实施例中,步骤S500包括如下的步骤S501和S502:
S501,对所述特征信息应用已训练的随机森林模型,得到构成所述随机森林模型的各个决策树输出的分类结果。
S502,依据各个所述决策树的权重和各个决策树输出的分类结果,得到针对所述目标序列数据的最终分类结果。
比如针对同一个目标序列数据的特征信息,其中一个决策树输出的分类结果为“1”(即序列数据对应的体细胞为变异体细胞),另一个决策树输出的分类结果为“0”(即序列数据对应的体细胞为正常体细胞)。由于其中一个决策树的权重大于另一个决策树的权重,因此针对该目标序列数据的最终分类结果为“1”。
综上,本发明的随机森林模型为由各个决策树集成而成的分类模型,当特征信息输入到随机森林模型之后,每一个决策树都会针对特征信息实施对序列数据的分类,最终实现对体细胞变异的分类。结合每个决策树对序列数据的分类结果,能够得到最终的针对体细胞变异的分类结果,从而提高了分类结果的准确性。
另外,集成了目前最新、使用最为广泛的不同工具和识别方法,可以优势互补;初步识别的变异经过目标人群数据过滤,可以有效的降低胚系突变结果干扰;对变异进行特征化,定量化。本发明中提取了可以全面表征特征的多维特征。基于Boosting的随机森林模型,可以有效的去除干扰,防止过拟合,经过剪枝的决策树可以拥有更好的泛化能力。
基于上述实施例,本发明还提供了一种终端设备,其原理框图可以如图3所示。该终端设备包括通过***总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该终端设备的处理器用于提供计算和控制能力。该终端设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该终端设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种体细胞序列数据分类方法。该终端设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该终端设备的温度传感器是预先在终端设备内部设置,用于检测内部设备的运行温度。
本领域技术人员可以理解,图3中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端设备的限定,具体的终端设备以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种终端设备,终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的体细胞序列数据分类程序,处理器执行体细胞序列数据分类程序时,实现如下操作指令:
对各组原始序列数据均分别应用各种识别工具,从各组所述原始序列数据筛选出各个预选序列数据,所述序列数据用于表征体细胞变异信息,所述识别工具用于识别序列数据是否异常;
依据各个所述预选序列数据所对应的所述体细胞变异信息形成阶段,过滤各个所述预选序列数据,得到目标序列数据;
提取所述目标序列数据的特征信息;
对所述特征信息应用已训练的随机森林模型,得到针对所述目标序列数据的分类结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种体细胞序列数据分类方法,其特征在于,包括:
对各组原始序列数据均分别应用各种识别工具,从各组所述原始序列数据筛选出各个预选序列数据,所述序列数据用于表征体细胞变异信息,所述识别工具用于识别序列数据是否异常;
依据各个所述预选序列数据所对应的所述体细胞变异信息形成阶段,过滤各个所述预选序列数据,得到目标序列数据;
提取所述目标序列数据的特征信息;
对所述特征信息应用已训练的随机森林模型,得到针对所述目标序列数据的分类结果。
2.如权利要求1所述的体细胞序列数据分类方法,其特征在于,所述对各组原始序列数据均分别应用各种识别工具,从各组所述原始序列数据筛选出各个预选序列数据,所述序列数据用于表征体细胞变异信息,所述识别工具用于识别序列数据是否异常,包括:
对各组原始序列数据均分别应用各种识别工具,得到每一种所述识别工具针对每一组所述原始序列数据的识别结果;
对异常的所述识别结果所对应的各组所述原始序列数据进行并集处理,得到各个预选序列数据,异常的所述识别结果用于表征所述原始序列数据所对应的所述体细胞变异信息异常。
3.如权利要求1所述的体细胞序列数据分类方法,其特征在于,所述依据各个所述预选序列数据所对应的所述体细胞变异信息形成阶段,过滤各个所述预选序列数据,得到目标序列数据,包括:
确定所述体细胞变异信息形成阶段中的胚胎阶段;
从各个所述预选序列数据中过滤掉所述胚胎阶段所对应的预选序列数据,得到目标序列数据。
4.如权利要求1所述的体细胞序列数据分类方法,其特征在于,所述已训练的随机森林模型的训练方式,包括:
构建已知异常分类结果的样本序列数据;
分别提取所述样本序列数据的各个样本特征;
依据各个所述样本特征与所述已知异常分类结果的关联程度,从各个所述样本特征筛选出样本目标特征;
对所述样本序列数据的样本目标特征分别应用所述随机森林模型,得到构成所述随机森林模型的各个决策树输出的训练分类结果;
依据所述已知异常分类结果与各个决策树输出的训练分类结果的匹配程度,得到各个所述决策树的权重;
依据各个所述决策树的权重,构建已训练的随机森林模型。
5.如权利要求4所述的体细胞序列数据分类方法,其特征在于,所述构建已知异常分类结果的样本序列数据,包括:
对未知分类结果的样本序列数据和正常序列数据应用各种识别工具,异常识别结果所对应的所述样本序列数据的识别结果,所述正常序列数据与正常体细胞相对应;
将各种所述识别工具输出的所述异常识别结果所对应的所述样本序列数据进行并集运算,得到预选的所述样本序列数据;
依据所述样本序列数据所对应的体细胞变异信息所在的人群信息和所述体细胞变异信息的形成阶段,过滤预选的所述样本序列数据,得到最终的所述样本序列数据;
依据最终的所述样本序列数据的所述异常识别结果,构建已知异常分类结果的样本序列数据。
6.如权利要求4所述的体细胞序列数据分类方法,其特征在于,所述依据所述已知异常分类结果与各个决策树输出的训练分类结果的匹配程度,得到各个所述决策树的权重,包括:
统计所述训练分类结果中的训练正确分类结果,所述训练正确分类结果等于所述已知异常分类结果;
依据所述训练正确分类结果的数量和所述训练分类结果的总数量,得到所述决策树的错误率;
依据各个所述决策树的所述训练分类结果的总数量和所述错误率,构建各个所述决策树的权重。
7.如权利要求6所述的体细胞序列数据分类方法,其特征在于,所述对所述特征信息应用已训练的随机森林模型,得到针对所述目标序列数据的分类结果,包括:
对所述特征信息应用已训练的随机森林模型,得到构成所述随机森林模型的各个决策树输出的分类结果;
依据各个所述决策树的权重和各个决策树输出的分类结果,得到针对所述目标序列数据的最终分类结果。
8.如权利要求1-7任一项所述的体细胞序列数据分类方法,其特征在于,还包括:
提取已知分类结果的测试序列数据的测试特征信息;
对所述测试特征信息应用已训练的所述随机森林模型,得到所述随机森林模型输出的测试分类结果;
依据所述测试分类结果与所述已知分类结果的差异性,评估已训练的所述随机森林模型。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的体细胞序列数据分类程序,所述处理器执行所述体细胞序列数据分类程序时,实现如权利要求1-8任一项所述的体细胞序列数据分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有体细胞序列数据分类程序,所述体细胞序列数据分类程序被处理器执行时,实现如权利要求1-8任一项所述的体细胞序列数据分类方法的步骤。
CN202310417668.5A 2023-04-18 2023-04-18 一种体细胞序列数据分类方法及相关设备 Active CN116364178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310417668.5A CN116364178B (zh) 2023-04-18 2023-04-18 一种体细胞序列数据分类方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310417668.5A CN116364178B (zh) 2023-04-18 2023-04-18 一种体细胞序列数据分类方法及相关设备

Publications (2)

Publication Number Publication Date
CN116364178A true CN116364178A (zh) 2023-06-30
CN116364178B CN116364178B (zh) 2024-01-30

Family

ID=86917301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310417668.5A Active CN116364178B (zh) 2023-04-18 2023-04-18 一种体细胞序列数据分类方法及相关设备

Country Status (1)

Country Link
CN (1) CN116364178B (zh)

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500344A (zh) * 2013-09-02 2014-01-08 中国测绘科学研究院 一种遥感影像信息提取与解译方法及其模块
JP2016077227A (ja) * 2014-10-17 2016-05-16 国立大学法人大阪大学 ゲノム解析装置、ゲノム解析方法及びゲノム解析プログラム
CN108062560A (zh) * 2017-12-04 2018-05-22 贵州电网有限责任公司电力科学研究院 一种基于随机森林的电力用户特征识别分类方法
CN108763859A (zh) * 2018-05-17 2018-11-06 北京博奥医学检验所有限公司 一种基于未知cnv样本建立提供cnv检测所需的模拟数据集的方法
CN108846259A (zh) * 2018-04-26 2018-11-20 河南师范大学 一种基于聚类和随机森林算法的基因分类方法及***
US20190188212A1 (en) * 2016-07-27 2019-06-20 Anomalee Inc. Prioritized detection and classification of clusters of anomalous samples on high-dimensional continuous and mixed discrete/continuous feature spaces
US20190189242A1 (en) * 2017-12-18 2019-06-20 Personal Genome Diagnostics Inc. Machine learning system and method for somatic mutation discovery
AU2019101189A4 (en) * 2019-10-02 2020-01-23 Han, Ming MISS A financial mining method for credit prediction
AU2020100709A4 (en) * 2020-05-05 2020-06-11 Bao, Yuhang Mr A method of prediction model based on random forest algorithm
CN112029861A (zh) * 2020-09-07 2020-12-04 臻悦生物科技江苏有限公司 基于捕获测序技术的肿瘤突变负荷检测装置及方法
CN112052875A (zh) * 2020-07-30 2020-12-08 华控清交信息科技(北京)有限公司 一种训练树模型的方法、装置和用于训练树模型的装置
CN112111565A (zh) * 2019-06-20 2020-12-22 上海其明信息技术有限公司 一种细胞游离dna测序数据的突变分析方法和装置
CN112288191A (zh) * 2020-11-19 2021-01-29 国家海洋信息中心 一种基于多类机器学习方法的海洋浮标寿命预测方法
CN112801693A (zh) * 2021-01-18 2021-05-14 百果园技术(新加坡)有限公司 基于高价值用户的广告特征分析方法及***
CN112995155A (zh) * 2021-02-09 2021-06-18 中国工商银行股份有限公司 金融异常报文识别方法及装置
CN113127469A (zh) * 2021-04-27 2021-07-16 国网内蒙古东部电力有限公司信息通信分公司 一种三相不平衡数据的缺失值的填补方法及***
CN113257350A (zh) * 2021-06-10 2021-08-13 臻和(北京)生物科技有限公司 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置
US20220084631A1 (en) * 2020-09-17 2022-03-17 Korea Advanced Institute Of Science And Technology Method and apparatus for machine learning based identification of structural variants in cancer genomes
CN114220540A (zh) * 2021-12-10 2022-03-22 首都医科大学附属北京潞河医院 一种糖尿病肾病风险预测模型的构建方法及应用
CN114882293A (zh) * 2022-05-31 2022-08-09 中国人民解放军战略支援部队信息工程大学 基于ais数据特征优选的随机森林船舶目标分类方法

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500344A (zh) * 2013-09-02 2014-01-08 中国测绘科学研究院 一种遥感影像信息提取与解译方法及其模块
JP2016077227A (ja) * 2014-10-17 2016-05-16 国立大学法人大阪大学 ゲノム解析装置、ゲノム解析方法及びゲノム解析プログラム
US20190188212A1 (en) * 2016-07-27 2019-06-20 Anomalee Inc. Prioritized detection and classification of clusters of anomalous samples on high-dimensional continuous and mixed discrete/continuous feature spaces
CN108062560A (zh) * 2017-12-04 2018-05-22 贵州电网有限责任公司电力科学研究院 一种基于随机森林的电力用户特征识别分类方法
US20190189242A1 (en) * 2017-12-18 2019-06-20 Personal Genome Diagnostics Inc. Machine learning system and method for somatic mutation discovery
CN108846259A (zh) * 2018-04-26 2018-11-20 河南师范大学 一种基于聚类和随机森林算法的基因分类方法及***
CN108763859A (zh) * 2018-05-17 2018-11-06 北京博奥医学检验所有限公司 一种基于未知cnv样本建立提供cnv检测所需的模拟数据集的方法
CN112111565A (zh) * 2019-06-20 2020-12-22 上海其明信息技术有限公司 一种细胞游离dna测序数据的突变分析方法和装置
AU2019101189A4 (en) * 2019-10-02 2020-01-23 Han, Ming MISS A financial mining method for credit prediction
AU2020100709A4 (en) * 2020-05-05 2020-06-11 Bao, Yuhang Mr A method of prediction model based on random forest algorithm
CN112052875A (zh) * 2020-07-30 2020-12-08 华控清交信息科技(北京)有限公司 一种训练树模型的方法、装置和用于训练树模型的装置
CN112029861A (zh) * 2020-09-07 2020-12-04 臻悦生物科技江苏有限公司 基于捕获测序技术的肿瘤突变负荷检测装置及方法
US20220084631A1 (en) * 2020-09-17 2022-03-17 Korea Advanced Institute Of Science And Technology Method and apparatus for machine learning based identification of structural variants in cancer genomes
CN112288191A (zh) * 2020-11-19 2021-01-29 国家海洋信息中心 一种基于多类机器学习方法的海洋浮标寿命预测方法
CN112801693A (zh) * 2021-01-18 2021-05-14 百果园技术(新加坡)有限公司 基于高价值用户的广告特征分析方法及***
CN112995155A (zh) * 2021-02-09 2021-06-18 中国工商银行股份有限公司 金融异常报文识别方法及装置
CN113127469A (zh) * 2021-04-27 2021-07-16 国网内蒙古东部电力有限公司信息通信分公司 一种三相不平衡数据的缺失值的填补方法及***
CN113257350A (zh) * 2021-06-10 2021-08-13 臻和(北京)生物科技有限公司 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置
CN114220540A (zh) * 2021-12-10 2022-03-22 首都医科大学附属北京潞河医院 一种糖尿病肾病风险预测模型的构建方法及应用
CN114882293A (zh) * 2022-05-31 2022-08-09 中国人民解放军战略支援部队信息工程大学 基于ais数据特征优选的随机森林船舶目标分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
XUEHAN ZHUANG 等: "A random forest-based framework for genotyping and accuracy assessment of copy number variations", 《 NAR GENOMICS AND BIOINFORMATICS》, vol. 2, no. 3, pages 128 - 131 *
张圆圆 等: "多分类研究中的boosting 算法", 《中国卫生统计》, pages 142 *
李佳圆;: "中国乳腺癌危险因素研究现况及其风险预测模型研究展望", 中国循证医学杂志, no. 07 *
杨飚;尚秀伟;: "加权随机森林算法研究", 微型机与应用, no. 03 *
梁川: "基于特征提取和随机森林的风机故障诊断", 《科学技术创新》, pages 57 *

Also Published As

Publication number Publication date
CN116364178B (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
US10354747B1 (en) Deep learning analysis pipeline for next generation sequencing
CN112802548B (zh) 单样本全基因组预测等位基因特异性拷贝数变异的方法
EP4016533B1 (en) Method and apparatus for machine learning based identification of structural variants in cancer genomes
US20220277811A1 (en) Detecting False Positive Variant Calls In Next-Generation Sequencing
CN110084314A (zh) 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法
CN112233722A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
CN113823356B (zh) 一种甲基化位点识别方法及装置
CN116364178B (zh) 一种体细胞序列数据分类方法及相关设备
CN116246705B (zh) 全基因组测序数据的分析方法和装置
CN108763864A (zh) 一种评价生物通路样本状态的方法
CN104598775B (zh) 一种rna编辑事件识别方法
CN116864011A (zh) 基于多组学数据的结直肠癌分子标志物识别方法及***
KR102404947B1 (ko) 기계학습 기반의 유전체 구조 변이 식별 방법 및 장치
CN112863602B (zh) 染色体异常的检测方法、装置、计算机设备和存储介质
WO2022139735A1 (en) Disease classification based on rna-sequencing data and an algorithm for the detection of disease-related genes
CN112102880A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
Betegón-Putze et al. MyROOT: A novel method and software for the semi-automatic measurement of plant root length
CN116168761B (zh) 核酸序列特征区域确定方法、装置、电子设备及存储介质
EP4297037A1 (en) Device for determining an indicator of presence of hrd in a genome of a subject
WO2017121053A1 (zh) 一种评估目标之间冲突程度的方法及其***
CN115547412B (zh) 基于Hopfield网络评估细胞分化潜能的方法及装置
CN115064212B (zh) 基于wgs数据的预设区域人群肿瘤特异突变识别方法
JP2013175135A (ja) 遺伝子間相互作用解析システム、その方法及びプログラム
US20210193258A1 (en) Detection of changes in gene expression attributable to changes in cell morphology
CN116421197A (zh) 决策规则的确定方法及装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant