CN108710782A - 基因型转换方法、装置及电子设备 - Google Patents

基因型转换方法、装置及电子设备 Download PDF

Info

Publication number
CN108710782A
CN108710782A CN201810471186.7A CN201810471186A CN108710782A CN 108710782 A CN108710782 A CN 108710782A CN 201810471186 A CN201810471186 A CN 201810471186A CN 108710782 A CN108710782 A CN 108710782A
Authority
CN
China
Prior art keywords
genotype
gene
site information
information
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810471186.7A
Other languages
English (en)
Other versions
CN108710782B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuo Medical Data Technology (beijing) Co Ltd
Original Assignee
Shuo Medical Data Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shuo Medical Data Technology (beijing) Co Ltd filed Critical Shuo Medical Data Technology (beijing) Co Ltd
Priority to CN201810471186.7A priority Critical patent/CN108710782B/zh
Publication of CN108710782A publication Critical patent/CN108710782A/zh
Application granted granted Critical
Publication of CN108710782B publication Critical patent/CN108710782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种基因型转换方法、装置及电子设备,该基因型转换方法包括:根据遗传药理学和药物基因组学数据库pharmGKB建立基因型库;获取待检测基因对应的VCF文件和BAM文件,该VCF文件和该BAM文件均携带有基因位点信息;从BAM文件中提取野生型基因位点信息,从VCF文件中提取突变型基因位点信息;根据野生型基因位点信息和突变型基因位点信息,基于上述基因型库,利用基因型转换器将基因位点信息转换为基因型。这样通过野生型基因位点和突变型基因位点,基于预先根据pharmGKB建立的基因型库准确定位到基因型,速度快,准确率高,并能够批量化处理,有效提高了基因型的分类识别效率,并大大降低了成本。

Description

基因型转换方法、装置及电子设备
技术领域
本发明涉及药物基因组学技术领域,尤其是涉及一种基因型转换方法、装置及电子设备。
背景技术
药物基因组学(Pharmacogenomics,PGx)是研究基因变异所致的不同疾病对药物的不同反应的学科,其主要研究内容为基因组或基因变异对药物在人体内吸收、代谢、疗效及不良反应产生影响的现象及其机制。2016年7月临床药理学实施联盟(CPIC)在Geneticsin Medicine杂志上发表文献,将药物基因组学相关基因分为三大类:药物代谢酶类(CYP家族,UGT1A1,DPYD和TPMT),药物转运体(如SLCO1B1),高风险基因型(如HLA-B)。
药物基因组学已成为指导临床个体化用药、评估严重药物不良反应发生风险、指导新药研发和评价新药的重要工具,部分上市的新药仅限于特定基因型的适应症患者。美国FDA已批准在140余种药物的药品标签中增加药物基因组信息,涉及的药物基因组生物标记物42个。此外,部分行业指南也将部分非FDA批准的生物标记物及其特性(如MGMT基因甲基化)的检测列入疾病的治疗指南。药物反应相关基因及其表达产物的分子检测是实施个体化药物治疗的前提
通过一代、二代测序技术对患者进行基因检测,并通过传统的生物信息学分析,得到患者基因位点信息,如:rs17886522 A/A,但是药物代谢、转运不一定与单个基因位点相关,更多的是与多个基因位点相关联,所以,患者的基因位点突变信息需要经过识别,转换成pharmGKB(the pharmacogenetics and pharmacogenomics knowledgebase,遗传药理学和药物基因组学数据库)中的基因型,才能对患者的药物代谢情况进行解读,实现精准用药,现有技术主要是通过人工的方法对患者基因检测位点进行分类识别,确定基因型,然后进行数据解读,耗时长,人工成本高,准确率不稳定。
发明内容
有鉴于此,本发明的目的在于提供一种基因型转换方法、装置及电子设备,以准确定位到基因型,速度快,准确率高,并能够批量化处理,有效提高了基因型的分类识别效率,并大大降低了成本。
第一方面,本发明实施例提供了一种基因型转换方法,包括:
根据遗传药理学和药物基因组学数据库pharmGKB建立基因型库;
获取待检测基因对应的VCF文件和BAM文件,所述VCF文件和所述BAM文件均携带有基因位点信息;
从所述BAM文件中提取野生型基因位点信息,从所述VCF文件中提取突变型基因位点信息;
根据所述野生型基因位点信息和所述突变型基因位点信息,基于所述基因型库,利用基因型转换器将所述基因位点信息转换为基因型。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述从所述VCF文件中提取突变型基因位点信息之前,还包括:对所述VCF文件中的数据格式进行标准化。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述对所述VCF文件中的数据格式进行标准化后还包括:
对格式标准化后的VCF文件中的数据进行基因注释,并对VCF文件中携带的基因所在的正负链进行左右矫正。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述基因型库包括:单点基因型数据库和多点基因型数据库;其中所述单点基因型数据库中存储由单个基因位点确定的单点基因型,所述多点基因型数据库存储由多个基因位点确定的多点基因型。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述基因型库中的基因型对应的参数包括基因名称、基因型、位点信息;
所述基因型转换器将所述基因位点信息转换为基因型的过程包括:
对所述野生型基因位点信息和所述突变型基因位点信息进行整合得到整合基因位点信息;
将所述整合基因位点信息与所述基因型库中基因型进行基因名称匹配,如果所述整合基因位点信息的基因名称与所述基因型库中基因型的基因名称相匹配,则进行基因型和位点信息匹配;
根据基因型和位点信息匹配的匹配结果,将所述整合基因位点信息转换为相应的基因型。
结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,
所述将所述整合基因位点信息与所述基因型库中的基因名称进行匹配之前还包括:
当所述整合基因位点信息的突变基因位点携带有CNV信息时,对所述整合基因位点信息进行单倍型分析;
当所述突变基因位点的变异频率大于预设阈值时,确定所述整合基因位点信息为单倍型,执行所述将所述整合基因位点信息与所述基因型库中的基因型进行基因名称匹配的步骤。
第二方面,本发明实施例还提供一种基因型转换装置,包括:
基因型库建立模块,用于根据遗传药理学和药物基因组学数据库pharmGKB建立基因型库;
文件获取模块,用于获取待检测基因对应的VCF文件和BAM文件,所述VCF文件和所述BAM文件均携带有基因位点信息;
位点提取模块,用于从所述BAM文件中提取野生型基因位点信息,从所述VCF文件中提取突变型基因位点信息;
基因型转换模块,用于根据所述野生型基因位点信息和所述突变型基因位点信息,基于所述基因型库,利用基因型转换器将所述基因位点信息转换为基因型。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述基因型库中的基因型对应的参数包括基因名称、基因型、位点信息;
所述基因型转换器将所述基因位点信息转换为基因型的过程包括:
对所述野生型基因位点信息和所述突变型基因位点信息进行整合得到整合基因位点信息;
将所述整合基因位点信息与所述基因型库中基因型进行基因名称匹配,如果所述整合基因位点信息的基因名称与所述基因型库中基因型的基因名称相匹配,则进行基因型和位点信息匹配;
根据基因型和位点信息匹配的匹配结果,将所述整合基因位点信息转换为相应的基因型。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面及其任一种可能的实施方式所述的方法。
第四方面,本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行所述第一方面及其任一种可能的实施方式所述方法。
本发明实施例带来了以下有益效果:
本发明实施例提供的基因型转换方法,能够从BAM文件提取野生型基因位点信息,从VCF文件提取突变型基因位点信息,通过野生型基因位点信息和突变型基因位点信息,基于预先根据pharmGKB建立的基因型库准确定位到基因型,速度快,准确率高,并能够批量化处理,有效提高了基因型的分类识别效率,并大大降低了成本。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基因型转换方法的一种流程示意图;
图2为本发明实施例提供的基因型转换方法的另一种流程示意图;
图3为本发明实施例提供的基因型转换装置的结构示意图;
图4为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前对患者的基因型进行识别时,主要是通过人工的方法对患者基因检测位点进行分类识别,确定基因型,然后进行数据解读,耗时长,人工成本高,准确率不稳定。基于此,本发明实施例提供的一种基因型转换方法、装置及电子设备。
本发明提供的基因型转换方法如图1所示,从BAM文件提取野生型基因位点信息,从VCF文件提取突变型基因位点信息,通过野生型基因位点信息和突变型基因位点信息,基于预先根据pharmGKB建立的基因型库准确定位到基因型,速度快,准确率高,并能够批量化处理,有效提高了基因型的分类识别效率,并大大降低了成本。
具体地,图2示出了本发明实施例提供的另一种基因型转换方法的流程示意图,如图2所示,该基因型转换方法包括:
步骤S101,根据遗传药理学和药物基因组学数据库pharmGKB建立基因型库。
具体地,通过遗传药理学和药物基因组学数据库,下载药物基因组相关基因型数据至本地,按照一定的规则建立基因型库。在可能的实施例中,上述基因型库包括:单点基因型数据库和多点基因型数据库;其中单点基因型数据库中存储由单个基因位点确定的单点基因型,多点基因型数据库存储由多个基因位点确定的多点基因型。在一个实施例中,上述单点基因型数据库表示为数据文本translator_single-point.v1.0.txt,多点基因型数据库表示为数据文本translator_diplotype.v2.0.txt。
在可能的实施例中,上述基因型数据库中存储的基因型对应的信息(也就是基因型对应的参数)包括三个域,分别为基因名称(Gene_Name),基因型(Target_Nomenclature)及位点信息(Variant_Allele)。如UGT1A1;*1/*28;Chr=2,Start=234668892,End=234668894,Genetype=ATA/A,rsID=rs8175347,Type=mutant。
步骤S102,获取待检测基因对应的VCF文件和BAM文件,该VCF文件和该BAM文件均携带有基因位点信息。
在可能的实施例中,利用基因测序设备对患者基因进行检测,对检测信息进行处理后得到VCF(Variant Call Format)文件和BAM文件。其中,VCF是用于存储基因序列突变信息的文本格式,表示单核苷酸突变、***/缺失等。BAM文件是SAM(sequence alignment/map format)文件的二进制文件,主要应用于测序序列映射到基因组上的结果表示。
进一步地,对该VCF文件中的数据格式进行标准化,例如基因型ACGT->ACT最简化为CG->C。然后对标准化后的VCF文件中的基因位点进行基因注释,并对VCF文件中携带的基因所在的正负链进行矫正,对位于重叠部分的突变位点根据正负链将其拆分为两条注释并矫正。在可能的实施例中,基因注释采用SnpEff注释。
步骤S103,从BAM文件中提取野生型基因位点信息,从VCF文件中提取突变型基因位点信息。
在可能的实施例中,利用生物信息分析工具Samtools从BAM文件中提取野生型基因位点信息,从VCF文件提取突变型基因位点信息。
步骤S104,根据上述野生型基因位点信息和上述突变型基因位点信息,基于所述基因型库,利用基因型转换器将基因位点信息转换为基因型。
上述基因型转换器可以是脚本文件的形式,在本实施例中该基因型转换器为PGx_translator_v2.0.pl转换器脚本文件。
在可能的实施例中,上述步骤S102中的基因型转换器将基因位点信息转换为基因型的过程包括以下步骤:
(a)对野生型基因位点和突变型基因位点进行整合得到整合基因位点信息。
(b)当整合基因位点信息中的突变基因位点携带有CNV信息时,对整合基因位点信息进行单倍型分析。
(c)当突变基因位点的变异频率大于预设阈值时,确定该整合基因位点信息为单倍型,执行步骤(d)。
在进行转换的过程中,如果检测到突变基因位点携带有CNV(Copy numbervariations,基因拷贝数变异)信息,则需要对该突变基因位点对应的整合基因位点信息进行单倍型分析。在可能的实施例中,如果该突变基因位点对应的变异频率大于50%,则确定该CNV信息在同一染色体上。如果没有检测到突变基因位点携带有CNV信息,则直接执行步骤(d)。
(d)将整合基因位点信息与基因型库中基因型进行基因名称匹配,如果整合基因位点信息的基因名称与基因型库中基因型的基因名称相匹配,则进行基因型和位点信息匹配。
也就是,如果整合基因位点信息的基因名称与基因型库中基因型的参数Gene_Name相同,则将整合基因位点信息的基因型和位点信息与该上述参数Gene_Name对应的Target_Nomenclature和Variant_Allele进行匹配。
(e)根据基因型和位点信息匹配的匹配结果,将整合基因位点信息转换为相应的基因型。
在可能的实施例中,如果整合基因位点信息的基因型和位点信息与该上述参数Gene_Name对应的Target_Nomenclature和Variant_Allele完全相同,则确定该整合基因位点信息中的基因位点信息与该参数Target_Nomenclature匹配,基因型转换结果中包括该相匹配的基因型。在可能的实施例中,可以将该整合基因位点信息标记为exactly_matched,并输出与pharmGKB中对基因型一致的表述方式,例如CYP2C19*1。如果整合基因的基因型和位点信息与该上述参数Gene_Name对应的Target_Nomenclature和Variant_Allele不同,则输出需补充检测位点的信息,表示未匹配到该Gene_Name的Target_Nomenclature,最终的基因型转化结果中不出现该基因型。
具体地,上述整合基因位点信息可以包括一个或者多个检测位点。在具体进行匹配的过程中,可以首先根据单点基因型数据库对基因位点信息进行单点基因匹配,然后再根据多点基因型数据库对基因位点信息进行多点基因匹配;或者首先根据多点基因型数据库对基因位点信息进行多点基因匹配,然后再根据单点基因型数据库对基因位点信息进行单点基因匹配,具体的匹配顺序这里不做限定。
在可能的实施例中,首先根据多点基因型数据库对基因位点信息进行多点基因匹配,然后在根据单点基因型数据库对基因位点信息进行单点基因匹配,因此上述步骤(d)和步骤(e)具体可以包括如下步骤(1)至(6):
(1)将整合基因位点信息与所述多点基因型数据库中基因型进行基因名称匹配,如果所述整合基因位点信息的基因名称与所述多点基因型数据库中基因型的基因名称相匹配,则进行基因型和位点信息匹配;
(2)如果所述整合基因位点信息的所有位点信息与所述基因名称对应的某一基因型的位点信息完全匹配,则标记为完全匹配,并将所述整合基因位点信息转换为相匹配的基因型;
(3)如果所述整合基因位点信息的所有位点信息与所述基因名称对应的某一基因型的部分位点信息完全匹配,则将所述整合基因位点信息转换为相匹配的基因型,同时输出需补充检测的位点信息;
在这种情况下,将整合基因位点信息转换为该部分位点信息完全匹配的基因型,并提示补充检测的位点信息。
(4)如果所述整合基因位点信息的所有位点信息不能与所述基因名称对应的任何基因型的位点信息完全或者部分相匹配,则将所述整合基因位点信息与所述单点基因型数据库中基因型进行基因名称匹配;
(5)如果所述整合基因位点信息的基因名称与所述单点基因型数据库中基因型的基因名称相匹配,则进行位点信息匹配;
(6)如果整合位点信息与所述单点型库中基因型的位点信息完全匹配,则将所述整合基因位点信息转换为相匹配的基因型。
进一步地,为了能够为指导用药提供有效的依据,在可能的实施例中,上述基因型转换器的输出结果还包括基因型对应的代谢类型。
在可能的实施例中,上述基因型转换器的输出结果包括参数:基因名称Gene_name,基因型Genotype,已检测位点Variants_detected,待检测位点Variants_need_detected,代谢类型Phenotype及组合性Zygosity。如输出结果为:CYP2C19*1/*2 NA|NAexactly_matched 4 Heterozygote。
本发明实施例提供的基因型转换方法,能够从BAM文件提取野生型基因位点信息,从VCF文件提取突变型基因位点信息,通过野生型基因位点信息和突变型基因位点信息,基于预先根据pharmGKB建立的基因型库准确定位到基因型,速度快,准确率高,并能够批量化处理,有效提高了基因型的分类识别效率,并大大降低了成本。同时基因型转换器输出基因型对应的代谢类型,为指导用药提供了有效的证据。
针对于上述基因型转换方法,本实施例提供了一种基因型转换装置,该基因型转换装置包括:
基因型库建立模块11,用于根据遗传药理学和药物基因组学数据库pharmGKB建立基因型库;
文件获取模块12,用于获取待检测基因对应的VCF文件和BAM文件,该VCF文件和该BAM文件均携带有基因位点信息;
位点提取模块13,用于从BAM文件中提取野生型基因位点信息,从VCF文件中提取突变型基因位点信息;
基因型转换模块14,用于根据野生型基因位点信息和突变型基因位点信息,基于基因型库,利用基因型转换器将基因位点信息转换为基因型。
进一步地,上述基因型库中的基因型对应的参数包括基因名称、基因型、位点信息;上述基因型转换器将所述基因位点信息转换为基因型的过程包括:
对野生型基因位点信息和突变型基因位点信息进行整合得到整合基因位点信息;
将整合基因位点信息与基因型库中基因型进行基因名称匹配,如果整合基因位点信息的基因名称与基因型库中基因型的基因名称相匹配,则进行基因型和位点信息匹配;
根据基因型和位点信息匹配的匹配结果,将整合基因位点信息转换为相应的基因型。
本发明实施例提供的基因型转换方法,能够从BAM文件提取野生型基因位点信息,从VCF文件提取突变型基因位点信息,通过野生型基因位点信息和突变型基因位点信息,基于预先根据pharmGKB建立的基因型库准确定位到基因型,速度快,准确率高,并能够批量化处理,有效提高了基因型的分类识别效率,并大大降低了成本。
参见图4,本发明实施例还提供一种电子设备100,包括:处理器40,存储器41,总线42和通信接口43,所述处理器40、通信接口43和存储器41通过总线42连接;处理器40用于执行存储器41中存储的可执行模块,例如计算机程序。
其中,存储器41可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器41用于存储程序,所述处理器40在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器40中,或者由处理器40实现。
处理器40可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器40读取存储器41中的信息,结合其硬件完成上述方法的步骤。
本发明实施例提供的基因型转换装置及电子设备,与上述实施例提供的基因型转换方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例所提供的进行基因型转换方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置及电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
附图中的流程图和框图显示了根据本发明的多个实施例方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基因型转换方法,其特征在于,包括:
根据遗传药理学和药物基因组学数据库pharmGKB建立基因型库;
获取待检测基因对应的VCF文件和BAM文件,所述VCF文件和所述BAM文件均携带有基因位点信息;
从所述BAM文件中提取野生型基因位点信息,从所述VCF文件中提取突变型基因位点信息;
根据所述野生型基因位点信息和所述突变型基因位点信息,基于所述基因型库,利用基因型转换器将所述基因位点信息转换为基因型。
2.根据权利要求1所述的方法,其特征在于,所述从所述VCF文件中提取突变型基因位点信息之前,还包括:对所述VCF文件中的数据格式进行标准化。
3.根据权利要求2所述的方法,其特征在于,所述对所述VCF文件中的数据格式进行标准化后还包括:
对格式标准化后的VCF文件中的数据进行基因注释,并对VCF文件中携带的基因所在的正负链进行左右矫正。
4.根据权利要求1所述的方法,其特征在于,所述基因型库包括:单点基因型数据库和多点基因型数据库;其中所述单点基因型数据库中存储由单个基因位点确定的单点基因型,所述多点基因型数据库存储由多个基因位点确定的多点基因型。
5.根据权利要求1所述的方法,其特征在于,所述基因型库中的基因型对应的参数包括基因名称、基因型、位点信息;
所述基因型转换器将所述基因位点信息转换为基因型的过程包括:
对所述野生型基因位点信息和所述突变型基因位点信息进行整合得到整合基因位点信息;
将所述整合基因位点信息与所述基因型库中基因型进行基因名称匹配,如果所述整合基因位点信息的基因名称与所述基因型库中基因型的基因名称相匹配,则进行基因型和位点信息匹配;
根据基因型和位点信息匹配的匹配结果,将所述整合基因位点信息转换为相应的基因型。
6.根据权利要求5所述的方法,其特征在于,所述将所述整合基因位点信息与所述基因型库中的基因型进行基因名称匹配之前还包括:
当所述整合基因位点信息的突变基因位点携带有CNV信息时,对所述整合基因位点信息进行单倍型分析;
当所述突变基因位点的变异频率大于预设阈值时,确定所述整合基因位点信息为单倍型,执行所述将所述整合基因位点信息与所述基因型库中的基因型进行基因名称匹配的步骤。
7.一种基因型转换装置,其特征在于,包括:
基因型库建立模块,用于根据遗传药理学和药物基因组学数据库pharmGKB建立基因型库;
文件获取模块,用于获取待检测基因对应的VCF文件和BAM文件,所述VCF文件和所述BAM文件均携带有基因位点信息;
位点提取模块,用于从所述BAM文件中提取野生型基因位点信息,从所述VCF文件中提取突变型基因位点信息;
基因型转换模块,用于根据所述野生型基因位点信息和所述突变型基因位点信息,基于所述基因型库,利用基因型转换器将所述基因位点信息转换为基因型。
8.根据权利要求7所述的装置,其特征在于,所述基因型库中的基因型对应的参数包括基因名称、基因型、位点信息;
所述基因型转换器将所述基因位点信息转换为基因型的过程包括:
对所述野生型基因位点信息和所述突变型基因位点信息进行整合得到整合基因位点信息;
将所述整合基因位点信息与所述基因型库中基因型进行基因名称匹配,如果所述整合基因位点信息的基因名称与所述基因型库中基因型的基因名称相匹配,则进行基因型和位点信息匹配;
根据基因型和位点信息匹配的匹配结果,将所述整合基因位点信息转换为相应的基因型。
9.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至6任一项所述的方法。
CN201810471186.7A 2018-05-16 2018-05-16 基因型转换方法、装置及电子设备 Active CN108710782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810471186.7A CN108710782B (zh) 2018-05-16 2018-05-16 基因型转换方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810471186.7A CN108710782B (zh) 2018-05-16 2018-05-16 基因型转换方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN108710782A true CN108710782A (zh) 2018-10-26
CN108710782B CN108710782B (zh) 2021-03-16

Family

ID=63868197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810471186.7A Active CN108710782B (zh) 2018-05-16 2018-05-16 基因型转换方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN108710782B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637581A (zh) * 2018-12-10 2019-04-16 江苏医联生物科技有限公司 一种dna二代测序全流程质量分析方法
CN111798926A (zh) * 2020-06-30 2020-10-20 广州金域医学检验中心有限公司 致病基因位点数据库及其建立方法
CN115295116A (zh) * 2022-08-04 2022-11-04 上海康黎医学检验所有限公司 一种用药点评方法、***和电子设备
CN116246715A (zh) * 2023-04-27 2023-06-09 倍科为(天津)生物技术有限公司 多样本基因突变数据存储方法、装置、设备及介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070178501A1 (en) * 2005-12-06 2007-08-02 Matthew Rabinowitz System and method for integrating and validating genotypic, phenotypic and medical information into a database according to a standardized ontology
CN101358245A (zh) * 2008-09-19 2009-02-04 上海市动物疫病预防控制中心 一种猪氟烷基因基因型的检测方法
CN101548010A (zh) * 2006-12-01 2009-09-30 佳能株式会社 测定多等位基因单倍型的方法
CN102367490A (zh) * 2008-12-12 2012-03-07 深圳华大基因科技有限公司 一种检测病毒的方法
US20140222349A1 (en) * 2013-01-16 2014-08-07 Assurerx Health, Inc. System and Methods for Pharmacogenomic Classification
US20150261913A1 (en) * 2014-03-11 2015-09-17 The Board of Trustees of the Leland Stanford, Junior, University Method and System for Identifying Clinical Phenotypes in Whole Genome DNA Sequence Data
CN105586389A (zh) * 2014-10-21 2016-05-18 天津华大基因科技有限公司 试剂盒及其在检测遗传性骨病基因中的用途
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释***
CN106202936A (zh) * 2016-07-13 2016-12-07 为朔医学数据科技(北京)有限公司 一种疾病风险预测方法及***
CN107292129A (zh) * 2017-05-26 2017-10-24 中国科学院上海药物研究所 易感基因型检测方法
CN107557458A (zh) * 2017-10-11 2018-01-09 华东医药(杭州)基因科技有限公司 一种有效检测基因型的方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070178501A1 (en) * 2005-12-06 2007-08-02 Matthew Rabinowitz System and method for integrating and validating genotypic, phenotypic and medical information into a database according to a standardized ontology
CN101548010A (zh) * 2006-12-01 2009-09-30 佳能株式会社 测定多等位基因单倍型的方法
CN101358245A (zh) * 2008-09-19 2009-02-04 上海市动物疫病预防控制中心 一种猪氟烷基因基因型的检测方法
CN102367490A (zh) * 2008-12-12 2012-03-07 深圳华大基因科技有限公司 一种检测病毒的方法
US20140222349A1 (en) * 2013-01-16 2014-08-07 Assurerx Health, Inc. System and Methods for Pharmacogenomic Classification
US20150261913A1 (en) * 2014-03-11 2015-09-17 The Board of Trustees of the Leland Stanford, Junior, University Method and System for Identifying Clinical Phenotypes in Whole Genome DNA Sequence Data
CN105586389A (zh) * 2014-10-21 2016-05-18 天津华大基因科技有限公司 试剂盒及其在检测遗传性骨病基因中的用途
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释***
CN106202936A (zh) * 2016-07-13 2016-12-07 为朔医学数据科技(北京)有限公司 一种疾病风险预测方法及***
CN107292129A (zh) * 2017-05-26 2017-10-24 中国科学院上海药物研究所 易感基因型检测方法
CN107557458A (zh) * 2017-10-11 2018-01-09 华东医药(杭州)基因科技有限公司 一种有效检测基因型的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHU, JING 等: "Serotonin Transporter Gene Polymorphisms and Selective Serotonin Reuptake Inhibitor Tolerability: Review of Pharmacogenetic Evidence", 《PHARMACOTHERAPY》 *
简正伟 等: "一种检测多种NPM1突变体的ARMS-PCR方法的建立", 《中国实验血液学杂志》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637581A (zh) * 2018-12-10 2019-04-16 江苏医联生物科技有限公司 一种dna二代测序全流程质量分析方法
CN111798926A (zh) * 2020-06-30 2020-10-20 广州金域医学检验中心有限公司 致病基因位点数据库及其建立方法
CN111798926B (zh) * 2020-06-30 2023-09-29 广州金域医学检验中心有限公司 致病基因位点数据库及其建立方法
CN115295116A (zh) * 2022-08-04 2022-11-04 上海康黎医学检验所有限公司 一种用药点评方法、***和电子设备
CN115295116B (zh) * 2022-08-04 2023-09-19 上海康黎医学检验所有限公司 一种用药点评方法、***和电子设备
CN116246715A (zh) * 2023-04-27 2023-06-09 倍科为(天津)生物技术有限公司 多样本基因突变数据存储方法、装置、设备及介质
CN116246715B (zh) * 2023-04-27 2024-04-16 倍科为(天津)生物技术有限公司 多样本基因突变数据存储方法、装置、设备及介质

Also Published As

Publication number Publication date
CN108710782B (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN108710782A (zh) 基因型转换方法、装置及电子设备
US20200232029A1 (en) Systems and methods for mitochondrial analysis
Garber et al. Identifying novel constrained elements by exploiting biased substitution patterns
JP6314091B2 (ja) Dna配列のデータ分析
Koetschan et al. Internal transcribed spacer 1 secondary structure analysis reveals a common core throughout the anaerobic fungi (Neocallimastigomycota)
Coombe et al. Assembly of the complete Sitka spruce chloroplast genome using 10X Genomics’ GemCode sequencing data
JP6762932B2 (ja) シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス
CN103797486A (zh) 用于组装核酸序列数据的方法
JP2017527257A (ja) 染色体提示の決定
US20170329899A1 (en) Display of estimated parental contribution to ancestry
Dündar et al. Introduction to differential gene expression analysis using RNA-seq
Kam-Thong et al. Epistasis detection on quantitative phenotypes by exhaustive enumeration using GPUs
Kremer et al. Approaches for in silico finishing of microbial genome sequences
EP4016533A1 (en) Method and apparatus for machine learning based identification of structural variants in cancer genomes
Thingholm et al. Strategies for integrated analysis of genetic, epigenetic, and gene expression variation in cancer: addressing the challenges
Llinares-López et al. Genome-wide genetic heterogeneity discovery with categorical covariates
Wang et al. Tool evaluation for the detection of variably sized indels from next generation whole genome and targeted sequencing data
CN107967411B (zh) 一种脱靶位点的检测方法、装置及终端设备
CN115083521A (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及***
Molinari et al. Transcriptome analysis using RNA-Seq fromexperiments with and without biological replicates: areview
US20140229114A1 (en) Genomic/proteomic sequence representation, visualization, comparison and reporting using bioinformatics character set and mapped bioinformatics font
US20150142328A1 (en) Calculation method for interchromosomal translocation position
JP2013172709A (ja) 塩基配列分析のための参照配列処理システム及び方法
Videm et al. ChiRA: an integrated framework for chimeric read analysis from RNA-RNA interactome and RNA structurome data
KR20220037376A (ko) 기계학습 기반의 유전체 구조 변이 식별 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant