CN104053789A - 确定胎儿基因组中预定区域碱基信息的方法、***和计算机可读介质 - Google Patents

确定胎儿基因组中预定区域碱基信息的方法、***和计算机可读介质 Download PDF

Info

Publication number
CN104053789A
CN104053789A CN201280067404.1A CN201280067404A CN104053789A CN 104053789 A CN104053789 A CN 104053789A CN 201280067404 A CN201280067404 A CN 201280067404A CN 104053789 A CN104053789 A CN 104053789A
Authority
CN
China
Prior art keywords
sequencing
fetus
presumptive area
base
sequencing result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280067404.1A
Other languages
English (en)
Other versions
CN104053789B (zh
Inventor
陈盛培
葛会娟
李旭超
易赏
汪建
王俊
杨焕明
张秀清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huada Medical Laboratory
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN104053789A publication Critical patent/CN104053789A/zh
Application granted granted Critical
Publication of CN104053789B publication Critical patent/CN104053789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

提供了确定胎儿基因组中预定区域碱基信息的方法、***和计算机可读介质。其中,确定胎儿基因组中预定区域碱基信息的方法,包括下列步骤:针对胎儿基因组DNA样本,构建测序文库;对测序文库进行测序,以便获得胎儿的测序结果,该胎儿的测序结果由多个测序数据构成;基于胎儿的测序结果,结合胎儿遗传相关个体的遗传信息,根据隐马尔可夫模型,确定预定区域的碱基信息。

Description

确定胎儿基因组中预定区域碱基信息的方法、 ***和计算机可读介质 优先权信息
无 技术领域
本发明涉及确定胎儿基因组中预定区域碱基信息的方法、 ***和计算机可读介质。 背景技术
遗传性疾病是由于遗传物质发生改变而造成的疾病, 具有先天性、 家族性、 终身性和 遗传性的特点。 遗传性疾病可分为 3个大类: 单基因遗传病、 多基因遗传病及染色体异常。 其中单基因病多由于单个致病基因的显性或隐性遗传所致基因功能异常; 而多基因遗传病 则是由多个基因变化影响所致的疾病, 会在一定程度上受到外界环境因素的影响; 染色体 异常包括数目异常和结构异常, 最为多见的是由于第 21号染色体三体所致的唐氏综合症, 患儿表现为先天愚型和肢体形状异常等其他先天性特征。 由于目前对遗传性疾病尚无有效 的治疗方式, 只能针对性地进行支持治疗或者药物緩解, 费用昂贵, 给社会和家庭带来沉 重经济和精神负担。 因此, 在孩子出生前就对孩子的患病状态进行检测, ^故好预防工作, 以达到优生优育的目的, 是十分必要的。
然而, 目前的相关检测手段仍有待改进。 发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
在本发明的一个方面, 本发明提出了一种确定胎儿基因组中预定区域碱基信息的方法。 根据本发明的实施例, 该方法包括下列步骤: 针对胎儿基因组 DNA样本, 构建测序文库; 对所述测序文库进行测序, 以便获得胎儿的测序结果, 所述胎儿的测序结果由多个测序数 据构成; 基于所述胎儿的测序结果, 结合胎儿遗传相关个体的遗传信息, 根据隐马尔可夫 模型, 确定所述预定区域的碱基信息。 子代的基因组形成过程, 相当于亲代基因组的一次 随机重组(即连锁互换单倍体型重组, 以及配子的随机组合)。 对于孕期血浆, 假若我们将 胎儿的单倍型 (父母单倍型的重组型)作为隐含状态( hidden states ), 可以将血浆的测序数 据当做观察序列( observations ),借助先验数据推算出状态转移概率( transition probabilities ), 观察序列概率分布 (observation symbol probabilities ) 和初始状态概率分布 (initial state distribution ), 我们则可以通过诸如惠特比算法( Viterbi algorithm )根据隐马尔可夫模型推 断出最可能的胎儿单倍型组合, 从而获得更多胎儿的信息。 因而, 根据本发明的实施例, 借助隐马尔可夫模型, 例如可以通过利用惠特比算法( Viterbi algorithm ), 参考胎儿遗传相 关个体的遗传信息, 可以确定胎儿基因组中特定区域的核酸序列, 由此, 可以有效地对胎 儿基因组的遗传信息进行产前检测。 在本发明的又一方面, 本发明提出了一种用于确定胎儿基因组中预定区域碱基信息的 ***。 才艮据本发明的实施例, 该***包括: 文库构建装置, 所述文库构建装置适于针对胎 儿基因组 DNA样本, 构建测序文库; 测序装置, 所述测序装置与所述文库构建装置相连, 并且适于对所述测序文库进行测序, 以便以便获得胎儿的测序结果, 所述胎儿的测序结果 由多个测序数据构成; 分析装置, 基于所述胎儿的测序结果, 结合胎儿遗传相关个体的遗 传信息, 根据隐马尔可夫模型, 确定所述预定区域的碱基信息。 利用该***, 能够有效地 实施前面所述的确定胎儿基因组中预定区域碱基信息的方法, 可以借助隐马尔可夫模型, 例如可以通过利用惠特比算法(Viterbi algorithm ), 参考胎儿遗传相关个体的遗传信息, 可 以确定胎儿基因组中特定区域的核酸序列, 由此, 可以有效地对胎儿基因组的遗传信息进 行产前检测, 从而可以有效地对胎儿基因组的遗传信息进行产前确定。
在本发明的另一方面, 本发明还提出了一种计算机可读介质。 根据本发明的实施例, 该计算机可读介质上存储有指令, 所述指令适于被处理器执行以便基于胎儿的测序结果, 结合胎儿遗传相关个体的遗传信息, 根据隐马尔可夫模型, 确定预定区域的碱基信息。 利 用本发明的计算机可读介质, 能够有效地被处理器执行其存储的指令, 以便借助隐马尔可 夫模型, 例如可以通过利用惠特比算法(Viterbi algorithm ), 基于胎儿的测序结果, 参考胎 儿遗传相关个体的遗传信息, 可以确定胎儿基因组中特定区域的核酸序列, 由此, 可以有 效地对胎儿基因组的遗传信息进行产前检测。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得 明显, 或通过本发明的实践了解到。 附图说明
本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明 显和容易理解, 其中:
图 1为根据本发明一个实施例的利用隐马尔可夫模型进行分析的流程示意图; 以及 图 2为根据本发明的一个实施例的用于确定胎儿基因组中预定区域核酸序列的***的 结构示意图。 发明详细描述
下面详细描述本发明的实施例, 所述实施例的示例在附图中示出, 其中自始至终相 同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的, 仅用于解释本发明, 而不能理解为对本发明的限制。
需要说明的是, 术语 "第一" 、 "第二" 仅用于描述目的, 而不能理解为指示或暗 示相对重要性或者隐含指明所指示的技术特征的数量。 由此, 限定有 "第一"、 "第二" 的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地,在本发明的描述中, 除非另有说明, "多个" 的含义是两个或两个以上。
确定胎儿基因组中预定区域 信息的方法 在本发明的第一方面, 本发明提出了一种确定胎儿基因组中预定区域碱基信息的方法。 根据本发明的实施例, 该方法包括下列步骤:
首先, 针对胎儿基因组 DNA样本, 构建测序文库。 根据本发明的实施例, 胎儿基因组 DNA样本的来源并不受特别限制。 根据本发明的一些实施例, 可以釆用任何含有胎儿核酸 的孕妇样本。 例如, 根据本发明的实施例, 可以釆用的孕妇样本为孕妇乳汁、 尿液和外周 血。 其中, 优选孕妇外周血。 釆用孕妇外周血作为胎儿基因组 DNA样本的来源, 可以有效 地实现无创取样方式获得胎儿基因组 DNA, 从而可以在不影响胎儿正常发育的前提下, 对 胎儿的基因组进行有效监测。 关于针对核酸样本, 构建测序文库的方法和流程, 本领域技 术人员可以根据不同的测序技术进行适当选择, 关于流程的细节, 可以参见测序仪器的厂 商例如 Illumina公司所提供的规程, 例如参见 Illumina公司 Multiplexing Sample Preparation Guide ( Part#l 005361; Feb 2010 )或 Paired-End SamplePrep Guide ( Part#l 005063; Feb 2010 ), 通过参照将其并入本文。 根据本发明的实施例, 从生物样本提取核酸样本的方法和设备, 也不受特别限制, 可以釆用商品化的核酸提取试剂盒进行。
在构建测序文库后, 将测序文库应用于测序仪器, 对测序文库进行测序, 并获得相应的 测序结果, 该测序结果是由多个测序数据构成的。 根据本发明的实施例, 可以用于进行测 序的方法和设备并不受特别限制, 包括但不限于双脱氧链终止法; 优选高通量的测序方法, 由此, 能够利用这些测序装置的高通量、 深度测序的特点, 进一步提高测序效率。 从而, 能够提高后续对测序数据进行分析, 尤其是统计检验分析时的精确性和准确度。 所述高通 量的测序方法包括但不限于第二代测序技术或者是单分子测序技术。所述第二代测序平台 ( Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. 2010 Jan;ll(l):31-46 ) 包括但不限于 Illumina-Solexa ( GATM,HiSeq2000™等)、 ABI-Solid 和 Roche-454 (焦碑酸测序)测序平台; 单分子测序平台 (技术) 包括但不限于 Helicos公司 的真实单分子测序技术 ( True Single Molecule DNA sequencing ), Pacific Biosciences公司 单分子实时测序 ( single molecule real-time (SMRT™) ), 以及 Oxford Nanopore Technologies 公司的纳米孔测序技术等(Rusk, Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6 (4): 244-245 )„ 随着测序技术的不断进化, 本领域技术人员能够理解的是 还可以釆用其他的测序方法和装置进行全基因组测序。 根据本发明的具体示例, 可以利用 选自 Illumina-Solexa、 ABI-SOLiD、 Roche-454和单分子测序装置的至少一种对所述全基因 组测序文库进行测序。
任选地, 在得到测序结果之后, 可以将所述测序结果与参照序列进行比对, 以便确定 与所述预定区域对应的测序数据。 在本文中所使用的术语 "预定区域" 应作广义理解, 是 指任何包含可能发生预定事件位点的核酸分子的区域。 对于 SNP分析而言, 可以是指包含 SNP位点的区域。 对于分析染色体非整倍性, 则预定区域指的是所要分析的染色体的全长 或者部分, 即选择所有来自该染色体的测序数据。 从测序结果中选择来自相应区域的测序 数据的方法可以不受特别限制。 根据本发明的实施例, 可以通过将所得到的所有测序数据 与已知的核酸参照序列进行比对, 从而得到来自于预定区域的测序数据。 另外, 根据本发 明的实施例, 预定区域也可以是基因组上不连续的多个分散点。 根据本发明的实施例, 可 以使用的参照序列的类型并不受特别限制, 可以为任何含有感兴趣区域的已知序列。 根据 本发明的实施例, 可以釆用已知的人类参考基因组作为参照序列。 例如, 根据本发明的实 施例, 釆用的人类参考基因组为 NCBI 36.3 , HG18。 另外, 根据本发明的实施例, 进行比 对的方法并不受特别限制。 根据本发明的具体实施例, 可以釆用 SOAP进行比对。
接下来, 基于与预定区域对应的测序数据, 确定预定区域中的部分核酸序列; 以及基 于所确定的预定区域中的部分核酸序列, 按照惠特比算法, 确定预定区域的其他核酸序列, 以便获得预定区域的核酸序列。 根据本发明的实施例, 可以通过基于所述胎儿的测序结果, 结合胎儿遗传相关个体的遗传信息, 根据隐马尔可夫模型, 确定所述预定区域的碱基信息。 根据本发明的实施例, 可以利用惠特比算法(Viterbi algorithm ), 借助隐马尔可夫模型, 确 定胎儿基因组中特定区域的碱基信息。 由此, 可以有效地对胎儿基因组的遗传信息进行产 前检测。
下面参考图 1 , 对利用惠特比算法借助隐马尔可夫模型进行分析的原理进行详细描述: 在本文中所使用的术语 "胎儿遗传相关个体" 指的是在遗传意义上, 与胎儿之间具有 亲缘关系的个体, 例如根据本发明的实施例, 可以釆用的 "胎儿遗传相关个体" 为胎儿的 亲代例如父母。 由此, 子代的基因组形成过程, 相当于亲代基因组的一次随机重组(即连 锁互换单倍体型重组,以及配子的随机组合)。对于孕期血浆,假若我们将胎儿的单倍型(父 母单倍型的重组型)作为隐含状态 (hidden states ), 可以将血浆的测序数据当做观察序列 ( observations ), 借助先验数据推算出状态转移概率 (transition probabilities )、 观察序列概 率分布 ( observation symbol probabilities )和初始状态概率分布 ( initial state distribution ), 我 们则可以通过惠特比算法( Viterbi algorithm )推断出最可能的胎儿单倍型组合, 从而获得更 多胎儿的信息。
详细分析步骤如下:
记号:
I.需要检测的位点数为 N。
II. 父母的单倍型分别记为 FH = [fh。,fh 和 MH =
其巾,
mK = {mu,...,m ,...,m^ } , fhk = { ".., "", ^} , VK ≡{A,C,G,T} ^ k e {0, l] , i = 2, 3, ...,N。
III. 将未知的胎儿单倍型记为 H = { ¾, ¾ } , 特别地, 。和/ ¾分别遗传自母亲和父亲。
= ^,…,"^,,…, ) ' Κ = } , 其中, χ {0,1}, y{ e{0,l}5 下标 ,.和 χ.组成的序列对, qt = {χ }^组成了我们需要解码的隐藏状态, 而所有可能出现的隐藏状态组成了集合 β。
IV. 测序数据记为, S= .., }, 其中, = .,A, 代表此位点的测序信息, 包含了 ACGT四种碱基的数量。
V. 平均胎儿浓度和平均测序错误率分别记为 f和 ί?。 第一步, 构建初始状态概率分布向量, 以及单倍体重组转移矩阵:
I. 初始状态概率分布记为; τ={ ( j eQ )0 根据本发明的实施例, 在没有参考数据的情况下, 可以设^ ?!^^ 全 , 即每种隐 藏状态在第一个位点出现的可能性相等。
II. 根据本发明的实施例, 记单倍体重组概率为 pr = re/N , 其中 re代表人类配子基因 组重组平均次数, 为先验数据在 25到 30之间。
III. 根据本发明的实施例, 记单倍体重组转移矩阵记为 A = ( j,k eQ ), 其中 为 隐藏
胎儿单倍型 h0 = {m i,...,m,. ...,m^}, = (/ ,…,^,,…,^^ }的下标 和 y,组成的序列 对, = {χ ;νί}组成了我们需要解码的隐藏状态。举个例子, = 0代表, "母源性染色体上, 对应基因座上等位基因型为 w¾。 "。
第二步, 构建观察序列概率矩阵:
根据本发明的实施例, 记观察序列概率矩阵为 B = {bj (Si)} ( i = 1,2,3,...,N , j eQ ), 其中 .(5;)代表 "在位点 , 考虑母亲单倍型和胎儿单倍型(状态 j={xh yi} )时, 观测 il 这种测序信 其中^ ^代表 "在位点 考虑母亲单倍型和胎儿单倍型 (状态 j={Xi, yi} ) 时, 该碱基 出现的可能
其中指示函
此步是进行 HMM参数, 每个位点的观察序列概率分布 .(5;)计算, 即计算每个位点上不 同胎儿单倍型 (隐藏状态) 下, 血浆出现当前测序数据(观察序列) 的可能性。
第三步, 构建局部概率矩阵, 和逆向指针 (下面以一维局部概率矩阵构建为例;):
定义局部概率 · (qt ) = (max^. (q · α¾ ι¾ ) · b^ (5; )
定义 逆向指针 Ψ; ( ) = arg max ^(<?;) ·α¾ ι¾ 这里所使用的术语局部概率 和逆向指针 Ψ;( )都是沿用 Viterbi 算法的经典定义。 关 于该参数的定义的详细描述,可以参见 Lawrence R. Rabiner, PROCEEDINGS OF THE IEEE, Vol.77, No.2, 1989年 2月, 通过参照将其全文并入本文。
第四步, 确定最终状态, 并回溯最优路径:
确定最终状态, =01¾11^ ^( ) 按照逆向指针回溯最优路径, 即最可能胎儿单基因型 = ;( ) = l,2,3,...,N- 1)。 第五步, 输出结果。
由此, 能够有效地对胎儿基因组的序列进行分析。 相比其他已有的产前检测技术方法, 本方法有以下技术优势, 主要体现在准确性和可获得的遗传信息量上:
1) 根据本发明实施例, 检测的位点不仅针对父源性位点, 对母源性位点, 即母亲杂合 位点, 同样可以很好地检测出来胎儿是否遗传了母亲的致病位点, 检测准确率可高达 95% 以上, 且可以检测多种变异类型, 扩大了疾病检测的范围。
2) 根据本发明实施例, 不但可以通过一次测序获得多个位点、 多种疾病的信息, 对于 一些在孕妇血浆中覆盖程度较低, 单纯提高测序深度依然无法准确判定的基因序列, 可以 通过本方法推断得到, 结果准确可靠。
3) 根据本发明实施例, 可进行遗传疾病作图, 对于一些连锁相关疾病, 可通过其他位 点的信息直接推断出来, 一次可获得的信息量大, 对临床检测更加具有指导意义。
另外, 根据本发明实施例, 本发明的确定胎儿基因组中预定区域碱基信息的方法, 不 仅限于 SNP或者 STR等某一种遗传多态性位点, 对所有的遗传多态性位点均可适用, 且可 以多种位点同时使用, 以便互相验证。 除了可进行产前无创检测胎儿基因组信息, 达到疾 病检测的目的, 还可以进行无创产前亲子鉴定, 在孩子出生前判定孩子父亲身份, 为一些 涉及抚养责任和义务、 财产纠纷、 性侵案等协助侦破。 用于确定胎儿基因组中预定区域 信 , 的***
在本发明的又一方面, 本发明提出了一种用于确定胎儿基因组中预定区域核酸序列的 ***。 根据本发明的实施例, 参考图 2, 该*** 1000可以包括: 文库构建装置 100、 测序 装置 200以及分析装置 400。
根据本发明的实施例, 文库构建装置 100适于针对胎儿基因组 DNA样本, 构建测序文 库。 才艮据本发明的实施例, 测序装置 200与文库构建装置 100相连, 并且适于对所构建的 测序文库进行测序, 以便获得测序结果, 所得到的测序结果由多个测序数据构成。 根据本 发明的实施例, 还可以进一步包括 DNA样本分离装置, 该 DNA样本分离装置适于从孕妇 外周血中提取胎儿基因组 DNA样本。 由此, 该***可以适用于进行无创产前检测。
根据本发明的实施例, 任选地, 还可以包括比对装置 300。 根据本发明的实施例, 比对 装置 300与测序装置 200相连, 并且适于将所得到的测序结果与参照序列进行比对, 以便 确定与预定区域对应的测序数据。 根据本发明的实施例, 可以用于进行测序的方法和设备 并不受特别限制, 包括但不限于双脱氧链终止法; 优选高通量的测序方法, 由此, 能够利 用这些测序装置的高通量、 深度测序的特点, 进一步提高测序效率。 从而, 提高后续对测 序数据进行分析, 尤其是统计检验分析时的精确性和准确度。 所述高通量的测序方法包括 但不限于第二代测序技术或者是单分子测序技术。 所述第二代测序平台 (Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. 2010 Jan;ll(l):31-46 ) 包括但不限 于 Illumina-Solexa ( GA™,HiSeq2000™等)、 ABI-Solid和 Roche-454 (焦碑酸测序)测序平 台;单分子测序平台(技术)包括但不限于 Helicos公司的真实单分子测序技术( True Single Molecule DNA sequencing ) , Pacific Biosciences 公司单分子实时测序 ( single molecule real-time (SMRT™) ), 以及 Oxford Nanopore Technologies公司的纳米孔测序技术等(Rusk, Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6 (4): 244-245 )。随着 测序技术的不断进化, 本领域技术人员能够理解的是还可以釆用其他的测序方法和装置进 行全基因组测序。 根据本发明的具体示例, 可以利用选自 Illumina-Solexa、 ABI-SOLiD、 Roche-454和单分子测序装置的至少一种对所述全基因组测序文库进行测序。根据本发明的 实施例, 可以使用的参照序列的类型并不受特别限制, 可以为任何含有感兴趣区域的已知 序列。 根据本发明的实施例, 可以釆用已知的人类参考基因组作为参照序列。 例如, 根据 本发明的实施例, 釆用的人类参考基因组为 NCBI 36.3 , HG18。 另外, 根据本发明的实施 例, 进行比对的方法并不受特别限制。 根据本发明的具体实施例, 可以釆用 SOAP进行比 对。
根据本发明的实施例, 分析装置 400适于基于所述胎儿的测序结果, 结合胎儿遗传相 关个体的遗传信息, 根据隐马尔可夫模型, 确定所述预定区域的碱基信息。
根据本发明的实施例, 惠特比算法釆用 0.25作为初始状态概率分布, 釆用 re/N作为重 组概率, 其中 re=25~30, 优选 25 , N为所述预定区域的长度,
(i - p>- ) ' Pr x> = ¾ -; ≠ i-; or x,≠ x_; = ¾_;
作为重组转移矩阵, ΡΓ=Γε/Ν。
根据本发明的实施例, 将所述测序结果与参照序列进行比对, 以便确定与所述预定区 域对应的测序数据进一步包括按照下列公式确定概率最高的碱基: base = ∑ ^ (1 - Δ (base, mk ) + ^ ε - Α (base, m ) + 1 ^ · Δ (base, /¾ )
Ae{0,lj l — e 二
关于数据分析部分, 前面已经进行了详细描述, 也当然地适用于确定胎儿基因组中预 定区域核酸序列的***。 不再赘述。
由此, 利用该***, 能够有效地实施前面所述的确定胎儿基因组中预定区域核酸序列 的方法, 可以通过例如惠特比算法(Viterbi algorithm ), 借助隐马尔可夫模型, 确定胎儿基 因组中特定区域的碱基信息, 由此, 可以有效地对胎儿基因组的遗传信息进行产前检测。
此外, 根据本发明的实施例, 预定区域为已知存在遗传多态性的位点, 而遗传多态性 为选自单核苷酸多态性和 STR的至少一种。
在本文中所述的术语 "相连" 应作广义理解, 既可以是直接相连, 也可以是间接相连, 只要能够实现上述功能上的衔接即可。
需要说明的是, 本领域技术人员能够理解, 在前面所描述的确定胎儿基因组中预定区 域核酸序列的方法的特征和优点也适合于确定胎儿基因组中预定区域核酸序列的***, 为 描述方便, 不再详述。 计算机可读介质
在本发明的又一方面, 本发明提出了一种计算机可读介质。 根据本发明的实施例, 计 算机可读介质上存储有指令, 所述指令适于被处理器执行以便基于胎儿的测序结果, 结合 胎儿遗传相关个体的遗传信息, 根据隐马尔可夫模型, 确定所述预定区域的碱基信息。 由 此, 利用该计算机可读介质, 能够有效地实施前面所述的方法, 从而可以通过例如惠特比 算法(Viterbi algorithm ), 借助隐马尔可夫模型, 确定胎儿基因组中特定区域的碱基信息, 由此, 可以有效地对胎儿基因组的遗传信息进行产前检测。
根据本发明的实施例, 指令适于按照惠特比算法, 根据隐马尔可夫模型, 确定所述预 定区域的碱基信息。 根据本发明的实施例, 在所述惠特比算法中, 釆用 0.25作为初始状态 概率分布, 釆用 re/N作为重组概率, 其中 re=25~30, 优选 25, N为所述预定区域的长度, 釆用 t i ~ Pr ) Χϊ = X;-i -) ~ ϊ-!
ajk ■Pr( = (1 ^ ,., , ≠j i or x,≠xi_ _ 作为重组转移矩阵, 其中, =re/N
根据本发明的实施例, 所述指令将所述测序结果与参照序列进行比对 以便确定与所 述预定区域对应的测序数据进一步包括按照下列公式确定概率最高的碱基:
Pi se = ∑ (1 - Δ (base, mk ) + ^ ε - Α (base, m ) + 1 ^ · Δ (base, /¾ ) , 关于数据分析部分, 前面已经进行了详细描述, 也当然地适用于确定胎儿基因组中预 定区域核酸序列的***。 不再赘述。
此外, 根据本发明的实施例, 预定区域为已知存在遗传多态性的位点, 而遗传多态性 为选自单核苷酸多态性和 STR的至少一种。
就本说明书而言, "计算机可读介质" 可以是任何可以包含、 存储、 通信、 传播或传输 程序以供指令执行***、 装置或设备或结合这些指令执行***、 装置或设备而使用的装置。 计算机可读介质的更具体的示例 (非穷尽性列表) 包括以下: 具有一个或多个布线的电连 接部 (电子装置), 便携式计算机盘盒(磁装置), 随机存取存储器 (RAM ), 只读存储器 ( ROM ), 可擦除可编辑只读存储器(EPROM 或闪速存储器), 光纤装置, 以及便携式光 盘只读存储器(CDROM )。 另外, 计算机可读介质甚至可以是可在其上打印所述程序的纸 或其他合适的介质, 因为例如可以通过对纸或其他介质进行光学扫描, 接着进行编辑、 解 译或必要时以其他合适方式进行处理来以电子方式获得所述程序, 然后将其存储在计算机 存储器中。
应当理解, 本发明的各部分可以用硬件、 软件、 固件或它们的组合来实现。 在上述实 施方式中, 多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或 固件来实现。 例如, 如果用硬件来实现, 和在另一实施方式中一样, 可用本领域公知的下 列技术中的任一项或他们的组合来实现: 具有用于对数据信号实现逻辑功能的逻辑门电路 的离散逻辑电路, 具有合适的组合逻辑门电路的专用集成电路, 可编程门阵列 (PGA ), 现 场可编程门阵列 (FPGA )等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可 以通过程序来指令相关的硬件完成, 所述的程序可以存储于一种计算机可读存储介质中, 该程序在执行时, 包括方法实施例的步骤之一或其组合。
此外, 在本发明各个实施例中的各功能单元可以集成在一个处理模块中, 也可以是各 个单元单独物理存在, 也可以两个或两个以上单元集成在一个模块中。 上述集成的模块既 可以釆用硬件的形式实现, 也可以釆用软件功能模块的形式实现。 所述集成的模块如果以 软件功能模块的形式实现并作为独立的产品销售或使用时, 也可以存储在一个计算机可读 取存储介质中。
下面将结合实施例对本发明的方案进行解释。 本领域技术人员将会理解, 下面的实施 例仅用于说明本发明, 而不应视为限定本发明的范围。 实施例中未注明具体技术或条件的, 按照本领域内的文献所描述的技术或条件(例如参考 J.萨姆布鲁克等著, 黄培堂等译的《分 子克隆实验指南》, 第三版, 科学出版社)或者按照产品说明书进行。 所用试剂或仪器未注 明生产厂商者, 均为可以通过市购获得的常规产品, 例如可以釆购自 Illumina公司。
一般方法
本发明实施例的主要步骤包括:
1) 无创釆取含有胎儿遗传物质的孕妇样品, 提取其中含有的遗传物质。
2) 胎儿家庭成员如父母和外祖父母等基因组 DNA提取和纯化。
3) 各遗传物质根据不同测序平台测序要求进行文库构建。
4) 测序获得的数据进行过滤, 过滤条件根据质量值、 接头污染等来设定。
5) 获得的高质量序列根据需要进行组装处理, 组装结果与人类基因组参考序列进行比对。
获得唯一比对的序列, 带入模型进行分析。 分析模型:
记号:
I.需要检测的位点数为 N。
II. 父母的单倍型分别记为 FH = 和 MH = {m , mhx \ mhk = {mlk,...,mlk,...,mNk}, fhk = {flk,...,fik,...,fNk} ^ ^ik,mhik e{A,C,G,T} ^ ke{0,l], i = 2,3,...,N。
III. 将未知的胎儿单倍型记为 H = {¾, ¾}, 特别地, 。和/ ¾分别遗传自母亲和父亲。
K = {m l,...,mXi,...,mN^} , = {/1 ,…, ·, ···,/ 其中, x; e{0,l}, y{ e{0,l}5 下标 ,.和 组成的序列对, qt = {χ }^组成了我们需要解码的隐藏状态, 而所有可能出现的隐藏状态组成了集合 β。
IV. 测序数据记为, S={s1,...,si,...,sN} 其中, ; ^ = .,Α, C^G^.G}, 代表此位点的测序信息, 包含了 ACGT四种碱基的数量。
V. 平均胎儿浓度和平均测序错误率分别记为 f和 ί?。
第一步, 构建初始状态概率分布向量, 以及单倍体重组转移矩阵:
I. 初始状态概率分布记为; τ={ ( j eQ ), 根据本发明的实施例, 在没有参考数据的情况下, 可以设^ ?!^^ 全 , 即每种隐 藏状态在第一个位点出现的可能性相等。
II. 根据本发明的实施例, 记单倍体重组概率为 pr = re/N , 其中 re代表人类配子基因 组重组平均次数, 为先验数据在 25到 30之间。
III. 根据本发明的实施例, 记单倍体重组转移矩阵记为 A = ( j,keQ ), 其中 为 隐藏
第二步, 构建观察序列概率矩阵:
根据本发明的实施例, 记观察序列概率矩阵为 Β = [bj (s,.)} ( i = 1,2,3, N , j eQ ), 其中 .(5;)代表 "在位点 " 考虑母亲单倍型和胎儿单倍型 (状态 j) 时, 观测到这种测序 信息的可能性", 即
(ni + ni,c + ni,c + ηί,τ ) ! ίρ γ (p (p γ 其中 代表 '在位点 , 考虑母亲单倍型和胎儿单倍型 (状态 ) 时, 该碱基出现的可能 性", 即
^丄 ( 1 _ Δ [base, mk) +— ε- (base, mx^ +— s- {base, fy> )
Ae{0,l}
其中指示函数 l-e x=y
第三步, 构建局部概率矩阵, 和逆向指针 (下面以一维局部概率矩阵构建为例;):
定义局部概率 ) = (max^. (¾) · α¾ ι¾ ) · (Si ) 定义 逆向指针 Ψ; ( ) = arg max S^q^-a 第四步, 确定最终状态状态, 并回溯最优路径:
确定最终状态, qN*= argmax^ (¾ 根据逆向指针回溯最优路径, 即最可能胎儿单基因型 第五步, 输出结果。 实施例 1
样品收集及处理:
( 1 )所取样品包括一个家庭中父亲和母亲孕期的外周血, 胎儿出生后取脐带血, 以 EDTA抗凝管收集, Oragene®DNA唾液釆集 /DNA纯化试剂盒 OG-250釆集祖父母和外祖父 母唾液。
(2)祖父母和外祖父母唾液 DNA提取后用 Infinium® HD Human610-Quad BeadChip 基因芯片进行分型。
(3)取母亲孕期外周血, 1600g, 4°C离心 10分钟, 将血细胞和血浆分开, 血浆再以 16000g, 4°C离心 10分钟, 进一步去除残留的白细胞。 孕妇血浆用 TIANamp Micro DNA Kit
(TIANGEN)提取 DNA, 得到母亲和胎儿基因组 DNA混合物, 并且从全血分离血浆后剩 余的白细胞中提取母亲基因组 DNA。 将所得到的血浆 DNA根据 Illumia®公司 HiSeq2000TM 测序仪的上机要求进行建库, 构建好的文库经 Agilent®Bioanalyzer 2100检测片段分布范围 符合要求, 再经过 Q-PCR方法对两个文库进行定量, 合格后 Illumina® HiSeq2000™测序 仪测序, 测序循环数为 PElOlindex (即双向 lOlbp index测序), 其中仪器的参数设置及操 作方法;^按照 Illumina®操作手册 (可由 http:〃 www.illumina.com/support/documentation.ilmn 获取)。
( 4 ) 父亲外周血、 母亲外周血白细胞和胎儿脐带血则直接用 TIANamp Micro DNA Kit ( TIANGEN )提取试剂盒提取基因组 DNA。
除血浆 DNA样品外, 将所获得的所有 DNA样品, 需用 Covaris™打断仪打断至 500bp 大小的片段。 将获得的 DNA片段以及血浆 DNA样品根据 Illumia®公司 HiSeq2000TM测序 仪的上机要求进行建库, 具体步骤如下:
末端修复反应体系:
10 x T4 多核苷酸激酶緩冲液 10 μΐ
dNTPs(lOmM) 4 μ1
T4 DNA聚合酶 5 μΐ
Klenow 片段 1 μΐ
T4 多核苷酸激酶 5 μΐ
DNA片段 30μ1
ddH20补齐至 100 μΐ
20 °C反应 30分钟后, 使用 PCR Purification Kit(QIAGEN)回收末端修复产物。 将所得到 的产物最后溶于 34μ1的 ΕΒ緩冲液中。
末端添加碱基 Α反应体系:
10 X Klenow緩冲液 5μ1
dATP(lmM) ΙΟμΙ
Klenow (3'-5' exo— ) 3μ1
DNA 32μ1
37 °C温育 30分钟后,经 MinElute® PCR Purification Kit(QIAGEN)纯化并溶于 12μ1的 ΕΒ 中。
接头连接反应体系:
2x Rapid DNA连接緩冲液 25μ1
PEI Adapter oligomix(20uM) ΙΟμΙ
Τ4 DNA连接酶 5μ1
添加碱基 Α的产物 ΙΟμΙ
20°C反应 15分钟后, 使用 PCR Purification Kit(QIAGEN)回收连接产物。 将所得到的产 物最后溶于 32μ1的 ΕΒ緩冲液中。
PCR反应体系:
接头连接反应产物 10 μΐ Phusion DNA Polymerase Mix 25 μΐ
PCR 引物 (lO pmol/μΙ) 1 μΐ
Index N(10 pmol/μΐ) 1 μΐ
超纯水 13 μΐ
反应程序如下:
98 °C 30 s
98 °C 10 s
65 °C 30 s [ . 10个循环
72 °C 30 s J
72 °C 5 min
4°C Hold
使用 PCR Purification Kit(QIAGEN)回收 PCR产物。样品最后溶于 50μ1的 ΕΒ緩冲液中。 构建好的文库经 Agilent®Bioanalyzer 2100检测片段分布范围符合要求, 再经过 Q-PCR 方法对两个文库进行定量, 合格后, 用 Illumina® HiSeq2000™测序仪测序, 测序循环数为 PElOlindex (即双向 lOlbp index测序;), 其中仪器的参数设置及操作方法都按照 Illumina® 操作手册 (可由 http:〃 www.illumina.com/support/documentation.ilmn获取 )。
( 5 ) 父母基因组测序分型:
a. 使用 SOAP2将测序数据比对到人类参考基因组(版本为 NCBI 36.3 , HG18 )。
b. 使用 SOAPsnp (南方汉族 ( CHS ) 家系数据使用的是千人计划数据)对数据进行一 致序歹1 J ( consensus sequence, CNS )构建。
c. 提取出标记位点的基因型。
( 6 ) 父母单倍体型推断:
a.构建含祖辈与父母基因型的群体基因型矩阵, 即提取父母、 祖辈和南方汉族家系在标 i己位点的基因型。
b. 使用 BEAGLE对父母的单倍型进行推断。
( 7 )胎儿单倍体型推断:
a. 用 SOAP2将血浆测序数据比对到人类参考基因组(版本为 NCBI 36.3 , HG18 )。 b. 构建初始状态概率向量, 以及单倍体重组转移矩阵。
构建初始状态概率向量: 釆取无参考数据模式, 即各个初始状态概率相等, 均为 0.25。 单倍体重组转移矩阵: 保守地, 我们取 re = 25 (其余按一般方法所述)。 c 统计每个位点的测序信息, 并构建观察序列概率矩阵(其余按一般方法所述)。 d. 构建局部概率矩阵, 和逆向指针(其余按一般方法所述)。
e. 确定最终状态状态, 并回溯最优路径。
f. 输出。
根据胎儿出生后的脐带血基因分型结果, 我们的分类准确性统计如下: 母亲
纯合 ^:合
位点致 准靈 准确举 位点数 准确:数 准. i 率 位点数 m 准确率
199,552 199,552 63^968 96,57% 265J90 263,520 99.15% 常染色体 杂合 65,409 64,735 39,944 95.45% 107,258 104,679 97,60%
合计 264,961 264,287 99.75% 1OS(0S7 103(912 96.14% 373舞 9870%
X染色体 4,881 4,881 100.00% 1(71S 1478 86.03% 6,599 6,359 96.36% 工业实用性
本发明的确定胎儿基因组中预定区域碱基信息的方法、 用于确定胎儿基因组中预定区 域碱基信息的***以及计算机可读介质, 能够有效地应用于对胎儿基因组中预定区域的核 酸序列进行分析。 尽管本发明的具体实施方式已经得到详细的描述, 本领域技术人员将会理解。 根据已 经公开的所有教导, 可以对那些细节进行各种修改和替换, 这些改变均在本发明的保护范 o <
围之内。 本发明的全部范围由所附权利要求及其任何等同物给出。
在本说明书的描述中, 参考术语 " 个实施例" 些实施例"、 "示意性实施例"、 "示 例"、 "具体示例"、 或 "一些示例" 等的描述意指结合该实施例或示例描述的具体特征、 结 构、 材料或者特点包含于本发明的至少一个实施例或示例中。 在本说明书中, 对上述术语 的示意性表述不一定指的是相同的实施例或示例。 而且, 描述的具体特征、 结构、 材料或 者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims (1)

  1. 权利要求书
    1、 一种确定胎儿基因组中预定区域碱基信息的方法, 其特征在于, 包括下列步骤: 针对胎儿基因组 DNA样本, 构建测序文库;
    对所述测序文库进行测序, 以便获得胎儿的测序结果, 所述胎儿的测序结果由多个测 序数据构成; 以及
    基于所述胎儿的测序结果, 结合胎儿遗传相关个体的遗传信息, 根据隐马尔可夫模型, 确定所述预定区域的碱基信息。
    2、 根据权利要求 1所述的方法, 其特征在于, 所述胎儿基因组 DNA样本是从孕妇外 周血中提取的。
    3、 根据权利要求 1所述的方法, 其特征在于, 所述测序是利用选自 Illumina-Solexa、 ABI-Solid、 Roche-454和单分子测序装置的至少一种对所述测序文库进行的。
    4、 根据权利要求 1所述的方法, 其特征在于, 进一步包括将所述胎儿的测序结果与参 照序列进行比对, 以便确定来自于所述预定区域的测序结果。
    5、 根据权利要求 4所述的方法, 其特征在于, 所述参照序列为人类参考基因组。
    6、 根据权利要求 1所述的方法, 其特征在于, 所述胎儿遗传相关个体是所述胎儿的父 母。
    7、根据权利要求 1所述的方法, 其特征在于, 按照惠特比算法, 根据隐马尔可夫模型, 确定所述预定区域的碱基信息。
    8、 根据权利要求 7所述的方法, 其特征在于, 在所述惠特比算法中, 釆用 0.25作为初 始状态概率分布, 釆用 re/N作为重组概率, 其中 re=25~30 , 优选 25 , N为所述预定区域的 长度,
    釆 Jk γ, =
    作为重组转移矩阵, 其中, /^=re/N。
    9、 根据权利要求 4所述的方法, 其特征在于, 将所述胎儿的测序结果与参照序列进行 比对, 以便确定来自于所述预定区域的测序结果进一步包括按照下列公式确定概率最高的 碱基:
    Pi se = ∑ (1 - Δ (base, mk ) + ^ ε - Α (base, m ) + 1 ^ · Δ (base, /¾ ) 其巾, e
    3 X≠ γ
    10、 根据权利要求 1 所述的方法, 其特征在于, 进一步包括: 所述预定区域为已知存 在遗传多态性的位点。
    11、 根据权利要求 10所述的方法, 其特征在于, 所述遗传多态性为选自单核苷酸多态 性和 STR的至少一种。
    12、 一种用于确定胎儿基因组中预定区域碱基信息的***, 其特征在于, 包括: 文库构建装置, 所述文库构建装置适于针对胎儿基因组 DNA样本, 构建测序文库; 测序装置, 所述测序装置与所述文库构建装置相连, 并且适于对所述测序文库进行测 序, 以便获得胎儿的测序结果, 所述胎儿的测序结果由多个测序数据构成;
    分析装置, 基于所述胎儿的测序结果, 结合胎儿遗传相关个体的遗传信息, 根据隐马 尔可夫模型, 确定所述预定区域的碱基信息。
    13、 根据权利要求 12所述的***, 其特征在于, 进一步包括 DNA样本分离装置, 所 述 DNA样本分离装置适于从孕妇外周血中提取胎儿基因组 DNA样本。
    14、 根据权利要求 12所述的***, 其特征在于所述测序装置为选自 Illumina-Solexa、 ABI-Solid、 Roche-454和单分子测序装置的至少一种。
    15、 根据权利要求 12所述的***, 其特征在于, 进一步包括比对装置, 所述比对装置 与所述测序装置相连, 用于将所述胎儿的测序结果与参照序列进行比对, 以便确定来自于 所述预定区域的测序结果。
    16、 根据权利要求 12所述的***, 其特征在于, 所述分析装置适于按照惠特比算法, 根据隐马尔可夫模型, 确定所述预定区域的碱基信息。
    17、 根据权利要求 16所述的***, 其特征在于, 所述惠特比算法釆用 0.25作为初始状 态概率分布, 釆用 re/N作为重组概率, 其中 re=25~30, 优选 25, N为所述预定区域的长度, 釆用 x; 一 ί-ι 一
    作为重组转移矩阵, 其中, pr=re/N。
    18、 根据权利要求 15所述的***, 其特征在于, 将所述胎儿的测序结果与参照序列进 行比对, 以便确定来自于所述预定区域的测序结果进一步包括按照下列公式确定概率最高 的碱基: Pi se = ∑ - (1 - Δ (base, mk ) + -s - A (base, m ) + - ^ · Δ (base, fy> )
    Ae{0,lj 2 2 2
    其巾,
    19、 一种计算机可读介质, 其特征在于, 所述计算机可读介质上存储有指令, 所述指 令适于被处理器执行以便基于胎儿的测序结果, 结合胎儿遗传相关个体的遗传信息, 根据 隐马尔可夫模型, 确定预定区域的碱基信息。
    20、 根据权利要求 19所述的计算机可读介质, 其特征在于, 所述指令适于按照惠特比 算法, 根据隐马尔可夫模型, 确定所述预定区域的碱基信息。
    21、 根据权利要求 20所述的计算机可读介质, 其特征在于, 在所述惠特比算法中, 釆 用 0.25作为初始状态概率分布, 釆用 re/N作为重组概率, 其中 re=25~30 , 优选 25 , N为所 述预定区域的长度,
    釆用
    ¾ = Pr(¾ = = γ,_χ
    作为重组转移矩阵, 其中, /^=re/N。
    22、 根据权利要求 19所述的计算机可读介质, 其特征在于, 所述指令将所述胎儿的测 序结果与参照序列进行比对, 以便确定来自于所述预定区域的测序结果。
    23、 根据权利要求 22所述的计算机可读介质, 其特征在于, 所述指令将所述胎儿的测 序结果与参照序列进行比对, 以便确定来自于所述预定区域的测序结果进一步包括按照下 列公式确定概率最高的碱基:
    Pi se = ∑ (1 - Δ (base, mk ) + ^ ε - Α (base, m ) + 1 ^ · Δ (base, /¾ ) 其巾,
    (, .. I l - e ,¾二 v
    A(j,_ )二
    24、 根据权利要求 19所述的计算机可读介质, 其特征在于, 进一步包括: 所述预定区 域为已知存在遗传多态性的位点。 25、 根据权利要求 24所述的计算机可读介质, 其特征在于' 所述遗传多态性为选自单 核苷酸多态性和 STR的至少一种。
CN201280067404.1A 2012-05-14 2012-05-14 确定胎儿基因组中预定区域碱基信息的方法、***和计算机可读介质 Active CN104053789B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/075478 WO2013170429A1 (zh) 2012-05-14 2012-05-14 确定胎儿基因组中预定区域碱基信息的方法、***和计算机可读介质

Publications (2)

Publication Number Publication Date
CN104053789A true CN104053789A (zh) 2014-09-17
CN104053789B CN104053789B (zh) 2016-02-10

Family

ID=49582977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280067404.1A Active CN104053789B (zh) 2012-05-14 2012-05-14 确定胎儿基因组中预定区域碱基信息的方法、***和计算机可读介质

Country Status (12)

Country Link
US (2) US20150094210A1 (zh)
EP (1) EP2851431B1 (zh)
JP (1) JP6045686B2 (zh)
KR (1) KR101770460B1 (zh)
CN (1) CN104053789B (zh)
AU (1) AU2012380221B2 (zh)
ES (1) ES2656023T3 (zh)
HK (1) HK1196401A1 (zh)
PL (1) PL2851431T3 (zh)
RU (1) RU2597981C2 (zh)
SG (1) SG11201407515RA (zh)
WO (1) WO2013170429A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106011244A (zh) * 2016-05-31 2016-10-12 中国人民解放军军事医学科学院放射与辐射医学研究所 检测7q21.13区域SNP试剂的应用
CN107922959A (zh) * 2015-07-02 2018-04-17 阿瑞玛基因组学公司 混合物样品的精确分子去卷积
CN109996894A (zh) * 2016-11-18 2019-07-09 香港中文大学 用于单基因疾病的基于通用单倍型的非侵入性产前测试
WO2019144427A1 (zh) * 2018-01-25 2019-08-01 广州精科医学检验所有限公司 确定胎儿alpha地中海贫血基因单体型的方法及***
CN110349631A (zh) * 2019-07-30 2019-10-18 苏州亿康医学检验有限公司 确定子代对象的单体型的分析方法和装置
WO2021032060A1 (en) * 2019-08-16 2021-02-25 The Chinese University Of Hong Kong Determination of base modifications of nucleic acids
CN112885408A (zh) * 2021-02-22 2021-06-01 中国农业大学 一种基于低深度测序检测snp标记位点的方法及装置
CN113308548A (zh) * 2021-01-26 2021-08-27 天津华大医学检验所有限公司 一种检测胎儿基因单倍体型的方法、装置和存储介质
WO2023225951A1 (zh) * 2022-05-26 2023-11-30 深圳华大生命科学研究院 基于单体型的胎儿基因型检测方法
CN117392673A (zh) * 2023-12-12 2024-01-12 深圳赛陆医疗科技有限公司 碱基识别方法及装置、基因测序仪及介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160026759A1 (en) * 2014-07-22 2016-01-28 Yourgene Bioscience Detecting Chromosomal Aneuploidy
CA3213915A1 (en) * 2016-09-22 2018-03-29 Illumina, Inc. Somatic copy number variation detection
US20230028790A1 (en) * 2019-11-29 2023-01-26 GC Genome Corporation Artificial intelligence-based chromosomal abnormality detection method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102127818A (zh) * 2010-12-15 2011-07-20 张康 利用孕妇外周血建立胎儿dna文库的方法
CN102317473A (zh) * 2008-12-11 2012-01-11 加利福尼亚太平洋生物科学股份有限公司 核酸模板的分类

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130071837A1 (en) * 2004-10-06 2013-03-21 Stephen N. Winters-Hilt Method and System for Characterizing or Identifying Molecules and Molecular Mixtures
EP2423334A3 (en) * 2006-02-02 2012-04-18 The Board of Trustees of The Leland Stanford Junior University Non-invasive fetal genetic screening by digital analysis
US8003326B2 (en) * 2008-01-02 2011-08-23 Children's Medical Center Corporation Method for diagnosing autism spectrum disorder
CN102770558B (zh) * 2009-11-05 2016-04-06 香港中文大学 由母本生物样品进行胎儿基因组的分析
US8725422B2 (en) * 2010-10-13 2014-05-13 Complete Genomics, Inc. Methods for estimating genome-wide copy number variations

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102317473A (zh) * 2008-12-11 2012-01-11 加利福尼亚太平洋生物科学股份有限公司 核酸模板的分类
CN102127818A (zh) * 2010-12-15 2011-07-20 张康 利用孕妇外周血建立胎儿dna文库的方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107922959A (zh) * 2015-07-02 2018-04-17 阿瑞玛基因组学公司 混合物样品的精确分子去卷积
US12018314B2 (en) 2015-07-02 2024-06-25 Arima Genomics, Inc. Accurate molecular deconvolution of mixture samples
CN106011244A (zh) * 2016-05-31 2016-10-12 中国人民解放军军事医学科学院放射与辐射医学研究所 检测7q21.13区域SNP试剂的应用
CN106011244B (zh) * 2016-05-31 2019-07-16 中国人民解放军军事医学科学院放射与辐射医学研究所 检测7q21.13区域SNP试剂的应用
CN109996894A (zh) * 2016-11-18 2019-07-09 香港中文大学 用于单基因疾病的基于通用单倍型的非侵入性产前测试
WO2019144427A1 (zh) * 2018-01-25 2019-08-01 广州精科医学检验所有限公司 确定胎儿alpha地中海贫血基因单体型的方法及***
CN110349631A (zh) * 2019-07-30 2019-10-18 苏州亿康医学检验有限公司 确定子代对象的单体型的分析方法和装置
GB2590854A (en) * 2019-08-16 2021-07-07 Univ Hong Kong Chinese Determination of base modifications of nucleic acids
GB2590032A (en) * 2019-08-16 2021-06-16 Univ Hong Kong Chinese Determination of base modifications of nucleic acids
CN112752853A (zh) * 2019-08-16 2021-05-04 香港中文大学 测定核酸的碱基修饰
US11091794B2 (en) 2019-08-16 2021-08-17 The Chinese University Of Hong Kong Determination of base modifications of nucleic acids
GB2590032B (en) * 2019-08-16 2021-12-08 Univ Hong Kong Chinese Determination of base modifications of nucleic acids
GB2590854B (en) * 2019-08-16 2022-03-30 Univ Hong Kong Chinese Determination of base modifications of nucleic acids
US11466308B2 (en) 2019-08-16 2022-10-11 The Chinese University Of Hong Kong Determination of base modifications of nucleic acids
WO2021032060A1 (en) * 2019-08-16 2021-02-25 The Chinese University Of Hong Kong Determination of base modifications of nucleic acids
CN113308548A (zh) * 2021-01-26 2021-08-27 天津华大医学检验所有限公司 一种检测胎儿基因单倍体型的方法、装置和存储介质
CN112885408A (zh) * 2021-02-22 2021-06-01 中国农业大学 一种基于低深度测序检测snp标记位点的方法及装置
WO2023225951A1 (zh) * 2022-05-26 2023-11-30 深圳华大生命科学研究院 基于单体型的胎儿基因型检测方法
CN117392673A (zh) * 2023-12-12 2024-01-12 深圳赛陆医疗科技有限公司 碱基识别方法及装置、基因测序仪及介质
CN117392673B (zh) * 2023-12-12 2024-02-13 深圳赛陆医疗科技有限公司 碱基识别方法及装置、基因测序仪及介质

Also Published As

Publication number Publication date
JP6045686B2 (ja) 2016-12-14
PL2851431T3 (pl) 2018-04-30
KR20140146193A (ko) 2014-12-24
RU2014150655A (ru) 2016-07-10
AU2012380221A1 (en) 2014-11-06
ES2656023T3 (es) 2018-02-22
EP2851431B1 (en) 2017-12-13
AU2012380221B2 (en) 2016-09-29
KR101770460B1 (ko) 2017-08-22
RU2597981C2 (ru) 2016-09-20
US20150094210A1 (en) 2015-04-02
WO2013170429A1 (zh) 2013-11-21
EP2851431A1 (en) 2015-03-25
CN104053789B (zh) 2016-02-10
HK1196401A1 (zh) 2014-12-12
US20180320235A1 (en) 2018-11-08
JP2015525062A (ja) 2015-09-03
EP2851431A4 (en) 2016-01-27
SG11201407515RA (en) 2014-12-30

Similar Documents

Publication Publication Date Title
CN104053789A (zh) 确定胎儿基因组中预定区域碱基信息的方法、***和计算机可读介质
US20180371539A1 (en) Method of detecting a pre-determined event in a nucleic acid sample and system thereof
US11306357B2 (en) Methods for non-invasive prenatal ploidy calling
JP6328934B2 (ja) 非侵襲性出生前親子鑑定法
JP6073461B2 (ja) 標的大規模並列配列決定法を使用した対立遺伝子比分析による胎児トリソミーの非侵襲的出生前診断
KR20200055151A (ko) 대규모 병렬 게놈 서열분석을 이용한 태아 염색체 이수성의 진단 방법
US20190338362A1 (en) Methods for non-invasive prenatal determination of aneuploidy using targeted next generation sequencing of biallelic snps
CN105051208A (zh) 确定胚胎基因组中预定区域碱基信息的方法、***和计算机可读介质
JP2016516449A (ja) Hlaマーカーを使用する母体血液中の胎児dna分率の決定方法
AU2015252046B2 (en) Methods for Non-Invasive Prenatal Ploidy Calling
CN104053787A (zh) 鉴定双胞胎类型的方法和***
Hudecova Investigation on Parameters Influencing Fetal Fraction and Its Importance for Non-invasive Prenatal Diagnostic Applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1196401

Country of ref document: HK

C14 Grant of patent or utility model
CB02 Change of applicant information

Address after: Yantian District of Shenzhen City, Guangdong province 518083 Hongan street No. 21 China Comprehensive Park 7 Building 7 layer -14 layer

Applicant after: BGI SHENZHEN CO LTD

Address before: Yantian District of Shenzhen City, Guangdong province 518083 North Road No. 146 North Industrial Zone 11, floor 3, 2

Applicant before: Shenzhen BGI Medicine Co., Ltd.

COR Change of bibliographic data
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160714

Address after: Beishan Industrial Zone Building in Yantian District of Shenzhen city in Guangdong province 518083 1, 9, 3 and 11 floor of Building 1, 5 floor

Patentee after: Shenzhen Huada clinical inspection center Co., Ltd.

Address before: Yantian District of Shenzhen City, Guangdong province 518083 Hongan street No. 21 China Comprehensive Park 7 Building 7 layer -14 layer

Patentee before: BGI SHENZHEN CO LTD

REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1196401

Country of ref document: HK

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 518083 1st, 3rd, 4th and 5th floors of 11 buildings in Beishan Industrial Zone, Yantian Street, Yantian District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Huada clinical laboratory center

Address before: 518083 Building 1, 9 and 11 Building 1, 3 and 5 of Beishan Industrial Zone, Yantian District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen Huada clinical inspection center Co., Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 518083 1st, 3rd, 4th and 5th floors of 11 buildings in Beishan Industrial Zone, Yantian Street, Yantian District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Huada Medical Laboratory

Address before: 518083 1st, 3rd, 4th and 5th floors of 11 buildings in Beishan Industrial Zone, Yantian Street, Yantian District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN HUADA CLINIC EXAMINATION CENTER