WO2017051996A1 - Non-invasive type fetal chromosomal aneuploidy determination method - Google Patents

Non-invasive type fetal chromosomal aneuploidy determination method Download PDF

Info

Publication number
WO2017051996A1
WO2017051996A1 PCT/KR2016/000099 KR2016000099W WO2017051996A1 WO 2017051996 A1 WO2017051996 A1 WO 2017051996A1 KR 2016000099 W KR2016000099 W KR 2016000099W WO 2017051996 A1 WO2017051996 A1 WO 2017051996A1
Authority
WO
WIPO (PCT)
Prior art keywords
average
ratio
chromosome
polynucleotide
test
Prior art date
Application number
PCT/KR2016/000099
Other languages
French (fr)
Korean (ko)
Inventor
윤태균
이병철
박정선
박동윤
이정호
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Publication of WO2017051996A1 publication Critical patent/WO2017051996A1/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Definitions

  • a non-invasive fetal chromosome analysis method for determining fetal chromosome aneuploidy using chromosome sequencing information obtained from biological samples isolated from mothers.
  • Prenatal diagnosis can be divided into invasive and non-invasive diagnosis.
  • Invasive diagnostic methods include amniocentesis, percutaneous umblical blood sampling, chorionic villus, fetal tissue collection, etc. During the examination, the fetus may be shocked to cause miscarriage, disease, or malformation.
  • Non-invasive diagnostic methods have been developed to overcome the problems of these invasive diagnostic methods.
  • cffDNA cell-free fetal DNA
  • NGS Next Generation Sequencing
  • One example provides a non-invasive fetal chromosome analysis method for determining fetal chromosome aneuploidy using chromosome base information obtained from biological samples isolated from mothers.
  • the non-invasive fetal chromosome analysis method is a sequence information analysis method for determining (identifying, identifying, or diagnosing) fetal chromosome aberration, or information on determining the fetal chromosome aneuploidity (discriminating, confirming, or diagnosing). It can be expressed in a way to provide a, they all have the same meaning
  • the non-invasive fetal chromosome analysis method is a specific chromosome (for example, 13, 18 or 21) to determine whether the fetal chromosome aneuploid from the DNA sequence information obtained from the biological sample separated from the mother Chromosome weighted averaged by CV (Coefficient of Variation) value by removing the deviation between experiments by comparing the average number of leads of the chromosome) and the average number of leads present in the merged bins generated from other chromosomes except the chromosome
  • CV Coefficient of Variation
  • DNA sequence information obtained from biological samples separated from the mother may be data generated by whole genome sequencing (WGS) of large-scale parallel sequencing such as next generation sequencing (NGS).
  • WGS whole genome sequencing
  • NGS next generation sequencing
  • the non-invasive fetal chromosome analysis method may comprise the following steps:
  • step 1-2-1 The sequence information of the polynucleotide fragments of the test sample obtained in step 1-1) is compared with a reference genome sequence, and a preset bin number for each chromosome is obtained. Test to have
  • n of the average polynucleotide fragments of the target chromosome to be tested for aneuploidy among the test polynucleotide fragments n selected from chromosomes other than the target chromosome (n is an integer selected from 1 to 21) Obtaining a ratio of the average polynucleotide fragment number of each merged bin generated from the chromosomes to obtain an average test polynucleotide fragment number ratio (the ratio is obtained by the number of merged bins);
  • step 3-1) Among the average test polynucleotide fragment ratios of step 3-1), the values corresponding to the top N cvs having a small CV value are selected and weighted average test is performed.
  • a weighted average reference poly is obtained by using values corresponding to the upper N cv of the CV values selected in step 5-1) with respect to the ratio of the average reference polynucleotide fragment number in step 3-2). Obtaining the nucleotide fragment number ratio; 6) comparing the obtained weighted average test polynucleotide fragment number ratio with the weighted average reference polynucleotide fragment number ratio.
  • the comparing step of 6) above is a weighted average test
  • the polynucleotide fragment number ratio and the weighted average reference polynucleotide fragment number ratio can be used to obtain a Z-score of the desired chromosome.
  • the non-invasive fetal chromosome analysis method after the step 6),
  • steps 1-1) and 1-2) may be performed simultaneously or sequentially in any order, and steps 2-1) and 2-2) may be performed simultaneously or in any order. It may be performed continuously, and steps 3-1 and 3-2) may be performed simultaneously or sequentially without regard to order. ,
  • the non-invasive fetal chromosome analysis method after the steps 2-1) and 2-2) (and before the steps 3-1 and 3-2) for a more accurate result, a)
  • the method may further comprise removing bias of the obtained test polynucleotide fragment number and the reference polynucleotide fragment number.
  • the bias removal step may be performed by applying SVD (Singular Value Decomposition).
  • the chromosome may be an autosomal body, and in humans, it may be selected from the group consisting of chromosomes 1 to 22.
  • the 'purpose chromosome' is a fetal chromosome As a chromosome to check whether or not aneuploidy, for example, human chromosome 13, 18 or 21 may be a chromosome, but is not limited thereto, and may be selected from all the autosomal to check the chromosome aneuploid.
  • the ' n chromosomes selected from other chromosomes except the target chromosome' is a chromosome selected from the other autosomal bodies other than the target chromosome to determine whether the chromosome is a dimeric ( ⁇ is an integer selected from 1 to 21).
  • the test sample isolated from the mother may be blood, plasma, or serum isolated from the mother.
  • Applicable mothers of the noninvasive fetal chromosome analysis methods proposed herein may be mothers whose target chromosomes are normal, i.e., do not have the aneuploidy of the target chromosomes.
  • Another example provides a computer-readable method for determining chromosomal aneuploidies in a fetus comprising the following steps:
  • A-1) The sequence information of polynucleotide fragments of a test sample is mapped to a reference genome sequence, so that the number of test polynucleotide fragments has a predetermined bin number for each chromosome. determining a fragment count)
  • A-2) determining the reference polynucleotide fragment number to have a preset number of bins by using sequence information of the polynucleotide fragments of the reference sample;
  • n number (n is an integer selected from 1 to 21) of the average polynucleotide fragments of the target chromosome to be tested for aneuploidy among the test polynucleotide fragments selected from other chromosomes except the target chromosome Obtaining a ratio of the average polynucleotide fragment number of each merged bin generated from the chromosomes to obtain an average test polynucleotide fragment number ratio;
  • n of the average polynucleotide fragments of the target chromosome to be tested for aneuploidy among the reference polynucleotide fragments n selected from other chromosomes except the target chromosome (n is an integer selected from 1 to 21)
  • step B-1 In the average test polynucleotide fragment number ratio increase of step B-1), the weighted average test was selected by selecting the values corresponding to the top N cv with a low CV value.
  • step D-2 A weighted average reference poly, using values corresponding to the top N cv of the CV values selected in step D-1) with respect to the ratio of the average reference polynucleotide fragment number in step B-2). Obtaining the nucleotide fragment number ratio;
  • step F using the result of comparing the weighted average test polynucleotide fragment number ratio and the weighted average reference polymorph fragment ratio ratio (e.g., ⁇ -score) obtained in step E) to determine whether the fetal target chromosome is aberrant .
  • the weighted average test polynucleotide fragment number ratio e.g., ⁇ -score
  • the computer-readable method is a test obtained after steps A-1) and A- 2 ) (and before steps B-1 and B-2) for a more accurate result.
  • the method may further include removing the bias.
  • the bias removal step may be performed by applying SVD (Singular Value Decomposition).
  • Another example provides a computer program stored in a computer readable storage medium for carrying out the steps of the computer reading method.
  • Another example provides a computer readable storage medium (or recordable medium) containing computer executable instructions for executing the steps of the computer readable method.
  • Aneu ploidy means that the number of target chromosomes differs from the number of normal chromosomes (two), i.e., there are zero, one, or more than three (e.g. three) target chromosomes.
  • This chromosome aberration is important in fetal diagnosis because it is associated with regressive genetic disorders, for example in the presence of three chromosomes 13 on the human chromosome (trisomy 13), Patau syndrome ), Three chromosomes 18 (trisomy I 8 ), Edward syndrome, three chromosomes 2 1 (trisomy 21), Down syndrome is caused.
  • Reference genome sequence refers to a genomic base sequence database representing one species. Current human reference genomes may be constructed based on published (eg, UCSC, NCBI, etc.) reference genomic sequences such as build 37 (GRCh37), hgl8, hgl9, hg38.
  • sequence of each fragment is read out at the same time, and the sequence data thus obtained are combined using bioinformatics to generically decipher sequential genomic information. Additional explanations of large scale parallel sequencing can be found in Rogers and Ventner, Nature (2005) 437: 326–327.
  • Step 1) Obtaining sequence information of polynucleotide fragments covering the entire genome
  • Sequence information of the polynucleotide fragments can be obtained by sequencing template DNA selected from a sample.
  • the polynucleotide fragments are assigned to specific positions on each chromosome through mapping with standard genomic sequences, covering the entire genome.
  • the base sequences of the polynucleotide fragments may be obtained by large scale parallel sequencing methods, such as next generation sequencing.
  • the polynucleotide fragment is a read used for next-generation sequencing, and the polynucleotide fragment number is a read count, and the average
  • the polynucleotide fragment number may be the average read number.
  • the polynucleotide fragments or leads are about 10 to about 2000 bp, about 10 to about lOOOObp, about 10 to about 500 bp, about 10 to about 300 bp, about 10 to about 200 bp, about 25 to about 2000 bp, about 25 to about 1000 bp, about 25 to about 500 bp, about 25 to about 300 bp, about 25 to about 200 bp, about 25 to about 100 bp, about 50 to about 2000 bp, about 50 to about 1000 bp, about 50 to About 500 bp, about 50 to about 300 bp : about 50 to about 200 bp, about 50 to about 100 bp, about 100 to about 2000 bp, about 100 to about 1000 bp, about 100 to about 500 bp, about 100 to about 300 bp, about 100 to It may be about 200bp, about 150 to about 2000 bp, about 150 to about 1000 bp, about 150 to about 500bp, or about 150 to about 300bp in
  • polynucleotide fragments assigned to one or more chromosomes and / or polynucleotide fragments not assigned to any chromosome may be ignored and ignored in later steps.
  • the large scale parallel sequencing can be performed by, for example, 454 platform (Margulies, et al., Nature (2005) 437: 376-380), lllumina Genome Analyzer (or Solexa TM platform), lllumina HiSeq2000, HisSeq2500, MiSeq, NextSeq500, Life Tech Ion PGM, Ion Proton, Ion S5, Ion S5XL, or SOLiD (Applied Biosystems) or Helicos True Single Molecule DNA Sequencing Technology (Harris, et al., Science (2008) 320: 106-109), single molecule from Pacific Biosciences , And / or real-time (SMRT TM) technology or the like.
  • 454 platform Margulies, et al., Nature (2005) 437: 376-380
  • lllumina Genome Analyzer or Solexa TM platform
  • lllumina HiSeq2000, HisSeq2500, MiSeq, NextSeq500 Life Tech Ion P
  • sequencing may be performed by various other known sequencing methods and / or modifications thereof.
  • the test sample isolated from the mother may be blood, plasma, or serum isolated from the mother.
  • the mother may be a human female, and may be a mother whose target chromosome to be identified as chromosome aneuploid is normal, that is, the mother does not have the dimerity of the target chromosome.
  • the blood, plasma, or serum may be separated by a conventional method, and pregnancy 8-12, 12-16, 16-20, 20-24, 24-28, 28-32, 32-36, 36-40, or 40-44 weeks, for example between 8 and 28 weeks gestation.
  • test sample i) performing massively parallel sequencing on the test sample, such as next generation sequencing;
  • the reference sample is a genome pool that already knows 'genome sequence information of the genome and sequence information of polynucleotide fragments covering the entire genome' (hereinafter referred to as 'genome sequence information'), and which does not have the aneuploid of the target chromosome.
  • Genomic sequence information set obtained from mothers may be a genomic sequence obtained from mothers whose fetuses are identified as having no chromosome aneuploids after childbirth among genome sequence information obtained from the mothers.
  • the number of reference samples (corresponding to the number of mothers or genomes) is not particularly limited but may be selected from the range of about 50 to about 200,000 in consideration of the convenience of data processing and the accuracy of the results, for example, in the range (Ie, with an upper limit of 200,000), at least about 50, at least about 100, or at least about 200.
  • the reference sample may be selected from a group of genomic sequence information broken down by race such as Korean, Asian, or Western, or two or more races may be used.
  • Preparing sequence information of polynucleotide fragments covering the entire genome of the reference sample may be obtained from, or already obtained, genomic sequence information from normal mothers pregnant with a fetus that does not have a target chromosome The method may be performed by selecting among genomic sequence information of the generated genomic pool. Step 2) Determining Polynucleotide Fragment Count
  • step 2) the sequence information of each of the polynucleotide fragments of the test sample and the reference sample may be converted into a ' reference genome sequence and a reference genome sequence.
  • the polynucleotide fragment count is determined to have a preset bin number for each chromosome.
  • Step 2-1) targets sequence information of polynucleotide fragments covering the entire genome sequence mapped to a standard genomic sequence obtained from a test sample, and selects an arbitrary number (B) of bin numbers. Calculate the number of test polynucleotide fragments (polynucleotide fragmeni count or read count)
  • Equation 1 the number of polynucleotide fragments or read number vector (S) of a test sample can be expressed by Equation 1 below:
  • the number of bins is about 10,000 to about 20,000,000 bins, about 20,000 to about 15,000,000 bins, about 30,000 to about 10,000,000 bins, or about
  • the bin number is about 1 to about 30,000, about 1 to about 10,000, about 1 to about 5,000, about 1 to about 1,000, about 1 to about 500, about 2 to about 30,000, about 2 to about 10,000, about About 2 to about 5,000, about 2 to about 1,000, about 2 to about 500, about 5 to about 30,000, about 5 to about 10,000, about 5 to about 5,000, about 5 to about 1,000, about 5 to about 500, about 10 to about 30,000, about 10 to about 10,000, about 1.0 to about 5,000, about 10 to about 1,000, about 10 to about 5030, about 20 to about 30,000, about 20 to about 10,000, about 20 to about 5 000, About 20 to about 1,000, about 20 to about 500, about 50 to about 30,000, about 50 to about 10,000, about 50 to about 5 000, about 50 to about 1,000, about 50 to about 500, about f 1 ⁇ 0 ⁇ 0 ⁇ to About f 3 ⁇ 0 ⁇ ,, 0 ⁇ 0 ⁇ 0 ', about 100 to about 10,000, about f 1 ⁇ 0 ⁇ 0 ⁇ to About f 3 ⁇
  • Step 2-2) is a polynucleotide fragment count or read so as to have ⁇ bin numbers based on the sequence information of polynucleotide fragments of the ⁇ reference sample groups selected from the obtained reference sample ⁇ . Calculating a reference count to generate a reference polynucleotide fragment number matrix (or a reference read count matrix).
  • polynucleotide fragment number or read number matrix (R) of a reference sample can be represented by the following Equations 2 and 3:
  • Step a) is to remove the bias from the obtained polynucleotide fragment number value to obtain a more accurate result, which may be additionally performed between step 2) and step 3).
  • Step a) above refers to the number of test polynucleotide fragments and to
  • Singular Value Decomposition Singular Value Decomposition
  • step a) may be performed by applying SVD, in which case, i) a reference polynucleotide fragment number matrix and a test, as shown in Equation 4-7
  • Step 3) compares the average number of polynucleotide fragments of the target chromosome with the average number of polynucleotide fragments of the other chromosomes except for the target chromosome, thereby eliminating the deviation between experiments and confirming the aneuploidity of the trace fetal chromosome. Contribute to further improving the sensitivity of the results.
  • the 'target chromosome' is a chromosome for determining whether a fetus is chromosome aberrant, for example, human chromosome 13, 18 or 21 chromosome, but is not limited thereto. Or, it can be selected from all autosomal to be confirmed whether or not chromosomal aneuploidy.
  • the 'n chromosomes selected from other chromosomes except the target chromosome' is the remainder of the target chromosome objective to determine whether the chromosome is aneuploid.
  • n is an integer selected from 1 to 21.
  • can be used to determine the average polynucleotide fragment ratio of 21, i.e., the average polynucleotide fragment number of each of 21 chromosomes excluding the desired chromosome among 22 human autosomes.
  • the “average number of polynucleotide fragments” may be obtained by averaging the number of all polynucleotide fragments or reads existing within a boundary such as a target chromosome or a merged bin.
  • the ⁇ average number of polynucleotide fragments of chromosomes other than the target chromosome '' is an average value of the number of polynucleotide fragments corresponding to a merged bin of each bin so as to have a predetermined fixed length for each chromosome.
  • the average test polynucleotide fragment number ratio or the average reference polynucleotide fragment number ratio can be calculated by the following steps:
  • the mb size which is the average size of Merged Bins, is determined by dividing the total number of bins by the product of the total number of autosomal bodies, 22, and k presets, and integrating the bins to have a length of 0 1 ⁇ 6 for each chromosome.
  • the k value is a value selected by the user, and for example, a value of 1 to 20, 1 to 15, 1 to 10, or 1 to 5 may be used. . 3-1) Determining the Average Test Polynucleotide Fragment Number Ratio Step 3-1) of the test polynucleotide fragment counts, except for the target chromosome, of the average polynucleotide fragment number of the target chromosome to be tested for aneuploidy.
  • n is an integer selected from 1 to 21
  • the average test polynucleotide fragment number ratio (the above ratio) Is obtained by the number of merged bins).
  • step 3-1) refers to the number of test polynucleotide fragments (or the number of test leads), and the average number of polynucleotide fragments (or the number of test leads) of the target chromosome and n chromosomes excluding the target chromosome.
  • Polynucleotide fragment number ratio vector (or mean test read number ratio vector) may be performed by generating a Case read count ratio vector.
  • Step 3-1) is the number of the average polynucleotide fragment of the target chromosome to be tested for abundance among the reference polynucleotide fragment number, n selected from other chromosomes except the target chromosome ( n is selected from 1 to 21)
  • the ratio of the average number of polynucleotide fragments of each merged bin generated for the chromosome of an integer) to obtain the average number of reference polynucleotide fragments Step (the ratio is (number of reference samples) X number of merged bins (mbm) is obtained).
  • step 3-2) is a reference obtained from the N reference samples
  • the average number of polynucleotide fragments (or reference reads) of the target chromosome and the mbm merged bin average polynucleotide fragments (or average number of reads) excluding the target chromosome Taking and calculating the ratio between these [mean number of polynucleotide fragments (or mean number of reads) / merged bin mean polynucleotide fragments (or mean number of reads) of the target chromosome)] (Read count ratio) N) * obtained by mbm), average reference polynucleotide fragment number ratio matrix (or reference read number ratio matrix)
  • Equation 11 The average reference polynucleotide fragment number ratio matrix (RCRM chcroft) for another chromosome of the i chromosome i can be expressed by Equation 11 below:
  • Step 4 It is a step of obtaining the CV (Coefficient of Variation) value for each average polynucleotide fragment number ratio from the obtained average reference polynucleotide fragment number ratio matrix.
  • the step calculates the CV for the reference sample group for the average polynucleotide fragment ratio (average read number ratio) and merged bin average polynucleotide fragment ratio (average lead number ratio) (RCRi) for each chromosome.
  • CV CV chcroft
  • i chromosome i can be obtained by the following equation:
  • oRCR n , mbm represents the standard deviation of the ratio of reads for each chromosome and merged bin calculated for the reference sample group
  • RCR n, mbm for each chromosome, merged calculated for the reference sample group The average of the number of leads per bin is shown.
  • Step 5 is to increase the reliability and accuracy of the result in addition to step 3, and selects any number in the order of low CV from the average number of polynucleotide fragments (mbn) of the target chromosomes obtained above, wherein the 4
  • the average value (weighted average polynucleotide fragment number ratio) of the numerical value obtained by multiplying the reciprocal of CV corresponding to each fraction number ratio obtained by the step is characterized by using.
  • step 5-1) is based on the CV value calculated for the reference sample group for each chromosome chri in step 4), and the average of the top N cv of the small CV value
  • the weighted average polynucleotide fragment number is CV value corresponding to the ratio of the number of polynucleotide fragments to the average test polynucleotide fragment number ratios. This can be done by calculating the ratio value.
  • the N cv is an average polynucleotide fragment having a value of at least about 1.1 times, at least about 1.3 times, at least about 1.5 times, at least about 1.7 times, at least about 2 times, or at least about 3 times greater than the minimum value of Cv chn .
  • Number ratio value such as from about 1.1 times to about 5 times, about 1.1 times to about 3 times, about 1.1 times to about 2 times, about 1.3 times to about 5 times, about 1.3 to about Cv chr ⁇ minimum 3 times, about 1.3 times to about 2 times, about 1.5 times to about 5 times, about 1.5 times to about 3 times, about 1.5 times to about 2 times, about 1.7 times to about 5 times, about 1.7 times to about 3 times, Average polynucleotide fragment number ratio values (RCRs) having a value from about 1.7 times to about 2 times, about 2 times to about 5 times, or about 2 times to about 3 times larger can be selected, but are not limited to experimental. And / or empirically appropriate values may be selected.
  • the weighted average polynucleotide fragment number ratio (WRCRchn) of the i th chromosome i can be obtained from Equation 13 below:
  • the weighted average polynucleotide fragment number ratio value which is the weighted average (multiplied by the inverse of CV, is averaged) with the CV value corresponding to the polynucleotide fragment number ratio, can be calculated to generate a reference weighted average polynucleotide fragment number ratio vector.
  • the polynucleotide fragment number ratio vector (R WRCRchri ) can be obtained from Equation 14 below:
  • R chri WRCR, chri WRCR 2 , hn , WRCR ⁇ chri WRCR ⁇ WRCR N , hn ]
  • the comparing step 6) is a step of comparing the weighted average test polynucleotide fragment number ratio and the weighted average polynucleotide fragment ratio ratio, wherein the comparison is performed by obtaining a Z-score of a target chromosome. Can be.
  • Z-score Z cv -ratio. Chri
  • Equation 15 the average of the leotard "fragment number ratio vector Reference
  • Step 7) Identify Fetal Chromosome Amerity Fetal chromosome aberration can be determined based on a comparison result of the weighted average test polynucleotide fragment number ratio obtained in step 6).
  • the weighted average test polynucleotide fragment number ratio was significantly higher or lower than the weighted average reference polynucleotide fragment number ratio. We believe the possibility of completion is high.
  • the comparison ratio of the number of polynucleotide fragments is performed by Z-score, it may be determined that the higher the Z-score value, the higher the possibility of aneuploid of the target chromosome of the fetus.
  • the absolute value of Z-score (Z cv-rat , 0. chn ) for the target chromosome (chromosome i) is above a certain value, such as about 3 or more, the chromosome on chromosome i of the fetal chromosome of the test sample is It can be determined that aneuploid exists:
  • the system may be a system comprising means adapted for use in the non-invasive fetal chromosome assay described above.
  • the system is
  • Information processing and reading media capable of receiving information from the sequence analyzer or reading of information in the information storage medium.
  • the system may comprise a plurality of biological samples and / or multiples separated from the mother.
  • Polynucleotide fragments eg, a test sample as described above
  • Polynucleotide fragments and / or reference sample polynucleotide fragments may be implemented on known computer readable media through a program capable of executing the steps described above. More specifically, the noninvasive fetal chromosome analysis method presented above and / or each
  • the information obtained in the step may be implemented and / or processed in whole or in part on known computer readable media.
  • the methods described herein may be implemented in combination with hardware.
  • the hardware may mean a specially designed hardware or firmware such as a computer, a standard multi-purpose CPU, an application-specific integrated circuit (ASIC), or a hard-wired device.
  • ASIC application-specific integrated circuit
  • the term 'computer' used may be used to generically refer to them.
  • Another example of the present invention provides a computer readable method for determining chromosomal aneuploidies in a fetus comprising the following steps:
  • A-1) The sequence information of polynucleotide fragments of a test sample is mapped to a reference genome sequence, so that the number of test polynucleotide fragments has a predetermined bin number for each chromosome. fragment count) (corresponding to step 2-1) described above),
  • A-2) determining the reference polynucleotide fragment number to have a preset number of bins by using sequence information of the polynucleotide fragments of the reference sample (corresponding to the above-described step 2-2);
  • n number ( n is an integer selected from 1 to 21) of the average number of polynucleotide fragments of the target chromosome to be tested for aneuploidy among the test polynucleotide fragments selected from other chromosomes except the target chromosome Obtaining the ratio of the average polynucleotide fragment number of each merged bin generated from the chromosome to obtain the average test polynucleotide fragment ratio (the ratio is obtained by the number of merged bins) (step 3-1 described above) Equivalent);
  • n of the average polynucleotide fragments of the target chromosome to be tested for aneuploidy among the reference polynucleotide fragments n selected from other chromosomes except the target chromosome (n is an integer selected from 1 to 21)
  • n is an integer selected from 1 to 21
  • C) corresponds to the average reference polynucleotide fragment by ratio to afford a Coefficient of Variation (CV) value (step 4 described above));
  • a weighted average reference poly using values corresponding to the top N cv of the CV values selected in step D-1) with respect to the average number of reference polynucleotide fragments in step B-2). to obtain a nucleotide fragment may correspond to the rate (steps 5-2 described above));
  • step F A comparison of the weighted average test polynucleotide fragment number ratio and the weighted average reference polynucleotide fragment number ratio (e.g., Z-score) obtained in step E) to confirm whether the fetus and the target chromosome are aneuploid (previous) Corresponds to step 7) described).
  • the weighted average test polynucleotide fragment number ratio e.g., Z-score
  • the computer-readable method is a test obtained after steps A-1) and A-2) (and before steps B-1 and B-2) for a more accurate result.
  • the method may further include removing the bias.
  • the bias removal step may be performed by applying SVD (Singular Value Decomposition).
  • the computer readable method may be embodied as a program executable on a computer on a computer readable medium.
  • Another example provides a computer program stored in a computer readable storage medium for carrying out the steps of the computer readable method.
  • the computer program stored in the computer readable storage medium may be combined with hardware.
  • the computer program stored in the computer readable storage medium is as described above.
  • a program for executing each step of the computer reading method on a computer, wherein all of the above steps may be executed by one program or by two or more programs executing one or more ' steps.
  • Another example provides a computer readable storage medium (or recording medium) containing a computer executable instruction for executing a step of the computer readable method.
  • the program executable in the computer may be stored in a computer readable storage medium (eg, a memory or the like) and implemented in software implemented on one or more processors.
  • a processor may have one or more
  • the program may be combined with a controller, a calculation unit, and / or other unit of a computer system, or may be implanted in appropriate firmware.
  • the program may be combined with a controller, a calculation unit, and / or other unit of a computer system, or may be implanted in appropriate firmware.
  • RAM Random Access Memory
  • ROM Read Only Memory
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • Flash Memory eg, Universal Serial Bus (USB) Memory, Secure Digital (SD) Memory) , Soli State Drive (SSD), Compact Flash (CF) memory, xD memory, etc.
  • Programs or software stored on the computer readable storage medium may be any, including, for example, on a communication channel such as a telephone line, the Internet, a wireless connection, or the like, or on a portable medium such as a computer readable disk, a flash drive, or the like. It can be delivered to a computer device through known delivery methods.
  • the blocks, tasks, techniques, etc. may be, for example, custom ICs, application specific integrated circuits (ASICs), field programmable logic arrays (FPGAs), programmable logic arrays (PLAs).
  • ASICs application specific integrated circuits
  • FPGAs field programmable logic arrays
  • PDAs programmable logic arrays
  • the software may be a known computer readable medium, such as a magnetic disk, optical disk, or other storage medium, RAM of a computer, or ROM or flash memory, processor, hard disk drive, optical It can be stored in a disk drive, a tape drive, or the like.
  • the software may, for example, be computer readable. It may be delivered to a user or computer system through known delivery methods, including discs or other portable computer storage mechanisms.
  • the computer readable method, program, and storage medium may be operated in any number of other general purpose or toxin computing system environments or structures.
  • Computing systems, environments, and / or structures suitable for implementing the computer-readable methods, programs, and storage media are, for example, personal computers (PCs), server computers, portable or laptop devices, multiprocessor systems, microprocessors, and the like.
  • PCs personal computers
  • server computers portable or laptop devices
  • multiprocessor systems microprocessors, and the like.
  • Distributed computing performed by programmable consumer electronics, network PCs, minicomputers, mainframe computers, and / or remote processing devices including the systems or devices described above and connected via a communications network. ) May include, but is not limited to.
  • program models may be located in local and remote computer storage media, including memory storage modules.
  • Computers may typically include a variety of computer readable media.
  • Computer-readable media can be media that are accessible and available by a computer and can include volatile and nonvolatile media, removable media, and non-removable media.
  • Computer readable media may include computer storage media and / or communication media.
  • the computer storage media may include volatile or nonvolatile, and / or removable or non-removable media, implemented in a method or technology for storage of information such as computer readable instructions, data structures, program modules, and / or other data. Can be.
  • Computer storage media include RAM, ROM, EEPROM, flash memory (eg, USB memory, SD memory, SSD, CF memory, xD memory, etc.), magnetic disks, laser disks, or other memory, CD-ROM, DVD (digital versatile disk). ) Or other optical disc, magnetic
  • One or more of a magnetic cassette, magnetic tape, magnetic disk storage or other magnetic storage device, or any medium that can be used to store desired information and accessible by a computer can be selected, but is not limited thereto.
  • the communication medium typically carries information that implements data transmission or other transport mechanisms among modulated data signals, such as computer readable instructions, data structures, program modules, or carrier waves.
  • modulated data signal means a signal that has one or more of its characteristics set or changed in such a manner as to encode information in the signal.
  • the communication medium may be a wired medium such as a wired network or a direct-wired connection, and
  • Wireless media such as acoustic media, RF, infrared and other wireless media. Combinations of one or more of the above may also be included within the scope of computer readable media.
  • the average of specific chromosomes to be determined By comparing the number of reads with the average number of reads of the other chromosomes except for the chromosome, the deviation between experiments was eliminated, and the ratio and the specificity of the number of reads among the chromosomes weighted averaged by the CV (Coefficient of Variation) value were used.
  • CV Coefficient of Variation
  • FIG. 1 is a schematic diagram showing each step of the non-invasive fetal chromosome aneuploidity determination method according to an example.
  • FIG. 2 is a graph showing a pattern of removing GC bias before and after applying an SVD.
  • the Y axis represents a read count fraction and the X axis represents a GC content.
  • 3 is a graph showing a Z-score obtained as a result of fetal chromosome aberration determination, A is the result according to the method proposed in the present specification, and ⁇ to D according to the conventional method that does not perform the weighted average lead count ratio The result is.
  • Example 3 Lead Count Determination
  • the nucleotide sequence of the read generated from the prepared test sample is standard genome.
  • a test read vector (S) was generated as follows.
  • a reference read number matrix (R) was generated as follows:
  • Bias was removed with the following method about the lead number vector S of the obtained test sample and the lead number matrix R of the reference sample.
  • matrix X is generated by combining the reference lead number matrix and the test lead number vector, and SVD is performed on the combined matrix as follows:
  • the bias is removed by substituting the value of the corresponding singular value in the matrix D with 0.
  • the GC content when the bias was removed by applying SVD was measured as the sum of the base numbers of guanine (G) and cytosine (C) by chromosome, and the total number of bases by chromosome, and the bias was not removed. Compared with the case, it is shown in FIG. As confirmed in FIG. 2, it can be seen that the polynucleotide fragment count (read count) is maintained at a constant level regardless of the GC content by applying SVD, and these results show that the GC bias is removed by the SVD application.
  • Example 5 Calculating the Average Polynucleotide Fragment Number Ratio
  • the average size of mb size of the Merged Bin - establish divided by the product of the k is set to one full Bin number throughout the chromosome, the number of 22 and a dictionary, and integrating the bin so as to have a length of mb size for each chromosome:
  • the average value was calculated for each merged binj of the 13th, 18th, or 21st chromosome and the chromosome except for the chromosome, and the read count ratio was calculated.
  • RCR ch ' was generated as follows:
  • a reference read count ratio matrix for each chromosome was generated by calculating a read count ratio for each chromosome chri of a reference sample as follows: RGR mbZ RCR mbz
  • RCR m RCR mb32 RCR, RCR m, b z , N ⁇ RCR,
  • the upper N cv lead number ratio having a small CV value is selected, and then the average read number ratio values of the test sample are read.
  • the weighted average read number ratio value weighted averaged by the CV value corresponding to the ratio was calculated by Equation 13 below.
  • N cv was selected from the values of read resins having a value of 1.1 to 5 times larger than the minimum value of Cv chri .
  • the Z-score was calculated as follows by comparing the weighted average read ratio of the chromosome-specific experimental samples obtained in Example 7 with the weighted average read ratio ratio vector of the reference sample:
  • ⁇ WRCR chr weighted average reference polynucleotide fragment number ratio vector average
  • ⁇ WRCR chn standard deviation of weighted average reference polynucleotide fragment number ratio vectors
  • the absolute value of the Z-score is 3 or more, it was determined that the fetal chromosome of the sample had aneuploidy.
  • the Z-score was measured by the lead-based method, the method using the ratio of the number of leads between chromosomes with similar biological characteristics, and the ratio between the number of leads and the total number of leads of the target chromosome. Chromosome apoptosis was determined. Specifically, fetal chromosome aberration determination by the lead-based method is to remove the bias by applying the SVD of Example 4 [step a), the step of calculating the polynucleotide fragment number ratio of Example 5 [step 3-1) and 3-2), and the steps [step 4), 5-1), and 5-2) of calculating the weighted average lead number ratio of Examples 6 and 7 are not performed.
  • Fetal chromosome aberration determination by the method using the ratio of the number of chromosomes between chromosomes with similar biological characteristics to the target chromosome is to remove the bias by applying the SVD of Example [step a) and weighting of Examples 6 and 7 Obtained in Example 3 (corresponding to steps 2-1) and 2-2) without performing steps [corresponding to steps 4), 5-1), and 5-2) for calculating the average number of leads;
  • the average lead number of the target chromosome and the average number of chromosomes with similar biological characteristics such as the target chromosome and GC content (chromosome 9 if the target chromosome is 21) Z-score was calculated by referring to Equations 15 and 16 using the ratio between the number of leads, and the results are shown in Table 1 C and FIG.
  • Fetal chromosome aberration determination by the method using the ratio between the number of leads and the total number of leads of the target chromosome is a step of removing the bias by applying the SVD of Example 4 [step a) and weighted average of Examples 6 and 7 Test obtained in Example 3 (steps 2-1) and 2-2) without performing steps [steps 4), 5-1), and 5-2) for calculating the number of leads;
  • Z-scores were calculated by referring to Equations 15 and 16 using the ratio between the average number of leads of the target chromosome and the average number of leads of the entire chromosome, using the lead number vector and the reference lead number matrix.
  • the score absolute values are shown in Table 1 D and FIG. 3D.
  • fetal chromosome aberration was determined from fetal chromosome adifferentiation from maternal blood by the Bangbab of the present invention (all of Examples 1-7).
  • a total of 20 test samples identified were all over Z-score 3, indicating 100% accuracy (A in Table 1 and A in FIG. 3).
  • 6 test samples were determined to be non-fetal chromosome apoptotic among the total 20 test samples (Table 1B and FIG. 3B), and the target chromosome and biological characteristics.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Provided is a non-invasive type fetal chromosomal analysis method for determining fetal chromosomal aneuploidy using chromosomal nucleotide sequencing information obtained from a biological sample isolated from a mother.

Description

【명세서】  【Specification】
【발명의 명칭】  [Name of invention]
비침습적 태아 염색체 이수성 판별 방법 【기술분야】  Non-invasive Fetal Chromosome Aberration Method [Technical Field]
산모에서 분리된 생물학적 시료로부터 얻어진 염색체 염기 서열 분석 정보를 이용하는 태아 염색체 이수성 판단을 위한 비침습적 태아 염색체 분석 방법이 제공된다ᅳ 【배경기술】  A non-invasive fetal chromosome analysis method is provided for determining fetal chromosome aneuploidy using chromosome sequencing information obtained from biological samples isolated from mothers.
최근, 출산 연령의 증가와 여러 산전 진단 장비들의 개발로 인하여 산전 진단에 대한 관심은 날로 증가하고 있다.  Recently, the interest in prenatal diagnosis is increasing day by day due to the increase of childbirth age and the development of various prenatal diagnosis equipment.
산전 진단 방법은 크게 침습적 진단 방법과 비침습적 진단 방법으로 나누어 볼 수 있다. 침습적 진단 방법에는 양수검사, 제대혈 채취 (Percutaneous umblical blood sampling), 융모막 채취, 태아조직 채취 등이 있으며, 검사 과정에서 태아에게 충격을 가하여 유산이나, 질병 또는 기형 등을 유발할 수 있디-. 이러한 침습적 진단 방법의 문제점들을 극복하기 위하여 비침습적 진단 방법들이 개발되고 있다.  Prenatal diagnosis can be divided into invasive and non-invasive diagnosis. Invasive diagnostic methods include amniocentesis, percutaneous umblical blood sampling, chorionic villus, fetal tissue collection, etc. During the examination, the fetus may be shocked to cause miscarriage, disease, or malformation. Non-invasive diagnostic methods have been developed to overcome the problems of these invasive diagnostic methods.
산모 혈청 내의 무세포 DNA(cell-free DNA; cfDNA)에서의 무세포 태아  Cell-free embryos in cell-free DNA (cfDNA) in maternal serum
DNA(cell-free fetal DNA; cffDNA)의 발견은 비침습적 산전 유전적 진단법을 개발하기 위한 강력한 도구를 제공하였다. 이러한 cffDNA의 산전 진단에의 웅용은 차세대 서열분석 (Next Generation Sequencing: NGS)과 같은 대규모 병렬형 서열분석 (massively parallel sequencing) 기술의 도입에 의해 더 가속화되었다. The discovery of cell-free fetal DNA (cffDNA) provided a powerful tool for developing non-invasive prenatal genetic diagnostics. The utility of this cffDNA for prenatal diagnosis has been further accelerated by the introduction of massively parallel sequencing techniques such as Next Generation Sequencing (NGS).
또한, 몇 가지 연구들은 전체 게놈 서열분석 (WGS) 및 cffDNA의 표적 농축 (target enrichment) 후 서열분석에 의해 전체 게놈에 걸쳐 태아와 산모 DNA가 균일하게 분포되어 있음을 입증하였다 (Lo YM et al., Science translational medicine In addition, several studies have demonstrated the uniform distribution of fetal and maternal DNA throughout the genome by whole genome sequencing (WGS) and target enrichment of cffDNA (Lo YM et al. , Science translational medicine
2010;2:61ra91 ; Liao GJ et al., Clinical chemistry 2011 ;57:92-101; Kitzman JO et al., Science translational medicine 2012;4:137ra76). 2010; 2: 61ra91; Liao GJ et al., Clinical chemistry 2011; 57: 92-101; Kitzman JO et al., Science translational medicine 2012; 4: 137ra76).
이러한 연구에 기초하여, 산모의 혈액 (e.g., 혈장, 혈청 등) 내에 흔재하는 산모와 태아의 cfDNA 로부터 태아의 염색체 이상을 검사할 수 있는 방법이 제안되고 있다. 그러나, 산모 혈액 내 존재하는 태아의 cfDNA 량이 상대적으로 매우 적기 때문에, 많은 수의 NGS 리드를 생성하여 판별하는 방식이 일반적으로 사용되고 있다. 많은 수의 NGS 리드 생성은 실험 비용의 증가를 초래하기 때문에, 낮은 리드 수 (Extremely Low Reads)에서도 민감하게 태아 염색체 이상 판별이 가능한 판별 수단이 개발되어야 한다. 또한 Sequencer, library prep, GC contents 등으로 인해 차세대 서열분석과 같은 대규모 병렬 서열 분석 데이터에 편차 (bias)가 발생하므로, 보다 정확한 판별을 위해서는 이러한 bias를 제거하는 것도 필요하다. 따라서 , 정확한 산전 태아 염색체 이상 진단을 위하여, 낮은 리드 수에서도 민감한 판별이 가능하고, 데이터의 편차를 제거하여 ^다 정확한 결과를 도출할 수 있는 염색체 분석 기술의 개발이 요구된다. Based on these studies, a method has been proposed to detect fetal chromosomal aberrations from maternal and fetal cfDNA, which are common in maternal blood (eg, plasma, serum, etc.). However, the amount of fetal cfDNA present in maternal blood is relatively Since very few, a method of generating and discriminating a large number of NGS leads is generally used. Since the generation of a large number of NGS reads leads to an increase in the experimental cost, a discriminating means for sensitively detecting fetal chromosomal aberrations should be developed even at Extremely Low Reads. In addition, since bias occurs in large-scale parallel sequencing data such as next-generation sequencing due to sequencer, library prep, and GC contents, it is necessary to remove such bias for more accurate determination. Therefore, in order to accurately diagnose prenatal fetal chromosome abnormalities, it is necessary to develop a chromosome analysis technique capable of sensitive discrimination even at a low lead number and to remove data deviations and to obtain accurate results.
【선행기술문헌】 Prior Art Documents
【특허문헌】  [Patent literature]
대한민국 등록특허 제 10-1516976호 【발명의 상세한 설명】  Republic of Korea Patent No. 10-1516976 【Detailed Description of the Invention】
【기술적 과제】  [Technical problem]
일 예는 산모에서 분리된 생물학적 시료로부터 얻어진 염색체 염기 서열 정보를 이용하는 태아 염색체 이수성 판단을 위한 비침습적 태아 염색체 분석 방법올 제공한다.  One example provides a non-invasive fetal chromosome analysis method for determining fetal chromosome aneuploidy using chromosome base information obtained from biological samples isolated from mothers.
본 명세서에 있어서, 상기 비침습적 태아 염색체 분석 방법은 태아의 염색체 이수성을 결정 (판별, 확인, 또는 진단)하기 위한 서열 정보 분석 방법, 또는 태아의 염색체 이수성 결정 (판별, 확인, 또는 진단)에 정보를 제공하기 위한 방법으로 표현될 수 있으며, 이들은 모두 동일한 의미를 갖는다ᅳ  In the present specification, the non-invasive fetal chromosome analysis method is a sequence information analysis method for determining (identifying, identifying, or diagnosing) fetal chromosome aberration, or information on determining the fetal chromosome aneuploidity (discriminating, confirming, or diagnosing). It can be expressed in a way to provide a, they all have the same meaning
상기 비침습적 태아 염색체 분석 방법은 산모로부터 분리된 생물학적 시료로부터 얻어진 DNA 서열 정보로부터 태아의 염색체 이수성 여부를 정확하게 판별하기 위하여, 이수성 여부를 판별하고자 하는 특정 염색체 (예컨대, 13번, 18 번 또는 21번 염색체)의 평균 리드수와 상기 염색체를 제외한 다른 염색체로부터 생성한 통합 빈 (merged bin)에 존재하는 평균 리드수를 비교하여 실험간 편차를 제거하고, CV (Coefficient of Variation) 값으로 가중 평균된 염색체간 리드 수의 비율을 이용하여 결과의 신뢰도 및 특이도를 향상시켜 위양성 확률을 즐이는 것을 특징으로 한다. The non-invasive fetal chromosome analysis method is a specific chromosome (for example, 13, 18 or 21) to determine whether the fetal chromosome aneuploid from the DNA sequence information obtained from the biological sample separated from the mother Chromosome weighted averaged by CV (Coefficient of Variation) value by removing the deviation between experiments by comparing the average number of leads of the chromosome) and the average number of leads present in the merged bins generated from other chromosomes except the chromosome The percentage of leads between It is characterized by enjoying the false positive probability by improving the reliability and specificity of the results.
상기 산모로부터 분리된 생물학적 시료로부터 얻어진 DNA 서열 정보는 차세대 염기서열분석법 (NGS) 등과 같은 대규모 병렬형 서열분석의 전체 게놈 서열분석 (Whole Genome Sequencing; WGS) 방법으로 생성된 자료일 수 있다.  DNA sequence information obtained from biological samples separated from the mother may be data generated by whole genome sequencing (WGS) of large-scale parallel sequencing such as next generation sequencing (NGS).
일 구체예에서, 상기 비침습적 태아 염색체 분석 방법은 다음의 단계를 포함할 수 있다:  In one embodiment, the non-invasive fetal chromosome analysis method may comprise the following steps:
' 1-1) 산모로부타분리된 시험 시료로부터 전체 게놈을 커버 (cover)하는 폴리뉴클레오타이드 단편들의 서열 정보를 얻는 단계; ' 1-1) obtaining sequence information of polynucleotide fragments covering the entire genome from a test sample separated from the mother mobutabut;
1-2) 참조 시료의 전체 게놈을 커버하는 폴리뉴클레오타이드 단편들의 서열 정보를 준비하는 단계;  1-2) preparing sequence information of polynucleotide fragments covering the entire genome of the reference sample;
2-1) 상기 단계 1-1)에서 얻어진 시험 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 표준 게놈 염기 서열 (Reference genome sequence)과 비교 (mapping)하여, 각 염색체 별로 미리 설정된 bin 개수 (bin number)를 갖도록 시험  2-1) The sequence information of the polynucleotide fragments of the test sample obtained in step 1-1) is compared with a reference genome sequence, and a preset bin number for each chromosome is obtained. Test to have
폴리뉴클레오타이드 단편 수 (polynucleotide fragment count)를 결정하는 단계, Determining the polynucleotide fragment count,
2- 2) 상기 단계 1-2)에서 준비된 참조 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 이용하여 미리 설정된 bin 개수를 갖도록 참조 폴리뉴클레오타이드 단편 수를 결정하는 단계;  2- 2) determining the number of reference polynucleotide fragments to have a preset number of bins using sequence information of the polynucleotide fragments of the reference sample prepared in step 1-2);
3- 1) 상기 시험 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체로부터 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 시험 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 merged bin의 개수 개 만큼 얻어짐);  3-1) n of the average polynucleotide fragments of the target chromosome to be tested for aneuploidy among the test polynucleotide fragments, n selected from chromosomes other than the target chromosome (n is an integer selected from 1 to 21) Obtaining a ratio of the average polynucleotide fragment number of each merged bin generated from the chromosomes to obtain an average test polynucleotide fragment number ratio (the ratio is obtained by the number of merged bins);
3-2) 상기 참조 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체를 대상으로 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 참조 시료 수 * merged bin의 개수 개 만큼 얻어짐); 4) 평균 참조 폴리뉴클레오타이드 단편 수 비율 별로 CV (Coefficient of Variation) 값을 얻는 단계; 3-2) n of the average polynucleotide fragments of the target chromosome to be tested for aneuploidy among the reference polynucleotide fragments, n selected from other chromosomes except the target chromosome (n is an integer selected from 1 to 21) Obtaining a ratio of the average polynucleotide fragment number of each merged bin generated on the chromosome to obtain an average reference polynucleotide fragment number ratio (the ratio is obtained by the number of reference samples * merged bins); 4) obtaining a coefficient of variation (CV) for each ratio of the average reference polynucleotide fragment number;
5-1) 상기 단계 3-1)의 평균 시험 폴리뉴클레오타이드 단편 수 비율 중에서 CV값이 적은 상위 Ncv개에 해당하는 수치들을 선정하여, 가중 평균 시험 5-1) Among the average test polynucleotide fragment ratios of step 3-1), the values corresponding to the top N cvs having a small CV value are selected and weighted average test is performed.
폴리뉴클레오타이드 단편 수 비율을 얻는 단계; Obtaining a number ratio of polynucleotide fragments;
5-2) 상기 단계 3-2)의 평균 참조 폴리뉴클레오타이드 단편 수 비율을 대상으로 상기 단계 5-1)에서 선정된 CV값이 적은 상위 Ncv개에 해당하는 수치들을 이용하여, 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계; 6) 상기 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 비교하는 단계. 5-2) A weighted average reference poly is obtained by using values corresponding to the upper N cv of the CV values selected in step 5-1) with respect to the ratio of the average reference polynucleotide fragment number in step 3-2). Obtaining the nucleotide fragment number ratio; 6) comparing the obtained weighted average test polynucleotide fragment number ratio with the weighted average reference polynucleotide fragment number ratio.
일 예에서, 상기 단계 6)의 비교하는 단계는 가중 평균 시험  In one example, the comparing step of 6) above is a weighted average test
폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 사용하여, 목적 염색체의 Z-score를 얻는 단계에 의하여 수행될 수 있다. 일 예에서, 상기 비침습적 태아 염색체 분석 방법은, 상기 단계 6) 이후에,The polynucleotide fragment number ratio and the weighted average reference polynucleotide fragment number ratio can be used to obtain a Z-score of the desired chromosome. In one example, the non-invasive fetal chromosome analysis method, after the step 6),
7) 상기 단계 6)에서 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 비교 결과 (예컨대 , Ζ- score)를 이용하여 태아의 목적 염색체의 이수성 여부를 확인하는 단계 7) Checking whether the fetal target chromosome is aneuploid using the result of comparing the weighted average test polynucleotide fragment number ratio and the weighted average reference polynucleotide fragment number ratio ratio (eg, Ζ-score) obtained in step 6).
를 추가로 포함할 수 있다.  It may further include.
상기 비침습적 태아 염색체 분석 방법에서, 단계 1-1) 및 1-2)는 동시 또는 순서에 상관 없이 연속적으로 수행될 수 있으며, 단계 2-1) 및 2-2)는 동시 또는 순서에 상관 없이 연속적으로 수행될 수 있고, 단계 3-1 및 3-2)는 동시 또는 순서에 상관 없이 연속적으로 수행될 수 있다. ,  In the non-invasive fetal chromosome analysis method, steps 1-1) and 1-2) may be performed simultaneously or sequentially in any order, and steps 2-1) and 2-2) may be performed simultaneously or in any order. It may be performed continuously, and steps 3-1 and 3-2) may be performed simultaneously or sequentially without regard to order. ,
일 예에서, 상기 비침습적 태아 염색체 분석 방법은 보다 정확한 결과 도출을 위하여, 상기 단계 2-1) 및 2-2) 이후에 (및 상기 단계 3-1 및 3-2) 이전에), a) 얻어진 시험 폴리뉴클레오타이드 단편 수 및 참조 폴리뉴클레오타이드 단편 수의 바이어스 (bias)를 제거하는 단계를 추가로 포함할 수 있다. 상기 바이어스 제거 단계는 SVD (Singular Value Decomposition) 등을 적용하여 수행될 수 있다.  In one example, the non-invasive fetal chromosome analysis method, after the steps 2-1) and 2-2) (and before the steps 3-1 and 3-2) for a more accurate result, a) The method may further comprise removing bias of the obtained test polynucleotide fragment number and the reference polynucleotide fragment number. The bias removal step may be performed by applying SVD (Singular Value Decomposition).
상기 염색체는 상염색체일 수 있으며, 인간의 경우, 1 내지 22번까지의 염색체로 이루어진 군에서 선택될 수 있다. 상기 '목적 염색체 '는 태아의 염색체 이수성 여부를 확인하고자 하는 염색체로서, 예컨대, 인간의 13번, 18번 또는 21번 염색체일 수 있으나, 이에 제한되는 것은 아니며, 염색체 이수성 여부를 확인하고자 하는 모든 상염색체 중에서 선택될 수 있다. 상기 '목적 염색체를 제외한 다른 염색체 중에서 선택된 n개의 염색체 '는 상기 염색체 이수성 여부를 확인하고자 하는 목적 염색체 이외의 나머지 상염색체들 중에서 선택된 염색체이다 (η은 1 내지 21 중에서 선택되는 정수임). The chromosome may be an autosomal body, and in humans, it may be selected from the group consisting of chromosomes 1 to 22. The 'purpose chromosome' is a fetal chromosome As a chromosome to check whether or not aneuploidy, for example, human chromosome 13, 18 or 21 may be a chromosome, but is not limited thereto, and may be selected from all the autosomal to check the chromosome aneuploid. The ' n chromosomes selected from other chromosomes except the target chromosome' is a chromosome selected from the other autosomal bodies other than the target chromosome to determine whether the chromosome is a dimeric (η is an integer selected from 1 to 21).
상기 산모로부터 분리된 시험 시료는 산모로부터 분리된 혈액, 혈장, 또는 혈청일 수 있다. 본 명세서에 제안된 비침습적 태아 염색체 분석 방법의 적용 가능한 산모는 목적 염색체가 정상인, 즉 목적 염색체의 이수성을 갖지 않는 산모일 수 있다.  The test sample isolated from the mother may be blood, plasma, or serum isolated from the mother. Applicable mothers of the noninvasive fetal chromosome analysis methods proposed herein may be mothers whose target chromosomes are normal, i.e., do not have the aneuploidy of the target chromosomes.
다른 예는 아래의 단계를 포함하는 태아의 염색체 이수성 판단을 위한 컴퓨터 판독 방법을 제공한다:  Another example provides a computer-readable method for determining chromosomal aneuploidies in a fetus comprising the following steps:
A-1) 시험 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 표준 게놈 염기 서열 (Reference genome sequence)과 비교 (mapping)하여, 각 염색체 별로 미리 설정된 bin 개수 (bin number)를 갖도록 시험 폴리뉴클레오타이드 단편 수 (polynucleotide fragment count)를 결정하는 단계,  A-1) The sequence information of polynucleotide fragments of a test sample is mapped to a reference genome sequence, so that the number of test polynucleotide fragments has a predetermined bin number for each chromosome. determining a fragment count)
A-2) 참조 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 이용하여 미리 설정된 bin 개수를 갖도록 참조 폴리뉴클레오타이드 단편 수를 결정하는 단계;  A-2) determining the reference polynucleotide fragment number to have a preset number of bins by using sequence information of the polynucleotide fragments of the reference sample;
B-1) 상기 시험 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체로부터 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 시험 폴리뉴클레오타이드 단편 수 비율을 얻는 단계;  B-1) n number (n is an integer selected from 1 to 21) of the average polynucleotide fragments of the target chromosome to be tested for aneuploidy among the test polynucleotide fragments selected from other chromosomes except the target chromosome Obtaining a ratio of the average polynucleotide fragment number of each merged bin generated from the chromosomes to obtain an average test polynucleotide fragment number ratio;
B-2) 상기 참조 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체를 대상으로 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 참조 시료 수 * merged bin의 개수 개 만큼 얻어짐); C) 평균 참조 폴리뉴클레오타이드 단판수 비율 별로 CV (Coefficient of Variation) 값을 얻는 단계; B-2) n of the average polynucleotide fragments of the target chromosome to be tested for aneuploidy among the reference polynucleotide fragments, n selected from other chromosomes except the target chromosome (n is an integer selected from 1 to 21) Obtaining a ratio of the average polynucleotide fragment number of each merged bin generated on the chromosome to obtain an average reference polynucleotide fragment number ratio (the ratio is obtained by the number of reference samples * merged bins); C) obtaining a CV (Coefficient of Variation) value for each ratio of average reference polynucleotide single plates;
D-1) 상기 단계 B-1)의 평균 시험 폴리뉴클레오타이드 단편 수 비율 증에서 CV값이 적은 상위 Ncv개에 해당하는 수치들을 선정하여 , 가중 평균 시험 D-1) In the average test polynucleotide fragment number ratio increase of step B-1), the weighted average test was selected by selecting the values corresponding to the top N cv with a low CV value.
폴리뉴클레오타이드 단편 수 비율을 얻는 단계; Obtaining a number ratio of polynucleotide fragments;
D-2) 상기 단계 B-2)의 평균 참조 폴리뉴클레오타이드 단편 수 비율을 대상으로 상기 단계 D-1)에서 선정된 CV값이 적은 상위 Ncv개에 해당하는 수치들을 이용하여, 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계; D-2) A weighted average reference poly, using values corresponding to the top N cv of the CV values selected in step D-1) with respect to the ratio of the average reference polynucleotide fragment number in step B-2). Obtaining the nucleotide fragment number ratio;
E) 상기 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 비교하는 단계; 및  E) comparing the obtained weighted average test polynucleotide fragment number ratio with the weighted average reference polynucleotide fragment number ratio; And
F) 상기 단계 E)에서 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴뫼^클레오타이드 단편 수 비율 비교 결과 (예컨대 , Ζ- score)를 이용하여 태아의 목적 염색체의 이수성 여부를 확인하는 단계.  F) using the result of comparing the weighted average test polynucleotide fragment number ratio and the weighted average reference polymorph fragment ratio ratio (e.g., Ζ-score) obtained in step E) to determine whether the fetal target chromosome is aberrant .
상기 컴퓨터 판독 방법은 보다 정확한 결과 도출을 위하여, 상기 단계 A-1) 및 A-2) 이후에 (및 상기 단계 B-1 및 B-2) 이전에), a) 얻어진 시험 The computer-readable method is a test obtained after steps A-1) and A- 2 ) (and before steps B-1 and B-2) for a more accurate result.
폴리뉴클레오타이드 단편 수 및 참조 폴리뉴클레오타이드 단편 수의 Of the number of polynucleotide fragments and the number of reference polynucleotide fragments
바이어스 (bias)를 제거하는 단계를 추가로 포함할 수 있다. 상기 바이어스 제거 단계는 SVD (Singular Value Decomposition) 등을 적용하여 수행될 수 있다. The method may further include removing the bias. The bias removal step may be performed by applying SVD (Singular Value Decomposition).
다른 예는 상기 컴퓽터 판독 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공한다.  Another example provides a computer program stored in a computer readable storage medium for carrying out the steps of the computer reading method.
다른 예는 상기 컴퓨터 판독 방법의 단계를 실행시키기 위한 컴퓨터에서 실행 가능한 프로그램 (computer executable instruction)이 수록된 컴퓨터 판독 가능한 저장 매체 (또는 가록 매체)를 제공한다. 【기술적 해결방법】  Another example provides a computer readable storage medium (or recordable medium) containing computer executable instructions for executing the steps of the computer readable method. Technical Solution
용어의 정의  Definition of Terms
달리 정의되지 않는 경우, 본 명세서에서 사용된 모든 기술 및 과학 용어들은 본 발명이 속하는 기술 분야의 당업자에 의해 일반적으로 이해되는 것과 등일한 의미를 갖는다. "염색체 이수성 (aneuploidy)' '은 목적 염색체의 수가 정상 염색체의 수 (2개)와 상이한 것, 즉, 목적 염색체가 0개, 1개, 또는 3개 이상 (예컨대, 3개) 존재하는 것을 의미한다ᅳ 이와 같은 염색체 이수성은 회귀성 유전 질환과 관련 있기 때문에 태아 진단에 있어서 매우 중요하다. 예컨대, 인간 염색체 기준으로, 13번 염색체가 3개 존재하는 경우 (trisomy 13), 파타우 증후군 (Patau syndrome), 18번 염색체가 3개 존재하는 경우 (trisomy I8), 에드워드 증후군 (Edward syndrome), 21번 염색체가 3개 존재하는 경우 (trisomy 21), 다운 증후군 (Down syndrome)이 야기된다. Unless defined otherwise, all technical and scientific terms used herein have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. " Aneu ploidy" means that the number of target chromosomes differs from the number of normal chromosomes (two), i.e., there are zero, one, or more than three (e.g. three) target chromosomes. This chromosome aberration is important in fetal diagnosis because it is associated with regressive genetic disorders, for example in the presence of three chromosomes 13 on the human chromosome (trisomy 13), Patau syndrome ), Three chromosomes 18 (trisomy I 8 ), Edward syndrome, three chromosomes 2 1 (trisomy 21), Down syndrome is caused.
"표준 게놈 염기 서열 (reference genome sequence)"은 한 종을 대표하는 게놈 염기 서열 데이터베이스를 지칭한다. 현재 인간의 reference genome은 빌드 37(build 37: GRCh37), hgl8, hgl9, hg38과 같은 간행된 (예컨대, UCSC, NCBI등) 기준 게놈 서열에 근거하여 구축된 것일 수 있다.  "Reference genome sequence" refers to a genomic base sequence database representing one species. Current human reference genomes may be constructed based on published (eg, UCSC, NCBI, etc.) reference genomic sequences such as build 37 (GRCh37), hgl8, hgl9, hg38.
"대규모 병렬 염기서열분석 (massively parallel sequencing)"은 :하나의  "Massively parallel sequencing" means:
유전체 (genome)을 무수히 많은 조각 (폴리뉴클레오타이드 단편)으로 랜덤하게 Randomly genome into countless pieces (polynucleotide fragments)
분해하여 각 조각의 서열을 동시에 읽어낸 뒤, 이렇게 얻은 서열 데이터를 생물 정보학적 기법 (bioinformatics)을 이용하여 조합함으로써 방대한 유전체 정보를 빠르게 해독하는 염기서열 분석 방법을 총칭한다. 대규모 병렬 염기서열분석의 추가적인 설명은 Rogers and Ventner, Nature (2005) 437:326~327에서 찾을 수 있다. The sequence of each fragment is read out at the same time, and the sequence data thus obtained are combined using bioinformatics to generically decipher sequential genomic information. Additional explanations of large scale parallel sequencing can be found in Rogers and Ventner, Nature (2005) 437: 326–327.
본 명세서에서 수치 앞에 기재된 "약"은, 다른 정의가 없는 한, 기재된 수치의 10%, 5%, 또는 3%의 변동폭 (증감분)을 포함하기 위하여 사용된 것일 수 있다. 이하, 본 발명을 보다 상세히 설명한다, "About" described before the numerical value herein may be used to include a variation (incremental) of 10%, 5%, or 3% of the numerical value unless otherwise defined. Hereinafter, the present invention will be described in more detail .
.; 단계 1): 전체 게놈을 커버 (coverᅵ하는 폴리뉴클레오타이드 단편들의 서열 정보 수득 단계  Step 1): Obtaining sequence information of polynucleotide fragments covering the entire genome
상기 폴리뉴클레오타이드 단편들의 서열 정보는 시료로부터 선택된 주형 DNA의 서열분석에 의해 얻어질 수 있다.  Sequence information of the polynucleotide fragments can be obtained by sequencing template DNA selected from a sample.
상기 폴리뉴클레오타이드 단편들은 표준 게놈 염기서열과의 맵핑을 통하여 각 염색체의 특정 위치에 지정되며, 전체 게놈을 커버한디-.  The polynucleotide fragments are assigned to specific positions on each chromosome through mapping with standard genomic sequences, covering the entire genome.
상기 폴리뉴클레오타이드 단편들의 염기 서열은 대규모 병렬형 염기 서열 분석 방법, 예컨대, 차세대 서열 분석법에 의하여 얻어진 것일 수 있다. 이 경우, 상기 폴리뉴클레오타이드 단편은 차세대 염기서열 분석에 사용되는 리드 (read)이며, 상기 폴리뉴클레오타이드 단편 수는 리드 수 (read count)이며, 상기 평균 The base sequences of the polynucleotide fragments may be obtained by large scale parallel sequencing methods, such as next generation sequencing. in this case, The polynucleotide fragment is a read used for next-generation sequencing, and the polynucleotide fragment number is a read count, and the average
폴리뉴클레오타이.드 단편 수는 평균 리드 수일 수 있다. The polynucleotide fragment number may be the average read number.
일 구체예에서, 상기 폴리뉴클레오타이드 단편들은 또는 리드들은 약 10 내지 약 2000 bp, 약 10 내지 약 lOOObp, 약 10 내지 약 500bp, 약 10 내지 약 300bp, 약 10 내지 약 200 bp, 약 25 내지 약 2000 bp, 약 25 내지 약 1000 bp, 약 25 내지 약 500bp, 약 25 내지 약 300bp, 약 25 내지 약 200bp, 약 25 내지 약 100bp, 약 50 내지 약 2000 bp, 약 50 내지 약 1000 bp, 약 50 내지 약 500bp, 약 50 내지 약 300bp: 약 50 내지 약 200bp, 약 50 내지 약 100bp, 약 100 내지 약 2000 bp, 약 100 내지 약 1000 bp, 약 100 내지 약 500bp, 약 100 내지 약 300bp, 약 100 내지 약 200bp, 약 150 내지 약 2000 bp, 약 150 내지 약 1000 bp, 약 150 내지 약 500bp, 또는 약 150 내지 약 300bp 길이를 갖는 것일 수 있으며, 그 길이가 각각 동일하거나 상이할 수 있다. 예컨대, 상기 폴리뉴클레오타이드 단편들 또는 리드들은 각각 독립적으로 약 100 bp, 약 200 bp, 약 300 bp, 약 400 bp, 약 500 bp, 또는 약 1000 bp 의 길이를 갖는 것일 수 있다. In one embodiment, the polynucleotide fragments or leads are about 10 to about 2000 bp, about 10 to about lOOOObp, about 10 to about 500 bp, about 10 to about 300 bp, about 10 to about 200 bp, about 25 to about 2000 bp, about 25 to about 1000 bp, about 25 to about 500 bp, about 25 to about 300 bp, about 25 to about 200 bp, about 25 to about 100 bp, about 50 to about 2000 bp, about 50 to about 1000 bp, about 50 to About 500 bp, about 50 to about 300 bp : about 50 to about 200 bp, about 50 to about 100 bp, about 100 to about 2000 bp, about 100 to about 1000 bp, about 100 to about 500 bp, about 100 to about 300 bp, about 100 to It may be about 200bp, about 150 to about 2000 bp, about 150 to about 1000 bp, about 150 to about 500bp, or about 150 to about 300bp in length, each of which may be the same or different. For example, the polynucleotide fragments or reads may each independently have a length of about 100 bp, about 200 bp, about 300 bp, about 400 bp, about 500 bp, or about 1000 bp.
이 때, 하나 이상의 염색체에 지정되는 폴리뉴클레오타이드 단편돌 및 /또는 어떠한 염색체에도 지정되지 않는 폴리뉴클레오타이드 단편들은 이후 단계에서 고려되지 않고 무시될 수 있다.  At this time, polynucleotide fragments assigned to one or more chromosomes and / or polynucleotide fragments not assigned to any chromosome may be ignored and ignored in later steps.
상기 대규모 병렬 염기서열분석은, 예컨대 454 플랫품 (platform) (Margulies, 등, Nature (2005) 437:376-380), lllumina Genome Analyzer (또는 Solexa™ platform), lllumina HiSeq2000, HisSeq2500, MiSeq, NextSeq500, Life Tech Ion PGM, Ion Proton, Ion S5, Ion S5XL, 또는 SOLiD (Applied Biosystems) 또는 Helicos True Single Molecule DNA 서열분석 기술 (Harris, 등, Science (2008) 320: 106~109), Pacific Biosciences의 단일 분자, 및 /또는 실시간 (SMRTTM) 기술 등에 의하여 수행될 수 있다. 또한 나노포어 서열 분석 (Soni and Meller, Clin Chem (2007) 53:1996-2001) 상에서 가능한 대규모 병렬 염기서열분석은 표본으로부터 분리된 많은 핵산 분자 *의 서열분석을 병렬 방식의 높은 차수의 멀티플렉싱 (multiplexing)으로 가능하게 한다 (Dear, Brief Funct Genomic Proteomic (2003) 1 :397-416). 이들 플랫품들 각각은 핵산 단편들의 클론적으로 확장된 또는 증폭되지 않은 단일 분자들을 서열화한다. 상¾적으로 입수 가능한 서열분석 기기를 사용하여 폴리뉴클레오타이드 단편들의 서열정보를 수득할 수 있다 The large scale parallel sequencing can be performed by, for example, 454 platform (Margulies, et al., Nature (2005) 437: 376-380), lllumina Genome Analyzer (or Solexa ™ platform), lllumina HiSeq2000, HisSeq2500, MiSeq, NextSeq500, Life Tech Ion PGM, Ion Proton, Ion S5, Ion S5XL, or SOLiD (Applied Biosystems) or Helicos True Single Molecule DNA Sequencing Technology (Harris, et al., Science (2008) 320: 106-109), single molecule from Pacific Biosciences , And / or real-time (SMRT ™) technology or the like. Large-scale parallel sequencing, which is also possible on nanopore sequencing (Soni and Meller, Clin Chem (2007) 53: 1996-2001), is a high order multiplexing of the sequencing of many nucleic acid molecules * isolated from a sample. (Dear, Brief Funct Genomic Proteomic (2003) 1: 397-416). Each of these platforms sequences single molecules that are either clonally expanded or not amplified of nucleic acid fragments. Commercially available Sequencing equipment can be used to obtain sequence information of polynucleotide fragments
이 외에도상기 서열 분석이 다른 다양한 공지된 서열분석 방법들 및 또는 이들의 변형 방법들에 의하여 수행될 수 있음은 당업자에게는 명백할 것이다.  In addition, it will be apparent to those skilled in the art that the sequencing may be performed by various other known sequencing methods and / or modifications thereof.
1 -1) 시험 시료로부터 전체 게놈을 커버하는 폴리뉴클레오타이드 단편들의 서열 정보를 얻는 단계 1-1) Obtaining Sequence Information of Polynucleotide Fragments Covering the Entire Genome from a Test Sample
상기 산모로부터 분리된 시험 시료는 산모로부터 분리된 혈액, 혈장, 또는 혈청일 수 있다. 상기 산모는 인간 여성일 수 있으며, 염색체 이수성 확인 대상인 목적 염색체가 정상인, 즉 목적 염색체의 이수성을 갖지 않는 산모일 수 있다. 상기 혈액, 혈장, 또는 혈청은 통상적인 방법으로 분리 가능하며, 임신 8~12, 12~16, 16-20, 20-24, 24-28, 28-32, 32-36, 36-40, 또는 40~44주에, 예컨대 임신 8~28주 사이에 산모로부터 분리된 것을 수 있다.  The test sample isolated from the mother may be blood, plasma, or serum isolated from the mother. The mother may be a human female, and may be a mother whose target chromosome to be identified as chromosome aneuploid is normal, that is, the mother does not have the dimerity of the target chromosome. The blood, plasma, or serum may be separated by a conventional method, and pregnancy 8-12, 12-16, 16-20, 20-24, 24-28, 28-32, 32-36, 36-40, or 40-44 weeks, for example between 8 and 28 weeks gestation.
상기 시험 시료의 전체 게놈을 커버 (cover)하는 폴리뉴클레오타이드 단편들의 서열 정보를 얻는 단계는,  Obtaining sequence information of polynucleotide fragments covering the entire genome of the test sample,
i) 시험 시료에 대하여 차세대 염기서열 분석과 같은 대규모 병렬 염기 서열 분석을 수행하는 단계, 또는  i) performing massively parallel sequencing on the test sample, such as next generation sequencing; or
ii) 상기 i)에서 얻어진 서열 정보를 데이터 저장 매체에 저장된 형태로 준비하거나 또는 네트워크 데이터 송수신 장치를 통하여 얻는 단계  ii) preparing the sequence information obtained in i) in a form stored in a data storage medium or through a network data transmission / reception apparatus;
에 의하여 수행될 수 있다.  It can be performed by.
1-2) 참조 시료의 전체 게놈을 커버하는 폴리뉴클레오타이드 단편들의 서열 정보를 얻는 단계 1-2) obtaining sequence information of polynucleotide fragments covering the entire genome of the reference sample
상기 참조 시료는 이미 '게놈의 염기 서열 정보 및 전체 게놈을 커버하는 폴리뉴클레오타이드 단편들의 서열 정보' (이하 , '게놈 서열 정보'로 표현)를 알고 있는 게놈 pool로서, 목적 염색체의 이수성을 갖지 않는 태아를 임신한 정상  The reference sample is a genome pool that already knows 'genome sequence information of the genome and sequence information of polynucleotide fragments covering the entire genome' (hereinafter referred to as 'genome sequence information'), and which does not have the aneuploid of the target chromosome. Normal pregnant
산모들로부터 얻은 (예컨대 혈장 또는 혈청으로부터 얻음) 게놈 서열 정보 집합일 수 있다. 상기 목적 염색체의 이수성을 갖지 않는 태아를 임신한 정상 산모들로부터 얻은 게놈 서열 정보는 산모들로부터 얻은 게놈 서열 정보들 중에서 출산 후 태아가 염색체 이수성을 갖지 않는 것으로 확인된 산모들로부터 얻은 게놈 서열 정보들 중에서 '선택된 것일 수 있다. 참조 시료의 개수 (산모 수 또는 게놈 수에 해당)는 특별한 제한은 없지만 데이터 처리의 편의성과 결과의 정확성을 고려하여, 상기 약 50개 내지 약 200,000개 범위에서 선택될 수 있으며, 예컨대, 상기 범위에서 (즉, 상한값을 200,000개로 하여), 약 50개 이상, 약 100개 이상, 또는 약 200개 이상에서 선택될 수 있다. 참조 시료는, 한국인, 동양인, 서양인 등 인종 별로 세분화된 게놈 서열 정보 군에서 각각 선택되거나 2 이상의 인종이 Genomic sequence information set obtained from mothers (eg, from plasma or serum). The genomic sequence information obtained from normal mothers pregnant with a fetus that does not have the target chromosome agenda may be a genomic sequence obtained from mothers whose fetuses are identified as having no chromosome aneuploids after childbirth among genome sequence information obtained from the mothers. Among the information "may be selected. The number of reference samples (corresponding to the number of mothers or genomes) is not particularly limited but may be selected from the range of about 50 to about 200,000 in consideration of the convenience of data processing and the accuracy of the results, for example, in the range (Ie, with an upper limit of 200,000), at least about 50, at least about 100, or at least about 200. The reference sample may be selected from a group of genomic sequence information broken down by race such as Korean, Asian, or Western, or two or more races may be used.
조합되도록 선택된 것일 수 있다. It may be chosen to be combined.
상기 참조 시료의 전체 게놈을 커버 (cover)하는 폴리뉴클레오타이드 단편들의 서열 정보를 준비하는 단계는 목적 염색체의 이수성을 갖지 않는 태아를 임신한 정상 산모들로부터 게놈 서열 정보들을 얻고 이 중에서 선택하거나, 이미 확보된 게놈 pool의 게놈 서열 정보들 중에서 선택하는 단계에 의하여 수행될 수 있다. 단계 2) 폴리뉴클레오타이드 단편 수 (polynucleotide fragment count)를 결정하는 단계  Preparing sequence information of polynucleotide fragments covering the entire genome of the reference sample may be obtained from, or already obtained, genomic sequence information from normal mothers pregnant with a fetus that does not have a target chromosome The method may be performed by selecting among genomic sequence information of the generated genomic pool. Step 2) Determining Polynucleotide Fragment Count
상기 단계 2)는 시험 시료 및 참조 시료 각각의 폴리뉴클레오타이드 단편들의 서열 정보를 '표준 게놈 염기 서열 (Reference genome sequence)과 In step 2), the sequence information of each of the polynucleotide fragments of the test sample and the reference sample may be converted into a ' reference genome sequence and a reference genome sequence.
비교 (mapping)하여, 각 염색체 별로 미리 설정된 bin 개수 (bin number)를 갖도록 폴리뉴클레오타이드 단편 수 (polynucleotide fragment count)를 결정하는 단계이다. By comparing, the polynucleotide fragment count is determined to have a preset bin number for each chromosome.
2-1) 시험 폴리뉴클레오타이드 단편 수를 결정하는 단계  2-1) Determining the Number of Test Polynucleotide Fragments
상기 단계 2-1)은 시험 시료로부터 얻어진, 표준 게놈 염기서열에 맵핑된 전체 게놈 서열올 커버하는 폴리뉴클레오타이드 단편들의 서열 정보를 대상으로, 임의의 개수 (B개)의 bin 개수 (bin number)를 갖도록 시험 폴리뉴클레오타이드 단편 수 (polynucleotide fragmeni count또는 리드 수 (read count))를 계산하여  Step 2-1) targets sequence information of polynucleotide fragments covering the entire genome sequence mapped to a standard genomic sequence obtained from a test sample, and selects an arbitrary number (B) of bin numbers. Calculate the number of test polynucleotide fragments (polynucleotide fragmeni count or read count)
폴리뉴클레오타이드 단편 수 백터 (polynucleotide fragment count vector또는 리드 수 백터 (read count vector))를 생성하는 단계에 의하여 수행될 수 있다. It can be carried out by generating a polynucleotide fragment count vector (read count vector).
예컨대, 시험 시료의 폴리뉴클레오타이드 단편 수 또는 리드 수 백터 (S)는 아래의 수식 1으로 표현될 수 있다:  For example, the number of polynucleotide fragments or read number vector (S) of a test sample can be expressed by Equation 1 below:
5 = ( , AC2 , AC3 , . . . , A CB_} CB ) (수식 l) (rc: read count; B: bin 개수) 상기 식에서 rcread count를 의미하며 , 실험적으로 얻어지는 값이다ᅳ 일 예에서, 상기 bin 개수는 각 bin이 약 10,000개 내지 약 20,000,000개, 약 20,000개 내지 약 15,000,000개, 약 30,000개 내지 약 10,000,000개, 또는 약 5 = (, AC 2 , AC 3 ,.., AC B _ } C B ) (Formula l) ( rc: rea d count; B: bin count) where rc means rea d count Is the value obtained In one example, the number of bins is about 10,000 to about 20,000,000 bins, about 20,000 to about 15,000,000 bins, about 30,000 to about 10,000,000 bins, or about
50,000개 내지 약 1 ,000,000개의 뉴클레오타이드를 포함하도톡 하는 값으로 선택될 수 있다. 예컨대, bin 개수는 약 1 내지 약 30,000, 약 1 내지 약 10,000 , 약 1 내지 약 5,000, 약 1 내지 약 1 ,000, 약 1 내지 약 500, 약 2 내지 약 30,000, 약 2 내지 약 10,000, 약 2 내지 약 5,000, 약 2 내지 약 1,000, 약 2 내지 약 500, 약 5 내지 약 30,000, 약 5 내지 약 10,000, 약 5 내지 약 5,000, 약 5 내지 약 1 ,000, 약 5 내지 약 500, 약 10 내지 약 30,000, 약 10 내지 약 10,000, 약 1.0 내지 약 5,000, 약 10 내지 약 1 ,000 , 약 10 내지 약 5030, 약 20 내지 약 30,000, 약 20 내지 약 10,000, 약 20 내지 약 5 000, 약 20 내지 약 1,000, 약 20 내지 약 500 , 약 50 내지 약 30,000, 약 50 내지 약 10,000, 약 50 내지 약 5 000, 약 50 내지 약 1 ,000, 약 50 내지 약 500, 약 f 1 ι0υ0υ 내지 약 f 3 ^0υ,,0υ0υ0' , 약 100 내지 약 10,000, 약 100 내지 약 5,000, 약 100 내지 약 1 ,000, 또는 약 100 내지 약 500 범위에서 선정될 수 있다. 2-2) 참조 폴리뉴클레오타이드 단편 수를 결정하는 단계 And from 50,000 to about 1,000,000 nucleotides. For example, the bin number is about 1 to about 30,000, about 1 to about 10,000, about 1 to about 5,000, about 1 to about 1,000, about 1 to about 500, about 2 to about 30,000, about 2 to about 10,000, about About 2 to about 5,000, about 2 to about 1,000, about 2 to about 500, about 5 to about 30,000, about 5 to about 10,000, about 5 to about 5,000, about 5 to about 1,000, about 5 to about 500, about 10 to about 30,000, about 10 to about 10,000, about 1.0 to about 5,000, about 10 to about 1,000, about 10 to about 5030, about 20 to about 30,000, about 20 to about 10,000, about 20 to about 5 000, About 20 to about 1,000, about 20 to about 500, about 50 to about 30,000, about 50 to about 10,000, about 50 to about 5 000, about 50 to about 1,000, about 50 to about 500, about f 1 ι0υ0υ to About f 3 ^ 0υ ,, 0υ0υ0 ', about 100 to about 10,000, about 100 to about 5,000, about 100 to about 1,000, or about 100 to about 500. 2-2) Determining the Number of Reference Polynucleotide Fragments
상기 단계 2-2)는 확보된 참조 시료 ρο이에서 선택된 Ν개의 참조 시료군의 폴리뉴클레오타이드 단편들의 서열 정보를 대상으로 Β개의 bin 개수 (bin number)를 갖도록 폴리뉴클레오타이드 단편 수 (polynucleotide fragment count또는 리드 수 (read count))를 계산하여 참조 폴리뉴클레오타이드 단편 수 행렬 (또는 참조 리드 수 행렬 (Reference read count matrix))을 생성하는 단계에 의하여 수행될 수 있다.  Step 2-2) is a polynucleotide fragment count or read so as to have Β bin numbers based on the sequence information of polynucleotide fragments of the Ν reference sample groups selected from the obtained reference sample ρο. Calculating a reference count to generate a reference polynucleotide fragment number matrix (or a reference read count matrix).
예컨대, 참조 시료의 폴리뉴클레오타이 단편 수 또는 리드 수 행렬 (R)은 아래의 수식 2 및 수식 3으로 표현될 수 있다:  For example, the polynucleotide fragment number or read number matrix (R) of a reference sample can be represented by the following Equations 2 and 3:
(수식 3)
Figure imgf000012_0001
(B: bin 개수; N: 참조시료 개수) 단계 a) 바이어스 제거 단계
(Formula 3)
Figure imgf000012_0001
(B: number of bins; N: number of reference samples) Step a) Bias removal step
단계 a)는 얻어진 폴리뉴클레오타이드 단편 수 값에서 바이어스를 제거하여 보다 정확한 결과를 도출하기 위한 것으로, 단계 2)와 단계 3) 사이에 추가로 수행되는 것일 수 있다ᅳ  Step a) is to remove the bias from the obtained polynucleotide fragment number value to obtain a more accurate result, which may be additionally performed between step 2) and step 3).
상기 단계 a)는 시험 폴리뉴클레오타이드 단편 수 및 참조  Step a) above refers to the number of test polynucleotide fragments and to
폴리뉴클레오타이드 단편 수에 대하여 SVD (Singular Value Decomposition) 를 적용하여 바이어스를 제거하는 단계에 의하여 수행될 수 있다. It can be carried out by applying a Singular Value Decomposition (SVD) to the number of polynucleotide fragments to remove the bias.
일 예에서, 상기 단계 a)는 SVD 를 적용하여 수행될 수 있으며, 이 경우, 다음의 수식 4-7과 같이, i) 참조 폴리뉴클레오타이드 단편 수 행렬과 시험  In one example, step a) may be performed by applying SVD, in which case, i) a reference polynucleotide fragment number matrix and a test, as shown in Equation 4-7
폴리뉴클레오타이드 단편 수 백터를 결합하여 행렬 X를 생성하는 단계, ii) 결합된 행렬을 대상으로 SVD 수행하는 단계, iii) 분해된 Diagonal 행렬 D에 대해서 Singular value의 합의 50% 이내 , 45% 이내 , 40% 이내 , 35% 이내 , 30% 이내 , 25% 이내 , 20% 이내, 15% 이내, 또는 10% 이내, 예컨대 , 1 내지 50%, 1 내지 45%, 1 내지 40%, 1 내지 35%, 1 내지 30%, 1 내지 25%, 1 내지 20%, 1 내지 15%, 1 내지 10%, 5 내지 50%, 5 내지 45%, 5 내지 40%, 5 내지 35%, 5 내지 30%, 5 내지 25%, 5 내지 20%, 5 내지 15%, 또는 5 내지 10%가 되는 singular value 상위 s개를 선정하는 단계, iv) 행렬 D에서 해당 singular value의 값올 0으로 치환하여 바이어스가 제거된 diagonal 행렬 1)81를 생성하는 단계, 및 V) 행렬 PBR를 이용하여 바이어스가 제거된 행렬Combining the number of polynucleotide fragment vectors to produce matrix X, ii) performing SVD on the bound matrix, iii) within 50% of the sum of the Singular values for the decomposed Diagonal matrix D, within 45%, 40 Within%, within 35%, within 30%, within 25%, within 20%, within 15%, or within 10%, such as 1-50%, 1-45%, 1-40%, 1-35%, 1 to 30%, 1 to 25%, 1 to 20%, 1 to 15%, 1 to 10%, 5 to 50%, 5 to 45%, 5 to 40%, 5 to 35%, 5 to 30%, Selecting the top s singular values of 5 to 25%, 5 to 20%, 5 to 15%, or 5 to 10%, iv) removing the bias by replacing the value of the singular value in matrix D with 0 diagonal matrix 1) generating 81 , and V) matrix with debiased using matrix P BR
XBR를 생성하는 단계를 포함할 수 있다. Generating an X BR.
X = \R S Ci C* ^' c N-\ CN s (수식 4-1) X = \ RS Ci C * ^ 'c N- \ C N s (Equation 4-1)
Figure imgf000013_0001
(수식 4-2)
Figure imgf000013_0001
(Equation 4-2)
UDV (수식 43) (수식 5) UDV (Formula 43) (Formula 5)
(수식 6)
Figure imgf000014_0001
(수식 7)
(Formula 6)
Figure imgf000014_0001
(Formula 7)
(상기 식에서 UDV 바이어스 제거 전 SVD로 분해된 행렬, UDBRVT는 바이어스 제거 후 분해된 행렬을 의미한다) (The above matrix is decomposed into SVD before UDV bias removal, and UD BR V T means decomposed matrix after bias removal.)
본원 명세서 도 2에서 확인되는 바와 같이, SVD를 적용함으로써 GC 함량과 무관하게 폴리뉴클레오타이드 단편 수 (read count)가 일정한 수준을 유지함을 알 수 있으며, 이러한 결과는 SVD 적용에 의하 GC 바이어스가 제거됨을 보여주는 것이다. 단계 3ᅵ 평균 폴리뉴클레오타이드 단편 수 비율을 얻는 단계  As confirmed in FIG. 2 of the present specification, it can be seen that by applying the SVD, the polynucleotide fragment count (read count) is maintained at a constant level regardless of the GC content, and these results show that the GC bias is removed by the SVD application. will be. Step 3 ᅵ Obtaining Average Polynucleotide Fragment Number Ratio
상기 단계 3)은 목적 염색체의 평균 폴리뉴클레오타이드 단편 수를 상기 목적 염색체를 제외한 다른 염색체의 평균 폴리뉴클레오타이드 단편 수와 비교하여 그 비율을 구함으로써, 실험 간 편차를 제거하고 미량의 태아 염색체에 대한 이수성 확인 결과의 민감성을 보다 개선시키는데 기여한다.  Step 3) compares the average number of polynucleotide fragments of the target chromosome with the average number of polynucleotide fragments of the other chromosomes except for the target chromosome, thereby eliminating the deviation between experiments and confirming the aneuploidity of the trace fetal chromosome. Contribute to further improving the sensitivity of the results.
인간의 경우, 1 내지 22번까지의 염색체로 이루어진 군에서 선택될 수 있다. 상기 '목적 염색체 '는 태아의 염색체 이수성 여부를 확인하고자 하는 염색체로서, 예컨대, 인간의 13번, 18번 또는 21번 염색체일 수 있으나, 이에 제한되는 것은 아니며, 염색체 이수성 여부를 확인하고자 하는 모든 상염색체 중에서 선택될 수 있다. 상기 '목적 염색체를 제외한 다른 염색체 중에서 선택된 n개의 염색체 '는 상기 염색체 이수성 여부를 확인하고자 하는 목적 염색체 이꾀의 나머지 In humans, they may be selected from the group consisting of chromosomes 1 to 22. The 'target chromosome' is a chromosome for determining whether a fetus is chromosome aberrant, for example, human chromosome 13, 18 or 21 chromosome, but is not limited thereto. Or, it can be selected from all autosomal to be confirmed whether or not chromosomal aneuploidy. The 'n chromosomes selected from other chromosomes except the target chromosome' is the remainder of the target chromosome objective to determine whether the chromosome is aneuploid.
상염색체들 중에서 선택된 염색체이다. n은 1 내지 21 중에서 선택되는 정수이다. 일 예에서 , η은 21, 즉 인간의 22개 상염색체 중에서 목적 염색체를 제외한 21개의 염색체 각각의 평균 폴리뉴클레오타이드 단편 수를 평균 폴리뉴클레오타이드 단편 수 비율을 구하는데 사용 할 수 있다. It is a chromosome selected from autosomes. n is an integer selected from 1 to 21. In one example, η can be used to determine the average polynucleotide fragment ratio of 21, i.e., the average polynucleotide fragment number of each of 21 chromosomes excluding the desired chromosome among 22 human autosomes.
상기 "평균 폴리뉴클레오타이드 단편 수''는 목적 염색체 또는 merged bin 등의 boundary 내애 존재하는 모든 폴리뉴클레오타이드 단편 수 또는 리드 수를 평균하여 얻을 수 있다.  The “average number of polynucleotide fragments” may be obtained by averaging the number of all polynucleotide fragments or reads existing within a boundary such as a target chromosome or a merged bin.
상기 "목적 염색체를 제외한 다른 염색체의 평균 폴리뉴클레오타이드 단편 수''는 각 염색체 대상 임의로 정한 일정한 길이를 갖도록 각 bin을 통합한 영역 (merged bin)에 해당하는 폴리뉴클레오타이드 단편 수의 평균값이다.  The `` average number of polynucleotide fragments of chromosomes other than the target chromosome '' is an average value of the number of polynucleotide fragments corresponding to a merged bin of each bin so as to have a predetermined fixed length for each chromosome.
일 구체예에서, 평균 시험 폴리뉴클레오타이드 단편 수 비율 또는 평균 참조 폴리뉴클레오타이드 단편 수 비율은 다음 단계에 의하여 계산될 수 있다:  In one embodiment, the average test polynucleotide fragment number ratio or the average reference polynucleotide fragment number ratio can be calculated by the following steps:
i) Merged Bin의 평균 size인 mbsize를 전체 Bin 개수를 전체 상염색체 개수인 22와 사전에 설정된 k개를 곱한 값으로 나누어 정하고, 각 염색체 별로 0 1^6의 길이를 갖도록 bin을 통합하는 단계 h ― B i) The mb size , which is the average size of Merged Bins, is determined by dividing the total number of bins by the product of the total number of autosomal bodies, 22, and k presets, and integrating the bins to have a length of 0 1 ^ 6 for each chromosome. h ― B
mDsize 2 x k (수식 8); 및 ii) 목적 염색체 i 및 목적 염색체를 제외한 염색체의 각 merged binj에 대해서 평균 값을 구하여 , 이들 간 비율 (Read count ratio)을 얻는 단계 . m D size 2 xk ( Equation 8); And ii) obtaining an average value for each merged binj of the chromosome excluding the target chromosome i and the target chromosome to obtain a read count ratio between them.
Figure imgf000015_0001
(수식 9).
Figure imgf000015_0001
(Equation 9).
는 목적 염색체 i의 평균 리드 수이고 , μιη 는 merged binj와평균 리드 수 이다. 상기 k값은 사용자에 의해 선정되는 값으로, 일례로 1 내지 20, 1 내지 15, 1 내지 10,또는 1 내지 5의 값을 사용할 수 있다. . 3-1) 평균 시험 폴리뉴클레오타이드 단편 수 비율을 앋는 단계 상기 단계 3- 1)은 상기 시험 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n(n은 1 내지 21 중에서 선택되는 정수)의 염색체를 대상으로 생성된 merged bin각각의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 시험 폴리뉴클레오타이드 단편 수 비율올 얻는 단계 (상기 비율은 merged bin의 개수 개 만큼 얻어짐)일 수 있다. Is the average number of leads on the target chromosome i, and μ ιη is the merged binj and the average number of leads. The k value is a value selected by the user, and for example, a value of 1 to 20, 1 to 15, 1 to 10, or 1 to 5 may be used. . 3-1) Determining the Average Test Polynucleotide Fragment Number Ratio Step 3-1) of the test polynucleotide fragment counts, except for the target chromosome, of the average polynucleotide fragment number of the target chromosome to be tested for aneuploidy. Obtaining the ratio of the average number of polynucleotide fragments of each merged bin generated on n chromosomes (n is an integer selected from 1 to 21) among the chromosomes to obtain the average test polynucleotide fragment number ratio (the above ratio) Is obtained by the number of merged bins).
' 구체적으로, 상기 단계 3- 1)은 시험 폴리뉴클레오타이드 단편 수 (또는 시험 리드 수)를 대상으로, 목적 염색체의 평균 폴리뉴클레오타이드 단편 수 (또는 시험 리드 수) 및 상기 목적 염색체를 제외한 n개의 염색체를 대상으로 생성된 merged bin 각각의 평균 폴리뉴클레오타이드 단편 수 (또는 평균 리드 수)를 취하여 이들 간 비율 [목적 염색체의 평균 폴리뉴클레오타이드 단편 수 (또는 평균 리드 수) / merged bin 평균 폴리뉴클레오타이드 단편 수 (또는 평균 리드 수)] (Read count ratio)를 계산하여 (상기 비율은 merged bin의 개수 만큼 얻어짐), 평균 시험  Specifically, step 3-1) refers to the number of test polynucleotide fragments (or the number of test leads), and the average number of polynucleotide fragments (or the number of test leads) of the target chromosome and n chromosomes excluding the target chromosome. Take the average number of polynucleotide fragments (or average number of reads) of each of the merged bins generated as targets, and compare the ratio between them [average number of polynucleotide fragments (or average number of reads) on the target chromosome / merged bin average number of polynucleotide fragments (or average) Number of reads)] (Read count ratio) (the ratio is obtained by the number of merged bins), average test
폴리뉴클레오타이드 단편 수 비율 백터 (또는 평균 시험 리드 수 비율 백터) (Case read count ratio vector)를 생성하는 단계에 의하여 수행될 수 있다. i번째 염색체 (chromosome i; 목적 염색체)의 다른 염색체에 대한 평균 시험 풀리뉴클레오타이드 단편 수 비율 백터 (RCRchri)는 아래의 수식 10으로 표현될 수 있다 (mbm: merged bin number): ^^chr, = ^^mb,, ^C^mb2, ^^mb3 ., ^C^mbm^, mbm )Polynucleotide fragment number ratio vector (or mean test read number ratio vector) may be performed by generating a Case read count ratio vector. The average test pulley nucleotide fragment number ratio vector (RCR chri ) for the other chromosome of the i chromosome (target chromosome) can be expressed by Equation 10 below (mbm: merged bin number): ^^ chr, = ^^ mb ,, ^ C ^ mb 2 , ^^ mb 3. , ^ C ^ mb m ^ , mb m )
(수식 10) (Formula 10)
. 3-2) 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 . 3-2) Obtaining Average Reference Polynucleotide Fragment Number Ratio
상기 단계 3-1 )은 상기 참조 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체를 대상으로 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 (참조 시료 수) X merged bin의 개수 (mbm) 개 만큼 얻어짐)일 수 있다. Step 3-1) is the number of the average polynucleotide fragment of the target chromosome to be tested for abundance among the reference polynucleotide fragment number, n selected from other chromosomes except the target chromosome ( n is selected from 1 to 21) The ratio of the average number of polynucleotide fragments of each merged bin generated for the chromosome of an integer) to obtain the average number of reference polynucleotide fragments Step (the ratio is (number of reference samples) X number of merged bins (mbm) is obtained).
구체적으로, 상기 단계 3-2)는 N개의 참조 시료로부터 얻어진 참조  Specifically, step 3-2) is a reference obtained from the N reference samples
폴리뉴클레오타이드 단편 수 (또는 참조 리드 수)를 대상으로, 목적 염색체의 평균 폴리뉴클레오타이드 단편 수 (또는 참조 리드 수) 및 상기 목적 염색체를 제외한 mbm 개의 merged bin 평균 폴리뉴클레오타이드 단편 수 (또는 평균 리드 수)를 취하여 이들 간 비율 [목적 염색체의 평균 폴리뉴클레오타이드 단편 수 (또는 평균 리드 수) / merged bin 평균 폴리뉴클레오타이드 단편 수 (또는 평균 리드 수)] (Read count ratio)을 계산하여 (상기 비율은 참조 시료 수 (N) * mbm 개 만큼 얻어짐), 평균 참조 폴리뉴클레오타이드 단편 수 비율 행렬 (또는 참조 리드 수 비율 행렬) Based on the number of polynucleotide fragments (or reference reads), the average number of polynucleotide fragments (or reference reads) of the target chromosome and the mbm merged bin average polynucleotide fragments (or average number of reads) excluding the target chromosome Taking and calculating the ratio between these [mean number of polynucleotide fragments (or mean number of reads) / merged bin mean polynucleotide fragments (or mean number of reads) of the target chromosome)] (Read count ratio) N) * obtained by mbm), average reference polynucleotide fragment number ratio matrix (or reference read number ratio matrix)
(Reference read count ratio matrix)를 생성하는 단계에 의하여 수행될 수 있다 . i번째 염색체 (chromosome i)의 다른 염색체에 대한 평균 참조 폴리뉴클레오타이드 단편 수 비율 행렬 (RCRMch„)는 아래의 수식 11로 표현될 수 있디-: It can be performed by generating a (Reference read count ratio matrix). The average reference polynucleotide fragment number ratio matrix (RCRM ch „) for another chromosome of the i chromosome i can be expressed by Equation 11 below:
RCR J RCR, RCR, RCR J RCR, RCR,
RCR m, bZ
Figure imgf000017_0001
RCR. bz,N- RCR m, bz,N
RCR m, b Z
Figure imgf000017_0001
RCR. b z , N- RCR m, b z , N
/?에 ,
Figure imgf000017_0002
N一、 RCR,
On /?
Figure imgf000017_0002
N 一 、 RCR,
RCR, RCA m, br. ,2 ACR mbm -、, 3 RCR, RCA m, br. , 2 ACR mbm-、, 3
Figure imgf000017_0003
Figure imgf000017_0003
RCR쪠 RCR RCR, , 3 RCR m, bmiN-\ RCR, RCR 쪠 RCR RCR,, 3 RCR m, b mi N- \ RCR,
(수식 i i) 단계 4) CV (Coefficient of Variation) 값을 얻는 단계 (Formula i) Step 4) Obtaining CV (Coefficient of Variation) value
■ 상기 단계 4)는 상기.얻어진 평균 참조 폴리뉴클레오타이드 단편 수 비율 행렬로부터 각 평균 폴리뉴클레오타이드 단편 수 비율 별 CV (Coefficient of Variation) 값을 얻는 단계이다. ■ Step 4) above . It is a step of obtaining the CV (Coefficient of Variation) value for each average polynucleotide fragment number ratio from the obtained average reference polynucleotide fragment number ratio matrix.
구체적으로, 상기 단계는 각 염색체 별 평균 폴리뉴클레오타이드 단편 수 비율 (평균 리드 수 비율) 및 merged bin 평균 폴리뉴클레오타이드 단편 수 비율 (평균 리드 수 비) (RCRi )에 대해 참조 시료군을 대상으로 CV를 계산하여 수행돨 수 있다. i번째 염색체 (chromosome i)에 대한 CV (CVch„)는 다음의 수식 1 1로 얻어질 수 있다: ■ Specifically, the step calculates the CV for the reference sample group for the average polynucleotide fragment ratio (average read number ratio) and merged bin average polynucleotide fragment ratio (average lead number ratio) (RCRi) for each chromosome. Perform by Can be. CV (CV ch „) for the i chromosome i can be obtained by the following equation:
cvchri cv chri
(수식 12) (Formula 12)
Figure imgf000018_0001
Figure imgf000018_0001
상기 식에서 , oRCRn,mbm은 참조 시료군을 대상으로 계산된 각 염색체별, merged bin별 리드수 비의 표준편차를 나타내고 , RCRn,mbm 은 참조 시료군을 대상으로 계산된 각 염색체별, merged bin 별 리드수 비의 평균을 나타낸다. 단계 5) 가중 평균 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 In the above formula, oRCR n , mbm represents the standard deviation of the ratio of reads for each chromosome and merged bin calculated for the reference sample group , and RCR n, mbm for each chromosome, merged calculated for the reference sample group The average of the number of leads per bin is shown. Step 5) Obtaining Weighted Average Polynucleotide Fragment Number Ratio
단계 5는 단계 3과 더불어 결과의 신뢰도와 정확성을 보다 높이기 위한 것으로, 상기 얻어진 목적 염색체 별 평균 폴리뉴클레오타이드 단편 수 비율 (mbn 개) 중에서 CV가 낮은 순서로 임의의 개수를 선택하고, 여기에 상기 4단계에서 구한 각 단편 수 비율에 해당하는 CV의 역수를 곱하여 얻어진 수치의 평균값 (가중 평균 폴리뉴클레오타이드 단편 수 비율)올 사용하는 것을 특징으로 한다. 구체적으로, 단계 5-1)은 상기 단계 4)에서 각 염색체 chri별로 참조 시료군을 대상으로 계산된 CV 값을 기준으로, CV 값이 적은 상위 Ncv개의 평균 Step 5 is to increase the reliability and accuracy of the result in addition to step 3, and selects any number in the order of low CV from the average number of polynucleotide fragments (mbn) of the target chromosomes obtained above, wherein the 4 The average value (weighted average polynucleotide fragment number ratio) of the numerical value obtained by multiplying the reciprocal of CV corresponding to each fraction number ratio obtained by the step is characterized by using. Specifically, step 5-1) is based on the CV value calculated for the reference sample group for each chromosome chri in step 4), and the average of the top N cv of the small CV value
폴리뉴클레오타이드 단편 수 비율을 선택한 후, 평균 시험 폴리뉴클레오타이드 단편 수 비율들을 대상으로 각 폴리뉴클레오타이드 단편 수 비율에 해당하는 CV 값으로 가증 평균 (CV의 역수를 곱하여 평균을 구함)된 가중 평균 폴리뉴클레오타이드 단편 수 비율 값을 계산하여 수행될 수 있다. 일례로, 상기 Ncv는 Cvchn의 최소값 대비 약 1.1배 이상, 약 1.3배 이상, 약 1.5배 이상, 약 1.7배 이상, 약 2배 이상, 또는 약 3 배 이상 큰 값을 가진 평균 폴리뉴클레오타이드 단편 수 비율 값 (RCR), 예컨대, Cvchr^ 최소값 대비 약 1.1배 내지 약 5 배, 약 1.1배 내지 약 3배, 약 1.1배 내지 약 2배, 약 1.3배 내지 약 5배, 약 1.3 내지 약 3 배, 약 1.3배 내지 약 2배, 약 1.5배 내지 약 5배, 약 1.5배 내지 약 3배, 약 1.5 내지 약 2배, 약 1.7배 내지 약 5배, 약 1.7배 내지 약 3배, 약 1.7배 내지 약 2배, 약 2배 내지 약 5배, 또는 약 2배 내지 약 3배 큰 값을 가진 평균 폴리뉴클레오타이드 단편 수 비율 값 (RCR)들을 선택할 수 있으나, 이에 제한되는 것은 아니고, 실험적 및 /또는 경험적으로 적절한 값을 선택할 수 있다. After selecting the polynucleotide fragment number ratio, the weighted average polynucleotide fragment number, which is augmentally averaged (multiplied by the inverse of CV), is CV value corresponding to the ratio of the number of polynucleotide fragments to the average test polynucleotide fragment number ratios. This can be done by calculating the ratio value. In one example, the N cv is an average polynucleotide fragment having a value of at least about 1.1 times, at least about 1.3 times, at least about 1.5 times, at least about 1.7 times, at least about 2 times, or at least about 3 times greater than the minimum value of Cv chn . Number ratio value (RCR), such as from about 1.1 times to about 5 times, about 1.1 times to about 3 times, about 1.1 times to about 2 times, about 1.3 times to about 5 times, about 1.3 to about Cv chr ^ minimum 3 times, about 1.3 times to about 2 times, about 1.5 times to about 5 times, about 1.5 times to about 3 times, about 1.5 times to about 2 times, about 1.7 times to about 5 times, about 1.7 times to about 3 times, Average polynucleotide fragment number ratio values (RCRs) having a value from about 1.7 times to about 2 times, about 2 times to about 5 times, or about 2 times to about 3 times larger can be selected, but are not limited to experimental. And / or empirically appropriate values may be selected.
일 예에서, i번째 염색체 (chromosome i)의 가중 평균 폴리뉴클레오타이드 단편 수 비율 (WRCRchn)은 다음의 수식 13으로 얻을 수 있다: In one example, the weighted average polynucleotide fragment number ratio (WRCRchn) of the i th chromosome i can be obtained from Equation 13 below:
oy H U一- oy H U 一-
Figure imgf000020_0001
Figure imgf000020_0001
b
Figure imgf000020_0002
b
Figure imgf000020_0002
(수식 13) 5-2) 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (Equation 13) 5-2) obtaining weighted average reference polynucleotide fragment number ratio
참조 시료군에 대해서도 각 참조 시료 별 (총 N개) 및 염색체 별 상위 Ncv개의 평균 폴리뉴클레오타이드 단편 수 비율 값을 대상으로, 각 For the reference sample group, each of the reference samples (total N) and the top N cv average polynucleotide fragment number ratio values by chromosome
폴리뉴클레오타이드 단편 수 비율에 해당하는 CV 값으로 가중 평균 (CV의 역수를 곱하여 평균을 구함)된 가중 평균 폴리뉴클레오타이드 단편 수 비율 값을 계산하여, 참조 가중 평균 폴리뉴클레오타이드 단편 수 비율 백터를 생성할 수 있다. The weighted average polynucleotide fragment number ratio value, which is the weighted average (multiplied by the inverse of CV, is averaged) with the CV value corresponding to the polynucleotide fragment number ratio, can be calculated to generate a reference weighted average polynucleotide fragment number ratio vector. .
일 예에서, i번째 염색체 (chromosome i)의 가중 평균 참조  In one example, see a weighted average of the i chromosome i
폴리뉴클레오타이드 단편 수 비율 백터 (RWRCRchri)를 아래의 수식 14로 구할 수 있다: The polynucleotide fragment number ratio vector (R WRCRchri ) can be obtained from Equation 14 below:
R chri = WRCR,chri WRCR2,hn , WRCR^chri WRCR^ WRCRN,hn ] R chri = WRCR, chri WRCR 2 , hn , WRCR ^ chri WRCR ^ WRCR N , hn ]
(수식 14) 단계 6ᅵ 가중 평균 폴리뉴클레오타이드 단편 수 비율을 비교하는 단계. (Formula 14) Step 6 ¨ Comparing the weighted average polynucleotide fragment number ratio.
상기 단계 6)의 비교하는 단계는 가중 평균 시험 .폴리뉴클레오타이드 단편 수.비율과 가중 .평균 참조 폴리뉴클레오타이드 단편 수 비율을 비교하는 단계로서, 상기 비교는 목적 염색체의 Z-score를 얻는 단계에 의하여 수행될 수 있다.  The comparing step 6) is a step of comparing the weighted average test polynucleotide fragment number ratio and the weighted average polynucleotide fragment ratio ratio, wherein the comparison is performed by obtaining a Z-score of a target chromosome. Can be.
예컨대, 목적 염색체 (염색체 i)의 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율 값과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 백터를 비교하여 아래의 수식 15로 Z-score (Zcv -ratio. chri )를 계산할 수 있다: For example, by comparing the weighted average test polynucleotide fragment number ratio value of the target chromosome (chromosome i) and the weighted average reference polynucleotide fragment number ratio vector, Z-score (Z cv -ratio. Chri) can be calculated by the following formula 15. have:
C -ratio, chn C -ratio, chn
(수식 15) 상기 수식 15 에서, 레오타이」 단편 수 비율 백터의 평균
Figure imgf000021_0001
참조
(Equation 15 ) In the above Equation 15, the average of the leotard "fragment number ratio vector
Figure imgf000021_0001
Reference
폴리뉴클레오타이드 단편 수 비율 백터의 표준편차를 의미한다. 단계 7) 태아 염색체 이수성을 확인하는 단계 상기 단계 6)에서 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율 비교 결과를 기초로 태아 염색체 이수성 여부를 판별할 수 있다. 즉, 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 비교 결과, 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율이 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 보다 유의하게 높거나 낮게 나타날수록 목적 염색체의 이수성 가능성이 높다고 판단할 수 있다. The standard deviation of polynucleotide fragment number ratio vectors. Step 7) Identify Fetal Chromosome Amerity Fetal chromosome aberration can be determined based on a comparison result of the weighted average test polynucleotide fragment number ratio obtained in step 6). In other words, as a result of comparing the weighted average test polynucleotide fragment number ratio and the weighted average reference polynucleotide fragment number ratio ratio, the weighted average test polynucleotide fragment number ratio was significantly higher or lower than the weighted average reference polynucleotide fragment number ratio. We believe the possibility of completion is high.
예컨대, 상기 폴리뉴클레오타이드 단편 수 비율 비교가 Z-score에 의하여 수행되는 경우, Z-score 값이 클수록 태아의 목적 염색체의 이수성 가능성이 높다고 판단할 수 있다.  For example, when the comparison ratio of the number of polynucleotide fragments is performed by Z-score, it may be determined that the higher the Z-score value, the higher the possibility of aneuploid of the target chromosome of the fetus.
일 예에서, 목적 염색체 (염색체 i)에 대한 Z-score (Zcv-rat,0.chn)의 절대값이 특정 수치 이상, 예컨대, 약 3 이상인 경우, 시험 시료의 태아 염색체 중 염색체 i에 염색체 이수성이 존재하는 것으로 판별할 수 있다: In one embodiment, if the absolute value of Z-score (Z cv-rat , 0. chn ) for the target chromosome (chromosome i) is above a certain value, such as about 3 or more, the chromosome on chromosome i of the fetal chromosome of the test sample is It can be determined that aneuploid exists:
^CV -ratio, chfj 3 ^ CV -ratio, chf j 3
(수식 16) 상기 제시된 비침습적 태아 염색체 분석 방법의 각 단계는. 컴퓨터와 같은 정보 처리 및 판독 장치를 통하여 수행될 수 있다.  (Equation 16) Each step of the non-invasive fetal chromosome analysis method presented above. It can be performed through an information processing and reading device such as a computer.
본 발명의 다른 예는 비침습적 태아 염색체 분석을 위한 정보 처리 시스템 (컴.퓨터)을 제공한다. 상기 시스템은앞서 설명한 비침습적 태아 염색체 분석 법에 사용하기 위해 적용되는 수단들을 포함하는 시스템일 수 있다. 상기 시스템은  Another example of the invention provides an information processing system (computer) for non-invasive fetal chromosome analysis. The system may be a system comprising means adapted for use in the non-invasive fetal chromosome assay described above. The system is
1) 서열분석기 (sequencer) 또는 서열 정보를 포함하는 computer-readable 정보 저장 매체;.및,  1) a sequencer or a computer-readable information storage medium comprising sequence information; and,
2) 상기 서열 분석기로부터 정보 수신이 가능하거나 상기 정보 저장 매체 내의 정보의 판독이 가능한 정보 처리 및 판독 매체 (컴퓨터)  2) Information processing and reading media (computer) capable of receiving information from the sequence analyzer or reading of information in the information storage medium.
을 포함하는 것일 수 있다.  It may be to include.
상기 시스템은 산모로부터 분리된 생물학적 시료 및 /또는 다수의  The system may comprise a plurality of biological samples and / or multiples separated from the mother.
폴리뉴클레오타이드 단편들 (예컨대, 앞서 설명한 바와 같은 시험 시료 Polynucleotide fragments (eg, a test sample as described above)
폴리뉴클레오타이드 단편들 및 /또는 참조 시료 폴리뉴클레오타이드 단편들)을 추가로 포함할 수 있다. 한편, 본 명세서에 기재된 방법 및 정보는 상기 기재된 단계를 실행시킬 수 있는 프로그램을 통하여 공지된 컴퓨터 판독 가능한 매체 상에서 구현될 수 있다. 보다 구체적으로, 상기 제시된 비침습적 태아 염색체 분석 방법 및 /또는 각 Polynucleotide fragments and / or reference sample polynucleotide fragments). Meanwhile, the methods and information described herein may be implemented on known computer readable media through a program capable of executing the steps described above. More specifically, the noninvasive fetal chromosome analysis method presented above and / or each
단계에서 얻어잔정보들은, 컴퓨터에 의해 실행 가능한 프로그램 (computer executable instruction)으로서, 공지된 컴퓨터 판독 가능한 매체 상에서 전체적 또는 부분적으로 구현 및 /또는 처리될 수 있다. 예컨대, 본 명세서에 기재된 방법은 하드웨어에 결합되어 구현될 수 있다. 상기 하드웨어는 컴퓨터, 표준 다목적 (multi-purpose) CPU, ASIC(application-specific integrated circuit) 또는 다론 하드-와이어드 장치 (hard-wired device)와 같은 특수하게 설계된 하드웨어 또는 펌웨어를 의미하는 것일 수 있으며, 이하사용되는 용어 '컴퓨터'는 이들을 총칭하기 위한 것일 수 있다. The information obtained in the step, as a computer executable instruction, may be implemented and / or processed in whole or in part on known computer readable media. For example, the methods described herein may be implemented in combination with hardware. The hardware may mean a specially designed hardware or firmware such as a computer, a standard multi-purpose CPU, an application-specific integrated circuit (ASIC), or a hard-wired device. The term 'computer' used may be used to generically refer to them.
본 발명의 또 다른 예는, 다음의 단계를 포함하는 태아의 염색체 이수성 판단을 위한 컴퓨터 판독 방법을 제공한다:  Another example of the present invention provides a computer readable method for determining chromosomal aneuploidies in a fetus comprising the following steps:
A-1) 시험 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 표준 게놈 염기 서열 (Reference genome sequence)과 비교 (mapping)하여, 각 염색체 별로 미리 설정된 bin 개수 (bin number)를 갖도록 시험 폴리뉴클레오타이드 단편 수 (polynucleotide fragment count)를 결정하는 단계 (앞서 설명한 단계 2-1)에 해당),  A-1) The sequence information of polynucleotide fragments of a test sample is mapped to a reference genome sequence, so that the number of test polynucleotide fragments has a predetermined bin number for each chromosome. fragment count) (corresponding to step 2-1) described above),
A-2) 참조 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 이용하여 미리 설정된 bin 개수를 갖도록 참조 폴리뉴클레오타이드 단편 수를 결정하는 단계 (앞서 설명한 단계 2-2)에 해당);  A-2) determining the reference polynucleotide fragment number to have a preset number of bins by using sequence information of the polynucleotide fragments of the reference sample (corresponding to the above-described step 2-2);
B-1) 상기 시험 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체로부터 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 시험 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 merged bin의 개수 개 만큼 얻어짐) (앞서 설명한 단계 3-1)에 해당); B-1) n number ( n is an integer selected from 1 to 21) of the average number of polynucleotide fragments of the target chromosome to be tested for aneuploidy among the test polynucleotide fragments selected from other chromosomes except the target chromosome Obtaining the ratio of the average polynucleotide fragment number of each merged bin generated from the chromosome to obtain the average test polynucleotide fragment ratio (the ratio is obtained by the number of merged bins) (step 3-1 described above) Equivalent);
B-2) 상기 참조 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에 선택되는 정수)의 염색체를 대상으로 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 참조 시료 수 * merged bin의 개수 개 만큼 얻어짐) (앞서 설명한 단계 3-2)에 해당; B-2) n of the average polynucleotide fragments of the target chromosome to be tested for aneuploidy among the reference polynucleotide fragments, n selected from other chromosomes except the target chromosome (n is an integer selected from 1 to 21) Obtaining the ratio of the average polynucleotide fragment number of each merged bin generated for the chromosome to obtain the average reference polynucleotide fragment number ratio The ratio corresponds to the number of reference samples * number of merged bins) (step 3-2 described above);
C) 평균 참조 폴리뉴클레오타이드 단편 수 비율 별로 CV (Coefficient of Variation) 값을 얻는 단계 (앞서 설명한 단계 4)에 해당);. C) corresponds to the average reference polynucleotide fragment by ratio to afford a Coefficient of Variation (CV) value (step 4 described above));
D-1) 상기 단계 B-1)의 평균 시험 폴리뉴클레오타이드 단편 수 비율 중에서 D-1) out of the average test polynucleotide fragment number ratio of step B-1)
CV값이 적은 상위 Ncv개에 해당하는 수치들을 선정하여, 가증 평균 시험 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (앞서 설명한 단계 5-1)에 해당); Selecting values corresponding to the top N cvs having a low CV value to obtain an averaging average test polynucleotide fragment number ratio (corresponding to step 5-1 described above);
D-2) 상기 단계 B-2)의 평균 참조 폴리뉴클레오타이드 단편 수 비율을 대상으로 상기 단계 D-1)에서 선정된 CV값이 적은 상위 Ncv개에 해당하는 수치들을 이용하여, 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (앞서 설명한 단계 5-2)에 해당); D-2) A weighted average reference poly, using values corresponding to the top N cv of the CV values selected in step D-1) with respect to the average number of reference polynucleotide fragments in step B-2). to obtain a nucleotide fragment may correspond to the rate (steps 5-2 described above));
E) 상기 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 비교하는 단계 (앞서 설명한 단계 6)에 해당); 및  E) comparing the obtained weighted average test polynucleotide fragment number ratio with the weighted average reference polynucleotide fragment number ratio (corresponding to step 6 described above); And
F) 상기 단계 E)에서 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 비교 결과 (예컨대, Z- score)를 아용하여 태아와 목적 염색체의 이수성 여부를 확인하는 단계 (앞서 설명한 단계 7)에 해당).  F) A comparison of the weighted average test polynucleotide fragment number ratio and the weighted average reference polynucleotide fragment number ratio (e.g., Z-score) obtained in step E) to confirm whether the fetus and the target chromosome are aneuploid (previous) Corresponds to step 7) described).
상기 컴퓨터 판독 방법은 보다 정확한 결과 도출을 위하여, 상기 단계 A-1) 및 A-2) 이후에 (및 상기 단계 B-1 및 B-2) 이전에), a) 얻어진 시험  The computer-readable method is a test obtained after steps A-1) and A-2) (and before steps B-1 and B-2) for a more accurate result.
폴리뉴클레오타이드 단편 수 및 참조 폴리뉴클레오타이드 단편 수의 Of the number of polynucleotide fragments and the number of reference polynucleotide fragments
바이어스 (bias)를 제거하는 단계를 추가로 포함할 수 있다. 상기 바이어스 제거 단계는 SVD (Singular Value Decomposition) 등을 적용하여 수행될 수 있다. The method may further include removing the bias. The bias removal step may be performed by applying SVD (Singular Value Decomposition).
상기한 각 단계의 상세 사항은 앞서 설명한 바와 같다.  Details of each of the above steps are as described above.
상기 컴퓨터 판독 방법은 컴퓨터 판독 가능한 매체 상에서 컴퓨터에서 실행 가능한 프로그램으로서 구현될 수 있다.  The computer readable method may be embodied as a program executable on a computer on a computer readable medium.
다른 예는 상기 컴퓨터 판독 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공한다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램은 하드웨어와 결합된 것일 수 있다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램은 상기한 바와 같은 컴퓨터 판독 방법의 각 단계를 컴퓨터에서 실행시키기 위한 프로그램이며, 이 때 상기한 모든 단계가 하나의 프로그램에 의하여 실행되거나, 하나 이상의 '단계를 실행하는 두 개 이상의 프로그램에 의하여 실행될 수 있다. Another example provides a computer program stored in a computer readable storage medium for carrying out the steps of the computer readable method. The computer program stored in the computer readable storage medium may be combined with hardware. The computer program stored in the computer readable storage medium is as described above. A program for executing each step of the computer reading method on a computer, wherein all of the above steps may be executed by one program or by two or more programs executing one or more ' steps.
다른 예는 상기 컴퓨터 판독 방법의 단계를 실행시키기 위한 컴퓨터에서 실행 가능한 프로그램 (computer executable instruction)아 수록된 컴퓨터 판독 가능한 저장 매체 (또는 기록 매체)를 제공한다.  Another example provides a computer readable storage medium (or recording medium) containing a computer executable instruction for executing a step of the computer readable method.
상기 컴퓨터에서 실행 가능한 프로그램은 컴퓨터 판독 가능한 저장 매체 (예컨대, 메모리 등)에 저장되고, 하나 이상의 프로세서 상에 구현된 소프트웨어로 구현될 수 있다. 일반적으로 알려진 바와 같이, 프로세서는 하나 이상의  The program executable in the computer may be stored in a computer readable storage medium (eg, a memory or the like) and implemented in software implemented on one or more processors. As is generally known, a processor may have one or more
컨트를러 (controller), 연산 유닛 (calculation unit) 및 /또는 컴퓨터 시스템의 다른 유닛과 결합되거나, 적절한 펌웨어 (firmware)에 이식될 수 있다. 상기 프로그램이 It may be combined with a controller, a calculation unit, and / or other unit of a computer system, or may be implanted in appropriate firmware. The program
소프트웨어에 이식되는 경우, RAM (Random Access Memory), ROM (Read Only Memory): EEPROM (Electrically Erasable Programmable Read-Only Memory), 플래쉬 메모리 (e.g., USB(Universal Serial Bus) 메모리 , SD(Secure Digital) 메모리 , SSD(Soli State Drive), CF (Compact Flash) 메모리, xD 메모리 등), 자기 디스크, 레이저 디스크, 또는 기타 저장 매체와 같은 컴퓨터 판독가능한 저장 매체에 저장될 수 있다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 프로그램 또는 소프트웨어는, 예컨대, 전화선, 인터넷, 무선 접속 등과 같은 통신 채널 상에서, 또는 컴퓨터 판독가능한 디스크, 플래쉬 드라이브 등과 같은, 휴대용 매체 (transportable medium)를 통한 것을 포함하는 모든 공지된 전달 방법올 통하여 컴퓨터 장치에 전달될 수 있다. RAM (Random Access Memory), ROM (Read Only Memory) : EEPROM (Electrically Erasable Programmable Read-Only Memory), Flash Memory (eg, Universal Serial Bus (USB) Memory, Secure Digital (SD) Memory) , Soli State Drive (SSD), Compact Flash (CF) memory, xD memory, etc.), magnetic disks, laser disks, or other storage media. Programs or software stored on the computer readable storage medium may be any, including, for example, on a communication channel such as a telephone line, the Internet, a wireless connection, or the like, or on a portable medium such as a computer readable disk, a flash drive, or the like. It can be delivered to a computer device through known delivery methods.
상기한 바와 같은 다양한 단계들이 통상적으로 알려진 다양한 블록, 작업 (operation), 를, 모들, 및 하드웨어, 펌웨어, 소프트웨어, 또는 하드웨어, 펌웨어 및 /또는 소프트웨어의 조합에서 구현될 수 있는 기법으로서 구현될 수 있다.  The various steps as described above may be implemented as a variety of commonly known blocks, operations, modalities, and techniques that may be implemented in hardware, firmware, software, or a combination of hardware, firmware, and / or software. .
하드웨어에서 구현되는 경우, 블록, 작업, 기법 등의 일부 또는 전부가, 예컨대, 맞춤화 집적 회로 (custom IC), ASIC(application specific integrated circuit), FPGA(field programmable logic array), PLA(programmable logic array) 등에서 구현될 수 있다, 소프트웨어에서 구현되는 경우, 소프트웨어는 자기 디스크, 광 디스크, 또는 다른 저장 매체와 같은 공지된 컴퓨터 판독가능한 매체, 컴퓨터의 RAM, 또는 ROM 또는 플래쉬 메모리, 프로세서, 하드 디스크 드라이브, 광 디스크 드라이브, 테이프 드라이브 등에 저장될 수 있다. 또한, 소프트웨어는, 예컨대, 컴퓨터 판독가능한 디스크 또는 다른 휴대용 컴퓨터 저장 메카니즘을 포함한 공지돤 전달 방법을 통해 사용자 또는 컴퓨터 시스템에 전달될 수 있다. When implemented in hardware, some or all of the blocks, tasks, techniques, etc. may be, for example, custom ICs, application specific integrated circuits (ASICs), field programmable logic arrays (FPGAs), programmable logic arrays (PLAs). If implemented in software, the software may be a known computer readable medium, such as a magnetic disk, optical disk, or other storage medium, RAM of a computer, or ROM or flash memory, processor, hard disk drive, optical It can be stored in a disk drive, a tape drive, or the like. In addition, the software may, for example, be computer readable. It may be delivered to a user or computer system through known delivery methods, including discs or other portable computer storage mechanisms.
상기 컴퓨터 판독 방법, 프로그램, 및 저장매체는 다수의 다른 범용 (general purpose) 또는툭수 목적 컴퓨팅 시스템 환경 또는 구조에서 운영될 수 있다. 상기 컴퓨터 판독 방법, 프로그램, 및 저장매체를 실행하기에 적합한 컴퓨팅 시스템, 환경, 및 /또는 구조는 예컨대, 퍼스널 컴퓨터 (PC), 서버 컴퓨터, 휴대용 또는 랩탑 (laptop) 장치, 멀티프로세서 시스템, 마이크로프로세서 -기반 시스템, 셋탑 박스,  The computer readable method, program, and storage medium may be operated in any number of other general purpose or toxin computing system environments or structures. Computing systems, environments, and / or structures suitable for implementing the computer-readable methods, programs, and storage media are, for example, personal computers (PCs), server computers, portable or laptop devices, multiprocessor systems, microprocessors, and the like. -Based systems, set-top boxes,
프로그램가능한 (programmable) 가전 (consumer electronics), 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 및 /또는 상기한 시스템 또는 장치를 포함하고 통신 네트워크를 통해 연결된 원격 처리 장치들에 의해 수행되는 분산 컴퓨팅 (distributed computing) 환경 등을 포함할 수 있으나, 이에 제한되지 않는다. 통합 컴퓨팅 환경 및 분산 컴퓨팅 환경 모두에서, 프로그램 모들은 메모리 저장 ^치를 포함한, 로컬 및 원격 컴퓨터 저장 매체에 위치될 수 있다. Distributed computing performed by programmable consumer electronics, network PCs, minicomputers, mainframe computers, and / or remote processing devices including the systems or devices described above and connected via a communications network. ) May include, but is not limited to. In both integrated and distributed computing environments, program models may be located in local and remote computer storage media, including memory storage modules.
컴퓨터는 통상적으로 다양한 컴퓨터 판독가능한 매체를 포함할 수 있다.  Computers may typically include a variety of computer readable media.
컴퓨터 판독가능한 매체는 컴퓨터에 의해 접근 가능하고 이용 가능한 매체일 수 있고 휘발성 매체 및 비휘발성 매체, 이동성 (removable) 매체 및 비이동성 매체를 포함할 수 있다. 예컨대, 컴퓨터 판독가능한 매체는 컴퓨터 저장 매체 및 /또는 통신 매체 (communication media)를 포함할 수 있다. Computer-readable media can be media that are accessible and available by a computer and can include volatile and nonvolatile media, removable media, and non-removable media. For example, computer readable media may include computer storage media and / or communication media.
상기 컴퓨터 저장 매체는 컴퓨터 판독가능한 명령어, 데이터 구조, 프로그램 모들 및 /또는 기타 데이터와 같은 정보의 저장을 위한 방법 또는 기술에서 구현된, 휘발성 또는 비휘발성, 및 /또는 이동성 또는 비이동성 매체를 포함할 수 있다.  The computer storage media may include volatile or nonvolatile, and / or removable or non-removable media, implemented in a method or technology for storage of information such as computer readable instructions, data structures, program modules, and / or other data. Can be.
컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 (e.g., USB 메모리, SD 메모리, SSD, CF 메모리, xD 메모리 등), 자기 디스크, 레이저디스크, 또는 기타 메모리, CD-ROM, DVD(digital versatile disk) 또는 기타 광학적 디스크, 자기 Computer storage media include RAM, ROM, EEPROM, flash memory (eg, USB memory, SD memory, SSD, CF memory, xD memory, etc.), magnetic disks, laser disks, or other memory, CD-ROM, DVD (digital versatile disk). ) Or other optical disc, magnetic
카세트 (magnetic cassette), 자기테이프, 자기 디스크 저장 또는 기타 자기 저장 장치, 또는 원하는 정보를 저장하기 위해 이용될 수 있고 컴퓨터에 의해 접근 가능한 모든 매체들 중에서 하나 이상 선택될 수 있으나, 이에 제한되지 않는다. One or more of a magnetic cassette, magnetic tape, magnetic disk storage or other magnetic storage device, or any medium that can be used to store desired information and accessible by a computer can be selected, but is not limited thereto.
상기 통신 매체는 통상적으로 컴퓨터 판독가능한 명령어, 데이터 구조, 프로그램 모들, 또는 반송파 (carrier wave)와 같은 모들화 데이터 신호 (modulated data signal) 중 데이터 전송 또는 기타 전송 (transport) 메카니즘을 구현하는 정보 전달 매체 (information delivery media)를 포함할 수 있다. 용어 "모들화 데이터 신호 (modulated data signal)"는 신호에 정보를 코딩하는 방식으로 설정되거나 변경된 하나 이상의 특징을 갖는 신호를 의미한다. 예컨대, 상기 통신 매체는 유선 네트워크 또는 직접 -유선 연결 (direct- wired connection)과 같은 유선 매체, 및 The communication medium typically carries information that implements data transmission or other transport mechanisms among modulated data signals, such as computer readable instructions, data structures, program modules, or carrier waves. Information delivery media. The term "modulated data signal" means a signal that has one or more of its characteristics set or changed in such a manner as to encode information in the signal. For example, the communication medium may be a wired medium such as a wired network or a direct-wired connection, and
음향 (acoustic) 매체, RF, 적외선 및 기타 무선 매체와 같은 무선 매체를 포함한다. 상기한 매체들 중 하나 이상의 조합도 컴퓨터 판독 가능한 매체의 범위 내에 포함될 수 있다. Wireless media such as acoustic media, RF, infrared and other wireless media. Combinations of one or more of the above may also be included within the scope of computer readable media.
【발명의 효과】 【Effects of the Invention】
전술한 기술적 해결 방법에서 제공된 수단 중 어느 하나에 의하면, 산모로부터 태아 비침습적으로 분리된 생물학적 시료로부터 얻어진 DNA 서열 정보로부터 태아의 염색체 이수성 여부를 판별하는데 있어서, 이수성 여부를 판별하고자 하는 특정 염색체의 평균 리드 수와 상기 염색체를 제외한 다른 염색체의 평균 리드 수를 비교하여 실험간 편차를 제거하고, CV (Coefficient of Variation) 값으로 가중 평균된 염색체간 리드 수의 비율을 이용함으로써, 결과의 신뢰도 및 특이도 향상시켜 위양성 확률을 줄일 수 있어서, 태아에 위해 없이 비침습적으로 안전하고 정확하게 태아의 염색체 이수성 여부를 판단할 수 있다.  According to any one of the means provided in the above-described technical solution, in determining whether a fetus is chromosomal aneuploid from DNA sequence information obtained from a biological sample separated from the fetus non-invasively, the average of specific chromosomes to be determined By comparing the number of reads with the average number of reads of the other chromosomes except for the chromosome, the deviation between experiments was eliminated, and the ratio and the specificity of the number of reads among the chromosomes weighted averaged by the CV (Coefficient of Variation) value were used. By improving the probability of false positives, it is possible to determine whether the fetal chromosome is acute and non-invasive, safe and accurate without harm to the fetus.
【도면의 간단한 설명】 [Brief Description of Drawings]
도 1은 일 예에 따른 비침습적 태아 염색체 이수성 판별 방법의 각 단계를 예시적으로 보여주는 모식도이다.  1 is a schematic diagram showing each step of the non-invasive fetal chromosome aneuploidity determination method according to an example.
도 2는 SVD 적용 전 후의 GC 바이어스 제거 양상을 보여주는 그래프로서, Y축은 리드수 비율 (read count fraction), X축은 GC 함량 (GC content)를 의미한다. 도 3은 태아 염색체 이수성 판별 결과 얻어진 Z-score를 나타낸 그래프로서, A는 본 명세서에서 제안된 방법에 따른 결과이고 , Β 내지 D는 가중 평균 리드 수 비율 계산 단계를 수행하지 않는 기존의 방법에 따른 결과이다.  FIG. 2 is a graph showing a pattern of removing GC bias before and after applying an SVD. The Y axis represents a read count fraction and the X axis represents a GC content. 3 is a graph showing a Z-score obtained as a result of fetal chromosome aberration determination, A is the result according to the method proposed in the present specification, and Β to D according to the conventional method that does not perform the weighted average lead count ratio The result is.
【발명의 실시를 위한 최선의 형태】 [Best form for implementation of the invention]
이하에서는 실시예를 들어 본 발명을 더욱 구체적으로 설명하고자 하나, 이는 예시적인 것에 불과할 뿐 본 발명의 범위를 제한하고자 함이 아니다. 아래 기재된 실시예들은 발명의 본질적인 요지를 벗어나자않는 범위에서 변형될 수 있음은 당 업자들에게 있어 자명하다. 실시예 1 : 시험 시료 준비 및 염기 서열 분석 Hereinafter, the present invention will be described in more detail with reference to examples, which are merely illustrative and are not intended to limit the scope of the present invention. under It is obvious to those skilled in the art that the described embodiments can be modified without departing from the essential gist of the invention. Example 1 Test Sample Preparation and Sequencing
시험 대상 임신 8~28 주 산모의 전혈 10ml을 채취하여, 5ml의 혈장을 분리하였다. 상기 분리된 혈장으로부터 Qiagen사의 QIAamp Circulating Nucleic Acid Kit를 사용하여 cfDNA(cell-free DAN)를 추출한 뒤, 추출된 cfDNA를 이용하여 NGS library를 생성하고, Illumina사의 MiSeq NGS 기기에 sequencing하여 FASTQ data를 생성하였다. 이 때, 사용된 리드는 200bp 길이를 갖도록 하여 시험을 수행하였다. 실시예 2: 참조 시료의 염기 서열 준비  10 ml of whole blood from 8 to 28 weeks pregnant women were collected and 5 ml of plasma was isolated. After extracting cfDNA (cell-free DAN) using Qiagen's QIAamp Circulating Nucleic Acid Kit from the separated plasma, an NGS library is generated using the extracted cfDNA, and sequencing to Illumina's MiSeq NGS device to generate FASTQ data. It was. At this time, the test used was carried out to have a length of 200bp. Example 2: Base Sequence Preparation of Reference Samples
산모 (시험 대상 산모를 제외)들로부터 전혈 10ml을 채취하여, 5ml의 혈장올 분리하였다. 실시예 1의 방법을 참조하여, 상기 분리된 혈장으로부터 cfDNA를 추¾한 뒤, 추출된 cfDNA를 이용하여 NGS library를 생성하고, NGS 기기에 sequencing하여 FASTQ data를 생성하였다. 이들 중에서 태아가 염색체 이수성을 갖지 않은 것으로 확인된 산모의 데이터들을 선택하여 이하 시험에서 참조 시료로 사용하였다 (참조 시료 수 = 100). 실시예 3: 리드 카운트 결정  10 ml of whole blood was collected from mothers (excluding the mother to be tested) and 5 ml of plasma-ol was isolated. With reference to the method of Example 1, after extracting the cfDNA from the separated plasma, using the extracted cfDNA to generate an NGS library, sequencing to the NGS device to generate the FASTQ data. Of these, maternal data from which the fetus was identified as not having chromosomal aneuploidy were selected and used as reference samples in the following tests (reference samples = 100). Example 3: Lead Count Determination
상기 준비된 시험 시료로부터 ¾어진 리드의 염기서열을 표준 게놈 The nucleotide sequence of the read generated from the prepared test sample is standard genome.
― 염기서열 (hgl8, hgl9, 또는 hg38; NCBI 제공)에 맵핑하고, bin별 30,000 개〜 10,000,000 개의 뉴클레오타이드가 포함되도록 약 100개 ~ 30,000개의 bin 개수 (bin number)를 갖도록 시험 리드 수를 계산하여, 아래와 같이 시험 리드 수 백터 (read count vector; S)를 생성하였다. Map to a nucleotide sequence (hgl8, hgl9, or hg38; provided by NCBI) and calculate the number of test leads to have about 100 to 30,000 bin numbers to include 30,000 to 10,000,000 nucleotides per bin, A test read vector (S) was generated as follows.
5 = (/"C /Ϊ 2 , Λ " 3 , . . .,厂 ^—!, ) (수샥 l) (rc: read count; B(bin 개수) =100 30,000) 5 = (/ " C / Ϊ 2 , Λ " 3 ,..... ^ ^ — !,) (Number l) ( rc : read count; B (number of bins) = 100 30,000)
또한, 상기 준비된 참조 시료 염기 서열 정보를 이용하여 참조 리드 수 행렬 (R)을 아래와 같이 생성하였다:  In addition, using the prepared reference sample sequence information, a reference read number matrix (R) was generated as follows:
B 二 [C C2, C3, ... , CN_ , CN ] (수식 2)
Figure imgf000029_0001
B 二 [CC 2 , C 3 , ..., C N _, C N ] (Equation 2 )
Figure imgf000029_0001
(수식 3)  (Formula 3)
(B (bin 개수) : 100 30,000; N (참조시료 개수): 100) 실시예 4: 바이어스 제거  (B (number of bins): 100 30,000; N (number of reference samples): 100) Example 4 Remove Bias
상기 얻어진 시험 시료의 리드 수 백터 (S)와 참조 시료의 리드 수 행렬 (R)에 대하여 , 아래의 방법으로 바이어스를 제거하였다.  Bias was removed with the following method about the lead number vector S of the obtained test sample and the lead number matrix R of the reference sample.
우선, 참조 리드 수 행렬과 시험 리드 수 백터를 결합하여 행렬 X를 생성하고 결합된 행렬을 대상으로 아래의 과정으로 SVD 수행하였다:
Figure imgf000029_0002
First, matrix X is generated by combining the reference lead number matrix and the test lead number vector, and SVD is performed on the combined matrix as follows:
Figure imgf000029_0002
(수식 4-l)(N: 100)  (Formula 4-l) (N: 100)
Figure imgf000029_0003
Figure imgf000029_0003
(수식 4-2)  (Equation 4-2)
- UDVT (수식 4_3) UDV T ( 4 )
(B: 100-30,000; N: 100) 분해된 Diagonal 행렬 D에 대해서 Singular value의 합의 5-50 % 이내가 I 상위 s개를 선정하고, (B: 100-30,000; N: 100) For the decomposed diagonal matrix D, within 5-50% of the sum of the singular values, select the top Is,
Figure imgf000030_0001
(수식 5)
Figure imgf000030_0001
(Formula 5)
행렬 D에서 해당 singular value의 값을 0으로 치환하여 바이어스가 제거된 The bias is removed by substituting the value of the corresponding singular value in the matrix D with 0.
BR Ξ BR Ξ
diagonal 행렬 D 생성한 후, After creating the diagonal matrix D,
Figure imgf000030_0002
(수식 6)
Figure imgf000030_0002
(Formula 6)
이용하여 바이어스가 제거된 행렬 를 생성하였다:
Figure imgf000030_0003
UDBRVT (수식 7,
To create a debiased matrix:
Figure imgf000030_0003
UD BR V T (Equation 7 ,
상기와 같이 SVD를 적용하여 바이어스가 제거된 경우의 GC 함량을 염색체별 구아닌 (G), 사이토신 (C)의 염기 수의 합 I 염색체별 전체 염기 수의 합으로 측정하여, 바이어스가 제거되지 않은 경우와 비교하여, 도 2에 나타내었다. 도 2에서 확인되는 바와 같이, SVD를 적용함으로써 GC 함량과 무관하게 폴리뉴클레오타이드 단편 수 (read count)가 일정한 수준을 유지함을 알 수 있으며, 이러한 결과는 SVD 적용에 의하여 GC 바이어스가 제거됨을 보여주는 것이다. 실시예 5: 평균 폴리뉴클레오타이드 단편 수 비율을 계산 Merged Bin의 평균 size인 mbsize - 전체 Bin 개수를 전체 상염색체 '개수인 22와 사전에 설정된 k개를 곱한 값으로 나누어 정하고, 각 염색체 별로 mbsize의 길이를 갖도록 bin을 통합하였다: As described above, the GC content when the bias was removed by applying SVD was measured as the sum of the base numbers of guanine (G) and cytosine (C) by chromosome, and the total number of bases by chromosome, and the bias was not removed. Compared with the case, it is shown in FIG. As confirmed in FIG. 2, it can be seen that the polynucleotide fragment count (read count) is maintained at a constant level regardless of the GC content by applying SVD, and these results show that the GC bias is removed by the SVD application. Example 5: Calculating the Average Polynucleotide Fragment Number Ratio The average size of mb size of the Merged Bin - establish divided by the product of the k is set to one full Bin number throughout the chromosome, the number of 22 and a dictionary, and integrating the bin so as to have a length of mb size for each chromosome:
, B , B
mb i7P = mb i7P =
22 X k (수식 8 22 X k ( Equation 8
(B=100~30,000, k=l~10)  (B = 100-30,000, k = l ~ 10)
이수성을 확인하고자 하는 13, 18, 또는 21번째 염색체 및 상기 염색체를 제외한 염색체의 각 merged binj에 대해서 평균 값을 구하여, 이들 간 비율 (Read count ratio)을 구하였다:  The average value was calculated for each merged binj of the 13th, 18th, or 21st chromosome and the chromosome except for the chromosome, and the read count ratio was calculated.
Figure imgf000031_0001
(수식 9).
Figure imgf000031_0001
(Equation 9).
(μ 목적 염색체 i의 평균 리드 수, ^ 는 merged binj의 평균 리드 수; i: 13, 18, 또는 21).  (μ average reads of the target chromosome i, ^ is the average reads of the merged binj; i: 13, 18, or 21).
실험 시료를 대상으로 각 염색체 (chri) 별, merged bin 별 리드 수 비 (Read count ratio) 를 계산하여, 평균 시험 리드 수 비 백터 (Case read count ratio vector;  For each sample, the read count ratio for each chromosome and merged bin was calculated, and the average test read ratio ratio vector;
RCRch„)를 다음과 같이 생성하였다: RCR ch ') was generated as follows:
BCRchri 二 {RCRmb , RCRmb2, RCRmbz ... , RCRmbm ] , RCRmbm )BCR chri二 (RCR mb , RCR mb2 , RCR mbz ..., RCR mbm] , RCR mbm )
(수식 10) (mbm: merged bin number) (10) (mbm: merged bin number)
참조 시료를 대상으로 각 염색체 chri에 대해서 Read count ratio를 계산하여 염색체 별 참조 리드 수 비 행렬 (Reference read count ratio matrix)을 다음과 같이 생성하였다: RGRmbZ RCRmbz A reference read count ratio matrix for each chromosome was generated by calculating a read count ratio for each chromosome chri of a reference sample as follows: RGR mbZ RCR mbz
RCRmb RCRmb,2 RCRmbi,
Figure imgf000032_0001
RCR mb RCR m b , 2 RCR mbi ,
Figure imgf000032_0001
RCRm. RCRmb32 RCR, RCR m, bz,N~ RCR,RCR m . RCR mb32 RCR, RCR m, b z , N ~ RCR,
'띠 , '
RCI키、、 RCRmb^i2 RCRmbm_^ RCR RCI key 、 RCR mb ^ i2 RCR mbm _ ^ RCR
RCR氣, 1 ACRmb z RCRmb 3 RCR m,t>ᅳ M-\ RCR m,b' RCR 氣, 1 ACR mb z RCR mb 3 RCR m, t> ᅳ M- \ RCR m, b '
(수식 11) 실시예 6: CV (Ooefficient of Variation) 값 계산 (Equation 11) Example 6 Calculation of CV (Ooefficient of Variation) value
참조 시료에 대하여 각 염색체 별, merged bin별 리  Each chromosome and merged bin for the reference sample
다음과 같이 CV를 계산하였다: σ RCR n,mb\ n,mb\ CV was calculated as follows: σ RCR n, mb \ n, mb \
σ RCR n ,mb
Figure imgf000032_0002
σ RCR n, mb
Figure imgf000032_0002
σ RCR n ,mb  σ RCR n, mb
cvchri = n ,mb σ RCR n,mb -cv chri = n, mb σ RCR n, mb-
(수식 12)(Formula 12)
RCR n,mbm -、 RCR n, mb m-
σ RCR n,mbn n,mbm (aRCRn,mbm: 참조 샘플 군을 대상으로 계산된 각 염색체별, merged bin별 리드수 비의 표준편차 ^RCRn,mbm: 참조 샘플 군을 대상으로 계산된 각 염색체별, merged bin별 리드수 비의 평균) 실시예 7: 가증 평균 리드 수 비율 계산 σ RCR n, mb n n, mb m (aRCR n , mbm : Standard deviation of the number of reads for each chromosome and merged bin calculated in reference sample group ^ RCR n, mbm: Number of reads for each chromosome and merged bin calculated for reference sample group Example 7: ratio average lead number ratio calculation
상기 실시예 6에서 각 염색체 chri별로 참조 시료를 대상으로 계산된 CV 값을 기준으로, CV 값이 적은 상위 Ncv개의 리드 수 비를 선택한 뒤, 실험 시료의 평균 리드 수 비율 값들을 대상으로 리드.수 비에 해당하는 CV 값으로 가중 평균된 가중 평균 리드 수 비 값을 아래의 수식 13으로 계산하였다. Based on the CV value calculated for the reference sample for each chromosome chri in Example 6, the upper N cv lead number ratio having a small CV value is selected, and then the average read number ratio values of the test sample are read. The weighted average read number ratio value weighted averaged by the CV value corresponding to the ratio was calculated by Equation 13 below.
Figure imgf000034_0001
Figure imgf000034_0001
(수식 13) 본 실시예에서 Ncv는 Cvchri의 최소값 대비 1.1 내지 5배 큰 값을 가진 리드 수 비 지의 값들올 선택하였다. , (Equation 13) In the present embodiment, N cv was selected from the values of read resins having a value of 1.1 to 5 times larger than the minimum value of Cv chri . ,
참조 시료의 평균 리드 수 비율 값들에 대해서도 염색체 별 상위 Ncv개 값의 리드 수 비 값을 대상으로 상기와 같은 과정을 수행하여, 참조 가중 평균 리드 수 비 백터를 아래와 같이 생성하였다: Regarding the average read number ratio values of the reference samples, the above procedure was performed on the lead number ratio values of the top N cv values per chromosome to generate a reference weighted average read ratio ratio vector as follows:
R画 chri = WRCR chn, WRCR chri, WRCR,^ WRCRN_ chri ' WRCRN,hn ] R 画chri = WRCR chn , WRCR chri , WRCR, ^ WRCR N _ chri 'WRCR N , hn ]
(수식 14) 실시예 8: 태아 염색체 이수성의 판단 (Formula 14) Example 8: Determination of fetal chromosome aneuploidies
' 상기 실시예 7에서 얻어진 염색체 별 실험 시료의 가중 평균 리드 수 비와 참조 시료의 가중 평균 리드 수 비 백터를 비교하여 다음과 같이 Z-score를 계산하였다:  The Z-score was calculated as follows by comparing the weighted average read ratio of the chromosome-specific experimental samples obtained in Example 7 with the weighted average read ratio ratio vector of the reference sample:
WRCRchn - (R cffi WRCR chn - (R cffi
Figure imgf000035_0001
Figure imgf000035_0001
ᅳ {RWRCRch ) (수식 ᅳ (R WRCRch ) (formula
{ ^WRCRchr : 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 백터의 평균; ^WRCRchn ): 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 백터의 표준 편차) {^ WRCR chr : weighted average reference polynucleotide fragment number ratio vector average; ^ WRCR chn ): standard deviation of weighted average reference polynucleotide fragment number ratio vectors)
Z-score의 절대값이 3 이상이면, 해당 샘플의 태아 염색체에 이수성이 있는 것으로 판별하였다.  If the absolute value of the Z-score is 3 or more, it was determined that the fetal chromosome of the sample had aneuploidy.
7 CV -ra o,chfi >ᅳ 3 (수식 ) 태아 이수성이 확인된 총 20개의 시료를 시험시료로 하여 상기한 방법으로 Z-score를 계산하여 그 결과를 아래와 표 1의 A 및 도 3의 A에 나타내었다. 7 CV -ra o, chf i > ᅳ 3 (Formula) Z-score was calculated by the method described above using a total of 20 samples confirmed fetal aneuploidy and the results are shown in Table 1A and FIG. It is shown in A.
비교를 위하여, 리드수 기반 방법, 목적 염색체와 생물학적 특징이 유사한 염색체 간 리드 수 비율을 이용한 방법, 및 목적 염색체의 리드 수와 전체 리드 수 간의 비율을 이용한 방법에 의하여 각각 Z-score를 측정하여 태아 염색체 아수성을 판별하였다. 구체적으로, 상기 리드수 기반 방법에 의한 태아 염색체 이수성 판별은 실시예 4의 SVD를 적용하여 바이어스를 제거하는 단계 [단계 a) 해당], 실시예 5의 폴리뉴클레오타이드 단편 수 비율을 계산하는 단계 [단계 3-1) 및 3-2)에 해당], 및 실시예 6 및 7의 가중 평균 리드수 비율을 계산하는 단계 [단계 4), 5-1), 및 5-2)에 해당]를 수행하지 않고, 실시예 3 (단계 2-1) 및 2-2)에 해당)에서 얻어진 시험 리드 수 백터와 참조 리드 수 행렬을 사용하여 중간 단계 없이 상기 수식 15 및 16올 참조하여 [단계 6)에 해당]을 참조하여 Z-score를 계산하여 수행하였으며, 그 결과를 아래의 표 1의 B 및 도 3의 B에 나타내었다. For comparison, the Z-score was measured by the lead-based method, the method using the ratio of the number of leads between chromosomes with similar biological characteristics, and the ratio between the number of leads and the total number of leads of the target chromosome. Chromosome apoptosis was determined. Specifically, fetal chromosome aberration determination by the lead-based method is to remove the bias by applying the SVD of Example 4 [step a), the step of calculating the polynucleotide fragment number ratio of Example 5 [step 3-1) and 3-2), and the steps [step 4), 5-1), and 5-2) of calculating the weighted average lead number ratio of Examples 6 and 7 are not performed. Without the intermediate step using the test lead number vector and reference lead number matrix obtained in Example 3 (corresponding to Steps 2-1) and 2-2), and corresponding to [Step 6) with reference to Equations 15 and 16 above. ] Was performed by calculating the Z-score, and the results are shown in B of Table 1 and B of FIG. 3 below.
상기 목적 염색체와 생물학적 특징이 유사한 염색체 간 리드 수 비율을 이용한 방법에 의한 태아 염색체 이수성 판별은 실시예 4의 SVD를 적용하여 바이어스를 제거하는 단계 [단계 a) 해당] 및 실시예 6 및 7의 가중 평균 리드수 비율을 계산하는 단계 [단계 4), 5-1), 및 5-2)에 해당]를 수행하지 않고, 실시예 3 (단계 2-1) 및 2-2)에 해당)에서 얻어진 시험 리드 수 백터와 참조 리드 수 행렬을 대상으로, 목적 염색체의 평균 리드 수와, 목적 염색체와 GC 함량과 같은 생물학적 특징이 유사한 염색체 (목적 염색체가 21번 염색체인 경우, 9번 염색체 사용)의 평균 리드 수 간 비율을 사용하여 상기 수식 15 및 16을 참조하여 Z-score를 계산하여 수행하였으며, 그 결과를 아래의 표 1의 C 및 도 3의 C에 나타내었다. 상기 목적 염색체의 리드 수와 전체 리드 수 간의 비율을 이용한 방법에 의한 태아 염색체 이수성 판별은 실시예 4의 SVD를 적용하여 바이어스를 제거하는 단계 [단계 a) 해당] 및 실시예 6 및 7의 가중 평균 리드수 비율을 계산하는 단계 [단계 4), 5-1), 및 5-2)에 해당]를 수행하지 않고, 실시예 3 (단계 2-1) 및 2-2)에 해당)에서 얻어진 시험 리드 수 백터와 참조 리드 수 행렬을 대상으로, 목적 염색체의 평균 리드 수와 전체 염색체의 평균 리드 수 간 비율을 사용하여 상기 수식 15 및 16을 참조하여 Z-score를 계산하여 수행하였으며, 얻어진 Z- score절대값을 아래의 표 1의 D 및 도 3의 D에 나타내었다.  Fetal chromosome aberration determination by the method using the ratio of the number of chromosomes between chromosomes with similar biological characteristics to the target chromosome is to remove the bias by applying the SVD of Example [step a) and weighting of Examples 6 and 7 Obtained in Example 3 (corresponding to steps 2-1) and 2-2) without performing steps [corresponding to steps 4), 5-1), and 5-2) for calculating the average number of leads; For the test lead number vector and the reference lead number matrix, the average lead number of the target chromosome and the average number of chromosomes with similar biological characteristics such as the target chromosome and GC content (chromosome 9 if the target chromosome is 21) Z-score was calculated by referring to Equations 15 and 16 using the ratio between the number of leads, and the results are shown in Table 1 C and FIG. 3 C. Fetal chromosome aberration determination by the method using the ratio between the number of leads and the total number of leads of the target chromosome is a step of removing the bias by applying the SVD of Example 4 [step a) and weighted average of Examples 6 and 7 Test obtained in Example 3 (steps 2-1) and 2-2) without performing steps [steps 4), 5-1), and 5-2) for calculating the number of leads; Z-scores were calculated by referring to Equations 15 and 16 using the ratio between the average number of leads of the target chromosome and the average number of leads of the entire chromosome, using the lead number vector and the reference lead number matrix. The score absolute values are shown in Table 1 D and FIG. 3D.
[표 1]  TABLE 1
A B C D  A B C D
시효 1 5.406 4.251 4.003 5.222  Aging 1 5.406 4.251 4.003 5.222
시료 2 6.626 4.757 4.955 5.708  Sample 2 6.626 4.757 4.955 5.708
시료 3 6.795 5.169 5.881 6.16 시료 4 5.983 5.235 5.988 6.307 Sample 3 6.795 5.169 5.881 6.16 Sample 4 5.983 5.235 5.988 6.307
시료 5 4.936 3.796 4.402 4.571  Sample 5 4.936 3.796 4.402 4.571
시료 6 5.569 4.897 5.665 5.853  Sample 6 5.569 4.897 5.665 5.853
시료 7 4.847 3.648 4.64 - 4.478  Sample 7 4.847 3.648 4.64-4.478
시료 8 6.243 4.687 5.193 5.739  Sample 8 6.243 4.687 5.193 5.739
시료 9 6.624 4.982 5.604 6.057  Sample 9 6.624 4.982 5.604 6.057
시료 10 5.781 4.689 5.916 5.617  Sample 10 5.781 4.689 5.916 5.617
시료 11 6.002 3.54 4.192 4.609  Sample 11 6.002 3.54 4.192 4.609
시료 12 5.953 4.174 5.193 5.394  Sample 12 5.953 4.174 5.193 5.394
시료 13 3.794 2.426 2.924  Sample 13 3.794 2.426 2.924
시료 14 5.806 3.9 5.452 5.021  Sample 14 5.806 3.9 5.452 5.021
시료 15 3.209 1.927 2.989 2.926  Sample 15 3.209 1.927 2.989 2.926
시료 16 4.237 2.907 3.518 3.936  Sample 16 4.237 2.907 3.518 3.936
시료 17 3.2 2.354 3.523 3.415  Sample 17 3.2 2.354 3.523 3.415
시료 18 3.305 2.227 3.26 3.143  Sample 18 3.305 2.227 3.26 3.143
시료. 19 5.837 3.81 5.373 4.954' sample. 19 5.837 3.81 5.373 4.954 ''
시료 20 3.962 2.702 4.026 3.783 표 1 및 도 3에서 :보여지는 바와 같이, 본 발명의 방밥 (질시예 1 내지 7을 모두 수 ¾)에 의하여 산모 혈액으로부터 태아 염색체 이수성을 판별한 결과, 태아 염색체 이수성이 확인된 총 20개의 시험 시료가 모두 Z-score 3 이상으로 나타나, 100% 정확성을 나타내었다 (표 1의 A 및 도 3의 A). 반면, 리드수 기반 방법에 의한 태아 염색체 이수성 판별시에는 총 20개 시험 시료 중에 6개의 시험 시료는 태아 염색체 이수성이 없는 것으로 판별되었고 (표 1의 B 및 도 3의 B), 목적 염색체와 생물학적 특징이 유사한 염색체 간 리드 수 비율일 이용한 방법에 의한 태아 염색체 아수성 판별시에는 총 20개 시험 시료 중 2개의 시험 시료는 태아 염색체 이수성이 없는 것으로 판별되었고 (표 1의 C 및 도 3의 C), 목적 염색체의 리드 수와 전체 리드 수 간의 비율을 이용한 방법에 의한 태아 염색체 이수성 관별시쎄는총 20개의 시험 시료 중에 1개의 시험 사료는 태아 염색체 이수성이 없는 것으로 판별되었다 (표 1의 D 및 도 3의 D). 이러한 결과는 본 발명에 따른 방법에 의하여 종래의 리드 수 기반 방법과 리드 수 비율 방법이 적용된 경우에 비하여 태아 염색체 이수성 판별의 정확도가 개선된 것을 보여주는 것이다.  Sample 20 3.962 2.702 4.026 3.783 As shown in Table 1 and FIG. 3, fetal chromosome aberration was determined from fetal chromosome adifferentiation from maternal blood by the Bangbab of the present invention (all of Examples 1-7). A total of 20 test samples identified were all over Z-score 3, indicating 100% accuracy (A in Table 1 and A in FIG. 3). On the other hand, in determining fetal chromosome apoptosis by the lead number method, 6 test samples were determined to be non-fetal chromosome apoptotic among the total 20 test samples (Table 1B and FIG. 3B), and the target chromosome and biological characteristics. In determining fetal chromosome apoptosis by the method using the number of similar chromosome lead number days, two test samples out of a total of 20 test samples were determined to be not fetal chromosome aneuploidity (C in Table 1 and C in FIG. 3), Fetal chromosome aberrant irrigation by the method using the ratio between the number of leads and the total number of leads of the target chromosome, one of the 20 test samples was determined that the fetal chromosome aneuploidity (Table 1 D and FIG. 3). D). These results show that the method according to the present invention improves the accuracy of fetal chromosome aberration discrimination compared to the case where the conventional lead number based method and the lead number ratio method are applied.

Claims

【청구의 범위】 [Range of request]
【청구항 1】  [Claim 1]
다음의 단계를 포함하는, 태아의 염색체 이수성 확인올 위한 서열 정보 분석 방법:  A method of analyzing sequence information for identifying fetal chromosomal aneuploidies, comprising the following steps:
1-1) 산모로부터 분리된 혈액, 혈장, 또는 혈청으로부터 전체 게놈을 커버 (cover)하는 폴리뉴클레오타이드 단편들의 서열 정보를 얻는 단계;  1-1) obtaining sequence information of polynucleotide fragments covering the entire genome from blood, plasma, or serum isolated from the mother;
1- 2) 참조 시료의 전체 게놈을 커버하는 폴리뉴클레오타이드 단편들의 서열 정보를 준비하는 단계;  1-2) preparing sequence information of polynucleotide fragments covering the entire genome of the reference sample;
2- 1) 상기 단계 1-1)에서 얻어진 시험 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 표준 게놈 염기 서열 (Reference genome sequence)과 비교 (mapping)하여 , 각 염색처 1 별로 미리 설정된 bin 개수 (bin number)를 갖도록 시험  2- 1) The sequence information of the polynucleotide fragments of the test sample obtained in step 1-1) is compared with a reference genome sequence, and the number of bins preset for each staining station 1 is determined. Test to have
폴리뉴클레오타이드 단편 수 (polynucleotide fragment count)를 결정하는 단계, Determining a polynucleotide fragment count,
2- 2) 상기 단계 1-2)에서 준비된 참조 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 이용하여 미리 설정된 bin 개수를 갖도록 참조 폴리뉴클레오타이드 단편 수를 결정하는 단계;  2- 2) determining the number of reference polynucleotide fragments to have a preset number of bins using sequence information of the polynucleotide fragments of the reference sample prepared in step 1-2);
3- 1) 상기 시험 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 .목적ᅵ 염색체의 평균 폴라뉴클레오타이드 단편 수의, 상기 .목ᅵ적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체를 대상으로 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 시험 풀리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 merged bin의 개수 만큼 얻어짐);  3-1) Among the test polynucleotide fragments, n of the average polynucleotide fragments of the objective chromosome to be tested for aneuploidy, among n chromosomes other than the target chromosomes, where n is from 1 to 21. Obtaining a ratio of the average polynucleotide fragment number of each merged bin generated on the chromosome of the selected integer) to obtain an average test pullinucleotide fragment number ratio (the ratio is obtained by the number of merged bins);
3-2) 상기 참조 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체를 대상으로 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율 구하여 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 참조 시료 수 * merged bin 의 개수 개 만큼 얻어짐);  3-2) n (n is an integer selected from 1 to 21) of the average polynucleotide fragments of the target chromosome to be tested for aneuploidy among the reference polynucleotide fragments selected from other chromosomes except the target chromosome Obtaining a ratio of the average polynucleotide fragment number of each merged bin generated for the chromosome to obtain an average reference polynucleotide fragment number ratio (the ratio is obtained by the number of reference samples * merged bins);
4) 평균 참조 폴리뉴클레오타이드 단편 수 비율 별로 CV (Coefficient of Variation) 값을 얻는 단계; 5-1) 상기 단계 3-1)의 평균 시험 폴리뉴클레오타이드 단편 수 비율 중에서 상기 단계 4)에서 계산된 CV 값을 대상으로, CV값이 적은 상위 Ncv개에 해당하는 수칙들을 선정하여, 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율을 얻는 단계; 4) obtaining a coefficient of variation (CV) for each ratio of the average reference polynucleotide fragment number; 5-1) Among the average test polynucleotide fragment number ratios of step 3-1), weighted averages are selected by selecting values corresponding to the top N cv low CV values from the CV values calculated in step 4). Obtaining a test polynucleotide fragment number ratio;
5-2) 상기 단계 3-2)의 평균 참조 폴리뉴클레오타이드 단편 수 비율 중에서 상기 단계 4)에서 계산된 CV 값을 대상으로 CV값이 적은 상위 Ncv개에 해당하는 수치들을 선정하여, 가증 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계; 5-2) From the average number of reference polynucleotide fragments in step 3-2), the values corresponding to the top N cvs with small CV values are selected from the CV values calculated in step 4), and the cumulative average is referred to. Obtaining a number ratio of polynucleotide fragments;
6) 상기 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 비교하는 단계. 6) comparing the obtained weighted average test polynucleotide fragment number ratio with the weighted average reference polynucleotide fragment number ratio.
【청구항 2】  [Claim 2]
제 1항에 있어서, 상기 단계 2-1) 및 2-2) 이후에,  The method of claim 1, wherein after steps 2-1) and 2-2),
a) 시험 폴리뉴클레오타이드 단편 수 및 참조 폴리뉴클레오타이드 단편 수의 바이어스 (bias)를 제거하는 단계  a) removing the bias of the number of test polynucleotide fragments and the number of reference polynucleotide fragments
를 추가로 포함하는, 서열 정보 분석 방법.  Further comprising, sequence information analysis method.
【청구항 3】  [Claim 3]
제 2항에 있어서, 상기 바이어스 제거는 SVD (Singular Value Decomposition)를 적용하여 수행되는 것인, 서열 정보 분석 방법.  The method of claim 2, wherein the bias removal is performed by applying Singular Value Decomposition (SVD).
【청구항 4】  [Claim 4]
제 1항 내지 제 3항 중 어느 한 항에 있어서, 상기 염색체는 상염색체인, 서열 정보 분석 방법.  The method of any one of claims 1 to 3, wherein the chromosome is an autosomal.
【청구항 5】  [Claim 5]
제 1항 내지 제 3항 중 어느 한 항에 있어서, 상기 목적 염색체는 인간의 13번, 18번 또는 21번 염색체인, 서열 정보 분석 방법.  The method according to any one of claims 1 to 3, wherein the target chromosome is chromosome 13, 18 or 21 of human.
【청구항 6】  [Claim 6]
제 1항 내지 제 3항 중 어느 한 항에 있어서, 상기 산모는 목적 염색체의 이수성을 갖지 않는 것을 특징으로 하는, 서열 정보 분석 방법.  The method according to any one of claims 1 to 3, wherein the mother does not have the aneuploidity of the target chromosome.
【청구항 7】  [Claim 7]
제 1항 내지 제 3항 중 어느 한 항의 서열정보 분석 방법을 수행 하기 위하여 적용되는 수단들을 포함하는, 정보 처리 시스템.  An information processing system comprising means adapted to perform the method for analyzing sequence information of any one of claims 1 to 3.
【청구항 8】 다음의 단계를 포함하는 태아의 염색체 이수성 판단을 위한 컴퓨터 판독 방법: [Claim 8] Computer-readable method for determining chromosomal aneuploidies in a fetus comprising the following steps:
A-1) 시험 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 표춘 게놈 염기 서열 (Reference genome sequence)과 비교 (mapping)하여,각 염색체 별로 미리 설정된 bin 개수 (bin number)를 갖도록 시험 폴리뉴클레오타이드 단편 수 (polynucleotide fragment count)를 결정하는 단계,  A-1) The sequence information of the polynucleotide fragments of the test sample is compared with the reference genome sequence, so that the number of test polynucleotide fragments has a predetermined bin number for each chromosome. fragment count),
A-2) 참조 시료의 폴리뉴클레오타이드 단편들의 서열 정보를 이용하여 미리 설정된 bin 개수를 갖도록 참조 폴리뉴클레오타이드 단편 수를 결정하는 단계;  A-2) determining the reference polynucleotide fragment number to have a preset number of bins by using sequence information of the polynucleotide fragments of the reference sample;
B-1) 상기 시험 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체로부터 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 시험 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 merged bin의 개수 개 만큼 얻어짐);  B-1) n number (n is an integer selected from 1 to 21) of the average polynucleotide fragments of the target chromosome to be tested for aneuploidy among the test polynucleotide fragments selected from other chromosomes except the target chromosome Obtaining a ratio of the average polynucleotide fragment number of each merged bin generated from the chromosomes to obtain an average test polynucleotide fragment number ratio (the ratio is obtained by the number of merged bins);
B-2) 상기 참조 폴리뉴클레오타이드 단편 수 중에서, 이수성을 시험하고자 하는 목적 염색체의 평균 폴리뉴클레오타이드 단편 수의, 상기 목적 염색체를 제외한 다른 염색체 중에서 선택된 n개 (n은 1 내지 21 중에서 선택되는 정수)의 염색체를 대상으로 생성된 각각의 merged bin의 평균 폴리뉴클레오타이드 단편 수에 대한 비율을 구하여 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계 (상기 비율은 참조 시료 수 * merged bin의 개수 개 만큼 얻어짐);  B-2) n of the average polynucleotide fragments of the target chromosome to be tested for aneuploidy among the reference polynucleotide fragments, n selected from chromosomes other than the target chromosome (n is an integer selected from 1 to 21) Obtaining a ratio of the average polynucleotide fragment number of each merged bin generated on the chromosome to obtain an average reference polynucleotide fragment number ratio (the ratio is obtained by the number of reference samples * merged bins);
C) 평균 참조 폴리뉴클레오타이드 단편 수 비율 별로 CV (Coefficient of Variation) 값을 얻는 단계;  C) obtaining a coefficient of variation (CV) for each ratio of the average reference polynucleotide fragment number;
D-1) 상기 단계 B-1)의 평균 시험 폴리뉴클레오타이드 단편 수 비율 중에서 CV값이 적은 상위 Ncv개에 해당하는 수치들을 선정하여, 가중.평균 시험 D-1) Among the average test polynucleotide fragment number ratios of step B-1), the values corresponding to the top N cv with a small CV value are selected and weighted . Average test
폴리뉴클레오타이드 단편 수 비율을 얻는 단계; Obtaining a number ratio of polynucleotide fragments;
D-2) 상기 '단계 B-2)의 평균 참조 폴리뉴클레오타이드 단편 수 비율을 대상으로 상기 단계 D-1)에서 선정된 CV값이 적은 상위 Ncv개에 해당하는 수치들을 이용하여, 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 얻는 단계; D-2) using the value corresponding to the average reference polynucleotide fragment ratio less the CV value selected in the above step to the destination D-1) the top N cv one of the "Step B-2), a weighted average reference Obtaining a number ratio of polynucleotide fragments;
E) 상기 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율을 비교하는 단계; 및 F) 상기 단계 E)에서 얻어진 가중 평균 시험 폴리뉴클레오타이드 단편 수 비율과 가중 평균 참조 폴리뉴클레오타이드 단편 수 비율 비교 결과를 이용하여 태아의 목적 염색체의 이수성 여부를 확인하는 단계. E) comparing the obtained weighted average test polynucleotide fragment number ratio with the weighted average reference polynucleotide fragment number ratio; And F) Confirming whether the fetal target chromosome is aberrant using a comparison result of the weighted average test polynucleotide fragment number ratio and the weighted average reference polynucleotide fragment number ratio obtained in step E).
【청구항 9】 [Claim 9]
제 8항에 있어서, 단계 A-1) 및 A-2) 이후에,  The method according to claim 8, wherein after steps A-1) and A-2),
a) SVD (Singular Value Decomposition)를 적용하여 시험 폴리뉴클레오타이드 단편 수 및 참조 플리뉴클레오타이드 단편 수의 바이어스 (bias)를 제거하는 단계를 추가로 포함하는,  a) applying a singular value decomposition (SVD) to remove the bias of the test polynucleotide fragment number and the reference polynucleotide fragment number,
컴퓨터 판독 방법.  Computer readable method.
【청구항 10】  [Claim 10]
하드웨어와 결합되어 게 8항 또는 게 9항의 컴퓨터 판독 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.  A computer program stored in a computer readable storage medium in combination with hardware for carrying out the steps of the computer readable method of claim 8 or 9.
PCT/KR2016/000099 2015-09-24 2016-01-06 Non-invasive type fetal chromosomal aneuploidy determination method WO2017051996A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150135705 2015-09-24
KR10-2015-0135705 2015-09-24

Publications (1)

Publication Number Publication Date
WO2017051996A1 true WO2017051996A1 (en) 2017-03-30

Family

ID=58386266

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/000099 WO2017051996A1 (en) 2015-09-24 2016-01-06 Non-invasive type fetal chromosomal aneuploidy determination method

Country Status (1)

Country Link
WO (1) WO2017051996A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109520461A (en) * 2018-10-29 2019-03-26 绍兴文理学院 The statistical sample number of array of sizes rock structural plane roughness sample determines method
WO2022134807A1 (en) * 2020-12-21 2022-06-30 高嵩 Method for detecting fetal genetic variations by sequencing polymorphic sites and target sites

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100058503A (en) * 2007-07-23 2010-06-03 더 차이니즈 유니버시티 오브 홍콩 Diagnosing fetal chromosomal aneuploidy using massively parallel genomic sequencing
KR20140108177A (en) * 2013-02-28 2014-09-05 주식회사 테라젠이텍스 Method and apparatus for diagnosing fetal chromosomal aneuploidy using genomic sequencing
WO2014190286A2 (en) * 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR101489568B1 (en) * 2011-06-29 2015-02-03 비지아이 헬스 서비스 코포레이션 리미티드 Noninvasive detection of fetal genetic abnormality

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100058503A (en) * 2007-07-23 2010-06-03 더 차이니즈 유니버시티 오브 홍콩 Diagnosing fetal chromosomal aneuploidy using massively parallel genomic sequencing
KR101489568B1 (en) * 2011-06-29 2015-02-03 비지아이 헬스 서비스 코포레이션 리미티드 Noninvasive detection of fetal genetic abnormality
KR20140108177A (en) * 2013-02-28 2014-09-05 주식회사 테라젠이텍스 Method and apparatus for diagnosing fetal chromosomal aneuploidy using genomic sequencing
WO2014190286A2 (en) * 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LJAO ET AL.: "Noninvasive Prenatal Diagnosis of Common Aneuploidies by Semiconductor Sequencing", PNAS, vol. 111, no. 20, 2014, pages 7415 - 7420, XP055362638 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109520461A (en) * 2018-10-29 2019-03-26 绍兴文理学院 The statistical sample number of array of sizes rock structural plane roughness sample determines method
WO2022134807A1 (en) * 2020-12-21 2022-06-30 高嵩 Method for detecting fetal genetic variations by sequencing polymorphic sites and target sites

Similar Documents

Publication Publication Date Title
US20220010371A1 (en) Rapid aneuploidy detection
US9784742B2 (en) Means and methods for non-invasive diagnosis of chromosomal aneuploidy
JP5938484B2 (en) Method, system, and computer-readable storage medium for determining presence / absence of genome copy number variation
DK2562268T3 (en) Non-invasive diagnosis of fetal aneuploidy by sequencing
KR101801871B1 (en) Method for prediction of fetal monogenic genetic variations using maternal cell-free dna
KR20150070111A (en) Method of detecting chromosomal abnormalities
US20230368918A1 (en) Method of detecting fetal chromosomal aneuploidy
Russo et al. Comparative study of aCGH and Next Generation Sequencing (NGS) for chromosomal microdeletion and microduplication screening
AU2018244815A1 (en) Method of detecting a fetal chromosomal abnormality
EP3283647B1 (en) A method for non-invasive prenatal detection of fetal chromosome aneuploidy from maternal blood
GB2559437A (en) Prenatal screening and diagnostic system and method
WO2017051996A1 (en) Non-invasive type fetal chromosomal aneuploidy determination method
KR101907650B1 (en) Method of non-invasive trisomy detection of fetal aneuploidy
RU2543155C1 (en) Non-invasive diagnostic technique for foetal aneuploidy by sequence analysis
KR20170036649A (en) Method of non-invasive trisomy detection of fetal aneuploidy
KR101841265B1 (en) Method for eliminating bias of targeted sequencing by using nmf
KR20230076686A (en) Method for detecting aneuploidy of fetus based on synthetic data
US11869630B2 (en) Screening system and method for determining a presence and an assessment score of cell-free DNA fragments
KR102287096B1 (en) Method for determining fetal fraction in maternal sample
AU2021200569B2 (en) Noninvasive diagnosis of fetal aneuploidy by sequencing
EP3149202A1 (en) Method of prenatal diagnosis
GB2564846A (en) Prenatal screening and diagnostic system and method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16848722

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16848722

Country of ref document: EP

Kind code of ref document: A1