JP2014530629A - Method for detecting chromosomal microdeletions and microduplications - Google Patents

Method for detecting chromosomal microdeletions and microduplications Download PDF

Info

Publication number
JP2014530629A
JP2014530629A JP2014537440A JP2014537440A JP2014530629A JP 2014530629 A JP2014530629 A JP 2014530629A JP 2014537440 A JP2014537440 A JP 2014537440A JP 2014537440 A JP2014537440 A JP 2014537440A JP 2014530629 A JP2014530629 A JP 2014530629A
Authority
JP
Japan
Prior art keywords
site
sample
sites
sequencing
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014537440A
Other languages
Japanese (ja)
Other versions
JP2014530629A5 (en
Inventor
チェン、ファン
パン、シャオユー
チェン、シェンペイ
リー、シューチャオ
チアン、フイ
ツァン、シューチン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Genomics Co Ltd
Original Assignee
BGI Diagnosis Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Diagnosis Co Ltd filed Critical BGI Diagnosis Co Ltd
Priority to JP2014537440A priority Critical patent/JP2014530629A/en
Publication of JP2014530629A publication Critical patent/JP2014530629A/en
Publication of JP2014530629A5 publication Critical patent/JP2014530629A5/ja
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本発明はゲノム変異検出分野に関し、特に細胞染色体DNA断片コピー数変異(Copy number variation、CNV)の検出に関する。本発明は、更に細胞染色体DNA断片コピー数変異に関連する病気の検出に関する。【選択図】図1The present invention relates to the field of genomic mutation detection, and more particularly to detection of copy number variation (CNV) of cell chromosomal DNA fragments. The invention further relates to the detection of diseases associated with cell chromosomal DNA fragment copy number variation. [Selection] Figure 1

Description

本発明は、ゲノム変異検出分野に関し、特に細胞染色体DNA断片コピー数変異(Copy number variation、CNV)の検出に関する。本発明は、更に染色体DNA断片コピー数変異に関連する病気の検出に関する。   The present invention relates to the field of genome mutation detection, and more particularly to detection of copy number variation (CNV) of cell chromosomal DNA fragments. The invention further relates to the detection of diseases associated with chromosomal DNA fragment copy number variation.

染色体微細欠失/微細重複とは、染色体上に、長さは1.5kb-10Mbである欠失又は重複が現れることを意味する。人染色体微細欠失/微細重複症候群(microdeletion/microduplication syndromes)は、人染色体上に微小断片欠失又は重複(即ちDNA断片コピー数変異)が出現することに起因する複雑表型病気であり、周産期子供及び新生児に発病率が比較的に高く、先天性心臓病又は心臓畸形、厳重な成長発育緩慢、外貌又は肢体奇形などの酷い病気及び異常をもたらす。また、微細欠失症候群は、唐氏症候群と脆弱X染色体症候群に加え、知力発育緩慢の主要な原因の一つである。(Knight SJL (ed): Genetics of Mental Retardation. Monogr Hum Genet. Basel, Karger, 2010, vol 18, 101-113)。近年、国内外の主要出生欠陥発病率統計中、前列に立つのは染色体微細欠失/微細重複に関連する先天性心臓病、知力低下、脳性麻痺及び先天性耳不自由である。常見の微細欠失症候群は、22q11微細欠失症候群、ネコ鳴き症候群、Angelman症候群、AZF欠失などを含む。   Chromosome microdeletion / microduplication means that a deletion or duplication having a length of 1.5 kb-10 Mb appears on the chromosome. Microdeletion / microduplication syndromes are complex surface diseases caused by the appearance of microfragment deletions or duplications (ie, DNA fragment copy number mutations) on human chromosomes. Childhood and neonates have a relatively high incidence, leading to severe illnesses and abnormalities such as congenital heart disease or heart deformity, severe growth and slowness, appearance or limb malformations. Microdeletion syndrome is one of the major causes of mental retardation in addition to Tang's syndrome and fragile X chromosome syndrome. (Knight SJL (ed): Genetics of Mental Retardation. Monogr Hum Genet. Basel, Karger, 2010, vol 18, 101-113). In recent years, among the birth statistics of major birth defects in Japan and overseas, the front row is congenital heart disease related to chromosomal microdeletion / microduplication, intellectual decline, cerebral palsy and congenital deafness. Common microdeletion syndromes include 22q11 microdeletion syndrome, cat cry syndrome, Angelman syndrome, AZF deletion, and the like.

22q11微細欠失症候群を例として、この症候群は人染色体22q11.21 - 22q11.23区域ヘテロ接合性の消失を原因とする臨床症候群の一種であり、DiGeorge症候群、口蓋心臓顔面症候群、円錐動脈幹異常顔貌症候群、Cayler心臓顔症候群及びOpitz症候群などの同じ遺伝学基礎を有する多数の臨床症候群を含み、この病気の最も常見な臨床表現には心臓畸形、異常顔貌、胸腺発育不良、口蓋裂及び低カルシウム血症を含み、また、この症候群の患者には体格及び知力発育緩慢、学習及び認知困難、精神異常などの表現が現れ、人類に最も常見な微細欠失症候群である。その発生率は1: 4000(生産児)であり、男女発病率に明らかな差異がない。(Drew LJ, et al. The 22q11.2 microdeletion: Fifteen years of insights into the genetic and neural complexity of psychiatric disorders. Int J Dev Neurosci. 2010 Oct 8.)。   Taking 22q11 microdeletion syndrome as an example, this syndrome is a type of clinical syndrome caused by loss of heterozygosity in the human chromosome 22q11.21-22q11.23 segment, DiGeorge syndrome, palatal cardiofacial syndrome, conical artery trunk abnormality Includes numerous clinical syndromes with the same genetic basis such as facial syndrome, Cayler cardiac facial syndrome and Opitz syndrome, and the most common clinical expressions of the disease include heart deformity, abnormal facial appearance, thymic growth failure, cleft palate and low calcium In this syndrome, patients with this syndrome develop expressions such as physique and slowness of intellectual development, learning and cognitive difficulties, mental disorders, etc., and it is the most common microdeletion syndrome in mankind. The incidence is 1: 4000 (productive) and there is no obvious difference in the incidence of gender. (Drew LJ, et al. The 22q11.2 microdeletion: Fifteen years of insights into the genetic and neural complexity of psychiatric disorders. Int J Dev Neurosci. 2010 Oct 8.).

毎種の微細欠失症候群の発病率低く(https://decipher.sanger.ac.uk/syndromes)、そのうち、常見の22q11微細欠失症候群、ネコ鳴き症候群、Angelman症候群、Miller-Dieker症候群などの発生率はそれぞれ1: 4000(生産児)、1: 50000、1: 10000、1: 12000であるけれど、臨床検出技術の制限で、多量の微細欠失症候群患者は産前スクリーニング及び産前診断中に検出することができなく、ひいては子どもが生まれた数ヶ月後更に数年後に典型的な臨床表徴が現れた場合、その原因を遡って探す時にも、検出技術の制限で病因を確診することができない。一部分のタイプの微細欠失症候群は根治することができないので、生まれた数月又は数年内に死亡し、社会及び家庭に重い精神及び経済の負担をもたらす。不完全な統計により、全世界で“アンジェルマン症候群”(即ちAngelman症候群)患者は1.5万名に達する。他のタイプの染色体微細欠失症候群患者の数量も年々増える傾向がある。従って、妊娠前に臨床擬似患者及び関連不良妊娠歴を有する両親に対して染色体微細欠失/微細重複の検出を行うことは、遺伝諮問の提供及び臨床策略根拠の提供に有利である。妊娠期間に早期産前診断を行うことは、患児出生を効果的に防止する又は患児に出産後の治療方法を提供するに根拠を提供することができる(Bretelle F, et al..Prenatal and postnatal diagnosis of 22q11.2 deletion syndrome. Eur J Med Genet. 2010 Nov-Dec; 53(6): 367-370)。   Low incidence of various types of microdeletion syndrome (https://decipher.sanger.ac.uk/syndromes), including 22q11 microdeletion syndrome, cat squeal syndrome, Angelman syndrome, Miller-Dieker syndrome Incidences are 1: 4000 (productive), 1: 50000, 1: 10000, and 1: 12000, respectively, but due to limitations of clinical detection techniques, large numbers of patients with microdeletion syndrome are detected during prenatal screening and prenatal diagnosis If a typical clinical symptom appears several months after the birth of the child and several years later, even when looking back the cause, the etiology cannot be confirmed due to limitations of detection techniques. Some types of microdeletion syndrome cannot be cured and die within the months or years of birth, resulting in a heavy mental and economic burden on society and home. Due to incomplete statistics, there are 15,000 patients with “Angelman syndrome” (ie Angelman syndrome) worldwide. The number of other types of patients with chromosomal microdeletion syndrome also tends to increase year by year. Therefore, detection of chromosomal microdeletions / duplications in clinical pseudo-patients and parents with a history of poor pregnancy prior to pregnancy is advantageous for providing genetic counseling and providing clinical strategies. Performing an early prenatal diagnosis during pregnancy can provide evidence to effectively prevent childbirth or provide postnatal treatment to the child (Bretelle F, et al. Prenatal and postnatal diagnosis). of 22q11.2 deletion syndrome. Eur J Med Genet. 2010 Nov-Dec; 53 (6): 367-370).

しかしながら、この種の病気は、染色体レベルの微小変異なので、染色体核型解析方法などの通常の臨床方法(解像度は10M以上)で検出することができない(Malcolm S. Microdeletion and microduplication syndromes. Prenat Diagn. 1996 Dec; 16(13): 1213 - 9)。現在、微細欠失/微細重複症候群に対する診断方法には、主として、高解像度染色体核型解析、FISH(蛍光in situ ハイブリダイゼーション)、Array CGH(比較ゲノムハイブリダイゼーション)、MLPA(Multiplex Ligation-dependent Probe Amplification)及びPCR方法などの方法があり、これらの方法を利用して、染色体的微細欠失/微細重複を検出することができる。   However, since this type of disease is a chromosomal micro-mutation, it cannot be detected by conventional clinical methods such as chromosome karyotype analysis (resolution is 10M or more) (Malcolm S. Microdeletion and microduplication syndromes. Prenat Diagn. 1996 Dec; 16 (13): 1213-9). Currently, diagnostic methods for microdeletion / duplication syndrome include mainly high-resolution chromosome karyotype analysis, FISH (fluorescence in situ hybridization), Array CGH (comparative genomic hybridization), MLPA (Multiplex Ligation-dependent Probe Amplification). ) And PCR methods, and these methods can be used to detect chromosomal microdeletions / duplications.

高解像度染色体核型解析は、20世紀80年代後に出現する高解像度分染技術(high resolution banding technique)であり、細胞同期化の方法により、多量の優質の有糸***後期又は前中期の分染核型を獲得し、一セットの染色体のバンドの数量を数百本以上に増加させることで、染色体微細構造変化を区別する能力を高めることができるが、その解像度はただ約3-5Mしかない。この方法の解像度は通常染色体核型解析より高いが、より小さい染色体レベルの微細欠失/微細重複変異の検出には足りない(Jorge J. Yunis, Jeffrey R. Sawyer and David W. Ball. The characterization of high-resolution G-banded chromosomes of man. Chromosoma. 67(4), 293 - 307)。   High-resolution chromosome karyotype analysis is a high resolution banding technique that emerged in the 80s of the 20th century, and a large amount of dominant late mitosis or pre-middle staining by cell synchronization methods. Acquiring a karyotype and increasing the number of bands in a set of chromosomes to more than a few hundred can increase the ability to distinguish chromosomal ultrastructural changes, but the resolution is only about 3-5M . The resolution of this method is usually higher than that of chromosomal karyotype analysis, but is insufficient to detect smaller chromosome-level microdeletions / duplications (Jorge J. Yunis, Jeffrey R. Sawyer and David W. Ball. The characterization of high-resolution G-banded chromosomes of man. Chromosoma. 67 (4), 293-307).

FISH(fluorescence in situ hybridization)は、20世紀80年代末に発展してきた非放射性分子細胞遺伝技術であり、当該方法は微細欠失/微細重複検出の黄金標準であり、当該方法は多くの染色体欠失を効果的に検出することができる。その基本原理は、下記のようです:検出される染色体又はDNA繊維切片上の標的DNAは用いられる核酸プローブと相同及び相補的であれば、両者は変性-アニール-復性を経て、標的DNAと核酸プローブのハイブリダイゼーション体を形成することができ、核酸プローブのある一種のヌクレオチドにビオチン、ジゴキシンといった報告分子を標記し、この報告分子とフルオレセイン標記の特異アビジンの間の免疫化学反応を利用して、蛍光検出システムで鏡下被検測DNAに対して定性、定量又は相対定位解析を行う。その優点は、実験周期短い、結果を早く得ること、特異性優良、定位精確である。中期染色体FISHの解像度は1〜2Mに達し、間期染色体FISH解像度は50Kに達するが、この技術は、欠失サイトを知っている条件下にプローブを設計して検証を行う必要があり、新しい染色体レベルの微細欠失又は重複異常の発見に適しなく、且つ費用も高く、操作人員の技術熟練程度への要求が高い(Fluorescence in situ hybridization. Nature Methods, 2237〜2238, 2005)。   FISH (fluorescence in situ hybridization) is a non-radioactive molecular cytogenetic technology developed in the late 80s of the 20th century, and this method is the golden standard for detection of microdeletion / duplication. Loss can be detected effectively. The basic principle is as follows: if the target DNA on the detected chromosome or DNA fiber section is homologous and complementary to the nucleic acid probe used, both undergo denaturation-annealing-reverting and the target DNA A hybrid of nucleic acid probe can be formed, and a reported molecule such as biotin and digoxin is marked on one kind of nucleotide of the nucleic acid probe, and an immunochemical reaction between this reported molecule and specific avidin labeled with fluorescein is used. Qualitative, quantitative, or relative localization analysis is performed on the DNA to be measured under a microscope using a fluorescence detection system. Its advantages are short experimental period, fast results, excellent specificity and localization accuracy. The resolution of metaphase chromosome FISH reaches 1-2M and the resolution of interphase chromosome FISH reaches 50K, but this technique requires the design and validation of probes under conditions that know the deletion site. It is not suitable for the detection of chromosomal microdeletions or duplication abnormalities, is expensive, and requires a high level of technical skill for operating personnel (Fluorescence in situ hybridization. Nature Methods, 2237-2238, 2005).

Array CGH(Array comparative genomic hybridization)は、近年、臨床細胞遺伝学分野に応用されている一つの技術であり、特異DNA断片を標的プローブとして担体に固化してマイクロアレイを形成し、フルオレセインを標記した被検測DNA及び参考DNAとマイクロアレイとをハイブリダイゼーションすることでDNAコピー数変異を検出することである。Array CGHの解像度は設計するプローブのタイプ、大きさ及びそのゲノム上の距離により、理論的に5乃至10kb更により小さいDNA配列を検出できるが、当該方法の価格が高く、また、一般的に全ゲノムの全部のサイトを覆うことではない。目前、染色体微細欠失症候群に用いられる診断は文献によく見られる(ACOG Committee Opinion No. 446: array comparative genomic hybridization in prenatal diagnosis. Obstetrics and Gynecology, 2009)。   Array comparative genomic hybridization (Array CGH) is a technique that has recently been applied in the field of clinical cytogenetics, and a specific DNA fragment is solidified on a carrier as a target probe to form a microarray and labeled with fluorescein. DNA copy number variation is detected by hybridization of test DNA and reference DNA with a microarray. Although the resolution of Array CGH can detect DNA sequences that are theoretically 5 to 10 kb smaller depending on the type and size of the probe to be designed and the distance on the genome, the method is expensive and generally the total It does not cover the entire site of the genome. Currently, the diagnosis used for chromosomal microdeletion syndrome is often found in the literature (ACOG Committee Opinion No. 446: array comparative genomic hybridization in prenatal diagnosis. Obstetrics and Gynecology, 2009).

MLPA(Multiplex Ligation-dependent Probe Amplification)は、近年発展してきた、被検測DNA配列を定性及び半定量解析する新しい技術である。MLPA技術は、目前、臨床実験室でY染色体微細欠失、22q11.2染色体微細欠失などの検出に応用される。該技術の長所は効率高く、特異、高速、便利にあり、欠点はサンプルを汚染されやすく、未知の点変異タイプの検出に適しなく、染色体の平衡転座を検出できないことにある(王科ら、MLPA技術検出22q11.2染色体微細欠失.《第七回全国唇裂口蓋裂学術会議論文集》, 2009)。   MLPA (Multiplex Ligation-dependent Probe Amplification) is a new technique developed in recent years for qualitative and semi-quantitative analysis of test DNA sequences. MLPA technology is applied to the detection of microdeletion of Y chromosome and 22q11.2 microdeletion in clinical laboratories. The advantages of the technique are efficient, specific, fast and convenient, and the disadvantages are that the sample is easily contaminated, unsuitable for detecting unknown point mutation types, and cannot detect equilibrium translocations of chromosomes (Oshina et al. , MLPA technology detection 22q11.2 microdeletion. <7th National Cleft Lip and Palate Academic Conference Proceedings>, 2009).

PCR方法は常にY染色体微細欠失方面の検出に用いられ、例えばY染色体の男性生殖関連のAZF遺伝子(AZFa、AZFb、AZFc)などの欠失はPCRの方法にて検出することが多い。既知の染色体微細欠失サイトの検証には、PCR方法も用いられる。当該方法は簡単、実施しやすいが、欠点は既知サイトのみに対して検出ができ、また、毎回、一つのサイトしか検出することができない。確実の検出方法は、検出目的に達するために多数のサイトのPCR反応を組み合わせる必要がある(Cong-yi YU、et al. Multiplex PCR Screening of Y Chromosome Microdeletions in Azoospermic Patients. JOURNAL OF REPRODUCTION AND CONTRACEPTION. 2004, 15(4))。   The PCR method is always used to detect the direction of fine deletion of the Y chromosome. For example, deletion of the AZF gene (AZFa, AZFb, AZFc) associated with male reproduction of the Y chromosome is often detected by the PCR method. PCR methods are also used to verify known chromosomal microdeletion sites. The method is simple and easy to implement, but the drawbacks can be detected only for known sites and only one site can be detected each time. A reliable detection method requires a combination of PCR reactions from multiple sites to reach the detection objective (Cong-yi YU, et al. Multiplex PCR Screening of Y Chromosome Microdeletions in Azoospermic Patients. JOURNAL OF REPRODUCTION AND CONTRACEPTION. 2004 , 15 (4)).

上記の内容により分かるように、目前、染色体微細欠失/微細重複の検出方法に存在する限制要因は、主に、解像度低く、全ゲノムを覆うことができなく、ロースループット及び高コストにある。これらの限制因素を克服する検出染色体微細欠失/微細重複の新しい方法を開発するのは切実な要求されるものである。   As can be seen from the above contents, the limiting factors existing in the method for detecting chromosomal microdeletion / microduplication are mainly low resolution, cannot cover the whole genome, and have low throughput and high cost. It is an urgent need to develop a new method of detecting chromosomal microdeletion / duplication that overcomes these limiting factors.

ハイスループット(HIGH-THROUGHPUT)配列決定技術の継続的な発展と配列決定コストの継続的な降下に伴い、ハイスループット配列決定による染色体異常の検出解析がますます広く活用されてきている。現在の検出染色体微細欠失/微細重複方法の解像度高くないなどの欠陥を解決するために、本発明はハイスループット配列決定技術によるDNAコピー数変異を検出してさらに染色体微細欠失/微細重複を検出する方法を設計する。当該方法は、先行技術の常用のいくつかの方法における解像度低い、全ゲノムを覆うことができず、ロースループット及び高コストとの欠点を克服し、全ゲノムのレベル上に染色体微細欠失/微細重複の検出を行い、病気の既知サイトを探す及び検証することができるだけではなく、未知のサイトを探索する及び発見することもでき、ハイスループット、特異性高い、定位精確である。染色体微細欠失/微細重複を検出することで、染色体微細欠失/微細重複症候群の検出を図る。   With the continued development of high-throughput (HIGH-THROUGHPUT) sequencing technology and the continuing decline in sequencing costs, detection and analysis of chromosomal abnormalities by high-throughput sequencing has become increasingly popular. In order to solve the defects such as high resolution of current detection chromosomal microdeletion / microduplication method, the present invention detects DNA copy number variation by high-throughput sequencing technology to further detect chromosomal microdeletion / microduplication. Design how to detect. The method does not cover the whole genome, low resolution, low resolution and high cost in some of the conventional methods of the prior art, overcoming the drawbacks of low throughput and high cost Not only can you detect duplicates and search for and verify known sites of the disease, but you can also search and discover unknown sites, high throughput, high specificity, and localization accuracy. Detecting chromosomal microdeletion / microduplication syndrome by detecting chromosomal microdeletion / microduplication.

本発明は細胞染色体DNA断片コピー数変異(Copy number variation、CNV)を検出する方法に関し、この方法は以下のステップを含む。
a)被検測サンプル及び正常サンプルから得られたゲノムDNA分子をぞれぞれ無作為に切断してDNA断片を得て、前記DNA断片の配列決定を行い配列決定のリード(read)を獲得する;

b)ステップaで測定したDNA配列とサンプルの種のゲノム参考配列を対比して測定したDNA配列を参考配列上に定位し、参考配列上に唯一の位置を有するリードのみを選出して解析を行う;

c)参考配列上において、以下の条件に満足するサイトを探す。即ち、正常サンプルの対比結果と比べ、サイト両側にコピー数変異比率は差異があるサイトである。具体の手順は以下のようになる。
i)参考配列上の各々のサイトbに対して、強引にその左右両側の局部窓口にw条正常リードを包含させ、即ちN(xL,b)=N(b,xR)=wを満たし、式中に、N(xL,xR)は窓口(xL,xR)中に落ちた正常サンプルの対比本数である;
ii)これらの位置において、

に符合するサイトを選別し、Di(xL,xR)=0、b-w<i<b+wに符合するサイトを除去し、検定統計量D(xL,xR)に対して正規分布の両側有意性検定を行うことで、各々サイトのp(|D(xL,xR)|)は得られ、式中に、D(xL,xR)=log(R(xL,x))-log(R(x,xR))、

、また、正常サンプルリードと被検測サンプルリード中唯一に参考配列上に対比したリード本数はそれぞれaN及びaTであり、窓口(xL,xR)中に落ちた参考配列の唯一対比したリード本数はそれぞれN(xL,xR)及びT(xL,xR)である;
iii)pbkpを設定し、p(|D(xL,xR)|)>pbkpに符合するすべてのサイトを得るまで上記のステップを繰り返し、得られた候補サイト集合BcはBc={b1,b2,...,bN}に満たす;
そのうち、pbkpを設定してよく、例えば対照サンプルデータにより最初の候補サイトが10、100、1000又は10000である時最小のp(|D(xL,xR)|)をpbkpと設定する。以下の方式でpbkpを選択してもよい。正常サンプルを被検測サンプルとして、前記ステップa)〜c)のii)を執行し、すべてのp(|D(xL,xR)|)について偽発見率制御(False discovery rate control、FDR control)で濾過し、濾過したサイト中の最後にFDR閾値を突破するp(|D(xL,xR)|)をpbkpとする。偽発見率制御を行うステップは以下のようになる。
被検定データ集を有意性(P値)で小さいから大きいまで排列し、これらのランク(r)を得る。
上から下に

に満たす最後のサイトkまで検定し、式中に、Pkは第k個位置のP値であり、rkは第k個位置のランクであり、Nは総サイト個数であり、αは有意性レベル、例えば0.01である。
k及びその前のすべてのサイトを保留し、その後の偽陽性サイトを除去する。

d)ステップcで得られた参考配列上の候補サイト集合Bc、Bc={b1,b2,...,bN}にある各サイトkの両側に窓口(bk-1,bk-1)及び(bk,bk+1)が存在する。両側窓口の間のコピー数変異比率差異比較的に小さいサイトを除去し、即ち毎回

最大のサイトkを削除し、また区間(bk-1,bk+1)のp値を更新・合併し、hを設定することで、すべてのサイトは

に満たすまで当該ステップを繰り返して、残りのサイトはCNVを探すに必要な要求を満たすサイトであり、即ち染色体コピー数変異が発生するサイトを得る。
そのうち、pmergeは、設定してよく、例えば残りのサイトの規模はもとの1/2、1/10、1/100又は1/1000である時の最大のp(|D(xL,xR)|)をpmergeとして設定する。以下の形態でpmergeを選択してよい。合併した候補サイトの数量を最初サイトの数量の1/2、1/10、1/100又は1/1000にするように、正常サンプルを被検測サンプルとして、上記のステップa)〜d)を執行し、そのうち、最大のp(|D(xL,xR)|)はpmergeとして選ばれる。
The present invention relates to a method for detecting cell chromosomal DNA fragment copy number variation (CNV), which comprises the following steps.
a) Genomic DNA molecules obtained from test samples and normal samples are randomly cut to obtain DNA fragments, and the DNA fragments are sequenced to obtain a sequencing read. Do;

b) Localize the DNA sequence measured by comparing the DNA sequence measured in step a and the genomic reference sequence of the sample seed on the reference sequence, and select and analyze only the reads that have a unique position on the reference sequence. Do;

c) Search for sites that satisfy the following conditions on the reference sequence. That is, compared with the comparison result of the normal sample, the copy number variation ratio is different on both sides of the site. The specific procedure is as follows.
i) For each site b on the reference sequence, forcibly include the normal w-lead at the left and right local contacts, that is, N (x L , b) = N (b, x R ) = w Where N (x L , x R ) is the contrast number of normal samples that fell into the window (x L , x R );
ii) In these positions:

, Select sites that match D i (x L , x R ) = 0, bw <i <b + w, and normalize for the test statistic D (x L , x R ) By performing the two-sided significance test of the distribution, p (| D (x L , x R ) |) of each site is obtained, and D (x L , x R ) = log (R (x L , x))-log (R (x, x R )),

In addition, the number of leads compared to the reference sequence only in the normal sample lead and the test sample lead is a N and a T , respectively, and the only comparison of the reference sequence dropped in the window (x L , x R ) The number of leads obtained is N (x L , x R ) and T (x L , x R ), respectively;
iii) p bkp is set and the above steps are repeated until all sites matching p (| D (x L , x R ) |)> p bkp are obtained, and the obtained candidate site set B c is B c satisfy {{b 1 , b 2 , ..., b N };
Among them, p bkp may be set, for example, when the first candidate site is 10, 100, 1000 or 10000 by the control sample data, the minimum p (| D (x L , x R ) |) is set as p bkp To do. P bkp may be selected in the following manner. Using a normal sample as a test sample, execute steps ii) through a) to c) above, and perform false discovery rate control (FDR) for all p (| D (x L , x R ) |) control), and p (| D (x L , x R ) |) that breaks the FDR threshold at the end of the filtered site is defined as p bkp . The steps for performing false discovery rate control are as follows.
Sort the test data collection from small to large in significance (P value) and obtain these ranks (r).
From top to bottom

To the last site k satisfying, where P k is the P value at the kth position, r k is the rank at the kth position, N is the total number of sites, and α is significant Sex level, for example 0.01.
Hold k and all previous sites and remove subsequent false positive sites.

d) A window (b k-1 , bk-1 , b) on each side of each site k in the candidate site set B c , B c = {b 1 , b 2 , ..., b N } b k -1) and (b k , b k + 1 ) exist. Copy number variation ratio difference between the windows on both sides Remove relatively small sites, ie every time

By deleting the largest site k, and updating and merging the p-values in the interval (b k-1 , b k + 1 ) and setting h, all sites

This step is repeated until the above conditions are satisfied, and the remaining sites satisfy the requirements necessary for searching for CNVs, that is, sites where chromosome copy number variation occurs.
Among them, p merge may be set, for example, the maximum p (| D (x L , when the scale of the remaining site is 1/2, 1/10, 1/100 or 1/1000 Set x R ) |) as p merge . You may choose p merge in the following form: Steps a) to d) above with the normal sample as the test sample so that the merged candidate site quantity is 1/2, 1/10, 1/100 or 1/1000 of the original site quantity. The largest p (| D (x L , x R ) |) is chosen as p merge .

本発明は更に、細胞染色体DNA断片コピー数変異(Copy number variation、CNV)による複雑な臨床表型効果の病気解析方法に関する。前記方法は、上記のステップa)〜d)以外、更に以下のステップを含む。
e)ステップdで得られた断点に基づきCNV解析を行い、正常サンプルに対する被検測サンプルのCNV比率は微細欠失検出閾値以下であるサイトを微細欠失サイトとして選択し、正常サンプルに対する被検測サンプルのCNV比率は微細重複検出閾値以上であるサイトを微細重複サイトとして選択し、
微細欠失検出閾値及び微細重複検出閾値は、当業者が経験により選択してよく、例えば微細欠失検出閾値は0.75であり、微細重複検出閾値は1.25である。
f)前記微細欠失サイト及び/又は微細重複サイトを既存のCNV及び病気データベースに対比して、基本の遺伝子のアノテーション及び欠失部分に関する遺伝子機能解析を行い、微細欠失症候群病気のタイプを注釈する。
The present invention further relates to a disease analysis method for complicated clinical phenotype effects due to copy number variation (CNV). The method further includes the following steps in addition to the above steps a) to d).
e) Perform CNV analysis based on the break point obtained in step d, select a site where the CNV ratio of the test sample to the normal sample is less than or equal to the fine deletion detection threshold, and select the site for the normal sample. Select the site where the CNV ratio of the inspection sample is equal to or higher than the fine overlap detection threshold as the fine overlap site,
A person skilled in the art may select the fine deletion detection threshold and the fine duplication detection threshold based on experience. For example, the fine deletion detection threshold is 0.75, and the fine duplication detection threshold is 1.25.
f) Compare the above-mentioned microdeletion sites and / or microduplication sites with existing CNV and disease databases, perform gene function analysis on basic gene annotations and deletions, and annotate types of microdeletion syndrome diseases To do.

本発明の実施形態の具体的な技術流れは図1に示す。   A specific technical flow of the embodiment of the present invention is shown in FIG.

本発明の効果
目前の染色体微細欠失/微細重複を検出する常用方法(如高解像度染色体核型解析、FISH、Array CGH及びPCRの方法)と比べ、本発明の優越性は主に以下の点である。
1) 高解像度。本発明は、染色体CNVを解析する精度が100kbに達し、染色体微細欠失/微細重複を効果的に検出することができる。
2) より広いデータ解析に適用し、メモリー設備の利用率を高める。算法を新たに編訳し、データ処理の方法を改善し、元のSegSeqソフトウェアは1〜4×低深度配列決定データ解析のみに適したが、改良したSegSeqは1〜30×異なる配列決定深度のデータ解析に適用することができる。
3) 全ゲノムを覆う。第二世代の配列決定技術に基づき、本発明は全ゲノム範囲に対して染色体CNV解析を行い、既知のプローブを依頼すること及びプローブを設計することなく、新しい染色体異常を発見することができる。
4) ハイスループット。ハイスループット配列決定技術に基づき、本発明はハイスループットで染色体CNV解析を行い、サンプル一個あたりに異なるラベル配列を加えることで、多量のサンプルに対して一括に解析することができる。
5) 低コスト。配列決定技術の不断の発展及び配列決定コストの継続的に降下に従い、本発明の染色体CNV解析のコストもますます低下してくる。
Advantages of the present invention The superiority of the present invention is as follows, compared with the conventional method (high resolution chromosome karyotype analysis, FISH, Array CGH and PCR methods) for detecting the current chromosomal microdeletion / duplication. It is.
1) High resolution. In the present invention, the accuracy of analyzing chromosome CNV reaches 100 kb, and it is possible to effectively detect chromosomal microdeletions / microduplications.
2) Apply to wider data analysis and increase the utilization rate of memory equipment. New translation of algorithm, improved data processing method, original SegSeq software is only suitable for 1-4x low depth sequencing data analysis, but improved SegSeq is 1-30x different sequencing depth data It can be applied to analysis.
3) Cover the whole genome. Based on second generation sequencing technology, the present invention can perform chromosomal CNV analysis over the entire genome range and discover new chromosomal abnormalities without requesting known probes and designing probes.
4) High throughput. Based on the high-throughput sequencing technique, the present invention can perform chromosomal CNV analysis at high throughput and add different label sequences to each sample, thereby analyzing a large number of samples at once.
5) Low cost. As the sequencing technology continues to evolve and the sequencing costs continue to drop, the cost of the chromosomal CNV analysis of the present invention also decreases.

図1は本発明の染色体CNV解析の概要流れ図である。FIG. 1 is a schematic flowchart of the chromosomal CNV analysis of the present invention. 図2はSeqSeq算法流れ模式図である。FIG. 2 is a schematic diagram of the SeqSeq algorithm flow. 図3A-Cはサンプル1-サンプル3の染色体数字核型図であり、染色体上の重複、欠失及び正常区域はそれぞれ図中に示し、相応位置及び詳細な情報は表2に示す。FIGS. 3A-C are chromosome number karyotypes of Sample 1 to Sample 3. Duplications, deletions, and normal areas on the chromosome are shown in the figure, and the corresponding positions and detailed information are shown in Table 2. 図4A-Cはサンプル4-サンプル6の染色体数字核型図であり、染色体上の重複、欠失及び正常区域はそれぞれ図中にしめし、相応位置及び詳細な情報は表4に示す。FIGS. 4A-C are chromosome number karyotype diagrams of Sample 4 to Sample 6. The chromosomal duplication, deletion, and normal region are shown in the figure, and the corresponding positions and detailed information are shown in Table 4.

本発明の明細書及び特許請求の範囲において、リード(reads)とは、配列決定で得られた配列断片である。   In the specification and claims of the present invention, reads are sequence fragments obtained by sequencing.

本発明の明細書及び特許請求の範囲において、断点(breakpoint)とは、染色体上にコピー数変異が発生する分界点。   In the specification and claims of the present invention, a breakpoint is a demarcation point at which a copy number variation occurs on a chromosome.

本発明において、サンプルから由来のゲノムDNAは、サンプルの血液、組織又は細胞から得られる。前記の血液は、両親の末梢血又は胎児の臍帯血から得られる。前記の組織は、胎盤組織又は絨毛膜組織であって良い。前記の細胞は、未培養又は培養した羊水細胞、絨毛組織細胞であって良い。   In the present invention, genomic DNA derived from a sample is obtained from the blood, tissue or cells of the sample. Said blood is obtained from the peripheral blood of the parents or the cord blood of the fetus. The tissue may be placental tissue or chorionic tissue. The cells may be uncultivated or cultured amniotic fluid cells or villus tissue cells.

本発明において、ゲノムDNAの採集は、塩析法、カラムクロマトグラフィー 法、磁珠法、SDS法などの通常DNA抽出方法を用いって良く、磁珠法を用いることは好ましい。いわゆる磁珠法とは、血液、組織又は細胞は、細胞溶解物及びプロティナーゼKの作用を経て、暴露されたDNA分子を得て、特異性の磁珠を利用してDNA分子に可逆性の親和付着を行い、洗浄液で洗浄し、蛋白質、脂質などの不純物を除去した後、精製液でDNA分子を磁珠から洗脱剃る方法である。磁珠法は、メーカーから提供の方案に従って行わればよい。   In the present invention, genomic DNA may be collected by using a normal DNA extraction method such as a salting-out method, a column chromatography method, a magnetic bead method, or an SDS method, and it is preferable to use the magnetic bead method. In the so-called magnetic bead method, blood, tissue, or cells obtain an exposed DNA molecule through the action of cell lysate and proteinase K, and reversible affinity to the DNA molecule using a specific magnetic bead. In this method, adhesion is carried out, washing is performed with a washing solution, impurities such as proteins and lipids are removed, and then DNA molecules are washed from the magnetic beads with a purified solution. The magnetic beads method may be performed according to the scheme provided by the manufacturer.

本発明において、DNA分子の無作為切断処理は、酵素切断、霧化、超音、或いはHydroShear法を用いて行うことができる。好ましくは、超音法を用いて、例えば、Covaris社のS-seriesは、AFA技術に基づき、センサーから放出した音声エネルギー/機械エネルギーがDNAサンプルを通る時、溶解気体が気泡に形成する。エネルギーを取り除いた後、気泡が崩壊してDNA分子を断裂する能力を産生する。一定のエネルギー強度及び時間間隔などの条件(破壊パラメーターとして以下の例を挙げられる。Duty cycle 20%、Intensity 10、cycles/Burst 1000、Time 60s、Mode:power tracking)を設定することで、DNA分子を一定範囲の大きさ(例えば、200bp - 800bpまちまちである)まで破壊することができる。具体的な原理及び方法はメーカーから提供の説明書を参照し、DNA分子を比較的に集中した一定の大きさの断片に破壊すればよい。在本発明の一つの実施形態において、DNA分子は約500bp程度に破壊される。   In the present invention, the random cleavage treatment of DNA molecules can be performed using enzymatic cleavage, atomization, supersonic, or HydroShear method. Preferably, using the ultrasonic method, for example, the Covaris S-series is based on AFA technology, when the sound energy / mechanical energy emitted from the sensor passes through the DNA sample, the dissolved gas forms in bubbles. After removing energy, the bubbles collapse and produce the ability to rupture DNA molecules. By setting conditions such as constant energy intensity and time interval (destructive parameters include the following examples: Duty cycle 20%, Intensity 10, cycles / Burst 1000, Time 60s, Mode: power tracking), DNA molecules Can be destroyed to a certain range of sizes (eg, 200bp-800bp mixed). For specific principles and methods, refer to the instructions provided by the manufacturer, and the DNA molecules may be broken into relatively concentrated fragments of a certain size. In one embodiment of the invention, the DNA molecule is disrupted to about 500 bp.

本発明において、採用される配列決定方法は、ハイスループット配列決定方法Illumina/Solexa、ABI/SOLiD、Roche/454であって良い。配列決定タイプはsingle-end(単一方向)配列決定及びPair-end(両方向)配列決定であって良く、配列決定長さは50bp、90bp、又は100bpであって良い。本発明の一つの形態において、配列決定プラットフォームはIllumina/Solexaであり、配列決定タイプはPair-end配列決定であり、両方向位置関係を有する100bp程度のDNA配列分子を得る。   In the present invention, the sequencing method employed may be the high throughput sequencing methods Illumina / Solexa, ABI / SOLiD, Roche / 454. The sequencing type may be single-end (single direction) sequencing and pair-end (bidirectional) sequencing, and the sequencing length may be 50 bp, 90 bp, or 100 bp. In one form of the invention, the sequencing platform is Illumina / Solexa, the sequencing type is Pair-end sequencing, and a DNA sequence molecule of about 100 bp having a bi-directional positional relationship is obtained.

本発明において、配列決定深度は1〜30×であってよく、即ち総データ量はヒトゲノム長さの1-30倍であり、例えば本発明の一つの形態において、配列決定深度は2×であり、即ち2倍(6×109bp)である。具体的な配列決定深度は、検出した染色体変異断片の大きさにより確定してよく、配列決定深度は高いほど検出した欠失及び重複の断片は小さくなる。 In the present invention, the sequencing depth may be 1-30 ×, i.e. the total amount of data is 1-30 times the length of the human genome, for example in one form of the invention the sequencing depth is 2 ×. That is, it is double (6 × 10 9 bp). The specific sequencing depth may be determined by the size of the detected chromosomal variant fragment, and the higher the sequencing depth, the smaller the detected deletion and duplication fragments.

被検測のDNA分子は多数の被験サンプルから由来する場合、配列決定過程中にサンプルの区別を行うように、サンプル一個あたりに異なるラベル配列を加えてよく、(Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers forpyrosequencing hundreds of samples in multiplex. Nature Methods, 2008, 5(3))、同時に多数のサンプルの配列決定を実現する。   If the test DNA molecules are derived from a large number of test samples, a different label sequence may be added per sample to differentiate the samples during the sequencing process (Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers for pyrosequencing hundreds of samples in multiplex. Nature Methods, 2008, 5 (3)).

本発明において、ゲノム参考配列は、公共データベースから由来するものであって良い。例えば、ヒトゲノム配列は、NCBIデータベースでのヒトゲノム参考配列であって良い。本発明の一つの形態において、前記ヒトゲノム配列はNCBIデータベースでの36版(hg18;NCBI Build 36)のヒトゲノム参考配列である。   In the present invention, the genome reference sequence may be derived from a public database. For example, the human genome sequence may be a human genome reference sequence in the NCBI database. In one form of the invention, the human genome sequence is the 36th edition (hg18; NCBI Build 36) human genome reference sequence in the NCBI database.

配列対比は、いずれか一種の配列対比プログラム、例えば当業者にとって得られる短いオリゴヌクレオチド解析パッケージ(Short Oligonucleotide Analysis Package , SOAP)及びBWA対比(Burrows-Wheeler Aligner)にて行い、リードと参考ゲノム配列を対比し、リードの参考ゲノム上の位置を得る。配列対比は、プログラムで提供された黙認パラメーターで行い、或いは当業者に必要に応じてパラメーターを選択される。本発明の一つの形態において、採用される対比ソフトウェアはSOAPaligner/soap2である。   Sequence comparison is performed by any one of the sequence comparison programs, for example, short Oligonucleotide Analysis Package (SOAP) and BWA comparison (Burrows-Wheeler Aligner) available to those skilled in the art, and reads and reference genome sequences are performed. In contrast, the position of the read on the reference genome is obtained. Sequence comparison is performed with the tolerated parameters provided in the program, or parameters are selected as needed by one skilled in the art. In one form of the invention, the contrast software employed is SOAPaligner / soap2.

本発明において、SOAPといったソフトウェアによりリードを染色体配列データ上に対比される。ゲノムコピー数変異(copy number variation, CNV)のソフトウェア算法は、Broad研究院に開発されたMatlab脚本(群)であり、Segseqソフトウェア算法と呼ばれる。図2に示す。これは、新世代の配列決定技術で産生されたデータにより、癌化サンプルと正常サンプルを比較することで、コピー断片の断点(breakpoint)及びコピー数変異比率(tumor‐normal copy ratio)を算出し、同時に相応のP‐valueなどの統計データを推算し、低配列決定深度(10M PE: 32,36リード)の場合に50K程度のCNV断片を検出することができる。   In the present invention, reads are compared on chromosome sequence data by software such as SOAP. The software algorithm for genome copy number variation (CNV) is a Matlab script (s) developed at the Broad Research Institute and is called the Segseq software algorithm. It is shown in FIG. This is based on data generated by a new generation of sequencing technology, comparing cancerated samples with normal samples to calculate copy fragment breakpoints and copy number mutation ratios (tumor-normal copy ratios). At the same time, statistical data such as corresponding P-values can be estimated, and a CNV fragment of about 50K can be detected at low sequencing depth (10M PE: 32,36 reads).

本発明において、被検測サンプルに対してCNV解析の断点を探すとは、改良されたSegseqソフトウェア算法を利用して、正常サンプルを陰性対照として、参考ゲノム配列において、被検測サンプルと正常サンプルちの両側コピー数変異比率差異は一定の要求に満たす候補サイト、即ち断点を探すこと指す。前記断点を探すことには二つのステップを含む。即ち、(1)初期化。その目的は、候補点の選出にある。(2)隣接の断片の合併を繰り返す。その目的は、偽陽性率を低下することにある。   In the present invention, searching for a breakpoint in CNV analysis for a test sample is performed using the improved Segseq software algorithm, using a normal sample as a negative control, and a reference genome sequence as a normal sample. The difference in the copy number variation ratio on both sides of the sample refers to searching for candidate sites that satisfy certain requirements, that is, break points. Finding the break point involves two steps. (1) Initialization. The purpose is to select candidate points. (2) Repeat the merger of adjacent fragments. The purpose is to reduce the false positive rate.

具体的な原理及数学模型は、配列決定で得られたリードはゲノムDNA中の随机断片から由来するものである前提下、対比後一つの区域に落ちるリード数量はポアソン分布に従うべき。全ゲノム中の対比可能な区域長さをA(A=2.2×109)とし、正常サンプル及び被検測サンプルの参考配列に対比可能なリード本数をそれぞれaN及びaTとし、窓口(xL,xR)中に落ちたリード本数をそれぞれN(xL,xR)及びT(xL,xR)とし、窓口大きさL=xR-xL+1、そしてN及びTはそれぞれパラメーターは

及び

であるポアソン分布に従い、かつλT=r×a×λN、a=aT/aNがある。コピー数変異比率は

と定義され、サンプリングが大きいである条件下、R(xL,xR)は対数正規分布に近いである。D(xL,xR)=log(R(xL,x))-log(R(x,xR))、xL<x<xR、と定義する。そして、R(xL,xR)は対数正規分布に近いから、D(xL,xR)は正規分布に従うことにより、両側P-value(p(|D(xL,xR)|>d)を用いてあるサイト両側のコピー数変異比率差異は有意かどうかことを検定することができる。
The specific principle and mathematical model are based on the assumption that the reads obtained by sequencing are derived from random fragments in the genomic DNA, and the number of reads that fall in one area after the comparison should follow the Poisson distribution. The length of comparable area in the whole genome is A (A = 2.2 × 10 9 ), the number of reads that can be compared with the reference sequence of normal sample and test sample is a N and a T , respectively. L , x R ) is the number of leads dropped into N (x L , x R ) and T (x L , x R ) respectively, the window size L = x R -x L +1, and N and T are Each parameter is

as well as

According to the Poisson distribution, there are λ T = r × a × λ N and a = a T / a N. Copy number variation ratio is

R (x L , x R ) is close to a lognormal distribution under conditions where sampling is large. D (x L, x R) = log (R (x L, x)) - log (R (x, x R)), x L <x <x R, and defined. Since R (x L , x R ) is close to a lognormal distribution, D (x L , x R ) follows a normal distribution, so that the two-sided P-value (p (| D (x L , x R ) | > d) can be used to test whether the copy number variation ratio differences on both sides of a site are significant.

断点を探すステップ(1)中の初期化とは、候補点を予選する流れを指す。具体的には、参考配列上の位置bに対し、強引にその左右両側の局部窓口にw条正常リードを包含させ、即ちN(xL,b)=N(b,xR)=wを満たす。これらの位置において、

を満たすものを候補配列に加入し、Di(xL,xR)=0、b-w<i<b+wを満たすものを除去し、候補点に列入しない。適宜なpbkpを設定することで、p(|D(xL,xR)|)>pbkpに符合するすべてのサイトを得るまで上記のステップを繰り返し、適宜な数量の候補点を得る。
The initialization in the step (1) for searching for break points refers to the flow of qualifying candidate points. Specifically, for the position b on the reference sequence, the w article normal lead is forcibly included in the left and right local windows, that is, N (x L , b) = N (b, x R ) = w Fulfill. In these positions,

Those satisfying the condition are added to the candidate sequence, those satisfying D i (x L , x R ) = 0, bw <i <b + w are removed, and the candidate points are not entered. By setting an appropriate p bkp , the above steps are repeated until all sites matching p (| D (x L , x R ) |)> p bkp are obtained to obtain an appropriate number of candidate points.

本発明において、wは1を超える任意の整数で良い、例えば5 - 5000、好ましくは10 - 2000、更に好ましくは100〜1000であり、例えば300である。   In the present invention, w may be any integer greater than 1, for example 5 to 5000, preferably 10 to 2000, more preferably 100 to 1000, for example 300.

断点を探すステップ(2)に隣接の断片の合併を繰り返すとは、最尤処理により、その間のコピー数変異比率差異が比較的に小さい隣接の断片を合併させることで、偽陽性率を低下する。具体的に、ステップ(1)で得られた参考配列上の候補点集合をBc、Bc={b1,b2,...,bN}とし、候補点kの左右両側窓口をそれぞれ(bk-1,bk-1)及び(bk,bk+1)とし、両側窓口の間のコピー数変異比率差異比較的に小さいサイトを除去する。即ち、毎度、

最大のサイトkを削除し、合併区間(bk-1, bk+1)のp値を更新し、pmergeを設定し、すべてのサイトは

に満たすまで当該ステップを繰り返すと、残りのサイトはCNVを探すに必要な要求を満たすサイトである。
Repeating merging of adjacent fragments in the step (2) for searching for break points reduces the false positive rate by merging adjacent fragments with relatively small copy number variation ratio differences by maximum likelihood processing. To do. Specifically, the candidate point set on the reference sequence obtained in step (1) is set as B c , B c = {b 1 , b 2 , ..., b N }, (B k−1 , b k −1) and (b k , b k + 1 ) are used, respectively, and sites with relatively small copy number variation ratio differences between both sides of the window are removed. That is, every time,

Delete the largest site k, update the p-value of the merge section (b k-1 , b k + 1 ), set p merge , and all sites

If this step is repeated until the condition is satisfied, the remaining sites satisfy the requirements necessary for searching for CNVs.

本発明において、候補点を探してからCNV解析を行うとは、当該分野群体データ解析の経験値により被検測サンプルの正常サンプルに対するCNV比率≦0.75及び≧1.25をそれぞれ染色体コピー数変異の検出閾値とし、CNV比率≦0.75は染色体欠失であり、CNV比率≧1.25は染色体重複である。解析で得られた微細欠失/微細重複結果により染色体数字核型図を製作する。   In the present invention, performing CNV analysis after searching for candidate points means that CNV ratios ≦ 0.75 and ≧ 1.25 with respect to normal samples of test samples based on the experience value of the field group data analysis, respectively, detection thresholds for chromosome copy number mutations And a CNV ratio ≦ 0.75 is a chromosome deletion and a CNV ratio ≧ 1.25 is a chromosome duplication. Chromosome number karyotypes are created based on the microdeletion / microduplication results obtained in the analysis.

染色体数字核型はゲノム上のDNAコピー数変異を量化する技術であり、全ゲノム上の特定サイトのDNA短配列を単離して挙げる。例えば、人染色体において、染色体核型図を製作するのは、通常、一つの細胞中の染色体を最大(第1号染色体)から最小(第22号染色体)まで排列、性染色体(X及び/又はY)を最後に示す。これは本分野中に常用されている表示方法であり、本分野普通技術人員の能力範囲内にある。例えば、文章(Tian-Li Wang et al. Digital karyotyping. PNAS, 2002, vol. 99, no. 25, 16156-16161.)、(Henry Wood et al. Using next-generation sequencing for high resolution multiplex analysis of copy number variation from nanogram quantities of DNA from formalin-fixed paraffin-embedded specimens. Nucleic Acids Research, 2010, 38(14), doi: 10.1093/nar/gkq510.)或いは本発明実施例を参照して行って良い。   Chromosome number karyotype is a technique for quantifying DNA copy number variation on the genome, and a short DNA sequence at a specific site on the whole genome is isolated and listed. For example, in human chromosomes, chromosome karyotyping is usually done by arranging chromosomes in one cell from the largest (Chromosome 1) to the smallest (Chromosome 22), sex chromosomes (X and / or Y) is shown last. This is a display method commonly used in this field and is within the capability of ordinary technical personnel in this field. For example, text (Tian-Li Wang et al. Digital karyotyping. PNAS, 2002, vol. 99, no. 25, 16156-16161.), (Henry Wood et al. Using next-generation sequencing for high resolution multiplex analysis of copy Nucleic Acids Research, 2010, 38 (14), doi: 10.1093 / nar / gkq510.) or by referring to the embodiments of the present invention.

本発明において、そのうち、pbkpは設定されてよく、例えば対照サンプルデータにより最初の候補サイトが10、100、1000又は10000である時最小のp(|D(xL,xR)|)をpbkpと設定する。以下の形態でpbkpを選択してよい。正常サンプルを被検測サンプルとして、本発明のステップを執行してp(|D(xL,xR)|)を計算し、すべてのp(|D(xL,xR)|)を偽発見率制御(False discovery rate control、FDR control)を行い、最後にFDR閾値を突破するp(|D(xL,xR)|)をpbkpとする。例えば、実施例において、癌症サンプルと異なり、群体研究中に黙認の対照サンプル(例えば、癌旁)が存在していないので、炎黄群体のデータ(45名南方漢民族+45名北方漢民族)の深度配列決定データを利用してこれによる不足を補う。混合正常サンプル(ここで、炎黄一号以外の炎黄群体データのみを与える)を被検測サンプルとし、それぞれ本発明方法ステップa)〜c)のii)を執行し、すべてのp(|D(xL,xR)|)を偽発見率制御(False discovery rate control、FDR control)を行い、さいごにFDR閾値を突破するp(|D(xL,xR)|)をpbkpとする。 In the present invention, p bkp may be set, for example, the minimum p (| D (x L , x R ) |) when the first candidate site is 10, 100, 1000, or 10000 according to the control sample data. Set p bkp . P bkp may be selected in the following form. Using the normal sample as the measured sample, execute the steps of the present invention to calculate p (| D (x L , x R ) |) and calculate all p (| D (x L , x R ) |) False discovery rate control (FDR control) is performed, and finally p (| D (x L , x R ) |) that breaks through the FDR threshold is defined as p bkp . For example, in the example, unlike the cancer sample, there is no acquiescence control sample (eg, cancer) in the group study, so the data of the flame yellow colony (45 Southern Chinese people + 45 Northern Chinese people) Make up for this deficiency using depth sequencing data. A mixed normal sample (here, only the flame yellow colony data other than flame yellow No. 1 is given) is used as a test sample, and each of p (| D () is executed by executing steps ii) of the method steps a) to c) of the present invention. x L , x R ) |) is a false discovery rate control (FDR control), and p (| D (x L , x R ) |) p bkp To do.

本発明において、pmergeを設定してよく、例えば残りのサイトの規模がもとの1/2、1/10、1/100又は1/1000である時最大のp(|D(xL,xR)|)をpmergeと設定する。以下の方法でpbkpを選択してよい。正常サンプルを被検測サンプルとして、本発明方法ステップa)〜d)を執行し、合併した候補サイトの数量を最初サイトの数量の1/2、1/10、1/100又は1/1000にし、そのうち、最大のp(|D(xL,xR)|)はpmergeとして選択される。例えば、実施例において、黙認対照サンプル(例えば癌旁)が足りないので、黙認対照を合併する方法で閾値を選定することができない。混合正常サンプル(ここで、炎黄一号以外の炎黄群体データのみを与える)に対して、候補点集合中の候補点数量は最初の1/100になるまでに、合併ステップまで本発明の方法を執行し、そのうち、最大のp(|D(xL,xR)|)はpmergeとして選出され、その後の解析に用いられる。 In the present invention, p merge may be set. For example, when the size of the remaining site is 1/2, 1/10, 1/100, or 1/1000, the maximum p (| D (x L , Set x R ) |) to p merge . P bkp may be selected in the following manner. Using the normal sample as the test sample, execute the method steps a) to d) of the present invention, and set the number of merged candidate sites to 1/2, 1/10, 1/100, or 1/1000 of the initial site. Of these, the largest p (| D (x L , x R ) |) is selected as p merge . For example, in the examples, because there are not enough acquiescence control samples (eg, cancer), it is not possible to select a threshold in a way that combines acquiescence controls. For a mixed normal sample (where only flame yellow colony data other than flame yellow No. 1 is given), until the number of candidate points in the candidate point set becomes the first 1/100, the method of the present invention is performed until the merge step. The maximum p (| D (x L , x R ) |) is selected as p merge and used for further analysis.

本発明において、正規分布有意性検定P値の計算方法は、本分野中公知の方法を用いてよく、既存の多量のソフトウェア算法にて計算してもよい。これらの算法は本分野普通技術人員が得られるものである。   In the present invention, the normal distribution significance test P value may be calculated by a method known in this field, or by a large amount of existing software algorithms. These algorithms can be obtained by ordinary technical personnel in this field.

本発明において、既存のCNVと病気データベースとは、既存のコピー数変異と病気関連情報のデータベースを指す。本発明の一つの形態において、使用されるデータベース値DECIPHER (https://decipher.sanger.ac.uk/syndromes)、該データベースに挙げられた58種の微細欠失/微細重複症候群はいずれも欠失重複断片と病気関係明確の内容である。   In the present invention, the existing CNV and disease database refer to an existing database of copy number variation and disease related information. In one form of the invention, the database value DECIPHER (https://decipher.sanger.ac.uk/syndromes) used, none of the 58 microdeletion / microduplication syndromes listed in the database is missing. It is clear contents of lost and duplicated fragments and disease relations.

本発明の一つの形態において、絨毛組織に対して染色体CNV解析を行う具体的な方法は、以下のステップを含む。
1、DNA抽出及び配列決定:磁珠法ゲノムDNA抽出キット(例えばTiangen DP329)操作ハンドブックに従って絨毛組織DNAを抽出した後、Illumina/Solexa標準ライブラリ構築工程に従ってライブラリを構築する。この過程中、絨毛組織DNAは超音法で500bp程度に集中したDNA分子に無作為に切断され、両端に配列決定用ジョイントを加え、サンプル一個あたりに異なるラベル配列(index)を加えることで、一回配列決定で得られたデータ中に多数のサンプルのデータを区別することができる。
2、対比及び統計:第二世代の配列決定方法Illumina/Solexaを利用して配列決定(他の配列決定方法、例えばABI/SOLiDを用いて相同又は相似の効果を得る)を行い、サンプル一個あたりに一定大きさの断片のDNA配列、即ちリードを得る。それとNCBIデータベース中の標準ヒトゲノム参考配列とをSOAP対比し、測定されるDNA配列がゲノム相応位置に定位する情報を得る。重複配列のCNV解析への妨害を避けるために、ヒトゲノム参考配列と唯一対比したリード(Unique reads)のみを選択し、後続CNV解析の有效データとし、その数目aTを統計する。
3、データ解析:既知正常サンプルを陰性サンプルとし、SegSeq算法によるCNV解析で、CNV解析に必要な断点を探し、及び被検測サンプルの正常サンプルに対するコピー数変異比率を計算し、一定の検出閾値を設定することで、被検測サンプルの染色体断片微細欠失/微細重複状態を判断し、かつ染色体数字核型図を製作し、及び対応の遺伝子のアノテーションを行う。具体的な過程は以下のようになる。
1)初期化。同じ一本の染色体上に対し、一つの位置bに対し、その左右両側の局部窓口に300条正常リードを含むように、パラメーターwを設定し、即ちN(xL,b)=N(b,xR)=w=300。被検測サンプルのリード位置に、

を満たす物を候補配列に加入し、Di(xL,xR)=0、b-w<i<b+wを満たすものを除去する。pbkp関連のパラメーターを1000とし、当該初期化流れに1000個候補点を輸出させる。すべてのp(|D(xL,xR)|)>pbkpまで、上記の除去及び加入候補配列のステップを繰り返し、染色体c上の候補点集合Bc、Bc={b1,b2,...,bN}を輸出する。
2)隣接の断片の合併を繰り返す。初期化して候補点集合をえて、候補点kの左右両側窓口をそれぞれ(bk-1,bk-1)及び(bk,bk+1)とし、pmerge関連のパラメーターを10とし、当該反復分割流れにせいぜい10個偽陽性断片結果を輸出させる。すべての

まで、その間のコピー数変異比率差異比較的に小さい隣接の断片の合併を繰り返す、最終の解析CNVに必要な有效候補点、即ち断点を得る。
3)CNV解析。上記の最終断点を統計し、ある二つの断点の間の窓口を(xL,xR)とし、被検測サンプルの正常サンプルに対するCNV比率

を計算する。前記CNV比率≦0.75及び≧1.25をそれぞれ染色体断片欠失及び重複の検出閾値とし、解析して微細欠失/微細重複結果を得てから染色体数字核型図を製作し、かつ遺伝子のアノテーションを行う。
In one form of the invention, a specific method for performing chromosomal CNV analysis on villus tissue includes the following steps.
1. DNA extraction and sequencing: After extracting villus tissue DNA according to the operation manual of the magnetic bead method genomic DNA extraction kit (eg, Tiangen DP329), the library is constructed according to the Illumina / Solexa standard library construction process. During this process, villous tissue DNA is randomly cleaved into DNA molecules concentrated at about 500 bp by the ultrasonic method, adding sequencing joints at both ends, and adding a different label sequence (index) per sample, Multiple samples of data can be distinguished from the data obtained by single sequencing.
2. Contrast and statistics: Sequencing using the second generation sequencing method Illumina / Solexa (other sequencing methods such as ABI / SOLiD are used to obtain homologous or similar effects), per sample To obtain a DNA sequence of a fragment of a certain size, that is, a read. By comparing it with the standard human genome reference sequence in the NCBI database, information on the localization of the measured DNA sequence at the position corresponding to the genome is obtained. To avoid interference with the CNV analysis of overlapping sequences, the human genome reference sequence only contrasted with lead alone (Unique reads The) is selected, the chromatic效data of the subsequent CNV analysis, statistically the number eyes a T.
3. Data analysis: Using known normal samples as negative samples, CNV analysis using the SegSeq algorithm to find the breakpoints required for CNV analysis, and calculating the copy number variation ratio of the test sample to the normal sample to detect a certain amount By setting the threshold value, the chromosome fragment microdeletion / microduplication state of the test sample is judged, a chromosome number karyotype is created, and the corresponding gene is annotated. The specific process is as follows.
1) Initialization. For the same single chromosome, the parameter w is set so as to include 300 normal reads at the left and right local windows for one position b, that is, N (x L , b) = N (b , x R ) = w = 300. At the lead position of the sample to be measured,

Those satisfying the condition are added to the candidate sequence, and those satisfying D i (x L , x R ) = 0 and bw <i <b + w are removed. Let p bkp related parameters be 1000 and export 1000 candidate points to the initialization flow. The above removal and joining candidate sequence steps are repeated until all p (| D (x L , x R ) |)> p bkp and the candidate point set B c , B c = (b 1 , b on chromosome c 2 , ..., b N } are exported.
2) Repeat the merger of adjacent fragments. Initializing to obtain a candidate point set, the left and right sides of the candidate point k are (b k−1 , b k −1) and (b k , b k + 1 ) respectively, the p merge related parameter is set to 10, Export at most 10 false positive fragment results to the repetitive split flow. All

Until then, the candidate of the effective candidate point necessary for the final analysis CNV, that is, the break point, is obtained by repeating the merging of adjacent fragments with relatively small copy number variation ratio differences.
3) CNV analysis. Statistics of the above final breakpoints, and the contact between two breakpoints is (x L , x R ), and the CNV ratio of the test sample to the normal sample

Calculate The CNV ratios ≤ 0.75 and ≥ 1.25 are used as detection thresholds for chromosome fragment deletion and duplication, respectively, and after analysis, a fine deletion / fine duplication result is obtained, a chromosome number karyotype is produced, and gene annotation is performed. .

本発明の方法は動物に対して、好ましいのは哺乳動物に対して、特に人に対して染色体CNV解析を行うことに適用する。
例えば、本発明は、適用人群染色体に対してCNV解析を行い、遺伝諮問の提供及び臨床策略根拠の提供に有利であり、植入前診断又は産前診断を行い、患児の出生を効果的に防止することができる。本発明の適用人群は、通常染色体核型解析に異常がないが、以下の臨床表現がある人群であって良い。
1) 胚胎発育停止又は自然流産を何回もした女性及びその配偶;
2) 畸形胎児を出産したことがある女性及びその配偶;
3) 男性無***、貧***、不育症患者;
4) 原因不明の***患者;
上記の適用人群の例は本発明を説明するためのもので、本発明の範囲を限定するものではない。
The method of the invention applies to performing chromosomal CNV analysis on animals, preferably on mammals, especially on humans.
For example, the present invention is advantageous in performing CNV analysis on the applicable population chromosomes, providing genetic consultation and providing clinical strategy rationale, performing pre-implantation diagnosis or pre-natal diagnosis, and effectively preventing birth of the patient can do. The group of persons to whom the present invention is applied may be a group of persons who have no abnormality in chromosome karyotype analysis but have the following clinical expressions.
1) Women who have stopped embryo development or abortion many times and their spouses;
2) Women who have given birth to saddle-shaped fetuses and their spouses;
3) Male sperm, poor sperm, infertility patients;
4) Unexplained male infertility patients;
The above-mentioned examples of the application group are for explaining the present invention, and do not limit the scope of the present invention.

以下、実施例により本発明の実施形態を詳細に説明する。しかし、当業者は、以下の実施例は本発明を説明するためのもので、本発明の範囲を限定するものではないと理解できる。実施例において、具体的な条件を明記していないのは、通常条件又はメーカーの提案の条件で行う。用いられる試薬又は機器には、その生産メーカーを明記していないのはいずれも市場から入手可能な通常製品である。以下、括弧内はそれぞれの試薬又はキットのメーカーの製品番号である。使用される配列決定用ジョイント及びラベル配列はIllumina社のMultiplexing Sample Preparation Oligonutide Kitから由来する。   Hereinafter, embodiments of the present invention will be described in detail by way of examples. However, one of ordinary skill in the art will understand that the following examples are intended to illustrate the invention and not to limit the scope of the invention. In the examples, the specific conditions are not clearly described under normal conditions or conditions suggested by the manufacturer. Any reagent or instrument used does not specify its manufacturer, but is a regular product available on the market. Hereinafter, the numbers in parentheses are the product numbers of the respective reagents or kit manufacturers. The sequencing joints and label sequences used are derived from the Illumina Multiplexing Sample Preparation Oligonutide Kit.

実施例一、3例の組織に対して染色体CNV解析を行う
1.DNA抽出と配列決定
磁珠法ゲノムDNA抽出キット(TiangenDP329)操作流れに従って、妊婦自身は平衡転座保因者であって以前に一例の異常胎児を妊娠したことある妊婦に、産前スクリーン高危険(危険値1/9)で絨毛膜穿刺術の3例の胎児組織サンプル(以下、サンプル1、サンプル2及びサンプル3と略称し、合計2例絨毛及び1例胎盤組織サンプル)のDNAを抽出し、Qubit(Invitrogen、the Quant-iTTM dsDNA HS Assay Kit)で定量し、抽出したDNA総量は約500ngである。
Chromosome CNV analysis is performed on the tissues of Examples 1 and 3. DNA extraction and sequencing According to the operation flow of the Magnetic Genome Extraction Kit (TiangenDP329), a pregnant woman who is an equilibrium translocation carrier and has previously had an abnormal fetus is pregnant, high prenatal screen high risk ( Extract the DNA of 3 fetal tissue samples (hereinafter abbreviated as Sample 1, Sample 2 and Sample 3; 2 cases of villi and 1 placental tissue sample) at risk value 1/9) The total amount of DNA extracted by quantification with Qubit (Invitrogen, the Quant-iT dsDNA HS Assay Kit) is about 500 ng.

抽出した組織DNAは、完全のゲノムDNAであり、Illumina/Solexa標準ライブラリ構築流れに従ってライブラリを構築する。要するに、500bpに集中するように破壊されたDNA分子の両端に配列決定所用ジョイントを加え、サンプル一個あたりに異なるラベル配列(index)を加え、その後、芯片(flowcell)表面相補ジョイントと雑交し、一定の条件下核酸分子をクラスタ成長させ、その後Illumina Hiseq 2000に双末端配列決定により、位置関係を有する対の長さは100bpであるDNA断片配列を得る。   The extracted tissue DNA is complete genomic DNA, and a library is constructed according to the Illumina / Solexa standard library construction flow. In short, add sequencing joints to both ends of a DNA molecule that has been disrupted to concentrate at 500 bp, add a different label sequence (index) per sample, and then cross with a flowcell surface complementary joint, Nucleic acid molecules are clustered under certain conditions, followed by bi-terminal sequencing in Illumina Hiseq 2000 to obtain a DNA fragment sequence with a positional pair length of 100 bp.

その後、上記の組織から得られる約500ngのDNAを、Covaris S-seriesを用いて500bp断片に無作為に切断してから、修正後のIllumina/Solexa標準ライブラリ構築を行い、具体的な流れは先行技術(http://www.illumina.com/に提供されるIllumina/Solexa標準ライブラリ構築説明書を参照)を参照する。2100 Bioanalyzer (Agilent)でDNAライブラリの大きさ及び挿入した断片の大きさを確定し、QPCR精確定量してから、機械で配列決定することができる。サンプルごとに、最後得られたデータ総量は6×109bpである。 After that, about 500 ng of DNA obtained from the above tissue was randomly cut into 500 bp fragments using Covaris S-series, and the modified Illumina / Solexa standard library was constructed. Refer to the technology (see Illumina / Solexa standard library building instructions provided at http://www.illumina.com/). The size of the DNA library and the size of the inserted fragment can be determined with 2100 Bioanalyzer (Agilent), and after quantitative determination of QPCR, sequencing can be performed with a machine. For each sample, the total amount of data last obtained is 6 × 10 9 bp.

本実施例中、上記の3例組織から得られるDNAサンプルに対して、Illumina/Solexa官方に公布されたCluster Station及びHiseq 2000(PE sequencing)説明書に従って操作を行う。   In this example, the DNA samples obtained from the above three tissues are operated according to the Cluster Station and Hiseq 2000 (PE sequencing) instructions promulgated by Illumina / Solexa officials.

2.対比と統計
ステップ1のように配列決定を行った後、サンプルごとに、前記ラベル配列により区別されて約500bpの一定大きさ断片のDNA配列、即ちリードを得る。対比ソフトウェアSOAPaligner/soap2を利用して、配列決定で得られたリードとNCBIデータベース中の36版(hg18;NCBI Build 36)のヒトゲノム参考配列を対比し、測定されるDNA配列がゲノム相応位置に定位する情報を得る。ヒトゲノム参考配列と唯一対比する唯一リードを選択し、後続CNV解析の有效データとし、その数目aTを統計する。
2. Contrast and statistics After sequencing as in step 1, each sample is distinguished by the label sequence to obtain a DNA sequence of a constant size fragment of about 500 bp, ie, a read. Using the comparison software SOAPaligner / soap2, the reads obtained by sequencing are compared with the human genome reference sequence of the 36th edition (hg18; NCBI Build 36) in the NCBI database, and the measured DNA sequence is localized at the position corresponding to the genome. Get information to do. Select only leads to the human genome reference sequence only contrast, the chromatic效data of the subsequent CNV analysis, statistically the number eyes a T.

本実施例中、知られた正常サンプルの炎黄ゲノムDNAサンプルを選択して陰性サンプル対照とする(Jun Wang、et al. The diploid genome sequence of an Asian individual. Nature. 2008 Nov 6; 456(7218): 60 - 65)   In this example, a known normal yellow flame yellow DNA sample is selected as a negative sample control (Jun Wang, et al. The diploid genome sequence of an Asian individual. Nature. 2008 Nov 6; 456 (7218) : 60-65)

被検測サンプルと同じのデータ量を取り、標準化した後、その有效リード数目
を統計し、aN=68750810。上記のサンプル1、サンプル2及びサンプル3の有效リード数目aTを統計し、それぞれは25934245、34164361及び32085646である。
After taking the same amount of data as the measured sample and standardizing it, the number of effective leads
Statistics, a N = 68750810. The number of effective leads a T of Sample 1, Sample 2, and Sample 3 is statistically calculated as 25934245, 34164361, and 32085646, respectively.

3.データ解析
1)初期化。SegSeq算法を運行し、一本染色体上の位置bに対して、位置b左右両側の局部窓口に300条正常リードを包含させるように、パラメーターw=300を設定し、即ちN(xL,b)=N(b,xR)=w=300。被検測サンプルのリード位置に、

を満たすものを候補配列に加入し、Di(xL,xR)=0、b-w<i<b+wを満たすものを除去する。pbkp関連のパラメーターを1000とし、当該初期化流れに1000個候補点を出させる。すべてのp(|D(xL,xR)|)>pbkpまで、上記の除去及び加入候補配列のステップを繰り返し、染色体
上の候補点集合Bc、Bc={b1,b2,...,bN}を輸出する。
2) 隣接の断片の合併を繰り返す。初期化して候補点集合を得て、候補点kの左右両側窓口をそれぞれ(bk-1,bk-1)及び(bk,bk+1)とし、pmerge関連のパラメーターを10とし、当該反復合併流れにせいぜい10個偽陽性断片結果を輸出させる。すべての

まで、両側窓口の間のコピー数変異比率差異比較的に小さいサイトを除去し、最終の解析CNVに必要な有效断点を得る。
3) CNV解析。上記の最終断点を統計し、ある二つの断点の間の窓口を(xL,xR)とし、被検測サンプルの正常サンプルに対するCNV比率

を計算する。前記CNV比率≦0.75及び≧1.25をそれぞれ染色体断片欠失及び重複の検出閾値とし、解析して微細欠失/微細重複結果を得てから、染色体数字核型図を製作し、arrayCGH(The Fetal DNA Chip, http://www.fetalmedicine.hk/en/Fetal_DNA_Chip.asp )と比較する。DECIPHERデータベースにより病気分類を行って遺伝子のアノテーションを行う。
4) CNV解析結果を出して数字核型図を製作する。
陰性対照結果コピー数はいずれも正常であり、3例サンプルのCNV結果及び検出結果検証並び主要遺伝子それぞれは下表2と3に示す。
3. Data analysis 1) Initialization. Operate the SegSeq algorithm and set the parameter w = 300 for position b on a single chromosome to include 300 normal reads at the local counters on the left and right sides of position b, that is, N (x L , b ) = N (b, x R ) = w = 300. At the lead position of the sample to be measured,

Those satisfying the condition are added to the candidate sequence, and those satisfying D i (x L , x R ) = 0 and bw <i <b + w are removed. Let p bkp- related parameters be 1000, and let 1000 candidate points appear in the initialization flow. Repeat the above removal and joining candidate sequence steps until all p (| D (x L , x R ) |)> p bkp
Export the above candidate point set B c , B c = {b 1 , b 2 , ..., b N }.
2) Repeat the merger of adjacent fragments. Initialization is performed to obtain a set of candidate points, and the left and right sides of the candidate point k are (b k-1 , b k -1) and (b k , b k + 1 ), respectively, and the p merge related parameter is set to 10. Export at most 10 false positive fragment results in the recurrent merge process. All

Until then, remove the relatively small site of copy number variation ratio difference between both sides of the window, and obtain the necessary breakpoint for the final analysis CNV.
3) CNV analysis. Statistics of the above final breakpoints, and the contact between two breakpoints is (x L , x R ), and the CNV ratio of the test sample to the normal sample

Calculate The CNV ratios ≦ 0.75 and ≧ 1.25 are used as detection thresholds for chromosome fragment deletion and duplication, respectively, and after analyzing to obtain fine deletion / fine duplication results, a chromosome number karyotype is prepared and arrayCGH (The Fetal DNA Chip, http://www.fetalmedicine.hk/en/Fetal_DNA_Chip.asp). Use DECIPHER database to classify diseases and annotate genes.
4) Generate CNV analysis results and create a numerical karyotype.
The negative control result copy numbers are all normal, and the CNV result and detection result verification of 3 samples and the major genes are shown in Tables 2 and 3 below.

上記の結果により分かられるように、ハイスループット配列決定で検出された染色体微細欠失及び微細重複区域と既存のarrayCGH(The Fetal DNA Chip, http://www.fetalmedicine.hk/en/Fetal_DNA_Chip.asp )の結果は一致し、具体的な数字核型図は図3A、3B及び3Cに示す。   As can be seen from the above results, chromosomal microdeletions and microduplications detected by high-throughput sequencing and the existing arrayCGH (The Fetal DNA Chip, http://www.fetalmedicine.hk/en/Fetal_DNA_Chip.asp ) Results are consistent, and specific numeric karyotypes are shown in FIGS. 3A, 3B and 3C.

実施例二、別の3例絨毛組織に対して染色体CNV解析を行う
3例の絨毛組織(以下、サンプル4、サンプル5及びサンプル6と略称する)は、実施例一と同様な処理方法及び配列決定過程を経てから、算法に入力データを得た。その結果を高解像度核型解析結果と比較する。
Example 2, Chromosome CNV analysis is performed on 3 other cases of villus tissue
Three villous tissues (hereinafter abbreviated as Sample 4, Sample 5, and Sample 6) were subjected to the same processing method and sequencing process as in Example 1, and then input data was obtained by calculation. The result is compared with the result of high resolution karyotype analysis.

本実施例のデータ解析過程中、実施例一と同様に、既知正常サンプルの炎黄ゲノムDNAサンプルを陰性サンプル対照として選択し、被検測サンプルに近いデータ量を取り、標準化してからその有效リード数目aNを統計し、aN=68750810。上記のサンプル4、サンプル5及びサンプル6の有效リード数目aTを統計し、それぞれは44797212、44086450及び45374254である。他のデータ解析の流れ及び関連パラメーターの設定は、いずれも実施例一と同じであり、最後、解析して微細欠失/微細重複結果を得てから、染色体数字核型図を製作して遺伝子のアノテーションを行う。 During the data analysis process of this example, as in Example 1, a flame yellow genomic DNA sample of a known normal sample was selected as a negative sample control, the amount of data close to the test sample was taken, standardized, and the effective read The second a N is statistics, a N = 68750810. The number of effective leads a T of sample 4, sample 5 and sample 6 is statistically calculated as 44797212, 44086450 and 45374254, respectively. The other data analysis flow and related parameter settings are the same as in Example 1. Finally, after analyzing and obtaining the microdeletion / microduplication result, the chromosome number karyotype is created and the gene is Annotate.

陰性対照結果コピー数はいずれも正常であり、3例サンプルのCNV結果及び検出結果検証及び主要遺伝子はそれぞれ下表4と5に示す。   The negative control result copy numbers are all normal, and the CNV results, detection result verification, and major genes of the 3 samples are shown in Tables 4 and 5 below, respectively.

上記の結果により分かられるように、3例絨毛膜組織は、ハイスループット配列決定で検出された染色体微細欠失及び微細重複区域と既存のarrayCGH(The Fetal DNA Chip, http://www.fetalmedicine.hk/en/Fetal_DNA_Chip.asp )の結果が一致し、具体的な数字核型図は図4A-Cに示す。   As can be seen from the above results, 3 cases of chorionic tissue consisted of chromosomal microdeletions and microduplication areas detected by high-throughput sequencing and existing arrayCGH (The Fetal DNA Chip, http: //www.fetalmedicine. The results of hk / en / Fetal_DNA_Chip.asp) are in agreement, and specific numerical karyotypes are shown in FIGS. 4A-C.

上記の結果により分かられるように、3例絨毛膜組織は、ハイスループット配列決定で検出された染色体微細欠失及び微細重複区域と既存の高解像度核型解析の結果は一致する。   As can be seen from the above results, in the 3 cases of chorionic tissue, the chromosomal microdeletion and microduplication areas detected by high-throughput sequencing agree with the results of existing high-resolution karyotype analysis.

本発明の具体的な実施形態はすでに詳細な説明されたものの、当業者は公開されたすべての示唆により、その細節を修正及び変更できると理解することができる。これらの変更はいずれも本発明の保護範囲内のものである。本発明の全部範囲は権利要求及びその任何等同物に与えられる。
While specific embodiments of the present invention have been described in detail, those skilled in the art will appreciate that the details may be modified and changed by all published suggestions. Any of these modifications are within the protection scope of the present invention. The full scope of the invention is given to the rights requirement and any such equivalents.

Claims (11)

a)被検測サンプル及び正常サンプルから得られたゲノムDNA分子をぞれぞれ無作為に切断してDNA断片を得て、前記DNA断片の配列決定を行い配列決定のリードを獲得するステップ、
b)ステップaで測定したDNA配列とサンプルの種のゲノム参考配列を対比して測定したDNA配列を参考配列上に定位し、参考配列上に唯一の位置を有するリードのみを選出して解析を行うステップ、
c)参考配列において以下の条件に満足する断点、即ち被検測サンプルの対比結果と正常サンプルの対比結果を比べ、サイト両側にコピー数変異比率が異なるサイトを探すステップ、具体の手順は以下の通りである:
i)参考配列上の各々サイトbに対して、強引にその左右両側の局部窓口にw条正常リードを包含させ、即ちN(xL,b)=N(b,xR)=wを満たし、式中に、N(xL,xR)は正常サンプルの窓口(xL,xR)中に落ちた対比本数であり、wは1を超える整数であり、
ii)これらの位置において、

に符合するサイトを選別し、Di(xL,xR)=0、b-w<i<b+wに符合するサイトを除去し、検定統計量D(xL,xR)に対して正規分布の両側有意性検定を行うことで、各々サイトのp(|D(xL,xR)|)は得られ、式中に、D(xL,xR)=log(R(xL,x))-log(R(x,xR))、

、また、正常サンプルリードと被検測サンプルリード中唯一に参考配列上に対比したリード本数はそれぞれaN及びaTであり、窓口(xL,xR)中に落ちた参考配列の唯一対比したリード本数はそれぞれN(xL,xR)及びT(xL,xR)であり、
iii)pbkpを設定し、p(|D(xL,xR)|)>pbkpに符合するすべてのサイトを得るまで上記のステップを繰り返し、得られた候補サイト集合はBc、Bc={b1,b2,...,bN}であり、
d)ステップcで得られた参考配列上の候補サイト集合Bc、Bc={b1,b2,...,bN}にある各サイトkの両側に窓口(bk-1,bk-1)及び(bk,bk+1)が存在し、両側窓口の間のコピー数変異比率の差異が比較的に小さいサイトを除去し、即ち毎回に

最大のサイトkを削除し、また区間(bk-1,bk+1)のp値を更新・合併し、pmergeを設定することで、すべてのサイトは

に満たすまで当該ステップを繰り返して染色体コピー数変異が発生する断点を得るステップ、
を含む染色体コピー数変異の検出方法。
a) randomly cleaving genomic DNA molecules obtained from a test sample and a normal sample to obtain a DNA fragment, sequencing the DNA fragment and obtaining a sequencing read;
b) Localize the DNA sequence measured by comparing the DNA sequence measured in step a and the genomic reference sequence of the sample seed on the reference sequence, and select and analyze only the reads that have a unique position on the reference sequence. The steps to do,
c) A step where the reference sequence satisfies the following conditions in the reference sequence, that is, the comparison result of the sample to be tested and the comparison result of the normal sample are compared, and a site having a different copy number variation ratio is found on both sides of the site. As follows:
i) For each site b on the reference sequence, forcibly include the w article normal lead at the left and right local contacts, that is, satisfy N (x L , b) = N (b, x R ) = w , Where N (x L , x R ) is the number of contrasts dropped in the normal sample window (x L , x R ), w is an integer greater than 1,
ii) In these positions:

, Select sites that match D i (x L , x R ) = 0, bw <i <b + w, and normalize for the test statistic D (x L , x R ) By performing the two-sided significance test of the distribution, p (| D (x L , x R ) |) of each site is obtained, and D (x L , x R ) = log (R (x L , x))-log (R (x, x R )),

In addition, the number of leads compared to the reference sequence only in the normal sample lead and the test sample lead is a N and a T , respectively, and the only comparison of the reference sequence dropped in the window (x L , x R ) The number of leads is N (x L , x R ) and T (x L , x R ),
iii) p bkp is set, and the above steps are repeated until all the sites matching p (| D (x L , x R ) |)> p bkp are obtained, and the obtained candidate site sets are B c , B c = {b 1 , b 2 , ..., b N },
d) A window (b k-1 , bk-1 , b) on each side of each site k in the candidate site set B c , B c = {b 1 , b 2 , ..., b N } on the reference sequence obtained in step c. b k -1) and (b k , b k + 1 ) exist, and sites with relatively small differences in copy number variation ratios between the two-side windows are removed, i.e., every time

By deleting the largest site k, updating and merging the p values in the interval (b k-1 , b k + 1 ), and setting p merge , all sites

Repeating the steps until the point is satisfied to obtain a breakpoint at which chromosomal copy number variation occurs,
A method for detecting a chromosomal copy number mutation.
前記wは100〜1000の整数である請求項1に記載の方法。   The method of claim 1, wherein w is an integer from 100 to 1000. pbkpは侯補サイトが10、100、1000又は10000である時最小のp(|D(xL,xR)|)であるか、或いは、以下のように選択されるものである:正常サンプルを被検測サンプルとして、前記ステップa)からc)のii)まで執行し、すべてのp(|D(xL,xR)|)について偽発見率制御(FDR)で濾過し、濾過したサイト中の最後にFDR閾値を突破するp(|D(xL,xR)|)をpbkpとすし、その偽発見率制御を行うステップは、被検定データ集合を有意性(P値)で小さいから大きいまで排列し、これらのランク(r)を得て、上から下に

(Pkは第k個位置のP値であり、rkは第k個位置のランクであり、Nは総サイト個数であり、αは有意性レベル、例えば0.01である)に満たす最後のサイトkまで検定し、k及びその前のすべてのサイトを保留し、その後の偽陽性サイトを除去するステップである、請求項1又は2に記載の方法。
p bkp is the minimum p (| D (x L , x R ) |) when the compensation site is 10, 100, 1000 or 10000, or is selected as follows: normal Execute the sample from step a) to c) ii) as a sample to be measured, filter all p (| D (x L , x R ) |) with false discovery rate control (FDR), and filter p to break through FDR threshold finally in sites (| D (x L, x R) |) of p bkp Tosushi, performing the false discovery rate control, significance of test data sets (P value ) From small to large and get these ranks (r) from top to bottom

(P k is the P value of the k-number position, r k is the rank of the k-number position, N is the total site number, alpha is significance level, for example a is 0.01) after the site to meet the 3. The method according to claim 1 or 2, wherein the method comprises the steps of testing up to k, suspending k and all previous sites, and removing subsequent false positive sites.
pmergeは、残りのサイト数はもと侯補サイト数の1/2、1/10、1/100又は1/1000である時の最大のp(|D(xL,xR)|)であるか、或いは、以下のように選択されるものであり、即ち、正常サンプルを被検測サンプルとして、合併した候補サイト数を最初サイト数の1/2、1/10、1/100又は1/1000になるように、上記のステップa)〜d)を執行し、最大のp(|D(xL,xR)|)はpmergeとして選ばれる、請求項1〜3のいずれか一項に記載の方法。 p merge is the maximum p (| D (x L , x R ) |) when the number of remaining sites is 1/2, 1/10, 1/100 or 1/1000 of the number of compensation sites Or selected as follows: normal sample as test sample, merged candidate site number is 1/2, 1/10, 1/100 of initial site number or Any of claims 1-3, wherein steps a) to d) are performed so that 1/1000, and the maximum p (| D (x L , x R ) |) is chosen as p merge . The method according to one item. 染色体コピー数変異が発生したサイトを得た後、
e)ステップdで得られた断点に基づきCNV解析を行い、正常サンプルに対する被検測サンプルのCNV比率は微細欠失検出閾値以下であるサイトを微細欠失サイトとして選択し、正常サンプルに対する被検測サンプルのCNV比率は微細重複検出閾値以上であるサイトを微細重複サイトとして選択するステップ及び、
f)前記微細欠失サイト及び/又は微細重複サイトを既存のCNV及び病気データベースに対照して遺伝子注釈と機能解析を行い、染色体の微細欠失及び/または微細重複症候群病気のタイプを注釈するステップ、
を更に含む請求項1〜4のいずれか一項に記載の方法。
After obtaining the site where the chromosomal copy number variation occurred,
e) Perform CNV analysis based on the break point obtained in step d, select a site where the CNV ratio of the test sample to the normal sample is less than or equal to the fine deletion detection threshold, and select the site for the normal sample. Selecting a site where the CNV ratio of the inspection sample is equal to or greater than the fine overlap detection threshold as a fine overlap site; and
f) Annotating the type of chromosomal microdeletion and / or microduplication syndrome disease by performing genetic annotation and functional analysis of the microdeletion site and / or microduplication site against existing CNV and disease databases ,
The method according to any one of claims 1 to 4, further comprising:
前記微細欠失検出閾値は0.75であり、微細重複検出閾値は1.25である請求項5に記載の方法。   6. The method of claim 5, wherein the fine deletion detection threshold is 0.75 and the fine duplication detection threshold is 1.25. 前記サンプルは細胞、血液、又は組織から由来のものである、前記いずれかの請求項に記載の方法。   A method according to any preceding claim, wherein the sample is derived from cells, blood or tissue. サンプルゲノムDNA分子無作為に切断し的ステップは、化学又は物理断裂方式で行い、前記化学又は物理断裂方式は酵素切断破壊、霧化、超音又はHydroShear法破壊を含む、前記いずれかの請求項に記載の方法。   Any of the preceding claims, wherein the random step of the sample genomic DNA molecule is performed in a chemical or physical disruption manner, wherein the chemical or physical disruption manner comprises enzymatic cleavage disruption, atomization, supersonic or HydroShear disruption. The method described in 1. 前記DNA断片配列決定ステップはハイスループット配列決定技術を利用して行ない、前記ハイスループット配列決定技術はIllumina/Solexa、ABI/SOLiD又はRoche/454配列決定技術を含む、前記いずれかの請求項に記載の方法。   The DNA fragment sequencing step is performed using high-throughput sequencing technology, wherein the high-throughput sequencing technology includes Illumina / Solexa, ABI / SOLiD or Roche / 454 sequencing technology. the method of. 前記DNA断片配列決定ステップに採取される配列決定深度範囲は1〜30×である、前記いずれかの請求項に記載の方法。   The method according to any of the preceding claims, wherein the sequencing depth range taken in the DNA fragment sequencing step is 1-30x. コピー数変異比率値により染色体数字核型図を製作するステップを更に含む、請求項5又は6に記載の方法。
7. The method according to claim 5 or 6, further comprising the step of producing a chromosomal numeral karyotype with copy number variation ratio values.
JP2014537440A 2011-10-28 2011-10-28 Method for detecting chromosomal microdeletions and microduplications Pending JP2014530629A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014537440A JP2014530629A (en) 2011-10-28 2011-10-28 Method for detecting chromosomal microdeletions and microduplications

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014537440A JP2014530629A (en) 2011-10-28 2011-10-28 Method for detecting chromosomal microdeletions and microduplications

Publications (2)

Publication Number Publication Date
JP2014530629A true JP2014530629A (en) 2014-11-20
JP2014530629A5 JP2014530629A5 (en) 2016-04-21

Family

ID=51938962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014537440A Pending JP2014530629A (en) 2011-10-28 2011-10-28 Method for detecting chromosomal microdeletions and microduplications

Country Status (1)

Country Link
JP (1) JP2014530629A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110462056A (en) * 2017-05-19 2019-11-15 深圳华大生命科学研究院 Samples sources detection method, device and storage medium based on DNA sequencing data
CN114220481A (en) * 2021-11-25 2022-03-22 深圳思勤医疗科技有限公司 Method, system and computer readable medium for performing karyotyping of a sample to be tested based on whole genome sequencing
CN116732158A (en) * 2022-04-15 2023-09-12 常州市妇幼保健院 22q11 microdeletion and/or micro-repetition detection primer set, primer probe composition, kit and application thereof

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6015048014; Nat. Methods. Vol.6,No.1, 2009, p99-103,Suppl.p1-30 *
JPN6015048017; American J. Public Health Vol.86,No.5, 1996, p726-728 *
JPN6015048019; BMC Bioinformatics Vol.12,No.205, 201105, p1-12 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110462056A (en) * 2017-05-19 2019-11-15 深圳华大生命科学研究院 Samples sources detection method, device and storage medium based on DNA sequencing data
CN110462056B (en) * 2017-05-19 2023-08-29 深圳华大生命科学研究院 Sample source detection method, device and storage medium based on DNA sequencing data
CN114220481A (en) * 2021-11-25 2022-03-22 深圳思勤医疗科技有限公司 Method, system and computer readable medium for performing karyotyping of a sample to be tested based on whole genome sequencing
CN114220481B (en) * 2021-11-25 2023-09-08 深圳思勤医疗科技有限公司 Method, system and computer readable medium for completing karyotyping of a sample to be tested based on whole genome sequencing
CN116732158A (en) * 2022-04-15 2023-09-12 常州市妇幼保健院 22q11 microdeletion and/or micro-repetition detection primer set, primer probe composition, kit and application thereof

Similar Documents

Publication Publication Date Title
US20220010371A1 (en) Rapid aneuploidy detection
US11312997B2 (en) Methods and processes for non-invasive assessment of genetic variations
TWI661049B (en) Using cell-free dna fragment size to determine copy number variations
JP6521956B2 (en) Method for determining copy number mutations in sexual chromosomes
TW201317362A (en) Method for detecting chromosome copy number variation
JP6534191B2 (en) Method for improving the sensitivity of detection in determining copy number variation
JP6659672B2 (en) Detection of fetal chromosome partial aneuploidy and copy number variation
JP6328934B2 (en) Noninvasive prenatal testing
JP6153874B2 (en) Method for non-invasive prenatal ploidy calls
WO2017084624A1 (en) Method for simultaneously completing gene locus, chromosome and linkage analysis
KR20180020137A (en) Error suppression of sequenced DNA fragments using redundant reading with unique molecule index (UMI)
JP2015534807A (en) Non-invasive method for detecting fetal chromosomal aneuploidy
RU2597981C2 (en) Method and system for determining nucleotide sequence in given region of foetal genome
JP2015506684A (en) Method, system, and computer-readable storage medium for determining presence / absence of genome copy number variation
AU2016269332B2 (en) Multiplexed parallel analysis of targeted genomic regions for non-invasive prenatal testing
TW202102687A (en) Determining linear and circular forms of circulating nucleic acids
CN105555970A (en) Method and system for simultaneously performing target gene haplotype analysis and chromosomal aneuploidy detection
JP2014530629A (en) Method for detecting chromosomal microdeletions and microduplications
WO2018219581A1 (en) Method and system for nucleic acid sequencing
RU2777072C1 (en) Method for identifying fetal aneuploidy in a blood sample of the pregnant woman
WO2016052405A1 (en) Noninvasive method and system for determining fetal chromosomal aneuploidy

Legal Events

Date Code Title Description
A524 Written submission of copy of amendment under section 19 (pct)

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20141024

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141024

A524 Written submission of copy of amendment under section 19 (pct)

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20141215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151201

A524 Written submission of copy of amendment under section 19 (pct)

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20160301

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160623