KR20200010463A - 미지의 유전자형의 기여자로부터의 dna 혼합물의 정확한 컴퓨팅 분해를 위한 방법 - Google Patents

미지의 유전자형의 기여자로부터의 dna 혼합물의 정확한 컴퓨팅 분해를 위한 방법 Download PDF

Info

Publication number
KR20200010463A
KR20200010463A KR1020197037926A KR20197037926A KR20200010463A KR 20200010463 A KR20200010463 A KR 20200010463A KR 1020197037926 A KR1020197037926 A KR 1020197037926A KR 20197037926 A KR20197037926 A KR 20197037926A KR 20200010463 A KR20200010463 A KR 20200010463A
Authority
KR
South Korea
Prior art keywords
allele
nucleic acid
contributors
sample
probability
Prior art date
Application number
KR1020197037926A
Other languages
English (en)
Other versions
KR102543270B1 (ko
Inventor
콘라드 셰플러
요한 펠릭스 슐레진저
라이언 켈리
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20200010463A publication Critical patent/KR20200010463A/ko
Application granted granted Critical
Publication of KR102543270B1 publication Critical patent/KR102543270B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Finishing Walls (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

핵산 샘플로부터 획득되고, 다형성 유전자좌에서의 대립유전자에 맵핑된 핵산 서열 판독물을 제공받고; 상기 핵산 서열 판독물을 사용하여, 상기 다형성 유전자좌에서의 상기 대립유전자 각각에 대한 대립유전자 계수치를 결정하고; 확률적 혼합 모델을 상기 대립유전자 계수치에 적용하고, 확률 분포를 사용하는 확률적 혼합 모델을 사용하여 상기 다형성 유전자좌에서의 상기 대립유전자 계수치를 모델링하고; 상기 확률적 혼합 모델을 사용하여, 상기 핵산 샘플에서 상기 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하고; 상기 1명 이상의 기여자 중에서 특정 기여자가 특정 유전자형을 가질 확률을 결정하고; 상기 사후 확률에 기초하여, 상기 핵산 샘플이 상기 특정 기여자로부터의 핵산을 포함한다는 것을 콜링하기 위한, 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 정량하기 위한 컴퓨터 방법 및 시스템.

Description

미지의 유전자형의 기여자로부터의 DNA 혼합물의 정확한 컴퓨팅 분해를 위한 방법
관련 출원의 상호 참조
본 출원은 전문이 본 명세서에 참고로 포함된 2017년 6월 20일자로 출원된 미국 가출원 제62/522,618호에 대한 우선권을 주장한다.
밀접하게 관련된 게놈의 핵산(예를 들어, DNA 또는 RNA) 혼합물로부터의 서열분석(sequencing) 데이터는 연구뿐만 아니라 임상 환경에서 빈번하게 발견되며, 혼합 기여자(contributor)를 정량하는 것은 본래 게놈이 미지인 경우에는 도전이었다. 예를 들어, 미생물학 및 메타지노믹스(metagenomics)와 관련하여, 연구자 및 임상의는 환경 샘플에서 동일한 종의 밀접하게 관련된 박테리아 균주를 정량하는 것이 필요할 수 있다. 법의학(forensics)의 설정에서, 법집행관은 다수의 개체의 DNA를 함유하는 혈액 샘플로부터 인간 개체를 정량할 뿐만 아니라 식별하는 것을 필요로 할 수 있다.
또 다른 응용은 차세대 서열분석(Next Generation Sequencing: NGS) 커플링된 액체 생검이다. NGS-커플링된 액체 생검은 다양한 임상 설정에서 잠재적인 응용을 갖는 최근에 대두된 진단 전략이다. 기관 또는 조직 이식과 관련하여, NGS-커플링된 액체 생검은 수용자 혈액에서 동종이계 DNA의 양을 정량함으로써 동종이계 이식의 건강을 모니터링하기 위한 비침습적 접근법이다. 일부 응용에서, 공여자(donor) 및 수용자(recipient) 게놈은 미지이거나 또는 부분적으로 미지이다.
본 명세서에 제공된 일부 구현예는 미지의 유전자형의 2명 이상의 기여자의 핵산을 포함하는 핵산 혼합물 샘플의 데콘볼루션(deconvolution)을 위한 컴퓨터 구현 방법 및 시스템을 제공한다. 본 개시내용의 일 양상은 상이한 게놈을 갖는 2명 이상의 기여자의 핵산(예를 들어, DNA 또는 RNA)을 포함하는 핵산 샘플에서 핵산 분율을 정량하는 방법에 관한 것이다. 일부 구현예에서, 핵산 혼합물 샘플은 하기에 기재된 바와 같은, 생물학적 조직, 세포, 말초 혈액, 침, 소변 및 다른 생물학적 유체를 포함한다. 일부 응용에서, 핵산 샘플은 단일 기여자 만의 핵산을 포함하고, 본 명세서에 기재된 구현예는 단일 기여자의 핵산이 샘플 중의 핵산의 100%를 차지한다고 결정할 수 있다. 따라서, 이하 설명은 일부 구현예에서 핵산 혼합물 샘플로서의 핵산 샘플을 지칭하지만, 이러한 샘플은 단일 기여자의 핵산을 포함할 수 있고, 기여자의 분율은 100% 또는 1이다. 물론, 방법은 또한 2명 이상의 기여자의 핵산을 포함하는 샘플을 정량하는 데 사용될 수 있다.
본 명세서에 제공된 각종 방법 및 시스템은 확률적 혼합 모델(probabilistic mixture model) 및 베이지안 추론(Bayesian inference) 기술을 사용하는 알고리즘 및 공정을 구현하기 때문에, 실시형태는 핵산(예를 들어, DNA 또는 RNA) 혼합물 샘플의 데콘볼루션에 있어서 종래의 방법에 비해서 기술적 개선을 제공한다. 본 명세서에 기재된 일부 구현예는 DNA 샘플을 지칭하지만, 구현예는 또한 RNA 샘플을 분석하는 데 적용될 수 있다고 이해된다. 일부 구현예는 개선된 분석 감도 및 특이성을 제공하여, 핵산 혼합물 샘플의 보다 정확한 데콘볼루션 및 정량을 제공한다. 일부 구현예는 기여자 분율의 정확한 정량 또는 기여자 유전자형의 결정을 가능하게 하기에는 너무 적은 핵산 양을 갖는 핵산 혼합물 샘플의 정확한 분석을 가능하게 한다.
일부 실시형태에서, 방법은 2명 이상의 기여자의 핵산을 포함하는 핵산 혼합물 샘플을 데콘볼빙하도록 구성된 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템에서 구현된다.
일부 실시형태는 기여자의 핵산 및 적어도 하나의 다른 기여자의 핵산을 포함하는 핵산 혼합물 샘플 중의 기여자의 핵산의 분율을 정량하는 방법을 제공한다. 방법은 (a) 컴퓨터 시스템에 의해서, 핵산 샘플로부터 획득되고, 하나 이상의 다형성 유전자좌(polymorphism loci)에서의 하나 이상의 대립유전자에 맵핑(mapping)된 핵산 서열 판독물(read)을 제공받는 단계; (b) 핵산 서열 판독물을 사용하고, 그리고 하나 이상의 프로세서에 의해서, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자 각각에 대한 대립유전자 계수치를 결정하는 단계; (c) 확률적 혼합 모델을 대립유전자 계수치에 적용하고, 확률 분포를 사용하는 확률적 혼합 모델을 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자 계수치를 모델링하는 단계(확률 분포는 상기 핵산 서열 판독물에서의 오류를 설명함); (d) 확률적 혼합 모델을 사용하고, 그리고 하나 이상의 프로세서에 의해서, 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계; (e) 1명 이상의 기여자 중에서 특정 기여자가 특정 유전자형을 가질 확률을 결정하는 단계; 및 (f) 사후 확률에 기초하여, 핵산 샘플이 특정 기여자로부터의 핵산을 포함한다는 것을 콜링(calling)하는 단계를 포함한다.
일부 구현예에서, 1명 이상의 기여자는 2명 이상의 기여자를 포함한다.
일부 구현예에서, 방법은 1명 이상의 기여자에서 기여자의 총 수를 결정하는 단계를 추가로 포함한다.
일부 구현예에서, 1명 이상의 기여자의 1개 이상의 유전자형은 미지였다. 일부 구현예에서, 방법은 하나 이상의 다형성 유전자좌 각각에서 하나 이상의 대립유전자 구성을 결정하는 단계를 더 포함하고, 각각의 대립유전자 구성은 1명 이상의 기여자 각각에 대해서 2개 이상의 대립유전자의 대립유전자 상태를 포함한다. 일부 구현예에서, 방법은 1명 이상의 대립유전자 구성에 대한 추정된 확률을 결정하는 단계를 추가로 포함한다.
일부 구현예에서, 1명 이상의 기여자 중에서 특정 기여자가 특정 유전자형을 가질 사후 확률을 획득하는 것은 하기를 포함한다: (i) 유전자형 구성의 선험적 확률과 유전자형 구성의 우도를 곱하고; (ii) (i)의 곱을 유전자형 공간(genotype space)에 걸친 총합(sum)에 의해서 정규화시키고; (iii) 특정 유전자형을 함유하는 유전자형 구성에 걸쳐서 총합(summing)하여 사후 확률을 획득함.
일부 구현예에서, 특정 유전자형은 다중-유전자좌 유전자형(multiple-locus genotype)을 포함하고, 방법은 모든 기여자에 걸쳐서, 기여자가 모든 유전자좌에서 특정 유전자형을 가질 사후 확률을 총합하는 단계; 및 확률 총합에 기초하여, 명시된 다중-유전자좌 유전자형이 임의의 기여자에서 나타나는지를 결정하는 단계를 추가로 포함한다. 일부 구현예에서, 핵산 샘플은 법의학적 샘플이고, 다중-유전자좌 유전자형의 데이터는 관심대상 사람으로부터 획득되고, 이 방법은 관심대상 사람이 핵산 샘플의 기여자인지를 결정하는 단계를 추가로 포함한다.
일부 구현예에서, 핵산 샘플은 DNA 분자 및/또는 RNA 분자를 포함한다. 일부 구현예에서, 핵산 서열 판독물은 고유한 분자 색인(unique molecular index)을 사용하여 DNA 분자 및/또는 RNA 분자를 서열분석함으로써 획득되었다.
일부 구현예에서, 확률 분포는 제1 이항 분포를 포함한다. 일부 구현예에서, 제1 이항 분포는 하기와 같이 표현된다:
Figure pct00001
n ij 는 유전자좌 i에서의 대립유전자 j에 대한 대립유전자 계수치이고; n i 는 유전자좌 i에서의 총 대립유전자 계수치이고; p ij 는 유전자좌 i에서의 대립유전자 j의 확률을 나타내는 확률 모수이다.
일부 구현예에서, 확률 모수 p ij 는 (i) 핵산 샘플에서 1명 이상의 기여자 중 하나의 핵산의 분율 또는 β; (ii) 1명 이상의 기여자의 유전자형 또는 G; 및/또는 (ii) 핵산 서열 판독물에서의 오류 또는 θ의 함수이다.
일부 구현예에서, 확률적 혼합 모델은 베타 분포를 사용하여 핵산 서열 판독물에서의 오류를 모델링한다. 일부 구현예에서, 베타 분포는 평균 모수 μ 및 집중 모수(concentration parameter) k에 의해서 정의된다. 일부 구현예에서, 집중 모수는 상이한 노이즈 조건을 나타내는 선험값(prior)을 갖고, 집중 모수는 유전자좌에 따라서 달라진다.
일부 구현예에서, (c)는 제1 이항 분포 및 베타 분포를 조합하여 베타-이항 분포를 따르는 nij의 주변 분포(marginal distribution)를 획득하는 단계를 포함한다. 일부 구현예에서, 베타-이항 분포는 하기 형태를 갖는다:
Figure pct00002
일부 구현예에서, (c)는 핵산 서열 판독물의 우도 함수를 최대화시킴으로써 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계를 포함한다. 일부 구현예에서, (c)는 (b)에서 결정된 대립유전자 계수치의 우도 함수 및 복수의 잠재적인 분율 값을 사용하여 복수의 우도 값을 계산하여 최대 우도 값과 연관된 잠재적인 분율을 식별하는 단계; 및 식별된 잠재적인 분율 벡터를 사용하여 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계를 포함한다.
일부 구현예에서, 우도 함수는 집단 대립유전자 빈도(π)를 고려할 때 1명 이상의 기여자의 유전자형의 선험적 확률인 P(G|π)에 좌우된다. 일부 구현예에서, 선험적 확률 P(G|π)는 하디-바인버그 평형(Hardy-Weinberg equilibrium)을 충족시키는 주변 분포를 사용하여 계산된다. 일부 구현예에서, 선험적 확률은 기계론적 드롭-아웃(mechanistic drop-out)을 나타내는 고정된 선험적 확률과 함께 모조(dummy) 대립유전자를 고려하여 계산된다. 일부 구현예에서, 확률적 혼합 모델은 제2 이항 분포를 사용하여 대립유전자 데이터에서 스터터 오류(stutter error)를 모델링한다. 일부 구현예에서, 제2 이항 분포는 하기와 같이 표현된다:
Figure pct00003
s ik 는 대립유전자 k인 것으로 보이지만 실제로는 대립유전자 k+1의 스터터 오류로부터 초래한 스터터 대립유전자의 유전자좌 i에서의 스터터 대립유전자 계수치이고; n i(k+1) 은 유전자좌 i에서의 대립유전자 k+1의 본래 대립유전자 계수치이고; r i 는 유전자좌 i에 대한 스터터 비율(stutter rate)이다.
일부 구현예에서, 스터터 비율 r은 유전자좌 전체에 걸쳐서 달라지며, 상이한 노이즈 조건을 나타내는 선험값을 갖고, 선험값 유전자좌 전체에 걸쳐서 공유된다. 일부 구현예에서, (d)는 비-스터터 대립유전자 계수치의 우도와 스터터 대립유전자 계수치의 우도의 곱을 포함하는 우도 함수를 사용하여 핵산 샘플에서 1명 이상의 기여자의 핵산의 분율을 정량하는 단계를 포함한다. 일부 구현예에서, (c)는 스터터가 잠재적으로 유래할 수 있는 분자의 수를 결정할 때, 대립유전자 k+1에 배정된 대립유전자 계수치에 분자의 고정된 수를 더하는 것을 포함한다.
일부 구현예에서, 확률적 혼합 모델은 모조 외샘플(out-of-sample) 대립유전자를 사용하여 자연적 드롭-아웃을 모델링한다. 일부 구현예에서, 모조 외샘플 대립유전자의 선험값은 관찰되지 않은 대립유전자의 수에 비례한다. 일부 구현예에서, 관찰되지 않은 대립유전자의 수는, 가장 짧은 관찰된 정수 값의 대립유전자와 가장 긴 관찰된 정수 값의 대립유전자 사이의 모든 정수를 보간(interpolating)하고, 임의의 관찰된 비-정수 값의 대립유전자를 더하고, 생성된 값 및 역치 값의 최대치로 되돌아감으로써 추정된다.
일부 구현예에서, (c)는 핵산 샘플에서 1명 이상의 기여자의 핵산의 분율을 정량하는 데 사용된 데이터로부터 유전자형 구성을 가지치기(pruning)하는 것을 포함한다. 일부 구현예에서, 유전자형 구성의 가지치기는, 필요한 대립유전자의 목록을 구축하고, 모든 필요한 대립유전자를 설명하기에 충분하지 않은 기여자를 갖는 유전자좌를 배제함으로써 타당한 유전자형 구성을 제한하는 것을 포함한다. 일부 구현예에서, 필요한 대립유전자의 목록은 역치를 초과하고, 스터터 드롭-인으로 인해서 타당하다고 하기에는 너무 높은 대립유전자 계수치를 갖는 대립유전자로 본질적으로 이루어진다. 일부 구현예에서, 역치는 (i) 최대 비-스터터 대립유전자 계수치, 및 (ii) 잠재적인 스터터 공여자 대립유전자의 계수치를 곱한 값의 총합이다. 일부 구현예에서, 유전자형 구성의 가지치기는 대립유전자 데이터와 예측된 대립유전자 계수치 간에 불량한 매치를 갖는 유전자형 구성을 제거하는 것을 포함한다. 일부 구현예에서, 불량한 매치를 갖는 유전자형 구성은 하나 이상의 역치보다 더 큰 제곱평균 오차(root mean squared error: RMSE) 값을 갖는다.
일부 구현예에서, 하나 이상의 다형성 유전자좌에서의 대립유전자는 단일 뉴클레오타이드 다형성(single nucleotide polymorphism: SNP) 대립유전자 및/또는 짧은 탠덤 반복부(short tandem repeat: STR) 대립유전자를 포함한다.
개시된 실시형태는 또한 언급된 작업 및 본 명세서에 기재된 다른 컴퓨팅 작업(computational operation)을 수행하기 위한 프로그램 설명서가 제공된 비-일시적인 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품을 제공한다.
일부 실시형태는 기여자의 핵산 및 적어도 하나의 다른 기여자의 핵산을 포함하는 핵산 혼합물 샘플 중의 기여자의 핵산의 분율을 정량하는 시스템을 제공한다. 시스템은 시험 샘플로부터 핵산을 제공받아서 샘플로부터의 핵산 서열 정보를 제공하기 위한 서열분석기, 프로세서; 및 본 명세서에 언급된 방법을 사용하여 프로세서 상에서 실행하기 위한 명령이 저장된 하나 이상의 컴퓨터-판독 가능 저장 매체를 포함한다.
본 개시내용의 일 양상은 시스템 메모리 및 하나 이상의 프로세서를 포함하는 컴퓨터 시스템을 제공한다. 프로세서는 (a) 핵산 샘플로부터 획득되고, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 맵핑된 핵산 서열 판독물을 제공받고; (b) 핵산 서열 판독물을 사용하여 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자 각각에 대한 대립유전자 계수치를 결정하고; (c) 확률적 혼합 모델을 대립유전자 계수치에 적용하고, 확률 분포를 사용하는 확률적 혼합 모델을 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자 계수치를 모델링하고(확률 분포는 상기 핵산 서열 판독물에서의 오류를 설명함); (d) 확률적 혼합 모델을 사용하여, 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하고; (e) 1명 이상의 기여자 중에서 특정 기여자가 특정 유전자형을 가질 사후 확률을 결정하고; (f) 사후 확률에 기초하여, 핵산 샘플이 특정 기여자로부터의 핵산을 포함한다는 것을 콜링하도록 구성된다.
일부 구현예에서, 시스템은 핵산 샘플로부터 핵산을 추출하기 위한 툴(tool)을 추가로 포함한다.
일부 구현예에서, 하나 이상의 프로세서는 1명 이상의 기여자에서 기여자의 총 수를 결정하도록 추가로 구성된다.
일부 구현예에서, 하나 이상의 프로세서는 하나 이상의 다형성 유전자좌 각각에서 대립유전자 구성을 결정하도록 추가로 구성되고, 대립유전자 구성은 1명 이상의 기여자 각각에 대해서 2개 이상의 대립유전자의 대립유전자 상태를 포함한다.
본 개시내용의 또 다른 양상은 컴퓨터 시스템의 하나 이상의 프로세서에 의해서 실행되는 경우, 컴퓨터 시스템이 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 정량하는 방법을 구현하도록 하는 프로그램 코드를 저장하는 비-일시적인 컴퓨터 판독 가능 매체를 제공하고, 상기 프로그램 코드는 (a) 핵산 샘플로부터 획득되고, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 맵핑된 핵산 서열 판독물을 제공받기 위한 코드; (b) 핵산 서열 판독물을 사용하여 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자 각각에 대한 대립유전자 계수치를 결정하기 위한 코드; (c) 확률적 혼합 모델을 대립유전자 계수치에 적용하고, 확률 분포를 사용하는 확률적 혼합 모델을 사용하여, 하나 이상의 다형성 유전자좌에서의 대립유전자 계수치를 모델링하기 위한 코드(확률 분포는 상기 핵산 서열 판독물에서의 오류를 설명함); (d) 확률적 혼합 모델을 사용하여, 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하기 위한 코드; (e) 1명 이상의 기여자 중에서 특정 기여자가 특정 유전자형을 가질 사후 확률을 결정하기 위한 코드; (f) 사후 확률에 기초하여, 핵산 샘플이 특정 기여자로부터의 핵산을 포함한다는 것을 콜링하기 위한 코드를 포함한다.
본 명세서에서 실시예는 인간을 고려하고, 그 내용은 주로 인간 관심에 관한 것이지만, 본 명세서에 기재된 개념은 임의의 식물 또는 동물로부터의 게놈에 적용될 수 있다. 본 개시내용의 이들 및 다른 목적 및 특징은 하기 설명 및 첨부된 청구범위로부터 보다 완전히 자명해질 것이거나, 또는 이하에 언급된 바와 같은 본 개시내용의 실시에 의해서 학습될 수 있다.
참고에 의한 포함
본 명세서에 언급된 이러한 참고 문헌에 개시된 모든 서열을 비롯한, 모든 특허, 특허 출원 및 다른 간행물은 각각의 개별 간행물, 특허 또는 특허 출원이 구체적으로 그리고 개별적으로 참고에 의해서 포함된다고 제시된 것과 동일한 정도로 본 명세서에 참고로 명확히 포함된다. 인용된 모든 문헌은 관련 부분에서 본 명세서에서 이의 인용과 관련하여 제시된 목적을 위해서 전문이 참고로 본 명세서에 포함된다. 그러나, 임의의 문헌의 인용은 그것이 본 개시내용에 대해서 선행 기술인 것을 인정하는 것으로서 해석되어서는 안 된다.
도 1A 내지 도 1C는 기여자 DNA 정량을 위해서 설계된 바이오인포매틱스 알고리즘(bioinformatics algorithm) 및 통계학적 모델의 개요를 나타낸 도면.
도 2a는 핵산 샘플에서 1명 이상의 기여자의 핵산(예를 들어, DNA 또는 RNA)의 하나 이상의 분율을 정량하기 위한 공정을 나타내는 블록 다이어그램.
도 2b는 확률적 혼합 모델의 다양한 성분을 나타내는 블록 다이어그램.
도 2c는 대립유전자를 또 다른 대립유전자로 그리고 진(true) 대립유전자를 비예측된 대립유전자로 전환시키는 서열분석 오류를 개략적으로 나타낸 도면.
도 3은 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 평가하기 위한 공정을 나타내는 블록 다이어그램.
도 4는 특정 실시형태에 따른 컴퓨팅 장치로서 제공될 수 있는 전형적인 컴퓨터 시스템의 블록 다이어그램.
도 5는 시험 샘플로부터 콜링 또는 진단을 생성시키기 위한 분산된 시스템의 일 구현예를 나타낸 도면.
도 6은 구별되는 위치에서 일부 구현예의 다양한 작업을 수행하기 위한 선택을 나타낸 도면.
도 7a 내지 도 7f는 실제 DNA 혼합물 샘플로부터 획득된 데이터를 사용하여 일부 구현예가 DNA 혼합물 샘플을 효과적으로 정량 및 데콘볼빙할 수 있음을 입증한 실시예의 결과를 나타낸 도면.
도 8a 내지 도 8d는 모의실험된 데이터를 사용하여 일부 구현예가 DNA 혼합물 샘플을 효과적으로 정량 및 데콘볼빙할 수 있음을 입증한 실시예의 결과를 나타낸 도면.
달리 제시되지 않는 한, 본 명세서에 개시된 방법 및 시스템의 실시는 관련 기술 분야에 속하는 분자 생물학, 미생물학, 단백질 정제학, 단백질 엔지니어링, 단백질 및 DNA 서열분석학, 및 재조합 DNA 분야에서 일반적으로 사용되는 종래의 기술 및 장치를 포함한다. 이러한 기술 및 장치는 당업자에게 공지되어 있고, 다수의 문헌 및 참고 문헌에 기재되어 있다(문헌[Sambrook et al., "Molecular Cloning: A Laboratory Manual", Third Edition (Cold Spring Harbor), [2001]); 및 Ausubel et al., "Current Protocols in Molecular Biology" [1987]] 참고).
수치 범위는 그 범위를 정의하는 수를 포함한다. 본 명세서 전체에 제공된 모든 최대 수치 한계치는, 이러한 수치 하한이 본 명세서에 명백하게 기재된 바와 같이, 모든 수치 하한을 포함하도록 의도된다. 본 명세서 전체에 제공된 모든 최소 수치 한계치는, 이러한 수치 상한이 본 명세서에 명백하게 기재된 바와 같이, 모든 수치 상한을 포함할 것이다. 본 명세서 전체에 제공된 모든 수치 범위는, 이러한 더 좁은 범가 본 명세서에 모두 명확하게 기재된 바와 같이, 이러한 더 넓은 범위에 속하는 모든 더 좁은 수치 범위를 포함할 것이다.
본 명세서에 제공된 제목은 본 개시내용을 제한하는 것으로 의도되지 않는다.
본 명세서에 달리 정의되지 않는 한, 본 명세서에서 사용된 모든 기술 용어 및 과학 용어는 당업자에 의해서 일반적으로 이해되는 것과 동일한 의미를 갖는다. 본 명세서에 포함된 용어를 포함하는 다양한 과학 사전은 널리 공지되어 있고, 당업자에게 입수 가능하다. 본 명세서에 기재된 것과 유사하거나 동등한 임의의 방법 및 물질이 본 명세서에 개시된 실시형태의 실시 또는 시험에서 사용되지만, 일부 방법 및 물질이 기술된다.
바로 아래에 정의된 용어는 전체로서 본 명세서에 대한 참고로 보다 완전히 기재된다. 본 개시내용은 기재된 특정 방법, 프로토콜 및 시약에 제한되지 않는데, 그 이유는 이것은 당업자에 의해서 사용되는 내용에 따라서 달라질 수 있기 때문이다. 본 명세서에 사용되는 바와 같이, 단수 용어는 그 문맥이 달리 명백하게 제시하지 않는 한 복수 대상을 포함한다.
달리 제시되지 않는 한, 각각 핵산은 5'에서 3' 배향으로 좌에서 우로 표기되며, 아미노산 서열은 아미노에서 카복시 배향으로 좌에서 우로 표기된다.
용어 공여자 DNA(dDNA)는 이식 공여자의 세포로부터 기원한 DNA 분자를 지칭한다. 각종 구현예에서, dDNA는 공여자로부터 이식된 조직/기관을 제공받은 수증자(donee)로부터 수득된 샘플에서 발견된다. 일부 구현예에서, dDNA는 포함한다.
순환 세포-유리(cell-free) DNA 또는 단순 세포-유리 DNA(cfDNA)는 세포 내에 국한되지 않은 DNA 단편이며, 혈류 또는 다른 체액에서 자유롭게 순환한다. cfDNA는 상이한 기원을 갖고, 일부 경우에는 종양 세포 또는 종양 발생 세포로부터 기원하고, 다른 경우에는 임산부가 갖는 태아의 태아 세포 및 모계 혈액에서 순환하는 태아 세포로부터 기원한다고 공지되어 있다. 일반적으로, cfDNA는 단편화되고, 소량의 게놈 만을 포함하는데 여기서 게놈은 cfDNA가 획득된 유기체 게놈과 상이할 수 있다.
용어 비순환 게놈 DNA(gDNA) 또는 세포 DNA는 세포에 국한되고, 종종 완전 게놈을 포함하는 DNA 분자를 지칭하기 위해서 사용된다.
베타 분포는 예를 들어, 확률 변수(random variable)의 지수로서 나타나고, 분포의 형상을 제어하는 α 및 β로 나타낸, 2개의 양형(positive shape) 모수에 의해서 모수화된 구간 [0, 1]에 대해서 정의된 연속 확률 분포의 패밀리이다. 베타 분포는 광범위한 분야에서 유한 길이의 구간에 제한된 확률 변수의 거동을 모델링하는데 적용되어 왔다. 베이지안 추론에서, 베타 분포는 베르누이 분포(Bernoulli distribution), 이항 분포(binomial distribution), 음이항 분포(negative binomial distribution) 및 기하 분포(geometric distribution)에 대한 컨주게이트 선험적 확률 분포이다. 예를 들어, 베타 분포를 베이지안 분석에서 사용하여 성공 확률에 관한 초기 지식을 기술할 수 있다. 확률 변수 X가 베타 분포를 따르는 경우, 확률 변수 XX ~ 베타(α, β)라고 기재된다.
이항 분포는 일련의 n개의 독립적인 실험에서 성공의 수의 이산 확률 분포인데, 이들은 각각 예-아니오 질문을 묻고, 각각 그 자신의 불방식(boolean)-평가의 결과: 정보의 단일 비트: 양(확률 p를 가짐) 또는 음(확률 q = 1 - p를 가짐)를 함유하는 확률 변수를 갖는다. 단일 시험의 경우, 즉, n = 1인 경우, 이항 분포는 베르누이 분포이다. 이항 분포는 크기 N의 집단으로부터의 교체되어 제거되는 크기 n의 샘플에서 성공의 수를 모델링하기 위해서 빈번하게 사용된다. 확률 변수 X가 모수
Figure pct00004
Figure pct00005
을 갖는 이항 분포를 따르는 경우, 확률 변수 XX ~ B(n, p)라고 기재된다.
본 명세서에서 Pois()로 표현되는 포아송 분포(Poisson 분포)는, 이러한 사건이 마지막 사건 이례로 시간과 독립적으로 공지된 평균율로 일어나는 경우, 시간 및/또는 공간의 고정된 구간에서 일어나는 주어진 사건의 수의 확률을 나타내는 이산 확률 분포이다. 포아송 분포는 또한 다른 명시된 구간, 예컨대, 거리, 면적 또는 부피에서의 사건의 수에 대해서 사용될 수 있다. 포아송 분포에 따른 구간에서 k 사건을 관찰할 확률은 하기 식으로 제공된다:
Figure pct00006
식 중, λ는 구간에서의 사건의 평균 수 또는 비율 모수(rate parameter)라고도 불리는 사건율이고, e는 2.71828, 오일러의 수(Euler's number) 또는 자연 로그의 밑의 값이고, k는 값 0, 1, 2, ....를 취하고, k!k의 계승(factorial)이다.
감마 분포는 연속 확률 분포의 2-모수 패밀리이다. 일반적으로 사용되는 3개의 상이한 모수화가 존재한다: 형상 모수 k 및 척도 모수 θ를 가짐; 형상 모수 α = k 및 비율 모수라고 지칭되는 역척도 모수(inverse scale parameter) β = 1/θ를 가짐; 또는 형상 모수 k 및 평균 모수 μ = k/β를 가짐. 이러한 3개의 형태 각각에서, 두 모수 모두는 양의 실수이다. 감마 분포는 E[X] = kθ = α/β가 정해지고, 0보다 크고, E[ln(X)] = Ψ(k) + ln(θ) = Ψ(α) - ln(β)(Ψ는 디감마 함수임)가 정해진 경우 확률 변수 X에 대한 최대 엔트로피 확률 분포이다.
다형성 및 유전적 다형성은, 각각 적용 가능한 빈도로, 하나의 게놈 유전자에서 2개 이상의 대립유전자의 동일한 집단에서의 발생을 지칭하도록 본 명세서에 상호 교환 가능하게 사용된다.
다형성 부위 및 다형 부위(polymorphic site)는 2개 이상의 대립유전자가 존재하는 게놈 상의 유전자좌를 지칭하도록 본 명세서에서 상호 교환 가능하게 사용된다.
대립유전자 빈도 또는 유전자 빈도는 분율 또는 백분율로서 표현될 수 있는, 유전자의 다른 대립유전자에 대한 유전자(또는 유전자의 변이체)의 대립유전자의 빈도이다. 대립유전자 빈도는 보통 특정 게놈 유전자좌와 연관되는데, 그 이유는 유전자가 보통 하나 이상의 유전자좌에 위치되기 때문이다. 그러나, 대립유전자 빈도는 본 명세서에 사용되는 바와 같이 DNA 단편의 크기-기반 빈(bin)과도 연관될 수 있다. 이러한 의미에서, DNA 단편, 예컨대, cfDNA 함유 대립유전자는 상이한 크기-기반 빈에 배정된다. 다른 대립유전자의 빈도에 대한 크기-기반 빈에서의 대립유전자의 빈도가 대립유전자 빈도이다.
용어 "모수"는 본 명세서에서 값 또는 다른 특징이 관련 조건, 예컨대, 샘플 또는 DNA 분자에 영향을 갖는 시스템의 특성, 예컨대, 물리적 특징을 특징규명하는 수치 값을 지칭한다. 일부 경우에, 용어 모수는 수학적 관계식 또는 모델의 산출값에 영향을 미치는 변수와 관련하여 사용되며, 이러한 변수는 독립 변수(즉, 모델에 대한 입력값) 또는 하나 이상의 독립 변수를 기초로 하는 중간 변수일 수 있다. 모델의 범주에 따라서, 하나의 모델의 출력값이 또 다른 모델의 입력값이 될 수 있기 때문에, 이것은 다른 모델에 대한 모수가 될 수 있다.
용어 "복수"는 하나 초과의 요소를 지칭한다.
용어 "페어드 엔드 판독물(paired end read)"은 핵산 단편의 각각의 단부로부터 하나의 판독물을 획득하는 페어드 엔드 서열분석으로부터의 판독물을 지칭한다. 페어드 엔드 서열분석은 폴리뉴클레오타이드의 가닥을 삽입물이라고 지칭되는 짧은 서열로 단편화하는 것을 포함할 수 있다. 단편화는 비교적 짧은 폴리뉴클레오타이드, 예컨대, 세포 유리 DNA 분자의 경우에는 선택적이거나 또는 불필요하다.
용어 "폴리뉴클레오타이드", "핵산" 및 "핵산 분자"는 상호 교환 가능하게 사용되고, 하나의 뉴클레오타이드의 펜토스의 3' 위치가 다음의 펜토스의 5' 위치에 포스포다이에스터에 의해서 결합되는 뉴클레오타이드(즉, RNA의 경우 리보뉴클레오타이드 및 DNA의 경우 데옥시리보뉴클레오타이드)의 공유 결합된 서열을 지칭한다. 뉴클레오타이드는 RNA 및 DNA 분자, 예컨대, cfDNA 또는 세포 DNA 분자를 포함하지만 이들로 제한되지 않는 핵산의 임의의 형태의 서열을 포함한다. 용어 "폴리뉴클레오타이드"는 비제한적으로, 단일 가닥 및 이중 가닥 폴리뉴클레오타이드를 포함한다.
용어 "시험 샘플"은 본 명세서에서 전형적으로, 핵산 또는 핵산의 혼합물을 포함하는, 생물학적 유체, 세포, 조직, 기관, 또는 유기체로부터 유래된 샘플을 지칭한다. 이러한 샘플은 가래/타액, 양막 유체, 혈액, 혈액 분획, 또는 미세 바늘 생검 샘플(예를 들어, 수술 생검, 미세 바늘 생검 등), 소변, 복막액, 늑막액 등을 포함하지만 이들로 제한되지 않는다. 샘플은 보통 인간 대상체(예컨대, 환자)로부터 취해지지만, 분석은 개, 고양이, 말, 염소, 양, 소, 돼지 등을 포함하지만 이들로 제한되지 않는 임의의 포유동물로부터의 샘플에서 사용될 수 있다. 샘플은 생물학적 공급원으로부터 획득된 그대로 직접 또는 샘플의 특징을 변형하기 위한 전처리 후에 사용될 수 있다. 예를 들어, 그러한 전처리는 혈액, 희석 점성 유체 등으로부터 혈장을 제조하는 것을 포함할 수 있다. 전처리 방법은 또한, 여과, 침전, 희석, 증류, 혼합, 원심분리, 냉동, 동결건조, 농축, 증폭, 핵산 단편화, 간섭 성분의 비활성화, 시약의 첨가, 용해 등을 포함할 수 있지만 이들로 제한되지 않는다. 이러한 전처리 방법이 샘플과 관련하여 사용되는 경우, 이러한 전처리 방법은 전형적으로 관심대상 핵산(들)이 때때로 미처리 시험 샘플 중의 농도에 비례하는 농도로 시험 샘플에 잔류하도록 한다(예를 들어, 즉, 임의의 이러한 전처리 방법(들)이 수행되지 않은 샘플). 이러한 "처리된" 또는 "가공된" 샘플은 여전히 본 명세서에 기술된 방법과 관련하여 생물학적 "시험" 샘플인 것으로 간주된다.
용어 "차세대 서열분석(NGS)"은 본 명세서에서 클론적으로 증폭된 분자 및 단일 핵산 분자의 대량 병렬 서열분석을 허용하는 서열분석 방법을 나타낸다. NGS의 비제한적 예는 가역적 염료 종결인자를 사용하는 합성에 의한 서열분석 및 결찰에 의한 서열분석을 포함한다.
용어 "판독물"은 핵산 샘플의 일부로부터 획득된 서열을 지칭한다. 전형적으로, 반드시 그러한 것은 아니지만, 판독물은 샘플 중의 연속적인 염기쌍의 짧은 서열을 나타낸다. 판독물은 샘플 부분의 (A, T, C 또는 G에서) 염기쌍 서열에 의해서 기호로 표시될 수 있다. 그것은 메모리 디바이스에 저장될 수 있고, 기준 서열에 매칭하는지 또는 다른 기준을 충족하는지를 측정하기 위해서 적절하게 처리될 수 있다. 판독물은 서열분석 장치로부터 직접적으로 또는 샘플과 관련하여 저장된 서열 정보로부터 간접적으로 획득될 수 있다. 일부 경우에, 판독물은 더 큰 서열 또는 영역을 확인하기 위해 사용될 수 있는, 예를 들어, 염색체 또는 게놈 영역 또는 유전자에 대해 정렬되고, 특이적으로 배정될 수 있는 충분한 길이(예를 들어, 적어도 약 25bp)의 DNA 서열이다.
용어 "게놈 판독물"은 개체의 전체 게놈에서 임의의 단편의 판독물을 참고로 사용된다.
본 명세서에 사용되는 바와 같이, 용어 "정렬된", "정렬", 또는 "정렬하는"은 판독물 또는 태그(tag)를 기준 서열과 비교함으로써, 기준 서열이 판독물 서열을 함유하는지의 여부를 결정하는 공정을 지칭한다. 기준 서열이 판독물을 함유하는 경우, 판독물은 기준 서열에, 또는 특정 실시형태에서는, 기준 서열 내의 특정 위치에 맵핑될 수 있다. 일부 경우에, 정렬은 단순히 판독물이 특정 기준 서열의 구성원인지 아닌지(즉, 판독물이 기준 서열에 존재하는지 또는 부재하는지)를 알려준다. 예를 들어, 인간 염색체 13의 경우 기준 서열에 대한 판독물의 정렬은 염색체 13에 대한 기준 서열에 판독물이 존재하는지의 여부를 알려줄 것이다. 이러한 정보를 제공하는 툴은 세트 멤버십 시험기(set membership tester)라고 지칭될 수 있다. 일부 경우에, 정렬은 판독물 또는 태그가 맵핑되는 기준 서열 내의 위치를 추가로 나타낸다. 예를 들어, 기준 서열이 전체 인간 게놈 서열인 경우, 정렬은 판독물이 염색체 13 상에 존재한다는 것을 나타낼 수 있고, 판독물이 염색체 13의 특정 가닥 및/또는 부위 상에 존재한다는 것을 추가로 나타낼 수 있다.
정렬된 판독물 또는 태그는 기준 게놈으로부터의 공지된 서열에 대한 핵산 분자의 순서와 관련하여 매치로서 식별된 하나 이상의 서열이다. 정렬은 수동으로 수행될 수 있지만, 컴퓨터 알고리즘에 의해서 전형적으로 구현되는데, 그 이유는 본 명세서에 개시된 방법을 구현하기 위해서 타당한 시간 기간 내에 판독물을 정렬하는 것이 불가능할 것이기 때문이다. 서열을 정렬하는 것으로부터의 알고리즘의 일례는 일루미나 제노믹스 분석(Illumina Genomics Analysis) 파이프라인의 부분으로서 배포된 뉴클레오타이드 데이터의 효율적인 국지 정렬(Efficient Local Alignment of Nucleotide Data: ELAND) 컴퓨터 프로그램이다. 대안적으로, 블룸(Bloom) 필터 또는 유사한 멤버십 시험기가 판독물을 기준 게놈에 대해서 정렬시키기 위해서 사용될 수 있다(2011년 10월 27일자로 출원된 미국 특허 출원 제61/552,374호(전체 내용이 참고로 본 명세서에 포함됨) 참고). 정렬 시에 서열 판독물의 매칭은 100% 서열 매치이거나 100% 미만(즉 완벽하지 않은 매치)일 수 있다.
용어 "맵핑"은 본 명세서에서 정렬 또는 멤버십 정렬을 사용하여 더 큰 서열, 예를 들어, 더 큰 서열의 하위서열인 기준 게놈에 대해서 서열 판독물을 특별하게 정렬시키는 것을 지칭한다.
본 명세서에 사용되는 바와 같이, 용어 "기준 게놈" 또는 "기준 서열"은 그것이 부분적이든 완전한 것이든, 대상체로부터의 식별된 서열을 참고하기 위해 사용될 수 있는 임의의 유기체 또는 바이러스의 임의의 특별한 공지된 게놈 서열을 지칭한다. 예를 들어, 많은 다른 유기체뿐 아니라 인간 대상체에 대해 사용된 기준 게놈은 ncbi.nlm.nih.gov의 국립 생명공학 정보 센터(National Center for Biotechnology Information)에서 찾아볼 수 있다. "게놈"은 핵산 서열에서 발현된, 유기체 또는 바이러스의 완전한 유전자 정보를 지칭한다.
각종 실시형태에서, 기준 서열은 그것에 대해서 배열되는 판독물보다 상당히 더 크다. 예를 들어, 그것은 적어도 약 100배 더 크거나, 또는 적어도 약 1000배 더 크거나, 또는 적어도 약 10,000배 더 크거나, 또는 적어도 약 105배 더 크거나, 또는 적어도 약 106배 더 크거나, 또는 적어도 약 107배 더 크다.
일례에서, 기준 서열은 전장 인간 게놈의 서열이다. 이러한 서열은 게놈 기준 서열이라고 지칭될 수 있다. 또 다른 예에서, 기준 서열은 염색체 13과 같은 특정 인간 염색체로 한정된다. 일부 실시형태에서, 기준 Y 염색체는 인간 게놈 버전 hg19로부터의 Y 염색체 서열이다. 이러한 서열은 염색체 기준 서열로서 지칭될 수 있다. 기준 서열의 다른 예는 다른 종의 게놈뿐만 아니라 임의의 종의 염색체, 하위-염색체 영역(예컨대, 가닥) 등을 포함한다.
각종 실시형태에서, 기준 서열은 공통 서열 또는 다수의 개체로부터 유래된 다른 조합물이다. 그러나, 특정 응용에서, 기준 서열은 특정 개체로부터 제공될 수 있다.
용어 "유래된"은 핵산 또는 핵산의 혼합물의 맥락에서 사용되는 경우, 본 명세서에서 핵산(들)이 그것이 기원하는 공급원으로부터 획득되는 수단을 지칭한다. 예를 들어, 일 실시형태에서, 2개의 상이한 게놈으로부터 유래된 핵산의 혼합물은 핵산, 예를 들어, cfDNA가 괴사 또는 아포토시스와 같은 자연 발생 과정을 통해 세포에 의해 자연적으로 방출되었음을 의미한다. 또 다른 실시형태에서, 2개의 상이한 게놈으로부터 유래된 핵산의 혼합물은 핵산이 대상체로부터의 2종의 상이한 유형의 세포로부터 추출되었음을 의미한다. 예를 들어, 핵산의 혼합물은 공여자 세포로부터 기원한 핵산 및 기관 이식 대상체로부터 획득된 수증자 세포를 포함한다. 일부 구현예에서, 핵산의 혼합물은 2명 이상의 기여자 개체의 생물학적 물질을 포함한다. 예를 들어, 2개 이상의 개체의 생물학적 물질을 포함하는 법의학적 샘플은 2개 이상의 개체의 DNA를 포함한다.
용어 "을 기초로 하는"은 특정 정량값을 획득하는 맥락에서 사용되는 경우, 본 명세서에 특정 정량값을 출력값으로서 계산하기 위해서 입력값으로서 또 다른 정량을 사용하는 것을 지칭한다.
용어 "생물학적 유체"는 본 명세서에서 생물학적 공급원으로부터 채취된 액체를 지칭하고, 예를 들어, 혈액, 혈청, 혈장, 가래, 세척 유체, 뇌척수액, 소변, 정액, 땀, 눈물, 침 등을 포함한다. 본 명세서에서 사용되는 바와 같이 용어 "혈액", "혈장" 및 "혈청"은 명확하게 부분 또는 이의 처리된 부분을 포함한다. 유사하게, 샘플이 생검, 면봉, 얼룩 등으로부터 취해지는 경우, "샘플"은 명확하게 처리된 부분 또는 생검, 면봉, 얼룩 등으로부터 유래된 부분을 포함한다.
본 명세서에 사용되는 바와 같이, 용어 "에 상응하는"은 때때로 상이한 대상체의 게놈에 존재하는 핵산 서열, 예를 들어, 유전자 또는 염색체를 지칭하고, 이것은 모든 게놈에서 동일한 서열을 필수적으로 갖는 것은 아니지만, 관심대상 서열, 예를 들어, 유전자 또는 염색체의 유전적 정보라기보다는 아이덴티티를 제공하는 역할을 한다.
용어 "기여자"는 본 명세서에서 인간 기여자뿐만 아니라 비-인간 기여자, 예컨대, 포유동물, 무척추동물, 척추동물, 진균, 효모, 박테리아 및 바이러스를 지칭한다. 본 명세서에서 실시예는 인간을 고려하고, 그 내용은 주로 인간 관심에 관한 것이지만, 본 명세서에 개시된 개념은 임의의 식물 또는 동물로부터의 게놈에 적용될 수 있고, 수의학 의약, 동물 과학, 연구 실험 등의 분야에 유용하다.
용어 "감도"는 본 명세서에 사용되는 바와 같이 관심대상 조건이 존재하는 경우 시험 결과가 양성일 확률을 지칭한다. 그것은 진 양성 및 위 양성의 총합으로 나눈 진 양성의 수로서 계산될 수 있다.
용어 "특이성"는 본 명세서에 사용되는 바와 같이 관심대상 조건이 존재하지 않는 경우 시험 결과가 음성일 확률을 지칭한다. 그것은 진 음성 및 위 음성의 총합으로 나눈 진 음성의 수로서 계산될 수 있다.
용어 "프라이머"는, 본 명세서에 사용되는 바와 같이 연장 생성물의 합성에 귀납적인 조건(예를 들어, 조건은 뉴클레오타이드, 유도제, 예컨대, DNA 폴리머라제, 및 적합한 온도 및 pH를 포함함) 하에 놓이는 경우 합성의 개시 지점으로서 작용할 수 있는 단리된 올리고뉴클레오타이드를 지칭한다. 프라이머는 바람직하게는 증폭의 최대 효율을 위해 단일 가닥일 수 있지만, 대안적으로는 이중 가닥일 수 있다. 이중 가닥인 경우, 프라이머는 연장 생성물을 제조하기 위해서 사용되기 이전에 이의 가닥을 분리하기 위해서 먼저 처리된다. 바람직하게는, 프라이머는 올리고데옥시리보뉴클레오타이드이다. 프라이머는 유도제의 존재 하에서 연장 생성물의 합성을 프라이밍시키기에 충분히 길어야 한다. 프라이머의 실제 길이는 온도, 프라이머의 공급원, 방법의 사용 및 프라이머 설계에 사용된 모수를 비롯한 다수의 인자에 좌우될 것이다.
도입부
본 개시내용은 다양한 이점 및 기술적 개선을 제공하는, 미지의 유전자형의 2명 이상의 기여자의 핵산을 포함하는 핵산 혼합물 샘플의 데콘볼루션을 위한 방법 및 시스템을 제공한다. 예를 들어, 일부 구현예는 기여자의 유전자형을 모르는 혼합물에서 기여자 DNA를 정량하기 위해서 확률적 혼합 모델링, 베이지안 추론 기술, 및 수치 최적화 알고리즘을 적용한다.
밀접하게 관련된 게놈의 핵산(예를 들어, DNA 또는 RNA) 혼합물로부터의 서열분석 데이터는 연구뿐만 아니라 임상 환경에서 빈번하게 발견되며, 혼합 기여자를 정량하는 것은 본래 게놈이 미지인 경우에는 도전이었다. DNA 혼합물을 데콘볼빙하기 위한 시도가 당업계가 수행되었지만 성공은 제한적이었다. 이러한 시도는 모세관-전기영동법(capillary-electrophoresis: CE) 대립유전자 데이터를 사용하여 수행되었는데, 이 데이터는 임상 설정에 유용할 수 있는 대립유전자의 서열 정보를 제공하지 않는다. 더욱이 모세관-전기영동법-기반 분석은 보통 데이베이스에 공지된 비교적 소수의 대립유전자에 제한되며, 이러한 대립유전자의 외부에서 정보를 캡처하지 못한다. 차세대 서열분석 기술을 사용하여 DNA 혼합물 샘플을 분석하는 것이 바람직하다. 그러나, DNA 샘플을 데콘볼빙하기 위한 종래의 방법은 NGS 데이터를 분석하는 데 구현되지 않았다. 그리고 NGS 데이터 분석을 위한 종래의 방법을 변형시키려는 경우에도, 변형은 사소한 것이 아닐 것이고, 이러한 변형의 성공은 의심스럽다. 예를 들어, 대립유전자에 대한 CE 데이터는 연속적이지만, 서열분석 데이터를 기초로 하는 대립유전자 계수치는 이산적이다. 당업자는 연속적 데이터에 대한 모델이 이산적 데이터에 대해서 적절하지 않을 것이거나 또는 최적보다 불량하게 수행될 것이라는 것을 인지할 것이다. 따라서, DNA 혼합물 샘플에 대한 서열분석 데이터(예를 들어, NGS 데이터)를 데콘볼빙하기 위한 새로운 방법을 개발하는 것이 바람직할 수 있다.
일부 구현예는 혈액 cfDNA 또는 gDNA 샘플의 다중-마커 표적화-재서열분석 데이터로부터 기여자 DNA를 정량하기 위한 방법 및 시스템을 제공한다. 일부 구현예는 신규 확률적 모델 및 수치 최적화 알고리즘을 사용하여 혈액 cfDNA 또는 gDNA 샘플의 다중-마커 표적화-재서열분석 데이터로부터 기여자 DNA를 정량하기 위한 방법 및 시스템을 제공한다. 일부 구현예는 유전적-관계를 암호화하는 사전 분포와 함께 베이지안 모델링을 사용하여 미지의 유전자형의 유전자적으로 관련된 공여자 및 수용자에 대한 기여자 DNA를 정량하는 방법 및 시스템을 제공한다. 유전적-관계 정보를 사용하여 베이지안 프레임워크에서 선험적 정보를 제공함으로써, DNA 혼합물의 정량은 유전적-관계 정보를 사용하지 않는 방법에 비해서 개선될 수 있다.
일부 구현예는 로그-우도 함수의 추정된 헤시안 행렬에 대한 크래머 라오 경계(Cramer-Rao bound)를 사용함으로써 DNA 정량의 신뢰 구간을 추정하기 위한 방법 및 시스템을 제공한다.
짧은 서열분석 판독물 맵핑에서 대립유전자 편향은 DNA 정량을 혼동스럽게 한다. 일부 구현예에서, 혼동스러운 효과는 변이체 부위에 걸친 판독물의 불편(unbiased) 맵핑을 사용함으로써 감소된다.
본 명세서에 기재된 구현예는, 기여자 게놈에 대한 유전자형을 완전히 모르는 경우에도 기여자 DNA 분율을 정확하게 추정할 수 있다. PCR 증폭 후 마커 부위의 대립유전자 분율은 베타-분포로 신뢰할 수 있게 모델링될 수 있다.
불편 기준 DNA 서열 데이터베이스를 사용함으로써, 기준 대립유전자에 대한 편향을 제거할 수 있고, 변이체 부위에서 대립유전자 계수치 및 서열분석 오류를 신뢰할 수 있게 예측할 수 있다.
본 명세서에 기재된 구현예는 혼합물 DNA 샘플의 단일 서열분석 실시로 예측된 기여자 DNA 분율의 신뢰 구간을 추정할 수 있다.
실험 파이프라인
도 1A 내지 도 1C는 기여자 DNA 정량을 위해서 설계된 바이오인포매틱스 알고리즘 및 통계학적 모델의 개요를 나타낸다. 도 1A는 서열분석 기반 동종이계 DNA 검출에 대한 실험 파이프라인을 나타낸다. 도 1B는 대립유전자 계수에 대한 불편 판독물 맵핑 작업흐름을 나타낸다. 도 1C는 마커 유전자좌당 대립유전자 계수치에 대한 계층적, 확률적 혼합 모델을 나타낸다.
일부 구현예는 도 1A에 도시된 바와 같은 실험 파이프라인을 적용한다. 이러한 포괄적인 실험 파이프라인은 하기 단계를 갖는다:
1) 2명의 개체로부터의 DNA를 함유하는 혈액 샘플을 획득함.
2) 응용에 따라서, 적절한 유형의 DNA, 예를 들어, 세포 DNA 또는 세포 유리 DNA(cfDNA)를 추출함.
3) 게놈의 특이적 변이체 부위 또는 다형 부위를 접근법, 예컨대, PCR 증폭 및 혼성화에 의해서 표적화 및 풍부화함. 변이체 부위는 인간 또는 박테리아의 다양한 집단 중에서 가변적으로 선험적으로 선택된다. 대안적으로, 비표적화된 전체 게놈 서열분석이 수행될 수 있고, 모든 변이체 부위가 포괄될 것이다.
4) 풍부화된 DNA를 NGS 기술, 예컨대, 하기에 기재된 것 중 일부에 의해서 서열분석하여 표적 게놈 영역이 풍부한 서열분석 판독물을 획득함.
공식적인 문제 서술
공식적으로, 기여자 DNA 정량(contributor DNA quantification: CDQ)의 문제는 하기와 같이 언급된다: 2명 이상의 기여자로 구성된 DNA 샘플의 서열분석 데이터를 고려하여, 샘플 중의 각각의 기여자의 분율을 결정함. 기여자 게놈의 유전자형이 미지인 경우, CDQ 문제는 맹검 기여자 DNA 정량(맹검-CDQ)이라고 지칭되며; 그 반대는 비-맹검-CDQ라고 지칭된다. 일부 구현예에 관한 일부 설명은 공여자로서의 2명의 기여자 및 수용자를 지칭하지만, 그것은 방법의 응용을 기관 공여 설정으로 제한하지 않는다. 일부 구현예에 관련된 이하의 일부 설명에서, 기여자는 공여자와 동일하고, 나머지 기여자는 수증자와 동일하다.
맹검-CDQ는 비-맹검 CDQ에 비해서 더 어려운 문제이지만, 그것은 모든 시나리오에 대한 더 넓은 응용을 갖는데, 여기서는 혼합물 샘플의 단지 단일 서열분석 실험이 달성되지만, 비-맹검-CDQ는 기여자(예를 들어, 기관 공여자 및 수용자)의 유전자형을 결정하기 위해서 선험적 서열분석 실험을 필요로 한다.
본 명세서에 기재된 컴퓨팅 방법은 맹검-CDQ 문제를 다루고, 방법의 성분은 용이하게 단순화 또는 개작되어 비-맹검-CDQ 문제를 위해서 사용될 수 있다.
컴퓨팅 방법의 개요
맹검-CDQ에 대한 컴퓨팅 방법은 하기의 2개의 주요 단계를 갖는다:
1) 대립유전자 계수: 각각의 표적 마커 부위에 대해서 각각의 대립유전자로부터의 서열분석 판독물의 불편 계수를 위한 바이오인포매틱스 작업흐름(도 1B), 및
2) 기여자 DNA 정량: 기여자 DNA 분율을 정량하기 위해서 연관된 수치 최적화 알고리즘 및 계층적 확률적 모델을 사용함(도 1C).
일부 구현예는 본 명세서에서 "상대적 정량" 만을 다루지만, 이것은 구현예가 (질량 또는 카피 수의 면에서) 절대적 양이라기 보다는, 기여자 공급원으로부터 유래된 DNA 샘플의 백분율 또는 분율을 추정하는 것을 의미한다. 입력 DNA의 총량이 공지된 경우, 추가 단계를 수행하여 상대 풍부도를 절대 풍부도로 전환시킬 수 있다.
핵산 샘플에서 기여자 분율을 정량하거나 또는 핵산 혼합물 샘플을 데콘볼빙하기 위한 공정의 개요
도 2a는 핵산 샘플에서 1명 이상의 기여자의 핵산(예를 들어, DNA 또는 RNA)의 하나 이상의 분율을 정량하기 위한 공정(200)을 나타내는 블록 다이어그램이다. 핵산 샘플은 기여자 및 적어도 하나의 다른 기여자의 핵산(예를 들어, DNA 또는 RNA)을 포함한다. 방법은 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템, 예컨대, 이하에 기재된 시스템 상에서 구현된다. 본 명세서에 설명은 일부 구현예 및 응용에서 DNA를 지칭하지만, 당업자는 RNA 및 핵산의 다른 형태가 또한 본 명세서에 기재된 구현예를 사용하여 분석될 수 있음을 인지한다. 본 명세서에 기재된 각종 구현예를 사용하여 1명 이상의 기여자로부터의 핵산의 핵산 샘플을 분석할 수 있다. 일부 구현예에서, 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하기 위한 방법 및 시스템이 제공된다. 본 명세서에서 일부 설명에서, 핵산 샘플은 혼합물 샘플이라고 지칭되는데, 그 이유는 샘플이 2명 이상의 기여자로부터의 핵산을 포함할 수 있기 때문이다. 그러나, 용어 "혼합물"의 사용은 샘플이 2명 이상의 기여자의 핵산을 포함할 가능성을 나타내고, 샘플이 단지 단일 기여자로부터의 핵산을 포함할 가능성을 배제하지 않는다는 것이 이해된다. 후자의 경우에, 1 또는 100%의 백분율(또는 오차 범위 이내의 값)의 분율이 하나의 기여자에 대해서 결정될 수 있다.
일부 구현예에서, 핵산 샘플의 1명 이상의 기여자는 이식 공여자 및 이식 수증자를 포함한다. 일부 구현예에서, 이식은 동종이계 또는 이종 이식을 포함한다. 일부 구현예에서, 핵산 샘플은 수증자로부터 획득된 생물학적 샘플이다. 일부 구현예에서, 핵산 샘플은 세포-유리 핵산을 포함한다. 일부 구현예에서, 샘플은 세포 DNA를 포함한다.
공정(200)은 본 명세서에 기재된 것과 같은 기술을 사용하여 핵산 샘플로부터 핵산 분자를 추출하는 단계를 포함한다. 블록(202)을 참고하기 바란다.
공정(200)은 추출된 핵산 분자를 증폭시키는 단계를 추가로 포함한다. 블록(204)을 참고하기 바란다. 다양한 증폭 기술, 예컨대, 본 명세서에 기재된 것이 사용될 수 있다. 일부 구현예에서, PCR을 사용하여 추출된 핵산 분자를 증폭시킨다. 일부 구현예에서, 증폭은 특이적 다형성을 표적으로 한다. 다른 구현예에서, 전체 게놈 증폭을 수행할 수 있고, 특이적 다형 부위에 대한 대립유전자 데이터는 서열분석에 의해서 획득될 수 있다.
공정(200)은 또한 증폭된 핵산 분자를 핵산 서열분석기를 사용하여 서열분석하여 핵산 서열 판독물을 생성시키는 단계를 포함한다. 블록(206)을 참고하기 바란다. 다양한 서열분석 기술 및 디바이스가 하기에 추가로 기재되며, 이것은 작업(206)에 적용될 수 있다.
공정(200)은 핵산 서열 판독물을 기준 서열 상의 하나 이상의 다형성 유전자좌에 맵핑하는 단계를 추가로 포함한다. 일부 구현예에서, 정렬 기술을 사용하여 핵산 서열 판독물을 하나 이상의 다형성 유전자좌에 맵핑할 수 있다. 다른 구현예에서, 불편 맵핑 기술을 사용하여 핵산 서열 판독물을 다형성 유전자좌에 매칭할 수 있다. 블록(208)을 참고하기 바란다. 일부 구현예에서, 핵산 서열 판독물은 다형성 유전자좌에서의 특이적 대립유전자에 맵핑된다. 불편 맵핑 기술이 하기에 추가로 기재된다. 일부 구현예에서, 하나 이상의 다형성 유전자좌(또는 다형성 유전자좌)는 이대립인자성(biallelic) 유전자좌를 포함한다. 일부 구현예에서, 하나 이상의 다형성 유전자좌에서의 대립유전자는 단일 뉴클레오타이드 다형성(SNP) 대립유전자를 포함한다.
일부 구현예에서, 고유 분자 색인(UMI)을 추출된 핵산 분자에 부착하는데, 이어서 이것은 증폭되고, 서열분석되고, 다형성 유전자좌 또는 대립유전자에 맵핑된다. 고유 분자 색인은 샘플 처리 및 분석 단계에서 일어날 수 있는 오류를 감소시키기 위한 메커니즘을 제공한다. 예를 들어, 동일한 고유 분자 색인(UMI)을 공유하는 상이한 판독물을 조합 또는 붕괴시켜 판독물이 유래된 서열을 결정하여, 샘플 처리 동안 일어난 오류를 효과적으로 제거할 수 있다.
공정(200)은 방법 핵산 서열 판독물을 사용하여, 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치를 결정하는 단계를 추가로 포함한다. 블록(210)을 참고하기 바란다.
공정(200)은 또한 확률적 혼합 모델을 핵산 서열 판독물의 대립유전자 계수치에 적용하는 단계를 포함한다. 확률적 혼합 모델은 확률 분포를 사용하여 상기 하나 이상의 다형성 유전자좌에서의 핵산 서열 판독물의 상기 대립유전자 계수치를 모델링한다. 확률 분포는 핵산 서열 판독물에서의 오류를 설명한다. 확률적 혼합 모델은 핵산 서열 판독물의 각각의 대립유전자 계수치를, 확률 분포로부터의 무작위 샘플로서 처리한다.
일부 구현예에서, 확률 분포는 제1 이항 분포를 포함한다. 일부 구현예에서, 제1 이항 분포는, 유전자좌에서의 총 대립유전자 계수치를 나타내는 양 모수 및 유전자좌에서의 제1 대립유전자의 확률을 나타내는 확률 모수를 포함한다. 일부 구현예에서, 제1 이항 분포는 하기와 같이 표현된다:
Figure pct00007
식 중, n ij 는 유전자좌 i에서의 대립유전자 j에 대한 핵산 서열 판독물의 대립유전자 계수치이고; n i 는 유전자좌 i에서의 총 판독물 계수치이고; p ij 는 유전자좌 i에서의 대립유전자 j의 확률을 나타내는 확률 모수이다. 유전자좌에서의 모든 가능한 대립유전자에 대한 대립유전자 확률은 합계가 1이다.
일부 구현예에서, 확률 모수는 기여자의 핵산의 분율 또는 β의 함수이다. 확률 모수는 또한 1명 이상의 기여자의 유전자형의 함수이다. 확률 모수는 또한 (206)의 서열분석 작업으로부터 초래한 오류 또는 λ의 함수이다. 일부 구현예에서, 확률 모수는 하기에 기재된 표 3의 p1' 값을 사용하여 획득된다. 일부 구현예에서, 기여자 중 1명 이상의 유전자형은 미지였다. 일부 구현예에서 확률적 혼합 모델은 도 2b에 도시된 바와 같은 다양한 확률 분포를 포함한다.
도 2a로 돌아와서, 공정(200)은 확률적 혼합 모델을 사용하여, 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 것을 포함한다. 블록(214)을 참고하기 바란다. 일부 구현예에서, 정량은 유전자형의 복수의 가능한 조합에 걸쳐서 주변화시켜 확률 모수 p를 획득하는 단계를 포함한다. 일부 구현예에서, 정량은 확률적 혼합 모델의 모수에 대해서 조건화된 작업(210)에서 결정된 핵산 서열 판독물의 대립유전자 계수치의 우도 함수를 사용하여 기여자의 핵산의 분율을 정량하는 것을 포함한다.
일부 구현예에서, 정량은 핵산 서열 판독물의 대립유전자 계수치의 우도 함수 및 복수의 잠재적인 분율 값을 사용하여 복수의 우도 값을 계산하는 단계를 포함한다. 정량은 또한 복수의 우도 값 중에서 최대 값인 우도 값과 연관된 잠재적인 분율 값을 식별하는 것을 포함한다. 일부 구현예에서, 복수의 우도 값은 그리드(grid)에서 복수의 모수 및 이의 값에 대해서 획득된다. 정량은 또한 최대 우도를 갖는 식별된 잠재적인 분율 값에서 핵산 샘플에서 기여자의 핵산의 분율을 정량하는 것을 포함한다. 일부 구현예에서, 우도 함수는 하나 이상의 다형성 유전자좌에 대한 복수의 주변 분포를 하기 식을 포함한다.
일부 구현예에서, 1명 이상의 기여자는 2명의 기여자로서 모델링되고, 우도 함수는 하기를 따른다:
Figure pct00008
식 중,
Figure pct00009
은 모수 β(기여자 중 하나의 핵산의 분율) 및 π(집단 대립유전자 빈도)를 고려할 때 대립유전자 1 내지 j에 대한 대립유전자 계수치 n 1 내지 n j 를 관찰할 우도이고; p ij (g 1j , g 2j , λ, β)는 대립유전자 j의 2명의 기여자의 유전자형(g 1j, g 2j )을 기초로 하는 유전자좌 i에서의 대립유전자 j의 확률을 나타내는 확률 모수; P(g 1j ,g 2j |π)는 집단 대립유전자 빈도(π)를 고려할 때 2명의 기여자에 대한 대립유전자 j의 유전자형을 관찰할 선험적 동시 확률(prior joint probability)이다.
일부 구현예에서, 확률적 혼합 모델은 (202)에서 수행된 핵산 분자의 추출로부터 초래한 오류, 뿐만 아니라 (206)에서의 서열분석 작업으로부터 초래한 오류를 설명한다.
일부 구현예에서, 확률적 혼합 모델은 제2 이항 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 추출된 핵산 분자의 대립유전자 계수치를 모델링한다. 일부 구현예에서, 제2 이항 분포는 하기와 같이 표현된다:
Figure pct00010
식 중, n ij "는 유전자좌 i에서의 대립유전자 j에 대한 추출된 핵산 분자의 대립유전자 계수치이고; n i "는 유전자좌 i에서의 총 추출된 핵산 분자 계수치이고; p ij 는 유전자좌 i에서의 대립유전자 j의 확률을 나타내는 확률 모수이다.
일부 구현예에서, 제1 이항 분포는 대립유전자 분율 n ij "/n i "에 대해서 조건화된다. 일부 구현예에서, 제1 이항 분포는 하기와 같이 재모수화된다:
Figure pct00011
식 중, n ij 는 유전자좌 i에서의 대립유전자 j에 대한 핵산 서열 판독물의 대립유전자 계수치이고; n i "는 총 게놈 카피 수 n"에 동일한, 유전자좌 i에서의 추출된 핵산 분자의 총 수이고; n i 는 유전자좌 i에서의 총 판독물 계수치이며; n ij "는 유전자좌 i에서의 대립유전자 j에 대한 추출된 핵산 분자의 수이다.
일부 구현예에서, 확률적 혼합 모델은 제1 베타 분포를 사용하여 n ij "/n"의 분포의 근사치를 계산한다. 일부 구현예에서, 제1 베타 분포는 제2 이항 분포의 평균 및 분산에 매칭하는 평균 및 분산을 갖는다.
일부 구현예에서, 유전자좌 i는 이대립인자성으로서 모델링되고, 제1 베타 분포는 하기와 같이 표현된다:
Figure pct00012
식 중, p i1 은 유전자좌 i에서의 제1 대립유전자의 확률을 나타내는 확률 모수이고; p i2 는 유전자좌 i에서의 제2 대립유전자의 확률을 나타내는 확률 모수이다.
일부 구현예에서, 공정은 제1 이항 분포 및 제1 베타 분포를 조합하여 제1 베타-이항 분포를 따르는 ni1의 주변 분포를 획득하는 단계를 포함한다.
일부 구현예에서, 1명 이상의 기여자는 2명의 기여자로서 모델링되고, 제1 베타-이항 분포는 하기 형태를 갖는다:
Figure pct00013
식 중, n i2 는 유전자좌 i에서의 제2 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치이고; p 1 (g 11 , g 21 , λ, β) 제1 대립유전자에 대한 제1 기여자의 유전자형(g 11 ) 및 제1 대립유전자에 대한 제2 기여자의 유전자형(g 21 ), 뿐만 아니라 서열분석 오류 λ 및 기여자 분율 β를 기초로 하는 제1 대립유전자의 확률을 나타내는 확률 모수이고; p 2 (g 11 , g 21 , λ, β) 제1 대립유전자에 대한 제1 기여자의 유전자형(g 11 ) 및 제1 대립유전자에 대한 제2 기여자의 유전자형(g 21 ), 뿐만 아니라 서열분석 오류 λ 및 기여자 분율 β를 기초로 하는 제2 대립유전자의 확률을 나타내는 확률 모수이다.
일부 구현예에서, 작업(214)은 제1 베타-이항 분포를 사용하여 획득된 우도 함수를 사용하여 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계를 포함하며, 우도 함수는 하기와 같다:
Figure pct00014
식 중,
Figure pct00015
은 모수 β, n", λ, π를 고려할 때 제1 대립유전자에 대한 대립유전자 계수치(n 1 ) 및 제2 대립유전자에 대한 대립유전자 계수치(n 2 )를 관찰할 우도이고; P(g 11 ,g 21 |π)는 집단 대립유전자 빈도(π)를 고려할 때 유전자좌 i에서의 제1 대립유전자에 대한 제1 기여자의 유전자형(g 11 ) 및 제1 대립유전자에 대한 제2 기여자의 유전자형(g 21 )을 관찰할 선험적 동시 확률이다.
일부 구현예에서, 작업(214)은 추출된 핵산 분자의 질량으로부터 총 추출된 게놈 카피 수 n"를 추정하는 단계를 포함한다.
일부 구현예에서, 확률적 혼합 모델은 (204)에서 수행된 핵산 분자의 증폭으로부터 초래한 오류, 뿐만 아니라 (206)에서의 서열분석 작업으로부터 초래한 오류를 설명한다. 일부 구현예에서, 증폭 공정은 하기와 같이 모델링된다:
Figure pct00016
식 중, x t+1 은 주기 t+1의 증폭 후 주어진 대립유전자의 핵산 카피이고; x t 는 주기 t의 증폭 후 주어진 대립유전자의 핵산 카피이며; y t+1 은 주기 t+1에서 생성된 새로운 카피이고, 이항 분포 y t+1 ~BN(x t , r t+1 )를 따르고; r t+1 은 주기 t+1에 대한 증폭 속도이다.
일부 구현예에서, 확률적 혼합 모델은 제2 베타 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 분율을 모델링한다. 일부 구현예에서, 유전자좌 i는 이대립인자성으로서 모델링되고, 제2 베타 분포는 하기와 같이 표현된다:
Figure pct00017
식 중, n i1 '는 유전자좌 i에서의 제1 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 계수치이고; n 2i '는 유전자좌 i에서의 제2 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 계수치이고; n"는 임의의 유전자좌에서의 총 추출된 핵산 분자 계수치이며; ρ i 는 평균 증폭 속도 r에 관련된 상수이고; p i1 은 유전자좌 i에서의 제1 대립유전자의 확률이고; p i2 는 유전자좌 i에서의 제2 대립유전자의 확률이다. 일부 구현예에서, ρ i
Figure pct00018
이다. 일부 구현예에서, ρ i (1+r)/(1-r)로서 근사된다.
일부 구현예에서, 작업(214)은 제1 이항 분포 및 제2 베타 분포를 조합하여 제2 베타-이항 분포를 따르는 ni1의 주변 분포를 획득하는 단계를 포함한다. 일부 구현예에서, 제2 베타-이항 분포는 하기 형태를 갖는다:
Figure pct00019
식 중, n i2 는 유전자좌 i에서의 제2 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치이고; p i1 은 유전자좌 i에서의 제1 대립유전자의 확률을 나타내는 확률 모수이고; p i2 는 유전자좌 i에서의 제2 대립유전자의 확률을 나타내는 확률 모수이다.
일부 구현예에서, 작업(214)은, 하나 이상의 다형성 유전자좌가 동일한 증폭 속도를 갖는다고 가정함으로써, 제2 베타-이항 분포를 하기로서 재모수화시키는 단계를 포함한다:
Figure pct00020
식 중, r은 증폭 속도이고; p i2 는 유전자좌 i에서의 제2 대립유전자의 확률을 나타내는 확률 모수이다.
일부 구현예에서, 작업(214)은 제2 베타-이항 분포를 사용하여 획득된 우도 함수를 사용하여 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계를 포함하며, 우도 함수는 하기와 같다:
Figure pct00021
식 중, L(n 1 , n 2 | β, r, λ, π)은 모수 β, r, λ, π를 고려할 때 제1 대립유전자에 대한 대립유전자 계수치(n 1 ) 및 제2 대립유전자에 대한 대립유전자 계수치(n 2 )를 관찰할 우도이다.
일부 구현예에서, 작업(214)은, 유전자좌당 총 판독물에 비례할 각각의 다형성의 상대적인 증폭 속도를 정의함으로써, 제2 베타-이항 분포를 하기로서 재모수화시키는 단계를 포함한다:
Figure pct00022
식 중, c'는 최적화될 모수이고; p i2 는 유전자좌 i에서의 제2 대립유전자의 확률을 나타내는 확률 모수이다.
일부 구현예에서, 작업(214)은 제2 베타-이항 분포를 사용하여 획득된 우도 함수를 사용하여 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계를 포함하며, 우도 함수는 하기와 같다:
Figure pct00023
일부 구현예에서, 확률적 혼합 모델은 (202)에서 수행된 핵산 분자의 추출 및 (204)에서 수행된 핵산 분자의 증폭으로부터 초래한 오류, 뿐만 아니라 (206)에서의 서열분석 작업으로부터 초래한 오류를 설명한다. 일부 구현예에서, 확률적 혼합 모델은, 제3 베타 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 분율을 모델링하여, (202)에서 수행된 상기 핵산 분자의 추출 및 (204)에서 수행된 핵산 분자의 증폭으로부터 초래한 샘플링 오류, 뿐만 아니라 (206)에서의 서열분석 작업으로부터 초래한 오류를 설명한다.
일부 구현예에서, 유전자좌 i는 이대립인자성으로서 모델링되고, 제3 베타 분포는 하기의 형태를 갖는다:
Figure pct00024
식 중, n i1 '는 유전자좌 i에서의 제1 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 계수치이고; n 2i '는 유전자좌 i에서의 제2 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 계수치이고; n"는 총 추출된 핵산 분자 계수치이며; r i 는 유전자좌 i에서의 증폭 속도이고; p i1 은 유전자좌 i에서의 제1 대립유전자의 확률이고; p i2 는 유전자좌 i에서의 제2 대립유전자의 확률이다.
일부 구현예에서, 작업(214)은 제1 이항 분포 및 제3 베타 분포를 조합하여 제3 베타-이항 분포를 따르는 ni1의 주변 분포를 획득하는 단계를 포함한다. 일부 구현예에서, 제3 베타-이항 분포는 하기 형태를 갖는다:
Figure pct00025
일부 구현예에서, 작업(214)은 제3 베타-이항 분포를 사용하여 획득된 우도 함수를 사용하여 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계를 포함하며, 우도 함수는 하기를 포함한다:
Figure pct00026
식 중, L(n 1 , n 2 | β, n", λ, π)은 모수 β, n", λ, 및 π를 고려할 때 제1 대립유전자에 대한 대립유전자 계수치 n 1 및 제2 대립유전자에 대한 대립유전자 계수치 n 2 를 관찰할 우도이고;
일부 구현예에서, 공정(200)은 크래머-라오 부등식을 사용하여, 1명 이상의 기여자의 핵산의 하나 이상의 분율의 하나 이상의 신뢰 구간을 추정하는 단계를 추가로 포함한다.
일부 구현예에서, (208)의 맵핑 작업은, 복수의 불편 표적 서열의 임의의 서열에 매칭하는 핵산 서열 판독물 중에서 판독물을 식별하는 단계를 포함하고, 여기서 복수의 불편 표적 서열은 단일 뉴클레오타이드가 서열과 상이한 기준 서열 및 서열들의 하위서열을 포함한다.
일부 구현예에서, 복수의 불편 표적 서열은 하기 5개의 서열 카테고리를 포함한다: (i) 기준 서열의 하위서열인 기준 표적 서열, 각각의 기준 표적 서열은 다형성 유전자좌를 포함하고, 기준 서열 상에서 발견되는 기준 대립유전자를 가짐; (ii) 기준 표적 서열에 상응하는 대안적인 표적 서열, 각각의 대안적인 표적 서열은 상응하는 기준 표적 서열 상에서 발견되는 기준 대립유전자와 상이한 대안적인 대립유전자를 갖고, 여기서 상응하는 서열은 기준 서열에 대해서 동일한 길이 및 동일한 위치를 가짐; (iii) 각각 기준 대립유전자와 대안적인 대립유전자 간의 차이를 정의하는 뉴클레오타이드 이외의 단지 하나의 뉴클레오타이드가 기준 표적 서열과 상이한 모든 가능한 서열을 포함하는 돌연변이된 기준 표적 서열; (iv) 각각 기준 대립유전자와 대안적인 대립유전자 간의 차이를 정의하는 뉴클레오타이드 이외의 단지 하나의 뉴클레오타이드가 대안적인 표적 서열과 상이한 모든 가능한 서열을 포함하는 돌연변이된 대안적인 표적 서열; 및 (v) 기준 표적 서열에 상응하는 비예측된 대립유전자 표적 서열, 각각의 비예측된 대립유전자 표적 서열은 상응하는 기준 표적 서열 상에서 발견되는 기준 대립유전자 및 상응하는 대안적인 표적 서열 상에서 발견되는 대안적인 대립유전자와 상이한 비예측된 대립유전자를 갖고, 여기서 상응하는 서열은 기준 서열에 대해서 동일한 길이 및 동일한 위치를 가짐.
일부 구현예에서, 작업(208)은 식별된 판독물 및 이의 매칭 불편 표적 서열을 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치를 결정하는 단계를 포함한다. 일부 구현예에서, 복수의 불편 표적 서열은 핵산 서열 판독물과 동일한 길이를 갖도록 절두된 서열을 포함한다. 일부 구현예에서, 복수의 불편 표적 서열은 하나 이상의 해쉬 표에 저장된 서열을 포함하고, 판독물은 해쉬 표를 사용하여 식별된다.
일부 구현예에서, 공정(200)은 하나 이상의 다형성 유전자좌 각각에서 대립유전자 구성을 결정하는 단계를 더 포함하고, 각각의 대립유전자 구성은 1명 이상의 기여자 각각에 대해서 2개 이상의 대립유전자의 대립유전자 상태를 포함한다.
도 3은 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 평가하기 위한 공정(300)을 나타내는 블록 다이어그램을 나타낸다. 공정(300)은 핵산 샘플로부터 획득된 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자의 핵산 서열 판독물을 제공받음으로써 시작된다. 블록(302)을 참고하기 바란다. 일부 구현예에서, 핵산 서열 판독물은 본 명세서에 기재된 다양한 기술을 사용하여 핵산 샘플 중의 핵산을 서열분석함으로써 획득되었다.
일부 구현예에서, 고유 분자 색인(UMI)을 추출된 핵산 분자에 부착하는데, 이어서 이것은 증폭되고, 서열분석되고, 다형성 유전자좌 또는 대립유전자에 맵핑된다. 고유 분자 색인은 샘플 처리 및 분석 단계에서 일어날 수 있는 오류를 감소시키기 위한 메커니즘을 제공한다. 예를 들어, 동일한 고유 분자 색인(UMI)을 공유하는 상이한 판독물을 조합하거나 붕괴시켜 판독물이 유래된 서열을 결정하여, 샘플 처리 동안 일어난 오류를 효과적으로 제거할 수 있다. 2016년 4월 16일자로 출원된 미국 특허 출원 제15/130,668호 및 2017년 1월 18일자로 출원된 미국 가특허 출원 제62/447,851호에는 고유 분자 색인을 사용하여 핵산을 서열분석하기 위한 다양한 방법 및 시스템이 기재되어 있고, 이것은 모든 목적을 위해서 전문이 참고로 포함된다.
공정(300)은 핵산 서열 판독물을 사용하여, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 대한 대립유전자 계수치를 결정하는 단계를 추가로 포함한다.
공정(300)은 또한 확률적 혼합 모델을 대립유전자 계수치에 적용하는 단계를 포함한다. 확률적 모델은 확률적 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자의 대립유전자 계수치를 모델링한다. 확률적 분포는 대립유전자 데이터에서의 오류를 계수한다. 오류는 핵산 추출, 샘플 처리 및 서열분석 작업으로부터 기인한 오류를 포함한다.
일부 구현예에서, 확률적 분포는 제1 이항 분포를 포함한다. 일부 구현예에서, 제1 이항 분포는, 유전자좌에서의 총 대립유전자 계수치를 나타내는 모수 및 유전자좌에서의 제1 대립유전자의 확률을 나타내는 확률 모수를 포함한다. 일부 구현예에서, 확률 모수는 핵산 샘플에서 1명 이상의 기여자의 핵산의 분율의 함수이다. 확률 모수는 또한 1명 이상의 기여자의 유전자형 G의 함수이고, 핵산 서열 판독물 데이터에서의 오류 또는 θ의 함수이다. 일부 구현예에서, 판독물 데이터에서의 오류는 핵산 추출, 샘플 처리 및 서열분석 작업으로부터 기인한 오류를 포함한다.
공정(300)은 또한 모델 모수 및 잠재적인 핵산 분율 값을 고려하여 대립유전자 데이터를 관찰할 우도 값을 획득하는 단계를 포함한다. 블록(308)을 참고하기 바란다.
일부 구현예에서, 공정(300)은 우도 값을 사용하여, 핵산 샘플에서 1명 이상의 기여자의 핵산의 분율을 정량하는 단계를 포함한다. 블록(310)을 참고하기 바란다.
일부 구현예에서, 공정(300)은 우도 값을 사용하여, 기여자 중 적어도 하나에 대한 적어도 하나의 유전자형을 결정하는 단계를 포함한다. 블록(312)을 참고하기 바란다.
일부 구현예에서, 기여자의 유전자형은 공정(300) 이전에 미지였다.
일부 구현예에서, 확률적 혼합 모델은 베타 분포를 사용하여 대립유전자 데이터에서 오류를 모델링한다. 일부 구현예에서, 베타 분포는 평균 모수 및 집중 모수에 의해서 정의된다. 일부 구현예에서, 집중 모수는 상이한 노이즈 조건을 나타내기 전에는 이산을 갖는다. 집중 모수는 유전자좌에 따라서 달라진다.
일부 구현예에서, 작업(310)의 정량은 제1 이항 분포 및 베타 분포를 조합하여 베타-이항 분포를 따르는 주변 분포를 획득하는 단계를 포함한다.
일부 구현예에서, (310)의 정량은 대립유전자 데이터의 우도 함수를 사용하여 핵산 샘플에서 1명 이상의 기여자의 핵산의 분율을 정량하는 단계를 포함한다. 일부 구현예에서, 정량은 대립유전자 계수치의 우도 함수 및 복수의 잠재적인 분율 값을 사용하여 복수의 우도 값을 계산하는 단계를 포함한다. 정량은 또한 최대 우도 값과 연관된 잠재적인 분율 벡터를 식별하는 단계, 및 핵산 샘플에서 1명 이상의 기여자의 핵산의 분율을 식별된 잠재적인 분율 벡터를 사용하여 정량하는 단계를 포함한다.
일부 구현예에서, 우도 함수는 집단 대립유전자 빈도(π)를 고려할 때 1명 이상의 기여자의 유전자형의 선험적 확률인 P(G|π)에 좌우된다. 일부 구현예에서, 선험적 확률은 기계론적 드롭-아웃을 나타내는 고정된 선험적 확률과 함께 모조 대립유전자를 고려하여 계산된다.
일부 구현예에서, 1명 이상의 기여자는 2명 이상의 기여자를 포함한다. 일부 구현예에서, 공정(300)은 1명 이상의 기여자에서 기여자의 총 수를 결정하는 작업을 포함한다. 일부 구현예에서, 1명 이상의 기여자의 하나 이상의 유전자형은 미지였고, 공정(300)은 하나 이상의 다형성 유전자좌 각각에서 대립유전자 구성을 결정하는 작업을 포함하며, 대립유전자 구성은 기여자 각각에 대해서 2개 이상의 대립유전자의 대립유전자 상태를 포함한다. 일부 구현예에서, 공정(300)은 대립유전자 구성에 대한 추정된 확률을 결정하는 작업을 포함한다.
일부 구현예에서, 공정(300)은 1명 이상의 기여자 중에서 특정 기여자가 특정 유전자형을 가질 사후 확률을 획득하는 단계를 추가로 포함한다. 일부 구현예에서, 공정(300)은 사후 확률에 기초하여, 핵산 샘플이 특정 기여자로부터의 핵산을 포함한다는 것을 콜링하는 단계를 추가로 포함한다. 일부 구현예에서, 1명 이상의 기여자 중에서 특정 기여자가 특정 유전자형을 가질 사후 확률을 획득하는 것은 하기를 포함한다: (i) 유전자형 구성의 선험적 확률과 유전자형 구성의 우도를 곱하고; (ii) (i)의 곱을 유전자형 공간에 걸친 총합에 의해서 정규화시키고; (iii) 특정 유전자형을 함유하는 유전자형 구성 전체에서 총합하여 사후 확률을 획득함.
일부 구현예에서, 특정 유전자형은 다중-유전자좌 유전자형을 포함하고, 방법은 모든 기여자에 걸쳐서, 기여자가 모든 유전자좌에서 특정 유전자형을 가질 사후 확률을 총합하는 단계; 및 확률 총합에 기초하여, 명시된 다중-유전자좌 유전자형이 임의의 기여자에서 나타나는지를 결정하는 단계를 추가로 포함한다
일부 구현예에서, 핵산 샘플은 법의학적 샘플이고, 다중-유전자좌 유전자형의 데이터는 관심대상 사람으로부터 획득된다. 공정은 관심대상 사람이 핵산 샘플의 기여자임을 결정하는 단계를 추가로 포함한다.
일부 구현예에서, 확률적 혼합 모델은 제2 이항 분포를 사용하여 대립유전자 데이터에서 스터터 오류를 모델링한다. 일부 구현예에서, 제2 이항 분포는 하기와 같이 표현된다:
Figure pct00027
식 중, s ik 는 대립유전자 k인 것으로 보이지만 실제로는 대립유전자 k+1의 스터터 오류로부터 초래한 스터터 대립유전자의 유전자좌 i에서의 스터터 대립유전자 계수치이고; n i(k+1) 은 유전자좌 i에서의 대립유전자 k+1의 본래 대립유전자 계수치이고; r i 는 유전자좌 i에 대한 스터터 비율이다.
일부 구현예에서, 스터터 비율 r은 유전자좌 전체에 걸쳐서 달라지며, 상이한 노이즈 조건을 나타내는 선험값을 갖고, 선험값은 유전자좌 전체에 걸쳐서 공유된다.
일부 구현예에서, 작업 (310)은 비-스터터 대립유전자 계수치의 우도와 스터터 대립유전자 계수치의 우도의 곱을 포함하는 우도 함수를 사용하여 핵산 샘플에서 1명 이상의 기여자의 핵산의 분율을 정량하는 단계를 포함한다.
일부 구현예에서, 확률적 혼합 모델을 적용하는 것은, 스터터가 잠재적으로 유래할 수 있는 분자의 수를 결정할 때, 대립유전자 k+1에 배정된 대립유전자 계수치에 분자의 고정된 수를 더하는 것을 포함한다.
일부 구현예에서, 확률적 혼합 모델은 모조 외샘플(out-of-sample) 대립유전자를 사용하여 자연적 드롭-아웃을 모델링한다. 일부 구현예에서, 모조 외샘플 대립유전자의 선험값은 관찰되지 않은 대립유전자의 수에 비례한다. 일부 구현예에서, 관찰되지 않은 대립유전자의 수는, 가장 짧은 관찰된 정수 값의 대립유전자와 가장 긴 관찰된 정수 값의 대립유전자 사이의 모든 정수를 보간하고, 임의의 관찰된 비-정수 값의 대립유전자를 더하고, 생성된 값 및 기준 값의 최대치로 되돌아감으로써 추정된다.
일부 구현예에서, 확률적 혼합 모델을 적용하는 것은 핵산 샘플에서 1명 이상의 기여자의 핵산의 분율을 정량하는 데 사용된 데이터로부터 유전자형 구성을 가지치기(pruning)하는 것을 포함한다. 일부 구현예에서, 유전자형 구성의 가지치기는, 필요한 대립유전자의 목록을 구축하고, 모든 필요한 대립유전자를 설명하기에 충분하지 않은 기여자를 갖는 유전자좌를 배제함으로써 타당한 유전자형 구성을 제한하는 것을 포함한다. 일부 구현예에서, 필요한 대립유전자의 목록은 역치를 초과하고, 스터터 드롭-인으로 인해서 타당하다고 하기에는 너무 높은 대립유전자 계수치를 갖는 대립유전자로 본질적으로 이루어진다. 일부 구현예에서, 역치는 (i) 최대 비-스터터 대립유전자 계수치, 및 (ii) 잠재적인 스터터 공여자 대립유전자의 계수치를 곱한 값의 총합이다. 일부 구현예에서, 유전자형 구성의 가지치기는 대립유전자 데이터와 예측된 대립유전자 계수치 간에 불량한 매치를 갖는 유전자형 구성을 제거하는 것을 포함한다. 일부 구현예에서, 불량한 매치를 갖는 유전자형 구성은 하나 이상의 역치보다 더 큰 제곱평균 오차(root mean squared error: RMSE) 값을 갖는다.
일부 구현예에서, 하나 이상의 다형성 유전자좌에서의 대립유전자는 단일 뉴클레오타이드 다형성(SNP) 대립유전자 및/또는 짧은 탠덤 반복부(STR) 대립유전자를 포함한다.
마커 부위에 대한 판독물의 불편 맵핑 방법
핵산(예를 들어, DNA 또는 RNA) 서열분석 판독물을 게놈에 맵핑하는 종래의 컴퓨팅 방법은 사용되는 기준 게놈에 의해서 편향될 수 있다. 각각의 변이체 부위에 대해서 단지 하나의 대립유전자(기준 대립유전자)가 기준 게놈에 존재하기 때문에, 판독물과 기준물 사이의 미스매치는 기존의 판독물 맵핑 알고리즘에서 서열분석 오류로서 처리된다. 이러한 문제는 비-기준 대립유전자를 함유하는 판독물이 서열분석 오류를 함유하는 것으로 처리되는 경우, 정렬 신뢰(점수)가 감소되고, 따라서 그것은 후속 필터링 단계에서 신뢰 있게 맵핑된 판독물로서 유지될 가능성이 적은 것이다. 이러한 맵핑 편향은 대립유전자 계수치를 왜곡하고(도 1B), 그 다음 기여자 DNA 분율의 추정치를 훼손시킨다.
맵핑 편향을 다루고, 최적의 CDQ를 가능하게 하기 위해서, 일부 구현예는 판독물을 변이체 부위에 맵핑하기 위한 신규 작업흐름을 제공한다. 새로운 판독물 맵핑 접근법은 변이체 부위 및 비-변이체 부위에 대한 서열분석 오류의 추정 및 대립유전자의 불편 계수를 가능하게 한다.
판독물 맵핑 작업흐름은 하기와 같다. 작업흐름은 먼저 1) 기준 서열 및 2) 변이체 부위의 공지된 대립유전자를 기초로 서열의 5가지 유형(표 1 참고)을 생성시킨다. 하나 초과의 단일 돌연변이가 서열당 허용되는 경우, 서열의 더 많은 유형이 생성될 것이다. 서열의 5가지 유형은 각각 ref, alt, ref.mut, alt.mut, 및 snp.mut라고 지칭된다. 예를 들어, 길이 L의 표적 서열에 의해서 포괄되는 각각의 이대립인자성 SNP 마커 부위의 경우, 하나의 ref, 하나의 alt, [L - 1]×3개의 ref.mut, [L - 1]×3개의 alt.mut 및 2개의 snp.mut 서열이 존재한다. 이어서 서열의 5가지 유형 모두는 "불편 표적 서열"의 데이터베이스에 포함된다(도 1B). 서열분석기로부터의 판독물의 길이에 따라서, 이어서 불편 표적 서열은 2개의 버전으로 절두된다. r은 판독물 길이이다. 절두된 표적 서열의 버전 1은 모든 불편 표적 서열의 r 5' 염기를 포함하는 반면, 절두된 표적 서열의 버전 2는 모든 불편 표적 서열의 r 3' 염기의 역 보체를 포함한다. 이어서, 절두된 표적 서열 내의 불필요한 서열이 제거된다. 이어서, 2개의 절두된 서열 데이터베이스 내의 고유한 서열이 2개의 해시 테이블(hash table)에 기록된다. 다음으로, 서열분석 판독물은 해시 테이블을 사용하여 계수된다. 페어 엔드 서열분석 전략의 경우, R1 판독물 및 R2 판독물은 각각 제1 해시 테이블 및 제2 해시 테이블을 사용하여 계수된다. 논-페어 엔드 서열분석(non-pair end sequencing)의 경우, 서열분석 판독물은 제1 해시 테이블을 사용하여 계수된다. 마지막으로, 각각의 마커 부위에 대해서, 어느 유형의 절두된 불편 표적 서열이 표 1에 상응하는지에 따라서 계수치가 상기에 정의된 5가지 유형으로 합쳐진다.
맵핑을 위한 해시 테이블을 사용하는 것 대신에 서열 정렬 툴이 사용되는 경우 유사한 전략이 구현될 수 있다. 각각의 마커 부위에 대해서, 서열의 ref 및 alt 유형이 생성되어 불편 서열 데이터베이스를 형성한다. 이어서, 각각의 서열분석 판독물은 서열분석 오류의 미리 결정된 수 이하로 이러한 데이터베이스에 정렬된다. 이어서, 맵핑된 판독물은 표 1을 기초로 카테고리화된다. SNP 마커의 경우 단지 이대립인자성 SNP가 여기서 고려된다.
Figure pct00028
제안된 판독물 맵핑 작업흐름은 실제 데이터를 사용하여 시험되는 경우 판독물 맵핑 편향 문제를 다룬다. 이러한 작업흐름을 사용하면, 대안적인 오류에 대한 기준 오류의 관찰된 오류율 및 기준 오류에 대한 대안적인 오류의 관찰된 오류율은 동일하다. 기준 DNA 카피 상의 비-변이체 부위에 대한 서열분석 오류율 및 대안적인 DNA 카피 상의 비-변이체 부위에 대한 서열분석 오류율이 또한 동일하다.
기여자 DNA 분율과 대립유전자 분율의 관련
서열분석 오류가 없다고 가정
본 발명자들은 샘플에 DNA를 공급한 nd 공여자 세포 및 nr 수용자 세포가 존재한다고 가정한다. 이러한 세포를 기초로, 구현예는 부수적인 기여자 분율을 β = nd/(nd + nr)로서 정의한다. 각각의 특정 유전자좌에서의 공여자 및 수용자의 유전자형에 따라서, 2개의 대립유전자는 상이한 분율(상세 사항에 대해서 표 2 참고)을 갖고, 이를 계산하기 위한 포괄적인 식은 p1 =[g11(1-β) + c·g21·β] /2 및 p2 = [g12 (1-β) + g22·β] /2이다. g11 및 g12는 수용자 유전자형, 즉, 수용자 게놈 내의 대립유전자 1 및 2의 카피이고; g21 및 g22는 공여자 유전자형, 즉, 공여자 게놈 내의 대립유전자 1 및 2의 카피임을 주목하기 바란다.
Figure pct00029
서열분석 오류 모델링
변이체 부위에서 2개의 공지된 대립유전자가 존재하는 경우, 서열분석 오류는 이러한 유전자좌에서의 2개의 공지된 대립유전자를 2개의 남아있는 뉴클레오타이드로 전환시키는 것에 더하여, 하나의 대립유전자를 또 다른 것으로 전환시킬 것이다. 그 결과는, 서열분석된 판독물에서 대립유전자 분율은 NGS 입력 DNA 샘플에서 대립유전자 분율로부터 벗어날 것이다.
도 2c는 하나의 대립유전자를 또 다른 대립유전자로 그리고 진 대립유전자를 비예측된 대립유전자로 전환시키는 서열분석 오류를 개략적으로 나타낸다. 패널 (A)는 뉴클레오타이드-의존적 서열분석 오류를 나타내고, 패널 (B)는 획일적 서열분석 오류를 나타낸다.
N1, N2를 대립유전자 1 및 대립유전자 2 뉴클레오타이드라고 한다. p1', p2'는, 그것이 실제인지 서열분석 오류로 인한 것인지에 관계없이, 각각 대립유전자 1 및 대립유전자 2 판독물을 관찰할 확률이고; p0' = 1 - p1' - p2'는 서열분석 오류로 인해서 2개의 비예측된 대립유전자를 관찰할 확률이라고 한다. λN1N2는 N1에서 N2까지의 돌연변이 비율(확률)이고, 여기서 N1 및 N2는 각각의 SNP 부위에 대해서 고유하고,
λN1#: N1에서 3개의 뉴클레오타이드 비-N1 뉴클레오타이드 중 임의의 것까지의 돌연변이 확률이라고 한다.
SNP 부위의 4개의 뉴클레오타이드 사이의 전이 다이어그램을 도 2c에 나타낸다. 이를 기초로, 구현예는 진 대립유전자 분율 p1, p2를 관찰된 대립유전자 분율 p1', p2', 및 p0'로 전환시키기 위해서 하기 식을 획득한다.
Figure pct00030
이러한 구현예가 뉴클레오타이드 아이덴티티에 독립적인 획일적인 서열분석 오류율이라고 가정하면, 구현예는 하기를 갖는다:
Figure pct00031
구현예가 비예측된 대립유전자를 무시하면, 다음과 같다:
Figure pct00032
o(λ2) 근사치 오류를 가지면, 이것은 하기와 같이 다시 표현된다:
Figure pct00033
기여자의 유전자형에 따라서, 기여자 분율 β를 관찰된 대립유전자 분율 p1'와 연결하는 식을 하기 표 3에 열거한다.
Figure pct00034
DNA 추출, PCR(증폭) 및 서열분석 모델의 개요
3개의 확률적 모델(도 1C)를 제공하여 포괄적인 실험 파이프라인(도 1A)에서 3개의 주요 성분을 모델링한다: 1) DNA 추출; 2) 표적 DNA를 풍부화하기 위한 접근법으로서의 DNA 증폭(예를 들어, PCR); 3) 서열분석(예를 들어, NGS 서열분석).
하기 표현을 표 4에 상세하게 기술된 수학 모델에서 사용한다.
p1, p1i: 유전자좌 i에 대한 대립유전자 1 확률. 구현예가 단일 유전자좌에 초점이 맞춰진 경우, 아래첨자 i는 생략됨을 주목하기 바란다.
p1, p2i: 유전자좌 i에 대한 대립유전자 2 확률
n1, n1i, n2, n2i: 유전자좌 i에 대한 대립유전자 1 및 대립유전자 2 판독물 계수치
n, ni = n1i + n2i: 유전자좌 i에 대한 2개의 공지된 대립유전자의 총 판독물 계수치
g11, g12, g11i, g12i: 수용자 유전자형, 즉, 수용자 게놈 내의 대립유전자 1 및 2의 카피
g21, g22, g21i, g22i: 공여자 유전자형, 즉, 공여자 게놈 내의 대립유전자 1 및 2의 카피
B(): 베타 함수
베타(), BN(), Pois(), 감마(): 베타 분포, 이항 분포, 포아송 분포, 및 감마 분포
N: 샘플 중의 DNA를 공급한 세포의 수
β: 샘플 중의 공여자 기원인 DNA의 백분율로서 정의되는 공여자 DNA 분율.
nr = N·(1-β), nd = N·β: 샘플 중의 DNA를 공급한 수용자 세포 및 공여자 세포의 수
Figure pct00035
DNA 추출 모델
cfDNA 또는 세포 DNA가 혈액 샘플로부터 추출되는 경우, 획득된 DNA는 DNA의 큰 풀로부터의 작은 샘플이고, 따라서, 구현예는 각각의 유전자좌에서의 2개의 대립유전자의 계수치를 2개의 포아송 분포로서 모델링한다. 따라서, 총 계수치 n"에 대해서 조건화된 유전자좌에서의 대립유전자 1에 대한 DNA 카피(n1")는 이항 분포를 따른다: n1" ~ BN(n", p1), 평균 μ0 = n"·p1 및 분산 δ0 2 = n" · p1 · p2. 공여자 분율 β < 0.2인 경우, δ0 2
Figure pct00036
μ0이다.
gDNA가 샘플로부터 추출된 경우, 각각의 유전자좌에 대한 생성된 gDNA 양은 추출 손실로 인해서 다시 변동될 수 있다. p1을 입력 샘플 중의 대립유전자 1의 분율로서 간주하면, 추출된 DNA 중의 대립유전자 1의 양은 이항 분포에 의해서 다시 모델링될 수 있다:
Figure pct00037
PCR 증폭 모델
본 발명자들은 PCR 생성물 중의 대립유전자 1 계수치의 확률적 분포를 획득하기 위해서 PCR 증폭 공정을 스토캐스틱(stochastic) 방법으로서 모델링한다. xt를 주기 t의 PCR 증폭 후 주어진 대립유전자의 DNA 카피라고 하고, rt를 주기 t에 대한 증폭 속도라고 하고, yt를 주기 t에서 생성된 새로운 카피라고 한다. DNA의 각각의 조각이 증폭되어 DNA 풀에 첨가될 확률 rt를 갖는다고 가정함으로써, 구현예는 증폭에 대한 하기 모델을 갖는다:
xt+1 = xt + yt+1, 여기서 yt+1 ~BN(xt, rt+1)는 모수로서 xt 및 rt+1을 갖는 이항 분포를 따른다.
이러한 모델을 기초로, 구현예는 PCR 생성물에서 유전자좌에 대한 DNA 카피 수는 대략적으로 감마 분포를 따른다고 주장한다. 하기는 정당성(justification)을 제공한다.
단계 1: 율 방법(Yule process)(연속 시간 스토캐스틱 방법)을 사용하여 PCR(이산 시간 스토캐스틱 방법) 근사치를 계산한다.
PCR 공정 xt+1 = xt + yt+1, 여기서 yt+1 ~BN(xt, rt+1)은 이산 시간 순수 출생 방법(discrete time pure-birth process)이고: 시간 t의 주어진 주기에서, DNA의 각각의 카피는 일부 비율 rt에서 독립적으로 "출생을 제공한다". 순수 출생 방법의 연속 시간 버전은 율-퍼리(Yule-Furry) 방법으로서 널리 공지되어 있다. 연속 시간 출생 방법의 경우, 주어진 시간 t에서 유전자좌에 대한 최종 카피 수는 음이항 분포를 따른다고 공지되어 있다. 구현예는, PCR 주기의 수가 1에 근접하지 않은 경우, 동일한 분포를 사용하여 이산 시간 출생 방법의 근사치를 계산한다.
단계 2: 감마 분포(연속 분포)를 사용하여 음이항 분포(이산 분포)의 근사치를 계산하다.
음이항 확률 변수는 i.i.d. 기하 r.v.s의 총합으로서 표기될 수 있다. 지수 분포는 기하 분포의 연속 버전인 것으로 공지되어 있다. 따라서, 감마 분포를 따르는 i.i.d. 지수 r.v.s의 총합은 음이항인 이항 r.v.s의 총합의 연속 버전이다.
하기에서 구현예는 PCR 생성물에서 대립유전자 계수치의 감마 분포의 모수를 추정한다.
총 분산 법칙 var(xt+1)= var(E(xt+1|xt) + E(var(xt+1|xt))를 기초로, 구현예는 xt의 평균 및 분산을 하기와 같이 유도할 수 있다:
Figure pct00038
여기서 μt = E(xt), δt 2= var(xt)이다.
PCR 주기당 평균 증폭 속도 rt+1 = r를 가정하면, 구현예는 하기를 갖는다:
Figure pct00039
μ0 및 δ0 2은 PCR 증폭 입력값에서 DNA 대립유전자 계수치의 평균 및 분산이고, 이것은 상기에 기재된 DNA 추출 모델을 기초로 계산될 수 있다는 것을 인지하기 바란다. 대안적으로, 구현예가 cfDNA/세포 DNA 대립유전자 계수치를 확률 변수로서 처리하지 않는 경우, 구현예는 μ0 = n1" 또는 n2"이고, δ0 2 = 0이다.
이러한 평균 및 분산에 매칭하는 상응하는 감마 분포
Figure pct00040
는 하기 모수를 갖는다:
Figure pct00041
2개의 대립유전자 및 2개의 초기 카피(n1", n2")를 갖는 주어진 유전자좌의 경우, 각각의 유전자좌에 대한 2개의 대립유전자에 대해서 동일한 증폭 속도 r1 = r2 = r을 가정하면, 2개의 상응하는 감마 분포 G(n1' | k1, θ1) 및 G(n2' | k2, θ2)는 하기 모수를 갖는다:
Figure pct00042
구현예가 PCR 모델을 DNA 추출 모델에 대해서 조건화하고, s.t. μ0 = n1" 또는 n2"이고, δ0 2 = 0인 경우, 구현예는 하기를 갖는다:
Figure pct00043
따라서, PCR 생성물에서 대립유전자 카피 n1' 및 n2'는 PCR 공정(주기의 수 및 증폭 속도)에만 의존적인 동일한 척도 모수 θ1 및 θ2를 갖는 2개의 감마 분포를 따른다. 따라서,
Figure pct00044
이고,
여기서 ρ = (1+r)/(1-r) / [1-(1+r)-t], 또는 주기의 수 t가 큰 경우 대략적으로 ρ = (1+r)/(1-r)이고, 이것은 PCR 공정에만 좌우되는 증폭 속도 r에 관련된 상수이다. 특정 유전자좌의 경우, 이것은
Figure pct00045
로서 표현되어, 유전자좌 특이적 PCR 증폭 속도를 캡처한다.
구현예가 DNA 샘플링을 무시하고, 모든 유전자좌가 동일한 총 DNA 카피 수 ni" = n"임을 갖는다고 가정하면, ni1" = n"·ρi·pi1이고, ni2" = n"·ρi·pi2이다. PCR 생성물에서 유전자좌에 대한 대립유전자 분율은 하기와 같다:
Figure pct00046
.
감마 분포 근사치가 없으면, 구현예는 n1' ~ NB(r1, p) 및 n2' ~ NB(r2, p)를 갖고, 비 n1'/(n1' + n2')는 폐쇄형 분포를 갖지 않는다는 것을 주목하기 바란다. 감마 분포 근사치가 존재하는 경우, n1' ~ 감마(n1"·ρ, θ) 및 n2'~ 감마(n2"·ρ, θ) 및 n1'/(n1' + n2')는 베타 분포를 따른다.
판독물 계수치에 대한 서열분석 모델
NGS 서열분석은, DNA 분자의 풀로부터의 샘플을 서열분석기에 공급하고, 이러한 분자의 서열을 판독하는 과정이다. PCR 생성물에서 유전자좌 i에 대한 대립유전자 1의 분율은 ni1'/ (ni1' + ni2')이다. 이러한 분율은, 대립유전자 1 판독물이 서열분석 결과에서 발생할 확률을 결정한다. 유전자좌당 판독물의 총 수인 ni에 대한 조건화로 인해서, 유전자좌의 대립유전자 1 판독물 계수치인 ni1 분포는 이제 이항 분포 ni1 ~ BN(ni, n1'/ (n1' + n2'))로서 모델링된다.
사전 분포로서의 기여자 간의 유전자 관계를 모델링함
기여자(공여자/수용자) 유전자형이 완전히 공지된 경우, 그것은 상기에 기재된 성분 모델의 모수로서 (표 2 또는 표 3을 사용하여) 직접 혼입될 수 있다. 그러나, 유전자형이 미지인 경우, 구현예는 임상 응용에서 종종 입수 가능한 공여자와 수용자 간의 유전적-관계 정보를 사용할 수 있다.
본 발명자들은 공여자 및 수용자의 가능한 유전자형 조합의 공간에 대한 구별되는 사전 분포로서 상이한 유형의 공여자-수용자 관계를 공식화한다. 하디-바인버그 평형이라고 가정하면, 단일 개체에 대한 유전자형 분포는 P(g = [0,1,2]) = [(1-π)2, 2π(1-π), π2]이다(여기서 대립 유전자 2의 집단 빈도를 π인 것으로 가정). 모든 유전적 관계가 부모-자 관계의 결과라는 것을 인지하기 바란다. 주어진 이대립인자성 마커 부위에 대한 부모와 자 간의 유전적-관계를 기초로(표 5), 구현예는 임의의 유전적 관계에 대한 결합 분포를 계산할 수 있다.
Figure pct00047
하기는 하기 유형의 유전적-관계: 부모-자, 자-부모, 형제, 삼촌/고모-남조카, 남조카-삼촌/고모 및 비친족(unrelated)에 대한 사전 분포이다.
부 유전자형과 자 유전자형 간의 결합 분포
예로서, 부-자 공여자-수용자 유전자형(GT) 결합 분포를 하기 식을 사용하여 계산한다:
P(수용자 = 본인 GT, 공여자 = 부 GT) = Σ모 GT [P(본인 GT|부 GT, 모 GT) · P(부 GT, 모 GT)],
식 중, P(본인 GT|부 GT, 모 GT) 및 P(부 GT, 모 GT)의 값은 각각 표 5의 3열 및 4열로부터 취한다.
형제 유전자형 간의 결합 분포
예로서, 본인-형제 공여자-수용자 유전자형 결합 분포를, 부모 게놈을 고려하여 2명의 형제 유전자형의 조건부 독립성을 기초로, 하기 식을 사용하여 계산한다:
P(수용자 = 본인 GT, 공여자 = 형제 GT) = Σ모 GT Σ부 GT [P(본인 GT |부 GT, 모 GT) · P(형제 GT|부 GT, 모 GT) · P(부 GT, 모 GT)],
식 중, P(본인 GT|부 GT, 모 GT), P(형제 GT|부 GT, 모 GT) 및 P(부 GT, 모 GT)의 값은 각각 표 5의 3행, 3행, 및 4행으로부터 취한다.
삼촌-남조카 유전자형 간의 결합 분포
예로서, 삼촌/고모-남조카/여조카 공여자-수용자 유전자형 결합 분포를 하기 식을 사용하여 계산한다:
P(수용자 = 본인 GT, 공여자 = 삼촌 GT)
= Σ조모 GT Σ조부 GT Σ모 GT Σ부 GT [P(본인 GT|부 GT, 모 GT) · P(모 GT) · P(부 GT|조부 GT, 조모 GT) · P(삼촌 GT|조부, 조모 GT) · P(조부 GT, 조모 GT)]
= Σ모 GT Σ부 GT P(본인 GT|부 GT, 모 GT) · P(모 GT) · P(부 GT, 삼촌 GT),
식 중, P(본인 GT|부 GT, 모 GT)의 값은 표 5의 3열로부터 취하고, P(부 GT, 삼촌 GT)는 P(수용자 = 본인 GT, 공여자 = 형제 GT)와 동일하다.
상기 도출로부터의 결과를 표 6에 요약하고, 집단 SNP 대립유전자 빈도 값 π = 0.5을 고려한 특정 예를 표 7에 제공한다. 추가 관계, 예컨대, 조부모-손자, 손자-조부모, 절반-형제(half-sibling) 및 사촌은 동일한 근본적인 원칙을 기초로 유래될 수 있다.
Figure pct00048
Figure pct00049
부모-자, 형제 관계에 대한 분포는 비친족과 상당히 상이하지만, 삼촌/고모-남조카/여조카는 비친족과 유사하다. 그러한 경우, 공여자 유전자형이 미지인 경우, 구현예는 상기 유전적 관계 각각의 피팅된 모델의 우도 함수를 평가하기 위해서 유전적 관계를 추론할 수 있다. 대안적으로, 구현예는 유전적 선행 분포에서 다중 자유 모수(multiple free parameter)(주변 분포가 하디-바인버그 평형을 따라야 하는 추가 제약이 있음)를 허용할 수 있고, 공여자 분율의 추정과 함께 이러한 모수를 추정한다.
모델링 성분의 통합
확률적 혼합 모델의 성분을 통합하여 기여자 DNA 정량(CDQ) 문제에 대한 해결책을 제공한다. 각각의 SNP 부위에 대한 집단 대립유전자 빈도 π는 공공 데이터베이스, 예컨대, dbSNP로부터 획득될 수 있다. 가장 유익한 SNP, 즉 π = 0.5를 갖는 SNP를 선택하는 경우, 모든 유전자좌에 대해서 π = 0.5를 설정할 수 있으며, P(g11,g21)를 상기 섹션에 기재된 바와 같은 유전적-관계 사전 분포라고 한다.
도식적인 수준에서, 도 2b는 확률적 혼합 모델(200)의 다양한 성분을 나타내는 블록 다이어그램을 도시한다. 일부 성분은 일부 구현예에서 선택적이다. 확률적 혼합 모델(200)은 서열분석 판독물의 대립유전자 계수치를 모델링하기 위해서 이항 분포(208)를 포함한다. 일부 구현예에서, 확률적 혼합 모델은 또한 유전적 관계 사전 분포(202)를 사용하여 공여자-수증자(또는 수용자) 관계를 모델링하기 위해서 성분을 포함한다. 일부 구현예에서, 확률적 혼합 모델은 또한 DNA 추출 대립유전자 계수치를 모델링하기 위해서 이항 분포(204)를 포함한다. 일부 구현예에서, 확률적 혼합 모델(200)은 또한 PCR 생성물 또는 증폭 생성물 대립유전자 분율을 모델링하기 위해서 베타 분포(206)를 포함한다. 블록(206)을 참고하기 바란다.
일부 구현예에서, 혼합 모델은 이항 분포(208)를 이항 분포(204)와 조합하여 DNA 추출 오류 및 서열분석 오류 둘 모두를 모델링한다. 이러한 구현예에서, 혼합 모델은 DNA 추출로 인한 대립유전자 계수치의 변동성을 캡처하면서, 베타-이항 분포(210)를 사용하여 서열분석 판독물의 대립유전자 계수치를 모델링하는데, 서열분석 판독물의 대립유전자 계수치는 DNA 추출의 대립유전자 계수치에 좌우된다.
일부 구현예에서, 확률적 혼합 모델(200)은 베타 분포(206) 및 이항 분포(208)를 조합하고, 베타-이항 분포(212)를 사용하여 PCR 또는 증폭 공정에서의 오류 및 서열분석 공정의 오류 둘 모두를 모델링한다.
일부 구현예에서, 확률적 혼합 모델(200)은 이항 분포(204), 베타 분포(206) 및 이항 분포(208)를 조합하여 각각 DNA 추출, 증폭 공정 및 서열분석 공정으로부터 초래한 분산을 설명한다. 이러한 구현예에서, 확률적 혼합 모델(200)은 먼저 베타 분포(214)를 사용하여 이항 분포(204) 및 베타 분포(206)의 효과의 근사치를 계산한다. 이어서 확률적 혼합 모델(200)은 베타-이항 분포(216)를 사용하여 베타 분포(214) 및 이항 분포(208)를 조합한다.
Seq 모델
완전 모델의 기본 버전은 DNA 추출 모델 및 PCR 모델을 무시하고, 서열분석 모델 만을 고려한다. 각각의 유전자좌의 경우, 기준 대립유전자에 대한 서열분석 판독물 계수치는 이항 분포(도 1C), ni1 ~ BN(ni1, pi1)에 의해서 모델링되고, 여기서 모수 pi1(g11, g21 , λ, β)의 값은 유전자좌에 대한 공여자-수용자 유전자형 조합에 대한 함수이다(표 2 및 표 3). 유전자형이 미지인 것을 고려할 때, 구현예는 사전 분포로서 P(g11,g21|π)를 갖는 각각의 유전자좌에 대해서 9개의 가능한 유전자형 조합에 걸쳐서 주변화된다(표 6 및 표 7). 모든 유전자좌에 걸친 완전한 우도 함수는 모든 유전자좌에 대한 주변 분포의 곱이다:
Figure pct00050
식 중, π는 공지된 모수이고, β는 공여자 DNA 분율이다.
추출-Seq 복합(compound) 모델
보다 발전된 모델은 DNA 추출 모델뿐만 아니라 서열분석 모델을 조합한다. 이 구현예는 PCR 단계를 무시하고(즉, 각각의 유전자좌에 대해서, PCR 생성물 중의 대립유전자 분율이 DNA 샘플 중의 대립유전자 분율과 동일하다고 가정하고), 모델 DNA 샘플링 및 서열분석 단계 만을 고려한다. 각각의 유전자좌에 대해서, 입력 DNA 샘플에서 대립유전자 계수치에 대해서 이항 분포가 존재한다. 이것은 NGS 서열분석에 제공된 입력 DNA에서 대립유전자 분율의 유전자좌-대-유전자좌 변동성을 캡처한다.
DNA 추출 모델의 경우, 이러한 구현예는 DNA 추출 모델에 대해서 조건화하면서, ni1" ~ BN(n", pi1)을 갖고, 서열분석 모델은ni1|ni1", ni" ~ BN(ni, ni1"/ni")이며, 여기서 ni" = n"는 입력 DNA가 상응하는 반수체 게놈의 카피이다. 불행하게도, ni1의 주변 분포는 폐쇄형 식을 갖지 않는다. 구현예는 베타 분포 베타(a, b)를 사용하여 ni1"/n"의 분포에 대한 근사를 선택하고, 최상의 베타 분포는 이항 모델 ni1" ~ BN(n", pi1)로부터 유래된 것을 사용하여 n1i"/n"의 평균 및 분산을 매칭시킴으로써 선택된다:
Figure pct00051
방정식을 풀면 최상의 근사치로서 베타 분포 베타((n"-1)pi1, (n"-1)pi2)를 제공한다. DNA 추출 모델에 대한 이러한 근사치를 사용하여, ni1의 주변 분포는 이제 하기 형태의 베타-이항 분포를 따른다:
Figure pct00052
이제 유전적-관계 선험을 고려하여 상응하는 완전 우도 함수는 하기와 같다:
Figure pct00053
Figure pct00054
n" 및 π = 0.5 둘 모두는 공지된 모수이고, 최종 완전 우도 함수는 공여자 DNA 분율인 단지 단일의 미지의 모수 β를 가짐을 인지하기 바란다.
입력 DNA(반수체) 카피 수 n"은 입력 DNA 질량으로부터 유래될 수 있다. 입력 DNA 양이 8ng인 경우, n" = 8 ng/[3.59×10-3 ng/카피] = 2228.412이다.
PCR-Seq 복합 모델
DNA 추출 모델을 무시하고, 주어진 유전자좌에 대한 공지된 유전자형 조합하면, PCR 모델: ni1'/(ni1' + ni2') ~ 베타(n"·ρi·pi1 , n"·ρi·pi2) 및 서열분석 모델 ni1 ~ BN(ni, n1'/(n1' + n2'))은 베타-이항 분포로 조합될 수 있다: BB(ni1, ni2 | ni, n"·ρi·pi1, n"·ρi·pi2). 근본적인 유전자좌 특이적 PCR 증폭 속도 ρi는 미지이다. 구현예가 모든 유전자좌가 동일한 내재하는 증폭 속도를 갖는다고 가정하면, 그 구현예는
Figure pct00055
Figure pct00056
를 갖는다.
이제 모든 유전자좌에 걸친 완전한 우도 모델은 하기와 같다:
Figure pct00057
Figure pct00058
식 중, c 및 β는 추정될 2개의 모수이다.
대안적으로, 구현예는 유전자좌당 총 판독물에 비례할 각각의 유전자좌의 상대적인 증폭 속도를 정의하고, 베타-이항을
Figure pct00059
로서 재모수화할 수 있다.
이제 모든 유전자좌에 걸친 완전한 우도 모델은 하기와 같다:
Figure pct00060
Figure pct00061
, 식 중, c 및 β는 추정될 2개의 모수이다.
추출-PCR-Seq 복합 모델
추출-PCR-서열분석 포괄적인 실험 파이프라인에서 모든 3개의 성분은, 구현예가 DNA 추출 및 PCR 모델을 하나의 모델로 조합하고, 단일 베타 분포에 의해서 그것의 근사치를 계산하는 경우, 베타-이항에 의해서 함께 모델링될 수 있다. 직감적으로, PCR 생성물 중의 대립유전자 1 분율의 예측된 값(n1'/n', 표 4 참고)은 p1을 유지하고, n1'/n'의 불확실성(분산)은 DNA 추출 및 PCR 단계 둘 모두로부터 기원한다. 베타 분포 베타(a,b)를 획득하여 DNA 추출 및 PCR을 함께 모델링하기 위해서, 구현예는 하기 법칙을 기초로 ni1'/n'의 무조건적 평균 및 분산을 계산한다:
Figure pct00062
, 및
Figure pct00063
Figure pct00064
. 이것을 하기를 제공한다: E(ni1'/n') = pi1, 및 var(ni1'/n') = pi1pi2 / n" + pi1pi2 / (n"·ρi + 1) - p1p2 / [n" · (n"·ρi + 1)], 식 중, ρi = (1+ri)/(1-ri) > 1은 증폭 속도 ri에 관련된 상수이다. n"은 크기 때문에, 구현예는 하기 근사치 var(ni1'/n') = pi1pi2 / [n" · (1+ ri)/2]를 갖는다. 이어서 DNA 추출 및 PCR을 모델링하는 최상의 베타 분포는 베타([n"· (1+ ri)/2 - 1]pi1, [n"· (1+ ri )/2 - 1]pi2)이다. 이것은 cfDNA/gDNA 추출 베타((n"-1)pi1, (n"-1)pi2)에 대한 베타 분포와 유사하지만, 분산이 이제 더 큼을 인지하기 바란다. ri = 0.8 내지 0.95를 갖는 전형적인 PCR 반응의 경우, 구현예는 n" · (1+ ri)/2 = 0.9 · n" 내지 0.975 · n"를 갖는다.
cfDNA-PCR-Seq 모델에 대한 완전 우도 함수는 다음과 같다:
Figure pct00065
Figure pct00066
기여자 핵산 분율 및 이의 신뢰 구간을 추정하기 위한 알고리즘
기여자 DNA 분율을 추정하기 위한 수치 최적화
기여자 DNA 분율 β는 완전 우도 함수 L(n1, n2| β)를 최대화시키는 값으로서 추정된다. 상기에 언급된 바와 같이, 이러한 예 및 다른 예에서 DNA가 언급되지만, RNA 및 다른 핵산 분자가 유사하게 처리 및 분석될 수 있다. 또한, 예가 핵산 혼합물 샘플을 지칭하지만, 샘플은 단일 기여자의 핵산 만을 포함할 수 있고, 이 경우 기여자 분율은 1로서 또는 1로부터의 오차 범위 이내인 것으로 추정될 것이다. L(n1, n2| β)의 계산 동안, 다수의 작은 확률 값은 곱셈된다. 작은 확률을 곱할 때 수치 언더플로잉(underflowing)을 회피하기 위해서, log 규모로 모든 총합 및 곱셈을 수행한다. log 규모의 작은 확률의 총합은 하기와 같이 수행된다: 1) xmax로서의 log 확률의 최대치를 획득하고; 2) 최대치에 의해서 log 확률 모두를 뺄셈하고; 3) 생성된 값을 거듭제곱하고, 그 다음 총합하고; 4) 생성된 총합을 log 전환하고; 5) log 확률의 최대치를 다시 더한다.
Figure pct00067
음의 값을 회피하기 위해서, 변환 β = 1/(1+e)을 사용하고, 국지적인 최소값 회피하기 위해서, 완전 우도 함수를 β0 = 1/(1+e 0)으로 초기화하고, 식 중 η0은 L(n1, n2| 1/(1+e 0))을 최대화하는 -10, -9.9, -9.8, .... , -0.1, 0 사이의 값이다. 추가로 BFGS 준뉴튼법을 사용하여 -log2(L)를 최소화하여 η의 수치 최적화를 수행한다.
신리 구간의 추정
추정치의 신뢰 구간의 하계(lower bound)는 크래머-라오 부등식을 기초로 결정된다: var(θML) ≥ 1/I(θML), 식 중θML은 모수 θ의 최대 우도 추정치이고, I(θML)는 θML에서의 피셔 정보(fisher's information)이다. 이를 기초로, 상기에 기재된 우도 함수에서 β 및 c의 분산을 추정할 수 있다. 표준 오차는 크래머 라오 경계 이후에 sqrt(1/H)로서 추정되며, 식 중 H는 근사될 수 있는 헤시안 행렬이고, BFGS - 준뉴튼법으로 추정된다.
본 발명자들은 수치 최적화 동안 하기 재모수화를 사용하여 β 및 c를 추정한다,
Figure pct00068
I(η) 및 I(κ)를 모수화 η 및 κ 하의 피셔 정보라고 하고, 본래 모수의 피셔 정보는 하기이다:
Figure pct00069
따라서 구현예는 추정된 표준 편차에 대한 하기 변환을 갖는다:
Figure pct00070
데콘볼빙 핵산 샘플의 법의학적 응용
혼합물 데콘볼루션: 관찰된 계수치 D를 고려하여, 기여자 빈도 f 및 유전자좌당(per-locus) 유전자형 구성 G를 추론한다
하기 구현예는 법의학 응용에 적합하다. 본 명세서에 기재된 공정은 쎄타 및 G를 이의 선험값(하기에 기재됨)에 대해서 주변화시키면서, 먼저 f의 최대 우도 추정치를 획득하고, 이어서 이러한 추정치에 대해서 조건화된 모든 유전자형 구성에 대한 사후 확률을 계산한다. 공정은 타당한 유전자형 구성 및 연관 확률의 탑-N 목록과 함께 f의 MLE를 보고한다. 유전자형 구성은 (모든 기여자에 걸쳐서) 유전자좌당 그리고 유전자좌에 따른 기여자당 보고된다. 본 섹션 하에서 기여자 빈도 f는 상기에 기재된 기여자 분율 β에 상응한다. G는 기여자의 유전자형이고, 상기에 기재된 g 11 , g 21 에 상응한다. 데이터 D는 상기 대립유전자 계수치 n에 상응한다.
샘플 포함 질문: 관찰된 계수치 D, f의 추정된 점 예측치, 및 질문 유전자형을 고려하여, 질문 유전자형이 샘플 중에 존재하는지를 추정한다
접근법: 공정은 (공지된 집단 대립유전자 빈도를 사용하여) 일반적인 집단으로부터 채취된 N-기여자 샘플 중에 존재하는 질문 유전자형의 선험적 확률 P(GQ) 및 관찰된 샘플(집단으로부터 무작위로 채취된 다른 기여자를 가짐) 중에 존재하는 질문 유전자형의 사후 확률 P(GQ|D)을 계산하고, 그 다음 증거의 척도로서 이들 두 확률 사이의 log-비를 보고하는 것을 포함한다. P(GQ|D)=P(D|GQ)P(GQ)/P(D)이고, 따라서 보고된 증거는 또한 (동등하게) 우도 비 P(D|GQ)/P(D|G무작위)로서 기재될 수 있는데, 그 이유는 데이터의 주변 확률(marginal probability) P(D)drk 집단으로부터 무작위로 채취된 기여자에 대해서 조건화된 데이터의 확률 P(D|G무작위)와 동일한 것이기 때문이라는 것을 주목하기 바란다.
추론 접근법
핵심 계산은 f 및 쎄타의 값을 입력값으로서 취하고, 유전자형-특이적 확률에 걸쳐서 총합(유전자형 선험값에 의해서 가중됨)을 수행함으로써, 모든 유전자좌에 대해서, f 및 쎄타에 대해서 조건화된 데이터의 주변 log-확률(즉, G에 대해서 주변화된 log-우도)을 계산하는 함수이다. 이어서 이것을쎄타에 대한 (이산 동일 가중(discrete equal-weight)) 분포에 걸쳐서 총합하여 G 및 쎄타에 걸쳐서 주변화된 log-우도를 획득한다. 구현예는 또한 G의 개별 값에 대한 (쎄타에 걸친) 총합을 유지하여 (정규화 후) 구현예는 f에 대해서 조건화되지만 쎄타에 걸쳐서 주변화된, 모든 유전자좌에서의 모든 유전자형에 대한 사후 확률을 갖는다. 유전자좌당 주변 log-우도는 누산되고(accumulated), f에 의해서 여전히 조건화된, 전체 데이터세트에 대한 단일 log-우도로서 복귀된다. 구현예는 이러한 계산을 빈도 벡터 f에 대한 가능한 값의 그리드 내의 모든 지점에서 수행하고, 우도가 최대인 그리드 지점을 c취함으로써 f에 대한 MLE를 얻는다. 빈도 그리드는 2.5%의 동등하게 이격된 간격에서 설정되고, 빈도가 증가되지 않는 순서로 열거되고, 그것이 총합이 1이라는 제약으로, 모든 동일한 빈도에서 추가 지점을 더한다(이미 제시되지 않은 경우). 이것은 2명의 기여자의 경우 21개 지점의 그리드 또는 3명의 기여자의 경우 155개 지점의 그리드를 생성한다(아직 구현되지 않은 4-기여자 사례는 더 거친 그리드를 필요로 할 수 있고; 먼저 더 거친 그리드를 사용하고, 이어서 그리드의 관심 부분에 대해서 확대한 후 제2 단계로서 개선시킴으로써 3-기여자 사례로 빨리 진행시킬 수 있다).
f의 MLE에 대해서 조건화된, 유전자형 구성의 유전자좌당 사후 확률은 혼합물 데콘볼루션 질문을 위해서 그리고 샘플 질문을 위해서 사용된다.
주변 우도 계산:
전체 log-우도는 유전자좌-특이적 log-우도에 걸친 총합이다: log P(D|쎄타,f) = \suml log P(Dl|쎄타,f).
유전자좌-특이적 주변 우도는 타당한 유전자형 구성의 큰 세트를 총합함으로써 계산된다: P(Dl|쎄타,f) = \sumGl P(Dl|쎄타,f,Gl)P(Gl). 컴퓨팅 취급 용이성을 위해서, 하기 작업이 사용된다.
역치는 계수치가 1 이하인 대립유전자를 아웃시킨다. 원형 1에서, 역사적 이유로 인해서, 구현예는 유전자형 구성의 가지치기되지 않은(unpruned) 목록 및 가지치기된 목록 둘 다를 작제한다. 가지치기되지 않은 목록 만 역치 이하 대립유전자를 갖는 구성을 함유하고; 일부 구현예는 가지치기된 목록 및 본 명세서에 기재된 훨씬 더 짧은(보다 공격적으로 가지치기된) 버전 만을 사용한다.
"필요한" 대립유전자의 목록을 구축하고, 모든 필요한 대립유전자를 적어도 한번 함유하는 이러한 유전자형 구성 만을 열거함으로써 타당한 것으로 간주되는 유전자형 구성을 제한한다. UMI 계수치가 일반적인 "드롭-인" N-1 스터터를 통해서 타당하다고 하기에는 너무 높다고 판단되는 경우, 대립유전자를 필요한 대립유전자의 목록에 넣는다. 하기 강력한 역치가 사용된다.
절대 역치(계수치_역치; 10으로 설정). 이것은 비-스터터 UMI의 최대 수이고, 구현예는 임의의 기여자에 존재하지 않는 대립유전자를 설명한다.
상대 역치(스터터_역치; 0.1로 설정). 잠재적인 스터터 공여자(하기 "스터터 취급" 참고)의 계수치를 곱한 이러한 값은 UMI의 최대 수이고, 구현예는 N-1 스터터로서 설명한다.
관찰된 계수치가 상기 두 역치의 총합을 초과하면, 그것은 실존적인 것으로 간주되며, 모든 유전자형 구성에 존재해야 한다. 그렇지 않으면, 그것은 생략될 수 있다(더 많은 수의 유전자형 구성이 고려됨).
보다 컴퓨팅 요구가 많은 부품에 사용하기 위해서 적극적으로 가지치기된 목록을 구축한다(즉, 최종 데콘볼루션 단계에 대해서가 아니라 기여자 빈도를 추론하는 경우):
각각의 구성에 대해서:
Figure pct00071
각각의 기여자 빈도 벡터에 대해서, 구현예는 대립유전자당 판독물의 예측된 수를 관찰된 수와 비교하고, 대립유전자에 걸친 RMSE를 계산한다.
Figure pct00072
이러한 계산은 스터터를 고려하지만, 완전 우도 계산보다는 훨씬 저비용이다.
Figure pct00073
빈도 벡터에 걸쳐서 최소 RMSE를 사용한다(구성이 타당한 빈도 벡터가 존재하는가?). "가장 양호한 RMSE"(하기 참고)에 대해서, 구현예는 빈도 벡터 전체의 평균(전체로서의 데이터세트를 고려할 때 완전히 비현실적인 것일 수 있는 가장 양호한-피팅 빈도 벡터를 사용하는 경우 중단부)을 사용한다.
Figure pct00074
관찰이 하기 기준 둘 다에 따른 예측에 충분히 근접하면 구성을 보유한다.
Figure pct00075
절대 역치(0.2): RMSE가 최대 판독물 계수치의 이러한 분율보다 더 큰 구성을 가지치기한다.
Figure pct00076
비교 역치(5): RMSE가 "가장 양호한 RMSE"(하기 참고)로부터의 이러한 분율보다 더 큰 구성을 가지치기한다.
선험값 P(Gl)(하기 참고)과 함께 타당한 유전자형 구성의 세트가 사전처리 이전에 구축되고, 우도 계산이 콜링되는 모든 시간에 재사용된다.
유전자형-특이적 우도
생성 모델은 "본래" 샘플(이것은 범죄 현장으로부터 또는 처리 동안 후기 단계에서 수집된 물리적 샘플에 상응할 수 있음)에서 유전자좌당 잠재적으로 검출 가능한 분자의 고정된 수를 규정한다. 구현예는, 이러한 분자가 대립유전자가 유전자형 구성에 배정된 기여자의 기여자 빈도에 비례하게 대립유전자당 나뉘어진다고 가정한다. 이어서 이러한 분자 각각은 검출되거나 검출되지 않고, 따라서 주어진 대립유전자에 대해서 검출되는 분자의 수는 이항 방법에 의해서 지배된다. 검출 확률(즉, 이항 모수)은 대립유전자마다(그리고 유전자좌마다) 달라질 수 있고, 모든 유전자좌에서 구현에는 하기 두 모수에 의해서 지배되는 베타 선험값을 배정한다:
평균(평균 검출 확률)
커버리지(coverage)(검출된 UMI의 총 수)는 유전자좌마다 달라진다. 원칙적으로, 이것은, 베타 분포의 평균이 유전자좌마다 달라져야 한다는 것을 의미한다. 일부 구현예는 유전자좌 전체에서 고정된 평균을 유지하고, 대신에 샘플 중의 분자의 수가 유전자좌마다 달라지는 것을 허용한다. 이것은 동일한 것이어야 한다(두 모수는 고도로 상관관계가 있다고 예상되기 때문에, 이를 개별 모수로서 처리하는 것은 그것들을 가장 식별할 수 없게 만들 것이다). 평균 모수는 0.1의 값에 하드코딩되고(hardcoded); 분자의 총 수는, 이러한 평균 모수가 스터터 비율(하기 참고)뿐만 아니라 이러한 평균 모수를 고려하여, 관찰된 커버리지로부터 외삽함으로써 설정된다.
집중 모수(검출 확률이 대립유전자마다 얼마나 많이 달라지는지: 이것은 실험실에서 측정되는 경우 대립유전자 균형(allele balance)에 밀접하게 관련되지만 동일하지는 않음)
이러한 모수는 유전자좌마다 달라지고, 저-, 중- 및 고-노이즈 상태를 나타내는 3-성분 이산 선험값(유전자좌 전체에 공유됨)에 배정된다.
다른 노이즈 모수는 다음과 같다:
스터터_프로브: 상기에 외삽된 바와 같은 분자의 총 수(대립유전자 N) 각각에 대해서, 생성 모델은, 그것이 확률 스터트_프로브를 갖는 UMI(대립유전자 N-1)를 생성할 것이라고 규정한다.
이러한 모수는 동일한 유전자에서의 대립유전자 간에 공유되지만, 유전자좌마다 달라진다. 그것은 저-, 중- 및 고-노이즈 상태를 나타내는 3-성분 이산 선험값(유전자좌 전체에 공유됨)에 배정된다.
예측된_드롭인: 이것은 대립유전자에서 관찰된 비논리적인 UMI의 예측된 수(대립유전자의 분자 또는 스터터 공여자의 분자 중 어느 것에 의해서 생성되지 않음)이다. 모수는 하드코딩되고(추론되지 않고), 대립유전자 및 유전자좌 전체에서 공유된다.
상기 노이즈 모수(이것은 쎄타l을 포함함)를 고려할 때, 유전자형-특이적 우도 P(Dl|쎄타l,f,Gl)는 대립유전자-특이적 우도의 곱으로서 계산된다.
유전자좌에 대한 우도 계산 동안, 일부 구현예는 다수의 유전자형 구성을 시도하고, 이들 중 일부 만 몇몇 대립유전자에서 서로와 상이하다. 그 결과, 대립유전자-특이적 우도는 보통 이전에 사용된 정확하게 동일한 계수치에 필요하다. 구현예는 모든 대립유전자-특이적 우도 계산의 결과를 순람표(lookup table)로 저장하고, 그것이 표에 이미 존재하지 않는 경우에 우도를 단지 계산한다.
본 발명자들은 2가지의 대립유전자-특이적 우도 계산을 뒷받침한다: 단순 (더 신속한) 스터터-프리 계산 및 스터터를 고려한 완전 계산.
대립유전자-특이적 우도: 스터터-프리 버전
대립유전자 k에 대한 우도 계산의 스터터-프리 버전은, 스터터 비율이 0인 경우 적용 가능하고, 또한 "실제"(비-스터터) 검출의 예측된 양이 0이 아니고(적어도 하나의 기여자의 유전자형에서 존재하는 k로 인해서), 스터터 검출의 예측된 양(스터터 비율 및 "스터터 이웃", 대립유전자 k+1에 배정된 분자의 수)이 역치보다 적은 경우 컴퓨팅 숏컷(shortcut)으로서 사용된다.
궁극적으로, 대립유전자 k에 배정된 분자 각각은 이항으로서 모델링된 방법을 통해서 UMI로서 검출되거나 또는 검출되지 않고, 즉 개별 분자의 검출은 독립적으로 일어난다. 잠재적으로 검출 가능한 분자의 대립유전자-특이적 수 및 베타-분포 빈도 모수를 사용하는 이항 방법은 모든 대립유전자에서 관찰된 UMI 계수치에 대한 베타-이항 분포를 암시한다. 따라서, 대립유전자-특이적 우도는 베타-이항 분포에 대한 식을 사용하여 계산된다.
본 발명자들은 관찰된 대립유전자에 대해서만 확률을 계산하고; 0이 아닌 확률을 갖는 관찰되지 않는 대립유전자로부터 발생할 수 있는 패널티를 무시한다.
스터터 및 다른 드롭-인 취급:
제2 우도 계산은, 스터터가 관련된다고 결정되는 소수의 경우에 사용된다(상기 참고). M의 UMI 계수치를 갖는 대립유전자 k에서, 일부 구현예는 해당 대립유전자로부터 기원한 UMI의 수에 대한 가능한 값으로서 모든 값 m을 0 내지 M으로서 고려하고, 나머지(M-m) UMI는 대립유전자 k+1로부터 기원한다. 이러한 사건 중 하나에 대한 우도는 (대립유전자 k+1에서의 본래 UMI의 수와 동일한 N 및 스터터 비율과 동일한 이항 빈도를 갖는 이항 모델 하에서) 진 계수치(true count)에 대한 우도와 스터터 계수치에 대한 우도의 곱이다. 전체 우도는 이러한 사건 모두에 걸친 (선형-도메인) 총합이다.
실제로, 일부 구현예는 상기 총합에서의 항 모두를 계산할 필요는 없다. 그 이유는 스터터 비율이 작아서, 스터터 관찰의 수의 분포가 신속하게 0에 도달되기 때문이다(많은 수의 스터터 관찰은 본질적으로 불가능하고, 총합에서의 상응하는 항은 효과적으로 0일 것임). 일부 구현예는 스터터의 관찰의 수의 누적 분포의 트랙을 유지하고, 나머지 확률 가중치가 역치 미만에 포함되는 경우 총합을 중단하기 때문이다.
일반적인 드롭-인은 스터터가 잠재적으로 유래할 수 있는 분자의 수를 결정할 때, 대립유전자 k+1에 배정된 UMI의 수에 분자의 고정된 수를 더함으로써 취급된다. 그 수는 expected_dropin/stutter_prob으로 설정되어, 드롭-인 UMI의 예측된 수는 expected_dropin과 동일하다.
드롭-아웃 취급:
본 발명자들은 드롭-아웃의 2가지 유형을 구별한다:
자연적 드롭-아웃: 이것은, 이항 방법이 기여자의 유전자형에 존재하는 대립유전자에 대해서 0의 계수치를 초래하는 경우이다. 모든 잠재적인 대립유전자를 명확하게 나타낸다기 보다는(잠재적인 대립유전자의 철저한 목록이 부재하는 불가능 또는 또한 고비용일 것임), 일부 구현예는 "모조" 외샘플 대립유전자를 사용한다. 이러한 대립유전자는 임의의 유전자형 구성에 존재할 수 있고, 0의 UMI 계수치를 갖고, 보통의 대립유전자와 같이 처리된다. 자연적 드롭-아웃은 아마도 낮은-빈도 기여자의 대립유전자에 대해서는 가능하지만, 높은-빈도 기여자의 대립유전자에 대해서는 거의 가능하지 않다.
외샘플 대립유전자에 대한 합리적인 선험적 확률을 배정하기 위해서, 일부 구현예는 잠재적인 대립유전자의 총 수를 추측하고, 이러한 대립유전자 전체의 획일적인 선험값을 설정한다. 따라서 외샘플 선험값은 관찰되지 않은 대립유전자의 수에 비례한다. 현재 잠재적인 대립유전자의 수에 대한 추측은, 가장 짧은 관찰된 정수 값의 대립유전자와 가장 긴 관찰된 정수 값의 대립유전자 사이의 모든 정수를 보간하고, 임의의 관찰된 비-정수 값의 대립유전자를 더하고, 생성된 값의 최대치 및 5로 되돌아감으로써 추정된다.
기계론적 드롭-아웃: 일부 구현예는 특별한 메커니즘을 모델에 혼입하는데, 이에 의해서 대립유전자는 (예를 들어, 프라이머 영역에서의 돌연변이로 인해서) 서열분석기에 대해서 "보이지 않을" 수 있고, 이러한 경우 일부 구현예는 이의 총 분자 계수치와 무관하계 이에 대한 어떠한 UMI도 관찰되지 않는다(즉, 기계론적 드롭-아웃은 낮은-빈도 기여자에 대해서와 같이 높은-빈도 기여자에 대해서 가능하다). 모든 보이지 않는 대립유전자의 세트는 제2 모조 대립유전자로 표현된다.
이러한 대립유전자는 데이터에 관계없이 우도가 1임을 관찰하는 것이 불가능하기 때문에; 동시 확률에 대한 단지 직접적인 기여는 이의 선험값(따라서 이것은 낮게 설정되어야 함)을 통한 것이다. 컴퓨팅 편의를 위해서 일부 구현예는 하드코딩된 모수 dropout_prob을 보이지 않는 대립유전자의 선험적 확률로서 사용하고, 총합에 대한 보이는 대립유전자의 선험값을 1-dropout_prob로 조정한다. 이것은 사전처리 동안 유전자형 선험적 확률(하기 참고)의 계산을 가능하게 하고, 드롭-아웃 확률은 추가의 집단 대립유전자 빈도 값으로서 작용한다.
단일-공급원 샘플의 경우, 동형접합성 대립유전자의 추론된 사후 확률은 dropout_prob의 값에 강하게 좌우되는데, 그 이유는 그것이 모델이 고려해야 하는 주요 대안적인 가설(보이지 않는 1개의 대립유전자가 갖는 이형접합체)의 확률을 결정하기 때문이다. 단일 공급원 동형접합체 대립유전자에 대한 생성된 사후 확률(대략 0.999)이 타당하다는 직관을 기초로, 일부 구현예는 dropout_prob을 1e-4로 보정하였다.
이러한 대립유전자는 임의의 유전자형 구성으로 존재할 수 있다. 구성의 선험값을 계산하는 경우 특별한 처리가 주어지지 않고, 우도 계산 동안 무시된다.
유전자형 구성의 적극적인 가지치기 동안(상기 참고; 판독물 계수치를 기초로 함), 이러한 대립유전자의 존재는 우도 패널티(이것은 dropout_prob에 좌우됨)로부터, 규칙적인 대립유전자에 대해서 추정된 미스매치 계수치와 대등하다는 것을 의미하는 "계수치" 값으로의 ad hoc 전환을 사용하여 패널라이징된다(penalized). 이 전환은, 피크로부터 얼마나 멀리 -log(dropout_prob)의 우도 패널티를 겪어야 하는지를 계산함으로써, 이항에 대한 정규 근사를 기초로 한다. 전환은 1.2876*sqrt(max(read_numbers)/avg_det_prob)인데, 여기서 상수는 sqrt(-2p(1-p)ln(D))이고, 식 중 p는 avg_det_prob=0.1이고, D는 dropout-prob=1e-4이다. 커버리지에 대한 의존성 주목하기 바라며; 일부 구현예는 가장 풍부한 대립유전자의 커버리지를 사용한다.
사전처리 동안 생성된 유전자형 구성의 목록은 하나 이상의 대립유전자가 드롭-아웃 대립유전자인 유전자형을 포함한다. 드롭-아웃 대립유전자에 대해서 관찰된 계수치는 항상 0이고, 이의 우도는 항상 1이다. 높은 우도를 가짐에도 불구하고, 이 모델은 데이터를 설명하기 위해서 드롭-아웃 메커니즘을 빈번하게 사용하지는 않는데, 그 이유는 낮은 드롭-아웃 확률이 낮은 선험값을 유도하기 때문이다.
선험값 및 사후값 계산:
개별 기여자의 유전자형의 선험적 확률은 하디-바인버그 모델 하에서 집단 대립유전자 빈도로부터 계산된다: 대립유전자 빈도 p를 갖는 동형접합성 유전자형의 경우 P(G)=p^2이고, 대립유전자 빈도 p 및 q를 갖는 이형접합성 유전자형의 경우 P(G)=2pq이다. 다수-기여자 유전자형 구성의 선험적 확률은 기여자당 선험값의 곱이다. 이것은, 유전자형 구성이 모든 주변 우도 계산에서 작제되고, 재사용되는 시기에 사전처리 동안 계산된다. 드롭-아웃을 설명하기 위해서 일부 구현예는 모조 드롭-아웃 대립유전자를 실험 측정을 기초로 설정될 고정된 선험적 확률과 더하고; 따라서 집단 대립유전자 빈도는 무시된다.
유전자형 구성의 사후 확률은 유전자형 공간 전체의 총합에 의해서 정규화된, 우도와 곱셈한 사전값이다(일부 구현예는 모든 유전자형 구성에 대한 항을 임의의 방식으로 계산하기 때문에 명확하게 계산됨). 특정 기여자(예를 들어, 주요 기여자)가 특정 유전자형을 가질 사후 확률은 그 유전자형을 함유하는 유전자형 구성 전체를 총합함으로써 획득된다.
샘플 포함 질문의 경우, 실무자는 명시된 다중-유전자좌 유전자형이 임의의 기여자에서 나타나되, 단 그것은 모든 유전자좌에서 동일한 기여자일 사후 확률에 관심이 있다. 이것은 기여자 i가 모든 유전자좌에서 명시된 유전자형을 가질 확률(즉, 루프가 중첩된 상황(nested matter)인 순서)을, 모든 기여자 i에 걸쳐서, 총합함으로써 획득된다.
본 명세서에서 사용된 샘플은 "세포-유리"(예를 들어, cfDNA) 또는 세포-결합(예를 들어, 세포 DNA)인 핵산을 함유한다. 세포-유리 DNA는 혈장, 혈청 및 소변을 포함하지만 이들로 제한되지 않는 생물학적 샘플로부터 관련 기술 분야에 공지된 다양한 방법에 의해 획득될 수 있다(예컨대, 문헌[Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008]; Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, 2000; 및 Su et al., J Mol. Diagn. 6: 101-107 [2004]] 참고). 샘플 중의 세포로부터 세포-유리 DNA를 분리하기 위해서, 분별증류, 원심분리(예를 들어, 밀도 구배 원심분리), DNA-특이적 침전 또는 고 처리율 세포 분류 및/또는 기타 방법을 포함하지만 이들로 제한되지 않는 다양한 방법이 사용될 수 있다. cfDNA의 수동 분리 및 자동화 분리를 위한 상업적으로 입수 가능한 키트가 입수 가능하다(로슈 다이어그노스틱스사(Roche Diagnostics), 미국 인디애나주 인디아나폴리스 소재, 퀴아젠사(Qiagen), 미국 캘리포니아주 발렌시아 소재), 매케레이-나젤사(Macherey-Nagel), 독일 듀렌 소재). cfDNA를 포함하는 생물학적 샘플은 염색체 이수성 및/또는 다양한 다형성을 검출할 수 있는 서열분석 검정에 의해서, 염색체 이상, 예를 들어, 삼중염색체(trisomy) 21의 존재 또는 부재를 결정하기 위해서 검정에서 사용되어 왔다.
샘플
본 명세서에서 사용된 샘플은 "세포-유리"(예를 들어, cfDNA) 또는 세포-결합(예를 들어, 세포 DNA)인 핵산을 함유한다. 세포-유리 DNA는 혈장, 혈청 및 소변을 포함하지만 이들로 제한되지 않는 생물학적 샘플로부터 관련 기술 분야에 공지된 다양한 방법에 의해 획득될 수 있다(예컨대, 문헌[Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008]; Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, 2000; 및 Su et al., J Mol. Diagn. 6: 101-107 [2004]] 참고). 샘플 중의 세포로부터 세포-유리 DNA를 분리하기 위해서, 분별증류, 원심분리(예를 들어, 밀도 구배 원심분리), DNA-특이적 침전 또는 고 처리율 세포 분류 및/또는 기타 방법을 포함하지만 이들로 제한되지 않는 다양한 방법이 사용될 수 있다. cfDNA의 수동 분리 및 자동화 분리를 위한 상업적으로 입수 가능한 키트가 입수 가능하다(로슈 다이어그노스틱스사, 미국 인디애나주 인디아나폴리스 소재, 퀴아젠사, 미국 캘리포니아주 발렌시아 소재), 매케레이-나젤사, 독일 듀렌 소재). cfDNA를 포함하는 생물학적 샘플은 염색체 이수성 및/또는 다양한 다형성을 검출할 수 있는 서열분석 검정에 의해서, 염색체 이상, 예를 들어, 삼중염색체 21의 존재 또는 부재를 결정하기 위해서 검정에서 사용되어 왔다.
각종 실시형태에서 샘플 중에 존재하는 DNA는 사용 전에(예컨대, 서열분석 라이브러리의 제조 전에) 특이적으로 또는 비-특이적으로 풍부화될 수 있다. 샘플 DNA의 비-특이적 풍부화는 DNA 서열분석 라이브러리를 제조하기 전에 샘플 DNA의 수준을 증가시키기 위해서 사용될 수 있는 샘플의 게놈 DNA 단편의 전체 게놈 증폭을 지칭한다. 비-특이적 풍부화는 하나를 초과하는 게놈을 포함하는 샘플에 존재하는 2개의 게놈 중 하나의 선택적인 풍부화일 수 있다. 예를 들어, 비-특이적 풍부화는 혈장 샘플에서 암 게놈에 선택적일 수 있는데, 이것은 공지된 방법에 의해서 획득되어 암의 상대적인 비율을 샘플 중의 정상 DNA까지 증가시킬 수 있다. 대안적으로, 비-특이적 풍부화는 샘플 중에 존재하는 게놈 둘 모두의 비-선택적인 증폭일 수 있다. 예를 들어, 비-특이적 증폭은 암 및 정상 게놈으로부터의 DNA의 혼합물을 포함하는 샘플 중의 암 및 정상 DNA에 대한 것일 수 있다. 전체 게놈 증폭은 당업계에 공지되어 있다. 축퇴성 올리고뉴클레오타이드-프라이밍된 PCR(DOP), 프라이머 연장 PCR 기술(PEP) 및 다중 대체 증폭(MDA)이 전체 게놈 증폭 방법의 예이다. 일부 실시형태에서, 상이한 게놈으로부터의 cfDNA의 혼합물을 포함하는 샘플은 혼합물 중에 존재하는 게놈의 cfDNA를 풍부화하지 않는다. 다른 실시형태에서, 상이한 게놈으로부터의 cfDNA의 혼합물을 포함하는 샘플은 샘플 중에 존재하는 게놈 중 임의의 것을 비-특이적으로 풍부화한다.
본 명세서에 기재된 방법이 적용되는 핵산(들)을 포함하는 샘플은 전형적으로 상기에 기재된 것과 같은 생물학적 샘플("시험 샘플")을 포함한다.
따라서, 특정 실시형태에서 샘플은 정제 또는 분리된 폴리뉴클레오타이드를 포함하거나 이들로 본질적으로 이루어지거나, 또는 샘플, 예컨대, 조직 샘플, 생물학적 유체 샘플, 세포 샘플 등을 포함할 수 있다. 적합한 생물학적 유체 샘플은 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유체, 림프액, 침, 뇌척수액, 래비지(ravage), 골수 현탁액, 질 유체, 자궁경부-통과 세척액, 뇌 유체, 복수, 모유, 호흡기 분비물, 장 및 비뇨생식관, 양수, 모유 및 류코포레시스(leukophoresis) 샘플을 포함하지만 이들로 제한되지 않는다. 일부 실시형태에서, 샘플은 비-침습성 절차에 의해 쉽게 얻을 수 있는 샘플, 예를 들어, 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유체, 타액 또는 대변이다. 특정 실시형태에서 샘플은 말초 혈액 샘플, 또는 말초 혈액 샘플의 혈장 및/또는 혈청 부분이다. 다른 실시형태에서, 생물학적 샘플은 면봉 또는 얼룩, 생검 시편 또는 세포 배양물이다. 또 다른 실시형태에서, 샘플은 2개 이상의 생물학적 샘플의 혼합물이고, 예컨대, 생물학적 샘플은 생물학적 유체 샘플, 조직 샘플 및 세포 배양 샘플 중 둘 이상을 포함할 수 있다. 본 명세서에서 사용되는 바와 같이, 용어 "혈액", "혈장" 및 "혈청"은 명확하게 부분 또는 이의 처리된 부분을 포함한다. 유사하게, 샘플이 생검, 면봉, 얼룩 등으로부터 취해지는 경우, "샘플"은 명확하게 처리된 부분 또는 생검, 면봉, 얼룩 등으로부터 유래된 부분을 포함한다.
특정 실시형태에서, 샘플은 상이한 개체로부터의 샘플, 동일한 또는 상이한 개체의 상이한 발달 단계로부터의 샘플, 병에 걸린 상이한 개체(예를 들어, 유전적 장애를 가진 것으로 의심되는 개체)로부터의 샘플, 정상 개체로부터의 샘플, 개체의 상이한 질환 단계에서 얻어진 샘플, 질환에 대해 상이한 처리가 적용된 개체로부터 얻어진 샘플, 상이한 환경 인자에 적용된 개체로부터의 샘플, 병리학에 대한 소인을 지닌 개체로부터의 샘플, 감염성 질환 작용제(예를 들어, HIV)에 노출된 샘플 개체로부터의 샘플 등을 포함하지만 이들로 제한되지 않는 공급원으로부터 획득될 수 있다.
일 예시적이지만 비제한적인 실시형태에서, 샘플은 임신한 암컷, 예를 들어, 임신한 여성으로부터 획득된 모계 샘플이다. 이러한 예에서, 샘플은 태아의 잠재적인 염색체 이상의 산전 진단을 제공하기 위해서 본 명세서에 기재된 방법을 사용하여 분석될 수 있다. 모계 샘플은 조직 샘플, 생물학적 유체 샘플, 또는 세포 샘플일 수 있다. 생물학적 유체는 비제한적인 예로서 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유체, 림프액, 침, 뇌척수액, 래비지, 골수 현탁액, 질 유체, 자궁경부-통과 세척액, 뇌 유체, 복수, 모유, 호흡기 분비물, 장 및 비뇨생식관 및 류코포레시스 샘플을 포함한다.
또 다른 예시적이지만 비제한적인 실시형태에서, 모계 샘플은 2개 이상의 생물학적 샘플의 혼합물이고, 예컨대, 생물학적 샘플은 생물학적 유체 샘플, 조직 샘플 및 세포 배양 샘플 중 둘 이상을 포함할 수 있다. 일부 실시형태에서, 샘플은 비-침습성 절차에 의해 쉽게 얻을 수 있는 샘플, 예를 들어, 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 모유, 가래, 귀 유체, 타액 및 대변이다. 일부 실시형태에서, 생물학적 샘플은 말초 혈액 샘플, 및/또는 혈장 및 이의 혈청 부분이다. 다른 실시형태에서, 생물학적 샘플은 면봉 또는 얼룩, 생검 시편 또는 세포 배양물의 샘플이다. 상기에 개시된 바와 같이, 용어 "혈액", "혈장" 및 "혈청"은 명확하게 부분 또는 이의 처리된 부분을 포함한다. 유사하게, 샘플이 생검, 면봉, 얼룩 등으로부터 취해지는 경우, "샘플"은 명확하게 처리된 부분 또는 생검, 면봉, 얼룩 등으로부터 유래된 부분을 포함한다.
특정 실시형태에서 샘플은 또한 시험관내에서 배양된 조직, 세포 또는 다른 폴리뉴클레오타이드-함유 공급원으로부터 획득될 수 있다. 배양된 샘플은 상이한 배지 및 조건(예컨대, pH, 압력 또는 온도)에서 유지된 배양물(예컨대, 조직 또는 세포), 상이한 기간 동안 유지된 배양물(예컨대, 조직 또는 세포), 상이한 인자 또는 시약(예컨대, 약물 후보물질 또는 조절제)로 처리된 배양물(예컨대, 조직 또는 세포) 또는 상이한 유형의 조직 및/또는 세포의 배양물을 포함하지만 이들로 제한되지 않는 공급원으로부터 취해질 수 있다.
생물학적 공급원으로부터 핵산을 분리시키는 방법은 널리 공지되어 있고 공급원의 특성에 따라서 다를 것이다. 당업자는 본 명세서에서 기술된 방법에 대해 필요한 대로 공급원으로부터 핵산을 쉽게 분리시킬 수 있다. 일부 경우에, 핵산 샘플에서 핵산 분자를 단편화시키는 것이 유익할 수 있다. 단편화는 무작위일 수 있거나, 또는 달성되는 바와 같이, 예를 들어, 제한 엔도뉴클레아제 소화를 사용하여 특이적일 수 있다. 무작위 단편화 방법은 당업계에 널리 공지되어 있고, 예를 들어, 제한 DNAse 소화, 알칼리 처리 및 물리적 전단을 포함한다. 일 실시형태에서, 샘플 핵산은 단편화에 적용되지 않은 cfDNA로부터 획득된다.
서열분석 라이브러리 제조
일 실시형태에서, 본 명세서에 기재된 방법은 다중 샘플이 게놈 분자로서(즉, 단일플렉스 서열분석) 또는 색인 처리된 게놈 분자를 포함하는 풀링된 샘플로서(예컨대, 복합 서열분석) 단일 서열분석 작업 시 개별적으로 서열분석되는 것을 가능하게 하는 차세대 서열분석 기술(NGS)을 활용할 수 있다. 이들 방법은 DNA 서열의 최대 수 십억 개의 판독물을 생성시킬 수 있다. 다양한 실시형태에서 게놈 핵산 및/또는 색인 처리된 게놈 핵산의 서열은, 예를 들어, 본 명세서에 기재된 차세대 서열분석 기술(NGS)을 사용하여 결정될 수 있다. 다양한 실시형태에서 NGS를 사용하여 얻어진 다량의 서열 데이터의 분석은 본 명세서에 기재된 것과 같은 하나 이상의 프로세서를 사용하여 수행될 수 있다.
각종 실시형태에서 이러한 서열분석 기술의 사용은 서열분석 라이브러리의 제조를 포함하지 않는다.
그러나, 특정 실시형태에서 본 명세서에서 고려되는 서열분석 방법은 서열분석 라이브러리의 제조를 포함한다. 예시적인 일 접근법에서, 서열분석 라이브러리 제조는 서열분석될 준비가 되어 있는 어댑터-변형된 DNA 단편(예를 들어, 폴리뉴클레오타이드)의 무작위 집단의 생산을 포함한다. 폴리뉴클레오타이드의 서열분석 라이브러리는 DNA 또는 cDNA 중 어느 하나의 등가물, 유사체, 예를 들어, RNA 주형으로부터 생산된 DNA에 상보적이거나 카피인 DNA 또는 cDNA를 비롯한, DNA 또는 RNA로부터, 역전사효소의 작용에 의해 제조될 수 있다. 폴리뉴클레오타이드는 이중 가닥 형태(예를 들어, dsDNA, 예컨대, 게놈 DNA 단편, cDNA, PCR 증폭 생성물 등)에서 기원할 수 있거나 또는 특정 실시형태에서, 폴리뉴클레오타이드는 단일-가닥 형태(예를 들어, ssDNA, RNA 등)에서 기원할 수 있고, dsDNA 형태로 전환되었다. 예의 방식에 의해서, 특정 실시형태에서, 단일 가닥 mRNA 분자는 서열분석 라이브러리를 제조하는 데 사용하기에 적합한 이중-가닥 cDNA로 카피될 수 있다. 일차 폴리뉴클레오타이드 분자의 정확한 서열은 일반적으로 라이브러리 제조 방법에 대한 물질이 아니고, 공지되어 있거나 미지의 것일 수 있다. 일 실시형태에서, 폴리뉴클레오타이드 분자는 DNA 분자이다. 보다 특별하게는, 특정 실시형태에서, 폴리뉴클레오타이드 분자는 유기체의 전체 유전자 보체 또는 유기체의 실질적으로 전체 유전자 보체를 나타내고, 전형적으로 인트론 서열 및 엑손 서열(암호 서열) 둘 다, 뿐만 아니라 프로모터 및 인핸서 서열과 같은 비-암호 조절 서열을 포함하는 게놈 DNA 분자(예를 들어, 세포 DNA, 세포 유리 DNA(cfDNA) 등)이다. 특정 실시형태에서, 일차 폴리뉴클레오타이드 분자는 인간 게놈 DNA 분자, 예를 들어, 임신한 대상체의 말초 혈액 중에 존재하는 cfDNA 분자를 포함한다.
일부 NGS 서열분석 플랫폼에 대한 서열분석 라이브러리의 제노는 특정 범위의 단편 크기를 포함하는 폴리뉴클레오타이드의 사용에 의해서 가능해진다. 이러한 라이브러리의 제조는 전형적으로 큰 폴리뉴클레오타이드(예를 들어, 세포 게놈 DNA)의 단편화를 포함하여 목적하는 크기 범위의 폴리뉴클레오타이드를 수득한다.
단편화는 당업자에게 공지된 다수의 방법 중 임의의 것에 의해 달성될 수 있다. 예를 들어, 단편화는 분무화, 초음파처리 및 수화전단(hydroshear)을 포함하지만 이들로 제한되지 않는 기계적 수단에 의해 달성될 수 있다. 그러나, 기계적 단편화는 전형적으로 DNA 골격을 C-O, P-O 및 C-C 결합에서 절단하여, 파괴된 C-O, P-O 및/ C-C 결합을 갖는, 뭉툭한 단부와 3'- 및 5'-오버행잉 단부의 이질성 믹스를 초래하고(예를 들어, 문헌[Alnemri and Liwack, J Biol. Chem 265:17323-17333 [1990]; Richards and Boyer, J Mol Biol 11:327-240 [1965]] 참고), 그것은 서열분석을 위한 DNA를 제조하기 위해 필요한 후속 효소 반응, 예를 들어, 서열분석 어댑터의 결찰을 위해 필요한 5'-포스페이트가 결핍될 수 있기 때문에 수선될 필요가 있을 수 있다.
대조적으로, cfDNA는 전형적으로 약 300개 염기쌍보다 작은 단편으로서 존재하고, 그 결과, 단편화는 cfDNA 샘플을 사용하여 서열분석 라이브러리를 생성하기 위해서는 전형적으로 필요하지는 않다.
전형적으로, 폴리뉴클레오타이드가 강제로 단편화되든(예를 들어, 시험관 내에서 단편화됨) 또는 자연적으로 단편으로서 존재하든 간에, 이것은 5'-포스페이트 및 3'-하이드록실을 갖는 뭉툭한-단부의 DNA로 전환된다. 표준 프로토콜, 예컨대, 예를 들어, 본 명세서 다른 곳에 기재된 바와 같은 일루미나 플랫폼을 사용하는 서열분석을 위한 프로토콜은, 단부-수선 샘플 DNA의 사용자가 dA-테일링 이전에 단부-수선된 생성물을 정제하고, 라이브러리 제조의 어댑터-결찰 단계 전에 dA-테일링 생성물을 정제시키도록 한다.
본 명세서에 기재된 서열 라이브러리 제조 방법의 다양한 실시형태는 NGS에 의해 서열분석될 수 있는 변형된 DNA 산물을 획득하기 위해서 표준 프로토콜에 의해서 전형적으로 지시된 단계 중 하나 이상을 수행할 필요를 제거한다. 생략된 방법(ABB 방법), 1-단계 방법 및 2-단계 방법은 2012년 7월 20일자로 출원된 특허 출원 제13/555,037호(전체 내용은 본 명세서에 참고로 포함됨)에서 찾아볼 수 있는 서열분석 라이브러리의 제조를 위한 방법의 예다.
서열분석 방법
일부 구현예에서, 제조된 샘플(예를 들어, 서열분석 라이브러리)은 핵산의 혼합물을 데콘볼빙하기 위한 절차의 부분으로서 서열분석된다. 다수의 서열분석 중 임의의 것이 사용될 수 있다.
일부 서열분석 기술은 상업적으로 입수 가능하고, 예컨대, 하기에 기재된 바와 같은 어피메트릭스사(Affymetrix Inc.)(미국 캘리포니아주 서니베일 소재)로부터의 혼성화에 의한 서열분석 플랫폼(sequencing-by-hybridization platform) 및 454 라이프 사이언시스사(Life Sciences)(미국 코네티컷주 브렌포드 소재), 일루미나/솔렉사사(Solexa)(미국 캘리포니아주 헤이워드 소재) 및 헬리코스 바이오사이언시스사(미국 매사추세츠주 케임브리지 소재)로부터의 합성에 의한 서열분석 플랫폼, 및 어플라이드 바이오시스템즈사(Applied Biosystems)(미국 캘리포니아주 포스터 시티 소재)로부터의 결찰에 의한 서열분석 플랫폼(sequencing-by-ligation platform)이다. 헬리코스 바이오사이언시스사(Helicos Biosciences)의 합성에 의한 서열분석을 사용하여 수행된 단일 분자 서열분석에 더하여, 다른 단일 분자 서열분석 기술은 퍼시픽 바이오사이언시스사(Pacific Biosciences)의 SMRTTM 기술, ION TORRENTTM 기술 및 예를 들어, 옥스포드 나노포어 테크놀로지스사(Oxford Nanopore Technologies)에 의해 개발된 나노포어 서열분석을 포함하지만 이들로 제한되지 않는다.
자동화 생어(Sanger) 방법은 '제1 세대' 기술로 여겨지는 한편, 자동화 생어 서열분석을 비롯한 생어 서열분석이 또한 본 명세서에 기재된 방법에서 사용될 수 있다. 추가의 적합한 서열분석 방법은, 핵산 영상화 기술, 예컨대, 원자력 현미경(AFM) 또는 투과 전자 현미경(TEM)을 포함하지만 이들로 제한되지 않는다. 예시적인 서열분석 기술은 하기에 더 상세하게 기재된다.
일 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기재된 개시된 방법은 일루미나의 합성에 의한 서열분석 및 가역적 터미네이터-기반 서열분석 화학(예를 들어, 문헌[Bentley et al., Nature 6:53-59 [2009]]에 기재된 바와 같음)을 사용하여, 암 등에 대해서 스크리닝될 대상체에서 시험 샘플 중의 핵산, 예를 들어, 모계 샘플 중의 cfDNA, cfDNA 또는 세포 DNA에 대한 서열 정보를 획득하는 것을 포함한다. 주형 DNA는 게놈 DNA, 예를 들어, 세포 DNA 또는 cfDNA일 수 있다. 일부 실시형태에서, 단리된 세포로부터의 게놈 DNA는 주형으로서 사용되고, 그것은 수 백 개의 염기쌍의 길이로 단편화된다. 다른 실시형태에서, cfDNA가 주형으로서 사용되고, 단편화는 cfDNA로서 필요하지 않은데 그 이유는 ctDNA가 짧은 단편으로서 존재하기 때문이다. 예를 들어, 태아 cfDNA는 혈류에서 대략 170개 염기쌍(bp) 길이의 단편으로서 순환하고(Fan et al., ClinChem 56:1279-1286 [2010]), DNA의 단편화는 서열분석 전에는 필요하지 않다. 순환하는 종양 DNA는 또한 짧은 단편으로 존재하고, 크기 분포는 약 150 내지 170bp에서 최대이다. 일루미나의 서열분석 기술은 상부에 올리고뉴클레오타이드 앵커가 결합되는 평면의, 선택적으로 투명한 표면에 대한 단편화된 게놈 DNA의 부착에 좌우된다. 주형 DNA는 단부-수선되어 5'-포스포릴화된 뭉툭한 단부를 생성하고, 클레노우(Klenow) 단편의 폴리머라제 활성은 뭉툭한 포스포릴화된 DNA단편의 3' 단부에 단일 A 염기를 첨가하기 위해 사용된다. 이러한 첨가는 올리고뉴클레오타이드 어댑터에의 결찰을 위한 DNA 단편을 제조하는데, 그것은 결찰 효율을 증가시키기 위해 3' 단부에서 단일 T 염기의 오버행을 갖는다. 어댑터 올리고뉴클레오타이드는 플로우-셀 앵커 올리고(flow-cell anchor oligo)에 상보적이다(반복적인 확장의 분석에서 앵커/앵커링된 판독물과 혼동되지 않을 것임). 제한-희석 조건하에서, 어댑터-변형된, 단일-가닥의 주형 DNA가 플로우 셀(flow cell)에 첨가되고, 앵커 올리고에 대한 혼성화에 의해 고정된다. 부착된 DNA 단편은 연장되고, 브리지 증폭되어 수 백 내지 수 백만의 클러스터를 갖고, 각각 약 1,000개의 동일 주형 카피를 함유한, 초고밀도 서열분석 플루우 셀을 생성한다. 일 실시형태에서, 무작위로 단편화된 게놈 DNA는 클러스터 증폭에 적용되기 전에 PCR을 사용하여 증폭된다. 대안적으로, 무-증폭(amplification-free)(예를 들어, 무 PCR) 게놈 라이브러리 제조가 사용되고, 무작위로 단편화된 게놈 DNA가 클러스터 증폭을 단독으로 사용하여 풍부화된다(Kozarewa et al., Nature Methods 6:291-295 [2009]), 주형은 제거 가능한 형광 염료를 갖는 가역성 터미네이터를 사용하는, 강력한 4-색 DNA 합성에 의한 서열분석 기술을 사용하여 서열분석된다. 고-민감성 형광 검출은 레이저 여기 및 전(total) 내부 반사 광학 장치를 사용하여 달성된다. 약 10 내지 수 백개의 염기쌍의 짧은 서열 판독물이 기준 게놈에 대해 정렬되고, 짧은 서열 판독의 기준 게놈에 대한 고유한 맵핑은 특별히 개발된 데이터 분석 파이프라인 소프트웨어를 사용하여 식별된다. 제1 판독의 완결 후에, 주형은 동일계에서 재생되어 단편의 반대 단부로부터 제2 판독을 가능하게 한다. 따라서, DNA 단편의 단일-단부 또는 쌍을 이룬 단부 서열분석 모두가 사용될 수 있다.
본 개시내용의 다양한 실시형태는 페어드 엔드 서열분석을 허용하는 합성에 의한 서열분석을 사용할 수 있다. 일부 실시형태에서, 일루미나에 의한 합성 플랫폼에 의한 서열분석은 단편을 클러스터링하는 것을 포함한다. 클러스터링은 각 단편 분자가 등온적으로 증폭되는 공정다. 일부 실시형태에서, 본 명세서에 기재된 예로서, 단편은 단편의 양 단부에 부착된 2개의 상이한 어댑터를 갖고, 어댑터는 단편이 플로우 셀 레인의 표면의 2개의 상이한 올리고와 혼성화하는 것을 허용한다. 단편은 추가로 단편의 양 단부에서 2개의 색인 서열을 포함하거나 그에 연결되며, 색인 서열은 복합 서열분석에서 상이한 샘플을 식별하기 위한 표지를 제공한다. 일부 서열분석 플랫폼에서, 서열분석될 단편은 또한 삽입물로서 언급된다.
일부 구현예에서, 일루미나 플랫폼에서 클러스터링되기 위한 플로우 셀은 레인을 갖는 유리 슬라이드이다. 각각의 레인은 두 유형의 올리고의 론으로 코팅된 유리 채널이다. 혼성화는 표면 상의 두 유형의 올리고 중 제1 올리고에 의해 가능해진다. 이 올리고는 단편의 한 단부상의 제1 어댑터에 상보적이다. 폴리머라제는 혼성화된 단편의 보체 가닥을 생성한다. 이중 가닥 분자는 변성되고, 본래 주형 가닥은 세척된다. 많은 다른 남아있는 가닥과 평행한 나머지 가닥은 브리지 응용을 통해 클론적으로 증폭된다.
브리지 증폭에서, 가닥은 접히고, 가닥의 제2 단부 상의 제2 어댑터 영역은 플로우 셀 표면의 제2 유형의 올리고와 혼성화된다. 폴리머라제는 상보성 가닥을 생성하여 이중-가닥 브리지 분자를 형성한다. 이러한 이중 가닥 분자는 변성되어 2개의 상이한 올리고를 통해 플로우 셀에 테더링된 2개의 단일 가닥 분자를 초래한다. 이러한 공정은 이어서 여러 번 반복되고, 동시에 수 백만 개의 클러스터에 대해 일어나서 모든 단편의 클론적 증폭을 초래한다. 브리지 증폭 후에, 역 가닥은 절단되고, 세척되어 정방향 가닥 만이 남는다. 3' 단부는 차단되어 원하지 않는 프라이밍이 방지된다.
클러스터링 후에, 서열분석은 제1 서열분석 프라이머 연장으로 시작하여 제1 판독물을 생성시킨다. 각 사이클로, 형광 태그 처리된뉴클레오타이드가 성장하는 쇄에 첨가되기 위해서 경쟁한다. 단지 하나만이 주형의 서열을 기반으로 통합된다. 각 뉴클레오타이드가 첨가된 후에, 클러스터는 광원에 의해 여기되고, 특징적인 형광 신호가 방출된다. 주기의 수가 판독물의 길이를 결정한다. 방출 파장 및 신호 강도가 염기 콜링(base call)을 결정한다. 주어진 클러스터에 대해서, 모든 동일한 가닥이 동시에 판독된다. 수 백만 개의 클러스터 중 수 백 개가 대량 병렬 방식으로 서열분석된다. 제1 판독이 완료되었을 때, 판독물 생성물이 세척된다.
2개의 색인 프라이머를 포함하는 프로토콜의 다음 단계에서, 색인 1 프라이머가 도입되고 주형 상의 색인 1 영역에 혼성화된다. 색인 영역은 단편의 식별을 제공하는데, 이것은 복합 서열분석 공정에서 샘플의 탈복합화에 유용하다. 색인 1 판독물은 제1 판독물과 유사하게 생성된다. 색인 1 판독물의 완결 후에, 판독물 생성물은 세척되고, 가닥의 3' 단부가 탈보호된다. 이어서 주형 가닥이 접히고, 플로우 셀 상의 제2 올리고에 결합한다. 색인 2 서열은 색인 1과 동일한 방식의 판독물이다. 이어서 색인 2 판독 생성물은 그 단계가 완료될 때 세척된다.
2개의 색인의 판독 후에, 판독 2는 폴리머라제를 사용함으로써 개시되어 제2 플로우 셀 올리고가 연장되어, 이중 가닥 브리지가 형성된다. 이러한 이중-가닥 DNA는 변성되고, 3' 단부가 차단된다. 본래의 정방향 가닥은 절단되고 세척되어, 역방향 가닥이 남겨진다. 판독 2는 판독 2 서열분석 프라이머의 도입으로 시작된다. 판독 1과 같이, 서열분석 단계는 원하는 길이가 달성될 때까지 반복된다. 판독 2 생성물이 세척된다. 이 전체 공정은 모든 단편을 나타내는 수 백만 개의 판독을 생성한다. 풀링된 샘플 라이브러리로부터 서열은 샘플 제조 중에 도입된 고유한 색인을 기반으로 분리된다. 각 샘플에 대해, 염기 콜링의 유사한 스트레치의 판독물이 국소적으로 클러스터링된다. 정방향 및 역방향 판독물은 쌍을 이루어 연속 서열을 생성한다. 이들 연속 서열은 변이체 식별을 위해 기준 게놈에 정렬된다.
상기 기재된 합성에 의한 서열분석 예는 페어드 엔드 판독물을 포함하며, 그것은 개시된 방법의 많은 실시형태에서 사용된다. 페어드 엔드 서열분석은 단편의 두 단부로부터의 2개의 판독물을 포함한다. 판독물 쌍이 기준 서열에 맵핑되는 경우, 2개의 판독물 사이의 염기 쌍 거리가 결정될 수 있는데, 이어서 그 거리를 사용하여 판독물이 획득된 단편의 길이를 결정할 수 있다. 일부 예에서, 2개의 빈을 스트래들링(straddling)하는 단편은 하나의 빈에 정렬된 이의 페어 엔드 판독물 중 하나 및 인접한 빈에 정렬된 나머지 것을 가질 것이다. 이것은, 빈이 더 길어지거나 판독물이 더 짧아짐에 따라서 더 희귀해 진다. 다양한 방법을 사용하여 이러한 단편의 빈-멤버십을 설명할 수 있다. 예를 들어, 이것은 빈의 단편 크기 빈도를 결정할 때 생략될 수 있고; 이것은 인접한 빈 둘 다에 대해서 의존될 수 있고; 이것은 2개의 빈의 더 많은 염기 쌍을 포함하는 빈에 배정될 수 있거나; 또는 이것은 각각의 빈 내의 염기 쌍의 부분에 관련된 중량을 갖는 빈 둘 다에 배정될 수 있다.
페어드 엔드 판독물은 상이한 길이(즉, 서열분석될 상이한 단편 크기)의 삽입물을 사용할 수 있다. 본 개시내용에서 디폴트 의미로서, 페어드 엔드 판독물은 다양한 삽입물 길이로부터 획득된 판독물을 지칭하기 위해서 사용된다. 일부 예에서, 긴-삽입물 페어드 엔드 판독물로부터 짧은-삽입물 페어드 엔드 판독물을 구별하기 위해서, 후자는 또한 메이트 페어 판독물로서 지칭된다. 메이트 쌍 판독물을 포함하는 일부 실시형태에서, 2개의 바이오틴 접합 어댑터는 먼저 상대적으로 긴 삽입물(예를 들어, 수 kb)의 두 단부에 부착된다. 바이오틴 접합 어댑터는 이어서 삽입물의 두 단부를 연결시켜 원형화된 분자를 형성한다. 바이오틴 접합 어댑터를 포함하는 하위-단편은 이어서 원형화된 분자를 추가로 단편화함으로써 획득될 수 있다. 반대 서열 순서의 본래 단편의 두 단부를 포함하는 하위-단편은 이어서 상기 기재된 짧은-삽입물 페어드 엔드 서열분석과 동일한 과정에 의해 서열분석될 수 있다. 일루미나 플랫폼을 사용하는 메이트 쌍 서열분석의 추가의 상세한 설명은 전문이 참고로 포함되는 하기 URL에 온라인 공개로 제시된다: res|.|illumina|.|com/documents/products/technotes/technote_nextera_matepair_data_processing. 페어드 엔드 서열분석에 대한 추가 정보는 페어드 엔드 서열분석 방법 및 장치에 대한 물질과 관련하여 참고로 포함된 미국 특허 제7601499호 및 미국 특허 공개 제2012/0,053,063호에서 찾아볼 수 있다.
DNA 단편의 서열분석 후, 미리 결정된 길이, 예를 들어, 100 bp의 서열 판독물은 공지된 기준 게놈에 맵핑되거거 정렬된다. 맵핑되거나 정렬된 판독물 및 기준 서열 상의 이의 상응하는 위치는 태그라고도 지칭된다. 일 실시형태에서, 기준 게놈 서열은 NCBI36/hg18 서열이고, 이것은 genome|.|ucsc|.|edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)의 월드 와이드 웹 상에서 입수 가능하다. 대안적으로, 기준 게놈 서열은 GRCh37/hg19이고, 이것은 게놈.ucsc.edu/cgi-bin/hgGateway의 월드 와이드 웹 상에서 입수 가능하다. 공공 서열 정보의 다른 공급원은 GenBank, dbEST, dbSTS, EMBL(더 유럽피안 몰레큘러 바이올로지 래보러토리사(the European Molecular Biology Laboratory)) 및 DDBJ(더 DNA 데이터뱅크 오브 재팬(the DNA Databank of Japan))을 포함한다. BLAST(Altschul et al., 1990), BLITZ(MPsrch)(Sturrock & Collins, 1993), FASTA(Person & Lipman, 1988), BOWTIE(Langmead et al., Genome Biology 10:R25.1-R25.10 [2009]) 또는 ELAND(일루미나사(Illumina, Inc.), 미국 캘리포니아주 샌디에고 소재)를 포함하지만 이들로 제한되지 않는 다수의 컴퓨터 알고리즘이 서열을 정렬하기 위해서 사용 가능하다. 일 실시형태에서, 혈장 cfDNA 분자의 클론적으로 확창된 카피의 한 단부가 서열분석되고, 뉴클레오타이드 데이터베이스의 효율적인 대규모 정렬(Efficient Large-Scale Alignment of Nucleotide Databases: ELAND) 소프트웨어를 사용하는 일루미나 게놈 분석기에 대한 생체정보 정렬 분석에 의해 처리된다.
일 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기재된 방법은 헬리코스 실제 단일 분자 서열분석(Helicos True Single Molecule Sequencing: tSMS) 기술(예를 들어, 문헌[Harris T.D. et al., Science 320:106-109 [2008]]에 기재됨)을 사용하여 암 등에 대해서 스크리닝될 대상체에서 시험 샘플 중의 핵산, 예를 들어, 모계 샘플 중의 cfDNA, cfDNA 또는 세포 DNA에 대한 서열 정보를 획득하는 것을 포함한다. tSMS 기술에서, DNA 샘플은 대략 100 내지 200개의 뉴클레오타이드의 가닥으로 절단되고, 폴리A 서열이 각각의 DNA 가닥의 3' 단부에 첨가된다. 각각의 가닥은 형광 표지된 아데노신 뉴클레오타이드의 첨가에 의해 표지된다. 이어서 DNA 가닥은 플로우 셀 표면에 고정된 수 백만 개의 올리고-T 캡처 부위를 함유하는 플로우 셀에 혼성화된다. 특정 실시형태에서, 주형은 약 1억개의 주형/cm2의 밀도일 수 있다. 이어서 플로우 셀은 기기, 예컨대, HeliScopeTM 서열분석기 내에 로딩되고, 레이저가 유동 셀의 표면을 조명하면, 각각의 주형의 위치가 드러난다. CCD 카메라가 플로우 셀 표면에서 주형의 위치를 맵핑할 수 있다. 이어서 주형 형광 표지가 절단되고 세척된다. 서열분석 반응은 DNA 폴리머라제 및 형광 표지된 뉴클레오타이드가 도입됨으로써 시작한다. 올리고-T 핵산은 프라이머로서 작용한다. 폴리머라제는 표지된 뉴클레오타이드를 주형 지시된 방식으로 프라이머에 혼입한다. 폴리머라제 및 비혼입된 뉴클레오타이드는 제거된다. 형광 표지된 뉴클레오타이드의 혼입을 지시한 주형은 플로우 셀 표면을 영상화함으로써 파악된다. 영상화 후에, 절단 단계가 형광 표지를 제거하고, 공정은 원하는 판독 길이가 달성될 때까지 다른 형광 표지된 뉴클레오타이드로 반복된다. 서열 정보는 각각의 뉴클레오타이드 첨가 단계로 수집된다. 단일 분자 서열분석 기술에 의한 전체 게놈 서열분석은 서열분석 라이브러리의 제조 시 PCR-기반 증폭을 배제하거나 전형적으로 제거하고, 방법은 그 샘플의 카피의 측정보다는 샘플의 직접적인 측정을 허용한다.
또 다른 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기재된 방법은 454 서열분석(로슈사)(예를 들어, 문헌[Margulies, M. et al. Nature 437:376-380 [2005]]에 기재됨)을 사용하여, 시험 샘플 중의 핵산, 예를 들어, 모계 시험 샘플 중의 cfDNA, 암 등에 대해서 스크리닝될 대상체에서의 cfDNA 또는 세포 DNA에 대한 서열 정보를 획득하는 것을 포함한다. 454 서열분석은 전형적으로 2개의 단계를 포함한다. 제1 단계에서, DNA는 대략 300 내지 800개 염기쌍의 단편으로 전단되고, 단편은 뭉툭한-단부이다. 이어서 올리고뉴클레오타이드 어댑터가 단편의 단부에 결찰된다. 어댑터는 단편의 증폭 및 서열분석에 대한 프라이머로서 작용한다. 단편은 DNA 캡처 비드, 예를 들어, 스트렙타비딘-코팅된 비드에 5'-바이오틴 태그를 함유하는, 예를 들어, 어댑터 B를 사용하여 부착될 수 있다. 비드에 부착된 단편은 유수 에멀션의 방울 내에서 PCR 증폭된다. 그 결과는 각각의 비드 상의 클론적으로 증폭된 DNA 단편의 다중 카피이다. 제2 단계에서, 비드는 웰(예를 들어, 피코리터-크기의 웰)에 캡처된다. 열적 서열분석은 각각의 DNA 단편에 대해 병렬로 수행된다. 하나 이상의 뉴클레오타이드의 첨가는 서열분석 장비에서 CCD 카메라에 의해 기록되는 광신호를 생성한다. 신호 강도는 혼입된 뉴클레오타이드의 수에 비례한다. 열적 서열분석은 뉴클레오타이드 첨가 시 방출되는 파이로포스페이트(PPi)를 사용한다. PPi는 아데노신 5' 포스포설페이트의 존재 하에 ATP 설퍼릴라제에 의해서 ATP로 전환된다. 루시페라제는 루시페린을 옥시루시페린으로 전환시키기 위해 ATP를 사용하고, 이러한 반응은 광을 생성시키고, 이것은 측정되고 분석된다.
또 다른 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기재된 방법은 SOLiDTM 기술(어플라이드 바이오시스템즈사(Applied Biosystems))을 사용하여, 시험 샘플 중의 핵산, 예를 들어, 모계 시험 샘플 중의 cfDNA, 암 등에 대해서 스크리닝될 대상체에서의 cfDNA 또는 세포 DNA에 대한 서열 정보를 획득하는 것을 포함한다. SOLiDTM 결찰에 의한 서열분석에서, 게놈 DNA는 단편으로 전단되고, 어댑터가 단편의 5' 및 3' 단부에 부착되어 단편 라이브러리를 생성시킨다. 대안적으로, 내부 어댑터는, 단편의 5' 및 3' 단부에 어댑터를 결찰시키고, 단편을 원형화시키고, 원형화된 단편을 소화시켜서 내부 어댑터를 생성시키고, 어댑터를 생성된 단편의 5' 및 3' 단부에 부착하여 메이트-쌍 라이브러리를 생성시킴으로써 도입될 수 있다. 다음으로, 클론성 비드 집단이 비드, 프라이머, 주형 및 PCR 성분을 함유하는 마이크로반응기에서 제조된다. PCR에 이어서, 주형은 변성되고 비드는 풍부화되어 연장된 주형을 갖는 비드를 분리한다. 선택된 비드 상의 주형은 유리 슬라이드에 대한 결합을 허용하는 3' 변형에 적용된다. 서열은 순차적인 혼성화 및 부분적으로 무작위한 올리고뉴클레오타이드와 특이적 형광단에 의해 식별되는 중심의 결정된 염기(또는 염기쌍)와의 결찰에 의해 결정될 수 있다. 색이 기록된 후에, 결찰된 올리고뉴클레오타이드가 절단 및 제거된 후 공정이 반복된다.
또 다른 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기재된 방법은 퍼시픽 바이오사이언시스사(Pacific Biosciences)의 단일 분자 실시간(single molecule, real-time: SMRTTM) 서열분석 기술을 사용하여, 시험 샘플 중의 핵산, 예를 들어, 모계 시험 샘플 중의 cfDNA, 암 등에 대해서 스크리닝될 대상체에서의 cfDNA 또는 세포 DNA에 대한 서열 정보를 획득하는 것을 포함한다. SMRT 서열분석에서, 염료-표지된 뉴클레오타이드의 연속적인 혼입은 DNA 합성 동안 영상화된다. 단일 DNA 폴리머라제 분자는 서열 정보를 얻는 개별적인 0-모드 파장 검출기(ZMW 검출기)의 하부 표면에 부착되는 반면, 포스포 연결된 뉴클레오타이드는 성장하는 프라이머 가닥에 혼입된다. ZMW 검출기는 ZMW 외부에서(예를 들어, 마이크로초 내에) 신속하게 확산되는 형광 뉴클레오타이드의 배경에 대해서 DNA 폴리머라제에 의한 단일 뉴클레오타이드의 혼입의 관찰을 가능하게 하는 가둠 구조(confinement structure)를 포함한다. 전형적으로 성장하는 가닥으로 뉴클레오타이드를 혼입시키는 데에 수 밀리초가 걸린다. 이 시간 동안에, 형광 표지가 여기되고 형광 신호를 생성하며, 형광 태그가 절단된다. 염료의 해당 형광의 측정은 어떤 염기가 혼입되었는지를 나타낸다. 공정은 반복되어 서열을 제공한다.
또 다른 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기재된 방법은 나노포어 서열분석(예를 들어, 문헌[Soni GV and Meller A. Clin Chem 53: 1996-2001 [2007]]에 기술됨)을 사용하여, 시험 샘플 중의 핵산, 예를 들어, 모계 시험 샘플 중의 cfDNA, 암 등에 대해서 스크리닝될 대상체에서의 cfDNA 또는 세포 DNA에 대한 서열 정보를 획득하는 것을 포함한다. 나노포어 서열분석 DNA 분석 기술은 예를 들어, 옥스포드 나노포어 테크놀로지스사(Oxford Nanopore Technologies)(영국 옥스포드 소재), Sequenom, NABsys 등을 비롯한 다수의 회사에 의해 개발되었다. 나노포어 서열분석은 DNA의 단일 분자가 나노포어를 통과함에 따라서 직접 서열분석되는 단일-분자 서열분석 기술이다. 나노포어는 작은 구멍, 전형적으로 직경이 1 나노미터 정도이다. 나노포어의 전도성 유체에의 담금 및 그것을 가로지르는 전위(전압)의 인가는 나노포어를 통한 이온의 전도로 인해서 약한 전류를 초래한다. 흐르는 전류의 양은 나노포어의 크기 및 형상에 민감하다. DNA 분자가 나노포어를 통해 통과함에 따라, DNA 분자 상의 각각의 뉴클레오타이드는 나노포어를 상이한 정도로 막아서, 나노포어를 통한 전류의 크기를 상이한 정도로 변화시킨다. 따라서, 나노포어를 통한 DNA 분자의 통과 따른 이러한 전류의 변화는 DNA 서열의 판독을 제공한다.
또 다른 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기재된 방법은 화학-감응성 전계 효과 트랜지스터(chemical-sensitive field effect transistor: chemFET) 어레이(예를 들어, 미국 특허 출원 공개 제2009/0026082호에 기술됨)를 사용하여, 시험 샘플 중의 핵산, 예를 들어, 모계 시험 샘플 중의 cfDNA, 암 등에 대해서 스크리닝될 대상체에서의 cfDNA 또는 세포 DNA에 대한 서열 정보를 획득하는 것을 포함한다. 이러한 기술의 일례에서, DNA 분자는 반응 챔버에 배치될 수 있고, 주형 분자는 폴리머라제에 결합된 서열분석 프라이머에 혼성화될 수 있다. 서열분석 프라이머의 3' 단부에서 하나 이상의 트라이포스페이트의 새로운 핵산 가닥 내의 혼입은 chemFET에 의한 전류의 변화로서 인지될 수 있다. 어레이는 다중 chemFET 센서를 가질 수 있다. 다른 예에서, 단일 핵산은 비드에 부착될 수 있고, 핵산은 비드 상에서 증폭될 수 있으며, 개별 비드는 각각의 챔버가 chemFET 센서를 갖는 chemFET 어레이 상의 개별 반응 챔버로 전달될 수 있고, 핵산이 서열분석될 수 있다.
또 다른 실시형태에서, 본 발명의 방법은 투과 전자 현미경(transmission electron microscopy: TEM)을 사용하여 시험 샘플 중의 핵산, 예를 들어, 모계 시험 샘플 중의 cfDNA에 대한 서열 정보를 획득하는 것을 포함한다. 개별 분자 배치 신속 나노 전달(Individual Molecule Placement Rapid Nano Transfer: IMPRNT)이라고 지칭되는 방법은 중원자 마커로 선택적으로 표지된 고분자량(150kb 이상) DNA의 단일 원자 해상도 투과 전자 현미경 영상화를 사용하고, 이러한 분자를 일관된 염기-대-염기 간격을 갖는 초고밀도(3nm 가닥-대-가닥) 병렬 어레이로 초고박막 상에 배열하는 것을 포함한다. 전자 현미경을 사용하여 필름 상의 분자를 영상화하여 중원자 마커의 위치를 결정하고, DNA로부터 염기 서열 정보를 추출한다. 방법은 PCT 특허 공개 제WO 2009/046445호에 추가로 기재되어 있다. 이 방법은 전체 인간 게놈을 10분 미만 이내에 서열분석하는 것을 가능하게 한다.
또 다른 실시형태에서, DNA 서열분석 기술은 Ion Torrent 단일 분자 서열분석이며, 그것은 반도체 칩 상에서 화학적으로 암호화된 정보(A, C, G, T)를 디지털 정보(0, 1)로 직접 번역하기 위해 반도체 기술과 단순한 서열분석 화학을 짝지운 것이다. 본래, 뉴클레오타이드가 폴리머라제에 의해서 DNA의 가닥에 혼입될 때, 수소 이온이 부산물로서 방출된다. Ion Torrent는 미세-기계화된 웰의 고밀도 어레이를 사용하여 이러한 생화학적 공정을 대량 병렬 방식으로 수행한다. 각각의 웰은 상이한 DNA 분자를 붙잡는다. 웰 아래에는 이온-감응성 층이 있고, 그 아래에는 이온 센서가 있다. 뉴클레오타이드, 예를 들어, C가 DNA 주형에 첨가된 후, DNA의 가닥에 혼입되면, 수소 이온이 방출될 것이다. 그 이온으로부터의 전하는 용액의 pH를 변화시킬 것이고, 그것은 Ion Torrent의 이온 센서에 의해 검출될 수 있다. 서열분석기-본질적으로 세계에서 가장 작은 고체-상태 pH 측정기-는 염기를 콜링하고, 직접 화학적 정보로부터 디지털 정보로 이동한다. 이어서, 이온 퍼스널 게놈 기계(PGMTM) 서열분석기가 칩을 하나의 뉴클레오타이드에 이어서 또 다른 것으로 순차적으로 플러딩(flood)시킨다. 칩을 플러딩한 다음 뉴클레오타이드가 매치가 아니면, 전압 변화는 기록되지 않을 것이고, 어떠한 염기도 콜링되지 않을 것이다. DNA 가닥 상에 2개의 동일한 염기가 존재하면, 전압은 배가될 것이고, 칩은 콜링된 2개의 동일한 염기를 기록할 것이다. 직접 검출은 수 초 내에 뉴클레오타이드 혼입의 기록을 허용한다.
또 다른 실시형태에서, 본 발명의 방법은 혼성화에 의한 서열분석을 사용하여, 시험 샘플 중의 핵산, 예를 들어, 모계시험 샘플 중의 cfDNA에 대한 서열 정보를 획득하는 것을 포함한다. 혼성화에 의한 서열분석은 복수의 폴리뉴클레오타이드 서열을 복수의 폴리뉴클레오타이드 프로브와 접촉시키는 것을 포함하고, 여기서 복수의 폴리뉴클레오타이드 프로브 각각은 선택적으로 기질에 테더링될 수 있다. 기질은 공지의 뉴클레오타이드 서열의 어레이를 포함하는 평평한 표면일 수 있다. 어레이에 대한 혼성화 패턴을 사용하여 샘플에 존재하는 폴리뉴클레오타이드 서열을 결정할 수 있다. 다른 실시형태에서, 각각의 프로브는 비드, 예를 들어, 자성 비드 등에 테더링된다. 비드에 대한 혼성화는 결정될 수 있고, 이를 사용하여 샘플 내의 복수의 폴리뉴클레오타이드 서열을 식별할 수 있다.
본 명세서에 기재된 방법의 일부 실시형태에서, 맵핑된 서열 태그는 약 20bp, 약 25bp, 약 30bp, 약 35bp, 약 40bp, 약 45bp, 약 50bp, 약 55bp, 약 60bp, 약 65bp, 약 70bp, 약 75bp, 약 80bp, 약 85bp, 약90bp, 약 95bp, 약 100bp, 약 110bp, 약 120bp, 약 130, 약 140bp, 약 150bp, 약 200bp, 약 250bp, 약 300bp, 약 350bp, 약 400bp, 약 450bp, 또는 약 500bp의 서열 판독물을 포함한다. 기술적 진보는 500bp보다 큰 단일-단부 판독물을 가능하게 할 것이고 그것은 페어드 엔드 판독물이 생성될 때 약 1000bp보다 큰 판독물을 가능하게 할 것이라고 예상된다. 일 실시형태에서, 맵핑된 서열 태그는 36bp인 서열 판독물을 포함한다. 서열 태그의 맵핑은 태그의 서열을 기준 서열과 비교하여 서열분석된 핵산(예를 들어 cfDNA) 분자의 염색체 기원을 결정함으로써 달성되고, 특이적 유전적 서열 정보는 필요하지 않다. 작은 정도의 미스매치(서열 태그당 0 내지 2개의 미스매치)는 혼합된 샘플에서 기준 게놈과 게놈 사이에 존재할 수 있는 미미한 다형성을 설명하는 것을 가능하게 할 수 있다.
샘플당 복수의 서열 태그가 전형적으로 획득된다. 일부 실시형태에서, 20 내지 40bp의 판독물, 예를 들어, 36bp를 포함하는, 적어도 약 3×106개의 서열 태그, 적어도 약 5×106개의 서열 태그, 적어도 약 8×106개의 서열 태그, 적어도 약 10×106개의 서열 태그, 적어도 약 15×106개의 서열 태그, 적어도 약 20×106개의 서열 태그, 적어도 약 30×106개의 서열 태그, 적어도 약 40×106개의 서열 태그, 또는 적어도 약 50×106개의 서열 태그가 판독물을 샘플당 기준 게놈에 맵핑함으로써 획득된다. 일 실시형태에서, 모든 서열 판독물은 기준 게놈의 모든 영역에 맵핑된다. 일부 실시형태에서, 기준 게놈의 모든 영역, 예를 들어, 모든 염색체에 맵핑된 태그가 분석된다.
다수의 공급원으로부터의 핵산의 혼합물을 데콘볼빙하기 위한 장치 및 시스템
서열분석 데이터의 분석 및 그것으로부터 유래된 진단은 전형적으로 다양한 컴퓨터 실행되는 알고리즘 및 프로그램을 사용하여 수행된다. 따라서, 특정 실시형태는 하나 이상의 컴퓨터 시스템 또는 다른 처리 시스템에 저장되거나 또는 그것을 통해 전달된 데이터를 포함하는 공정을 사용한다. 본 명세서에 개시된 실시형태는 또한 이러한 작업을 수행하기 위한 장치에 관련된다. 이 장치는 필요한 목적에 대해 특별하게 구축되거나, 또는 컴퓨터 프로그램 및/또는 그 컴퓨터에 저장된 데이터 구조에 의해 선택적으로 활성화되거나 또는 재구성된 일반적인 목적의 컴퓨터(또는 컴퓨터의 군)일 수 있다. 일부 실시형태에서, 프로세서의 군은 인용된 분석적 작업의 일부 또는 전부를 협동적으로(예를 들어, 네트워크 또는 클라우드 컴퓨팅을 통해) 그리고/또는 병렬로 수행한다. 본 명세서에 기재된 방법을 수행하기 위한 프로세서 또는 프로세서의 군은 마이크로콘트롤러 및 마이크로프로세서, 예컨대, 프로그래밍 가능한 디바이스(예를 들어, CPLD 및 FPGA) 및 프로그래밍 가능하지 않은 디바이스, 예컨대, 게이트 어레이 ASIC 또는 일반 목적의 마이크로프로세서를 비롯한 다양한 유형의 것일 수 있다.
또한, 특정 실시형태는 다양한 컴퓨터-구현된 작업을 수행하기 위한 프로그램 명령 및/또는 데이터(데이터 구조 포함)를 포함하는 가시적인 및/또는 비-일시적 컴퓨터 판독 가능 매체 또는 컴퓨터 프로그램 제품에 관련된다. 컴퓨터-판독 가능 매체의 예는 반도체 메모리 디바이스, 자기 매체, 예컨대, 디스크 드라이브, 자기 테이프, 광학 매체, 예컨대, CD, 자기-광학 매체 및 프로그램 명령을 저장 및 수행하도록 특수하게 구성된 하드웨어 디바이스, 예컨대, 판독-전용 메모리 디바이스(ROM) 및 무작위 접근 메모리(RAM)를 포함한다. 컴퓨터 판독 가능 매체는 최종 사용자에 의해 직접 제어되거나 또는 매체는 최종 사용자에 의해 간접적으로 제어될 수 있다. 직접 제어되는 매체의 예는 사용자 설비에 위치한 매체 및/또는 다른 기업체와 공유되지 않는 매체를 포함한다. 간접적으로 제어되는 매체의 예는 외부 네트워크를 통해서 그리고/또는 "클라우드"와 같은 공유된 자원을 제공하는 서비스를 통해서 사용자에게 간접적으로 접근할 수 있는 매체를 포함한다. 프로그램 명령의 예는, 예컨대, 컴파일러에 의해 생성된 기계 코드 및 번역기를 사용하여 컴퓨터에 의해 실행될 수 있는 고수준의 코드를 함유하고 있는 파일 둘 다를 포함한다.
각종 실시형태에서, 개시된 방법 및 장치에서 사용된 데이터 또는 정보는 전자 포맷으로 제공된다. 그러한 데이터 또는 정보는 핵산 샘플, (예를 들어, 염색체 또는 염색체 분절에 정렬된) 기준 서열의 특정 영역과 정렬된 이러한 태그의 계수치 또는 밀도, 기준 서열(단독으로 또는 주로 다형성을 제공하는 기준 서열 포함), 염색체 및 분절 양, 콜링, 예컨대, SNV 또는 이수성 콜링, 정규화된 염색체 및 분절 값, 염색체 또는 분절 및 상응하는 정규화 염색체 또는 분절의 쌍, 상담 권고, 진단 등으로부터 유래된 판독물 및 태그를 포함할 수 있다. 본 명세서에서 사용되는 바와 같이, 전자 포맷으로 제공되는 데이터 또는 다른 정보는 기계 상의 저장 및 기계 사이의 전송에 이용될 수 있다. 통상적으로, 전자 포맷의 데이터는 디지털로 제공되고, 다양한 데이터 구조, 목록, 데이터베이스 등에서 비트 및/또는 바이트로서 저장될 수 있다. 데이터는 전자적으로, 광학적으로, 그 등등으로 내장될 수 있다.
일 실시형태는 시험 샘플 중의 암과 연관된 SNV 또는 이수성의 존재 또는 부재를 나타내는 출력을 생성시키기 위한 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 제품은 염색체를 변칙적으로 결정하기 위한 상기에 기재된 방법 중 임의의 하나 이상을 수행하기 위한 명령을 함유할 수 있다. 설명된 바와 같이, 컴퓨터 제품은 프로세서가 핵산의 혼합물을 데콘볼빙하는 것을 가능하게 하기 위해서 상부에 기록된 컴퓨터 실행 가능한 또는 편집 가능한 로직(예를 들어, 명령)을 갖는 비-일시적 및/또는 가시적인 컴퓨터 판독 가능 매체를 포함할 수 있다. 일례에서, 컴퓨터 제품은 프로세서가 핵산의 혼합물을 데콘볼빙하는 것을 가능하게 하기 위해서 상부에 기록된 컴퓨터 실행 가능한 또는 편집 가능한 로직(예를 들어, 명령)을 갖는 컴퓨터 판독 가능 매체를 포함한다.
고려 중인 샘플로부터의 서열 정보를 염색체 기준 서열에 맵핑하여 관심대상의 임의의 하나 이상의 염색체 각각에 대한 서열 태그의 수를 식별하고, 상기 관심대상의 임의의 하나 이상의 염색체 각각에 대한 정규화 분절 서열에 대한 서열 태그의 수를 식별할 수 있다. 각종 실시형태에서, 예를 들어, 기준 서열이 데이터베이스, 예컨대, 상관 관계가 있는 또는 목표 데이터베이스에 저장된다.
도움을 받지 않는 인간이 본 명세서에 개시된 방법의 컴퓨팅 작업을 수행하는 것이 실용적이 아니거나, 또는 심지어 대부분의 경우에 가능하지 않다는 것이 인지되어야 한다. 예를 들어, 샘플로부터의 단일 30bp 판독물을 인간 염색체 중 임의의 하나에 맵핑하는 것은 컴퓨팅 장치의 보조 없이는 수 년간의 노력을 필요할 것이다.
본 명세서에 개시된 방법은 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 정량하기 위한 시스템을 사용하여 수행될 수 있다. 시스템은 (a) 시험 샘플로부터 핵산을 제공받아서 샘플로부터의 핵산 서열 정보를 제공하기 위한 서열분석기, (b) 프로세서; 및 (c) 핵산의 혼합물을 데콘볼빙하는 방법을 수행하기 위해서 상기 프로세서 상에서의 실행을 위한 명령이 저장된 하나 이상의 컴퓨터-판독 가능 저장 매체를 포함한다.
일부 실시형태에서, 방법은 핵산의 혼합물을 데콘볼빙하는 방법을 수행하기 위한 컴퓨터-판독 가능한 명령이 저장된 컴퓨터-판독 가능 매체에 의해서 명령된다. 따라서 일 실시형태는 컴퓨터 시스템의 하나 이상의 프로세서에 의해서 실행되는 경우, 컴퓨터 시스템이 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 정량하는 방법을 구현하도록 하는 컴퓨터-실행 가능한 명령이 저장된 하나 이상의 컴퓨터-판독 가능한 비-일시적인 저장 매체를 포함하는 컴퓨터 프로프램 제품을 제공한다. 방법은 (a) 컴퓨터 시스템에 의해서, 핵산 샘플로부터 획득되고, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 맵핑된 핵산 서열 판독물을 제공받는 단계; (b) 핵산 서열 판독물을 사용하고, 그리고 하나 이상의 프로세서에 의해서, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자 각각에 대한 대립유전자 계수치를 결정하는 단계; 및 (c) 확률적 혼합 모델을 사용하고, 그리고 하나 이상의 프로세서에 의해서, 핵산 샘플 중의 상기 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계로서, 확률적 혼합 모델을 사용하는 것은 확률적 혼합 모델을 대립유전자 계수치에 적용하는 것을 포함하되, 확률적 혼합 모델은 확률 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자 계수치를 모델링하고, 상기 확률 분포는 상기 핵산 서열 판독물에서의 오류를 설명하는, 상기 정량하는 단계를 포함한다.
일부 실시형태에서, 명령은 모계 시험 샘플을 제공하는 인간 대상체에 대한 환자 의료 기록에서 방법에 적절한 정보를 자동방식으로 기록하는 것을 추가로 포함할 수 있다. 환자 의료 기록은 예를 들어, 실험실, 진료실, 병원, 건강 관리 기관, 보험 회사 또는 개인 의료 기록 웹사이트에 의해 유지될 수 있다. 추가로, 프로세서-구현된 분석의 결과를 기초로, 방법은 모계 실험 샘플이 채취되는 인간 대상체의 처리를 처방, 개시 및/또는 변경시키는 것을 추가로 포함할 수 있다. 이것은 대상체로부터 채취된 추가의 샘플에 대해 하나 이상의 추가의 시험 또는 분석을 수행하는 것을 포함할 수 있다.
개시된 방법은 또한 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 정량하는 방법을 수행하도록 개작 또는 구성된 컴퓨터 처리 시스템을 사용하여 수행될 수 있다. 일 실시형태는 본 명세서에 기재된 방법을 수행하도록 개작 또는 구성된 컴퓨터 처리 시스템을 제공한다. 일 실시형태에서, 장치는 본 명세서의 다른 곳에서 기재된 서열 정보의 유형을 얻기 위해서 샘플 중의 적어도 일부의 핵산 분자를 서열분석하기 위해서 개작 또는 구성된 서열분석 디바이스를 포함한다. 장치는 또한 샘플을 처리하기 위한 성분을 포함할 수 있다. 이러한 성분은 본 명세서에 다른 곳에 기재되어 있다.
서열 또는 다른 데이터는 직접 또는 간접적으로 컴퓨터에 입력되거나 또는 컴퓨터 판독 가능 매체 상에 저장될 수 있다. 일 실시형태에서, 컴퓨터 시스템은 샘플로부터 핵산의 서열을 판독 및/또는 분석하는 서열분석 디바이스에 직접 커플링된다. 이러한 툴로부터의 서열 또는 다른 정보는 컴퓨터 시스템의 인터페이스를 통해 제공된다. 대안적으로, 시스템에 의해 처리된 서열은 데이터베이스 또는 다른 저장소와 같은 서열 저장 공급원으로부터 제공된다. 일단 처리 장치에 대해 이용 가능하면, 메모리 디바이스 또는 대량 저장 디바이스는 핵산의 서열을, 적어도 일시적으로, 완충시키거나 저장한다. 또한, 메모리 디바이스는 다양한 염색체 또는 게놈 등에 대한 태그 개수치를 저장할 수 있다. 메모리는 또한 선진(presenting) 서열 또는 맵핑된 데이터를 분석하기 위한 다양한 루틴 및/또는 프로그램을 저장할 수 있다. 이러한 프로그램/루틴은 통계학적 분석을 수행하기 위한 프로그램 등을 포함할 수 있다.
일례에서, 사용자는 샘플을 서열분석 장치에 제공한다. 데이터는 컴퓨터에 연결된 서열분석 장치에 의해 수집 및/또는 분석된다. 컴퓨터 상의 소프트웨어는 데이터 수집 및/또는 분석을 허용한다. 데이터는 저장되고/되거나, (모니터 또는 다른 유사한 디바이스를 통해) 디스플레이되고/되거나 다른 위치로 보내진다. 컴퓨터는 원격 사용자(예를 들어, 의사, 과학자 또는 분석가)에 의해 활용된 헨드헬드 디바이스에 데이터를 전송하기 위해 사용되는 인터넷에 연결될 수 있다. 데이터는 전송 전에 저장 및/또는 분석될 수 있다고 이해된다. 일부 실시형태에서, 원시 데이터(raw data)가 수집되고,데이터를 분석 및/또는 저장할 원격 사용자 또는 장치에 보내진다. 전송은 인터넷을 통해 일어날 수 있지만, 또한 위성 또는 다른 연결을 통해서도 일어날 수 있다. 대안적으로, 데이터는 컴퓨터-판독 가능 매체에 저장될 수 있고 그 매체는 최종 사용자에게(예를 들어, 메일을 통해) 발송될 수 있다. 원격 사용자는 빌딩, 도시, 주, 국가 또는 대륙을 포함하지만 이들로 제한되지 않는 동일한 또는 상이한 지리학적 위치에 있을 수 있다.
일부 실시형태에서, 방법은 또한 복수의 폴리뉴클레오타이드 서열(예를 들어, 판독물, 태그 및/또는 기준 염색체 서열)에 관련되는 데이터를 수집하고, 그 데이터를 컴퓨터 또는 다른 컴퓨터 시스템에 보내는 것을 포함한다. 예를 들어, 컴퓨터는 실험실 장비, 예컨대, 샘플 수집 장치, 뉴클레오타이드 증폭 장치, 뉴클레오타이드 서열분석 장치 또는 혼성화 장치에 연결될 수 있다. 이어서 컴퓨터는 실험실 디바이스에 의해 수집된 적용 가능한 데이터를 수집할 수 있다. 데이터는 임의의 단계에서, 예컨대, 실시간으로 수집되는 한편, 전송 전에, 전송 중에 또는 전송과 함께, 또는 전송 후에 컴퓨터에 저장될 수 있다. 데이터는 컴퓨터로부터 추출될 수 있는 컴퓨터-판독 가능 매체에 저장될 수 있다. 수집된 또는 저장된 데이터는 컴퓨터로부터 원격 위치로, 예컨대, 국지 네트워크 또는 인터넷과 같은 광역 네트워크를 통해 전송될 수 있다. 원격 위치에서 다양한 작업은 하기에서 기재되는 것과 같이 전송된 데이터에 대해 수행될 수 있다.
본 명세서에서 개시된 시스템, 장치 및 방법에서 저장, 전송, 분석 및/또는 조작될 수 있는, 전자적으로 포맷팅된 유형의 데이터 중에는 하기와 같은 것이 있다:
시험 샘플 중의 핵산을 서열분석함으로써 획득된 판독물
기준 게놈 또는 다른 기준 서열 또는 서열들에 대해서 판독물을 정렬함으로써 획득된 태그
기준 게놈 또는 서열
서열 태그 밀도 - 기준 게놈 또는 다른 기준 서열의 2개 이상의 영역(전형적으로 염색체 또는 염색체 분절)의 각각에 대한 태그의 계수치 또는 수
관심대상의 특정 염색체 또는 염색체 분절에 대해서 정규화한 염색체 또는 염색체 분절의 아이덴티티
관심대상 염색체 또는 분절 및 상응하는 정규화 염색체 또는 분절로부터 획득된 염색체 또는 염색체 분절(또는 다른 영역)에 대한 양
염색체 양을 영향이 있거나 영향이 없거나 또는 콜링이 없는 것으로서 콜링하기 위한 역치
염색체 양의 실제 콜링
진단(콜링과 연관된 임상 병태)
콜링 및/또는 진단으로부터 유래된 추가의 시험을 위한 권고
콜링 및/또는 진단으로부터 유래된 치료 및/또는 모니터링 계획.
이들 다양한 유형의 데이터는 구별되는 장치를 사용하여 하나 이상의 위치에서 획득, 저장, 전송, 분석 및/또는 조작될 수 있다. 처리 옵션은 넓은 스펙트럼에 걸쳐 있다. 스펙트럼의 한 단부에서, 전부 또는 많은 이런 정보가 시험 샘플이 처리되는 위치, 예컨대, 진료실 또는 다른 임상 환경에서 저장되고 사용된다. 다른 극단에서, 샘플은 하나의 위치에서 획득되고, 상이한 위치에서 처리되고, 선택적으로 서열분석되고, 판독물이 정렬되고 콜링은 하나 이상의 상이한 위치에서 만들어지고, 진단, 권고 및/또는 계획은 여전히 다른 위치(샘플이 획득된 위치일 수 있음)에서 제조된다.
각종 실시형태에서, 판독은 서열분석 장치를 사용하여 생성되고, 이어서 판독물이 처리되어 콜링을 생성시키는 원격 부위로 전송된다. 이러한 원격 위치에서, 예로서, 판독물은 기준 서열에 정렬되어 태그를 생성시키고, 이것은 카운팅되고, 염색체 또는 관심 대상 분절에 정렬된다. 또한 원격 위치에서, 계수치는 연관된 정규화 염색체 또는 분절을 사용하여 양으로 전환된다. 더 추가로, 원격 위치에서, 양을 사용하여 콜링을 생성시킨다.
구별되는 위치에서 사용될 수 있는 처리 작업 중에는 하기가 있다:
샘플 수집
서열분석 전의 샘플 처리
서열분석
서열 데이터를 분석하고, 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 정량함
진단
환자 또는 건강 관리 제공자에게 대한 진단 및/또는 콜링의 기록
추가의 치료, 시험 및/또는 모니터링을 위한 계획의 개발
계획 실행
상담.
이들 작업 중 임의로 하나 이상이 본 명세서의 다른 곳에서 기재된 것과 같이 자동화될 수 있다. 전형적으로, 서열분석 및 서열 데이터의 분석 및 DNA 혼합물 샘플의 데콘볼빙은 컴퓨터에 의해서 수행될 것이다. 다른 작업은 수동으로 또는 자동으로 수행될 수 있다.
샘플 수집이 수행될 수 있는 위치의 예는 의료 실무자 사무실, 병원, 환자의 집(여기서 샘플 수집 툴 또는 키트가 제공됨), 및 이동식 건강 케어 차량을 포함한다. 서열분석 이전에 샘플 처리가 수행될 수 있는 위치의 예는 의료 실무자 사무실, 병원, 환자의 집(여기서 샘플 처리 장치 또는 키트가 제공됨), 이동식 건강 케어 차량 및 DNA 분석 제공자의 설비를 포함한다. 서열분석이 수행될 수 있는 위치의 예는 의료 실무자 사무실, 병원, 의료 실무자 사무실, 병원, 환자의 집(여기서 샘플 서열분석 장치 및/또는 키트가 제공됨), 이동식 건강 케어 차량 및 DNA 분석 제공자의 설비를 포함한다. 서열분석이 일어나는 위치는 서열 데이터(전형적으로 판독물)를 전자 포맷으로 정송하기 위한 전용 네트워크 커넥션이 제공될 수 있다. 이러한 커넥션은 유선 또는 무선일 수 있고, 데이터가 처리되고/되거나 처리 부위로의 전달 이전에 집계될 수 있는 부위로 데이터를 보내도록 구성될 수 있다. 데이터 집계장치는 의료 기관, 예컨대, 건강 유지 기관(Health Maintenance Organization: HMO)에 의해서 유지 보수될 수 있다.
분석 및/또는 유도 작업은 이전 위치 중 임의의 위치에서 또는 대안적으로는 핵산 서열 데이터의 계산 및/또는 분석 서비스 전용의 추가 원격 부위에서 수행될 수 있다. 이러한 위치는 예를 들어, 클러스터, 예컨대, 범용 서버팜(general purpose server farm), DNA 분석 서비스 비즈니스 설비 등을 포함한다. 일부 실시형태에서, 분석을 수행하는 데 사용되는 컴퓨팅 장치는 임대 또는 대여된다. 컴퓨팅 리소스는 프로세서의 인터넷 접근 가능한 컬렉션의 부분, 예컨대, 클라우드로서 구어체로 공지된 처리 리소스일 수 있다. 일부 경우에, 계산은 또 다른 것과 연계되거나 비연계된 프로세서의 병렬 또는 대량 병렬 군에 의해서 수행된다. 이러한 처리는 분포된 처리, 예컨대, 클러스터 컴퓨팅, 그리드 컴퓨팅 등을 사용하여 달성될 수 있다. 이러한 실시형태에서, 컴퓨팅 리소스의 클러스터 또는 그리드는 본 명세서에 기재된 분석 및/또는 도출을 수행하기 위해서 함께 작용하는 다수의 프로세서 또는 컴퓨터로 구성된 슈퍼 가상 컴퓨터를 집합적으로 형성한다. 이러한 기술뿐만 아니라 보다 더 종래의 슈퍼컴퓨터를 사용하여 본 명세서에 기재된 바와 같이 서열 데이터를 처리할 수 있다. 각각은 프로세서 또는 컴퓨터에 좌우되는 병렬 계산의 형태이다. 이러한 그리드 계산의 경우에, 이러한 프로세서(보통 전체 컴퓨터)는 종래의 네트워크 프로토콜, 예컨대, 이더넷(Ethernet)에 의해서 네트워크(개인, 공공 또는 인터넷)에 의해서 연결된다. 이에 반해서, 슈퍼컴퓨터는 국지 고속 컴퓨터 버스에 의해서 연결된 다수의 프로세서를 갖는다.
특정 실시형태에서, 진단은 분석 작업과 동일한 위치에서 생성된다. 다른 실시형태에서, 그것은 상이한 위치에서 수행된다. 일부 실시예에서, 진단의 기록은 샘플이 채취된 위치에서 수행되지만, 이것은 필요하지 않다. 진단이 생성 또는 보고될 수 있는 위치 및/또는 계획 발달이 수행되는 위치의 예는 의료 실무자의 사무실, 병원 컴퓨터에 의해서 접근 가능한 인터넷 사이트 및 핸드헬드 디바이스, 예컨대, 네트워크에 유선 또는 무선 연결되는 휴대 전화, 태블릿, 스마트폰 등을 포함한다. 상담이 수행되는 위치의 예는 의료 실무자의 사무실, 병원 컴퓨터에 의해서 접근 가능한 인터넷 사이트, 핸드헬드 디바이스 등을 포함한다.
일부 실시형태에서, 샘플 수집, 샘플 처리 및 서열분석 작업은 제1 위치에서 수행되고, 분석 및 유도 작업은 제2 위치에서 수행된다. 그러나, 일부 경우에, 샘플 수집은 하나의 위치(예를 들어, 의료 실무자의 사무실 또는 병원)에서 수집되고, 샘플 처리 및 서열분석은 선택적으로 분석 및 유도가 일어나는 장소와 동일한 위치인 상이한 위치에서 수행된다.
각종 실시형태에서, 상기에 열거된 작업 순서는 사용자 또는 샘플 수집, 샘플 처리 및/또는 서열분석을 개시하는 엔티티에 의해서 촉발될 수 있다. 하나 이상의 이러한 작업이 실행을 시작한 후, 다른 작업이 자연적으로 이어질 수 있다. 예를 들어, 서열분석 작업은 판독물이 자동 방식으로 수집되고, 처리 장치로 보내질 수 있게 하고, 이어서 이것은 보통 자동 방식으로 그리고 가능하게는 추가 사용자 개입 없이 서열분석을 수행한다. 일부 구현예에서, 이어서 이러한 처리 작업의 결과는 가능하게는 진단으로서 재포맷팅되면서, 자동 방식으로 의료 전문가 및/또는 환자에게 정보를 보고하는 시스템 성분 또는 엔티티에 전달된다. 설명된 바와 같이 이러한 정보는 또한 자동 방식으로 처리되어 가능하게는 상담 정보와 함께, 치료, 시험 및/또는 모니터링 계획을 생성할 수 있다. 따라서, 초기 단계 작업의 개시는 엔드 투 엔드(end to end) 서열을 촉발할 수 있고, 여기서 의료 전문가, 환자 또는 다른 관련 부서는 진단, 계획, 상담 및/또는 건상 상태에 작용하는 데 유용한 다른 정보를 제공한다. 이것은, 전체 시스템의 일부가 예를 들어, 샘플 또는 서열 장치의 위치와 물리적으로 이격되어 있고 가능하게는 이로부터 먼 경우에도 달성된다.
도 4는 적절하게 구성 또는 설계되는 경우, 특정 실시형태에 따른 컴퓨팅 장치로서 제공될 수 있는, 단순한 블록 포맷의 전형적인 컴퓨터 시스템을 도시한다. 컴퓨터 시스템(2000)은 주 저장장치(2006)(전형적으로 무작위 접근 메모리 또는 RAM), 주 저장장치(2004)(전형적으로 판독 전용 메모리 또는 ROM)를 비롯한, 저장 디바이스에 커플링된 임의의 수의 프로세서(2002)(주 처리 유닛 또는 CPU라고도 지칭됨)를 포함한다. CPU(2002)는 마이크로콘트롤러 및 마이크로프로세서, 예컨대, 프로그래밍 가능한 디바이스(예를 들어, CPLD 및 FPGA) 및 프로그래밍 가능하지 않은 디바이스, 예컨대, 게이트 어레이 ASIC 또는 일반 목적의 마이크로프로세서를 비롯한 다양한 유형의 것일 수 있다. 도시된 실시형태에서, 주 저장장치(2004)는 데이터 및 명령을 CPU에 단방향성으로 전달하는 작용을 하고, 주 저장장치(2006)는 전형적으로 데이터 및 명령을 이방향성 방식으로 전달하는 데 사용된다. 이러한 주 저장장치 디바이스 둘 다는 임의의 적합한 컴퓨터-판독 가능 매체, 예컨대, 상기에 기재된 것을 포함할 수 있다. 대량 저장 디바이스(2008)는 또한 주 저장장치(2006)에 이방향성으로 커플링되고, 추가적인 데이터 저장 능력을 제공하고, 상기에 기재된 컴퓨터-판독 가능 매체 중 임의의 것을 포함할 수 있다. 대량 저장 디바이스(2008)는 프로그램, 데이터 등을 저장하기 위해서 사용될 수 있고, 전형적으로 이차 저장 매체, 예컨대, 하드 디스크이다. 빈번하게, 이러한 프로그램, 데이터 등은 CPU(2002) 상에서의 실행을 위해서 주 메모리(2006)에 일시적으로 복사된다. 대량 저장 디바이스(2008)에 보유된 정보는 적절한 경우에 주 저장장치(2004)의 부분으로서 표준 방식으로 혼입될 수 있다는 것이 인지될 것이다. 특정 대량 저장 디바이스, 예컨대, CD-ROM(2014)은 또한 주 저장장치로 전달할 수 있다.
CPU(2002)는 또한 핵산 서열분석기(2020), 비디오 모니터, 트랙볼, 마우스, 키보드, 마이크, 터치 감지 디스플레이, 트랜스듀서 카드 리더, 자기 또는 종이 테이프 리더, 태블릿, 스타일러스, 음성 또는 필기 인식 주변 장치, USB 포트 또는 기타 다른 널리 공지된 입력 디바이스, 예컨대, 물론 컴퓨터와 같은 하나 이상의 입력/출력 디바이스에 연결되는 인터페이스(2010)에 커플링된다. 마지막으로, CPU(2002)는 2012년에 일반적으로 도시된 바와 같이 외부 연결을 사용하여 데이터베이스 또는 컴퓨터 또는 통신네트워크와 같은 외부 장치에 선택적으로 커플링될 수 있다. 이러한 연결에 의해, CPU는 네트워크로부터 정보를 수신할 수 있거나, 또는 본 명세서에 기재된 방법 단계를 수행하는 과정에서 정보를 네트워크에 출력할 수 있다고 생각된다. 일부 구현에서, 핵산 서열분석기(2020)는 인터페이스(2010) 대신 또는 이것에 더하여 또는 이를 통해서 네트워크 연결(2012)을 통해서 CPU(2002)에 통신 가능하게 연결될 수 있다.
일 실시형태에서, 시스템, 예컨대, 컴퓨터 시스템(2000)은 본 명세서에 기재된 태스크 중 일부 또는 전부를 수행할 수 있는 데이터 임포트, 데이터 상관 및 질의 시스템으로서 사용된다. 데이터 파일을 비롯한 정보 및 프로그램은 연구자에 의해서 접근 또는 다운로딩되기 위해서 네트워크 연결(2012)을 통해서 제공될 수 있다. 대안적으로, 이러한 정보, 프로그램 및 파일은 저장 디바이스 상의 연구자에게 제공될 수 있다.
특정 실시형태에서, 컴퓨터 시스템(2000)은 데이터 획득 시스템, 예컨대, 마이크로어레이, 고 처리율 스크리닝 시스템, 또는 샘플로부터 데이터를 캡처하는 핵산 서열분석기(2020)에 직접 커플링된다. 이러한 시스템으로부터의 데이터는 시스템(2000)에 의한 분석을 위해서 인터페이스(2010)를 통해서 제공된다. 대안적으로, 시스템(2000)에 의해 처 리된 데이터는 데이터 저장 소스, 예컨대, 데이터베이스 또는 관련 데이터의 다른 저장소로부터 제공된다. 장치(2000)에서, 메모리 디바이스, 예컨대, 주 저장장치(2006) 또는 대량 저장장치(2008)와 같은 메모리 장치는 적어도 일시적으로 관련 데이터를 버퍼링 또는 저장한다. 메모리는 또한 서열 판독물, UMI, 서열 판독을 결정하기 위한 코드, 서열 판독물을 붕괴시키고, 판독물에서의 오류의 수정 등을 비롯한, 데이터를 임포트, 분석 및 제공하기 위한 다양한 루틴 및/또는 프로그램을 저장할 수 있다.
특정 실시형태, 본 명세서에서 사용되는 컴퓨터는 임의의 유형의 사용자 터미널을 포함할 수 있는데, 이것은 컴퓨터(예를 들어, 테스크탑, 랩탑, 태블릿 등), 매체 컴퓨팅 플랫폼(예를 들어, 케이블, 위성 셋탑 박스, 디지털 비디오 레코더 등), 핸드헬드 컴퓨팅 디바이스(예를 들어, PDA, 이메일 클라이언트 등), 휴대 전화 또는 임의의 다른 유형의 컴퓨팅 또는 커뮤니케이션 플랫폼을 포함할 수 있다.
특정 실시형태에서, 본 명세서에서 사용되는 컴퓨터는 또한 사용자 터미널과 통신하는 서버 시스템을 또한 포함할 수 있는데, 여기서 서버 시스템은 서버 디바이스 또는 분산적(decentralized) 서버 디바이스를 포함할 수 있고, 메인프레임 컴퓨터, 미니 컴퓨터, 슈퍼 컴퓨터, 퍼스널 컴퓨터 또는 이들의 조합물을 포함할 수 있다. 본 발명의 범주를 벗어나지 않으면서 복수의 서버 시스템이 또한 사용될 수 있다. 사용자 터미널 및 서버 시스템은 네트워크를 통해서 서로와 통신할 수 있다. 네트워크는 본 발명의 범주를 벗어나지 않으면서 예를 들어, 유선 네트워크, 예컨대, LAN(국지 네트워크), WAN(광역 네트워크), MAN(도시권 네트워크), ISDN(종합 디지털 네트워크), 등뿐만 아니라 무선 네트워크, 예컨대, 무선 LAN, CDMA, 블루투스 및 위성 통신 네트워크 등을 포함할 수 있다.
도 5는 시험 샘플로부터 콜링 또는 진단을 생성시키기 위한 분산된 시스템의 일 구현예를 나타낸다. 시험 샘플을 획득하기 위해서 샘플 수집 위치(01)를 사용한다. 이어서 샘플이 시험 샘플이 상기에 기재된 바와 같이 처리 및 서열분석되는 처리 및 서열분석 위치(03)에 제공된다. 위치(03)는 샘플을 처리하기 위한 장치뿐만 처리된 샘플을 서열분석하기 위한 장치를 포함한다. 본 명세서 다른 곳에 기재된 바와 같은, 서열분석의 결과는 판독물의 집합인데, 이것은 전형적으로 전자 포맷으로 제공되며, 도 5에서 참조 번호 05에 의해서 표시된 네트워크, 예컨대, 인터넷에 제공된다.
서열 데이터는 분석 및 콜링 생성이 수행되는 원격 위치(07)에 제공된다. 이러한 위치는 하나 이상의 강력한 컴퓨팅 디바이스, 예컨대, 컴퓨터 또는 프로세서를 포함할 수 있다. 위치(07)에서의 컴퓨팅 리소스가 이의 분석을 완결하고, 수신된 서열 정보로부터 콜링을 생성한 후, 콜링은 네트워크(05)로 다시 전달된다. 일부 구현예에서, 위치(07)에서 콜링이 생성될 뿐만 아니라 연관 진단이 또한 생성된다. 이어서 콜링 및 또는 진단이 네트워크를 통해서 전달되고, 도 5에 도시된 바와 같이 샘플 수집 위치(01)로 다시 전달된다. 설명된 바와 같이, 콜링 또는 진단의 생성과 연관된 다양한 작업이 다양한 위치 사이에서 분할될 수 있는 방법에 대한 다수의 변화 중 단순한 하나가 존재한다. 하나의 일반적인 변화는 하나의 위치에서 샘플 수집 및 처리 및 서열분석을 제공하는 것을 포함한다. 또 다른 변화는 분석 및 콜링 생성과 동일한 위치에서 처리 및 서열분석을 제공하는 것을 포함한다.
도 6은 구별되는 위치에서 다양한 작업을 수행하기 위한 선택을 상술한다. 도 6에 도시된 가장 세분화된 방식에서, 하기 작업 각각은 별개의 위치에서 수행된다: 샘플 수집, 샘플 처리, 서열분석, 판독물 정렬, 콜링, 진단 및 보고 및/또는 계획 발전.
이러한 작업 중 일부를 합친 일 실시형태에서, 샘플 처리 및 서열분석이 하나의 위치에서 수행되고, 판독물 정렬, 콜링 및 진단이 별개의 위치에서 수행된다. 참조 문자 A로 표현된 도 6의 부분 참고. 도 6에서 문자 B로 표현된 또 다른 구현예에서, 샘플 처리 및 서열분석 모두는 동일한 위치에서 수행된다. 이러한 구현예에서, 판독물 정렬 및 콜링은 제2 위치에서 수행된다. 마지막으로, 진단 및 보고 및/또는 계획 개발은 제3 위치에서 수행된다. 도 6에 문자 C로 표현된 구현예에서, 샘플 수집은 제1 위치에서 수행되고, 샘플 처리, 서열분석, 판독물 정렬, 콜링 및 진단 모두는 함께 제2 위치에서 수행되고, 보고 및/또는 계획 개발은 제3 위치에서 수행된다. 마지막으로로, 도 6에 D로 표시된 구현예에서, 샘플 수집은 제1 위치에서 수행되고, 샘플 처리, 서열분석, 판독물 정렬 및 콜링 모두는 함께 제2 위치에서 수행되고, 진단 및 보고 및/또는 계획 관리는 제3 위치에서 수행된다.
일 실시형태는 종양과 연관된 단순한 뉴클레오타이드 변이체에 대한 세포-유리 DNA(cfDNA)를 분석하기 위한 시스템을 제공하며, 시스템은 핵산 샘플을 제공받고, 핵산 샘플로부터의 핵산 서열 정보를 제공하기 위한 서열분석기; 프로세서; 및 프로세서 상에서의 실행을 위한 명령을 포함하는 기기 판독 가능 저장 매체를 포함하고, 명령은, (a) 핵산 샘플로부터 획득되고, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 맵핑된 핵산 서열 판독물을 제공받기 위한 코드; (b) 핵산 서열 판독물을 사용하여 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자 각각에 대한 대립유전자 계수치를 결정하기 위한 코드; 및 (c) 확률적 혼합 모델을 사용하여, 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하기 위한 코드를 포함한다. 일부 구현예에서, 확률적 혼합 모델을 사용하는 것은 확률적 혼합 모델을 대립유전자 계수치에 적용하는 것을 포함한다. 확률적 혼합 모델은 확률 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자 계수치를 모델링하고, 확률 분포는 핵산 서열 판독물에서의 오류를 설명한다.
본 명세서에 제공된 시스템 중 임의의 것의 일부 실시형태에서, 차세대 서열분석(NGS)을 수행하도록 서열분석기가 구성된다. 일부 실시형태에서, 가역적인 염료 터미네이터(reversible dye terminator)와 함께 합성에 의한 서열분석을 사용한 대량 병렬 서열분석을 수행하도록 서열분석기가 구성된다. 다른 실시형태에서, 결찰에 의한 서열분석을 수행하도록 서열분석기가 구성된다. 다른 실시형태에서, 단일 분자 서열분석을 수행하도록 서열분석기가 구성된다.
실험
실시예 1
본 실시예는 실제 DNA 혼합물 샘플로부터 획득된 데이터를 사용하여, 일부 구현예가 본 명세서에 개시된 확률적 접근법을 사용하지 않은 종래의 기술보다, DNA 혼합물 샘플의 정량에서, 더 높은 정확도 및 신뢰도, 뿐만 아니라 더 낮은 경험적 편향(empirical bias)을 제공할 수 있다는 것을 입증한다.
DNA 혼합물 샘플은 게놈(기여자)으로부터의 2종의 DNA를 포함하였고, 낮은 분율은 상이한 샘플 중에서 0.1%, 0.2%, 0.4% 및 2%이다. 일부 샘플은 3ng의 입력 DNA를 포함하였고, 나머지는 10ng을 포함하였다. 샘플을 Nack 또는 Nack2로 표지된 2가지 실험 절차로 처리하여 2개의 프라이머 설계를 제공하였는데, 여기서 표적 유전자좌의 수는 두 설계에 대해서 상이하다. 일부 샘플을 MiSeq 서열분석 플랫폼을 사용하여 처리하였고, 일부를 MiniSeq 플랫폼을 사용하여 처리하였다.
샘플 데이터를 3종의 상이한 방법을 사용하여 분석하였다. 표 2는 다양한 샘플 및 실험 절차를 사용하는 3가지의 상이한 방법에 대한 다수의 혼합물 분획에 걸친 분산 계수의 평균(standard_deviation_of_predictions / true_fraction로서 정의된, CV) 값 및 다수의 혼합물 분획에 걸친 변동 계수 + 편향의 평균(CVB, 일반적으로 CV(RMSD)라고 표현되고, RMSD/실제_분율로서 정의됨) 값을 나타낸다. 제1 방법은 서열분석 오류를 모델링하기 위해서 이항 분포를 포함하는 확률적 모델을 적용한다. 제1 방법은 상기 Seq Model로서 기술된 일부 구현예에 상응한다. 제1 방법(Seq)에 대한 데이터를 표 3의 제3 행에 나타낸다. 제2 방법을 DNA 추출 오류, PCR 증폭 오류 및 서열분석 오류를 설명하는 확률 분포를 포함하는 확률적 혼합 모델에 적용한다. 제2 방법은 상기 Extraction-PCR-Seq Model로서 기술된 일부 구현예에 상응한다. 제2 방법(EPS)에 대한 데이터를 표 3의 제4 행에 나타낸다.
제3 방법은 결정론적 선형 회귀 모델을 적용하여 대립유전자 계수치 데이터를 설명한다. 그것은 하기와 같은 데이터의 총합 제곱 오차를 추정한다:
Figure pct00077
식 중, r은 관찰된 대립유전자 분율이고,
Figure pct00078
는 유전자좌 i에 대한 예측된 대립유전자 분율인데, 이것은 β의 선형 함수이고, 여기서 G는 n개의 유전자좌 및 d명의 공여자에 대한 유전자형의 행렬이고, β는 미지의 기여자 분율의 길이 d 벡터이다. 제3 방법(NaiveLM)에 대한 데이터를 표 8의 제5 행에 나타낸다.
기여자의 유전자형 정보는 Seq 또는 EPS 방법에서 기여자 분율을 정량하는 데 사용되지 않았지만 그것은 NaiveLM 방법에서 사용되었음을 주목할 필요가 있다. Seq 방법 및 EPS 방법은 기여자의 유전자형 정보를 사용할 필요가 없었다는 사실에도 불구하고, 이것은 NaiveLM 방법보다 더 작은 변동 계수 값에 의해서 나타나는 바와 같이 보다 신뢰할 만한 결과를 생성하였다. 더욱이, Seq 방법 및 EPS 방법은 NaiveLM 방법보다 더 작은 CVB 값에 의해서 나타나는 바와 같이 보다 낮은 편향을 가졌다. 3가지 방법 중 최상의 결과를 표 8에 볼드체로 나타낸다. 간략하면, 확률적 혼합 모델을 사용한 2가지 방법은 선형 회귀 방법보다 더 신뢰할 만하고, 정확하고, 덜 편향된 결과를 생성하였다.
Figure pct00079
실시예 2
도 7a 내지 도 7f는 실제 DNA 혼합물 샘플로부터 획득된 데이터를 사용하여 일부 구현예가 DNA 혼합물 샘플을 효과적으로 정량 및 데콘볼빙할 수 있음을 입증한 실시예의 결과를 나타낸다. 본 실시예는 일부 구현예가 DNA 혼합물 데콘볼루션에 개선된 신호 수준을 제공할 수 있다는 것을 나타낸다. 본 실시예에서, 데이터를 좁은 선험값을 사용하여 분석하였다.
샘플은 2명의 기여자로부터의 DNA를 포함하였고, 다양한 샘플은 2명의 기여자에 대해서 60%-40%, 75%-25%, 90%-10% 및 95%-5% 분율을 갖는다. 샘플은 대상체 NA12878 및 NA18507 각각에 대해서 3개의 반복물을 포함하였다.
도 7a는 일부 구현예에 의해서 정량된 주요 기여자 분율(또는 도면에서 "주요 빈도"라고 지칭됨)을 나타낸다. 수평축은 주요 기여자의 실제 기여자 빈도를 나타낸다. 수직축은 확률적 혼합 모델에 의해서 추론된 주요 기여자 분율(가장 가까운 2.5%까지)을 나타낸다. 이 데이터는, 확률적 혼합 모델이 아이덴티티 라인 근처에 위치된 데이터 지점에 의해서 나타나는 바와 같이, 진 분율에 매우 가까운 예측을 제공한다는 것을 입증한다.
도 7b는 4개의 하위플롯에서 4개의 상이한 대립유전자에 대한 확률적 혼합 모델에 의해서 예측된 바와 같은, 주요 기여자 및 부수적인 기여자에 대한 유전자형을 나타낸다. 좌측의 두 하위플롯은 75-25 기여자 분율의 샘플로부터 획득된 결과를 나타낸다. 우측의 두 하위플롯은 60-40 기여자 분율의 혼합물 샘플로부터 획득된 결과를 나타낸다. 수평축은 유전자좌에서의 상이한 대립유전자에 대한 표지를 나타낸다. 수직축은 유전자좌에 대한 대립유전자 계수치를 나타낸다. 모델에 의해서 예측된 모든 유전자형은, 좌측 상단의 하위플롯에 나타낸 유전자좌 D4S2408에서의 부수적인 기여자 중 하나의 대립유전자를 제외하고는, 정확한 것이었다. 그러한 유전자좌에서, 진 부수적인 기여자의 유전자형은 (10, 10)이지만, 이 모델은 그것을 (8, 10)이라고 예측하였다. 흥미롭게도, 부수적인 기여자에 대한 이러한 유전자좌에 대한 예측의 신뢰 수준은 68.6%로 비교적 낮은 수준이다. 본 실시예에서, 콜링 기준을 70%를 초과하게 설정함으로써 잘못된 예측을 제거할 수 있다.
도 7c는 기여자의 유전자형의 정확한 콜링 및 부정확한 콜링의 수를 나타낸다. 수평축은 주요 기여자의 실제 기여자 분율(도면에서 "주요 빈도"라고 표지됨)을 나타낸다. 수직축은 정확한 콜링 및 부정확한 콜링의 수를 나타낸다. "x" 표시는 주요 기여자에 대한 데이터를 나타내고, 원 표시는 부수적인 기여자에 대한 데이터를 나타낸다. 흑색 상징은 정확한 콜링을 나타내는 반면, 회색 상징은 부정확한 콜링에 대한 데이터를 나타낸다. 28에서의 수평선은 이론적인 최대 정확한 콜링을 나타낸다. 도 7c는 90% 신뢰도의 역치값에서 수행된 콜링에 대한 데이터를 나타낸다. 도 7c의 데이터는 콜링의 정확한 수가 상이한 기여자 분율에 걸쳐서 비교적 높은 반면, 부정확한 콜링은 5 미만으로 비교적 낮고 일관됨을 나타낸다. 도 7c는 또한 기여자 분율이 60%에서 95%로 증가됨에 따라서, 주요 기여자에 대한 정확한 콜링이 증가되고, 이론적인 최대 수준에 접근한다는 것을 나타낸다.
도 7d는 동일한 데이터를 사용하지만 99%의 더 높은 콜링 기준을 사용한 정확한 콜링 및 부정확한 콜링을 나타낸다. 다시, 정확한 콜링의 수는 상이한 주요 기여자 분율에 걸쳐서 일관되게 높고, 부정확한 콜링 수는 5 미만으로 비교적 낮고 일관된다. 도 7d에서의 콜링 기준이 도 7c에서의 기준보다 더 높기 때문에, 정확한 콜링 및 부정확한 콜링 둘 다는 더 낮은 수를 갖는다. 그러나, 90% 및 95% 분율에서의 주요 기여자에 대한 정확한 콜링은 높게 그리고 이론적인 최대 값 부근으로 유지되었다.
도 7e는 콜링 기준이 99.9%로 증가된 것을 제외하고는, 도 7c 및 도 7d와 유사한 데이터를 나타낸다. 훨씬 더 높은 콜링 역치값으로 인해서, 정확한 콜링 및 부정확한 콜링의 수는 도 7d의 결과보다 약간 더 낮다. 중요하게는, 공지된 이유로 인해서 모델 가정으로부터 벗어난다고 공지된 유전자좌를 제외하고는, 이러한 신뢰 수준에서 부정확한 콜링은 존재하지 않는다. 이러한 유전자좌는 분석 시에 회피될 수 있다. 이러한 사례를 제외하고는, 모델은 부정확한 콜링에 대해서 높은 신뢰도를 갖지 않는다. 따라서, 그것은 유전자형 콜링에서 불확실성을 적절하게 정량한다.
도 7c 내지 도 7e로부터의 결과는, 확률적 혼합 모델이 기여자의 유전자형을 정확하게 결정할 수 있다는 것을 나타낸다. 상이한 응용에서의 상이한 요구를 기초로, 상이한 콜링 기준 값을 적용하여 바람직한 감도 및 선택성을 달성할 수 있다.
도 7f는 공지된 기여자의 DNA가 DNA 혼합물 샘플 중에 포함되는지의 여부에 관한 정확한 콜링 및 부정확한 콜링의 수를 나타낸다. 수평축은 주요 기여자의 실제 기여자 분율("진 주요 빈도"라고 표지됨)을 나타낸다. 수직축은 샘플이 유전자형을 포함하는 유전자좌당 증거 값을 나타낸다. "x" 표시는 주요 기여자에 대한 데이터를 나타내고, 원 표시는 부수적인 기여자에 대한 데이터를 나타낸다. 도 7f의 데이터는, 샘플이 2명의 기여자를 포함하였다는 비교적 높은 수준의 증거가 존재함을 나타낸다. 놀랍지 않게, 증거 수준은 주요 기여자의 분율이 90% 및 95%인 경우 부수적인 기여자에 대해서 비교적 낮았다.
실시예 3
도 8a 내지 도 8d는 모의실험된 데이터를 사용하여 일부 구현예가 DNA 혼합물 샘플을 효과적으로 정량 및 데콘볼빙할 수 있음을 입증한 실시예의 결과를 나타낸다. 본 실시예는 일부 구현예가 DNA 혼합물 데콘볼루션에 개선된 신호 수준을 제공할 수 있다는 것을 나타낸다.
모의실험은 4가지의 상이한 설계를 갖는다: 이지(Easy) 2-기여자(80-20); 디피컬트(Difficult) 2-기여자(55-45); 이지 3-기여자(60-30-10); 및 디피컬트 3-기여자(50-30-20). 이지 설계는 디피컬트 설계보다 훨씬 동떨어진 기여자 분율을 갖는다.
모의실험은 50개의 유전자좌 및 6개의 대립유전자에 대한 데이터를 포함한다. 대립유전자 균형은 본래 샘플 중의 분자의 수(고정됨: 6000), 평균 분자 검출률(10%로 고정됨; 즉, 평균적으로 600개 분자가 유전자좌를 검출함), 분자 검출률의 대립유전자-대-대립유전자 편차(범위에 걸쳐서 달라짐), 및 샘플링 노이즈에 좌우된다. 스터터 비율을 1% 또는 2%로서 모의실험하였고, 드롭아웃 비율은 1%이다. 넓은 선험값을 가정하여 결과를 얻었다.
이지 3-기여자(60-30-10) 혼합물 샘플의 경우, 모든 기여자 빈도는 진 값의 2.5% 이내인 것으로 추론되었다. 디피컬트 3-기여자(50-30-20) 혼합물 샘플의 경우, 모든 기여자 빈도는 진 값의 7.5% 이내인 것으로 추론되었다.
도 8a 및 도 8d는 이지 3-기여자(60-30-10) 혼합물 샘플에 대한 데이터를 나타낸다. 도 8a는 기여자의 유전자형의 정확한 콜링 및 부정확한 콜링의 수를 나타낸다. 수평축은 주요 기여자에 대한 대립유전자 균형을 나타낸다. 수직축은 정확한 콜링 및 부정확한 콜링의 수를 나타낸다. 흑색 상징은 1% 스터터 비율을 나타내고, 회색 상징은 2% 스터터 비율에 대한 데이터를 나타낸다. 실선은 정확한 콜링을 나타내는 반면, 점선은 부정확한 콜링에 대한 데이터를 나타낸다. 도 8a는 90% 신뢰도의 역치값에서 수행된 콜링에 대한 데이터를 나타낸다. 도 8a의 데이터는 콜링의 정확한 수가 상이한 대립유전자 균형 값에 걸쳐서 비교적 높은 반면, 부정확한 콜링은 0 근처로 일관됨을 나타낸다.
도 8b는 도 8a와 동일한 데이터를 사용하지만 99%의 더 높은 콜링 기준을 사용한 정확한 콜링 및 부정확한 콜링을 나타낸다. 정확한 콜링의 수는 도 8a에서의 것보다 상당히 더 낮은 반면, 부정확한 콜링은 바닥에서 벗어나는데, 이는 99%에서의 역치값이 본 응용에서 너무 엄격할 수 있음을 나타낸다. 도 8c는 콜링 기준이 99.9%로 증가된 것을 제외하고는, 도 8a 및 도 8b와 유사한 데이터를 나타낸다. 훨씬 더 높은 콜링 역치값으로 인해서, 정확한 콜링의 수가 추가로 감소된다. 도 3a 내지 도 3c로부터의 결과는, 확률적 혼합 모델이 기여자의 유전자형을 정확하게 결정할 수 있고, 본 실시예에서의 적합한 역치값은 90% 근처 또는 99% 미만으로 설정될 수 있음을 나타낸다.
도 8d는 3명의 기여자의 DNA 중 하나가 DNA 혼합물 샘플 중에 포함되는지의 여부에 관한 정확한 콜링 및 부정확한 콜링의 수를 나타낸다. 수평축은 주요 기여자에 대한 대립유전자 균형을 나타낸다. 수직축은 샘플이 유전자형을 포함하는 유전자좌당 증거 값을 나타낸다. 실선은 1% 스터터 오류를 나타내고, 점선은 2% 스터터 오류에 대한 데이터를 나타낸다. 3개의 상이한 회색 음영은 3명의 상이한 기여자에 대한 데이터를 나타낸다. 도 8d의 데이터는, 샘플이 스터터 오류 조건 둘 다에 대해서 3명의 기여자를 포함하였다는 비교적 높은 수준의 증거가 존재함을 나타낸다.

Claims (44)

1명 이상의 기여자(contributor)의 핵산을 포함하는 핵산 샘플을 정량하는, 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템에서 구현되는 방법으로서,
(a) 상기 컴퓨터 시스템에 의해서, 핵산 샘플로부터 획득되고, 하나 이상의 다형성 유전자좌(polymorphism loci)에서의 하나 이상의 대립유전자에 맵핑된(mapped) 핵산 서열 판독물(read)을 제공받는 단계;
(b) 상기 핵산 서열 판독물을 사용하고, 그리고 상기 하나 이상의 프로세서에 의해서, 상기 하나 이상의 다형성 유전자좌에서의 상기 하나 이상의 대립유전자 각각에 대한 대립유전자 계수치(allele count)를 결정하는 단계;
(c) 확률적 혼합 모델(probabilistic mixture model)을 상기 대립유전자 계수치에 적용하고, 확률 분포를 사용하는 확률적 혼합 모델을 사용하여, 하나 이상의 다형성 유전자좌에서의 상기 대립유전자 계수치를 모델링하되, 상기 확률 분포는 상기 핵산 서열 판독물에서의 오류를 설명하는, 상기 모델링하는 단계;
(d) 상기 확률적 혼합 모델을 사용하고, 그리고 상기 하나 이상의 프로세서에 의해서, 상기 핵산 샘플에서 상기 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계;
(e) 상기 1명 이상의 기여자 중에서 특정 기여자가 특정 유전자형을 가질 사후 확률(posterior probability)을 결정하는 단계; 및
(f) 상기 사후 확률에 기초하여, 상기 핵산 샘플이 상기 특정 기여자로부터의 핵산을 포함한다는 것을 콜링(calling)하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제1항에 있어서, 상기 1명 이상의 기여자는 2명 이상의 기여자를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제1항에 있어서, 상기 1명 이상의 기여자에서 기여자의 총 수를 결정하는 단계를 더 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제1항에 있어서, 상기 1명 이상의 기여자의 1개 이상의 유전자형은 미지인, 컴퓨터 시스템에서 구현되는 방법.
제4항에 있어서, 상기 하나 이상의 다형성 유전자좌 각각에서 하나 이상의 대립유전자 구성을 결정하는 단계를 더 포함하되, 각각의 대립유전자 구성은 상기 1명 이상의 기여자 각각에 대해서 2개 이상의 대립유전자의 대립유전자 상태를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제5항에 있어서, 상기 1명 이상의 대립유전자 구성에 대한 추정된 확률을 결정하는 단계를 더 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제1항에 있어서, 상기 1명 이상의 기여자 중에서 특정 기여자가 특정 유전자형을 가질 상기 사후 확률을 획득하는 것은,
(i) 유전자형 구성의 선험적 확률(prior probability)과 상기 유전자형 구성의 우도(likelihood)를 곱하고;
(ii) (i)의 곱을 유전자형 공간(genotype space)에 걸친 총합(sum)에 의해서 정규화시키고;
(iii) 상기 특정 유전자형을 함유하는 유전자형 구성에 걸쳐서 총합하여(summing) 상기 사후 확률을 획득하는 것을 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제1항에 있어서, 상기 특정 유전자형은 다중-유전자좌 유전자형(multiple-locus genotype)을 포함하되,
모든 기여자에 걸쳐서, 기여자가 모든 유전자좌에서 특정 유전자형을 가질 사후 확률을 총합하는 단계; 및
확률 총합에 기초하여, 상기 명시된 다중-유전자좌 유전자형이 임의의 기여자에서 나타나는지를 결정하는 단계
를 더 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제8항에 있어서, 상기 핵산 샘플은 법의학적(forensic) 샘플이고, 상기 다중-유전자좌 유전자형의 상기 데이터는 관심대상 사람으로부터 획득되되, 상기 방법은 상기 관심대상 사람이 상기 핵산 샘플의 기여자인지를 결정하는 단계를 더 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제1항에 있어서, 상기 핵산 샘플은 DNA 분자 및/또는 RNA 분자를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제10항에 있어서, 상기 핵산 서열 판독물은 고유한 분자 색인(unique molecular index)을 사용하여 상기 DNA 분자 및/또는 RNA 분자를 서열분석(sequencing)함으로써 획득된, 컴퓨터 시스템에서 구현되는 방법.
제1항에 있어서, 상기 확률 분포는 제1 이항 분포를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제12항에 있어서, 상기 제1 이항 분포는 하기 식으로 표현되는, 컴퓨터 시스템에서 구현되는 방법:
Figure pct00080

식 중,
n ij 는 유전자좌 i에서의 대립유전자 j에 대한 대립유전자 계수치이고;
n i 는 유전자좌 i에서의 총 대립유전자 계수치이며;
p ij 는 유전자좌 i에서의 대립유전자 j의 확률을 나타내는 확률 모수(probability parameter)이다.
제13항에 있어서, 상기 확률 모수 p ij 는,
(i) 상기 핵산 샘플에서 1명 이상의 기여자 중 하나의 핵산의 분율 또는 β의 함수;
(ii) 상기 1명 이상의 기여자의 유전자형 또는 G의 함수; 및/또는
(ii) 상기 핵산 서열 판독물에서의 오류 또는 θ의 함수인, 컴퓨터 시스템에서 구현되는 방법.
제14항에 있어서, 상기 확률적 혼합 모델은 베타 분포를 사용하여 상기 핵산 서열 판독물에서의 상기 오류를 모델링하는, 컴퓨터 시스템에서 구현되는 방법.
제15항에 있어서, 상기 베타 분포는 평균 모수(mean parameter) μ 및 집중 모수(concentration parameter) k에 의해서 정의되는, 컴퓨터 시스템에서 구현되는 방법.
제16항에 있어서, 상기 집중 모수는 상이한 노이즈 조건을 나타내는 선험값(prior)을 갖고, 상기 집중 모수는 유전자좌에 따라서 달라지는, 컴퓨터 시스템에서 구현되는 방법.
제15항에 있어서, (c)는 상기 제1 이항 분포 및 상기 베타 분포를 조합하여 베타-이항 분포를 따르는 nij의 주변 분포(marginal distribution)를 획득하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제18항에 있어서, 상기 베타-이항 분포는 하기 형태를 갖는 컴퓨터 시스템에서 구현되는 방법:
Figure pct00081
제1항에 있어서, (c)는 상기 핵산 서열 판독물의 우도 함수를 최대화시킴으로써 상기 핵산 샘플에서 1명 이상의 기여자의 핵산의 상기 하나 이상의 분율을 정량하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제20항에 있어서, (c)는,
(b)에서 결정된 상기 대립유전자 계수치의 우도 함수 및 복수의 잠재적인 분율 값을 사용하여 복수의 우도 값을 계산하는 단계;
최대 우도 값과 연관된 잠재적인 분율 벡터를 식별하는 단계, 및
상기 식별된 잠재적인 분율 벡터를 사용하여 상기 핵산 샘플에서 상기 1명 이상의 기여자의 핵산의 상기 하나 이상의 분율을 정량하는 단계
를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제20항에 있어서, 상기 우도 함수는 집단 대립유전자 빈도(population allele frequency)(π)를 고려할 때 상기 1명 이상의 기여자의 상기 유전자형의 선험적 확률인 P(G|π)에 좌우되는, 컴퓨터 시스템에서 구현되는 방법.
제22항에 있어서, 상기 선험적 확률 P(G|π)는 하디-바인버그 평형(Hardy-Weinberg equilibrium)을 충족시키는 주변 분포를 사용하여 계산되는, 컴퓨터 시스템에서 구현되는 방법.
제22항에 있어서, 상기 선험적 확률은 기계론적 드롭-아웃(mechanistic drop-out)을 나타내는 고정된 선험적 확률과 함께 모조(dummy) 대립유전자를 고려하여 계산되는, 컴퓨터 시스템에서 구현되는 방법.
제12항에 있어서, 상기 확률적 혼합 모델은 제2 이항 분포를 사용하여 상기 대립유전자 데이터에서 스터터 오류(stutter error)를 모델링하는, 컴퓨터 시스템에서 구현되는 방법.
제25항에 있어서, 상기 제2 이항 분포는 하기 식으로 표현되는, 컴퓨터 시스템에서 구현되는 방법:
Figure pct00082

식 중,
s ik 는 대립유전자 k인 것으로 보이지만 실제로는 대립유전자 k+1의 스터터 오류로부터 초래한 스터터 대립유전자의 유전자좌 i에서의 스터터 대립유전자 계수치이고;
n i(k+1) 는 유전자좌 i에서의 대립유전자 k+1의 본래 대립유전자 계수치이고;
r i 는 유전자좌 i에 대한 스터터 비율이다.
제26항에 있어서, 상기 스터터 비율 r은 유전자좌 전체에 걸쳐서 달라지며, 상이한 노이즈 조건을 나타내는 선험값을 갖되, 상기 선험값은 유전자좌 전체에 걸쳐서 공유되는, 컴퓨터 시스템에서 구현되는 방법.
제26항에 있어서, (c)는 비-스터터 대립유전자 계수치의 우도와 스터터 대립유전자 계수치의 우도의 곱을 포함하는 우도 함수를 사용하여 상기 핵산 샘플에서 상기 1명 이상의 기여자의 핵산의 분율을 정량하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제26항에 있어서, (c)는 스터터가 잠재적으로 유래할 수 있는 분자의 수를 결정할 때, 대립유전자 k+1에 배정된 대립유전자 계수치에 분자의 고정된 수를 더하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제1항에 있어서, 상기 확률적 혼합 모델은 모조 외샘플(dummy out-of-sample) 대립유전자를 사용하여 자연적 드롭-아웃(natural drop-out)을 모델링하는, 컴퓨터 시스템에서 구현되는 방법.
제30항에 있어서, 상기 모조 외샘플 대립유전자의 상기 선험값은 관찰되지 않은 대립유전자의 수에 비례하는, 컴퓨터 시스템에서 구현되는 방법.
제31항에 있어서, 상기 관찰되지 않은 대립유전자의 상기 수는,
가장 짧은 관찰된 정수 값의 대립유전자와 가장 긴 관찰된 정수 값의 대립유전자 사이의 모든 정수를 보간(interpolating)하고,
임의의 관찰된 비-정수 값의 대립유전자를 더하고,
상기 생성된 값의 최대치 및 역치 값으로 되돌아감으로써 추정되는, 컴퓨터 시스템에서 구현되는 방법.
제1항에 있어서, (c)는 상기 핵산 샘플에서 상기 1명 이상의 기여자의 핵산의 상기 분율을 정량하는 데 사용된 데이터로부터 유전자형 구성을 가지치기(pruning)하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제33항에 있어서, 유전자형 구성의 가지치기는, 필요한 대립유전자의 목록을 구축하고, 모든 필요한 대립유전자를 설명하기에 충분하지 않은 기여자를 갖는 유전자좌를 배제함으로써 타당한 유전자형 구성을 제한하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제34항에 있어서, 상기 필요한 대립유전자의 목록은 역치를 초과하고, 스터터 드롭-인으로 인해서 타당하다고 하기에는 너무 높은 대립유전자 계수치를 갖는 대립유전자로 본질적으로 이루어지는, 컴퓨터 시스템에서 구현되는 방법.
제35항에 있어서, 상기 역치는 (i) 최대 비-스터터 대립유전자 계수치, 및 (ii) 잠재적인 스터터 공여자 대립유전자의 계수치를 곱한 값의 총합인, 컴퓨터 시스템에서 구현되는 방법.
제33항에 있어서, 유전자형 구성의 가지치기는 상기 대립유전자 데이터와 예측된 대립유전자 계수치 간에 불량한 매치를 갖는 유전자형 구성을 제거하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
제37항에 있어서, 불량한 매치를 갖는 상기 유전자형 구성은 하나 이상의 역치보다 더 큰 제곱평균 오차(root mean squared error: RMSE) 값을 갖는, 컴퓨터 시스템에서 구현되는 방법.
제1항에 있어서, 상기 하나 이상의 다형성 유전자좌에서의 상기 대립유전자는 단일 뉴클레오타이드 다형성(single nucleotide polymorphism: SNP) 대립유전자 및/또는 짧은 탠덤 반복부(short tandem repeat: STR) 대립유전자를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
시스템 메모리 및 하나 이상의 프로세서를 포함하는 컴퓨터 시스템으로서, 상기 하나 이상의 프로세서는,
(a) 핵산 샘플로부터 획득되고, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 맵핑된 핵산 서열 판독물을 제공받고;
(b) 상기 핵산 서열 판독물을 사용하여, 상기 하나 이상의 다형성 유전자좌에서의 상기 하나 이상의 대립유전자 각각에 대한 대립유전자 계수치를 결정하고;
(c) 확률적 혼합 모델을 상기 대립유전자 계수치에 적용하고, 확률 분포를 사용하는 확률적 혼합 모델을 사용하여, 상기 하나 이상의 다형성 유전자좌에서의 상기 대립유전자 계수치를 모델링하되, 상기 확률 분포는 상기 핵산 서열 판독물에서의 오류를 설명하고;
(d) 상기 확률적 혼합 모델을 사용하여, 상기 핵산 샘플에서 상기 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하고;
(d) 상기 1명 이상의 기여자 중에서 특정 기여자가 특정 유전자형을 가질 사후 확률을 결정하고;
(f) 상기 사후 확률에 기초하여, 상기 핵산 샘플이 상기 특정 기여자로부터의 상기 핵산을 포함한다는 것을 콜링하도록 구성된, 컴퓨터 시스템.
제40항에 있어서, 상기 핵산 샘플로부터 핵산을 추출하기 위한 툴(tool)을 더 포함하는, 컴퓨터 시스템.
제40항에 있어서, 상기 하나 이상의 프로세서는 상기 1명 이상의 기여자에서 기여자의 총 수를 결정하도록 추가로 구성되는, 컴퓨터 시스템.
제40항에 있어서, 상기 하나 이상의 프로세서는 상기 하나 이상의 다형성 유전자좌 각각에서 대립유전자 구성을 결정하도록 더 구성되되, 상기 대립유전자 구성은 상기 1명 이상의 기여자 각각에 대해서 2개 이상의 대립유전자의 대립유전자 상태를 포함하는, 컴퓨터 시스템.
컴퓨터 시스템의 하나 이상의 프로세서에 의해서 실행되는 경우, 상기 컴퓨터 시스템이 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 정량하는 방법을 구현하도록 하는 프로그램 코드를 저장하는 비-일시적인 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)로서, 상기 프로그램 코드는,
(a) 상기 핵산 샘플로부터 획득되고, 상기 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 맵핑된 핵산 서열 판독물을 제공받기 위한 코드;
(b) 상기 핵산 서열 판독물을 사용하여 상기 하나 이상의 다형성 유전자좌에서의 상기 하나 이상의 대립유전자 각각에 대한 대립유전자 계수치를 결정하기 위한 코드;
(c) 확률적 혼합 모델을 상기 대립유전자 계수치에 적용하고, 확률 분포를 사용하는 확률적 혼합 모델을 사용하여, 상기 하나 이상의 다형성 유전자좌에서의 상기 대립유전자 계수치를 모델링하기 위한 코드로서, 상기 확률 분포는 상기 핵산 서열 판독물에서의 오류를 설명하는, 상기 코드;
(d) 상기 확률적 혼합 모델을 사용하여, 상기 핵산 샘플에서 상기 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하기 위한 코드;
(e) 상기 1명 이상의 기여자 중에서 특정 기여자가 특정 유전자형을 가질 확률을 결정하기 위한 코드;
(f) 상기 사후 확률에 기초하여, 상기 핵산 샘플이 상기 특정 기여자로부터의 핵산을 포함한다는 것을 콜링하기 위한 코드
를 포함하는, 비-일시적인 컴퓨터 판독 가능 매체.
KR1020197037926A 2017-06-20 2018-06-19 미지의 유전자형의 기여자로부터의 dna 혼합물의 정확한 컴퓨팅 분해를 위한 방법 KR102543270B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762522618P 2017-06-20 2017-06-20
US62/522,618 2017-06-20
PCT/US2018/038222 WO2018236827A1 (en) 2017-06-20 2018-06-19 METHODS FOR ACCURATE COMPUTATIONAL DECOMPOSITION OF DNA MIXTURES FROM UNKNOWN GENOTYPIC CONTRIBUTORS

Publications (2)

Publication Number Publication Date
KR20200010463A true KR20200010463A (ko) 2020-01-30
KR102543270B1 KR102543270B1 (ko) 2023-06-13

Family

ID=62875309

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197037926A KR102543270B1 (ko) 2017-06-20 2018-06-19 미지의 유전자형의 기여자로부터의 dna 혼합물의 정확한 컴퓨팅 분해를 위한 방법

Country Status (10)

Country Link
US (1) US11990208B2 (ko)
EP (1) EP3642744A1 (ko)
JP (1) JP7009516B2 (ko)
KR (1) KR102543270B1 (ko)
CN (1) CN110770839A (ko)
AU (1) AU2018289385B2 (ko)
CA (1) CA3067418C (ko)
IL (1) IL271147A (ko)
SG (1) SG11201911530RA (ko)
WO (1) WO2018236827A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3117012B1 (en) 2014-03-14 2019-02-20 CareDx, Inc. Methods of monitoring immunosuppressive therapies in a transplant recipient
KR102543270B1 (ko) 2017-06-20 2023-06-13 일루미나, 인코포레이티드 미지의 유전자형의 기여자로부터의 dna 혼합물의 정확한 컴퓨팅 분해를 위한 방법
CA3185142A1 (en) * 2020-06-05 2021-12-09 Sirona Genomics, Inc. Methods of identifying markers of graft rejection
WO2022076574A1 (en) * 2020-10-08 2022-04-14 Claret Bioscience, Llc Methods and compositions for analyzing nucleic acid
CN112342303A (zh) * 2020-12-04 2021-02-09 郑州高新生物技术有限公司 一种基于ngs的人类y染色体str和snp遗传标记联合检测体系及检测方法
WO2022197591A1 (en) * 2021-03-16 2022-09-22 University Of North Texas Health Science Center At Fort Worth Forensic dna mixture interpretation with single-cell profiling

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120264121A1 (en) * 2011-04-12 2012-10-18 Verinata Health, Inc. Resolving genome fractions using polymorphism counts
US20150051087A1 (en) * 2010-05-18 2015-02-19 Natera, Inc. Methods for non-invasive prenatal ploidy calling

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2505472A1 (en) 2002-11-11 2004-05-27 Affymetrix, Inc. Methods for identifying dna copy number changes
WO2007145612A1 (en) 2005-06-06 2007-12-21 454 Life Sciences Corporation Paired end sequencing
EP3599609A1 (en) 2005-11-26 2020-01-29 Natera, Inc. System and method for cleaning noisy genetic data and using data to make predictions
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
CN101889074A (zh) 2007-10-04 2010-11-17 哈尔西恩莫尔丘勒公司 采用电子显微镜对核酸聚合物测序
EP2321753A1 (en) * 2008-08-08 2011-05-18 Navigenics INC. Methods and systems for personalized action plans
US20130196862A1 (en) * 2009-07-17 2013-08-01 Natera, Inc. Informatics Enhanced Analysis of Fetal Samples Subject to Maternal Contamination
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
US9029103B2 (en) 2010-08-27 2015-05-12 Illumina Cambridge Limited Methods for sequencing polynucleotides
CA2827873C (en) 2011-02-24 2022-08-16 The Chinese University Of Hong Kong Molecular testing of multiple pregnancies
WO2014014498A1 (en) 2012-07-20 2014-01-23 Verinata Health, Inc. Detecting and classifying copy number variation in a fetal genome
WO2013130848A1 (en) 2012-02-29 2013-09-06 Natera, Inc. Informatics enhanced analysis of fetal samples subject to maternal contamination
CN204440396U (zh) 2012-04-12 2015-07-01 维里纳塔健康公司 用于确定胎儿分数的试剂盒
KR101850437B1 (ko) 2015-04-14 2018-04-20 이원다이애그노믹스(주) 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법
KR102543270B1 (ko) 2017-06-20 2023-06-13 일루미나, 인코포레이티드 미지의 유전자형의 기여자로부터의 dna 혼합물의 정확한 컴퓨팅 분해를 위한 방법
SG11201911538YA (en) 2017-06-20 2020-01-30 Illumina Inc Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150051087A1 (en) * 2010-05-18 2015-02-19 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US20120264121A1 (en) * 2011-04-12 2012-10-18 Verinata Health, Inc. Resolving genome fractions using polymorphism counts

Also Published As

Publication number Publication date
CN110770839A (zh) 2020-02-07
CA3067418C (en) 2022-08-16
JP7009516B2 (ja) 2022-01-25
CA3067418A1 (en) 2018-12-27
US11990208B2 (en) 2024-05-21
IL271147A (en) 2020-01-30
NZ759473A (en) 2021-10-29
SG11201911530RA (en) 2020-01-30
KR102543270B1 (ko) 2023-06-13
EP3642744A1 (en) 2020-04-29
AU2018289385A1 (en) 2019-12-12
US20220262460A1 (en) 2022-08-18
AU2018289385B2 (en) 2022-01-20
WO2018236827A1 (en) 2018-12-27
JP2020530261A (ja) 2020-10-22

Similar Documents

Publication Publication Date Title
US20220246234A1 (en) Using cell-free dna fragment size to detect tumor-associated variant
AU2018375008B2 (en) Methods and systems for determining somatic mutation clonality
KR102487135B1 (ko) 기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템
KR102543270B1 (ko) 미지의 유전자형의 기여자로부터의 dna 혼합물의 정확한 컴퓨팅 분해를 위한 방법
NZ759784A (en) Liquid sample loading
NZ759784B2 (en) Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes
NZ759848B2 (en) Liquid sample loading
NZ759848A (en) Method and apparatuses for screening
JP2023552015A (ja) 遺伝子変異を検出するためのシステム及び方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant