KR20170125044A - 암 스크리닝 및 태아 분석을 위한 돌연변이 검출법 - Google Patents

암 스크리닝 및 태아 분석을 위한 돌연변이 검출법 Download PDF

Info

Publication number
KR20170125044A
KR20170125044A KR1020177025432A KR20177025432A KR20170125044A KR 20170125044 A KR20170125044 A KR 20170125044A KR 1020177025432 A KR1020177025432 A KR 1020177025432A KR 20177025432 A KR20177025432 A KR 20177025432A KR 20170125044 A KR20170125044 A KR 20170125044A
Authority
KR
South Korea
Prior art keywords
candidate
sequence
mutation
identifying
threshold
Prior art date
Application number
KR1020177025432A
Other languages
English (en)
Inventor
유크-밍 데니스 로
로사 와이 쿤 치우
관 치 찬
페이용 지앙
Original Assignee
더 차이니즈 유니버시티 오브 홍콩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 차이니즈 유니버시티 오브 홍콩 filed Critical 더 차이니즈 유니버시티 오브 홍콩
Publication of KR20170125044A publication Critical patent/KR20170125044A/ko

Links

Images

Classifications

    • G06F19/18
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • G06F19/22
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

암 환자의 그리고 암에 대해서 스크리닝될 대상체를 위한 혈장(또는 무-세포 DNA를 함유하는 다른 샘플) 중의 체세포 돌연변이의 정확한 검출법이 제공된다. 이러한 분자 마커의 검출은 암 환자의 스크리닝, 검출, 모니터링, 조절, 및 예측에 유용할 것이다.

Description

암 스크리닝 및 태아 분석을 위한 돌연변이 검출법
관련 출원의 상호 참조
본 출원은 2015년 2월 10일자로 출원되고, 발명의 명칭이 "암 검출법(Detecting Cancer)"인 미국 가출원 제62/114,471호 및 2015년 12월 22일자로 출원되고, 발명의 명칭이 "신생 돌연변이의 검출법(Detecting De Novo Mutations)"인 미국 가출원 제62/271,196호로부터의 우선권을 주장하고, 이들의 PCT 출원이며, 이들의 전문은 모든 목적을 위해서 본 명세서에 참고로 포함된다.
본 출원은 또한 2013년 3월 13일자로 출원되고, 발명의 명칭이 "암 검출을 위한 혈장 DNA의 돌연변이 분석법"(Mutational Analysis Of Plasma DNA For Cancer Detection)인 로(Lo) 등의 공동 소유의 미국 특허 공개 제2014/0100121호(대리인 문서 번호 80015-012010US); 및 2013년 9월 20일자로 출원되고, 발명의 명칭이 "태아의 메틸롬 또는 혈장으로부터의 암의 비-침습적인 측정법(Non-Invasive Determination Of Methylome Of Fetus Or Tumor From Plasma)"인 로 등의 PCT 특허 출원 공개 제WO2014/043763호(대리인 문서 번호 80015-013010PC)에 관한 것이고, 이들의 개시내용은 모든 목적을 위해서 이들의 전문이 참고로 포함된다.
종양-유래 DNA는 암 환자의 무-세포 혈장/혈청 중에 존재한다는 것이 밝혀져 있다(Chen et al. Nat Med 1996; 2: 1033-1035). 대부분의 기존 방법은 암과 연관되었다고 알려진 돌연변이의 직접적인 분석을 기초로 한다(Diehl et al. Proc Natl Acad Sci USA 2005; 102: 16368-16373; Forshew et al. Sci Transl Med 2012; 4: 136ra68). 그러나, 예를 들어 혈장 DNA를 분석함으로써, 미리 결정된 돌연변이의 패널을 이렇게 직접적으로 분석하여 분석하는 것은 암을 위한 스크리닝에서 낮은 정확성을 가졌다.
추가로, 미리 결정된 돌연변이의 패널을 사용하는 이러한 직접적인 분석은 종양의 유전적 구성에서 제한된 관점을 제공한다. 따라서, 종양 상에서 수행될 시퀀싱을 위해서 일반적으로 수술적인 생검법을 수행하여 종양에 대한 유전 정보를 수득한다. 수술의 요구는 위험 및 비용을 증가시킨다. 추가로, 종양의 위치를 찾기 위해서, 수술적인 생검법이 수행될 수 있기 전에 값비싼 스캐닝 기술이 요구된다.
따라서 암을 위한 넓은 스크리닝, 검출, 또는 평가를 특히 비침습적 방식(noninvasive manner)으로 수행하기 위한 새로운 기술을 제공하는 것이 바람직하다.
실시형태는 암 환자의 그리고 암에 대해서 스크리닝될 대상체를 위한 혈장(또는 무-세포 DNA를 함유하는 다른 샘플) 중의 체세포 돌연변이의 정확한 검출법에 관한 것이다. 이러한 분자 마커의 검출은 암 환자의 스크리닝, 검출, 모니터링, 조절, 및 예측에 유용할 것이다. 예를 들어, 돌연변이 하중(mutational load)을 식별된 체세포 돌연변이로부터 측정할 수 있고, 돌연변이 하중을 사용하여 임의의 또는 다양한 유형의 암을 스크리닝할 수 있는데, 여기서는 대상체의 종양 또는 가능한 암에 대한 어떤 선행 지식도 요구되지 않을 수 있다. 실시형태는 암을 위한 요법(예를 들어, 표적 요법, 면역요법, 게놈 에디팅(genome editing), 수술법, 화학요법, 색전술 요법, 항-혈관신생 요법)의 사용을 인도하기에 유용할 수 있다. 실시형태는 태아로부터 무-세포 DNA를 갖는 모체(maternal) 샘플을 분석함으로써 태아에서 신생 돌연변이(de novo mutation)를 식별하는 것에 관한 것이다.
다른 실시형태는 본 명세서에 기술된 방법과 연관된 시스템 및 컴퓨터 판독 가능한 매체에 관한 것이다.
본 발명의 실시형태의 본성 및 이점의 보다 양호한 이해는 하기 상세한 설명 및 첨부된 도면을 참고로 가능할 수 있다.
도 1은 암 중에서 가장 일반적으로 식별되는 상위 28개의 돌연변이의 표(100).
도 2는 상이한 종양 DNA 분획에 대해서 검출될 돌연변이의 예상된 수, 시퀀싱 깊이(sequencing depth), 게놈 당 돌연변이의 수 및 검색된 게놈의 분획을 나타낸 표(200).
도 3은 PCR 복제물로부터의 서열 판독물의 백분율과 시퀀싱 깊이 간의 관계를 나타낸 플롯(300).
도 4a 및 4b는 본 발명의 실시형태에 따른 다양한 종양 DNA 분획에서 암 대상체의 혈장 중의 암-연관 돌연변이를 검출하기 위해서 PCR 프로토콜 및 PCR 미포함 프로토콜에서 요구되는 시퀀싱 깊이를 비교한 도면.
도 5는 본 발명의 실시형태에 따른 HCC 경우에 대해서 특이적이거나, 임신한 여성에 대해서 특이적이거나, 두 경우 모두에 의해서 공유된 빈번한 말단 위치(end location)의 수를 나타낸 벤 다이아그램.
도 6은 HCC 환자에 대한 1-Mb 분절의 증가, 감소 또는 비변화를 나타낸 플롯(600).
도 7은 동적 컷오프, 재정렬, 및 돌연변이 분획을 사용한 필터링 공정(700), 및 본 발명의 실시형태에 따른 종양 생검법으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸 도면.
도 8은 야생형 대립유전자(allele)를 갖는 것으로 식별된 혈장 DNA 단편의 크기와 비교된 HCC 환자에 대한 돌연변이 대립유전자를 갖는 것으로 식별된 혈장 DNA 단편의 크기의 플롯(800).
도 9는 동적 컷오프, 재정렬, 및 돌연변이 분획을 사용한 필터링 공정(900), 및 본 발명의 실시형태에 따른 인접한 정상 간 생검법으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸 도면.
도 10a 및 10b는 인접한 정상 간 생검법으로부터 식별된 203개의 추정 돌연변이(putative mutation)를 보유한 혈장 DNA 단편의 평가된 크기 프로파일과 다른 정보가 없는 혈장 DNA 분자의 제공된 크기의 비교를 나타낸 도면.
도 11은 필터링 공정(1100)(이것은 동적 컷오프, 재정렬, 돌연변이 분획 및 크기를 사용함) 및 본 발명의 실시형태에 따른 혈장으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸 도면.
도 12는 필터링 공정(1200) 및 본 발명의 실시형태에 따라서 더 낮은 돌연변이 분획 컷오프를 사용하여 혈장으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸 도면.
도 13은 필터링 공정(1300)(이것은 동적 컷오프, 재정렬, 및 크기를 사용함) 및 본 발명의 실시형태에 따른 혈장으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸 도면.
도 14는 야생형 대립유전자를 갖는 것으로 식별된 혈장 DNA 단편의 크기와 비교된 혈장을 사용한 돌연변이 대립유전자를 갖는 것으로 식별된 혈장 DNA 단편의 크기의 플롯(1400).
도 15는 필터링 공정(1500) 및 본 발명의 실시형태에 따른 증가된 시퀀싱 깊이를 사용하여 혈장으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸 도면.
도 16은 다양한 값의 돌연변이 분획을 갖는 좌위(loci)의 수(밀도)를 나타낸 플롯(1600).
도 17a는 염색체 아암(arm) 1p 및 1q에 걸친 분포에 대한 z-스코어를 나타낸 도면.
도 17b는 염색체 아암 1p 및 1q에 걸친 겉보기 돌연변이 분획을 나타낸 도면.
도 18은 본 발명의 실시형태에 따른 특정 대립유전자 계수치 컷오프에 대한 시퀀싱 깊이 및 다양한 돌연변이 분획에 대한 돌연변이 검출의 예측된 감도를 나타낸 표.
도 19는 본 발명의 실시형태에 따른 0.1%의 위양성(false-positive) 검출률을 위한 특정 대립유전자 계수치 컷오프에 대한 시퀀싱 깊이 및 다양한 돌연변이 분획에 대한 돌연변이 검출의 예측된 감도를 나타낸 표(1900).
도 20은 필터링 공정(2000) 및 본 발명의 실시형태에 따른 덜 엄격한 동적 컷 오프를 사용하여 혈장으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸 도면.
도 21은 태아 및 암 시나리오의 추정 돌연변이의 수의 분포를 나타낸 플롯(2100).
도 22는 재정렬이 사용되는 경우 태아 및 암 시나리오의 추정 돌연변이의 수의 분포를 나타낸 플롯(2200).
도 23은 본 발명의 실시형태에 따른 재정렬이 없는 다양한 크기 컷오프에 대한 PPV 및 회수율을 나타낸 표(2300).
도 24는 본 발명의 실시형태에 따른 재정렬이 있는 다양한 크기 컷오프에 대한 PPV 및 회수율을 나타낸 표(2400).
도 25는 필터링 공정(2500)(이것은 동적 컷오프, 재정렬, 및 크기를 사용함) 및 본 발명의 실시형태에 따라서 제대혈 혈장으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸 도면.
도 26은 공정(2500)으로부터 측정된 돌연변이체 DNA 단편 및 본 발명의 실시형태에 따른 야생형 대립유전자에 대한 크기 분포의 플롯(2600).
도 27은 필터링 공정(2700)(이것은 동적 컷오프, 재정렬, 및 크기를 사용함) 및 본 발명의 실시형태에 따른 HCC 샘플의 혈장으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸 도면.
도 28은 공정(2700)으로부터 결정된 돌연변이체 DNA 단편 및 본 발명의 실시형태에 따른 야생형 대립유전자에 대한 크기 분포의 플롯(2800).
도 29는 본 발명의 실시형태에 따른 제대혈 혈장으로부터 식별된 돌연변이에 대한 SNP-기초 필터링을 사용한 필터링 공정(2900).
도 30은 본 발명의 실시형태에 따른 HCC 혈장으로부터 식별된 돌연변이에 대한 SNP-기초 필터링을 사용한 필터링 공정(3000).
도 31은 조직과 히스톤 변형의 상관관계를 나타낸 표(3100).
도 32는 개별 SNP 부위에서 측정된 태아 분획의 빈도 분포를 나타낸 도면.
도 33a는 모체 혈장 중의 태아-특이적인 DNA 및 공유된 DNA의 크기 분포를 나타낸 도면. 도 33b는 태아 특이적인 DNA 단편 및 공유된 DNA 단편에 대한 혈장 DNA 크기에 대한 누적 빈도의 플롯을 나타낸 도면. 도 33c는 ΔF로 표시된, 누적 빈도의 차이를 나타낸 도면.
도 34a는 돌연변이 대립유전자를 갖는 혈장 DNA 단편의 크기 분포를 나타낸 도면. 도 34b는 돌연변이 대립유전자 및 야생형 대립유전자에 대한 혈장 DNA 크기에 대한 누적 빈도의 플롯을 나타낸 도면. 도 34c는 ΔF로 표시된, 누적 빈도의 차이를 나타낸 도면.
도 35는 필터링 공정(3300)(이것은 동적 컷오프, 재정렬, 및 돌연변이 분획 및 크기 컷 오프를 사용함), 및 본 발명의 실시형태에 따른 혈장으로부터 식별된 신생 돌연변이에 대한 결과 데이터를 나타낸 도면.
도 36a는 야생형 대립유전자에 비교된 티어(Tier) A 필터링 기준을 사용한 혈장에서 식별된 추정 돌연변이를 갖는 DNA 단편의 크기 프로파일을 나타낸 도면. 도 36b는 티어 B 필터링 기준을 사용하여 혈장에서 식별된 추정 돌연변이를 갖는 DNA 단편의 크기 프로파일을 나타낸 도면. 도 36c는 티어 C 필터링 기준을 사용하여 혈장에서 식별된 추정 돌연변이를 갖는 DNA 단편의 크기 프로파일을 나타낸 도면. 도 36d는 티어 D 필터링 기준을 사용하여 혈장에서 식별된 추정 돌연변이를 갖는 DNA 단편의 크기 프로파일을 나타낸 도면.
도 37은 상이한 티어의 필터링 기준, 즉 A, B, C, 및 D를 사용하여 식별된 추정 돌연변이에 상응하는 ΔF 값의 프로파일을 나타낸 도면.
도 38은 모체 혈장 샘플 및 제대혈에서의 다양한 돌연변이 유형의 빈도 계수치를 나타낸 도면.
도 39a는 본 발명의 실시형태에 따른 상이한 크기 필터에 대한 PPV% 및 회수율의 그래프를 나타낸 도면. 도 39b는 상이한 돌연변이 분획 컷오프에 대한 PPV% 및 회수율의 그래프.
도 40a 내지 40d는 상이한 돌연변이 분획 컷오프에서 다양한 크기 필터에 대한 PPV% 및 회수율의 그래프.
도 41은 크기 컷오프 함수로서의 상이한 돌연변이 분획 컷 오프에서의 회수율 및 PPV%의 곡선을 나타낸 플롯.
도 42 및 43은 47개의 신생 돌연변이의 표를 나타낸 도면.
도 44는 47개의 신생 돌연변이 및 3,000개의 추정된 체세포 돌연변이의 검출에 대한 회수율 및 PPV를 나타낸 도면.
도 45a 내지 45c 및 46a 내지 46c는 다양한 시퀀싱 깊이 및 종양 분획에 대한 다양한 돌연변이의 양에서의 모의실험을 나타낸 도면.
도 47은 본 발명의 실시형태에 따른 인간 대상체의 생물학적 샘플을 분석함으로써 인간 대상체에서 체세포 돌연변이를 식별하는 방법(4700)을 설명하는 흐름도.
도 48은 본 발명의 실시양태에 따른 대상체의 생물학적 샘플을 분석하기 위해서 식별된 체세포 돌연변이를 사용하는 방법(4800)을 설명한 흐름도.
도 49는 본 발명의 실시형태에 따라서 태아를 임신한 여성 대상체의 생물학적 샘플을 분석함으로써 태아의 신생 돌연변이를 식별하는 방법(4900)을 설명한 흐름도.
도 50은 본 발명의 실시형태에 따른 시스템 및 방법과 함께 사용 가능한 예시적인 컴퓨터 시스템(10)의 블록 다이아그램을 나타낸 도면.
정의
용어 "생물학적 샘플"은 대상체(예를 들어, 인간, 암을 갖는 사람, 암을 갖는 것으로 의심되는 사람, 또는 암에 대해서 스크리닝될 사람, 임신한 여성 또는 다른 유기체)로부터 채취된 임의의 샘플을 지칭한다. 생물학적 샘플은 무-세포 DNA를 포함할 수 있는데, 이들 중 일부는 건강한 세포로부터 일부는 종양 세포로부터 유래될 수 있다. 무-세포 DNA는 혈액 또는 이의 성분(예를 들어 혈장 또는 혈소판) 또는 이의 유도체(예를 들어 혈청) 또는 다른 유체, 예를 들어, 소변, 비뇨 생식기로로부터의 다른 유체, 땀, 흉수, 복수, 복막액, 타액, 눈물, 유두 분비물, 뇌척수액, 안내 유체, 양수, 및 자궁 세척 유체(cervical lavage fluid)에서 발견될 수 있다. 비-유체 예는 대변(stool) 샘플이고, 이것은 설사 유체와 혼합될 수 있다. 이러한 샘플 중 일부의 경우, 생물학적 샘플은 비침습적으로 수득될 수 있다. 일부 실시형태에서, 생물학적 샘플은 구성적 샘플로서 사용될 수 있다.
본 명세서에서 사용되는 바와 같이, 용어 "좌위" 또는 이의 복수 형태 "좌위들"은 상이한 개체의 게놈 전체에서 또는 개체 내에서(종양 세포와 건강한 세포 사이에서) 상이한 세포 전체에서 변이를 가질 수 있는 뉴클레오타이드(또는 염기 쌍)의 위치 또는 임의의 길이의 주소이다.
용어 "무작위 시퀀싱"은 본 명세서에서 사용되는 바와 같이 시퀀싱된 핵산 단편이 시퀀싱 절차 전에 구체적으로 식별되거나 또는 미리 결정되지 않은 시퀀싱을 지칭한다. 특이적인 유전자 좌위를 표적으로 하는 서열-특이적인 프라이머가 요구되지 않는다.일 실시형태에서, 어댑터(adapter)를 단편의 말단에 부가하고, 시퀀싱을 위한 프라이머를 어탭터에 부착한다. 따라서, 임의의 단편이 동일한 프라이머로 시퀀싱될 수 있기 때문에 시퀀싱은 무작위일 수 있다. 대규모 병렬 시퀀싱(massively parallel sequencing)이 무작위 시퀀싱을 사용하여 수행될 수 있다.
용어"서열 태그" (서열 판독물이라고도 지칭됨)는 본 명세서에서 사용되는 바와 같이 핵산 분자의 임의의 부분 또는 전부로부터 시퀀싱된 뉴클레오타이드의 스트링을 지칭한다. 예를 들어, 시퀀싱된 태그는 핵산 단편으로부터 시퀀싱된 뉴클레오타이드(예를 들어, 약 30개)의 짧은 스트링, 핵산 단편의 양 말단에서의 뉴클레오타이드의 짧은 스트링, 또는 생물학적 샘플 중에 존재하는 전체 핵산 단편의 시퀀싱일 수 있다. 핵산 단편은 더 큰 핵산 분자의 임의의 부분이다. 단편(예를 들어 유전자)는 더 큰 핵산 분자의 다른 부분에 별도로(즉, 연결되지 않고) 존재할 수 있다.
"서열 변이체"(변이체라고도 칭함)는 참조 게놈으로부터의 차이에 상응하고, 이것은 유기체 또는 모 게놈의 구성적 게놈일 수 있다. 서열 변이체의 예는 단일 뉴클레오타이드 변이체(SNV) 및 2개 이상의 뉴클레오타이드를 포함하는 변이체를 포함한다. SNV의 예는 단일 뉴클레오타이드 다형체(SNP) 및 점 돌연변이를 포함한다. 예로서, 돌연변이는 "신생 돌연변이"(예를 들어, 태아의 구성적 게놈에서의 신규 돌연변이) 또는 "체세포 돌연변이"(예를 들어, 종양에서의 돌연변이)일 수 있다. 야생형 대립유전자는 구성적 게놈 내의 대립 유전자에 상응한다. 구성적 게놈은 대상체가 그 좌위에서 이형접합성인 경우 2개의 야생형 대립유전자를 함유할 수 있다. 야생형 서열 변이체는 구성적 게놈 내의 특정 위치에서의 서열에 상응한다. 구성적 게놈은 대상체가 그 좌위에서 이형접합성인 경우 2개의 야생형 서열 변이체를 함유할 수 있다.
"체세포 돌연변이"는 출생 후에 발생하는 조직 또는 세포에서의 돌연변이를 지칭한다. DNA 복제에서의 오류로 인해서, 또는 발암 물질 또는 다른 환경 인자에 대한 노출의 결과로서, 노화됨에 따라서 유기체는 더 많은 돌연변이를 축적한다. 전형적으로, 인간은 세포 분열 당 세포 당 하나의 돌연 변이를 수득한다. 그러나, 개별적으로, 이러한 돌연변이는 이들이 비-클론성이기 때문에 조직에서 매우 낮은 농도로 존재한다. 그러나, 종양-연관 돌연변이는 클론적으로 증폭되어, 종양 조직에서 더 높은 분획 농도로 존재한다. 암에서 상이한 돌연변이의 분획 농도는 종양 불균일성(heterogeneity)으로 인해서 상이할 수 있다. 이는 종양이 전형적으로 다수의 상이한 클론으로 구성되고, 각각의 클론은 그의 자신의 돌연변이 프로파일을 갖는다는 것을 의미한다.
"암-연관된 변화" 또는 "암-특이적인 변화"는 암-유래 돌연변이(단일 뉴클레오타이드 돌연변이, 뉴클레오타이드의 결손 또는 삽입, 유전자 또는 염색체 분절의 결손, 전좌, 반전 포함), 유전자, 유전자 분절 또는 염색체 분절의 증폭, 바이러스-연관된 서열(예를 들어 바이러스 에피솜 및 바이러스 삽입), 이상 메틸화 프로파일 또는 종양-특이적인 메틸화 특징부, 이상 무-세포 DNA 크기 프로파일, 이상 히스톤 변형 마크 및 다른 후성적 변형, 및 암-연관되거나 암-특이적인 무-세포 단편의 말단의 위치를 포함하지만, 이에 제한되는 것은 아니다.
"정보성 암 DNA 단편"은 암-연관되거나 암-특이적인 변화 또는 돌연변이 중 임의의 하나 이상을 포함 또는 보유하는 DNA 단편에 상응한다. "정보성 태아 DNA 단편"은 부모 게놈에서 발견되지 않는 돌연변이를 보유하는 태아 DNA 단편에 상응한다. "정보성 DNA 단편"은 DNA 단편의 상기 유형들 중 하나를 지칭할 수 있다.
용어"시퀀싱 깊이"는 좌위가 그 좌위에 정렬된 서열 판독물에 의해서 포함되는 횟수를 지칭한다. 좌위는 뉴클레오타이드만큼 작거나, 염색체 아암만큼 크거나, 전체 게놈만큼 클 수 있다. 시퀀싱 깊이는 50x, 100x 등으로서 표현될 수 있고, 여기서 "x"는 좌위가 서열 판독물로 포함되는 횟수를 지칭한다. 시퀀싱 깊이는 다수의 좌위 또는 전체 게놈에 또한 적용될 수 있고, 이 경우 x는 좌위 또는 전체 게놈 각각이 시퀀싱되는 평균 횟수를 지칭할 수 있다. 울트라-딥(ultra-deep) 시퀀싱은 시퀀싱 깊이가 적어도 100x인 것을 지칭할 수 있다.
용어 "시퀀싱 폭(sequencing breadth)"은 특정 표준 게놈(예를 들어, 인간) 또는 게놈의 일부의 얼마의 분획이 분석되었는지를 지칭한다. 분획의 분모는 반복-마스킹된 게놈일 수 있고, 따라서 100%는 표준 게놈 전부 - 마스킹된 부분에 상응할 수 있다. 게놈의 임의의 부분은 마스킹될 수 있기 때문에, 표준 게놈의 임의의 특정 부분에 대한 분석에 초점을 맞출 수 있다. 넓은 시퀀싱은 예를 들어, 표준 게놈의 부분에 정렬한 서열 판독물을 식별함으로써 분석하고자 하는 게놈의 적어도 0.1%를 지칭할 수 있다.
"철저한 시퀀싱"은 샘플, 예를 들어 혈장 중의 거의 모든 실험적으로 분석 가능한 임상-관련 또는 생물-관련 핵산 단편으로부터 분자 정보를 얻는 것을 지칭한다. 샘플 제조 단계, 시퀀싱 라이브러리 제조 단계, 시퀀싱, 염기-콜링(base-calling) 및 정렬에서의 제한으로 인해서, 샘플 내의 모든 혈장 핵 분자(예를 들어, DNA 또는 RAN)가 분석 가능하거나 시퀀싱 가능한 것은 아닐 것이다.
"분석 가능한 DNA 분자"는 시퀀싱을 비롯한 임의의 적합한 수단에 의해서 분석 및 검출될 모든 분석 단계를 성공적으로 통과하는 임의의 DNA 분자를 지칭한다. "시퀀싱 가능한 DNA 분자"는 생물정보학적으로 시퀀싱 및 검출될 모든 분석 단계를 성공적으로 통과하는 임의의 DNA를 지칭한다. 따라서, 철저한 시퀀싱은 한정된 혈장 샘플 중의 임상-관련 또는 생물-관련 DNA 분자(예를 들어, 정보성 DNA 단편)의 대부분을 시퀀싱 가능한 분자로 변형시키는 능력을 최대화하기 위해서 실시되는 절차를 지칭할 수 있다. 이러한 절차를 사용하여 시퀀싱 가능한 DNA 분자의 시퀀싱 라이브러리를 생성한 후, 라이브러리의 전부 또는 일부를 시퀀싱할 수 있다. 한정된 샘플로부터 시퀀싱 가능한 DNA 분자를 실제로 완전히 소모하여 서열 정보를 얻는 경우, 이러한 행동은 "전체 템플레이트 시퀀싱"이라 지칭될 수 있고, 이것은 철저한 시퀀싱의 하나의 스펙트럼에 상응한다.
샘플의 "돌연변이 하중"은 얼마나 많은 돌연변이가 측정되는지를 기초로 한 측정값이다. 돌연변이 하중은 다양한 방식, 예컨대 돌연변이의 본래 수치, 염기의 수 당 돌연변이의 밀도, 돌연변이를 갖는 것으로 식별된 게놈 영역의 좌위의 백분율, 특정량(예를 들어 부피)의 샘플에서 관찰되는 돌연변이의 수 및 표준 데이터와 비교된 또는 마지막 평가로부터의 비례 또는 배수 증가로 측정될 수 있다. "돌연변이 하중 평가"는 샘플의 돌연변이 하중의 측정을 지칭한다.
스크리닝 시험의 "양성 예측 값(PPV)"은 시험에 의해서 분류된 진양성(true positive) 및 위양성(false positive: FP)의 합계의 비율로서 표현된 시험에 의해서 식별된 진양성(TP)의 수, 즉 예를 들어, TP/(TP+FP)를 지칭한다. "음성 예측 값(NPV)"은 시험에 의해서 분류된 진음성 및 위음성(FN)의 합계의 비율로서 표현된 시험에 의해서 식별된 진음성(TN)의 수를 지칭한다.
용어 "구성적 게놈""(또한 CG로 지칭됨)은 게놈 내의 좌위에서 콘센서스 뉴클레오타이드(consensus nucleotide)로 구성되기 때문에, 컨센서스 서열인 것으로 간주될 수 있다. CG는 대상체의 전체 게놈(예를 들어, 인간 게놈), 또는 게놈의 단지 부분을 포함할 수 있다. 구성적 게놈(CG)은 세포의 DNA 및 무-세포 DNA(예를 들어, 혈장 중에서 발견될 수 있음)로부터 수득될 수 있다. 이상적으로, 컨센서스 뉴클레오타이드는 좌위가 1개의 대립유전자에 대해 동형접합성이거나 2개의 대립유전자에 대해 이형접합성임을 나타내야 한다. 이형접합성 좌위는 전형적으로 유전 다형체의 구성원인 2개의 대립유전자를 함유한다. 예로서, 좌위가 이형접합성인지를 결정하는 기준은 좌위에 대해 정렬된 판독물의 적어도 미리 결정된 백분율(예를 들어, 30% 또는 40%)에서 각각 나타나는 2개의 대립유전자의 역치일 수 있다. 하나의 뉴클레오타이드가 충분한 백분율(예를 들어, 70% 이상)로 나타나는 경우, 좌위는 CG에서 동형접합성인 것으로 결정될 수 있다. 하나의 건강한 세포의 게놈이 세포 분열 동안에 자발적으로 발생하는 무작위적 돌연변이로 인해 또 다른 건강한 세포의 게놈과는 상이할 수 있다고 해도, 이러한 컨센서스가 사용되는 경우 CG는 변하지 않아야 한다. 일부 세포, 예를 들어, 항체 및 T 세포 수용체 유전자 각각을 포함하는, B 및 T 림프구 는 게놈 재배열을 갖는 게놈을 지닐 수 있다. 이러한 거대 규모 차이는 여전히 혈액 중에서 전체의 핵화된 세포 집단의 비교적 소 집단일 수 있으므로, 이러한 재배열은 혈액 세포의 충분한 샘플링(예를 들어, 시퀀싱 깊이)로 구성적 게놈의 결정에 영향을 미치지 않을 것이다. 볼 세포, 피부 세포, 모낭을 포함하는 다른 세포 유형, 또는 각종 정상체 조직의 생검은 또한 CG의 공급원으로서 제공될 수 있다.
용어 "구성적 DNA"는 대상체가 태어난 유전자 구성의 반영인 DNA의 임의의 공급원을 지칭한다. 무작위 돌연변이가 세포 분열 동안 일어날 수 있다. 암-연관 돌연변이와 달리, 무작위 돌연변이의 클론 증폭은 존재하지 않는다. 따라서, 구성적 DNA의 컨센서스 서열로부터 수득된 CG는 대상체가 태어난 유전자 구성의 반영이다. 대상체의 경우, 구성적 DNA가 수득될 수 있는 "구성적 샘플"은 건강한 혈액 세포 DNA, 볼 세포 DNA, 모근 DNA, 타액 DNA 및 피부 박리물로부터의 DNA를 포함한다. 이들 건강한 세포로부터의 DNA는 대상체의 CG를 규정한다. 세포는 다양한 방식으로, 예를 들어 사람이 암을 갖지 않는 것으로 알려지거나, 샘플이 암 또는 전암 세포(예를 들어 간 암이 예견되는 경우 모든 DNA)를 함유하지 않는 조직으로부터 수득될 수 있는 경우 건강한 것으로 식별될 수 있다. 또 다른 예로서, 환자가 암을 갖지 않는 경우 혈장 샘플을 수득할 수 있고, 결정된 구성적 DNA를 후속 혈장 샘플(예를 들어, 1년 이상 후에)로부터의 결과에 비교할 수 있다. 또 다른 실시형태에서, 50% 미만의 종양 DNA를 함유하는 단일 생물학적 샘플을 구성적 게놈 및 종양-연관된 유전자 변경을 추론하기 위해서 사용할 수 있다. 이러한 샘플에서, 종양-연관된 단일 뉴클레오타이드 돌연변이의 농도는 CG에서 이형접합성 SNP의 각각의 대립유전자의 것보다 더 낮을 것이다. 이러한 샘플은 하기 기술된, 샘플 게놈을 결정하는데 사용된 생물학적 샘플과 동일할 수 있다.
용어 "샘플 게놈"(또는 SG로 언급됨)은 게놈(예를 들어, 인간 게놈)의 위치에 정렬 되어진 서열 판독물의 수집이다. 샘플 게놈(SG)은 컨센서스 서열이 아니고, 충분한 수의 판독물(예를 들어, 적어도 2 또는 3, 또는 그 초과의 컷오프 값)만으로 나타날 수 있는 뉴클레오타이드를 포함한다. 대립유전자가 충분한 횟수로 나타나고 CG의 일부가 아닌 경우(즉, 컨센서스 서열의 일부가 아닌 경우), 이러한 대립유전자는 "단일 뉴클레오타이드 돌연변이"(또한 SNM으로 언급됨)를 나타낼 수 있다. 다른 유형의 돌연변이, 예를 들어, 2개 이상의 뉴클레오타이드를 포함하는 돌연변이(예컨대, 미소부수체로서 또는 단일 탠덤 반복 다형체(tendem repeat polymorphism)에서 탠덤 반복 단위의 수에 영향을 미친 것), 염색체 전좌(이는 염색체내 또는 염색체간일 수 있음) 및 서열 반전을 포함하는 돌연변이를 본 발명을 사용하여 검출할 수 있다.
용어 "표준 게놈" (또한 RG로 언급됨)은, 이에 대해 서열이 생물학적 샘플로부터 판독되고 구성적 샘플이 정렬되어 비교될 수 있는 반수체(haploid) 또는 이배체 게놈을 지칭한다. 반수체 게놈의 경우, 각각의 좌위에 단지 하나의 뉴클레오타이드가 존재한다. 이배체 게놈의 경우, 이형접합체 좌위가 식별될 수 있으며, 이러한 좌위는 2개의 대립유전자를 가지고, 여기서 대립유전자는 좌위에 정렬하기 위해 매치를 허용할 수 있다.
용어 "암의 수준"은, 암이 존재하는지의 여부, 암의 단계, 종양의 크기, 및/또는 치료에 대한 암의 반응, 및/또는 암의 중증도 또는 진행의 다른 척도를 지칭할 수 있다. 돌연변이 하중을 사용하여 암의 수준을 결정할 수 있다. 암이 진전될수록, 돌연변이 하중이 더 높아질 것이다. 암의 수준은 다수 또는 다른 특징, 예컨대 문자 또는 다른 상징일 수 있다. 수준은 0일 수 있다. 암의 수준은 또한 돌연변이 또는 다수의 돌연변이와 연관된 악성 또는 전암성 병태(상태)를 포함한다. 암의 수준은 각종 방식으로 사용될 수 있다. 예를 들어, 스크리닝은 암을 이미 갖는 것으로 알려지지 않은 사람에서 암이 존재하는지를 점검할 수 있다. 평가는 암으로 진단된 사람을 시험할 수 있다. 검출은 '스크리닝'을 의미하거나 또는 암의 제안된 특징(예를 들어, 증상 또는 다른 양성 시험)을 갖는 사람 또는 암에 대한 위험 인자(예를 들어, 습관, 예컨대 흡연 또는 음주 또는 바이러스 감염, 예를 들어 간염 바이러스 감염)를 갖는 사람이 암을 갖는지를 점검함을 의미할 수 있다.
용어 "분류"는 본 명세서에서 사용되는 바와 같이 샘플의 특정한 특성과 연관된 임의의 수(들) 또는 다른 특징(들)을 지칭한다. 예를 들어, "+" 기호(또는 단어 "양성")은 샘플이 특정 수준의 암을 갖는 것으로서 분류된다는 것을 의미할 수 있다. 분류는 이분적 (예를 들어, 양성 또는 음성)이거나 더 많은 분류 수준을 가질 수 있다(예를 들어, 1부터 10까지 또는 0 내지 1의 규모). 용어 "컷오프" 및 "역치"는 작동(operation) 시 사용되는 미리 결정된 수를 지칭한다. 역치 값은 특정 분류가 적용되는 값을 벗어날 수 있다. 컷오프는 샘플 또는 사람의 특징에 참고하거나 참고하지 않고 미리 결정될 수 있다. 예를 들어, 컷오프는 시험된 개체의 연령 또는 성별을 기초로 선택될 수 있다. 컷오프는 시험 데이터의 산출값을 기초로 그 후에 선택될 수 있다. 예를 들어, 특정 컷오프는 샘플의 시퀀싱이 특정 깊이에 도달할 때 사용될 수 있다.
상세한 설명
유기체의 생물학적 샘플에서 (예를 들어, 암으로 인한 또는 태아에서의) 돌연변이의 식별은 시퀀싱 오류 및 다른 어려움의 출현에 의해서 방해된다. 실시형태는 유기체의 무-세포 DNA 분자(단편)를 분석함으로써 유기체에서 돌연변이를 정확하게 식별하는 기술을 제공한다. 비-침습적으로 수득된 샘플의 태아 분석을 위해서, 태아의 무-세포 DNA 분자는 임신한 여성의 무-세포 DNA 분자를 또한 함유하는 모체 샘플(예를 들어 모체 혈장) 중에 존재할 것이다. 진 돌연변이(true mutation)(위양성과 대조적인 바와 같음)의 유의한 수를 식별할 수 있거나 검출되는 진 돌연변이의 비율을 특정 시퀀싱 기술(예를 들어, 시퀀싱 라이브러리의 PCR-미포함 제조) 및 특정 필터링 기준을 사용하여 실질적으로 증가시킬 수 있다.
충분한 시퀀싱 깊이 및 시퀀싱 폭이 사용되는 경우, 대상체의 돌연변이 하중의 정확한 측정치를 측정하여, 대상체에서 암의 수준을 평가할 수 있다. 하기에서, 암 검출, 모니터링 및 예측을 위한 (예를 들어, 혈장 중의) DNA-기재 종양 마커의 요건에 대한 이론 기준 및 실시 수행이 기술되어 있다.
I. 암에 대한 돌연변이 마커
다수의 암이, 암이 개체에서 존재하거나 존재할 개연성이 크다는 것을 식별하기 위한 명확한 돌연변이 마커 또는 다른 마커를 갖는 것은 아니다. 그리고, 이러한 마커가 존재하더라도, 일반적으로 특정 암에 대해서 독특한 이러한 공지된 마커는 매우 적다. 따라서, 이러한 돌연변이 마커가 높은 농도로 존재하지 않을, 무-세포 DNA를 갖는 혈장 또는 다른 이러한 샘플에서 암을 검출하는 것은 어려울 수 있다. 한가지 예외는 비인두암(NPC) 환자에서의 엡스타인바 바이러스(EBV) DNA이다. 따라서, EBV DNA는 중국에서 대부분의 NPC 경우에서 NPC 종양 세포의 핵에서 발견될 수 있다(Tsang et al. Chin J Cancer 2014; 33: 549-555). 추가로, EBV DNA는 NPC 환자의 혈장에서 발견될 수 있다(Lo et al. Cancer Res 1999; 59: 1188-1191).
이러한 예를 사용하여 특정 유형의 암에 대한 스크리닝을 위한 패널의 점 돌연변이를 사용하여 암에 대한 스크리닝에 충분한 데이터를 수득하는 것의 어려움을 설명한다. 이러한 예는 암 스크리닝을 위한 감도에 도달하기 위해서 혈장 중의 다수의 돌연변이를 검출할 필요성을 추가로 설명한다.
A. NPC 환자에서의 EBV DNA
NPC는 EBV 감염과 밀접하게 연관된다. 남부 중국에서, EBV 게놈은 거의 모든 NPC 환자에서 종양 조직에서 발견될 수 있다. NPC 조직으로부터 유래된 혈장 EBV DNA는 NPC를 위한 종양 마커로서 개발되어 왔다(Lo et al. Cancer Res 1999; 59: 1188-1191). 이러한 종양 마커는 NPC의 모니터링(Lo et al. Cancer Res 1999; 59: 5452-5455) 및 예측(Lo et al. Cancer Res 2000; 60: 6878-6881)에 유용하다고 밝혀져 있다. 실시간 PCR을 사용한 혈장 EBV DNA 분석법은 무증상 대상체에서 초기 NPC의 검출에 유용하고, 잠재적으로는 NPC의 스크리닝에 유용할 수 있다고 밝혀져 있다(Chan et al. Cancer 2013;119:1838-1844). 이러한 이전의 연구에서, 혈장 EBV DNA 분석법을 위해서 사용되는 실시간 PCR 검정법은 EBV 게놈의 BamHI-W-단편을 표적화하였다. 각각의 EBV 게놈에서 BamHI-W-단편의 약 6 내지 12개의 반복부가 존재하고, 각각의 NPC 종양 세포에서 대략 50개의 EBV 게놈이 존재한다(Longnecker et al. Fields Virology, 5th Edition, Chapter 61 "Epstein-Barr virus"; Tierney et al. J Virol. 2011; 85: 12362-12375). 즉, 각각의 NPC 종양 세포에서 PCR 표적의 대략 300 내지 600(예를 들어, 약 500)개의 복사체가 존재할 것이다. 종양 세포 당 이러한 많은 수의 표적은 혈장 EBV DNA가 초기 NPC의 검출에서 그렇게 민감성인 이유를 설명할 수 있다.
B. EBV DNA를 위한 표적화 시퀀싱
상기 예에 설명된 바와 같이, 혈장 EBV DNA의 실시간 PCR 분석법의 높은 감도는 각각의 NPC 종양 게놈에서 PCR 표적의 다수의 복사체의 존재에 관련된다. 따라서 본 발명자들은 암 환자의 혈장에서의 검출을 추구할 종양-연관된 표적의 수의 추가 증가가 혈장 DNA 분석법의 감도 및 임상 용도를 추가로 증가시킨다고 판단한다. NPC 환자의 혈장 중의 EBV DNA 분자는 180bp 미만의 주로 짧은 단편이다(Chan et al. Cancer Res 2003; 63: 2028-2032). EBV 게놈의 크기는 대략 172kb이고, 각각의 EBV 게놈은 대략 1,000개의 혈장 DNA 단편으로 단편화될 것이다. 따라서, NPC 종양 세포에서의 50개의 EBV 게놈은 일부 50,000개의 혈장 DNA 단편으로 단편화될 것이고, NPC 환자의 순환계로 방출될 것이다.
본 발명자들은, 표적으로 하는 이러한 50,000개의 종양-유래 EBV DNA 단편이 많을 수록 성취할 수 있을 EBV-연관된 암의 감도가 더 높다고 판단한다. 분석에서의 사용을 위해서 EBV 게놈의 5%, 10%, 20%, 25%, 30%, 40%, 50%, 75%, 90% 또는 99%를 검출할 수 있다. 인간 게놈으로부터 생물정보학적으로 분화할 수 있는 EBV 게놈의 일부를 표적으로 하는 것이 목적일 수 있다.
혈장에서 EBV 게놈 표적의 그러한 높은 다중도를 검출함으로써 제공된 그러한 높은 감도는 치료 의도의 방사선요법을 수용하는 환자에서 질환 재발의 검출에서 특히 중요하다. 치료 의도의 방사선요법이 제공된 환자에서 재발성 NPC의 검출률은 치료-나이브 NPC의 검출률보다 낮다(Leung et al. Clin Cancer Res 2003; 9: 3431-3134). BamHI-W-단편을 표적화하는 실시간 EBV DNA PCR을 사용한 2개 군의 암에 대한 전체 검출률은 각각 62.5% 및 96.4%였다. 이러한 높은 검출률은 임의의 스크리닝 기술에서 높은 다중도에 대한 필요성을 예시한다. 높은 상관관계가 있는 표적에서의 이러한 높은 다중도는 전형적으로 다른 암에 대해서 입수 가능하지 않다.
혈장에서 EBV 게놈 표적(또는 하기에 기술된 바와 같은 추론된 돌연변이)의 높은 다중도의 검출은 이전 군에서 검출률을 증가시킨다고 예상될 것이다. 이러한 접근법의 또 다른 유용성은 NPC의 스크리닝용일 것이다. 스크리닝의 경우, 초기 단계 암을 검출할 수 있는 것이 특히 중요하다. 높은 민감성 혈장 EBV DNA 검출 시스템은 이러한 목적을 허용할 것이다. 하기에 설명된 바와 같이, 실시형태는 미리 결정된 돌연변이 마커 또는 다른 분자 마커의 사용을 요구하지 않고 매우 민감한 검출을 제공할 수 있다.
II. 암에 대한 스크리닝
암에 대한 스크리닝의 문제점은 대상체가 어느 종류의 암을 가질 수 있거나 취약할 수 있는지를 알 수 없다는 것이다. 또 다른 문제점은 개체가 하나 초과의 유형의 암에 민감할 수 있다는 것이다. 따라서, 실시형태는 대상체의 생물학적 샘플로부터 돌연변이를 식별하여, 돌연변이의 미리 결정된 패널 만을 위한 스크리닝에 대한 요구가 없을 수 있다. 샘플에서 무-세포 DNA로부터 돌연변이를 정확하게 식별하는 방법의 상세사항은 하기 부분에 기술되어 있다. 암 스크리닝의 공정 및 어려움을 이제 기술한다.
돌연변이가 생물학적 샘플(예를 들어, 혈장)에서 일단 식별되면, 돌연변이는 암 스크리닝에서 사용될 수 있다. 용어 스크리닝은 일반적으로 일부 평가 형태를 수행하는 전활성 작용을 통해서 질환을 식별하는 것을 지칭한다. 평가 툴은, 혈액 시험, 다른 체액(예를 들어, 소변, 복수, 흉수, 뇌척수액)의 시험, 조직 생검에 대한 시험, 내시경 검사(예를 들어 대장 내시경), (예를 들어 자기 공명 영상화, 컴퓨터 단층 촬영, 초음파 검사 또는 양전자 방출 단층촬영을 통한) 영상화 시험을 수행하는, 사람의 인구통계학적 프로파일의 평가를 포함할 수 있다. 이러한 평가 양상의 조합이 사용될 수 있고, 예를 들어, 다수의 샘플이 사용될 수 있고, 결과들을 조합하여 최종 평가를 제공할 수 있다.
A. 스크리닝 및 확률적 평가의 상이한 단계
즉, 1차, 2차, 및 3차 스크리닝에 제한되지 않는 질환 스크리닝은 일반적으로 질환의 상이한 단계에서 적용될 수 있다. 1차 스크리닝은 증상 발병 전의 질환의 식별을 지칭하고, 이것은 때로는 무증상 스크리닝으로서 지칭된다. 1차 스크리닝은 스크리닝될 질환의 증가된 위험에 놓이게 되는 특징을 갖는 일반적인 집단 또는 선택된 집단에 대해서 수행될 수 있다. 예를 들어, 흡연자는 폐의 소세포 암종에 대해서 증가된 위험이 있다. 만성 HBV 보균자는 HCC에 대해서 증가된 위험이 있다. 2차 스크리닝은 대상체가 증상을 나타내고, 추정 진단의 군 간의 구별을 행하는 것이 요구되는 경우의 질환의 식별을 지칭한다. 3차 스크리닝은 질환의 진행, 질환 단계 또는 중증도의 증가(예를 들어, 전이의 생성), 또는 질환의 재발생의 초기 식별을 지칭한다. 질환 스크리닝 또는 암 스크리닝의 단계 마다, 목적은 통상적으로 질환의 자연적인 과정이 증상 그 자체에 나타나기 전에, 질환의 존재 또는 질환 진행을 식별 또는 배제하는 것이고, 그 이유는 치료 선택이 이러한 추후 시기에 절충되거나 덜 효과적일 수 있기 때문이다.
스크리닝의 작용은 확률적 평가이다. 일반적으로, 스크리닝의 목적은 추정 진단에서의 룰 아웃(rule out)(즉 배제) 또는 룰 인(rule in)(즉 확인)이다. 평가는, 사람이 질환을 발생시키거나, 질환을 갖거나, 또는 질환 진행을 갖는 높은 기회 또는 낮은 기회를 갖는지를 결정하는 것이다. 즉, 대상체가 높은 위험인지 낮은 위험인지의 분류는 각각의 평가 후에 일어난다. 평가의 연속적인 단계가 필요할 수 있고, 반복 시험이 수행될 수 있다.
B. EBV
EBV를 스크리닝을 설명하는 예로서 사용한다. 남부 중국의 중년 남성은 상이한 인구통계학적 프로파일을 갖는 사람보다 NPC 생성의 더 높은 위험을 갖는다. 따라서, 혈장 EBV DNA 시험을 이러한 개체의 1차 스크리닝 툴로서 적용할 수 있었다. 혈장 EBV DNA 하중이 NPC를 갖는 개체를 구별하는 데 사용되는 컷오프보다 낮은 경우, 이 사람은 이 시기에 NPC를 가질 낮은 기회를 갖는다고 간주될 것이다(Chan et al. Cancer 2013; 119: 1838-1844). 그 사람은 이후에(예를 들어 1 또는 2년 후에) 다시 혈장 EBV DNA 시험을 받도록 선택되거나 제안될 수 있다.
혈장 EBV DNA 하중이 NPC를 갖는 사람을 구별하는 데 사용되는 컷오프보다 더 높은 것으로 밝혀지거나, 그 사람 자신의 이전 값으로부터 점진적으로 증가하는 경우, 이 사람은 NPC를 가질 위험이 큰 것으로 간주될 수 있다. 이러한 사람은 예를 들어, 질환을 확인하기 위한 다른 시험을 사용하여, 질환을 추가로 룰 인 또는 룰 아웃시키기 위해서 다음 시험 단계에 적용될 것이 제안될 수 있다. 예를 들어, 혈장 EBV DNA의 상승이 지속되는지의 여부를 평가하기 위해서 또 다른 혈장 EBV DNA 시험을 2 또는 6주 후에 수행할 수 있다. 의심 지수(index of suspicion)에 따라서, 사람은 추가 조직 생검법 및 조직학적 평가를 사용하거나 사용하지 않으면서 인두의 육안 검사를 위한 내시경검사를 받도록 제안되어 NPC의 존재를 확인할 수 있다. 대안적으로, 영상화(예를 들어, 자기 공명 영상화)를 수행하여 종양의 유무를 시각화할 수 있다. 이러한 예는 스크리닝의 이점이 어느 추가 시험이 수행되어야 하는지를 구술할 수 있다는 것을 설명한다.
동일한 시험이 2차 또는 3차 스크리닝을 위한 툴로서 적용될 수 있다. 설명을 위해서, 혈장 EBV DNA 시험을 사용하여 재발성 비출혈(recurrent epistaxis)(즉 코로부터의 출혈) 또는 목소리 쉼(hoarseness of voice)(이들은 NPC의 일반적으로 존재하는 증상임)이 나타나는 대상체에서 NPC의 가능성을 평가할 수 있었다. 시험 결과가 EBV DNA 하중이 질환을 갖는 집단 및 질환을 갖지 않는 집단을 구별하는 데 사용되는 컷오프보다 높은 경우, 이 사람은 NPC를 가질 더 높은 기회를 갖는 것으로 간주되어, 더 높은 수준의 암을 측정할 것이다(Lo et al. Cancer Res 1999; 59: 1188-1191). 이어서, 그를 추가 확인 시험에 적용할 수 있다. 다른 한편, 혈장 EBV DNA 시험이 질환을 갖는 집단 및 질환을 갖지 않는 집단을 구분하기 위한 컷오프보다 더 낮은 EBV DNA 하중을 나타내는 경우, NPC의 기회는 낮을 수 있고, 다른 추정 진단이 고려될 수 있다.
3차 스크리닝과 관련하여, 방사선요법에 의한 치유적 치료를 갖는 NPC 대상체는 가능한 NPC 재발, 즉 재발생의 조기 식별을 위해서 혈장 EBV DNA 시험에 의해서 시험될 수 있다(Lo et al. Cancer Res 1999; 59: 5452-5455; Lo et al. Cancer Res 2000; 60: 6878-6881). NPC 재발의 확률은, 혈장 EBV DNA 수준이 대상체 자신의 값의 안정한 치료후 기준선을 초과하게 증가하거나, NPC 재발을 갖는 집단을 식별하는 데 사용된 컷오프를 초과하게 증가하는 경우, 높다고 간주될 것이다.
C. 다른 스크리닝 시험 및 바람직한 특징
NPC의 조절을 위한 혈장 EBV DNA 시험의 예는 암 또는 질환 스크리닝이 어떻게 수행되는지의 한 예시로서만 제공된다. 다른 효과적인 스크리닝 시험 또는 양상이 다른 암을 위해서 발전될 수 있다면 이상적일 것이다. 현재, 다른 암을 위한 스크리닝 시험은 존재하지 않거나 불량한 성능 프로파일을 갖는다. 예를 들어, 혈청 알파-태아단백질(AFP)이 HCC의 평가를 위해서 사용되는 마커이다. 그러나, 혈청 AFP는 불량한 감도 및 특이성을 나타낸다. 감도와 관련하여, HCC의 50% 미만은 AFP에 대해서 양성이다. 특이성과 관련하여, 다른 간 감염성 병태가 증가된 혈청 AFP와 연관될 수 있다.
따라서, 혈청 AFP는 일반적으로 무증상 저위험 개체를 위한 1차 스크리닝 프로토콜로서 사용되지 않는다. 사용된다면, HCC의 다수의 위음성 및 위양성 식별이 존재할 것이다. 대신에, 그것은 HCC를 발생시키는 높은 의심 지수를 갖는 높은 위험 개체에 적용될 수 있다. 예를 들어, 간 초음파 상에 나타나는 저에코 섀도우(hypoechoic shadow)를 갖는 만성 HBV 보균자를 혈청 AFP에 대해서 시험할 수 있다. 양성인 경우, 그것은 HCC의 추정 진단법을 지지하기 위한 증거의 추가적인 조각으로서 기능한다. 또한, HCC의 확인된 경우가 양성 또는 증가된 혈청인 것으로 나타난 경우, 혈청 AFP는 HCC 재발의 스크리닝을 위한 치료후 툴로서 사용될 수 있다.
다양한 공중 건강 계획의 일부로서 실시된 암 스크리닝 툴의 다른 예는 유방암 스크리닝을 위한 유방촬영술, 결장직장 스크리닝을 위한 배설물 잠재 출혈 평가, 전립샘암 스크리닝을 위한 혈청 전립샘 특이적인 항원 시험, 및 자궁경부암 스크리닝을 위한 자궁경관 도말 평가를 포함한다. 다수의 스크리닝 프로그램이 실시되었는데, 그 이유는 그것이 일반적으로 질환 또는 질환 진행의 초기 식별이 건강 이익, 예컨대 더 긴 무질환 생존, 더 높은 생활 품질, 및 질환의 조절에서의 경제적인 절약으로 해석될 것이라고 인지되기 때문이다. 예를 들어, 암이 초기 상태 또는 심지어는 무증상 상태에서 식별될 수 있으면, 더 단순한 치료 양상 또는 부작용이 적은 것이 적용될 수 있다. 예를 들어, 종양은 여전히 수술적인 제거가 고려될 수 있는 단계에 존재할 수 있다.
일반적으로, 비침습적이고, 스크리닝을 위해서 부작용이 적은 툴을 채택하는 것이 바람직하다. 비침습적 양상 또는 합병증에 대해서 높은 가능성을 갖는 것은 질환에 대한 시험전 확률이 평가 동안 그러한 위험에 직면한 것을 판단하기에 충분히 높은 개체에 대해서 보유된다. 예를 들어, 간 생검법은 HCC의 의심 지수가 매우 높은 개체, 예컨대 간 초음파에 나타난 저에코 섀도우를 갖는 만성 HBV 보균자 또는 간경변 환자에 대해서 수행된다.
스크리닝 시험의 성능 프로파일과 관련하여, 높은 양성 예측 값(PPV) 또는 높은 음성 예측 값(NPV)을 갖는 시험을 수행하는 것이 바람직하다. 임의의 하나의 스크리닝 표시를 위한 실제 바람직한 성능 프로파일은 스크리닝의 목적에 좌우된다. 높은 PPV를 갖는 시험을 일반적으로 사용하여 질환 분류를 확인 또는 "룰 인"시킨다. 높은 NPV를 갖는 시험을 일반적으로 사용하여 질환 분류를 배제 또는 "룰 아웃"시킨다. 일부 시험은 높은 PPV 및 NPV 둘 모두를 갖는다. 이들은 통상적으로 결정적 분류, 예를 들어, 조직 생검법, 이어서 조직학적 검사를 제공할 수 있는 시험이다.
D. 스크리닝을 위한 종양 조직에서의 암-특이적인 표적의 식별
암의 검출을 위해서 혈장 DNA 중에서 암 세포의 게놈으로부터 유래한 임의의 암-연관 돌연변이의 존재를 검출하는 것을 목적으로 할 수 있다. 상기 NPC에서의 EBV DNA의 예에서 예증된 바와 같이, 혈장 EBV DNA 시험을 사용한 NPC의 높은 임상 감도 또는 검출률은 NPC 세포 당 약 500개, 예를 들어, 300 내지 600개의 암-유래 혈장 DNA 단편을 검출하는 능력에 관련된다. 시험의 감도를 추가로 증가시키거나 하나 이상의 다른 스크리닝 시험을 수행하기 위해서, 암 세포 당 300개 이상(예를 들어, 400, 500, 600, 800, 또는 1,000 또는 그 초과)의 암-연관된 단편을 검출할 수 있는 것이 필요할 수 있다.
NPC에 대한 500개를 초과하는 암-특이적인 표적을 갖기 위한 가능한 한 방식, 뿐만 아니라 이를 다른 암 및 악성 종양으로 일반화시키는 것은 대상체-특이적인 단일 뉴클레오타이드 돌연변이, 또는 하나를 초과하는 뉴클레오타이드를 포함하는 돌연변이의 세트의 분석일 것이다. 이러한 대상체-특이적인 정보를 식별하기 위해서, 암 대상체의 종양 조직의 대규모 병렬 시퀀싱이 수행될 수 있다. 대상체의 구성적 DNA를 종양 조직에서 돌연변이의 식별을 위한 기준으로서 시퀀싱할 수 있다. 구성적 DNA를 예를 들어, 혈액 세포 및 볼 세포이지만 이에 제한되지 않는 대상체의 임의의 비-악성 세포로부터 수득할 수 있다. 단일 뉴클레오타이드 돌연변이에 더하여, 다른 암-특이적인 또는 암-연관된 유전자 및 후성적 변화(예를 들어, 사본 수 일탈(copy number aberration) 및 이상 메틸화)를 또한 암 검출을 위한 표적으로서 사용할 수 있다.
이어서, 이러한 변화를 종양 DNA(예를 들어, 혈장 또는 혈청, 이들 둘 모두는 무-세포 DNA를 함유함)를 함유할 수 있는 대상체의 생물학적 샘플에서 검출할 수 있다. 일 실시형태에서, 목적은 혈장 DNA 분석을 통해서 신체의 돌연변이 하중을 평가하는 것이다. 이러한 특정 실시형태를 위해서, 치료 후에 대상체의 진행을 모니터링하기 위해서 암-특이적인 돌연변이의 검출을 사용할 수 있는데, 그 이유는 종양 조직을 대상체에 대해서 특이적인 암-연관된 변화의 식별을 위해서 수득하는 것이 필요할 것이기 때문이다. 암-특이적인 변화의 검출은 본 출원의 일부 실시형태에 기술된 바와 같은 대립유전자-특이적인 PCR, 대규모 병렬 시퀀싱(예를 들어 태깅된-앰플리콘 딥 시퀀싱(Forshew et al. Sci Transl Med 2012; 4: 136ra68))을 사용한 앰플리콘 시퀀싱, 질량 분광 분석법 및 마이크로어레이 분석법, 또는 울트라-딥 시퀀싱, 철저한 시퀀싱 및 전체 템플레이트 시퀀싱에 의해서 수행될 수 있다.
일 실시형태에서, 각각의 암-특이적인 변화를 보유하는 혈장 DNA의 양의 합(돌연변이 하중의 예)을 측정하고, 신체에서 암 세포의 수를 반영하는데 사용할 수 있다. 후자 정보는 치료에 대한 반응을 예측, 모니터링 및 평가하는 데 유용할 것이다. 다른 실시형태에서, 돌연변이 하중은 암-특이적인 표적의 양의 값 또는 가중 평균으로서 측정될 수 있다.
일부 실시형태에서, 돌연변이 하중은 예를 들어, 하기에 기술된바와 같은 초기 스크린 동안 샘플에 돌연변이가 존재할 수 있는지에 관한 정보는 거의 없거나 전혀 없이 측정될 수 있다. 추가로, 위치에서의 돌연변이 및 야생형 대립유전자의 상대 비율을 사용하여 혈장 샘플에서 종양-유래 DNA의 분획 농도를 추론할 수 있다.
III. 암 스크리닝을 위한 순환성 무-세포 DNA 돌연변이 하중 평가
암 돌연변이를 식별하고, 개체의 돌연변이 하중을 측정하기 위해서, 실시형태는 순환성 무-세포 DNA를 사용하여 샘플을 분석할 수 있다. 종양, 암, 및 악성종양은 이의 DNA 내용물을 순환계로 방출한다고 알려져 있다(Bettegowda et al. Sci Transl Med 2014; 6: 224ra24). 따라서, 종양, 암, 및 악성종양과 연관된 돌연변이를 혈장 및 혈청에서 검출할 수 있다. 이러한 돌연변이는 또한 다른 체액, 예컨대 소변, 다른 비뇨생식기 유체, 자궁경부 세척 유체, 유두 분비물, 타액, 흉수, 복수 및 뇌척수액(이에 제한되지 않음)에서 검출될 수 있다(Togneri et al. Eur J Hum Genet 2016; doi: 10.1038/ejhg.2015.281; De Mattos-Arruda et al. Nat Commun 2015; doi: 10.1038/ncomms9839; Liu et al. J Clin Pathol 2013; 66 :1065-1069.).
세포 또는 무-세포 DNA가 유체와 직접 접촉하는 이들 기관으로부터 유체로 예를 들어, 비뇨기(예를 들어 신장 또는 방광으로부터) 또는 생식기(예를 들어, 전립샘)관으로부터 소변으로, 신장을 통과하여(transrenally) 혈장으로부터 소변으로, 뇌로부터 뇌척수액으로, 췌장으로부터 췌액으로, 담낭으로부터 담즙으로, 구강인두로부터 타액으로, 유방 세포로부터 유두 분비물 유체로, 복부 기관으로부터 복수로, 또는 폐로부터 흉수로 직접 발산되기 때문에 돌연변이는 이들 체액에서 검출될 수 있다. 또한, 돌연변이는 이들이 혈장의 여과로부터 부분적으로 유래하기 때문에 체액에서 검출될 수 있다. 따라서, 유체의 부위로부터 더 먼 다른 기관으로부터의 종양-유래 돌연변이를 비롯한, 혈장 중의 함량이 체액에서 검출될 수 있다.
혈장, 혈청 및 다른 체액 중의 무-세포 핵산 중에서의 돌연변이의 검출은 암 스크리닝 시험의 발전을 위해서 매력적인데, 그 이유는 그것이 종양 생검법의 직접적인 평가 대신에 상대적으로 비침습적으로 종양-연관된 유전자 및 게놈 변화에 접근하게 하기 때문이다. 또한, 종양, 암, 또는 악성종양과 연관된 유전자 변화 및 게놈 변화의 거의 모든 형태가 무-세포 핵산 집단 중에서 검출되었다. 암-연관된 변화 또는 암-특이적인 변화의 예는 본 명세서에 제공된다. 암-특이적인은 일반적으로 암 세포로부터 기인한 변화를 지칭하고, 암-연관된은 변화가 해부학적 근접성, 생리학적 회합, 발생적 회합 또는 암의 존재에 대한 반응으로 인해서 암 세포, 또는 전암성 병변, 또는 다른 조직으로부터 기인할 수 있다는 것을 의미한다.
(특히 혈장 및 혈청 무-세포 핵산으로부터 측정된) 종양-연관된 유전자 및 게놈 프로파일에 대한 비침습적 접근으로 인해서, 스크리닝 시험으로서 사용되는 경우, 종양-연관된 프로파일은 질환을 "룰 인" 또는 "룰 아웃"시키기 위해서 더 짧은 간격(예를 들어 수 일 또는 수 주) 내에 또는 더 긴 간격에 걸쳐서, 예컨대 2년마다, 매년 또는 연 2회 반복적으로 측정될 수 있다.
혈장 DNA 분자는 본래 짧은 DNA 단편 형태로 존재한다(Yu et al. Proc Natl Acad Sci USA 2014; 111: 8583-8588). 이것은 전형적으로는 < 200bp 길이이고, 하기에 보다 상세히 논의된 바와 같이, 특정 암-연관된 위치에서 단편화될 수 있다. 인간 혈장에서 DNA 분자의 대부분은 조혈 세포로부터 기인한다. 사람에게 비-조혈 악성종양이 발생하면, 특히 초기 단계 동안, 종양-유래 DNA는 비-종양-유래 조혈 DAN의 배경과 혼합된 혈장에서 낮은 비율을 나타낸다. 혈장 샘플 중의 종양-유래 DNA의 양은 총 DNA의 분획 또는 암 세포의 게놈-등가물 또는 세포-등가물의 수로서 표현될 수 있다. 조혈 악성종양의 경우, 혈장 중의 악성종양-연관된 DNA의 분획은 비-조혈 악성종양에서의 것보다 더 높다고 예견될 것이고, 이것은 본 출원에 기술된 것과 동일한 실시형태를 사용하여 검출될 수 있다.
본 출원에서, 본 발명자들은 일반적으로 종양이 DNA를 체액에 제공하는 한, 임의의 암의 검출에 적용될 수 있는 프로토콜을 기술한다(Bettegowda et al. Sci Transl Med 2014; 6: 224ra24). 그 이유는 기술된 실시형태가 단지 특정 암 유형에 전형적인 바이오마커의 검출에 의존적이지 않기 때문이다. 암을 갖는 개체 및 암을 갖지 않는 개체를 구별하는 데 사용되는 분류 방법은 일반적으로 임의의 암의 검출의 목적을 위해서 적용될 수 있는 돌연변이 하중 평가를 기초로 한다.
높은 임상 감도 및 특이성을 갖는 다른 암의 스크리닝을 위한 시험을 개발하기 위해서, 다양한 범위 및 많은 수의 돌연변이를 검출하는 능력이 필요할 것이다. 이러한 시험 요건을 합리화하기 위한 몇몇 이유가 존재한다. EBV와 NPC의 연관성과 달리, 대부분의 다른 암은 비교적 용이하게 비-암 인간 DNA로부터 구분될 수 있는 비-인간 유전자 마커와 연관되지 않는다. 따라서, 비-EBV 관련 암을 위한 스크리닝 시험을 개발하기 위해서, 시험은 다른 다양한 암-연관된 변화를 검출하는 것이 필요할 것이다.
A. 시험 감도 요건(예를 들어, 폭 및 깊이)
상기의 계산을 기초로, NPC 검출을 위한 혈장 EBV DNA 시험과 동일한 감도를 성취하기 위해서(Chan et al. Cancer 2013; 119: 1838-1844), 시험은 바람직하게는 순환계에서 하나의 종양 세포의 동등한 DNA 내용물의 검출을 성취하기 위해서 염-연관된 변화를 보유한 혈장 DNA의 적어도 500개의 복사물을 검출할 수 있는 것이 필요하다. NPC 데이터는 임상적으로 민감성이고 특이적인 암 스크리닝 시험을 성취하기 위한 원리를 통해서 추론하기 위한 모델 시스템으로서 사용된다. 이것은 예컨대 혈장 EBV DNA 시험의 경우에서는 하나의 종양-연관된 변화의 500개의 복사물, 또는 500개의 상이한 종양-연관 돌연변이 각각의 하나의 복사물, 또는 그 조합, 즉 < 500개의 돌연변이의 세트의 다수의 복사물을 검출함으로써 달성될 수 있다. 혈장 DNA 단편은 일반적으로 < 200bp 길이이기 때문에, 임의의 하나의 암-연관된 변화의 검출은 정보성 암 DNA 단편이라 칭하는, 이러한 변화를 보유하는 하나의 혈장 DNA 단편의 검출을 요구할 것이다.
따라서, 관련 기술 분야의 통상의 기술자 중 일부는 암을 검출하기 위한 수단으로서 특정 돌연변이를 검출하기 위해서 시험을 발전시켜왔다. 예를 들어, 디지털 중합 연쇄 반응(PCR)에 의한 표피 성장 인자 수용체 돌연변이의 혈장 검출이 비-소-세포 폐암의 검출을 위해서 사용되어 왔다(Yung et al. Clin Cancer Res 2009; 15: 2076-2084). 예컨대 종양유전자 및 종양 억제 유전자에서의 수 백개의 다른 암-연관 돌연변이를 포함하는 패널이 혈장 DNA 평가를 위해서 개발되어 왔다. 이론적으로, 이들 시험은 NPC를 위한 혈장 EBV DNA 시험의 것과 유사한 성능에 접근하는 다른 암의 검출에 대한 임상 감도를 성취해야 한다. 그러나, 실제로 그러한 경우는 없다.
1.
이제, 암은 상당히 이종성인 것이 인지된다. 돌연변이 프로파일은 상이한 기관의 암 사이에서 상당히 다양하고, 동일한 기관의 암을 갖는 상이한 대상체 사이에서, 또는 심지어는 동일한 대상체의 동일한 기관에서 상이한 종양 포커스 사이에서 다양하다(Gerlinger et al N Engl J Med 2012; 366: 883-892). 따라서, 임의의 하나의 종양-연관된 돌연변이는 임의의 암 대상체의 작은 하위세트에서만 양성이다. 예를 들어, 암에서의 체세포 돌연변이의 카탈로그(Catalogue of Somatic Mutations in Cancer(COSMIC) 데이터베이스는 종양 조직에서 검출된 유전자 돌연변이의 범위를 기재한다(cancer.sanger.ac.uk/cosmic).
도 1은 암 중에서 가장 일반적으로 식별되는 상위 28개의 돌연변이의 표(100)를 나타낸다. 그 데이터는 임의의 주어진 기관의 암에 대해서 상위 28개의 가장 우세한 돌연변이의 합이100%에 도달하지 않는 것을 보여준다. 도 1에 열거된 유전자 각각을 갖는 상이한 돌연변이가 일어날 수 있다는 것이 또한 주목할 만하다. 띠라서, 종양 중에서 임의의 하나의 특이적인 돌연변이의 출현을 평가하면, 그 수는 매우 낮을 것이다. 암 돌연변이의 위치가 매우 다양하고, 예측 가능하지 않기 때문에, 임의의 하나의 암 대상체에서 500개의 상이한 돌연변이를 식별하기 위해서, 먼저 종양 생검법을 분석하는 것을 고려할 수 있다. 이어서, 식별된 돌연변이를 사용하여 어느 혈장 DNA 검정법이 후속 모니터링을 위해서 사용될지에 관한 정보를 얻을 것이다. 그러나, 종양 생검법의 사전 평가에 대한 필요성은 1차 또는 무증상 스크리닝을 위해서는 혈장 DNA 시험을 적용하지 못하게 할 것이다.
도 1에 나타내어진 바와 같이, 각각의 종양 유형의 단지 일부가 상위 돌연변이들 중 임의의 하나를 나타낼 수 있다. 그 데이터는 종양의 많은 비율이 COSMIC 데이터베이스에 열거된 상위 돌연변이들 중 임의의 하나를 특징으로 하지 않는다는 것을 제안한다. 즉, 상위 돌연변이의 배타적인 검출을 기초로 하는 암 스크리닝 시험을 설계하면, 이러한 돌연변이의 부재로 인해서 다수의 종양이 검출되지 않을 것이다. 이들 데이터는, 본 출원에서 실시형태에 의해서 예증된 바와 같이, 다수의 체세포 돌연변이를 검출할 필요성이 상이한 종양에 일반적이지만, 암 집단의 많은 비율에서 긍정적인 결과를 산출할 수 있는 스크리닝 시험을 실현하는 데 중요하다는 것을 제안한다.
따라서, 암 검출 및 1차 스크리닝을 위한 혈장 DNA 시험을 개발하기 위해서, 충분한 돌연변이(예를 들어, 표준 게놈, 예컨대 구성적 게놈 또는 부모 게놈에 상대적인 사본 수 일탈 및 서열 변이체), 또는 다른 암-특이적인 변화 또는 암-연관된 변화(예를 들어, 메틸화 변화)를 수집하여 암 세포 당 500개의 암-특이적인 혈장 DNA 단편의 합을 구성하기 위해서 게놈 내의 훨씬 더 넓은 탐색 공간을 통해서 정찰하는 것이 필요하다. 도 1에 나타내어진 데이터를 주목하면, 임의의 하나의 종양에서 발생하는 임의의 하나의 널리-기재된 암-연관된 돌연변이의 기회가 1%라고 가정하면, 시험은 종양 당 적어도 500개의 돌연변이가 검출되기 위해서 50,000개의 추정 돌연변이 부위의 검출을 표적으로 할 필요가 있다(푸아송 확률 분포 기준). 임의의 한 종양에 대해서 적어도 5,000개의 돌연변이 또는 암-연관된 변화가 나타나기 위해서 500,000개의 추정 돌연변이 또는 암-연관된 변화가 시험될 필요가 있을 것이다. 다른 한편, 임의의 하나의 종양에서 임의의 하나의 널리-기재된 암-연관 돌연변이 또는 발생하는 변화의 기회가 0.1%이면, 임의의 하나의 종양에 대해서 적어도 50개의 돌연변이 또는 변화를 나타내기 위해서 50,000개의 돌연변이 또는 변화가 시험될 필요가 있을 것이다.
따라서, 암 스크리닝 시험의 암 검출률 또는 임상 감도를 최대화하기 위해서, 시험은 암-연관된 변화 또는 돌연변이의 임의의 하나의 유형을 보유하는 충분한 단편을 식별하기 위해서, 샘플에서 혈장 DNA 단편의 광범위한 조사를 성취할 필요가 있을 것이다. 조사의 폭은 예를 들어 적어도 50,000개의 표적을 포함하기에 충분한, 넓은 분획의 게놈을 포함하는 게놈 전체 접근 또는 표적화된 접근의 사용으로 달성될 수 있다.
2. 깊이
조사의 깊이가 또한 중요하다. 종양 당 검출되는 돌연변이의 수에 따라서, 암 세포의 각각의 게놈-등가물을 위해서 명시된 역치, 예를 들어 500개의 정보성 암 DNA 단편을 연구하기 위해서, 그 돌연변이를 보유한 다수의 혈장 DNA 단편이 검출될 필요가 있을 것이다. 예를 들어, 단지 하나의 돌연변이가 특정 종양에서 식별되면, 그 돌연변이를 포함하는 500개의 혈장 DNA 단편이 필요할 것이다. 다른 한편 50개의 상이한 돌연변이가 평균적으로 종양에서 존재하면, 그들 50개의 돌연변이의 각각의 하나를 포함하는 적어도 10개의 정보성 암 DNA 단편을 검출할 필요가 있을 것이다.
종양 DNA는 전형적으로 혈장에서 소량의 DNA 집단을 나타낸다. 추가로, 일부 암-연관된 변화는 본래 이형접합성(즉, 이배체 게놈 당 하나의 변화를 가짐)이다. 따라서, 좌위 당 10개의 복사물의 정보성 암 DNA 단편(즉, 적어도 하나의 암-연관된 변화를 보유한 혈장 DNA 단편)을 검출하기 위해서, 20% 종양 DNA 분획을 갖는 혈장 샘플에서 좌위로부터 적어도 100개의 분자를 분석할 필요가 있을 것이다. 따라서, 임의의 단일 돌연변이 자리를 포함하는 다수의 혈장 DNA 단편을 검출하는 능력은 혈장 샘플이 얼마나 깊게 조사되는지에 좌우된다. 그러나, 혈장 샘플에서는 혈장 DNA 분석의 요구된 깊이 및 폭 둘 모두에 영향을 미치는 암 세포 게놈의 한정된 수 만이 존재한다.
초기 암의 검출의 설명을 위해서, 샘플에서 1%의 종양 분획을 검출할 수 있는 시험 또는 프로토콜을 개발하는 것을 목적으로 한다고 추정된다. 전형적으로 혈장 1 밀리리터 당 DNA의 1,000개의 게놈-등가물이 존재하는 것을 고려할 때, 1% 종양 DNA 분획을 갖는 1 밀리리터 샘플에서 DNA의 10개의 암 세포-등가물이 존재할 것이다. 이는 샘플에서 모든 단일 암-특이적인 DNA 단편을 검출할 수 있더라도, 검출을 위해서 입수 가능할 임의의 하나의 암-연관된 변화의 최대 10개의 게놈-등가물 만이 존재할 것이라는 것을 의미한다. 따라서, 특정 돌연변이가 종양에 존재하는 선행 지식을 갖더라도, 그의 표적화 검출은 최적의 사건 시나리오에서 10개의 게놈-등가물의 신호 만을 제공할 것이고, 이는 1% 분획의 농도에서 암의 강력한 검출을 위한 분석 감도가 부족할 수 있다. 검출될 돌연변이가 이형접합성이면, 이러한 돌연변이를 나타내는 5개의 혈장 DNA 단편 만이 존재할 것이다.
1% 종양 DNA 분획을 갖는 최적의 사건 시나리오에서, 이러한 돌연변이 부위에서 분석 깊이는 돌연변이를 갖는 혈장 DNA의 10개의 게놈-등가물을 검출할 수 있도록 적어도 1,000배로 포함되는 것이 필요할 것이다. 이러한 상황에서, 분석법의 폭은 돌연변이 부위 당 검출된 복사물의 수가 비교적 적도록 구성되는 것이 필요할 것이다. 적은 또는 심지어는 단지 수 백개의 돌연변이 부위의 선택적인 검출은 초기 암을 검출하기 위해서 스크리닝 시험에 요구되는 감도를 달성할 수 있을 것 같지 않다.
3. 다른 문제점
또한, 일상적인 분석법에서, 임의의 한 검정법의 검출 성능은 최상의 사건 시나리오에 도달하지 못한다. 예를 들어, 샘플 가공 단계, DNA 시퀀싱 라이브러리 제조 단계 및 프로브 기초 표적 포획 혼성화 공정 동안 혈장 DNA 템플레이트 및 정보성 암 DNA 단편에서 손실 또는 감소가 존재할 수 있다. 일부 단계는 상이한 돌연변이들 사이에서 그리고 암 유래 DNA와 비-암 유래 DNA 사이의 상대적인 비율로 바이어스를 도입할 수 있다. 예를 들어, 표적화 시퀀싱 라이브러리, 게놈 DNA 시퀀싱 라이브러리, 및 앰플리콘 시퀀싱의 PCR 증폭은 GC 바이어스를 도입할 수 있을 뿐만 아니라 PCR 복사체를 생성할 수 있다. 대규모 병렬 DNA 시퀀싱의 경우, PCR 증폭 동안, 또는 시퀀싱 동안, 염기-콜링(base-calling) 동안, 또는 정렬 오류로 인해서 발생된 시퀀싱 오류로부터 시퀀싱된 단편의 식별에서의 오류가 발생할 수 있다. 마지막으로, 분석 플랫폼의 신호 검출 메커니즘은, 확신적인 양성 해독물이 돌연변이의 검출을 위해서 제공될 수 있기 전에는 검출 한계를 가질 수 있다(예를 들어, 5개의 돌연변이 단편이 검출 가능한 신호를 위해서 필요할 수 있다). 이들 모든 인자는 실시에서, 혈장 DNA 분석의 폭 및 깊이 요건이 논의된 이론적으로 이상적인 시나리오보다 훨씬 더 높을 필요가 있을 수 있다는 것을 의미한다.
본질적으로, 그 논의는 어느 정도 암 스크리닝 시험의 감도 요건이 분자 분석 플랫폼이 실시에서 성취할 수 있는 것의 한계에 도달한다는 것을 제안한다. 생물학적으로, 악성 종양이 갖는 체세포 돌연변이의 수는 약 1,000개 내지 수 10,000개 범위인 것으로 보고되어 있다(Lawrence et al. Nature 2013; 499: 214-218). 본 발명자들의 데이터를 기준으로, 혈장 샘플 중의 종양 DNA의 분획 농도에 따라서, 한정된 혈장 샘플에서 단지 충분한 정보성 암 DNA 단편을 가져서(전형적으로 채혈 당 < 10밀리리터의 혈장이 수득될 것임) 초기 비침습적 암 검출을 성취할 수 있다.
따라서, 암 스크리닝 시험의 감도 요건을 실제로 달성하기 위해서, 각각의 혈장 샘플에서 수득될 수 있는 암 정보 내용을 최대화하는 것이 필요할 것이다. 본 출원에서, 본 발명자들은 암 스크리닝 시험의 감도 요건에 도달하는 데 필요한 효과적인 깊이 및 폭을 달성할 수 있는 방법을 기술한다. 다양한 실시형태에서, 울트라-딥 및 브로드 시퀀싱, 철저한, 또는 전체 템플레이트 시퀀싱이 수행된다. PCR-미포함 대규모 병렬 시퀀싱을 수행하여 울트라-딥 및 브로드 시퀀싱, 철저한, 또는 전체 템플레이트 시퀀싱의 비용-효과를 증가시킬 수 있다. 울트라-딥 및 브로드 시퀀싱, 철저한, 또는 전체 템플레이트 시퀀싱은 단일 분자 시퀀싱을 통해서 달성될 수 있다.
일부 실시형태는 다양한 암-특이적인 변화 또는 암-연관된 변화, 예를 들어 암-특이적인 DNA 메틸화 특징 또는 암-연관된 DNA 메틸화 특징(예를 들어 5-메틸사이토신의 위치 및 하이드로시메틸화), 암-특이적인 짧은 혈장 DNA 분자 또는 암-연관된 짧은 혈장 DNA 분자, 암-특이적인 히스톤 변형 마커 또는 암-연관된 히스톤 변형 마커, 및 암-특이적인 혈장 DNA 말단 위치 또는 암-연관된 혈장 DNA 말단 위치와 조합하여, 단일 뉴클레오타이드 돌연변이의 조합 검출에 의해서 접근 가능한 정보성 암 DAN 단편의 수를 증가시킬 수 있다. 특정 암-특이적인 변화 또는 암-연관된 변화를 돌연변이를 식별하는 필터링 기준으로서 사용할 수 있다.
B. 특이성 요건(예를 들어, 필터링 기준)
상기에 기술된 바와 같이, 가능한 많은 정보성 암 DNA 단편을 검출하는 것이 바람직하다. 그러나, 현재 시퀀싱 기술에서 존재하는 노이즈의 수준(예를 들어, 다양한 공급원으로부터의 오류)을 고려할 때, 이러한 정보성 암 DNA 단편을 정확하게 검출하는 것을 어려울 수 있다.
1. 식별된 돌연변이의 특이성
높은 PPV 또는 높은 NPV를 달성하기 위해서, 암 스크리닝 시험은 높은 특이성 프로파일을 나타내는 것이 필요할 것이다. 높은 특이성은 다수의 수준에서 달성될 수 있다. 검출될 돌연변이 및 임의의 암-연관된 변화의 특이성이 가능한 암에 대해서 특이적인 것이 필요할 것이다. 이는, 유전자 또는 게놈 특징부를 그것이 암 연관된 높은 신뢰도가 존재하는 경우에만 양성인 것으로서 스코어링함으로써(이에 제한되지 않음) 달성될 수 있다. 이는 다른 암에서 이미 보고된 특징부를 포함함으로써 달성될 수 있다. 예를 들어, 특히 개인이 그의 또는 그녀의 인구통계학적 프로파일을 기초로 취약한 암 유형에서 우세한 특징부를 기초로 초점을 맞출 수 있다. 또는, 대상체가 노출된 돌연변이 노출과 연관된 돌연변이 특징부에 각별한 주의를 기울일 수 있다(Alexandrov et al. Nature 2013; 500: 415-421). 이는 또한 돌연변이로서 잘못 식별될 수 있는 시퀀싱 및 정렬 오류의 수를 최소화함으로서 달성될 수 있다. 이는 건강한 대조군의 군의 게놈 프로파일과 비교함으로써 달성될 수 있고/있거나 사람 자신의 구성적 DNA와 비교함으로써 달성될 수 있다.
이들 기준은 종양으로부터 유래될 혈장 DNA 단편의 가능성에 접근하기 위한 필터링 기준으로서 적용될 수 있고, 따라서 정보성 암 DNA 단편인 것으로 자격 부여된다. 각각의 필터링 기준은 동일한 가중 또는 상이한 가중과 개별적으로, 독립적으로, 집합적으로, 또는 이전 필터링 단계의 결과에 따라서 특정 순서로 일렬로 또는 조건부로 사용될 수 있다. 조건적인 사용의 경우, 베이시안-기반 접근법(Bayesian-based approach), 뿐만 아니라 분류 또는 결정 트리 기반 접근법이 사용될 수 있다. 개별 사용은 단지 임의의 하나의 기준을 의미한다. 독립적인 사용은 하나 초과의 필터링 기준을 포함할 수 있지만, 각각의 필터링 기준은 특정 순서의 순차적인 적용과 반대로, 또 다른 필터링 기준의 적용에 좌우되지 않는다(예를 들어, 평행 적용이 수행될 수 있다). 가중을 사용하는 집합적 사용의 예로서, 기계 학습 기술이 사용될 수 있다. 예를 들어, 학습은 공지된 분류를 갖는 샘플의 측정된 돌연변이 하중을 사용하여 임의의 모델을 교육할 수 있다. 다수의 개체(예를 들어, 수 백, 수 천, 또는 수 백만)의 시퀀싱 데이터를 사용하여 모델을 교육할 수 있다. 더 간단한 형태에서, 이러한 공지된 샘플을 사용하여 필터링 기준으로부터 결정된 하나 이상의 점수를 위한 역치를 결정하여 돌연변이의 타당성 여부를 결정할 수 있다.
일 실시형태에서, 혈장 DNA 단편이 기준 중 일부 또는 전부를 충족하면, 그것을 정보성 암 DNA 단편인 것으로 간주할 수 있는 반면, 일부 또는 전부를 충족하지 않는 나머지는 비-정보성 혈장 DNA 단편인 것으로 간주될 수 있다. 또 다른 실시형태에서, 각각의 혈장 DNA 단편은, 그것이 기준의 목록을 얼마나 강하게 충족하는지에 따라서 정보성 암 DNA 단편의 정보성 가중이 제공될 수 있다. 단편이 종양-유래되었다는 신뢰도가 높을수록, 가중이 더 높다. 일 실시형태에서, 가중은 시험 대상체의 임상 프로파일(예를 들어 성별, 민족성, 암에 대한 위험 인자, 예컨대 흡연 및 간염 상태)을 기초로 조정될 수 있다.
DNA 단편은 그것이 하나를 초과하는 암-특이적인 변화를 나타내는 경우 정보성 또는 암-특이성의 더 높은 가중이 제공될 수 있다. 예를 들어, 다수의 암은 전체적으로 특히, 비-프로모터 영역에서 저메틸화(hypomethylation)되어 있다. 암 DNA는 혈장에서 비-암 DNA보다 더 짧은 것으로 밝혀져 있다. 종양-유래 혈장 DNA 단편은 일부 특정 위치에서 단편화되는 경향이 있다. 따라서, 암-연관된 말단 위치에 속하는 하나 또는 양 말단 모두를 갖는 크기가 짧고(예를 들어, < 150bp) 혈장 DNA 단편(Jiang et al. Proc Natl Acad Sci USA 2015; 112: E1317-1325), 단일 뉴클레오타이드 돌연변이를 나타내고, 비-프로모터 영역에 국지화되고, 저메틸화된 CpG 부위를 갖는 혈장 DNA 단편이 보다 암-연관될 개연성이 큰 것으로 간주될 것이다. 저메틸화된 DNA의 검출은 비-메틸-사이토신으로부터 메틸-사이토신을 구분할 수 있는 직접적인 단일 분자 시퀀싱 또는 바이설파이트 DNA 전환의 사용으로 달성될 수 있다. 본 출원에서, 본 발명자들은 정보성 암 DNA 단편의 식별에서 특이성을 증가시키기 위한 방법, 프로토콜 및 단계를 기술한다. 예를 들어, 하나 이상의 필터링 기준을 사용하여 특이성을 증가시킬 수 있다.
2. 돌연변이 하중의 특이성
또 다른 수준에서, 암 스크리닝 시험의 특이성은, 암을 갖는 환자의 혈장에서 검출 가능한 암-연관된 변화의 양(예를 들어, 수)이 암에 대해서 예측된 것에 비례하는 돌연변이 하중을 반영하는지를 평가함으로써 달성될 수 있다. 일 실시형태에서, 예를 들어, 돌연변이 하중이 표준 게놈에 대해서 측정되는 경우, 혈장 중의 돌연변이 하중을 구성적 DNA에서 측정된 돌연변이 하중과 비교할 수 있다. 다른 실시형태에서, 혈장 중의 돌연변이 하중을 상이한 시기에서 대상체, 또는 공지된 예후(좋거나 나쁨) 또는 암의 단계를 갖는 암 환자 또는 건강한 무-암 집단의 혈장에서 관찰된 것과 비교할 수 있다. 표준 집단은 연령- 또는 성별- 또는 민족성-매칭될 수 있는데, 그 이유는 신체 또는 조직에서의 돌연변이 하중은 암을 갖는 것으로 밝혀지지 않은 사람에서도 노화에 따라서 증가한다고 보고되어 있기 때문이다(Slebos et al. Br J Cancer 2008; 98: 619-626). 본 출원에서, 본 발명자들은 적절한 돌연변이 하중을 포획하여 건강한 집단으로부터의 암 대상체들 간의 구별을 증진시키기 위해서 어떤 넓이 및 깊이로 혈장 DNA 분석이 수행될 필요가 있는지를 기술한다. 따라서, 예를 들어 샘플이 충분한 돌연변이 정보를 갖지 않는 경우, 혈장 샘플에서 DNA 단편의 전부가 암 검출을 달성하기 위해서 검출될 필요는 없다.
관찰된 돌연변이 하중이 암을 제안하는지의 여부는 일 실시형태에서 암-특이적인 표준 범위를 기반으로 할 수 있다. 상이한 기관의 암은 예측된 범위의 돌연변이 하중을 갖는 경향이 있다고 보고되어 있다. 그 수는 1,000에서 수 10,000개 범위일 수 있다(Lawrence et al. Nature 2013; 499: 214-218). 따라서, 혈장 DNA 암 스크리닝 시험이 사람의 돌연변이 하중이 임의의 암 군의 범위 내의 수에 접근하는 증거를 나타내는 경우, 높은 암 위험을 위한 분류가 행해질 수 있다 (섹션 VIII의 도 44, 45a 내지 45c, 및 46a 내지 46c). 또 다른 실시형태에서, 암의 분류는 사람의 혈장 중의 돌연변이 하중이 암이 없는 건강한 집단으로부터 설정된 표준 범위보다 상당히 높은 경우 행해질 수 있다.
상당히 더 높은 돌연변이 하중에 대한 증거는 통계학적 분포를 기초로 할 수 있고, 이것은 예를 들어 대조군 표준 데이터의 평균으로부터의 3초과의 표준 편차, 또는 대조군 표준 데이터의 중간값의 다수의 배수, 또는 대조군 표준 데이터의 특정 백분위(예를 들어, 제99 백분위수) 초과 또는 대조군 표준 데이터의 평균, 중간값, 또는 제99 백분위수보다, 적어도 1 또는 2 또는 3자리수 큰 것이다. 관련 기술 분야의 통상의 기술자는 통계학적으로 유의하게 증가된 돌연변이 하중을 식별하기 위한 다양한 통계학적 의미를 식별할 수 있을 것이다. 또 다른 실시형태에서, 분류는 암 스크리닝 시험의 감도 및 특이성 프로파일에 영향을 주는 것으로 밝혀진 변수, 예컨대 샘플의 측정된 또는 추정된 또는 추론된 종양 DNA 분획, 시퀀싱 깊이, 시퀀싱 폭, 및 시퀀싱 오류율(섹션 VIII의 도 44, 45a 내지 45c, 및 46a 내지 46c)을 고려할 수 있다.
돌연변이 하중은 다양한 방식으로 측정될 수 있다. 돌연변이 하중은 검출된 돌연변이의 수로서 표현될 수 있다. 돌연변이의 수는 수득된 시퀀싱 데이터의 양으로 정규화되어, 예를 들어 수행된 시퀀싱의 양에 대해서 검출된 돌연변이의 밀도 또는 시퀀싱된 뉴클레오타이드의 백분율로서 표현될 수 있다. 돌연변이의 수는 또한 인간 게놈의 크기로 정규화되어, 예를 들어, 그 게놈 내에서 영역 당 밀도 또는 게놈의 비율로서 표현될 수 있다. 돌연변이의 수는 돌연변이 하중 평가가 수행되는 경우 각각의 시기에 대해서 보고될 수 있거나, 시간 전체에서 통합될 수 있고, 예를 들어, 이전 평가에 비교된 절대적 변화, 백분율 변화 또는 배수 변화일 수 있다. 돌연변이 하중은 분석된 샘플의 양(예를 들어 혈장의 부피), 샘플로부터 수득된 DNA의 양, 또는 분석 가능하거나 시퀀싱 가능한 DNA의 양에 정규화될 수 있다. 일 실시형태에서, 돌연변이 하중은 시험된 대상체의 생물측정 파라미터, 예를 들어, 체중, 키 또는 체질량 지수에 정규화될 수 있다.
본 출원에서, 본 발명자들은 적절한 돌연변이 하중을 포획하여 암을 갖지 않는 집단으로부터의 암을 갖는 대상체들 간의 구별을 증진시켜서 효과적인 돌연변이 하중 평가를 성취하기 위해서 어떤 넓이 및 깊이로 혈장 DNA 분석이 수행될 필요가 있는지를 기술한다.
IV. 울트라 -딥 및 브로드 시퀀싱
상기에 상세하게 설명된 바와 같이, 암 스크리닝 시험에 필요한 성능 프로파일 또는 태아 신생 돌연변이의 효과적인 식별을 성취하기 위해서 울트라-딥 및 브로드 시퀀싱이 필요하다. 본 출원에서, 본 발명자들은 울트라-딥 및 브로드 시퀀싱을 달성하기 위한 다수의 실시형태를 나타낸다. 이러한 실시형태는 철저한 시퀀싱, 전체 템플레이트 시퀀싱, PCR-미포함 시퀀싱, 단일 분자 시퀀싱(PCR-미포함 시퀀싱의 한 유형), 및 표적화 시퀀싱을 포함하지만, 이에 제한되는 것은 아니다. 접근법의 조합을 사용하여 요구된 깊이 및 너비를 달성할 수 있다. 이러한 조합을 스크리닝 프로그램을 위해서 전체적으로, 또는 스크리닝을 위해서 특정 개체 또는 개체군으로서 사용할 수 있다.
암 스크리닝의 목적의 경우, 혈장 DNA 시퀀싱으로부터 암-연관 돌연변이를 검출하기 위해서, 시퀀싱 깊이는 진 암 돌연변이 및 시퀀싱 오류로 인한 위양성을 구별하는 능력에 영향을 미칠 것이다. 혈장 중의 종양 DNA 분획이 낮은 경우 더 높은 시퀀싱 깊이가 요구될 것이다(도 4b). (하기 섹션에 기술된) 동적 컷오프 분석법을 사용하면, 종양 DNA 분획이 2%인 경우, 200배의 시퀀싱 깊이가 암 연관 돌연변이의 5.3%를 검출할 수 있을 것이다. 무작위 시퀀싱 오류가 0.3%의 빈도로 일어난다고 가정하면, 검출된 돌연변이의 수는 위양성의 예측된 수보다 높을 것이다. 검색될 게놈의 비율은 종양 조직에서 돌연변이의 예측된 수에 좌우될 것이다.
검색될 게놈의 비율은 검출될 돌연변이의 충분한 수를 수득하기에 상당히 충분할 필요가 있을 것이다. 이러한 폭 파라미터는 종양 DNA 분획의 목적하는 하한 및 스크리닝될 암의 유형에 좌우될 것이다. 예를 들어, 흑색종에서, 돌연변이의 중간 빈도는 1Mb 당 대략 10개이다. 즉, 게놈에서 대략 30,000개의 돌연변이가 존재할 것이다. 종양 DNA 분획이 2%이고, 게놈의 1/10이 검색된다고 가정하면, 대략 159개의 돌연변이가 200x에서 혈장 DNA 시퀀싱에 의해서 검출될 것이라고 예측된다. 다른 한편, 간상 종양(rhabdoid tumor)이 스크리닝될 타켓이면, 돌연변이의 중간 빈도는 1Mb 당 단지 0.2개이다. 따라서, 게놈의 1/10의 검색은 종양 DNA 분획이 2%인 경우 대략 3개의 암 돌연변이를 산출할 것이다. 이러한 수는 시퀀싱 오류로부터 구별되기에 충분하지 않다.
도 2는 상이한 종양 DNA 분획을 위해서 검출될 돌연변이의 예상된 수, 시퀀싱 깊이, 게놈 당 돌연변이의 수 및 검색된 게놈의 분획을 나타낸 표(200)이다. 위양성의 예측된 수는 동적 컷 오프 분석법(또는 다른 적합한 필터링 분석법) 및 0.3%의 시퀀싱 오류율을 기초로 하는 각각의 경우에 대해서 전체 게놈에 대해서 <10이다. 따라서, (예를 들어, 깊이 및 폭을 기초로) 검출 가능한 돌연변이의 수가 10보다 많은 경우, 실시형태는 위양성으로부터 실제 암 돌연변이를 구별하기에 유용할 것이다.
표 200의 데이터에서 나타내어진 바와 같이, 분석하고자 하는 게놈의 비율은 예측된 종양 분획 및 종양에서의 체세포 돌연변이의 빈도에 좌우될 것이다. 게놈의 5%를 분석할 때, 종양 분획이 10%이고, 돌연변이의 빈도가 Mb 당 10개이고, 시퀀싱 깊이가 200배인 경우, 돌연변이의 수는 위양성의 수보다 훨씬 더 많을 것이다. 모의실험 분석법을 사용하여, 본 발명자들은 심지어는 게놈의 0.1%에 대해서 검색되는 경우에도, 검출된 돌연변이의 수가 무작위 시퀀싱 오류와 구별하기에 충분하다고 추론하였다. 돌연변이의 다른 빈도 및 시퀀싱 깊이를 위해서, 게놈의 더 높은 비율이 분석될 필요가 있을 수 있고, 예를 들어, 서열 판독물을 표준 게놈에 대해서 정렬함으로써 게놈의 1%, 5%, 10%, 및 20%가 분석될 수 있다.
암 스크리닝의 목적을 위해서, 암-연관 돌연변이의 100%를 식별할 필요는 없다. 일 실시형태에서, 특정 개체는 암이 없는 표준 대조군 집단에서의 것보다 더 많은 수의 돌연변이가 혈장(또는 다른 생물학적 샘플)에서 검출된다는 것을 단지 보여야 한다. 그러나, 이러한 전략을 상당히 정확하게 하기 위해서, 돌연변이 하중 평가 프로토콜에 의해서 검출된 진 돌연변이의 비율은 가능한 높을 필요가 있어서(또는 위양성의 비율이 가능한 낮을 필요가 있어서), 평가에 의해서 검출된 변이체의 많은 수는 암의 존재를 반영한다. 이것이 달성될 수 없는 경우, 샘플에서 검출된 많은 수의 추정 돌연변이는 단순히 많은 수의 위양성 변이체를 반영할 수 있어서, 암을 갖는 대상체와 암을 갖지 않는 대상체를 구분하지 못하게 할 것이다. 따라서, 본 출원에서 실시형태는 위양성의 검출을 감소시키는 방법 및 효과적인 돌연변이 하중 평가를 성취하기 위해서 진 돌연변이의 검출을 증가시키는 방법을 기술한다.
울트라-딥 및 브로드 시퀀싱은 철저한 시퀀싱 또는 다른 수단, 예를 들어 다중 표적화 시퀀싱 패널의 가벼운(light)(비-철저한) 시퀀싱에 의해서 달성될 수 있다. 가벼운 시퀀싱을 사용하여 PCR 복사체를 최소화하여, 요구되는 깊이를 수득할 수 있다. 다중 표적화 시퀀싱 패널을 사용하여 게놈 전체에서 넓은 포함률을 제공할 수 있다.
A. 철저한 시퀀싱 및 전체 템플레이트 시퀀싱
암의 조기 식별 및 초기 상태에서의 암의 식별에 효과적인 암 스크리닝 시험을 개발하기 위해서, 이상적으로는 혈장 샘플로부터 가능한 많은 암 관련 정보를 수득할 것이다. 혈장 샘플로부터 암-관련 정보를 얻기 위한 사람의 능력을 방해하는 다수의 문제가 존재한다: (1) 분석하고자 하는 샘플이 한정된 부피를 가짐; (2) 특정 생물학적 샘플에서 종양 분획이 초기 암 동안 낮을 수 있음; (3) 검출에 사용 가능한 종양 당 체세포 돌연변이의 총량이 대략 1,000 내지 10,000임; (4) 분석 단계 및 기술적인 방법이 정보 내용물의 손실로 이어질 것임. 따라서, 검출하기 쉬운 혈장 샘플에서 임의의 암-관련 정보 내용물의 손실을 최소화하도록 노력해야 한다.
샘플 제조 단계, 시퀀싱 라이브러리 제조 단계, 시퀀싱, 염기-콜링 및 정렬 에서의 제한으로 인해서, 샘플 내의 모든 혈장 DNA 분자가 분석 가능하거나 시퀀싱 가능한 것은 아닐 것이다. 철저한 시퀀싱은 한정된 샘플 중의 정보성 DNA 분자(예를 들어, 돌연변이를 갖는 것)의 대부분을 분석 가능하거나 시퀀싱 가능한 분자로 변형시키는 능력을 최대화하기 위해서 실시되는 절차를 지칭한다. 몇몇 방법이 철저한 시퀀싱을 성취하기 위해서 채택될 수 있다.
정보성 DNA 집단을 구성하는 것은 시험될 것을 기초로 달라질 수 있다. 암 시험의 경우, 그것은 정보성 암 혈장 DNA 단편일 것이다. 산전(prenatal) 시험의 경우, 그것은 모체 혈장 중의 태아-유래 DNA 분자일 것이다. 이식 모니터링의 경우, 그것은 이식 수여자의 혈장 중의 공여자-유래 분자일 것이다. 다른 질환을 검출하는 경우, 그것은 병리학을 갖는 기관 또는 조직 또는 세포로부터 유래된 그러한 혈장 DNA 분자일 것이다. 돌연변이를 포함하는 비정상 생물학적 과정을 검출하는 경우, 그것은 그 과정에 관여되는 기관 또는 조직 또는 세포, 예를 들어 노화시의 뇌로부터 유래된 그러한 혈장 DNA 분자일 것이다. 이러한 생물학적 과정의 예는 노화, 돌연변이에 대한 유전 성향(예를 들어 색소성 건피증), 환경(예를 들어 방사선 또는 UV 노출)으로부터의 돌연변이 영향, 또는 약물(예를 들어, 세포독성제)로부터의 톡신 및 효과를 포함할 수 있다. 샘플 유형과 관련하여, 소변 샘플 중의 DNA를 시험하기 위해서, 그것은 신장을 통과하여 순환계로부터(예를 들어 혈장으로부터) 소변 샘플로 통과된 암 DNA 분자일 수 있다(Botezatu et al. Clin Chem 2000; 46: 1078-1084). 다른 암의 경우, 그것은 (예를 들어 방광 또는 신장으로부터) 비뇨 생식기의 암으로부터 소변 샘플로 통과된 암 DNA 분자일 수 있다.
가능한 철저하게 하기 위해서, 다음 방법의 중 임의의 하나, 전부 또는 조합을 채택할 수 있다: (1) DNA 손실을 감소시키거나 높은 DNA 라이브러리 전환 효율 또는 시퀀싱 효율을 갖는 DNA 제조 프로토콜을 사용함; (2) PCR-미포함 DNA 제조 프로토콜을 사용함으로써 PCR 복사체의 문제를 우회함; (3) PCR-미포함 DNA 제조 프로토콜을 사용함으로써 시퀀싱 오류를 감소시킴; (4) 효과적인 정렬 알고리즘, 예를 들어 재정렬 전략을 채택함으로써 정렬 오류를 감소시킴. 이러한 척도 중 일부 또는 전부를 채택함으로서, 혈장 DNA 정보 내용물의 손실 정도뿐만 아니라 시퀀싱 자원의 낭비가 감소될 수 있어서, 울트라-딥 및 브로드 시퀀싱은 더 비용 효과적으로 성취될 수 있다.
철저한 시퀀싱 의도의 이러한 척도를 적용한 후, 암-관련 신호 또는 정보성 암 DNA 단편의 양은 매우 효과적이게 될 수 있어서, 샘플의 단지 일부로부터의 정보는 이미 암을 "룰 인" 또는 "룰 아웃"시키는 분류에 도달시키기에 적절하다. 예를 들어, HCC 환자로부터의 혈장 샘플과 제대혈 혈장 샘플 간의 돌연변이 하중 비교의 이후의 예에서 나타내어지는 바와 같이, 75x 깊이에서의 데이터는 암을 갖지 않는 신생아의 제대혈 혈장으로부터 HCC 경우를 명백하게 구분하기에 이미 적절하였다. 데이터의 220x가 HCC 혈장 샘플에 대해서 생성되었다. 그러나 75x의 데이터가 이미 충분하였는데, 그 이유는 철저한 시퀀싱 의도를 위한 절차를 사용하여 검출된 정보성 암 DNA 단편의 수가 이미 적절하고, 암의 양성 분류를 위한 적절한 품질을 가졌기 때문이다.
한정된 샘플로부터 시퀀싱 가능한 혈장 DNA 분자를 실제로 완전히 소모하는 경우, 이러한 행동을 "전체 템플레이트 시퀀싱"이라 지칭할 수 있다. 이것은 철저한 시퀀싱의 한 스펙트럼을 지칭한다. 예를 들어, 모든 혈장 DNA 라이브러리를 HCC 경우로부터 시퀀싱하여 220x의 깊이에 도달하였다.
또한, 단일 분자 서열기를 사용하여 철저한 시퀀싱을 수행할 수 있다(Cheng et al. Clin Chem 2015; 61: 1305-1306). 이러한 단일 분자 DNA 서열기의 예는 단일 분자 실시간 DNA 시퀀싱 기술을 사용하는 퍼시픽 바이오사이언시스(Pacific Biosciences)에 의해서 제조된 서열기(www.pacificbiosciences.com/) 및 나노포어 서열기(예를 들어, 옥스포드 나노포어(Oxford Nanopore)에 의해서 제조된 것(www.nanoporetech.com/))을 포함하지만 이에 제한되는 것은 아니다. 다수의 이러한 단일 분자 시퀀싱 플랫폼은 시퀀싱된 분자로부터의 후성적 정보(예를 들어, DNA 메틸화 패턴)를 직접 얻는 것을 가능하게 할 것이다(Ahmed et al. J Phys Chem Lett 2014; 5: 2601-2607). 후성적 일탈이 암에서 설명되어 있기 때문에, 이러한 후성적 정보를 갖는 것은 암의 스크리닝, 검출, 모니터링 및 예측을 추가로 향상시킬 것이다. 예를 들어, 메틸화를 기초로 한 필터링 기술이 하기에 기술된다.
후성적 정보가 시퀀싱 데이터로부터 수득될 수 있는 또 다른 실시형태는 템플레이트 DNA의 바이설파이트 전환을 수행하고, 이어서 DNA 시퀀싱을 수행하는 것이다. 바이설파이트 전환은, 메틸화된 사이토신은 변화되지 않고 유지되지만, 비메틸화된 사이토신은 우라실로 전환되는 방법이다. 후자는 DNA 시퀀싱 동안 T 잔기로서 판독될 것이다. 이어서, 바이설파이트 시퀀싱, 메틸화-인식 시퀀싱의 형태를 바이설파이트 전환된 템플레이트 DNA를 위한 시퀀싱 라이브러리 상에서 수행할 수 있다. 이어서, 관련 기술 분야의 통상의 기술자에게 공지된 접근법, 예를 들어 지앙(Jiang) 등에 의한 방법(PLoS One 2014; 9: e100360)을 사용하여 정렬을 수행할 수 있다.
무-세포 DNA의 시퀀싱이 암에 대해서 사용되는 경우, 시퀀싱 결과로부터의 다수의 유형의 분자 정보, 즉 혈장 중의 바이러스 게놈 서열(바이러스 감염과 연관된 암의 경우, 예를 들어, NPC의 경우 EBV), 종양-연관된 단일 뉴클레오타이드 변이체, 사본 수 일탈, 및 후성적 정보(예를 들어 DNA 메틸화(5-메틸사이토신 프로파일 및 하이드록시메틸화), 히스톤 아세틸화/메틸화 변화 등 포함)를 조합할 수 있다. 정보의 이러한 조합은 분석법을 더 민감성이고, 특이적이고, 임상적으로 관련되게 할 수 있다.
B. PCR-미포함 프로토콜
시험된 대상체의 혈장(또는 무-세포 DNA를 함유하는 다른 샘플 유형) 중에서 임의의 암-연관된 변화를 검출하기 위해서, 그러한 변화를 검출할 확률은 이론적으로는 분석된 DNA 분자의 수의 증가에 따라서 증가해야 한다. 여기에서 본 발명자들은 이러한 원리를 설명하기 위해서 가상적인 예를 사용한다. 암 대상체에서 혈장 DNA의 20%가 종양으로부터 유래되고, 종양이 특정 뉴클레오타이드 위치에서 점 돌연변이를 갖는다고 추정한다. 돌연변이는 2개의 상동 염색체 중 하나에서만 일어난다. 그 결과 이러한 특정 뉴클레오타이드 위치를 포함하는 혈장 DNA의 10%가 이 돌연변이를 보유할 것이다. 본 발명자들이 이러한 뉴클레오타이드 위치를 포함하는 하나의 DNA 분자를 분석하는 경우, 돌연변이 검출 확률은 10%일 것이다. 이러한 뉴클레오타이드 변화를 포함하는 10개의 혈장 DNA 분자가 분석되는 경우, 돌연변이 검출 확률은 65.1%(확률 = 1 내지 0.910)로 증가할 것이다. 본 발명자들이 분석하고자 하는 분자의 수를 100으로 추가로 증가시키는 경우, 돌연변이 검출 확률은 99.99%로 증가할 것이다.
이러한 수학적 원칙을 적용하여 대규모 병렬 시퀀싱이 암 대상체로부터의 혈장 DNA의 분석을 위해서 사용될 때 암-연관 돌연변이의 검출 확률을 예측할 수 있다. 그러나, 혈장을 시퀀싱하기 위해서 사용되는 전형적인 대규모 병렬 시퀀싱 플랫폼(예를 들어, TrueSeq 라이브러리 제조 키트를 갖는 일루미나 HiSeq(일루미나 HiSeq)2000 시퀀싱 시스템), PCR 증폭은 시퀀싱 전에 템플레이트 DNA 상에서 수행될 것이다.
증폭은 본래 투입 핵산과 비교할 때 템플레이트 DNA의 양을 증가(1-초과)시키는 공정을 지칭한다. 본 출원에서, 증폭 공정은 DNA 템플레이트 분석 단계, 예를 들어 시퀀싱 전에 라이브러리 제조 동안 수행되는 단계이다. 증폭을 사용하면, 분석을 위해서 사용 가능한 템플레이트 DNA의 양이 증가될 것이다. 일 실시형태에서, 증폭은 온도의 순환적 변화를 포함하는 PCR을 사용하여 수행될 수 있다. 또 다른 실시형태에서, 증폭은 등온 방법을 사용하여 수행될 수 있다. 본 발명자들은 일부 실시형태에서 증폭된 템플레이트 DNA가 돌연변이 하중 평가 성취 효율을 감소시키는 것을 확인했다. 분석 단계 동안 일어나는 클론 확장 단계, 예를 들어 합성에 의한 시퀀싱(sequencing-by-synthesis) 동안의 브릿지 증폭은 증폭으로서 간주되지 않는데, 그 이유는 그것이 추가 서열 판독물 또는 서열 출력물을 유발하지 않기 때문이다.
PCR을 사용하는 경우, 시퀀싱 깊이(즉, 특정 뉴클레오타이드를 포함하는 서열 판독물의 수)는 특정 뉴클레오타이드를 포함하는 얼마나 많은 혈장 DNA 분자가 분석되는지를 직접 반영하지 않는다. 이는, 하나의 혈장 DNA 분자가 PCR 공정 동안 다수의 복제체를 생성하고, 다수의 서열 판독물이 단일 혈장 DNA 분자로부터 유래할 수 있기 때문이다. 0이러한 복사 문제는 i) 시퀀싱 라이브러리를 증폭시키기 위한 더 많은 PCR 사이클 수; ii) 증가된 시퀀싱 깊이, 및 iii) 본래 혈장 샘플 중의 더 적은 DNA 분자 수(예를 들어, 더 적은 혈장 부피)로 더 중요해 질 것이다.
또한, PCR 단계는 추가 오류를 도입하는데(Kinde et al. Proc Natl Acad Sci USA 2011; 108: 9530-9535), 그 이유는 DNA 중합효소의 충실도가 100%가 아니고, 가끔, 잘못된 뉴클레오타이드가 PCR 딸가닥(daughter strand)에 혼입될 것이기 때문이다. 이러한 PCR 오류는 초기 PCR 사이클 동안 일어나고, 동일한 오류를 나타내는 딸분자의 클론이 생성될 것이다. 오류가 있는 염기의 분획 농도는 그 오류가 태아-유래 또는 종양-유래 돌연변이로서 잘못 해석될, 동일한 좌위로부터의 다른 DNA 분자 중에서 이러한 높은 비율에 도달할 수 있다.
본 발명에서, 본 발명자들은 대규모 병렬 시퀀싱을 위해서 PCR-미포함 프로토콜을 사용하면 시퀀싱 자원을 보다 효율적으로 사용하는 것이 가능해지고, 그것은 생물학적 샘플로부터 정보를 수득하는 것을 추가로 증진시킬 수 있다고 추론한다. 일 실시형태에서, 혈장 샘플 중의 DNA 분자 전부는 대규모 병렬 시퀀싱 분석 동안 PCR-미포함 프로토콜을 사용한 시퀀싱 분석으로 시퀀싱되어야 한다. 사용될 수 있는 하나의 PCR-미포함 프로토콜은 베리 지노믹스(Berry Genomics)에 의해서 개발된 것이다 (investor.illumina.com/mobile.view?c=121127&v=203&d=1&id=1949110). 다른 PCR-미포함 프로토콜, 예컨대 일루미나(Illumina)에 의해서 시판되는 것 (www.illumina.com/products/truseq-dna-pcr-free-sample-prep-kits.html)을 사용할 수도 있다. 본 명세서에서 본 발명자들은 예를 사용하여 그 원리를 설명한다.
설명을 위해서, 본 발명자들은 먼저 모든 혈장 DNA 단편은 크기가 150bp이고, 이것은 상기에 언급된 바와 같이 일반적으로 200bp 미만인 혈장 DNA 단편과 일치한다고 추정한다. 따라서, 각각의 이배체 인간 게놈은 40x106개의 혈장 DNA 단편으로 단편화될 것이다. 혈장 1 밀리리터 중에 약 1,000개의 이배체 인간 게놈이 존재하기 때문에, 1㎖ 혈장 중에 40x109개의 혈장 DNA 단편이 존재할 것이다. 본 발명자들이 1㎖의 혈장으로부터 40x109개의 DNA 단편을 시퀀싱하는 경우, 본 발명자들은 모든 DNA 분자가 시퀀싱될 것이라고 예측할 것이다. 설명을 위해서, 실시 당 2x109개의 판독물을 생산할 수 있는 일루미나 HiSeq 2000 시스템을 사용하는 경우, 이러한 시퀀싱 양을 달성하기 위해서 20회의 실시가 필요할 것인데, 이것은 더 높은 처리율 플랫폼으로 감소될 수 있다.
혈장 샘플 중의 전체 DNA 농도는 시퀀싱 분석 전에 예를 들어, 디지털 PCR 또는 실시간 PCR(이에 제한되지 않음)을 사용하여 측정될 수 있다. 전체 DNA 농도를 사용하여 샘플 중의 모든 분석 가능하거나 시퀀싱 가능한 DNA 분자를 시퀀싱하는 데 요구되는 시퀀싱의 양을 결정할 수 있다. 다른 철저한 시퀀싱 정도를 포함하는 다른 실시형태에서, 혈장 샘플 중의 DNA 분자 중 20%, 25%, 30%, 40%, 50%, 60%, 75%, 90%, 95%, 또는 99% 초과를 시퀀싱할 수 있고, 이들 전부는 철저한 시퀀싱의 예이다.
시퀀싱될 DNA 분자의 백분율에 대한 주요 결정인자는 돌연변이의 양, 샘플 중의 종양 분획, 및 DNA 라이브러리 수율을 포함한다. 시퀀싱 라이브러리에서 잠재적으로 시퀀싱 가능한 분자의 수는 라이브러리의 부피, 농도 및 전환 효율을 기초로 결정될 수 있다. 시퀀싱을 위해서 요구되는 DNA 단편의 수는 종양 분획의 목적하는 검출 가능 한계치 및 종양 중의 돌연변이의 예측된 수를 기초로 결정될 수 있다. 이러한 두 수를 기초로, 시퀀싱될 라이브러리의 부분이 결정될 수 있다.
철저한 시퀀싱을 위해서 PCR-미포함 프로토콜을 사용하는 것의 이점은, 본 발명자들이 동일한 반응에서 시퀀싱되는 다른 표준 표적에 대해서 상대적인 양을 결정하는 것이 아니라 샘플 중의 임의의 표적 분자의 절대적인 양을 직접 추론할 수 있다는 것이다. 이것은 각각의 서열 판독물이 하나의 본래 혈장 DNA 분자로부터의 정보를 나타내기 때문이다. 사실, PCR 증폭이 울트라-딥 및 브로드 시퀀싱과 함께 사용되면, 서로에 상대적인 표적 분자의 양이 실제 표현으로부터 추가로 멀리 이동할 것이다. 그 이유는 PCR 증폭 결과로서의 PCR 복사체의 생성뿐만 아니라 일부 게놈 영역이 다른 것보다 더 양호하게 증폭되는 증폭 성향으로 인해서이다.
시퀀싱 라이브러리의 PCR 증폭은 일반적으로 대규모 병렬 시퀀싱을 위한 대부분의 기존 프로토콜에서 수행되는데, 그 이유는 이러한 단계가 시퀀싱 라이브러리에서 분자의 수를 증가시킬 수 있어서 시퀀싱 단계가 보다 용이하게 수행될 수 있기 때문이다. PCR 복사체(복제체)는 본래 템플레이트 DNA 분자의 클론 산물이다. PCR 복사체의 존재는 울트라-딥 및 브로드 시퀀싱의 달성을 방해한다. PCR 복제체 유래의 서열 판독물의 비율은 수행된 시퀀싱의 양(시퀀싱 깊이)에 따라서 증가할 것이다. 다시 말해서, 시퀀싱을 보다 깊게 수행함에 따라서 독특한 정보 내용물에서 복귀(return)를 약화시킬 것이다. 따라서, PCR 복제체의 시퀀싱은 다수의 시나리오에서 시퀀싱 자원의 폐기물로 이어질 것이다. 이는 궁극적으로는 PCR-미포함 프로토콜과 비교할 때 동일한 폭 및 깊이의 게놈 포함률에 도달하기 위해서 훨씬 더 많은 시퀀싱이 필요하는 것을 의미할 것이다. 따라서, 비용이 훨씬 높아질 것이다. 실제로, 일부 예에서, PCR 복사체의 비율이 너무 높아서 바람직한 폭 및 깊이의 포함이 실시에서 도달될 수 없다.
이것은 관련 기술 분야의 통상의 기술자에게 직관에 반대된다. 전통적으로, 전체 게놈 증폭을 비롯한 PCR 증폭은 더 많은 분자 분석법을 수행하기 위해서 한정된 샘플로부터 더 많은 유전자 물질을 제공하기 위해서 수행된다. 본 발명자들의 데이터는 이러한 증폭 단계가 역효과일 수 있다는 것을 나타낸다. 이는 특히 혈장 DNA 분석법에 대해서 직관에 반대된다.
무-세포 DNA를 포함하는 다른 샘플에 대해서도 그러한 바와 같이, 혈장 DNA는 낮은 농도에서 DNA의 낮은 존재비(abundance)를 함유한다고 공지되어 있다. 따라서, DNA의 부족한 양을 증폭시키지 않고 더 많은 정보가 수득될 수 있다고는 생각하지 않을 것이다. 사실, 본 발명자들의 증폭 기초 라이브러리 제조 프로토콜에서, 본 발명자들은 전형적으로 4㎖ 혈장 당 150 내지 200nM의 어댑터 결찰된 DNA 라이브러리를 수득한다. 그러나, 본 출원에서 예에 대해서 나타내어진 바와 같이, 단지 2나노몰의 어댑터 결찰된 DNA 라이브러리가 동일한 양의 혈장 부피로부터 수득된다. 이러한 적은 양은 더 많은 게놈 정보를 얻는 것을 방해할 것이기 때문에, 분석 전에 증폭 단계를 수행하도록 유도할 수 있다. 이러한 증폭된 라이브러리는 중요한 문제를 생성할 것인데, 그 이유는 이러한 라이브러리의 상당한 비율이 PCR 복사체로 이루어질 것이기 때문이다.
추가로, 이러한 증폭된 라이브러리를 사용하면, 실제로 전체 템플레이트 시퀀싱을 수행하여 4㎖ 혈장 샘플로부터 가능한 많은 정보를 수득할 수 없다(그 이유는 라이브러리의 고정량이 시퀀싱 실시에 적용되고, 상당한 수의 실시가 라이브러리를 소모하는 것을 필요로 할 것이기 때문임). 본 발명자들의 데이터에서 나타내어지는 바와 같이, 본 발명자들이 연구한 HCC 및 임산부 경우의 PCR-미포함 라이브러리를 완전히 소모하기 위해서 약 20회의 일루미나 시퀀싱 실시가 필요하다. PCR 또는 증폭 기초 라이브러리 구성 프로토콜이 대신 사용되었다면, 시퀀싱의 양의 100배(일부 2000회의 실시를 의미함)가 수행되는 것이 필요할 것이다. 다시 말해서, 증폭된 라이브러리를 사용하면, 시퀀싱 출력의 상당한 부분을 소모할 복사된 분자를 생성한다. 이에 반해서, PCR-미포함 프로토콜로부터의 2나노몰의 라이브러리는 쉽게 소모될 수 있고, 이는 4㎖ 혈장 샘플로부터 분석 가능한 정보를 소비하는 것과 동일하다.
4㎖ 혈장 샘플의 타당한 비율을 사용할 수 있는 것이 중요하다. 이전에 제시된 일부 계산법으로 설명되는 바와 같이, 혈장 샘플에서 암 DNA의 게놈-등가물의 수는 초기 암 동안 적어서, 혈장 샘플에서 이들 암 게놈-등가물을 가능한 많이 검출할 수 있는 것이 필요하다. PCR-미포함 라이브러리 제조 프로토콜을 사용하여 혈장 DNA 샘플의 일루미나 시퀀싱의 10회 실시를 수행하여 암 분류를 달성할 수 있다고 추정된다. 이러한 10회 실시는 시퀀싱 라이브러리의 1/2을 소모할 것이다. 이는 혈장 샘플의 1/2, 즉 2㎖로부터의 분석 가능한 내용물을 사용하여 암 분류를 달성하는 것과 상관관계가 있다. 다른 한편, 동일한 샘플의 PCR-증폭된 라이브러리 상에서 수행된 10회 실시는 라이브러리의 0.5% 만을 소모하는 것에 동등할 것이다(이는 일반적으로 PCR-증폭된 프로토콜의 라이브러리 수율에서 100배 증폭이 존재하기 때문임). 이는 본래 4㎖ 혈장 샘플 중 단지 0.02㎖로부터의 분석 가능한 내용물을 사용하는 것에 상관관계가 있고, 수득된 데이터의 양은 암 분류를 성취하게 충분하지 않을 것이다. 따라서, 이는 PCR 증폭을 사용하지 않고 제조된 더 적은 DNA 라이브러리를 사용하면, 시퀀신의 고정량 당 더 많은 암-관련 정보가 수득될 수 있다는 직관에 반대되는 것이다.
관련 기술 분야의 통상의 기술자는, PCR 복제체라고도 공지된 PCR 복사체가 동일한 시작 및 말단 뉴클레오타이드 좌표를 나타내는 임의의 서열 판독물을 식별하는 생물정보학적 절차로 제거될 수 있다는 것을 밝혔다. 그러나, 이후 섹션에서 나타내어질 바와 같이, 본 발명자들은 본 발명에 이르러서 혈장 DNA 단편 말단 위치가 무작위적이지 않기 때문에 잘못된 필터링이 일어날 것이라는 것을 확인하였다. 동일한 시작 및 말단 뉴클레오타이드 좌표를 갖는 서열 판독물을 필터링하기 위한 생물정보학적 단계를 적용하지 않은 PCR-미포함 프로토콜을 사용하여, 본 발명자들은 시작 또는 말단 좌표 또는 둘 모두와 동일한 서열 판독물의 낮은 백분율(전형적으로< 5%)을 확인하였다. 이러한 관찰은 혈장 DNA 절단의 비무작위 본성의 결과이다. 실시형태는 정보성 암 DNA 단편을 식별하기 위한 필터링 기준으로서 암-특이적인 말단 위치의 식별을 혼입할 수 있다. PCR-미포함 프로토콜의 채택은 이러한 분석법 및 이러한 기준의 사용을 가능하게 할 것이다. 추가로, 이는 또한 사실 동일한 시작 및 말단 뉴클레오타이드 좌표를 갖는 서열 판독물을 제거하는 이전의 실시가 유용한 정보성 암 DNA 단편을 제거하여, 혈장 DNA 샘플로부터 암-관련 정보 내용물을 손실시킨다는 것을 의미한다.
일루미나 시퀀싱 플랫폼의 시퀀싱 오류율은 시퀀싱된 뉴클레오타이드의 약 0.1% 내지 0.3%(Loman et al. Nat Biotechnol 2012; 30: 434-439; Kitzman et al. Sci Transl Med 2012; 4: 137ra76)이다. 일부 다른 시퀀싱 플랫폼에 대해서 보고된 오류율은 훨씬 더 높다. 나타내어진 바와 같이, 0.3%의 시퀀싱 오류율은 매우 낮은 것은 아니어서, 연구자들이 혈장에서 매우 높은 정확도로 태아 신생 돌연변이(Kitzman et al. Sci Transl Med 2012; 4: 137ra76) 또는 암-특이적인 체세포 돌연변이를 식별하는 것을 방해하였다. 이러한 오류율은 울트라-딥 및 브로드 시퀀싱에 대해서 훨씬 더 관련된다. 200x의 깊이로 설정된 시퀀싱 데이터 세트에서의 0.3% 오류는 200x106개의 오류로 번역된다.
이러한 시퀀싱 오류의 비율은 시퀀싱 전 DNA 라이브러리 제조 단계 동안 PCR 증폭에 의해서 생성된다. 라이브러리 제조를 위해서 PCR-미포함 프로토콜을 사용함으로써, 이러한 유형의 오류가 감소될 수 있다. 이것은 시퀀싱을 보다 비용 효율적으로 만들 것인데, 그 이유는 이들 인공물을 시퀀싱하는 데 더 적은 시약이 소모될 수 있고, 이들 오류를 처리하는 데 더 적은 생물정보학적 시간이 소모될 수 있기 때문이다. 또한, 진양성 태아 신생 돌연변이 및 암-유래 체세포 돌연변이는, 그렇지 않으면 PCR 증폭이 포함됐을 경우보다 더 낮은 시퀀싱 깊이에서 더 적은 위양성 중에서 보다 특이적으로 식별될 수 있다. 사실, 이들 이점은 다른 연구자들에게 자명하지 않을 것이다(다음 섹션 참고).
C. 시퀀싱 라이브러리의 예비-증폭을 수행한 시퀀싱과 예비-증폭을 수행하지 않은 시퀀싱의 결과
본 발명자들은 모의실험 분석을 수행하여 PCR을 사용한 시퀀싱 라이브러리의 예비-증폭을 수행한 프로토콜과 수행하지 않은 프로토콜에 대해서 혈장 중에서 암-연관 돌연변이를 검출하는 데 요구되는 시퀀싱의 양을 비교하였다. PCR 복제체로부터의 서열 판독물의 비율을 측정하기 위해서, 즉, 분자를 1회를 초과하게 시퀀싱하기 위해서, 본 발명자들은 하기 가정을 사용하였다: (1) 1㎖ 혈장 중에 DNA의 500 게놈-등가물이 존재함; (2) DNA는 50% 수율로 2㎖ 혈장으로부터 추출됨; (3) 추출된 DNA의 40%가 시퀀싱 라이브러리로 성공적으로 전환될 수 있음; (4) 10회 사이클의 PCR이 예비-증폭을 위해서 수행되었고, PCR 효율은 100%임; (5) 예비-증폭된 라이브러리 및 비-증폭된 라이브러리의 단편 패턴은 동일함; (6) 혈장 DNA의 길이는 166bp임.
도 3은 PCR 복제체의 서열 판독치의 백분율과 시퀀싱 깊이 간의 관계를 나타낸 서열 플롯(300)이다. PCR 복제체로부터 유래한 서열 판독물의 백분율은 시퀀싱 깊이에 따라 증가한다. 200x의 시퀀싱 깊이에서, 서열 판독물의 44%가 PCR 복제체로부터 유래할 것이다. PCR 복제체로부터의 이러한 서열 판독물은 추가 정보를 제공하지 않을 것이다.
도 4a 및 4b는 본 발명의 실시형태에 따라서 다양한 종양 DNA 분획에서 암 대상체의 혈장 중의 암-연관 돌연변이를 검출하기 위해서 PCR 포함 프로토콜 및 PCR 미포함 프로토콜에서 요구되는 시퀀싱 깊이를 비교한 도면을 나타낸다. PCR 복제체로부터의 예측된 백분율을 기초로, 본 발명자들은 모의실험 분석을 수행하여 암 대상체의 혈장 중에서 암-연관 돌연변이를 검출하는 데 요구되는 시퀀싱의 양을 결정하였다. 모의실험은 1% 내지 10%의 혈장 중의 종양 DNA 분획을 포함하도록 수행되었다. 본 발명자들은 30,000개의 돌연변이가 이러한 대상체에서 암 세포의 게놈 중에 존재한다고 추정하였다.
PCR 예비-증폭을 수행한 프로토콜은 혈장 중의 임의의 종양 DNA 분획에서 암-연관 돌연변이를 검출하기 위해서 더 높은 시퀀싱 깊이를 요구할 것이다. 요구되는 시퀀싱 깊이에서의 이러한 차이는 종양 DNA 분획의 감소로 기하급수적으로 증가할 것이다. 혈장 중의 10%의 종양 DNA 분획에서, PCR 예비-증폭을 수행한 프로토콜 및 수행하지 않은 프로토콜은 각각 37x 및 25x의 시퀀싱 깊이를 요구한다. 그러나, 혈장 중의 2%의 종양 DNA 분획에서, 요구되는 각각의 시퀀싱 깊이는 368x 및 200x일 것이다.
따라서, PCR-미포함 프로토콜의 사용은 특히, 혈장 중의 종양 DNA 분획이 낮은 경우, 혈장에서 암-연관된 변화를 검출하기에 상당히 이롭다. 혈장의 종양 게놈 내에 존재하는 돌연변이의 수가 낮은 경우, 더 높은 시퀀싱 깊이가 필요할 것이다. 증폭을 수행한 프로토콜에 대해서 요구되는 깊이 또는 증폭을 수행하지 않은 프로토콜에 대해서 요구되는 깊이에서의 차이는 특히, 혈장 샘플 중의 종양 DNA 분획이 낮은 경우, 훨씬 더 클 것이다.
D. 종래의 "딥 시퀀싱"으로부터의 구별
울트라-딥 및 브로드 시퀀싱을 달성하기 위한 철저한 시퀀싱의 사용을 이전의 시퀀싱 방법으로부터 구별하는 다수의 특징이 존재한다. 일 양상에서, '딥 시퀀싱'이라 지칭되는 이전 시퀀싱 접근법 중 일부는 전형적으로 예를 들어, PCR에 의한 관심 표적 서열의 증폭을 포함할 것이다. 이어서, 앰플리콘이라고도 지칭되는 증폭된 DNA가 시퀀싱에 의해서 수 배로 시퀀싱된다. 이러한 접근법의 일례는 태깅된-앰플리콘 딥 시퀀싱이다(Forshew et al. Sci Transl Med 2012; 4: 136ra68). 다른 한편, 철저한 시퀀싱은 임의의 증폭 단계 없이 가장 효율적으로 실시되는데, 그 이유는 이때 검출된 단편 전부는 복제가 데이터가 아닌 본래 단편이기 때문에, 더 큰 폭 및 실제 깊이(겉보기 깊이에 상반됨)를 허용하기 때문이다. 겉보기 깊이라는 것은, 본 발명자들은 시퀀싱 출력의 비율이 PCR 복사체를 시퀀싱 하는데 소모되어, 시퀀싱의 정보 수율이 이의 깊이와 비례하지 않는 증폭된 시퀀싱 라이브러리의 시퀀싱을 지칭한다.
딥 시퀀싱은 전형적으로 증폭 단계를 사용하기 때문에, 시퀀싱 출력의 일정 비율은 PCR 복사체를 시퀀싱할 때 쓰인다. 이러한 PCR 복사체의 존재는 증폭된 시퀀싱 라이브러리의 딥 시퀀싱에 의해서 샘플 내의 모든 템플레이트 DNA 분자를 철저하게 분석하는 것을 매우 어렵게 할 것이다. 다수의 군이 예를 들어, 시퀀싱 라이브러리를 바코딩함으로써, 복사율에 관한 정보를 제공하기 위한 방법을 기재하였다(Kinde et al. Proc Natl Acad Sci USA 2011; 108: 9530-9535). 예를 들어, 킨데 등에 의해서 기술된 방법에서, 하기 3단계를 수행해야 한다: (i) 고유 식별자(unique identifier: UID)를 각각의 템플레이트 분자에 대해서 배정하는 단계, (ii) 각각의 고유의 태깅된 템플레이트 분자를 증폭시켜서 UID 패밀리를 생성하는 단계, 및 (iii) 증폭 산물을 리던던트(redundant) 시퀀싱하는 단계. 이에 반해서, 철저한 시퀀싱을 위한 PCR-미포함 라이브러리의 사용은 PCR 복사체에 의해서 유발되는 문제점을 회피할 것이고, 킨데 등에 의해서 기술된 방법이 필요하지 않을 것이다.
사실, 이전의 실시된 딥 시퀀싱 접근법의 대부분은 철저한 시퀀싱의 사용으로 성취될 있는 폭을 달성할 수 없다. 예를 들어, 앰플리콘 시퀀싱은 전형적으로 좁은 게놈 영역에 대해서 높은 깊이를 달성한다. 다중화(multiplexing)를 사용할 때에도, 포함되는 게놈의 전체 폭은 제한적이고, 게놈 전체로부터 동떨어져 있다. 본 출원에서 설명된 바와 같이, 암 스크리닝 시험의 경우, 게놈 전체 포함에 유사한 바와 같이, 가능한 많은 추정 돌연변이 부위를 포함하는 것이 바람직하다. 예를 들어, 매우 높은 정도의 다중 앰플리콘 시퀀싱, 예를 들어 각각 1,000개의 염기를 포함하는 3x106개의 앰플리콘을 적용하더라도, PCR 복사체는 이전에 기술된 바와 같이 문제가 될 것이다.
유사하게, 연구자들은 혼성화 포획을 적용하여 표적화 시퀀싱이라 지칭되는 선택적인 게놈 영역의 딥 시퀀싱을 달성하였다. 그러나, 포획 프로토콜은 전형적으로 증폭 단계를 포함한다. 표적 영역의 크기가 비교적 작은 경우, 표적화 시퀀싱이 혈장 DNA에서 수행될 때 PCR 복사체의 높은 비율, 일부 50% 심지어는 최대 90%(New et al. J Clin Endocrinol Metab 2014; 99: E1022-1030)이 도달될 것이다. PCR 복사의 이러한 높은 수준에서, 시퀀싱의 유효 깊이가 감소된다. 시퀀싱의 폭은 표적 영역의 크기에 의해서 제한된다.
이들 관찰은 연구자들이 넓고 깊은 시퀀싱을 동시에 달성하도록 동기부여되지 않는 것을 설명한다. 그러나, 본 출원에 기술된 철저한 시퀀싱을 채택하면, 인간 게놈의 큰 비율을 포획하는 것이 필요하지만, PCR 복사율이 최소치로 유지되는 것을 보장하도록 표적화 시퀀싱 프로파일을 변형시킬 수 있다. 예를 들어, 가벼운 증폭을 사용하여 시퀀싱 라이브러리를 제조하여 PCR 복사체를 최소치로 유지시킬 수 있다. 이어서, 분석법의 폭은 다수의 표적 패널로부터 데이터를 수집함으로써 성취되는 것이 필요할 것이다. 그러나, 이들 고려사항이 고려되는 경우, 표적화 접근법은 비-표적화된 철저한 시퀀싱 접근법보다 더 비용-효과적이지 않을 수 있다. 그러나, 게놈의 큰 부분의 표적 풍부화가 바람직한 다른 이유가 존재할 수 있다. 예를 들어, 한 부분이 신생 또는 체세포 돌연변이의 발생을 위한 클러스터링을 나타내면, 게놈의 반복 영역 또는 비-반복 영역에 대한 철저한 시퀀싱 노력에 초점을 맞출 필요성을 정당화시킬 수 있다. 예로서, 게놈의 지정염색질 영역 대신에 이질염색질(heterochromatin)에 대한 노력에 초점을 맞추는 것이 바람직할 수 있다.
E. 태아 분석용
혈장 DNA의 철저한 시퀀싱은 비침습적 산전 시험에 유용할 수 있다. 태아 DNA는 임신한 여성의 혈장 중에 존재하여(Lo et al. Lancet 1997; 350: 485-487), 태아의 비침습적 산전 시험(예를 들어 염색체 이수성 및 단일 유전자 장애)에 사용될 수 있다.
지금까지, 모체 혈장 DNA 시퀀싱에 의한 신생 태아 돌연변이의 측정은 대규모 병렬 서열기의 전류 생성의 시퀀싱 오류율에 의해서 방해된다([Kitzman et al. Sci Transl Med 2012; 4: 137ra76] 및 미국 특허 공개 제US 2015/0105261 A1호). 따라서, 이전에 연구된 접근법을 사용하면, 수 백만개의 후보 태아 신생 돌연변이가 모체 혈장에서 식별되지만, 잠재적인 위양성을 필터하기 위한 생물정보학적 단계가 혼입되더라도, 이들 중 단지 수 십개 만이 진 돌연변이일 것이다.
그러나, 모체 혈장 DNA의 철저한 시퀀싱을 사용하면, 이러한 문제점을 극복할 수 있다. PCR-미포함 라이브러리 제조 방법을 사용하면, 하나를 초과하는 모체 혈장 DNA 분자에서 식별된 후보 태아 신생 돌연변이가 진 돌연변이일 기회가 더 높을 것이다. 다른 실시형태에서, 보다 엄격한 분류 기준을 설정할 수 있는데, 예컨대 모체 혈장 샘플에서 2, 3, 4, 5 또는 그 초과의 횟수로 식별된다.
다수의 연구자가 태아 염색체 이수성을 검출하기 위한 비침습적 산전 시험을 위해서 헬리코스(Helicos) 플랫폼을 사용하는 단일 분자 시퀀싱을 사용하였다([van den Oever et al. Clin Chem 2012; 58: 699-706] 및 [van den Oever et al. Clin Chem 2013; 59: 705-709]). 그러나, 이러한 연구는 혈장 중의 분자의 작은 분획의 시퀀싱을 통해서 수행되었고, 따라서 딥 및 브로드 시퀀싱을 달성하지 않는다.
F. 철저한 시퀀싱의 추가 응용
또 다른 실시형태에서, 철저한 혈장 메틸롬 시퀀싱을 사용하여 신체 내에서 상이한 기관으로부터 유래된 혈장 DNA 분자를 식별할 수 있다. 이는 신체 내의 상이한 조직이 상이한 메틸화 프로파일을 갖기 때문에 가능하다. 디콘볼루션(deconvolution)의 공정을 통해서, 상이한 조직의 혈장 내에서의 상대적인 분포를 식별할 수 있다(Sun et al. Proc Natl Acad Sci USA 2015; 112: E5503-5512).
혈장 DNA의 철저한 시퀀싱의 또 다른 실시형태에서, 다수의 생리학적 방법 또는 병리학적 방법과 연관된 혈장 DNA에서 돌연변이를 식별할 수 있다. 일 실시형태에서, 이러한 방법은 노화와 연관될 것을 포함한다. 또 다른 실시형태에서, 이러한 방법은 환경적인 제제, 예를 들어, 오염물질, 방사선, 감염원, 유독성 화학물질 등과 연관된 것을 포함한다. 이러한 후자 실시형태에서, 상이한 방법은 이의 자신의 돌연변이 특징부를 가질 수 있다(Alexandrov et al. Nature 2013; 500: 415-421).
혈장 핵산의 철저한 시퀀싱은 또한 혈장 중의 mRNA 및 비-암호 RNA(예를 들어 마이크로RNA 및 긴 비-암호 RNA)의 시퀀싱에 적용될 수 있다. 이전 데이터는, 전사체 프로파일링(transcriptomic profiling)이 혈장 샘플로부터 디콘볼루션될 다양한 조직으로부터의 기여를 허용할 것이라는 것을 보여주었다(Koh et al. Proc Natl Acad Sci USA 2014; 111: 7361-7366). 혈장의 철저한 전사체 시퀀싱은 추가로 이러한 접근법의 강건성 및 유용성을 증진시킬 것이다.
V. 돌연변이 식별을 위한 필터링 기준
상기 섹션 III.B에서 기술된 바와 같이, 돌연변이 식별의 특이성 및 이러한 돌연변이를 사용한 임의의 시험(예를 들어, 암의 수준을 측정하기 위해서 돌연변이 하중 사용)은, 돌연변이를 갖는 하나 이상의 서열 판독물이 정렬된 좌위에 필터링 기준을 적용함으로써 개선될 수 있다. 암에 대한 예로서, 높은 특이성은 유전자 또는 게놈 특징부를 그것이 암 연관된 높은 신뢰도가 존재하는 경우에만 양성인 것으로서 스코어링함으로써) 달성될 수 있다. 이는, 돌연변이로서 잘못 식별될 수 있는 시퀀싱 및 정렬 오류의 수를 최소화함으로써, 예를 들어 건강한 대조군의 군의 게놈 프로파일과 비교함으로써 달성될 수 있고/있거나 사람 자신의 구성적 DNA와 비교함으로써 달성될 수 있고/있거나 초기에 사람의 게놈 프로파일과 비교함으로써 달성될 수 있다.
다양한 기준이 돌연변이를 보유하는 DNA 단편의 가능성에 접근하기 위한 필터링 기준으로서 적용될 수 있다. 상기에 기술된 바와 같이, 각각의 필터링 기준이 동일한 가중 또는 상이한 가중과 개별적으로, 독립적으로, 일괄적으로, 또는 이전 필터링 단계의 결과에 따라서 특정 순서로 일렬로 또는 조건부로 사용될 수 있다. 필터링 기준의 예가 하기에 제공된다.
A. 동적 컷오프
단일 뉴클레오타이드 변이체, 즉 돌연변이 및 다형체를 시퀀싱 오류로 인한 뉴클레오타이드 변화로부터 구별하기 위해서 하나 이상의 동적 컷오프 필터링 기준을 사용할 수 있다. 맥락에 따라서, 돌연변이는 "신생 돌연변이"(예를 들어, 태아의 구성적 게놈에서의 신규 돌연변이) 또는 "체세포 돌연변이"(예를 들어, 종양에서의 돌연변이)일 수 있다. 복수의 좌위 각각에 대해서 다양한 파라미터 값이 결정될 수 있고, 여기서 각각의 파라미터를 각각의 컷오프 값과 비교한다. 파라미터 값이 컷 오프를 충족시키지 않으면, 좌위는 잠재적인 돌연변이를 갖는 것으로서 폐기될 수 있다.
암에서 체세포 돌연변이의 식별을 위해서, 사람의 구성적 DNA(예를 들어 버피코트) 및 혈장 DNA로부터의 높은-깊이 시퀀싱 데이터를 비교하여 혈장 DNA에서 이형접합성(AB)인 부위 및 구성적 DNA에서 동형접합성(AA)인 부위를 식별할 수 있다. "A" 및 "B"는 각각 야생형 및 돌연변이 대립유전자를 지칭한다. 본 명세서에서, 본 발명자들은 돌연변이 검출을 위한 동적 컷오프 전략을 실시하는 한 실시양태를 설명하고, 여기서 이항 및 푸아송 분포 모델을 사용하여 3개의 파라미터를 계산하였다.
제1 파리미터와 관련하여, 구성적 DNA에서의 동형접합 부위(AA)를 결정하는 정확도는 시퀀싱 오류에 의해서 영향을 받는다. 시퀀싱 오류는 관련 기술 분야의 통상의 기술자에게 공지된 다수의 방법에 의해서 예측될 수 있다. 예를 들어, 일루미나 HiSeq 플랫폼의 시퀀싱 오류율("ε"으로 지칭됨)은 0.003인 것으로 예측된다. 시퀀싱된 계수치가 이항 분포를 따른다고 가정하고, 본 발명자들은 제1 파리미터, 스코어 1을,
스코어 1 = 1-pbinom(c, D, ε)로서 계산하였다. D는 시퀀싱 깊이를 나타내고, 이것은 "c"와 "a"의 합과 같다. "c"는 돌연변이 대립유전자 B를 포함하는 서열 판독물의 수를 지칭한다. "a"는 야생형 A 대립유전자를 포함하는 서열 판독물의 수를 지칭한다. "pbinom"은 이항 누적 분포 함수이고, 하기와 같이 표현될 수 있고:
Figure pct00001
여기서,
Figure pct00002
는 수학적 조합 함수, 즉 시퀀싱 깊이 D로부터 돌연변이 대립유전자를 i회 선택한 조합의 수를 나타내고, 이것은
Figure pct00003
로서 계승(factorial)을 사용하여 추가로 표현될 수 있다. 스코어1의 값이 높을수록 실제 유전자형이 AA인 것이 더 확실하다. 0.01 초과의 컷오프가 사용될 수 있다. 이러한 파라미터는 시퀀싱 오류의 영향을 제어하기 위해서 사용될 수 있다.
제2 파라미터와 관련하여, 구성적 게놈에서의 관찰된 야생형 AA(동형접합)가 SNP 좌위의 불충분한 시퀀싱 깊이로 인해서 실제 AB(이형접합) 유전자형로부터 잘못 지칭될 기회가 존재한다. 이러한 유형의 오류의 영향을 최소화하기 위해서,본 발명자들은 제2 파라미터, 스코어2를, 스코어2 = ppois(b, D/2)로서 계산하였고, 여기서 "b"는 B 대립유전자를 포함하는 시퀀싱 계수치의 수이고, "ppois"는 푸아송 누적 부피 함수이고, 이는 하기와 같이 표현될 수 있고:
Figure pct00004
여기서 λ는 가닥(즉 D/2) 당 평균 시퀀싱 깊이이고; e는 자연 로그의 기준치(약 2.717828)이다. 스코어2의 값이 낮을수록, 실제 유전자형이 AA인 것이 더 확실하다. 예를 들어, <0.001, 0.0001, 10-10 등의 컷-오프가 사용될 수 있다. 이러한 파라미터는 유사 동형접합 부위를 보이는 이형접합 부위를 지칭하는 탈락된 대립유전자 또는 변이체를 제어하는 데 사용될 수 있는데, 그 이유는 하나의 대립유전자 또는 변이체가 증폭될 수 없어서, 이러한 누락된 대립유전자 또는 변이체가 탈락되기 때문이다. 하기 특정 데이터는 스코어1 > 0.01 및 스코어2 < 0.001의 컷오프를 사용하고, 여기서 스코어1 및 스코어2는 버피 코트가 동형접합성인 것을 보장하는 데 사용될 수 있다.
제3 파라미터와 관련하여, 관찰된 돌연변이체 AB가 시퀀싱 오류로 인해서 실제 AA 유전자형으로 잘못 불릴 기회가 존재한다. 이러한 유형의 오류를 최소화하기 위해서, 본 발명자들은 제3 파라미터, 스코어3을 하기와 같이 분류하였고:
Figure pct00005
, 여기서
Figure pct00006
는 수학적 조합 함수, 즉 시퀀싱 깊이 D로부터 돌연변이 대립유전자를 b회 선택한 조합의 수를 나타내고, 깊이 D는 계승을 사용하여
Figure pct00007
로서 추가로 표현될 수 있고; "ε"는 시퀀싱 오류율을 나타내고, 이것은 본 예에서 0.003인 것으로 예측되었다. 스코어3의 값이 낮을수록, 실제 유전자형이 AB인 것이 더 확실하다. 예를 들어, <0.001, 0.0001, 10-10 등의 컷-오프가 사용될 수 있다.
스코어1 및 스코어2는 구성적 조직에 적용될 수 있고, 스코어 3은 혼합물(종양 또는 혈장)에 적용될 수 있다. 따라서, 스코어1, 스코어2, 및 스코어3을 조정함으로써 구성적 조직과 혼합물 샘플 간의 공동 분석을 수행하여 잠재적인 돌연변이를 결정할 수 있다.
각각의 스코어의 계산에 대해서 상이한 역치가 의도된 목적에 따라서 동적 컷오프에서 사용될 수 있다. 예를 들어, 체세포 돌연변이의 식별에서 높은 특이성이 선호되면 스코어3에 대한 더 낮은 값이 사용될 수 있다. 유사하게, 체세포 돌연변이의 더 높은 총합을 검출하는 것이 선호되면 스코어3에 대한 더 높은 값이 사용될 수 있다. 식별된 체세포 돌연변이의 특이성은 예를 들어, 하기에 기술된 바와 같은, 다른 필터링 파라미터를 사용함으로써 개선될 수 있다. 다른 수학적 모델 또는 통계학적 모델, 예를 들어 카이 제곱 분포(Chi square distribution), 감마 분포, 정상 분포, 또는 다른 유형의 혼합 모델이 또한 사용될 수 있다. 이 방법은 태아 신생 돌연변이의 식별에 대해서 유사하게 적용될 수 있다.
B. 재정렬
하나 이상의 재정렬 필터링 기준은 시퀀싱 데이터로부터의 서열 변이체의 검출시에 시퀀싱 및 정렬 오류의 효과를 감소시킬 수 있고, 따라서 돌연변이의 식별시에 위양성을 또한 감소시킬 수 있다. 재정렬을 사용한 다양한 실시양태가 이제 기술된다.
초기(제1)정렬 절차에서, 시퀀싱 판독물을 예를 들어, 관련 기술 분야의 통상의 기술자에게 입수 가능한 임의의 정렬 기술, 예를 들어 SOAP2 (Li et al. Bioinformatics 2009; 25: 1966-7)에 의해서 표준 게놈(예를 들어, 표준 인간 게놈)에 대해서 정렬(맵핑)할 수 있다. 좌위에 대한 정렬 후에, 게놈(예를 들어, 대상체 또는 대상체와 연관된 표준 게놈, 구성적 게놈 또는 대상체의 부모의 게놈)에 대한 비교를 수행하여 서열 변이체가 판독물에서 존재하는지의 여부를 식별할 수 있다.
추정 변이체를 보유하는 서열 판독물을 독립(제2) 정렬자, 예를 들어 보타이(Bowtie)2 (Langmead et al. Nat Methods 2012; 9: 357-9)의 사용을 통해서 표준 인간 게놈에 재정렬(재 맵핑)한다. 독립 정렬자는 매칭 알고리즘의 사용에 대해서 초기 정렬자와 상이할 것이다. 초기 정렬자 및 재정렬자에 의해서 사용된 매칭 알고리즘의 예는 예를 들어, 스미쓰-워터만(Smith-Waterman) 알고리즘, 니들만-번쉬(Needleman-Wunsch) 알고리즘, 및 버로우즈-윌러 변환(Burrows-Wheeler transformation)을 포함할 수 있지만 이에 제한되는 것은 아니다. 재정렬은 식별된 돌연변이의 품질 및 확실성(certainty)을 식별하고, 정량화할 수 있다. 독립 정렬자는 다른 방식에서, 마찬가지로, 예컨대 유효 정렬 보고의 역치, 삽입/결손 및 미스매칭에 대한 페널티, 허용되는 미스매칭의 수, 정렬을 위한 시드로서 사용될 뉴클레오타이드의 수가 초기 정렬자와 상이할 수 있다.
일부 실시형태에서, 하기 재정렬 기준을 단독으로 또는 조합으로 사용하여 맵핑된 판독물을 저-품질 서열 판독물로서 식별할 수 있다: (1) 돌연변이를 보유한 서열 판독물이 독립 정렬자에 의해서 회수되지 않고 서열 판독물과 정렬(맵핑)되지 않음; (2) 독립 정렬자를 사용하여 본래 정렬을 검증하는 경우 돌연변이를 보유한 서열 판독물이 일관되지 않은 맵핑 결과를 나타냄(예를 들어, 맵핑된 판독물이 본래 정렬 결과에 비교하여 상이한 염색체에 위치됨); (3) 동일한 게놈 좌표에 정렬된 돌연변이를 보유한 서열 판독물이 독립 정렬자를 사용하여 규정된 역치보다 낮은 맵핑 품질을 나타냄(예를 들어, 맵핑 품질 ≤ Q20(즉 불량 정렬 확률 <1%)―역치의 다른 예는 불량 정렬 확률의 0.5%, 2%, 및 5%일 수 있음; (4) 서열 판독물이 두 판독물 말단 중 하나(즉 5' 또는 3' 말단)의 5bp 내에 위치된 돌연변이를 가짐. 이러한 마지막 필터링 규칙이 중요할 수 있는데, 그 이유는 시퀀싱 오류는 서열 판독물의 양 말단에서 더 우세하였기 때문이다. 맵핑 품질은 정렬자 내에서 미터법(metric)으로 규정되고, 서열 판독물이 불량 정렬되는 확률을 명시한다. 상이한 정렬자는 상이한 미터법을 사용할 수 있다.
돌연변이를 보유하는 서열 판독물 중의 저-품질 서열 판독물의 비율이 특정 역치(예를 들어, 30%, 35% 40%, 45%, 또는 50%)를 초과하면, 후보 돌연변이 부위가 폐기될 수 있다. 따라서, 남아있는 서열 판독물이 역치보다 낮으면, 좌위는 적어도 일부 조직(예를 들어, 종양의 조직 또는 태아의 조직)에서 돌연변이를 갖는 것으로 식별된 좌위 세트로부터 폐기될 수 있다.
GATC(www.gatc-biotech.com) 및 MuTect 알고리즘(Cibulskis et al. Nat Biotechnol 2013; 31: 213-219)으로부터의 노력을 비롯한 이전의 연구에서, 단지 잠재적인 삽입 또는 결손이 재정렬되었다. 이러한 다른 방법은 상이한 정렬자로부터의 데이터를 사용하여 서열 판독물의 품질 스코어를 재계산하지 않는다. 추가로, 재계산된 품질 스코어는 추정 변이체 또는 돌연변이를 필터링하는 목적을 위해서 사용될 수 있다는 것이 밝혀져 있지 않다. 재정렬 절차 사용의 효능을 설명하기 위해서 데이터를 하기에 나타낸다.
C. 돌연변이 분획
관련 기술 분야의 통상의 기술자는 모체 혈장 중의 태아 DNA의 분획 농도 또는 암 대상체의 혈장 중의 종양 DNA의 분획 농도를 측정하는 데 사용 가능한 방법이 존재한다는 것을 인식할 것이다. 따라서, 일 실시형태에서, 진 정보성 DNA 단편을 식별할 기회를 개선시키기 위해서, 또 다른 방법에 의해서 측정된 분획 농도와 동일하거나 더 높은 분획 계수치를 갖는 대립유전자 또는 변이체 만이 진 변이체 또는 돌연변이로서 간주될 것이다. 분획 농도 컷오프는 돌연변이 분획 역치(M%), 또는 단지 분획 역치라 지칭된다. 다른 실시는 측정된 분획 농도보다 낮은 역치를 사용할 수 있지만, 선택된 역치는 측정된 값(예를 들어, 측정된 분획 농도의 명시된 백분율 내에서)에 좌우될 수 있다.
또 다른 실시형태에서, 심지어는 다른 값이 측정된 태아 DNA 분획 또는 종양 DNA 분획에 관계없이 돌연변이 분획 역치로서 채택될 수 있다. 돌연변이 식별에서의 더 높은 특이성이 바람직한 경우, 더 높은 M%가 컷오프로서 사용될 수 있다. 돌연변이 식별에서의 더 높은 감도가 바람직한 경우, 더 낮은 M%가 컷오프로서 사용될 수 있다. 분획 역치에 대한 예는 5%, 10%, 15%, 20%, 25%, 및 30%를 포함한다.
추가의 또 다른 실시형태에서, 근접 염색체 영역 내에서의 추정 돌연변이의 대립유전자 분획의 분산도는 그 영역으로부터의 DNA 단편의 정보성 암 DNA 단편으로서의 가능성에 관련된 정보를 제공할 수 있다. 예를 들어, 관심 근접 염색체 영역은 사본 수 일탈을 갖는 것일 수 있다. 사본 수 이득을 갖는 영역에서, 종양-유래 DNA가 풍부할 것이다. 따라서, 진 체세포 돌연변이의 대립유전자 분획은 사본 수 손실을 갖는 영역보다, 이득을 갖는 그러한 영역에서 더 높을 것이라고 예측된다(이러한 후자 영역에서의 종양-유래 DNA의 결손으로 인함).
진 추정 돌연변이의 대립유전자 비율의 범위 또는 분산도는 복사 손실 영역보다 복사 이득 영역에서 더 클 것이다. 따라서, 상이한 M%는 진 체세포 돌연변이를 식별할 가능성을 증가시키기 위해서 복사수 이득 또는 손실을 갖는 영역을 위한 필터링 컷오프로서 설정될 수 있다. 관찰된 혈장 돌연변이 분획에서의 분산도를 명시한 컷오프를 또한 사용하여 종양-유래 DNA가 보다 풍부하거나(사본 수 이득을 갖는 영역) 또는 보다 고갈될(사본 수 손실을 갖는 영역) 개연성이 더 큰 염색체 영역으로부터 유래된 DNA 분자를 식별할 수 있다. 이어서, 정보성 암 DNA 단편일 DNA 단편의 가능성에 관련하여 결정을 수행할 수 있다.
D. 크기 필터
혈장 DNA는 일반적으로 길이가 < 200bp인 단편으로서 순환하지만, 태아-유래 및 종양-유래 혈장 DNA 분자는 배경 비-태아 및 비-종양 DNA 분자 각각보다 더 짧다(문헌[Chan et al. Clin Chem 2004; 50: 88-92] 및 [Jiang et al. Proc Natl Acad Sci USA 2015; 112: E1317-1325]). 따라서, 짧은 크기는, 혈장 DNA 단편이 태아 또는 종양-유래일 가능성을 증가시키는 또 다른 특징으로서 사용될 수 있다. 따라서, 일부 실시형태에서, DNA 크기 필터링 기준이 적용될 수 있다.
다양한 크기 기준이 사용될 수 있다. 예를 들어, 돌연변이 대립유전자를 보유하는 DNA 단편과 야생형 대립유전자를 보유하는 DNA 단편 간의 중간 크기에서의 역치 차이는 적어도 염기의 특정 수인 것이 요구될 수 있고, 이것은 △S로서 표현될 수 있다. 따라서, △S≥10bp가 크기 필터 기준으로서 사용될 수 있다. 다른 크기 역치의 예는 0bp, 1bp, 2bp, 3bp, 4bp, 5bp, 6bp, 7bp, 8bp, 9bp, 11bp, 12bp, 13bp, 14bp, 15bp, 16bp, 17bp, 18bp, 19bp 및 20bp를 포함한다. 다른 통계학적 시험, 예를 들어 t-시험, 만-위트니 유(Mann-Whitney U) 시험, 콜모고로프-스미노프(Kolmogorov-Smirnov) 시험 등이 또한 사용될 수 있다. 통계학적 시험을 사용하여 p-값을 결정하고, 이것을 역치와 비교하여 서열 변이체를 보유하는 DNA 단편이 야생형 대립유전자를 보유하는 것보다 상당히 더 짧은지를 결정할 수 있다. p-값에 대한 역치의 예는 0.05, 0.01, 0.005, 0.001, 0.0005, 및 0.0001을 포함할 수 있지만 이에 제한되는 것은 아니다.
따라서, 일 실시형태에서, 시퀀싱된 혈장 DNA 분자에 대한 크기 정보를 수득할 수 있다. 전체 DNA 분자를 시퀀싱하는 것을 포함하는, 페어드-엔드 시퀀싱(paired-end sequencing)을 사용하여 이를 행할 수 있다. 후자의 경우, 혈장 DNA 분자는 일반적으로 166bp 미만이기 때문에, 전체 DNA 분자의 시퀀싱은 다수의 짧은-판독물 대규모 병렬 시퀀싱 플랫폼을 사용하여 쉽게 수행될 수 있다. 암 세포로부터 유래된 혈장 DNA는 일반적으로 짧지만, 종양주변 또는 비-종양 조직은 일반적으로 길기 때문에(Jiang et al. Proc Natl Acad Sci 2015; 112: E1317-1325), 혈장 DNA의 크기 정보를 갖는 것은 시퀀싱된 단편을 암 또는 비-암 세포로부터 유래된 것으로서 분류하는 것을 추가로 도울 것이다. 이러한 정보는 암의 스크리닝, 검출, 예측, 및 모니터링을 추가로 도울 것이다.
그리고, 모체 혈장 중의 태아 DNA는 모체 DNA보다 더 짧기 때문에(문헌[Chan et al. Clin Chem 2004; 50: 88-92] 및 [Yu et al. Proc Natl Acad Sci USA 2014; 111: 8583-8588]), 철저한 혈장 DNA 시퀀싱으로부터의 결과를 해석할 때 혈장 DNA의 크기 정보를 또한 활용할 수 있다. 따라서, 모체 혈장 중의 더 짧은 단편은 태아-유래일 더 높은 기회를 갖는다.
E. 메틸화 상태
DNA 메틸화 프로파일은 상이한 조직들 간에 상이하다. 일부 메틸화 특징부는 상대적으로 조직-특이적이다. 예를 들어, SERPINB5의 프로모터는 태반에서는 저메틸화되고(Chim et al. Proc Natl Acad Sci USA 2005; 102: 14753-14758), RASSF1A의 프로모터는 태반에서 과메틸화된다(Chiu et al. Am J Pathol 2007; 170: 941-950). RASSF1A를 비롯한, 특정 종양 억압 유전자의 프로모터는 암에서 과메틸화된다. 그러나, 태반(Lun et al. Clin Chem 2013; 59: 1583-1594) 및 암 조직(Chan et al. Proc Natl Acad Sci 2013; 110: 18761-18768)은 특히 비-프로모터 영역에서, 전체적으로 저메틸화되는 것이 밝혀져 있다.
모체 혈장 중의 태아 DNA는 모체-유래 DNA와 상이한 DNA 메틸화 패턴을 갖는 것으로 밝혀져 있기 때문에, DNA 메틸화 정보는 시퀀싱된 분자가 모체 유래된 확률 또는 태아 유래된 확률을 예측하는 것을 도울 수 있다. 일 실시형태에서, 태반은 모체 혈장 중의 태아 DNA의 주요 공급원이고, 태반 DNA는 모체 혈액 세포 DNA보다 더 저메틸화되기 때문에(Lun et al. Clin Chem 2013; 59: 1583-1594), 모체 혈장으로부터 시퀀싱된 저메틸화된 DNA 단편은 태아-유래된 것일 개연성이 더 크다. 유사하게, 일 실시형태에서, 종양 DNA는 혈액 세포 DNA보다 더 저메틸화되기 때문에(Chan et al. Proc Natl Acad Sci 2013; 110: 18761-18768), 암에 대해서 시험된 개인의 혈장으로부터 시퀀싱된 저메틸화된 DNA 단편을 함유한 추정 (후보) 돌연변이는 저메틸화되지 않은 것보다 암-연관된 것 또는 암-특이적인 것일 개연성이 더 크다.
메틸화 상태는 좌위가 돌연변이를 나타내는지의 여부를 결정하기 위해서 다양한 방식으로 사용될 수 있다. 예를 들어, 메틸화 밀도의 역치량은, 좌위가 돌연변이인 것으로 간주되기 전에 돌연변이를 갖는 좌위에 대해서 DNA 단편을 정렬하는 것이 요구될 수 있다. 또 다른 예로서, 예를 들어 DNA 단편 당 단지 하나의 CpG 부위가 존재하는 CpG 부위의 이항 스코어링(binary scoring)이 사용될 수 있다. CpG 부위는, 하나의 DNA 단편이 예측된 메틸화 상태를 갖지 않으면 폐기될 수 있다. DNA 단편의 폐기 여부는 다른 필터링 기준에 좌우될 수 있다. 예를 들어, DNA 단편이 충분히 짧으면, DNA 단편은 유지될 수 있다. 이는, 다양한 필터링 기준을 상이한 가중과 조합하여 사용하거나 결정 트리의 일부로서 조합하여 사용한 예이다.
혈장 DNA의 메틸화 분석은 바이설파이트 전환, 메틸화-민감성 제한 효소 절단 또는 메틸-결합 단백질 처리를 비롯한 메틸화-인식 접근법에 의해서 달성될 수 있다. 이들 메틸화-인식 방법 전부는 대규모 병렬 시퀀싱, 단일 분자 시퀀싱, 마이크로어레이, 디지털 PCR 또는 PCR 분석 이후에 수행될 수 있다. 또한, 일부 단일 분자 시퀀싱 프로토콜은 다른 메틸화-인식 방법에 의한 전처리 없이 DNA 분자의 메틸화 상태를 직접 판독할 수 있다(Ahmed et al. J Phys Chem Lett 2014; 5: 2601-2607).
사이토신 메틸화뿐만 아니라, 다른 형태의 DNA 메틸화, 예컨대 하이드록시메티사이토신(이에 제한되지 않음)이 존재한다(Udali et al. Hepatology 2015; 62: 496-504). 뇌 조직(Sherwani and Khan. Gene 2015; 570: 17-24) 및 흑색종(Lee et al. Lab Invest 2014; 94: 822-838)은 하이드록시메틸사이토신의 더 높은 비율을 나타낸다.
F. 혈장 DNA 말단 위치
종결 뉴클레오타이드 또는 말단 위치의 좌표를 기초로 한 잠재적인 암-특이적인 돌연변이 또는 암-연관된 돌연변이 또는 태아 돌연변이의 필터링이 또한 수행될 수 있다. 본 발명자들은 무작위적이 아니고, 기원 조직을 기초로 달라지는 DNA 단편의 말단 위치를 식별하였다. 따라서, 말단 위치는 추정 돌연변이를 갖는 서열 판독물이 실제로 태아 조직 또는 종양 조직으로부터 유래한 가능성을 결정하는 데 사용될 수 있다.
최근, 혈장 DNA의 단편화 패턴은 비-무작위성인 것이 밝혀졌다(문헌[Snyder et al. Cell 2016; 164: 57-68] 및 PCT 국제 특허 제WO 2016/015058 A2호). 혈장 DNA 단편화 패턴은 혈장 DNA 분자에 기여한 세포의 게놈에서의 클레오솜 위치결정, 전사 인자 결합 부위, DNase 절단 또는 과민성 부위, 발현 프로파일([Snyder et al. Cell 2016; 164: 57-68] 및 PCT 특허 제WO 2016/015058호; [Ivanov et al. BMC Genomics 2015; 16 Suppl 13:S1]) 및 DNA 메틸화 프로파일(Lun et al. Clin Chem 2013; 59: 1583-1594)에 의해서 영향을 받는다. 따라서, 단편화 패턴은 상이한 조직 기원의 세포에 대해서 상이하다. 보다 빈번한 단편을 나타내는 게놈 영역이 존재하지만, 그 영역 내에서의 실제 혈장 DNA 절단 부위는 여전히 무작위적일 수 있다.
본 발명자들은 상이한 조직이 상이한 절단 부위 또는 말단 위치를 갖는 혈장 DNA 단편의 방출과 연관된다는 가설을 세웠다. 다시 말해서, 특이적인 절단 부위 조차 비-무작위적이다. 사실, 본 발명자들은 암 환자에서의 혈장 DNA 분자가 암을 갖지 않는 환자와 상이한 말단 위치를 나타낸다는 것을 발견하였다. 일부 실시형태는 정보성 암 DNA 단편으로서의 이러한 암-연관된 말단 위치를 갖는 혈장 DNA 분자를 사용할 수 있거나, 예를 들어, 하나 이상의 다른 필터링 기준과 함께, 필터링 기준으로서 이러한 말단 위치 정보를 사용할 수 있다. 따라서, 이러한 암-연관된 혈장 DNA 말단 위치의 식별을 사용하면, 혈장 DNA 단편을 정보성 암 DNA 단편으로서 스코어링할 수 있거나, 이러한 단편의 말단 위치의 본성에 기초하여 미분 가중치(differential weighting)를 부여할 수 있다. 이러한 기준은 단편이 암, 특정 기관, 또는 특정 기관의 암으로부터 유래할 가능성을 평가하는데 사용될 수 있다.
따라서, 혈장 DNA 단편이 추정 돌연변이뿐만 아니라 암-연관된 말단 위치를 나타내면, 혈장 DNA 단편은 정보성 암 DNA 단편일 기회가 더 높을 것이다. 다양한 실시형태는 또한 이러한 단편의 상태 및 이의 길이 또는 이러한 파라미터 또는 다른 파라미터의 임의의 조합을 고려할 수 있다. 혈장 DNA 단편이 두 개의 말단을 갖기 때문에, 이의 말단 중 하나 또는 둘 모두가 암과 연관되거나 암과 연관된 조직 유형으로부터 유래하는지를 고려함으로써 그것을 암-유래 단편으로 식별하기 위해서 가중치를 추가로 변형시킬 수 있다. 단 가닥 DNA 단편이 시퀀싱 라이브러리로 전환되는 가능성을 증가시키는 라이브러리 제조 방법의 사용은 다음 섹션에서 논의된 바와 같이, 이러한 후자 실시형태의 효율을 향상시킬 것이다(이러한 라이브러리 제조 방법의 예를 위해서, 문헌[Snyder et al. Cell 2016; 164: 57-68]을 참고하기 바람). 일 실시형태에서, 말단 위치에 기초한 유사한 접근법은 또한 다른 병리학적 방법 또는 생물학적 방법과 연관된 검출 돌연변이(예를 들어, 노화 과정으로 인한 돌연변이 또는 환경적인 돌연변이 인자로 인한 돌연변이)를 위해서 사용될 수 있다.
태아를 갖는 임신한 여성의 혈장 중의 DNA를 시퀀싱함으로써 태아의 신생 돌연변이를 식별하기 위해서 유사한 접근법이 또한 사용될 수 있다. 따라서, 태반에 대해서 특이적이거나 비교적 특이적인 말단 위치의 식별 이후에, 모체 혈장 중의 이러한 DNA 단편이 또한 태반-특이적이거나 태반에 풍부한 말단 위치를 보유하면 추정 태아 신생 돌연변이가 진 돌연변이인 더 높은 가중치를 부여할 수 있다. 혈장 DNA 단편이 두 개의 말단을 갖기 때문에, 이의 말단 중 하나 또는 둘 모두가 태반과 연관되는지를 고려함으로써 그것을 태아-유래 단편으로 식별하기 위해서 가중치를 추가로 변형시킬 수 있다.
이러한 접근법의 실행 가능성을 설명하기 위해서, HCC 환자 및 임신한 여성에 대한 혈장 DNA의 시퀀싱 데이터를 분석하였다. 설명 목적을 위해서, 분석법은 염색체 8에 초점을 맞췄다. 동일한 접근법을 전체 게놈 또는 임의의 다른 염색체 또는 임의의 게놈 영역 또는 이들의 조합에 적용할 수 있다.
각각의 시퀀싱된 혈장 DNA 단편의 양 말단에서 종결 뉴클레오타이드의 좌표를 결정하였다. 이어서, 염색체 8 상의 각각의 뉴클레오타이드 상에서 끝난 단편의 수를 계수하였다. 그것 상에서 끝난 DNA 단편의 가장 많은 수를 갖는 상위 1x106개의 뉴클레오타이드를 HCC 경우 및 임신한 여성으로부터의 혈장 샘플 각각에 대해서 측정하였다.
도 5는 본 발명의 실시형태에 따른 HCC 경우에 대해서 특이적이거나, 임산부에 대해서 특이적이거나, 두 경우 모두에 의해서 공유된 빈번한 말단 위치의 수를 나타낸 벤 다이아그램이다. 이어서, 두 경우에 의해서 공유된 빈번한 말단 위치인 463,228개의 뉴클레오타이드의 좌표를 식별하였다. HCC 경우의 대해서, 공유된 463,228개의 뉴클레오타이드를 상위 1x106개로부터 뺄셈하여 HCC 경우에 대해서 특이적인 빈번한 말단 위치인 536,772개의 뉴클레오타이드의 좌표를 식별하였다. 유사하게, 공유된 463,228개의 뉴클레오타이드를 임신 경우에 대해서 가장 일반적인 말단 위치인 1x106개로부터 뺄셈하여 임신한 여성에 대해서 특이적인 빈번한 말단 위치인 536,772개의 뉴클레오타이드의 좌표를 또한 식별하였다.
실제로 536,772개의 HCC-특이적인 말단 위치에서 끝난 종결 뉴클레오타이드를 갖는 혈장 DNA 단편은 종양으로부터 유래됐을 개연성이 더 클 것이다. 이에 반해서, 실제로 임신-특이적인 말단 위치 또는 두 경우에 의해서 공유된 위치에서 끝난 종결 뉴클레오타이드를 갖는 혈장 DNA 단편은 종양으로부터 유래됐을 개연성이 더 적을 것이고, 임신-특이적인 말단 위치는 잠재적으로 더 적을 것이고, 가중을 사용하는 임의의 실시형태에서 더 낮은 가중이 제공된다.
따라서, HCC 경우에 대해서 특이적인 상위 말단 위치의 목록을 사용하여 암-연관 돌연변이를 선택할 수 있고, 임신 경우에 대해서 특이적이거나 두 경우 모두에 의해서 공유된 상위 말단 위치의 목록을 사용하여 위양성 돌연변이를 필터링할 수 있다. 비침습적 산전 시험에서 태아 돌연변이를 식별하고, 위양성 돌연변이를 필터링하기 위해서 유사한 절차가 사용될 수 있다.
일반적으로, 이러한 생물학적으로 관련된 혈장 DNA 말단 위치를 식별하기 위해서, 상이한 질환을 갖는 개체의 군으로부터의 혈장 DNA 샘플 또는 역학적 배경(epidemiological background) 또는 생리학적 프로파일을 이러한 질환을 갖지 않는 개체의 또 다른 군으로부터의 샘플 또는 배경 또는 프로파일과 비교할 수 있다. 일 실시형태에서, 이들 샘플 각각을 깊게 시퀀싱하여 혈장 DNA 단편의 일반적인 말단 위치를 각각의 샘플 내에서 식별할 수 있다. 또 다른 실시형태에서, 상보적인(complimentary) 프로파일을 갖는 사람의 군으로부터의 서열 데이터를 질환 또는 생리학적 프로파일을 대표하는 일반적인 말단 위치의 식별을 위해서 함께 수집할 수 있다.
이러한 분석법의 목표는, 질환 또는 생물학적으로 관련된 프로파일을 갖지 않는 개체가 아니라, 질환 또는 생물학적으로 관련된 프로파일을 갖는 개체에 일반적인 혈장 DNA 말단 위치를 식별하는 것이다. 예를 들어, 그 비교는 암을 갖는 개체와 암을 갖지 않는 개체, 특정 기관 또는 조직의 암을 갖는 개체와 특정 기관 또는 조직의 암을 갖지 않는 개체, 임신한 개체와 임신하지 않은 개체, 특정 임신-연관된 또는 태아 질환을 갖는 임신한 개체와 특정 임신-연관된 또는 태아 질환을 갖지 않는 임신한 개체, 및 상이한 연령의 개체를 포함할 수 있다. 표준 샘플의 군에서 식별된 후 조직-특이적인 혈장 DNA 말단 위치 또는 질환-관련된 혈장 DNA 말단 위치는 시험 샘플의 해석을 위한 표준 세트가 된다.
샘플 중의 각각의 혈장 DNA 단편은 개별적으로 조사될 수 있고, 가능성 스코어(likelihood score)가 말단 위치를 기초로 배정될 수 있다. 특정 말단 위치에 대한 가능성 스코어는 대조군에 대해서 끝난 서열 판독물의 양에 상대적인 표적 개체(예를 들어, 암)에 대한 말단 위치에서 끝난 서열 판독물(예를 들어, 샘플을 통한 시퀀싱 깊이에 의해서 정규화된 서열 판독물의 백분율 또는 다른 값)의 양의 분리에 좌우될 수 있다. 더 큰 분리는 더 높은 특이성으로 이어질 것이고, 따라서 더 높은 공산 스코어가 적용될 수 있다. 따라서, 특이적인 말단 위치를 갖는 혈장 DNA 단편을 질환-연관될 것 같거나 그렇지 않거나, 태아 또는 모체 등에 연관될 것 같은 것으로 분류하는 것이 수행될 수 있다.
대안적으로, 동일한 영역으로부터 기원한 혈장 DNA 단편은 일괄적으로 해석될 수 있고, 즉, 특정 뉴클레오타이드에서 말단의 빈도는 시퀀싱 깊이로 정규화함으로써 계산될 수 있다. 이러한 방식에서, 특정 뉴클레오타이드는 예를 들어, 더 많은 샘플이 사용될 수 있지만 특정 유형의 하나의 샘플의 분석 만을 기초로, 게놈 내의 다른 위치에 상대적인 일반적인 말단 위치에 존재하는 것으로 식별될 수 있다. 따라서, 특이적인 말단 위치를 갖는 혈장 DNA 단편을 질환-연관될 것 같거나 그렇지 않거나, 태아 또는 모체 등에 연관될 것 같은 것으로 분류하는 것이 수행될 수 있다. 이러한 생물학적으로 관련된 혈장 DNA 말단 위치를 갖는 혈장 DNA 단편의 높은 빈도를 나타내는 좌위의 경우, 이러한 좌위는 생물학적으로 관련된 DNA가 풍부하고, 이것은 혈장 DNA 단편이 암-연관되거나 태아-특이적이거나 다른 질환 또는 생물학적 과정과 연관될 높은 가능성이 있는 것으로서 포함되도록 결정될 수 있다. 가능성 수준은 상기에 기술된 바와 같이, 상이한 군에 걸쳐서 비교할 때와 유사한 방식으로 빈도가 다른 뉴클레오타이드에 상대적인 주어진 뉴클레오타이드에 대해서 얼마나 높은지를 기초로 할 수 있다.
이러한 접근법의 효능을 설명하기 위해서, 잠재적인 암-연관 돌연변이를 HCC 환자의 혈장 DNA 시퀀싱 데이터로부터 직접 식별하였다. 적어도 2개의 혈장 DNA 단편의 서열 판독물에 존재하는 단일 뉴클레오타이드 변화를 잠재적인 암-연관 돌연변이로서 간주하였다. 종양 조직을 또한 시퀀싱하고, 종양 조직에 존재하는 돌연변이를 진 암-연관 돌연변이로서 간주하였다.
염색체 8 상에서, 총 20,065개의 잠재적인 돌연변이가 동적 컷오프 분석법을 사용하지 않고 HCC 환자의 혈장 DNA 시퀀싱 데이터로부터 식별되었다. 서열 변이체가 적어도 2개의 시퀀싱된 DNA 단편에 존재하는 경우 서열 변이체는 잠재적인 돌연변이로서 간주될 것이다. 884개의 진 체세포 돌연변이가 종양 조직의 시퀀싱 결과로부터 식별되었다. 20,065개의 추정 돌연변이는 884개의 실제 돌연변이 중 802개(91%)를 포함하였다. 따라서, 추정 돌연변이의 4% 만이 종양 조직 중의 진 체세포 돌연변이였고, 이는 4%의 PPV를 제공하였다.
체세포 돌연변이의 검출 정확도를 향상시키기 위해서, 본 발명자들은 추정 돌연변이를 보유하는 서열 판독물의 종결 뉴클레오타이드 위치를 기초로 하기 필터링 알고리즘을 사용하였다. (1). 임의의 추정 돌연변이의 경우, 돌연변이를 보유하고, HCC-특이적인 말단 위치 상에서 끝난 적어도 하나의 서열 판독물이 존재하면, 돌연변이는 하류 돌연변이 분석을 위한 자격이 있을 것이다.(2). 추정 돌연변이를 보유하지만 임의의 임신-특이적인 말단 위치 상에서 말단에 있거나, 두 경우 모두에 의해서 공유된 자리는 제거될 것이다. 이러한 알고리즘을 기초로 판독물을 제거한 후 동일한 돌연변이를 나타내는 2개 이상의 서열 판독물이 존재하는 경우에만 돌연변이가 하류 돌연변이 분석을 위한 자격이 있을 것이다.
상기에 언급된 1 및 2 필터링 알고리즘 둘 모두를 적용하여, 표 1의 결과를 얻었다. 추정 돌연변이를 보유하는 DNA 단편의, 종결 뉴클레오타이드의 자리 또는 말단 위치를 기초로 상이한 필터링 알고리즘의 적용 효과
필터 없음 HCC-특이적인 말단을 갖는 돌연변이의 포함
(필터 1)
공유된 말단 또는 임신-특이적인 말단을 갖는 판독물의 제거
(필터 2)
두 필터링 알고리즘 모두 적용
식별된 추정
돌연변이의 수
20,065 1,526 2,823 484
검출된 진 돌연변이의 백분율 91% 29% 88% 40%
PPV 4% 17% 28% 71%
말단 위치가 HCC-특이적이거나 알고리즘이 임신-특이적인 자리 또는 공유된 자리를 필터링하는 것을 요구하는 3개의 알고리즘 중 임의의 하나를 채택함으로써 PPV에서의 실질적인 개선이 존재하였다. 두 알고리즘 모두를 적용함으로써, PPV가 71%로 증가하였다.
HCC-연관된 말단 위치 및 임신-연관된 말단 위치의 다른 수, 예를 들어 0.5x106, 2x106, 3x106, 4x106, 5x106, 6x106, 7x106, 8x106, 9x106 또는 10x106 (이에 제한되지 않음)이 각각의 염색체에 대해서, 또는 사실 또 다른 게놈 영역에 대해서, 또는 사실 전체 게놈에 대해서 식별될 수 있다. 다양한 실시형태에서, 혈장 DNA 분자에서 가장 빈번하게 인지되는 말단 위치는 각각의 집단이 하나의 암 유형을 갖는 암 환자의 하나 이상의 집단에서 결정될 수 있다. 또한, 혈장 DNA 분자에서 가장 빈번한 말단 위치는 암이 없는 대상체에 대해서 결정될 수 있다. 일 실시형태에서, 암을 갖는 이러한 환자 및 암을 갖지 않는 대상체는 상이한 임상 파라미터, 예를 들어 성별, 흡연 상태, 이전 건강(예를 들어, 감염 상태, 당뇨, 체중) 등을 갖는 군으로 추가로 세분될 수 있다.
이러한 필터링 기준 사용의 일환으로, 통계학적 분석법을 사용하여 종결 뉴클레오타이드일 더 높은 확률을 갖는 자리 또는 상이한 생리학적 병태 및 병리학적 병태의 경우의 순환 DNA에 대한 말단 위치를 식별할 수 있다. 통계학적 분석법의 예는 스투던트 t-시험(Student t-test), 카이-제곱 시험, 및 이항 분포 또는 푸아송 분포를 기초로 한 시험을 포함하지만 이에 제한되는 것은 아니다. 이들 통계학적 분석을 위해서, 상이한 p-값 컷오프, 예를 들어 0.05, 0.01, 0.005, 0.001, 및 0.0001(이에 제한되지 않음)이 사용될 수 있다. p-값 컷오프는 또한 다중 비교를 위해서 조정될 수 있다.
G. 단-가닥 시퀀싱
일 실시형태에서, 시퀀싱은 단 가닥 시퀀싱이라 지칭되는 각각의 템플레이트 분자의 두 대응 가닥 상에서 수행될 수 있다(Snyder et al. Cell 2016; 164: 57-68). 두 가닥의 시퀀싱 판독물에 존재하는 변화는 하류 분석을 위해서 사용될 수 있지만, 하나의 가닥에 대한 시퀀싱 판독물에서만 나타나는 변화는 폐기되거나, 적어도, 하나의 DNA 단편에 대한 데이터는 폐기될 수 있다. 이는 혈장 DNA 분자에 대한 시퀀싱 오류를 추가로 기하급수적으로 감소시킬 수 있다.
혈장 DNA 단편의 각각의 가닥은 독립적으로 분석될 수 있기 때문에, 혈장 DNA 단편의 말단 위치 또는 종결 뉴클레오타이드 좌표는 더 높은 정밀도 및 정확도로 측정될 수 있다. 단 가닥 시퀀싱은 또한 이중-가닥 형태와 상반되게 단-가닥 형태로 순환되는 혈장 DNA 단편의 검출을 가능하게 한다. 단-가닥 혈장 DNA 분자를 분석에서 (예를 들어 단-가닥 DNA 분석을 용이하게 할 라이브러리 제조 프로토콜의 사용을 통해서(Snyder et al. Cell 2016; 164: 57-68)) 포함시킴으로써, 잠재적인 정보성 암 DNA 단편의 추가 집단이 검출될 수 있다.
추가로, 단-가닥 DNA를 선호하는 라이브러리 제조 프로토콜(예를 들어, 문헌[Snyder et al. Cell 2016; 164: 57-68] 참고)의 사용은 또한 말단 위치-기초 필터링 기준을 위해서 사용될 수 있는 추가적인 위치를 식별하는 것을 가능하게 할 것이다. 예를 들어, 2개의 가닥에 대한 2개의 서열 판독물의 정렬 후 2개의 가닥이 동일한 조직-특이적인 말단 위치에 정렬되지 않으면, 서열 판독물은 돌연변이를 갖는 것으로서 더 낮은 가중을 제공 받을 수 있다.
VI. 암 환자의 혈장 중의 체세포 돌연변이 검출
이제, 암에 대해서 시험되는 대상체에서 체세포 돌연변이를 검출하기 위한 다양한 예가 기술된다. 데이터는 다양한 필터링 기준에 대해서 표현된다. 그리고, PCR-미포함의 효율이 설명된다.
A. 시편 제조
임상 시편을 HCC 환자로부터 수득하였다. 작업 전에 혈액 샘플을 수집하였다. HCC 종양 생검물 및 인접한 정상 간 조직의 생검물을 종양 절제술 시 수집하였다. PCR-미포함 라이브러리 제조 프로토콜을 사용하여 시편으로부터 DNA 라이브러리를 제조하고, 일루미나 HiSeq 시리즈의 대규모 병렬 서열기를 사용하여 시퀀싱하였다. 버피 코트, 종양 생검물, 인접한 정상 간 조직 및 혈장의 생검물에 대해서 달성된 시퀀싱 깊이는 각각 인간 반수체 게놈의 45x, 45x, 40x, 및 220x였다.
1. 환자 정보
HCC 환자는 58세의 중국 남성이었고, 그는 경변이 없는 HBV 보균자였다. 종양 크기는 18cm였다. 그는 종양 절제술을 위해서 프린스 오브 웨일즈 병원(Prince of Wales Hospital)의 수술과에 입원하였고, 사전동의 하에 모집되었다. 본 연구는 조인트 홍콩 중문대학 및 신계 동부 클러스터 임상 연구 윤리 위원회(Joint Chinese University of Hong Kong and New Territories East Cluster Clinical Research Ethics Committee)에 의해서 승인되었다. 9㎖의 말초 혈액을 수술 전에 EDTA 튜브에 수집하였다. 종양 조직 및 인접한 정상 조직을 종양 절제술 후에 수집하였다.
2. 샘플 가공
모든 혈액 샘플을 이중 원심분리 프로토콜에 의해서 가공하였다(Chiu et al Clin Chem 2001; 37: 1607-1613). 간략하면, 4℃에서 1,600g에서 10분 동안 원심분리한 후, 혈장 부분을 4℃에서 16,000g에서 10분 동안 다시 원심분리하여 혈액 샘플을 제거하였다. 혈액 세포 부분을 2,500g에서 다시 원심분리하여, 임의의 잔류하는 혈장을 제거하였다. 혈액 세포로부터의 DNA 및 혈장으로부터의 DNA를 각각 QIAamp DNA 혈액 미니 키트 및 QIAamp DSP DNA 혈액 미니 키트(키아젠(Qiagen))의 혈액 및 체액 프로토콜을 사용하여 추출하였다. 종양으로부터의 DNA 및 인접한 정상 조직으로부터의 DNA를 제조사의 조직 프로토콜에 따라서 QIAamp DNA 미니 키트(키아젠)를 사용하여 추출하였다.
3. 혈장 DNA의 정량
DNA를 혈장 3.7㎖로부터 추출하고, 물 110마이크로리터 중에 용리시켰다. DNA 농도는 0.629나노그램/마이크로리터(큐빗 플루오로메터(Qubit fluorometer), 써모 피셔 사이언티픽(Thermo Fisher Scientific))였고, 69ng의 DNA를 산출하였다. 이어서, 본 발명자들은 라이브러리 작제를 위해서 30ng의 DNA를 사용하였다. 각각의 3Mb 게놈은 166개의 염기 쌍(bp) 단편으로 절단되기 때문에, 게놈 당 약 1.81 x 107개의 혈장 DNA 단편이 존재해야 한다. 30ng의 DNA는 [(30 x 1,000)/3.3] x 1.81 x 107 단편 = 1.64 x 1011 총 단편을 함유해야 했다.
4. DNA 라이브러리 작제
인덱싱 어댑터의 1/5을 혈장 DNA 라이브러리 작제를 위해서 사용한 것을 제외하고는 제조사의 프로토콜에 따라서 TrueSeq DNA PCR-미포함 라이브러리 제조 키트(일루미나)를 사용하여 게놈 DNA 샘플 및 모체 혈장 샘플을 위한 DNA 라이브러리를 제조하였다. 3개의 게놈 DNA 샘플, 즉 환자의 버피 코트 DNA, 종양 조직 DNA, 및 인접한 정상 조직 DNA가 존재하였다. 각각의 게놈 DNA 샘플에 대해서, 라이브러리 작제를 위해서 1마이크로그램의 DNA을 200bp 단편(콘바리스(Covaris))으로 초음파 처리하였다. 라이브러리 농도는 20㎕ 라이브러리 중에서 17 내지51nM 범위였다.
30ng의 혈장 DNA 샘플(1.64 x 1011 단편)의 경우, 라이브러리 수율은 20㎕ 라이브러리 중에서 2,242pM이었고, 이것은 44,854아토몰, 즉, 2.70 x 1010 166-bp 혈장 DNA 단편에 동일하였다. DNA로부터 라이브러리로의 전환율은 16.4%였다. 이러한 수준의 전환율은 입력 DNA의 단지 일부의 1%가 라이브러리로 전환될 수 있는 다른 DNA 라이브러리 제조 키트의 본 발명자들의 경험치보다 훨씬 더 높다.
5. DNA 라이브러리의 시퀀싱
모든 DNA 라이브러리를 75bp x 2(페어드-엔드)에 대해서 HiSeq 1500, HiSeq 2000 또는 HiSeq 2500 시퀀싱 플랫폼(일루미나) 상에서 시퀀싱하였다. 본 발명자들은 각각의 게놈 DNA 라이브러리에 대해서 여러 레인을 시퀀싱하였다. 버피 코트, 종양 조직 및 인접한 정상 조직 DNA 라이브러리의 시퀀싱 깊이는 각각 45x, 45x 및 40x였다. 본 발명자들은 혈장 DNA 라이브러리의 경우 30.7 레인을 시퀀싱하여, 4.4x109개의 비-복사 맵핑 페어드-엔드 판독물을 얻었다. 시퀀싱 깊이는 220x였다.
시퀀싱 후, 혈장 DNA 라이브러리의 회수율을 계산하기 위해서, 본 발명자들은 입력물로서 레인 당 10pM에서 120㎕ DNA 라이브러리를 시퀀싱하였다. 단편 입력물의 총 수는 120 x 10 x 30.7 x 6.02 x 1023 / 1018 = 2.22 x 1010 단편이었다. 시퀀싱 후, 본 발명자들은 4.40 x 109 단편을 수득하였다. 시퀀싱 후 DNA 라이브러리는 19.9%였다.
혈장 DNA 서열을 표준 인간 게놈에 대해서 정렬 또는 맵핑하였다. 모든 서열 판독물의 비율로서 각각 1-Mb 분절(용기(bin))에 대해서 맵핑된 판독물의 수를 게놈에 걸쳐서 측정하였다. 1-Mb 분절 당 비율 또는 게놈 표현을 건강한 대조군의 군으로부터 수득된 혈장 DNA 시퀀싱 데이터와 비교하여 미국 특허 공개 제2009/0029377호에 이미 기술된 바와 같이 통계학적으로 유의한 게놈 표현 증가 또는 통계학적으로 유의한 게놈 표현 감소를 갖는 게놈 영역을 식별하였다.
도 6은 HCC 환자에 대한 1-Mb 분절의 증가, 감소 또는 비변화를 나타낸 플롯(600)이다. 통계학적으로 유의한 게놈 표현 증가를 갖는 영역은 사본 수 이득의 존재를 나타낸 반면, 통계학적으로 유의한 게놈 표현 감소를 갖는 영역은 사본 수 손실의 존재를 나타낸다. 게놈 표현이 통계학적으로 유의하게 증가한 용기, 감소한 용기, 유의한 변화가 없는 용기를 각각 녹색, 적색 및 회색 점으로 나타낸다. 이러한 손실을 나타낸 연속 게놈 분절을 통해서 사본 수 손실의 정도를 정량화함으로써(예를 들어, 미국 특허 출원 제14/994,023호에 기술된 바와 같음), 혈장 중의 종양-유래 DNA의 분획 농도는 15%인 것으로 결정되었다.
B. 종양 생검물 및 인접 조직에 존재하는 돌연변이
다음으로, 본 발명자들은 환자의 버피 코트 시퀀싱 데이터와 비교함으로써 종양 생검물 중에 존재하는 체세포 돌연변이를 식별하였다. 이러한 분석법은, 얼마나 많은 체세포 돌연변이가, 이러한 특정 종양이 본 발명자들이 혈장 DNA 중에서 검출하고자 하는 돌연변이의 골드 표준(gold standard) 세트를 보유하고, 그러한 것으로서 제공되었는지를 결정하기 위해서 수행하였다. 버피 코트 DNA에서 검출되지 않고, 종양 생검물에서 검출된 임의의 대립유전자에 대해서, 본 발명자들은 일련의 필터링 기준을 적용하여 체세포 돌연변이를 식별하였다. 초기 분석을 서열 데이터의 1/2, 즉 110x에서 수행하였다.
도 7은 동적 컷오프, 재정렬, 및 돌연변이 분획을 사용한 필터링 공정(700), 및 본 발명의 실시형태에 따른 종양 생검법으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸다. 도 7에 나타내어진 바와 같이, 본 발명자들은 먼저 동적 컷오프 전략을 적용하여 대부분의 시퀀싱 오류의 결과인 위양성 단일 뉴클레오타이드 변이체의 검출을 최소화하였다. 각각의 박스에 표현된 수는 각각의 단계에서 식별된 추정 돌연변이의 수를 나타낸다.
이어서, 재정렬 전략을 티어 A 필터링 기준으로서 동적 컷오프를 사용하여 식별된 16,027개의 추정 돌연변이에 적용하여 시퀀싱 오류 및 정렬 오류로 인한 변이체를 추가로 제거하였다. 다음으로, 2개의 상이한 분획 농도 컷오프를 독립적으로 적용하였다. 컷오프로서 적어도 20%의 종양 DNA 분획(M%)을 사용하여(티어 B 기준), 12,083개의 체세포 돌연변이를 식별하였다. 컷오프로서 적어도 30%의 종양 DNA 분획(M%)을 사용하여(티어 C 기준), 11,903개의 체세포 돌연변이를 식별하였다. 본 발명자들은 이들 11,903개의 변이체를 이러한 종양에 존재하는 진 체세포 돌연변이로서 간주하였다. 그 수는 종양 당 존재하는 돌연변이의 보고된 평균 수와 상용성이다.
종양-유래 혈장 DNA 분자는 비-종양 유래 분자보다 더 짧을 것으로 예상된다. 이들 변이체가 진 종양-유래 체세포 돌연변이인지를 평가하기 위한 수단으로서, 본 발명자들은 이들 11,903개 좌위를 포함하는 혈장 DNA 단편에 대해서 검색하고, 이들 단편의 크기 프로파일을 평가하였다.
도 8은 야생형 대립유전자를 갖는 것으로 식별된 혈장 DNA 단편의 크기와 비교된 HCC 환자에 대한 돌연변이 대립유전자를 갖는 것으로 식별된 혈장 DNA 단편의 크기의 플롯(800)을 나타낸다. 돌연변이를 갖는 것으로 식별된 이들 혈장 DNA 단편은 실제로 이들 체세포 돌연변이에 대해서 비-정보성인 다른 혈장 DNA 단편보다 더 짧다. 이러한 크기 분석은 돌연변이의 식별 효능을 확인하고, 또한 필터링 기준으로서 크기를 사용한 것의 능력을 확인한다.
도 9는 동적 컷오프, 재정렬, 및 돌연변이 분획을 사용한 필터링 공정(900), 및 본 발명의 실시형태에 따른 인접한 정상 간 종양 생검법으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸다.종양 생검물에 대해서 사용된 바와 같이, 동일한 기준 세트를 적용하여 인접한 정상 간 생검물 중의 돌연변이에 대해서 스크리닝하였다. 도 9에 나타내어진 바와 같이, 최종 필터를 적어도 20%의 종양 DNA 분획을 요구하는 것(티어 B 기준)을 기초로 하면, 203개의 돌연변이 만이 식별되었다. 최종 필터를 적어도 30%의 종양 DNA 분획을 요구하는 것(티어 C 기준)을 기초로 하면, 74개의 돌연변이 만이 식별되었다.
도 10a 및 10b는 인접한 정상 간 생검법으로부터 식별된 203개의 추정 돌연변이를 보유한 혈장 DNA 단편의 평가된 크기 프로파일과 다른 정보가 없는 혈장 DNA 분자의 크기 프로파일의 비교를 나타낸다. 도 10a는 추정 돌연변이 대립유전자 및 야생형 대립유전자에 대한 크기 범위에 걸친 혈장 DNA 단편의 빈도를 나타낸다. 도 10b는 추정 돌연변이 대립유전자 및 야생형 대립유전자에 대한 크기의 함수로서의 혈장 DNA 단편의 누적 빈도를 나타낸다. 도 10a 및 10b에 나타내어진 바와 같이, 크기 빈도 분포 곡선뿐만 아니라 누적 크기 차이 플롯의 형태에서 표현된 DNA의 두 군의 크기 프로파일에서는 어떠한 차이도 존재하지 않는다. 이들 분자의 크기 프로파일은 변이체가 위양성일 개연성을 제안한다.
C. 혈장의 돌연변이 분석
다음으로, 본 발명자들은 다양한 필터링 기준을 적용하여 혈장 중에서 체세포 돌연변이 또는 정보성 암 DNA 단편을 식별하는 것을 목적으로 하였다.
도 11은 필터링 공정(1100)(이것은 동적 컷오프, 재정렬, 돌연변이 분획 및 크기를 사용함) 및 본 발명의 실시형태에 따른 혈장으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸다. 도 11에서, 추정 체세포 돌연변이의 수는 각각의 필터링 단계에 대한 각각의 박스에 표현되어 있다. 종양 생검법으로부터 식별된 11,903개 중에서, 각각의 필터링 단계에서 회수된 진 체세포 돌연변이의 수가 절대적 수치뿐만 아니라 백분율로서 표현되어 있다. 각각의 필터링 단계에 대한 PPV를 계산하고, 또한 나타낸다. 티어 B, C 또는 D 기준이 동적 컷오프 및 티어 A 필터링과 조합되어 사용되는 경우 85%를 초과한 PPV가 달성될 수 있었다.
도 12는 필터링 공정(1200) 및 본 발명의 실시형태에 따른 낮은 돌연변이 분획을 사용하여 혈장으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸다. 도 12의 데이터는, 더 낮은 분획 농도 컷오프가 티어 B 또는 티어 C에서 적용되는 경우 회수된 진 체세포 돌연변이의 수가 훨씬 더 많으면서, PPV가 유지될 수 있다는 것을 보여준다.
D. 크기
이어서, 본 발명자들은 분획 농도 컷오프(티어 B 및 C)를 생략한 효과를 탐색하였다.
도 13은 필터링 공정(1300)(이것은 동적 컷오프, 재정렬, 및 크기를 사용함) 및 본 발명의 실시형태에 따른 혈장으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸다. 도 13에 나타내어진 데이터는, 돌연변이 분획 필터링 기준을 또한 사용하여 성취된 바와 같이, 동적 컷오프, 재정렬 및 크기 요건(즉, 짧은 DNA 분자가 선호됨)을 사용하여 동일한 회수율 및 PPV가 성취될 수 있음을 나타낸다.
도 14는 야생형 대립유전자를 갖는 것으로 식별된 혈장 DNA 단편의 크기와 비교된 혈장을 사용한 돌연변이 대립유전자를 갖는 것으로 식별된 혈장 DNA 단편의 크기의 플롯(1400)을 나타낸다. 크기 프로파일은, 필터링 단계를 사용하여 식별된 돌연변이가 종양-유래 DNA에 대해서 예측되는 바와 같이 짧은 DNA 크기를 나타내었다는 것을 나타낸다.
E. 시퀀싱 깊이 증가
본 발명자들은 혈장 샘플의 시퀀싱 깊이를 110x로부터 220x로 추가로 증가시켰다.
도 15는 필터링 공정(1500) 및 본 발명의 실시형태에 따라서 증가된 시퀀싱 깊이를 사용하여 혈장으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸다. 공정(1500)은 도 12에 나타내어진 것과 동일한 필터링 기준 세트를 사용한다. 증가된 시퀀싱 깊이(220x)를 사용하면, 회수된 진 체세포 돌연변이의 비율이 훨씬 더 높았다. 티어 B 필터링 단계에서 검출된 10,915개의 돌연변이 중에서, 93개의 돌연변이가 엑손 내에 위치되어 있다. 단지 하나의 돌연변이, 즉 CTNNB1(c.C98G, P.S33C)의 엑손 3에서의 비-동의 변화가 COSMIC 데이터베이스에서 상위 28개의 우세한 암 돌연변이 중 하나로서 보고되었다.
F. 돌연변이 분획
도 11은 티어 B 및 티어 C 컷오프가 각각 20% 및 30%였을 때, PPV 및 회수율에 대한 효과를 나타내었다. 돌연변이 식별에서의 더 높은 감도가 바람직한 경우, 더 낮은 M%가 컷오프로서 사용될 수 있다. 도 12는 티어 B 컷오프가 5%이고, 티어 C 컷오프가 10%였을 때, PPV 및 회수율에 대한 효과를 나타낸다.
상기에 기술된 바와 같이, 돌연변이 분획에서의 분산도가 또한 필터링 기준으로서 사용될 수 있다. 본 발명자들은 상이한 염색체 영역으로부터 유래한, 체세포 돌연변이 분획의 혈장 대립유전자 분획을 연구하였다. 도 6에 나타내어진 바와 같이, HCC 환자의 종양은 염색체 1p에서 사본 수 손실을 나타내었고, 염색체 1q에서 사본 수 이득을 나타내었다. 본 발명자들은 염색체 1p 및 염색체 1q에 걸쳐서 돌연변이 분획의 빈도 분포를 플로팅하였다.
도 16은 다양한 값의 돌연변이 분획을 갖는 좌위의 수(밀도)를 나타낸 플롯(1600)이다. 플롯(1600)으로부터 인지되는 바와 같이, 더 높은 값의 돌연변이 분획이 사본 수 이득(염색체 1q)에 대해서 관찰되었고, 더 낮은 돌연변이 분획 값이 사본 수 손실 영역(염색체 1p)에 대해서 관찰되었다.
본 발명자들은 값의 범위 및 돌연변이 분획 값의 분산도를 두 영역에서 연구하였다.
도 17a는 염색체 아암 1p 및 1q에 걸친 분포에 대한 z-스코어를 나타낸다. 도 17b는 염색체 아암 1p 및 1q에 걸친 겉보기 돌연변이 분획을 나타낸다. 값의 분포의 z-스코어는 더 높았고(도 17a), 실제 값은 사본 수 손실 영역(염색체 1p)보다 사본 수 이득 영역(염색체 1q)에서 더 가변적이었다(도 17b).
이들 데이터는 상이한 M%가 진 체세포 돌연변이를 식별할 가능성을 증가시키기 위해서 복사수 이득 또는 손실을 갖는 영역을 위한 필터링 컷오프로서 설정될 수 있다는 것을 제안한다. 관찰된 혈장 돌연변이 분획에서의 분산도를 명시한 컷오프를 또한 사용하여 종양-유래 DNA가 풍부하거나(사본 수 이득을 갖는 영역) 또는 고갈될(사본 수 손실을 갖는 영역) 개연성이 더 큰 염색체 영역으로부터 유래된 혈장 DNA 분자를 식별할 수 있다. 이어서, 정보성 암 DNA 단편일 DNA 단편의 가능성에 관련하여 결정을 수행할 수 있다.
G. 덜 엄격한 기준
본 발명자들은 덜 엄격한 기준이 동적 컷 오프에서 사용될 수 있는지를 탐색하였다. 이전에 나타내어진 예에서, 사용된 동적 컷오프 역치(스코어3)는 체세포 돌연변이의 위양성 식별의 변화를 최소화하였다. 동적 컷오프 분석을 위해서, 서열 변이체가 다수(N)의 시퀀싱된 DNA 단편에 존재하는 경우 서열 변이체가 후보 돌연변이로서 자격이 부여될 것인데, 여기서 숫자(N)는 시퀀싱된 좌위의 수, 검색 공간 중의 뉴클레오타이드의 수, 및 예측된 위양성률을 가질 확률에 좌우된다. 이전의 예에서, 예측된 위양성률은 <10-10으로서 설정되었고, 검색 공간은 전체 게놈(3x109 뉴클레오타이드)이다.
도 18은 본 발명의 실시형태에 따른 특정 대립유전자 계수치 컷오프에 대한 시퀀싱 깊이 및 다양한 돌연변이 비율에 대한 돌연변이 검출의 예측된 감도를 나타낸 표(1800)이다. 각각의 열은 상이한 시퀀싱 깊이에 상응한다. 혈장에서의 컷오프는 혈장 중에 돌연변이를 갖는 DNA 단편의 수가 돌연변이로서 간주되기에 충분한지의 여부를 결정하기 위해서 사용된다. 이들 값을 사용하면, 나머지 열은 다양한 종양 백분율에 대한 혈장 중의 돌연변이 검출의 예측 감도, TP/(TP+FN)를 제공한다. 버피 코트가 또한 컷오프에 적용되어 버피 코트에서 시퀀싱 오류를 필터링한다. 이러한 필터가 없으면, 실시형태는 혈장에서 변이체를 검출하기 위한 동형접합 부위로서 좌위를 포함하지 않을 수 있는데, 이는 일부 실시형태는 버피 코트가 동형접합인 위치에 속하는 변이체 만을 검출하기 때문이다. 표(1800)에서의 데이터는 덜 엄격한 동적 컷오프가 사용되는 경우 다음 그래프를 해석하기 위한 기준 데이터로서 역할을 한다.
본 발명자들은 0.1%의 위양성 검출률을 가능하게 하기 위한 역치 손실 효과를 탐색하였다.
도 19는 본 발명의 실시형태에 따른 0.1%의 위양성에 대한 특정 대립유전자 계수치 컷오프에 대한 시퀀싱 깊이 및 다양한 돌연변이 비율에 대한 돌연변이 검출의 예측된 감도를 나타낸 표(1900)이다. 이러한 데이터는 덜 엄격한 동적 컷오프에 대한 데이터를 보여준다.
도 20은 필터링 공정(2000) 및 본 발명의 실시형태에 따른 덜 엄격한 동적 컷 오프를 사용하여 혈장으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸다. 220x의 시퀀싱 깊이를 사용하였다. 덜 엄격한 동적 컷오프가 사용된 경우, 제1 단계에서 PPV는 12%에서 3.3%로 낮아졌다. 다른 필터링 단계, 즉 티어 A, B, C 및 D와 조합하는 경우, 엄격한 동적 컷 오프를 기초로 하는 알고리즘과 유사한 PPV로 진 체세포 돌연변이의 더 높은 회수율이 달성될 수 있었다.
이들 데이터는 각각의 필터링 기준이 상이한 역할을 하는 것을 제안한다. 각각의 기준의 유용성은 사용된 역치의 엄격성을 변경함으로써 변화될 수 있었다. 이 예에서, 덜 엄격한 동적 컷오프는 체세포 돌연변이의 더 민감한 식별을 가능하게 하였다. 전체 방법의 특이성은 위양성을 필터링하는 데 있어서의 다른 기준의 유효성으로 인해서 유지되었다.
다음으로, 본 발명자들은 동적 컷오프 단계의 완전한 제거를 추가로 평가하였다. 대신에, 고정 컷오프가 적용되었다. 예를 들어, 본 발명자들은, 버피 코트 DNA 중에 존재하지 않는 이형접합 대립유전자가 적어도 특정 횟수(예를 들어, 1, 2, 3 등)로 혈장에서 인지되면, 추정 돌연변이의 수를 측정하였다. 본 발명자들은 이러한 분석법을 적용하여 200x를 초과하게 시퀀싱된 HCC 환자뿐만 아니라 모체 혈장 샘플의 혈장 DNA 데이터를 분석하였다. 모체 혈장 샘플을 기증한 어머니는 암을 갖는다고 알려져 있지 않았기 때문에, 이 샘플에서 식별된 추정 돌연변이의 대부분은 부계-유전 태아 특이적인 대립유전자 또는 위양성일 개연성이 있다.
도 21은 태아 및 암 시나리오의 추정 돌연변이의 수의 분포를 나타낸 플롯(2100)이다. 수직축은 추정 돌연변이(돌연변이 대립유전자)를 갖는 좌위의 수의 계수치에 상응한다. 수평축은 좌위가 돌연변이를 갖는 것으로 식별되기 위해서 요구되는 DNA 단편의 수에 상응한다.
두 샘플 모두는 PCR-미포함 라이브러리 제조 프로토콜을 사용하여 유사한 깊이로 시퀀싱되었다. 따라서, 시퀀싱 오류 및 정렬 오류에 의해서 기여된 위양성 돌연변이는 두 샘플 모두에서 유사해야 했다. 추정 돌연변이의 수는 돌연변이의 스코어링을 위한 컷오프로서 사용되는 서열 판독물의 수가 증가함에 따라서 감소한 것이 주목된다. 위양성 돌연변이는 무작위적으로 일어나는 경향이 있고, 따라서 더 낮은 대립유전자 비율에서 나타나기 때문에, 위양성은 컷오프로서 요구되는 판독물의 수에서의 점진적인 증가로 필터링된다.
다른 한편, 암 환자에서 식별된 추정 돌연변이의 수는 경계를 이루기 시작하였고, 대략 18개 이상의 서열 판독물의 컷오프로부터 임신한 여성의 혈장에서 검출된 것보다 더 높았다. 이는, HCC 환자에서의 돌연변이 하중이 모체 혈장 샘플 중의 부계 유전된 태아 대립유전자의 수보다 더 많다는 것을 의미한다.
이어서, 본 발명자들은 재정렬(티어 A) 필터링 기준을 동일한 데이터세트에 적용하였다.
도 22는 재정렬이 사용되는 경우 태아 및 암 시나리오의 추정 돌연변이의 수의 분포를 나타낸 플롯(2200)이다. 추정 돌연변이의 전체 수는, 재정렬이 적용되지 않은 경우 도 21에 나타내어진 데이터와 비교할 때, 상응하는 고정 서열 판독물 컷오프 수도 실질적으로 감소하였다. HCC 혈장과 모체 혈장 간의 추정 돌연변이의 수의 경계가 훨씬 더 명백하였다. 이들 데이터는 재정렬 단계는 위양성을 제거하는 가장 강력한 방법임을 제안한다.
본 발명자들은 크기 필터링의 값을 추가로 평가하였다. 다시, 동적 컷오프 전략은 이러한 분석법에서 사용되지 않는다. 대신에, 동일한 소수의 대립유전자를 나타내는 서열 판독물의 고정 최소 수를 추정 돌연변이를 식별하기 위한 제1 단계로서 사용하였다.
도 23은 본 발명의 실시형태에 따른 재정렬이 없는 다양한 크기 컷오프에 대한 PPV 및 회수율을 나타낸 표(2300)이다. 도 23에 도시된 바와 같이, 고정 컷오프 만을 사용한 체세포 돌연변이 식별의 경우 PPV는 차선이었다. 상이한 크기 컷오프를 각각의 고정 컷오프 수준에서 사용하는 경우, PPV가 개선되었다.
도 24는 본 발명의 실시형태에 따른 재정렬이 있는 다양한 크기 컷오프에 대한 PPV 및 회수율을 나타낸 표(2400)이다. 도 24에 나타내어진 데이터의 경우, 재정렬은 고정 컷오프에 의한 추정 돌연변이의 초기 식별 후에 적용되었다. PPV는 실질적으로 개선되었다. 이어서, 상이한 크기 컷오프를 추가 필터링을 위해서 적용하였고, PPV에서의 약간의 개선이 관찰되었다.
H. 암에서 증가된 돌연변이 하중의 검출
본 발명자들은 HCC 환자로부터의 혈장 샘플 및 신생아의 제대혈 샘플의 혈장에 대해서 기술된 필터링 기준을 사용하여 돌연변이 하중 평가를 수행하였다. 제대혈 샘플에 대한 구성적 게놈은 제대혈 버피 코트였다. 제대혈 혈장은 대조군으로서 잘 기능하는데, 그 이유는 대부분의 아기는 암을 갖지 않고 태어나고, 이들은 아직 체세포 돌연변이를 획득하지 않거나 발암 물질에 노출되지 않았기 때문이다.
제대혈 혈장을 PCR-미포함 라이브러리 제조 프로토콜을 사용하여 75x로 시퀀싱하였다.
도 25는 필터링 공정(2500)(이것은 동적 컷오프, 재정렬, 및 크기를 사용함) 및 본 발명의 실시형태에 따라서 제대혈 혈장으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸다. 도 25는, 엄격한 동적 컷오프 이후에 도면에 나타내어진 티어 A 내지 D 기준이 사용되는 경우 제대혈 혈장에서 검출되는 추정 돌연변이의 수를 나타낸다. 적은 수의 추정 돌연변이가 식별되었다.
도 26은 공정(2500)으로부터 결정된 돌연변이체 DNA 단편 및 본 발명의 실시형태에 따른 야생형 대립유전자에 대한 크기 분포의 플롯(2600)이다. 본 발명자들이 이들 돌연변이의 크기 프로파일을 평가한 경우, 이들은 암 유래된 DNA인 것 같지 않게 특별히 짧지 않았다.
다음으로, 본 발명자들은 HCC 샘플로부터의 75x의 혈장 DNA 서열 데이터를 무작위로 취하여 대등한 평가를 수행할 수 있었다. 동일한 필터링 기준 세트를 적용하였다. 약 5,000 내지 6,000개의 종양-유래 돌연변이가 PPV 89% 이상에서 회수되었다.
도 27은 필터링 공정(2700)(이것은 동적 컷오프, 재정렬, 및 크기를 사용함) 및 본 발명의 실시형태에 따른 HCC 샘플의 혈장으로부터 식별된 돌연변이에 대한 결과 데이터를 나타낸다. 75x의 시퀀싱 깊이를 사용하였다.
도 28은 공정(2700)으로부터 결정된 돌연변이체 DNA 단편 및 본 발명의 실시형태에 따른 야생형 대립유전자에 대한 크기 분포의 플롯(2800)이다. 이들 돌연변이를 갖는 혈장 DNA 단편은 실제로 비-정보성 DNA 단편보다 더 짧았다.
그러나, 제대혈 혈장에서 식별된 추정 돌연변이의 84%가 공개적으로-보고된 단일 뉴클레오타이드 다형체 부위에서 일어났지만, 이러한 비율은 HCC 혈장 샘플에서는 단지 3%인 것이 주목되었다. 따라서, 본 발명자들은 제대혈 혈장에서 공개적으로-보고된 대립유전자는 태아 순환계로 전달되어, 신생아 혈액에서 검출 가능하게 존재하는 모체 DNA 분자일 수 있다는 가설을 세웠다(Lo et al. Clin Chem 2000; 46:1301-1309). 공지된 단일 뉴클레오타이드 다형체 부위로부터 임의의 부위를 제거한 후, 제대혈 혈장에서 추정 돌연변이의 수가 단지 8(도 29)로 감소하였지만, HCC 혈장에 대한 데이터는 큰 변화 없이 유지되었다(도 30).
도 29는 본 발명의 실시형태에 따라서 제대혈 혈장으로부터 식별된 돌연변이에 대한 SNP-기초 필터링을 사용한 필터링 공정(2900)을 나타낸다. 도 30은 본 발명의 실시형태에 따른 HCC 혈장으로부터 식별된 돌연변이에 대한 SNP-기초 필터링을 사용한 필터링 공정(3000)을 나타낸다. 단일 뉴클레오타이드 다형체를 제거하기 위해서 필터링 단계를 혼입하는 것은 티어 E 필터링에 상응한다. 결론적으로, 제대혈 혈장에서 검출된 추정 돌연변이(이것은 대부분 위양성임)의 수는 84%(49 중에서 8) 감소하였다. 다른 한편, HCC 샘플에서 추정 돌연변이의 수는 단지 3% 감소되었다.
본 발명자들의 데이터는, 기술된 필터링 기준 세트를 혼입하고, PCR-미포함 라이브러리 제조 프로토콜, 그 후의 울트라-딥 및 브로드 시퀀싱을 사용하면, 본 발명자들이 식별된 추정 돌연변이의 수를 기초로 하는 암 환자의 혈장에서 종양-유래 돌연변이를 민감하게 그리고 특이적으로 식별할 수 있었음을 나타낸다. 암 환자의 혈장에서 식별된 돌연변이 하중은 대조군 비-암 제대혈 혈장에서 관찰된 것을 3자릿수 초과하였다. 따라서, 암과 비-암 간의 분류를 수행할 수 있다.
본 발명자들은 전체 시퀀싱 데이터(220x)의 하위샘플(75x)이 이미 암과 비-암의 구별을 달성하는 목적에 적절하였다는 것을 추가로 발견하였다. 하기 모의실험 데이터(섹션 VIII의 도 44, 45a 내지 45c, 및 46a 내지 46c )에서 나타내어진 바와 같이, 울트라-딥 및 브로드 서열 데이터가 이들 실시형태에서 필요하지만, 폭 및 깊이의 정도는 혈장 샘플 중의 종양 DNA 분획 및 혈장 DNA 검출이 가능한 종양이 갖는 돌연변이의 수에 좌우된다.
I. 기원 조직
현재 이러한 체세포 돌연변이의 게놈 위치는 종양의 기원 조직에 좌우되는 클러스터링의 패턴을 나타낼 수 있다는 것을 제안하는 데이터(문헌[Snyder et al. Cell 2016; 164: 57-68]; PCT WO 2016/015058 A2; 문헌[Ivanov et al. BMC 게놈ics 2015; 16 Suppl 13:S1])가 존재한다. 문헌은 체세포 돌연변이가 특이적인 히스톤 변형을 갖는 게놈 위치와 함께 공동 국지화되는 경향이 있다는 것을 제안하였다. 히스톤 변형의 조직-특이적인 위치는 공공 데이터베이스, 예컨대 에피제노믹스 로드맵 데이터베이스(Epigenomics Roadmap databasee)(www.roadmapepigenomics.org)를 통해서 수득될 수 있다.
본 발명자들은 에피제노믹스 로드맵 데이터베이스(www.roadmapepigenomics.org)를 통해서 히스톤 변형의 조직-특이적인 위치를 수득하였다. 건강한 조직에서, H3K4me1은 활성/준비된 인핸서 영역과 연관된다고 보고되어 있다. H3K27ac는 활성 인핸서 영역과 연관된다. H3K9me3은 구성적 이질염색질과 상당한 상관관계가 있다. 다시 말해서, 건강한 조직에서, H3K4me1 및 H3K27ac는 조직에서 활성 유전자 발현을 갖는 게놈 영역과 연관되지만, H3K9me3은 게놈의 억압된 영역과 연관된다. 그러나, 암에서 체세포 돌연변이의 수는 억압된 게놈 영역에서 보다 높게 표현된다고 보고되어 있다. 어떤 데이터도 혈장 DNA에서 이러한 상관관계의 존재를 보고하지 않았다.
본 발명자들은 1-Mb의 용기 당 3개의 히스톤 변형의 각각의 것의 수와 동일한 10Mb 용기 중의 체세포 돌연변이의 수 간의 스피어만 상관관계 분석(Spearman correlation analysis)을 수행하였다.
도 31은 조직과 히스톤 변형의 상관관계를 나타낸 표(3100)이다. 도 31은 SNV를 사용하여 종양 예측의 기원 조직을 결정한다. 간 조직 히스톤 변형 패턴에 대해서 가장 강한 상관관계 계수가 수득되었다. 이는, 혈장 DNA 데이터가 HCC 환자로부터 수득되었다는 사실과 일치한다. 따라서, 또 다른 시험 샘플을 사용하면, 암과 연관된 것으로 알려진 히스톤 변형과 연관된 좌위로부터 유래한 혈장 DNA 단편이 식별될 수 있었다. 이러한 좌위는 암-유래 혈장 DNA 단편이 풍부할 것이다. 따라서, 이들 좌위의 혈장 DNA 단편은 정보성 암 DNA 단편으로서 분류될 수 있다. 태아 조직(예를 들어 태반)과 연관된 것으로 알려진 히스톤 변형을 사용하여 태아 돌연변이를 식별하기 위해서 유사한 접근법이 또한 수행될 수 있다.
혈장에서 메가염기(megabase) 당 SNV 밀도와 다양한 기관 또는 조직에서 메가염기 당 히스톤 마커 밀도 간의 스피어만 상관관계를 계산하였다. 최대 상관관계는 종양의 기원 조직을 제안할 것이다.
VII. 태아에서 신생 돌연변이의 검출
상기 논의 중 대부분은 암에 관련되었지만, 실시형태는 또한 태아에서 신생 돌연변이를 식별하는 데 사용될 수 있다.
선천적인 돌연변이는 산전 기간 동안, 아동기 동안 또는 만년 동안 나타날 수 있는 질환을 유발할 수 있다. 선천적인 돌연변이는 태아 게놈에서 존재하는 돌연변이를 지칭한다. 일부 질환은 초기 치료가 가능하지만, 나머지는 기능의 상당한 손상과 연관될 수 있다. 따라서, 이들 질환 중 일부의 산전 진단은 정당하다. 출생 전에 태아 유전자 물질을 분석함으로써 유전자, 게놈 또는 염색체 이상과 연관된 질환의 산전 진단이 수행될 수 있다. 태아 유전자 물질은 비침습적 절차, 예컨대 양수진단 또는 융모막 융모 샘플링에 의해서 수득될 수 있다. 이들 절차는 태아 유산 위험과 연관된다. 따라서, 모체 혈장에 존재하는 무-세포 태아 핵산의 분석을 통한 것을 비롯한, 비침습적 접근법에 의해서 산전 평가를 수행하는 것이 바람직하다.
대부분의 선천적인 돌연변이는 부모로부터 유전되고, 유전되는 질환을 유발한다. 모체 혈장에서 순환 무-세포 태아 DNA 분석법에 의해서 유전되는 돌연변이를 비침습적으로 검출하는 접근법은 이미 보고되어 있다(미국 특허 공개 제2009/0087847호 및 제2011/0105353호). 추정 태아 돌연변이는 모체 및/또는 부체돌연변이를 알고 있거나 시험함으로써 확인될 수 있다.
그러나, 질환은 또한 신생 돌연변이에 의해서 유발된다. 신생 돌연변이는 아버지 또는 어머니로부터 유전되지 않은 태아의 구성적 게놈에 존재하는 돌연변이다. 신생 돌연변이는 특정 질환, 예를 들어 연골무형성증, 다발성 내분 종양증에 대한 질환 부담의 주요 이유가 된다. 각각의 사람은 구성적 게놈에서 일부 20 내지 30개의 신생 돌연변이를 갖는 것으로 추정되었다(Kong et al. Nature 2012; 488: 471-475). 이러한 돌연변이는, 이들이 게놈의 유전적, 후성적 또는 조절 기능을 손상시킬 게놈의 영역에서 일어난다면, 질환을 유발할 수 있다. 위험도 수치가 알려지지 않았다면, 신생 돌연변이의 산전 검출을 위한 효과적인 방법이 현재 존재하지 않는다. 신생 돌연변이에 대한 위험도 의심은, 예를 들어, 태아의 초음파 검사가 연골무형성증이 의심되는 특징부를 나타내는 경우, 발생될 수 있다. 부모 모두가 연골무형성증에 대한 돌연변이를 보유하지 않으면, 섬유모세포 성장 인자 수용체 3 유전자에 대한 신생 돌연변이가 검색될 것이다.
신생 돌연변이에 의해서 유발되는 대부분의 다른 질환의 경우, 전형적으로는 어느 유전자를 연구할지를 제안하기 위한 산전에 검출될 수 있는 어떤 구조적 신호 또는 물리적 신호도 존재하지 않는다. 신생 돌연변이를 산전에 검출하는 효과적인 방법이 현재 존재하지 않는데, 그 이유는 일배체형 게놈의 3x109개의 뉴클레오타이드 내에서의 이러한 변화 중 30개에 대한 검색은 건초더미에서 바늘을 찾는 것과 같다. 순환 무-세포 태아 DNA 분석법에 의해서 신생 돌연변이 검출을 달성하는 것은 훨씬 더 큰 어려움과 연관되는데, 그 이유는 태아 신생 돌연변이를 5- 내지 10-배 추가로 희석시키는 어머니의 배경 혈장 DNA 때문이다. 본 발명에서 본 발명자들은 모체 혈장 중의 순환 무-세포 태아 DNA 분석법을 통해서 태아 신생 돌연변이의 효과적인 검출을 가능하게 할 실시형태를 기술한다.
A. 태아에서의 신생 돌연변이의 검출에 대한 예
1. 가족 정보
아들 태아를 임신한 단태아(singleton) 임산부를 임신 38주에 제왕절개하였다. 사전동의를 받고, 프린스 오브 웨일즈 대학의 산부인과에서 가족을 모집하였다. 본 연구는 조인트 홍콩 중문대학 및 신계 동부 클러스터 임상 연구 윤리 위원회에 의해서 승인되었다. 20㎖의 모체 혈액 및 10㎖의 부체 혈액을 참여 동안 수집하였다. 태반 조직 샘플 및 3㎖의 제대혈을 출산 후에 수집하였다.
2. 샘플 가공
모든 혈액 샘플을 상기에 기술된 바와 같은 이중 원심분리 프로토콜에 의해서 가공하였다(Chiu et al Clin Chem 2001; 37: 1607-1613). 간략하면, 4℃에서 1,600g에서 10분 동안 원심분리한 후, 혈장 부분을 4℃에서 16,000g에서 10분 동안 다시 원심분리하여 혈액 샘플을 제거하였다. 혈액 세포 부분을 2,500g에서 다시 원심분리하여, 임의의 잔류하는 혈장을 제거하였다. 혈액 세포로부터의 DNA 및 모체 혈장으로부터의 DNA를 각각 QIAamp DNA 혈액 미니 키트 및 QIAamp DSP DNA 혈액 미니 키트(키아젠)의 혈액 및 체액 프로토콜을 사용하여 추출하였다. 태반으로터의 DNA를 제조사의 조직 프로토콜에 따라서 QIAamp DNA 미니 키트(키아젠)를 사용하여 추출하였다.
3. 혈장 DNA의 정량
DNA를 5㎖의 모체 혈장으로부터 추출하였다. ZFX/Y 디지털 PCR 검정법(Lun et al Clin Chem 2008; 54: 1664-1672)을 사용하여, ZFX 및 ZFY의 농도는 각각 1,038 복사물/혈장 ㎖ 및 103 복사물/혈장 ㎖였다. 이어서, 본 발명자들은 라이브러리 작제를 위해서 혈장 DNA 4.5 mL-등가물을 사용하였다. 각각의 게놈은 166개의 염기쌍(bp) 단편으로 절단되고, 게놈 당 약 1.81 x 107 혈장 DNA 단편이 존재해야 한다고 추정된다. 4.5㎖의 혈장 DNA는 (1038+103) x 4.5 x 1.81 x 107 단편 = 9.28 x 1010 총 단편을 함유해야 한다.
4. DNA 라이브러리 작제
인덱싱 어댑터의 1/5을 혈장 DNA 라이브러리 작제를 위해서 사용한 것을 제외하고는 제조사의 프로토콜에 따라서 TruSeq DNA PCR-미포함 라이브러리 제조 키트(일루미나)를 사용하여 게놈 DNA 샘플 및 모체 혈장 샘플을 위한 DNA 라이브러리를 제조하였다. 4개의 게놈 DNA 샘플, 즉 어머니의 버피 코트 DNA, 아버지의 버피 코트 DNA, 제대혈 버피 코트 DNA 및 태반 DNA가 존재하였다. 각각의 게놈 DNA 샘플에 대해서, 라이브러리 작제를 위해서 1마이크로그램의 DNA을 200bp 단편(콘바리스)으로 초음파 처리하였다. 라이브러리 농도는 20㎕ 라이브러리 중에서 34 내지 58nM 범위였다. 4.5㎖의 혈장 (9.28 x 1010 단편)으로부터의 모체 혈장 DNA 샘플의 경우, 라이브러리 수율은 20㎕ 라이브러리 중에서 2995pM이었고, 이것은 59,910 아몰(amole), 즉, 3.61 x 1010 166-bp 혈장 DNA 단편에 동일하였다. DNA로부터 라이브러리로의 전환율은 38.9%였다.
5. DNA 라이브러리의 시퀀싱
모든 DNA 라이브러리를 75bp x 2(페어드-엔드)에 대해서 HiSeq 1500, HiSeq 2000 또는 HiSeq 2500 시퀀싱 플랫폼(일루미나) 상에서 시퀀싱하였다. 본 발명자들은 각각의 게놈 DNA 라이브러리에 대해서 여러 레인을 시퀀싱하였다. 어머니 DNA 라이브러리, 아버지 DNA 라이브러리, 제대 DNA 라이브러리 및 태반 DNA 라이브러리의 시퀀싱 깊이는 각각 40x, 45x, 50x 및 30x였다. 모체 혈장 DNA 라이브러리 모두를 시퀀싱을 위해서 사용하였다. 본 발명자들은 45 레인을 갖는 라이브러리를 소모하였고, 대략 5.74 x 109개의 비복사 맵핑 페어드-엔드 판독물을 얻었다. 시퀀싱 깊이는 약 255x였다.
혈장 DNA 라이브러리의 회수율을 계산하기 위해서, 본 발명자들은 입력물로서 2,995nM에서 16㎕DNA 라이브러리를 사용하였다(20㎕ DNA 라이브러리로부터의 4㎕를 라이브러리 검증 및 정량을 위해서 사용하였다). 단편 입력물의 총 수는 2,995 x 16 x 6.02 x 1023 / 109 = 2.89 x 1010 단편이었다. 시퀀싱 후, 본 발명자들은 5.74 x 109 판독물(단편)을 수득하였다. 시퀀싱 후 DNA 라이브러리의 회수율은 19.9%였다. 입력물 라이브러리의 80%가 클러스터 생성 및/또는 시퀀싱 동안 손실되었다. 본 발명자들은, 시퀀싱 유동셀 상에서의 클러스터 생성의 높은 효율을 달성하기 위해서 5-배 과량의 라이브러리가 입력물로서 요구될 것이라고 의심하였다. 이어서, 과량의 라이브러리 단편을 세척하고, 클러스터를 형성한 것 만을 시퀀싱할 것이다.
상기 추정 이후에, DNA로부터의 라이브러리 전환율은 38.9%였고, 시퀀싱 후 DNA 라이브러리의 회수율은 19.9%였다. 혈장 DNA 단편으로부터 시퀀싱 출력 단편까지, 회수율은 7.7%였다고 추정되었다.
B. 논의
아버지 및 어머니가 둘 모두 동형접합성이지만, 상이한 대립유전자를 갖는 경우 298,364개의 정보성 SNP 부위가 식별되었다. 따라서, 태아는 이들 부위에서 절대적인 이형접합체였다. 이들 SNP 부위의 99.8%가 태반 조직에서 이형접합성인 것으로 확인되었다 이어서, 본 발명자들은 모체 혈장 중의 태아 DNA 분획을 측정하였다. 부체 대립유전자의 계수치를 조합하고, 이를 이들 298,364개의 정보성 SNP 부위 전체에서 모체 대립유전자의 조합된 계수치의 비율로서 표현하면, 태아 DNA 분획은 31.8%인 것으로 추정되었다. 이어서, 본 발명자들은 이들 정보성 SNP 부위 각각에서 태아 분획을 측정하였다.
도 32는 이러한 개별 SNP 부위에서 측정된 태아 분획의 빈도 분포를 나타낸다. 부위의 95%가 20%보다 더 높은 태아 DNA 분획을 나타낸다.
도 33a는 모체 혈장 중의 태아-특이적인 DNA 및 공유된 DNA의 크기 분포를 나타낸다. 도 33b는 태아 특이적인 DNA 단편 및 공유된 DNA 단편에 대한 혈장 DNA 크기에 대한 누적 빈도의 플롯을 나타낸다. 도 33c는 ΔF로 표시된, 누적 빈도의 차이를 나타낸다. 이전에 보고된 관찰(Lo et al. Sci Transl Med 2010; 2: 61ra91)과 유사하게, 모체 혈장에서 태아 DNA 분자는 비-태아 특이적인 혈장 DNA 분자보다 더 작은 크기를 나타낸다.
이러한 태아의 게놈 중에 존재하는 신생 돌연변이를 측정하기 위해서, 본 발명자는 태반 DNA와 제대혈 DNA 둘 모두에 존재하지만, 모체 게놈 DNA와 부체 게놈 DNA에는 존재하지 않는 DNA 변이체, 대부분 점 돌연변이 또는 단일 뉴클레오타이드 변이체를 찾았다. 47개의 이러한 신생 돌연변이 부위가 식별되었다. 이어서, 본 발명자들은 모체 혈장에서 신생 돌연변이 대립유전자를 나타낸 DNA 분자를 검색하였다. 이어서, 본 발명자들은 모체 혈장에서 DNA 분자의 크기 분포를 연구하였다.
도 34a는 돌연변이 대립유전자를 갖는 혈장 DNA 단편의 크기 분포를 나타낸다. 도 34b는 돌연변이 대립유전자 및 야생형 대립유전자에 대한 혈장 DNA 크기에 대한 누적 빈도의 플롯을 나타낸다. 도 34c는 ΔF로 표시된, 누적 빈도의 차이를 나타낸다. 돌연변이 대립유전자의 크기 프로파일 및 ΔF 값은 태아-특이적인 대립유전자로부터 유래된 이들 값에 밀접한 유사성을 나타내었다(도 33a 내지 33c). 모체 혈장에서의 이들의 비교적 짧은 길이는, 돌연변이 대립유전자를 갖는 이들 DNA 분자가 태아 기원이라는 지지 증거를 제공한다.
다음으로, 본 발명자들은 모체 혈장 DNA 데이터로부터 신생 돌연변이를 식별하기 위한 본 발명자들의 접근법의 효율성을 연구하였다. 이러한 접근법에서, 본 발명자들은 모체 게놈 서열 정보 및 부체 게놈 서열 정보를 수득하는 것이 필요할 것이다. 이어서, 본 발명자들은 모체 혈장 DNA 분자 중에는 존재하지만 모체 게놈 DNA 서열 및 부체 게놈 DNA 서열 중에는 존재하지 않는 변이체를 검색한다.
도 35는 필터링 공정(3500)(이것은 동적 컷오프, 재정렬, 및 돌연변이 비율 및 크기 컷 오프를 사용함), 및 본 발명의 실시형태에 따른 혈장으로부터 식별된 신생 돌연변이에 대한 결과 데이터를 나타낸다. 필터링 공정(3500)을 사용하여 모체 혈장 무-세포 DNA 데이터로부터 신생 돌연변이를 식별하였다. 본 연구에서, 본 발명자들은 PCR-미포함 라이브러리 제조 프로토콜을 사용하여 생성된 전체 게놈 혈장 DNA 시퀀싱 데이터를 사용하였다.
먼저, 본 발명자들은 동적 컷오프를 사용하여 혈장에서 추정 돌연변이를 스크리닝하였다. 동적 컷오프를 사용하여 인간 게놈에서 위양성의 이론적인 발생을 특정 값 미만으로, 예를 들어 게놈 당 1회로 조정하였다. 위양성에 기여된 공급원의 두 유형이 이러한 동적 컷오프 모델에서 고려될 수 있다. 하나의 공급원은 시퀀싱 오류일 것인데, 이는 기회에 의해서 일부 자리가 동일한 자리에서 동일한 뉴클레오타이드 변화를 나타내도록 할 것이다. 이러한 유형의 위양성의 확률은 주어진 시퀀싱 오류율에 대한 확률의 곱셈 법칙에 따라서 추정될 수 있다. 어머니 및 아버지 둘 모두가 동형접합성이고, 동일한 대립유전자 정보를 보유한 부위로부터 시퀀싱 오류가 추론될 수 있다. 이러한 경우에, 시퀀싱 오류는 0.3%인 것으로 추정되었다. 또 다른 공급원은, 대안적인 대립유전자의 언더-샘플링(under-sampling)으로 인해서 동형접합성인 것으로 잘못 지칭된 어머니 또는 아버지에서의 이종접합성 SNP일 것이다.
두번째로, 시퀀싱 및 실제 시퀀싱 데이터에서의 정렬 오류를 추가로 최소화하기 위해서, 본 발명자들은 추가 필터링 알고리즘을 적용하였다. 돌연변이를 보유하는 시퀀싱 판독물은 독립 정렬자, 예를 들어 보타이2의 사용을 통해서 인간 표준 게놈에 대해서 재정렬(맵핑)될 것이다(Langmead et al. Nat Methods 2012; 9: 357-9). 일부 실시형태에서, 하기 재정렬 기준을 사용하여 맵핑된 판독물을 저-품질 서열 판독물로서 식별할 수 있다: (1) 돌연변이를 보유한 서열 판독물이 독립 정렬자에 의해서 회수될 수 없음; (2) 독립 정렬자를 사용하여 본래 정렬을 검증하는 경우 돌연변이를 보유한 서열 판독물이 일관되지 않은 맵핑 결과를 나타냄(예를 들어, 맵핑된 판독물은 본래 정렬 결과에 비교하여 상이한 염색체에 위치됨). (3) 동일한 게놈 좌표에 정렬된 돌연변이를 보유한 서열 판독물이 맵핑 품질 ≤ Q20(즉 불량 정렬 확률 <1%)을 나타냄; (4) 서열 판독물은 두 판독물 말단 중 하나(즉 5' 또는 3' 말단)의 5bp 내에 위치된 돌연변이를 가짐. 이러한 마지막 필터링 규칙이 중요할 수 있는데, 그 이유는 시퀀싱 오류는 서열 판독물의 양 말단에서 더 우세하게 일어나기 때문이다. 돌연변이를 보유하는 서열 판독물 중의 저-품질 서열 판독물의 비율이 특정 역치를 초과하면, 후보 돌연변이 부위가 폐기될 것이다. 돌연변이를 보유하는 시퀀싱 판독물의 이러한 재정렬 단계는 티어 A 필터링 기준으로서 지칭된다.
세번째로, 특정 역치를 초과하는 돌연변이 분획(M%), 예를 들어, 20% (티어 B 필터링 기준) 및 30% (티어 C 필터링 기준) 만이 진 돌연변이일 개연성이 더 큰 것으로서 간주될 것이다. 정보성 SNP로부터 추정된 태아 DNA 분획을 표준으로서 사용하여 돌연변이 분획의 적절한 역치를 설정할 수 있다.
네번째로, 태아-유래 DNA 분자는 이들 모체-유래 DNA 분자보다 더 짧기 때문에, 본 발명자들은 티어 D 필터링 기준에서 크기 연관된 필터링 파라미터를 추가로 발전시켰다. 돌연변이 대립유전자를 보유하는 DNA 단편과 야생형 대립유전자를 보유하는 DNA 단편 간의 중간 크기에서의 최소 차이(△S로서 표현됨)는, 적어도 특정 염기쌍이 예를 들어 △S≥10bp인 것이 요구된다. 다른 통계학적 시험, 예를 들어, t-시험, 만-위트니 유 시험, 콜모고로프-스미노프 시험 등이 사용될 수 있다. 본 발명자들은 각각의 연속적인 필터링 티어를 적용하는 경우 회수율 및 양성 예측 값(PPV)을 측정하였다. 회수율은 필터링 후에 검출된 47개의 공지된 신생 돌연변이체를 기초로 한다. PPV는 모체 혈장 무-세포 DNA 시퀀싱 데이터에서 검출된 모든 비-모체 및 비-부체 돌연변이의 비율로서 검출된 진 신생 돌연변이체의 수를 지칭한다. 위양성 신생 변이체가 적을수록, PPV가 높다. 위양성은 시퀀싱 오류 및 정렬 오류(이에 제한되지 않음)의 결과로서 일어날 수 있다. 이러한 접근법에서 달성된 PPV는 실질적으로 키츠만(Kitzman) 등(Sci Transl Med 2012; 137: 137ra76)에 의해서 이미 보고된 것보다 실질적으로 양호하다. 비-PCR 미포함 프로토콜을 사용하여 제조된 모체 혈장 DNA 라이브러리를 78x 포함률로 시퀀싱하는 것은 2.5 x 107 위양성의 식별로 이어졌지만, 진 신생 돌연변이는 단지 44개였다. 이러한 연구의 PPV는 단지 0.000176%였다.
검출된 추정 신생 변이체 또는 돌연변이체가 태아 기원인 것을 나타내는 증거의 보충 부분으로서, 본 발명자들은 상이한 필터링 티어를 사용하여 식별된 신생 변이체 또는 돌연변이체의 크기 프로파일을 비교하였다.
도 36a는 야생형 대립유전자에 비교된 티어 A 필터링 기준을 사용한 혈장에서 식별된 추정 돌연변이를 갖는 DNA 단편의 크기 프로파일을 나타낸다. 도 36b는 티어 B 필터링 기준을 사용하여 혈장에서 식별된 추정 돌연변이를 갖는 DNA 단편의 크기 프로파일을 나타낸다. 도 36c는 티어 C 필터링 기준을 사용하여 혈장에서 식별된 추정 돌연변이를 갖는 DNA 단편의 크기 프로파일을 나타낸다. 도 36d는 티어 D 필터링 기준을 사용하여 혈장에서 식별된 추정 돌연변이를 갖는 DNA 단편의 크기 프로파일을 나타낸다. 도 36a 내지 도 36d에서 인지되는 바와 같이, 티어 D 알고리즘에 의해서 식별된 변이체는 더 짧은 크기 분포를 나타낸다.
도 37은 상이한 티어의 필터링 기준, 즉 A, B, C, 및 D의 상이한 티어를 사용하여 식별된 추정 돌연변이에 상응하는 ΔF 값의 프로파일을 나타낸다. 어머니 및 아버지 둘 모두가 동형접합성인 298,364개의 정보성 SNP로부터 유래된 ΔF 값을 태아-유래 DNA 단편과 모체-유래 DNA 단편 사이에서의 누적 빈도 차이를 나타내는 표준으로서 사용하였다. 티어 D 필터링 기준으로부터 추론된 크기 프로파일은 정보성 SNP 부위로부터 추론된 ΔF 값과 상당히 유사한 것으로 밝혀졌는데, 이는 기준 D에서 식별된 추정 신생 돌연변이가 태반/태아에 존재하는 보다 진 돌연변이가 풍부한 것을 제안한다.
도 38은 모체 혈장 샘플 및 제대혈에서의 다양한 돌연변이 유형의 빈도 계수치를 나타낸다. 도 38에서, 혈장에서 식별된 돌연변이는 제대혈에서 존재하는 그러한 돌연변이와 유사하다. 이들 데이터는 모체 혈장에서 검출된 돌연변이가 제대혈 데이터에 의해서 나타내어지는 바와 같이 태아 게놈에 존재한다는 것을 제안한다.
도 39a는 본 발명의 실시형태에 따른 상이한 크기 필터에 대한 PPV% 및 회수율의 그래프를 나타낸다. 도 39a는 추가 돌연변이 분획(M%) 필터링이 적용되는 경우 크기 필터링 파라미터가 얼마나 다양하게 PPV% 및 회수율에 영향을 주는지를 나타낸다. 도 39b는 상이한 돌연변이 분획 컷오프에 대한 PPV% 및 회수율의 그래프를 나타낸다. 도 39b는 추가 △S 필터링이 수행되지 않는 경우 돌연변이 분획 파라미터의 변화가 PPV% 및 회수율에 영향을 주는 것을 나타낸다.
도 40a 내지 40d는 상이한 돌연변이 분획 컷오프에서 다양한 크기 필터에 대한 PPV% 및 회수율을 나타낸다. M%의 상이한 기준에서 크기 필터링 파라미터 △S 변화가 PPV% 및 회수율에 영향을 주는 것을 나타낸다.
도 41은 크기 컷오프 함수로서의 상이한 돌연변이체 비율 컷 오프에서의 회수율 및 PPV%의 곡선을 나타낸다. △S, M% 및 PPV%, 회수율 간의 상호작용을 나타내는 체계적인 플롯
C. 추정 신생 돌연변이의 확인
본 발명자들은 47개의 신생 돌연변이를 확인 및 검정하는 것을 목표로 하였다. 추정 신생 돌연변이 각각을 특이적으로 증폭시키고, 이어서 부체, 모체, 태반 및 제대혈 게놈 DNA를 생어 시퀀싱(Sanger sequencing)하도록 프라이머를 설계하였다. 그 결과가 도 I에 도시되어 있는데, 이것은 48개의 추정 신생 돌연변이의 차세대 시퀀싱(next-generation sequencing: NGS) 및 생어 시퀀싱 분석법을 보여준다.NGS는 상기에 지칭된 대규모 병렬 시퀀싱을 지칭하고, "Sanger seq"은 생어 시퀀싱을 지칭한다. 대립유전자 계수치가 명확화를 위해서 괄호로 표시되어 있다. 이들 돌연변이 중 하나(TP5)는 제대혈에서 검출되었고, 태반에서는 검출되지 않았다. 모체 혈장 중의 태아 DNA 분자는 주로 태반으로부터 유래하기 때문에, 제대혈 특이적인 돌연변이는 모체 혈장에서 검출 가능하지 않을 것이다. 따라서, 나머지 47개의 태반-유래 돌연변이 만이 검증에 적절하다.
도 40 및 41은 47개의 신생 돌연변이의 표를 나타낸다. 도 40 및 41에서, 표적 돌연변이의 염색체 위치는 2열에 나타나 있다. 3열에서, 모체 혈장에서 검출된 유전자형이 표시되어 있다. 주 대립유전자가 부 대립유전자 앞에 위치된다. 4열에서, 돌연변이 부위 각각에서 주 대립유전자를 나타내는 판독물 대 부 대립유전자의 판독물의 비가 표시되어 있다. 다음 컬럼에서, 대규모 병렬 시퀀싱 또는 차세대 시퀀싱(NGS)을 기초로 한 결과가 생어 시퀀싱 결과와 나란히 표시되어 있다. 47개의 돌연변이 중 43개 만이 태반 DNA에서 검출되었고, 부체 DNA 및 모체 DNA에서는 검출되지 않았다. 이는, 모체 혈장 DNA 시퀀싱에 의해서 식별된 돌연변이의 91%가 실제로 신생 돌연변이였고, 따라서 생어 시퀀싱이 혈장, 모체 DNA, 부체 DNA, 태반 DNA에 대한 NGS 데이터를 확인하였다는 것을 의미한다. 돌연변이 TP45의 검출을 위한 생어 시퀀싱 반응은 실패하였다. 돌연변이 TP21, TP30 및 TP44에 대한 검정은 NGS 시퀀싱과 생어 시퀀싱 사이에서 일관되지 않은 결과를 나타내었다.
VIII. 인간 혈장에서 무-세포 DNA로부터의 암 돌연변이 검출을 위한 모의실험 분석
임신한 경우로부터 생성된 시퀀싱 데이터를 사용하여, 본 발명자들은 태아가 그의 아버지로부터 물려 받았고, 그것이 암 환자에서 암에 의해서 발생된 체세포 돌연변이였다고 추정된 3,000개의 단일 뉴클레오타이드 변이체를 선택하였다. 다시 말해서, 본 발명자들은 그것이 암 환자의 혈장 샘플로부터의 무-세포 DNA 시퀀싱인 것처럼 모체 혈장 DNA 시퀀싱 데이터를 분석하였다. 이어서, 본 발명자들은 티어 D 필터링 알고리즘이 적용되는 경우 혈장 샘플이 단지 25x, 50x 및 100x 인간 게놈 포함률로 시퀀싱되면 얼마나 많은 변이체 및 위양성이 검출될 것인지를 측정하였다. 각각 25x, 50x 및 100x의 시퀀싱 데이터는 255x의 혈장 DNA 시퀀싱 데이터 중에서 무작위로 선택되었다.
도 44는 47개의 신생 돌연변이 및 3,000개의 추정된 체세포 돌연변이의 검출에 대한 회수율 및 PPV를 나타낸다. 표 1의 숫자에 대한 티어 D 필터링 알고리즘은 동적 컷오프, 재정렬, 돌연변이 분획 >20%, 및 크기 필터 10bp를 포함한다.
이어서, 본 발명자들은 컴퓨터 모의실험에 의해서 보다 광범위한 분석을 수행하였다.
도 45a 내지 45c 및 46a 내지 46c는 다양한 시퀀싱 깊이 및 종양 분획에 대한 다양한 돌연변이의 양에서의 모의실험을 나타낸다. 이러한 분석법 세트에서, 본 발명자들은 본 발명자들이 25x 내지 800x 범위의 혈장 DNA 시퀀싱 깊이를 갖고, 종양 분획 농도가 1% 내지 40% 범위인 경우, 그리고 종양에 의해서 발생된 체세포 돌연변이의 수가 3,000 내지 30,000개인 경우의 상황을 모의실험하였다. 분석법 모두는 티어 D 필터링 알고리즘을 기초로 한다.
이들 모의실험 각각의 경우, 검출된 체세포 돌연변이의 수뿐만 아니라 위양성의 수가 도 45a 내지 45c 및 도 46a 내지 46c에 표시되어 있다. 도 45a 내지 45c 및 도 46a 내지 46c에 나타내어진 바와 같이, 다수의 조건이 위양성보다 더 많은 체세포 돌연변이를 검출하는 것을 가능하게 할 것이다. 이들 조건은 혈장 DNA 분자 중에 존재하는 돌연변이의 부담을 평가하기 위한 "돌연변이 하중 시험"으로서 임상적으로 유용할 것이다. 이러한 수준이 예를 들어, 나이-매칭 및/또는 성별-매칭 대조군과 비교하거나, 또는 그 자신의 혈액 세포 DNA와 비교해서 더 높은 경우, 암이 의심될 것이다. 이러한 접근법은 암의 검출을 위한 스크리닝 툴로서 사용될 것이다.
IX. 암에 대한 방법
상기에 기술된 바와 같이, 실시형태는 시험될 대상체에서 체세포 돌연변이를 정확하게 식별하는 방법을 제공할 수 있다. 다양한 실시형태는 증폭-미포함 시퀀싱, 최소 증폭(예를 들어, 2% 복사 미만)을 갖는 시퀀싱, 및 다양한 필터링 기준을 사용할 수 있다. 식별 돌연변이를 사용하여 암의 수준, 뿐만 아니라 다른 목적을 결정할 수 있다.
A. 돌연변이 식별
도 47은 본 발명의 실시형태에 따라서 인간 대상체의 생물학적 샘플을 분석함으로써 인간 대상체에서 체세포 돌연변이를 식별하는 방법(4700)을 설명하는 흐름도이다. 생물학적 샘플은 정상 세포로부터 유래한 DNA 단편 및 잠재적으로 종양 세포 또는 암과 연관된 세포로부터 유래한 DNA 단편을 포함하고, 생물학적 샘플은 무-세포 DNA 단편을 포함한다. 방법(4700)은, 본 명세서에 기술된 다른 방법일 수 있는 바와 같이, 컴퓨터 시스템에 의해서 적어도 부분적으로 수행될 수 있다.
블록(4710)에서, 템플레이트 DNA 단편은 분석하고자 하는 생물학적 샘플로부터 수득된다. 템플레이트 DNA 단편은 무-세포 DNA 단편을 포함한다. 다양한 실시형태에서, 종양 세포로부터의 무-세포 DNA 단편 또는 암과 연관된 세포로부터의 무-세포 DNA 단편은 생물학적 샘플에서 무-세포 DNA 단편의 50%, 40%, 30%, 20%, 15%, 10%, 5%, 또는 1% 미만을 차지한다. 생물학적 샘플은 혈장 또는 혈청, 또는 본 명세서에 언급되거나 달리 무-세포 DNA를 포함하는 다른 유형의 샘플일 수 있다.
블록(4720)에서, 분석 가능한 DNA 분자의 시퀀싱 라이브러리는 템플레이트 DNA 단편을 사용하여 제조한다. 일 실시형태에서, 분석 가능한 DNA 분자의 시퀀싱 라이브러리의 제조는 템플레이트 DNA 단편의 DNA 증폭 단계를 포함하지 않는다. 또 다른 실시형태에서, 약간의 수준의 복사가 일어나도록 약간의 증폭이 수행될 수 있다. 그러나, 복사의 수준은 최소한일 수 있다. 다양한 실시에서, 템플레이트 DNA 단편으로부터의 시퀀싱 라이브러리의 복사율은 5% 미만, 2% 미만, 또는 1% 미만이다. 시퀀싱 라이브러리에서 분석 가능한 DNA 분자의 수는 라이브러리 제조 전에 생물학적 샘플에 본래 존재하는 템플레이트 DNA 단편의 수보다 적을 수 있다.
블록(4730)에서, 분석 가능한 DNA 분자의 시퀀싱 라이브러리를 시퀀싱하여 복수의 서열 판독물을 수득한다. 본 명세서에 기술된 바와 같이, 다양한 유형의 시퀀싱 절차가 사용될 수 있다. 다양한 깊이 및 폭이 사용될 수 있다. 또 다른 예로서, 단일 분자 시퀀싱이 수행될 수 있다. 그리고, 시퀀싱은 메틸화-인식 시퀀싱일 수 있다.
블록(4740)에서, 복수의 서열 판독물이 컴퓨터 시스템에서 수용된다. 서열 판독물은 예를 들어 시퀀싱 기계로부터의 네트워크 상에서 또는 저장 장치 상에서 임의의 적합한 방식 또는 포맷으로 수용될 수 있다. 시퀀싱 기계로부터 수용된 데이터는 기본 값(base call)을 결정하는 데 사용되는 미처리 강도 값일 수 있다.
블록(4750)에서, 컴퓨터는 복수의 서열 판독물을 표준 인간 게놈에 정렬하여 복수의 서열 판독물에 대한 게놈 자리를 결정할 수 있다. 다양한 실시형태에서, 적어도 30x, 35x, 40x, 50x, 75x, 100x, 150x, 또는 200x의 시퀀싱 깊이가 사용될 수 있다. 정렬된 서열 판독물은 표준 인간 게놈의 다양한 일부, 예컨대 표준 인간 게놈의 적어도 0.1%, 1%, 5%, 10%, 및 15%를 포함할 수 있다.
블록(4760)에서, 컴퓨터 시스템은 인간 대상체에 상응하는 구성적 게놈에 관한 정보를 수득할 수 있다. 구성적 게놈은 인간 대상체의 것 또는 인간 대상체에 상응하는 표준 게놈일 수 있다. 예를 들어, 구성적 게놈은 인간 대상체의 명시된 집단에 대한 표준 게놈일 수 있다.
블록(4770)에서, 컴퓨터 시스템은 서열 판독물을 구성적 게놈과 비교하여 필터링된 좌위 세트를 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별할 수 있다. 일 양상에서, 필터링된 세트의 각각의 좌위에서, 구성적 게놈에 상대적인 서열 변이체를 갖는 다수의 서열 판독물은 컷오프 값을 초과하고 여기서 컷오프 값은 1을 초과한다. 컷오프 값은 본 명세서에 기술된 바와 같은 동적 컷오프 값일 수 있다. 컷오프 값은 하나의 필터 기준일 수 있고, 나머지가 적용될 수 있다. 필터링된 세트는, 잠재적으로 다양한 필터링 기준을 사용한, 모든 필터링 단계 이후의 최종 출력물일 수 있다.
블록(4780)에서, 다른 필터링 기준을 사용하여 필터링된 좌위 세트를 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별할 수 있다. 이러한 필터링 기준은 다른 곳에 그리고 하기에 기술되어 있다.
블록(4790)에서, 식별된 체세포 돌연변이를 다양한 목적을 위해서 사용할 수 있다. 목적의 다양한 예가 하기에 제공된다. 예를 들어, 돌연변이 하중을 측정하고, 이것을 사용하여 암의 수준을 결정할 수 있다. 돌연변이를 잠재적으로 환자의 추가 평가를 위해서 추가 시험을 설계하기 위해서, 그리고 환자의 치료를 결정하기 위해서 사용할 수 있다.
다른 필터링 기준을 적용한 예가 하기뿐만 아니라 본 명세서의 다른 섹션에 기술되어 있다. 다른 필터링 기준을 사용하여 필터링된 좌위 세트를 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별할 수 있다. 필터링 기준 중 일부의 경우, 잠재적으로 체세포 돌연변이를 갖는 것으로 식별된 후보 좌위의 세트를 분석할 수 있다. 후보 좌위는 임의의 적합한 기준, 예를 들어 고정 컷오프, 동적 컷오프, 또는 다른 이전에 사용된 필터링 기준을 사용하여 식별될 수 있다. 따라서, 생성된 후보 좌위의 세트는 또 다른 필터링 기준을 적용한 출력물일 수 있다.
1. 재정렬
재정렬을 위해서, 잠재적으로 체세포 돌연변이를 갖는 것으로 식별된 제1 후보 좌위 세트 각각을 분석할 수 있다. 제1 정렬 절차를 사용하여 후보 좌위에 정렬하고, 서열 변이체를 갖는 서열 판독물 각각을 재정렬 절차에서 추가로 분석할 수 있다. 예를 들어 섹션 V.B에서 기술된 바와 같이, 제1 정렬 절차에 대해서 사용된 것과 상이한 매칭 알고리즘을 사용하는 제2 정렬 절차를 사용하여 서열 판독물이 후보 좌위에 정렬하는지의 여부를 결정할 수 있다. 서열 판독물이 제2 정렬 절차를 사용하여 후보 좌위에 정렬하는 경우, 제2 정렬 절차에 대해서 재정렬의 맵핑 품질을 측정할 수 있다.
제2 정렬에 대한 맵핑 품질을 측정한 후, 서열 판독물이 낮은 품질인지의 여부를 결정하도록, 맵핑 품질을 품질 역치와 비교할 수 있다. 이어서, 맵핑 품질과 품질 역치의 비교를 기초로 서열 판독물의 폐기 여부를 결정할 수 있다. 결정은 역치보다 낮은 판독물이 폐기될 수 있다는 것일 수 있다. 다른 실시형태에서, 스코어(예를 들어, 가중)를 비교를 기초로 결정할 수 있고, 여기서 다수의 품질 역치에 대한 비교를 수행하여 스코어, 예를 들어 상이한 재정렬 스코어에 상응하는 각각의 역치를 결정할 수 있다. 이어서, 스코어를 하나 이상의 다른 필터링 기준으로부터의 스코어와 집합적인 방식으로 사용하여 판독물의 폐기 여부를 결정할 수 있다. 특정 방식(및 상기에 제공된 예 포함)에 관계없이, 품질 역치보다 낮은 맵핑 품질은, 품질 역치보다 높은 맵핑 품질보다 서열 판독물을 폐기할 더 높은 가능성을 제공한다.
이러한 필터링 공정의 일부로서, 다수의 남아있는 서열 판독물을 수득한다. 남아있는 서열 판독물의 수를 후보 역치와 비교할 수 있는데, 이것은 후보 좌위를 식별하기 위해서 본래 사용된 동일한 역치일 수 있다. 서열 판독물에 대한 유사한 가능성 분석법에서, 남아있는 서열 판독물의 수와 후보 역치의 비교를 기초로 후보 좌위의 폐기 여부를 결정할 수 있다. 분석법은 엄격하게 역치에 대한 비교를 기초로 할 수 있거나, 또는 상기에 언급된 바와 같은 스코어링(가중)시스템을 사용할 수 있다. 관계없이, 후보 역치보다 적은 남아있는 서열 판독물의 수는 후보 역치보다 많은 남아있는 서열 판독물의 수보다 후보 좌위를 폐기할 더 높은 가능성을 제공한다. 필터링된 좌위 세트는 남아있는 후보 좌위를 사용하여 체세포 돌연변이를 갖는 것으로 식별될 수 있다.
2. 크기
크기 분석을 위해서, 후보 좌위의 세트 각각을 분석할 수 있다. 크기 차이는 서열 변이체를 갖는 DNA 단편의 제1 군과 야생형 대립유전자를 갖는 DNA 단편의 제2 군 사이에서 측정될 수 있다. 이러한 크기 분석은 본 명세서에 기술되어 있다. 크기 차이는 2개의 군에 대한 크기 분포의 임의의 통계학적 값 사이에 존재할 수 있다. 예를 들어, DNA 단편의 제1 군의 중간 크기와 DNA 단편의 제2 군의 중간 크기의 차이가 사용될 수 있다. 또 다른 예로서, 제1 군과 제2 군 사이의 크기에 의한 누적 빈도에서의 최대치가 존재한다. 미국 특허 공개 제2011/0276277호 및 제2013/0237431호에 기술된 임의의 크기 값이 존재한다.
크기 차이를 크기 역치와 비교할 수 있고, 크기 역치는 분류될 암 또는 다른 상태를 갖는 것으로 공지된 샘플로부터 결정될 수 있다. 이어서, 비교를 기초로 후보 좌위를 잠재적인 돌연변이로서 폐기할 지의 여부를 결정할 수 있다. 다른 필터링 기준에 대해서, 비교를 엄격하게 사용하거나 스코어로서 사용할 수 있다. 관계없이, 크기 역치보다 작은 크기 차이는 크기 역치보다 큰 크기 차이보다 후보 좌위를 폐기할 더 높은 가능성을 제공한다. 필터링된 좌위 세트는 남아있는 후보 좌위를 사용하여 인간 대상체에서 체세포 돌연변이를 갖는 것으로 식별될 수 있다.
3. 히스톤 변형
히스톤 변형의 경우, 암과 연관된 히스톤 변형과 연관된다고 공지된 영역의 군을 식별할 수 있다. 후보 좌위가 영역의 군 중 하나에 존재하는지의 여부를 기초로 후보 좌위의 폐기 여부를 결정함으로써 후보 좌위의 세트 각각을 분석할 수 있다. 다른 필터링 기준에 대해서, 비교를 엄격하게 사용하거나 스코어로서 사용할 수 있다. 관계없이, 영역의 군 중 하나에 존재하지 않는 후보 좌위는, 후보 좌위가 영역의 군 중 하나에 존재하는 경우보다 후보 좌위를 폐기할 더 높은 가능성을 제공한다. 필터링된 좌위 세트는 남아있는 후보 좌위를 사용하여 인간 대상체에서 체세포 돌연변이를 갖는 것으로 식별될 수 있다.
4. 돌연변이 분획
돌연변이 분획을 위해서, 후보 좌위의 세트 각각을 분석할 수 있다. 서열 변이체를 갖는 서열 판독물의 분획을 측정하고, 이어서, 분획 역치와 비교할 수 있다. 이어서, 예를 들어, 스코어 또는 엄격한 컷오프를 사용하여 비교를 기초로 후보 좌위를 잠재적인 돌연변이로서 폐기할 지의 여부를 결정할 수 있다. 어느 방식이든, 분획 역치보다 낮은 분획은 분획 역치(예를 들어, 5%, 10%, 20%, 또는 30%)보다 높은 분획보다 후보 좌위를 폐기할 더 높은 가능성을 제공한다. 필터링된 좌위 세트는 남아있는 후보 좌위를 사용하여 인간 대상체에서 체세포 돌연변이를 갖는 것으로 식별될 수 있다.
일부 실시형태에서, 분획 역치는 생물학적 샘플에서 종양 DNA의 측정된 분획 농도를 기초로 결정될 수 있다. 생물학적 샘플에서 종양 DNA의 분획 농도는 (예를 들어, 유사하지만 영역에서 하나 이상의 좌위에 특이적인 데이터를 사용하는 기술을 사용하여) 복수의 영역 각각에 대해서 측정될 수 있다. 후보 좌위를 위해서 사용된 분획 역치는 후보 좌위가 존재하는 영역에 대해서 측정된 분획 농도일 수 있다.
또 다른 실시형태에서, 이상 영역(aberrant region)을 사용하여 분획 역치를 측정할 수 있다. 사본 수 일탈을 갖는 하나 이상의 영역이 식별될 수 있다. 이상 영역에서 후보 좌위를 위해서 사용된 분획 역치는 이상 영역이 사본 수 이득을 나타내는지 또는 사본 수 손실을 나타내는지의 여부에 좌우될 수 있다. 이득의 경우에 더 높은 역치가 사용될 수 있고, 손실의 경우에 더 낮은 역치가 사용될 수 있다.
사본 수 일탈을 갖는 하나 이상의 이상 영역은, 필터링된 좌위 세트 각각에 대한 구성적 게놈에 상대적인 서열 변이체를 갖는 서열 판독물의 수를 측정하기 위해서 서열 판독물의 폐기 여부를 결정하는 부분으로서 사용될 수 있다. 사본 수 이득을 나타내는 제1 이상 영역으로부터의 제1 서열 판독물은 사본 수 손실을 나타내는 제2 이상 영역으로부터의 제2 서열 판독물보다 체세포 돌연변이를 가질 개연성이 더 크다.
하나 이상의 이상 영역은 후보 좌위의 세트를 분석함으로써 식별될 수 있다. 구성적 게놈에 상대적인 서열 변이체의 겉보기 돌연변이 분획을 계산할 수 있다. 이상 영역에서 후보 좌위의 겉보기 돌연변이 분획의 분산도를 복수의 영역 각각에 대해서 측정할 수 있다. 분산도를 분산도 역치와 비교할 수 있고, 여기서 사본 수 이득을 나타내는 이상 영역은 역치보다 큰 분산도를 갖는다.
5. 메틸화 상태
메틸화 상태를 위해서, 시퀀싱은 메틸화-인식 시퀀싱이다. 후보 좌위의 세트 각각을 분석할 수 있고, 후보 좌위에 정렬하고, 서열 변이체를 갖는 서열 판독물 각각을 분석한다. 서열 판독물을 위해서, 하나 이상의 부위(예를 들어, CpG 부위)에서 상응하는 분석 가능한 DNA 분자의 메틸화 상태를 측정할 수 있다. 메틸화 상태를 기초로 서열 판독물의 폐기 여부를 결정할 수 있다. 다른 필터링 기준에 대해서, 비교를 엄격하게 사용하거나 스코어로서 사용할 수 있다. 관계없이, 메틸화되지 않은메틸화 상태는 메틸화된 메틸화 상태보다 서열 판독물을 폐기할 더 높은 가능성을 제공한다.
남아있는 서열 판독물의 수를 후보 역치와 비교할 수 있는데, 이것은 후보 좌위를 식별하기 위해서 사용되는 것과 동일할 수 있다(다른 필터링 기준에 대한 후보 역치의 다른 사용에서 사실인 바와 같음). 서열 판독물에 대한 유사한 가능성 분석법에서, 남아있는 서열 판독물의 수와 후보 역치의 비교를 기초로 후보 좌위의 폐기 여부를 결정할 수 있다. 분석법은 엄격하게 역치에 대한 비교를 기초로 할 수 있거나, 또는 상기에 언급된 바와 같은 스코어링(가중)시스템을 사용할 수 있다. 관계없이, 후보 역치보다 적은 남아있는 서열 판독물의 수는 후보 역치보다 많은 남아있는 서열 판독물의 수보다 후보 좌위를 폐기할 더 높은 가능성을 제공한다. 필터링된 좌위 세트는 남아있는 후보 좌위를 사용하여 체세포 돌연변이를 갖는 것으로 식별될 수 있다.
6. 혈장 DNA 말단 위치
혈장 DNA 말단 위치에 대해서, 후보 좌위 세트 각각을 분석할 수 있고, 후보 좌위에 정렬하고, 서열 변이체를 갖는 서열 판독물 각각을 분석한다. 서열 판독을 위해서, 서열 판독물의 말단이 정렬한 상응하는 말단 위치를 측정할 수 있다. 말단 위치를 복수의 암-특이적인 종결 위치 또는 암-연관된 종결 위치와 비교할 수 있다. 서열 판독물의 폐기 여부는 비교를 기초로 결정된다. 암-특이적인 종결 위치 또는 암-연관된 종결 위치가 아닌 말단 위치는 암-특이적인 종결 위치 또는 암-연관된 종경 위치인 말단 위치보다 서열 판독물을 폐기할 더 높은 가능성을 제공한다. 남아있는 수의 서열 판독물을 사용하여 후보 좌위의 폐기 여부를 결정할 수 있다.
7. 단-가닥 시퀀싱
후속 시퀀싱 단계를 제공하여 각각의 템플레이트 DNA 분자에 대한 두 가닥 판독물을 산출하는 단-가닥 시퀀싱 라이브러리 제조 방법을 사용하여 시퀀싱을 수행할 수 있다. 단-가닥 시퀀싱 라이브러리 제조 방법의 일례는 문헌[Snyder et al. Cell 2016; 164: 57-68]에 기술되어 있다. 후보 좌위 세트 각각을 분석할 수 있고, 후보 좌위에 정렬한 가닥 판독물의 각각의 쌍을 분석한다. 두 가닥 모두가 서열 변이체를 갖는지의 여부를 결정할 수 있다. 이어서, 두 가닥 모두가 서열 변이체를 갖는지의 여부를 기초로 서열 판독물의 폐기 여부를 결정할 수 있다. 서열 변이체를 갖지 않은 두 가닥 모두는 서열 변이체를 갖는 단지 하나의 가닥 판독물보다 가닥 판독물을 폐기할 더 높은 가능성을 제공한다. 서열 판독물의 남아있는 수를 사용하여 후보 좌위의 폐기 여부를 결정할 수 있다.
B. 암의 수준 측정
도 48은 본 발명의 실시양태에 따른 대상체의 생물학적 샘플을 분석하기 위해서 식별된 체세포 돌연변이를 사용하는 방법(4800)을 설명한 흐름도이다.
블록(4810)에서, 체세포 돌연변이를 식별한다. 체세포 돌연변이를 도 47의 방법(4700)에 대해서 기술된 바와 같이 식별할 수 있다.
블록(4820)에서, 필터링된 좌위 세트에서 좌위의 양을 사용하여 인간 대상체에 대한 돌연변이 하중을 측정한다. 다양한 실시형태에서, 돌연변이 하중은 체세포 돌연변이의 본래 수치, 염기의 수 당 체세포 돌연변이의 밀도, 체세포 돌연변이를 갖는 것으로 식별된 게놈 영역의 좌위의 백분율, 특정량의 샘플에서 관찰되는 다수의 체세포 돌연변이 또는 표준 하중과 비교된 증가로 측정될 수 있다.
블록(4830)에서, 돌연변이 하중을 암 역치와 비교하여 암의 수준을 측정한다. 암 역치는 암 환자와 암이 없는 대상체 간의 구별을 기초로 결정될 수 있다. 관련 기술 분야의 통상의 기술자는 목적하는 감도 및 특이성에 따라서 상이한 역치가 사용될 수 있다는 것을 인지할 것이다. 본 명세서에 나타내어진 바와 같이, 실시형태를 사용하여 건강한 대상체와 암, 예를 들어 HCC를 갖는 대상체를 구별할 수 있는 돌연변이 하중을 결정할 수 있다.
블록(4840)에서, 암의 수준이 종양의 존재를 나타내는 경우, 암의 기원 조직이 결정될 수 있다. 예로서, 이러한 결정은 메틸화 특징부 또는 히스톤 변형 또는 분석된 DNA 단편의 말단 위치의 분포를 사용하여 행해질 수 있다.
히스톤 변형을 사용한 일 실시형태에서, 히스톤 변형의 제1 양을 표준 인간 게놈의 제1 복수의 분절 각각에 대해서 측정한다. 이러한 제1 양은 좌위가 관련 히스톤 변형과 연관된 사용 가능한 표준 정보로부터 측정될 수 있다. 필터링된 좌위 세트의 제2 양을 표준 인간 게놈의 제2 복수의 분절 각각에 대해서 측정할 수 있다. 이어서 차이 분절을 서로에 연관시킬 수 있다 따라서, 제1 역치를 초과하는 히스톤 변형의 제1 양을 갖고, 제2 역치를 초과하는 필터링된 좌위 세트의 제2 양을 갖는 제1 분절 세트를 결정할 수 있다. 두 역치는 동일할 수 있다. 역치는, 게놈의 분절이 높은 히스톤 변형 및 많은 수의 돌연변이를 갖는 것임을 보장할 수 있다. 양 및 역치는 (예를 들어 메가베이스 당) 본래 수치 또는 밀도일 수 있다.
블록(4850)에서, 암의 측정된 수준, 식별된 돌연변이 및/또는 기원 조직에 따라서 치료를 제공할 수 있다. 예를 들어, 식별된 돌연변이는 특정 약물 또는 화학요법에 대한 표적이 될 수 있다. 기원 조직은 수술을 안내하기 위해서 사용될 수 있다. 그리고, 암의 수준을 사용하여 임의의 유형의 치료에 얼마나 공격적인지를 결정할 수 있고, 이것 또한 암의 수준을 기초로 결정될 수 있다.
C. 식별된 돌연변이의 다른 용도
상기에 언급된 바와 같이, 돌연변이의 수는 시험된 대상체가 암을 갖는다는 지표로서 사용될 수 있다. 일 실시형태에서, 검출된 돌연변이의 수가 암이 없는 대상체에서 검출된 것보다 더 높으면 개체가 암을 갖는 높은 가능성을 갖는 것으로서 분류될 수 있다.
일단 식별되면, 돌연변이의 세트는 환자의 암의 미래의 모니터링, 확인 목적, 보다 정확한 측정 목적, 또는 순차적인 측정 목적(이것은 반복적인 철저한 시퀀싱 다회보다 저비용일 것임)을 위해서 보다 표적화된 검정법(돌연변이 하중으로 표현된 돌연변이를 기초로 함)의 설계를 알아내기 위해서 사용될 수 있다 이러한 순차적인 측정은 후속 목적, 예를 들어 혈장에서 돌연변이 특징부의 농도가 증가(잠재적으로 나쁜 예후 신호)하는지 또는 감소(잠재적으로 양호한 예후 신호 또는 암이 선택된 치료에 반응성임)하는지를 인지하는 데 유용할 것이다.
돌연변이 하중에서 검출된 특이적인 돌연변이는 임상의에게 관련 요법 또는 약물, 예를 들어 표적 요법을 선택하기 위한 정보를 제공할 것이다. 예로서, 표피 성장 인자 수용체 유전자에서 특이적인 돌연변이를 갖는 암을 치료하기 위해서 티로신 카이나제 억제제를 사용할 수 있다.
식별된 돌연변이의 스펙트럼을 사용하여 종양의 부위를 식별하는 것을 도울 수 있는데 그 이유는 상이한 기관 /조직으로부터 발생된 종양은 상이한 돌연변이 프로파일을 갖는 것으로 밝혀졌기 때문이다(Polak et al. Nature 2015; 518: 360-364). 그것은 또한 검출된 돌연변이의 세트에 인과적으로 연결된 발암 물질 및 환경 노출에 관한 정보를 제공할 수 있다(Alexandrov et al. Nature 2013; 500: 415-421). 식별된 돌연변이의 스펙트럼을 사용하여 예측에 도움을 줄 수 있다. 예를 들어, 일부 돌연변이는 특히 공격적이거나 무통성인 암의 마커일 수 있다.
태아 시험과 관련하여, 식별된 돌연변이의 세트는 보다 표적화된 검정법(돌연변이 하중으로 표현된 돌연변이를 기초로 함)의 설계를 알아내기 위해서 사용될 수 있다. 또한, 산전 시험과 관련하여, 식별된 돌연변이의 세트는 임상의에게 그 경우의 특별한 임상 조절을 위한 필요성을 알리기 위해서 사용될 수 있다. 일례로서, 아들 태아에서 산발성 혈우병(sporadic hemophilia) 돌연변이의 검출은 임신한 여성이 만삭임신을 유지하는 것을 선택한다면 분만 절차 동안 예방(예를 들어 겸자 분만의 회피)이 필요함을 나타낸다. 또 다른 예로서, 선천적인 부신 과다형성(CAH)의 이전 가족력이 없는 가족에서 CAH에 대한 돌연변이에 대해서 동형접합성이거나 복합 이형접합성(compound heterozygous)인 딸 태아의 검출은, 태아 생식기의 남성화 위험을 감소시키도록, 임신한 여성의 초기 덱사메토산 요법에 대한 필요성을 임상의에게 알릴 것이다.
X. 태아 분석 방법
도 49는 본 발명의 실시형태에 따른 태아를 임신한 여성 대상체의 생물학적 샘플을 분석함으로써 태아의 신생 돌연변이를 식별하는 방법(4900)을 설명한 흐름도이다. 생물학적 샘플은 태아 및 여성 대상체로부터의 무-세포 DNA 단편을 포함한다.
블록(4910)에서, 템플레이트 DNA 단편은 분석하고자 하는 생물학적 샘플로부터 수득된다. 템플레이트 DNA 단편은 무-세포 DNA 단편을 포함한다. 블록(4910)은 도 47의 블록(4710)과 유사한 방식으로 수행될 수 있다.
블록(4920)에서, 분석 가능한 DNA 분자의 시퀀싱 라이브러리를 템플레이트 DNA 단편을 사용하여 제조한다. 블록(4920)은 도 47의 블록(4720)과 유사한 방식으로 수행될 수 있다.
블록(4930)에서, 분석 가능한 DNA 분자의 시퀀싱 라이브러리를 시퀀싱하여 복수의 서열 판독물을 수득한다. 블록(4930)은 도 47의 블록(4730)과 유사한 방식으로 수행될 수 있다.
블록(4940)에서, 복수의 서열 판독물이 컴퓨터 시스템에서 수용된다. 블록(4940)은 도 47의 블록(4740)과 유사한 방식으로 수행될 수 있다.
블록(4950)에서, 컴퓨터는 복수의 서열 판독물을 표준 인간 게놈에 정렬하여 복수의 서열 판독물에 대한 게놈 자리를 결정할 수 있다. 블록(4950)은 도 47의 블록(4750)과 유사한 방식으로 수행될 수 있다.
블록(4960)에서, 컴퓨터 시스템은 여성 대상체의 모체 게놈 및 태아의 아버지의 부체 게놈에 관한 정보를 수득할 수 있다. 정보는 돌연변이의 존재에 대해서 관찰된 좌위에서 두 부모 모두에 관한 유전자형 정보를 포함할 수 있다. 이러한 유전자형 정보는 관련 기술 분야의 통상의 기술자에게 공지된 바와 같은 임의의 적합한 기술을 통해서 수득될 수 있다.
블록(4970)에서, 컴퓨터 시스템은 서열 판독물을 모체 게놈 및 부체 게놈과 비교하여 필터링된 좌위 세트를 태아에서 신생 돌연변이를 갖는 것으로 식별할 수 있다. 일 양상에서, 필터링된 세트의 각각의 좌위에서, 모체 게놈에 존재하지 않고, 부체 게놈에 존재하지 않는 서열 변이체를 갖는 다수의 서열 판독물은 컷오프 값을 초과하고, 여기서 컷오프 값은 1을 초과한다.
블록(4980)에서, 다른 필터링 기준을 사용하여 필터링된 좌위 세트를 태아에서 신생 돌연변이를 갖는 것으로 식별할 수 있다. 이러한 필터링 기준은 다른 곳, 예를 들어, 섹션 IX에 기술되어 있다.
블록(4990)에서, 식별된 신생 돌연변이는 다양한 목적을 위해서 사용될 수 있다. 이러한 목적의 예는 섹션 IX.C에서 찾아볼 수 있다.
XI. 컴퓨터 시스템
본 명세서에 언급된 컴퓨터 시스템 중 임의의 것이 임의의 적합한 수의 하위시스템을 이용할 수 있다. 이러한 하위시스템의 예는 도 15에서 컴퓨터 장치(10)로 표현된다. 일부 실시형태에서, 컴퓨터 시스템은 단일 컴퓨터 장치를 포함하며, 여기서 하위시스템은 컴퓨터 장치의 부품일 수 있다. 다른 실시형태에서, 컴퓨터 시스템은 내부 성분과 함께, 각각 하위시스템인, 다수의 컴퓨터 장치를 포함할 수 있다. 컴퓨터 시스템은 데스크탑 및 랩탑 컴퓨터, 태블렛, 이동 전화 및 다른 이동식 장치를 포함할 수 있다.
도 15에 도시된 하위시스템은 시스템 버스(system bus)(75)를 통해서 서로 연결되어 있다. 어댑터(82)를 나타내기 위해 커플링된, 프린터(74), 키보드(78), 저장 장치(들)(79), 모니터 (76)와 같은 추가의 하위시스템, 및 다른 것이 나타나 있다. 입력/출력(I/O) 컨트롤러(71)에 커플링된, 주변 및 입력/출력(I/O) 장치는 입력/출력(I/O) 포트 (77)와 같이, 관련 기술 분야에 공지된 임의의 수의 수단(예를 들어, USB, 파이어와이어(FireWire)(등록상표))에 의해 컴퓨터 시스템에 연결될 수 있다. 예를 들어, I/O 포트(77) 또는 외부 인터페이스(81)(예를 들어, 이더넷, Wi-Fi 등)을 사용하여 컴퓨터 시스템(10)을 인터넷, 마우스 입력 장치, 또는 스캐너와 같은 광범위 네트워크에 연결시킬 수 있다. 시스템 버스(75)를 통한 상호연결은 중앙 프로세서(73)가 각각의 하위시스템과 통신하도록 하고 시스템 기억장치(72) 또는 저장 장치(들)(79)(예를 들어, 고정 디스크, 예컨대 하드 드라이브, 또는 광 디스크)로부터 지시의 실행, 및 또한 하위시스템들 사이의 정보의 교환을 조절할 수 있도록 한다. 시스템 기억장치(72) 및/또는 저장 장치(들)(79)는 컴퓨터 판독 가능한 매체를 구현할 수 있다. 또 다른 하위시스템은 데이터 수집 장치(85), 예컨대 카메라, 마이크로폰, 가속도계 등이다. 본 명세서에 언급된 데이터 중 임의의 것이 하나의 성분으로부터 또 다른 성분으로 출력될 수 있고, 사용자에게 출력될 수 있다.
컴퓨터 시스템은 예를 들어, 외부 인터페이스(81)에 의해 또는 내부 인터페이스에 의해 함께 연결된, 다수의 동일한 성분 또는 하위시스템을 포함할 수 있다. 일부 실시형태에서, 컴퓨터 시스템, 하위시스템, 또는 장치는 네트 워크에 걸쳐 통신할 수 있다. 이러한 예에서, 하나의 컴퓨터는 클라이언트로 고려될 수 있고 또 다른 컴퓨터는 서버로 고려될 수 있으며, 여기서 각각은 동일한 컴퓨터 시스템의 부분일 수 있다. 클라이언트 및 서버는 각각 다중 시스템, 하위시스템, 또는 성분을 포함할 수 있다.
본 발명의 실시형태 중 임의의 것은 하드웨어(예를 들어, 적용 특이적인 집적회로 또는 필드 프로그램 가능한 게이트 어레이)를 사용하여 그리고/또는 모듈러 또는 집적 방식으로 일반적으로 프로그램 가능한 프로세서가 장착된 컴퓨터 소프트웨어를 사용하여 제어 논리 형태로 실시될 수 있다는 것을 이해해야 한다. 본 명세서에서 사용되는 바와 같이, 프로세서는 단일-코어 프로세서, 동일한 집적 칩 상의 다중-코어 프로세서, 또는 단일 회로판 또는 네트워크 상의 다중 프로세싱 장치를 포함한다. 본 명세서에 제공된 개시 내용 및 교시를 기반으로, 관련 기술 분야의 통상의 기술자는 하드웨어 및 하드웨어와 소프트웨어의 조합을 사용하여 본 발명의 실시형태를 실시하기 위한 다른 방식 및/또는 방법을 알고 인지할 것이다.
본 출원에 기술된 소프트웨어 성분 또는 기능 중 임의의 것은 예를 들어, 종래의 또는 대상 기원한 기술을 사용하는, 예를 들어, 자바(Java), C, C++, C#, 오브젝티브(Objective)-C, 스위프(Swift), 또는 스크립팅 언어, 예컨대 펄(Perl) 또는 파이톤(Python)과 같은 임의의 적합한 컴퓨터 언어를 사용하여 프로세서에 의해 실행될 소프트웨어 암호로서 실시될 수 있다. 소프트웨어 암호는 저장 및/또는 전송을 위한 컴퓨터 판독 가능한 매체 상에 일련의 지시사항 또는 명령으로서 저장될 수 있으며, 적합한 매체는 무작위 접근 기억장치(RAM), 판독 전용 기억장치(ROM), 하드-드라이브 또는 플로피 디스크와 같은 자기 매체, 또는 컴팩트 디스크(CD) 또는 DVD(디지털 다기능 디스크), 플래쉬 메모리 등과 같은 광학 매체를 포함한다. 컴퓨터 판독 가능한 매체는 이러한 저장 또는 전송 장치의 특정 조합일 수 있다.
이러한 프로그램은 또한 인터넷을 비롯한, 각종 프로토콜에 따른 유선, 광학 및/또는 무선 네트워크를 통한 전송을 위해 채택된 매개체 신호를 사용하여 암호화되고 전송될 수 있다. 이와 같이, 본 발명의 실시형태에 따른 컴퓨터 판독 가능한 매체는 이러한 프로그램으로 암호화된 데이터 신호를 사용하여 생성될 수 있다. 프로그램 암호로 암호화된 컴퓨터 판독 가능한 매체는 호환 장치와 함께 패키징될 수 있거나(예를 들어, 인터넷 다운로드를 통해) 다른 장치로부터 별도로 제공될 수 있다. 임의의 이러한 컴퓨터 판독 가능한 매체는 단일 컴퓨터 프로그램 제품(예를 들어, 하드 드라이브, CD, 또는 전체 컴퓨터 시스템) 상에 또는 그 내에 속할 수 있고, 시스템 또는 네트워크 내의 상이한 컴퓨터 프로그램 제품에 또는 제품 내에 존재할 수 있다 컴퓨터 시스템은 모니터, 프린터, 또는 본 명세서에 언급된 결과 중 임의의 것을 사용자에게 제공하기에 적합한 다른 디스플레이를 포함할 수 있다.
본 명세서에 기술된 방법 중 임의의 것을 단계를 수행하기 위해 구성될 수 있는, 하나 이상의 프로세서를 포함하는 컴퓨터 시스템을 사용하여 전체적으로 또는 부분적으로 수행할 수 있다. 따라서, 실시형태는 잠재적으로 각각의 단계 또는 각각의 단계의 군을 수행하는 상이한 부품과 함께, 본 명세서에 기술된 방법 중 임의의 것의 단계를 수행하기 위해 구성된 컴퓨터 시스템에 관한 것일 수 있다. 번호매긴 단계로서 제공되더라도, 본 명세서의 방법의 단계는 동시에 또는 상이한 순서로 수행될 수 있다. 또한, 이들 단계의 일부를 다른 방법으로부터의 다른 단계의 일부와 함께 사용할 수 있다. 또한, 단계 모두 또는 일부는 임의적일 수 있다. 또한, 방법 중 임의의 것의 단계 중 임의의 것을 이들 단계를 수행하기 위한 모듈, 회로, 또는 다른 수단과 함께 수행할 수 있다.
특정 실시형태의 구체적인 세부사항은 본 발명의 실시형태의 사상 및 범주로부터 벗어나지 않으면서 임의의 적합한 방식으로 조합될 수 있다. 그러나, 본 발명의 다른 실시형태는 각각의 개별 양상에 관한 구체적인 실시형태, 또는 이들 개별 양상의 구체적인 조합에 관한 것일 수 있다.
본 발명의 예시적인 실시형태의 상기 기술은 예시 및 설명의 목적으로 제공된다. 본 발명을 기술된 정밀한 형태로 철저하게 하거나 제한하는 것을 의도하지 않으며, 많은 변형 및 변화가 상기 교시의 측면에서 가능할 수 있다.
단수의 인용은 반대로 구체적으로 나타내지 않은 한, "하나 이상"을 의미하는 것으로 의도된다. "또는"의 사용은 반대로 구체적으로 나타내지 않는 한 "배타적인 또는"이 아니라 "포함의 또는"을 의미하는 것으로 의도된다.
모든 특허, 특허 출원, 간행물 및 본 명세서에 언급된 설명은 모든 목적을 위해서 이들의 전문이 참고로 포함된다. 어느 것도 선행 기술인 것으로 허용되지 않는다.

Claims (70)

  1. 인간 대상체의 생물학적 샘플을 분석함으로써 상기 인간 대상체에서 체세포 돌연변이를 식별하는 방법으로서, 상기 생물학적 샘플은 정상 세포로부터 유래한 DNA 단편 및 잠재적으로 종양 세포 또는 암과 연관된 세포로부터 유래한 DNA 단편을 포함하되, 상기 생물학적 샘플은 무-세포(cell-free) DNA 단편을 포함하고, 하기 단계들을 포함하는, 체세포 돌연변이를 식별하는 방법:
    분석하고자 하는 상기 생물학적 샘플로부터 템플레이트 DNA 단편을 수득하는 단계이되, 상기 템플레이트 DNA 단편은 무-세포 DNA 단편을 포함하는, 단계;
    상기 템플레이트 DNA 단편을 사용하여 분석 가능한 DNA 분자의 시퀀싱 라이브러리를 제조하는 단계이되, 상기 분석 가능한 DNA 분자의 시퀀싱 라이브러리를 제조하는 상기 단계는 템플레이트 DNA 단편의 DNA 증폭 단계를 포함하지 않는, 단계;
    상기 분석 가능한 DNA 분자의 시퀀싱 라이브러리를 시퀀싱하여 복수의 서열 판독물을 수득하는 단계;
    컴퓨터 시스템에서, 상기 복수의 서열 판독물을 수용하는 단계;
    상기 컴퓨터 시스템에 의해서, 상기 복수의 서열 판독물을 표준 인간 게놈에 정렬하여 상기 복수의 서열 판독물에 대한 게놈 자리를 결정하는 단계;
    상기 컴퓨터 시스템에 의해서, 상기 인간 대상체에 상응하는 구성적 게놈에 관한 정보를 수득하는 단계; 및
    상기 컴퓨터 시스템에 의해서, 상기 서열 판독물을 상기 구성적 게놈과 비교하여 필터링된 좌위(loci) 세트를 상기 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별하는 단계이되,
    상기 필터링된 세트의 각각의 좌위에서, 상기 구성적 게놈에 상대적인 서열 변이체를 갖는 다수의 상기 서열 판독물은 컷오프 값을 초과하고, 상기 컷오프 값은 1을 초과하는, 단계.
  2. 인간 대상체의 생물학적 샘플을 분석함으로써 상기 인간 대상체에서 체세포 돌연변이를 식별하는 방법으로서, 상기 생물학적 샘플은 정상 세포로부터 유래한 DNA 단편 및 잠재적으로 종양 세포 또는 암과 연관된 세포로부터 유래한 DNA 단편을 포함하되, 상기 생물학적 샘플은 무-세포 DNA 단편을 포함하고, 하기 단계들을 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법:
    분석하고자 하는 상기 생물학적 샘플로부터 템플레이트 DNA 단편을 수득하는 단계이되, 상기 템플레이트 DNA 단편은 무-세포 DNA 단편을 포함하는, 단계;
    상기 템플레이트 DNA 단편을 사용하여 분석 가능한 DNA 분자의 시퀀싱 라이브러리를 제조하는 단계이되, 상기 템플레이트 DNA 단편으로부터의 상기 시퀀싱 라이브러리의 복사율(duplication rate)은 5% 미만인, 단계;
    상기 분석 가능한 DNA 분자의 시퀀싱 라이브러리를 시퀀싱하여 복수의 서열 판독물을 수득하는 단계;
    컴퓨터 시스템에서, 상기 복수의 서열 판독물을 수용하는 단계;
    상기 컴퓨터 시스템에 의해서, 상기 복수의 서열 판독물을 표준 인간 게놈에 정렬하여 상기 복수의 서열 판독물에 대한 게놈 자리를 결정하는 단계;
    상기 컴퓨터 시스템에 의해서, 상기 인간 대상체에 상응하는 구성적 게놈에 관한 정보를 수득하는 단계; 및
    상기 컴퓨터 시스템에 의해서, 상기 서열 판독물을 상기 구성적 게놈과 비교하여 필터링된 좌위 세트를 상기 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별하는 단계이되,
    상기 필터링된 세트의 각각의 좌위에서, 상기 구성적 게놈에 상대적인 서열 변이체를 갖는 다수의 상기 서열 판독물은 컷오프 값을 초과하고, 상기 컷오프 값은 1을 초과하는, 단계.
  3. 제1항 또는 제2항에 있어서, 상기 필터링된 좌위 세트를 상기 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별하는 단계는 하기 단계들을 더 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법:
    잠재적으로 체세포 돌연변이를 갖는 것으로 식별된 제1 후보 좌위 세트 각각에 대해서:
    제1 정렬 절차를 사용하여 상기 후보 좌위에 정렬하고, 상기 서열 변이체를 갖는 상기 서열 판독물 각각에 대해서:
    상기 서열 판독물이 상기 제1 정렬 절차에 대해서 사용된 것과 상이한 매칭 알고리즘을 사용하는 제2 정렬 절차를 사용하여 상기 후보 좌위에 정렬하는지의 여부를 결정하는 단계;
    상기 서열 판독물이 상기 제2 정렬 절차를 사용하여 상기 후보 좌위에 정렬하는 경우, 상기 제2 정렬 절차에 대해서 상기 재정렬의 맵핑 품질을 측정하는 단계;
    상기 맵핑 품질을 품질 역치와 비교하는 단계; 및
    상기 맵핑 품질과 상기 품질 역치의 비교를 기초로 상기 서열 판독물의 폐기 여부를 결정하는 단계이되, 상기 품질 역치보다 낮은 상기 맵핑 품질은 상기 품질 역치보다 높은 상기 맵핑 품질보다 상기 서열 판독물을 폐기할 더 높은 가능성을 제공하여, 다수의 남아있는 서열 판독물을 수득하는, 단계;
    상기 남아있는 서열 판독물의 수를 후보 역치와 비교하는 단계; 그리고
    상기 남아있는 서열 판독물의 수와 상기 후보 역치의 비교를 기초로 상기 후보 좌위의 폐기 여부를 결정하는 단계이되, 상기 후보 역치보다 적은 상기 남아있는 서열 판독물의 수는 상기 후보 역치보다 많은 상기 남아있는 서열 판독물의 수보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계; 그리고
    상기 남아있는 후보 좌위를 사용하여 상기 필터링된 좌위 세트를 체세포 돌연변이를 갖는 것으로 식별하는 단계.
  4. 제2항에 있어서, 상기 복사율은 2% 미만인, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  5. 제4항에 있어서, 상기 시퀀싱 라이브러리에서 분석 가능한 DNA 분자의 수는 라이브러리 제조 전에 상기 생물학적 샘플에 본래 존재하는 템플레이트 DNA 단편의 수보다 적은, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  6. 인간 대상체의 생물학적 샘플을 분석함으로써 상기 인간 대상체에서 체세포 돌연변이를 식별하는 방법으로서, 상기 생물학적 샘플은 정상 세포로부터 유래한 DNA 단편 및 잠재적으로 종양 세포 또는 암과 연관된 세포로부터 유래한 DNA 단편을 포함하되, 상기 생물학적 샘플은 무-세포 DNA 단편을 포함하고, 컴퓨터 시스템에 의해서 수행하는, 하기 단계들을 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법:
    상기 인간 대상체에 상응하는 구성적 게놈에 관한 정보를 수득하는 단계;
    상기 생물학적 샘플에서 복수의 DNA 단편 각각에 대한 하나 이상의 서열 판독물을 수용하는 단계;
    제1 정렬 절차를 사용하여 상기 복수의 서열 판독물을 표준 인간 게놈에 정렬하여 상기 복수의 서열 판독물에 대한 게놈 자리를 결정하는 단계;
    상기 서열 판독물을 상기 구성적 게놈과 비교하여 필터링된 좌위 세트를 상기 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별하는 단계이되,
    상기 필터링된 세트의 각각의 좌위에서, 상기 구성적 게놈에 상대적인 서열 변이체를 갖는 다수의 상기 서열 판독물은 컷오프 값을 초과하고, 상기 컷오프 값은 1을 초과하는, 단계;
    잠재적으로 체세포 돌연변이를 갖는 것으로 식별된 제1 후보 좌위 세트 각각에 대해서:
    상기 제1 정렬 절차를 사용하여 상기 후보 좌위에 정렬하고, 상기 서열 변이체를 갖는 상기 서열 판독물 각각에 대해서:
    상기 서열 판독물이 상기 제1 정렬 절차에 대해서 사용된 것과 상이한 매칭 알고리즘을 사용하는 제2 정렬 절차를 사용하여 상기 후보 좌위에 정렬하는지의 여부를 결정하는 단계;
    상기 맵핑 품질을 품질 역치와 비교하는 단계; 및
    상기 맵핑 품질과 상기 품질 역치의 비교를 기초로 상기 서열 판독물의 폐기 여부를 결정하는 단계이되, 상기 품질 역치보다 낮은 상기 맵핑 품질은 상기 품질 역치보다 높은 상기 맵핑 품질보다 상기 서열 판독물을 폐기할 더 높은 가능성을 제공하여, 다수의 남아있는 서열 판독물을 수득하는, 단계;
    상기 남아있는 서열 판독물의 수를 후보 역치와 비교하는 단계; 그리고
    상기 남아있는 서열 판독물의 수와 상기 후보 역치의 비교를 기초로 상기 후보 좌위의 폐기 여부를 결정하는 단계이되, 상기 후보 역치보다 적은 상기 남아있는 서열 판독물의 수는 상기 후보 역치보다 많은 상기 남아있는 서열 판독물의 수보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계; 그리고
    상기 남아있는 후보 좌위를 사용하여 상기 필터링된 좌위 세트를 체세포 돌연변이를 갖는 것으로 식별하는 단계.
  7. 제1항, 제2항, 또는 제6항 중 어느 한 항에 있어서, 상기 필터링된 좌위 세트를 상기 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별하는 단계는 하기 단계들을 더 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법:
    잠재적으로 체세포 돌연변이를 갖는 것으로 식별된 제2 후보 좌위 세트 각각에 대해서:
    상기 서열 변이체를 갖는 DNA 단편의 제1 군과 야생형 대립유전자를 갖는 DNA 단편의 제2 군 사이에서 크기 차이를 측정하는 단계;
    상기 크기 차이를 크기 역치와 비교하는 단계;
    상기 비교를 기초로 상기 후보 좌위를 잠재적인 돌연변이로서 폐기할 지의 여부를 결정하는 단계이되, 상기 크기 역치보다 작은 상기 크기 차이는 상기 크기 역치보다 큰 상기 크기 차이보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계; 그리고
    상기 필터링된 좌위 세트를 상기 남아있는 후보 좌위를 사용하여 상기 인간 대상체에서 체세포 돌연변이를 갖는 것으로 식별하는 단계.
  8. 제7항에 있어서, 상기 크기 차이는 DNA 단편의 상기 제1 군의 중간 크기와 DNA 단편의 상기 제2군의 중간 크기의 차이인, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  9. 제7항에 있어서, 상기 크기 차이는 상기 제1 군과 상기 제2 군 사이의 크기에 의한 누적 빈도에서의 최대치인, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  10. 인간 대상체의 생물학적 샘플을 분석함으로써 상기 인간 대상체에서 체세포 돌연변이를 식별하는 방법으로서, 상기 생물학적 샘플은 정상 세포로부터 유래한 DNA 단편 및 잠재적으로 종양 세포 또는 암과 연관된 세포로부터 유래한 DNA 단편을 포함하되, 상기 생물학적 샘플은 무-세포 DNA 단편을 포함하고, 컴퓨터 시스템에 의해서 수행하는, 하기 단계들을 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법:
    상기 인간 대상체에 상응하는 구성적 게놈에 관한 정보를 수득하는 단계; 및
    상기 생물학적 샘플에서 복수의 DNA 단편 각각에 대한 하나 이상의 서열 판독물을 수용하는 단계;
    제1 정렬 절차를 사용하여 상기 복수의 서열 판독물을 표준 인간 게놈에 정렬하여 상기 복수의 서열 판독물에 대한 게놈 자리를 결정하는 단계;
    상기 서열 판독물을 상기 구성적 게놈과 비교하여 필터링된 좌위 세트를 상기 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별하는 단계이되,
    상기 필터링된 세트의 각각의 좌위에서, 상기 구성적 게놈에 상대적인 서열 변이체를 갖는 다수의 상기 서열 판독물은 컷오프 값을 초과하고, 상기 컷오프 값은 1을 초과하는, 단계;
    잠재적으로 체세포 돌연변이를 갖는 것으로 식별된 제1 후보 좌위 세트 각각에 대해서:
    상기 서열 변이체를 갖는 DNA 단편의 제1 군과 야생형 대립유전자를 갖는 DNA 단편의 제2 군 사이에서 크기 차이를 측정하는 단계;
    상기 크기 차이를 크기 역치와 비교하는 단계;
    상기 크기 차이가 상기 크기 역치보다 작은 경우, 상기 후보 좌위를 잠재적인 돌연변이로서 폐기하는 단계; 그리고
    상기 필터링된 좌위 세트를 상기 남아있는 후보 좌위를 사용하여 상기 인간 대상체에서 체세포 돌연변이를 갖는 것으로 식별하는 단계.
  11. 제1항, 제2항, 제6항, 및 제10항 중 어느 한 항에 있어서, 상기 필터링된 좌위 세트를 상기 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별하는 단계는 하기 단계들을 더 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법:
    암과 연관된 히스톤 변형과 연관된다고 공지된 영역의 군을 식별하는 단계;
    잠재적으로 체세포 돌연변이를 갖는 것으로 식별된 제2 제1 후보 좌위 세트 각각에 대해서:
    상기 후보 좌위가 상기 영역의 군 중 하나에 존재하는지의 여부를 결정하는 단계;
    상기 후보 좌위가 상기 영역의 군 중 하나에 존재하는지의 여부를 기초로 상기 후보 좌위의 폐기 여부를 결정하는 단계이되, 상기 영역의 군 중 하나에 존재하지 않는 상기 후보 좌위는 상기 후보 좌위가 상기 영역의 군 중 하나에 존재하는 경우보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계;
    상기 남아있는 후보 좌위를 사용하여 상기 필터링된 좌위 세트를 체세포 돌연변이를 갖는 것으로 식별하는 단계.
  12. 인간 대상체의 생물학적 샘플을 분석함으로써 상기 인간 대상체에서 체세포 돌연변이를 식별하는 방법으로서, 상기 생물학적 샘플은 정상 세포로부터 유래한 DNA 단편 및 잠재적으로 종양 세포 또는 암과 연관된 세포로부터 유래한 DNA 단편을 포함하되, 상기 생물학적 샘플은 무-세포 DNA 단편을 포함하고, 컴퓨터 시스템에 의해서 수행하는, 하기 단계들을 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법:
    상기 인간 대상체에 상응하는 구성적 게놈에 관한 정보를 수득하는 단계; 그리고
    상기 생물학적 샘플에서 복수의 DNA 단편 각각에 대한 하나 이상의 서열 판독물을 수용하는 단계;
    제1 정렬 절차를 사용하여 상기 복수의 서열 판독물을 표준 인간 게놈에 정렬하여 상기 복수의 서열 판독물에 대한 게놈 자리를 결정하는 단계;
    상기 서열 판독물을 상기 구성적 게놈과 비교하여 필터링된 좌위 세트를 상기 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별하는 단계이되,
    상기 필터링된 세트의 각각의 좌위에서, 상기 구성적 게놈에 상대적인 서열 변이체를 갖는 다수의 상기 서열 판독물은 컷오프 값을 초과하고, 상기 컷오프 값은 1을 초과하는, 단계;
    암과 연관된 히스톤 변형과 연관된다고 공지된 영역의 군을 식별하는 단계;
    잠재적으로 체세포 돌연변이를 갖는 것으로 식별된 제1 후보 좌위 세트 각각에 대해서:
    상기 후보 좌위가 상기 영역의 군 중 하나에 존재하는지의 여부를 결정하는 단계;
    상기 후보 좌위가 상기 영역의 군 중 하나에 존재하는지의 여부를 기초로 상기 후보 좌위의 폐기 여부를 결정하는 단계이되, 상기 영역의 군 중 하나에 존재하지 않는 상기 후보 좌위는 상기 후보 좌위가 상기 영역의 군 중 하나에 존재하는 경우보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계;
    상기 남아있는 후보 좌위를 사용하여 상기 필터링된 좌위 세트를 체세포 돌연변이를 갖는 것으로 식별하는 단계.
  13. 제1항, 제2항, 제6항, 제10항, 및 제12항 중 어느 한 항에 있어서, 상기 필터링된 좌위 세트에서 좌위의 양을 사용하여 상기 인간 대상체에 대한 돌연변이 하중을 측정하는 단계를 더 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  14. 제13항에 있어서, 상기 돌연변이 하중은 체세포 돌연변이의 본래 수치, 염기의 수 당 체세포 돌연변이의 밀도, 체세포 돌연변이를 갖는 것으로 식별된 게놈 영역의 좌위의 백분율, 특정량의 샘플에서 관찰되는 다수의 체세포 돌연변이 또는 표준 하중과 비교된 증가로서 측정되는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  15. 제13항에 있어서, 상기 돌연변이 하중을 암 역치와 비교하여 암의 수준을 측정하는 단계를 더 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  16. 제15항에 있어서, 상기 암의 수준은 종양을 나타내는, 하기 단계들을 더 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
    상기 표준 인간 게놈의 제1 복수의 분절에 대해서 히스톤 변형의 제1 양을 측정하는 단계;
    상기 표준 인간 게놈의 제2 복수의 분절 각각에 대해서 상기 필터링된 좌위 세트의 제2 양을 측정하는 단계;
    제1 역치를 초과하는 히스톤 변형의 상기 제1 양을 갖고, 제2 역치를 초과하는 상기 필터링된 좌위 세트의 상기 제2 양을 갖는 제1 분절 세트를 결정하는 단계; 및
    분절의 상기 제1 세트를 기초로 상기 종양의 기원 조직을 식별하는 단계.
  17. 제1항, 제2항, 제6항, 제10항, 및 제12항 중 어느 한 항에 있어서, 상기 필터링된 좌위 세트를 상기 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별하는 단계는 하기 단계들을 더 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법:
    잠재적으로 체세포 돌연변이를 갖는 것으로 식별된 제2 후보 좌위 세트 각각에 대해서:
    상기 서열 변이체를 갖는 서열 판독물의 분획을 측정하는 단계;
    상기 분획을 분획 역치와 비교하는 단계;
    상기 비교를 기초로 상기 후보 좌위를 잠재적인 돌연변이로서 폐기할 지의 여부를 결정하는 단계이되, 상기 분획 역치보다 작은 상기 분획은 상기 분획 역치보다 큰 상기 분획보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계; 그리고
    상기 필터링된 좌위 세트를 상기 남아있는 후보 좌위를 사용하여 상기 인간 대상체에서 체세포 돌연변이를 갖는 것으로 식별하는 단계.
  18. 제17항에 있어서, 상기 분획 역치는 20%인, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  19. 제17항에 있어서, 상기 분획 역치는 30%인, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  20. 제17항에 있어서, 상기 생물학적 샘플에서 종양 DNA의 분획 농도를 측정하는 단계이되, 상기 분획 역치는 상기 분획 농도를 기초로 결정되는, 단계를 더 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  21. 제20항에 있어서, 상기 생물학적 샘플에서 종양 DNA의 상기 분획 농도는 복수의 영역 각각에 대해서 측정되고, 후보 좌위에 대해서 사용된 상기 분획 역치는 상기 후보 좌위가 존재하는 상기 영역에 대해서 측정된 상기 분획 농도에 좌우되는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  22. 제17항에 있어서, 사본 수 일탈(copy number aberration)을 갖는 하나 이상의 이상 영역(aberrant region)을 식별하는 단계이되, 이상 영역에서 후보 좌위에 대해서 사용된 상기 분획 역치는 상기 이상 영역이 사본 수 이득을 나타내는지 또는 사본 수 손실을 나타내는지의 여부에 좌우되는, 단계를 더 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  23. 제17항에 있어서,
    사본 수 일탈을 갖는 하나 이상의 이상 영역을 식별하는 단계;
    상기 필터링된 좌위 세트 각각에 대한 구성적 게놈에 상대적인 서열 변이체를 갖는 상기 서열 판독물의 수를 측정하기 위해서 서열 판독물의 폐기 여부를 결정하는 일부로서 사본 수 이득을 나타내는 제1 이상 영역으로부터의 제1 서열 판독물을 사본 수 손실을 나타내는 제2 이상 영역으로부터의 제2 서열 판독물보다 체세포 돌연변이를 가질 개연성이 더 큰 것으로 식별하는 단계
    를 더 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  24. 제23항에 있어서, 상기 하나 이상의 이상 영역은 하기 단계들에 의해서 식별되는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법:
    잠재적으로 체세포 돌연변이를 갖는 것으로 식별된 상기 제2 후보 좌위 세트 각각에 대해서:
    상기 구성적 게놈에 상대적인 서열 변이체의 겉보기 돌연변이 분획을 계산하는 단계;
    복수의 영역 각각에 대해서:
    상기 이상 영역에서 상기 후보 좌위의 상기 겉보기 돌연변이 분획의 분산도를 측정하는 단계;
    상기 분산도를 분산도 역치와 비교하는 단계이되, 사본 수 이득을 나타내는 이상 영역은 상기 역치보다 큰 분산도를 갖는, 단계
  25. 제1항, 제2항, 제6항, 제10항, 및 제12항 중 어느 한 항에 있어서, 상기 시퀀싱은 메틸화-인식 시퀀싱이고, 상기 필터링된 좌위 세트를 상기 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별하는 단계는 하기 단계들을 더 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법:
    잠재적으로 체세포 돌연변이를 갖는 것으로 식별된 제2 후보 좌위 세트 각각에 대해서:
    상기 후보 좌위에 정렬하고, 상기 서열 변이체를 갖는 상기 서열 판독물 각각에 대해서:
    하나 이상의 부위에서 상기 상응하는 분석 가능한 DNA 분자의 메틸화 상태를 측정하는 단계;
    상기 메틸화 상태를 기초로 상기 서열 판독물의 폐기 여부를 결정하는 단계이되, 메틸화되지 않은 상기 메틸화 상태는 메틸화된 상기 메틸화 상태보다 상기 서열 판독물을 폐기할 더 높은 가능성을 제공하여, 다수의 남아있는 서열 판독물을 수득하는, 단계;
    상기 남아있는 서열 판독물의 수를 후보 역치와 비교하는 단계; 그리고
    상기 남아있는 서열 판독물의 수와 상기 후보 역치의 비교를 기초로 상기 후보 좌위의 폐기 여부를 결정하는 단계이되, 상기 후보 역치보다 적은 상기 남아있는 서열 판독물의 수는 상기 후보 역치보다 많은 상기 남아있는 서열 판독물의 수보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계; 그리고
    상기 남아있는 후보 좌위를 사용하여 상기 필터링된 좌위 세트를 체세포 돌연변이를 갖는 것으로 식별하는 단계.
  26. 제1항, 제2항, 제6항, 제10항, 및 제12항 중 어느 한 항에 있어서, 상기 필터링된 좌위 세트를 상기 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별하는 단계는 하기 단계들을 더 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법:
    잠재적으로 체세포 돌연변이를 갖는 것으로 식별된 제2 후보 좌위 세트 각각에 대해서:
    상기 후보 좌위에 정렬하고, 상기 서열 변이체를 갖는 상기 서열 판독물 각각에 대해서:
    상기 서열 판독물의 말단이 정렬한 상응하는 말단 위치를 측정하는 단계;
    상기 말단 위치를 복수의 암-특이적인 종결 위치 또는 암-연관된 종결 위치와 비교하는 단계;
    상기 비교를 기초로 상기 서열 판독물의 폐기 여부를 결정하는 단계이되, 암-특이적인 종결 위치 또는 암-연관된 종결 위치가 아닌 상기 말단 위치는 암-특이적인 종결 위치 또는 암-연관된 종결 위치인 상기 말단 위치보다 상기 서열 판독물을 폐기할 더 높은 가능성을 제공하여, 다수의 남아있는 서열 판독물을 수득하는, 단계;
    상기 남아있는 서열 판독물의 수를 후보 역치와 비교하는 단계; 그리고
    상기 남아있는 서열 판독물의 수와 상기 후보 역치의 비교를 기초로 상기 후보 좌위의 폐기 여부를 결정하는 단계이되, 상기 후보 역치보다 적은 상기 남아있는 서열 판독물의 수는 상기 후보 역치보다 많은 상기 남아있는 서열 판독물의 수보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계; 그리고
    상기 남아있는 후보 좌위를 사용하여 상기 필터링된 좌위 세트를 체세포 돌연변이를 갖는 것으로 식별하는 단계.
  27. 제1항, 제2항, 제6항, 제10항, 및 제12항 중 어느 한 항에 있어서, 상기 시퀀싱은 후속 시퀀싱 단계를 제공하여 각각의 템플레이트 DNA 분자에 대한 두 가닥 판독물을 산출하는 단-가닥 시퀀싱 라이브러리 제조 공정을 사용하여 수행되고, 상기 필터링된 좌위 세트를 상기 인간 대상체의 일부 조직에서 체세포 돌연변이를 갖는 것으로 식별하는 단계는 하기 단계들을 더 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법:
    잠재적으로 체세포 돌연변이를 갖는 것으로 식별된 제2 후보 좌위 세트 각각에 대해서:
    상기 후보 좌위에 정렬한 가닥 판독물의 각각의 쌍에 대해서:
    두 가닥 모두가 상기 서열 변이체를 갖는지의 여부를 결정하는 단계;
    두 가닥 모두가 상기 서열 변이체를 갖는지의 여부를 기초로 상기 서열 판독물의 폐기 여부를 결정하는 단계이되, 상기 서열 변이체를 갖지 않은 두 가닥 모두는 상기 서열 변이체를 갖는 단지 하나의 가닥 판독물보다 상기 가닥 판독물을 폐기할 더 높은 가능성을 제공하여, 다수의 남아있는 서열 판독물을 수득하는, 단계;
    상기 남아있는 서열 판독물의 수를 후보 역치와 비교하는 단계; 그리고
    상기 남아있는 서열 판독물의 수와 상기 후보 역치의 비교를 기초로 상기 후보 좌위의 폐기 여부를 결정하는 단계이되, 상기 후보 역치보다 적은 상기 남아있는 서열 판독물의 수는 상기 후보 역치보다 많은 상기 남아있는 서열 판독물의 수보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계; 그리고
    상기 남아있는 후보 좌위를 사용하여 상기 필터링된 좌위 세트를 체세포 돌연변이를 갖는 것으로 식별하는 단계.
  28. 제1항, 제2항, 제6항, 제10항, 및 제12항 중 어느 한 항에 있어서, 상기 인간 대상체에 상응하는 상기 구성적 게놈은 인간 대상체의 명시된 집단에 대한 표준 게놈인, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  29. 제1항, 제2항, 제6항, 제10항, 및 제12항 중 어느 한 항에 있어서, 종양 세포로부터의 무-세포 DNA 단편 또는 암과 연관된 세포로부터의 무-세포 DNA 단편은 상기 생물학적 샘플에서 상기 무-세포 DNA 단편의 50%를 차지하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  30. 제1항, 제2항, 제6항, 제10항, 및 제12항 중 어느 한 항에 있어서, 상기 생물학적 샘플은 혈장 또는 혈청을 포함하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  31. 제1항, 제2항, 제6항, 제10항, 및 제12항 중 어느 한 항에 있어서, 상기 정렬된 서열 판독물은 상기 표준 인간 게놈의 적어도 5%를 차지하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  32. 제31항에 있어서, 상기 정렬된 서열 판독물은 상기 표준 인간 게놈의 적어도 10%를 차지하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  33. 제1항, 제2항, 제6항, 제10항, 및 제12항 중 어느 한 항에 있어서, 적어도 25x의 시퀀싱 깊이(sequencing depth)를 사용하는, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  34. 제33항에 있어서, 상기 시퀀싱 깊이는 적어도 50x인, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  35. 제34항에 있어서, 상기 시퀀싱 깊이는 적어도 100x인, 인간 대상체에서 체세포 돌연변이를 식별하는 방법.
  36. 태아를 임신한 여성 대상체의 생물학적 샘플을 분석함으로써 상기 태아의 신생 돌연변이를 식별하는 방법으로서, 상기 생물학적 샘플은 상기 태아로부터의 무-세포 DNA 단편 및 상기 여성 대상체로부터의 무-세포 DNA 단편을 포함하고, 하기 단계들을 포함하는, 태아의 신생 돌연변이를 식별하는 방법:
    분석하고자 하는 상기 생물학적 샘플로부터 템플레이트 DNA 단편을 수득하는 단계이되, 상기 템플레이트 DNA 단편은 무-세포 DNA 단편을 포함하는, 단계;
    상기 템플레이트 DNA 단편을 사용하여 분석 가능한 DNA 분자의 시퀀싱 라이브러리를 제조하는 단계이되, 상기 분석 가능한 DNA 분자의 시퀀싱 라이브러리를 제조하는 상기 단계는 템플레이트 DNA 단편의 DNA 증폭 단계를 포함하지 않는, 단계;
    상기 분석 가능한 DNA 분자의 시퀀싱 라이브러리를 시퀀싱하여 복수의 서열 판독물을 수득하는 단계;
    컴퓨터 시스템에서, 상기 복수의 서열 판독물을 수용하는 단계;
    상기 컴퓨터 시스템에 의해서, 상기 복수의 서열 판독물을 표준 인간 게놈에 정렬하여 상기 복수의 서열 판독물에 대한 게놈 자리를 결정하는 단계;
    상기 컴퓨터 시스템에 의해서, 상기 여성 대상체의 모체 게놈 및 상기 태아의 아버지의 부체 게놈에 관한 정보를 수득하는 단계; 및
    상기 컴퓨터 시스템에 의해서, 상기 서열 판독물을 상기 모체 게놈 및 상기 부체 게놈과 비교하여 필터링된 좌위 세트를 상기 태아에서 신생 돌연변이를 갖는 것으로 식별하는 단계이되,
    상기 필터링된 세트의 각각의 좌위에서, 상기 모체 게놈에 존재하지 않고, 상기 부체 게놈에 존재하지 않는 서열 변이체를 갖는 다수의 상기 서열 판독물은 컷오프을 초과하고, 상기 컷오프 값은 1을 초과하는, 단계.
  37. 태아를 임신한 여성 대상체의 생물학적 샘플을 분석함으로써 상기 태아의 신생 돌연변이를 식별하는 방법으로서, 상기 생물학적 샘플은 상기 태아로부터의 무-세포 DNA 단편 및 상기 여성 대상체로부터의 무-세포 DNA 단편을 포함하고, 하기 단계들을 포함하는, 태아의 신생 돌연변이를 식별하는 방법:
    분석하고자 하는 상기 생물학적 샘플로부터 템플레이트 DNA 단편을 수득하는 단계이되, 상기 템플레이트 DNA 단편은 무-세포 DNA 단편을 포함하는, 단계;
    상기 템플레이트 DNA 단편을 사용하여 분석 가능한 DNA 분자의 시퀀싱 라이브러리를 제조하는 단계이되, 상기 템플레이트 DNA 단편으로부터의 상기 시퀀싱 라이브러리의 복사율(duplication rate)은 5% 미만인, 단계;
    상기 분석 가능한 DNA 분자의 시퀀싱 라이브러리를 시퀀싱하여 복수의 서열 판독물을 수득하는 단계;
    컴퓨터 시스템에서, 상기 복수의 서열 판독물을 수용하는 단계;
    상기 컴퓨터 시스템에 의해서, 상기 복수의 서열 판독물을 표준 인간 게놈에 정렬하여 상기 복수의 서열 판독물에 대한 게놈 자리를 결정하는 단계;
    상기 컴퓨터 시스템에 의해서, 상기 여성 대상체의 모체 게놈 및 상기 태아의 아버지의 부체 게놈에 관한 정보를 수득하는 단계; 및
    상기 컴퓨터 시스템에 의해서, 상기 서열 판독물을 상기 모체 게놈 및 상기 부체 게놈과 비교하여 필터링된 좌위 세트를 상기 태아에서 신생 돌연변이를 갖는 것으로 식별하는 단계이되,
    상기 필터링된 세트의 각각의 좌위에서, 상기 모체 게놈에 존재하지 않고, 상기 부체 게놈에 존재하지 않는 서열 변이체를 갖는 다수의 상기 서열 판독물은 컷오프 값을 초과하고, 상기 컷오프 값은 1을 초과하는, 단계.
  38. 제36항 또는 제37항에 있어서, 상기 필터링된 좌위 세트를 상기 태아에서 신생 돌연변이를 갖는 것으로 식별하는 단계는 하기 단계들을 더 포함하는, 태아의 신생 돌연변이를 식별하는 방법.
    잠재적으로 신생 돌연변이를 갖는 것으로 식별된 제1 후보 좌위 세트 각각에 대해서:
    제1 정렬 절차를 사용하여 상기 후보 좌위에 정렬하고, 상기 서열 변이체를 갖는 상기 서열 판독물 각각에 대해서:
    상기 서열 판독물이 상기 제1 정렬 절차에 대해서 사용된 것과 상이한 매칭 알고리즘을 사용하는 제2 정렬 절차를 사용하여 상기 후보 좌위에 정렬하는지의 여부를 결정하는 단계;
    상기 서열 판독물이 상기 제2 정렬 절차를 사용하여 상기 후보 좌위에 정렬하는 경우, 상기 제2 정렬 절차에 대해서 상기 재정렬의 맵핑 품질을 측정하는 단계;
    상기 맵핑 품질을 품질 역치와 비교하는 단계; 및
    상기 맵핑 품질과 상기 품질 역치의 비교를 기초로 상기 서열 판독물의 폐기 여부를 결정하는 단계이되, 상기 품질 역치보다 낮은 상기 맵핑 품질은 상기 품질 역치보다 높은 상기 맵핑 품질보다 상기 서열 판독물을 폐기할 더 높은 가능성을 제공하여, 다수의 남아있는 서열 판독물을 수득하는, 단계;
    상기 남아있는 서열 판독물의 수를 후보 역치와 비교하는 단계; 그리고
    상기 남아있는 서열 판독물의 수와 상기 후보 역치의 비교를 기초로 상기 후보 좌위의 폐기 여부를 결정하는 단계이되, 상기 후보 역치보다 적은 상기 남아있는 서열 판독물의 수는 상기 후보 역치보다 많은 상기 남아있는 서열 판독물의 수보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계; 그리고
    상기 필터링된 좌위 세트를 상기 남아있는 후보 좌위를 사용하여 신생 돌연변이를 갖는 것으로 식별하는 단계.
  39. 제37항에 있어서, 상기 복사율은 2% 미만인, 태아의 신생 돌연변이를 식별하는 방법.
  40. 제39항에 있어서, 상기 시퀀싱 라이브러리에서 분석 가능한 DNA 분자의 수는 템플레이트 DNA 단편의 수보다 적은, 태아의 신생 돌연변이를 식별하는 방법.
  41. 태아를 임신한 여성 대상체의 생물학적 샘플을 분석함으로써 상기 태아의 신생 돌연변이를 식별하는 방법으로서, 상기 생물학적 샘플은 상기 태아로부터의 무-세포 DNA 단편 및 상기 여성 대상체로부터의 무-세포 DNA 단편을 포함하고, 컴퓨터 시스템에 의해서 수행하는, 하기 단계들을 포함하는, 태아의 신생 돌연변이를 식별하는 방법:
    상기 여성 대상체의 상기 모체 게놈 및 상기 태아의 아버지의 부체 게놈에 관한 정보를 수득하는 단계;
    상기 생물학적 샘플에서 복수의 DNA 단편 각각에 대한 하나 이상의 서열 판독물을 수용하는 단계;
    제1 정렬 절차를 사용하여 상기 복수의 서열 판독물을 표준 인간 게놈에 정렬하여 상기 복수의 서열 판독물에 대한 게놈 자리를 결정하는 단계;
    상기 서열 판독물을 상기 모체 게놈 및 상기 부체 게놈과 비교하여 필터링된 좌위 세트를 상기 태아에서 신생 돌연변이를 갖는 것으로 식별하는 단계이되,
    상기 필터링된 세트의 각각의 좌위에서, 상기 모체 게놈에 존재하지 않고, 상기 부체 게놈에 존재하지 않는 서열 변이체를 갖는 다수의 서열 판독물은 컷오프 값을 초과하고, 상기 컷오프 값은 1을 초과하는, 단계;
    잠재적으로 신생 돌연변이를 갖는 것으로 식별된 제1 후보 좌위 세트 각각에 대해서:
    상기 제1 정렬 절차를 사용하여 상기 후보 좌위에 정렬하고, 상기 서열 변이체를 갖는 상기 서열 판독물 각각에 대해서:
    상기 서열 판독물이 상기 제1 정렬 절차에 대해서 사용된 것과 상이한 매칭 알고리즘을 사용하는 제2 정렬 절차를 사용하여 상기 후보 좌위에 정렬하는지의 여부를 결정하는 단계;
    상기 맵핑 품질을 품질 역치와 비교하는 단계; 및
    상기 맵핑 품질과 상기 품질 역치의 비교를 기초로 상기 서열 판독물의 폐기 여부를 결정하는 단계이되, 상기 품질 역치보다 낮은 상기 맵핑 품질은 상기 품질 역치보다 높은 상기 맵핑 품질보다 상기 서열 판독물을 폐기할 더 높은 가능성을 제공하여, 다수의 남아있는 서열 판독물을 수득하는, 단계;
    상기 남아있는 서열 판독물의 수를 후보 역치와 비교하는 단계; 그리고
    상기 남아있는 서열 판독물의 수와 상기 후보 역치의 비교를 기초로 상기 후보 좌위의 폐기 여부를 결정하는 단계이되, 상기 후보 역치보다 적은 상기 남아있는 서열 판독물의 수는 상기 후보 역치보다 많은 상기 남아있는 서열 판독물의 수보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계; 그리고
    상기 필터링된 좌위 세트를 상기 남아있는 후보 좌위를 사용하여 신생 돌연변이를 갖는 것으로 식별하는 단계.
  42. 제36항, 제37항, 및 제41항 중 어느 한 항에 있어서, 상기 필터링된 좌위 세트를 상기 태아에서 신생 돌연변이를 갖는 것으로 식별하는 단계는 하기 단계들을 더 포함하는, 태아의 신생 돌연변이를 식별하는 방법.
    잠재적으로 신생 돌연변이를 갖는 것으로 식별된 제2 후보 좌위 세트 각각에 대해서:
    상기 서열 변이체를 갖는 DNA 단편의 제1 군과 야생형 대립유전자를 갖는 DNA 단편의 제2 군 사이에서 크기 차이를 측정하는 단계;
    상기 크기 차이를 크기 역치와 비교하는 단계;
    상기 비교를 기초로 상기 후보 좌위를 잠재적인 돌연변이로서 폐기할 지의 여부를 결정하는 단계이되, 상기 크기 역치보다 작은 상기 크기 차이는 상기 크기 역치보다 큰 상기 크기 차이보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계; 그리고
    상기 필터링된 좌위 세트를 상기 남아있는 후보 좌위를 사용하여 상기 태아에서 신생 돌연변이를 갖는 것으로 식별하는 단계.
  43. 제42항에 있어서, 상기 크기 차이는 DNA 단편의 상기 제1 군의 중간 크기와 DNA 단편의 상기 제2군의 중간 크기의 차이인, 태아의 신생 돌연변이를 식별하는 방법.
  44. 제42항에 있어서, 상기 크기 차이는 상기 제1 군과 상기 제2 군 사이의 크기에 의한 누적 빈도에서의 최대치인, 태아의 신생 돌연변이를 식별하는 방법.
  45. 태아를 임신한 여성 대상체의 생물학적 샘플을 분석함으로써 상기 태아의 신생 돌연변이를 식별하는 방법으로서, 상기 생물학적 샘플은 상기 태아로부터의 무-세포 DNA 단편 및 상기 여성 대상체로부터의 무-세포 DNA 단편을 포함하고, 컴퓨터 시스템에 의해서 수행하는, 하기 단계들을 포함하는, 태아의 신생 돌연변이를 식별하는 방법:
    상기 여성 대상체의 상기 모체 게놈 및 상기 태아의 아버지의 부체 게놈에 관한 정보를 수득하는 단계;
    상기 생물학적 샘플에서 복수의 DNA 단편 각각에 대한 하나 이상의 서열 판독물을 수용하는 단계;
    제1 정렬 절차를 사용하여 상기 복수의 서열 판독물을 표준 인간 게놈에 정렬하여 상기 복수의 서열 판독물에 대한 게놈 자리를 결정하는 단계;
    상기 서열 판독물을 상기 모체 게놈 및 상기 부체 게놈과 비교하여 상기 태아에서 필터링된 좌위 세트를 신생 돌연변이를 갖는 것으로 식별하는 단계이되,
    상기 필터링된 세트의 각각의 좌위에서, 상기 모체 게놈에 존재하지 않고, 상기 부체 게놈에 존재하지 않는 서열 변이체를 갖는 다수의 상기 서열 판독물은 컷오프 값을 초과하고, 상기 컷오프 값은 1을 초과하는, 단계;
    잠재적으로 신생 돌연변이를 갖는 것으로 식별된 제1 후보 좌위 세트 각각에 대해서:
    상기 서열 변이체를 갖는 DNA 단편의 제1 군과 야생형 대립유전자를 갖는 DNA 단편의 제2 군 사이에서 크기 차이를 측정하는 단계;
    상기 크기 차이를 크기 역치와 비교하는 단계;
    상기 크기 차이가 상기 크기 역치보다 작은 경우, 상기 후보 좌위를 잠재적인 돌연변이로서 폐기하는 단계; 그리고
    상기 필터링된 좌위 세트를 상기 남아있는 후보 좌위를 사용하여 상기 태아에서 신생 돌연변이를 갖는 것으로 식별하는 단계.
  46. 제36항, 제37항, 제41항, 및 제45항 중 어느 한 항에 있어서, 상기 필터링된 좌위 세트를 상기 태아에서 신생 돌연변이를 갖는 것으로 식별하는 단계는 하기 단계들을 더 포함하는, 태아의 신생 돌연변이를 식별하는 방법:
    암과 연관된 히스톤 변형과 연관된다고 공지된 영역의 군을 식별하는 단계;
    잠재적으로 신생 돌연변이를 갖는 것으로 식별된 제2 제1 후보 좌위 세트 각각에 대해서:
    상기 후보 좌위가 상기 영역의 군 중 하나에 존재하는지의 여부를 결정하는 단계;
    상기 후보 좌위가 상기 영역의 군 중 하나에 존재하는지의 여부를 기초로 상기 후보 좌위의 폐기 여부를 결정하는 단계이되, 상기 영역의 군 중 하나에 존재하지 않는 상기 후보 좌위는 상기 후보 좌위가 상기 영역의 군 중 하나에 존재하는 경우보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계;
    상기 필터링된 좌위 세트를 상기 남아있는 후보 좌위를 사용하여 신생 돌연변이를 갖는 것으로 식별하는 단계.
  47. 태아를 임신한 여성 대상체의 생물학적 샘플을 분석함으로써 상기 태아의 신생 돌연변이를 식별하는 방법으로서, 상기 생물학적 샘플은 상기 태아로부터의 무-세포 DNA 단편 및 상기 여성 대상체로부터의 무-세포 DNA 단편을 포함하고, 컴퓨터 시스템에 의해서 수행하는, 하기 단계들을 포함하는, 태아의 신생 돌연변이를 식별하는 방법:
    상기 여성 대상체의 상기 모체 게놈 및 상기 태아의 아버지의 부체 게놈에 관한 정보를 수득하는 단계;
    상기 생물학적 샘플에서 복수의 DNA 단편 각각에 대한 하나 이상의 서열 판독물을 수용하는 단계;
    제1 정렬 절차를 사용하여 상기 복수의 서열 판독물을 표준 인간 게놈에 정렬하여 상기 복수의 서열 판독물에 대한 게놈 자리를 결정하는 단계;
    상기 서열 판독물을 상기 모체 게놈 및 상기 부체 게놈과 비교하여 필터링된 좌위 세트를 상기 태아에서 신생 돌연변이를 갖는 것으로 식별하는 단계이되,
    상기 필터링된 세트의 각각의 좌위에서, 상기 모체 게놈에 존재하지 않고, 상기 부체 게놈에 존재하지 않는 서열 변이체를 갖는 다수의 상기 서열 판독물은 컷오프 값을 초과하고, 상기 컷오프 값은 1을 초과하는, 단계;
    태아 조직과 연관된 히스톤 변형과 연관된다고 공지된 영역의 군을 식별하는 단계;
    잠재적으로 신생 돌연변이를 갖는 것으로 식별된 제1 후보 좌위 세트 각각에 대해서:
    상기 후보 좌위가 상기 영역의 군 중 하나에 존재하는지의 여부를 결정하는 단계;
    상기 후보 좌위가 상기 영역의 군 중 하나에 존재하는지의 여부를 기초로 상기 후보 좌위의 폐기 여부를 결정하는 단계이되, 상기 영역의 군 중 하나에 존재하지 않는 상기 후보 좌위는 상기 후보 좌위가 상기 영역의 군 중 하나에 존재하는 경우보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계;
    상기 필터링된 좌위 세트를 상기 남아있는 후보 좌위를 사용하여 신생 돌연변이를 갖는 것으로 식별하는 단계.
  48. 제36항, 제37항, 제41항, 제45항, 및 제47항 중 어느 한 항에 있어서, 상기 필터링된 좌위 세트를 상기 태아에서 신생 돌연변이를 갖는 것으로 식별하는 단계는 하기 단계들을 더 포함하는, 태아의 신생 돌연변이를 식별하는 방법:
    잠재적으로 신생 돌연변이를 갖는 것으로 식별된 제2 후보 좌위 세트 각각에 대해서:
    상기 서열 변이체를 갖는 서열 판독물의 분획을 측정하는 단계;
    상기 분획을 분획 역치와 비교하는 단계;
    상기 비교를 기초로 상기 후보 좌위를 잠재적인 돌연변이로서 폐기할 지의 여부를 결정하는 단계이되, 상기 분획 역치보다 작은 상기 분획은 상기 분획 역치보다 큰 상기 분획보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계; 그리고
    상기 필터링된 좌위 세트를 상기 남아있는 후보 좌위를 사용하여 상기 태아에서 신생 돌연변이를 갖는 것으로 식별하는 단계.
  49. 제48항에 있어서, 상기 분획 역치는 20%인, 태아의 신생 돌연변이를 식별하는 방법.
  50. 제48항에 있어서, 상기 분획 역치는 30%인, 태아의 신생 돌연변이를 식별하는 방법.
  51. 제48항에 있어서, 상기 생물학적 샘플에서 태아 DNA의 분획 농도를 측정하는 단계이되, 상기 분획 역치는 상기 분획 농도를 기초로 결정되는, 단계를 더 포함하는, 태아의 신생 돌연변이를 식별하는 방법.
  52. 제51항에 있어서, 상기 생물학적 샘플에서 태아 DNA의 상기 분획 농도는 복수의 영역 각각에 대해서 측정되고, 후보 좌위에 대해서 사용된 상기 분획 역치는 상기 후보 좌위가 존재하는 상기 영역에 대해서 측정된 상기 분획 농도에 좌우되는, 태아의 신생 돌연변이를 식별하는 방법.
  53. 제48항에 있어서, 사본 수 일탈을 갖는 하나 이상의 이상 영역을 식별하는 단계이되, 이상 영역에서 후보 좌위에 대해서 사용된 상기 분획 역치는 상기 이상 영역이 사본 수 이득을 나타내는지 또는 사본 수 손실을 나타내는지의 여부에 좌우되는, 단계를 더 포함하는, 태아의 신생 돌연변이를 식별하는 방법.
  54. 제48항에 있어서, 상기 태아에서 사본 수 일탈을 갖는 하나 이상의 이상 영역을 식별하는 단계; 및
    상기 필터링된 좌위 세트 각각에 대한 구성적 게놈에 상대적인 서열 변이체를 갖는 상기 서열 판독물의 수를 측정하기 위해서 서열 판독물의 폐기 여부를 결정하는 일부로서 사본 수 이득을 나타내는 제1 이상 영역으로부터의 제1 서열 판독물을 사본 수 손실을 나타내는 제2 이상 영역으로부터의 제2 서열 판독물보다 신생 돌연변이를 가질 개연성이 더 큰 것으로 식별하는 단계를 더 포함하는, 태아의 신생 돌연변이를 식별하는 방법.
  55. 제54항에 있어서, 상기 하나 이상의 이상 영역은 하기 단계들에 의해서 식별되는, 태아의 신생 돌연변이를 식별하는 방법:
    잠재적으로 신생 돌연변이를 갖는 것으로 식별된 상기 제2 후보 좌위 세트 각각에 대해서:
    상기 모체 게놈에 존재하지 않고, 상기 부체 게놈에 존재하지 않는 서열 변이체의 겉보기 돌연변이 분획을 계산하는 단계;
    복수의 영역 각각에 대해서:
    상기 이상 영역에서 상기 후보 좌위의 상기 겉보기 돌연변이 분획의 분산도를 측정하는 단계;
    상기 분산도를 분산도 역치와 비교하는 단계이되, 사본 수 이득을 나타내는 이상 영역은 상기 역치보다 큰 분산도를 갖는, 단계.
  56. 제36항, 제37항, 제41항, 제45항, 및 제47항 중 어느 한 항에 있어서, 상기 시퀀싱은 메틸화-인식 시퀀싱이고, 상기 필터링된 좌위 세트를 상기 태아에서 신생 돌연변이를 갖는 것으로 식별하는 단계는 하기 단계들을 더 포함하는, 태아의 신생 돌연변이를 식별하는 방법:
    잠재적으로 신생 돌연변이를 갖는 것으로 식별된 제2 후보 좌위 세트 각각에 대해서:
    상기 후보 좌위에 정렬하고, 상기 서열 변이체를 갖는 상기 서열 판독물 각각에 대해서:
    하나 이상의 부위에서 상기 상응하는 분석 가능한 DNA 분자의 메틸화 상태를 측정하는 단계;
    상기 메틸화 상태를 기초로 상기 서열 판독물의 폐기 여부를 결정하는 단계이되, 메틸화되지 않은 상기 메틸화 상태는 메틸화된 상기 메틸화 상태보다 상기 서열 판독물을 폐기할 더 높은 가능성을 제공하여, 다수의 남아있는 서열 판독물을 수득하는, 단계;
    상기 남아있는 서열 판독물의 수를 후보 역치와 비교하는 단계; 및
    상기 남아있는 서열 판독물의 수와 상기 후보 역치의 비교를 기초로 상기 후보 좌위의 폐기 여부를 결정하는 단계이되, 상기 후보 역치보다 적은 상기 남아있는 서열 판독물의 수는 상기 후보 역치보다 많은 상기 남아있는 서열 판독물의 수보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계; 그리고
    상기 필터링된 좌위 세트를 상기 남아있는 후보 좌위를 사용하여 신생 돌연변이를 갖는 것으로 식별하는 단계.
  57. 제36항, 제37항, 제41항, 제45항, 및 제47항 중 어느 한 항에 있어서, 상기 필터링된 좌위 세트를 상기 태아에서 신생 돌연변이를 갖는 것으로 식별하는 단계는 하기 단계들을 더 포함하는, 태아의 신생 돌연변이를 식별하는 방법:
    잠재적으로 신생 돌연변이를 갖는 것으로 식별된 제2 후보 좌위 세트 각각에 대해서:
    상기 후보 좌위에 정렬하고, 상기 서열 변이체를 갖는 상기 서열 판독물 각각에 대해서:
    상기 서열 판독물의 말단이 정렬한 상응하는 말단 위치를 측정하는 단계;
    상기 말단 위치를 복수의 암-특이적인 종결 위치 또는 암-연관된 종결 위치와 비교하는 단계;
    상기 비교를 기초로 상기 서열 판독물의 폐기 여부를 결정하는 단계이되, 암-특이적인 종결 위치 또는 암-연관된 종결 위치가 아닌 상기 말단 위치는 암-특이적인 종결 위치 또는 암-연관된 종결 위치인 상기 말단 위치보다 상기 서열 판독물을 폐기할 더 높은 가능성을 제공하여, 다수의 남아있는 서열 판독물을 수득하는, 단계;
    상기 남아있는 서열 판독물의 수를 후보 역치와 비교하는 단계; 및
    상기 남아있는 서열 판독물의 수와 상기 후보 역치의 비교를 기초로 상기 후보 좌위의 폐기 여부를 결정하는 단계이되, 상기 후보 역치보다 적은 상기 남아있는 서열 판독물의 수는 상기 후보 역치보다 많은 상기 남아있는 서열 판독물의 수보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계; 그리고
    상기 필터링된 좌위 세트를 상기 남아있는 후보 좌위를 사용하여 신생 돌연변이를 갖는 것으로 식별하는 단계.
  58. 제36항, 제37항, 제41항, 제45항, 및 제47항 중 어느 한 항에 있어서, 상기 시퀀싱은 후속 시퀀싱 단계를 제공하여 각각의 템플레이트 DNA 분자에 대한 두 가닥 판독물을 산출하는 단-가닥 시퀀싱 라이브러리 제조 공정을 사용하여 수행되고, 상기 필터링된 좌위 세트를 상기 태아의 일부 조직에서 신생 돌연변이를 갖는 것으로 식별하는 단계는 하기 단계들을 더 포함하는, 태아의 신생 돌연변이를 식별하는 방법:
    잠재적으로 신생 돌연변이를 갖는 것으로 식별된 제2 후보 좌위 세트 각각에 대해서:
    상기 후보 좌위에 정렬한 가닥 판독물의 각각의 쌍에 대해서:
    두 가닥 모두가 상기 서열 변이체를 갖는지의 여부를 결정하는 단계;
    두 가닥 모두가 상기 서열 변이체를 갖는지의 여부를 기초로 상기 서열 판독물의 폐기 여부를 결정하는 단계이되, 상기 서열 변이체를 갖지 않은 두 가닥 모두는 상기 서열 변이체를 갖는 단지 하나의 가닥 판독물보다 상기 가닥 판독물을 폐기할 더 높은 가능성을 제공하여, 다수의 남아있는 서열 판독물을 수득하는, 단계;
    상기 남아있는 서열 판독물의 수를 후보 역치와 비교하는 단계; 및
    상기 남아있는 서열 판독물의 수와 상기 후보 역치의 비교를 기초로 상기 후보 좌위의 폐기 여부를 결정하는 단계이되, 상기 후보 역치보다 적은 상기 남아있는 서열 판독물의 수는 상기 후보 역치보다 많은 상기 남아있는 서열 판독물의 수보다 상기 후보 좌위를 폐기할 더 높은 가능성을 제공하는, 단계; 그리고
    상기 필터링된 좌위 세트를 상기 남아있는 후보 좌위를 사용하여 신생 돌연변이를 갖는 것으로 식별하는 단계.
  59. 제36항, 제37항, 제41항, 제45항, 및 제47항 중 어느 한 항에 있어서, 상기 태아로부터의 무-세포 DNA 단편은 상기 생물학적 샘플에서 무-세포 DNA 단편의 50% 미만을 차지하는, 태아의 신생 돌연변이를 식별하는 방법.
  60. 제36항, 제37항, 제41항, 제45항, 및 제47항 중 어느 한 항에 있어서, 상기 생물학적 샘플은 혈장 또는 혈청을 포함하는, 태아의 신생 돌연변이를 식별하는 방법.
  61. 제36항, 제37항, 제41항, 제45항, 및 제47항 중 어느 한 항에 있어서, 상기 정렬된 서열 판독물은 상기 표준 게놈의 적어도 5%를 차지하는, 태아의 신생 돌연변이를 식별하는 방법.
  62. 제61항에 있어서, 상기 정렬된 서열 판독물은 상기 표준 게놈의 적어도 10%를 차지하는, 태아의 신생 돌연변이를 식별하는 방법.
  63. 제36항, 제37항, 제41항, 제45항, 및 제47항 중 어느 한 항에 있어서, 적어도 25x의 시퀀싱 깊이를 사용하는, 태아의 신생 돌연변이를 식별하는 방법.
  64. 제63항에 있어서, 상기 시퀀싱 깊이는 적어도 50x인, 태아의 신생 돌연변이를 식별하는 방법.
  65. 제64항에 있어서, 상기 시퀀싱 깊이는 적어도 100x인, 태아의 신생 돌연변이를 식별하는 방법.
  66. 제1항, 제2항, 제6항, 제10항, 제12항, 제36항, 제37항, 제41항, 제45항, 및 제47항 중 어느 한 항의 작동을 수행하기 위해서 컴퓨터 시스템을 제어하기 위한 복수의 지시를 저장하는 컴퓨터 판독 가능한 매체를 포함하는 컴퓨터 제품.
  67. 시스템으로서,
    제66항의 컴퓨터 제품; 및
    상기 컴퓨터 판독 가능한 매체 상에 저장된 지시를 실행하기 위한 하나 이상의 프로세서를 포함하는, 시스템.
  68. 제1항, 제2항, 제6항, 제10항, 제12항, 제36항, 제37항, 제41항, 제45항, 및 제47항 중 어느 한 항의 방법을 수행하기 위한 수단을 포함하는 시스템.
  69. 제1항, 제2항, 제6항, 제10항, 제12항, 제36항, 제37항, 제41항, 제45항, 및 제47항 중 어느 한 항의 방법을 수행하도록 구성된 시스템.
  70. 제1항, 제2항, 제6항, 제10항, 제12항, 제36항, 제37항, 제41항, 제45항, 및 제47항 중 어느 한 항의 방법 중 임의의 단계를 각각 수행하는 모듈을 포함하는 시스템.
KR1020177025432A 2015-02-10 2016-02-14 암 스크리닝 및 태아 분석을 위한 돌연변이 검출법 KR20170125044A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562114471P 2015-02-10 2015-02-10
US62/114,471 2015-02-10
US201562271196P 2015-12-22 2015-12-22
US62/271,196 2015-12-22
PCT/CN2016/073753 WO2016127944A1 (en) 2015-02-10 2016-02-14 Detecting mutations for cancer screening and fetal analysis

Publications (1)

Publication Number Publication Date
KR20170125044A true KR20170125044A (ko) 2017-11-13

Family

ID=56615337

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177025432A KR20170125044A (ko) 2015-02-10 2016-02-14 암 스크리닝 및 태아 분석을 위한 돌연변이 검출법

Country Status (15)

Country Link
US (3) US10240209B2 (ko)
EP (2) EP4012715A1 (ko)
JP (3) JP6829211B2 (ko)
KR (1) KR20170125044A (ko)
CN (2) CN113957124A (ko)
AU (2) AU2016218631B2 (ko)
CA (1) CA2976303A1 (ko)
DK (1) DK3256605T3 (ko)
ES (1) ES2908347T3 (ko)
HK (2) HK1244515A1 (ko)
HU (1) HUE058263T2 (ko)
PT (1) PT3256605T (ko)
SG (1) SG11201706529TA (ko)
TW (3) TWI740817B (ko)
WO (1) WO2016127944A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023129983A1 (en) * 2021-12-29 2023-07-06 AiOnco, Inc. Processing encrypted data for artificial intelligence-based analysis
WO2023191197A1 (ko) * 2022-03-29 2023-10-05 주식회사 아이엠비디엑스 암 진단을 위한 다중 분석 예측 모델의 제조 방법

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI335354B (en) 2006-09-27 2011-01-01 Univ Hong Kong Chinese Methods for the detection of the degree of the methylation of a target dna and kits
US9260753B2 (en) 2011-03-24 2016-02-16 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
KR102393608B1 (ko) 2012-09-04 2022-05-03 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
EP3561072A1 (en) 2012-12-10 2019-10-30 Resolution Bioscience, Inc. Methods for targeted genomic analysis
ES2784450T3 (es) 2013-12-28 2020-09-25 Guardant Health Inc Métodos y sistemas para detectar variantes genéticas
CN106795562B (zh) 2014-07-18 2022-03-25 香港中文大学 Dna混合物中的组织甲基化模式分析
EP4358097A1 (en) 2014-07-25 2024-04-24 University of Washington Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same
US10364467B2 (en) 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
ES2908347T3 (es) 2015-02-10 2022-04-28 Univ Hong Kong Chinese Detección de mutaciones para cribado de cáncer y análisis fetal
CA2993362A1 (en) 2015-07-23 2017-01-26 The Chinese University Of Hong Kong Analysis of fragmentation patterns of cell-free dna
DK3374525T3 (da) 2015-11-11 2021-04-06 Resolution Bioscience Inc Højeffektiv konstruktion af dna-biblioteker
JP2019507585A (ja) 2015-12-17 2019-03-22 ガーダント ヘルス, インコーポレイテッド 無細胞dnaの分析による腫瘍遺伝子コピー数を決定するための方法
US11514289B1 (en) 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
US20190114464A1 (en) * 2016-03-10 2019-04-18 Genomic Vision Method of curvilinear signal detection and analysis and associated platform
CN116445593A (zh) 2016-08-10 2023-07-18 格里尔公司 测定一生物样品的一甲基化图谱的方法
EP3504347A4 (en) 2016-08-25 2020-04-29 Resolution Bioscience, Inc. METHODS FOR DETECTING GENOMIC COPY CHANGES IN DNA SAMPLES
SG11201811159SA (en) 2016-09-30 2019-01-30 Guardant Health Inc Methods for multi-resolution analysis of cell-free nucleic acids
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
CN110100013A (zh) * 2016-10-24 2019-08-06 香港中文大学 用于肿瘤检测的方法和***
KR20230062684A (ko) 2016-11-30 2023-05-09 더 차이니즈 유니버시티 오브 홍콩 소변 및 기타 샘플에서의 무세포 dna의 분석
CA3047421A1 (en) * 2016-12-21 2018-06-28 The Regents Of The University Of California Deconvolution and detection of rare dna in plasma
CA3051509A1 (en) 2017-01-25 2018-08-02 The Chinese University Of Hong Kong Diagnostic applications using nucleic acid fragments
EP3366780B1 (en) 2017-02-23 2020-05-06 Siemens Healthcare GmbH Single-molecule sequence and high sensitivity methylation analysis for tissue-specific analysis
IT201700045353A1 (it) * 2017-04-26 2018-10-26 Bioscience Services S R L Metodo per la ricerca e l'individuazione di una condizione genetica prodromica all'insorgenza di tumori solidi
EP3625341A4 (en) * 2017-05-16 2021-05-19 Guardant Health, Inc. IDENTIFICATION OF SOMATIC ORIGIN OR GERMINAL LINE OF CELLLESS DNA
US10081829B1 (en) 2017-06-13 2018-09-25 Genetics Research, Llc Detection of targeted sequence regions
US10636512B2 (en) 2017-07-14 2020-04-28 Cofactor Genomics, Inc. Immuno-oncology applications using next generation sequencing
EP3431610A1 (en) * 2017-07-19 2019-01-23 Noscendo GmbH Methods and devices for nucleic acid-based real-time determination of disease states
EP3658684B1 (en) 2017-07-26 2023-08-30 The Chinese University Of Hong Kong Enhancement of cancer screening using cell-free viral nucleic acids
WO2019071219A1 (en) * 2017-10-06 2019-04-11 Grail, Inc. SPECIFIC SITE NOISE MODEL FOR TARGETED SEQUENCING
WO2019090156A1 (en) * 2017-11-03 2019-05-09 Guardant Health, Inc. Normalizing tumor mutation burden
WO2019109086A1 (en) * 2017-12-01 2019-06-06 Illumina, Inc. Methods and systems for determining somatic mutation clonality
KR20200129092A (ko) * 2018-01-12 2020-11-17 그레일, 인코포레이티드. 바이러스 핵산을 분석하기 위한 방법
CA3094717A1 (en) 2018-04-02 2019-10-10 Grail, Inc. Methylation markers and targeted methylation probe panels
US20210158895A1 (en) * 2018-04-13 2021-05-27 Dana-Farber Cancer Institute, Inc. Ultra-sensitive detection of cancer by algorithmic analysis
EP3781709A4 (en) * 2018-04-16 2022-11-30 Grail, LLC SYSTEMS AND METHODS FOR DETERMINING TUMOR FRACTION IN CELL-FREE NUCLEIC ACID
AU2019261597A1 (en) * 2018-04-24 2020-11-19 Grail, Llc Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition
CN108900319B (zh) * 2018-05-30 2021-05-25 北京百度网讯科技有限公司 故障检测方法和装置
SG11202100344WA (en) * 2018-07-23 2021-02-25 Guardant Health Inc Methods and systems for adjusting tumor mutational burden by tumor fraction and coverage
WO2020023671A1 (en) * 2018-07-24 2020-01-30 Protocol Intelligence, Inc. Methods and systems for treating cancer and predicting and optimizing treatment outcomes in individual cancer patients
CA3106820A1 (en) * 2018-07-26 2020-01-30 Lexent Bio, Inc. Multiple sequencing using a single flow cell
CN109022619A (zh) * 2018-08-27 2018-12-18 郑州安图生物工程股份有限公司 一种用于检测人类疱疹病毒4型的试剂盒
WO2020069350A1 (en) 2018-09-27 2020-04-02 Grail, Inc. Methylation markers and targeted methylation probe panel
KR20210089240A (ko) * 2018-11-13 2021-07-15 미리어드 제네틱스, 인크. 체세포성 돌연변이를 위한 방법 및 시스템 그리고 그 용도
US20200199656A1 (en) * 2018-12-19 2020-06-25 The Chinese University Of Hong Kong Cell-free dna end characteristics
US11643693B2 (en) 2019-01-31 2023-05-09 Guardant Health, Inc. Compositions and methods for isolating cell-free DNA
CN109841265B (zh) * 2019-02-22 2021-09-21 清华大学 使用片段化模式确定血浆游离核酸分子组织来源的方法和***及应用
BR112021022879A2 (pt) * 2019-05-20 2022-03-22 Found Medicine Inc Sistemas e métodos para avaliação de fração tumoral
US20210366569A1 (en) * 2019-06-03 2021-11-25 Illumina, Inc. Limit of detection based quality control metric
KR20220064951A (ko) * 2019-06-21 2022-05-19 쿠퍼서지컬, 인코퍼레이션. 인간 배아에서의 복제 수 변이의 확인을 위한 단일 뉴클레오티드 변이의 밀도를 사용하는 시스템 및 방법(systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos)
US20210065842A1 (en) * 2019-07-23 2021-03-04 Grail, Inc. Systems and methods for determining tumor fraction
AU2020333348B2 (en) * 2019-08-19 2023-11-23 Green Cross Genome Corporation Method for detecting chromosomal abnormality by using information about distance between nucleic acid fragments
WO2021137770A1 (en) * 2019-12-30 2021-07-08 Geneton S.R.O. Method for fetal fraction estimation based on detection and interpretation of single nucleotide variants
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
EP4259817A1 (en) * 2020-12-08 2023-10-18 The Chinese University of Hong Kong Methods using characteristics of urinary and other dna
CN113628683B (zh) * 2021-08-24 2024-04-09 慧算医疗科技(上海)有限公司 一种高通量测序突变检测方法、设备、装置及可读存储介质
CN114582429B (zh) * 2022-03-03 2023-06-13 四川大学 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置
WO2023225659A2 (en) * 2022-05-19 2023-11-23 Personalis, Inc. Methods and system for using methylation data for disease detection and quantification
CN115394358B (zh) * 2022-08-31 2023-05-12 西安理工大学 基于深度学习的单细胞测序基因表达数据插补方法和***
WO2024051806A1 (zh) * 2022-09-09 2024-03-14 南京金斯瑞生物科技有限公司 一种设计人源化抗体序列的方法
CN115424666B (zh) * 2022-09-13 2023-07-11 江苏先声医学诊断有限公司 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及***

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1169347B1 (en) 1999-04-02 2008-07-02 Corixa Corporation Compounds and methods for therapy and diagnosis of lung cancer
US20030219765A1 (en) 2000-03-23 2003-11-27 Jose Costa Methods for evaluating cancer risk
JP2005514956A (ja) * 2002-01-18 2005-05-26 ジェンザイム・コーポレーション 胎児dnaの検出および対立遺伝子の定量化のための方法
US7704687B2 (en) 2002-11-15 2010-04-27 The Johns Hopkins University Digital karyotyping
US8394582B2 (en) 2003-03-05 2013-03-12 Genetic Technologies, Inc Identification of fetal DNA and fetal cell markers in maternal plasma or serum
PL201608B1 (pl) 2003-06-13 2009-04-30 Cezary Cybulski Sposób i zestaw do wykrywania wysokiej genetycznie uwarunkowanej predyspozycji do raka prostaty oraz zastosowanie zmiany germinalnej w obrębie genu NBS1
DE60328193D1 (de) 2003-10-16 2009-08-13 Sequenom Inc Nicht invasiver Nachweis fötaler genetischer Merkmale
CA2562310A1 (en) 2004-04-30 2005-11-17 Yale University Methods and compositions for cancer diagnosis
US20070122823A1 (en) 2005-09-01 2007-05-31 Bianchi Diana W Amniotic fluid cell-free fetal DNA fragment size pattern for prenatal diagnosis
ES2739484T3 (es) 2006-02-02 2020-01-31 Univ Leland Stanford Junior Prueba genética fetal no invasiva mediante análisis digital
CA2647793C (en) 2006-02-28 2016-07-05 University Of Louisville Research Foundation Detecting fetal chromosomal abnormalities using tandem single nucleotide polymorphisms
WO2008024009A1 (fr) 2006-08-15 2008-02-28 Institut Molekulyarnoi Genetiki Rossiiskoi Akademii Nauk (Img Ran) Niveau de transcription du gène timp3 utilisé en tant que marqueur servant à diagnostiquer le cancer du poumon non à petites cellules
MX2009012722A (es) 2007-05-25 2009-12-11 Decode Genetics Ehf Variantes geneticas sobre chr 5p12 y 10q26 como marcadores para el uso en la evaluacion del riesgo, diagnostico, pronostico y tratamiento del cancer de mama.
CA2900927C (en) 2007-07-23 2018-08-14 The Chinese University Of Hong Kong Diagnosing fetal chromosomal aneuploidy using genomic sequencing
US20090053719A1 (en) 2007-08-03 2009-02-26 The Chinese University Of Hong Kong Analysis of nucleic acids by digital pcr
US20100041048A1 (en) 2008-07-31 2010-02-18 The Johns Hopkins University Circulating Mutant DNA to Assess Tumor Dynamics
CA3069082C (en) 2008-09-20 2022-03-22 The Board Of Trustees Of The Leland Stanford Junior University Noninvasive diagnosis of fetal aneuploidy by sequencing
US20100136560A1 (en) 2008-12-02 2010-06-03 The Johns Hopkins University Integrated Analyses of Breast and Colorectal Cancers
RU2011143425A (ru) 2009-03-31 2013-05-10 Оридис Биомаркерс Гмбх Способ диагностики рака и мониторинга лечения рака
WO2011038507A1 (en) 2009-10-02 2011-04-07 Centre For Addiction And Mental Health Method for analysis of dna methylation profiles of cell-free circulating dna in bodily fluids
WO2011053790A2 (en) 2009-10-30 2011-05-05 Fluidigm Corporation Assay of closely linked targets in fetal diagnosis and coincidence detection assay for genetic analysis
ES2720282T3 (es) 2009-11-05 2019-07-19 Univ Hong Kong Chinese Análisis genómico fetal a partir de una muestra biológica materna
MX357692B (es) 2009-11-06 2018-07-19 Univ Hong Kong Chinese Analisis genomico a base de tamaño.
GB0922006D0 (en) 2009-12-17 2010-02-03 Genome Res Ltd Diagnostic
EP2848703A1 (en) 2010-01-19 2015-03-18 Verinata Health, Inc Simultaneous determination of aneuploidy and fetal fraction
AU2011207544A1 (en) 2010-01-19 2012-09-06 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic DNA by whole genome sequencing
US20130210645A1 (en) 2010-02-18 2013-08-15 The Johns Hopkins University Personalized tumor biomarkers
EP2426217A1 (en) 2010-09-03 2012-03-07 Centre National de la Recherche Scientifique (CNRS) Analytical methods for cell free nucleic acids and applications
EP4269623A3 (en) 2010-11-30 2024-03-06 The Chinese University Of Hong Kong Analysis of a biological sample of an organism for chromosomal deletions or amplifications associated with cancer
GB2485635B (en) 2011-07-26 2012-11-28 Verinata Health Inc Method for determining the presence or absence of different aneuploidies in a sample
EP3922731A3 (en) 2011-10-06 2022-01-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10214775B2 (en) 2011-12-07 2019-02-26 Chronix Biomedical Prostate cancer associated circulating nucleic acid biomarkers
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
CA2867293C (en) 2012-03-13 2020-09-01 Abhijit Ajit PATEL Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing
WO2013179443A1 (ja) 2012-05-31 2013-12-05 住友電気工業株式会社 酸化物超電導薄膜とその製造方法
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
KR102393608B1 (ko) * 2012-09-04 2022-05-03 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
US9732390B2 (en) 2012-09-20 2017-08-15 The Chinese University Of Hong Kong Non-invasive determination of methylome of fetus or tumor from plasma
DK3536807T3 (da) 2012-09-20 2024-02-05 Univ Hong Kong Chinese Ikkeinvasiv bestemmelse af foster- eller tumormethylom fra plasma
JP2016513959A (ja) * 2013-02-21 2016-05-19 トマ バイオサイエンシーズ, インコーポレイテッド 核酸分析のための方法、組成物およびキット
US10017807B2 (en) 2013-03-15 2018-07-10 Verinata Health, Inc. Generating cell-free DNA libraries directly from blood
US10174375B2 (en) * 2013-09-20 2019-01-08 The Chinese University Of Hong Kong Sequencing analysis of circulating DNA to detect and monitor autoimmune diseases
US10262755B2 (en) * 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
US20160002717A1 (en) 2014-07-02 2016-01-07 Boreal Genomics, Inc. Determining mutation burden in circulating cell-free nucleic acid and associated risk of disease
EP4358097A1 (en) 2014-07-25 2024-04-24 University of Washington Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same
EP3224380A1 (en) 2014-11-25 2017-10-04 The Broad Institute Inc. Clonal haematopoiesis
CA2967447A1 (en) 2014-12-05 2016-06-09 Foundation Medicine, Inc. Multigene analysis of tumor samples
WO2016109452A1 (en) 2014-12-31 2016-07-07 Guardant Health , Inc. Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
ES2908347T3 (es) 2015-02-10 2022-04-28 Univ Hong Kong Chinese Detección de mutaciones para cribado de cáncer y análisis fetal
JP2018513508A (ja) 2015-03-16 2018-05-24 パーソナル ジノーム ダイアグノスティクス, インコーポレイテッド 核酸を分析するためのシステムおよび方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023129983A1 (en) * 2021-12-29 2023-07-06 AiOnco, Inc. Processing encrypted data for artificial intelligence-based analysis
WO2023191197A1 (ko) * 2022-03-29 2023-10-05 주식회사 아이엠비디엑스 암 진단을 위한 다중 분석 예측 모델의 제조 방법

Also Published As

Publication number Publication date
TWI740817B (zh) 2021-10-01
TWI817187B (zh) 2023-10-01
HK1251018A1 (zh) 2019-01-18
CN107771221B (zh) 2021-11-02
DK3256605T3 (da) 2022-03-14
US10240209B2 (en) 2019-03-26
JP6829211B2 (ja) 2021-02-10
CN107771221A (zh) 2018-03-06
EP3256605A4 (en) 2018-10-17
JP2022185149A (ja) 2022-12-13
US20190153541A1 (en) 2019-05-23
PT3256605T (pt) 2022-03-17
AU2022203114A1 (en) 2022-05-26
EP4012715A1 (en) 2022-06-15
US11168370B2 (en) 2021-11-09
JP2021061861A (ja) 2021-04-22
CA2976303A1 (en) 2016-08-18
SG11201706529TA (en) 2017-09-28
AU2016218631A1 (en) 2017-08-17
ES2908347T3 (es) 2022-04-28
US20220127683A1 (en) 2022-04-28
TW202400808A (zh) 2024-01-01
HUE058263T2 (hu) 2022-07-28
TW202146657A (zh) 2021-12-16
AU2016218631B2 (en) 2022-03-10
JP2018512048A (ja) 2018-05-10
CN113957124A (zh) 2022-01-21
JP7168247B2 (ja) 2022-11-09
EP3256605A1 (en) 2017-12-20
WO2016127944A1 (en) 2016-08-18
HK1244515A1 (zh) 2018-08-10
TW201700732A (zh) 2017-01-01
US20170073774A1 (en) 2017-03-16
EP3256605B1 (en) 2022-02-09

Similar Documents

Publication Publication Date Title
JP7168247B2 (ja) 癌スクリーニング及び胎児分析のための変異検出
TWI797095B (zh) 腫瘤檢測之方法及系統
JP6971845B2 (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
TWI640634B (zh) 來自血漿之胚胎或腫瘤甲基化模式組(methylome)之非侵入性測定
TWI798718B (zh) Dna混合物中組織之單倍型甲基化模式分析
JP6161607B2 (ja) サンプルにおける異なる異数性の有無を決定する方法
EP3973080A1 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
TW202144583A (zh) 血漿粒線體dna分析之應用
TW202217009A (zh) 游離核酸之核酸酶相關末端標籤分析

Legal Events

Date Code Title Description
E902 Notification of reason for refusal