KR102184868B1

KR102184868B1 - 카피수 변이를 판정하기 위한 dna 단편 크기의 사용

Info

Publication number: KR102184868B1
Application number: KR1020197034142A
Authority: KR
Inventors: 스벤 듀엔왈드; 데이비드 에이. 콤스톡; 카탈린 바르바시오루; 다르야 아이. 추도바; 리처드 피. 라바; 키쓰 더블유. 존스; 젱신 첸; 디미트리 스크보르초브
Original assignee: 베리나타 헬스, 인코포레이티드
Priority date: 2016-02-03
Filing date: 2016-12-20
Publication date: 2020-12-02
Also published as: IL260938B; US10095831B2; EP3517626B1; TW201930598A; CA3013572C; CN108884491A; KR102049191B1; EA202090277A3; AR107192A1; KR20180123020A; AU2019203491A1; DK3202915T3; UA126898C2; AU2019203491B2; AU2016391100A1; NZ752319A; EP3517626A1; MA52131A; CN113096726A; NZ745637A

Abstract

다양한 의학적 상태와 관련된 것으로 알려져 있거나 또는 의심되는 카피수 변이(CNV)를 판정하기 위한 방법이 개시된다. 일부 구체예에서, 모체와 태아의 무세포계 DNA를 포함하는 모체 샘플을 이용하여 태아의 카피수 변이를 판정하기 위한 방법이 제공된다. 일부 구체예에서, 다양한 의학적 상태와 관련된 것으로 알려져 있거나 또는 의심되는 CNV를 판정하기 위한 방법이 개시된다. 본 명세서에서 개시되는 일부 구체예는 단편 크기 매개변수를 도출함으로써 서열 데이터 분석의 감도 및/또는 특이성을 향상시키는 방법을 제공한다. 일부 실시형태에서, 상이한 크기의 단편으로부터의 정보를 사용하여 카피수 변이를 평가한다. 일부 실시형태에서, 관심대상의 서열의 커버리지 정보로부터 획득된 하나 이상의 t-통계량을 사용하여 카피수 변이를 평가한다. 일부 실시형태에서, 하나 이상의 태아 분획 추정치를 하나 이상의 t-통계량과 조합하여 카피수 변이를 판정한다.

Description

카피수 변이를 판정하기 위한 DNA 단편 크기의 사용{USING CELL-FREE DNA FRAGMENT SIZE TO DETERMINE COPY NUMBER VARIATIONS}

관련 출원의 상호 참조

본 출원은 미국특허법 35 U.S.C. § 119(e)에 따라 "USING CELL-FREE DNA FRAGMENT SIZE TO DETERMINE COPY NUMBER VARIATIONS"란 명칭으로 2016년 2월 3일 제출된 미국 가특허출원 제62/290,891호 및 "USING CELL-FREE DNA FRAGMENT SIZE TO DETERMINE COPY NUMBER VARIATIONS"란 명칭으로 2016년 12월 16일 제출된 미국특허출원 제15/382,508호에 대한 우선권 혜택을 주장하며, 이들의 전문은 본 명세서에서 참고로 포함된다.

인간 의학 연구에 있어서 중요한 시도의 하나는 유해한 건강 영향을 초래하는 유전적 이상의 발견이다. 많은 경우에, 특정 유전자 및/또는 중요한 진단 마커는 비정상적인 카피수로 존재하고 있는 게놈의 일부분에서 동정되고 있다. 예를 들어, 출생전 진단에 있어서 염색체 전체의 과잉 또는 결손된 카피는 높은 빈도로 일어나는 유전자 병변이다. 암에 있어서 염색체 전체 또는 염색체 세그먼트의 결실 또는 증배, 및 게놈의 특정 영역의 더 높은 수준의 증폭은 흔히 발견되는 것이다.

카피수 변이(CNV)에 대한 대부분의 정보는 구조 이상 인식을 가능하게 하는 세포 유전학적 분석에 의해 제공되고 있다. 유전학적 스크리닝 및 생물학적 선량측정의 통상적인 방법은 핵형 분석을 위한 세포를 얻기 위해 침습적 절차, 예를 들어 양수 천자, 탯줄 천자, 또는 융모막 융모 샘플링(CVS)을 이용하고 있다. 세포 배양을 필요로 하지 않는 보다 신속한 검사 방법의 필요성을 인식하여 형광 인-시츄 하이브리드화(FISH), 정량적 형광 PCR(QF-PCR) 및 어레이-비교 게놈 하이브리드화(어레이-CGH)가 카피수 변이의 분석을 위한 분자-세포 유전학적 방법으로서 개발되었다.

인간 의학 연구에 있어서 중요한 시도의 하나는 유해한 건강 영향을 초래하는 유전자 이상의 발견이다. 많은 경우에, 특정 유전자 및/또는 중요한 진단 마커는 비정상적인 카피수로 존재하고 있는 게놈의 일부분에서 동정되고 있다. 예를 들어, 출생전 진단에 있어서 염색체 전체의 과잉 또는 결손된 카피는 높은 빈도로 일어나는 유전자 병변이다. 암에 있어서 염색체 전체 또는 염색체 세그먼트의 결실 또는 증배, 및 게놈의 특정 영역의 더 높은 수준의 증폭은 흔히 발견되는 것이다.

게놈을 비교적 단시간에 시퀀싱하는 것을 가능하게 하는 기술의 도래 및 순환 무세포계 DNA(cell-free DNA; cfDNA)의 발견으로 침습적 샘플링 법에 관련된 위험을 수반하지 않고, 또 하나의 것과 비교되는 하나의 염색체에 기인하는 유전 물질을 비교할 수 있는 기회가 제공되며, 그것은 관심대상의 유전자 서열의 카피수 변이의 다양한 종류를 진단하는 툴을 제공한다.

한정된 수준의 cfDNA에 기인하는 불충분한 감도 및 게놈 정보의 고유한 성질로 인해 발생하는 기술의 시퀀싱 바이어스를 포함하는 비침습적 출생전 진단에 있어서의 기존 방법의 한계는 다양한 임상 설정에서 카피수 변화를 확실하게 진단하기 위해 특이성, 감도 및 적용성 중 어느 하나 또는 모두를 제공하는 비침습적 방법의 지속적인 필요성의 기초가 되고 있다. 태아 cfDNA 단편의 평균 길이가 임산부의 혈장 중의 모체 cfDNA 단편보다 짧은 것으로 밝혀졌다. 이러한 모체 cfDNA와 태아 cfDNA 간의 차이는 CNV 및/또는 태아 분획(fetal fraction)을 판정하기 위해 본 명세서의 구체예에서 이용된다. 본 명세서에서 개시된 실시예는 위의 필요 부분의 일부를 충족한다. 일부 구체예는 페어드-엔드 DNA 시퀀싱(paired end DNA 시퀀싱)과 함께 사용된 PCR 수행 없는(PCR free) 라이브러리 제조로 실행될 수 있다. 일부 구체예는 각종 질환의 비침습적 출생전 진단법 및 진단을 위한 높은 분석 감도 및 특이성을 제공한다.

개요

일부 구체예에서, 임의의 태아 이수성의 카피수 변이(CNV) 및 다양한 의학적 상태와 관련된 것으로 알려져 있거나 또는 의심되는 CNV를 판정하기 위한 방법이 제공된다. 본 방법에 따라서 판정될 수 있는 CNV는 1번 내지 22번 염색체, X 염색체 및 Y 염색체 중 어느 하나 이상의 트리소미(트리소미) 및 모노소미(monosomy), 다른 염색체 폴리소미(polysomy), 및 상기 염색체들 중 어느 하나 이상의 세그먼트의 결실 및/또는 중복을 포함한다. 일부 구체예에서, 방법은 검사 샘플에서 관심대상의 핵산 서열, 예를 들어, 임상적으로 관련된 서열의 CNV를 동정하는 것을 포함한다. 상기 방법은 관심대상의 특정 서열의 카피수 변이를 평가한다.

일부 구체예에서, 방법은 1종 이상의 게놈의 핵산을 포함하는 검사 샘플에서 관심대상의 핵산 서열의 카피수를 평가하기 위해 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템에서 실행될 수 있다.

본 발명의 한 측면은 2종 이상의 게놈으로부터 유래하는 무세포계 핵산 단편을 포함하는 검사 샘플에서 관심대상의 핵산 서열의 카피수 변이(CNV)를 판정하는 방법에 관한 것이다. 상기 방법은 (a) 검사 샘플에서 무세포계 핵산 단편을 시퀀싱하여 얻은 서열 판독을 수취하는 단계; (b) 무세포계 핵산 단편의 서열 판독을 정렬하거나 상기 서열 판독을 함유하는 단편을 관심대상의 서열을 포함하는 참조 게놈의 빈(bin)에 정렬하고, 이를 통해 검사 서열 태그를 제공하고, 상기 참조 게놈이 복수의 빈으로 분할되는 단계; (c) 검사 샘플 중에 존재하는 무세포계 핵산 단편의 적어도 일부의 단편 크기를 결정하는 단계; (d) 각 빈에 대해: (i) 빈에 정렬하는 서열 태그의 수를 결정하고, (ii) 카피수 변이 이외의 요인으로 인한 빈 간의 변이를 감정(勘定)하여 상기 빈에 정렬하는 서열 태그의 수를 정규화함으로써 참조 게놈의 빈에 대한 서열 태그의 커버리지(coverage)를 계산하는 단계; (e) 관심대상의 서열에서의 빈의 커버리지 및 관심대상의 서열에 대한 참조 영역에서의 빈의 커버리지를 사용하여 관심대상의 서열에 대한 t-통계량을 결정하는 단계; 및 (f) 상기 t-통계량으로부터 계산된 가능도비(likelihood ratio) 및 무세포계 핵산 단편의 크기에 관한 정보를 사용하여 관심대상의 서열의 카피수 변이를 판정하는 단계를 포함한다.

일부 실시형태에서, 방법은 (d) 및 (e)를 2회 수행하고, 즉 제1 크기 도메인 내의 단편에 대해 1회 및 제2 크기 도메인 내의 단편에 대해 다시 1회로 수행하는 것을 포함한다. 일부 실시형태에서, 제1 크기 도메인은 샘플 중의 실질적으로 모든 크기의 무세포계 핵산 단편을 포함하고, 제2 크기 도메인은 규정된 크기보다 작은 무세포계 핵산 단편만을 포함한다. 일부 실시형태에서, 제2 크기 도메인은 약 150 bp보다 작은 무세포계 핵산 단편만을 포함한다. 일부 실시형태에서, 가능도비는 제1 크기 범위의 단편에 대한 서열 태그를 사용하여 관심대상의 서열에 대한 제1 t-통계량으로부터 그리고 제2 크기 범위의 단편에 대한 서열 태그를 사용하여 관심대상의 서열에 대한 제2 t-통계량으로부터 계산된다.

일부 실시형태에서, 가능도비(lekelihood ratio)는 검사 샘플이 이수성 샘플(aneuploid sample)일 제1 가능도/검사 샘플이 정배수성 샘플일 제2 가능도로서 계산된다.

일부 실시형태에서, 가능도비는 t-통계량 및 무세포계 핵산 단편의 크기에 관한 정보 외에도 태아 분획의 하나 이상의 값으로부터 계산된다.

일부 실시형태에서, 태아 분획의 하나 이상의 값은 무세포계 핵산 단편의 크기에 관한 정보를 사용하여 계산된 태아 분획의 값을 포함한다. 일부 실시형태에서, 태아 분획의 값은 단편 크기의 빈도 분포를 얻고; 태아 분획을 단편 크기의 빈도에 관련시키는 모델에 상기 빈도 분포를 적용하여 태아 분획 값을 얻음으로써 계산된다. 일부 실시형태에서, 태아 분획을 단편 크기의 빈도에 관련시키는 모델은 복수의 단편 크기에 대한 복수의 항(term)과 계수(coefficient)를 갖는 일반 선형 모델을 포함한다.

일부 실시형태에서, 태아 분획의 하나 이상의 값은 참조 게놈의 빈에 대한 커버리지 정보를 사용하여 계산된 태아 분획의 값을 포함하다. 일부 실시형태에서, 태아 분획의 값은 태아 분획을 빈의 커버리지에 관련시키는 모델에 복수의 빈의 커버리지 값을 적용하여 태아 분획 값을 얻음으로써 계산된다. 일부 실시형태에서, 태아 분획을 빈의 커버리지에 관련시키는 모델은 복수의 빈에 대한 복수의 항과 계수를 갖는 일반 선형 모델을 포함한다. 일부 실시형태에서, 복수의 빈은 트레이닝 샘플(training sample)에서 태아 분획과 커버리지 사이에 높은 상관관계를 갖는다.

일부 실시형태에서, 태아 분획의 하나 이상의 값은 판독에서 발견된 복수의 8량체(8-mer)의 빈도를 사용하여 계산된 태아 분획의 값을 포함한다. 일부 실시형태에서, 태아 분획의 값은 태아 분획을 8량체 빈도에 관련시키는 모델에 복수의 8량체의 빈도를 적용하여 태아 분획 값을 획득함으로써 계산된다. 일부 실시형태에서, 태아 분획을 8량체 빈도에 관련시키는 모델은 복수의 8량체에 대한 복수의 항과 계수를 갖는 일반 선형 모델을 포함한다. 일부 실시형태에서, 복수의 8량체는 태아 분획과 8량체 빈도 사이에 높은 상관관계를 갖는다.

일부 실시형태에서, 태아 분획의 하나 이상의 값은 성 염색체의 빈에 대한 커버리지 정보를 사용하여 계산된 태아 분획의 값을 포함한다.

일부 실시형태에서, 가능도비는 태아 분획, 짧은 단편의 t-통계량 및 모든 단편의 t-통계량으로부터 계산되고, 여기서 상기 짧은 단편은 기준 크기보다 작은 제1 크기 범위의 무세포계 핵산 단편이고, 모든 단편은 기준 크기보다 짧은 단편과 긴 단편을 포함하는 무세포계 핵산 단편이다. 일부 실시형태에서, 가능도비는 다음과 같이 계산된다:

상기 식에서, p ₁ 은 데이터가 3-카피 또는 1-카피 모델을 나타내는 다변량 정규 분포로부터 생성될 가능도를 나타내고, p _o 은 데이터가 2-카피 모델을 나타내는 다변량 정규 분포로부터 생성될 가능도를 나타내고, T_short,T_all은 짧은 단편 및 모든 단편으로부터 생성된 염색체 커버리지로부터 계산된 T 점수이고, q(ff _total )은 태아 분획의 밀도 분포이다.

일부 실시형태에서, 모노소미 X, 트리소미 X, 트리소미 13, 트리소미 18 또는 트리소미 21에 대한 가능도비가 계산된다.

일부 실시형태에서, 서열 태그의 수의 정규화는 샘플의 GC 함량에 대한 정규화, 트레이닝 세트의 변이의 전체 웨이브 프로파일(global wave profile)에 대한 정규화 및/또는 주성분 분석으로부터 획득된 1종 이상의 성분에 대한 정규화를 포함한다.

일부 실시형태에서, 관심대상의 서열은 13번 염색체, 18번 염색체, 21번 염색체, X 염색체 및 Y 염색체로 이루어진 군으로부터 선택된 인간 염색체이다.

일부 실시형태에서, 참조 영역은 모든 견고한(robust) 염색체, 관심대상의 서열을 포함하지 않는 견고한 염색체, 관심대상의 서열 외의 적어도 한 염색체 및/또는 견고한 염색체로부터 선택된 염색체의 부분집단이다. 일부 실시형태에서, 참조 영역은 트레이닝 샘플 세트에 최상의 신호 검출 능력을 제공하는 것으로 판정된 견고한 염색체를 포함한다.

일부 실시형태에서, 방법은 각 빈에 대해: (i) 빈 내의 무세포계 핵산 단편의 크기로부터 크기 매개변수의 값을 결정하고, (ii) 카피수 변이 이외의 요인으로 인한 빈 간의 변이를 감정하여 상기 크기 매개변수의 값을 정규화함으로써 빈에 대한 크기 매개변수의 값을 계산하는 단계를 추가로 포함한다. 방법은 또한 관심대상의 서열에서의 빈의 크기 매개변수의 값 및 관심대상의 서열에 대한 참조 영역에서의 빈의 크기 매개변수의 값을 사용하여 관심대상의 서열에 대한 크기-기반 t-통계량을 결정하는 단계를 포함한다. 일부 실시형태에서, 단계(f)의 가능도비는 t-통계량 및 크기-기반 t-통계량으로부터 계산된다. 일부 실시형태에서, 단계(f)의 가능도비는 크기-기반 t-통계량 및 태아 분획으로부터 계산된다.

일부 실시형태에서, 상기 방법은 관심대상의 서열의 카피수 변이를 판정하기 위해 가능도비를 호출 기준(call criterion)과 비교하는 단계를 포함한다. 일부 실시형태에서, 가능도비는 호출 기준과 비교되기 전에 대수 가능도비로 전환된다. 일부 실시형태에서, 호출 기준은 상이한 기준들을 트레이닝 샘플의 트레이닝 세트에 적용시키고 규정된 감도 및 규정된 선택도를 제공하는 기준을 선택함으로써 얻어진다.

일부 실시형태에서, 방법은 복수의 가능도비를 얻고 상기 복수의 가능도비를 의사결정 트리(decision tree)에 적용하여 샘플에 대한 배수성 사례를 판정하는 단계를 추가로 포함한다.

일부 실시형태에서, 방법은 복수의 가능도비 및 관심대상 서열의 하나 이상의 커버리지 값을 얻는 단계 및 상기 복수의 가능도비 및 관심대상의 서열의 하나 이상의 커버리지 값을 의사결정 트리에 적용하여 샘플에 대한 배수성 사례를 판정하는 단계를 추가로 포함한다.

본 발명의 다른 측면은 2종 이상의 게놈으로부터 유래하는 무세포계 핵산 단편을 포함하는 검사 샘플에서 관심대상의 핵산 서열의 카피수 변이(CNV)을 판정하는 방법에 관한 것이다. 상기 방법은 (a) 검사 샘플에서 무세포계 핵산 단편을 시퀀싱하여 얻은 서열 판독을 수취하는 단계; (b) 무세포계 핵산 단편의 서열 판독을 정렬하거나 상기 서열 판독을 함유하는 단편을 관심대상의 서열을 포함하는 참조 게놈의 빈에 정렬하고, 이를 통해 검사 서열 태그를 제공하고, 상기 참조 게놈이 복수의 빈으로 분할되는 단계; (c) 각 빈에 대해: (i) 빈에 정렬하는 서열 태그의 수를 결정하고, (ii) 카피수 변이 이외의 요인으로 인한 빈 간의 변이를 감정하여 상기 빈에 정렬하는 서열 태그의 수를 정규화함으로써 참조 게놈의 빈에 대한 서열 태그의 커버리지를 계산하는 단계; (d) 관심대상의 서열에서의 빈의 커버리지 및 관심대상의 서열에 대한 참조 영역에서의 빈의 커버리지를 사용하여 관심대상의 서열에 대한 t-통계량을 결정하는 단계; (e) 검사 샘플에서 무세포계 핵산 단편의 하나 이상의 태아 분획 값을 추정하는 단계; 및 (f) 상기 t-통계량 및 하나 이상의 태아 분획 값을 사용하여 관심대상의 서열의 카피수 변이를 판정하는 단계를 포함한다.

일부 실시형태에서, 단계(f)는 t-통계량 및 하나 이상의 태아 분획 값으로부터 가능도비를 계산하는 것을 포함한다. 일부 실시형태에서, 모노소미 X, 트리소미 X, 트리소미 13, 트리소미 18 또는 트리소미 21에 대한 가능도비가 계산된다.

일부 실시형태에서, 서열 태그의 수의 정규화는 샘플의 GC 함량에 대한 정규화, 트레이닝 세트의 변이의 전체 웨이브 프로파일에 대한 정규화 및/또는 주성분 분석으로부터 획득된 1종 이상의 성분에 대한 정규화를 포함한다.

본 발명의 추가 측면은 2종 이상의 게놈으로부터 유래하는 무세포계 핵산 단편을 포함하는 검사 샘플에서 관심대상의 핵산 서열의 카피수 변이(CNV)를 판정하는 방법에 관한 것이다. 상기 방법은 (a) 검사 샘플에서 무세포계 핵산 단편을 시퀀싱하여 얻은 서열 판독을 수취하는 단계; (b) 무세포계 핵산 단편의 서열 판독을 정렬하거나 상기 서열 판독을 함유하는 단편을 관심대상의 서열을 포함하는 참조 게놈의 빈에 정렬하고, 이를 통해 검사 서열 태그를 제공하고, 상기 참조 게놈이 복수의 빈으로 분할되는 단계; (c) 검사 샘플 중에 존재하는 무세포계 핵산 단편의 단편 크기를 결정하는 단계; (d) 제1 크기 도메인의 크기를 갖는 무세포계 핵산 단편에 대한 서열 태그를 사용하여 참조 게놈의 빈에 대한 서열 태그의 커버리지를 계산하는 단계; (e) 제2 크기 도메인의 크기를 갖는 무세포계 핵산 단편에 대한 서열 태그를 사용하여 참조 게놈의 빈에 대한 서열 태그의 커버리지를 계산하고, 상기 제2 크기 도메인은 상기 제1 크기 도메인과 상이한 단계; (f) (c)에서 결정된 단편 크기를 사용하여 참조 게놈의 빈에 대한 크기 특징을 계산하는 단계; 및 (g) (d) 및 (e)에서 계산된 커버리지 및 (f)에서 계산된 크기 특징을 사용하여 관심대상의 서열의 카피수 변이를 판정하는 단계를 포함한다.

일부 실시형태에서, 제1 크기 도메인은 샘플 중의 실질적으로 모든 크기의 무세포계 핵산 단편을 포함하고, 제2 크기 도메인은 규정된 크기보다 작은 무세포계 핵산 단편만을 포함한다. 일부 실시형태에서, 제2 크기 도메인은 약 150 bp보다 작은 무세포계 핵산 단편만을 포함한다.

일부 실시형태에서, (g)는 (d) 및/또는 (e)에서 계산된 관심대상의 서열에서의 빈의 커버리지를 사용하여 관심대상의 서열에 대한 t-통계량을 계산하는 것을 포함한다. 일부 실시형태에서, 관심대상의 서열에 대한 t-통계량의 계산은 관심대상의 서열에서의 빈의 커버리지 및 관심대상의 서열에 대한 참조 영역에서의 빈의 커버리지를 사용하는 것을 포함한다.

일부 실시형태에서, (g)는 (f)에서 계산된 관심대상의 서열에서의 빈의 크기 특징을 사용하여 관심대상의 서열에 대한 t-통계량을 계산하는 것을 포함한다. 일부 실시형태에서, 관심대상의 서열에 대한 t-통계량의 계산은 관심대상의 서열에서의 빈의 크기 특징 및 관심대상의 서열에 대한 참조 영역에서의 빈의 크기 특징을 사용하는 것을 포함한다.

일부 실시형태에서, 빈에 대한 크기 특징은 규정된 값보다 작은 크기의 단편 대 빈에서의 총 단편의 비율을 포함한다.

일부 실시형태에서, (g)는 t-통계량으로부터 가능도비를 계산하는 것을 포함한다.

일부 실시형태에서, (g)는 (d)에서 계산된 커버리지를 사용하여 관심대상의 서열에 대한 제1 t-통계량으로부터 그리고 (e)에서 계산된 커버리지를 사용하여 관심대상의 서열에 대한 제2 t-통계량으로부터 가능도비를 계산하는 것을 포함한다.

일부 실시형태에서, (g)는 (d)에서 계산된 커버리지를 사용하여 관심대상의 서열에 대한 제1 t-통계량으로부터, (e)에서 계산된 커버리지를 사용하여 관심대상의 서열에 대한 제2 t-통계량으로부터 그리고 (f)에서 계산된 크기 특징을 사용하여 관심대상의 서열에 대한 제3 t-통계량으로부터 가능도비를 계산하는 것을 포함한다.

일부 실시형태에서, 가능도비는 적어도 제1 t-통계량 및 제2 t-통계량 이외에도 태아 분획의 하나 이상의 값으로부터 계산된다. 일부 실시형태에서, 방법은 무세포계 핵산 단편의 크기에 관한 정보를 사용하여 태아 분획의 하나 이상의 값을 계산하는 단계를 추가로 포함한다.

일부 실시형태에서, 방법은 참조 게놈의 빈에 대한 커버리지 정보를 사용하여 태아 분획의 하나 이상의 값을 계산하는 단계를 추가로 포함한다. 일부 실시형태에서, 태아 분획의 하나 이상의 값은 성 염색체의 빈에 대한 커버리지 정보를 사용하여 계산된 태아 분획의 값을 포함한다. 일부 실시형태에서, 모노소미 X, 트리소미 X, 트리소미 13, 트리소미 18 또는 트리소미 21에 대한 가능도비가 계산된다.

일부 실시형태에서, (d) 및/또는 (e)는 (i) 빈에 정렬되는 서열 태그의 수를 결정하고, (ii) 카피수 변이 이외의 요인으로 인한 빈 간의 변이를 감정함으로써 빈에 정렬하는 서열 태그의 수를 정규화하는 것을 포함한다. 일부 실시형태에서, 서열 태그의 수의 정규화는 샘플의 GC 함량에 대한 정규화, 트레이닝 세트의 변이의 전체 웨이브 프로파일에 대한 정규화 및/또는 주성분 분석으로부터 획득된 1종 이상의 성분에 대한 정규화를 포함한다.

일부 실시형태에서, (f)는 각 빈에 대해: (i) 빈 내의 무세포계 핵산 단편의 크기로부터 크기 매개변수의 값을 결정하고, (ii) 카피수 변이 이외의 요인으로 인한 빈 간의 변이를 감정하여 상기 크기 매개변수의 값을 정규화함으로써 빈에 대한 크기 매개변수의 값을 계산하는 것을 포함한다.

본 발명의 또 다른 측면은 검사 샘플에서 관심대상의 핵산 서열의 카피수를 평가하기 위한 시스템에 관한 것으로, 상기 시스템은 검사 샘플로부터 핵산 단편을 수취하고 검사 샘플의 핵산 서열 정보를 제공하기 위한 시퀀서; 프로세서; 및 상기 프로세서에서의 실행을 위한 명령이 그 안에 저장된 하나 이상의 컴퓨터-판독가능한 저장 매체를 포함한다. 명령은 (a) 검사 샘플에서 무세포계 핵산 단편을 시퀀싱하여 획득된 서열 판독을 수취하고; (b) 무세포계 핵산 단편의 서열 판독을 정렬하거나 상기 서열 판독을 함유하는 단편을 관심대상의 서열을 포함하는 참조 게놈의 빈에 정렬하고, 이를 통해 검사 서열 태그를 제공하고, 상기 참조 게놈이 복수의 빈으로 분할되고; (c) 검사 샘플 중에 존재하는 무세포계 핵산 단편의 적어도 일부의 단편 크기를 결정하고; (d) 각 빈에 대해: (i) 빈에 정렬하는 서열 태그의 수를 결정하고, (ii) 카피수 변이 이외의 요인으로 인한 빈 간의 변이를 감정하여 상기 빈에 정렬하는 서열 태그의 수를 정규화함으로써 참조 게놈의 빈에 대한 서열 태그의 커버리지를 계산하도록 하는 명령을 포함한다. 방법은 또한 (e) 관심대상의 서열에서의 빈의 커버리지 및 관심대상의 서열에 대한 참조 영역에서의 빈의 커버리지를 사용하여 관심대상의 서열에 대한 t-통계량을 결정하고; (f) 상기 t-통계량으로부터 계산된 가능도비 및 무세포계 핵산 단편의 크기에 관한 정보를 사용하여 관심대상의 서열의 카피수 변이를 판정하도록 하는 것을 포함한다.

일부 실시형태에서, 시스템은 위에서 설명된 방법들 중 어느 하나를 수행하도록 구성된다.

본 발명의 추가 측면은 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행되는 경우, 컴퓨터 시스템이 상기 방법들 중 어느 하나를 실행하도록 하는 컴퓨터-실행가능한 명령이 그 안에 저장된 하나 이상의 비일시적인 컴퓨터-판독가능한 저장 매체를 포함하는 컴퓨터 프로그램 제품에 관한 것이다.

본 명세서의 예들이 인간에 관한 것이고 언어가 주로 인간 관계사항을 지향하고 있지만, 본 명세서에서 설명되는 개념은 어떠한 식물 또는 동물의 게놈에도 적용가능하다. 본 발명의 상기 및 기타 목적들과 특징들은 다음의 설명 및 첨부된 청구범위로부터 더욱 충분히 명백해지거나 앞서 제시된 본 발명의 실시에 의해 알게 될 것이다.

참조에 의한 도입

본 명세서에서 언급되는 이들 참고 문헌에 개시된 모든 서열을 포함하는 모든 특허, 특허 출원 및 기타 간행물은 마치 각각 개개의 간행물, 특허 또는 특허 출원이 참조로 도입되어 있다는 것을 구체적이고 개별적으로 표시된 것과 동일한 정도로, 참조로 본 명세서에 명시적으로 도입된다. 관련 부분에서 인용되는 모든 문헌은 본 명세서에서 그 인용의 문맥에 의해 나타나는 목적을 위해 참조로 그 전체가 본 명세서에 포함된다. 그러나 어떠한 문서의 인용이라도 그것이 본 발명에 대한 선행 기술이라는 승인으로서 해석되어야 하는 것은 아니다.

도 1은 핵산의 혼합물을 포함하는 검사 샘플에서 카피수 변이의 존재 유무를 판정하기 위한 방법 100의 흐름도이다.
도 2a는 페어드 엔드 시퀀싱이 단편 크기와 서열 커버리지 둘 다를 결정하기 위해 어떻게 사용될 수 있는가를 주제별로 예시한다.
도 2b는 검사 샘플에서 관심대상의 핵산 서열의 카피수 변이를 판정하기 위해 크기-기반 커버리지를 사용하는 프로세스의 흐름도를 도시한다.
도 2c는 카피수 평가를 위해 사용된 관심대상의 핵산 서열에 대한 단편 크기 매개변수를 결정하기 위한 프로세스의 흐름도를 도시한다.
도 2d는 작업 흐름의 2가지 중복 패스(pass)의 흐름도를 도시한다.
도 2e는 카피수 평가를 위한 3-패스 프로세스의 흐름도를 도시한다.
도 2f는 카피수 분석에 t-통계량을 적용하여 분석의 정확도를 향상시키는 실시형태를 도시한다.
도 2g는 본 발명의 일부 실시형태에 따라 커버리지 정보로부터 태아 분획을 결정하기 위한 예시적 프로세스를 도시한다.
도 2h는 일부 실시형태에 따라 크기 분포 정보로부터 태아 분획을 결정하기 위한 프로세스를 도시한다.
도 2i는 본 발명의 일부 실시형태에 따라 8량체 빈도 정보로부터 태아 분획을 결정하기 위한 예시적 프로세스를 도시한다.
도 2j는 태아 분획 추정치를 획득하기 위해 사용될 수 있는 서열 판독 정보를 처리하기 위한 작업 흐름을 도시한다.
도 3a는 검사 샘플로부터 서열 데이터의 노이즈를 감소시키기 위한 프로세스의 일례의 흐름도를 도시한다.
도 3b 내지 도 3k는 도 3a에 묘사된 프로세스의 다양한 단계에서 획득된 데이터의 분석을 제시한다.
도 4a는 서열 데이터의 노이즈를 감소시키기 위한 서열 마스크를 창출하기 위한 프로세스의 흐름도를 도시한다.
도 4b는 MapQ 점수가 정규화된 커버리지 분량의 CV와 강한 단조 상관관계를 가진다는 것을 도시한다.
도 5는 검사 샘플을 가공하고 최종적으로 진단하기 위한 분산 시스템의 블록다이어그램이다.
도 6은 검사 샘플을 가공함에 있어서 상이한 작업들이 어떻게 그룹화되어 시스템의 상이한 요소에 의해 취급될 수 있는지를 개략적으로 예시한다.
도 7a 및 7b는 실시예 1a에 설명된 단순화된 프로토콜(도 7a) 및 실시예 1b에 설명된 프로토콜(도 7b)에 따라 제조된 cfDNA 시퀀싱 라이브러리의 전기영동도를 도시한다.
도 8은 표준 실험실 작업 흐름과 비교한 신규 버젼의 NIPT에 대한 전반적 작업 흐름 및 시간표를 도시한다.
도 9는 높은 전환 효율과 함께, 라이브러리 농도와 입력 농도의 강력한 선형 상관관계를 나타내는 입력 추출된 cfDNA의 함수로서의 시퀀싱 라이브러리 수율을 도시한다.
도 10은 남성 태아를 가진 임산부 유래의 324개 샘플로부터 측정된 cfDNA 단편 크기 분포를 도시한다.
도 11은 150 bp 미만의 페어드 엔드 판독으로부터의 카운트(count)와 비교한 매핑된 페어드 엔드 판독의 총 카운트로부터의 상대적 태아 분획을 도시한다.
도 12는 (A) 모든 단편의 카운트; (B) 오로지 짧은 단편(<150bp)의 카운트만; (C) 짧은 단편의 분획(80 내지 150bp의 카운트/카운트 <250bp); (D) (B)로부터의 t-통계량과 (C)로부터의 t-통계량의 조합; 및 (E) 16M 카운트/샘플의 평균과 함께 Illumina Redwood City CLIA 실험실 프로세스를 사용하여 획득된 동일한 샘플의 결과에 대한 트리소미 21 샘플의 검출을 위한 t-통계량 이수성 점수의 조합을 도시한다.
도 13은 선택된 빈으로부터 추정된 태아 분획 대 X 염색체에 대한 정규화된 염색체 값(REF)으로 측정된 태아 분획을 도시한다. 세트 1은 태아 분획 값을 보정하기 위해 사용되었고 독립적 세트 2는 상관관계를 검사하기 위해 사용되었다.

정의

다르게 나타내지 않는 한, 본 명세서에서 개시되는 방법 및 시스템의 실시는 본 기술 분야의 기술 범위 내이며, 분자 생물학, 미생물학, 단백질 정제, 단백질 공학, 단백질 및 DNA 시퀀싱, 및 재조합 DNA 분야에서 일반적으로 사용되는 종래의 기술 및 장치를 포함한다. 이러한 기술 및 장치는 당업자에게 공지되어 있으며, 또한 수많은 교재 및 참고 서적에 기재되어 있다(예를 들어, 문헌[Sambrook et al., "Molecular Cloning: A Laboratory Manual," Third Edition (Cold Spring Harbor), [2001]); and Ausubel et al., "Current Protocols in Molecular Biology" [1987]]을 참조한다).

수치 범위는 범위를 규정하는 숫자를 포함한다. 본 명세서를 통해 주어지는 모든 최대 수치 한정은 모든 더 낮은 수치 한정을 마치 이러한 낮은 수치 한정이 본 명세서에서 명시적으로 언급되어 있는 것처럼 포함하는 것이 의도된다. 본 명세서를 통해 주어지는 모든 최소 수치 한정은 모든 더 높은 수치 한정을 마치 이러한 더 높은 수치 한정이 본 명세서에서 명시적으로 언급되어 있는 것처럼 포함한다. 본 명세서를 통해 주어지는 모든 수치 범위는 이러한 더 넓은 수치 범위 내에 포함되는 모든 더 좁은 수치 범위를 마치 이러한 더 좁은 수치 범위가 모두 본 명세서에서 명시적으로 언급되어 있는 것처럼 포함한다.

본 명세서에서 제공되는 표제는 본 발명을 한정하고자 의도하는 것이 아니다.

본 명세서에서 다르게 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술적 및 과학적 용어는 당업자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 본 명세서에서 포함된 용어를 포함한 다양한 과학 사전은 당업자에게 주지이며 또한 이용 가능하다. 본 명세서에 기재되어 있는 것과 유사하거나 동등한 임의의 방법 및 재료는 본 명세서에서 개시되는 형태의 실시 또는 검사에서 유용하지만, 일부 방법 및 재료를 기재한다.

바로 아래에서 정의되는 용어는 본 명세서를 전체로서 참조하여 보다 충분히 기재된다. 본 발명은 설명된 특정의 방법론, 프로토콜 및 시약에 한정되지 않는 것으로 이해되어야 한다, 왜냐하면 이들은 당업자에 의해 사용되는 상황에 따라 변동할 수 있기 때문이다. 본 명세서에서 사용하는 경우, 단수형(원문의 "a", "an" 및 "the")의 용어는 문맥상 분명히 다르게 표시되지 않는 한 복수형의 지시 대상 (reference)을 포함한다.

다르게 표시되지 않는 한, 핵산은 각각 5'에서 3'방향으로 왼쪽에서 오른쪽으로 기록되며, 아미노산 서열은 아미노에서 카르복시 방향으로 왼쪽에서 오른쪽으로 기록된다.

본 명세서에서 "매개변수"라는 용어는 그 값 또는 기타 특징이 카피수 변이와 같은 관련 상태에 영향을 주는 물리적 특징을 나타내기 위해 사용된다. 일부의 경우에, 매개변수라는 용어는 수학적 관계 또는 모델의 출력값에 영향을 미치는 변수에 대하여 사용되며, 여기서 변수는 독립 변수(즉, 모델에 대한 입력)이거나 1종 이상의 독립 변수에 근거한 중간 변수일 수 있다. 모델의 범위에 따라서, 한 모델의 출력값은 또 다른 모델의 입력값이 되어 다른 모델에 대한 매개변수가 될 수 있다.

"단편 크기 매개변수"라는 용어는 단편, 또는 핵산 단편; 예를 들어, 체액으로부터 획득된 cfDNA 단편과 같은 단편들의 수집물의 크기 또는 길이와 관련되는 매개변수를 가르킨다. 본 명세서에서 사용되는 매개변수는 1) 매개변수가 단편 크기 또는 크기 범위에 대해 순조롭게 가중되는 경우, 예를 들어, 다른 크기 또는 크기 범위보다 그 크기 또는 크기 범위와 관련될 때 더 심하게 가중된 카운트; 또는 2) 매개변수가 단편 크기 또는 크기 범위에 대해 순조롭게 가중되는 값으로부터 획득되는 경우, 예를 들어, 그 크기 또는 크기 범위의 단편과 관련될 때 더 심하게 가중된 카운트로부터 획득된 비율의 경우에 "단편 크기 또는 크기 범위쪽으로 편향"된다. 단편 크기 또는 크기 범위는, 게놈이 다른 게놈 또는 동일 게놈의 다른 부분 유래의 핵산 단편에 비해서 그 크기 또는 크기 범위가 농축되었거나 더 높은 농도를 갖는 핵산 단편을 생성하는 경우 상기 게놈 또는 그의 일부분의 특징이 될 수 있다.

"가중하다"이라는 용어는 "가중치"로서 고려되는 하나 이상의 값 또는 함수를 사용하여 매개변수 또는 변수와 같은 분량을 변경하는 것을 가리킨다. 특정의 구체예에서, 매개변수 또는 변수는 가중치가 곱해진다. 다른 구체예에서, 매개변수 또는 변수는 기하급수적으로 변경된다. 일부 구체예에서, 함수는 선형 또는 비선형 함수일 수 있다. 적용가능한 비선형 함수의 예에는 헤비사이드 계단 함수(Heaviside step function), 박스카 함수(box-car function), 계단 함수(stair-case function) 또는시그모이드 함수(sigmoidal function)가 포함되지만, 그들로 한정되는 것은 아니다. 원래의 매개변수 또는 변수를 가중하는 것은 가중된 변수의 값을 체계적으로 증가 또는 감소시킬 수 있다. 다양한 구체예에서, 가중은 양(+)의, 음(-)이 아닌 또는 음(-)의 값을 초래할 수 있다.

본 명세서에서 "카피수 변이"라는 용어는 참조 샘플 중에 존재하는 핵산 서열의 카피수와 비교하여 검사 샘플 중에 존재하는 핵산 서열의 카피수의 변화를 가리킨다. 특정의 구체예에서, 핵산 서열은 1kb이거나 이보다 크다. 일부의 경우에, 핵산 서열은 염색체의 전체 또는 그의 상당 부분이다. "카피수 변종"은 검사 샘플 중의 관심대상의 핵산 서열을 상기 관심대상의 핵산 서열의 예상 수준과 비교하여 카피수 차이가 발견되는 핵산의 서열을 가리킨다. 예를 들어, 검사 샘플 중의 관심대상의 핵산 서열의 수준을 적격 샘플 중에 존재하는 수준과 비교한다. 카피수 변종/변이는 미세결실을 포함한 결실, 미소삽입을 포함한 삽입, 중복, 증배 및 전좌를 포함한다. CNV는 염색체 이수성 및 부분적 이수성을 포함한다.

본 명세서에서 "이수성"이라는 용어는 염색체 전체 또는 염색체의 일부의 손실 또는 증대에 의한 유전 물질의 불균형을 가리킨다.

본 명세서에서 "염색체 이수성" 및 "완전한 염색체 이수성"이라는 용어는 염색체 전체의 손실 또는 증대에 의한 유전 물질의 불균형을 가르키며, 생식세포 이수성과 모자이크 이수성을 포함한다.

본 명세서에서 "부분적 이수성" 및 "부분적 염색체 이수성"이라는 용어는 염색체의 일부의 손실 또는 증대, 예를 들어 부분적 모노소미 및 부분적 트리소미에 의한 유전 물질의 불균형을 가르키며, 전좌, 결실 및 삽입에 의해 발생하는 불균형을 포함한다.

"복수"라는 용어는 하나를 상회하는 요소를 가리킨다. 예를 들어, 상기 용어는 본 명세서에서 개시되는 방법을 이용하여 검사 샘플 및 적격 샘플에서 카피수 변이의 유의한 차이를 동정하기에 충분한 다수의 핵산 분자 또는 서열 태그에 관하여 본 명세서에서 사용된다. 일부 구체예에서, 각 검사 샘플에 대해 약 20bp 내지 40bp의 적어도 약 3 × 10⁶개 서열 태그가 획득된다. 일부 구체예에서, 각 검사 샘플은 적어도 약 5 × 10⁶개, 8 × 10⁶개, 10 × 10⁶개, 15 × 10⁶개, 20 × 10⁶개, 30 × 10⁶개, 40 × 10⁶개 또는 50 × 10⁶개의 서열 태그에 대한 데이터를 제공하며, 각 서열 태그는 약 20bp 내지 40bp를 포함한다.

"페어드 엔드 판독(paired end read)"이라는 용어는 핵산 단편의 각 말단으로부터 하나의 판독을 획득하는 페어드 엔드 시퀀싱으로부터의 판독을 가리킨다. 페어드 엔드 시퀀싱은 폴리뉴클레오티드의 가닥을 인서트(insert)라 지칭되는 짧은 서열로 단편화하는 것을 수반할 수 있다. 단편화는 무세포계 DNA 분자와 같은 비교적 짧은 폴리뉴클레오티드에는 선택적이거나 불필요하다.

"폴리뉴클레오티드", "핵산" 및 "핵산 분자"라는 용어는 서로 교환가능하게 사용되며, 1개의 뉴클레오티드의 펜토오스의 3' 부분이 다음의 뉴클레오티드의 펜토오스의 5' 부분에 포스포디에스테르기를 통해 접합하고 있는 공유결합으로 연결된 뉴클레오티드의 서열(즉, RNA의 경우 리보뉴클레오티드 및 DNA의 경우 디옥시리보뉴클레오티드)를 가리킨다. 뉴클레오티드는 cfDNA 분자 등의 RNA와 DNA 분자를 포함하지만 그들로 한정되지 않는 임의의 형태의 핵산 서열을 포함한다. "폴리뉴클레오티드"라는 용어는 단일가닥 및 이중가닥 폴리뉴클레오티드를 포함하지만, 그들로 한정되는 것은 아니다.

본 명세서에서 "검사 샘플"이라는 용어는 일반적으로 카피수 변이에 대해 선별검사하는 대상이 되는 적어도 1종의 핵산 서열을 포함하는 핵산 또는 핵산의 혼합물을 포함하는, 생물학적 유체, 세포, 조직, 장기 또는 유기체로부터 유래된 샘플을 가리킨다. 특정의 구체예에서, 샘플은, 그의 카피수가 변이를 겪은 것으로 의심되는 적어도 1종의 핵산 서열을 포함한다. 이러한 샘플은 가래/구강 액, 양수, 혈액, 혈액 분획 또는 미세 바늘 생검 샘플(예를 들어, 외과적 생검, 미세 바늘 생검 등), 소변, 복수, 흉수 등을 포함하지만, 그들로 한정되는 것은 아니다. 샘플은 종종 인간 대상체(예를 들어, 환자)로부터 채취되지만, 개, 고양이, 말, 염소, 양, 소, 돼지 등을 포함하지만 그들로 한정되지 않는 모든 포유류 유래의 샘플에서의 카피수 변이(CNV)에 대한 분석이 이용될 수 있다. 샘플은 생물학적 공급원으로부터 얻은 것과 같이 직접적으로 사용될 수 있거나 샘플의 특성을 변경하는 전처리 후에 사용될 수 있다. 예를 들어, 이러한 전처리에는 혈액으로부터 혈장을 제조하는 것, 점성 유체를 희석하는 것 등이 포함될 수 있다. 전처리 방법은 또한 여과, 침전, 희석, 증류, 혼합, 원심분리, 동결, 동결건조, 농축, 증폭, 핵산 단편화, 간섭 성분의 불활성화, 시약 첨가, 용해 등을 수반하지만, 그들로 한정되는 것은 아니다. 이러한 전처리 방법이 샘플에 대하여 이용되는 경우, 이러한 전처리 방법은 일반적으로, 때로는 미처리된 검사 샘플(예를 들어, 즉 임의의 이러한 전처리 방법(들)에 제공되지 않는 샘플) 중의 농도에 비례한 농도에서 관심대상의 핵산(들)이 검사 샘플 중에 체류하도록 하는 것이다. 이러한 "처리된" 또는 "가공된" 샘플은 본 명세서에서 설명되는 방법에 대하여 여전히 생물학적 "검사" 샘플로서 간주된다.

본 명세서에서 "적격 샘플" 또는 "영향을 받지 않은 샘플"이라는 용어는 검사 샘플 중의 핵산이 비교되는 대상이 되는 공지의 카피수로 존재하는 핵산의 혼합물을 포함하는 샘플을 가리키며, 그것은 관심대상의 핵산 서열에 대해 정상적인, 즉 이수성이 아닌 샘플이다. 일부 구체예에서, 적격 샘플은 서열 마스크 또는 서열 프로파일을 도출하기 위해 트레이닝 세트의 영향을 받지 않은 샘플로서 사용된다. 특정의 구체예에서, 적격 샘플은 고려 중인 염색체에 대한 1종 이상의 정규화 염색체 또는 세그먼트를 동정하기 위해 사용된다. 예를 들어, 적격 샘플은 21번 염색체에 대한 정규화 염색체를 동정하기 위해 사용될 수 있다. 이러한 경우에, 적격 샘플은 트리소미 21 샘플이 아닌 샘플이다. 또 다른 예는 X 염색체에 대한 적격 샘플로서 여성 샘플만을 사용하는 것을 포함한다. 적격 샘플은 또한 영향을 받은 샘플을 호출(calling)하기 위한 임계값의 결정, 참조 서열상의 마스크 영역을 규정하기 위한 임계값의 동정, 게놈의 상이한 영역에 대한 예상 커버리지 분량의 결정 등과 같은 다른 목적을 위해 이용될 수도 있다.

본 명세서에서 "트레이닝 세트"라는 용어는, 영향을 받은 및/또는 영향을 받지 않은 샘플을 포함할 수 있고 검사 샘플을 분석하기 위한 모델을 개발하는 데 사용되는 트레이닝 샘플 세트를 가리킨다. 일부 구체예에서, 트레이닝 세트는 영향을 받지 않은 샘플을 포함한다. 이러한 구체예에서, CNV를 판정하기 위한 임계값은 관심대상의 카피수 변이에 대해 영향을 받지 않은 트레이닝 샘플 세트를 사용하여 확립된다. 트레이닝 세트의 영향을 받지 않은 샘플을 적격 샘플로서 사용하여 정규화 서열, 예를 들어, 정규화 염색체를 동정할 수 있고, 영향을 받지 않은 샘플의 염색체 양(dose)을 이용하여 관심대상의 서열, 예를 들어, 염색체 각각에 대한 임계값을 설정한다. 일부 구체예에서, 트레이닝 세트는 영향을 받은 샘플을 포함한다. 트레이닝 세트의 영향을 받은 샘플을 이용하여 영향을 받은 검사 샘플이 영향을 받지 않은 샘플과 쉽게 구별될 수 있음을 검증할 수 있다.

트레이닝 세트는 또한 관심대상 집단의 통계 샘플이며, 여기서 통계 샘플은 생물학적 샘플과 혼동해서는 안된다. 통계 샘플은 종종 다수의 개체를 포함하고, 이들 개체에 대한 데이터는 집단으로 일반화가능한 하나 이상의 관심대상의 정량값을 결정하기 위해 사용된다. 통계 샘플은 관심대상 집단의 개체의 부분집단이다. 개체는 인간, 동물, 조직, 세포, 다른 생물학적 샘플(즉, 통계 샘플은 다수의 생물학적 샘플을 포함할 수 있다) 및 통계 분석을 위한 데이터 포인트를 제공하는 다른 개별 실체일 수 있다

일반적으로, 트레이닝 세트는 검증 세트와 함께 사용된다. "검증 세트"라는 용어는 본 명세서에서 통계 샘플에서 개체의 세트를 가리키기 위해 사용되며, 이들 개체에 대한 데이터는 트레이닝 세트를 사용하여 결정된 관심대상의 정량값을 검증 또는 평가하기 위해 사용된다. 일부 구체예에서, 예를 들어, 트레이닝 세트는 참조 서열에 대한 마스크를 계산하기 위한 데이터를 제공하고, 반면에 검증 세트는 상기 마스크의 타당성 또는 유효성을 평가하기 위한 데이터를 제공한다.

"카피수의 평가"는 본 명세서에서 서열의 카피수와 관련된 유전자 서열의 상태의 통계적 평가에 사용된다. 예를 들어, 일부 구체예에서, 평가는 유전자 서열의 존재 여부에 대한 판정을 포함한다. 일부 구체예에서, 평가는 유전자 서열의 부분적 또는 완전한 이수성에 관한 판정을 포함한다. 다른 구체예에서, 평가는 유전자 서열의 카피수에 기반하여 2개 이상의 샘플 간의 구별을 포함한다. 일부 구체예에서, 평가는 유전자 서열의 카피수에 기반하는 통계 분석, 예를 들어 정규화 및 비교를 포함한다.

"적격 핵산"이라는 용어는 "적격 서열"과 서로 교환가능하게 사용되며, 그에 대해 관심대상의 서열 또는 핵산의 양이 비교되는 서열이다. 적격 서열은 바람직하게는 공지의 구성으로 생물학적 샘플 중에 존재하는 것으로, 즉 적격 서열의 양은 공지되어 있다. 일반적으로, 적격 서열은 "적격 샘플" 중에 존재하는 서열이다. "관심대상의 적격 서열"은 적격 샘플 중의 그의 양이 공지되어 있는 적격 서열이며, 대조 대상체와 의학적 상태를 갖는 개체 사이에 관심대상 서열의 차이와 관련되는 서열이다.

본 명세서에서 "관심대상의 서열" 또는 "관심대상의 핵산 서열"이라는 용어는 건강한 개체와 이환된 개체 사이의 서열 표현의 차이와 관련된 핵산 서열을 가리킨다. 관심대상의 서열은 질환 상태 또는 유전적 상태에서 잘못 표현되는, 즉 과잉 또는 과소 표현되는 염색체상의 서열일 수 있다. 관심대상의 서열은 염색체의 일부분, 즉 염색체 세그먼트 또는 염색체 전체일 수 있다. 예를 들어, 관심대상의 서열은 이수성 상태에서 과잉 표현되는 염색체 또는 암에서 과소 표현되는 종양-억제인자를 코딩하는 유전자일 수 있다. 관심대상의 서열은 대상체의 세포 집단 전체 또는 부분집단에서 과잉 또는 과소 표현되는 서열을 포함한다. "관심대상의 적격 서열"은 적격 샘플 중의 관심대상의 서열이다. "관심대상의 검사 서열"은 검사 샘플 중의 관심대상의 서열이다.

본 명세서에서 "정규화 서열"이라는 용어는 정규화 서열과 관련된 관심대상의 서열에 매핑된 서열 태그의 수를 정규화하기 위해 사용되는 서열을 가리킨다. 일부 구체예에서, 정규화 서열은 견고한 염색체를 포함한다. "견고한 염색체"는 이수성일 가능성이 낮은 염색체이다. 인간 염색체를 수반하는 일부의 경우에, 견고한 염색체는 X 염색체, Y 염색체, 13번 염색체, 18번 염색체 및 21번 염색체 외의 임의의 염색체이다. 일부 구체예에서, 정규화 서열은 그것이 정규화 매개변수로서 사용되는 관심대상 서열의 가변성에 근사하는, 샘플들 및 시퀀싱 실행들 간에 이 정규화 서열에 매핑되는 서열 태그의 수의 가변성을 나타낸다. 정규화 서열은 영향을 받은 샘플과 하나 이상의 영향을 받지 않은 샘플을 식별할 수 있다. 일부 구체예에서, 정규화 서열은 다른 염색체와 같은 다른 잠재적 정규화 서열과 비교했을 때 영향을 받은 샘플과 하나 이상의 영향을 받지 않은 샘플을 최상으로 또는 효과적으로 식별한다. 일부 구체예에서, 정규화 서열의 가변성은 샘플 및 시퀀싱 실행에 걸쳐 관심대상의 서열에 대한 염색체 양의 가변성으로서 계산된다. 일부 구체예에서, 정규화 서열은 영향을 받지 않은 샘플 세트에서 동정된다.

"정규화 염색체", "정규화 분모 염색체" 또는 "정규화 염색체 서열"은 "정규화 서열"의 일례이다. "정규화 염색체 서열"은 단일 염색체 또는 일군의 염색체로 구성될 수 있다. 일부 구체예에서, 정규화 서열은 2종 이상의 견고한 염색체를 포함한다. 특정의 구체예에서, 견고한 염색체는 X 염색체, Y 염색체, 13번 염색체, 18번 염색체 및 21번 염색체 이외의 모든 상염색체이다. "정규화 세그먼트"는 "정규화 서열"의 또 다른 예이다. "정규화 세그먼트 서열"은 염색체의 단일 세그먼트로 구성될 수 있거나 동일한 또는 상이한 염색체의 2종 이상의 세그먼트로 구성될 수 있다. 특정의 구체예에서, 정규화 서열은 과정-관련된, 염색체들 간(실행 내) 및 시퀀싱들 간(실행 간)의 가변성과 같은 가변성에 대해 정규화하는 것으로 의도된다.

본 명세서에서 "식별능"이라는 용어는 1개 이상의 향을 받지 않은 샘플, 즉 정상적인 샘플을 1개 이상의 영향을 받은 샘플, 즉 이수성 샘플과 구별하는 것을 가능하게 하는 정규화 염색체의 특징을 가리킨다. 최대의 "식별능"을 나타내는 정규화 염색체는 적격 샘플 세트 중의 관심대상의 염색체에 대한 염색체 양과 1개 이상의 영향을 받은 샘플 중의 대응하는 염색체에서의 관심대상의 동일한 염색체에 대한 염색체 양의 분포 간에 최대의 통계적 차이를 제공하는 염색체 또는 염색체의 군이다.

본 명세서에서 "가변성"이라는 용어는 1개 이상의 영향을 받지 않은 샘플, 즉 정상적인 샘플을 1개 이상의 영향을 받은 샘플, 즉 이수성 샘플과 구별하는 것을 가능하게 하는 정규화 염색체의 다른 특징을 가리킨다. 적격 샘플 세트에서 측정되는 정규화 염색체의 가변성은 그것이 정규화 매개변수로서 작용하는 관심대상의 염색체에 매핑되는 서열 태그의 수의 가변성에 근사하는, 이 정규화 염색체에 매핑되는 서열 태그의 수의 가변성을 가리킨다.

본 명세서에서 "서열 태그 밀도"라는 용어는 참조 게놈 서열에 매핑되는 서열 판독의 수를 가리키며, 예를 들어 21번 염색체에 대한 서열 태그 밀도는 참조 게놈의 21번 염색체에 매핑되는, 시퀀싱 방법에 의해 생성된 서열 판독의 수이다.

본 명세서에서 "서열 태그 밀도 비율"이라는 용어는 참조 게놈의 염색체, 예를 들어, 21번 염색체에 매핑되는 서열 태그의 수 대 참조 게놈 염색체의 길이의 비율을 말한다.

본 명세서에서 "서열 양(sequence dose)"은 관심대상의 서열에 대해 동정된 서열 태그의 수 또는 다른 매개변수와 정규화 서열에 대해 동정된 서열 태그의 수 또는 다른 매개변수를 관련시키는 매개변수를 지칭한다. 일부의 경우에, 서열 양은 관심대상의 서열에 대한 서열 태그 커버리지 또는 다른 매개변수 대 정규화 서열에 대한 서열 태그 커버리지 또는 다른 매개변수의 비율이다. 일부의 경우에, 서열 양은 관심대상의 서열의 서열 태그 밀도를 정규화 서열의 서열 태그 밀도에 관련시키는 매개변수를 가리킨다. "검사 서열 양"은 관심대상의 서열, 예를 들어, 21번 염색체의 서열 태그 밀도 또는 다른 매개변수를 검사 샘플에서 결정된 정규화 서열, 예를 들어, 9번 염색체의 서열 태그 밀도에 관련시키는 매개변수이다. 유사하게, "적격 서열 양"은 관심대상의 서열의 서열 태그 밀도 또는 다른 매개변수를 적격 샘플에서 결정된 정규화 서열의 서열 태그 밀도 또는 다른 매개변수에 관련시키는 매개변수이다.

"커버리지(coverage)"라는 용어는 규정된 서열에 매핑된 서열 태그의 존재비를 가리킨다. 커버리지는 서열 태그 밀도(또는 서열 태그의 카운트), 서열 태그 밀도 비율, 정규화된 커버리지 양, 조정된 커버리지 값 등에 의해 정량적으로 표시될 수 있다.

"커버리지 분량"이라는 용어는 미가공 커버리지의 변형어이며, 종종 빈과 같은 게놈의 영역 내의 서열 태그의 상대량(때때로 카운트로서 지칭됨)을 나타낸다. 커버리지 분량은 게놈의 영역에 대한 미가공 커버리지 또는 카운트를 정규화, 조정 및/또는 보정함으로써 획득될 수 있다. 예를 들어, 영역에 대한 정규화된 커버리지 분량은 영역에 매핑된 서열 태그 카운트를 게놈 전체에 매핑된 서열 태그의 총수로 나눔으로써 획득될 수 있다. 정규화된 커버리지 분량은 상이한 샘플에 걸쳐 빈의 커버리지 비교를 가능하게 하며, 이는 시퀀싱의 상이한 깊이(depth)를 가질 수 있다. 그것은 서열 양이 일반적으로 게놈 전체의 부분집단에 매핑된 태그 카운트로 나눔으로써 획득된다는 점에서 서열 양과 상이하다. 부분집단은 1종 이상의 정규화 세그먼트 또는 염색체이다. 커버리지 분량은 정규화되었는 지의 여부에 상관없이, 게놈상의 영역 간의 전체 프로파일 변이, G-C 분율 변이, 견고한 염색체의 이상점 등에 대해 보정될 수 있다.

본 명세서에서 "차세대 시퀀싱(NGS)"이라는 용어는 클론적으로 증폭된 분자 및 단일 핵산 분자의 대규모 병렬 시퀀싱을 가능하게 하는 시퀀싱 방법을 가리킨다. NGS의 비제한적인 예에는 가역적 염료 터미네이터를 이용한 합성에 의한 시퀀싱 및 라이게이션에 의한 시퀀싱이 포함된다.

본 명세서에서 "매개변수"라는 용어는 시스템의 특성을 특징짓는 수치를 말한다. 종종 매개변수는 정량적 데이터 세트 및/또는 정량적 데이터 세트들 간의 수치적 관계를 수치적으로 특징짓는다. 예를 들어, 염색체에 매핑된 서열 태그의 수와 이 태그가 매핑되는 염색체의 길이 간의 비율(또는 비율의 함수)이 매개변수이다.

본 명세서에서 "임계값" 및 "적격 임계값"이라는 용어는 의학적 상태를 갖는 것으로 의심되는 유기체 유래의 핵산을 함유하는 검사 샘플 등의 샘플을 특징짓는 컷오프로서 사용되는 임의의 수를 가리킨다. 임계값을 매개변수 값과 비교하여, 이러한 매개변수 값을 야기하는 샘플은 유기체가 의학적 상태를 가진다는 것을 시사하는 지의 여부를 판정할 수 있다. 특정의 구체예에서, 적격 임계값은 적격 데이터 세트를 사용하여 계산되고, 또한 유기체의 카피수 변이, 예를 들어, 이수성의 진단 경계로서 작용한다. 본 명세서에서 개시되는 방법에서 얻은 결과가 임계값을 초과하면, 대상체는 카피수 변이, 예를 들어, 트리소미 21을 갖는 것으로 진단될 수 있다. 본 명세서에서 설명되는 방법에 적절한 임계값은 샘플의 트레이닝 세트에 대해 계산된 정규화 값(예를 들어, 염색체 양, NCV 또는 NSV)을 분석함으로써 동정될 수 있다. 임계값은 적격(즉, 영향을 받지 않은) 샘플과 영향을 받은 샘플 둘 다를 포함하는 트레이닝 세트에서 적격(즉, 영향을 받지 않는) 샘플을 이용하여 동정될 수 있다. 염색체 이수성을 갖는 것으로 알려진 트레이닝 세트의 샘플(즉, 영향을 받은 샘플)을 이용하여, 선정된 임계값이 검사 세트에서 영향을 받은 샘플과 영향을 받지 않는 샘플을 식별하는 데 유용하다는 것을 확인할 수 있다(본 명세서의 실시예를 참조한다). 임계값의 선정은 사용자가 분류를 수행해야 한다고 원하는 신뢰성 수준에 의존한다. 일부 구체예에서, 적절한 임계값을 동정하기 위해 사용되는 트레이닝 세트는 적어도 10개, 적어도 20개, 적어도 30개, 적어도 40개, 적어도 50개, 적어도 60개, 적어도 70개, 적어도 80개, 적어도 90개, 적어도 100개, 적어도 200개, 적어도 300개, 적어도 400개, 적어도 500개, 적어도 600개, 적어도 700개, 적어도 800개, 적어도 900개, 적어도 1000개, 적어도 2000개, 적어도 3000개, 적어도 4000개 또는 그것을 초과하는 수의 적격 샘플을 포함한다. 임계값의 진단 유용성을 향상시키기 위해 적격 샘플의 더 큰 세트를 이용하는 것이 유리할 수 있다.

"빈(bin)"이라는 용어는 서열의 세그먼트 또는 게놈의 세그먼트를 가리킨다. 일부 구체예에서, 빈은 게놈 또는 염색체 내에서 서로 인접해 있다. 각각의 빈은 참조 게놈에서 뉴클레오티드 서열을 규정할 수 있다. 빈의 크기는 특정한 용도에 의해 요구되는 분석 및 서열 태그 밀도에 따라서 1 kb, 100 kb, 1Mb 등일 수 있다. 참조 서열 내의 그들의 위치 이외에, 빈은 샘플 커버리지 및 G-C 분율 등의 서열 구조 특징과 같은 기타 특징을 가질 수 있다.

"마스킹 임계값"이라는 용어는 본 명세서에서 그에 대해 서열 빈 내의 서열 태그의 수에 근거한 값이 비교되는 분량을 가리키는 데 사용되며, 마스킹 임계값을 초과하는 값을 갖는 빈이 마스킹된다. 일부 구체예에서, 마스킹 임계값은 백분위 순위, 절대 카운트, 매핑 정확도 점수(mapping quality score) 또는 다른 적절한 값일 수 있다. 일부 구체예에서, 마스킹 임계값은 다수의 영향을 받지 않은 샘플에 걸친 변동계수의 백분위 순위로서 규정될 수 있다. 다른 구체예에서, 마스킹 임계값은 서열 판독을 참조 게놈에 정렬시키는 것의 신뢰성과 관련되는 매핑 정확도 점수, 예를 들어, MapQ 점수로서 규정될 수 있다. 마스킹 임계값은 카피수 변이(CNV) 임계값과 상이하고, 후자는 CNV와 관련된 의학적 상태를 갖는 것으로 의심되는 유기체 유래의 핵산을 함유하는 샘플을 특징짓는 컷오프임을 주지한다. 일부 구체예에서, CNV 임계값은 본 명세서의 다른 부분에서 설명된 정규화된 염색체 값(NCV) 또는 정규화된 세그먼트 값(NSV)에 상대적으로 정의된다.

본 명세서에서 "정규화된 값"이라는 용어는 관심대상의 서열(예를 들어, 염색체 또는 염색체 세그먼트)에 대해 동정된 서열 태그의 수를 정규화 서열(예를 들어, 정규화 염색체 또는 정규화 염색체 세그먼트)에 대해 동정된 서열 태그의 수에 관련시키는 수치를 가리킨다. 예를 들어, "정규화된 값"은 본 명세서의 다른 부분에서 설명된 염색체 양일 수 있거나, NCV일 수 있거나, 본 명세서의 다른 부분에서 설명된 NSV일 수 있다.

"판독(read)"이라는 용어는 핵산 샘플의 일부분으로부터 얻어진 서열을 가리킨다. 반드시 그런 것은 아니지만, 일반적으로 판독은 샘플 중의 연속적인 염기쌍의 짧은 서열을 나타낸다. 판독은 샘플 부분의 염기쌍 서열에 의해 기호(A, T, C 또는 G)로 표현될 수 있다. 그것을 메모리 장치에 저장하고 필요에 따라 가공하여 그것이 참조 서열과 매치(match)하는 지의 여부 또는 다른 기준을 충족하는 지의 여부를 판정할 수 있다. 판독은 시퀀싱 장치로부터 직접적으로 또는 샘플에 관한 저장된 서열 정보로부터 간접적으로 획득될 수 있다. 일부의 경우에, 판독은 더 큰 서열 또는 영역을 동정하는 데 사용될 수 있는, 예를 들어, 염색체 또는 게놈 영역 또는 유전자에 정렬되어 이에 특이적으로 할당될 수 있는 충분한 길이(예를 들어, 적어도 약 25bp)의 DNA 서열이다.

"게놈 판독"이라는 용어는 개체의 게놈 전체의 임의의 세그먼트의 판독을 가리키는 데 사용된다.

본 명세서에서 "서열 태그"라는 용어는 "매핑된 서열 태그"라는 용어와 서로 교환가능하게 사용되고, 정렬에 의해 더 큰 서열, 예를 들어, 참조 게놈에 특이적으로 할당된, 즉 매핑된 서열 판독을 가리킨다. 매핑된 서열 태그는 참조 게놈에 고유하게 매핑되는데, 즉 매핑된 서열 태그는 참조 게놈에 대해 단일 위치로 할당된다. 다르게 지정되지 않는 한, 참조 서열상의 동일한 서열에 매핑되는 태그는 1회 카운팅된다. 태그는 데이터 구조 또는 데이터의 다른 집합체로서 제공될 수 있다. 특정의 구체예에서, 태그는 판독 서열, 및 게놈 내의 서열 위치, 예를 들어, 염색체상의 위치와 같은 판독에 대한 관련 정보를 포함한다. 특정의 구체예에서, 위치는 양(+)의 가닥 방향에 대해 지정된다. 태그는 참조 게놈에 정렬될 때 미스매치(mismatch)의 한계량을 가능하게 하도록 규정될 수 있다. 일부 구체예에서, 참조 게놈상의 하나 초과의 위치에 매핑될 수 있는 태그, 즉 고유하게 매핑되지 않는 태그는 분석에 포함될 수 없다.

"비-중복 서열 태그"라는 용어는 일부 구체예에서 정규화된 염색체 값(NCV)을 결정할 목적으로 카운팅되는, 동일한 부위에 매핑되지 않는 서열 태그를 가리킨다. 때때로, 다수의 서열 판독이 참조 게놈상의 동일한 위치에 정렬되어 중복 또는 복제된 서열 태그가 산출된다. 일부 구체예에서, 동일한 위치에 매핑되는 복제 서열 태그는 NCV를 결정할 목적으로 누락되거나 하나의 "비-중복 서열 태그"로서 카운팅된다. 일부 구체예에서, 비-제외 부위에 정렬된 비-중복 서열 태그를 카운팅하여 NCV를 결정하기 위한 "비-제외 부위 카운트"(NES 카운트)를 산출한다.

"부위"라는 용어는 참조 게놈상의 고유한 위치(즉, 염색체 ID, 염색체 위치 및 방향)를 가리킨다. 일부 구체예에서, 부위는 서열상의 잔기, 서열 태그 또는 세그먼트의 위치를 제공할 수 있다.

"제외 부위"는 서열 태그를 카운트할 목적으로 제외된, 참조 게놈의 영역들에서 발견되는 부위이다. 일부 구체예에서, 제외 부위는 반복 서열을 함유하는 염색체의 영역, 예를 들어, 동원체와 말단소립, 및 1종 초과의 염색체에 공통적인 염색체의 영역, 예를 들어, Y 염색체상에 존재하고 또한 X 염색체상에도 존재하는 영역에서 발견된다.

"비-제외 부위"(NES)는 서열 태그를 카운트할 목적으로 참조 게놈에서 제외되지 않는 부위이다.

"비-제외 부위 카운트"(NES 카운트)는 참조 게놈상의 NES에 매핑되는 서열 태그의 수이다. 일부 구체예에서, NES 카운트는 NES에 매핑되는 비-중복 서열 태그의 수이다. 일부 구체예에서, 정규화된 커버리지 분량, 전체 프로파일 제거된 커버리지 분량 및 염색체 양과 같은 커버리지 및 관련 매개변수는 NES 카운트에 기반한다.일례에서, 염색체 양은 관심대상의 염색체에 대한 NES 카운트 대 정규화 염색체에 대한 카운트의 비율로서 계산된다.

정규화된 염색체 값(NCV)은 검사 샘플의 커버리지를 트레이닝/적격 샘플 세트의 커버리지에 관련시킨다. 일부 구체예에서, NCV는 염색체 양에 기반한다. 일부 구체예에서, NCV는 검사 샘플 중의 관심대상 염색체의 염색체 양과 적격 샘플 세트 중의 대응하는 염색체 양의 평균 간의 차이에 관한 것이며, 다음과 같이 계산될 수 있다:

상기 식에서,

및

는 각각 적격 샘플 세트에서의 j-번째 염색체 양에 대한 추정된 평균 및 표준 편차이고,

는 검사 샘플 i에 대한 관찰된 j-번째 염색체 비율(양)이다.

일부 구체예에서, NCV는 검사 샘플 중의 관심대상 염색체의 염색체 양을 동일한 플로우 셀 상에서 시퀀싱된 다중화된 샘플 중의 대응하는 염색체 양의 중앙값에 관련시킴으로써 다음과 같이 "즉시(on the fly)" 계산될 수 있다:

상기 식에서,

는 동일한 플로우 셀상에서 시퀀싱된 다중화된 샘플 세트에서의 j-번째 염색체 양에 대한 추정된 중앙값이고;

는 하나 이상의 플로우 셀상에서 시퀀싱된 하나 이상의 다중화된 샘플 세트에서의 j-번째 염색체 양에 대한 표준 편차이고;

는 검사 샘플 i에 대한 관찰된 j-번째 염색체 양이다. 이러한 구체예에서, 검사 샘플 i는

가 결정되는 동일한 플로우 셀상에서 시퀀싱된 다중화된 샘플들 중 하나이다.

예를 들어, 하나의 플로우 셀상의 64개의 다중화된 샘플들 중 하나로서 시퀀싱되는 검사 샘플 A에서의 관심대상 21번 염색체의 경우, 검사 샘플 A에서의 21번 염색체에 대한 NCV는, 샘플 A에서의 21번 염색체의 양 - 64개 다중화된 샘플에서 결정된 염색체 21에 대한 양의 중앙값/플로우 셀 1상의 또는 추가 플로우 셀의 64개 다중화된 샘플에 대해 결정된 21번 염색체에 대한 양의 표준 편차로서 계산된다.

본 명세서에서 사용되는 용어 "정렬된," "정렬," 또는 "정렬하는"은 판독 또는 태그를 참조 서열과 비교하고, 그에 따라 참조 서열이 판독 서열을 함유하는 지의 여부를 결정하는 과정을 가리킨다. 참조 서열이 판독을 함유한다면, 판독은 그 참조 서열에 매핑될 수 있거나, 특정의 구체예에, 그 참조 서열 내의 특정 위치에 매핑될 수 있다. 일부의 경우에, 정렬은 판독이 특정 참조 서열의 구성원인 지의 여부(즉, 판독이 참조 서열에 존재하거나 부재하는 지의 여부)를 단순히 말한다. 예를 들어, 13번 인간 염색체에 대한 참조 서열에의 판독의 정렬은 판독이 13번 염색체에 대한 참조 서열 내에 존재하는 지의 여부를 말할 것이다. 이러한 정보를 제공하는 툴은 세트 멤버십 검사기라고 불릴 수 있다. 일부의 경우에, 정렬은 판독 또는 태그가 매핑하는, 참조 서열 내의 위치를 부가적으로 나타낸다. 예를 들어, 참조 서열이 인간 게놈 서열 전체라면, 정렬은 판독이 13번 염색체상에 존재한다는 것을 나타낼 수 있고, 판독이 13번 염색체의 특정 가닥 및/또는 부위상에 있다는 것을 추가로 나타낼 수 있다.

정렬된 판독 또는 태그는 참조 게놈 유래의 공지의 서열에 대해 그의 핵산 분자의 순서라는 점에서 매치로서 동정되는 하나 이상의 서열이다. 정렬은 수동으로 이루어질 수 있지만, 본 명세서에서 개시되는 방법을 실시하기 위한 적절한 시간 내에 판독을 정렬하는 것은 불가능하기 때문에 정렬은 전형적으로 컴퓨터 알고리즘에 의해 실시된다. 서열을 정렬하는 것에 따른 알고리즘의 일례는, Illumina의 게놈 분석 파이프라인의 일부분으로서 배포된 뉴클레오티드 데이터의 효율적인 로컬 정렬 (Efficient Local Alignment of Nucleotide Data)(ELAND) 컴퓨터 프로그램이다. 대안적으로, 블룸 필터(Bloom filter) 또는 이와 유사한 세트 멤버쉽 검사기를 이용하여 판독을 참조 게놈에 정렬할 수 있다. 전체가 본 명세서에서 참조로 인용되는, 2011년 10월 27일에 제출된 미국 특허출원 제61/552,374호를 참조한다. 정렬할 때 서열 판독의 매치는 100%의 서열 매치 또는 100% 미만(불완전 매치)일 수 있다.

본 명세서에서 사용되는 "매핑"이라는 용어는 정렬에 의해 더 큰 서열, 예를 들어, 참조 게놈에 서열 판독을 특이적으로 할당하는 것을 말한다.

본 명세서에서 사용되는 "참조 게놈" 또는 "참조 서열"이라는 용어는 대상체 유래의 동정된 서열을 참조하는 데 이용될 수 있는 임의의 유기체 또는 바이러스의, 부분적인지 또는 완전한 지의 여부에 관계없는 임의의 특정한 공지된 게놈 서열을 가리킨다. 예를 들어, 인간 대상체뿐만 아니라 다른 많은 유기체에 사용되는 참조 게놈은 국립생물공학정보센터(National Center for Biotechnology Information)에서 ncbi.nlm.nih.gov.에서 찾아볼 수 있다. "게놈"은 핵산 서열에서 발현되는, 유기체 또는 바이러스의 완전한 유전 정보를 가리킨다.

다양한 구체예에서, 참조 서열은 그에 정렬되는 판독보다 훨씬 크다. 예를 들어, 참조 서열은 적어도 약 100배, 또는 적어도 약 1000배, 또는 적어도 약 10,000배, 또는 적어도 약 10⁵배, 또는 적어도 약 10⁶배, 또는 적어도 약 10⁷배 더 클 수 있다.

일례에서, 참조 서열은 전장 인간 게놈의 것이다. 이러한 서열은 게놈 참조 서열이라고 언급될 수 있다. 다른 예에서, 참조 서열은 13번 염색체와 같은 특정 인간 염색체로 한정된다. 일부 구체예에서, 참조 Y 염색체는 인간 게놈 버전 hg19로부터의 Y 염색체 서열이다. 이러한 서열은 염색체 참조 서열이라고 언급될 수 있다. 참조 서열의 다른 예에는 다른 종의 게놈뿐만 아니라 모든 종의 염색체, 염색체 부분(sub-chromosomal) 영역(가닥 등) 등이 포함된다.

다양한 구체예에서, 참조 서열은 다수의 개체로부터 유래된 컨센서스 서열 또는 다른 조합이다. 그러나 특정의 적용에서, 참조 서열은 특정 개체로부터 취할 수 있다.

본 명세서에서 "임상적으로 관련된 서열"이라는 용어는 유전적 상태 또는 질환 상태와 관련되거나 이에 관여하는 것으로 알려져 있거나 또는 의심되는 핵산 서열을 의미한다. 임상적으로 관련된 서열의 존재 유무를 판정하는 것은 진단을 결정하거나 또는 의학적 상태의 진단을 뒷받침하는데 있어서 또는 질환의 발병의 예후를 제공하는데 있어서 유용할 수 있다.

"유래하다"는 용어는 본 명세서에서 핵산 또는 핵산 혼합물의 문맥에서 사용되는 경우, 핵산이 그것이 기인하는 공급원으로부터 획득되는 방법을 가리킨다. 예를 들어, 하나의 구체예에서, 2종의 상이한 게놈으로부터 유래하는 핵산의 혼합물은 상기 핵산, 예를 들어, cfDNA가 괴사 또는 아폽토시스(apoptosis) 등의 천연적으로 발생하는 과정을 통해 세포에 의해 자연적으로 방출되는 것을 의미한다. 또 다른 구체예에서 2종의 상이한 게놈으로부터 유래하는 핵산의 혼합물은 상기 핵산이 대상체 유래의 2종의 상이한 유형의 세포로부터 추출되었다는 것을 의미한다.

"에 기반한"이라는 용어는 본 명세서에서 특정 정량 값을 획득하는 문맥에서 사용되는 경우, 다른 분량을 입력으로서 사용하여 특정 정량 값을 출력으로서 계산하는 것을 말한다.

본 명세서에서 "환자 샘플"이라는 용어는 환자, 즉 의학적인 배려, 관리 또는 치료를 받는 개체로부터 얻은 생물학적 샘플을 가리킨다. 환자 샘플은 본 명세서에서 설명되는 샘플 중 하나 일 수 있다. 특정의 구체예에서, 환자 샘플, 예를 들어, 말초혈 샘플 또는 배설물 샘플은 비침습적 절차에 의해 얻어진다. 본 명세서에서 설명되는 방법은 사람으로 한정될 필요는 없다. 따라서, 다양한 의학적 적용이 도모되고, 이러한 경우에 환자 샘플은 비인간 포유류(예를 들어, 고양이, 돼지, 말, 소 등) 유래의 샘플일 수 있다.

본 명세서에서 "혼합 샘플"이라는 용어는 다른 게놈으로부터 유래하는 핵산의 혼합물을 함유하는 샘플을 가리킨다.

본 명세서에서 "모체 샘플"이라는 용어는 임신한 대상체, 예를 들어 여성으로부터 얻어진 생물학적 샘플을 가리킨다.

본 명세서에서 "생물학적 유체"라는 용어는 생물학적 공급원으로부터 채취된 액체를 가르키며, 예를 들어, 혈액, 혈청, 혈장, 가래, 세정액, 뇌척수액, 소변, 정액, 땀, 눈물, 타액 등을 포함한다. 본 명세서에서 사용하는 경우, "혈액", "혈장" 및 "혈청"이라는 용어는 분획 또는 그의 가공된 일부분을 명시적으로 포함한다. 마찬가지로, 샘플, 생검, 면봉, 얼룩 등으로부터 채취되는 경우 "샘플"은 생검, 면봉, 얼룩 등으로부터 유래하는 가공된 분획 또는 일부분을 명시적으로 포함한다.

본 명세서에서 "모체 핵산"및 "태아 핵산"이라는 용어는 각각 임신한 여성 대상체의 핵산 및 임신한 여성에 의해 잉태된 태아의 핵산을 가리킨다.

본 명세서에서 사용하는 경우 "에 대응하는"이라는 용어는 때때로 다른 대상체의 게놈에 존재하며 모든 게놈에서 반드시 동일한 서열을 갖는 것은 아니지만, 관심대상의 서열, 예를 들어, 유전자 또는 염색체의 유전 정보보다는 정체를 제공하는 역할을 하는 핵산 서열, 예를 들어, 유전자 또는 염색체를 가르킨다.

본 명세서에서 사용하는 경우, "태아 분획"이라는 용어는 태아 및 모체의 핵산을 포함하는 샘플 중에 존재하는 태아 핵산의 분획을 가리킨다. 태아 분획은 종종 모친의 혈액중의 cfDNA를 특징규명하는 데 사용된다.

본 명세서에서 사용하는 경우, "염색체"라는 용어는 DNA 및 단백질 성분(특히 히스톤)을 포함하는 크로마틴 가닥으로부터 유래하는, 살아있는 세포의 유전성을 담당하는 유전자 이력을 가리킨다. 본 명세서에서는, 국제적으로 인정된 종래의 개개의 인간 게놈 염색체 넘버링 시스템이 이용된다.

본 명세서에서 사용하는 경우, "폴리뉴클레오티드 길이"라는 용어는 서열에서 또는 참조 게놈 영역에서의 핵산 분자(뉴클레오티드)의 절대 수를 가리킨다. "염색체 길이"라는 용어는 염기쌍으로 주어지는, 예를 들어, 월드 와이드 웹상의 |genome|.|ucsc|.|edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=에서 발견되는 인간 염색체에 대한 NCBI36/hg18 어셈블리에서 제공되는 염색체의 공지된 길이를 말한다.

본 명세서에서 "대상체"라는 용어는 인간 대상체뿐만 아니라 포유동물, 무척추 동물, 척추동물, 진균, 효모, 세균 및 바이러스 등의 비인간 대상체를 가리킨다. 본 명세서의 예들이 인간에 관한 것이고 언어가 주로 인간 관계사항을 지향하고 있지만, 본 명세서에서 설명되는 개념은 어떠한 식물 또는 동물의 게놈에도 적용가능하고 수의학, 동물 과학, 연구용 실험실 등의 분야에서 유용하다.

본 명세서에서 "상태"라는 용어는 인간의 건강에 영향을 미칠 수 있거나 의학적 지원의 혜택을 받을 수 있거나 의학적 치료와 관련이 있을 수 있는 모든 질환 및 장애를 포함하되, "부상" 및 임신 등의 정상적인 건강 상태를 포함할 수 있는 광의의 용어로서 "의학적 상태"를 가르킨다.

"완전한"이라는 용어는 본 명세서에서 염색체 이수성에 대하여 사용되는 경우 염색체 전체의 증대 또는 손실을 가리킨다.

"부분적"이라는 용어는 본 명세서에서 염색체 이수성에 대하여 사용되는 경우 염색체의 일부분, 즉 세그먼트의 증대 또는 손실을 가리킨다.

본 명세서에서 "모자이크"라는 용어는 단일 수정란으로부터 발생한 하나의 개체에 상이한 핵형을 가진 두 세포 집단이 존재함을 나타내는 것을 말한다. 모자이크는 발생 중에 돌연변이에 의해 생길 수 있고, 그것은 성체 세포의 부분집단으로만 전해진다.

본 명세서에서 "비모자이크"라는 용어는 1종의 핵형의 세포로 구성된 유기체, 예를 들어, 인간 태아를 가리킨다.

본 명세서에서 사용되는 "감도"라는 용어는 관심대상의 상태가 존재하는 경우 검사 결과가 양성이 될 확률을 가리킨다. 감도는 진양성과 위음성의 합계로 나눈 진양성의 수로서 계산될 수 있다.

본 명세서에서 사용되는 "특이성"이라는 용어는 관심대상의 상태가 부재인 경우 검사 결과가 음성이 될 확률을 가리킨다. 특이성은 진음성과 위양성의 합계로 나눈 진음성의 수로서 계산될 수 있다.

본 명세서에서 "농축하다"라는 용어는 모체 샘플의 일부분에 함유된 다형성 표적 핵산을 증폭시키고 증폭 산물과, 상기 일부분이 제거된 모체 샘플의 나머지를 조합하는 과정을 가리킨다. 예를 들어, 모체 샘플의 나머지는 원래의 모체 샘플일 수 있다.

본 명세서에서 "원래의 모체 샘플"이라는 용어는 그곳으로부터 일부분이 제거되어 다형성 표적 핵산을 증폭시키는 공급원으로서 작용하는, 임신한 대상체, 예를 들어 여성으로부터 얻어진 농축되지 않은 생물학적 샘플을 가리킨다. "원래의 샘플"은 임신한 대상체로부터 얻어진 모든 샘플 및 그의 가공된 분획, 예를 들어 모체 혈장 샘플로부터 추출된 정제된 cfDNA 샘플일 수 있다.

본 명세서에서 사용되는 "프라이머"라는 용어는 신장 산물의 합성에 있어서 유도적인 조건(예를 들어, 조건에는 뉴클레오티드, DNA 폴리머라제 등의 유도제, 및 적절한 온도 및 pH가 포함된다) 하에 놓여진 경우에, 합성의 시작점으로 작용할 수 있는 단리된 올리고뉴클레오티드를 가리킨다. 프라이머는 증폭의 최대 효율을 위해 바람직하게는 단일 가닥이지만, 대안적으로 이중 가닥일 수 있다. 이중 가닥의 경우, 프라이머는 신장 산물을 제조하기 위해 사용되기 전에 그 가닥을 분리하도록 먼저 처리된다. 바람직하게는, 프라이머는 올리고데옥시리보뉴클레오티드이다. 프라이머는 유도제의 존재 하에서 신장 산물의 합성을 점화(prime)할 만큼 충분히 길어야 한다. 프라이머의 정확한 길이는 온도, 프라이머 공급원, 방법의 사용법 및 프라이머 설계에 사용된 매개변수를 포함한 많은 인자에 의존할 것이다.

서론 및 문맥

인간 게놈에서 CNV는 인간 다양성 및 질병에 걸리기 쉬운 소인에 상당한 영향을 미친다(Redon et al., Nature 23 :444-454 [2006], Shaikh et al. Genome Res 19: 1682-1690 [2009]). 이러한 질환은 암, 감염성 및 자가면역 질환, 신경계 질환, 대사성 및/또는 심혈관 질환 등을 포함하지만, 그들로 한정되는 것은 아니다.

CNV는 상이한 메커니즘을 통해 유전적 질환에 기여하는 것으로 공지되어 있으며, 대부분의 경우에 유전자 양의 불균형 또는 유전자 파괴 중 어느 하나를 초래한다. 유전적 장애와 그의 직접적인 상관관계 이외에, CNV는 유해할 수 있는 표현형 변화를 중재하는 것으로 공지되어 있다. 최근 여러 조사들은, 정상 대조군과 비교하여, 자폐증, ADHD 및 정신분열증 등의 복합 장애에서의 희귀 또는 신생(de novo) CNV 부하의 증가를 보고하였으며, 희귀 또는 특유의 CNV의 잠재적 병원성을 강조하고 있다(Sebat et al., 316 : 445-449 [2007]; Walsh et al., Science 320 : 539-543 [2008]). CNV는 주로 결실, 중복, 삽입 및 불균형 전좌 이벤트로 인한 게놈 재편성으로부터 발생한다.

태아 기원의 cfDNA 단편은 모체 기원의 것보다 평균적으로 짧다는 것이 밝혀졌다. NGS 데이터에 기반한 NIPT(비침습적 출생전 검사)는 성공적으로 실시되었다. 현재의 방법론은 짧은 판독(25bp 내지 36bp)을 사용하여 모체 샘플을 시퀀싱하고 게놈에 정렬하고 염색체 부분(sub-chromosomal) 커버리지를 연산 및 정규화하고 마지막으로 정상 이배체 게놈과 관련된 예상 정규화된 커버리지와 비교해 표적 염색체(13 / 18 / 21 / X / Y)의 과잉 표현을 평가하는 것을 수반한다. 따라서, 전통적인 NIPT 검정 및 분석은 태아 이수성의 가능도를 평가하기 위한 카운트 또는 커버리지에 의존한다.

모체 혈장 샘플이 모체와 태아 cfDNA의 혼합물을 나타내기 때문에, 임의의 소정의 NIPT 방법의 성공은 저(low) 태아 분획 샘플에서 카피수 변화를 검출하는 그의 감도에 의존한다. 카운팅 기반 방법의 경우, 그의 감도는 (a) 시퀀싱 깊이(시퀀싱 depth) 및 (b) 기술적 변동을 감소시키는 데이터 정규화 능력에 의해 결정된다. 본 발명은 예를 들어 페어드-엔드 판독으로부터 단편 크기 정보를 도출하고 이러한 정보를 분석 파이브라인에서 사용함으로써 NIPT 및 기타 적용을 위한 분석 방법론을 제공한다. 향상된 분석 감도는 감소된 커버리지(예를 들어, 감소된 시퀀싱 깊이)에서 NIPT 방법을 적용하는 능력을 제공하며 이것은 평균 위험도 임신의 저비용 검사를 위한 기술을 사용할 수 있게 한다.

2종의 상이한 게놈으로부터 유래하는 핵산의 혼합물을 포함하고 1종 이상의 관심대상 서열의 양이 다른 것으로 알려져 있거나 의심되는 검사 샘플에서 상이한 관심대상의 서열의 카피수 및 카피수 변이(CNV)를 판정하기 위한 방법, 장치 및 시스템이 본 명세서에서 개시된다. 본 명세서에서 개시되는 방법 및 장치에 의해 결정되는 카피수 변이는 염색체 전체의 증대 또는 손실, 현미경으로 보이는 매우 큰 염색체 세그먼트를 수반하는 변경 및 크기가 단일 뉴클레오티드부터 킬로베이스(kb)에, 메가베이스(Mb)에 이르는 DNA 세그먼트의 풍부한 초미세(sub-microscopic) 카피수 변이를 포함한다.

일부 구체예에서, 모체 및 태아의 무세포계 DNA를 함유하는 모체 샘플을 이용하여 태아의 카피수 변이(CNV)를 판정하기 위한 방법이 제공된다. 일부 실시형태는 모체 혈장에서 cfDNA로부터 태아 이수성 검출을 위한 감도 및 특이성을 향상시키기 위해 cfDNA의 단편 길이(또는 단편 크기)를 사용한다. 일부 구체예는 페어드-엔드 DNA 시퀀싱과 함께 사용된 PCR 수행 없는(PCR free) 라이브러리 제조로 실행될 수 있다. 일부 구체예에서, 태아 이수성 검출을 향상시키기 위해 단편 크기와 커버리지 둘 다가 사용된다. 일부 구체예에서, 방법은 더 짧은 단편의 독립적 카운트를 게놈에 걸친 빈에서의 더 짧은 단편의 상대적 분율과 조합하는 단계를 수반한다.

본 명세서에서 개시되는 일부 구체예는 샘플내 GC-함량 편향(bias)을 제거함으로써 서열 데이터 분석의 감도 및/또는 특이성을 향상시키는 방법을 제공한다. 일부 구체예에서, 샘플내 GC-함량 편향의 제거는 영향을 받지 않은 트레이닝 샘플에 걸쳐 공통되는 체계적인 변이에 대해 보정된 서열 데이터에 기반한다.

개시된 일부 구체예는 카피수 및 CNV와 관련된 각종 유전적 상태를 종래의 방법에 비해 향상된 감도, 선택도 및/또는 효율로 판정하기 위해, 높은 신호 대 노이즈 비율로 무세포계 핵산 단편으로부터 매개변수를 유도하는 방법을 제공한다. 매개변수는 커버리지, 단편 크기 가중된 커버리지, 규정된 범위에서의 단편의 분율 또는 비율, 단편의 메틸화 수준, 커버리지로부터 획득된 t-통계량, 커버리지 정보로부터 획득된 태아 분획 추정치 등을 포함하지만, 그들로 한정되는 것은 아니다. 서술한 과정은 고려 중인 게놈(예를 들어, 태아의 게놈) 유래의 DNA의 상대적으로 낮은 분율을 갖는 샘플에서 신호를 향상시키는데 있어서 특히 효과적인 것으로 밝혀졌다. 이러한 샘플의 일례는 이란성 쌍둥이, 세쌍둥이 등을 임신한 개체 유래의 모체 혈액 샘플이고, 여기서 그 과정은 이들 태아 중 하나의 게놈에서 카피수 변이를 평가한다.

일부 구체예에서, 높은 분석 감도 및 특이성은 PCR 증폭을 필요로 하지 않는 매우 낮은 cfDNA 입력을 사용하는 단순한 라이브러리 제조법으로 달성될 수 있다. PCR 수행 없는 방법은 작업 흐름을 단순화하고 턴어라운드 시간(turn-around time)을 향상시키고 PCR 방법에 내재하는 편향을 제거한다. 일부 구체예에서, 모체 혈장으로부터의 태아 이수성의 검출은 종래의 방법보다 강력하고 효율적이게 이루어질 수 있으며 더 적은 고유한 cfDNA 단편을 필요로 한다. 이와 함께, 향상된 분석 감도 및 특이성은 상당히 적은 수의 cfDNA 단편에서 매우 빠른 턴어라운드 시간으로 달성된다. 이것은 잠재적으로 NIPT가 상당히 낮은 비용에서 수행될 수 있게 하여 일반 산과 집단에서 적용을 용이하게 한다.

다양한 구체예에서, PCR 수행 없는 라이브러리 제조는 개시된 방법을 사용할 때 가능하다. 일부 실시형태는 PCR 방법에 내재하는 편향을 제거하고, 검정 복잡성을 감소시키고, 필요한 시퀀싱 깊이를 감소시키고(2.5배 더 낮게), 보다 빠른 턴어라운드 시간, 예를 들어, 하루 동안의 턴어라운드를 제공하고, 과정중 태아 분획(FF) 측정을 가능하게 하고, 단편 크기 정보를 사용하여 모체 cfDNA와 태아/태반 cfDNA의 구별을 용이하게 한다.

CNV 평가

CNV의 판정 방법

본 명세서에서 개시되는 방법에 의해 제공되는 서열 커버리지 값, 단편 크기 매개변수 및/또는 메틸화 수준을 이용하면, 종래의 방법에 의해 획득되는 서열 커버리지 값의 이용에 비해서 향상된 감도, 선택도 및/또는 효율로 서열, 염색체 또는 염색체 세그먼트의 카피수 및 CNV와 관련된 다양한 유전적 상태를 판정할 수 있다. 예를 들어, 일부 구체예에서, 마스킹된 참조 서열은 태아와 모체의 핵산 분자를 포함하는 모체 검사 샘플에서 임의의 2종 이상의 상이한 완전한 태아 염색체 이수성의 존재 유무를 판정하기 위해 사용된다. 이하에 제공된 예시적 방법은 판독을 참조 서열(참조 게놈을 포함)에 정렬한다. 정렬을 마스킹되지 않은 또는 마스킹된 참조 서열에서 수행하여 그것을 통해 참조 서열에 매핑된 서열 태그가 산출될 수 있다. 일부 구체예에서, 참조 서열의 마스킹되지 않은 세그먼트에 맞는 서열 태그만이 카피수 변이를 판정하는데 고려된다.

일부 구체예에서, 핵산 샘플을 CNV에 대해 평가하는 것은 "정상" 또는 "영향을 받지 않음", "영향을 받음" 및 "호출(call) 없음"이라는 3가지 유형의 호출 중 하나에 의해 염색체 또는 세그먼트 이수성 상태를 특징짓는 것을 수반한다. 정상 및 영향을 받음을 호출하기 위한 임계값은 전형적으로 설정된다. 이수성 또는 다른 카피수 변이와 관련된 매개변수를 샘플에서 측정하고 측정된 값을 임계값과 비교한다. 중복형 이수성의 경우, 염색체 또는 세그먼트의 양(또는 서열 함량의 다른 측정값)이 영향을 받은 샘플에 대해 설정된 규정된 임계값을 초과하면, 영향을 받음의 호출이 이루어진다. 이러한 이수성의 경우에는, 염색체 또는 세그먼트의 양이 정상 샘플에 대해 설정된 임계값 미만이면, 정상이라는 호출이 이루어진다. 대조적으로, 결실형 이수성의 경우, 염색체 또는 세그먼트의 양이 영향을 받은 샘플에 대한 규정된 임계값 미만이면, 영향을 받음이라는 호출이 이루지고, 염색체 또는 세그먼트의 양이 정상 샘플 대해 설정된 임계값을 초과하면, 정상이라는 호출이 이루어진다. 예를 들어, 트리소미의 존재 하에, "정상"이라는 호출은 신뢰성에 대해 사용자에 의해 규정된 임계값 미만인 매개변수의 값, 예를 들어, 검사 염색체 양에 의해 결정되고, "영향을 받음"이라는 호출은 신뢰성에 대해 사용자에 의해 규정된 임계값을 초과하는 매개변수, 예를 들어, 검사 염색체의 양에 의해 결정된다. "호출 없음" 결과는 "정상" 또는 "영향을 받음"이라는 호출을 이루기 위한 임계값들 사이의 매개변수, 예를 들어, 검사 염색체의 양에 의해 결정된다. "호출 없음"이라는 용어는 "미분류"와 서로 교환가능하게 사용된다.

CNV를 판정하는 데 사용될 수 있는 매개변수는 커버리지, 단편 크기 편향된/가중된 커버리지, 규정된 범위의 단편의 분율 또는 비율 및 단편의 메틸화 수준을 포함하지만, 그들로 한정되는 것은 아니다. 본 명세서에서 논의되는 바와 같이, 커버리지는 서열 태그 카운트를 산출하기 위해 참조 게놈의 한 영역에 정렬되고 임의로 정규화된 판독의 카운트로부터 획득된다. 일부 구체예에서, 서열 태그 카운트는 단편 크기에 의해 가중될 수 있다.

일부 구체예에서, 단편 크기 매개변수는 게놈들 중 하나의 단편 크기 특징 쪽으로 편향된다. 단편 크기 매개변수는 단편 크기와 관련되는 매개변수이다. 매개변수는 1) 매개변수가 단편 크기에 대해 순조롭게 가중되는 경우, 예를 들어, 다른 크기보다 그 크기에 대해 더 심하게 가중된 카운트; 또는 2) 매개변수가 단편 크기에 대해 순조롭게 가중되는 값으로부터 획득되는 경우, 예를 들어, 그 크기에 대해 더 심하게 가중된 카운트로부터 획득된 비율의 경우에 단편 크기쪽으로 편향된다. 크기는 다른 게놈 또는 동일한 게놈의 다른 부분에 비해서 그 크기의 핵산이 농축되었거나 더 높은 농도를 가지는 경우에 게놈의 특징이 된다.

일부 구체예에서, 모체 검사 샘플에서 임의의 완전한 태아 염색체 이수성의 존재 유무를 판정하는 방법은 (a) 모체 검사 샘플에서 태아와 모체의 핵산에 대한 서열 정보를 획득하는 단계; (b) 서열 정보 및 위에서 언급된 방법을 이용하여 1번 내지 22번 염색체, X 염색체 및 Y 염색체로부터 선택된 관심대상의 염색체 각각에 대한 서열 태그의 수, 서열 커버리지 분량, 단편 크기 매개변수 또는 다른 매개변수를 동정하고 하나 이상의 정규화 염색체 서열에 대한 서열 태그의 수 또는 다른 매개변수를 동정하는 단계; (c) 관심대상의 염색체 각각에 대해 동정된 서열 태그의 수 또는 다른 매개변수 및 정규화 염색체 각각에 대해 동정된 서열 태그의 수 또는 다른 매개변수를 이용하여 관심대상의 염색체 각각에 대한 단일 염색체 양을 계산하는 단계; 및 (d) 각 염색체 양을 임계값과 비교하고, 이를 통해 모체 검사 샘플에서 임의의 완전한 태아 염색체 이수성의 존재 유무를 판정하는 단계를 포함한다.

일부 구체예에서, 위에서 언급된 단계(a)는 검사 샘플의 핵산 분자의 적어도 일부분을 시퀀싱하여 상기 검사 샘플의 태아와 모체의 핵산 분자에 대한 서열 정보를 획득하는 것을 포함할 수 있다. 일부 구체예에서, 단계(c)는 관심대상의 염색체 각각에 대해 동정된 서열 태그의 수 또는 다른 매개변수와 정규화 염색체 서열(들)에 대해 동정된 서열 태그의 수 또는 다른 매개변수의 비율로서 관심대상의 염색체 각각에 대한 단일 염색체 양을 계산하는 것을 포함한다. 일부 다른 구체예에서, 염색체 양은 서열 태그의 수 또는 다른 매개변수로부터 도출된 처리된 서열 커버리지 분량에 기반한다. 일부 구체예에서, 고유한 비-중복 서열 태그만을 이용하여, 처리된 서열 커버리지 분량 또는 다른 매개변수를 계산한다. 일부 구체예에서, 처리된 서열 커버리지 분량은 서열 태그 밀도 비율이며, 이는 서열의 길이에 의해 정규화된 서열 태그의 수이다. 일부 구체예에서, 처리된 서열 커버리지 분량 또는 다른 매개변수는 정규화된 서열 태그 또는 다른 정규화된 매개변수이며, 이는 게놈의 전부 또는 상당 부분의 서열 태그의 수로 나눈 관심대상 서열의 서열 태그의 수 또는 다른 매개변수이다. 일부 구체예에서, 처리된 서열 커버리지 분량 또는 단편 크기 매개변수와 같은 다른 매개변수는 관심대상 서열의 전체 프로파일에 따라 조정된다. 일부 구체예에서, 처리된 서열 커버리지 분량 또는 다른 매개변수는 검사되는 중인 샘플에 대한 GC 함량과 서열 커버리지 간의 샘플내 상관관계(within-sample correlation)에 따라 조정된다. 일부 구체예에서, 처리된 서열 커버리지 분량은 본 명세서의 다른 부분에서 추가 언급되는 이러한 과정들의 조합에 의해 생긴다.

일부 구체예에서, 염색체 양은 관심대상의 염색체 각각에 대한 처리된 서열 커버리지 또는 다른 매개변수와 정규화 염색체 서열(들)에 대한 처리된 서열 커버리지 또는 다른 매개변수의 비율로서 계산된다.

위의 구체예들 중 어느 하나에서, 완전한 염색체 이수성은 완전한 염색체 트리소미, 완전한 염색체 모노소미 및 완전한 염색체 폴리소미로부터 선택된다. 완전한 염색체 이수성은 1번 내지 22번 염색체, X 염색체 및 Y 염색체 중 어느 하나의 완전한 이수성으로부터 선택된다. 예를 들어, 상기 상이한 완전한 태아 염색체 이수성은 트리소미 2, 트리소미 8, 트리소미 9, 트리소미 20, 트리소미 21, 트리소미 13, 트리소미 16, 트리소미 18, 트리소미 22, 47,XXX, 47,XYY 및 모노소미 X로부터 선택된다.

위의 구체예들 중 어느 하나에서, 단계(a) 내지 단계(d)는 다양한 모체 대상 체 유래의 검사 샘플에 대해 반복되고, 방법은 검사 샘플 각각에서 임의의 2종 이상의 상이한 완전한 태아 염색체 이수성의 존재 유무를 판정하는 단계를 포함한다.

위의 구체예들 중 어느 하나에서, 방법은 정규화된 염색체 값(NCV)을 계산하는 단계를 추가로 포함할 수 있고, 여기서 NCV는 다음과 같이 적격 샘플 세트 중의 대응하는 염색체 양의 평균에 염색체 양을 관련시킨다:

상기 식에서,

및

는 검사 샘플 i에 대한 관찰된 j-번째 염색체 양이다.

일부 구체예에서, NCV는 동일한 플로우 셀 상에서 시퀀싱된 다중화된 샘플 중의 대응하는 염색체 양의 중앙값에 검사 샘플 중의 관심대상 염색체의 염색체 양을 관련시킴으로써 다음과 같이 "즉시" 계산될 수 있다:

상기 식에서,

일부 구체예에서, 태아 및 산모의 핵산을 포함하는 모체 검사 샘플에서 상이한 부분적 태아 염색체 이수성의 존재 유무를 판정하는 방법이 제공된다. 상기 방법은 위에서 설명한 완전한 이수성을 검출하기 위한 방법과 유사한 절차를 따른다. 그러나, 완전한 염색체를 분석하는 대신에 염색체의 세그먼트를 분석한다. 참조로서 인용되는 미국 특허출원 공보 제2013/0029852호를 참조한다.

도 1은 일부 구체예에 따라 카피수 변이의 존재를 결정하는 방법을 예시한다. 도 1에 예시된 프로세스 100은 서열 태그의 수(즉, 서열 태그 카운트)에 기반한 서열 태그 커버리지를 사용하여 CNV를 판정한다. 그러나, NCV의 계산에 대한 위의 설명과 유사하게, 커버리지 대신에 크기, 크기 비율 및 메틸화 수준과 같은 다른 변수 또는 매개변수가 사용될 수 있다. 일부 실시형태에서, CNV를 판정하기 위해 2종 이상의 변수들이 조합된다. 또한, 커버리지 및 다른 매개변수는 태그가 유래하는 단편의 크기에 기반하여 가중될 수 있다. 판독의 용이함을 위해, 도 1에 예시된 프로세스 100에서 커버리지만이 언급되지만, 커버리지 대신에 크기, 크기 비율 및 메틸화 수준, 크기에 의해 가중된 카운트 등과 같은 다른 매개변수가 사용될 수 있다는 것을 유의해야 한다.

작업 130 및 작업 135에서, 적격 서열 태그 커버리지(또는 다른 매개변수의 값) 및 검사 서열 태그 커버리지(또는 다른 매개변수의 값)를 결정한다. 본 발명은 종래의 방법에 비해 향상된 감도와 선택도를 제공하는 커버리지 분량을 결정하는 방법을 제공한다. 작업 130 및 작업 135는 이러한 작업들이 선행 기술을 능가하는 향상에 기여함을 나타내기 위해 별표(*)로 표시되고 굵은 테두리에 의해 강조되어 있다. 일부 구체예에서, 서열 태그 커버리지 분량을 정상화, 조정, 트리밍(trimming) 및 그 밖에 처리하여 분석의 감도 및 선택도를 향상시킨다. 이들 프로세스는 본 명세서의 다른 부분에서 추가로 설명되어 있다.

개관적 관점에서, 방법은 검사 샘플의 CNV에 대한 판정에서 적격 트레이닝 샘플의 정규화 서열을 사용한다. 일부 구체예에서, 적격 트레이닝 샘플은 영향을 받지 않고 정상 카피수를 갖는다. 정규화 서열은 실행내 및 실행간 가변성에 대한 측정 결과를 정규화하는 메커니즘을 제공한다. 정규화 서열은 임의의 1종의 관심대상의 서열, 예를 들어, 염색체 또는 그의 세그먼트에 대해 정상적인 카피수를 갖는 세포를 포함하는 것으로 알려진 대상체로부터 얻은 적격 샘플 세트로부터의 서열 정보를 이용하여 동정된다. 정규화 서열의 결정은 도 1에 묘사된 방법의 구체예의 단계 110, 단계 120, 단계 130, 단계 145 및 단계 146에 설명되어 있다. 일부 구체예에서, 정규화 서열을 이용하여 검사 서열의 서열 양을 계산한다. 단계 150을 참조한다. 일부 구체예에서, 정규화 서열을 또한 사용하여, 그에 대한 검사 서열의 서열 양이 비교되는 임계값을 계산한다. 단계 150을 참조한다. 정규화 서열 및 검사 서열로부터 얻은 서열 정보를 검사 샘플에서의 염색체 이수성의 통계학적으로 의미있는 동정을 결정하기 위해 사용한다(단계 160).

일부 구체예에 따른 카피수 변이의 존재를 결정하는 방법의 상세사항으로 눈을 돌리면, 도 1은 생물학적 샘플에서 관심대상의 서열, 예를 들어, 염색체 또는 그의 세그먼트의 CNV를 판정하기 위한 구체예의 흐름 다이어그램 100을 제공한다. 일부 구체예에서, 생물학적 샘플은 대상체로부터 획득되고 상이한 게놈에 의해 부여된 핵산의 혼합물을 포함한다. 상이한 게놈은 두 개체에 의해 샘플에 부여될 수 있고, 예를 들어, 다른 게놈은 태아 및 이 태아를 잉태한 산모에 의해 부여된다. 또한, 상이한 게놈은 3명 이상의 개체에 의해 샘플에 부여될 수 있고, 예를 들어, 상이한 게놈은 2명 이상의 태아 및 이 태아들을 잉태한 산모에 의해 부여된다. 대안적으로, 게놈은 동일한 대상체 유래의 이수성 암 세포 및 정상적인 정배수성 세포에 의해 샘플, 예를 들어, 암 환자 유래의 혈장 샘플에 부여된다.

환자의 검사 샘플을 분석하는 것과는 별개로, 관심대상의 가능한 각 염색체에 대해 1종 이상의 정규화 염색체 또는 1종 이상의 정규화 염색체 세그먼트를 선택한다. 정규화 염색체 또는 세그먼트는 임상 설정에서 일어날 수 있는 환자 샘플의 일반적 검사에서 비동기적으로 동정된다. 환언하면, 정규화 염색체 또는 세그먼트는 환자 샘플을 검사하기 전에 동정된다. 정규화 염색체 또는 세그먼트와 관심대상의 염색체 또는 세그먼트 간의 관련성은 검사 동안에 사용을 위해 저장된다. 이하에 설명되는 바와 같이, 이러한 관련성은 일반적으로 많은 샘플의 검사에 걸친 기간 동안 유지된다. 이하의 논의사항은 관심대상의 개개의 염색체 또는 세그먼트에 대한 정규화 염색체 또는 염색체 세그먼트를 선택하기 위한 구체예에 관한 것이다.

적격 샘플 세트를 획득하여, 적격 정규화 서열을 동정하고 검사 샘플의 CNV의 통계적으로 의미있는 동정을 판정하는 데 사용하기 위한 분산값을 제공한다. 단계 110에서, 복수의 생물학적 적격 샘플을, 관심대상의 임의의 1종의 서열에 대해 정상적인 카피수를 갖는 세포를 포함하는 것으로 알려진 복수의 대상체로부터 획득한다. 한 구체예에서, 적격 샘플은, 세포 유전학적 방법을 이용하여 정상적인 카피수의 염색체를 갖는 것으로 확인된 태아를 임신하고 있는 산모부터 획득한다. 생물학적 적격 샘플은 생물학적 유체, 예를 들어 혈장 또는 이하에 기재되어 있는 임의의 적절한 샘플일 수 있다. 일부 구체예에서, 적격 샘플은 핵산 분자, 예를 들어 cfDNA 분자의 혼합물을 함유한다. 일부 구체예에서, 적격 샘플은 태아 및 모체의 cfDNA 분자의 혼합물을 함유하는 모체 혈장 샘플이다. 정규화 염색체 및/또는 그의 세그먼트에 대한 서열 정보는 임의의 공지된 시퀀싱 방법을 사용하여 핵산, 예를 들어 태아와 모체의 핵산의 적어도 일부분을 시퀀싱하여 얻는다. 바람직하게는 본 명세서의 다른 부분에 언급되어 있는 차세대 시퀀싱(NGS) 방법 중 어느 하나를 사용하여 단일 분자 또는 클론적으로 증폭된 분자로서 태아와 모체의 핵산을 시퀀싱한다. 다양한 구체예에서, 시퀀싱 전 및 시퀀싱 동안 적격 샘플을 이하에 개시되는 바와 같이 가공한다. 적격 샘플은 본 명세서에서 개시되는 장치, 시스템 및 키트를 사용하여 가공할 수 있다.

단계 120에서, 적격 샘플에 함유된 모든 적격 핵산 각각의 적어도 일부분을 시퀀싱하여 수백만 개의 서열 판독, 예를 들어, 36bp의 판독을 생성하고, 그것을 참조 게놈, 예를 들어 hg18에 정렬한다. 일부 구체예에서, 서열 판독은 약 20bp, 약 25bp, 약 30bp, 약 35bp, 약 40bp, 약 45bp, 약 50bp, 약 55bp, 약 60bp, 약 65bp, 약 70bp, 약 75bp, 약 80bp, 약 85bp, 약 90bp, 약 95bp, 약 100bp, 약 110bp, 약 120bp, 약 130, 약 140bp, 약 150bp, 약 200bp, 약 250bp, 약 300bp, 약 350bp, 약 400bp, 약 450bp 또는 약 500bp를 포함한다. 기술적 진보에 의해 500bp보다 큰 단일-말단 판독이 가능하며, 페어드-엔드 판독이 생성되는 경우에는 약 1000bp보다 큰 판독이 가능할 것으로 예상된다. 하나의 구체예에서, 매핑된 서열 판독은 36bp를 포함한다. 다른 구체예에서, 매핑된 서열 판독은 25bp를 포함한다.

서열 판독은 참조 게놈에 정렬되고, 참조 게놈에 고유하게 매핑되는 판독은 서열 태그로서 알려져 있다. 마스킹된 참조 서열의 마스킹된 세그먼트에 맞는 서열 태그는 CNV의 분석을 위해 카운팅하지 않는다.

하나의 구체예에서, 20bp 내지 40bp의 판독을 포함하는 적어도 약 3 × 10⁶개의 적격 서열 태그, 적어도 약 5 × 10⁶개의 적격 서열 태그, 적어도 약 8 × 10⁶개의 적격 서열 태그, 적어도 약 10 × 10⁶개의 적격 서열 태그, 적어도 약 15 × 10⁶개의 적격 서열 태그, 적어도 약 20 × 10⁶개의 적격 서열 태그, 적어도 약 30 × 10⁶개의 적격 서열 태그, 적어도 약 40 × 10⁶개의 적격 서열 태그 또는 적어도 약 50 × 10⁶개의 적격 서열 태그가 참조 게놈에 고유하게 매핑하는 판독으로부터 획득된다.

단계 130에서, 적격 샘플의 핵산을 시퀀싱함으로써 획득된 모든 태그를 카운팅하여 적격 서열 태그 커버리지를 획득한다. 마찬가지로, 작업 135에서, 검사 샘플로부터 획득된 모든 태그를 카운팅하여 검사 서열 태그 커버리지를 획득한다. 본 발명은 종래의 방법에 비해 향상된 감도와 선택도를 제공하는 커버리지 분량을 결정하는 프로세스를 제공한다. 작업 130 및 작업 135는 이러한 작업들이 선행 기술을 능가하는 향상에 기여함을 나타내기 위해 별표(*)로 표시되고 굵은 테두리에 의해 강조되어 있다. 일부 구체예에서, 서열 태그 커버리지 분량을 정상화, 조정, 트리밍 및 그 밖에 처리하여 분석의 감도 및 선택도를 향상시킨다. 이러한 프로세스는 본 명세서의 다른 부분에서 추가로 설명되어 있다.

모든 적격 서열 태그가 적격 샘플 각각에서 매핑되고 카운팅되기 때문에, 정규화 서열이 이후에 동정되는 추가적인 서열에 대한 서열 태그 커버리지와 마찬가지로, 적격 샘플에서의 관심대상의 서열, 예를 들어, 임상적으로 관련된 서열에 대한 서열 태그 커버리지가 결정된다.

일부 구체예에서, 관심대상의 서열은 완전한 염색체 이수성과 관련되는 염색체, 예를 들어, 21번 염색체이며, 적격 정규화 서열은 염색체 이수성과 관련되지 않고 그의 서열 태그 커버리지의 변이가 관심대상의 서열(즉, 염색체), 예를 들어, 21번 염색체의 것에 근사하는 완전한 염색체이다. 선정된 정규화 염색체는 관심대상의 서열의 서열 태그 커버리지의 변이에 최상으로 근사하는 하나 또는 군일 수 있다. 1번 내지 22번 염색체, X 염색체 및 Y 염색체 중 어느 하나 이상은 관심대상의 서열일 수 있으며, 1종 이상의 염색체가 적격 샘플에서 어느 하나의 1번 내지 22번 염색체, X 염색체 및 Y 염색체 각각에 대한 정규화 서열로서 동정될 수 있다. 정규화 염색체는 개개의 염색체일 수 있거나 또는 본 명세서의 다른 부분에 언급된 바와 같은 염색체의 군일 수 있다.

또 다른 구체예에서, 관심대상의 서열은 부분적 이수성과 관련된 염색체의 세그먼트, 예를 들어, 염색체의 결실 또는 삽입, 또는 불균형 염색체 전좌이며, 정규화 서열은 부분적 이수성과 관련되지 않고 그의 서열 태그 커버리지의 변이가 부분적 이수성과 관련된 염색체 세그먼트의 것에 근사하는 염색체 세그먼트(또는 세그먼트 군)이다. 선정된 정규화 염색체 세그먼트(들)은 관심대상의 서열의 서열 태그 커버리지의 변이에 최상으로 근사하는 하나 이상의 것일 수 있다. 어느 하나 이상의 1번 내지 22번 염색체, X 염색체 및 Y 염색체의 어느 하나 이상의 세그먼트는 관심대상의 서열일 수 있다.

다른 구체예에서, 관심대상의 서열은 부분적 이수성과 관련된 염색체의 세그먼트이며, 정규화 서열은 전체 염색체 또는 염색체들이다. 또 다른 구체예에서, 관심대상의 서열은 이수성과 관련된 염색체 전체이며, 정규화 서열은 이수성과 관련되지 않는 염색체 세그먼트 또는 세그먼트들이다.

단일 서열 또는 서열의 군이 어느 하나 이상의 관심대상 서열에 대한 정규화 서열(들)로서 적격 샘플에서 동정되는 지의 여부에 관계없이, 적격 정규화 서열은 적격 샘플에서 결정되는 관심대상의 서열의 서열 태그 커버리지의 변이 또는 단편 크기 매개변수에 최상으로 또는 효율적으로 근사하는 서열 태그 커버리지의 변이 또는 단편 크기 매개변수를 갖도록 선정될 수 있다. 예를 들어, 적격 정규화 서열은, 관심대상의 서열을 정규화하기 위해 사용될 경우에 적격 샘플에 걸쳐 최소 가변성을 초래하는 서열이며, 즉 정규화 서열의 가변성은 적격 샘플에서 결정되는 관심대상의 서열 가변성과 가장 가깝다. 달리 말하면, 적격 정규화 서열은 적격 샘플에 걸쳐 (관심대상의 서열에 대한) 서열 양의 최소의 변이를 초래하도록 선택된 서열이다. 따라서, 상기 프로세스는, 정규화 염색체로서 사용될 경우에 관심대상의 서열에 대한 실행 간의 염색체 양의 최소 가변성을 초래할 것으로 예상되는 서열을 선택한다.

시퀀싱 라이브러리를 생성하기 위해 필요한 절차 및 샘플의 시퀀싱이 시간 경과에 따라 본질적으로 변경되지 않는다면, 어느 1종 이상의 관심대상 서열에 대한 적격 샘플에서 동정된 정규화 서열은 수일, 수주, 수개월 및 아마도 수년에 걸쳐 여전히 검사 샘플에서의 이수성의 존재 유무를 판정하기 위해 선정된 정규화 서열이다. 위에서 언급한 바와 같이, 이수성의 존재를 판정하기 위한 정규화 서열은 (아마도 마찬가지로 다른 이유 중에서) 그것이 정규화 매개변수로서 사용되는 관심대상의 서열의 가변성에 가장 근사하는, 샘플들, 예를 들어, 상이한 샘플들 간 및 시퀀싱 실행들, 예를 들어, 같은 날 및/또는 다른 날에 일어나는 시퀀싱 실행들 간에 이 정규화 서열에 매핑되는 서열 태그의 수의 가변성 또는 단편 크기 매개변수에 대해 선정된다. 이러한 절차의 실질적인 변경은 모든 서열에 매핑되는 태그의 수에 영향을 미치며, 태그의 수는 결국 서열들 중 어떤 하나 또는 군이 관심대상의 서열의 가변성에 가장 밀접하게 근사하는 같은 날 또는 다른 날에 동일한 및/또는 다른 시퀀싱 실행에서 샘플에 걸친 가변성을 가질 것인지를 결정할 것이고, 이는 정규화 서열 세트가 재결정되는 것을 필요로 할 수 있다. 절차에서의 실질적인 변경은 싱글플렉스(singleplex) 시퀀싱 대신에 멀티플렉스(multiplex) 시퀀싱을 위한 샘플을 제조하는 것과 관련된 변화를 포함하는, 시퀀싱 라이브러리를 제조하기 위해 사용되는 실험실 프로토콜의 변화 및 시퀀싱에 사용되는 화학 반응의 변화를 포함하는 시퀀싱 플랫폼의 변화를 포함한다.

일부 구체예에서, 관심대상의 특정 서열을 정규화하기 위해 선정되는 정규화 서열은 하나 이상의 적격 샘플을 하나 이상의 영향을 받은 샘플로부터 가장 잘 구별하는 서열이며, 이것은 정규화 서열이 최대의 식별능을 갖는 서열이라는, 즉 정규화 서열의 식별능이 영향을 받은 검사 샘플에서 관심대상의 서열에 대한 최적의 식별을 제공하여 영향을 받은 검사 샘플을 다른 영향을 받지 않은 샘플과 쉽게 구별하도록 한다는 것을 암시한다. 다른 구체예에서, 정규화 서열은 최소 가변성과 최대 식별능의 조합을 갖는 서열이다.

식별능의 수준은 이하에 기재되어 있고 실시예에서 나타난 바와 같이 적격 샘플 집단에서의 서열 양, 예를 들어, 염색체 양 또는 세그먼트 양과 하나 이상의 검사 샘플의 염색체 양 사이의 통계적 차이로서 결정될 수 있다. 예를 들어, 식별능은 적격 샘플 집단에서의 염색체 양과 하나 이상의 검사 샘플에서의 염색체 양 사이의 통계적 차이를 나타내는 t 검정 값으로서 수치적으로 표현될 수 있다. 마찬가지로, 식별능은 염색체 양 대신에 세그먼트 양에 기반할 수 있다. 대안적으로, 식별능은, 정규화된 염색체 값(NCV)에 대한 분포가 정상인 한, 염색체 양에 대한 z-점수인 NCV로서 수치적으로 표현될 수 있다. 마찬가지로, 염색체 세그먼트가 관심대상의 서열인 경우, 세그먼트 양의 식별능은, 정규화된 세그먼트 값(NSV)에 대한 분포가 정상인 한, 염색체 세그먼트 양에 대한 z-점수인 NSV로서 수치적으로 표현될 수 있다. z 점수를 결정함에 있어, 적격 샘플 세트에서의 염색체 양 또는 세그먼트 양의 평균 및 표준 편차가 사용될 수 있다. 대안적으로, 적격 샘플 및 영향을 받은 샘플을 포함하는 트레이닝 세트에서의 염색체 양 또는 세그먼트 양의 평균 및 표준 편차가 사용될 수 있다. 다른 구체예에서, 정규화 서열은 최소 가변성과 최대 식별능 또는 작은 가변성과 큰 식별능의 최적의 조합을 갖는 서열이다.

방법은, 유사한 특징을 기본적으로 가지고 있으며 샘플들 간 및 시퀀싱 실행들 간에 유사한 변이 경향이 있고 검사 샘플의 서열 양을 결정하는 데 유용한 서열을 동정한다.

서열 양의 결정

일부 구체예에서, 1종 이상의 관심대상의 염색체 또는 세그먼트에 대한 염색체 양 또는 세그먼트 양을 도 1에 표시된 단계 146에 설명된 바와 같이 모든 적격 샘플에서 결정되고 정규화 염색체 또는 세그먼트의 서열은 단계 145에서 동정된다. 일부 정규화 서열은 서열 양을 계산하기 전에 제공된다. 이어서, 1종 이상의 정규화 서열을 이하에서 추가 설명되는 다양한 기준에 따라 동정한다(단계 145를 참조한다). 일부 구체예에서, 예를 들어, 동정된 정규화 서열은 모든 적격 샘플에 걸쳐 관심대상의 서열에 대한 서열 양의 최소 가변성을 초래한다.

단계 146에서, 계산된 적격 태그 밀도에 기반하여, 관심대상의 서열에 대한 적격 서열 양, 즉 염색체 양 또는 세그먼트 양을 관심대상의 서열에 대한 서열 태그 커버리지와 추가적인 서열에 대한 적격 태그 커버리지의 비율로서 결정하고, 이로부터 단계 145에서 정규화 서열이 계속해서 동정된다. 계속해서 동정된 정규화 서열을 사용하여 검사 샘플의 서열 양을 결정한다.

한 구체예에서, 적격 샘플 중의 서열 양은 관심대상의 염색체에 대한 서열 태그의 수 또는 단편 크기 매개변수와 적격 샘플 중의 정규화 염색체 서열에 대한 서열 태그의 수와 비율로서 계산되는 염색체 양이다. 정규화 염색체 서열은 단일 염색체 또는 염색체 군, 1종 염색체의 세그먼트 또는 상이한 염색체 유래의 세그먼트 군일 수 있다. 따라서, 관심대상의 염색체에 대한 염색체 양은 적격 샘플에서 관심대상의 염색체에 대한 태그의 수와 (i) 단일 염색체로 구성된 정규화 염색체 서열, (ii) 2종 이상의 염색체로 구성된 정규화 염색체 서열, (iii) 염색체의 단일 세그먼트로 구성된 정규화 세그먼트 서열, (iv) 1종의 염색체 유래의 2종 이상의 세그먼트로 구성된 정규화 세그먼트 서열, 또는 (v) 2종 이상의 염색체의 2종 이상의 세그먼트로 구성된 정규화 세그먼트 서열에 대한 태그의 수의 비율로서 결정한다. (i) 내지 (v)에 따라서 관심대상의 21번 염색체에 대한 염색체의 양을 결정하는 예는 다음과 같다: 관심대상의 염색체, 예를 들어, 21번 염색체에 대한 염색체 양을 21번 염색체의 서열 태그 커버리지와 다음의 서열 태그 커버리지들 중 하나의 비율로서 결정한다: (i) 나머지 모든 염색체, 즉 1번 내지 20번 염색체, 22번 염색체, X 염색체 및 Y 염색체 각각; (ii) 2종 이상의 나머지 염색체의 모든 가능한 조합; (iii) 다른 염색체, 예를 들어, 9번 염색체의 세그먼트; (iv) 또 다른 1종의 염색체의 두 세그먼트, 예를 들어, 9번 염색체의 두 세그먼트; (v) 2종의 상이한 염색체의 두 세그먼트, 예를 들어, 9번 염색체의 세그먼트 및 14번 염색체의 세그먼트.

또 다른 구체예에서, 적격 샘플에서의 서열 양은 염색체 양과는 대조적인 세그먼트 양이며, 이 세그먼트 양은 적격 샘플 중의 염색체 전체가 아닌 관심대상 세그먼트에 대한 서열 태그의 수와 정규화 세그먼트 서열에 대한 서열 태그의 수의 비율로서 산출된다. 정규화 세그먼트 서열은 위에서 논의된 정규화 염색체 또는 세그먼트 서열 중 어느 하나 일 수 있다.

정규화 서열의 동정

단계 145에서, 관심대상의 서열에 대한 정규화 서열이 동정된다. 일부 구체예에서, 예를 들어 정규화 서열은, 예를 들어 모든 적격 트레이닝 샘플에 걸쳐 관심대상의 서열에 대한 서열 양의 최소 가변성을 초래하는 계산된 서열 양에 기반한 서열이다. 방법은 비슷한 특징을 근본적으로 가지고 샘플들 간 및 시퀀싱 실행들 간에 유사한 변이 경향이 있고 검사 샘플에서의 서열 양을 결정하는 데 유용한 서열을 동정한다.

1종 이상의 관심대상의 서열에 대한 정규화 서열을 적격 샘플 세트에서 동정할 수 있고, 적격 샘플에서 동정된 서열을 계속해서 사용하여 검사 샘플 각각에서 1종 이상의 관심대상의 서열에 대한 서열 양을 계산하고(단계 150), 검사 샘플 각각에서 이수성의 존재 유무를 판정한다. 관심대상의 염색체 또는 세그먼트에 대해 동정된 정규화 서열은 상이한 시퀀싱 플랫폼이 사용되는 경우 및/또는 시퀀싱될 핵산의 정제 및/또는 시퀀싱 라이브러리의 제조에 차이가 존재하는 경우에 달라질 수 있다. 본 명세서에서 설명되는 방법에 따라서 정규화 서열을 사용하면, 샘플 제조 및/또는 사용되는 시퀀싱 플랫폼에 관계없이 염색체 또는 그의 세그먼트의 카피수 변이에 대한 특이적이고 민감한 측정이 제공된다.

일부 구체예에서, 1종 초과의 정규화 서열이 동정되고, 즉 1종의 관심대상의 서열에 대한 상이한 정규화 서열이 결정될 수 있고, 1종의 관심대상의 서열에 대한 다수의 서열 양이 결정될 수 있다. 예를 들어, 관심대상의 21번 염색체에 대한 염색체 양의 변동, 예를 들어, 변동계수(CV = 표준 편차 / 평균)는 14번 염색체의 서열 태그 커버리지가 이용되는 경우에 최소이다. 그러나, 검사 샘플에서 관심대상의 서열에 대한 서열 양을 결정하는 데 사용하기 위해 2종, 3종, 4종, 5종, 6종, 7종, 8종 또는 그 이상의 정규화 서열을 동정할 수 있다. 예를 들어, 임의의 하나의 검사 샘플에서의 21번 염색체에 대한 제2 양은 7번 염색체, 9번 염색체, 11번 염색체 또는 12번 염색체를 정규화 염색체 서열로서 사용하여 결정될 수 있는데, 그 이유는 이러한 염색체들이 모두 14번 염색체에 가까운 CV를 갖기 때문이다.

일부 구체예에서, 단일 염색체가 관심대상의 염색체에 대한 정규화 염색체 서열로서 선정되는 경우, 정규화 염색체 서열은 검사된 모든 샘플, 예를 들어, 적격 샘플에 걸쳐 최소 가변성을 갖는 관심대상의 염색체에 대한 염색체 양을 초래하는 염색체일 것이다. 일부의 경우에서, 최상의 정규화 염색체는 최소한의 변이를 가지지 않을 수 있지만, 검사 샘플 또는 샘플들을 적격 샘플과 최상으로 구별하는 적격 양의 분포를 가질 수 있고, 즉 최상의 정규화 염색체는 최저 변이를 갖지 않을 수도 있지만, 최대의 식별능을 가질 수 있다.

일부 구체예에서, 정규화 서열은 하나 이상의 견고한 상염색체 서열 또는 그의 세그먼트를 포함한다. 일부 구체예에서, 견고한 상염색체는 관심대상의 염색체(들)을 제외한 모든 상염색체를 포함한다. 일부 구체예에서, 견고한 상염색체는 X 염색체, Y 염색체, 13번 염색체, 18번 염색체 및 21번 염색체를 제외한 모든 상염색체를 포함한다. 일부 구체예에서, 견고한 상염색체는 정상 이배체 상태에서 벗어나 있는 것으로 샘플로부터 판정된 염색체들을 제외한 모든 상염색체를 포함하고, 그것은 정상적인 이배체 게놈에 비해서 비정상적인 카피수를 갖는 암 게놈을 판정함에 있어서 유용할 수 있다.

검사 샘플에서 이수성의 판정

적격 샘플에서의 정규화 서열의 동정에 기반하여, 1종 이상의 관심대상의 서열 측면에서 상이한 게놈으로부터 유래된 핵산들의 혼합물을 포함하는 검사 샘플에서 관심대상의 서열에 대한 서열 양을 결정한다.

단계 115에서, 관심대상 서열의 임상적으로 관련된 CNV를 보유하는 것으로 의심되거나 알려진 대상체로부터 검사 샘플을 획득한다. 검사 샘플은 생물학적 유체, 예를 들어, 혈장 또는 이하에 기재되어 있는 임의의 적합한 샘플일 수 있다. 설명한 바와 같이, 샘플은 간단한 채혈 등의 비 침습적 방법을 이용하여 획득될 수 있다. 일부 구체예에서, 검사 샘플은 핵산 분자, 예를 들어, cfDNA 분자의 혼합물을 함유한다. 일부 구체예에서, 검사 샘플은 태아와 모체의 cfDNA 분자의 혼합물을 함유하는 모체 혈장 샘플이다.

단계 125에서, 검사 샘플 중의 검사 핵산의 적어도 일부분을 적격 샘플에 대해 설명한 바와 같이 시퀀싱하여 수백만 개의 서열 판독, 예를 들어, 36bp 판독을 생성한다. 다양한 구체예에서, 2×36bp의 페어드 엔드 판독이 페어드 엔드 시퀀싱을 위해 사용된다. 단계 120에서와 같이, 검사 샘플의 핵산을 시퀀싱하여 생성된 판독을 참조 게놈에 고유하게 매핑 또는 정렬하여 태그를 생산한다. 단계 120에 언급된 바와 같이, 20bp 내지 40bp의 판독을 포함하는 적어도 약 3 × 10⁶개의 적격 서열 태그, 적어도 약 5 × 10⁶개의 적격 서열 태그, 적어도 약 8 × 10⁶개의 적격 서열 태그, 적어도 약 10 × 10⁶개의 적격 서열 태그, 적어도 약 15 × 10⁶개의 적격 서열 태그, 적어도 약 20 × 10⁶개의 적격 서열 태그, 적어도 약 30 × 10⁶개의 적격 서열 태그, 적어도 약 40 × 10⁶개의 적격 서열 태그 또는 적어도 약 50 × 10⁶개의 적격 서열 태그가 참조 게놈에 고유하게 매핑하는 판독으로부터 획득된다. 특정 구체예에서, 시퀀싱 장치에 의해 생산된 판독은 전자 형식으로 제공된다. 정렬은 이하에서 논의되는 연산 장치(computational apparatus)를 이용하여 달성된다. 개개의 판독을 종종 거대한(수백만 개의 염기쌍) 참조 게놈과 비교하여 판독이 참조 게놈과 고유하게 대응하는 부위를 동정한다. 일부 구체예에서, 정렬 절차는 판독과 참조 게놈 사이의 제한된 미스매치를 허용한다. 일부의 경우에, 판독의 1개, 2개 또는 3개의 염기쌍은 참조 게놈의 대응하는 염기 쌍에 미스매치하는 것이 허용되고, 그렇지만 매핑은 여전히 이루어진다.

단계 135에서, 검사 샘플의 핵산을 시퀀싱하여 획득한 태그의 전부 또는 대부분을 이하에 언급하는 바와 같이 연산 장치를 이용하여 카운팅하여 검사 서열 태그 커버리지를 결정한다. 일부 구체예에서, 각 판독을 참조 게놈(대부분의 경우 염색체 또는 세그먼트)의 특정 영역에 정렬하고, 부위 정보를 판독에 첨부하여 판독을 태그로 전환시킨다. 이러한 프로세스를 통해 밝혀지는 바와 같이, 연산 장치는 참조 게놈(대부분의 경우 염색체 또는 세그먼트)의 각 영역에 매핑되는 태그/판독의 수의 누적 카운트를 유지한다. 카운트는 관심대상의 각 염색체 또는 세그먼트 및 각 대응 정규화 염색체 또는 세그먼트에 대해 저장된다.

특정 구체예에서, 참조 게놈은 진정한 생물학적 게놈의 일부이지만 참조 게놈에 포함되지 않은 하나 이상의 제외 영역을 갖는다. 이러한 제외 영역에 잠재적으로 정렬하는 판독은 카운팅되지 않는다. 제외 영역의 예는 긴 반복 서열 영역, X 염색체와 Y 염색체 간의 유사성 영역 등을 포함한다. 위에서 설명한 마스킹 기술에 의해 획득되는 마스킹된 참조 서열을 사용하면, 참조 서열의 마스킹되지 않은 세그먼트상의 태그만이 CNV의 대한 분석을 위해 고려된다.

일부 구체예에서, 방법은 다수의 판독을 참조 게놈 또는 참조 서열상의 동일한 부위에 정렬할 때 태그를 1회 이상 카운트할 지의 여부를 판정한다. 2개의 태그가 동일한 서열을 가지며 따라서 참조 서열상의 동일한 부위에 정렬하는 경우가 존재할 수 있다. 태그를 카운팅하기 위해 사용되는 방법은 특정 상황 하에 동일한 시퀀싱된 샘플로부터 유래하는 동일한 태그를 카운트에서 제외한다. 소정의 샘플에서 불균형 수의 태그가 동일한 경우, 이는 절차에 강한 편견(bias) 또는 다른 결함이 있음을 제안한다. 따라서, 특정 구체예에 따라서, 카운트 방법은 이전에 카운팅된 샘플 유래의 태그와 동일한 소정의 샘플 유래의 태그를 카운팅하지 않는다.

단일 샘플 유래의 동일한 태그를 언제 무시할지를 선정하기 위해 다양한 기준을 설정할 수 있다. 특정 구체예에서, 카운팅되는 태그의 규정된 백분율은 고유해야 한다. 이러한 임계값보다 많은 태그가 고유하지 않으면, 그들은 무시된다. 예를 들어, 규정 백분율이 적어도 50%가 고유할 것을 요구하는 경우, 고유한 태그의 백분율이 샘플에 대해 50%를 초과할 때까지 동일한 태그는 카운팅되지 않는다. 다른 구체예에서, 고유한 태그의 임계값 수는 적어도 약 60%이다. 다른 구체예에서, 고유한 태그의 임계값 백분율은 적어도 약 75%, 또는 적어도 약 90%, 또는 적어도 약 95%, 또는 적어도 약 98%, 또는 적어도 약 99%이다. 21번 염색체에 대한 임계값은 90%로서 설정될 수 있다. 30M 태그가 21번 염색체에 정렬되는 경우에는, 그의 적어도 27M은 고유해야 한다. 3M의 카운팅된 태그가 고유하지 않고 3000만 1번째 태그가 고유하지 않은 경우, 그것은 계산되지 않는다. 추가의 동일한 태그를 언제 카운팅하지 않을 지의 여부를 판정하기 위해 사용되는 특정 임계값 또는 다른 기준의 선정은 적절한 통계 분석을 사용하여 선택될 수 있다. 이러한 임계값 또는 다른 기준에 영향을 미치는 하나의 요인은 태그가 정렬될 수 있는 게놈의 크기에 대한 시퀀싱된 샘플의 상대적 양이다. 다른 요인은 판독의 크기 및 유사한 고려사항을 포함한다.

한 구체예에서, 관심대상의 서열에 매핑된 검사 서열 태그의 수를 이 검사 서열 태그가 매핑되는 관심대상 서열의 공지의 길이에 대해 정규화하여 검사 서열 태그 밀도 비율을 제공한다. 적격 샘플에 대해 설명한 바와 같이, 관심대상 서열의 공지된 길이에 대한 정규화는 필수적인 것이 아니라 인간 해석을 위해 그것을 단순화하는 수의 자릿수를 감소시키는 단계로서 포함될 수 있다. 모든 매핑된 검사 서열 태그가 검사 샘플에서 카운팅되므로, 적격 샘플에서 동정된 적어도 1종의 정규화 서열에 대응하는 추가적인 서열에 대한 서열 태그 커버리지와 마찬가지로 검사 샘플 중의 관심대상의 서열, 예를 들어, 임상적으로 관련된 서열에 대한 서열 태그 커버리지가 결정된다.

단계 150에서, 적격 샘플에서의 적어도 1종의 정규화 서열의 동일성에 기반하여, 검사 샘플에서 관심대상의 서열 대한 검사 서열 양을 결정한다. 다양한 구체예에서, 본 명세서에서 언급된 바와 같이, 검사 서열 양은 관심대상 서열의 서열 태그 커버리지 및 대응하는 정규화 서열을 사용하여 연산적으로 결정한다. 이러한 작업을 책임지는 연산 장치는 데이터베이스, 테이블, 그래프에 저장되거나 프로그램 명령에 코드로서 포함될 수 있는, 관심대상의 서열과 관련 정규화 서열 사이의 관계에 전자적으로 액세스할 것이다.

본 명세서의 다른 부분에서 언급된 바와 같이, 적어도 1종의 정규화 서열은 단일 서열 또는 서열 군일 수 있다. 검사 샘플 중의 관심대상의 서열에 대한 서열 양은 검사 샘플 중의 관심대상의 서열에 대해 결정된 서열 태그 커버리지와 검사 샘플에서 결정된 적어도 1종의 정규화 서열의 서열 태그 커버리지의 비율이며, 여기서 검사 샘플의 정규화 서열은 관심대상의 특정 서열에 대해 적격 샘플에서 동정된 정규화 서열에 대응한다. 예를 들어, 적격 샘플에서 21번 염색체에 대해 동정된 동정된 정규화 서열이 염색체, 예를 들어, 14번 염색체인 것으로 결정될 경우에는, 21번 염색체(관심대상의 서열)에 대한 검사 서열 양은 각각 검사 샘플에서 결정되는 21번 염색체에 대한 서열 태그 커버리지와 14번 염색체에 대한 서열 태그 커버리지의 비율로서 결정된다. 마찬가지로, 13번 염색체, 18번 염색체, X 염색체, Y 염색체 및 이수성과 관련된 기타 염색체에 대한 염색체의 양이 결정된다. 관심대상의 염색체에 대한 정규화 서열은 하나의 염색체 또는 염색체 군 또는 하나의 염색체 세그먼트 또는 염색체 세그먼트 군일 수 있다. 이전에 언급 된 바와 같이, 관심대상의 서열은 염색체의 일부, 예를 들어, 염색체 세그먼트 일 수 있다. 따라서, 염색체 세그먼트에 대한 양은 검사 샘플에서 세그먼트에 대해 결정된 서열 태그 커버리지 및 검사 샘플 중의 정규화 염색체 세그먼트에 대한 서열 태그 커버리지의 비율로서 결정될 수 있고, 여기서 검사 샘플의 정규화 세그먼트는 관심대상의 특정 세그먼트에 대한 적격 샘플에서 동정된 정규화 세그먼트(단일 세그먼트 또는 세그먼트 군)에 대응한다. 염색체 세그먼트는 크기의 범위가 킬로베이스(kb)에서 메가베이스(Mb)(예를 들어, 약 1kb 내지 10kb 또는 약 10kb 내지 100kb 또는 약 100kb 내지 1Mb)에 이를 수 있다.

단계 155에서, 임계값은 복수의 적격 샘플에서 결정된 적격 서열 양에 대해 확립된 표준편차 값 및 관심대상의 서열에 이수성인 것으로 알려진 샘플에 대해 결정된 서열 양으로부터 도출된다. 이러한 작업은 일반적으로 환자 검사 샘플의 분석과 비동기적으로 실시된다는 것을 유의한다. 그것은, 예를 들어, 적격 샘플로부터의 정규화 서열의 선택과 동시에 실시될 수 있다. 정확한 분류는 다양한 클래스, 즉 이수성 유형에 대한 확률 분포들 사이의 차이에 의존한다. 일부 구체예에서, 임계값은 각 유형의 이수성, 예를 들어, 트리소미 21에 대한 경험 분포로부터 선정된다. 태아와 모체의 핵산의 혼합물을 포함하는 모체 샘플에서 추출된 cfDNA를 시퀀싱하는 것에 의한 염색체 이수성을 판정하기 위한 방법의 사용을 설명하는 실시예에서 설명된 바와 같이, 트리소미 13, 트리소미 18, 트리소미 21 및 모노소미 X 이수성을 분류하기 위해 확립된 가능한 임계값. 염색체의 이수성에 대해 영향을 받은 샘플을 구별하기 위해 결정되는 임계값은 상이한 이수성에 대한 임계값과 동일하거나 상이할 수 있다. 실시예에 나타낸 바와 같이, 관심대상의 각 염색체에 대한 임계값을 샘플 및 시퀀싱 실행에 걸쳐 관심대상의 염색체의 양의 가변성으로부터 결정한다. 임의의 관심대상 염색체에 대한 염색체 양의 가변성이 적을수록 모든 영향을 받지 않은 샘플에 걸친 관심대상의 염색체에 대한 양의 퍼짐은 좁고, 그것은 상이한 이수성을 판정하기 위한 임계값을 설정하기 위해 사용된다.

환자 검사 샘플을 분류하는 것과 관련된 프로세스 흐름으로 돌아오면, 단계 160에서, 관심대상 서열의 카피수 변이는 검사 샘플에서의 관심대상의 서열에 대한 검사 서열 양을 적격 서열 양으로부터 확립된 적어도 하나의 임계값과 비교하여 판정한다. 이러한 작업은 서열 태그 커버리지를 측정하고/하거나 세그먼트 양을 계산하기 위해 이용된 동일한 연산 장치에 의해 수행될 수 있다.

단계 160에서, 관심대상의 검사 서열에 대한 계산된 양을, 샘플을 "정상", "영향을 받음"또는 "호출 없음"으로 분류하기 위한 사용자 규정된 "신뢰성 한계"에 따라 선정된 임계값으로서 설정된 것과 비교한다. "호출 없음" 샘플은 신뢰성을 가지고 확정적인 진단이 이루어 수 없는 샘플이다. 영향을 받은 샘플의 각 유형(예를 들어, 트리소미 21, 부분적 트리소미 21, 모노소미 X)은 그 자체의 임계값을 가지는데, 하나는 정상적인(영향을 받지 않은) 샘플을 호출하기 위한 것이고, 다른 하나는 영향을 받은 샘플을 호출하기 위한 것이다(일부의 경우에 2개의 임계값이 겹치지지만). 본 명세서의 다른 부분에서 언급된 바와 같이, 특정 상황 하에 검사 샘플 중의 핵산의 태아 분획이 충분히 높은 경우, 호출 없음은 호출(영향을 받음 또는 정상)로 전환될 수 있다. 검사 서열의 분류는 이러한 프로세스 흐름의 다른 작업에 이용되는 연산 장치에 의해 보고될 수 있다. 일부의 경우에, 분류는 전자 형식으로 보고되고 전시되거나 이메일, 문자 등으로 전송되어 인간의 관심을 끌 수 있다.

일부 구체예에서, 위에서 언급된 바와 같이, CNV의 판정은 염색체 양 또는 세그먼트 양을 적격 샘플 세트의 대응하는 염색체 양 또는 세그먼트 양의 평균에 관련시키는 NCV 또는 NSV를 계산하는 단계를 포함한다. 이어서, NCV/NSV를 사전에 규정된 카피수 평가 임계값과 비교하여 CNV를 판정할 수 있다.

카피수 평가 임계값은 위양성과 위음성의 비율을 최적화하도록 선정될 수 있다. 카피수 평가 임계값이 높을수록 위양성의 발생 가능성은 낮아진다. 마찬가지로 임계값이 낮을수록 위음성의 발생 가능성은 낮아진다. 따라서, 그것을 초과하는 진양성만이 분류되는 제1의 이상적 임계값 및 그것 미만의 진음성만이 분류되는 제2의 이상적 임계값 사이에는 트레이드오프관계(trade-off)가 존재한다.

임계값은 영향을 받지 않은 샘플 세트에서 결정되는 관심대상의 특정 염색체에 대한 염색체 양의 가변성에 크게 의존하여 설정된다. 가변성은 샘플 중에 존재하는 태아 cDNA의 분획을 포함한 다수의 요인에 의존한다. 가변성(CV)은 영향을 받지 않은 샘플 집단에 걸쳐 염색체 양에 대한 평균 또는 중앙값 및 표준편차에 의해 결정된다. 따라서, 이수성을 분류하기 위한 임계값(들)은

와 같이 관련 태아 분획과 함께 다음에 따라 NCV를 사용한다:

(여기서,

및

는 검사 샘플 i에 대한 관찰된 j-번째 염색체이다).

따라서, 관심대상의 염색체의 모든 NCV 대해, 소정의 NCV 값과 관련된 예상 태아 분획은 영향을 받지 않은 샘플 집단에 걸쳐 관심대상의 염색체에 대한 염색체 비율의 평균 및 표준편차에 기반하여 CV로부터 계산될 수 있다.

이어서, 태아 분획과 NCV 값 사이의 관계에 기반하여, 그것을 초과하는 샘플은 정상적인 분포 분위수에 기반하여 양성(영향을 받은)이라고 판정되는 판정 경계가 선정될 수 있다. 위에서 언급한 바와 같이, 임계값은 진양성의 검출 및 위음성 결과의 비율 사이의 최적의 트레이드오프관계를 위해 설정된다. 다시 말해서, 임계값은 진음성과 진음성의 합계를 최대화하거나 위양성과 위음성의 합계를 최소화하도록 선정된다.

특정 구체예는 태아와 모체의 핵산 분자를 포함하는 생물학적 샘플에서 태아 염색체 이수성을 출생전 진단하기 위한 방법을 제공한다. 진단은, 생물학적 검사 샘플, 예를 들어, 모체 혈장 샘플로부터 유래된 태아와 모체의 핵산 분자의 혼합물의 적어도 일부분으로부터 서열 정보를 획득하고, 시퀀싱 데이터로부터 1종 이상의 관심대상의 염색체에 대한 정규화 염색체 양 및/또는 1종 이상의 관심대상의 세그먼트에 대한 정규화 세그먼트 양을 연산하고, 검사 샘플에서의 관심대상의 각 염색체에 대한 염색체 양 및/또는 관심대상의 세그먼트에 대한 세그먼트 양과 복수의 적격 (정상) 샘플에서 확립된 임계값 사이의 통계적 유의차를 결정하고, 상기 통계적 차이에 따라 출생전 진단을 제공하는 것에 기반하여 이루어진다. 방법의 단계 160에서 설명된 바와 같이, 정상 또는 영향을 받음의 진단이 이루어진다. 정상 또는 영향을 받음에 대한 진단이 신뢰를 가지고 이루어질 수 없는 사건에서는 "호출 없음"이 제공된다.

일부 구체예에서, 2개의 임계값이 선정될 수 있다. 제1 임계값은 위양성율을 최소화되도록 선정되어 그것을 상회하는 샘플은 "영향을 받음"으로서 분류될 것이고, 제2의 임계값은 위음성율을 최소화하도록 선정되어 그것을 하회하는 샘플은 "영향을 받지 않음"으로서 분류될 것이다. 제2 임계값을 상회하지만 제1 임계값보다 낮은 NCV를 갖는 샘플은 "이수성이 의심됨" 또는 "호출 없음" 샘플로서 분류될 수 있고 샘플에 대한 이수성의 존재 여부는 독립적인 수단에 의해 확인될 수 있다. 제1 임계값과 제2 임계값 사이의 영역은 "호출 없음" 영역으로서 언급될 수 있다.

일부 구체예에서, 의심되는 임계값 및 호출 없음 임계값은 표 1에 나타낸다. 알 수 있는 바와 같이, NCV의 임계값은 상이한 염색체에 걸쳐서 각기 다르다. 일부 구체예에서, 위에서 설명한 바와 같이, 임계값은 샘플에 대한 FF에 따라서 각기 다르다. 여기에 적용되는 임계값 기술은 일부 구체예에서 감도 및 선택도의 향상에 기여한다.

표 1

호출 없음 범위를 괄호 안에 제시한, 의심되는 및 영향을 받은 NCV 임계값

	의심되는	영향을 받은
Chr 13	3.5	4.0
Chr 18	3.5	4.5
Chr 21	3.5	4.0
Chr X (XO, XXX)	4.0	4.0
Chr Y (XX 대 XY)	6.0	6.0

단편 크기 및 서열 커버리지 분석

위에서 언급한 바와 같이, 단편 크기 매개변수뿐만 아니라 커버리지를 사용하여 CNV를 평가할 수 있다. 무세포계 핵산 단편, 예를 들어, cfDNA 단편의 단편 크기는 페어 엔드 시퀀싱 전기영동(마이크로칩-기반 모세관 전기영동) 및 당업계에 공지된 기타 방법에 의해 획득할 수 있다. 도 2a는 페어드 엔드 시퀀싱이 단편 크기와 서열 커버리지 둘 다를 판정하기 위해 어떻게 사용될 수 있는가를 주제별로 예시한다.

도 2a의 상단 절반은 페어드 엔드 시퀀싱 과정을 위한 주형을 제공하는 태아 무세포계 DNA 단편과 모체 무세포계 DNA 단편의 다이어그램을 도시한다. 통상적으로, 긴 핵산 서열은 페어드 엔드 시퀀싱 과정에서 판독이 되는 더 짧은 서열로 단편화된다. 이러한 단편은 인서트라고도 언급된다. 무세포계 DNA는 대부분 300 염기쌍보다 짧은 단편으로 이미 존재하기 때문에 무세포계 DNA의 경우 단편화는 불필요하다. 모체 혈장 중의 태아 무세포계 DNA 단편은 모체 무세포계 DNA 단편보다 긴 것으로 밝혀졌다. 도 2a의 상단에 도시한 바와 같이, 태아 기원의 무세포계 DNA는 약 167 염기쌍의 평균 길이를 갖고, 반면에 모체 기원의 무세포계 DNA는 약 175 염기쌍의 평균 길이를 갖는다. 이후 추가 설명되는 합성 플랫폼에 의한 Illumina의 시퀀싱과 같은 특정 플랫폼에서의 페어드 엔드 시퀀싱에서, 어댑터 서열, 인덱스 서열 및/또는 프라임 서열을 단편의 두 말단에 라이게이션한다(도 2a에 나타내지 않음). 단편은 먼저 한 방향으로 판독되어 단편의 한쪽 말단으로부터의 판독 1을 제공한다. 이어서, 제2 판독이 단편의 반대쪽 말단으로부터 시작되어 판독 2 서열을 제공한다. 판독 1과 판독 2 사이의 대응은 플로우 셀에서의 그들의 좌표에 의해 동정할 수 있다. 이어서, 도 2a의 하단 절반에 도시된 바와 같이 판독 1 및 판독 2를 서로 가까이 있는 한 쌍의 태그로서 참조 서열에 매핑한다. 일부 구체예에서, 판독들이 충분히 긴 경우, 2개의 판독은 인서트의 중간 부분에서 중복될 수 있다. 쌍을 참조 서열에 정렬한 후, 두 판독 사이의 상대 거리 및 단편의 길이를 이 두 판독의 위치로부터 결정할 수 있다. 페어드 엔드 판독이 동일한 판독 길이의 싱글 엔드 판독(single end read)보다 2배 많은 염기쌍을 제공하기 때문에, 그것은 특히 많은 반복부를 갖는 서열 또는 비-고유한 서열의 경우에 정렬의 정확도를 향상시키는 데 도움이 된다. 많은 구체예에서, 참조 서열은 100 K 염기쌍 빈과 같은 빈으로 분할된다. 페어드 엔드 판독을 참조 서열에 정렬한 후, 빈에 정렬된 판독의 수를 결정할 수 있다. 빈에 대해 인서트(예를 들어, cfDNA 단편)의 수뿐만 아니라 길이도 결정할 수 있다. 일부 구체예에서, 인서트가 2개의 빈 양쪽에 걸쳐있는 경우, 인서트의 절반은 각 빈에 기인할 수 있다.

도 2b는 2종 이상의 게놈으로부터 유래하는 무세포계 핵산 단편을 포함하는 검사 샘플에서 관심대상의 핵산 서열의 카피수 변이(CNV)를 판정하기 위해 크기-기반 커버리지를 사용하기 위한 프로세스 220을 제공하는 구체예를 도시한다. 본 명세서에서 개시되는 바와 같이, 매개변수는 1) 매개변수가 단편 크기 또는 크기 범위에 대해 순조롭게 가중되는 경우, 예를 들어, 다른 크기 또는 크기 범위보다 그 크기 또는 크기 범위와 관련될 때 더 심하게 가중된 카운트; 또는 2) 매개변수가 단편 크기 또는 크기 범위에 대해 순조롭게 가중되는 값으로부터 획득되는 경우, 예를 들어, 그 크기 또는 크기 범위의 단편과 관련될 때 더 심하게 가중된 카운트로부터 획득된 비율의 경우에 "단편 크기 또는 크기 범위쪽으로 편향"된다. 단편 크기 또는 크기 범위는, 게놈이 또 다른 게놈 또는 동일 게놈의 또 다른 부분 유래의 핵산 단편에 비해서 그 크기 또는 크기 범위가 농축되었거나 더 높은 농도를 갖는 핵산 단편을 생성하는 경우에 상기 게놈 또는 그의 부분의 특징이 될 수 있다.

프로세스 220은 검사 샘플에서 무세포계 핵산 단편을 시퀀싱하여 서열 판독을 받음으로써 시작한다. 블록 222를 참조한다. 검사 샘플의 2종 이상의 게놈은 임산부의 게놈 및 임산부가 잉태한 태아의 게놈일 수 있다. 다른 적용에서, 검사 샘플은 종양 세포 및 영향을 받지 않은 세포 유래의 무세포계 DNA를 포함한다. 일부 구체예에서, 크기-편향된 커버리지에 의해 제공된 높은 신호 대 노이즈 비 때문에, 무세포계 핵산 단편의 시퀀싱은 PCR을 사용하여 핵산 단편을 증폭시킬 필요 없이 수행된다. 프로세스 200은 무세포계 핵산 단편의 서열 판독을 관심대상의 서열을 포함하고 복수의 빈으로 분할되어 있는 참조 게놈에 정렬하는 것을 추가로 수반한다. 성공적인 정렬은 서열 및 참조 서열상의 그의 위치를 포함하는 검사 서열 태그를 생성한다. 블록 224를 참조한다. 그 다음, 검사 샘플 중에 존재하는 무세포계 핵산 단편의 크기를 결정하여 프로세스 220을 진행한다. 페어드 엔드 시퀀싱을 적용하는 일부 구체예는 서열 태그와 관련된 인서트의 길이를 제공한다. 블록 226을 참조한다. "크기" 및 "길이"라는 용어는 그들이 핵산 서열 또는 단편에 대하여 사용될 때 서로 교환가능하게 사용된다. 여기에 예시된 구체예에서, 프로세스 220은 검사 서열 태그가 획득되는 무세포계 핵산 단편의 크기에 기반하여 검사 서열 태그를 가중시키는 단계를 추가로 수반한다. 블록 228을 참조한다. 본 명세서에서 사용되는 "가중시키다"는 1종 이상의 변수 또는 함수를 사용하여 분량을 변경하는 것을 가리킨다. 1종 이상의 변수 또는 함수는 "가중치"로서 고려된다. 많은 구체예에서, 변수는 가중치와 곱해진다. 다른 구체예에서, 변수는 기하급수적으로 또는 다른식으로 변경될 수 있다. 일부 구체예에서, 검사 서열 태그의 가중은 커버리지를 검사 샘플에서의 한 게놈의 크기 또는 크기 범위 특징의 무세포계 핵산 단편으로부터 획득된 검사 서열 태그쪽으로 편향시켜 수행한다. 본 명세서에 개시한 바와 같이, 크기는 게놈이 다른 게놈 또는 동일한 게놈의 다른 부분에 비해서 그 크기의 핵산의 농축된 또는 더 높은 농도를 가지는 경우에 그 게놈의 특징이 된다.

일부 구체예에서, 가중 함수는 선형 또는 비선형 함수일 수 있다. 적용가능한 비선형 함수의 예에는 헤비사이드 계단 함수, 박스카 함수, 계단 함수 또는시그모이드 함수가 포함되지만, 그들로 한정되는 것은 아니다. 일부 구체예에서, 특정 크기 범위의 태그는 1의 가중치와 곱해지고 이 범위 밖의 태그는 0의 가중치와 곱해지도록 헤비사이드 계단 함수 또는 박스카 함수를 사용한다. 일부 구체예에서, 80 염기쌍 내지 150 염기쌍의 단편은 1의 가중치가 주어지는 반면, 상기 범위 밖의 단편은 0의 가중치가 주어진다. 이러한 구체예에서, 가중은 신중해야 하며 모든 값의 매개변수가 특정 범위의 안에 있는지 또는 특정 범위의 밖에 있는 지의 여부에 따라서 0 또는 1이 된다. 대안적으로, 가중치는 단편 크기 또는 관련된 매개변수 값의 다른 측면의 연속 함수로서 계산된다.

일부 구체예에서, 하나의 크기 범위의 단편에 대한 가중치는 양성이고 다른 범위의 단편에 대한 가중치는 음성이다. 이것은 두 게놈 간 거리의 방향이 반대 부호를 가지는 경우 신호를 증강시키는데 도움을 주기 위해 사용될 수 있다. 예를 들어, 판독 카운트는 80 내지 150 염기쌍 인서트에 대해 1의 가중치를 갖고 160 내지 200 염기쌍 인서트에 대해 -1의 가중치는 갖는다.

가중치뿐만 아니라 다른 매개변수도 카운트에 부여될 수 있다. 예를 들어, 가중은 단편 크기를 사용하는 분율 또는 비율 매개변수에도 적용될 수 있다. 예를 들어, 비율은 특정 하위-범위의 단편에게 단편 및 다른 크기 빈보다 큰 가중치를 제공할 수 있다.

그 다음, 가중된 검사 서열 태그에 기반하여 빈에 대한 커버리지를 계산한다. 블록 230을 참조한다. 이러한 커버리지는 크기-편향된 것으로 고려된다. 위에서 설명한 바와 같이, 매개변수가 단편 크기 또는 크기 범위에 대해 순조롭게 가중되는 경우에 값은 단편 크기 또는 크기 범위쪽으로 편향된다. 프로세스 200은 관심대상의 서열의 카피수 변이를 동정하는 단계를 추가로 수반한다. 블록 232를 참조한다. 일부 구체예에서, 도 2c, 도 3a 내지 도 3k 및 도 4와 관련하여 이하 추가 설명하는 바와 같이 커버리지를 조정 또는 보정하여 데이터의 노이즈를 제거하고, 이를 통해 신호 대 노이즈 비를 증가시킬 수 있다. 일부 적용에서, 프로세스 220에서 획득된 가중된 태그에 기반한 커버리지는 카피수 변이를 판정함에 있어서 비-가중된 커버리지와 비교해 더 높은 감도 및/또는 더 높은 선택도 둘 다를 제공한다. 일부 적용에서, 이하에 제공된 예시적 작업 흐름은 CNV 분석에 대한 감도 및 선택도를 더욱 향상시킬 수 있다.

단편 크기 및/또는 서열 커버리지를 분석하기 위한 작업 흐름 예

개시된 일부 구체예는 낮은 노이즈 및/또는 높은 신호를 갖는 서열 커버리지 분량을 결정하는 방법을 제공하고 종래의 방법에 의해 획득된 서열 커버리지 분량에 비해 향상된 감도, 선택성 및/또는 효율로 카피수 및 CNV와 관련된 다양한 유전적 상태를 판정하는 데이터를 제공한다. 특정 구체예에서, 검사 샘플 유래의 서열을 처리하여 서열 커버리지 분량을 획득한다.

상기 프로세스는 다른 공급원으로부터 입수가능한 특정 정보를 이용하고 있다. 일부 실시형태에서, 이러한 모든 정보는 영향을 받지 않은(예를 들어, 이수성이 아닌) 것으로 알려진 트레이닝 샘플 세트에서 획득된다. 다른 구체예에서, 정보의 일부 또는 전부는 다른 검사 샘플로부터 획득되고, 다수의 샘플이 동일한 프로세스에서 분석되기 때문에 그것은 "즉시" 제공될 수 있다.

특정 구체예에서, 서열 마스크를 사용하여 데이터 노이즈를 감소시킨다. 일부 구체예에서, 관심대상의 서열 및 그의 정규화 서열 둘 다를 마스킹한다. 일부 구체예에서, 관심대상의 다른 염색체 또는 세그먼트가 고려되는 경우, 다른 마스크가 이용될 수 있다. 예를 들어, 13번 염색체가 관심대상의 염색체인 경우, 하나의 마스크(또는 마스크 군)가 이용될 수 있고, 21번 염색체가 관심대상의 염색체인 경우, 다른 마스크(또는 마스크 군)가 이용될 수 있다. 특정 구체예에서, 마스크는 빈의 분해능으로 규정된다. 따라서, 일례에서 마스크 분해능은 100kb이다. 일부 구체예에서, 별개의 마스크를 Y 염색체에 적용할 수 있다. 2013년 6월 17일자로 제출된 미국 가특허출원 제61/836,057호[대리인 정리번호 ARTEP008P]에 기재된 바와 같이, Y 염색체에 대한 마스킹된 제외 영역은 관심대상의 다른 염색체보다 미세한 분해능(1kb)으로서 제공될 수 있다. 마스크는 제외된 게놈 영역을 동정하는 파일의 형태로 제공된다.

특정 구체예에서, 상기 프로세스는 정규화된 커버리지 예상값을 이용하여 관심대상 서열의 프로파일에서 빈 간의 변이를 제거하고, 이러한 변이는 검사 샘플에 대한 CNV의 판정을 위한 충분한 정보를 알려주지 않는다. 상기 프로세스는 정규화된 커버리지 분량을 게놈 전체에 걸쳐 각 빈에 대한 또는 참조 게놈 내의 적어도 견고한 염색체의 빈에 대한 정규화된 커버리지의 예상값에 따라서 조정한다(아래 작업 317에서 사용하기 위해). 커버리지 이외의 매개변수도 마찬가지로 이러한 프로세스에 의해 향상될 수 있다. 예상값은 영향을 받지 않은 트레이닝 샘플 세트로부터 결정될 수 있다. 예를 들어, 예상값은 트레이닝 세트 샘플에 걸쳐 중앙값이 될 수 있다. 샘플의 예상 커버리지 값은 참조 게놈의 견고한 염색체 내의 모든 빈에 정렬된 고유한 비-중복 태그의 총수로 나눈 빈에 정렬된 고유한 비-중복 태그의 수로서 결정될 수 있다.

도 2c는 관심대상의 서열에 대한 단편 크기 매개변수를 결정하기 위한 프로세스 200의 순서도를 도시하며, 상기 매개변수를 이용하여 블록 214에서 검사 샘플의 관심대상 서열의 카피수를 평가한다. 이 프로세스는 영향을 받지 않은 트레이닝 샘플에 걸쳐 공통되는 체계적인 변이를 제거하고, 이러한 변이는 CNV 평가를 위한 분석의 노이즈를 증가시킨다. 그것은 검사 샘플에 특이적인 GC 편향(bias)도 제거하고, 이를 통해 데이터 분석의 신호 대 노이즈 비를 증가시킨다. 커버리지가 크기에 의해 편향되는지 또는 그렇지 않은 지의 여부과 관계없이 프로세스 200을 커버리지에도 적용할 수 있다는 것은 주목할만한 가치가 있다. 마찬가지로, 도 2d, 도 3 및 도 4의 프로세스들은 커버리지, 단편 크기 가중된 커버리지, 단편 크기, 규정된 크기 범위 내 단편의 분율 또는 비율, 단편의 메틸화 수준 등에 동일하게 적용가능하다.

블록 202에 나타낸 바와 같이, 프로세스 200은 검사 샘플의 서열 판독을 제공함으로써 시작한다. 일부 구체예에서, 서열 판독은 모체와 태아의 cfDNA를 포함한 임산부의 혈액으로부터 획득한 DNA 세그먼트를 시퀀싱함으로써 획득된다. 상기 프로세스는 서열 판독을 관심대상의 서열을 포함하는 참조 게놈에 정렬하고 검사 서열 태그를 제공하도록 진행한다. 블록 204. 일부 구체예에서, 1개 초과의 부위에 정렬되는 판독은 제외된다. 일부 구체예에서, 동일한 부위에 정렬된 다수의 판독은 제외되거나 1회 판독 카운트까지 감소된다. 일부 구체예에서, 제외 부위에 정렬된 판독도 제외된다. 따라서, 일부 구체예에서, 비-제외 부위에 정렬된 고유하게 정렬된 비-중복 태그만을 카운팅하여 각 빈의 커버리지 또는 다른 매개변수를 결정하기 위한 비-제외 부위 카운트(NES 카운트)를 제공한다.

프로세스 200은 검사 샘플 중에 존재하는 무세포계 핵산 단편의 크기를 제공한다. 페어드 엔드 시퀀싱을 사용하는 일부 구체예에서, 인서트 크기/길이는 인서트의 말단에서 한 쌍의 판독의 위치로부터 획득될 수 있다. 다른 기술을 사용하여 단편 크기를 결정할 수 있다. 블록 205를 참조한다. 그 다음, 관심대상의 서열에 빈을 포함하는 참조 게놈의 빈에서, 프로세스 200은 게놈들 중 하나의 단편 크기 특징쪽으로 편향된 단편 크기 매개변수의 값을 결정한다. "단편 크기 매개변수"라는 용어는 하나의 단편, 또는 핵산 단편; 예를 들어, 체액으로부터 획득된 cfDNA 단편과 같은 단편들의 수집물의 크기 또는 길이와 관련되는 매개변수를 가르킨다. 본 명세서에서 사용되는 매개변수는 1) 매개변수가 단편 크기 또는 크기 범위에 대해 순조롭게 가중되는 경우, 예를 들어, 다른 크기 또는 범위보다 그 크기 또는 크기 범위와 관련될 때 더 심하게 가중된 카운트; 또는 2) 매개변수가 단편 크기 또는 크기 범위에 대해 순조롭게 가중되는 값으로부터 획득되는 경우, 예를 들어, 그 크기 또는 크기 범위의 단편과 관련될 때 더 심하게 가중된 카운트로부터 획득된 비율의 경우에 "단편 크기 또는 크기 범위쪽으로 편향"된다. 단편 크기 또는 크기 범위는, 게놈이 또 다른 게놈 또는 동일 게놈의 또 다른 부분 유래의 핵산 단편에 비해서 그 크기 또는 크기 범위가 농축되었거나 더 높은 농도를 갖는 핵산 단편을 생성하는 경우에 상기 게놈 또는 그의 부분의 특징이 될 수 있다.

일부 구체예에서, 단편 크기 매개변수는 크기-가중된 카운트이다. 일부 구체예에서, 단편은 범위 내에서는 1이 가중되고 범위 밖에서는 0이 가중된다. 다른 구체예에서, 단편 크기 매개변수는 크기 범위 내의 단편의 분율 또는 비율이다. 블록 206을 참조한다. 일부 구체예에서, 각 빈의 단편 크기 매개변수(또는 상기 주지된 바와 같은 커버리지)의 값을 동일한 샘플의 정규화 서열의 매개변수 값으로 나누어 정규화된 매개변수를 제공한다.

그 다음, 프로세스 200은 관심대상의 서열의 전체 프로파일을 제공한다. 전체 프로파일은 영향을 받지 않은 트레이닝 샘플로부터 획득된 각 빈에서의 예상 매개변수 값을 포함한다. 블록 208. 프로세스 200은 예상 매개변수 값에 따라 검사 서열 태그의 정규화된 매개변수 값을 조정함으로써 트레이닝 샘플에서 공통되는 변이를 제거하여 관심대상의 서열에 대한 매개변수의 전체 프로파일-보정된 값을 획득한다. 블록 210. 일부 구체예에서, 블록 208에서 제공하는 트레이닝 세트로부터 획득된 매개변수의 예상값은 트레이닝 샘플에 걸친 중앙값이다. 일부 구체예에서 작업 2010은 매개변수의 정규화된 값에서 매개변수의 예상값을 공제함으로써 매개변수의 정규화된 값을 조정한다. 다른 구체예에서, 작업 210은 매개변수의 정규화된 값을 각 빈의 매개변수의 예상값으로 나누어 매개변수의 전체 프로파일 보정된 값을 생성한다.

전체 프로파일 보정 외에도 또는 그 대신에, 프로세스 200은 매개변수 값을 조정하여 검사 샘플에 특이적인 GC 편향을 제거한다. 블록 212에 도시된 바와 같이, 상기 프로세스는 검사 샘플 중에 존재하는 GC 함량 수준과 전체 프로파일 보정된 매개변수 값 사이의 관계에 기반하여 전체 프로파일-보정된 매개변수 값을 조정하고, 이를 통해 단편 크기 매개변수의 샘플 GC-보정된 값을 획득한다. 영향을 받지 않은 트레이닝 샘플에서 공통되는 체계적인 변이 및 대상체내 GC 편향에 대해 조정한 후, 상기 프로세스는 전체 프로파일 및/또는 GC 변동에 대해 보정된 단편 크기 값을 제공하며, 이러한 값을 사용하여 향상된 감도 및 특이성으로 샘플의 CNV를 평가한다. 일부 실시형태에서, 단편 크기 값은 도 2f의 블록 719와 관련하여 추가 설명한 바와 같이 관심대상의 서열의 카피수 변이와 무관한 변동 성분을 제거하는 주성분 분석 방법을 사용하여 조정할 수 있다. 일부 실시형태에서, 단편 크기 값은 도 3a의 블록 321와 관련하여 설명한 바와 같이 샘플 내의 이상점 빈을 제거하여 관리할 수 있다.

다수의 매개변수를 사용하는 카피수 판정을 위한 다중-패스 프로세스

위에서 강조한 바와 같이, 본 명세서에서 개시되는 프로세스는 커버리지, 단편 크기 가중된 커버리지, 단편 크기, 규정된 크기 범위 내 단편의 분율 또는 비율, 단편의 메틸화 수준 등을 포함하지만 그들로 한정되지 않는 다수의 매개변수를 사용한 CNV 판정에 적합하다. 이러한 매개변수 각각을 별도로 처리하여 최종 카피수 변이 판정에 기여할 수 있다.

일부 구체예에서, 둘 다 단편 크기 매개변수인 크기-가중된 커버리지 분석과 단편 크기 분석에 유사한 프로세스를 적용할 수 있다. 도 2d는 작업 흐름 600의 2개의 중복 패스인 크기-가중된 커버리지를 위한 패스 1 및 단편 크기 분석을 위한 패스 2의 흐름도를 도시한다. 여기에 도시하지 않은 다른 구체예에서, 메틸화 수준을 하나의 추가적인 패스에서 처리할 수 있다. 2개의 패스는 CNV의 판정이 기반하는 조정된 커버리지 정보를 획득하기 위해 유사한 작업을 포함할 수 있다.

상기 프로세스의 초기 단일 패스 부분은 시퀀싱 데이터를 받음으로써 시작하고(블록 602를 참조한다), 앞서 설명한 바와 같이 카운트를 연산할 때까지 계속된다(블록 612를 참조한다). 이후, 도시된 프로세스는 앞서 설명한 바와 같이 2개의 패스로 갈라진다. 상기 프로세스의 초기 부분으로 돌아오면, 작업 흐름은 시퀀싱 데이터를 서열 판독으로 전환시킨다. 시퀀싱 데이터가 멀티플렉스 시퀀싱으로부터 도출되는 경우, 서열 판독을 또한 역다중화하여 데이터의 공급원을 동정한다. 블록 604를 참조한다. 이어서, 서열 판독을 참조 서열에 정렬하고, 여기서 정렬된 서열 판독은 서열 태그로서 제공된다. 블록 606을 참조한다. 이어서, 서열 태그를 필터링하여 분명하게 매핑된 비중복 서열 태그인 비-제외 부위(NES)를 획득한다. 서열 태그를 1 kb, 100 kb 또는 1 Mb와 같은 특정 서열 길이의 빈으로 편성한다. 블록 610을 참조한다. 증후군 특이적 영역의 분석을 수반하는 일부 구체예에서, 빈은 100 kb이다. 일부 구체예에서, 높은 가변성을 나타내는 빈은 도 3a, 블록 313에서 설명한 바와 같은 방식으로 복수의 영향을 받지 않은 샘플로부터 획득된 서열 마스크를 사용하여 마스킹될 수 있다. 이어서, NES의 태그를 카운팅하여, CNV의 분석을 위해 정규화되고 조정하는 대상이 되는 커버리지를 제공한다. 블록 612를 참조한다.

서술한 구체예에서, 작업 604, 작업 606, 작업 610 및 작업 612는 1회 수행되고, 나머지 작업의 대부분은 2회, 즉 크기-가중된 커버리지 분석(패스 1)을 위한 1회 및 단편 크기 분석(패스 2)을 위한 1회로 수행된다. 다른 구체예에서, 2개의 패스에서 수행되는 중인 작업들 중 하나 이상은 1회만 수행되고, 그 결과는 두 프로세스 모두에서 공유된다. 이러한 공유된 작업의 예는 작업 614, 작업 616 및 작업 618을 포함한다.

서술한 구체예에서, NES의 획득된 커버리지(크기 가중된 카운트) 또는 단편 크기 매개변수(크기 분율 또는 비)는, 예를 들어 빈의 값 NES를 게놈 또는 정규화 염색체 세트의 총 NES로 나누어 정규화한다. 일부 구체예에서, 커버리지만이 정규화되고, 반면에 단편 크기 매개변수는 커버리지와 동일한 방식으로 시퀀싱 깊이에 의해 영향을 받지 않기 때문에 정규화될 필요가 없다. 블록 614를 참조한다. 이어서, 일부 구체예에서, 영향을 받지 않은 샘플을 포함하는 트레이닝 세트에서 공통되는 변이를 제거하고, 이러한 변이는 관심대상의 CNV와 무관하다. 서술한 구체예에서, 공통되는 변이는 앞서 설명한 전체 웨이브 프로파일과 유사한 방식으로 영향을 받지 않은 샘플로부터 획득된 전체 웨이브 프로파일로서 표현된다. 도 6에 예시된 일부 구체예에서, 전체 웨이브 프로파일을 획득하는 데 사용되는 영향을 받지 않은 샘플은 동일한 플로우 셀 또는 처리 뱃치(batch)에서 비롯된 샘플을 포함한다. 플로우 셀 특이적 전체 웨이브의 계산은 이하 추가 설명된다. 서술한 구체예에서, 전체 웨이브 프로파일이 제거된 후, 커버리지를 샘플 특이적 기준에 따라서 GC 수준에 대해 보정한다. 블록 616을 참조한다. GC 보정을 위한 일부 알고리즘은 이하 도 3a, 블록 319와 관련된 내용에서 더욱 상세하게 설명된다.

서술한 구체예에서, 가중된 커버리지 분석을 위한 패스 1과 단편 크기 분석을 위한 패스 2 둘 다에서, 데이터를 개개의 샘플에 특이적인 노이즈, 예를 들어 다른 빈과 완전히 상이한 커버리지를 갖는 이상점 빈의 데이터에 대해 필터링할 수 있으며, 이러한 차이는 관심대상의 카피수 변이에 기인하지 않을 수 있다. 블록 622를 참조한다. 이러한 샘플내 필터링 작업은 도 3a의 블록 321에 대응할 수 있다.

일부 구체예에서, 단일 샘플 필터링 후, 패스 1의 가중된 커버리지 값 및 패스 2의 단편 크기 매개변수는 둘 다 참조보다 표적 신호가 농축된다. 블록 624 및 628을 참조한다. 이어서, 각 염색체에 대한 커버리지 및 단편 크기 매개변수를 사용하여 위에서 설명한 바와 같이 염색체 양 및 정규화된 염색체 값(NCV)을 계산한다. 이어서, NCV를 기준과 비교하여 CNV의 확률을 나타내는 점수를 결정한다. 블록 626 및 블록 630을 참조한다. 이어서, 2개의 패스로부터의 점수를 조합하여 최종 종합 점수를 제공하고, 이 점수는 이수성이 호출되어야 하는 지의 여부를 결정한다. 일부 구체예에서, 626 및 630의 점수는 t-검정 통계량 또는 Z 값이다. 일부 구체예에서, t최종 점수는 카이제곱 값이다. 다른 구체예에서, 최종 점수는 2개의 t 값 또는 z 점수의 평균제곱근이다. 2개의 경로로부터의 2개의 점수를 조합하는 다른 수단을 사용하여 CNV 검출에서 전체적 감도와 특이성을 향상시킬 수 있다. 대안적으로, 2개의 패스로부터의 2개의 점수를 논리 연산, 예를 들어, 및(AND) 연산 또는(OR) 연산에 의해 조합할 수 있다. 예를 들어, 낮은 위음성을 보장하기 위해 높은 감도가 선호되는 경우, CNV 호출은 패스 1 또는(OR) 패스 2로부터의 점수가 호출 기준을 충족할 때 이루어질 수 있다. 반면에, 낮은 위양성을 보장하기 위해 높은 선택도가 바람직한 경우, CNV 호출은 패스 1 및(AND) 패스 2 둘 다로부터의 점수가 호출 기준을 만족할 경우에만 이루어질 수 있다.

이러한 위의 논리 연산을 사용할 때 감도와 선택도 사이의 트레이드오프관계가 존재한다는 것은 주목할만한 가치가 있다. 일부 구체예에서, 이하 추가 설명되는 바와 같이 트레이드오프관계를 극복하기 위해 2단계 시퀀싱 방법을 적용한다. 간략하게 언급하면, 샘플의 초기 득점을 감도를 증가시키도록 설계된 비교적 낮은 제1 임계값과 비교하고, 샘플의 점수가 제1 임계값보다 높은 경우, 샘플은 제1 시퀀싱보다 깊은 제2 라운드의 시퀀싱을 받는다. 이어서, 이러한 샘플은 위에서 설명한 작업 흐름과 유사한 작업 흐름에서 재처리되고 분석된다. 이어서, 획득된 점수를 감도를 향상시키도록 설계된 비교적 높은 제2 임계값과 비교한다. 일부 구체예에서, 제2 라운드의 시퀀싱을 받는 샘플은 제1 임계값을 상회하는 점수를 얻은 샘플 중에서 비교적 낮은 점수를 받고, 이를 통해 재시퀀싱할 필요가 있는 샘플의 수가 감소된다.

일부 구체예에서, 제3 매개변수를 사용하는 제3 패스가 이용될 수 있다. 이러한 제3 패스의 일례는 메틸화이다. 메틸화는 샘플 유래의 핵산의 메틸화를 측정함을 통해 직접적으로 또는 무세포계 핵산의 단편 크기와 상관관계가 있는 매개변수로서 간접적으로 측정될 수 있다.

일부 구체예에서, 이러한 제3 매개변수는 제2 커버리지 또는 카운트 기반 매개변수이며, 여기서 카운트는 제1 카운트 기반 매개변수에서 사용된 주요 단편 크기 외의 단편 크기에 기반한다. 카운트 또는 커버리지 매개변수를 생성하기 위해 80개 내지 150개 염기쌍의 단편을 사용하는 경우, 그들은 판독의 약 70%를 시퀀싱으로부터 제외시킨다. 이러한 제외된 판독이 일부 잠재적으로 유용한 신호를 여전히 갖는다면, 이러한 제외된 판독은, 제외된 판독 또는 제1 매개변수에서 사용된 크기 기반 분획의 밖에 있거나 이와 중복되는 크기 기반 분획내의 판독을 포함하는 제3 매개변수에서 사용될 수 있다. 이와 관련하여, 제외된 단편으로부터 취해진 판독 및 관련 커버리지 값에는 낮은 가중치가 부여될 수 있다. 다시 말해서, 이러한 판독을 사용하여 계산된 카피수 변이 매개변수는 최종 카피수 변이를 호출을 하는데 있어서 덜 중요한 것으로 간주될 수 있다. 대안적으로, 위에서 설명한 바와 같이, 제1 매개변수에서 크기 범위 밖의 태그는 두 게놈이 두 크기 범위에 있어 반대되는 특징을 갖는 경우에 음의 값을 취할 수 있다.

다양한 실시형태에서, 프로세스 200, 프로세스 220 및 프로세스 600의 커버리지는 단편 크기 스펙트럼의 더 짧은 말단에서 단편 유래의 태그쪽으로 편향된다. 일부 구체예에서, 커버리지는 지정된 값보다 짧은 크기의 단편 유래의 태그쪽으로 편향된다. 일부 구체예에서, 커버리지는 단편 크기의 범위 내의 단편 유래의 태그쪽으로 편향되고, 상기 범위의 상단은 약 150개 염기쌍 이하이다.

프로세스 200, 프로세스 220 및 프로세스 600의 다양한 실시형태에서, 서열 판독은 무세포계 핵산 단편의 핵산을 증폭시키는 PCR을 먼저 사용하지 않고 무세포계 핵산 단편을 시퀀싱하여 획득된다. 다양한 구체예에서, 시퀀싱 판독은 무세포계 핵산 단편을 샘플당 약 6 M 단편 이하의 깊이까지 시퀀싱하여 획득된다. 일부 구체예에서, 시퀀싱 깊이는 샘플당 약 1 M 단편 이하이다. 일부 구체예에서, 시퀀싱 판독은 멀티플렉스 시퀀싱에 의해 획득되고, 다중화된 샘플의 수는 적어도 약 24이다.

프로세스 200, 프로세스 220 및 프로세스 600의 다양한 실시형태에서, 검사 샘플은 개체 유래의 혈장을 포함한다. 일부 구체예에서, 상기 프로세스들은 검사 샘플로부터 무세포계 핵산을 획득하는 단계를 추가로 포함한다. 일부 구체예에서, 상기 프로세스들은 2종 이상의 게놈으로부터 유래하는 무세포계 핵산 단편을 시퀀싱하는 단계를 추가로 포함한다.

프로세스 200, 프로세스 220 및 프로세스 600의 다양한 실시형태에서, 2종 이상의 게놈은 모체와 태아 유래의 게놈을 포함한다. 일부 실시형태에서, 관심대상의 서열의 카피수 변이는 태아의 게놈에서의 이수성을 포함한다.

프로세스 200, 프로세스 220 및 프로세스 600의 다양한 실시형태에서, 2종 이상의 게놈은 암 및 체세포 유래의 게놈을 포함한다. 일부 실시형태에서, 상기 프로세스들은 암의 진단, 암 진행의 모니터링 및/또는 암 치료법의 결정을 위해 암 게놈의 카피수 변이를 사용하는 단계를 포함한다. 일부 실시형태에서, 카피수 변이는 유전적 이상을 유발한다.

프로세스 200, 프로세스 220 및 프로세스 600의 다양한 실시형태에서, 커버리지는 단편 크기 스펙트럼의 더 긴 말단에서 단편 유래의 태그쪽으로 편향된다. 일부 구체예에서, 커버리지는 지정된 값보다 긴 크기의 단편 유래의 태그쪽으로 편향된다. 일부 구체예에서, 커버리지는 단편 크기의 범위 내의 단편 유래의 태그쪽으로 편향되고, 상기 범위의 하단은 약 150개 염기쌍 이상이다.

프로세스 200, 프로세스 220 및 프로세스 600의 다양한 실시형태에서, 상기 프로세스들은 관심대상의 서열을 포함하는 게놈의 빈 내에서 상기 빈에서의 무세포계 핵산 단편의 메틸화 수준을 결정하는 단계 및 계산된 커버리지 또는 단편 크기 매개변수의 값 외에도 또는 그 대신에 메틸화 수준을 사용하여 카피수 변이를 동정하는 단계를 추가로 수반한다. 일부 실시형태에서, 메틸화 수준을 사용하여 카피수 변이를 동정하는 단계는 관심대상의 서열의 빈에 대한 전체 메틸화 프로파일을 제공하는 것을 수반한다. 전체 메틸화 프로파일은 적어도 관심대상의 서열의 빈에서 예상되는 메틸화 수준을 포함한다. 일부 실시형태에서, 예상 메틸화 수준은 검사 샘플의 핵산 단편과 실질적으로 동일한 방식으로 시퀀싱되고 정렬된 핵산을 포함하는 영향을 받지 않은 샘플의 트레이닝 세트에서 무세포계 핵산 단편의 길이로부터 획득되며, 여기서 예상 메틸화 수준은 빈 간의 변이를 나타낸다. 일부 실시형태에서, 상기 프로세스들은 적어도 관심대상의 서열의 빈에서의 예상 메틸화 수준을 사용하여 메틸화 수준의 값을 조정하고, 이를 통해 관심대상의 서열에 대한 메틸화 수준의 전체 프로파일-보정된 값을 획득하는 단계를 수반한다. 상기 프로세스들은 전체 프로파일-보정된 커버리지 및 전체 프로파일-보정된 메틸화 수준을 사용하여 카피수 변이를 동정하는 단계를 추가로 수반한다. 일부 실시형태에서, 전체 프로파일-보정된 커버리지 및 전체 프로파일-보정된 메틸화 수준을 사용하여 카피수 변이를 동정하는 단계는 전체 프로파일-보정된 커버리지 및 전체 프로파일-보정된 메틸화 수준을 GC 함량 수준에 기반하여 조정하고, 이를 통해 관심대상의 서열에 대한 GC-보정된 커버리지 및 메틸화 수준의 GC-보정된 값을 획득하고; GC-보정된 커버리지 및 메틸화 수준의 GC-보정된 값을 사용하여 카피수 변이를 동정하는 것을 추가로 포함한다.

프로세스 200, 프로세스 220 및 프로세스 600의 다양한 실시형태에서, 단편 크기 매개변수는 임계값보다 짧거나 긴 단편 크기를 갖는 검사 샘플에서의 무세포계 핵산 단편의 일부분을 포함하는 분율 또는 비율을 포함한다. 일부 실시형태에서, 단편 크기 매개변수는 (i) 110개 염기쌍을 포함하는 제1 크기 범위 내의 검사 샘플 중의 단편의 수 및 (ii) 제1 크기 범위 및 제1 크기 범위 밖의 크기를 포함하는 제2 크기 범위 내의 검사 샘플 중의 단편의 수를 포함하는 분율을 포함한다.

3-패스 프로세스, 가능도비, T 통계량 및/또는 태아 분획을 사용한 카피수 판정

도 2e는 카피수를 평가하기 위한 3-패스 프로세스의 흐름도를 도시한다. 그것은 모든 크기의 단편과 관련된 판독의 커버리지의 패스 1(또는 713A) 분석, 더 짧은 단편과 관련된 판독의 커버리지의 패스 2(또는 713B) 분석 및 모든 판독에 비해서 더 짧은 판독의 상대적 빈도의 패스 3(또는 713C) 분석을 포함하는 작업흐름 700의 3개의 중복되는 패스를 포함한다.

프로세스 700은 그의 전체적 구성면에서 프로세스 600과 유사하다. 블록 702, 블록 704, 블록 706, 블록 710, 블록 712로 표시된 작업들은 블록 602, 블록 604, 블록 606 및 블록 610, 및 블록 612로 표시된 작업들과 동일하거나 유사한 방식으로 수행될 수 있다. 판독 카운트가 획득된 후, 패스 713A에서 모든 크기의 단편 유래의 판독을 사용하여 커버리지를 결정한다. 패스 713B에서는 짧은 단편 유래의 판독을 사용하여 커버리지를 결정한다. 패스 713C에서는 모든 판독에 비해서 짧은 단편 유래의 판독의 빈도를 결정한다. 상대적 빈도는 본 명세서의 다른 부분에서 크기 비율 또는 크기 분율로서도 언급된다. 그것은 단편 크기 특징의 일례이다. 일부 실시형태에서, 짧은 단편은 약 150개 염기쌍보다 짧은 단편이다. 다양한 실시형태에서, 짧은 단편은 약 50 내지 150개, 80 내지 150개 또는 110 내지 150개 염기쌍의 크기 범위 내에 있을 수 있다. 일부 실시형태에서, 제3 패스 또는 패스 713C은 선택적이다.

3개의 패스 713A, 713B 및 713C의 데이터는 모두 정규화 작업 714, 작업 716, 작업 718, 작업 719 및 작업 722를 통해서 관심대상의 서열의 카피수와 무관한 변이를 제거한다. 이러한 정규화 작업들은 블록 723에 박스로 표시되어 있다. 작업 714는 관심대상의 서열의 분석된 분량을 참조 서열의 분량의 전체 값으로 나누어 관심대상의 서열의 분석된 분량을 정규화한다. 이러한 정규화 단계는 검사 샘플로부터 획득된 값을 사용한다. 마찬가지로, 작업 718 및 작업 722는 검사 샘플로부터 획득된 값을 사용하여 분석된 분량을 정규화한다. 작업 716 및 작업 719는 영향을 받지 않은 샘플의 트레이닝 세트로부터 획득된 값을 사용한다.

작업 716은 영향을 받지 않은 샘플의 트레이닝 세트로부터 획득된 전체 웨이브의 변동을 제거하며, 그것은 블록 616에 관련하여 설명한 바와 동일하거나 유사한 방법을 사용한다. 작업 718은 블록 618에 관련하여 설명한 바와 동일하거나 유사한 방법을 사용하여 개체 특이적 GC 변동을 제거한다.

작업 719는 주성분 분석(PCA) 방법을 사용하여 추가의 변동을 제거한다. PCA 방법에 의해 제거되는 변동은 관심대상의 서열의 카피수와 무관한 인자로 인한 것이다. 각 빈에서 분석되는 분량(커버리지, 단편 크기 비율 등)은 PCR에 대한 독립 변수를 제공하고, 영향을 받지 않은 트레이닝 세트의 샘플은 이러한 독립 변수들에 대한 값을 제공한다. 트레이닝 세트의 샘플은 모두 관심대상의 서열의 동일한 카피수, 예를 들어, 상염색체의 2개 카피, X 염색체의 1개 카피(남성 샘플이 영향을 받지 않은 샘플로서 사용되는 경우) 또는 X 염색체의 2개 카피(여성 샘플이 영향을 받지 않은 샘플로서 사용되는 경우)를 갖는 샘플을 포함한다. 따라서, 샘플에서의 변동은 이수성 또는 다른 카피수 차이로 인해 발생하지 않는다. 트레이닝 세트의 PCA로 관심대상의 서열의 카피수와 무관한 주성분이 산출된다. 이어서, 주성분을 사용하여 관심대상의 서열의 카피수와 무관한 검사 샘플에서의 변동을 제거할 수 있다.

특정의 구체예에서, 주성분들 중 하나 이상의 변동은 관심대상의 서열 밖의 영역에서 영향을 받지 않은 샘플의 데이터로부터 추정된 계수를 사용하여 검사 샘플의 데이터로부터 제거된다. 일부 실시형태에서, 상기 영역은 모든 견고한 염색체를 대표한다. 예를 들어, PCA를 트레이닝 정상 샘플의 정규화된 빈 커버리지 데이터에 대해 수행하고, 이를 통해 대부분의 데이터 변동이 포착될 수 있는 차원에 대응하는 주성분이 제공된다. 이렇게 포착된 변동은 관심대상의 서열의 카피수 변이와 무관하다. 주성분이 트레이닝 정상 샘플로부터 획득된 후, 주성분을 검사 데이터에 적용한다. 검사 샘플을 반응 변수로서 사용하고 주성분을 종속 변수로서 사용한 선형 회귀 모델을 관심대상의 서열 밖의 영역으로부터 빈에 걸쳐 생성한다. 추정된 회귀계수에 의해 규정된 주성분의 선형 조합을 공제하여, 획득된 회귀계수를 사용하여 관심대상의 영역의 빈 커버리지를 정규화한다. 이는 관심대상의 서열로부터 CNV와 무관한 변동을 제거한다. 블록 719를 참조한다. 잔여 데이터는 하류 분석을 위해 사용된다. 추가로, 작업 722는 블록 622과 관련하여 설명한 방법을 사용하여 이상점 데이터 포인트를 제거한다.

블록 723에서 정규화 작업을 수행한 후, 모든 빈의 커버리지 값을 "정규화"하여 이수성 이외의 변이 또는 기타 카피수 변이를 제거한다. 어떤 의미에서, 관심대상의 서열의 빈은 카피수 변이 검출의 목적으로 다른 빈에 비해서 농축되거나 변경된다. 작업은 아니지만 획득된 커버리지 값을 나타내는 블록 724를 참조한다. 더 큰 블록 723 안의 정규화 작업은 신호를 증가시킬 수 있고/있거나 분석중인 분량의 노이즈를 제거할 수 있다. 마찬가지로, 블록 728에 도시된 바와 같이 빈에 대한 짧은 단편의 커버리지 값을 정규화하여 이수성 이외의 변이 또는 다른 카피수 변이의 공급원을 제거하였고, 블록 732에 도시된 바와 같이 빈에 대한 짧은 단편의 상대적 빈도(또는 크기 비율)를 유사하게 정규화하여 이수성 이외의 변이 또는 다른 카피수 변이의 공급원을 제거하였다. 블록 724와 마찬가지로 블록 728 및 블록 732는 작업이 아니지만 대형 블록 723을 처리한 후의 커버리지 및 상대적 빈도값을 나타낸다. 대형 블록 723의 작업들은 변경되거나 재배열되거나 제거될 수 있다는 것이 이해되어야 한다. 예를 들어, 일부 구체예에서, PCA 작업 719는 수행되지 않는다. 다른 구체예에서, GC에 대한 보정 작업 718은 수행되지 않는다. 다른 구체예에서, 작업의 순서가 변화되고, 예를 들어, PCA 작업 719는 GC에 대한 보정 작업 718 전에 수행된다.

블록 724에 도시된 정규화 및 변동 제거 후 모든 단편의 커버리지를 사용하여 블록 726에서 t-통계량을 획득한다. 마찬가지로, 블록 728에 도시된 정규화 및 변동 제거 후 짧은 단편의 커버리지를 사용하여 블록 730에서 t-통계량을 획득하고, 블록 732에 도시된 정규화 및 변동 제거 후 짧은 단편의 상대적 빈도를 사용하여 블록 734에서 t-통계량을 획득한다.

도 2f는 t-통계량을 카피수 분석에 적용하는 것이 분석의 정확성을 향상시키는데 도움이 될 수 있는 이유를 입증한다. 도 2f는, 각 패널에서, 관심대상의 서열의 정규화된 빈 커버리지의 빈도 분포를 도시하며, 여기서 관심대상의 서열 분포는 참조 서열 분포와 겹쳐져서 이를 보기 어렵게 만들고 있다. 상부 패널에는, 6백만개 초과의 판독을 갖는, 높은 커버리지를 갖는 샘플에 대한 빈 커버리지가 도시되어 있으며; 하부 패널에는 2백만개 미만의 판독을 갖는, 낮은 커버리지를 갖는 샘플에 대한 빈 커버리지가 도시되어 있다. 수평축은 참조 서열의 평균 커버리지와 관련하여 정규화된 커버리지를 나타낸다. 수직축은 평균 커버리지 값을 갖는 빈의 수와 관련된 상대적 확률 밀도를 나타낸다. 따라서, 도 2f는 히스토그램의 한 유형이다. 관심대상의 서열에 대한 분포는 앞쪽에 도시되어 있으며, 참조 서열의 분포는 뒤쪽에 도시되어 있다. 관심대상의 서열의 분포에 대한 평균은 참조 서열의 분포에 대한 평균보다 낮은데, 이는 샘플의 낮아진 카피수를 나타낸다. 관심대상의 서열과 참조 서열 사이의 평균차는 상부 패널의 높은 커버리지 샘플 및 하부 패널의 낮은 커버리지 샘플에 대해 유사하다. 따라서, 일부 실시형태에서 평균의 차이를 이용하여 관심대상의 서열의 카피수 변이를 동정할 수 있다. 높은 커버리지 샘플의 분포는 낮은 커버리지 샘플의 분포보다 작은 분산을 가진다는 것을 유의한다. 두 분포를 구별하기 위해 평균만을 사용하는 것뿐만 아니라 평균과 분산 둘 다를 사용하는 것은 두 분포 간의 차이를 포착하지 않는다. t-통계량은 분포의 평균과 분산 둘 다를 반영할 수 있다.

일부 실시형태에서, 작업 726은 다음과 같이 t-통계량을 계산한다:

상기 식에서, x₁은 관심대상의 서열의 빈 커버리지이고, x₂는 참조 영역/서열의 빈 커버리지이고, s₁은 관심대상의 서열의 커버리지의 표준 편차이고, s₂는 참조 영역의 커버리지의 표준 편차이고, n₁은 관심대상의 서열의 빈의 수이고; n₂는 참조 영역의 빈의 수이다.

일부 실시형태에서, 참조 영역은 모든 견고한 염색체(예를 들여, 이수성을 보유할 가능성이 큰 염색체 이외의 염색체)을 포함한다. 일부 실시형태에서, 참조 영역은 관심대상의 서열 밖의 적어도 하나의 염색체를 포함한다. 일부 한정에서, 참조 영역은 관심대상의 서열을 포함하지 않는 견고한 염색체를 포함한다. 다른 실시형태에서, 참조 영역은 트레이닝 샘플 세트에 대해 최상의 신호 검출 능력을 제공하는 것으로 판정된 염색체의 세트(예를 들어, 견고한 염색체로부터 선택된 염색체의 부분집단)를 포함한다. 일부 구체예에서, 신호 검출 능력은 카피수 변이를 보유하는 빈을 카피수 변이를 보유하지 않는 빈과 구별하는 참조 영역의 능력에 기반한다. 일부 구체예에서, 참조 영역은 "정규화 서열의 동정"이란 표제의 섹션에 기재된 바와 같은 "정규화 서열" 또는 "정규화 염색체"를 결정하기 위해 사용된 방식과 유사한 방식으로 동정한다.

도 2e로 돌아오면, 하나 이상의 태아 분획 추정치(블록 735)를 블록 726, 블록 730 및 블록 734의 t 통계량 중 어느 하나와 조합하여 배수성 사례에 대한 가능도 추정치를 획득한다. 블록 736을 참조한다. 일부 실시형태에서, 블록 740의 하나 이상의 태아 분획은 도 2g의 프로세스 800, 도 2h의 프로세스 900 또는 도 2i의 프로세스 1000 중 어느 하나에 의해 획득된다. 상기 프로세스들은 도 2j에서 작업 흐름으로서 작업 흐름 1100을 사용하여 병렬로 실행될 수 있다.

도 2g는 본 발명의 일부 실시형태에 따라 커버리지 정보로부터 태아 분획을 판정하기 위한 예시적 프로세스 800을 도시한다. 프로세스 800은 트레이닝 세트로부터 트레이닝 샘플의 커버리지 정보(예를 들어, 서열 양 값)를 획득함으로써 시작한다. 블록 802를 참조한다. 트레이닝 세트의 각 샘플은 남성 태아를 잉태한 것으로 알려진 임산부로부터 획득된다. 즉, 샘플은 남성 태아의 cfDNA를 함유한다. 일부 실시형태에서, 작업 802는 본 명세서에서 설명한 바와 같은 서열 양과 상이한 방식으로 정규화된 서열 커버리지를 획득할 수 있거나 다른 커버리지 값을 획득할 수 있다.

그 다음, 프로세스 800은 트레이닝 샘플의 태아 분획을 계산하는 단계를 수반한다. 일부 실시형태에서, 태아 분획을 서열 양 값으로부터 계산할 수 있다:

상기 식에서, Rx _j 는 남성 샘플에 대한 서열 양이고, 중앙값(Rx _i )은 여성 샘플에 대한 서열 양의 중앙값이다. 다른 실시형태에서, 평균 또는 다른 집중화 경향( central tendency) 측정이 사용될 수 있다. 일부 실시형태에서, FF는 X 염색체와 Y 염색체의 상대적 빈도와 같은 다른 방법에 의해 획득될 수 있다. 블록 804를 참조한다.

프로세스 800은 참조 서열을 하위서열(subsequence)의 다수의 빈으로 분할하는 단계를 추가로 수반하다. 일부 실시형태에서, 참조 서열은 완전한 게놈이다. 일부 실시형태에서, 빈은 100 kb 빈이다. 일부 실시형태에서, 게놈은 약 25,000개의 빈으로 나뉜다. 이어서, 상기 프로세스는 빈의 커버리지를 획득한다. 블록 806을 참조한다. 일부 실시형태에서, 블록 806에서 사용되는 커버리지는 도 2j의 블록 1123에 도시된 정규화 작업을 수행한 후에 획득된다. 다른 실시형태에서, 상이한 크기 범위로부터의 커버리지가 사용될 수 있다.

각 빈은 트레이닝 세트의 샘플의 커버리지와 관련된다. 따라서, 각 빈에 대해, 샘플의 커버리지와 샘플의 태아 분획 사이에 상관관계가 획득될 수 있다. 프로세스 800은 모든 빈에 대해 태아 분획과 커버리지 사이에 상관관계를 획득하는 단계를 수반한다. 블록 808을 참조한다. 그 다음, 상기 프로세스는 임계값을 상회하는 상관관계 값을 갖는 빈을 선택한다. 블록 810을 참조한다. 일부 실시형태에서, 6000개의 최고 상관관계 값을 갖는 빈이 선택된다. 목적은 트레이닝 샘플에서 커버리지와 태아 분획 사이에 높은 상관관계를 나타내는 빈을 동정하는 것이다. 이어서, 빈을 사용하여 검사 샘플 중의 태아 분획을 예측할 수 있다. 트레이닝 샘플은 남성 샘플이지만, 태아 분획과 커버리지 사이의 상관관계는 남성과 여성 검사 샘플로 일반화될 수 있다.

높은 상관관계 값을 나타내는 선택된 빈을 사용함으로써 상기 프로세스는 태아 분획을 커버리지에 관련시키는 선형 모델을 획득한다. 블록 812를 참조한다. 선택된 각 빈은 선형 모델에 대한 독립 변수를 제공한다. 따라서, 획득된 선형 모델은 각 빈에 대한 매개변수 또는 가중치를 또한 포함한다. 빈의 가중치는 모델을 데이터에 핏팅시키도록 조정된다. 선형 모델을 획득한 후, 프로세스 800은 커버리지 데이터를 검사 샘플에 적용하여 검사 샘플의 태아 분획을 결정하는 단계를 수반한다. 블록 814를 참조한다. 검사 샘플의 적용된 커버리지 데이터는 태아 분획과 커버리지 사이에 높은 상관관계를 갖는 빈에 관한 것이다.

도 2j는 태아 분획 추정치를 획득하기 위해 사용될 수 있는 서열 판독 정보를 처리하기 위한 작업 흐름 1100을 도시한다. 작업 흐름 1100은 도 2d의 작업 흐름 600과 유사한 처리 단계들을 공유한다. 블록 1102, 블록 1104, 블록 1106, 블록 1110, 블록 1112, 블록 1123, 블록 1114, 블록 1116, 블록 1118 및 블록 1122는 각각 블록 602, 블록 604, 블록 606, 블록 610, 블록 612, 블록 623, 블록 614, 블록 616, 블록 618 및 블록 622에 대응한다. 일부 실시형태에서, 123 블록의 하나 이상의 정규화 작업은 선택적이다. 패스 1은 도 2g에 도시된 프로세스 800의 블록 806에서 사용될 수 있는 커버리지 정보를 제공한다. 이어서, 프로세스 800은 도 2j에서 태아 분획 추정치 1150을 산출할 수 있다.

일부 실시형태에서, 복수의 태아 분획 추정치(예를 들어, 도 2j의 1150 및 1152)를 조합하여 종합 태아 분획 추정치(예를 들어, 1154)를 제공할 수 있다. 태아 분획 추정치를 획득하기 위해 다양한 방법이 사용될 수 있다. 예를 들어, 태아 분획은 커버리지 정보로부터 획득될 수 있다. 도 2j의 블록 1150 및 도 2g의 프로세스 800을 참조한다. 일부 실시형태에서, 태아 분획은 단편의 크기 분포로부터 추정될 수도 있다. 도 2j의 블록 1152 및 도 2h의 프로세스 900을 참조한다. 일부 실시형태에서, 태아 분획은 또한 8량체 빈도 분포로부터 추정될 수도 있다. 도 2j의 블록 1152 및 도 2i의 프로세스 1000을 참조한다.

남성 태아의 cfDNA를 포함하는 검사 샘플에서, 태아 분획을 Y 염색체 및/또는 X 염색체의 커버리지로부터 추정할 수도 있다. 일부 실시형태에서, 추정상 남아인 태아에 대한 태아 분획의 종합 추정치(예를 들어, 블록 1155를 참조)는 빈의 커버리지 정보로부터 획득된 태아 분획, 단편 크기 정보로부터 획득된 태아 분획, Y 염색체의 커버리지로부터 획득된 태아 분획, X 염색체로부터 획득된 태아 분획 및 그들의 임의의 조합으로 이루어진 군으로부터 선택된 정보를 사용하여 획득된다. 일부 실시형태에서, 태아의 추정 성은 Y 염색체의 커버리지를 사용하여 획득된다. 2종 이상의 태아 분획(예를 들어, 1150 및 1152)을 다양한 방식으로 조합하여 태아 분획(예를 들어, 1155)의 종합 추정치를 제공할 수 있다. 예를 들어, 평균 또는 가중 평균 방법이 일부 실시형태에서 사용될 수 있으며, 여기서 가중은 태아 분획 추정치의 통계적 신뢰에 기반할 수 있다.

일부 실시형태에서, 추정상 여성인 태아에 대한 태아 분획의 종합 추정치는 빈의 커버리지 정보로부터 획득된 태아 분획, 단편 크기 정보로부터 획득된 태아 분획 및 그들의 임의의 조합으로 이루어진 군으로부터 선택된 정보를 사용하여 획득된다.

도 2h는 일부 실시형태에 따라 크기 분포 정보로부터 태아 분획을 결정하기 위한 프로세스를 도시한다. 프로세스 900은 트레이닝 세트로부터 남성 트레이닝 샘플의 커버리지 정보(예를 들어, 서열 양 값)를 획득함으로써 시작한다. 블록 902를 참조한다. 이어서, 프로세스 900은 블록 804와 관련하여 위에서 설명한 방법을 사용하여 트레이닝 샘플의 태아 분획을 계산하는 단계를 수반한다. 블록 904를 참조한다.

프로세스 900은 크기 범위를 복수의 빈으로 분할하여 단편 크기-기반 빈을 제공하고 이 단편 크기-기반 빈에 대한 판독의 빈도를 결정하도록 진행한다. 블록 906을 참조한다. 일부 실시형태에서, 단편 크기-기반 빈의 빈도는 블록 1123에 도시된 요인들에 대한 정규화 없이 획득된다. 도 2j의 경로 1124를 참조한다. 일부 실시형태에서, 단편 크기-기반 빈의 빈도는 임의로 도 2j의 블록 1123에 도시된 정규화 작업들을 수행한 후 획득된다. 일부 실시형태에서, 크기 범위는 40개의 빈으로 분할된다. 일부 실시형태에서, 낮은 수준의 빈은 약 55개 염기쌍보다 작은 크기의 단편을 포함한다. 일부 실시형태에서, 낮은 수준의 빈은 약 50개 내지 55개 염기쌍 범위의 크기의 단편을 포함하며, 상기 범위는 50 bp보다 짧은 판독에 대한 정보는 제외한다. 일부 실시형태에서, 높은 수준의 빈은 약 245개 염기쌍보다 큰 크기의 단편을 포함한다. 일부 실시형태에서, 높은 수준의 빈은 약 245개 내지 250개 염기쌍 범위의 크기의 단편을 포함하며, 상기 범위는 250 bp보다 긴 판독에 대한 정보는 제외한다.

프로세스 900은, 트레이닝 샘플의 데이터를 사용하여, 태아 분획을 단편 크기-기반 빈에 대한 판독의 빈도에 관련시키는 선형 모델을 획득함으로써 진행한다. 블록 908을 참조한다. 획득된 선형 모델은 크기 기반 빈의 판독의 빈도에 대한 독립 변수를 포함한다. 모델은 또한 각 크기 기반 빈에 대한 매개변수 또는 가중치를 포함한다. 빈의 가중치는 모델을 데이터에 핏팅시키도록 조정된다. 선형 모델을 획득한 후, 프로세스 900은 검사 샘플의 판독 빈도 데이터를 모델에 적용하여 검사 샘플에 대한 태아 분획을 결정하는 단계를 수반한다. 블록 910을 참조한다.

일부 실시형태에서, 8량체 빈도를 사용하여 태아 분획을 계산할 수 있다. 도 2i는 본 발명의 일부 실시형태에 따라 8량체 빈도 정보로부터 태아 분획을 판정하기 위한 예시적 프로세스 1000을 도시한다. 프로세스 1000은 트레이닝 세트의 남성 트레이닝 샘플의 커버리지 정보(예를 들어, 서열 양 값)을 획득함으로써 시작한다. 블록 1002를 참조한다. 이어서, 프로세스 1000은 블록 804에 대해 설명한 방법들 중 어느 하나를 사용하여 트레이닝 샘플의 태아 분획을 계산하는 단계를 수반한다. 블록 1004를 참조한다.

프로세스 1000은 각 트레이닝 샘플의 판독으로부터 8량체의 빈도(예를 들어, 8개의 위치에서 4종의 뉴클레오티드의 모든 가능한 순열)를 획득하는 단계를 추가로 수반한다. 블록 1006을 참조한다. 일부 실시형태에서, 최대 65,536개 또는 그에 가까운 많은 8량체 및 그의 빈도가 획득된다. 일부 실시형태에서, 8량체의 빈도는 블록 1123에 도시된 요인들에 대한 정규화 없이 획득된다. 도 2j의 경로 1124를 참조한다. 일부 실시형태에서, 8량체 빈도는 임의로 도 2j의 블록 블록 1123에 도시된 정규화 작업들을 수행한 후 획득된다.

각 8량체는 트레이닝 세트의 샘플의 빈도과 관련된다. 따라서, 각 8량체에 대해, 샘플의 8량체 빈도와 샘플의 태아 분획 사이에 상관관계가 획득될 수 있다. 프로세스 1000은 모든 8량체 대해 태아분획과 8량체 빈도 사이의 상관관계를 획득하는 단계를 수반한다. 블록 1008을 참조한다. 이어서, 상기 프로세스는 임계값을 상회하는 상관관계 값을 갖는 8량체를 선택한다. 블록 1010을 참조한다. 목적은 트레이닝 샘플에서 8량체 빈도와 태아 분획 사이에 높은 상관관계를 나타내는 8량체를 동정하는 것이다. 이어서, 빈을 사용하여 검사 샘플 중의 태아 분획을 예측할 수 있다. 트레이닝 샘플이 남성 샘플이지만, 태아 분획과 8량체 빈도 사이의 상관관계는 남성과 여성 검사 샘플로 일반화될 수 있다.

높은 상관관계 값을 나타내는 선택된 8량체를 사용하여, 상기 프로세스는 태아 분획을 8량체 빈도에 관련시키는 선형 모델을 획득한다. 블록 1012를 참조한다. 선택된 각 빈은 선형 모델에 대한 독립 변수를 제공한다. 따라서, 획득된 선형 모델은 각 빈에 대한 매개변수 또는 가중치를 또한 포함한다. 선형 모델을 획득한 후, 프로세스 1000은 검사 샘플의 8량체 빈도 데이터를 모델에 적용하여 검사 샘플에 대한 태아 분획을 결정하는 단계를 수반한다. 블록 1014를 참조한다.

도 2e로 돌아오면, 일부 실시형태에서, 프로세스 700은 작업 726에 의해 제공된 모든 단편의 커버리지에 기반한 t-통계량, 작업 726에 의해 제공된 태아 분획 추정치 및 작업 730에 의해 제공된 짧은 단편의 커버리지에 기반한 t-통계량을 사용하여 작업 736에서 최종 배수성 가능도를 획득하는 단계를 수반한다. 이러한 실시형태는 다변량 정규 모델을 사용하여 패스 1 및 패스 2로부터의 결과를 조합한다. CNV를 평가하기 위한 일부 실시형태에서, 배수성 가능도는 이수성 가능도로서, 이것은 이수성 추정(예를 들어, 트리소미 또는 모노소미)을 갖는 모델의 가능도에서 정배수성 추정을 갖는 모델의 가능도를 공제한 것이며, 여기서 상기 모델은 입력으로서 모든 단편의 커버리지에 기반한 t-통계량, 태아 분획 추정치 및 짧은 단편의 커버리지에 기반한 t-통계량을 사용하고 출력으로서 가능도를 제공한다.

일부 실시형태에서, 배수성 가능도는 가능도비로서 표현된다. 일부 실시형태에서, 가능도비는 다음과 같이 모델링된다:

상기 식에서, p ₁ 은 데이터가 3-카피 또는 1-카피 모델을 나타내는 다변량 정규 분포로부터 생성될 가능도를 나타내고, p _o 는 데이터가 2-카피 모델을 나타내는 다변량 정규 분포로부터 생성될 가능도를 나타내고, T_short, T_all은 짧은 단편 및 모든 단편으로부터 생성된 염색체 커버리지로부터 계산된 T 점수이고, 한편 q(ff _total )은 태아 분획 추정과 관련된 오차를 고려하는 (트레이닝 데이터로부터 추정되는) 태아 분획의 밀도 분포이다. 모델은 짧은 단편으로부터 생성된 커버리지를 모든 단편에 의해 생성된 커버리지와 조합하고, 이것은 영향을 받은 샘플과 영향을 받지 않은 샘플의 커버리지 점수 사이의 구분을 향상시키는데 도움이 된다. 서술한 구체예에서, 모델은 또한 태아 분획을 이용하고, 이를 통해 영향을 받은 샘플과 영향을 받지 않은 샘플 사이를 식별하는 능력을 더욱 향상시킨다. 여기서, 가능도비는 위에서 설명한 바와 같이 모든 단편의 커버리지에 기반한 t-통계량(726), 짧은 단편의 커버리지에 기반한 t-통계량(730) 및 프로세스 800(또는 블록 726), 프로세스 900 또는 프로세스 1000에 의해 제공된 태아 분획 추정치를 사용하여 계산된다. 일부 실시형태에서, 이러한 가능도비는 13번 염색체, 18번 염색체 및 21번 염색체를 분석하기 위해 사용된다.

일부 실시형태에서, 작업 736에 의해 획득된 배수성 가능도비는 패스 3의 작업 734에 의해 제공된 짧은 단편의 상대적 빈도에 기반하여 획득된 t-통계량 및 작업 726, 프로세스 800, 프로세스 900 또는 프로세스 1000에 의해 제공된 태아 분획 추정치만을 사용한다. 가능도비는 다음의 수학식에 따라서 계산될 수 있다:

상기 식에서, p ₁ 은 데이터가 3-카피 또는 1-카피 모델을 나타내는 다변량 정규 분포로부터 생성될 가능도를 나타내고, p _o 는 데이터가 2-카피 모델을 나타내는 다변량 정규 분포로부터 생성될 가능도를 나타내고, T_short-freg는 짧은 단편의 상대적 빈도로부터 계산된 T 점수이고, 한편 q(ff _total )은 태아 분획 추정과 관련된 오차를 고려하는 (트레이닝 데이터로부터 추정되는) 태아 분획의 밀도 분포이다. 여기서, 가능도비는 위에서 설명한 바와 같이 짧은 단편의 상대적 빈도에 기반한 t-통계량(734) 및 프로세스 800(또는 블록 726), 프로세스 900 또는 프로세스 1000에 의해 제공된 태아 분획 추정치를 사용하여 계산된다. 일부 실시형태에서, 이러한 가능도비는 X 염색체를 분석하기 위해 사용된다.

일부 실시형태에서, 가능도비는 모든 단편의 커버리지에 기반한 t-통계량(726), 짧은 단편의 커버리지에 기반한 t-통계량(730) 및 짧은 단편의 상대적 빈도(734)를 사용하여 계산된다. 게다가, 위에서 설명한 바와 같이 획득된 태아 분획을 t-통계량과 조합하여 가능도비를 계산할 수 있다. 3개의 패스 713A, 패스 713B 및 패스 713C 중 어느 것으로부터의 정보를 조합하여 배수성 평가의 식별능을 향상시킬 수 있다. 예를 들어, 실시예 2 및 도 12를 참조한다. 일부 실시형태에서, 상이한 조합, 예를 들어 모든 3개의 패스로부터의 t 통계량, 제1 패스와 제2 패스로부터의 t 통계량, 태아 분획과 3가지 t-통계량, 태아 분획과 1가지 t-통계량 등을 사용하여 염색체에 대한 가능도비를 수득할 수 있다. 이어서, 모델 성능에 기반하여 최적의 조합을 선택할 수 있다.

상염색체를 평가하기 위한 일부 실시형태에서, 모델링된 가능도비는 이배체 샘플로부터 획득된 모델링된 데이터의 가능도비에 상대적인 트리소미 또는 모노소미 샘플로부터 획득된 모델링된 데이터의 가능도를 나타낸다. 이러한 가능도비는 일부 실시형태에서 상염색체의 트리소미 또는 모노소미를 결정하기 위해 사용될 수 있다.

성 염색체를 평가하기 위한 일부 실시형태에서, 모노소미 X에 대한 가능도비 및 트리소미 X에 대한 가능도비가 평가된다. 게다가, 염색체 X에 대한 염색체 커버리지 측정(예를 들어, CNV 또는 커버리지 z 점수) 및 Y 염색체에 대한 염색체 커버리지 측정도 평가된다. 일부 실시형태에서, 4개의 값을 의사결정 트리를 사용하여 평가하여 성 염색체의 카피수를 결정한다. 일부 실시형태에서, 의사결정 트리는 XX, XY, X, XXY, XXX 또는 XYY의 배수성 사례를 판정할 수 있게 한다.

일부 실시형태에서, 가능도비는 대수 가능도비로 전환되고, 이수성 또는 카피수 변이를 호출하기 위한 기준 또는 임계값은 특정 감도 및 선택도를 획득하도록 경험적으로 설정될 수 있다. 예를 들어, 트레이닝 세트에 적용되는 경우 모델의 감도 및 선택성에 기반하여 트리소미 13 또는 트리소미 18을 호출하기 위해 1.5의 대수 가능도비가 설정될 수 있다. 게다가, 예를 들어 일부 적용에서는 21번 염색체의 트리소미에 대해 3의 호출 기준 값이 설정될 수 있다.

서열 커버리지를 판정하기 위한 예시적 프로세스에 대한 상세한 내용

도 3a는 검사 샘플에서 서열 데이터의 노이즈를 감소시키기 위한 프로세스 301의 예를 제시한다. 도 3b 내지 3j는 상기 프로세스의 다양한 단계에서의 데이터 분석을 제시한다. 이것은 도 2d에 도시된 바와 같은 다중패스 프로세스에서 사용될 수 있는 프로세스 흐름의 일례를 제공한다.

도 3a에 예시된 프로세스 301은 서열 태그의 수에 기반한 서열 태그 커버리지를 사용하여 카피수를 평가한다. 그러나, 도 1과 관련하여 CNV 판정을 위한 프로세스 100에 관한 위의 설명과 유사하게, 프로세스 400에 대해 커버리지 대신에 크기, 크기 비율 및 메틸화 수준과 같은 다른 변수 또는 매개변수가 사용될 수 있다. 일부 실시형태에서, 도 2d와 관련하여 위에서 제시한 바와 같이, 2종 이상의 변수를 동일한 프로세스에 별도로 적용하여 CNV의 확률을 시사하는 2개의 점수를 도출할 수 있다. 그 다음, 2개의 점수를 조합하여 CNV를 판정할 수 있다. 또한, 커버리지 및 다른 매개변수는 태그가 유래되는 단편의 크기에 기반하여 가중될 수 있다. 판독의 용이함을 위해, 프로세스 300에서 커버리지만이 언급되지만, 커버리지 대신에 크기, 크기 비율 및 메틸화 수준, 크기에 의해 가중된 카운트 등과 같은 다른 매개변수가 사용될 수 있다는 것을 유의해야 한다.

도 3a에 도시된 바와 같이, 서술한 프로세스는 하나 이상의 샘플로부터의 cfDNA 추출로 시작된다. 블록 303을 참조한다. 적합한 추출 방법 및 장치는 본 명세서의 다른 부분에 기재되어 있다. 일부 구체예에서, 2013년 3월 15일자로 제출된 미국 특허 출원 제61/801,126호(전체가 본 명세서에서 참조로 인용된다)에 기재된 방법은 cfDNA를 추출한다. 일부 실시형태에서, 장치는 다수의 샘플 유래의 cfDNA를 함께 처리하여 다중화 라이브러리 및 서열 데이터를 제공한다. 도 3a의 블록 305 및 307을 참조한다. 일부 구체예에서, 장치는 8종 이상의 검사 샘플 유래의 cfDNA를 병렬로 처리한다. 본 명세서의 다른 부분에서 설명한 바와 같이, 시퀀싱 시스템은 추출된 cfDNA를 처리하여 코드화된(예를 들어, 바코드화된) cfDNA 단편의 라이브러리를 생성할 수 있다. 시퀀서는 cfDNA 라이브러리를 시퀀싱하여 매우 많은 수의 서열 판독을 생성한다. 샘플당 코드화로 다중화된 샘플에서 판독의 역다중화가 가능해진다. 8종 이상의 샘플 각각은 수십만 개 또는 수백만 개의 판독을 가질 수 있다. 프로세스는 도 3a에서 추가적인 작업 전에 판독을 필터링할 수 있다. 일부 구체예에서, 판독의 필터링은 잘못된 판독 및 저질 판독을 필터링 제거하기 위해 시퀀서에서 실행되는 소프트웨어 프로그램에 의해 가능한 정확도-필터링 과정이다. 예를 들어, Illumina의 Sequencing Control Software(SCS) 및 Consensus Assessment of Sequence and Variation 소프트웨어 프로그램은 시퀀싱 반응에 의해 생성된 원시 이미지 데이터를 강도 점수, 염기 호출, 정확도 점수화된 정렬 및 추가적 형식으로 전환하여 잘못된 판독 및 저질 판독을 필터링 제거하여 하류의 분석을 위한 생물학적으로 관련된 정보를 제공한다.

시퀀서 또는 다른 장치가 샘플에 대한 판독을 생성한 후, 시스템의 요소는 판독을 연산적으로 참조 게놈에 정렬한다. 블록 309를 참조한다. 정렬은 본 명세서의 다른 부분에 설명되어 있다. 정렬은 참조 게놈상의 고유한 위치를 특정하는 주석이 달린 위치 정보와 함께 판독 서열을 함유하는 태그를 생성한다. 특정 실시형태에서, 시스템은 동일한 서열을 갖는 2개 이상의 판독인 중복 판독을 고려하지 않고 제1 패스 정렬을 실시하고, 후속적으로 중복 판독을 제거하거나 중복 판독을 단일 판독으로 카운팅하여 비-중복된 서열 태그를 생성한다. 다른 실시형태에서, 시스템은 중복된 판독을 제거하지 않는다. 일부 구체예에서, 프로세스는 게놈상의 다수의 위치에 정렬되는 판독을 고려에서 제거하여 고유하게 정렬된 태그를 생성한다. 일부 구체예에서, 비-제외 부위(NES)에 매핑된, 고유하게 정렬된 비-중복 서열 태그를 감정하여, 커버리지를 추정하는 데이터를 제공하는 비-제외 부위 카운트(NES 카운트)를 산출한다.

다른 부분에 설명된 바와 같이, 제외 부위는 서열 태그를 계산하기 위한 목적으로 제외된 참조 게놈의 영역에서 발견되는 부위이다. 일부 구체예에서, 제외 부위는 반복적인 서열을 함유하는 염색체 영역, 예를 들어, 동원체와 텔로미어, 및 1종 이상의 염색체에 공통되는 염색체의 영역, 예를 들어, X 염색체에도 존재하는 Y 염색체에 존재하는 영역에서 발견된다. 비-제외 부위(NES)는 서열 태그를 카운팅하기 위한 목적으로 참조 게놈에서 제외되지 않는 부위이다.

그 다음, 시스템은 정렬된 태그를 참조 게놈상의 빈으로 분할한다. 블록 311을 참조한다. 빈은 참조 게놈의 길이를 따라 이격된다. 일부 구체예에서, 참조 게놈 전체를 규정된 동일한 크기(예: 100kb)를 가질 수 있는 인접한 빈으로 분할한다. 대안적으로, 빈은 아마도 샘플마다 동적으로 결정된 길이를 가질 수 있다. 시퀀싱 깊이는 최적의 빈 크기의 선택에 영향을 미친다. 동적 크기의 빈은 라이브러리 크기에 의해 결정되는 크기를 가질 수 있다. 예를 들어, 빈 크기는 평균 1000개의 태그를 수용하는데 필요한 서열 길이인 것으로 결정될 수 있다.

각 빈은 고려 중인 샘플 유래의 다수의 태그를 갖는다. 정렬된 서열의 "커버리지"를 반영하는 이러한 태그의 수는 샘플 데이터를 필터링하고, 그렇지 않으면 청소하는 시작점으로서 작용하여 샘플의 카피수 변화를 신뢰성 있게 판정한다. 도 3a는 블록 313 내지 블록 321에서의 클리닝 작업을 도시한다.

도 3a에 도시된 구체예에서, 프로세스는 마스크를 참조 게놈의 빈에 적용한다. 블록 313을 참조한다. 시스템은 그 다음의 처리 작업들의 일부 또는 전부에서 마스킹된 빈의 커버리지를 고려에서 제외시킬 수 있다. 많은 경우에, 마스킹된 빈 유래의 커버리지 값은 도 3a의 나머지 작업들 어느 것에서도 고려되지 않는다.

다양한 실시형태에서, 하나 이상의 마스크를 적용하여 각 샘플마다 높은 가변성을 나타내는 것으로 확인된 게놈 영역에 대한 빈을 제거한다. 이러한 마스크를 관심대상의 염색체(예를 들어, 13번, 18번 및 21번 염색체)와 다른 염색체 둘 다에 제공한다. 다른 부분에서 설명된 바와 같이, 관심대상의 염색체는 카피수 변이 또는 다른 이상을 잠재적으로 보유하는 것으로 고려 중인 염색체이다.

일부 실시형태에서, 마스크는 다음의 방법을 이용하여 적격 샘플 트레이닝 세트로부터 동정한다. 처음에는, 도 3a의 작업 315 내지 작업 319에 따라 각 트레이닝 세트 샘플을 처리하고 필터링한다. 이어서, 정규화되고 보정된 커버리지 분량을 각 빈에 대해 기록하고 표준 편차, 중위 절대 편차 및/또는 변동계수 등의 통계를 각 빈에 대해 계산한다. 다양한 필터의 조합이 관심대상의 각 염색체에 대해 평가될 수 있다. 필터의 조합은 관심대상의 염색체의 빈에 대한 하나의 필터 및 다른 모든 염색체의 빈에 대한 상이한 필터를 제공한다.

일부 실시형태에서 (예를 들어, 위에서 언급한 바와 같이, 관심대상의 염색체에 대한 컷오프를 선정하여) 마스크를 획득한 후, 정규화 염색체 (또는 염색체 군)의 선정을 재고한다. 서열 마스크를 적용한 후, 1종 이상의 정규화 염색체를 선정하는 과정을 본 명세서의 다른 부분에서 언급된 바와 같이 수행할 수 있다. 예를 들어, 염색체의 가능한 모든 조합을 정규화 염색체로 평가하고 영향을 받은 샘플과 영향을 받지 않은 샘플을 구별할 수 있는 그들의 능력에 따라 순위를 매긴다. 이러한 과정은 상이한 최적의 정규화 염색체 또는 염색체 군을 찾아낼 수 있다(또는 찾아낼 수 없다). 다른 구체예에서, 정규화 염색체는 모든 적격 샘플에 걸쳐 관심대상의 서열에 대한 서열 양의 최소 가변성을 초래하는 것이다. 상이한 정규화 염색체 또는 염색체 군이 동정되는 경우, 프로세스는 임의로 위에서 언급된 필터에 대한 빈의 동정을 수행한다. 아마도 새로운 정규화 염색체(들)은 상이한 컷오프를 초래할 것이다.

특정 구체예에서, 상이한 마스크를 Y 염색체에 대하여 적용한다. 적절한 Y 염색체 마스크의 예는 모든 목적을 위해 본 명세서에서 참조로 인용하는, 2013년 6월 17일자로 제출된 미국 가특허출원 제61/836,057 호[대리인 정리번호 ARTEP008P]에 기재되어 있다.

시스템이 연산적으로 빈을 마스킹한 후, 마스크에 의해 제외되지 않은 빈의 커버리지 값을 연산적으로 정규화한다. 블록 315를 참조한다. 특정 구체예에서, 시스템은 각 빈의 검사 샘플 커버리지 값(예를 들어, 빈 당 NES 카운트)를 참조 게놈 또는 그의 일부분의 커버리지(예를 들어, 참조 게놈의 견고한 염색체에서의 커버리지)의 대부분 또는 모두에 대해 정규화한다. 일부의 경우에, 시스템은 고려 중인 빈에 대한 카운트를 참조 게놈의 모든 견고한 염색체에 정렬되는 모든 비-제외 부위의 총수로 나누어 (빈 당) 검사 샘플 커버리지 값을 정규화한다. 일부 구체예에서, 시스템은 선형 회귀를 실시하여 (빈 당) 검사 샘플 커버리지 값을 정규화한다. 예를 들어, 시스템은 먼저 견고한 염색체에서의 빈의 부분집단에 대한 커버리지를 y_a = 절편 + 기울기 * gwp_a(여기서, y_a는 빈 a에 대한 커버리지이며, gwp_a는 동일한 빈에 대한 전체 프로파일이다)으로서 계산한다. 이어서, 시스템은 정규화된 커버리지 z_b를 z_b = y_b/(절편 + 기울기 * gwp_b)-1로서 계산한다.

위에서 설명한 바와 같이, 견고한 염색체는 이수성일 가능성이 낮은 염색체이다. 특정 구체예에서, 견고한 염색체는 13번 염색체, 18번 염색체 및 21번 염색체 이외의 모든 상염색체이다. 일부 구체예에서, 견고한 염색체는 정상 이배체 게놈에서 벗어난 것으로 판정된 염색체 이외의 모든 상염색체이다.

빈의 변환된 카운트 값 또는 커버리지는 추가 처리를 위한 "정규화된 커버리지 분량"이라 언급된다. 정규화는 각 샘플에 고유한 정보를 이용하여 실시된다. 일반적으로, 트레이닝 세트의 정보는 사용되지 않는다. 정규화는 상이한 라이브러리 크기(및 그 결과로 상이한 수의 판독 및 태그)를 갖는 샘플로부터의 커버리지 분량이 동일한 기반에서 처리될 수 있게 한다. 후속 처리 작업의 일부는 고려 중인 검사 샘플을 위해 사용되는 라이브러리보다 크거나 작은 라이브러리로부터 시퀀싱될 수 있는 트레이닝 샘플로부터 도출되는 커버리지 분량을 이용한다. 참조 게놈 전체(또는 적어도 견고한 염색체)에 정렬된 판독의 수에 기반한 정규화 없이, 트레이닝 세트로부터 도출된 매개변수를 이용한 처리는 일부 실시형태에서 신뢰할 수 없거나 일반화할 수 없을 수도 있다.

도 3b는 많은 샘플에 대한 21번 염색체, 13번 염색체 및 18번 염색체에 걸친 커버리지를 예시한다. 샘플의 일부는 서로 다르게 처리하였다. 그 결과로서, 임의의 소정의 게놈 지점에서 각 샘플 간의 폭넓은 변이를 볼 수 있다. 정규화는 샘플 간의 변이의 일부를 제거한다. 도 3c의 왼쪽 패널은 게놈 전체에 걸쳐 정규화된 커버리지 분량을 도시한다.

도 3a의 구체예에서, 시스템은 작업 315에서 생성된 정규화된 커버리지 분량으로부터 "전체 프로파일"을 제거하거나 감소시킨다. 블록 317을 참조한다. 이러한 작업은 게놈의 구조, 라이브러리 생성 과정 및 시퀀싱 과정에서 발생하는 정규화된 커버리지 분량의 체계적인 편향을 제거한다. 또한, 이러한 작업은 임의의 소정의 샘플에서 예상되는 프로파일로부터 임의의 체계적인 선형 편차를 보정하도록 설계된다.

일부 구체예에서, 전체 프로파일 제거는 각 빈의 정규화된 커버리지 분량을 각 빈의 대응하는 예상값으로 나누는 것을 수반한다. 다른 구체예에서, 전체 프로파일 제거는 각 빈의 정규화된 커버리지 분량으로부터 각 빈의 예상값을 공제하는 것을 수반한다. 예상값은 영향을 받지 않은 샘플(또는 X 염색체에 관해서 영향을 받지 않은 여성 샘플)의 트레이닝 세트에서 획득될 수 있다. 영향을 받지 않은 샘플은 관심대상의 염색체에 대해 이수성을 갖지 않는 것으로 알려진 개체 유래의 샘플이다. 일부 구체예에서, 전체 프로파일 제거는 각 빈의 정규화된 커버리지 분량에서 (트레이닝 세트에서 획득된) 각 빈의 예상치를 공제하는 것을 수반한다. 일부 구체예에서, 프로세스는 트레이닝 세트를 사용하여 결정되는 각 빈에 대한 정규화된 커버리지 분량의 중앙값을 사용한다. 즉, 중앙값은 예상값이다.

일부 구체예에서, 전체 프로파일 제거는 샘플 커버리지의 전체 프로파일에의 의존도에 대한 선형 보정을 사용하여 실행된다. 나타낸 바와 같이, 전체 프로파일은 트레이닝 세트로부터 결정되는 각 빈에 대한 예상값(예를 들어, 각 빈에 대한 중앙값)이다. 이러한 구체예는 검사 샘플의 정규화된 커버리지 분량을 각 빈에 대해 획득된 전체 중앙값 프로파일에 핏팅(fitting)시킴으로써 획득되는 견고한 선형 모델을 이용할 수 있다. 일부 구체예에서, 선형 모델은 샘플의 관찰된 정규화된 커버리지 분량을 전체 평균(또는 다른 예상값) 프로파일에 대해 회귀시킴으로써 획득된다.

선형 모델은 샘플 커버리지 분량이 전체 프로파일 값과 선형 관계를 가지며 이러한 선형의 관계가 견고한 염색체/영역 및 관심대상의 서열 둘 다에 대해 유지되어야 한다는 가정에 근거한다. 도 3d를 참조한다. 이러한 경우, 전체 프로파일의 예상 커버리지 분량에 대한 샘플의 정규화된 커버리지 분량의 회귀는 기울기와 절편을 갖는 직선을 생성할 것이다. 특정 구체예에서, 이러한 직선의 기울기와 절편을 이용하여 빈에 대한 전체 프로파일 값으로부터 "예측" 커버리지 분량을 계산한다. 일부 실시형태에서, 전체 프로파일 보정은 빈에 대한 예측 커버리지 분량에 의해 각 빈의 정규화된 커버리지 분량을 모델링하는 것을 수반한다. 일부 실시형태에서, 검사 서열 태그의 커버리지는, (i) 검사 서열 태그의 커버리지 대 1종 이상의 견고한 염색체 또는 영역 내의 복수의 빈에서의 예상 커버리지 사이의 수학적 관계를 획득하고; (ii) 수학적 관계를 관심대상 서열의 빈에 적용함으로써 조정된다. 일부 실시형태에서, 검사 샘플에서의 커버리지는, 영향을 받지 않은 트레이닝 샘플로부터 예상되는 커버리지 값과 게놈의 견고한 염색체 또는 다른 견고한 영역에서의 검사 샘플에 대한 커버리지 값 사이의 선형 관계를 사용하여 변이에 대해 보정된다. 조정은 전체 프로파일-보정된 커버리지를 초래한다. 일부의 경우에, 조정은 다음과 같이 견고한 염색체 또는 영역 내의 빈의 부분집단에 대해 검사 샘플에 대한 커버리지를 획득하는 것을 수반한다:

y _a = 절편 + 기울기 * gwp _a

상기 식에서, y_a는 1종 이상의 견고한 염색체 또는 영역에서의 검사 샘플에 대한 빈 a의 커버리지이고, gwp_a는 영향을 받지 않은 트레이닝 샘플에 대해 빈 a에 대한 전체 프로파일이다. 이어서, 프로세스는 다음과 같이 관심대상의 서열 또는 영역에 대한 전체 프로파일-보정된 커버리지 zb를 계산한다:

z _b = y _b /(절편 + 기울기 * gwp _b )-1

상기 식에서, y_b는 관심대상의 서열(견고한 염색체 또는 영역의 외부에 존재할 수 있음)에서의 검사 샘플에 대한 빈 b의 관찰된 커버리지이고, gwp_b는 영향을 받지 않은 트레이닝 샘플에 대해 빈 b에 대한 전체 프로파일이다. 분모(절편 + 기울기 * gwp_b)는 게놈의 견고한 영역으로부터 추정된 관계에 기반하여 영향을 받지 않은 검사 샘플에서 관찰될 것으로 예측되는 빈 b에 대한 커버리지이다. 카피수 변이를 보유한 관심대상 서열의 경우, 관찰되는 커버리지 및 이에 따라 빈 b에 대한 전체 프로파일 보정된 커버리지 값은 영향을 받지 않은 샘플의 커버리지로부터 상당히 벗어날 것이다. 예를 들어, 보정된 커버리지 zb는 영향을 받은 염색체상의 빈에 대해서 트리소미 샘플의 경우에 태아 분획에 비례할 것이다. 이러한 프로세스는 견고한 염색체에 관한 절편 및 기울기를 연산함으로써 샘플 내에서 정규화하고 이어서 관심대상의 게놈 영역이 동일한 샘플 내의 견고한 염색체에 대해 유지되는 관계(기울기 및 절편로 설명되는 바와 같은)로부터 얼마나 이탈하는지를 평가한다.

기울기 및 절편은 도 3d에 도시된 직선으로부터 획득된다. 전체 프로파일 제거의 예는 도 3c에 묘사되어 있다. 왼쪽 패널은 다수의 샘플에 걸쳐 정규화된 커버리지 분량에 있어서 빈마다 높은 변이를 나타낸다. 오른쪽 패널은 위에서 설명한 전체 프로파일 제거 후 동일한 정규화된 커버리지 분량을 나타낸다.

블록 317에서 시스템이 전체 프로파일 변이를 제거하거나 감소시킨 후, 시스템은 샘플내 GC(구아닌-시토신) 함량 변이를 보정한다. 블록 319를 참조한다. 모든 빈은 GC로부터 자체의 작은 부분적 기여를 갖는다. 분율은 빈 내의 G와 C 뉴클레오티드의 수를 빈 내의 뉴클레오티드의 총수(예를 들어, 100,000)로 나눔으로써 결정된다. 일부 빈은 다른 것보다 더 큰 GC 분율을 가질 것이다. 도 3e 및 3f에 도시된 바와 같이, 상이한 샘플은 상이한 GC 편향을 나타낸다. 이러한 차이 및 그의 보정은 이하에서 추가 설명될 것이다. 도 3e 내지 도 3g는 (빈 당) GC 분율의 함수로서 (빈 당) 전체 프로파일 보정된 정규화된 커버리지 분량을 도시한다. 놀랍게도, 상이한 샘플은 상이한 GC 의존도를 나타낸다. 일부 샘플은 (도 3e에서와 같이) 단조롭게 감소되는 의존도를 나타내고, 반면에 다른 것들은 (도 3f 및 도 3g에서와 같이) 쉼표 형상의 의존도를 나타낸다. 이러한 프로파일들은 각 샘플에 대해 고유할 수 있으며, 상기 단계에서 설명된 보정은 각 샘플에 대해 별도로 고유하게 실시된다.

일부 구체예에서, 도 3e 내지 도 3g에 예시된 바와 같이, 시스템은 GC 분획에 기반하여 빈을 연산적으로 배열한다. 이어서, 시스템은 유사한 GC 함량을 갖는 다른 빈의 정보를 이용하여 빈의 전체 프로파일 보정된 정규화된 커버리지 분량을 보정한다. 이러한 보정을 마스킹되지 않은 각 빈에 적용한다.

일부 프로세스에서, 각 빈은 다음의 방법으로 GC 함량에 대해 보정된다. 시스템은 고려 중인 빈의 GC 분획과 유사한 GC 분획을 갖는 빈을 연산적으로 선택하고 이어서 선택된 빈의 정보로부터 보정 파라미터를 결정한다. 일부 구체예에서, 임의적으로 규정된 유사성의 컷오프 값을 사용하여 유사한 GC 분획을 갖는 이러한 빈이 선택된다. 일례에서, 모든 빈의 2%가 선택된다. 이러한 빈들은 고려 중인 빈과 유사한 GC 함량을 갖는 2%이다. 예를 들어, 약간 더 많은 GC 함량을 갖는 빈의 1% 및 약간 더 적은 GC 함량을 갖는 1%가 선택된다.

선택된 빈을 이용하여, 시스템은 보정 매개변수를 연산적으로 결정한다. 일례에서, 보정 매개변수는 선택된 빈에서 (전체 프로파일 제거 후) 정규화된 커버리지 분량의 대표값이다. 이러한 대표값의 예에는 선택된 빈에서 정규화된 커버리지 분량의 중앙값 또는 평균이 포함된다. 시스템은 고려 중인 빈에 대한 계산된 보정 매개변수를 고려 중인 빈에 대한 (전체 프로파일 제거 후) 정규화된 커버리지 분량에 적용한다. 일부 구체예에서, 대표값(예를 들어, 중앙값)은 고려중인 빈의 정규화된 커버리지 분량에서 공제된다. 일부 구체예에서, 정규화된 커버리지 분량의 중앙값(또는 다른 대표값)은 견고한 상염색체(13번 염색체, 18번 염색체 및 21번 염색체 이외의 모든 상염색체)에 대한 커버리지 분량만을 사용하여 선택된다.

예를 들어, 100kb을 사용하는 일례에서, 각 빈은 GC 분율의 고유한 값을 가질 것이며, 빈은 그의 GC 분율 함량에 기반하여 군으로 분할된다. 예를 들어, 빈은 군 경계가 GC 분포%의 (0,2,4,6, ...,및 100) 분위수에 해당하는 50개의 군으로 분할된다. 정규화된 커버리지 분량 중앙값을 (샘플의) 동일한 GC 군에 매핑하는 견고한 상염색체 유래의 빈의 각 군에 대해 계산하고, 이어서 (동일한 GC 군의 게놈 전체에 걸친 모든 빈에 대해) 정규화된 커버리지 분량으로부터 중앙값을 공제한다. 이것은 임의의 소정의 샘플의 견고한 염색체로부터 추정된 GC 보정을 동일한 샘플 내의 잠재적으로 영향을 받은 염색체에 적용한다. 예를 들어, 0.338660 내지 0.344720의 GC 함량을 갖는 견고한 염색체상의 모든 빈을 함께 군으로 분류하고, 중앙값을 이러한 군에 대해 계산하여 이러한 GC 범위 내의 빈의 정규화된 커버리지로부터 공제하고, 이러한 빈은 게놈상의 어느 곳(13번 염색체, 18번 염색체, 21번 염색체 및 X 염색체는 제외)에서도 발견될 수 있다. 특정 구체예에서, Y 염색체는 이러한 GC 보정 과정에서 제외된다.

도 3g는 앞서 설명한 바와 같이 정규화된 커버리지 분량의 중앙값을 보정 매개변수로서 사용하는 GC 보정의 적용을 도시한다. 왼쪽 패널은 보정되지 않은 커버리지 분량 대 GC 분율 프로파일을 나타낸다. 도시된 바와 같이, 프로파일은 비선형 형상을 갖는다. 오른쪽 패널은 보정된 커버리지 분량을 나타낸다. 도 3h는 GC 분율 보정 전(왼쪽 패널) 및 GC 분율 보정 후(오른쪽 패널)의 많은 샘플에 대한 정규화된 커버리지를 도시한다. 도 3i는 GC 분율 보정 전(적색) 및 GC 분율 보정 후(녹색)의 많은 검사 샘플에 대한 정규화된 커버리지의 변동계수(CV)를 도시하며, GC 보정은 정규화된 커버리지의 실질적으로 더 작은 변동으로 이어진다.

상기 프로세스는 GC 보정의 비교적 간단한 실시형태이다. GC 편향을 보정하는 대안적인 방법은, 연속적인 GC 공간에 적용될 수 있고 GC 함량에 의해 커버리지 분량을 비닝(binning)하는 것을 수반하는 스플라인 또는 다른 비선형 핏팅 기술을 이용한다. 적절한 기술의 예에는 연속적인 손실 보정 및 평활 스플라인 보정이 포함된다. 핏팅 함수는 빈 간의 정규화된 커버리지 분량 대 고려 중인 샘플에 대한 GC 함량으로부터 도출될 수 있다. 각 빈에 대한 보정은 고려 중인 빈에 대한 GC 함량을 핏팅 함수에 적용하여 계산한다. 예를 들어, 정규화된 커버리지 분량은 고려 중인 빈의 GC 함량에서 스플라인의 예상 커버리지 값을 공제하여 조정할 수 있다. 대안적으로, 조정은 예상 커버리지 값을 스플라인 핏에 따라서 나눔으로써 달성할 수 있다.

작업 319에서 GC 의존도를 보정한 후, 시스템은 고려 중인 샘플에서 이상점 편향을 연산적으로 제거한다. 블록 321을 참조한다. 이러한 작업은 단일 샘플 필터링 또는 트리밍으로서 언급될 수 있다. 도 3j는, GC 보정 후에도, 커버리지가 작은 영역 내에 샘플-특이적 변동을 여전히 가진다는 것을 도시한다. 예를 들어, 예상값로부터 예상외로 높은 이탈이 발생하는 12번 염색체상의 위치 1.1 e8에서의 커버리지를 참조한다. 이러한 이탈은 모체 게놈의 작은 카피수 변이에 의해 발생할 수 있다. 대안적으로, 이러한 이탈은 카피수 변이와는 무관한 시퀀싱에서의 기술적 이유 때문일 수 있다. 일반적으로, 이러한 작업은 견고한 염색체에만 적용된다.

예를 들어, 시스템은 필터링에 대해 고려 중인 빈을 보유한 염색체의 모든 빈에 걸쳐 GC 보정된 정규화된 커버리지 분량의 중앙값으로부터 3을 초과하는 중위 절대 편차의 GC 보정된 정규화된 커버리지 분량을 갖는 임의의 빈을 연산적으로 필터링한다. 일례에서, 컷오프 값은 표준 편차와 일치하도록 조정된 중위 절대 편차 3으로서 규정되고, 따라서 실제로는 컷오프는 중앙값으로부터 1.4826*중위 절대 편차이다. 특정 구체예에서, 이러한 작업은 견고한 염색체 및 이수성이 의심되는 염색체 둘 다를 포함한 샘플의 모든 염색체에 적용된다.

특정 실시형태에서, 질 관리(quality control)로서 특징지어질 수 있는 추가 작업을 실시한다. 블록 323을 참조한다. 일부 구체예에서, 질 관리 메트릭은 임의의 잠재적인 분모 염색체, 즉 "정규화 염색체" 또는 "견고한 염색체"가 이수성인 지의 여부, 또는 그렇지 않으면 검사 샘플이 관심대상 서열의 카피수 변이를 갖는 지의 여부를 판정하는데 부적당한 지의 여부의 검출을 수반한다. 프로세스가 견고한 염색체가 부적당하다고 판정하는 경우, 프로세스는 검사 샘플을 무시할 수 있고 호출을 하지 않을 수 있다. 대안적으로, 이러한 QC 메트릭의 실패는 호출을 위한 정규화 염색체의 대체 세트의 사용의 계기가 될 수 있다. 일례에서, 질 관리 방법은 강력한 염색체에 대한 실제 정규화된 커버리지 값을 견고한 상염색체에 대한 예상값과 비교한다. 예상값은 다변량 정규 모델을 영향을 받지 않은 트레이닝 샘플의 정규화된 프로파일에 핏팅시키고, 데이터 또는 베이지안(Bayesian) 기준의 가능도에 따라 최상의 모델 구조를 선택하고(예를 들어, 모델은 아카이케 정보 기준(Akaike information criterion) 또는 베이지안 정보 기준을 사용하여 선택된다), QC에 사용하기 위한 최상을 모델을 고정함으로써 획득될 수 있다. 견고한 염색체의 정규 모델은, 예를 들어, 정상 샘플에서 염색체 커버리지에 대한 평균 및 표준 편차를 갖는 확률 함수를 동정하는 클러스터링 기술을 이용하여 획득될 수 있다. 당연히 다른 모델 형태가 사용될 수 있다. 프로세스는 고정된 모델 매개변수를 고려하여 모든 신입 검사 샘플에서 관찰되는 정규화된 커버리지의 가능도를 평가한다. 프로세스는 각 신입 검사 샘플을 상기 모델을 사용하여 점수화하여 가능도를 획득하고, 이를 통해 정상적인 샘플 세트와 비교한 이상점을 동정함으로써 이를 수행할 수 있다. 트레이닝 샘플의 가능도로부터 검사 샘플의 가능도의 이탈은, 부정확한 샘플 분류를 유발할 수 있는 정규화 염색체의 이상 또는 샘플 취급/분석 과정의 아티팩트를 제안할 수 있다. 이러한 QC 메트릭을 사용하여 이러한 샘플 아티팩트들 중 어느 한쪽과 관련된 분류상의 오류를 감소시킬 수 있다. 도 3k의 오른쪽 패널은 x-축상에 염색체 번호를 나타내며, y-축은 위에서 설명한 바와 같이 획득된 QC 모델을 이용한 비교에 기반하여 정규화된 염색체 커버리지를 나타낸다. 그래프는 2번 염색체에 대해 과도한 커버리지를 갖는 하나의 샘플 및 20번 염색체에 대해 과도한 커버리지를 갖는 다른 샘플을 나타낸다. 이러한 샘플들은 여기서 설명된 QC 메트릭을 사용하여 제거될 수 있거나 대체 세트의 정규화 염색체를 사용하도록 방향 전환된다. 도 3k의 왼쪽 패널은 염색체에 관한 NCV 대 가능도를 나타낸다.

도 3a에 묘사된 순서는 게놈의 모든 염색체의 모든 빈을 위해 사용될 수 있다. 특정 구체예에서, 상이한 프로세스가 Y 염색체에 적용된다. 염색체 양 또는 세그먼트 양, NCV 및/또는 NSV를 계산하기 위해, 양, NCV 및/또는 NSV의 표현에서 사용된 염색체 또는 세그먼트의 빈으로부터 보정된 정규화된 커버리지 분량(도 3a에서 결정됨)을 사용한다. 블록 325를 참조한다. 특정 구체예에서, 본 명세서의 다른 부분에서 언급한 바와 같이, 정규화된 커버리지 분량의 평균을 관심대상의 염색체 내의 모든 빈으로부터 계산하고, 정규화 염색체, 관심대상의 세그먼트 및/또는 정규화 세그먼트를 사용하여 서열 양, NCV 및/또는 NSV를 계산한다.

특정 구체예에서, Y 염색체는 다르게 처리된다. Y 염색체는 Y 염색체에 고유 한 빈 세트를 마스킹함으로써 필터링될 수 있다. 일부 구체예에서, Y 염색체 필터는 앞서 참조로 인용한 미국 가특허출원 제61/836,057호의 방법에 따라 결정된다. 일부 구체예에서, 상기 필터는 다른 염색체의 필터의 빈보다 작은 빈을 마스킹한다. 예를 들어, Y 염색체 마스크는 1kb 수준에서 필터터링할 수 있고, 반면에 다른 염색체 마스크는 100kb 수준에서 필터링할 수 있다. 그럼에도 불구하고, Y 염색체는 다른 염색체와 동일한 빈 크기에서 정규화될 수 있다(예: 100kb).

특정 구체예에서, 필터링된 Y 염색체를 도 3a의 작업 315에 앞서 설명한 바와 같이 정규화된다. 그러나, 다른 측면에서 Y 염색체는 추가로 보정되지 않는다. 따라서, Y 염색체 빈은 전체 프로파일이 제거되지 않는다. 마찬가지로, Y 염색체 빈은 GC 보정 또는 그 이후에 수행되는 다른 필터링 단계에 적용되지 않는다. 이것은 샘플이 가공되는 경우, 프로세스가 상기 샘플이 남성인지 여성인지 모르기 때문이다. 여성 샘플은 Y 참조 염색체에 정렬하는 판독을 갖지 않아야 한다.

서열 마스크의 창출

본 명세서에서 개시되는 일부 구체예는 서열 마스크를 이용하여, CNV 평가를 위해 사용되는 커버리지 값에서 종래의 방법에 의해 계산되는 값보다 더 높은 신호 와 더 낮은 소음으로 이어지는 관심대상 서열의 비-판별 서열 판독을 필터링 제거(또는 마스킹)하는 전략을 이용한다. 이러한 마스크는 다양한 기술에 의해 동정될 수 있다. 한 구체예에서, 마스크는 이하에서 더욱 상세히 설명되는 도 4a 내지 도 4b에 예시된 기술을 이용하여 동정된다.

일부 실시형태에서, 마스크는 관심대상 서열의 정상적인 카피수를 갖는 것으로 알려진 대표적인 샘플의 트레이닝 세트를 이용하여 동정된다. 이하에 설명하는 바와 같이, 마스크는 먼저 트레이닝 세트 샘플을 정규화한 다음, 서열의 범위(예를 들어, 프로파일)에 걸쳐 체계적인 변이를 보정하고, 이어서 그것들을 GC 가변성에 대해 보정하는 기술을 이용하여 동정될 수 있다. 정규화 및 보정은 검사 샘플이 아니라 트레이닝 세트로부터의 샘플에서 실시된다. 마스크가 동정되면, 이어서 많은 검사 샘플에 적용된다.

도 4a는 하나 이상의 검사 샘플에 적용되어 카피수 평가시 관심대상 서열상의 빈을 고려에서 제거할 수 있는 이러한 서열 마스크를 창출하기 위한 프로세스 400의 흐름도를 도시한다. 도 4에 예시된 프로세스 400은 서열 마스크를 획득하기 위해 서열 태그의 수에 기반한 서열 태그 커버리지를 사용한다. 그러나, 도 1과 관련하여 CNV를 판정하기 위한 프로세스 100에 관한 위의 설명과 마찬가지로, 프로세스 400에 대한 커버리지 외에도 또는 그 대신에 크기, 크기 비율 및 메틸화 수준과 같은 다른 변수 또는 매개변수가 사용될 수 있다. 일부 실시형태에서, 2개 이상의 매개변수 각각에 대해 1개의 마스크가 생성된다. 게다가, 커버리지 및 다른 매개변수는 태그가 유래되는 단편의 크기에 기반하여 가중될 수 있다. 판독의 용이함을 위해, 프로세스 400에서 커버리지만이 언급되지만, 커버리지 대신에 크기, 크기 비율 및 메틸화 수준, 크기에 의해 가중된 카운트 등과 같은 다른 매개변수가 사용될 수 있다는 것을 유의해야 한다.

프로세스 400은 복수의 영향을 받지 않은 트레이닝 샘플 유래의 서열 판독을 포함한 트레이닝 세트를 제공함으로써 시작한다. 블록 402. 이어서, 상기 프로세스는 트레이닝 세트의 서열 판독을 관심대상의 서열을 포함하는 참조 게놈에 정렬하고, 이를 통해 트레이닝 샘플에 대한 트레이닝 서열 태그를 제공한다. 블록 404. 일부 구체예에서, 비-제외 부위에 매핑된 고유하게 정렬된 비-중복 태그만이 추가 분석을 위해 이용된다. 상기 프로세스는 참조 게놈을 복수의 빈으로 분할하고 영향을 받지 않은 각 트레이닝 샘플에 대해 각 트레이닝 샘플에 대한 각 빈의 트레이닝 서열 태그의 커버리지를 결정하는 단계를 수반한다. 블록 406. 상기 프로세스는 각 빈에 대해 모든 트레이닝 샘플에 걸친 트레이닝 서열 태그의 예상 커버리지를 결정한다. 블록 408. 일부 구체예에서, 각 빈에 대한 예상 커버리지는 트레이닝 샘플에 걸친 중앙값 또는 평균이다. 예상 커버리지는 전체 프로파일을 구성한다. 이어서, 상기 프로세스는 전체 프로파일의 변동을 제거함으로써 각 트레이닝 샘플에 대해 각 빈의 트레이닝 서열 태그의 커버리지를 조정하고, 이를 통해 각 트레이닝 샘플에 대해 빈의 트레이닝 서열 태그의 전체 프로파일 보정된 커버리지를 획득한다. 이어서, 상기 프로세스는 참조 게놈에 걸쳐 마스킹되지 않은 빈과 마스킹된 빈을 포함한 서열 마스크를 창출한다. 마스킹된 각 빈은 마스킹 임계값을 초과하는 분포 특징을 갖는다. 분포 특징은 트레이닝 샘플에 걸쳐 빈의 트레이닝 서열 태그의 조정된 커버리지를 위해 제공된다. 일부 구체예에서, 마스킹 임계값은 트레이닝 샘플에 걸친 빈에서의 정규화된 커버리지의 관찰된 변이와 관련될 수 있다. 샘플에 걸쳐 정규화된 커버리지에 대한 높은 변동계수 또는 중위 절대 편차를 갖는 빈은 각각의 메트릭의 경험 분포에 기반하여 동정될 수 있다. 일부 대안적인 실시형태에서, 마스킹 임계값은 트레이닝 샘플에 걸쳐 빈 내의 정규화된 커버리지의 관찰된 변이와 관련될 수 있다. 샘플에 걸쳐 정규화된 커버리지의 높은 변동계수 또는 중위 절대 편차를 갖는 빈은 각 메트릭의 경험 분포에 기반하여 마스킹될 수 있다.

일부 구체예에서, 관심대상의 염색체 및 다른 모든 염색체에 대해, 마스킹된 빈을 동정하기 위한 별도의 컷오프, 즉 마스킹 임계값을 규정한다. 또한, 관심대상의 각 염색체에 대해 별도의 마스킹 임계값을 별도로 규정할 수 있고, 영향을 받지 않은 모든 염색체의 세트에 대해 단일 마스킹 임계값을 규정할 수 있다. 예를 들어, 특정 마스킹 임계값에 기반한 마스크를 13번 염색체에 대해 규정하고, 다른 마스킹 임계값을 사용하여 다른 염색체에 대한 마스크를 규정한다. 영향을 받지 않은 염색체는 염색체마다 규정된 그의 마스킹 임계값도 가질 수 있다.

다양한 마스킹 임계값의 조합을 관심대상의 각 염색체에 대해 평가할 수 있다. 마스킹 임계값의 조합은 관심대상 염색체의 빈에 대한 하나의 마스크 및 다른 모든 염색체의 빈에 대한 상이한 마스크를 제공한다.

한 방법에 있어서, 변동계수(CV)에 대한 값의 범위 또는 샘플 분포 컷오프의 척도를 빈 CV 값의 경험 분포의 백분위(예: 95,96,97,98,99)로서 규정하고 이러한 컷오프 값을 관심대상의 염색체를 제외한 모든 상염색체에 적용한다. 또한, CV 대한 백분위 컷오프 값의 범위를 CV 경험 분포에 대해 규정하고 이러한 컷오프 값을 관심대상의 염색체(예를 들어, 21번 염색체)에 적용한다. 일부 구체예에서, 관심대상의 염색체는 X 염색체, 13번 염색체, 18번 염색체 및 21번 염색체이다. 당연히 다른 방법이 고려될 수 있고, 예를 들어 각 염색체에 대해 별도의 최적화가 실시될 수 있다. 정리하면, 병렬하여 최적화될 대상 범위(예를 들어, 고려 중인 관심대상의 염색체에 대한 하나의 범위 및 다른 모든 염색체에 대한 다른 범위)는 CV 컷오프 조합의 그리드(grid)를 규정한다. 도 4b를 참조한다. 트레이닝 세트에 대한 시스템의 성능을 두 컷오프(정규화 염색체(또는 관심대상의 염색체 이외의 상염색체)에 대한 것 및 관심대상의 염색체에 대한 것)에 걸쳐 평가하고, 최상의 성능 조합을 최종 구성을 위해 선정한다. 이러한 조합은 관심대상의 염색체 각각마다 상이할 수 있다. 특정 구체예에서, 트레이닝 세트 대신에 검증 세트에 대해 성능을 평가하고, 즉 교차 검증을 사용하여 성능을 평가한다.

일부 구체예에서, 컷오프 범위를 결정하기 위해 최적화된 성능은 (정규화 염색체의 잠정적인 선택에 기반한) 염색체 양의 변동계수이다. 프로세스는 현재 선택된 정규화 염색체(또는 염색체들)를 이용하여 관심대상 염색체의 염색체 양(예를 들어, 비율)의 CV를 최소화하는 컷오프의 조합을 선택한다. 한 방법에서, 프로세스는 다음과 같이 그리드의 컷오프의 각 조합의 성능을 시험한다: (1) 컷오프의 조합을 적용하여 모든 염색체에 대한 마스크를 규정하고 그 마스크를 적용하여 트레이닝 세트의 태그를 필터링한다; (2) 도 3a의 프로세스를 필터링된 태그에 적용하여 영향을 받지 않은 샘플의 트레이닝 세트에 걸친 표준화된 커버리지를 산출한다; (3) 예를 들어, 고려 중인 염색체에 대한 빈의 정규화된 커버리지들을 합산하여 염색체마다 대표적인 정규화된 커버리지를 결정한다; (4) 현재의 정규화 염색체를 이용하여 염색체 양을 계산한다; 그리고 (5) 염색체 양의 CV를 결정한다. 프로세스는 트레이닝 세트의 원래 부분으로부터 분리된 검사 샘플 세트에 선택된 필터를 적용함으로써 선택된 필터의 성능을 평가한다. 즉, 프로세스는 원래의 트레이닝 세트를 트레이닝 및 트레이닝 부분집단으로 나눈다. 트레이닝 부분집단을 이용하여 위에서 설명한 마스크 컷오프를 규정한다.

대안적인 구체예에서, 커버리지의 CV에 기반한 마스크를 규정하는 대신, 빈 내의 트레이닝 샘플에 걸친 정렬 결과로부터 매핑 정확도 점수의 분포에 의해 마스크를 규정할 수 있다. 매핑 정확도 점수는 판독이 참조 게놈에 매핑되는 고유성을 반영한다. 즉, 매핑 정확도 점수는 판독이 정렬 오류될 확률을 정량한다. 낮은 매핑 정확도 점수는 낮은 고유성(정렬 오류의 높은 확률)과 관련된다. 고유성은 (시퀀서에 의해 생성된) 판독 서열에서 하나 이상의 오류를 설명한다. 매핑 정확도 점수에 대한 자세한 설명은 그 전체가 본 명세서에 참조로 인용되는 문헌[Li H, Ruan J, Durbin R. (2008) Mapping short DNA 시퀀싱 reads and calling variants using mapping quality scores. Genome Research 18 : 1851-8]에 제시되어 있다. 일부 구체예에서, 매핑 정확도 점수는 본 명세서에서 MapQ 점수라고 불린다. 도 4b는 MapQ 점수가 처리된 커버리지의 CV와 강한 단조 상관관계를 가짐을 도시한다. 예를 들어, 도 4b에서 0.4보다 높은 CV를 갖는 빈은 플롯의 왼쪽에 거의 완전히 모여있고 약 4보다 낮은 MapQ 점수를 가진다. 따라서, 작은 MapQ를 갖는 빈을 마스킹함으로써, 높은 CV를 갖는 빈을 마스킹하여 규정되는 마스크와 상당히 유사한 마스크가 산출될 수 있다.

샘플 및 샘플 가공

샘플

CNV, 예를 들어, 염색체 이수성, 부분적 이수성 등을 판정하기 위해 사용되는 샘플은 1종 이상의 관심대상의 서열에 대한 카피수 변이를 판정하는 대상이 되는 임의의 세포, 조직 또는 장기로부터 채취된 샘플을 포함할 수 있다. 바람직하게는, 샘플은 세포 내에 존재하는 핵산 및/또는 "무세포"된 핵산(예: cfDNA)을 함유한다.

일부 구체예에서, 무세포계 핵산, 예를 들어 무세포계 DNA(cfDNA)를 획득하는 것이 유리하다. 무세포계 DNA를 포함한 무세포계 핵산은 혈장, 혈청 및 소변을 포함하지만 그들로 한정되지 않는 생물학적 샘플로부터 당업계에 공지된 다양한 방법에 의해 획득될 수 있다(예를 들어, 문헌[Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008]; Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, 2000; and Su et al., J Mol. Diagn. 6: 101-107 [2004]]을 참조한다). 샘플 중의 세포로부터 무세포계 DNA를 분리하기 위해, 분별, 원심분리(예를 들어, 밀도 구배 원심분리), DNA 특이적 침전 또는 고처리량 세포 선별검사 및/또는 기타 분리법을 포함하지만 그들로 한정되지 않는 다양한 방법을 이용할 수 있다. cfDNA의 수동 및 자동화 분리를 위한 시판중인 키트를 이용할 수 있다(Roche Diagnostics, Indianapolis, IN, Qiagen, Valencia, CA, Macherey-Nagel, Duren, DE). cfDNA를 포함한 생물학적 샘플은 염색체 이수성 및/또는 다양한 다형성을 검출할 수 있는 시퀀싱 분석에 의해 염색체 이상, 예를 들어, 트리소미 21의 존재 유무를 판정하는 검정에서 이용되었다.

다양한 구체예에서, 샘플 중에 존재하는 cfDNA는 사용 전에(예를 들어, 시퀀싱 라이브러리를 제조하기 전에) 특이적으로 또는 비특이적으로 농축시킬 수 있다. 샘플 DNA의 비특이적 농축은 cfDNA 시퀀싱 라이브러리를 제조하기 전에 샘플 DNA의 수준을 증가시키기 위해 이용될 수 있는, 샘플의 게놈 DNA 단편의 게놈 전체 증폭을 가리킨다. 비특이적 농축은 1종 초과의 게놈을 포함한 샘플 중에 존재하는 2종의 게놈 중 하나의 선택적 농축일 수 있다. 예를 들어, 비특이적 농축은 샘플 중의 모체 DNA에 대한 태아 DNA의 상대적 비율을 증가시키는 공지된 방법에 의해 획득될 수 있는, 모체 샘플에서의 태아 게놈의 선택적 농축일 수 있다. 대안적으로, 비특이적 농축 샘플 중에 존재하는 두 게놈 모두의 비선택적 증폭일 수 있다. 예를 들어, 비특이적 증폭은 태아와 모체의 게놈 유래의 DNA의 혼합물을 포함하는 샘플 중의 태아와 모체의 DNA의 증폭일 수 있다. 전체 게놈 증폭을 위한 방법은 당업계에 공지되어 있다. 축퇴 올리고 클레오티드 프라이머에 의한 PCR(DOP), 프라이머 신장 PCR 기술(PEP) 및 다중 치환 증폭(MDA)은 전체 게놈 증폭 방법의 예이다. 일부 구체예에서, 상이한 게놈 유래의 cfDNA의 혼합물을 포함하는 샘플은, 이 혼합물 중에 존재하는 게놈 cfDNA가 농축되지 않는다. 다른 구체예에서, 상이한 게놈 유래의 cfDNA의 혼합물을 포함하는 샘플은 이 샘플 중에 존재하는 게놈의 어느 하나에 대해 비특이적으로 농축된다.

본 명세서에서 설명된 방법이 적용되는 핵산을 포함하는 샘플은 일반적으로, 예를 들어, 위에서 설명한 생물학적 샘플("검사 샘플")을 포함한다. 일부 구체예에서, 1종 이상의 CNV에 대해 스크리닝하는 대상이 되는 핵산(들)은 많은 익히 공지된 방법 중 어느 하나에 의해 정제하거나 분리하다.

따라서, 특정 구체예에서, 샘플은 정제된 또는 단리된 폴리뉴클레오티드를 포함하거나 그들로 구성되거나, 샘플은 조직 샘플, 생물학적 유체 샘플, 세포 샘플 등과 같은 샘플을 포함할 수 있다. 적절한 생물학적 유체 샘플은 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유출물(ear flow), 림프, 타액, 뇌척수액, 세정액(ravage), 골수 현탁액, 질 유출물, 경자궁경부 세정액(transcervical lavage), 뇌 액, 복수, 모유, 호흡기, 장관 및 비뇨 생식기의 분비물, 양수, 모유 및 류코포레시스(leukophoresis) 샘플을 포함하지만, 그들로 한정되는 것은 아니다. 일부 구체예에서, 샘플은 비침습적 절차에 의해 쉽게 획득가능한 샘플, 예를 들어, 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유출물, 타액 또는 배설물이다. 특정 구체예에서, 샘플은 말초혈 샘플, 또는 말초혈 샘플의 혈장 및/또는 혈청 분획이다. 다른 구체예에서, 생물학적 샘플은 면봉 또는 얼룩, 생검 샘플 또는 세포 배양물이다. 다른 구체예에서, 샘플은 2종 이상의 생물학적 샘플의 혼합물이며, 예를 들어, 생물학적 샘플은 생물학적 유체 샘플, 조직 샘플 및 세포 배양 샘플 중 2종 이상을 포함할 수 있다. 본 명세서에서 사용되는 "혈액", "혈장" 및 "혈청"라는 용어는 분획 또는 그의 가공된 부분을 명시적으로 포함한다. 마찬가지로, 샘플은 생검, 면봉, 얼룩 등으로부터 채취되는 경우 "샘플"은 생검, 면봉, 얼룩 등으로부터 유래된 가공된 분획 또는 일부분을 명시적으로 포함한다.

특정 구체예에서, 샘플은 상이한 개체 유래의 샘플, 동일하거나 상이한 개체의 상이한 발생 단계 유래의 샘플, 상이한 질환에 걸린 개체(예를 들어, 암을 갖거나 유전적 장애를 갖는 것으로 의심되는 개체) 유래의 샘플, 정상 개체, 개체의 질환의 상이한 병기에서 획득된 샘플, 질환에 대한 상이한 치료를 받게 된 개체로부터 획득된 샘플, 상이한 환경 인자에 노출된 개체 유래의 샘플, 병리상태에 걸리기 쉬운 소인을 갖는 개체 유래의 샘플, 감염성 질환 인자(예를 들어, HIV)에 노출된 개체 유래의 샘플 등을 포함하지만 그들로 한정되지 않는 공급원으로부터 획득될 수 있다.

예시적이지만 비제한적인 한 구체예에서, 샘플은 임신한 여성, 예를 들어, 임산부로부터 획득되는 모체 샘플이다. 상기 경우, 샘플을 본 명세서에서 설명된 방법을 이용하여 분석하여 태아의 잠재적인 염색체 이상의 출생전 진단을 제공할 수 있다. 모체 샘플은 조직 샘플, 생물학적 유체 샘플 또는 세포 샘플일 수 있다. 생물학적 유체는 비제한적인 예로서 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유출물, 림프, 타액, 뇌척수액, 세정액, 골수 현탁액, 질 유출물, 경자궁경부 세정액, 뇌 액, 복수, 모유, 호흡기, 장관 및 비뇨 생식기의 분비물 및 류코포레시스 샘플을 포함한다.

예시적이지만 비제한적인 다른 구체예에서, 모체 샘플은 2종 이상의 생물학적 샘플의 혼합물이며, 생물학적 샘플은 생물학적 유체 샘플, 조직 샘플 및 세포 배양 샘플 중 2종 이상을 포함할 수 있다. 일부 구체예에서, 샘플은 비침습적 절차에 의해 쉽게 획득가능한 샘플이며, 예를 들어, 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 모유, 가래, 귀 유출물, 타액 및 배설물이다. 일부 구체예에서, 생물학적 샘플은 말초혈 샘플 및/또는 그의 혈장 및 혈청 분획이다. 다른 구체예에서, 생물학적 샘플은 면봉 또는 얼룩 생검 샘플 또는 세포 배양물의 샘플이다. 위에서 개시한 바와 같이, "혈액", "혈장" 및 "혈청"이라는 용어는 분획 또는 그의 가공된 부분을 명시적으로 포함한다. 마찬가지로, 샘플, 생검, 면봉, 얼룩 등으로부터 채취되는 경우 "샘플"은 생검, 면봉, 얼룩 등으로부터 유래된 가공된 분획 또는 그의 일부분을 명시적으로 포함한다.

특정 구체예에서, 샘플은 시험관내에서 배양된 조직, 세포 또는 다른 폴리뉴클레오티드 함유 공급원으로부터 획득될 수 있다. 배양된 샘플은 상이한 매질 및 조건(예를 들어, pH, 압력 또는 온도)에서 유지된 배양물(예를 들어, 조직 또는 세포), 상이한 길이의 기간 동안 유지된 배양물(예를 들어, 조직 또는 세포), 상이한 인자 또는 시약(예를 들어, 후보 약물 또는 조정인자)으로 처리된 배양물(예를 들어, 조직 또는 세포) 또는 상이한 유형의 조직 및/또는 세포의 배양물을 포함하지만 그들로 한정되지 않는 공급원으로부터 채취될 수 있다.

생물학적 공급원으로부터 핵산을 단리하는 방법은 익히 공지되어 있으며, 공급원의 성질에 따라 다를 것이다. 당업자라면 본 명세서에서 설명되는 방법에서 필요한 만큼 공급원으로부터 핵산(들)을 용이하게 단리할 수 있다. 일부의 경우에, 핵산 샘플 중의 핵산 분자를 단편화하는 것이 유리할 수 있다. 단편화는 무작위적일 수 있거나, 예를 들어 제한 엔도뉴클레아제 분해를 사용하여 달성되는 바와 같이 특이적일 수 있다. 무작위적 단편화를 위한 방법은 당업계에 익히 공지되어 있으며, 예를 들어 제한적 DNAse 분해, 알칼리 처리 및 물리적 전단을 포함한다. 한 구체예에서, 샘플 핵산은 단편화되지 않는 cfDNA로부터 획득된다.

시퀀싱 라이브러리의 제조

한 구체예에서, 본 명세서에서 설명되는 방법은, 단일 시퀀싱 실행에서 다수의 샘플이 게놈 분자로서 개별적으로(즉, 싱글플렉스 시퀀싱) 또는 색인된 게놈 분자를 포함하는 풀링(pooling)된 샘플로서(예를 들어, 멀티플렉스 시퀀싱) 시퀀싱되는 것을 가능하게 하는 차세대 시퀀싱 기술(NGS)을 이용할 수 있다. 이들 방법은 DNA 서열의 최대 수억 개의 판독을 생성할 수 있다. 다양한 구체예에서, 게놈 핵산 및/또는 색인된 게놈 핵산의 서열, 예를 들어, 본 명세서에서 설명되는 차세대 시퀀싱 기술(NGS)을 사용하여 결정될 수 있다. 다양한 구체예에서, NGS를 이용하여 획득된 대량의 서열 데이터의 분석은 본 명세서에서 설명되는 바와 같이 하나 이상의 프로세서를 사용하여 수행할 수 있다.

다양한 구체예에서, 이러한 시퀀싱 기술의 사용은 시퀀싱 라이브러리의 제조를 수반하지 않는다.

그러나, 특정 구체예에서, 본 명세서에서 도모되는 시퀀싱 방법은 시퀀싱 라이브러리의 제조를 수반한다. 하나의 예시적 방법에서, 시퀀싱 라이브러리의 제조는 언제든지 시퀀싱될 준비가 되어 있는 어댑터가-변형된 DNA 단편(예를 들어, 폴리뉴클레오티드)의 무작위적 수집물의 생산을 수반한다. 폴리뉴클레오티드의 시퀀싱 라이브러리는 DNA 또는 cDNA 중 하나의 등가물, 유사체, 예를 들어, 역전사 효소의 작용에 의해 RNA 주형으로부터 생성된 상보적 또는 카피 DNA인 DNA 또는 cDNA를 포함하는 DNA 또는 RNA로부터 제조될 수 있다. 폴리뉴클레오티드는 이중가닥 형태(예를 들어, 게놈 DNA 단편, cDNA, PCR 증폭 산물 등과 같은 dsDNA)에서 기원할 수 있거나, 또는 특정 구체예에서 폴리뉴클레오티드는 단일가닥 형태(예를 들어, ssDNA, RNA 등)에서 기원할 수 있고 dsDNA 형태로 전환되었다. 예시로서, 특정 구체예에서, 단일가닥 mRNA 분자는 시퀀싱 라이브러리의 제조에서 사용하기에 적합한 이중가닥 cDNA로 복제될 수 있다. 주요 폴리뉴클레오티드 분자의 정확한 서열은 일반적으로 라이브러리 제조 방법에 있어서 중요하지 않으며, 공지된 또는 미지의 것일 수 있다. 한 구체예에서, 폴리뉴클레오티드 분자는 DNA 분자이다. 보다 특히, 특정 구체예에서, 폴리뉴클레오티드 분자는 유기체의 전체 유전자 상보체 또는 유기체의 실질적으로 모든 유전자 상보체를 나타내고, 인트론 서열 및 엑손 서열(코딩 서열) 둘 다뿐만 아니라, 프로모터 및 인핸서 서열과 같은 비-코딩 조절 서열을 일반적으로 포함하는 게놈 DNA 분자(예를 들어, 세포 DNA, 무세포계 DNA(cfDNA) 등)이다. 특정 구체예에서, 주요 폴리뉴클레오티드 분자는 인간 게놈 DNA 분자, 예를 들어 임신한 대상체의 말초혈에 존재하는 cfDNA 분자를 포함한다.

일부 NGS 시퀀싱 플랫폼을 위한 시퀀싱 라이브러리의 제조는 특정 범위의 단편 크기를 포함하는 폴리뉴클레오티드의 사용에 의해 용이해진다. 이러한 라이브러리의 제조는 일반적으로 원하는 크기 범위의 폴리뉴클레오티드를 획득하기 위한 폴리뉴클레오티드(예를 들어, 세포 게놈 DNA)의 단편화를 수반한다.

단편화는 당업자에게 공지된 다수의 방법 중 하나에 의해 달성될 수 있다. 예를 들어, 단편화는 분무, 초음파처리 및 수리전단(hydroshear)을 포함하지만 그들로 한정되지 않는 기계적 수단에 의해 달성될 수 있다. 그러나 기계적 단편화는 전형적으로 C-O, P-O 및 C-C 결합에서 DNA 골격을 절단하여 파괴된 C-O, P-O 및 C-C 결합을 갖는 평활 말단 및 3' 및 5'-돌출 말단의 불균일 혼합물을 생성하고(예를 들어, 문헌[Alnemri and Liwack, J Biol. Chem 265: 17323-17333 [1990]; Richards and Boyer, J Mol Biol 11 :327-240 [1965]]을 참조한다), 이러한 결합은 시퀀싱을 위한 DNA 제조를 위해 필요한 후속적 효소 반응, 예를 들어 시퀀싱 어댑터의 라이게이션을 위해 필요한 5'-포스페이트가 부족할 수 있기 때문에 수복될 필요가 있다.

대조적으로, cfDNA는 일반적으로 약 300개 염기쌍 미만의 단편으로서 존재하고, 그 결과 cfDNA 샘플을 이용하여 시퀀싱 라이브러리를 생성하는 경우에는 단편화가 일반적으로 필요하지 않다.

일반적으로, 폴리뉴클레오티드가 강제로 단편화되는지(예를 들어, 시험관내에서 단편화되는) 또는 천연적으로 단편으로서 존재하는 지의 여부와 관계없이, 폴리뉴클레오티드는 5'-포스페이트 및 3'-하이드록실을 갖는 평활 말단 DNA로 전환된다. 표준 프로토콜, 예를 들어, 본 명세서의 다른 부분에서 언급된, 예를 들어, Illumina 플랫폼을 사용한 시퀀싱을 위한 프로토콜은, 샘플 DNA를 말단-수복하고 dA-테일링 전에 말단-수복된 산물을 정제하고 라이브러리 제조의 어댑터-라이게이션 단계 전에 dA-테일링 산물을 정제하도록 사용자에게 지시한다.

본 명세서에서 설명되는 서열 라이브러리의 제조 방법의 다양한 구체예는 NGS에 의해 시퀀싱될 수 있는 변형된 DNA 산물을 획득하기 위한 표준 프로토콜에 의해 일반적으로 지시되는 단계들 중 하나 이상을 실시해야 하는 필요성을 제거한다. 단순화된 방법(ABB 법), 1-단계 방법 및 2-단계 방법은 시퀀싱 라이브러리의 제조를 위한 방법의 예이며, 그들은 그 전체가 참조로 인용되는, 2012년 7월 20일자로 제출된 특허출원 제13/555,037호에서 찾아볼 수 있다.

샘플 무결성을 추적 및 검증하기 위한 마커 핵산

다양한 구체예에서, 샘플의 무결성 검증 및 샘플 추적은 샘플 게놈 핵산, 예를 들어, cfDNA 및 예를 들어 가공 전에 샘플로 도입되는 동반 마커 핵산의 혼합물을 시퀀싱함으로써 달성될 수 있다.

마커 핵산은 검사 샘플(예를 들어, 생물학적 공급원 샘플)과 조합되고, 예를 들어 생물학적 공급원 샘플을 단편화하는 단계, 예를 들어, 전혈 샘플로부터 본질적으로 무세포계 혈장 분획을 획득하는 단계, 분획화된, 예를 들어, 혈장 또는 비분화된 생물학적 공급원 샘플, 예를 들어, 조직 샘플로부터 핵산을 정제하는 단계 및 시퀀싱하는 단계 중 하나 이상을 포함하는 방법에 제공될 수 있다. 일부 구체예에서, 시퀀싱은 시퀀싱 라이브러리를 제조하는 단계를 포함한다. 공급원 샘플과 조합되는 마커 분자의 서열 또는 서열의 조합은 공급원 샘플에 고유한 것이도록 선정된다. 일부 구체예에서, 샘플 중의 고유한 마커 분자는 모두 동일한 서열을 갖는다. 다른 구체예에서, 샘플 중의 고유한 마커 분자는 복수의 서열, 예를 들어 2종, 3종, 4종, 5종, 6종, 7종, 8종, 9종, 10종, 15종, 20종 또는 그 이상의 상이한 서열의 조합이다.

한 구체예에서, 샘플의 무결성은 동일한 서열을 갖는 복수의 마커 핵산 분자를 이용하여 입증될 수 있다. 대안적으로, 샘플의 동일성은 적어도 2종, 적어도 3종, 적어도 4종, 적어도 5종, 적어도 6종, 적어도 7종, 적어도 8종, 적어도 9종, 적어도 10종, 적어도 11종, 적어도 12종, 적어도 13종, 적어도 14종, 적어도 15종, 적어도 16종, 적어도 17종, 적어도 18종, 적어도 19종, 적어도 20종, 적어도 25종, 적어도 30종, 적어도 35종, 적어도 40종, 적어도 50종, 또는 그 이상의 상이한 서열을 갖는 복수의 마커 핵산 분자를 이용하여 입증될 수 있다. 복수의 생물학적 샘플, 즉 2종 이상의 생물학적 샘플의 무결성에 대한 검증은, 상기 2종 이상의 생물학적 샘플 각각이, 표식되는 복수의 검사 샘플 각각에 대해 고유한 서열을 갖는 마커 핵산으로 표식되는 것을 요한다. 예를 들어, 제1 샘플은 서열 A를 갖는 마커 핵산으로 표식될 수 있고, 제2 샘플은 서열 B를 갖는 마커 핵산으로 표식될 수 있다. 대안적으로, 제1 샘플은 모두 서열 A를 갖는 마커 핵산 분자로 표식될 수 있고 제2 샘플은 서열 B와 서열 C의 혼합물로 표식될 수 있고, 여기서 서열 A, 서열 B, 서열 C는 상이한 서열을 갖는 마커 분자이다.

마커 핵산(들)을 라이브러리 제조(라이브러리가 제조될 예정인 경우) 및 시퀀싱 전에 샘플 제조의 어떠한 단계에서도 샘플에 첨가할 수 있다. 한 구체예에서, 마커 분자를 미가공 공급원 샘플과 조합할 수 있다. 예를 들어, 마커 핵산은 혈액 샘플을 수집하는 데 사용되는 수집 튜브에 제공될 수 있다. 대안적으로, 마커 핵산을 채혈 후 혈액 샘플에 첨가할 수 있다. 한 구체예에서, 마커 핵산을 생물학적 유체 샘플을 수집하는 데 사용되는 용기에 첨가하고, 예를 들어 마커 핵산(들)을 혈액 샘플을 수집하는 데 사용되는 혈액 수집 튜브에 첨가한다. 다른 구체예에서, 마커 핵산(들)을 생물학적 유체 샘플의 분획에 첨가한다. 예를 들어, 마커 핵산을 혈액 샘플의 혈장 분획 및/또는 혈청, 예를 들어 모체 혈장 샘플에 첨가한다. 또 다른 구체예에서, 마커 분자를 정제된 샘플, 예를 들어 생물학적 샘플로부터 정제된 핵산 샘플에 첨가한다. 예를 들어, 마커 핵산을 정제된 모체와 태아의 cfDNA 샘플에 첨가한다. 마찬가지로, 마커 핵산을 샘플을 가공하기 전에 생검 샘플에 첨가할 수 있다. 일부 구체예에서, 마커 핵산을 생물학적 샘플의 세포 내로 마커 분자를 전달하는 운반체와 조합할 수 있다. 세포 전달 운반체는 pH-감수성 및 양이온 리포좀을 포함한다.

다양한 구체예에서, 마커 분자는 생물학적 공급원 샘플의 게놈에 존재하지 않는 서열인 안티게놈(antigenomic) 서열을 갖는다. 예시적인 구체예에서, 인간 생물학적 공급원 샘플의 무결성을 검증하기 위해 사용되는 마커 분자는 인간 게놈에 존재하지 않는 서열을 갖는다. 대안적인 구체예에서, 마커 분자는 공급원 샘플 및 임의의 다른 1종 이상의 공지의 게놈에 존재하지 않는 서열을 갖는다. 예를 들어, 인간 생물학적 공급원 샘플의 무결성을 검증하기 위해 사용되는 마커 분자는 인간 게놈 및 마우스 게놈에 존재하지 않는 서열을 갖는다. 대안은 2종 이상의 게놈을 포함하는 검사 샘플의 무결성을 검증할 수 있게 한다. 예를 들어, 병원체, 예를 들어 세균에 의해 영향을 받은 대상체로부터 얻은 인간 무세포계 DNA 샘플의 무결성은 상기 인간 게놈 및 영향을 미치는 세균의 게놈에 모두 존재하지 않는 서열을 갖는 마커 분자를 사용하여 검증될 수 있다. 수많은 병원체, 예를 들어 세균, 바이러스, 효모, 진균, 원생동물 등의 게놈 서열은 월드 와이드 웹에서 ncbi.nlm.nih.gov/genomes에서 공개적으로 접근할 수 있다. 다른 구체예에서, 마커 분자는 임의의 공지된 게놈에 존재하지 않는 서열을 갖는 핵산이다. 마커 분자의 서열은 알고리즘에 의해 무작위로 생성될 수 있다.

다양한 구체예에서, 마커 분자는 천연 발생 데옥시리보핵산(DNA), 리보핵산, 또는 포스포디에스테르 골격을 갖지 않는 분자 또는 DNA 모방체의 골격의 변화에 의해 천연 발생 DNA 또는 RNA와 구별되는 펩티드 핵산(PMA), 모르폴리노 핵산, 락트 핵산(locked nucleic acid), 글리콜 핵산 및 토레오스 핵산을 포함한 인공 핵산 유사체(핵산 모방체)일 수 있다. 데옥시리보핵산은 천연 발생 게놈 유래의 것일 수 있거나 효소의 사용을 통해 또는 고상 화학 합성에 의해 실험실에서 생성될 수 있다. 화학적 방법을 이용하여 천연에서 발견되지 않는 DNA 모방체를 생성할 수도 있다. 포스포디에스테르 결합이 치환되었지만 데옥시리보스가 유지되는 입수가능한 DNA의 유도체는 우수한 구조적 DNA 모방체인 것으로 나타난 티오포름아세탈 또는 카복스아미드 연결에 의해 형성된 골격을 갖는 DNA 모방체를 포함하지만, 이에 한정되는 것은 아니다. 다른 DNA 모방체에는 N-(2-아미노에틸)글리신 기반 슈도펩티드 골격을 함유하는 모르폴리노 유도체 및 펩티드 핵산(PNA)이 포함된다(Ann Rev Biophys Biomol Struct 24:167-183 [1995]). PNA는 DNA(또는 리보핵산 [RNA])의 매우 우수한 구조 모방체이며, PNA 올리고머는 왓슨-크릭 상보적 DNA와 RNA(또는 PNA) 올리고머에 의해 매우 안정된 이중가닥 구조를 형성할 수 있고 PNA 올리고머는 나선 침입에 의해 이중가닥 DNA 상태의 표적에 결합할 수도 있다(Mol Biotechnol 26:233-248 [2004]). 마커 분자로서 사용될 수 있는 DNA 유사체의 다른 우수한 구조 모방체/유사체는 비-가교 산소가 하나의 황으로 대체되어 있는 포스포로 티오에이트 DNA이다. 이러한 변경은 5'→3'및 3'→5' DNA POL 1 엑소뉴클레아제, 뉴클레아제 S1 및 P1, RNase, 혈청 뉴클레아제, 및 뱀 독 포스포디에스테라제를 포함한 엔도뉴클레아제 및 엑소뉴클레아제2의 작용을 감소시킨다.

마커 분자의 길이는 샘플 핵산의 것과 뚜렷히 다를 수 있거나 다르지 않을 수 있고, 즉 마커 분자의 길이는 샘플 게놈 분자의 것과 유사할 수 있거나, 샘플 게놈 분자보다 크거나 작을 수 있다. 마커 분자의 길이는 상기 마커 분자를 구성하는 뉴클레오티드 또는 뉴클레오티드 유사체 염기의 수에 의해 측정된다. 샘플 게놈 분자의 것과 상이한 길이를 갖는 마커 분자는 당업계에 공지된 분리법을 이용하여 공급원 핵산과 구별될 수 있다. 예를 들어, 마커 및 샘플 핵산 분자의 길이의 차이는 전기영동 분리, 예를 들어 모세관 전기영동에 의해 결정될 수 있다. 크기의 차이는 마커 및 샘플 핵산을 정량하고 그 질을 평가하는 데 유리할 수 있다. 바람직하게는, 마커 핵산은 게놈 핵산보다 짧고 그들이 샘플의 게놈에 매핑되는 것을 제외하는데 충분한 길이의 것이다. 예를 들어, 30 염기의 인간 서열이 마커 핵산을 인간 게놈에 고유하게 매핑하는 데 필요하다. 따라서, 특정 구체예에서, 인간 샘플의 시퀀싱 바이오어세이에 사용된 마커 분자는 길이가 적어도 30bp이어야 한다.

마커 분자의 길이의 선정은 공급원 샘플의 무결성을 검증하기 위해 사용되는 시퀀싱 기술에 의해 주로 결정된다. 시퀀싱되는 샘플 게놈 핵산의 길이도 고려될 수 있다. 예를 들어, 일부 시퀀싱 기술은 폴리뉴클레오티드의 클론적 증폭을 사용하고, 이는 클론적으로 증폭될 대상 게놈 폴리뉴클레오티드가 최소 길이의 것임을을 필요로 할 수 있다. 예를 들어, Illumina GAII 서열 분석기를 이용한 시퀀싱은 110bp의 최소한의 길이를 갖는 폴리뉴클레오티드의 브릿지 PCR(클러스터 증폭으로서도 공지됨)에 의한 시험관내 클론적 증폭을 포함하고, 상기 폴리뉴클레오티드에 어댑터가 라이게션되어, 클론적으로 증폭되고 시퀀싱될 수 있는 적어도 200bp 및 600bp 미만의 핵산을 제공한다. 일부 구체예에서, 어댑터-라이게이션된 마커 분자의 길이는 약 200bp 내지 약 600bp, 약 250bp 내지 550bp, 약 300bp 내지 500bp, 또는 약 350 내지 450이다. 다른 구체예에서, 어댑터-라이게이션된 마커 분자의 길이는 약 200bp이다. 예를 들어, 모체 샘플 중에 존재하는 태아 cfDNA를 시퀀싱하는 경우, 마커 분자의 길이는 태아 cfDNA 분자의 것과 유사하도록 선정될 수 있다. 따라서, 한 구체예에서, 태아 염색체 이수성의 존재 유무를 판정하기 위한 모체 샘플의 cfDNA의 대규모 병렬 시퀀싱을 포함한 분석에 사용된 마커 분자의 길이는 약 150bp, 약 160bp, 170bp, 약 180bp, 약 190bp 또는 약 200bp일 수 있고; 바람직하게는, 마커 분자는 약 170pp이다. 기타 시퀀싱 방법, 예를 들어 SOLiD 시퀀싱, 폴로니(Polony) 시퀀싱 및 454 시퀀싱은 에멀젼 PCR을 이용하여 시퀀싱을 위한 DNA 분자를 클론적으로 증폭시키고, 각 기술은 증폭될 대상이 되는 분자의 최소 및 최대 길이를 좌우한다. 클론적으로 증폭된 핵산으로서 시퀀싱될 대상 마커 분자의 길이는 최대 약 600bp일 수 있다. 일부 구체예에서, 시퀀싱될 대상 마커 분자의 길이는 600bp보다 클 수 있다.

분자의 클론적 증폭을 이용하지 않고 대부분의 상황에서 매우 광범위한 주형 길이에 걸쳐 핵산을 시퀀싱할 수 있는 단일 분자 시퀀싱 기술은 시퀀싱되는 대상이 되는 분자가 어떠한 특정 길이의 것임을 필요로 하지 않는다. 그러나, 단위 질량당 서열의 수율은 3' 말단 하이드록실기의 수에 의존하고 따라서 시퀀싱을 위해 비교적 짧은 주형을 갖는 것은 긴 주형을 갖는 것보다 효율적이다. 1000nt보다 긴 핵산에서 시작하는 경우, 핵산을 100 내지 200nt의 평균 길이로 전단하여 동일한 질량의 핵산으로부터 더 많은 서열 정보가 생성될 수 있도록 하는 것이 일반적으로 권할 만한하다. 따라서 마커 분자의 길이는 수십개 염기에서 수천개 염기의 범위에 이를 수 있다. 단일 분자의 시퀀싱에 사용되는 마커 분자의 길이는 최대 약 25bp, 최대 약 50bp, 최대 약 75bp, 최대 약 100bp, 최대 약 200bp, 최대 약 300bp, 최대 약 400bp, 최대 약 500bp, 최대 약 600bp, 최대 약 700bp, 최대 약 800bp, 최대 약 900bp, 최대 약 1000bp 또는 그 이상의 길이일 수 있다.

마커 분자에 대해 선정되는 길이는 또한 시퀀싱되는 중인 게놈 핵산의 길이에 따라 결정된다. 예를 들어, cfDNA는 세포 게놈 DNA의 게놈 단편으로서 인간 혈류 중에서 순환하고 있다. 임신부의 혈장에서 발견되는 태아 cfDNA 분자는 일반적으로 모체 cfDNA 분자보다 짧다(Chan et al., Clin Chem 50:8892 [2004]). 순환 태아 DNA의 크기 분획화는 순환 태아 DNA 단편의 평균 길이가 <300bp임을 확인시켜 주었으며, 한편 모체 DNA는 약 0.5 내지 1Kb인 것으로 추정되었다(Li et al., Clin Chem 50: 1002-1011 [2004]). 이러한 연구 결과는 태아 cfDNA이 > 340bp인 경우는 거의 없다는 것을 NGS를 이용하여 판정한 팬(Fan) 등의 연구 결과(Fan et al., Clin Chem 56: 1279-1286 [2010])와 일치한다. 표준 실리카 기반 방법에 의해 소변으로부터 단리된 DNA는 이탈 세포(shed cell)로부터 기원하는 고 분자량 DNA 및 및 신장투과성(transrenal) DNA(Tr-DNA)의 저 분자량(150개 내지 250개 염기쌍)의 2개 분획으로 구성된다(Botezatu et al., Clin Chem. 46: 1078-1084, 2000; and Su et al., J Mol. Diagn. 6: 101-107, 2004). 체액 유래의 무세포계 핵산의 단리를 위해 새롭게 개발된 기술을 신장투과성 핵산의 단리에 적용하여 150개 염기쌍보다 훨씬 짧은 DNA와 RNA 단편이 뇨 중에 존재한다는 것이 밝혀졌다.(미국 특허출원 공보 제20080139801호). cfDNA이 시퀀싱되는 게놈 핵산인 구체예에서, 선정된 마커 분자는 최대 약 cfDNA의 길이일 수 있다. 예를 들어, 단일 핵산 분자로 또는 클론적으로 증폭된 핵산으로서 시퀀싱되는 대상이 되는 모체 cfDNA 샘플에서 사용되는 마커 분자의 길이는 약 100bp 내지 600일 수 있다. 다른 구체예에서, 샘플 게놈 핵산은 더 큰 분자의 단편이다. 예를 들어, 시퀀싱되는 샘플 게놈 핵산은 단편화된 세포 DNA이다. 단편화된 세포 DNA가 시퀀싱되는 구체예에서, 마커 분자의 길이는 최대 상기 DNA 단편의 길이일 수 있다. 일부 구체예에서, 마커 분자의 길이는 적어도 서열 판독이 적당한 참조 게놈에 고유하게 매핑하는 데 필요한 최소한의 길이이다. 다른 구체예에서, 마커 분자의 길이는 마커 분자가 샘플 참조 게놈에 매핑되는 것을 제외하기 위해 필요한 최소한의 길이이다.

또한, 마커 분자를 이용하여, 핵산 염기 서열에 의해 분석되지 않고 시퀀싱 이외의 통상의 바이오-기술, 예를 들어 실시간 PCR에 의해 검증될 수 있는 샘플을 검증할 수 있다.

샘플 대조(예를 들어, 시퀀싱 및/또는 분석을 위한 프로세스중 양성 대조)

다양한 구체예에서, 예를 들어 위에서 언급한 바와 같이, 샘플 중으로 도입되는 마커 서열은 시퀀싱 및 후속적 가공과 분석의 정확도 및 효율을 검증하는 양성 대조로서 기능을 할 수 있다.

따라서, 샘플의 DNA 시퀀싱을 위한 프로세스중 양성 대조(in-process positive control; IPC)를 제공하기 위한 조성물 및 방법이 제공된다. 특정 구체예에서, 게놈의 혼합물을 포함하는 샘플의 cfDNA 시퀀싱을 위한 양성 대조가 제공된다. IPC를 이용하여 상이한 세트의 샘플, 예를 들어 상이한 시간에 상이한 시퀀싱 수행에서 시퀀싱되는 샘플로부터 획득한 서열 정보에서 기저선 추이를 관련시킬 수 있다. 따라서, 예를 들어, IPC는 모체 검사 샘플에 대해 획득한 서열 정보를 상이한 시간에 시퀀싱된 적격 샘플 세트로부터 획득된 서열 정보에 관련시킬 수 있다.

마찬가지로, 세그먼트 분석의 경우, IPC는 특정 세그먼트에 대해 대상체로부터 획득된 서열 정보를 상이한 시간에 시퀀싱된 (유사한 서열의) 적격 샘플 세트로부터 획득된 서열에 관련시킬 수 있다. 특정 구체예에서, IPC는 특정 암 관련 유전자좌에 대해 대상체로부터 획득된 서열 정보를 적격 샘플 세트로부터 획득된 서열 정보와 관련시킬 수 있다(예를 들어, 공지의 증폭/결실 등에 의한).

또한, IPC를 시퀀싱 과정을 통해 샘플을 추적하는 마커로서 사용할 수 있다. IPC는 관심대상의 염색체의 1종 이상의 이수성, 예를 들어, 트리소미 21, 트리소미 13, 트리소미 18에 대한 정성적 양성 서열 양 값, 예를 들어 NCV를 제공하여 적절한 해석을 제공하고 데이터의 신뢰도 및 정확성을 보장할 수 있다. 특정 구체예에서, 남성 및 여성 게놈 유래의 핵산을 포함하는 IPC를 창출하여 모체 샘플 중의 X 염색체와 Y 염색체의 양을 제공함으로써 태아가 남성인 지의 여부를 판정할 수 있다.

프로세스중 대조의 종류 및 수는 필요한 검사의 종류 또는 성질에 의존한다. 예를 들어, 염색체 이수성이 존재하는 지의 여부를 판정하기 위한 게놈의 혼합물을 포함하는 샘플 유래의 DNA의 시퀀싱을 필요로 하는 검사의 경우, 프로세스중 대조는 검사되는 동일한 염색체 이수성을 포함하는 것으로 알려진 샘플로부터 획득한 DNA를 포함할 수 있다. 일부 구체예에서, IPC는 관심대상의 염색체의 이수성을 포함하는 것으로 알려진 샘플 유래의 DNA를 포함한다. 예를 들어, 모체 샘플에서 태아 트리소미, 예를 들어 트리소미 21의 존재 유무를 판정하는 검사를 위한 IPC는 트리소미 21을 갖는 개체로부터 획득한 DNA를 포함한다. 일부 구체예에서, IPC는 상이한 이수성을 갖는 2명 이상의 개체로부터 획득한 DNA 혼합물을 포함한다. 예를 들어, 트리소미 13, 트리소미 18, 트리소미 21 및 모노소미 X의 존재 유무를 판정하는 검사의 경우, IPC는 검사되는 트리소미들 중 1종을 갖는 태아를 각각 잉태한 임산부로부터 획득한 DNA 샘플의 조합을 포함한다. 완전한 염색체 이수성 이외에도, 부분적 이수성의 존재 유무를 판정하는 검사를 위한 양성 대조를 제공하도록 IPC를 창출할 수 있다.

단일 이수성을 검출하기 위한 대조로서 작용하는 IPC는, 한쪽이 이수성 게놈의 기여자인 두 대상체로부터 획득한 세포 게놈 DNA의 혼합물을 사용하여 창출할 수 있다. 예를 들어, 태아 트리소미, 예를 들어, 트리소미 21을 판정하는 검사를 위한 대조로서 창출되는 IPC는 트리소미 염색체를 보유하는 남성 또는 여성 대상체 유래의 게놈 DNA와 트리소미 염색체를 보유하지 않는 것으로 알려진 여성 대상체 유래의 게놈 DNA를 조합함으로써 창출할 수 있다. 게놈 DNA를 두 대상체의 세포로부터 추출하고 전단하여 모체 샘플의 순환 cfDNA 단편을 모의하는 약 100bp 내지 400bp, 약 150bp 내지 350bp 또는 약 200bp 내지 300bp의 단편을 제공할 수 있다. 이수성, 예를 들어 트리소미 21을 유지하는 대상체 유래의 단편화된 DNA의 비율을 모체 샘플에서 발견되는 순환 태아 cfDNA의 비율을 모의하도록 선정하여, 이수성을 보유하는 대상체 유래의 DNA의 약 5%, 약 10%, 약 15%, 약 20%, 약 25%, 약 30%를 포함하는 단편화된 DNA의 혼합물을 포함하는 IPC를 제공한다. IPC는 각각 상이한 이수성을 보유하는 상이한 대상체 유래의 DNA를 포함할 수 있다. 예를 들어, IPC는 약 80%의 영향을 받지 않은 여성 DNA를 포함할 수 있고 나머지 20%는 각각 21번 트리소미 염색체, 13번 트리소미 염색체 및 18번 트리소미 염색체를 보유하는 3명의 상이한 대상체 유래의 DNA일 수 있다. 시퀀싱을 위해 단편화된 DNA의 혼합물을 제조한다. 단편화된 DNA의 혼합물의 가공은, 싱글플렉스 또는 멀티플렉스 형식의 임의의 대규모 병렬 방법을 이용하여 시퀀싱될 수 있는 시퀀싱 라이브러리의 제조를 포함할 수 있다. 게놈 IPC의 모액을 저장하여 다수의 진단 검사에서 사용할 수 있다.

대안적으로, 공지의 염색체 이수성을 가진 태아를 잉태한 것으로 알려진 모체로부터 얻은 cfDNA를 사용하여 IPC를 창출할 수 있다. 예를 들어, 트리소미 21을 가진 태아를 잉태한 임산부로부터 cfDNA를 획득할 수 있다. cfDNA를 모체 샘플로부터 추출하고 세균 벡터로 클로닝하고 세균 내에서 증대시켜 IPC의 지속적인 공급원을 제공한다. 제한 효소를 이용하여 DNA를 세균 벡터로부터 추출할 수 있다. 대안적으로, 클로닝된 cfDNA는 예를 들어 PCR로 증폭시킬 수 있다. 염색체 이수성의 존재 여부에 대해 분석될 대상이 되는 검사 샘플 유래의 cfDNA와 동일한 실행에서 시퀀싱을 위해 IPC DNA를 가공할 수 있다.

IPC의 창출은 트리소미와 관련하여 위에서 언급되어 있지만, IPC를, 예를 들어 다양한 세그먼트 증폭 및/또는 결실을 포함한 다른 부분적 이수성을 반영하도록 창출할 수 있다는 것이 이해될 것이다. 따라서, 예를 들어, 각종 암이 특정 증폭과 관련이 있는 것으로 공지되어 있는 경우(예를 들어, 20Q13과 관련이 있는 유방암), IPC는 이러한 공지된 증폭들을 통합하는 IPC를 창출할 수 있다.

시퀀싱 방법

위에 나타낸 바와 같이, 제조된 샘플(예를 들어, 시퀀싱 라이브러리)은 카피수 변이(들)를 동정하기 위한 절차의 일부로서 시퀀싱된다. 수많은 시퀀싱 기술 중 어느 하나를 사용할 수 있다.

이하에서 설명되는 Affymetrix Inc.(캘리포니아주 서니베일)의 하이브리드화에 의한 시퀀싱 플랫폼 및 454 Life Sciences(코네티컷주 브래드포드), Illumina/Solexa(캘리포니아주 헤이워드) 및 Helicos Biosciences(마이애미주 캠브릿지)의 합성에 의한 시퀀싱 플랫폼 및 Applied Biosystems(캘리포니아주 포스터 시티)의 라이게이션에 의한 시퀀싱 플랫폼과 같은 일부 시퀀싱 기술은 상업적으로 이용 가능하다. Helicos Biosciences의 합성에 의한 시퀀싱을 이용하여 실시되는 단일 분자 시퀀싱 외에도, 다른 단일 분자 시퀀싱에는 Pacific Biosciences의 SMRT™ 기술, ION TORRENT™ 기술 및 예를 들어 Oxford Nanopore Technologies에 의해 개발된 나노포어 시퀀싱이 포함되지만, 그들로 한정되는 것은 아니다.

자동화 생거(Sanger) 방법은 '1 세대' 기술로서 간주되지만, 본 명세서에서 설명되는 방법에서는 자동화 생거 시퀀싱을 포함하는 생거 시퀀싱도 이용할 수 있다. 추가의 적절한 시퀀싱 방법에는 핵산 영상화 기술, 예를 들어 원자 힘 현미경(AFM) 또는 투과 전자 현미경(TEM)이 포함되지만, 그들로 한정되는 것은 아니다. 예시적 시퀀싱 기술은 이하에 더 자세히 설명한다.

하나의 예시적이지만 비제한적인 구체예에서, 본 명세서에서 설명되는 방법은 Illumina의 합성에 의한 시퀀싱 및 가역적 터미네이터 기반 시퀀싱 화학(예를 들어, Bentley et al., Nature 6:53-59 [2009]에 기재되어 있음)을 이용하여 검사 샘플 중의 핵산, 예를 들어 모체 샘플 중의 cfDNA, 암에 대해 선별검사될 대상체의 cfDNA 또는 세포 DNA 등에 관한 서열 정보를 획득하는 단계를 포함한다. 주형 DNA는 게놈 DNA, 예를 들어 세포 DNA 또는 cfDNA일 수 있다. 일부 구체예에서, 단리된 세포 유래의 게놈 DNA를 주형으로서 사용하고 그것을 수백 개의 염기쌍의 길이로 단편화한다. 다른 구체예에서, cfDNA를 주형으로서 사용하고, cfDNA가 짧은 단편으로 존재하기 때문에 단편화는 필요 없다. 예를 들어, 태아 cfDNA는 길이가 약 170 염기쌍(bp)인 단편으로서 혈류 중에서 순환하고(Fan et al., Clin Chem 56 : 1279-1286 [2010]), 시퀀싱 전에는 DNA 단편화가 요구되지 않는다. Illumina의 시퀀싱 기술은 올리고뉴클레오티드 앵커가 결합되어 있는 평평한 광 투과성 표면에의 단편화된 게놈 DNA의 접착에 의존한다. 주형 DNA를 말단-수복하여 5' 인산화된 평활 말단을 생성하고, 클레노우 단편(Klenow fragment)의 효소 활성을 이용하여 평활 인산화된 DNA 단편의 3' 말단에 단일 A 염기를 부가한다. 이러한 부가로, 라이게이션 효율을 증가시키기 위해 3' 말단에 단일 T 염기의 돌출을 갖는, 올리고뉴클레오티드 어댑터에의 라이게이션을 위한 DNA 단편이 제조된다. 어댑터 올리고뉴클레오티드는 플로우 셀 앵커 올리고(반복 신장의 분석에서의 앵커/앵커링된 판독과 혼동하지 않아야 한다)에 상보적이다. 한계 희석 조건 하에, 어댑터-변형된 단일가닥 주형 DNA를 플로우 셀에 첨가하고 앵커 올리고에 대한 하이브리드화에 의해 고정시킨다. 부착된 DNA 단편은 신장되고 브릿지 증폭되어 각각 동일한 주형의 약 1,000개 카피를 함유하는 수억 개의 클러스터를 갖는 초 고밀도 시퀀싱 플로우 셀을 창출한다. 한 구체예에서, 무작위로 단편화된 게놈 DNA, 예를 들어 cfDNA를 그것이 클러스터 증폭에 제공되기 전에 PCR을 이용하여 증폭시킨다. 대안적으로, 증폭 수행 없는(예를 들어, PCR 수행 없는) 게놈 라이브러리 제조를 사용하고, 무작위로 단편화된 게놈 DNA를 클러스터 증폭만을 이용하여 농축시킨다(Kozarewa et al., Nature Methods 6 : 291-295 [2009]). 제거가능한 형광 염료를 갖는 가역적 터미네이터를 이용하는 강력한 4색 DNA 합성에 의한 시퀀싱 기술을 이용하여 주형을 시퀀싱한다. 고감도 형광 검출은 레이저 여기 및 내부 전반사 광학을 이용하여 달성한다. 약 수십 개 내지 수백 개 염기쌍의 짧은 서열 판독을 참조 게놈에 정렬하고, 참조 게놈에 대한 짧은 서열 판독의 고유한 매핑을 특별히 개발된 데이터 분석 파이프라인 소프트웨어를 이용하여 동정한다. 제1 판독이 완료된 후, 주형을 인-시츄(in situ) 재생하여 단편의 반대편 말단으로부터 제2 판독이 가능하게 할 수 있다. 따라서, DNA 단편의 싱글-엔드 시퀀싱 또는 페어드 엔드 시퀀싱 중 하나를 사용할 수 있다.

본 발명의 다양한 구체예는 페어드 엔드 시퀀싱을 가능하게 하는 합성에 의한 시퀀싱을 이용할 수 있다. 일부 구체예에서, Illumina의 합성 플랫폼에 의한 시퀀싱은 단편을 클러스터링하는 것을 수반한다. 클러스터링은 각 단편 분자가 등온상에서 증폭되는 과정이다. 일부 구체예에서, 본 명세서에 기재된 예로서, 단편은 단편의 2개 말단에 부착된 2개의 상이한 어댑터를 갖고, 상기 어댑터는 단편이 플로우 셀 레인의 표면에서 2종의 상이한 올리고와 하이브리드화할 수 있게 한다. 단편은 이 단편의 말단에 2개의 인덱스 서열을 포함하거나 그에 연결되어 있고, 상기 인덱스 서열은 멀티플렉스 시퀀싱에서 상이한 샘플들을 동정하는 표지를 제공한다. 일부 시퀀싱 플랫폼에서, 시퀀싱될 대상 단편은 인서트라고도 언급된다.

일부 실시형태에서, Illumina 플랫폼에서의 클러스터링을 위한 플로우 셀은 레인을 갖는 유리 슬라이드이다. 각 레인은 2종의 올리고의 론(lawn)으로 코팅된 유리 채널이다. 하이브리화는 표면상의 2종의 올리고 중 첫번째에 의해 가능하다. 상기 올리고는 단편의 한쪽 말단에 있는 제1 어댑터에 상보적이다. 폴리머라제는 하이브리드화된 단편의 상보적 가닥을 생성한다. 이중가닥 분자를 변성시키고, 원래의 주형 가닥을 세척 제거한다. 나머지 가닥을, 많은 다른 나머지 가닥들과 병렬로, 브릿지 증폭을 통해 클론적으로 증폭시킨다.

브릿지 증폭에서, 가닥은 여러 번 폴딩되고 가닥의 제2 말단에 있는 제2 어댑터 영역은 플로우 셀 표면상의 두번째 종류의 올리고와 하이브리드화한다. 폴리머라제는 상보적인 가닥을 생성하여 이중가닥 브릿지 분자를 형성한다. 이러한 이중가닥 분자는 변성되어 2종의 상이한 올리고를 통해 플로우 셀에 계류된 2종의 단일가닥 분자를 초래한다. 그 다음, 과정은 여러 번 반복되고 수백만 개의 클러스터에 대해 동시에 일어나서 모든 단편의 클론적 증폭을 초래한다. 브릿지 증폭 후, 역 가닥이 절단되고 세척 제거되어 정방향 가닥만이 남게된다. 3' 말단을 차단하여 원치않는 프라이밍을 방지한다.

클러스터링 후, 시퀀싱은 제1 판독을 생성하는 제1 시퀀싱 프라이머를 신장시킴으로써 시작한다. 각 사이클마다 형광 태그된 뉴클레오티드들은 성장하는 쇄에의 부가에 대해서 경쟁한다. 주형의 서열에 기반하여 하나만 혼입된다. 각 뉴클레오티드의 부가 후, 클러스터는 광원에 의해 여기되고 특징적인 형광 신호가 방출된다. 사이클 수는 판독의 길이를 결정한다. 발광 파장 및 신호 강도는 기준 호출을 결정한다. 소정의 클러스터에 대해, 모든 동일한 쇄들이 동시에 판독된다. 수억 개의 클러스터가 대규모 병렬 방식으로 시퀀싱된다. 제 1 판독이 완료되면 판독 산물은 세척 제거된다.

2개의 인덱스 프라이머를 포함하는 프로토콜의 다음 단계에서, 인덱스 1 프라이머를 주형상의 인덱스 1 영역으로 도입하고 하이브리드화한다. 인덱스 영역은 단편의 동정을 제공하며, 이는 멀티플렉스 시퀀싱 과정에서 샘플을 역다중화하는 데 유용하다. 인덱스 1 판독은 제1 판독과 유사하게 생성된다. 인덱스 1 판독의 완료 후, 판독 산물을 세척 제거하고 가닥의 3' 말단을 탈보호한다. 이어서, 주형 가닥은 여러 번 폴딩되고 플로우 셀의 제2 올리고에 결합한다. 인덱스 2 서열은 인덱스 1과 동일하게 판독된다. 이어서, 인덱스 2 판독 산물을 단계의 완료시 세척 제거한다.

2개의 인덱스를 판독한 후, 판독 2는 폴리머라제를 사용하여 제2 플로우 셀 올리고를 신장시켜 이중가닥 브릿지를 형성함으로써 시작된다. 상기 이중가닥 DNA가 변성되고 3' 말단이 차단된다. 원래의 정방향 가닥이 절단되고 세척 제거되어 역방향 가닥이 남는다. 판독 2는 판독 2 시퀀싱 프라이머의 도입으로 시작된다. 판독 1과 마찬가지로, 원하는 길이가 달성될 때까지 시퀀싱 단계가 반복된다. 판독 2 산물은 세척 제거된다. 이러한 전체 과정은 모든 단편을 나타내는 수백만 개의 판독을 생성한다. 풀링된 샘플 라이브러리로부터의 서열은 샘플 제조 중에 도입된 고유한 인덱스에 기반하여 분리된다. 각 샘플에서, 기준 호출의 유사한 확산의 판독은 국소적으로 클러스터링된다. 정방향 판독 및 역방향 판독이 쌍을 이루어 연속적 서열을 생성한다. 이러한 연속적 서열들을 변이 동정을 위해 참조 서열에 정렬한다.

위에서 설명한 합성에 의한 시퀀싱은 개시된 방법의 많은 구체예에서 사용되는 페어드 엔드 판독을 수반한다. 페어드 엔드 시퀀싱은 단편의 두 말단으로부터의 2개 판독을 수반한다. 한 쌍의 판독이 참조 서열에 매핑될 때, 두 판독 사이의 염기쌍 거리가 결정될 수 있고, 이어서 그 거리를 사용하여 판독들이 획득되는 단편의 길이를 결정할 수 있다. 일부의 경우에, 2개의 빈에 걸쳐있는 단편은 하나의 빈에 정렬된 그의 페어드 엔드 판독 및 인접 빈에 정렬된 다른 페어드 판독 중 하나를 가질 것이다. 빈이 더 길어지거나 판독이 더 짧아지므로 이러한 경우는 드물다. 다양한 방법을 사용하여 이들 단편의 빈-멤버쉽을 감정할 수 있다. 예를 들어, 이들 단편은 빈의 단편 크기 빈도를 결정함에 있어 누락될 수 있거나; 인접 빈 둘 다에 대해 카운팅될 수 있거나; 2개 빈 중 더 많은 수의 염기쌍을 포함하는 빈에 할당될 수 있거나; 각 빈 내의 염기쌍 부분과 관련된 가중치을 갖는 빈에 할당될 수 있다.

페어드 엔드 시퀀싱은 상이한 길이(즉, 시퀀싱될 단편 크기가 상이함)의 인서트를 사용할 수 있다. 본 발명에서 규정된 의미로서, 페어 엔드 판독은 다양한 인서트 길이로부터 얻은 판독을 가리키는 데 사용된다. 일부의 경우에, 짧은 인서트 페어드 엔드 판독을 긴 인서트 페어드 엔드 판독과 구별하기 위해, 후자를 메이트 페어 판독(mate pair read)으로도 언급한다. 메이트 페어 판독을 수반하는 일부 구체예에서는 2개의 바이오틴 접합 어댑터를 먼저 비교적 긴 인서트(예를 들어, 수 kb)의 두 말단에 부착시킨다. 그 다음, 바이오틴 접합 어댑터를 인서트의 두 말단에 연결시켜 원형화된 분자를 형성한다. 그 다음, 원형화된 분자를 더욱 단편화시켜 바이오틴 접합 어댑터를 포함하는 하위단편(sub-fragment)을 획득할 수 있다. 원래 단편의 두 말단을 반대 서열 순서로 포함하는 하위단편을 위에서 설명한 짧은 인서트 페어드 엔드 시퀀싱과 같은 절차에 따라 시퀀싱할 수 있다. Illumina의 플랫폼을 이용한 메이트 페어 시퀀싱의 더욱 상세한 사항은 그 전체가 참조로 인용되는 다음 URL의 온라인 간행물에 제시되어 있다: res|.|illumina|.|com/documents/products/technotes/technote_nextera_matepair_data_processing. 페어드 엔드 시퀀싱에 관한 부가 정보는 페어드 엔드 시퀀싱 방법 및 장치와 관련된 참조로 인용되는 미국 특허 제7601499호 및 미국 특허출원 공보 제2012/0,053,063호에서 찾아볼 수 있다.

DNA 단편의 시퀀싱 후, 사전에 결정된 길이, 예를 들어 100bp의 서열 판독을 참조 게놈에 매핑하거나 정렬한다. 매핑된 또는 정렬된 판독 및 참조 서열상의 그의 대응 위치는 태그로서도 언급된다. 한 구체예에서, 참조 게놈 서열은 NCBI36/hg18 서열이며, 이는 월드 와이드 웹에서 genome dot ucsc dot edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)에서 입수가능하다. 대안적으로, 참조 게놈 서열은 GRCh37/hg19이며, 이는 월드 와이드 웹에서 genome dot ucsc dot edu/cgi-bin/hgGateway에서 입수가능하다. 공개된 서열 정보의 다른 공급원은 GenBank, dbEST, dbSTS, EMBL(유럽 분자 생물학 연구소(European Molecular Biology Laboratory)) 및 DDBJ(일본 DNA 데이터 뱅크(DNA Databank of Japan))를 포함한다. BLAST(Altschul et al., 1990), BLITZ (MPsrch)(Sturrock & Collins, 1993), FASTA(Person & Lipman, 1988), BOWTIE (Langmead et al., Genome Biology 10:R25.1-R25.10 [2009]) 또는 ELAND(Illumina, Inc. 미국 캘리포니아주 샌 디에고)를 포함하지만 그들로 한정되지 않는 서열 정렬을 위한 다수의 컴퓨터 알고리즘이 이용가능하다. 한 구체예에서, 혈장 cfDNA 분자의 클론적으로 증대된 카피의 한쪽 말단을 시퀀싱하고 뉴클레오티드 데이터베이스의 효율적인 대규모 정렬(Efficient Large-Scale Alignment of Nucleotide Databases)(ELAND) 소프트웨어를 사용하는 Illumina Genome Analyzer을 위한 생물정보학 정렬 분석에 의해 처리한다.

예시적이지만 비제한적인 한 구체예에서, 본 명세서에서 설명되는 방법은 Helicos True Single Molecule 시퀀싱(tSMS) 기술(예를 들어, 문헌[Harris TD et al., Science 320 : 106-109 [2008 ]]에 기재되어 있음)의 단일 분자 시퀀싱 기술을 이용하여 검사 샘플 중의 핵산, 예를 들어 모체 샘플 중의 cfDNA 또는 암에 대해 선별검사될 대상체의 cfDNA 또는 세포 DNA 등에 대한 서열 정보를 획득하는 단계를 포함한다. tSMS 기술에서, DNA 샘플을 약 100개 내지 200개의 뉴클레오티드의 가닥으로 절단하고, 폴리 A 서열을 각 DNA 가닥의 3' 말단에 부가한다. 각 가닥을 형광 표지된 아데노신 뉴클레오티드의 부가에 의해 표지한다. 이어서, 상기 DNA 가닥을 플로우 셀 표면에 고정화되어 있는 수백만 개의 올리고 T 포착 부위를 함유하는 플로우 셀에 하이브리드화시킨다. 특정의 구체예에서, 주형은 약 1억 개의 주형/cm²의 밀도일 수 있다. 이어서, 플로우 셀을 예를 들어 HeliScope™ 시퀀서에 끼워넣고, 레이저가 플로우 셀의 표면을 조사하여 각 주형의 위치가 밝혀진다. CCD 카메라에 의해 플로우 셀 표면에 주형의 위치가 매핑될 수 있다. 이어서, 주형 형광 표지를 절단하고 세척 제거한다. DNA 폴리머라제와 형광 표지된 뉴클레오티드를 도입함으로써 시퀀싱 반응이 시작된다. 올리고-T 핵산은 프라이머로서 작동한다. 폴리머라제는 주형 지향적 방식으로 프라이머에 표지된 뉴클레오티드를 혼입시킨다. 폴리머라제 및 혼입되지 않은 뉴클레오티드는 제거된다. 형광 표지된 뉴클레오티드의 혼입에 지향적인 주형은 플로우 셀 표면을 영상화함으로써 포착된다. 영상화 후, 절단 단계에 의해 형광 표지를 제거하고, 상기 과정을 원하는 판독 길이가 달성될 때까지 다른 형광 표지된 뉴클레오티드를 이용하여 반복한다. 각 뉴클레오티드 부가 단계에 의해 서열 정보가 수집된다. 단일 분자 시퀀싱 기술에 의한 전체 게놈 시퀀싱은 시퀀싱 라이브러리의 제조에 있어서 PCR 기반 증폭을 제외 또는 배제하고, 방법은 그 샘플의 카피 측정보다는 오히려 그 샘플을 직접적으로 측정할 수 있게 한다.

예시적이지만 비제한적인 다른 구체예에서, 본 명세서에서 설명된 방법은 454 시퀀싱(Roche)(예를 들어, 문헌[Margulies, M. et al. Nature 437:376-380 [2005]]에 기재되어 있음)을 이용하여 검사 샘플 중의 핵산, 예를 들어 모체 검사 샘플 중의 cfDNA, 암에 대한 선별검사될 대상체의 cfDNA 또는 세포 DNA 등에 대한 서열 정보를 획득하는 단계를 포함한다. 454 시퀀싱은 일반적으로 두 단계를 수반한다. 제1 단계에서는 DNA를 약 300개 내지 800개 염기쌍의 단편으로 전단하고, 상기 단편을 평활 말단화한다. 이어서, 올리고뉴클레오티드 어댑터를 단편의 말단에 라이게이션시킨다. 어댑터는 단편의 증폭 및 시퀀싱을 위한 프라이머로서 작동한다. 단편은, 예를 들어 5'- 바이오틴 태그를 함유하는 어댑터 B를 이용하여 DNA 포착 비이드, 예를 들어 스트렙타비딘 코팅된 비이드에 부착시킬 수 있다. 비이드에 부착된 단편을 오일-물 에멀젼의 액적 내에서 PCR 증폭시킨다. 그 결과는 각 비이드상에서 클론적으로 증폭된 DNA 단편의 다수의 카피이다. 제2 단계에서, 비이드를 웰(예: 피코리터 크기의 웰)에서 포착한다. 각 DNA 단편에 대해 파이로시퀀싱을 병렬로 실시한다. 1개 초과의 뉴클레오티드의 부가는 시퀀싱 기기의 CCD 카메라에 의해 기록되는 광 신호를 생성한다. 신호 강도는 혼입된 뉴클레오티드의 수에 비례한다. 파이로시퀀싱은 뉴클레오티드 부가시에 방출되는 피로포스페이트(PPi)를 사용한다. PPi를 아데노신 5' 포스포설페이트의 존재 하에 ATP 설푸릴라제에 의해 ATP로 전환시킨다. 루시페라제는 ATP를 이용하여 루시페린을 옥시루시페린으로 전환시키고, 이러한 반응은 빛을 생성하고 이를 측정하고 분석한다.

예시적이지만 비제한적인 다른 구체예에서, 본 명세서에서 설명된 방법은 SOLiD™ 기술(Applied Biosystems)을 사용하여 검사 샘플 중의 핵산, 예를 들어 모체 검사 샘플 중의 cfDNA, 암에 대한 선별검사될 대상체의 cfDNA 또는 세포 DNA 등에 대한 서열 정보를 획득하는 단계를 포함한다. SOLiD™의 라이게이션에 의한 시퀀싱에서, 게놈 DNA를 단편으로 전단하고, 어댑터를 해당 단편의 5' 및 3' 말단에 부착시켜 단편 라이브러리를 생성한다. 대안적으로, 어댑터를 단편의 5 '및 3' 말단에 라이게이션시켜 단편을 원형화시키고, 원형화된 단편을 분해하여 내부 어댑터를 생성하고, 어댑터를 생성된 단편의 5 '및 3 '말단에 부착시켜 내부 어댑터를 도입함으로써 메이트 페어 라이브러리를 생성할 수 있다. 그 다음, 비이드, 프라이머, 주형 및 PCR 구성요소를 함유하는 마이크로반응기에서 클론적 비이드 집단을 제조한다. PCR 후, 주형을 변성시키고, 비이드를 농축시켜 신장된 주형을 갖는 비이드를 분리한다. 선택된 비이드상의 주형을 유리 슬라이드에의 결합을 가능하게 하는 3' 변형에 적용시킨다. 서열은 부분적으로 무작위적인 올리고뉴클레오티드와 특이적 형광체에 의해 동정되는 중심 규정된 염기(또는 염기의 쌍)와의 순차적 하이브리드화 및 라이게이션에 의해 결정될 수 있다. 색상이 기록된 후, 라이게이션된 올리고뉴클레오티드가 절단 및 제거되고, 이어서 상기 과정이 반복된다.

예시적이지만 비제한적인 다른 구체예에서, 본 명세서에서 설명되는 방법은 Pacific Biosciences의 단일 분자 실시간(SMRT™) 시퀀싱 기술을 이용하여 검사 샘플 중의 핵산, 예를 들어 모체 검사 샘플 중의 cfDNA, 암에 대한 선별검사될 대상체의 cfDNA 또는 세포 DNA 등에 대한 서열 정보를 획득하는 단계를 포함한다. SMRT 시퀀싱에서, 염료 표지된 뉴클레오티드의 연속적 혼입은 DNA 합성 동안에 영상화된다. 단일 DNA 폴리머라제 분자는 제로 모드의 개별 파장 검출기(ZMW 검출기)의 바닥 표면에 부착시키고, 상기 검출기는 포스포결합된 뉴클레오티드가 증가하는 프라이머 가닥으로 혼입되는 동안에 서열 정보를 획득한다. ZMW 검출기는 ZMW의 내외에서 빠르게 (예를 들어, 마이크로초로) 확산되는 형광 뉴클레오티드의 배경에 대해 DNA 폴리머라제에 의한 단일 뉴클레오티드의 혼입의 관찰을 가능하게 하는 감금(confinment) 구조를 포함한다. 뉴클레오티드가 증가하는 가닥으로 혼입하는 데에는 일반적으로 수밀리 초가 소요된다. 이러한 시간 동안, 형광 표지는 여기되고 형광 신호를 생성하고, 형광 태그는 절단된다. 염료의 해당 형광의 측정은 어떠한 염기가 혼입되었는 지를 나타낸다. 상기 과정이 반복되어 서열이 제공된다.

예시적이지만 비제한적인 다른 구체예에서, 본 명세서에서 설명되는 방법은 나노 포어 시퀀싱(예를 들어, 문헌[Soni GV and Meller A. Clin Chem 53: 1996-2001 [2007]]에 기재되어 있음)을 이용하여 검사 샘플 중의 핵산, 예를 들어 모체 검사 샘플 중의 cfDNA, 암에 대한 선별검사될 대상체의 cfDNA 또는 세포 DNA 등에 대한 서열 정보를 획득하는 단계를 포함한다. 나노포어 시퀀싱 DNA 분석 기술은 예를 들어 Oxford Nanopore Technologies(Oxford, United Kingdom), Sequenom, NABsys 등을 포함한 다수의 회사에 의해 개발되고 있다. 나노포어 시퀀싱은 DNA의 단일 분자가 나노포어를 통과할 때 직접 시퀀싱되는 단일 분자 시퀀싱 기술이다. 나노포어는 일반적으로 직경이 약 1 나노미터인 작은 구멍이다. 전도성 유체 중의 나노포어의 침수 및 그에 걸친 전위차(전압)의 인가는 나노포어를 통한 이온의 전도로 인해 약간의 전류를 초래한다. 흐르는 전류의 양은 나노포어의 크기 및 형상에 민감하다. DNA 분자가 나노포어를 통과할 때, 상기 DNA 분자의 각 뉴클레오티드는 상이한 정도로 나노포어를 막고 나노포어를 통한 전류의 크기가 상이한 정도로 변화한다. 따라서 DNA 분자가 나노포어 통과할 때의 이러한 전류 변화는 DNA 서열 판독을 제공한다.

예시적이지만 비제한적인 다른 구체예에서, 본 명세서에서 설명되는 방법은 화학적 감응성 전계 효과 트랜지스터(chemFET) 어레이(예를 들어, 미국 특허출원 공보 제2009/0026082호에 기재되어 있음)를 이용하여 검사 샘플 중의 핵산, 예를 들어 모체 검사 샘플 중의 cfDNA, 암에 대한 선별검사될 대상체의 cfDNA 또는 세포 DNA 등에 대한 서열 정보를 획득하는 단계를 포함한다. 이러한 기술의 일례에서, DNA 분자는 반응 챔버에 위치시키고, 주형 분자는 폴리머라제에 결합된 시퀀싱 프라이머와 하이브리드화할 수 있다. 시퀀싱 프라이머의 3' 말단에서 새로운 핵산 가닥으로 1개 이상의 트리포스페이트의 혼입은 chemFET 의해 전류의 변화로서 구별될 수 있다. 어레이는 다수의 chemFET 센서를 가질 수 있다. 다른 예에서, 단일 핵산은 비이드에 부착될 수 있고, 핵산은 비이드상에서 증폭될 수 있고, 개개의 비이드는 각 챔버가 chemFET 센서를 갖는 chemFET 어레이의 개개의 반응 챔버로 이동될 수 있고, 핵산은 시퀀싱될 수 있다.

또 다른 구체예에서, 본 방법은 투과 전자 현미경(TEM)을 이용하여 검사 샘플 중의 핵산, 예를 들어 모체 검사 샘플 중의 cfDNA, 암에 대한 선별검사될 대상체의 cfDNA 또는 세포 DNA 등에 대한 서열 정보를 획득하는 단계를 포함한다. 개별 분자 배치 신속 나노 이동(Individual Molecule Placement Rapid Nano Transfer)(IMPRNT)이라 명명된 상기 방법은 중질 원자 마커로 선택적으로 표지된 고 분자량(150kb 또는 그 이상) DNA의 단일 원자 분해 투과 전자현미경 영상화를 사용하는 단계 및 이러한 분자들을 염기와 염기 간에 일관된 간격을 갖는 초 고밀도 (가닥과 가닥 사이 3nm) 병렬 어레이의 초박막 필름상에 배열하는 단계를 포함한다. 전자현미경을 사용하여 필름상의 분자를 영상화하여 중질 원자 마커의 위치를 결정하고, DNA의 염기 서열 정보를 추출한다. 상기 방법은 PCT 특허공보 제WO 2009/046445호에 추가 기재되어 있다. 상기 방법은 완전한 인간 게놈을 10분 미만으로 시퀀싱할 수 있게 한다.

다른 구체예에서, DNA 시퀀싱 기술은 Ion Torrent의 단일 분자 시퀀싱이며 이는 반도체 기술과 단순 시퀀싱 화학을 결합시킨 것으로 화학적으로 코딩된 정보(A, C, G, T)를 반도체 칩에서 디지털 정보(0,1)로 직접 번역한다. 자연적으로, 폴리머라제에 의해 뉴클레오티드가 DNA의 가닥으로 혼입되는 경우, 수소 이온이 부산물로서 방출된다. Ion Torrent는 미세 기계 가공된 웰의 고밀도 서열을 사용하여 대규모 병렬 방식으로 생화학적 과정을 실시한다. 각 웰은 상이한 DNA 분자를 보유한다. 웰 아래에는 이온-감수성 층이 있고, 그 아래에는 이온 센서가 있다. 뉴클레오티드, 예를 들어 C가 DNA 주형에 부가된 다음, DNA의 가닥에 혼입되는 경우, 수소 이온이 방출될 것이다. 그 이온의 전하가 용액의 pH를 변화시킬 것이고 이는 Ion Torrent의 이온 센서에 의해 감지될 수 있다. 본질적으로 세계에서 가장 작은 고체 pH 미터인 시퀀서는 염기를 호출하여 화학적 정보로부터 디지털 정보로 바로 이동시킨다. 이어서, Ion personal Genome Machine(PGM™) 시퀀서는 칩을 뉴클레오티드로 차례차례 순차적으로 침수시킨다. 칩을 침수시키는 다음 뉴클레오티드가 매치되지 않는 경우, 전압 변화는 기록되지 않고 또한 염기는 호출되지 않을 것이다. DNA 가닥에 2개의 동일한 염기가 존재하는 경우, 전압은 2배로 증가하고 칩은 호출된 2개의 동일한 염기를 기록할 것이다. 직접적 검출은 수초 내에 뉴클레오티드 혼입을 기록하게 할 수 있다.

또 다른 구체예에서, 본 방법은 하이브리드화에 의한 시퀀싱을 이용하여 검사 샘플 중의 핵산, 예를 들어 모체 검사 샘플 중의 cfDNA에 대한 서열 정보를 획득하는 단계를 포함한다. 하이브리드화에 의한 시퀀싱은 복수의 폴리뉴클레오티드 서열과 복수의 폴리뉴클레오티드 프로브를 접촉시키는 단계를 포함하고, 여기서 복수의 폴리뉴클레오티드 프로브 각각은 선택적으로 기판에 계류될 수 있다. 기판은 공지의 뉴클레오티드 서열을 포함하는 평면일 수 있다. 어레이에 하이브리드화되는 패턴을 이용하여 샘플 중에 존재하는 폴리뉴클레오티드 서열을 결정할 수 있다. 다른 구체예에서, 각 프로브는 비이드, 예를 들어 자석 비이드 등에 계류된다. 비이드에 대한 하이브리드화를 판정하고 이를 사용하여 샘플 내의 복수의 폴리뉴클레오티드 서열을 동정할 수 있다.

본 명세서에서 설명되는 방법의 일부 구체예에서, 매핑된 서열 태그는 약 20bp, 약 25bp, 약 30bp, 약 35bp, 약 40bp, 약 45bp, 약 50bp, 약 55bp, 약 60bp, 약 65bp, 약 70bp, 약 75bp, 약 80bp, 약 85bp, 약 90bp, 약 95bp, 약 100bp, 약 110bp, 약 120bp, 약 130, 약 140bp, 약 150bp, 약 200bp, 약 250bp, 약 300bp, 약 350bp, 약 400bp, 약 450bp, 또는 약 500bp의 서열 판독을 포함한다. 기술적 진보로 인해 500bp보다 큰 싱글-엔드 판독이 가능하고 페어드-엔드 판독이 생성되는 경우에는 약 1000bp보다 큰 판독이 가능할 것으로 예상된다. 한 구체예에서, 매핑된 서열 태그는 36bp인 서열 판독을 포함한다. 서열 태그의 매핑은 태그의 서열을 참조의 서열과 비교하여 시퀀싱된 핵산(예: cfDNA) 분자의 염색체 기원을 결정함으로써 달성되고, 구체적인 유전자 서열 정보는 필요하지 않다. 참조 게놈과 혼합 샘플 중의 게놈 사이에 존재할 수 있는 미량의 다형성을 설명하는 경미한 정도의 미스매치(1 개의 서열 태그당 0 내지 2개의 미스매치)는 허용될 수 있다.

일반적으로 샘플당 복수의 서열 태그가 획득된다. 일부 구체예에서, 판독을 참조 게놈에 매핑하여 샘플당 20 내지 40bp의 판독, 예를 들어 36bp를 포함하는, 적어도 약 3 × 10⁶개 서열 태그, 적어도 약 5 × 10⁶개의 서열 태그, 적어도 약 8 × 10⁶개 서열 태그, 적어도 약 10 × 10⁶개 서열 태그, 적어도 약 15 × 10⁶개 서열 태그, 적어도 약 20 × 10⁶개 서열 태그, 적어도 약 30 × 10⁶개 서열 태그, 적어도 약 40 × 10⁶개 서열 태그 또는 적어도 약 50 × 10⁶개 서열 태그가 획득된다. 한 구체예에서, 모든 서열 판독은 참조 게놈의 모든 영역에 매핑된다. 한 구체예에서, 참조 게놈의 모든 영역, 예를 들어 모든 염색체에 매핑된 태그를 카운팅하고, 혼합 DNA 샘플 중의 관심대상의 서열, 예를 들어 염색체 또는 그 일부분의 CNV, 즉 과잉- 또는 과소-표현을 판정한다. 방법은 2종의 게놈 사이의 식별을 필요로하지 않는다.

CNV, 예를 들어 이수성이 샘플 중에 존재하는지 또는 부재인지 여부를 정확하게 판정하기 위해 요구되는 정확도는 시퀀싱 실행 내에서 샘플들 간에 참조 게놈에 매핑하는 서열 태그의 수의 변이(염색체 간의 가변성) 및 상이한 시퀀싱 실행들 간에 참조 게놈에 매핑하는 서열 태그의 수의 변이(시퀀싱 간의 변동성)에 따라 예측된다. 예를 들어, 변이는 GC-풍부한 또는 GC-부족 참조 서열에 매핑되는 태그에 관해서 특히 확연할 수 있다. 다른 변이는 핵산의 추출 및 정제 시퀀싱, 라이브러리의 제조 및 상이한 시퀀싱 플랫폼의 사용에 대해 상이한 프로토콜을 사용함으로써 발생한다. 본 방법은 정규화 서열(정규화 염색체 서열 또는 정규화 세그먼트 서열)에 대한 지식에 기반하여 서열 양(염색체 양 또는 세그먼트 양)을 이용하여, 염색체 간(실행 내) 및 시퀀싱 간(실행 간)에 발생하는 가변성 및 플랫폼 의존적 가변성을 본질적으로 설명한다. 염색체 양은 단일 염색체 또는 1번 내지 22번 염색체, X 염색체 및 Y 염색체로부터 선택된 2종 이상의 염색체로 구성될 수 있는 정규화 염색체 서열에 대한 지식에 기반한다. 대안적으로, 정규화 염색체 서열은 단일 염색체 세그먼트, 또는 1종의 염색체 또는 2종 초과의 염색체의 2종 이상의 세그먼트로 구성될 수 있다. 세그먼트 양은 임의의 1종의 염색체의 단일 세그먼트 또는 1번 내지 22번 염색체, X 염색체 및 Y 염색체 중 임의의 2종 이상의 2종 이상의 세그먼트로 구성될 수 있는 정규화 세그먼트 서열에 대한 지식에 기반한다.

CNV 및 출생전 진단

모체 혈액 중에서 순환하는 무세포계 태아 DNA와 RNA는 임신 관리 및 생식 의사 결정의 지원 둘 다를 위해, 증가하는 수의 유전적 상태에 대한 조기의 비침습적 출생전 진단(NIPD)에 이용될 수 있다. 혈류 중에서 순환하는 무세포계 DNA의 존재는 50년 넘게 알려져 있었다. 더 최근에는, 소량의 순환 태아 DNA의 존재가 임신 동안 모체 혈류에서 발견되었다(Lo et al., Lancet 350 : 485-487 [1997]). 죽어가는 태반 세포로부터 유래하는 것으로 사료되는 무세포계 태아 DNA(cfDNA)는 임신 4주차에 이미 구분될 수 있는(Illanes et al., Early Human Dev 83 : 563-566 [2007]), 일반적으로 길이가 200bp보다 적은 짧은 단편으로 구성된 것으로 나타났으며(Chan et al., Clin Chem 50 : 88-92 [2004]) 출산 수시간 내에 모체 순환으로부터 소실되는 것으로 알려져 있다(Lo et al., Am J Hum Genet 64 : 218-224 [1999]). cfDNA 외에도, 태아 또는 태반에서 전사되는 유전자로부터 유래하는 무세포계 태아 RNA(cfRNA)의 단편도 모체 혈류 중에서 구별될 수 있다. 이러한 모체 혈액 샘플 유래의 태아 유전자 요소의 추출 및 후속적 분석은 NIPD에 새로운 기회를 제공한다.

본 방법은 NIPD에서 사용하기 위한 다형성 독립적인 방법으로, 태아 이수성의 판정을 가능하게 하기 위해 태아 cfDNA가 모체 cfDNA과 구별되는 것을 필요로 하지 않는다. 일부 구체예에서, 이수성은 완전한 염색체 트리소미 또는 모노소미 또는 부분적 트리소미 또는 모노소미이다. 부분적 이수성은 염색체의 일부의 손실 또는 증대에 의해 유발되며 불균형 전좌, 불균형 역위, 결실 및 삽입에 의해 발생하는 염색체 불균형을 포함한다. 지금까지, 생명과 양립 가능하다고 잘 알려진 이수성은 21번 염색체의 일부 또는 전부의 존재에 의해 유발되는 트리소미 21, 즉 다운 증후군(DS)이다. 드물게, DS는 21번 염색체의 전부 또는 일부의 여분의 카피가 다른 염색체(일반적으로 14번 염색체)에 부착하여 하나의 비정상적인 염색체를 형성하는 유전성 또는 산발성 결함에 의해 발생될 수 있다. DS는 지적 장애, 중증 학습 장애 및 심장 질환과 같은 장기의 건강 문제에 의해 유발된 초과 사망률과 관련이 있다. 공지된 임상적 의의를 갖는 다른 이수성은 에드워드 증후군(트리소미 18) 및 파타우 증후군(트리소미 13)을 포함하고, 이는 생후 처음 수개월 이내에 높은 빈도로 사망한다. 성 염색체의 수와 관련된 이상도 또한 공지되어 있으며 여성 출생에서의 모노소미 X, 예를 들어 터너 증후군(XO) 및 트리플 X 증후군 (XXX) 및 남성 출생에서의 클라인 펠터(Kleinefelter) 증후군(XXY) 및 XYY 증후군을 포함하고, 이들은 모두 불임 및 지적 능력의 감소를 포함하는 다양한 표현형과 관련이 있다. 모노소미 X[45, X]는 자연 유산의 약 7%를 차지하는 초기 임신 손실의 일반적인 원인이다. 1명 내지 2명/10,000명의 45,X(터너 증후군이라고도 함)의 출생 빈도에 기반하여, 45,X 임신의 1% 미만이 기한까지 생존하는 것으로 추정된다. 터너 증후군 환자의 약 30%는 45,X 세포 계열과, 46,XX 세포 계열 또는 재배열된 X 염색체를 함유하는 하나 중 어느 한쪽 둘 다와 모자이크이다(Hook and Warburton 1983). 높은 배아 치사 율을 고려하면 출생 아동의 표현형은 비교적 경미하며, 아마 터너 증후군을 가진 모든 출생 여아가 2종의 성 염색체를 함유하는 세포 계열을 유지할 것이라는 가설을 세울 수 있다. 모노소미 X는 여성에서 45,X 또는 45,X/46XX로서 발생할 수 있고 남성에서 45,X/46XY로서 발생할 수 있다. 인간의 상염색체 모노소미는 일반적으로 생명과 양립 불가능하다고 제시되고 있지만; 출생 아동의 1개의 21번 염색체의 전체 모노소미를 설명하는 상당수의 세포유전학 보고서가 있다(Vosranova let al., Molecular Cytogen. 1 : 13 [2008]; Joosten et al,., Prenatal Diagn. 17:271-5 [1997]). 본 명세서에서 설명된 방법을 이용하여 이들 및 다른 염색체 이상을 출생 전에 진단할 수 있다.

일부 구체예에 따르면, 본 명세서에서 개시되는 방법은 1번 내지 22번 염색체, X 염색체 및 Y 염색체 중 어느 하나의 염색체 트리소미의 존재 유무를 판정할 수 있다. 본 방법에 따라 검출될 수 있는 염색체 트리소미의 예에는 트리소미 21(T21; 다운 증후군), 트리소미 18(T18; 에드워드 증후군), 트리소미 16(T16), 트리소미 20(T20), 트리소미 22(T22; 묘안 증후군), 트리소미 15(T15; 프라더 윌리 증후군), 트리소미 13(T13; 파타우 증후군), 트리소미 8(T8; 와카니 증후군(Warkany syndrome)), 트리소미 9 및 XXY(클라인 펠터 증후군), XYY 또는 XXX 트리소미가 포함되지만, 그들로 한정되는 것은 아니다. 비-모자이크 상태로 존재하는 다른 상염색체의 완전한 트리소미는 치명적이지만, 모자이크 상태로 존재하는 경우, 생명과 양립가능할 수 있다. 모자이크 또는 비-모자이크 상태로 존재하는지 여부에 관계없이 다양한 전체 트리소미 및 부분적 트리소미를 본 명세서에서 제공되는 교시에 따라 태아 cfDNA에서 판정할 수 있음이 이해될 것이다

본 방법에 의해 판정될 수 있는 부분적 트리소미의 비제한적인 예에는 부분적 트리소미 1q32-44, 트리소미 9p, 트리소미 4 모자이크, 트리소미 17p, 부분적 트리소미 4q26-qter, 부분 2p 트리소미, 부분적 트리소미 1q 및/또는 부분적 트리소미 6p/모노소미 6q가 포함되지만, 그들로 한정되는 것은 아니다.

본 명세서에서 개시되는 방법을 사용하여 임신 유산에 관여하는 것으로 알려진 염색체 모노소미 X, 염색체 모노소미 21, 및 모노소미 13, 모노소미 15, 모노소미 16, 모노소미 21 및 모노소미 22와 같은 부분적 모노소미도 판정할 수 있다. 일반적으로 완전한 이수성에 관여하는 염색체의 부분적 모노소미도 본 명세서에서 설명되는 방법에 의해 판정할 수 있다. 본 방법에 따라 판정될 수 있는 결실 증후군의 비제한적인 예에는 염색체의 부분적인 결실에 의해 유발되는 증후군이 포함된다. 본 명세서에서 설명된 방법에 따라 판정될 수 있는 부분적 결실의 예에는 다음에서 설명되는 1번 염색체, 4번 염색체, 5번 염색체, 7번 염색체, 11번 염색체, 18번 염색체, 15번 염색체, 13번 염색체, 17번 염색체, 22번 염색체 및 10번 염색체의 부분적 결실이 포함되지만, 그들로 한정되는 것은 아니다.

1q21.1 결실 증후군 또는 1q21.1(재발성) 미세결실은 1번 염색체의 희귀 이상이다. 결실 증후군과는 별도로, 1q21.1 중복 증후군도 존재한다. 특정 지점에 결실 증후군에 대한 DNA 결손의 일부분이 존재하는 한편, 중복 증후군에 대해서는 동일한 지점에 DNA의 유사한 부분의 2개 또는 3개 카피가 존재한다. 문헌은 1q21.1 카피수 변이(CNV)로서 결실과 중복 둘 다를 언급하고 있다. 1q21.1 결실은 TAR 증후군(요골 결손을 동반한 혈소판감소증)과 관련이 있을 수 있다.

울프-허쉬호른 증후군(WHS)(OMIN # 194190)은 염색체 4p16.3의 반접합 결실과 관련된 인접한 유전자 결실 증후군이다. 울프-허쉬호른 증후군은 출생 전 또는 출생 후 발육 부전, 다양한 정도의 발달 장애, 특징적인 두개안면 특징(코, 높은 이마, 돌출된 미간, 양안과다격리증, 높은 아치형 눈썹, 튀어나온 눈, 내안각주름, 짧은 인중, 처진 구각을 갖는 독특한 입 및 소하악증의 "그리스 전사 헬멧" 외모) 및 발작 장애를 특징으로 하는 선천성 기형 증후군이다.

5p- 또는 5p 마이너스로서도 알려져 있고 고양이 울음(Cris du Chat) 증후군(OMIN # 123450)이라 명명되는 5번 염색체의 부분적 결실은 5번 염색체의 단완(p 완)(5p15.3-p15.2)의 결실에 의해 유발된다. 이러한 상태를 갖는 유아는 종종 고양이의 울음과 같은 고음의 울음을 갖는다. 상기 장애는 지적 장애 및 발달 지연, 작은 머리 크기(소두증), 저체중 및 유아기에서 약한 근육 긴장(근긴장저하), 독특한 얼굴 특징 및 가능하게는 심장 결함을 특징으로 한다.

염색체 7q11.23 결실 증후군(OMIN 194050)으로서 알려진 윌리엄-보이렌 증후군은 약 28개의 유전자를 함유하는 염색체 7q11.23에서 1.5 내지 1.8Mb의 반접합 결실에 의해 유발되는 다기관계 장애를 초래하는 연속적 유전자 결실 증후군이다.

11q 결실 장애로서도 알려진 제이콥슨 증후군(Jacobsen Syndrome)은 밴드 11q24.1을 포함한 11번 염색체의 말단 영역의 결실에 의해 발생하는 희귀한 선천성 장애이다. 그것은 지적 장애, 독특한 얼굴 특징 및 심장 결함과 출혈 장애를 비롯한 다양한 신체적 문제를 유발할 수 있다.

모노소미 18p로서 알려진 18번 염색체의 부분적 모노소미는 18번 염색체의 단완(p)의 전부 또는 일부가 결실되어 있는(일염색체성) 희귀 염색체 장애이다. 상기 장애는 일반적으로 저신장, 다양한 정도의 정신 지체, 발화 지연(speech delay), 두개골 및 안면(두개 안면)의 기형 및/또는 추가의 신체적 이상을 특징으로 한다. 관련된 두개 안면 결함은 증례마다 범위와 중증도가 크게 달라질 수 있다.

15번 염색체의 구조 또는 카피수의 변화에 의해 유발되는 상태에는 안젤만 증후군 및 프라더 윌리 증후군이 포함되고, 이는 15번 염색체의 동일한 부분, 15q11-q13 영역에서의 유전자 활성의 손실을 포함한다. 몇몇 전좌 및 미세결실은 보인자 부모에서 무증상성일 수 있으나 자손에서는 큰 유전자 질환을 유발할 수 있는 것으로 이해될 수 있다. 예를 들어, 15q11-q13 미세결실을 보유하는 건강한 어머니는 중증 신경변성 장애인 안젤만 증후군을 가진 아이를 출산할 수 있다. 따라서, 본 명세서에서 설명되는 방법, 장치 및 시스템을 이용하여 태아의 이러한 부분적 결실 및 다른 결실을 동정할 수 있다.

부분적 트리소미 13q는 13번 염색체의 장완(q)의 단편이 결손되어 있는(일염색체성) 경우에 발생하는 희귀 염색체 장애이다. 부분적 모노소미 13q를 가지고 태어난 유아는 낮은 출생 체중, 머리와 안면(두개안면 영역)의 기형(특히, 손과 발) 골격 이상 및 다른 신체적 이상을 나타낸다. 정신 지체는 상기 상태의 특징이다. 유아기 동안의 사망률은 상기 장애를 가지고 태어난 개체들 사이에서 높다. 부분적 모노소미 13q의 거의 모든 증례는 명확한 이유없이 무작위로 일어난다(산발성).

스미스 마게니스 증후군(SMS-OMIM # 182290)은 17번 염색체의 한 카피에서의 유전 물질의 결실 또는 상실에 의해 유발된다. 이러한 널리 알려진 증후군은 발달 지연, 정신 지체, 심장 및 신장 결함과 같은 선천성 이상, 및 중증 수면 장애 및 자해 행동과 같은 신경행동학적 이상과 관련이 있다. 스미스 마게니스 증후군 (SMS)은 대부분의 증례(90%)에서 염색체 17p11.2의 3.7-Mb 중간부 결실에 의해 유발된다.

디조지 증후군으로서 알려진 22q11.2 결실 증후군은 22번 염색체의 작은 단편의 결실에 의해 유발되는 증후군이다. 결실(22q11.2)은 염색체 쌍의 한쪽의 장완에서 염색체의 중앙에서 일어난다. 상기 증후군의 특징은 동일한 가족 구성원 사이에서조차 크게 다르고 신체의 많은 부분에 영향을 미친다. 특징적인 징후 및 증상은 선천성 심장 질환과 같은 선청성 결함(birth defect), 구개의 결함, 폐쇄를 동반한 신경근 문제와 가장 흔하게 관련되는 것(구개인두 부전), 학습 장애, 얼굴 특징의 경미한 차이 및 재발성 감염을 포함할 수 있다. 염색체 영역 22q11.2의 미세결실은 정신분열증의 20배 내지 30배의 위험 증가와 관련이 있다.

10번 염색체 단완의 결실은 디조지 증후군 유사 표현형과 관련이 있다. 염색체 10p의 부분적 모노소미는 희귀하며, 디조지 증후군의 특성을 나타내는 환자의 일부분에서 관찰되었다.

한 구체예에서, 본 명세서에서 설명되는 방법, 장치 및 시스템을 이용하여 1번, 4번, 5번, 7번, 11번, 18번, 15번, 13번, 17번, 22번 및 10번 염색체의 부분적 모노소미, 예를 들어, 부분적 모노소미 1q21.11, 부분적 모노소미 4p16.3, 부분적 모노소미 5p15.3-p15.2, 부분적 모노소미 7q11.23, 부분적 모노소미 11q24.1, 부분적 모노소미 18p, 15번 염색체의 부분적 모노소미(15q11-q13), 부분적 모노소미 13q, 부분적 모노소미 17p11.2, 22번 염색체의 부분적 모노소미(22q11.2) 및 부분적 모노소미 10p를 포함하나 그들로 한정되지 않는 부분적 모노소미를 판정한다.

본 명세서에서 설명되는 방법에 따라 판정될 수 있는 다른 부분적 모노소미에는 불균형 전좌 t(8; 11)(p23.2; p15.5); 11q23 미세결실; 17p11.2 결실; 22q13.3 결실; Xp22.3 미세결실; 10p14 결실; 20p 미세결실 [del(22) (q11.2q11.23), 7q11.23 및 7q36 결실; 1p36 결실; 2p 미세결실; 신경섬유종증 1형 (17q11.2 미세결실) Yq 결실; 4p16.3 미세결실; 1p36.2 미세결실; 11q14 결실; 19q13.2 미세결실; 루빈스타인- 테이비(16p13.3 미세결실); 7p21 미세결실; 밀러-디커 증후군(17p13.3); 및 2q37 미세결실이 포함된다. 부분적 결실은 염색체의 일부분의 작은 결실이거나, 부분적 결실은 단일 유전자의 결실이 일어날 수 있는 염색체의 미세결실일 수 있다.

염색체 완(腕)의 일부의 중복에 의해 유발되는 일부 중복 증후군이 동정되었다(OMIN[ncbi.nlm.nih.gov/omim에서 온라인으로 열람하는 Online Mendelian Inheritance in Man]을 참조한다). 한 구체예에서, 본 방법을 이용하여 1번 내지 22번 염색체, X 염색체 및 Y 염색체 중 어느 하나의 세그먼트의 중복 및/또는 증배의 존재 유무를 판정할 수 있다. 본 방법에 따라 판정될 수 있는 중복 증후군의 비 제한적인 예에는 다음에 설명하는 8번 염색체, 15번 염색체, 12번 염색체 및 17번 염색체의 일부분의 중복이 포함된다.

8p23.1 중복 증후군은 인간 8번 염색체 유래의 영역의 중복에 의해 유발되는 희귀한 유전적 장애이다. 상기 중복 증후군은 64,000명 신생아 중 1명으로 추정되는 유병률이 있고 8p23.1 결실 증후군과 상호적이다. 8p23.1 중복은 발화 지연, 발달 지연, 돌출된 이마 및 아치형 눈썹을 갖는 경미한 이형증, 및 선천성 심장질환 (CHD) 중 하나 이상을 포함하는 다양한 표현형과 관련이 있다.

염색체 15q 중복 증후군(Dup15q)은 염색체 15q11-13.1의 중복에 의해 발생하는 임상적으로 동정가능한 증후군이다. Dup15q를 가진 아기는 일반적으로 근긴장저하(불충분한 근력), 발육 지체를 가지고; 그들은 구순열 및/또는 구개열, 또는 심장, 신장 또는 다른 장기의 기형을 가지고 태어날 수 있고; 그들은 어느 정도의 인지 지연/장애(정신 지체) 및 언어 지연 및 감각 처리 장애를 나타낸다.

팔리스타 킬리안 증후군은 여분의 12번 염색체 물질의 결과이다. 일반적으로 일부는 여분의 12번 물질을 갖고 일부는 정상(여분의 12번 물질을 갖지 않는 46개의 염색체)인 세포의 혼합물(모자이크)이 존재한다. 상기 증후군을 가진 아기는 중증 정신 지체, 빈약한 근육 긴장, "투박한" 얼굴 특징 및 돌출된 이마를 포함한 많은 문제를 갖고 있다. 그들은 더 두꺼운 아랫 입술과 함께 매우 얇은 윗입술 및 짧은 코를 갖는 경향이 있다. 다른 건강 문제는 발작, 섭식 불량, 경직된 관절, 성인기의 백내장, 청력 상실 및 심장 결함을 포함한다. 팔리스타 킬리안을 가진 인간은 단축된 수명을 갖는다.

dup(17)(p11.2p11.2) 또는 dup 17p로서 지정된 유전적 상태를 가진 개체는 17번 염색체의 단완에 여분의 유전 정보(중복으로서 알려져 있음)를 유지한다. 염색체 17p11.2의 중복은 의학 문헌에서 수십 증례만이 보고된 새로이 인정된 유전적 상태인 포토키-루프스키(Potocki-Lupski) 증후군(PTLS)의 원인이 된다. 이러한 중복을 가진 환자는 종종 낮은 근육 긴장, 섭식 불량 및 유아기 동안의 성장장애를 가지며 또한 운동과 언어 이정표(milestone)의 발달 지연도 나타낸다. PTLS를 갖는 많은 개체는 명료한 발음 및 언어 처리에 어려움이 있다. 또한, 환자는 자폐증 또는 자폐 스펙트럼 장애를 가진 사람에서 보이는 행동 특징과 유사한 행동 특징을 가질 수 있다. PTLS를 갖는 개체는 심장 결함 및 수면 무호흡증을 가질 수 있다. PMP22 유전자를 포함하는 염색체 17p12의 큰 영역의 중복은 샤르코 마리 투스 질환을 유발하는 것으로 알려져 있다.

CNV는 사산과 관련되었다. 그러나, 종래의 세포유전학의 고유한 제약으로 인해, CNV의 사산에 대한 기여는 과소 표현된 것으로 사료된다(Harris et al., Prenatal Diagn 31 : 932-944 [2011]). 실시예에 제시되어 있고 본 명세서의 다른 부분에서 기재된 바와 같이, 본 방법은 부분적 이수성, 예를 들어 염색체 세그먼트의 결실 및 증배의 존재를 판정할 수 있고 사산과 관련되는 CNV의 존재 유무를 판정하는 데 사용될 수 있다.

임상 장애의 CNV 판정

본 명세서에서 설명되는 방법은, 선천성 결함의 조기 판정 외에도, 게놈 내 유전자 서열의 표현에서 어떠한 이상의 판정에도 적용할 수 있다. 게놈 내 유전자 서열의 표현에 있어 다수의 이상은 각종 병리상태와 관련되고 있다. 이러한 병리상태에는 암, 감염성 및 자가면역 질환, 신경계 질환, 대사성 및/또는 심혈관 질환 등이 포함되나, 그들로 한정되는 것은 아니다.

따라서, 이러한 병리상태의 진단 및/또는 모니터링 및/또는 치료에 있어서의 본 명세서에서 설명되는 방법의 용도가 도모된다. 예를 들어, 상기 방법은 질환의 존재 유무를 판정하고 질환 진행 및/또는 치료 방식의 효능을 모니터링하고 병원체, 예를 들어 바이러스의 핵산의 존재 여부를 판정하고; 이식편대 숙주 질환(GVHD)과 관련된 염색체 이상을 판정하고 법의학적 분석에서 개체의 기여도를 판정하기 위해 적용될 수 있다.

암에서의 CNV

암 환자 유래의 혈장 및 혈청 DNA는 회수되어 종양 DNA의 대용 공급원으로서 이용될 수 있는 종양 DNA의 측정가능한 분량을 함유하고, 종양은 이수성 또는 부적절한 수의 유전자 서열 또는 심지어 염색체 전체를 특징으로 하는 것으로 나타났다. 따라서, 개체 유래의 샘플 중에서 소정의 서열, 즉 관심대상 서열의 양의 차이를 결정하는 것은 의학적 상태의 예후 또는 진단에서 이용될 수 있다. 일부 구체예에서, 본 방법을 이용하여 암에 걸린 것으로 의심되거나 알려진 환자에서 염색체 이수성의 존재 유무를 판정할 수 있다.

본 명세서의 일부 실시형태는 페어드-엔드 방법론을 이용한 샘플의 얕은(shallow) 시퀀싱을 사용하고 페어드-엔드 판독으로부터 입수가능한 단편 크기 정보를 사용하여 정상 세포의 배경에서 암 세포 유래의 서로 다르게 메틸화된 아폽토시스 DNA의 존재를 동정함으로써 암을 검출하고 순환 cfDNA 샘플에 기반하여 치료 반응 및 미세 잔존 질환을 추적하기 위한 방법을 제공한다. 종양 유래의 cfDNA는 일부 암에서 종양으로부터 유래하지 않은 cfDNA보다 짧은 것으로 밝혀졌다. 따라서, 본 명세서에서 설명되는 크기 기반 방법을 이용하여 이러한 암과 관련된 이수성을 포함한 CNV를 판정하여, (a) 선별검사 또는 진단 설정에 존재하는 종양의 검출; (b) 요법에 대한 반응성의 모니터링; (c) 미세 잔존 질환의 모니터링이 가능할 수 있다.

특정의 구체예에서, 이수성은 대상체의 게놈의 특징이며 일반적으로 암에 걸리기 쉬운 소인을 증가시킨다. 특정의 구체예에서, 이수성은 신생물이거나 신생물이 될 경향이 증가된 특정 세포(예를 들어, 종양 세포, 원발종양 신생물 세포 등)의 특징이다. 특정 이수성은 이하에 설명하는 특정 암 또는 특정 암에 걸리기 쉬운 소인과 관련이 있다. 일부 구체예에서, 매우 얕은 페어드-엔드 시퀀싱 방법을 사용하여 비용 효율적 방식으로 암 존재를 검출/모니터링할 수 있다.

따라서, 본 명세서에서 설명되는 방법의 다양한 구체예는 특정 카피수 변이가 암의 존재 및/또는 암에 걸리기 쉬운 소인의 지표를 제공하는, 대상체 유래의 검사 샘플에서 관심대상의 핵산 서열(들), 예를 들어 임상적으로 관련된 서열(들)의 카피수 변이의 판정을 제공한다. 특정의 구체예에서, 샘플은 2종 초과의 세포로부터 유래하는 핵산의 혼합물을 포함한다. 한 구체예에서, 핵산의 혼합물은 정상 세포, 및 의학적 상태, 예를 들어 암에 걸린 대상체로부터 유래하는 암 세포로부터 유래한다.

암의 발생은 종종 전체 염색체 수의 변경, 즉 완전한 염색체 이수성 및/또는 염색체 불안정성(CIN)으로 알려진 과정에 의해 유발된 염색체의 세그먼트 수의 변경, 즉 부분적 이수성을 동반한다(Thoma et al., Swiss Med Weekly 2011:141:w13170). 유방암과 같은 많은 고형 종양은 몇몇 유전적 이상의 누적을 통해 개시에서 전이까지 진행되는 것으로 사료되고 있다[Sato et al., Cancer Res., 50: 7184-7189 [1990]; Jongsma et al., J Clin Pathol: Mol Path 55:305-309 [2002])]. 이러한 유전적 이상이 누적됨에 따라, 증식적 이점, 유전적 불안정성 및 빠르게 약물 내성을 발달시키는 수반되는 능력과 증강된 혈관형성, 단백질분해 및 전이를 부여할 수 있다. 유전적 이상은 열성 "종양 억제 유전자" 또는 우성 작용하는 발암유전자에 영향을 미칠 수 있다. 이형접합성(LOH)의 상실을 초래하는 결실 및 재조합은 돌연변이된 종양 억제 대립유전자를 노출시킴으로써 종양 진행에서 중요한 역할을 하는 것으로 사료되고 있다.

cfDNA는 폐암(Pathak et al. Clin Chem 52:1833-1842 [2006]), 전립선암(Schwartzenbach et al. Clin Cancer Res 15:1032-8 [2009]) 및 유방암(Schwartzenbach et al.; breast-cancer-research.com/content/11/5/R71 [2009]에서 온라인 이용가능함)을 포함하나 그들로 한정되지 않는 악성종양을 지닌 것으로 진단된 환자의 순환에서 발견되었다. 암 환자에서 순환 중인 cfDNA에서 결정될 수 있는 암과 관련된 게놈 불안정성의 동정은 잠재적인 진단 및 예후 툴이다. 한 구체예에서, 본 명세서에서 설명하는 방법을 사용하여 샘플, 예를 들어 암, 예를 들어 암종, 육종, 림프종, 백혈병, 생식 세포 종양 및 모세포종 등을 갖는 것으로 의심되거나 알려진 대상체로부터 유래된 핵산의 혼합물을 포함하는 샘플에서 하나 이상의 관심대상의 서열(들)의 CNV를 판정한다. 한 구체예에서, 샘플은 정상 세포와 암 세포로부터 유래된 cfDNA의 혼합물을 포함할 수 있는, 말초혈로부터 유래된(처리된) 혈장 샘플이다. 또 다른 구체예에서, CNV가 존재하는지 여부를 결정하는 데 필요한 생물학적 샘플은, 암이 존재할 경우 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유출물, 림프, 타액, 뇌척수액, 세정액, 골수 현탁액, 질 유출물, 경자궁경부 세정액, 뇌 액, 복수, 모유, 호흡기, 장관 및 비뇨 생식기의 분비물 및 류코포레시스 샘플과 같은 생물학적 유체 또는 조직 생검, 면봉 또는 얼룩을 포함하나 그들로 한정되지 않는 다른 생물학적 조직 유래의 암 세포와 비-암 세포의 혼합물을 포함하는 세포로부터 유래된다. 다른 구체예에서, 생물학적 샘플은 대변(배설물) 샘플이다.

본 명세서에서 설명되는 방법은 cfDNA의 분석으로 한정되지 않는다. 유사한 분석을 세포 DNA 샘플에 대해 수행할 수 있다는 것이 이해될 것이다.

다양한 구체예에서, 관심대상의 서열(들)은 암의 발달 및/또는 진행에서 중요한 역할을 하는 것으로 알려져 있거나 의심되는 핵산 서열(들)을 포함한다. 관심대상의 서열의 예에는 이하에 설명하는 암 세포에서 증폭되어 있거나 결실되어 있는 핵산 서열, 예를 들어 완전한 염색체 및/또는 염색체의 세그먼트가 포함된다.

총 CNV 수 및 암에 걸릴 위험성

공통 암 SNP - 및 유추에 의한 공통 암 CNV는 각각 질환 위험의 약간의 증가만을 부여할 수 있다. 그러나, 총체적으로는 그들은 상당히 증가된 암에 걸릴 위험성을 유발할 수 있다. 이와 관련하여, 큰 DNA 세그먼트의 생식세포 증대 및 손실은 개체가 신경모세포종, 전립선암 및 결장직장암, 유방암, 및 BRCA1-관련 난소암에 걸리기 쉽게 만드는 인자로서 보고되었다는 것을 유의한다(예를 들어, 문헌[Krepischi et al. Breast Cancer Res., 14: R24 [2012]; Diskin et al. Nature 2009, 459:987-991; Liu et al. Cancer Res 2009, 69: 2176-2179; Lucito et al. Cancer Biol Ther 2007, 6:1592-1599; Thean et al. Genes Chromosomes Cancer 2010, 49:99-106; Venkatachalam et al. Int J Cancer 2011, 129:1635-1642; and Yoshihara et al. Genes Chromosomes Cancer 2011, 50:167-177]을 참조한다). 건강한 집단에서 종종 발견되는 CNV(공통 CNV)는 암 병인에서 일정 역할을 하는 것으로 사료되고 있다는 것을 유의한다(예를 들어, 문헌[Shlien and Malkin (2009) Genome Medicine, 1(6): 62]을 참조한다). 공통 CNV가 악성 종양과 관련이 있다는 가설을 검정하는 한 연구(Shlien et al. Proc Natl Acad Sci USA 2008, 105:11264-11269)에서, 그 유전자좌가 진짜 암 관련 유전자(문헌[Higgins et al. Nucleic Acids Res 2007, 35:D721-726]에 의해 목록화됨)와 일치하는 모든 공지된 CNV의 맵이 작성되었다. 이것들은 "암 CNV"라 명명되었다. 초기 분석(Shlien et al. Proc Natl Acad Sci USA 2008, 105:11264-11269)에서, 5.8 kb의 평균 프로브간 거리를 갖는 Affymetrix 500K 어레이 세트를 사용하여 770개의 건강한 게놈을 평가하였다. CNV는 일반적으로 유전자 영역에 고갈되어 있는 것으로 사료되기 때문에(Redon et al. (2006) Nature 2006, 444:444-454), 대규모 참조 집단의 1명을 넘는 인간에서 CNV에 의해 직접 포함되거나 중첩되는 49종의 암 유전자를 발견했다는 것은 놀라운 것이었다. 상위 10종의 유전자에서, 암 CNV는 4명 이상의 인간에서 발견될 수 있었다.

따라서, CNV 빈도를 암에 걸릴 위험성의 척도로서 사용할 수 있을 것으로 사료되고 있다(예를 들어, 미국 특허출원 공보 제2010/0261183 A1호를 참조). CNV 빈도는 유기체의 구성요소 게놈에 의해 간단히 결정될 수 있거나, CNV 빈도는 1종 이상의 종양이 존재할 경우 1종 이상의 종양(신생물 세포)으로부터 유래된 분획을 나타낼 수 있다.

특정의 구체예에서, 검사 샘플(예를 들어, 구성적(생식세포) 핵산을 포함하는 샘플) 또는 핵산의 혼합물(예를 들어, 신생물 세포로부터 유래된 생식세포 핵산 및 핵산(들))의 CNV 수는 카피수 변이에 대해 본 명세서에서 설명되는 방법을 사용하여 결정된다. 예를 들어, 참조 값과 비교하여 검사 샘플의 CNV 수의 증가를 동정하는 것은 대상체에서 암에 대한 위험성 또는 소인을 나타낸다. 참조 값은 소정의 집단에 따라 달라진다는 것이 이해될 것이다. 또한 CNV 빈도의 증가의 절대값은 CNV 빈도 또는 다른 매개변수를 결정하기 위해 사용되는 방법의 분해능에 따라 달라진다는 것이 이해될 것이다. 일반적으로, 참조값의 적어도 약 1.2배의 CNV 빈도 증가는 암에 걸릴 위험성을 나타내는 것으로 결정되었고(예를 들어, 미국 특허출원 공보 제2010/0261183 A1호를 참조), 예를 들어 참조 값의 2배 내지 4배의 CNV 빈도 증가와 같은 참조 값의 적어도 또는 약 1.5배 초과의 증가는 (예를 들어, 정상적인 건강한 참조 집단과 비교하여) 증가된 암 위험성을 나타내는 지표이다.

참조 값과 비교한 포유동물의 게놈의 구조적 변이의 판정도 암 위험성을 나타내는 것으로 사료된다. 이와 관련해서, 한 구체예에서 "구조적 변이"라는 용어는 포유동물의 평균 CNV 크기(bp)를 곱한 포유동물의 CNV 빈도로서 정의될 수 있다. 따라서, 높은 구조적 변이 점수는 CNV 빈도 증가로 인해 및/또는 대규모 게놈 핵산 결실 또는 중복의 발생으로 인해 발생할 것이다. 따라서, 특정의 구체예에서 검사 샘플(예를 들어, 구성적(생식세포) 핵산을 포함하는 샘플)의 CNV의 수는 본 명세서에서 설명되는 카피수 변이의 크기 및 수를 결정하는 방법을 사용하여 결정된다. 특정의 구체예에서, DNA의 약 1 메가베이스 초과, 또는 약 1.1 메가베이스 초과, 또는 약 1.2 메가베이스 초과, 또는 약 1.3 메가베이스 초과, 또는 약 1.4 메가베이스 초과, 또는 약 1.5 메가베이스초과, 또는 약 1.8 메가베이스 초과, 또는 약 2 메가베이스 초과의 게놈 DNA 내의 총 구조적 변이 점수는 암의 위험성을 나타낸다.

이러한 방법은 급성 및 만성 백혈병, 림프종, 중간엽 또는 상피 조직의 다수의 고형 종양, 뇌암, 유방암, 간암, 위암, 결장암, B 세포 림프종, 폐암, 기관지암, 결장직장암, 전립선암, 유방암, 췌장암, 위암, 난소암, 방광암, 뇌 또는 중추신경계 암, 말초신경계 암, 식도암, 자궁경부암, 흑색종, 자궁암 또는 자궁내막암, 구강 또는 인두의 암, 간암, 신장암, 담관암, 소장 또는 충수 암, 타액선암, 갑상선암, 부신암, 골육종, 연골육종, 지방육종, 고환암 및 악성 섬유조직구종 및 기타 암을 포함하지만 그들로 한정되지 않는 임의의 암의 위험성의 판정 척도를 제공한다.

전체 염색체 이수성.

위에서 나타낸 바와 같이, 암에는 높은 빈도의 이수성이 존재한다. 암에서 체세포 카피수 변경(somatic copy number alteration; SCNA)의 출현율을 검사하는 특정 연구에서, 전형적 암 세포의 게놈의 4분의 1은 이수성의 전완(whole-arm) SCNA 또는 전체-염색체 SCNA에 의해 영향을 받는다는 것이 발견되었다(예를 들어, 문헌[Beroukhim et al. Nature 463: 899-905 [2010]]을 참조한다). 전체-염색체 변경은 몇몇 암 유형에서 반복적으로 관찰된다. 예를 들어, 8번 염색체의 증대는 골수성 백혈병(AML) 증례의 10% 내지 20%뿐만 아니라 유잉 육종 및 데스모이드 종양 등을 포함하는 고형 종양에서 보여진다(예를 들어, 문헌[Barnard et al. Leukemia 10: 5-12 [1996]; Maurici et al. Cancer Genet. Cytogenet. 100: 106-110 [1998]; Qi et al. Cancer Genet. Cytogenet. 92: 147-149 [1996]; Barnard, D. R. et al. Blood 100: 427-434 [2002]을 참조). 인간 암에서의 염색체 증대 ?? 손실의 예시적이지만 비제한적인 목록은 아래 표 2에 나타내어져 있다.

다양한 구체예에서, 본원에서 설명되는 방법을 이용하여 일반적으로 암과 관련되고/되거나 특정 암과 관련이 있는 전체 염색체 이수성을 검출하고/하거나 정량할 수 있다. 따라서, 예를 들어, 특정의 구체예에서, 표 2에 제시된 증대 또는 손실로 특징지어지는 전체 염색체 이수성의 검출 및/또는 정량이 도모된다.

완(腕) 수준 염색체 세그먼트 카피수 변이

다수의 연구는 상당수의 암 샘플에 걸친 완-수준 카피수 변이의 패턴을 보고하였다(Lin et al. Cancer Res 68, 664-673 (2008); George et al. PLoS ONE 2, e255 (2007); Demichelis et al. Genes Chromosomes Cancer 48: 366-380 (2009); Beroukhim et al. Nature. 463(7283): 899-905 [2010]). 게다가 완-수준 카피수 변이는 염색체 완의 길이에 따라 감소하는 것으로 관찰되었다. 이러한 경향에 대해 조정되었을 때, 대다수의 염색체 완은 다수의 암 계통(lineage)에 걸쳐서 우선적인 증대 또는 손실의 증거를 나타내지만, 둘 다를 나타내는 경우는 드물다(예를 들어, 문헌[Beroukhim et al. Nature. 463(7283): 899-905 [2010]]을 참조한다).

따라서, 한 구체예에서, 본 명세서에서 설명되는 방법은 샘플의 완-수준 CNV(하나의 염색체 완 또는 실질적으로 하나의 염색체 완을 포함하는 CNV)를 결정하기 위해 사용된다. CNV는 구성적(생식세포) 핵산을 포함하는 검사 샘플의 CNV에서 결정될 수 있고 완-수준 CNV는 이러한 구성적 핵산에서 동정될 수 있다. 특정의 구체예에서, 완-수준 CNV는 (존재하는 경우) 핵산의 혼합물(예를 들어, 정상 세포로부터 유래된 핵산과 신생물 세포로부터 유래된 핵산)을 포함하는 샘플에서 동정된다. 특정의 구체예에서, 샘플은 암, 예를 들어 암종, 육종, 림프종, 백혈병, 생식 세포 종양, 모세포종 등을 갖는 것으로 의심되거나 알려진 대상체로부터 유래된다. 하나의 구체예에서, 샘플은 정상 세포와 암 세포로부터 유래된 cfDNA의 혼합물을 포함할 수 있는 말초혈로부터 유래된(처리된) 혈장 샘플이다. 다른 구체예에서, CNV가 존재하는지 여부를 결정하는 데 사용되는 생물학적 샘플은, 종양이 존재하는 경우 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유출물, 림프, 타액, 뇌척수액, 세정액, 골수 현탁액, 질 유출물, 경자궁경부 세정액, 뇌 액, 복수, 모유, 호흡기, 장관 및 비뇨 생식기의 분비물 및 류코포레시스 샘플과 같은 생물학적 유체 또는 조직 생검, 면봉 또는 얼룩을 포함하지만 그들로 한정되지 않는 다른 생물학적 조직 유래의 암 세포와 비-암 세포의 혼합물을 포함하는 세포로부터 유래된다. 다른 구체예에서, 생물학적 샘플은 대변(배설물) 샘플이다.

다양한 구체예에서, 암의 존재 또는 암에 걸릴 위험성의 증가를 나타내는 것으로서 동정된 CNV는 표 3에 열거된 완 수준 CNV을 포함하지만, 그들로 한정되는 것은 아니다. 표 3에 예시된 바와 같이, 상당한 완-수준 증대를 포함하는 특정 CNV는 암의 존재 또는 특정 암에 걸릴 위험성의 증가를 나타낸다. 따라서, 예를 들어 1q의 증대는 급성 림프구성 백혈병(ALL), 유방암, GIST, HCC, 폐 NSC, 수모세포종, 흑색종, MPD, 난소암 및/또는 전립선암의 존재 또는 이에 걸릴 위험성의 증가를 나타낸다. 3q의 증대는 식도 편평상피암, 폐 SC 및/또는 MPD의 존재 또는 이에 대한 위험성의 증가를 나타낸다. 7q의 증대는 결장직장암, 신경아교종, HCC, 폐 NSC, 수모세포종, 흑색종, 전립선암 및/또는 신장암의 존재 또는 이에 걸릴 위험성의 증가를 나타낸다. 7p의 증대는 유방암, 결장직장암, 식도 선암종, 신경아교종, HCC, 폐 NSC, 수모세포종, 흑색종 및/또는 신장암의 존재 또는 이에 걸릴 위험성의 증가를 나타낸다. 20q의 증대는 유방암, 결장직장암, 역분화 지방육종, 식도 선암종, 식도 편평상피암, 신경아교종 암, HCC, 폐 NSC, 흑색종, 난소암 및/또는 신장암 등의 존재 또는 이에 걸릴 위험성의 증가를 나타낸다.

표 3에 예시된 바와 마찬가지로, 상당한 완-수준 손실을 포함하는 특정 CNV는 특정 암의 존재 및/또 이에 걸릴 위험성의 증가를 나타낸다. 따라서, 예를 들어, 1p의 손실은 위장관기질 종양의 존재 또는 이에 걸릴 위험성의 증가를 나타낸다. 4q의 손실은 결장직장암, 식도 선암종, 폐 sc, 흑색종, 난소암 및/또는 신장암의 존재 또는 이에 걸릴 위험성의 증가를 나타낸다. 17p의 손실은 유방암, 결장직장암, 식도 선암종, HCC, 폐 NSC, 폐 SC 및/또는 난소암 등의 존재 또는 이에 걸릴 위험성의 증가를 나타낸다.

완-수준 카피수 변이 간의 관련성의 예는 예시적이고 한정하지 않는 것으로 의도된다. 다른 완 수준 카피수 변이와 그의 암과의 관련성은 당업자에게 공지되어 있다.

더 작은, 예를 들여 초점 카피수 변이

위에서 나타낸 바와 같이, 특정의 구체예에서, 본 명세서에서 설명되는 방법을 이용하여 염색체 증폭의 존재 유무를 판정할 수 있다. 일부 구체예에서, 염색체 증폭은 하나 이상의 전체 염색체의 증대이다. 다른 구체예에서, 염색체 증폭은 염색체의 하나 이상의 세그먼트의 증대이다. 또 다른 구체예에서, 염색체 증폭은 2종 이상의 염색체의 2종 이상의 세그먼트의 증대이다. 다양한 구체예에서, 염색체 증폭은 하나 이상의 발암유전자의 증대를 포함할 수 있다.

인간 고형 종양과 관련된 우성 작용하는 유전자는 일반적으로 과발현 또는 변경된 발현에 의해 그 효과를 발휘한다. 유전자 증폭은 유전자 발현의 상향조절을 초래하는 일반적인 메카니즘이다. 세포유전학 연구의 증거는 상당한 증폭이 50%를 초과하는 인간 유방암에서 발생함을 나타낸다. 가장 유의해야할 것은, 17번 염색체(17(17q21-q22))에 존재하는 원발-발암유전자 인간 상피 성장 인자 수용체 2(HER2)의 증폭은 세포 표면에서의 HER2 수용체의 과발현을 야기하여 유방암 및 다른 악성 종양에서 과도하고 이상조절된 신호전달을 초래한다는 것이다(Park et al., Clinical Breast Cancer 8:392-401 [2008]). 다양한 발암유전자가 다른 인간 악성 종양에서 증폭되어 있는 것으로 밝혀졌다. 인간 종양의 세포 발암유전자의 증폭의 예에는 전골수구성 백혈병 세포주 HL60 및 소세포 폐암종 세포주의 c-myc, 원발성 신경모세포종(III기 및 IV기), 신경모세포종 세포주, 망막모세포종 세포주 및 원발성 종양 및 소세포 폐암종 주 및 종양의 N-myc, 소세포 폐암종 세포주 및 종양의 L-myc, 급성 골수성 백혈병 및 결장 암종 세포주의 c-myb, 표피모양 암종 세포, 및 원발성 신경아교종의 c-erbb, 폐, 결장, 방광 및 직장의 원발성 암종의 c-K-ras-2, 유선 암종 세포주의 N-ras의 증폭이 포함된다(Varmus H., Ann Rev Genetics 18: 553-612 (1984)[Watson et al., Molecular Biology of the Gene (4th ed.; Benjamin/Cummings Publishing Co. 1987)에서 이용됨].

발암유전자의 중복은 P70-S6 키나제 1 증폭 및 유방암에서 흔히 있는 경우로서 많은 암 유형의 공통된 원인이다. 이러한 경우에, 유전자 중복은 체세포에서 일어나고 암 세포의 게놈 자체에만 영향을 미치고, 유기체 전체에 영향을 미치지 않으며 더구나 어떠한 다음 후손들에게도 영향을 미치지 않는다. 인간 암에서 증폭되는 발암유전자의 다른 예에는 유방암의 MYC, ERBB2(EFGR), CCND1(사이클린 D1), FGFR1 및FGFR2, 자궁경부암의 MYC 및 ERBB2, 결장직장암의 HRAS, KRAS 및 MYB, 식도암의 MYC, CCND1 및 MDM2, 위암의 CCNE, KRAS 및 MET, 교모세포종의 ERBB1 및 CDK4, 두경부암의 CCND1, ERBB1 및 MYC, 간세포암의 CCND1, 신경모세포종의 MYCB, 난소암의 MYC, ERBB2 및 AKT2, 육종의 MDM2 및 CDK4 및 소세포 폐암의 MYC가 포함된다. 한 구체예에서, 본 방법을 이용하여 암과 관련된 발암유전자의 증폭의 존재 유무를 판정할 수 있다. 일부 구체예에서, 증폭된 발암유전자는 유방암, 자궁경부암, 결장직장암, 식도암, 위암, 교모세포종, 두경부암, 간세포암, 신경모세포종, 난소암, 육종 및 소세포 폐암과 관련이 있다.

한 구체예에서, 본 방법을 이용하여 염색체 결실의 존재 유무를 판정할 수 있다. 일부 구체예에서, 염색체 결실은 하나 이상의 전체 염색체의 손실이다. 다른 구체예에서, 염색체 결실은 염색체의 하나 이상의 세그먼트의 손실이다. 또한 다른 구체예에서, 염색체 결실은 2종 이상의 염색체의 2종 이상의 세그먼트의 손실이다. 염색체 결실은 하나 이상의 종양 억제 유전자의 손실을 포함할 수 있다.

종양 억제 유전자에 관련된 염색체 결실은 고형 종양의 발생 및 진행에 있어서 중요한 역할을 하는 것으로 사료된다. 염색체 13q14에 위치한 망막모세포종 종양 억제 유전자(Rb-1)는 가장 광범하게 특징규명된 종양 억제 유전자이다. Rb-1 유전자 산물인 105 kDa의 핵 인단백질은 세포 주기 조절에서 명백히 중요한 역할을 하고 있다(Howe et al., Proc Natl Acad Sci (USA) 87:5883-5887 [1990]). Rb 단백질의 변경되거나 손실된 발현은 점 돌연변이 또는 염색체 결실을 통해 두 대립유전자 모두의 불활성화에 의해 유발된다. Rb-i 유전자 변경은 망막모세포종뿐 아니라 골육종, 소세포 폐암(Rygaard et al., Cancer Res 50: 5312-5317 [1990)]) 및 유방암과 같은 다른 악성 종양에도 존재하는 것으로 발견되었다. 제한 단편 길이 다형성(RFLP) 연구는 이러한 종양 유형이 종종 13q에서 이형접합성을 상실하였다는 것을 보여주었는데, 이는 Rb-1 대립유전자들 중 하나가 대규모 염색체 결실로 인해 손실되었음을 시사한다(Bowcock et al., Am J Hum Genet, 46: 12 [1990]). 중복, 결실, 및 6번 염색체와 다른 파트너 염색체가 관련된 불균형 전좌를 포함하는 1번 염색체 이상은 1번 염색체의 영역, 특히 1q21-1q32 및 1p11-13이 골수증식성 신생물의 만성 단계 및 진행 단계 둘 다와 병인적으로 관련된 발암유전자 또는 종양 억제 유전자를 보유할 수 있다는 것을 나타낸다(Caramazza et al., Eur J Hematol84:191-200 [2010]). 골수증식성 신생물은 또한 5번 염색체의 결실과 관련된다. 5번 염색체의 완전한 손실 또는 중간부 결실은 골수형성이상 증후군(MDS)에서 가장 일반적인 핵형 이상이다. 격리된 del(5q)/5q- MDS 환자는 골수증식성 신생물(MPN) 및 급성 골수성 백혈병을 발생시키는 경향이 있는, 추가의 핵형 결함을 지닌 환자보다 더욱 유리한 예후를 갖는다. 불균형한 5번 염색체 결실의 빈도는 5q가 조혈 줄기/전구 세포 (HSC/HPC)의 성장 조절에서 기본적인 역할을 하는 1종 이상의 종양-억제 유전자를 보유한다는 견해를 이끌었다. 5q31 및 5q32에 집중된 일반적으로 결실된 영역(CDR)의 세포 유전학적 매핑은 리보솜 서브유닛 RPS14, 전사 인자 Egr1/Krox20 및 세포골격 리모델링 단백질, α-카테닌을 포함하는 후보 종양-억제 유전자를 동정하였다(Eisenmann et al., Oncogene 28:3429-3441 [2009]). 새로운 종양 및 종양 세포주의 세포 유전학 및 대립유전자 연구는, 3p25, 3p21-22, 3p21.3, 3p12-13 및 3p14를 포함한 염색체 3p상의 몇몇 별개의 영역으로부터의 대립유전자 상실이 폐, 유방, 신장, 두경부, 난소, 자궁경부, 결장, 췌장, 식도, 방광 및 기타 기관의 주요 상피암의 광범한 스펙트럼에 관여하는 가장 빠르고 가장 빈번한 게놈 이상이라는 것을 보여주었다. 몇몇 종양 억제 유전자는 염색체 3p 영역에 매핑되었고, 암종의 발생에서 중간부 결실 또는 프로모터 과메틸화는 3p 또는 3번 염색체 전체의 손실 전에 일어나는 것으로 사료된다(Angeloni D., Briefings Functional Genomics 6:19-39 [2007]).

다운 증후군(DS)을 가진 신생아 및 아동은 종종 선천성 일과성 백혈병을 나타내고 급성 골수성 백혈병 및 급성 림프모구성 백혈병의 증가된 위험성이 있다. 약 300가지의 유전자를 보유한 21번 염색체는 백혈병, 림프종 및 고형 종양에서 많은 구조적 이상, 예를 들어 전좌, 결실 및 증폭에 관여할 수 있다. 또한, 21번 염색체에 위치한 유전자는 종양형성에서 중요한 역할을 하는 것으로 동정되었다. 체세포의 수적 및 구조적 21번 염색체 이상은 백혈병과 관련이 있으며, 21q에 위치하는 RUNX1, TMPRSS2 및 TFF를 포함하는 특정 유전자 종양형성에서 역할을 한다(Fonatsch C Gene Chromosomes Cancer 49:497-508 [2010]).

앞의 관점에서, 다양한 구체예에서 본 명세서에서 설명하는 방법을 이용하여 1종 이상의 발암유전자 또는 종양 억제 유전자를 포함하는 것으로 알려져 있고/있거나 암 또는 암에 걸릴 위험성의 증가와 관련된 것으로 알려져 있는 세그먼트 CNV를 판정할 수 있다. 특정의 구체예에서, CNV는 구성적(생식세포계열) 핵산을 포함하는 검사 샘플에서 결정될 수 있고 세그먼트는 구성적 핵산에서 동정될 수 있다. 특정의 구체예에서, 세그먼트 CNV는 핵산(예를 들어, 정상 핵산 및 신생물 세포 유래의 핵산으로부터 유래된 핵산)의 혼합물을 포함하는 샘플에서 동정된다(존재할 경우). 특정의 구체예에서, 샘플은 암, 예를 들어 암종, 육종, 림프종, 백혈병, 생식 세포 종양, 모세포종 등을 갖는 것으로 의심되거나 알려진 대상체로부터 유래된다. 한 구체예에서, 샘플은 정상 세포와 암 세포로부터 유래된 cfDNA의 혼합물을 포함할 수 있는 말초혈로부터 유래된(처리된) 혈장 샘플이다. 또 다른 구체예에서, CNV가 존재하는지 여부를 판정하는 데 사용되는 생물학적 샘플은, 암이 존재할 경우 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유출물, 림프, 타액, 뇌척수액, 세정액, 골수 현탁액, 질 유출물, 경자궁경부 세정액, 뇌 액, 복수, 모유, 호흡기, 장관 및 비뇨 생식기의 분비물 및 류코포레시스 샘플과 같은 생물학적 유체 또는 조직 생검, 면봉 또는 얼룩을 포함하지만 그들로 한정되지 않는 다른 생물학적 조직 유래의 암 세포와 비-암 세포의 혼합물을 포함하는 세포로부터 유래된다. 다른 구체예에서, 생물학적 샘플은 대변(배설물) 샘플이다.

암의 존재 및/또는 암에 걸릴 위험성의 증가를 판정하는 데 사용되는 CNV는 증폭 또는 결실을 포함할 수 있다.

다양한 구체예에서, 암의 존재 또는 암에 걸릴 위험성의 증가를 나타내는 것으로서 동정된 CNV는 아래 표 4에 제시된 증폭들 중 하나 이상을 포함한다.

특정의 구체예에서, 위(본 명세서)에서 설명한 증폭과 함께 또는 별도로, 암의 존재 또는 암에 걸릴 위험성의 증가를 나타내는 것으로서 동정된 CNV는 아래 표 5에 제시된 결실 중 하나 이상을 포함한다.

각종 암(예를 들어, 표 4 및 표 5에서 확인된 이수성)의 특징으로서 동정된 이수성은 암 병인에 연루된 것으로 알려진 유전자(예를 들어, 종양 억제 유전자, 발암유전자 등)를 함유할 수 있다. 이러한 이수성을 또한 조사하여 관련되지만 이전에는 알려지지 않았던 유전자를 동정할 수 있다.

예를 들어, 상기 문헌[Beroukhim et al.]은 게놈 영역들 간의 기능적 관계에 대해 조사하는 알고리즘인 GRAIL(Gene Relationships Among Implicated Loci₂₀)을 사용하여 카피수 변경에서 잠재적인 암 유발 유전자를 평가하였다. GRAIL은, 일부 표적 유전자는 공통 경로에서 작용할 것이라는 개념을 토대로, 유전자들을 인용하는 모든 논문의 공개된 요약서 간의 텍스트 유사성에 기반하여 게놈 영역의 컬렉션의 각 유전자를 다른 영역의 유전자와의 '관련성'에 대해 점수화한다. 이러한 방법들은 이전에는 쟁점이 되는 특정 암과 관련이 없었던 유전자를 동정/특징규명할 수 있게 한다. 표 6은 동정된 증폭된 세그먼트 내에 있는 것으로 알려진 표적 유전자 및 예상된 유전자를 예시하며, 표 7은 동정된 결실된 세그먼트 내에 있는 것으로 알려진 표적 유전자 및 예상된 유전자를 예시한다.

다양한 구체예에서, 표 6에서 확인된 증폭된 영역 또는 유전자를 포함하는 세그먼트의 CNV를 동정하기 위한 본 명세서에서 확인된 방법을 사용하고/하거나 표 7에서 확인된 결실된 영역 또는 유전자를 포함하는 세그먼트의 CNV를 동정하는 본 명세서에서 확인된 방법을 사용하는 것이 도모된다.

한 구체예에서, 본 명세서에서 설명되는 방법은 유전자 증폭과 종양 진화 정도 간의 관련성을 평가하기 위한 수단을 제공한다. 증폭 및/또는 결실과 암의 단계 또는 등급 간 상호관계는 예후에 있어서 중요할 수 있는데, 그 이유는 이러한 정보가 최악의 예후를 갖는 보다 진행된 종양을 동반한 질환의 향후 경과를 더 잘 예측할 수 있는 유전자 기반 종양 등급의 정의에 기여할 수 있기 때문이다. 또한, 초기 증폭 및/또는 결실 사건에 관한 정보는 이 사건을 이후의 질병 진행의 예측인자로서 연관시키는 데 유용할 수 있다.

상기 방법에 의해 동정된 유전자 증폭 및 결실은 종양 등급, 병력, Brd/Urd 표지 지수, 호르몬 상태, 림프절 전이(nodal involvement), 종양 크기, 수명 및 역학적 및 생물통계학적 연구로부터 입수가능한 다른 종양 특성과 같은 다른 공지된 매개변수와 관련될 수 있다. 예를 들어, 증폭 및 결실과 병기 사이의 관계를 동정할 수 있게 하기 위해, 상기 방법에 의해 시험될 종양 DNA는 비정형 증식증, 유관 상피내암종(ductal carcinoma in situ), I기 내지 III기 암 및 전이성 림프절을 포함할 수 있다. 획득된 관련성은 효과적인 치료적 개입를 가능하게 할 수 있다. 예를 들어, 지속적으로 증폭되는 영역은 과발현된 유전자를 함유할 수 있고, 이의 산물은 치료적으로 공격을 받을 수 있다(예를 들어, 성장 인자 수용체 티로신 키나제, p185^HER2).

다양한 구체예에서, 본 명세서에서 설명되는 방법은 원발성 암 유래의 핵산 서열의 카피수 변이 대 다른 부위로 전이된 세포의 핵산 서열의 카피수 변이를 결정함으로써 약물 내성과 관련이 있는 증폭 및/또는 결실 사건을 동정하는 데 사용될 수 있다. 유전자 증폭 및/또는 결실이 약물 내성을 빠르게 발달시키는 핵형 불안정을 표시하는 것이라면, 화학요법민감성 환자의 종양보다 많은 증폭 및/또는 결실이 화학요법내성 환자 유래의 원발성 종양에서 예상될 것이다. 예를 들어, 특정 유전자의 증폭이 약물 내성의 발달의 원인이라면, 이러한 유전자를 둘러싼 영역은 화학요법내성 환자의 흉막 삼출액 유래의 종양에서 일관되게 증폭되지만 원발성 종양에서는 증폭되지 않을 것이 예상될 수 있다. 유전자 증폭 및/또는 결실과 약물 내성의 발달 사이의 관련성의 발견은 보조 요법으로 이익을 얻거나 이익을 얻지 못할 환자를 동정할 수 있게 한다.

모체 샘플에서 완전한 및/또는 부분적 태아 염색체 이수성의 존재 유무의 판정에 대해 설명한 것과 유사한 방식으로, 본 명세서에서 설명되는 방법, 장치 및 시스템을 이용하여 핵산, 예를 들어 DNA 또는 cfDNA를 포함하는 임의의 환자 샘플 (모체 샘플이 아닌 환자 샘플 포함)에서 완전한 및/또는 부분적 염색체 이수성의 존재 유무를 판정할 수 있다. 환자 샘플은 본 명세서의 다른 부분에서 설명된 바와 같은 임의의 생물학적 샘플 유형일 수 있다. 바람직하게는, 샘플은 비침습적 절차에 의해 획득된다. 예를 들어, 샘플은 혈액 샘플 또는 그의 혈청 및 혈장 분획일 수 있다. 대안적으로, 샘플은 소변 샘플 또는 배설물 샘플일 수 있다. 또 다른 구체예에서, 샘플은 조직 생검 샘플이다. 모든 경우에, 샘플은 정제되고 위에서 설명한 NGS 시퀀싱 방법 중 어느 하나를 이용하여 시퀀싱된 핵산, 예를 들어 cfDNA 또는 게놈 DNA를 포함한다.

암의 형성 및 진행과 관련된 완전한 염색체 이수성 및 부분적 염색체 이수성은 둘 다 본 발명에 따라 판정될 수 있다.

다양한 구체예에서, 본 명세서에서 설명되는 방법을 이용하여 암의 존재 및/또는 암 위험성의 증가를 판정하는 경우, CNV가 결정되는 염색체(들)에 대한 데이터의 정규화가 이루어질 수 있다. 특정의 구체예에서, CNV가 결정되는 염색체 완(들)에 대한 데이터의 정규화가 이루어질 수 있다. 특정의 구체예에서, CNV가 결정되는 특정 세그먼트(들)에 대한 데이터의 정규화가 이루어질 수 있다.

암에서의 CNV의 역할 외에도, CNV는 인간 면역 결핍 바이러스(HIV), 자가 면역 질환 및 신경정신병적 장애의 스펙트럼을 포함하는 일반적인 복합 질환의 수가 증가하고 있는 것과 관련이 있다.

감염성 및 자가면역 질환에서의 CNV

현재까지 많은 연구가 염증에 관여하는 유전자의 CNV와 면역반응 및 HIV, 천식, 크론병 및 다른 자가면역 장애 간의 관련성을 보고하였다(Fanciulli et al., Clin Genet 77 : 201-213 [2010]). 예를 들어, CCL3L1의 CNV는 HIV/AIDS 감수성(CCL3L1, 17q11.2 결실), 류마티스 관절염(CCL3L1, 17q11.2 결실) 및 가와사키 병(CCL3L1, 17q11.2 중복)에 연루되었으며; HBD-2의 CNV는 만성 크론병(HDB-2, 8p23.1 결실) 및 건선(HDB-2, 8p23.1 결실)에 취약하게 만드는 것으로 보고되었고; FCGR3B의 CNV는 전신홍반루푸스의 사구체신염(FCGR3B, 1q23 결실, 1q23 중복), 항-호중구 세포질 항체(ANCA) 관련 혈관염(FCGR3B, 1q23 결실)에 취약하게 만들고, 류마티스 관절염 발병의 위험성을 증가시키는 것으로 나타났다. 상이한 유전자좌에서 CNV와 관련이 있는 것으로 나타난 적어도 2종의 염증성 질환 또는 자가면역 질환이 존재한다. 예를 들어, 크론병은 HDB-2에서의 낮은 카피수와 관련이 있을 뿐만 아니라 p47 면역 관련 GTPase 패밀리의 구성원을 코딩하는 IGRM 유전자의 상류에서 공통된 결실 다형성과도 관련이 있다. FCGR3B 카피수와의 관련성 외에도, SLE 감수성은 보체 성분 C4의 낮은 카피수를 갖는 대상체 간에 유의적으로 증가되어 있는 것으로도 보고되었다.

GSTM1(GSTM1, 1q23 결실) 및 GSTT1(GSTT1, 22q11.2 결실) 유전자좌의 게놈 결실과 아토피성 천식 위험성의 증가 간의 관계는 많은 독립적인 연구에서 보고되었다. 일부 구체예에서, 본 명세서에서 설명되는 방법을 이용하여 염증 및/또는 자가면역 질환과 관련된 CNV의 존재 유무를 판정할 수 있다. 예를 들어, 본 방법을 이용하여 HIV, 천식 또는 크론병을 앓고 있는 것으로 의심되는 환자에서 CNV의 존재를 판정할 수 있다. 이러한 질환과 관련이 있는 CNV의 예에는 비제한적으로 17q11.2, 8p23.1, 1q23 및 22q11.2에서의 결실 및 17q11.2 및 1q23에서의 중복이 포함된다. 일부 구체예에서, 본 방법은 CCL3L1, HBD-2, FCGR3B, GSTM, GSTT1, C4 및 IRGM을 포함하지만 그들로 한정되지 않는 유전자에서 CNV의 존재를 판정하기 위해 사용될 수 있다.

신경계의 CNV 질환

신생 및 유전적 CNV와 몇몇 일반적인 신경질환 및 정신질환 사이의 관련성은 자폐증, 정신분열증과 간질, 및 파킨슨 병, 근위축성측삭경화증(ALS) 및 상염색체 우성 알츠하이머 병과 같은 신경퇴행성 질환의 일부 사례에서 보고되었다(Fanciulli et al., Clin Genet 77:201-213 [2010]). 세포 유전학적 이상은 15q11-q13에서 중복을 갖는 자폐증과 자폐 스펙트럼 장애(ASD) 환자에서 관찰되었다. 자폐증 게놈 프로젝트 컨소시엄에 따르면, 몇몇 재발성 CNV를 포함한 154종의 CNV가 염색체 15q11-q13상 또는 염색체 2p16,1q21을 포함한 새로운 유전자 위치 및 ASD와 겹치는 스미스 마게니스 증후군과 관련된 영역의 17p12 중 하나에 존재한다. 염색체 16p11.2상의 재발성 미세결실 또는 미세중복은 시냅스의 분화를 조절하고 글루타민작용성 신경전달물질 방출을 조절할 수 있는 것으로 알려져 있는 SHANK3 (22q13.3 결실), 뉴렉신 1(NRXN1,2p16.3 결실) 및 뉴로글린(neuroglin)(NLGN4, Xp22.33 결실)과 같은 유전자에 대한 유전자좌에서 신생 CNV가 발견되었다는 관찰결과를 강조하였다. 정신분열증도 또한 다수의 신생 CNV와 관련되었다. 정신분열증과 관련된 미세결실과 미세중복은 신경발생 경로 및 글루타민작동성 경로에 속하는 유전자들의 과잉 표현을 함유하며, 이는 이들 유전자에 영향을 미치는 다수의 CNV, 예를 들어 ERBB4,2q34 결실, SLC1A3, 5p 13.3 결실; RAPEGF4, 2q31.1 결실; CIT, 12.24 결실; 및 신생 CNV를 갖는 다수의 유전자가 정신분열증의 발병에 직접적으로 기여할 수 있다는 것을 제시한다. CNV는 또한 간질(CHRNA7, 15q13.3 결실), 파킨슨병(SNCA 4q22 이중 중복) 및 ALS(SMN1, 5q12.2.-q13.3 결실; 및 SMN2 결실)을 포함한 기타 신경 장애와도 관련되었다. 일부 구체예에서, 본 명세서에서 설명되는 방법은 사용하여 신경계 질환과 관련된 CNV의 존재 유무를 판정할 수 있다. 예를 들어, 본 방법은 사용하여 자폐증, 정신분열증, 간질, 파킨슨 병과 같은 신경퇴행성 질환, 근위축성측삭경화증(ALS) 또는 상염색체 우성의 알츠하이머 병을 앓고 있는 것으로 의심되는 환자에서 CNV의 존재를 판정할 수 있다. 본 방법을 사용하여 비한정적으로 자폐 스펙트럼 장애(ASD), 정신분열증 및 간질 중 어느 하나를 포함하는 신경계의 질환과 관련된 유전자의 CNV 및 파킨슨병과 같은 신경퇴행성 질환과 관련된 유전자의 CNV를 판정할 수 있다. 이러한 질환과 관련되는 CNV의 예에는 비한정적으로 15q11-q13, 2p16, 1q21, 17p12, 16p11.2 및 4q22에서의 중복 및 22q13.3, 2p16.3, Xp22.33, 2q34, 5p13.3, 2q31.1, 12.24, 15q13.3 및 5q12.2에서의 결실이 포함된다. 일부 구체예에서, 본 방법을 사용하여, SHANK3, NLGN4, NRXN1, ERBB4, SLC1A3, RAPGEF4, CIT, CHRNA7, SNCA, SMN1 및 SMN2를 포함하지만 그들로 한정되지 않는 유전자에서 CNV의 존재를 판정할 수 있다.

CNV 및 대사성 또는 심혈관 질환

가족성 고콜레스테롤혈증(FH), 죽상동맥경화증 및 관상 동맥 질환과 같은 대사 형질 및 심혈관 형질과 CNV 사이의 관련성은 많은 연구에서 보고되었다(Fanciulli et al., Clin Genet 77:201-213 [2010]). 예를 들어, 주로 결실인 생식세포계 재배열은 다른 LDLR 돌연변이를 보유하지 않는 일부 FH 환자에서 LDLR 유전자(LDLR, 19pl3.2 결실/중복)에서 관찰되었다. 또 다른 예는 아포지단백(a)(apo(a))을 코딩하는 LPA 유전자이며, 그의 혈장 농도는 관상 동맥 질환, 심근경색(MI) 및 졸중의 위험성과 관련된다. 지단백 Lp(a)을 함유하는 apo(a)의 혈장 농도는 개체 간에 1000배 넘게 다르며, 이러한 가변성의 90%가 LPA 유전자좌에서 유전적으로 결정되며, 혈장 농도 및 Lp(a) 이소형 크기는 '크링클 4' 반복 서열의 매우 가변적인 수(범위 5 내지 50)에 비례한다. 이러한 데이터는 적어도 2종의 유전자의 CNV가 심혈관 위험성과 관련될 수 있음을 보여준다. 본 명세서에서 설명되는 방법은 CNV와 심혈관 장애와의 관련성에 대해 특별하게 탐구하는 대형 연구에서 사용될 수 있다. 일부 구체예에서, 본 방법은 대사 질환 또는 심혈관 질환과 관련된 CNV의 존재 여부를 판정하는 데 사용될 수 있다. 예를 들어, 본 방법은 가족성 고 콜레스테롤혈증을 앓고 있는 것으로 의심되는 환자에서 CNV의 존재를 판정하는 데 사용될 수 있다. 본 명세서에서 설명하는 방법은 대사 질환 또는 심혈관 질환, 예를 들어, 고콜레스테롤혈증과 관련된 유전자의 CNV를 판정하는 데 사용될 수 있다. 이러한 질환과 관련된 CNV의 예에는 비한정적으로 LDLR 유전자의 19p13.2 결실/중복 및 LPA 유전자의 증배가 포함된다.

CNV를 판정하기 위한 장치 및 시스템

시퀀싱 데이터의 분석 및 그로부터 도출되는 진단은 일반적으로 다양한 컴퓨터 실행 알고리즘 및 프로그램을 이용하여 실시된다. 따라서, 특정 구체예는 하나 이상의 컴퓨터 시스템 또는 다른 처리 시스템에 저장된 또는 그것을 통해 옮겨진 데이터를 수반하는 프로세스를 이용한다. 본 명세서에서 개시되는 구체예는 이러한 작업을 수행하기 위한 장치에 관한 것이다. 상기 장치는 필요한 목적에 따라 특별히 구성될 수 있거나 또는 컴퓨터 프로그램 및/또는 컴퓨터에 저장된 데이터 구조에 의해 선택적으로 활성화되거나 재구성된 범용 컴퓨터(또는 컴퓨터 군)일 수 있다. 일부 구체예에서, 프로세서 군은 열거된 분석 작업의 일부 또는 전부를 공동으로 (예를 들어, 네트워크 또는 클라우드 컴퓨팅을 통해) 및/또는 병렬로 실시한다. 본 명세서에서 설명된 방법을 수행하기 위한 프로세서 또는 프로세서 군은 프로그래밍 가능한 장치(예를 들어, CPLD 및 FPGA) 및 게이트 어레이 ASIC와 같은 프로그래밍 불가능 디바이스 또는 범용 마이크로 프로세서와 같은 마이크로 컨트롤러 및 마이크로프로세서를 포함한 다양한 유형의 것일 수 있다.

또한, 특정 구체예는 다양한 컴퓨터-실행되는 작업을 수행하기 위한 프로그램 명령 및/또는 데이터(데이터 구조를 포함)를 포함하는 유형(有形)의 및/또는 비일시적인 컴퓨터 판독가능한 매체 또는 컴퓨터 프로그램 제품에 관한 것이다. 컴퓨터 판독가능한 매체의 예에는 반도체 메모리 장치, 디스크 드라이브, 자기 테이프와 같은 자기 매체, CD와 같은 광학 매체, 광자기 매체, 및 판독 전용 메모리 장치(ROM) 및 랜덤 액세스 메모리(RAM)와 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함되지만, 그들로 한정되는 것은 아니다. 컴퓨터 판독가능한 매체는 최종 사용자에 의해 직접 제어될 수 있거나 매체는 최종 사용자에 의해 간접적으로 제어될 수 있다. 직접 제어되는 매체의 예에는 사용자 설비(facility)에 위치하는 매체 및/또는 다른 실체와 공유되지 않은 매체가 포함된다. 간접적으로 제어되는 매체의 예에는 외부 네트워크를 통해 및/또는 "클라우드"와 같은 서비스 제공 공유 리소스를 통해 사용자에게 간접적으로 액세스할 수 있는 매체가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 생성되는 것과 같은 기계 코드와 인터프리터를 이용한 컴퓨터에 의해 수행될 수 있는 보다 높은 수준의 코드를 함유하는 파일 둘 다가 포함된다.

다양한 구체예에서, 개시되는 방법 및 장치에 사용되는 데이터 또는 정보는 전자 형식으로 제공된다. 이러한 데이터 또는 정보는 핵산 샘플로부터 유래된 판독 및 태그, 참조 서열의 특정 영역과 정렬하는(예를 들어, 염색체 또는 염색체 세그먼트에 정렬하는) 이러한 태그의 카운트 또는 밀도, 참조 서열(오직 또는 주로 다형성을 제공하는 참조 서열을 포함), 염색체 양과 세그먼트 양, 이수성 호출과 같은 호출, 정규화된 염색체 값과 세그먼트 값, 염색체 또는 세그먼트와 대응하는 정규화 염색체 또는 정규화 세그먼트의 쌍, 상담 추천, 진단 등을 포함할 수 있다. 본 명세서에서 사용되는 경우, 전자 형식으로 제공되는 데이터 또는 다른 정보는 기계에서의 저장 및 기계 간의 전송을 위해 이용가능하다. 종래부터, 전자 형식의 데이터는 디지털로 제공되고 또한 다양한 데이터 구조, 목록, 데이터베이스 등에 비트 및/또는 바이트로서 저장될 수 있다. 데이터는 전자적, 광학적 등으로 구체화될 수 있다.

한 구체예는 검사 샘플에서 이수성, 예를 들어 태아 이수성 또는 암의 존재 유무를 나타내는 출력을 생성하기 위한 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 제품은 염색체 이상을 판정하기 위한 위에서 설명한 방법 중 어느 하나 이상을 수행하기 위한 명령을 함유할 수 있다. 설명된 바와 같이, 컴퓨터 제품에는 염색체 양 및 일부의 경우에 태아 이수성이 존재하는지 또는 부재인지 여부를 프로세서가 판정할 수 있도록 그 안에 기록된 컴퓨터 실행가능한 또는 컴파일가능한 논리 회로(예를 들어, 명령)를 갖는 비일시적 및/또는 유형의 컴퓨터 판독가능한 매체가 포함될 수 있다. 일례에서, 컴퓨터 제품은 모체 생물학적 샘플 유래의 핵산 분자의 적어도 일부분으로부터 시퀀싱 데이터를 수신하기 위한 수신 절차로서, 상기 시퀀싱 데이터는 계산된 염색체 양 및/또는 세그먼트 양을 포함하는 절차; 상기 수신된 데이터로부터 태아 이수성을 분석하기 위한 컴퓨터 지원 논리 회로; 및 태아 이수성의 존재, 부재 또는 종류를 나타내는 출력을 생성하기 위한 출력 절차를 포함하는 프로세서가 태아 이수성을 진단할 수 있게 하기 위한, 그 안에 기록된 컴퓨터 실행가능한 또는 컴파일가능한 논리 회로(예를 들어, 명령)를 갖는 컴퓨터 판독가능한 매체를 포함한다.

고려 중인 샘플로부터의 서열 정보를 염색체 참조 서열에 매핑하여 임의의 1종 이상의 관심대상 염색체 각각에 대한 서열 태그의 수를 동정하고 상기 임의의 1종 이상의 관심대상 염색체 각각에 대해 정규화 세그먼트 서열에 대한 서열 태그의 수를 동정할 수 있다. 다양한 구체예에서, 참조 서열은 예를 들어 관계형 데이터베이스 또는 객체형 데이터베이스와 같은 데이터베이스에 저장된다.

지원을 받지 않은 인간이 본 명세서에서 개시되는 방법의 연산 작업을 실시하는 것은 현실적이지 않거나 대부분의 경우에 가능하지도 않다는 것이 이해되어야 한다. 예를 들어, 연산 장치의 지원 없이 인간 염색체 중 어느 하나에 샘플 유래의 단일 30bp 판독을 매핑하는 것은 수년간의 노력이 필요할 것이다. 당연히, 신뢰할 수 있는 이수성 호출은 일반적으로 수천 개(예를 들어, 적어도 약 10,000개) 또는 심지어 수백만 개의 판독을 1종 이상의 염색체에 매핑하는 것이 필요하기 때문에 문제는 악화된다.

본 명세서에서 개시되는 방법은 검사 샘플에서 관심대상의 유전자 서열의 카피수를 평가하기 위한 시스템을 이용하여 수행될 수 있다. 시스템은 (a) 샘플로부터 핵산 서열 정보를 제공하는 검사 샘플 유래의 핵산을 수취하기 위한 시퀀서; (b) 프로세서; (c) 임의의 CNV, 예를 들어 염색체 이수성 또는 부분적 이수성을 동정하기 위한 방법을 수행하도록 하는, 상기 프로세서에서의 실행을 위한 명령이 그 안에 저장된 하나 이상의 컴퓨터 판독가능한 저장 매체를 포함한다.

일부 구체예에서, 방법은 임의의 CNV, 예를 들어 염색체 이수성 또는 부분적 이수성을 동정하는 방법을 수행하기 위한 컴퓨터 판독가능한 명령이 그 안에 저장된 컴퓨터 판독가능한 매체에 의해 명령된다. 따라서, 한 구체예는 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행되는 경우, 해당 컴퓨터 시스템이 태아와 모체의 무세포계 핵산을 포함한 검사 샘플의 관심대상 서열의 카피수의 평가를 위한 방법을 실행하도록 하는 명령이 그 안에 저장된 하나 이상의 비일시적인 컴퓨터 판독가능한 기억 매체를 포함하는 컴퓨터 프로그램 제품을 제공한다. 상기 방법은 (a) 검사 샘플에서 무세포계 핵산 단편을 시퀀싱하여 얻은 서열 판독을 수취하는 단계; (b) 무세포계 핵산 단편의 서열 판독을 관심대상의 서열을 포함하는 참조 게놈에 정렬하고, 이를 통해 검사 서열 태그를 제공하고, 상기 참조 게놈이 복수의 빈으로 분할되는 단계; (c) 검사 샘플 중에 존재하는 무세포계 핵산 단편의 단편 크기를 결정하는 단계; (d) 검사 서열 태그를 이 태그가 수득되는 무세포계 핵산 단편의 크기에 기반하여 가중시키는 단계; (e) (d)의 가중된 태그에 기반하여 빈에 대한 커버리지를 계산하는 단계; 및 (f) 계산된 커버리지로부터 관심대상의 서열의 카피수 변이를 동정하는 단계를 포함한다. 일부 실시형태에서, 검사 서열 태그를 가중시키는 단계는 커버리지를 검사 샘플 중의 한 게놈의 크기 또는 크기 범위 특징의 무세포계 핵산 단편으로부터 획득된 검사 서열 태그쪽으로 편향시키는 것을 수반한다. 일부 실시형태에서, 검사 서열 태그를 가중시키는 단계는 그 크기 또는 크기 범위의 무세포계 핵산 단편으로부터 획득된 태그에 1의 값을 할당하고 나머지 태그에는 0의 값을 할당하는 것을 수반한다. 일부 실시형태에서, 상기 방법은, 참조 게놈의 빈에서, 임계값보다 짧거나 임계값보다 긴 단편 크기를 갖는 검사 샘플의 무세포계 핵산의 분량을 포함하는 단편 크기 매개변수의 값을 결정하는 것을 추가로 수반한다. 여기서, 관심대상의 서열의 카피수 변이를 동정하는 단계는 단편 크기 매개변수의 값뿐만 아니라 (e)에서 계산된 커버리지를 사용하는 것을 수반한다. 일부 실시형태에서, 시스템은 위에서 논의된 다양한 방법 및 프로세스를 사용하여 검사 샘플에서 카피수를 평가하도록 구성된다.

일부 구체예에서, 명령은 염색체 양 및 태아 염색체 이수성의 존재 유무와 같은 방법에 관한 정보를 모체 검사 샘플을 제공하는 인간 대상체에 대한 환자 의료 기록에 자동으로 기록하는 단계를 추가로 포함할 수 있다. 환자 의료 기록은, 예를 들어 실험실, 진료소, 병원, 건강관리기구, 보험회사 또는 개인 의료 기록 웹 사이트에 의해 유지될 수 있다. 또한, 프로세서에 의해 실행된 분석 결과에 기반하여, 방법은 모체 검사 샘플이 채취된 인간 대상체의 치료를 처방, 개시 및/또는 변경하는 것을 추가로 수반할 수 있다. 이것은 대상체로부터 채취된 추가적인 샘플에 대한 하나 이상의 추가 검사 또는 분석을 수행하는 것을 수반할 수 있다.

개시된 방법은 임의의 CNV, 예를 들어 염색체 이수성 또는 부분적 이수성을 동정하기 위한 방법을 수행하도록 개조된 또는 구성된 컴퓨터 처리 시스템을 이용하여 수행할 수도 있다. 한 구체예는 본 명세서에서 설명되는 방법을 수행하도록 개조된 또는 구성된 컴퓨터 처리 시스템을 제공한다. 한 구체예에서, 장치는 본 명세서의 다른 부분에서 언급된 서열 정보의 유형을 획득할 수 있도록 샘플의 핵산 분자의 적어도 일부분을 시퀀싱하기 위해 개조된 또는 구성된 시퀀싱 장치를 포함한다. 장치는 샘플을 가공하기 위한 구성요소도 포함할 수 있다. 이러한 구성요소는 본 명세서의 다른 부분에 기재되어 있다.

서열 또는 다른 데이터를 컴퓨터에 입력하거나 컴퓨터 판독가능한 매체에 직적 또는 간접적으로 저장할 수 있다. 한 구체예에서, 컴퓨터 시스템을 샘플 유래의 핵산의 서열을 판독 및/또는 분석하는 시퀀싱 디바이스에 직접 연결한다. 이러한 도구의 서열 또는 기타 정보는 컴퓨터 시스템의 인터페이스를 통해 제공된다. 대안적으로, 시스템에 의해 처리된 서열은 데이터베이스 또는 다른 저장소와 같은 서열 저장 공급원으로부터 제공된다. 처리 장치가 일단 이용가능하게 되면, 메모리 디바이스 또는 대용량 저장 디바이스는 핵산의 서열을 적어도 일시적으로 버퍼링하거나 저장한다. 또한, 메모리 장치는 다양한 염색체 또는 게놈에 대한 태그 카운트 등을 저장할 수 있다. 메모리는 또한 서열 데이터 또는 매핑된 데이터의 제시를 분석하기 위한 다양한 루틴 및/또는 프로그램을 저장할 수 있다. 이러한 프로그램/루틴은 통계 분석을 실시하기 위한 프로그램 등을 포함할 수 있다.

일례에서, 사용자는 샘플을 시퀀싱 장치에 제공한다. 컴퓨터에 연결되어 있는 시퀀싱 장치에 의해 데이터가 수집되고/되거나 분석된다. 컴퓨터의 소프트웨어를 통해 데이터 수집 및/또는 분석이 가능해진다. 데이터는 저장, 디스플레이(모니터 또는 기타 유사한 장치를 통해) 및/또는 다른 장소로 전송될 수 있다. 컴퓨터는 원격 사용자(예를 들어, 의사, 과학자 또는 분석가)에 의해 사용되는 휴대용 디바이스에 데이터를 전송하기 위해 사용되는 인터넷에 연결될 수 있다. 데이터는 전송하기 전에 저장하고/하거나 분석할 수 있는 것으로 이해된다. 일부 구체예에서, 원시 데이터를 수집하고 이 데이터를 분석하고/하거나 저장할 원격 사용자 또는 장치에 전달한다. 전송은 인터넷을 통해 일어날 수 있지만, 위성 또는 다른 연결을 통해 일어날 수 있다. 대안적으로, 데이터는 컴퓨터 판독가능한 매체에 저장될 수 있고, 매체는 최종 사용자에게 (예를 들어, 우편물을 통해) 발송될 수 있다. 원격 사용자는, 건물, 도시, 주, 국가 또는 대륙을 포함하지만 그들로 한정되지 않는 동일하거나 상이한 지리적 위치에 있을 수 있다.

일부 구체예에서, 방법은 복수의 폴리뉴클레오티드 서열에 대한 데이터(예를 들어, 판독, 태그 및/또는 참조 염색체 서열)를 수집하는 단계 및 상기 데이터를 컴퓨터 또는 다른 컴퓨터 시스템에 전송하는 단계를 포함한다. 예를 들어, 컴퓨터는 실험실 비품, 예를 들어 샘플 수집 장치, 뉴클레오티드 증폭 장치, 뉴클레오티드 시퀀싱 장치 또는 하이브리드화 장치에 연결될 수 있다. 그 다음, 컴퓨터는 실험실 디바이스에 의해 모아진 적용가능한 데이터를 수집할 수 있다. 데이터는 임의의 단계에서, 예를 들어 실시간으로 수집되는 동안, 전송되기 전, 전송되는 동안 또는 전송과 동시에 또는 전송한 후 컴퓨터에 저장될 수 있다. 데이터는 컴퓨터로부터 추출될 수 있는 컴퓨터 판독가능한 매체에 저장될 수 있다. 수집된 또는 저장된 데이터는 컴퓨터로부터 원격지로, 예를 들어 로컬 네트워크 또는 인터넷과 같은 광역 네트워크를 통해 전송될 수 있다. 원격지에서는, 이하에 설명하는 바와 같이 다양한 작업이 전송된 데이터에 대해 수행될 수 있다.

본 명세서에서 개시되는 시스템, 장치 및 방법에서 저장, 전송, 분석 및/또는 조작될 수 있는 전자적으로 포맷된 데이터 유형 중에는 다음의 것들이 있다:

검사 샘플에서 핵산을 시퀀싱하여 얻은 판독

판독을 참조 게놈 또는 다른 참조 서열 또는 서열들에 정렬함으로써 얻은 태그

참조 게놈 또는 참조 서열

서열 태그 밀도 - 참조 게놈 또는 다른 참조 서열의 2개 이상의 영역(일반적으로 염색체 또는 염색체 세그먼트) 각각에 대한 태그의 카운트 또는 수

관심대상의 특정 염색체 또는 염색체 세그먼트에 대한 정규화 염색체 또는 정규화 염색체 세그먼트의 정체

관심대상의 염색체 또는 세그먼트 및 대응하는 정규화 염색체 또는 정규화 세그먼트로부터 얻은 염색체 또는 염색체 세그먼트(또는 다른 영역)의 양

영향을 받음, 영향을 받지 않음 또는 호출 없음으로서 염색체 양을 호출하기 위한 임계값

염색체 양의 실제 호출

진단(호출과 관련된 임상 상태)

호출 및/또는 진단으로부터 도출된 추가 검사 권고

호출 및/또는 진단으로부터 도출된 치료 및/또는 모니터링 계획

이러한 다양한 유형의 데이터는 별도의 장치를 사용하여 하나 이상의 위치에서 획득, 저장, 전송, 분석 및/또는 조작될 수 있다. 처리 옵션은 광범위한 스펙트럼에 걸쳐 있다. 스펙트럼의 한쪽 끝에서, 이러한 정보의 전부 또는 대부분이 저장되고, 검사 샘플이 가공되는 장소, 예를 들어 진료소 또는 다른 임상 설정에서 사용된다. 다른 끝에서, 샘플은 한 장소에서 획득되고 다른 장소에서 가공되고 임의로 시퀀싱되고, 판독은 정렬되고, 호출은 하나 이상의 다른 장소에서 이루어지고, 진단, 권고 및/또는 계획은 또 다른 장소(샘플이 획득된 장소일 수 있다)에서 준비된다.

다양한 구체예에서, 판독은 시퀀싱 장치를 이용하여 생성되고 이어서 원격 부위로 전송되고, 여기서 판독이 처리되어 이수성 호출이 생성된다. 이러한 원격지에서, 예를 들어 판독은 참조 서열에 정렬된 태그를 생성하고, 상기 정렬된 태그는 카운팅되고 관심대상의 염색체 또는 세그먼트에 할당된다. 또한, 원격지에서 카운트는 관련된 정규화 염색체 또는 정규화 세그먼트를 이용하여 양으로 전환된다. 게다가, 원격지에서 양을 사용하여 이수성 호출을 생성한다.

별개의 장소에서 이용될 수 있는 처리 작업 중에는 다음의 것들이 있다:

샘플 수집

시퀀싱 전에 샘플 가공

시퀀싱

서열 데이터의 분석 및 이수성 호출 도출

진단

환자 또는 의료인에게 진단 및/또는 호출의 보고

추가 치료, 검사 및/또는 모니터링 계획의 수립

계획의 실행

상담

본 명세서의 다른 부분에서 설명한 바와 같이, 이러한 작업들 중 어느 하나 이상은 자동화될 수 있다. 일반적으로, 시퀀싱 및 서열 데이터의 분석 및 이수성 호출의 도출은 연산적으로 수행될 것이다. 다른 작업은 수동으로 또는 자동으로 수행될 수 있다.

샘플 수집이 수행될 수 있는 장소의 예에는 진료소(health practitioners' office), 클리닉, 환자의 집(샘플 수집 도구 또는 키트가 제공되는 곳) 및 의료용 이동 차량이 포함된다. 시퀀싱 전에 샘플 가공이 실시될 수 있는 장소의 예에는 진료소, 클리닉, 환자의 집(샘플 가공 장치 및/또는 키트가 제공되는 곳), 의료용 이동 차량 및 이수성 분석 제공자의 시설이 포함된다. 시퀀싱이 실시될 수 있는 장소의 예에는, 진료소, 클리닉, 진료소, 클리닉, 환자의 집(샘플 시퀀싱 장치 및/또는 키트가 제공되는 곳), 의료용 이동 차량 및 이수성 분석 제공자의 시설이 포함된다. 시퀀싱이 수행되는 장소에는 전자 형식의 시퀀싱 데이터(일반적으로 판독)를 전송하기 위한 전문 네트워크 연결이 제공될 수 있다. 이러한 연결은 유선 또는 무선일 수 있으며 데이터가 처리 사이트로 전송되기 전에 처리되고/되거나 통합될 수 있는 사이트로 데이터를 전송하도록 구성될 수 있다. 데이터 통합자(data aggregator)는 건강관리기구(Health Maintenance Organization; HMO)와 같은 보건 기구에 의해 유지될 수 있다.

분석 및/또는 도출 작업은 위의 장소 중 어느 하나에서 또는 대안적으로 연산 및/또는 핵산 서열 데이터를 분석하는 서비스에 특화된 추가 원격 부위에서 실시될 수 있다. 이러한 장소에는, 예를 들어 범용 서버팜과 같은 클러스터, 이수성 분석 서비스 사업 시설 등이 포함된다. 일부 구체예에서, 분석을 수행하기 위해 이용되는 연산 장치는 장기 임대 또는 단기 임대된다. 연산 리소스(computational resource)는 클라우드라는 구어체로 알려진 처리 리소스와 같은 인터넷 액세스가능한 프로세서의 수집물의 일부분일 수 있다. 일부의 경우에, 연산은 서로 연계된 또는 연계되지 않은 병렬 또는 대규모 병렬 프로세서 군에 의해 실시된다. 처리는 클러스터 컴퓨팅, 그리드 컴퓨팅 등과 같은 분산 처리를 이용하여 달성될 수 있다. 이러한 구체예에서, 연산 리소스 집합체의 클러스터 또는 그리드는 함께 작동하여 본 명세서에서 설명된 분석 및/또는 도출을 실시하는 다중 프로세서 또는 컴퓨터로 구성된 슈퍼 가상 컴퓨터를 형성한다. 이러한 기술뿐만 아니라 보다 종래의 슈퍼컴퓨터를 사용하여 본 명세서에서 설명되는 서열 데이터를 처리할 수 있다. 각각은 프로세서 또는 컴퓨터에 의존하는 병렬 컴퓨팅의 형태이다. 그리드 컴퓨팅의 경우, 이러한 프로세서들(종종 컴퓨터 전체)은 이더넷(Ethernet)과 같은 종래의 네트워크 프로토콜에 의한 네트워크(개인, 공공 또는 인터넷)에 의해 연결된다. 대조적으로, 슈퍼컴퓨터는 로컬 고속 컴퓨터 버스로 연결된 많은 프로세서를 갖는다.

특정 구체예에서, 진단(예를 들어, 태아는 다운 증후군을 갖거나, 환자는 특정 유형의 암을 갖는다)은 분석 작업과 동일한 장소에서 내려진다. 다른 구체예에서, 진단은 다른 장소에서 수행된다. 일부 예에서, 진단의 보고는 샘플이 채취된 장소에서 수행되지만, 그렇다고 이것이 사실일 필요는 없다. 진단이 내려지거나 보고될 수 있는 장소 및/또는 계획 수립이 수행되는 장소의 예에는 진료소, 클리닉, 컴퓨터에 의해 액세스가능한 인터넷 사이트, 및 네트워크에 유선 또는 무선 연결된 휴대 전화, 태블릿, 스마트 폰 등과 같은 휴대용 디바이스가 포함된다. 상담이 실시되는 장소의 예에는 진료소, 클리닉, 컴퓨터에 의해 액세스가능한 인터넷 사이트, 휴대용 디바이스 등이 포함된다.

일부 구체예에서, 샘플 수집, 샘플 가공 및 시퀀싱 작업은 제1 장소에서 수행되고 분석 및 도출 작업은 제2 장소에서 수행된다. 그러나, 일부의 경우에는 샘플 수집은 1개의 장소(예를 들어, 진료소 또는 클리닉)에서 수집되고, 샘플 가공 및 시퀀싱은 상이한 장소에서 실시되며, 이것은 임의로 분석 및 도출이 이루어지는 동일한 장소이다.

다양한 구체예에서, 위에서 열거된 일련의 작업들은 사용자 또는 샘플 수집, 샘플 가공 및/또는 시퀀싱을 시작하는 실체에 의해 촉발될 수 있다. 하나 이상의 이러한 작업이 실행을 시작한 후, 나머지 작업이 자연스럽게 뒤따를 수 있다. 예를 들어, 시퀀싱 작업은 판독이 자동적으로 수집되고 처리 장치로 전송되도록 할 수 있고, 이어서 상기 처리 장치는 종종 자동으로 그리고 아마 새로운 사용자의 개입없이 서열 분석 및 이수성 도출 작업을 실시한다. 일부 실시형태에서, 이러한 처리 작업의 결과는 이어서, 아마도 진단으로서 재포맷되어, 의료 전문가 및/또는 환자에 대한 정보 보고를 처리하는 시스템 구성요소 또는 실체로 자동으로 전달된다. 설명된 바와 같이, 이러한 정보는 자동으로 처리되어, 아마도 상담 정보와 함께 치료, 검사 및/또는 모니터링 계획도 만들 수 있다. 따라서, 초기 단계의 작업을 시작하는 것은, 신체적 건강상태에 작용하는데 유용한 진단, 계획, 상담 및/또는 다른 정보가 의료 전문가, 환자 또는 다른 관계자에게 제공되는 끝에서 끝까지의 일련의 사건을 촉발할 수 있다. 이것은 비록 전체 시스템의 일부가 물리적으로 분리되어 있고 아마도 예를 들어 샘플 및 서열 장치의 위치로부터 떨어져 있다 해도 달성된다.

도 5는 검사 샘플로부터 호출 또는 진단을 일으키기 위한 분산 시스템의 한 실시형태를 도시한다. 샘플 수집 장소 01은 임신한 여성 또는 추정상 암 환자와 같은 환자로부터 검사 샘플을 획득하기 위해 사용된다. 이어서, 샘플은 위에서 설명한 바와 같이 검사 샘플이 가공되고 시퀀싱될 수 있는 가공 및 시퀀싱 장소 03에 제공된다. 장소 03은 샘플을 가공하기 위한 장치 및 가공된 샘플을 시퀀싱하기 위한 장치를 포함한다. 본 명세서의 다른 부분에서 언급한 바와 같이, 시퀀싱 결과는 일반적으로 전자 형식으로 제공되는 판독의 수집물이며, 도 5의 참조 번호 05로 표시되어 있는 인터넷 같은 네트워크에 제공된다.

서열 데이터는 분석 및 호출 작성이 수행되는 원격지 07에 제공된다. 상기 장소는 컴퓨터 또는 프로세서와 같은 하나 이상의 강력한 연산 디바이스를 포함할 수 있다. 원격지 07의 연산 리소스가 받은 서열 정보로부터 이러한 분석을 완료하고 호출을 생성한 후, 호출은 네트워크 05에 다시 보내진다. 일부 실시형태에서, 원격지 07에서 호출이 생성될 뿐만 아니라 관련된 진단도 생성된다. 이어서 호출 및/또는 진단은 도 5에 예시된 바와 같이 네트워크에 걸쳐 전송되고 샘플 수집 장소 01로 반환된다. 설명된 바와 같이, 이것은 호출 또는 진단 생성과 관련된 다양한 작업이 다양한 장소 간에 어떻게 분할될 수 있는지에 대한 많은 변형들 중 단지 하나이다. 하나의 공통된 변형은 단일 장소에서 샘플의 수집과 가공 및 시퀀싱을 제공하는 것을 수반한다. 다른 변형은 분석 및 호출 생성과 동일한 장소에서 가공 및 시퀀싱을 제공하는 단계를 포함한다.

도 6은 별도의 장소에서 다양한 작업을 수행하기 위한 옵션에 대해 자세히 설명하고 있다. 도 6에 묘사된 가장 상세한 의미에서 다음 작업들을 각각 별도의 장소에서 수행한다: 샘플 수집, 샘플 가공, 시퀀싱, 판독 정렬, 호출, 진단 및 보고 및/또는 계획 수립.

이러한 작업들의 일부를 통합하는 한 구체예에서, 샘플 가공 및 시퀀싱은 한 장소에서 실시되고, 판독 정렬, 호출 및 진단은 별도의 장소에서 수행된다. 참조 문자 A로 식별되어 있는 도 6의 부분을 참조한다. 도 6에서 문자 B로 식별되어 있는 다른 실시형태에서, 샘플 수집, 샘플 가공 및 시퀀싱은 모두 동일한 장소에서 실시된다. 이러한 실시형태에서, 판독 정렬 및 호출은 제2 장소에서 수행된다. 마지막으로, 진단 및 보고 및/또는 계획 수립은 제3 장소에서 수행된다. 도 6에서, 문자 C로 묘사된 실시형태에서, 샘플 수집은 제1 장소에서 수행되고, 샘플 가공, 시퀀싱, 판독 정렬, 호출 및 진단은 모두 제2 장소에서 함께 수행되고, 보고 및/또는 계획 수립은 제3 장소에서 수행된다. 마지막으로, 도 6에서 D로 표지된 실시형태에서, 샘플 수집은 제1 장소에서 수행되고, 샘플 가공, 시퀀싱, 판독 정렬 및 호출은 모두 제2 장소에서 수행되고, 진단 및 보고 및/또는 계획 관리는 제3 장소에서 수행된다.

한 구체예는 태아와 모체의 핵산을 포함하는 모체 검사 샘플에서 임의의 1종 이상의 완전한 태아 염색체의 존재 유무를 판정하는 데 사용하기 위한 시스템을 제공하고, 상기 시스템은 핵산 샘플을 수취하고 상기 샘플로부터의 태아와 모체의 핵산 서열 정보를 제공하기 위한 시퀀서; 프로세서; 및 상기 프로세서에서의 실행을 위한 명령을 포함하는 기계 판독가능한 기억 매체를 포함하고, 여기서 상기 명령은

(a) 샘플에서 태아와 모체의 핵산에 대한 서열 정보를 획득하기 위한 코드;

(b) 상기 서열 정보를 이용하여 1번 내지 22번 염색체, X 염색체 및 Y 염색체로부터 선택된 임의의 1종 이상의 관심대상 염색체 각각에 대한 태아와 모체의 핵산의 서열 태그의 수를 연산적으로 동정하고, 상기 임의의 1종 이상의 관심대상 염색체 각각에 대한 적어도 1종의 정규화 염색체 서열 또는 정규화 염색체 세그먼트 서열에 대한 서열 태그의 수를 동정하기 위한 코드;

(c) 상기 임의의 1종 이상의 관심대상 염색체 각각에 대해 동정된 서열 태그의 수 및 각 정규화 염색체 서열 또는 정규화 염색체 세그먼트 서열에 대해 동정된 상기 서열 태그의 수를 사용하여 임의의 1종 이상의 관심대상 염색체 각각에 대한 단일 염색체 양을 계산하기 위한 코드; 및

(d) 임의의 1종 이상의 관심대상 염색체 각각에 대한 단일 염색체 양 각각을 1종 이상의 관심대상 염색체 각각에 대한 대응하는 임계값과 비교하고, 이를 통해 샘플에서 임의의 1종 이상의 상이한 완전한 태아 염색체 이수성의 존재 유무를 판정하기 위한 코드;

를 포함한다.

일부 구체예에서, 임의의 1종 이상의 관심대상 염색체 각각에 대한 단일 염색체 양을 계산하기 위한 코드는, 관심대상의 염색체 중 선택된 하나에 대한 염색체 양을 관심대상의 선택된 염색체에 대해 동정된 서열 태그의 수와 관심대상의 선택된 염색체에 대한 대응하는 적어도 1종의 정규화 염색체 서열 또는 정규화 염색체 세그먼트 서열에 대해 동정된 서열 태그의 수의 비율로서 계산하기 위한 코드를 포함한다.

일부 구체예에서, 시스템은 임의의 1종 이상의 관심대상 염색체의 임의의 하나 이상의 세그먼트의 임의의 나머지 염색체 세그먼트 각각에 대한 염색체 양의 계산을 반복하는 코드를 추가로 포함한다.

일부 구체예에서, 1번 내지 22번 염색체, X 염색체 및 Y 염색체로부터 선택된 1종 이상의 관심대상 염색체는 1번 내지 22번 염색체, X 염색체 및 Y 염색체로부터 선택된 적어도 20종의 염색체를 포함하고, 명령은 적어도 20종의 상이한 완전한 태아 염색체 이수성의 존재 여부를 판정하기 위한 명령을 포함한다.

일부 구체예에서, 적어도 1종의 정규화 염색체 서열은 1번 내지 22번 염색체, X 염색체 및 Y 염색체로부터 선택된 염색체 군이다. 다른 구체예에서, 적어도 1종의 정규화 염색체 서열은 1번 내지 22번 염색체, X 염색체 및 Y 염색체로부터 선택된 단일 염색체이다.

또 다른 구체예는 태아와 모체의 핵산을 포함하는 모체 검사 샘플에서 임의의 1종 이상의 부분적 태아 염색체 이수성의 존재 여부를 판정하는 데 사용하기 위한 시스템을 제공하고, 상기 시스템은 핵산 샘플을 수취하고 상기 샘플로부터의 태아와 모체의 핵산 서열 정보를 제공하기 위한 시퀀서; 프로세서; 및 상기 프로세서에서의 실행을 위한 명령을 포함하는 기계 판독가능한 기억 매체를 포함하고, 여기서 상기 명령은

(a) 상기 샘플에서 태아와 모체의 핵산에 대한 서열 정보를 획득하기 위한 코드;

(b) 상기 서열 정보를 이용하여 1번 내지 22번 염색체, X 염색체 및 Y 염색체로부터 선택된 임의의 1종 이상의 관심대상 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 태아와 모체의 핵산의 서열 태그의 수를 연산적으로 동정하고, 상기 임의의 1종 이상의 관심대상 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 적어도 1종의 정규화 염색체 서열 또는 정규화 염색체 세그먼트 서열에 대한 서열 태그의 수를 동정하기 위한 코드;

(c) 상기 임의의 1종 이상의 관심대상 염색체의 임의의 하나 이상의 세그먼트 각각에 대해 동정된 서열 태그의 수 및 상기 정규화 세그먼트 서열에 대해 동정된 서열 태그의 상기 수를 이용하여 상기 임의의 1종 이상의 관심대상 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 단일 염색체 세그먼트 양을 계산하기 위한 코드; 및

(d) 상기 임의의 1종 이상의 관심대상 염색체의 임의의 하나 이상의 세그먼트 각각에 대한 상기 단일 염색체 세그먼트 양 각각을 상기 임의의 1종 이상의 관심대상 염색체의 임의의 하나 이상의 염색체 세그먼트 각각에 대한 대응하는 임계값과 비교하고 이를 통해 상기 샘플에서 1종 이상의 상이한 부분적 태아 염색체 이수성의 존재 유무를 판정하기 위한 코드

를 포함한다.

일부 구체예에서, 단일 염색체 세그먼트 양을 계산하기 위한 코드는, 염색체 세그먼트 중 선택된 하나에 대한 염색체 세그먼트 양을, 선택된 염색체 세그먼트에 대해 동정된 서열 태그의 수와 선택된 염색체 세그먼트에 대한 대응하는 정규화 세그먼트 서열에 대해 동정된 서열 태그의 수의 비율로서 계산하기 위한 코드를 포함한다.

일부 구체예에서, 시스템은 임의의 1종 이상의 관심대상 염색체의 임의의 하나 이상의 세그먼트의 임의의 나머지 염색체 세그먼트 각각에 대한 염색체 세그먼트 양의 계산을 반복하는 코드를 추가로 포함한다.

일부 구체예에서, 시스템은 (i) 상이한 모체 대상체 유래의 검사 샘플에 대해 (a) 내지 (d)를 반복하는 코드 및 (ii) 상기 샘플 각각에서 임의의 1종 이상의 상이한 부분적 태아 염색체 이수성의 존재 유무를 판정하기 위한 코드를 추가로 포함한다.

본 명세서에서 제공되는 시스템 중 어느 하나에 대한 다른 구체예에서, 코드는 (d)에서 판정된 태아 염색체 이수성의 존재 유무를 모체 검사 샘플을 제공하는 인간 대상체에 대한 환자 의료 기록에 자동으로 기록하기 위한 코드를 추가로 포함하고, 여기서 기록은 프로세서를 이용하여 수행된다.

본 명세서에서 제공되는 시스템 중 어느 하나에 대한 일부 구체예에서, 시퀀서는 차세대 시퀀싱(NGS)을 수행하도록 구성된다. 일부 구체예에서, 시퀀서는 가역적 염료 터미네이터와 함께 합성에 의한 시퀀싱을 이용한 대규모 병렬 시퀀싱을 수행하도록 구성된다. 다른 구체예에서, 시퀀서는 라이게이션에 의한 시퀀싱을 수행하도록 구성된다. 또 다른 구체예에서, 시퀀서는 단일 분자 시퀀싱을 수행하도록 구성된다.

실시예

실시예 1

1차 및 농축된 시퀀싱 라이브러리의 제조 및 시퀀싱

a. 시퀀싱 라이브러리의 제조 - 단순화된 프로토콜(ABB)

모든 시퀀싱 라이브러리, 즉 1차 및 농축된 라이브러리를 모체 혈장으로부터 추출된 약 2ng의 정제 cfDNA로부터 제조하였다. Illumina®의 NEBNext™ DNA Sample Prep DNA Reagent 세트 1(품번 E6000L; New England Biolabs, Ipswich, MA)를 사용하여 라이브러리 제조를 다음과 같이 수행하였다. 무세포계 혈장 DNA는 자연적으로 단편화되어 있기 때문에, 혈장 DNA 샘플에 대해 분무 또는 초음파 처리에 의한 새로운 단편화는 수행하지 않았다. NEBNext® End Repair Module에 따라서 1.5ml 미량원심(microfuge) 튜브 내에서 cfDNA를 NEBNext™ DNA Sample Prep DNA Reagent 세트 1에 제공된 5㎕ 10X 인산화 완충액, 2㎕의 데옥시 뉴클레오티드 용액 믹스(각 dNTP 10mM), DNA 폴리머라제 I의 1:5 희석액 1㎕, 1㎕의 T4 DNA 폴리머라제 및 1㎕의 T4 폴리뉴클레오티드 키나제와 함께 20℃에서 15분 동안 항온배양함으로써 40㎕에 함유된 약 2ng의 정제 cfDNA 단편의 돌출을 인산화된 평활 말단으로 전환시켰다. 이어서, 반응 혼합물을 75℃에서 5분 동안 항온배양하여 효소를 열 불 활성화하였다. 혼합물을 4℃로 냉각시키고, 클레노우 단편(3'→ 5' 엑소 -)(NEBNext™ DNA Sample Prep DNA Reagent 세트 1)을 함유하는 10㎕의 dA-테일링 마스터 믹스를 사용하고 37℃에서 15분 동안 항온배양하여 평활 말단화된 DNA의 dA-테일링을 달성하였다. 계속해서, 반응 혼합물을 75℃에서 5분 동안 항온배양하여 클레노우 단편를 열 불활성화하였다. 클레노우 단편의 불활성화 후, Illumina Genomic Adaptor Oligo Mix(품번 1000521; Illumina Inc., Hayward, CA)의 1:5 희석액 1㎕를 이용하여, NEBNext™ DNA Sample Prep DNA Reagent 세트 1에 제공된 4㎕의 T4 DNA 리가제를 이용하여 반응 혼합물을 25℃에서 15분 동안 항온배양함으로써 Illumina 어댑터(비-인덱스 Y 어댑터)를 dA-테일링된 DNA에 라이게이션시켰다. 혼합물을 4℃로 냉각시키고, 어댑터-라이게이션된 cfDNA를 Agencourt AMPure XP PCR 정제 시스템(번호 A63881; Beckman Coulter Genomics, Danvers, MA)에 제공된 자석 비이드를 사용하여 비결합 어댑터, 어댑터 이량체 및 기타 시약으로부터 정제하였다. Phusion® High-Fidelity Master Mix(25㎕; Finnzymes, Woburn, MA) 및 어댑터에 상보적인 Illumina의 PCR 프라이머(각각 0.5μM)(품번 1000537 및 1000537)를 이용하여 18 사이클의 PCR을 수행하여 어댑터-라이게이션된 cfDNA를 선택적으로 농축시켰다(25㎕). 제조업체의 지시에 따라서 Illumina Genomic PCR 프라이머(품번 100537 및 1000538) 및 NEBNext™ DNA Sample Prep DNA Reagent 세트 1에 제공된 Phusion HF PCR Master Mix를 이용하여 어댑터-라이게이션된 DNA를 PCR(98℃ 30초 동안; 98℃ 10초 동안, 65℃ 30초 동안 및 72℃ 30초 동안의 18 사이클; 72℃에서 5분 동안 최종 신장 및 4℃에서 유지)에 적용하였다. www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf에서 이용가능한 제조업체의 지시에 따라서 Agencourt AMPure XP PCR 정제 시스템(Agencourt Bioscience Corporation, Beverly, MA)을 이용하여 증폭 산물을 정제하였다. 정제된 증폭 산물을 40㎕의 Qiagen EB 완충액에서 용출시키고, 2100 Bioanalyzer(Agilent technologies Inc., Santa Clara, CA)용 Agilent DNA 1000 Kit를 이용하여 증폭 라이브러리의 농도 및 크기 분포를 분석하였다.

b. 시퀀싱 라이브러리의 제조 - 전장 프로토콜

여기에 설명된 전장 프로토콜은 본질적으로 Illumina에 의해 제공된 표준 프로토콜이며, 증폭 라이브러리의 정제에서만 Illumina 프로토콜과 상이하다. Illumina 프로토콜은 겔 전기영동을 이용하여 증폭된 라이브러리를 정제하도록 지시하는 반면, 본 명세서에서 설명되는 프로토콜은 동일한 정제 단계에 대해 자석 비이드를 사용한다. 모체 혈장으로부터 추출된 약 2ng의 정제 cfDNA를 이용하여, 본질적으로 제조업체의 지침에 따라서 Illumina®에 대한 NEBNext™ DNA Sample Prep DNA Reagent 세트 1(품번 E6000L; New England Biolabs, Ipswich , MA)을 이용하여 1차 시퀀싱 라이브러리를 제조하였다. 정제 컬럼 대신에 Agencourt의 자석 비이드 및 시약을 이용하여 수행된 어댑터-라이게이션된 산물의 최종 정제를 제외한 모든 단계는 Illumina® GAII를 이용하여 시퀀싱되는 게놈 DNA 라이브러리에 대한 샘플 제조를 위한 NEBNext™ 시약에 첨부된 프로토콜에 따라서 수행하였다. NEBNext™ 프로토콜은 본질적으로 Illumina에 의해 제공되는 것을 따르며, 이는 grcf.jhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdf에서 이용가능하다.

NEBNext® End Repair Module에 따라서 200㎕ 미량원심튜브 내에서 40㎕의 cfDNA를 NEBNext™ DNA Sample Prep DNA Reagent 세트 1에 제공된 5㎕ 10X 인산화 완충액, 2㎕의 데옥시뉴클레오티드 용액 믹스(각 dNTP 10mM), DNA 폴리머라제 I의 1:5 희석액 1㎕, 1㎕의 T4 DNA 폴리머라제 및 1㎕의 T4 폴리뉴클레오티드 키나제와 함께 열 순환기에서 20℃에서 30분 동안 항온배양하여 40㎕에 함유된 약 2ng의 정제 cfDNA 단편의 돌출을 인산화된 평활 말단으로 전환시켰다. 샘플을 4℃로 냉각시키고, QIAQuick PCR Purification Kit(QIAGEN Inc., Valencia, CA)에 제공된 QIAQuick 컬럼을 이용하여 다음과 같이 정제하였다. 50㎕의 반응물을 1.5ml 미량원심튜브로 옮기고, 250㎕의 Qiagen 완충액 PB를 첨가하였다. 생성된 300㎕를 QIAquick 컬럼으로 옮기고, 이를 미량원심분리기에서 13,000RPM로 1분 동안 원심분리하였다. 컬럼을 750㎕의 Qiagen 완충액 PE로 세척하고 재원심분리하였다. 잔류 에탄올을 13,000RPM에서 5분 동안 추가 원심분리하여 제거하였다. DNA를 원심분리에 의해 39㎕의 Qiagen 완충액 EB에서 용출시켰다. 제조업체의 NEBNext® dA-Tailing Module에 따라서 클레노우 단편(3 '→ 5' 엑소 -)(NEBNext™ DNA Sample Prep DNA Reagent 세트 1)을 함유하는 16㎕의 dA-테일링 마스터 믹스를 사용하고 37℃에서 30분 동안 항온배양하여 34㎕의 평활 말단화된 DNA의 dA-테일링을 달성하였다. 샘플을 4℃로 냉각시키고, MinElute PCR Purification Kit(QIAGEN Inc., Valencia, CA)에 제공된 컬럼을 이용하여 다음과 같이 정제하였다. 50㎕의 반응물을 1.5ml 미량원심분리 튜브로 옮기고 250㎕의 Qiagen 완충액 PB를 첨가하였다. 300㎕를 MinElute 컬럼으로 옮기고, 이를 미량원심분리기에서 13,000RPM로 1분 동안 원심분리하였다. 컬럼을 750㎕의 Qiagen 완충액 PE로 세척하고 재원심분리하였다. 잔류 에탄올을 13,000RPM에서 5분 동안 추가 원심분리하여 제거하였다. DNA를 원심분리에 의해 15㎕의 Qiagen 완충액 EB에서 용출시켰다. 10㎕의 DNA 용출액을 NEBNext® Quick Ligation Module에 따라서 Illumina Genomic Adapter Oligo Mix(품번 1000521)의 1:5 희석액 1㎕, 15㎕의 2X Quick Ligation Reaction 완충액 및 4㎕의 Quick T4 DNA 리가제와 함께 25℃에서 15분 동안 항온배양하였다. 샘플을 4℃로 냉각시키고, MinElute 컬럼을 사용하여 다음과 같이 정제하였다. 150㎕의 Qiagen 완충액 PE를 30㎕의 반응물에 첨가하고, 전체 용적을 MinElute 컬럼으로 옮기고, 이를 미량원심분리기에서 13,000RPM로 1분 동안 원심분리하였다. 컬럼을 750㎕의 Qiagen 완충액 PE로 세척하고 재원심분리하였다. 잔류 에탄올을 13,000RPM에서 5분 동안 추가 원심분리하여 제거하였다. DNA를 원심분리에 의해 28㎕의 Qiagen 완충액 EB에서 용출시켰다. 제조업체의 지시에 따라서 Illumina Genomic PCR 프라이머(품번 100537 및 1000538) 및 NEBNext™ DNA Sample Prep DNA Reagent 세트 1에 제공된 Phusion HF PCR Master Mix를 이용하여 23㎕의 어댑터-라이게이션된 DNA 용출액을 18 사이클의 PCR(98℃ 30초 동안; 98℃ 10초 동안, 65℃ 30초 동안 및 72℃ 30초 동안의 18 사이클; 72℃ 5분 동안의 최종 신장 및 4℃에서 유지)에 적용하였다. www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf에서 이용가능한 제조업체의 지시에 따라서 Agencourt AMPure XP PCR 정제 시스템(Agencourt Bioscience Corporation, Beverly, MA)을 이용하여 증폭 산물을 정제하였다. Agencourt AMPure XP PCR 정제 시스템은 혼입되지 않은 dNTP, 프라이머, 프라이머 이량체, 염 및 기타 오염물을 제거하고 100bp보다 큰 앰플리콘을 회수한다. 정제된 증폭 산물을 40㎕의 Qiagen EB 완충액에서 Agencourt 비이드로부터 용출시키고, 2100 Bioanalyzer(Agilent technologies Inc., Santa Clara, CA)용 Agilent DNA 1000 Kit를 이용하여 라이브러리의 크기 분포를 분석하였다.

c. 단순화(a) 및 전장(b) 프로토콜에 따라서 제조된 시퀀싱 라이브러리의 분석

Bioanalyzer에 의해 생성된 전기영동도는 도 7a 및 7b에 도시되어 있다. 도 7a는 (a)에 기재된 전장 프로토콜을 사용하여 혈장 샘플 M24228로부터 정제된 cfDNA로부터 제조된 라이브러리 DNA의 전기영동도를 도시하며, 도 7b는 (b)에 기재된 전장 프로토콜을 사용하여 혈장 샘플 M24228로부터 정제된 cfDNA로부터 제조된 라이브러리 DNA의 전기영동도를 도시한다. 상기 2개의 도 모두에서, 피크 1과 피크 4는 각각 15bp 하위 마커(Lower Marker) 및 1,500의 상위 마커(Upper Marker)를 나타내고; 피크 위의 숫자는 라이브러리 단편에 대한 이동 시간을 나타내며; 수평선은 적분에 대한 설정 임계값을 나타낸다. 도 7a의 전기영동도는 187bp 단편의 작은 피크 및 263bp 단편의 큰 피크를 나타내며, 한편 도 7b의 전기영동도는 265bp에서 하나의 피크만을 나타낸다. 피크 면적을 적분한 결과, 도 7a에서 187bp의 피크의 DNA에 대한 0.40ng/㎕의 농도, 7a에서 263bp의 피크의 DNA에 7.34ng/㎕의 농도 및 도 7b에서 265bp의 피크의 DNA에 대해 14.72ng/㎕의 농도가 계산되었다. cfDNA에 라이게이션된 Illumina 어댑터는 92bp인 것으로 알려져 있으며, 이는 265bp로부터 공제할 경우에 cfDNA의 피크 크기가 173bp라는 것을 나타낸다. 187bp의 작은 피크는 끝에서 끝까지 결합된 2개의 프라이머의 단편을 나타낼 수 있다. 선형의 2개 프라이머 단편은 단순화된 프로토콜이 사용되는 경우 최종 라이브러리 산물로부터 제거된다. 단순화된 프로토콜은 또한 187bp 미만의 다른 작은 단편을 제거한다. 본 실시예에서, 어댑터-라이게이션된 정제된 cfDNA의 농도는 전장 프로토콜을 사용하여 생성된 어댑터-라이게이션된 cfDNA의 농도의 2배이다. 어댑터-라이게이션된 cfDNA 단편의 농도는 전장 프로토콜을 이용하여 획득된 농도보다 항상 컸다는 것을 유의하였다(데이터는 제시하지 않음).

따라서, 단순화된 프로토콜을 이용하여 시퀀싱 라이브러리를 제조할 때의 장점은 획득된 라이브러리가 262bp 내지 267bp 범위에서 단 하나의 큰 피크만을 일관되게 포함한다는 점이고, 반면에 전장 프로토콜을 사용하여 제조된 라이브러리의 질은 cfDNA를 나타내는 것 이외에 피크의 수와 이동성에 의해 반영되는 바와 같이 달라진다. 비-cfDNA 산물은 플로우 셀의 공간을 점유할 수 있고, 이수성 상태의 전체 할당의 근거를 이루는 클러스터 증폭 및 후속적인 시퀀싱 반응의 영상화의 질을 경감시킬 수 있다. 단순화된 프로토콜은 라이브러리의 시퀀싱에 영향을 미치지 않는 것으로 나타났다.

단순화된 프로토콜을 이용하여 시퀀싱 라이브러리를 제조할 때의 또 다른 장점은 평활 말단화, dA-테일링 및 어댑터-라이게이션의 3가지 효소 단계를 완료하는 데 1시간 미만이 소요되어 신속한 이수성 진단 서비스의 검증 및 실행을 뒷받침한다는 것이다.

또 다른 장점은 평활 말단화, dA-테일링 및 어댑터 라이게이션의 3가지 효소 단계가 동일한 반응 튜브 내에서 수행되며, 따라서 잠재적으로 재료의 손실 및 더욱 중요하게도 가능한 샘플 혼동 및 샘플 오염으로 이어질 수 있는 다수의 샘플 이동이 방지된다는 것이다.

실시예 2

단편 크기를 이용한 비침습적 출생전 검사

서론

모체 혈장에서의 무세포계 DNA(cfDNA)의 비침습적 출생전 검사(NIPT)는 2011년 후반 내지 2012년 초반에 상업적으로 도입된 이후로 빠르게 태아 이수성의 위험이 높은 임산부를 선별하기 위해 선택되는 방법이 되었다. 상기 방법은 주로 임산부의 혈장 중 cfDNA의 단리와 시퀀싱 및 참조 인간 게놈의 특정 영역에 정렬하는 cfDNA 단편의 카운팅에 기반한다(참조: Fan et al., Lo et al.). 이러한 DNA 시퀀싱 및 분자 카운팅 방법은 게놈에 걸쳐서 각 염색체의 상대적 카피수를 높은 정밀도로 판정할 수 있게 한다. 트리소미 21, 트리소미 18 및 트리소미 13에 대한 높은 감도와 특이성은 다수의 임상 시험에서 재현성 있게 성취되었다(참조 인용: Gil/Nicolaides meta-analysis).

보다 최근에는, 추가적인 임상 연구가 이러한 방법이 일반 산과 집단까지 확장될 수 있다는 것을 보여주었다. 태아 분획에 있어서 고위험 집단과 평균 위험 집단 간에 검출가능한 차이는 없다(참조). 임상 연구 결과는 cfDNA 시퀀싱에 의한 분자 카운팅을 이용한 NIPT가 두 집단 모두에서 동등한 성능을 발휘한다는 것을 입증하고 있다. 양성 예측도(PPV)에서 표준 혈청 선별을 능가하는 통계적으로 유의적인 향상이 입증되었다(참조). 혈청 생화학 및 목덜미 투명대(nuchal translucency) 측정과 비교해 더 낮은 위양성 검사 결과는 침습적 진단 절차의 필요성을 상당히 감소시켰다(참조: Larion et al. Abuhamad's group으로부터의 참조문헌).

일반 산과 집단에서의 우수한 NIPT 성능을 고려해 볼 때, 작업 흐름의 단순화 및 비용은 현재 일반 산과 집단에서 전체 염색체 이수성 검출을 위한 cfDNA 시퀀싱 수행에 대한 주요 고려사항이 되었다(참조: ISPD Debate 1, Brisbane). 대부분의 NIPT 실험실 방법은 라이브러리 제조 및 싱글 엔드 시퀀싱 후에, 이수성을 검출하기에 적절한 감도를 달성하기 위해 1천만 내지 2천만 개의 고유한 cfDNA 단편을 필요로 하는 폴리머라제 연쇄 반응(PCR) 증폭 단계를 이용하고 있다. PCR 기반 작업 흐름의 복잡성 및 더 깊은 시퀀싱 요건은 NIPT 분석법의 잠재성을 제한하였고 비용 증가를 야기하였다.

본 명세서에서, 높은 분석 감도 및 특이성은 PCR 증폭을 필요로 하지 않는 매우 낮은 cfDNA 입력을 이용한 단순한 라이브러리 제조로 달성될 수 있다는 것이 입증된다. PCR 수행 없는 방법은 작업 흐름을 단순화하고 턴어라운드 시간을 향상시키고 PCR 방법에 내재하는 편향을 제거한다. 중폭 없는 작업 흐름을 페어드 엔드 시퀀싱과 결합시켜 각 샘플에서 각 태그에 대한 단편 길이와 총 태아 분획이 결정되게 할 수 있다. 태아 cfDNA 단편이 모체 단편보다 짧기 때문에[참조문헌 Quake 2010은 Lo's Science Clin Translation 논문을 또한 인용한다], 모체 혈장으로부터의 태아 이수성 검출은 훨씬 더 강력하고 효율적으로 이루어질 수 있고, 더 적은 고유한 cfDNA 단편을 필요로 한다. 이와 함께, 향상된 분석 감도 및 특이성은 상당히 적은 수의 cfDNA 단편에서 매우 빠른 턴어라운드 시간으로 달성된다. 이것은 잠재적으로 상당히 낮은 비용에서 NIPT가 수행될 수 있게 하여 일반 산과 집단에서 적용을 용이하게 한다.

방법

말초혈 샘플을 BCT 튜브(Streck, Omaha, 미국 네브라스카주)로 흡인해 넣고 상업적 NIPT 검사를 위해 레드우드 시티의 Illumina CLIA 실험실로 운반하였다. 서명된 환자 동의서는 뉴욕주에서 보낸 환자 샘플을 제외하고는 제2 혈장 분취액이 개인 정보가 제거되어 임상 연구용으로 사용되는 것을 허락하는 것이었다. 이러한 작업을 위한 혈장 샘플은 다양한 cfDNA 농도와 태아 분획을 가진 영향을 받지 않은 태아와 이수성 태아 둘 다를 포함하도록 선택한다.

라이브러리 처리의 간소화

더 큰 용해물 입력을 수용하도록 약간 변형시킨 NucleoSpin 96웰 혈액 정제 키트(Macherey-Nagel, 독일 디렌)를 사용하여 900㎕의 모체 혈장으로부터 cfDNA를 추출하였다. 단리된 cfDNA를 cfDNA 입력의 어떠한 정규화도 없이 시퀀싱 라이브러리 프로세스에 직접 넣었다. 샘플 식별을 위해 cfDNA 단편을 바코드화하기 위한 이중 인덱스를 가진 TruSeq PCR Free DNA 라이브러리 키트(Illumina, San Diego, CA, USA)를 이용하여 시퀀싱 라이브러리를 제조하였다. 라이브러리와 저 농도의 입력 cfDNA와의 호환성을 향상시키기 위해 라이브러리 프로토콜에 대한 다음의 변경사항을 사용하였다. 주형 입력 용적은 증가시킨 반면에, 말단 수복, A-테일링 및 라이게이션 마스터 믹스 어댑터 농도는 감소시켰다. 추가로, 말단 수복 후, 열 사멸 단계를 도입하여 효소를 비활성화시키고, 말단 수복 후 SPRI(판매업체) 비이드 정제 단계를 제거하였고, 라이게이션 후 SPRI 비이드 정제 단계 동안의 용출은 HT1 완충액(Illumina)을 이용하였다.

96개의 채널 헤드와 8개의 1-mL 피펫팅 채널로 구성된 단일 MICROLAB® STAR(Hamilton, Reno, NV, USA) 액체 핸들러를 사용하여 96개의 혈장 샘플을 한번에 배치 처리하였다. 상기 액체 핸들러는 DNA 추출, 시퀀싱 라이브러리 제조 및 정량을 통해 각 개별 혈장 샘플을 처리하였다. AccuClear(Biotium, Hayward, CA, USA)를 이용하여 개개의 샘플 라이브러리를 정량하고, 정규화된 입력으로 48개 샘플의 풀을 제조하여 시퀀싱을 위한 최종 농도가 32 pM이 되도록 하였다.

페어드 엔드 시퀀싱

2×36 bp 페어드 엔드 시퀀싱과 함께 샘플 바코드를 시퀀싱하기 위한 추가적인 16 사이클을 이용하여 Illumina NextSeq 500 기구로 DNA 시퀀싱을 수행하였다. 총 364개의 샘플을 8개의 독립적인 시퀀싱 배치에 걸쳐 흘려 넣었다.

페어드 DNA 서열을 bcl2fastq(Illumina)을 이용하여 역다중화하고 bowtie2 정렬 알고리즘[참조: Landmead]을 이용하여 참조 인간 게놈(hg19)에 매핑하였다. 페어드 판독은 카운팅될 정방향 가닥과 역방향 가닥과 매치되어야 한다. 전체적으로 고유한 첫번째 판독을 갖는 10의 매핑 정확도 점수(Ruan et al.)를 초과하는 모든 카운팅된 매핑된 쌍을 크기가 100 kb인 비-중첩 연속 고정폭 게놈 빈에 할당하였다. 약 2%의 게놈은 NIPT 샘플의 독립적 세트에 걸쳐서 매우 가변적인 커버리지를 나타냈고 추가 분석에서 제외되었다.

시퀀싱된 cfDNA 단편의 각 2개 말단의 매핑된 위치로부터 입수가능한 게놈 위치 정보 및 단편 크기를 이용하여, 각 100 kb 윈도우에 대한 2개의 변수를 도출하였다: 길이가 150개 염기쌍 미만인 짧은 단편의 총 카운트 및 (b) 250개 염기쌍 미만의 모든 단편 세트 내에서의 80개 내지 150개 염기쌍의 단편의 분획. 단편의 크기를 150개 염기쌍 미만으로 한정하는 것은 태아 DNA를 대표하는 태반으로부터 기원하는 단편을 농축시킨다. 짧은 단편의 분획은 혈장 혼합물 중의 상대적 태아 cfDNA 양을 특징짓는다. 트리소미 태아 유래의 cfDNA는 해당 염색체에 대해 이염색체인 정배수성 태아와 비교해 트리소미 염색체에 매핑되는 짧은 판독의 분획이 더 높을 것으로 예상될 수 있었다.

도 2d에 도시된 프로세스를 사용하여 짧은 단편의 카운트 및 분획을 독립적으로 정규화하여 게놈 구아닌 시토신(GC) 함량에 기인하는 체계적인 분석 편향 및 샘플-특이적 변이를 제거하였다. 3 초과의 확실한 표준편차 측정값만큼 전체 염색체 중앙값에서 이탈하는 빈을 제거하여 정규화된 값을 트리밍하였다. 마지막으로, 2개의 변수 각각에 대해, 표적 염색체와 관련된 트리밍되고 정규화된 값을 정규화 참조 염색체에 대한 것과 비교하여 t-통계량을 구축하였다.

각 페어드 엔드 시퀀싱 수행의 데이터는 분석을 위해 다음의 네 단계를 따랐다: 1) 판독 전환, 2) 100kb 분해능에서 특징 비닝, 3) 100kb 분해능에서 각 특징(카운트 및 분획)의 정규화 및 4) 이수성 검출을 위한 특징과 점수화의 조합. 단계 1에서, 샘플 데이터를 개개의 바코드로부터 역다중화하고 게놈에 정렬하고 서열 질에 대해 필터링하였다. 단계2에서, 길이가 150개 염기쌍 미만인 짧은 단편의 총 카운트 및 250개 염기쌍 미만의 모든 단편 세트 내에서의 80개 내지 150개 염기쌍 단편의 분획을 각 빈에 대해 결정하였다. 분석 편향 및 샘플 특이적 변이는 단계 3에서 제거한다. 마지막으로, 카운트 및 분획 각각에 대한 t-통계량을 사용하여 참조 이상의 농축을 결정하고 점수를 매기고 이수성 검출을 위한 최종 점수를 위해 합하였다.

태아 전체 염색체 이수성의 검출

본 발명자들은 카운트와 분획 데이터를 조합하여 태아 트리소미 21을 검출하는 능력을 증강시킬 수 있는지 여부를 검사하였다. 핵형-확인된 트리소미 21을 가진 태아를 잉태한 임산부 유래의 16개 혈장 샘플 및 영향을 받지 않은 임산부 유래의 294개 샘플을 처리 배치에 걸쳐서 무작위로 분배하여 시퀀싱을 위한 9개의 플로우 셀이 생성되게 하였다. 각 알고리즘 단계를 개별적으로 검사하여 이수성을 검출하는 각 단계 및 조합된 단계들의 능력을 판정하였다. 조합된 경우에 태아 이수성 검출에 대한 최종 점수를 2개의 개별적 t-통계량의 제곱합의 제곱근으로서 규정하고, 단일 임계값을 적용하여 "이수성 검출" 대 "이수성 비검출"의 호출을 생성하였다.

태아 분획의 계산

각 샘플에 대해, 게놈 100 kb 빈의 부분집단 내에서 크기 [111,136 bp]의 단편의 총수 대 크기 [165,175 bp]의 단편의 총수의 비율을 사용하여 태아 분획을 추정하였다. 남성 태아를 잉태한 것으로 알려진 여성 유래의 샘플을 사용하여, X 염색체[참조: Rava]의 카피수로부터 도출된 태아 분획과 가장 높은 상관관계를 갖는 게놈 빈의 상위 10%를 결정하였다. 단편 크기 기반 태아 분획 추정치와 공지된 남성 태아의 X 염색체로부터 도출된 태아 분획 간의 상관관계를 빈 선택과 회귀 모델 매개변수 추정 둘 다를 포함하는 단일 관측치 제거 교차 검증[REF] 분석을 이용하여 연산하였다. 이어서, 선형 회귀 모델을 사용하여 단편 크기 비율로부터 추정 태아 분획을 도출하였다.

결과

라이브러리 처리의 간소화

도 8은 이러한 신규 버젼의 NIPT에 대한 전반적 작업 흐름 및 시간표를 표준 실험실 작업 흐름과 비교하여 도시한다. 혈장 단리, cfDNA 추출, 라이브러리 작제, 정량 및 풀링을 위한 전체 96-샘플 작업 흐름은 단일 Hamilton STAR에서 6시간 미만의 총 제조 시간 동안 샘플을 처리할 수 있었다. 이것은 CLIA 실험실에서 사용된 PCR 기반 방법의 경우 9시간이고 2개의 Hamilton STAR인 것과 비교된다. 샘플당 추출된 cfDNA의 양은 평균 60 pg/㎕이었고, 도 9에 도시된 바와 같이 시퀀싱 라이브러리 출력의 수율은 cfDNA 입력과 선형 상관관계(R²=0.94)가 있었다. 평균 회수율은 70%(범위 부가)를 초과하였으며, 이는 SPRI 비이드 정제 후 cfDNA의 매우 효율적인 회수를 나타낸다. 각 시퀀싱 수행은 다중화된 48개의 샘플의 정규화된 양을 사용하였으며 완료까지 약 14시간이 소요되었다. 고유하게 매핑된 페어드 판독의 중앙값은 YYY를 초과하는 샘플의 95%에서의 XXX M이다.

페어드 엔드 시퀀싱

48-샘플 배치당 총 시퀀싱 시간은 NextSeq 500에서 14시간 미만이었다. 이것은 HiSeq 2500에서의 실험실 프로세스의 경우에 40시간(1개 플로우 셀, 96개 샘플) 또는 50시간(2개 플로우 셀, 192개 샘플)인 것과 비교된다. cfDNA 단편의 양쪽 말단 모두의 매핑된 게놈 위치는 cfDNA 단편 크기 정보를 제공한다. 도 10은 남성 태아를 가진 임산부 유래의 324개 샘플로부터 측정된 cfDNA 단편 크기 분포를 도시한다. 정배수성이고 주로 모체 염색체를 나타내는 것으로 알려진 상염색체에 매핑된 단편의 크기는 가는 곡선으로 나타내져 있다. 인서트의 평균 크기는 175 bp이며 단편의 XX%는 100bp 내지 200bp로 측정되었다. 두꺼운 곡선은 전적으로 태아 cfDNA 단편만을 나타내는 Y-염색체로부터만 발생하는 단편 크기를 나타낸다. Y-염색체 특이적 서열로부터의 크기 분포는 더 작으며 평균 167 bp이며 더 짧은 단편 크기에서 10-염기 주기성이 있다.

태아 DNA에 대해 cfDNA의 더 짧은 단편이 농축되어 있기 때문에, 더 짧은 단편만을 사용하는 선택적 분석은 태아 판독의 우선적 선택으로 인해 상대적 태아 표현을 증가시킬 것으로 예상될 수 있었다. 도 11은 맵핑된 페어드 엔드 판독의 총 카운트로부터의 상대적 태아 분획을 150 bp 미만인 페어드 엔드 판독으로부터의 카운트와 비교하여 도시한다. 대체로, 중위 태아 분획은, 비록 분산이 약간 증가했음에도 불구하고, 총 카운트에 비해서 2의 인수만큼 증가하고 있다. 150 bp의 크기 컷오프는 태아 표현의 증가에 따른 카운트 대 카운트의 변동에 대한 최적의 트레이드오프관계를 제공하는 것으로 확인되었다.

태아 전체 염색체 이수성의 검출

이용가능한 메트릭인 총 카운트, 150 bp 미만의 카운트, 태아 cfDNA에 대해 농축된 카운트의 분획(80 내지 150bp의 카운트/카운트 <250bp) 및 더 짧은 단편 카운트와 분획의 조합 각각을 트리소미 21 샘플을 이러한 21번 염색체의 정배수성과 구별하는 능력에 대해 검사하였다. 도 12는 이러한 메트릭들 각각에 대한 결과를 도시한다. 총 카운트는 XX 카운트의 중앙값을 갖고, 반면에 150 bp 미만의 카운트는 YY 카운트의 중앙값을 갖는다. 그렇지만, 도 4a 및 도 4b에서 볼 수 있는 바와 같이 더 작은 카운트는 트리소미 21과 정배수성 간의 더 우수한 구분을 보여주는데, 그 이유는 주로 이러한 메트릭이 태아 cfDNA에 대해 농축되어 있기 때문이다. 분획 단독만은 이수성을 식별하는데 있어서 거의 총 카운트만큼 효과적이지만(도 4c), 짧은 단편 카운트와 함께 사용되는 경우(도 4d)에는 짧은 단편 단독에 비해서 향상된 식별을 제공한다. 이것은 분획이 트리소미 21의 검출을 증강시키는 독립적인 정보를 제공하고 있다는 것을 나타낸다. PCR 증폭과 16M 카운트/샘플의 중앙값을 이용한 라이브러리 제조를 이용하는 현재의 CLIA 실험실 작업 흐름과 비교하면, PCR 수행 없는 페어드 엔드 시퀀싱 작업 흐름은 유의적으로 적은 카운트/샘플(예를 들어, 6 M 카운트/샘플 또는 그 미만) 및 더 간편하고 더 짧은 샘플 제조 작업 흐름에서도 동등한 성능을 나타낸다.

태아 분획의 계산

남성 태아를 가진 임산부로부터의 X 염색체 결과를 사용할 때, 정규화된 염색체 값을 이용하여 카운트(ClinChem 참조)에 대한 태아 분획을 결정하고 상이한 cfDNA 단편 크기들에 대해 비교할 수 있다. 단일 관측치 제거 교차 검증을 사용하여 140개 샘플의 세트에 대한 비율을 보정하고 성능을 추정하기 위해 X 염색체로부터 도출된 태아 분획을 사용하였다. 도 13은 교차 검증된 태아 분획 예측의 결과를 도시하고 두 데이터 세트 간의 상관관계를 입증하고 있으며, 이는 일단 보정 세트가 측정되었다면, 태아 분획 추정치가 여성 태아를 잉태한 여성 유래의 샘플을 포함한 어떠한 샘플로부터도 획득될 수 있다는 것을 나타낸다.

논의

모체 혈장 중의 cfDNA로부터 태아 이수성을 검출하기 위한 높은 분석 감도 및 특이성은 페어드 엔드 DNA 시퀀싱과 결합된 PCR 수행 없는 라이브러리 제조로 달성될 수 있다는 것이 입증되었다(도 8). 본 방법은 작업 흐름을 단순화하고 턴어라운드 시간을 향상시키고 PCR 방법에 내재하는 일부 편향을 제거한다. 페어드 엔드 시퀀싱은 단편 길이 크기 및 태아 분획을 결정할 수 있게 하며, 이는 현재 실행되는 상업적 방법에 비해서 현저하게 낮은 태그 카운트에서 이수성 검출을 증강시키기 위해 추가로 사용될 수 있다. PCR 수행 없는 페어드 엔드 실시형태의 성능은 최대 3배의 태그 수를 사용하는 싱글 엔드 시퀀싱과 유사한 것으로 보인다.

라이브러리 처리의 간소화

PCR 수행 없는 작업 흐름은 임상 실험실에 대해 몇가지 장점이 있다. 라이브러리 제조의 높은 수율과 선형 거동으로 인해, 시퀀싱을 위한 샘플의 정규화된 풀은 개개의 샘플 라이브러리 농도로부터 직접 만들어질 수 있다. 이를 통해 라이브러리 제조 과정의 PCR 증폭에 내재하는 편향이 제거된다. 또한, PCR 전 및 PCR 후 활성을 위해 별개의 액체 핸들러를 단리시킬 필요가 없고; 이것은 실험실에 대한 자금 부담을 감소시킨다. 이러한 간소화된 작업 흐름은 임상 실험실의 단일 교대 내에서 샘플의 배치가 제조되고 이어서 밤새 시퀀싱 및 분석될 수 있게 한다. 전반적으로, 감소된 자금 지출, 감소된 "수동(hands on)" 시간 및 신속한 턴어라운드는 NIPT의 비용과 전반적 강건성이 잠재적으로 현저하게 감소되게 한다.

페어드 엔드 시퀀싱

NextSeq 500 시스템에서 페어드 엔드 시퀀싱을 사용하는 것은 cfDNA 단편의 카운팅에 대해 몇가지 장점이 있다. 먼저, 이중 인덱스 바코드를 사용함으로써, 샘플을 높은 수준에서 다중화하여 높은 통계적 신뢰성을 가지고 수행간 변이를 정규화하고 보정할 수 있다. 또한, 수행당 48개의 샘플이 다중화되고, 플로우 셀상에서 클러스터링을 위해 필요한 양이 한정되기 때문에, 샘플당 입력 요건이 현저하게 감소되어 PCR 수행 없는 라이브러리 작업 흐름이 이용될 수 있다. 샘플당 약 5 ng의 전형적 cfDNA 수율에서, 조사자들은 PCR 증폭 없이도 샘플당 2회 내지 3회의 시퀀싱 수행을 얻을 수 있다. 이것은 이수성 판정(REF)에 충분한 cfDNA를 산출하기 위해 다수의 혈액 튜브로부터의 상당량의 혈장 입력을 필요로 하는 다른 방법들과 대조적이다. 마지막으로, 페어드 엔드 시퀀싱은 cfDNA 단편 크기의 결정 및 태아 cfDNA에 대한 분석적 농축을 가능하게 한다.

태아 전체 염색체 이수성의 검출

본 발명자들의 결과는 150 bp 미만의 cfDNA 단편의 카운트가 총 카운트보다도 이수성을 정배수성 염색체로부터 더욱 잘 식별할 수 있다는 것을 입증한다. 이러한 관찰결과는, 짧은 단편을 이용하였을 때 이용가능한 카운트 수의 감소로 인해서 카운팅 통계의 정확도가 감소될 수 있었다는 것을 제안한 팬(Fan) 등의 결과와 대조적이다. 짧은 단편의 분획은 또한, 카운트보다 더 적은 동적 범위에도 불구하고, 유(Yu) 등에 의해 시사된 바와 같이 트리소미 21 검출에 대한 어느 정도의 식별을 제공한다. 그러나, 카운팅과 분획 메트릭을 조합하면 트리소미 21 샘플과 정배수성 간의 최상의 구별이 야기되었으며 이들 두 메트릭이 염색체 표현에 대한 보완적 측정치임을 시사한다. 다른 생물학적 메트릭, 예를 들어 메틸화도 또한 이수성 검출에 대한 신호 대 노이즈 비율을 증강시킬 수 있는 직교 정보를 제공할 수 있을 것이다.

태아 분획의 계산

본 명세서에 제시된 방법은 또한 추가적인 실험실 작업을 생성하지 않고 각 샘플에서 태아 분획을 추정할 수 있게 한다. 거의 절반이 남성인 각 플로우 셀상의 많은 샘플을 이용하여, 단편 크기 정보로부터의 태아 분획 측정치를 남성 샘플로부터 결정된 것을 이용하여 보정함으로써 정확한 태아 분획 추정치가 모든 샘플에 대해 획득될 수 있다. 상업적 설정에서, 조사자들의 임상 경험은 상당수의 싱글 엔드 태그를 이용한 표준 카운팅 방법이 특정 태아 분획 측정치(REF)가 없는 경우에도 매우 낮은 위음성율을 초래하였다는 것을 보여주었다. 본 명세서에서 관찰된 유사한 검출 한계치를 고려하면 동등한 검사 성능이 예상된다.

결론

모체 샘플 중의 cfDNA로부터 태아 이수성을 검출하기 위한 높은 분석 감도 및 특이성은 페어드 엔드 DNA 시퀀싱과 결합된 PCR 수행 없는 라이브러리 제조로 달성될 수 있다는 것이 입증되었다. 이러한 간소화된 작업 흐름은 매우 빠른 턴어라운드 시간을 갖고 잠재적으로 일반 산과 집단에서의 사용을 위해 실질적으로 낮은 비용에서 NIPT가 수행될 수 있게 한다. 또한, 페어드 엔드 시퀀싱 기술은 다른 생물학적 현상을 측정할 수 있는 잠재성을 가질 뿐만 아니라 다른 임상 적용을 제공한다. 예를 들어, 게놈의 메틸화된 특정 영역 또는 CpG 섬(CpG island)로부터의 크기 정보는 게놈에 걸친 카피수 변이의 검출을 증강시키기 위한 다른 직교 메트릭을 제공할 수 있다.

본 발명은 그의 취지 또는 본질적 특징으로부터 벗어나지 않고 다른 구체적인 형태로 구체화될 수 있다. 기재된 구체예는 모든 면에서 단지 예시에 불과하고 제한하지 않는 것으로 간주되어야 한다. 따라서, 본 발명의 범주는 위의 설명보다는 첨부된 청구범위에 의해 지시된다. 청구범위의 등가의 의미와 범위 안에 있는 모든 변화는 그 범위 내에 포함되어야 한다.

Claims

2종 이상의 게놈으로부터 유래하는 무세포계 핵산 단편을 포함하는 검사 샘플에서 관심대상의 핵산 서열의 카피수 변이(CNV)를 판정하는 방법에 있어서, 하기 단계를 포함하는 것을 특징으로 하는 방법:
(a) 검사 샘플에서 무세포계 핵산 단편을 시퀀싱하여 획득된 서열 판독을 수취하는 단계;
(b) 무세포계 핵산 단편의 서열 판독을 정렬하거나 상기 서열 판독을 함유하는 단편을 관심대상 서열을 포함하는 참조 게놈의 빈에 정렬하고, 이를 통해 검사 서열 태그를 제공하되, 상기 참조 게놈이 복수의 빈으로 분할되는 단계;
(c) 검사 샘플 중에 존재하는 무세포계 핵산 단편의 단편 크기를 결정하는 단계;
(d) 제1 크기 도메인의 크기를 갖는 무세포계 핵산 단편에 대한 서열 태그를 사용하여 관심대상 서열의 빈에 대한 서열 태그의 제1 커버리지를 획득하는 단계;
(e) 제2 크기 도메인의 크기를 갖는 무세포계 핵산 단편에 대한 서열 태그를 사용하여 관심대상 서열의 빈에 대한 서열 태그의 제2 커버리지를 획득하되, 상기 제2 크기 도메인이 제1 크기 도메인과 상이한 단계; 그리고
(f) 제1 커버리지 및 제2 커버리지로부터 계산된 배수성 가능도를 호출 기준(call criterion)과 비교함으로써 관심대상 서열의 카피수 변이를 판정하되, 상기 배수성 가능도가 제1 커버리지 및 제2 커버리지 또는 그것들로부터 도출된 통계량이 이수성 추정을 갖는 모델로부터 생성될 첫 번째 확률을 포함하는 단계.
제 1항에 있어서, 단계 (c)에서 결정된 단편 크기를 사용하여 참조 게놈의 빈에 대한 크기 특징을 계산하는 단계를 더욱 포함하고, 여기서 카본수 변이는 제1 커버리지, 제2 커버리지 및 크기 특징을 사용하여 판정되는 것을 특징으로 하는 방법.
제 1항에 있어서, 제1 크기 도메인이 샘플 중의 모든 크기의 무세포계 핵산 단편을 포함하고, 그리고 제2 크기 도메인이 규정된 크기보다 작은 무세포계 핵산 단편만을 포함하는 것을 특징으로 하는 방법.
제 3항에 있어서, 제2 크기 도메인이 150 bp보다 작은 무세포계 핵산 단편만을 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서, 배수성 가능도는 제1 커버리지 및 제2 커버리지 또는 그것들로부터 도출된 통계량이 정배수성 추정을 갖는 모델로부터 생성될 두 번째 확률을 더욱 포함하는 것을 특징으로 하는 방법.
제 5항에 있어서, 통계량은 제1 커버리지를 사용한 관심대상 서열에 대한 제1 t-통계량 및 제2 커버리지를 사용한 관심대상 서열에 대한 제2 t-통계량을 포함하는 것을 특징으로 하는 방법.
제 6항에 있어서, 관심대상 서열에 대한 t-통계량은 관심대상 서열에서의 빈들의 커버리지 및 관심대상 서열에 대한 참조 영역에서 빈들의 커버리지를 사용하여 계산되는 것을 특징으로 하는 방법.
제 7항에 있어서, 배수성 가능도는 첫 번째 확률 및 두 번째 확률 사이에 가능도비를 포함하는 것을 특징으로 하는 방법.
제 8항에 있어서, 가능도비는 제1 t-통계량 및 제2 t-통계량 외에도 태아 분획의 하나 이상의 값으로부터 계산되는 것을 특징으로 하는 방법.
제 9항에 있어서, 무세포계 핵산 단편의 크기에 관한 정보를 사용하여 태아 분획의 하나 이상의 값을 계산하는 단계를 더욱 포함하는 것을 특징으로 하는 방법.
제 9항에 있어서, 가능도비는 하기를 포함하는 것을 특징으로 하는 방법:

상기 식에서, p₁은 데이터가 3-카피 또는 1-카피 모델을 나타내는 다변량 정규 분포로부터 생성될 가능도를 나타내고, p_o은 데이터가 2-카피 모델을 나타내는 다변량 정규 분포로부터 생성될 가능도를 나타내고, T_short, T_all은 짧은 단편 및 모든 단편으로부터 생성된 염색체 커버리지로부터 계산된 T 점수이고, q(ff_total)은 태아 분획의 밀도 분포임.
제 11항에 있어서, 가능도비는 모노소미 X, 트리소미 X, 트리소미 13, 트리소미 18 또는 트리소미 21에 대해 계산되는 것을 특징으로 하는 방법.
제 1항에 있어서, 단계 (d), 단계 (e), 또는 이들 단계 모두 하기를 포함하는 것을 특징으로 하는 방법:
(i) 빈에 정렬하는 서열 태그의 수를 결정하고, 그리고
(ii) 카피수 변이 이외의 요인으로 인한 빈 간의 변이를 감정하여 상기 빈에 정렬하는 서열 태그의 수를 정규화함.
제 13항에 있어서, 서열 태그의 수를 정규화하는 것은 샘플의 GC 함량에 대한 정규화, 트레이닝 세트의 변이의 전체 웨이브 프로파일(global wave profile)에 대한 정규화, 주성분 분석으로부터 획득된 1종 이상의 성분에 대한 정규화 중에서 적어도 한 가지를 포함하는 것을 특징으로 하는 방법.
제 2항에 있어서, 빈에 대한 크기 특징은 빈에서 규정된 값보다 작은 크기 단편 대 총 단편의 비율을 포함하는 것을 특징으로 하는 방법.
제 2항에 있어서, 관심대상 서열에서의 빈들의 크기 특징을 사용하여 관심대상 서열에 대한 제3 t-통계량을 계산하는 단계를 더욱 포함하는 것을 특징으로 하는 방법.
제 16항에 있어서, 단계 (f)는 단계 (d)에서 계산된 커버리지를 사용한 관심대상 서열에 대한 제1 t-통계량, 단계 (e)에서 계산된 커버리지를 사용한 관심대상 서열에 대한 제2 t-통계량, 그리고 제3 t-통계량으로부터 첫 번째 가능도비를 계산하는 것을 포함하는 것을 특징으로 하는 방법.
무세포계 핵산 단편을 포함하는 검사 샘플에서 관심대상의 핵산 서열의 카피수를 평가하기 위한, 하기를 포함하는 시스템:
검사 샘플로부터 핵산 단편을 수취하고 검사 샘플의 핵산 서열 정보를 제공하기 위한 시퀀서;
프로세서; 및
상기 프로세서에서 하기를 위한 실행 명령이 그 안에 저장된 하나 이상의 컴퓨터-판독가능한 저장 매체:
(a) 검사 샘플에서 무세포계 핵산 단편을 시퀀싱하여 획득된 서열 판독을 수취;
(b) 무세포계 핵산 단편의 서열 판독을 정렬하거나 상기 서열 판독을 함유하는 단편을 관심대상 서열을 포함하는 참조 게놈의 빈에 정렬하고, 이를 통해 검사 서열 태그를 제공, 여기서 상기 참조 게놈은 복수의 빈으로 분할되고;
(c) 검사 샘플 중에 존재하는 무세포계 핵산 단편의 단편 크기를 결정;
(d) 제1 크기 도메인의 크기를 갖는 무세포계 핵산 단편에 대한 서열 태그를 사용하여 관심대상 서열의 빈에 대한 서열 태그의 제1 커버리지를 획득;
(e) 제2 크기 도메인의 크기를 갖는 무세포계 핵산 단편에 대한 서열 태그를 사용하여 관심대상 서열의 빈에 대한 서열 태그의 제2 커버리지를 획득, 여기서 상기 제2 크기 도메인은 제1 크기 도메인과 상이하고; 그리고
(f) 제1 커버리지 및 제2 커버리지로부터 계산된 배수성 가능도를 호출 기준(call criterion)과 비교함으로써 관심대상 서열의 카피수 변이를 판정, 여기서 상기 배수성 가능도는 제1 커버리지 및 제2 커버리지 또는 그것들로부터 도출된 통계량이 이수성 추정을 갖는 모델로부터 생성될 첫 번째 확률을 포함함.
컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행되는 경우, 컴퓨터 시스템이 하기를 실행하도록 하는 컴퓨터-실행가능한 명령이 그 안에 저장된 하나 이상의 비일시적인 컴퓨터-판독가능한 저장 매체를 포함하는 컴퓨터 프로그램 제품:
(a) 검사 샘플에서 무세포계 핵산 단편을 시퀀싱하여 획득된 서열 판독을 수취;
(b) 무세포계 핵산 단편의 서열 판독을 정렬하거나 상기 서열 판독을 함유하는 단편을 관심대상 서열을 포함하는 참조 게놈의 빈에 정렬하고, 이를 통해 검사 서열 태그를 제공, 여기서 상기 참조 게놈은 복수의 빈으로 분할되고;
(c) 검사 샘플 중에 존재하는 무세포계 핵산 단편의 단편 크기를 결정;
(d) 제1 크기 도메인의 크기를 갖는 무세포계 핵산 단편에 대한 서열 태그를 사용하여 관심대상 서열의 빈에 대한 서열 태그의 제1 커버리지를 획득;
(e) 제2 크기 도메인의 크기를 갖는 무세포계 핵산 단편에 대한 서열 태그를 사용하여 관심대상 서열의 빈에 대한 서열 태그의 제2 커버리지를 획득, 여기서 상기 제2 크기 도메인은 제1 크기 도메인과 상이하고; 그리고
(f) 제1 커버리지 및 제2 커버리지로부터 계산된 배수성 가능도를 호출 기준(call criterion)과 비교함으로써 관심대상 서열의 카피수 변이를 판정, 여기서 상기 배수성 가능도는 제1 커버리지 및 제2 커버리지 또는 그것들로부터 도출된 통계량이 이수성 추정을 갖는 모델로부터 생성될 첫 번째 확률을 포함함.