KR20210045953A

KR20210045953A - 암의 평가 및/또는 치료를 위한 무 세포 dna

Info

Publication number: KR20210045953A
Application number: KR1020207036527A
Authority: KR
Inventors: 빅터 이. 벨쿨레스쿠; 스테판 크리스티아노; 알레산드로 릴; 질리안 에이. 팔렌; 제이콥 픽셀; 빌모스 아들레프; 로버트 비. 스칼프
Original assignee: 더 존스 홉킨스 유니버시티
Priority date: 2018-05-18
Filing date: 2019-05-17
Publication date: 2021-04-27
Also published as: EP3794348A1; US20200149118A1; JP2021525069A; US20200131571A1; AU2019269679A1; WO2019222657A1; US20220325343A1; EP3794348A4; US10982279B2; US20210198747A1; US10975431B2; BR112020023587A2; CA3100345A1; JP2024069295A; US20210254152A1; CN112805563A

Abstract

본 발명은 암에 걸린 포유류(예: 인간)를 진단, 모니터링 및/또는 치료하기 위한 방법 및 물질에 관한 것이다. 예를 들어, 암(예를 들어, 국소 암)에 걸린 것으로 포유류를 동정하기 위한 방법 및 물질이 제공된다. 예를 들어, 암에 걸린 포유류를 평가, 모니터링 및/또는 치료하기 위한 방법 및 물질이 제공된다.

Description

암의 평가 및/또는 치료를 위한 무 세포 DNA

(관련 출원에 대한 상호 참조)

본 출원은 2018년 5월 18일자로 출원한 미국 특허 출원 제62/673,516호 및 2019년 1월 23일자로 출원한 미국 특허 출원 제62/795,900호의 이익을 주장한다. 선 출원 내용은 본 출원 내용의 일부로 간주된다(그리고 참고로서 포함된다).

(연방 자금 지원에 관한 성명)

본 발명은 미국 국립 보건원의 허가 번호 CA121113에 따라서 미국 정부의 지원으로 이루어졌다. 미국 정부는 본 발명에 대한 특정 권리를 가지고 있다.

(기술 분야)

본 발명은 암에 걸린 포유류(예: 인간)를 진단 및/또는 치료하기 위한 방법 및 물질에 관한 것이다. 예를 들어, 본 발명은 포유류가 암(예: 국소 암)에 걸렸는지를 동정하기 위한 방법 및 물질을 제공한다. 예를 들어, 본 발명은 암에 걸린 포유류를 모니터링 및/또는 치료하기 위한 방법 및 물질을 제공한다.

전 세계적으로 인간 암의 이환율과 사망률의 대부분은 치료 효과가 떨어지는 이러한 질병의 후기 진단의 결과이다(Torre et al., 2015 CA Cancer J Clin 65:87; and World Health Organization, 2017 Guide to Cancer Early Diagnosis). 안타깝게도, 환자를 광범위하게 진단하고 치료하는데 사용할 수 있는 임상적으로 입증된 바이오 마커는 널리 보급되어 있지 않다(Mazzucchelli, 2000 Advances in clinical pathology 4:111; Ruibal Morell, 1992 The International journal of bio markers 7:160; Galli et al., 2013 Clinical chemistry and laboratory medicine 51:1369; Sikaris, 2011 Heart lung & circulation 20:634; Lin et al., 2016 in Screening for Colorectal Cancer: A Systematic Review for the US Preventive Services Task Force.(Rockville, MD); Wanebo et al., 1978 N Engl J Med 299:448; 및 Zauber, 2015 Dig Dis Sci 60:681).

무 세포 DNA에 대한 최근 분석은 이러한 접근방식이 조기 진단을 위한 새로운 방안을 제공할 수도 있음을 시사한다(Phallen et al., 2017 Sci Transl Med 9; Cohen et al., 2018 Science 359:926; Alix-Panabieres et al., 2016 Cancer discovery 6:479; Siravegna et al., 2017 Nature reviews. Clinical oncology 14:531; Haber et al., 2014 Cancer discovery 4:650; Husain et al., 2017 JAMA 318:1272; and Wan et al., 2017 Nat Rev Cancer 17:223).

본 발명은 포유류(예: 포유류로부터 얻은 샘플)에서 무 세포 DNA(cfDNA) 단편화 프로파일을 결정하기 위한 방법 및 물질을 제공한다. 일부 경우에 있어서, 포유류에서 cfDNA 단편화 프로파일을 결정하는 것은 암에 걸린 포유류를 동정하기 위해 사용될 수 있다. 예를 들어, 포유류에서 얻은 cfDNA 단편(예: 포유류에서 얻은 샘플)은 낮은 커버리지(coverage)의 전체 게놈 서열 분석을 받을 수 있으며, 서열 분석된 단편은 게놈에(예를 들어, 중첩되지 않은 창에서) 매핑될 수 있으며, cfDNA 단편화 프로파일을 결정하기 위하여 평가될 수 있다. 본 발명은 또한 암을 앓고 있거나 앓고 있다고 의심되는 포유류(예: 인간)를 평가 및/또는 치료하기 위한 방법 및 물질을 제공한다. 일부 경우에 있어서, 본 발명은 포유류가 암에 걸렸는지를 동정하기 위한 방법과 물질을 제공한다. 예를 들어, 포유류로부터 얻은 샘플(예를 들어, 혈액 샘플)은 cfDNA 단편화 프로파일에 적어도 부분적으로 기초하여 포유류가 암에 걸렸는지 여부를 결정하기 위하여 평가될 수 있다. 일부 경우에 있어서, 본 발명은 암에 걸린 포유류를 모니터링 및/또는 치료하기 위한 방법 및 물질을 제공한다. 예를 들어, 하나 이상의 암 치료는(예를 들어, cfDNA 단편화 프로파일에 적어도 부분적으로 기초하여) 암에 걸린 것으로 동정된 포유류에게 시행될 수 있다.

암의 조기 검출 및 국소화를 위한 비 침습적 방법이 본 명세서에 설명되어 있다. 혈액 내의 cfDNA는 암 환자에게 비 침습적 진단 수단을 제공할 수 있다. 본 명세서에서 입증된 바와 같이, 유방암, 대장암, 폐암, 난소암, 췌장암, 위암 또는 담관암을 앓고 있는 환자 236명뿐만 아니라 건강한 개체 245명에 대한 cfDNA의 게놈 전체 단편화 패턴을 평가하고자 조기 차단을 위한 단편의 DNA 평가(DNA Evaluation of Fragments for early Interception; DELFI)가 개발되어 사용되었다. 이러한 분석은 건강한 개체의 cfDNA 프로파일이 백혈구의 뉴클레오솜 단편화 패턴을 반영하는 반면에 암 환자는 단편화 프로파일을 변경한 것으로 나타냈다. DELFI는 98% 특이도에서 7가지 암 유형 중 57% 내지 >99% 범위의 검출 민감도를 가졌으며, 75%의 경우 제한된 수의 부위에서 암의 기원 조직을 동정하였다.(예를 들어, DELFI를 사용하여) cfDNA를 평가하는 것은 암의 조기 검출을 위한 스크리닝 접근법을 제공할 수 있으며, 이는 암 환자의 성공적인 치료 가능성을 높일 수 있다. 또한,(예를 들어, DELFI를 사용하여) cfDNA를 평가하는 것은 암을 모니터링하기 위한 접근 방식을 제공할 수 있으며, 이는 암에 걸린 환자의 성공적인 치료 기회를 높여 개선된 결과를 얻을 수 있다. 이외에도, cfDNA 단편화 프로파일은 저렴한 시약 및/또는 기기를 사용하여 제한된 양의 cfDNA로부터 얻을 수 있다.

일반적으로, 본 명세서의 일 양태는 포유류의 cfDNA 단편화 프로파일을 결정하는 방법을 특징으로 한다. 이 방법은 포유류에서 얻은 샘플로부터 수득한 cfDNA 단편을 서열 분석 라이브러리로 처리하고, 서열 분석 라이브러리를 전체 게놈 서열 분석(예: 낮은 커버리지의 전체 게놈 서열 분석)에 적용하여 서열 분석된 단편을 획득하고, 서열 분석된 단편을 게놈에 매핑하여 매핑된 서열의 창을 획득하고, 매핑된 서열의 창을 분석하여 cfDNA 단편 길이를 결정하는 것을 포함할 수 있다. 매핑된 서열에는 수만 개에서 수천 개의 창이 포함될 수 있다. 매핑된 서열의 창은 중첩되지 않은 창일 수 있다. 매핑된 서열의 창은 각각 약 5 백만 개의 염기쌍을 포함할 수 있다. cfDNA 단편화 프로파일은 각각의 창 내에서 결정될 수 있다. cfDNA 단편화 프로파일에는 중간 단편 크기가 포함될 수 있다. cfDNA 단편화 프로파일에는 단편 크기 분포가 포함될 수 있다. cfDNA 단편화 프로파일은 매핑된 서열의 창에서 작은 cfDNA 단편 대 큰 cfDNA 단편의 비율을 포함할 수 있다. cfDNA 단편화 프로파일은 전체 게놈에 걸쳐 있을 수 있다. cfDNA 단편화 프로파일은 하위 게놈 구간(예: 염색체 일부의 구간)에 걸쳐 있을 수 있다.

또 다른 양태에 있어서, 본 발명은 암에 걸린 포유류를 동정하는 방법을 특징으로 한다. 이 방법은 포유류로부터 얻은 샘플에서 cfDNA 단편화 프로파일을 결정하고, cfDNA 단편화 프로파일을 참조 cfDNA 단편화 프로파일과 비교하고, 포유류로부터 얻은 샘플의 cfDNA 단편화 프로파일이 참조 cfDNA 단편화 프로필과 다른 경우 포유류가 암에 걸렸음을 동정하는 것을 포함하거나 필수적으로 구성될 수 있다. 참조 cfDNA 단편화 프로파일은 건강한 포유류의 cfDNA 단편화 프로파일일 수 있다. 참조 cfDNA 단편화 프로파일은 건강한 포유류로부터 얻은 샘플에서 cfDNA 단편화 프로파일을 결정함으로써 생성될 수 있다. 참조 DNA 단편화 패턴은 참조 뉴클레오솜 cfDNA 단편화 프로파일일 수 있다. cfDNA 단편화 프로파일은 중간 단편 크기를 포함할 수 있으며, cfDNA 단편화 프로파일의 중간 단편 크기는 참조 cfDNA 단편화 프로파일의 중간 단편 크기보다 짧을 수 있다. cfDNA 단편화 프로파일은 단편 크기 분포를 포함할 수 있고, cfDNA 단편화 프로파일의 단편 크기 분포는 참조 cfDNA 단편화 프로파일의 단편 크기 분포에 비해 적어도 10개의 뉴클레오티드 만큼 다를 수 있다. cfDNA 단편화 프로파일은 작은 cfDNA 단편 대 큰 cfDNA 단편의 비율을 비롯하여 단편화 패턴의 위치 의존적 차이를 포함할 수 있으며, 여기서 작은 cfDNA 단편은 길이가 100bp(염기 쌍) ~ 150bp일 수 있고, 큰 cfDNA 단편은 길이가 151bp ~ 220bp일 수 있으며, cfDNA 단편화 프로파일에서 단편 비율의 상관 관계는 참조 cfDNA 단편화 프로파일의 단편 비율의 상관 관계보다 낮을 수 있다. cfDNA 단편화 프로파일은 게놈 전체에 걸쳐 작은 cfDNA 단편, 큰 cfDNA 단편, 또는 작고 큰 cfDNA 단편 둘다의 서열 커버리지를 포함할 수 있다. 암은 대장암, 폐암, 유방암, 담관암, 췌장암, 위암 또는 난소암일 수 있다. 상기 비교 단계는 전체 게놈에 걸쳐 창에서 cfDNA 단편화 프로파일을 참조 cfDNA 단편화 프로파일과 비교하는 것을 포함할 수 있다. 비교 단계는 하위 게놈 구간(예를 들어, 염색체 일부의 구간)에 걸쳐 cfDNA 단편화 프로파일을 참조 cfDNA 단편화 프로파일과 비교하는 것을 포함할 수 있다. 포유류는 암을 치료하기 위해 이전에 암 치료를 받았을 수도 있다. 암 치료는 수술, 보조 화학 요법, 신 보조 화학 요법, 방사선 요법, 호르몬 요법, 세포 독성 요법, 면역 요법, 입양 T 세포 요법, 표적화 요법 또는 이들의 임의의 조합일 수 있다. 상기 방법은 또한 포유류에게 암 치료(예를 들어, 수술, 보조 화학 요법, 신 보조 화학 요법, 방사선 요법, 호르몬 요법, 세포 독성 요법, 면역 요법, 입양 T 세포 요법, 표적화 요법 또는 이들의 임의의 조합)를 받게 하는 것을 포함할 수 있다. 포유류는 암 치료를 받은 후 암의 존재에 대해 모니터링될 수 있다.

또 다른 양태에 있어서, 본 발명은 암에 걸린 포유류를 치료하는 방법을 특징으로 한다. 이 방법은 포유류가 암에 걸렸음을 동정하는 것을 포함하거나 필수적으로 구성될 수 있으며, 여기서 동정은 포유류로부터 얻은 샘플에서 cfDNA 단편화 프로파일을 결정하고, cfDNA 단편화 프로파일을 참조 cfDNA 단편화 프로파일과 비교하고, 포유류로부터 얻은 cfDNA 단편화 프로파일이 참조 cfDNA 단편화 프로파일과 다를 경우 포유류가 암에 걸렸음을 동정하고; 포유류에게 암 치료를 받게 하는 것을 포함한다. 포유류는 인간일 수 있다. 암은 대장암, 폐암, 유방암, 위암, 췌장암, 담관암 또는 난소암일 수 있다. 암 치료는 수술, 보조 화학 요법, 신 보조 화학 요법, 방사선 요법, 호르몬 요법, 세포 독성 요법, 면역 요법, 입양 T 세포 요법, 표적화 요법 또는 이들의 조합일 수 있다. 참조 cfDNA 단편화 프로파일은 건강한 포유류의 cfDNA 단편화 프로파일일 수 있다. 참조 cfDNA 단편화 프로파일은 건강한 포유류에서 얻은 샘플에서 cfDNA 단편화 프로파일을 결정함으로써 생성될 수 있다. 참조 DNA 단편화 패턴은 참조 뉴클레오솜 cfDNA 단편화 프로파일일 수 있다. cfDNA 단편화 프로파일은 중간 단편 크기를 포함할 수 있으며, 여기서 cfDNA 단편화 프로파일의 중간 단편 크기는 참조 cfDNA 단편화 프로파일의 중간 단편 크기보다 짧다. cfDNA 단편화 프로파일은 단편 크기 분포를 포함할 수 있으며, 여기서 cfDNA 단편화 프로파일의 단편 크기 분포는 참조 cfDNA 단편화 프로파일의 단편 크기 분포에 비해 적어도 10개의 뉴클레오티드 만큼 다르다. cfDNA 단편화 프로파일은 매핑된 서열의 창에서 작은 cfDNA 단편 대 큰 cfDNA 단편의 비율을 포함할 수 있으며, 여기서 작은 cfDNA 단편은 길이가 100bp ~ 150bp이고, 큰 cfDNA 단편은 길이가 151bp ~ 220bp이며, cfDNA 단편화 프로파일에서 단편 비율의 상관 관계는 참조 cfDNA 단편화 프로파일의 단편 비율 상관 관계보다 낮다. cfDNA 단편화 프로파일은 게놈 전체의 창에서 작은 cfDNA 단편의 서열 커버리지를 포함할 수 있다. cfDNA 단편화 프로파일은 게놈 전체의 창에서 큰 cfDNA 단편의 서열 커버리지를 포함할 수 있다. cfDNA 단편화 프로파일은 게놈 전체의 창에서 작고 큰 cfDNA 단편의 서열 커버리지를 포함할 수 있다. 비교 단계는 전체 게놈에 걸쳐 cfDNA 단편화 프로파일을 참조 cfDNA 단편화 프로파일과 비교하는 것을 포함할 수 있다. 비교 단계는 하위 게놈 구간에 걸쳐 cfDNA 단편화 프로파일을 참조 cfDNA 단편화 프로파일과 비교하는 것을 포함할 수 있다. 포유류는 암을 치료하기 위해 이전에 암 치료를 받았을 수도 있다. 암 치료는 수술, 보조 화학 요법, 신 보조 화학 요법, 방사선 요법, 호르몬 요법, 세포 독성 요법, 면역 요법, 입양 T 세포 요법, 표적화 요법 또는 이들의 조합일 수 있다. 이 방법은 또한 암 치료를 받은 후 암의 존재에 대해 포유류를 모니터링하는 것을 포함할 수 있다.

달리 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술적 및 과학적 용어는 본 발명이 속하는 기술 분야에서 통상적으로 숙련된 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 본 명세서에 기술된 것과 유사하거나 동등한 방법 및 물질을 본 발명을 실시하기 위하여 사용할 수 있을지라도, 적합한 방법 및 물질이 하기에 기술된다. 본 명세서에 언급된 모든 간행물, 특허 출원, 특허 및 기타 참고 문헌들은 그 전체가 참고로 포함되어 있다. 상충되는 경우에는 정의를 포함하여 본 명세서가 우선한다. 이외에도, 물질, 방법 및 실시예들은 예시적일 뿐이며 제한하려는 의도가 아니다.

본 발명의 하나 이상의 구현예의 세부 사항들은 첨부된 도면 및 하기 설명에서 언급되어 있다. 본 발명의 다른 특징, 목적 및 장점들은 발명의 상세한 설명 및 도면 및 특허 청구 범위로부터 명백할 것이다.

도 1은 예시적인 DELFI 접근 방식의 개략도를 나타낸다. 혈액은 건강한 개체 및 암 환자 코호트로부터 채취된다. 뉴클레오솜 보호된 cfDNA는 혈장 분획으로부터 추출되고, 서열 분석 라이브러리로 처리되고, 전체 게놈 서열 분석을 통해 검사되고, 게놈에 매핑되고, 게놈 전체에 걸쳐 서로 다른 창에서 cfDNA 단편 프로파일을 결정하기 위하여 분석된다. 기계 학습 접근 방식은 건강한 개체 또는 암에 걸린 개체로 분류하고 게놈 전체의 cfDNA 단편화 패턴을 사용하여 기원의 종양 조직을 동정하는데 사용된다.
도 2는 분석된 변경 횟수 및 종양 유래된 cfDNA 단편 분포를 기반으로 한 비 침습적 암 검출의 시뮬레이션을 나타낸다. 몬테카를로(Monte Carlo) 시뮬레이션은 종양 유래된 분자의 표시된 분획에서 cfDNA 내의 암 변경을 검출할 확률을 평가하기 위하여 다양한 수의 종양 특이적 변경을 사용하여 수행되었다. 시뮬레이션은 cfDNA의 평균 2000개의 게놈 등가물 및 5개 이상의 변경 관찰의 요건을 가정하여 수행되었다. 이러한 분석은 종양 특이적 변경의 수가 증가하면 순환 종양 DNA의 검출 민감도를 향상시킨다는 것을 나타낸다.
도 3은 종양 유래된 cfDNA 단편 분포를 나타낸다. 유방암, 대장암, 폐암 또는 난소암 환자 30명으로부터 종양 특이적 변경을 포함하는 42개 유전자좌의 cfDNA 단편 길이의 누적 밀도 함수는 95%의 신뢰 구간(파란색)으로 표시된다. 돌연변이 cfDNA 단편의 길이는 이러한 유전자좌에서 야생형 cfDNA 단편(빨간색)에 비해 크기가 상당히 상이했다.
도 4a 및 4b는 종양 유래된 cfDNA GC 함량 및 단편 길이를 나타낸다. 도 4a에서의 GC 함량은 돌연변이 및 비 돌연변이 단편에 대해 유사하였다. 도 4b에서의 GC 함량은 단편 길이와 상관 관계가 없었다.
도 5는 생식 계열 cfDNA 단편 분포를 나타낸다. 유방암, 대장암, 폐암 또는 난소암 환자 38명으로부터 생식 계열 변경(비 종양 유래)을 포함하는 44개 유전자좌의 단편 길이의 누적 밀도 함수는 95%의 신뢰 구간으로 표시된다. 생식 계열 돌연변이(파란색)가 있는 단편은 길이에 있어서 야생형 cfDNA 단편 길이(빨간색)와 필적하였다.
도 6은 조혈 cfDNA 단편 분포를 나타낸다. 유방암, 대장암, 폐암 또는 난소암 환자 28명으로부터 조혈 변경(비 종양 유래)을 포함하는 41개 유전자좌의 단편 길이의 누적 밀도 함수는 95%의 신뢰 구간으로 표시된다. 다중 검사를 위하여 보정 후, 돌연변이가 된 조혈 cfDNA 단편(파란색) 및 야생형 cfDNA 단편(빨간색)의 크기 분포에는 유의한 차이(α = 0.05)가 없었다.
도 7a 내지 7f는 건강한 개체 및 암 환자의 cfDNA 단편화 프로파일을 나타낸다. 도 7a에서, 전체 게놈 서열 분석의 ~ 9x로부터 얻은 게놈 전체 cfDNA 단편화 프로파일(짧은 단편과 긴 단편의 비율로서 정의됨)은 30명의 건강한 개체(위)와 8명의 폐암 환자(아래)에 대해 5Mb 빈(bin)으로 표시된다. 도 7b는 1Mb 해상도에서 염색체 1로부터 건강한 cfDNA(위), 폐암 cfDNA(중간) 및 건강한 림프구(아래) 단편화 프로파일 및 림프구 프로파일의 분석을 나타낸다. 건강한 림프구 프로파일은 중간의 건강한 cfDNA 프로파일과 동일한 표준 편차로 크기가 조정되었다. 건강한 cfDNA 패턴은 건강한 림프구의 패턴을 밀접하게 반영한 반면에, 폐암 cfDNA 프로파일은 건강한 프로파일 및 림프구 프로파일과 더욱 다양하게 달랐다. 도 7c에서, 건강한 cfDNA(위) 및 뉴클레아제 소화된 건강한 림프구(중간)로부터 100kb 빈을 사용하여 0을 중심으로 인접한 뉴클레오솜 사이의 평활화된 중간 거리는 림프 모세포(아래)의 이전에 보고된 Hi-C 분석을 통해 얻은 게놈 접촉 매트릭스에 대한 첫 번째 고유 벡터와 함께 도시되어 있다. 건강한 cfDNA 뉴클레오솜 거리는 뉴클레아제 소화된 림프구의 거리뿐만 아니라 림프 모세포의 Hi-C 분석으로부터의 거리와 매우 유사하였다. 건강한 개체(n = 30)의 cfDNA 단편화 프로파일은 림프구(도 7d), 건강한 cfDNA(도 7e) 및 림프구 뉴클레오솜(도 7f) 거리의 중간 단편화 프로파일과 높은 상관 관계를 보인 반면에, 폐암 환자에 대해서는 낮은 상관 관계를 보였다.
도 8은 건강한 개체 및 폐암 환자에서 cfDNA 단편 길이의 밀도를 나타낸다. cfDNA 단편 길이는 건강한 개체(n = 30, 회색) 및 폐암 환자(n = 8, 파란색)에 대해 표시된다.
도 9a 및 9b는 cfDNA 단편화 프로파일의 분석을 위한 전체 게놈 서열 데이터의 하위 샘플링을 나타낸다. 도 9a에서, 높은 커버리지(9x)의 전체 게놈 서열 분석 데이터는 2x, 1x, 0.5x, 0.2x 및 0.1x 배수 커버리지로 하위 샘플링 되었다. 30명의 건강한 개체 및 8명의 폐암 환자에 대한 5Mb 빈의 평균 중심 게놈 전체 단편화 프로파일은 파란색으로 표시된 중간 프로파일로 각각 하위 샘플링된 배수의 커버리지에 대해 도시된다. 도 9b는 건강한 개체 및 폐암 환자에 대한 9x 커버리지에서 초기 프로파일에 대한 하위 샘플링된 프로파일의 피어슨(Pearson) 상관 관계를 나타낸다.
도 10은 치료하는 동안 cfDNA 단편화 프로파일 및 서열 변경을 나타낸다. 표적화된 티로신 키나제 억제제(검은색 화살표)로 치료중인 NSCLC 환자(n = 19)로부터의 연속 혈액 채취에서 암의 검출 및 모니터링은 표적화된 서열 분석(위) 및 게놈 전체 단편화 프로파일(아래)을 사용하여 수행되었다. 각각의 경우에 대해, 아래쪽 패널의 세로축은 각 샘플의 -1 배 상관 관계를 중간의 건강한 cfDNA 단편화 프로파일에 표시한다. 오차 막대는 돌연변이 대립 유전자 분획에 대한 이항 검사의 신뢰 구간 및 게놈 전체 단편화 프로파일에 대한 피셔(Fisher) 변환을 사용하여 계산된 신뢰 구간을 나타낸다. 접근 방식이 cfDNA(특이적 변경에 비교되는 전체 게놈)의 다른 양상을 분석하지만, 표적화된 서열 분석 및 단편화 프로파일은 치료에 반응하는 환자와 안정한 또는 진행성 질환 환자에 대해 유사하였다. 단편화 프로파일은 게놈 및 후생적 유전체 변경을 모두 반영하는 반면에 돌연변이 대립 유전자 분획은 개별 돌연변이만 반영하므로, 돌연변이 대립 유전자 분획만으로는 건강한 개체에 대한 단편화 프로파일의 절대적 상관관계 수준을 반영하지 못할 수도 있다.
도 11a 내지 11c는 건강한 개체 및 암 환자의 cfDNA 단편화 프로파일을 나타낸다. 도 11a는 종양 조직의 병렬 분석이 수행된 대장암 환자의 종양 카피 수 변화(위)의 맥락에서 단편화 프로파일(아래)을 나타낸다. 세그먼트 평균 및 정수 카피 수의 분포는 표시된 색상의 오른쪽 위에 나타낸다. 변경된 단편화 프로파일은 카피 중립적인 게놈 영역에 존재했으며, 카피 수 변화 영역에서 추가로 영향을 받았다. 도 11b에서, 건강한 개체 및 암 환자에 대한 1 내지 2x 전체 게놈 서열 부석으로부터 GC 조정된 단편화 프로파일은 5Mb 창을 사용하여 암 유형별로 표시된다. 중간의 건강한 프로파일은 검은색으로 표시되고 98%의 신뢰 구간은 회색으로 나타낸다. 암 환자의 경우 건강한 중간 값과의 상관 관계에 기초하여 개별 프로파일에 색상이 지정된다. 도 11c에서, 암 샘플의 10% 이상이 중간의 건강한 단편 비율로부터 표준 편차가 3 이상인 경우 창은 주황색으로 표시된다. 이러한 분석은 암에 걸린 개인의 cfDNA에서 게놈 전체에 걸쳐 다양한 위치 의존적 변경을 강조한다.
도 12a 및 12b는 건강한 개체 및 대장암 환자 1명의 카피 중립 영역에서 cfDNA 단편 길이의 프로파일을 나타낸다. 도 12a는 25명의 무작위로 선발된 건강한 개체(회색)에 대한 염색체 1 내지 6의 211개의 카피 중립 창에서의 단편화 프로파일을 나타낸다. 추정된 돌연변이 대립 유전자 분획이 20%인 대장암 환자(CGCRC291)의 경우, 암 단편 길이 프로파일을 약 10% 종양 기여도(파란색)로 희석하였다. 도 12a 및 12b에서, 건강한 샘플 및 암 환자에 대한 단편 프로파일의 한계 밀도는 실질적인 중첩(도 12a의 오른쪽)을 나타내지만, 단편화 프로파일의 시각화에서 알 수 있듯이 주요 성분 분석(도 12b)에서 건강한 샘플로부터 대장암 환자의 분리에 의해 단편화 프로파일은 서로 상이하다(도 12a의 왼쪽).
도 13a 및 13b는 cfDNA 단편의 게놈 전체 GC 보정을 나타낸다. 서열 분석 커버리지에 대한 GC 함량의 효과를 추정 및 제어하기 위하여, 중첩되지 않은 100kb 게놈 창의 커버리지를 상염색체 전체에 걸쳐 계산하였다. 각 창에 대해, 정렬된 단편의 평균 GC를 계산하였다. 도 13a는 무작위로 선택된 2명의 건강한 피험자(CGPLH189 및 CGPLH380) 및 검출 불가능한 염색체 이수성(PA 점수<2.35)을 가진 2명의 암 환자(CGPLLU161 및 CGPLBR24)에 대한 원시 커버리지(윗줄)의 뢰스(loess) 평활화를 나타낸다. 뢰스 모델에 의해 예측된 평균 커버리지를 뺀 후, 나머지는 중간 상염색체 커버리지(아랫줄)로 재조정되었다. 단편 길이도 커버리지 편향을 초래할 수 있으므로, 이러한 GC 보정 절차는 짧고(≤150bp) 긴(≥151bp) 단편에 대해 별도로 수행되었다. 19번 염색체(파란색 점)의 100kb 빈은 뢰스 모델에 의해 예측된 것보다 커버리지가 지속적으로 적지만, 이러한 접근 방식이 커버리지에 대한 염색체 카피 수에 미치는 영향을 제거하므로 염색체 특이적 보정은 실행되지 않았다. 도 13b에서는 전반적으로 PA 점수가 3 미만인 건강한 피험자 및 암 환자 중에서 보정 후 짧거나 긴 단편 커버리지와 GC 함량 사이에서 제한된 상관 관계가 발견되었다.
도 14는 기계 학습 모델의 개략도를 나타낸다. 그래디언트 트리 부스팅 기계 학습(gradient tree boosting machine learning)을 사용하여 cfDNA가 암 환자 또는 건강한 개체의 특성을 갖는 것으로 분류될 수 있는 지의 여부를 조사하였다. 기계 학습 모델에는 게놈 전체의 창에서 단편화 크기 및 커버리지 특성뿐만 아니라 염색체 아암(arm) 및 미토콘드리아 DNA 카피 수가 포함되었다. 10배수 교차 검증 접근법을 사용하여 각 샘플을 배수(fold)에 무작위로 할당하고 배수 중 9개(데이터의 90%)를 훈련용으로 사용하고 하나의 배수(데이터의 10%)를 검사용으로 사용하였다. 단일 교차 검증으로부터의 예측 정확도는 검사 및 훈련 세트의 가능한 10가지 조합에 대한 평균이다. 이러한 예측 정확도는 환자의 초기 무작위화로부터의 편향을 반영할 수 있으므로, 환자를 배수로 무작위화 하는 것을 포함하여 전체 절차를 10회 반복하였다. 모든 경우에, 특징 선택 및 모델 추정은 훈련 데이터에서 수행되고 검사 데이터에서 검증되었으며, 검사 데이터는 특징 선택에 사용되지 않았다. 궁극적으로, 개인을 건강하거나 암에 걸렸을 가능성이 있는 것으로 분류하는데 사용할 수 있는 DELFI 점수를 얻었다.
도 15는 반복된 10배수 교차 검증 전체에 걸쳐 AUC의 분포를 나타낸다. 215명의 건강한 개체 및 208명의 암 환자의 코호트에 대한 100 AUC의 25번째, 50번째 및 75번째 백분위 수는 점선으로 표시된다.
도 16a 및 16b는 염색체 아암 카피 수 변화 및 미토콘드리아 게놈 표현의 전체 게놈 분석을 나타낸다. 도 16a에서, 각각의 상염색체 아암에 대한 Z 점수는 건강한 개체(n = 215) 및 암 환자(n = 208)에 대해 표시된다. 세로 축은 각각 아암 이득 및 손실을 나타내는 양의 값 및 음의 값을 사용하여 0에서 정상적인 카피를 나타낸다. 50보다 크거나 -50보다 작은 Z 점수는 표시된 값에서 역치로서 지정된다. 도 16b에서는 미토콘드리아 게놈에 매핑하는 판독 분획이 건강한 개체 및 암 환자에 대해 표시된다.
도 17a 및 17b는 DELFI를 이용한 암의 검출을 나타낸다. 도 17a에서, 기계 학습 접근 방식에서 cfDNA 단편화 프로파일 및 기타 게놈 전체의 특징을 사용하여 암을 검출하기 위한 수용자 작동자 특성은 215명의 건강한 개체 및 파란색으로 음영 처리된 95% 이상의 특이도를 갖는 208명의 암 환자(DELFI, AUC = 0.94)로 구성된 코호트(cohort)에 대하여 나타낸다. 염색체 아암 카피 수(Chr 카피 수(ML)) 및 미토콘드리아 게놈 카피 수(mtDNA)의 기계 학습 분석은 표시된 색상으로 나타낸다. 도 17b에서, DELFI 조합된 접근법을 사용한 개별 암 유형의 분석은 0.86 내지 >0.99 범위의 AUC를 가졌다.
도 18은 단계별 암의 DELFI 검출을 나타낸다. 기계 학습 접근법에서 cfDNA 단편화 프로파일 및 기타 게놈 전체의 특징을 사용하여 암을 검출하기 위한 수용자 작동자 특성은 215명의 건강한 개체 및 파란색으로 음영 처리된 95% 이상의 특이도를 갖는 각 단계별 208명의 암 환자로 구성된 코호트에 대하여 나타낸다.
도 19는 기원예측의 DELFI 조직을 나타낸다. 담관암, 유방암, 대장암, 위암, 폐암, 난소암 및 췌장암의 DELFI 조직의 예측을 위한 수용자 작동자 특성이 표시되어 있다. 암 유형의 부류 내에서 샘플 크기를 늘리기 위하여 90% 특이도로 검출된 사례가 포함되었으며, 폐암 환자 코호트는 사전에 치료를 받은 18명의 폐암 환자로부터의 기준선 cfDNA 데이터를 추가하여 보완되었다(예를 들어, Shen et al., 2018 Nature, 563 : 579-583 참조).
도 20은 DELFI 및 돌연변이 기반 cfDNA 접근법을 사용하는 암의 검출을 나타낸다. DELFI(녹색) 및 돌연변이 동정을 위한 표적화된 서열 분석(파란색)은 유방암, 담관암, 대장암, 위암, 폐암 또는 난소암 환자 126명의 코호트에서 독립적으로 수행되었다. 각각의 접근법과 조합으로 검출된 개체의 수는 특이도 98%, 표적화된 서열 분석 특이도>99% 및 결합된 특이도 98%를 갖는 DELFI 검출에 대해 표시된다. ND는 검출되지 않음을 나타낸다.

본 발명은 포유류(예: 포유류로부터 얻은 샘플)에서 cfDNA 단편화 프로파일을 결정하기 위한 방법 및 물질을 제공한다. 본 명세서에 사용된 용어 "단편화 프로파일", "단편화 패턴의 위치 의존적 차이" 및 "게놈 전체에 걸친 위치 의존적 방식에서 단편 크기 및 커버리지의 차이"는 서로 동등하며 상호 교환적으로 사용될 수 있다. 일부 경우에 있어서, 포유류에서 cfDNA 단편화 프로파일을 결정하는 것은 암에 걸린 포유류를 동정하기 위하여 사용될 수 있다. 예를 들어, 포유류로부터 얻은 cfDNA 단편(예: 포유류로부터 얻은 샘플)은 낮은 커버리지의 전체 게놈 서열 분석을 받을 수 있으며, 서열 분석된 단편은(예를 들어, 중첩되지 않은 창에서) 게놈에 매핑될 수 있고 cfDNA 단편화 프로파일을 결정하기 위하여 평가된다. 본 명세서에 기재된 바와 같이, 암에 걸린 포유류의 cfDNA 단편화 프로파일은 건강한 포유류(예를 들어, 암이 없는 포유류)의 cfDNA 단편화 프로파일보다(예를 들어, 단편 길이에 있어서) 더욱 이질적이다. 이와 같이, 본 발명은 또한 암을 앓고 있거나 암을 앓고 있다고 의심되는 포유류(예: 인간)를 평가, 모니터링 및/또는 치료하기 위한 방법 및 물질을 제공한다. 일부 경우에 있어서, 본 발명은 포유류가 암에 걸렸는지를 동정하는 방법 및 물질을 제공한다. 예를 들어, 포유류로부터 얻은 샘플(예를 들어, 혈액 샘플)을 평가하여 포유류의 cfDNA 단편화 프로파일에 적어도 부분적으로 기초하여 포유류에서 암의 존재 및 선택적으로 암의 기원 조직을 결정할 수 있다. 경우에 따라서, 본 발명은 포유류가 암에 걸렸는지를 모니터링하는 방법 및 물질을 제공한다. 예를 들어, 포유류로부터 얻은 샘플(예를 들어, 혈액 샘플)은 포유류의 cfDNA 단편화 프로파일에 적어도 부분적으로 기초하여 포유류에서 암의 존재를 결정하기 위하여 평가될 수 있다. 일부 경우에 있어서, 본 발명은 포유류가 암에 걸렸다는 것을 동정하고 포유류를 치료하기 위하여 하나 이상의 암 치료를 포유류에게 시행하는 방법 및 물질을 제공한다. 예를 들어, 포유류로부터 얻은 샘플(예를 들어, 혈액 샘플)은 포유류의 cfDNA 단편화 프로파일에 적어도 부분적으로 기초하여 포유류가 암에 걸렸는지를 결정하기 위하여 평가될 수 있으며, 하나 이상의 암 치료를 포유류에게 시행할 수 있다.

cfDNA 단편화 프로파일은 하나 이상의 cfDNA 단편화 패턴을 포함할 수 있다. cfDNA 단편화 패턴은 임의의 적절한 cfDNA 단편화 패턴을 포함할 수 있다. cfDNA 단편화 패턴의 실례로는 제한없이 중간 단편 크기, 단편 크기 분포, 작은 cfDNA 단편 대 큰 cfDNA 단편의 비율, 및 cfDNA 단편의 커버리지를 들 수 있다. 일부 경우에 있어서, cfDNA 단편화 패턴은 중간 단편 크기, 단편 크기 분포, 작은 cfDNA 단편 대 큰 cfDNA 단편의 비율, 및 cfDNA 단편의 커버리지를 2개 이상(예를 들어, 2개, 3 개 또는 4개) 포함한다. 일부 경우에 있어서, cfDNA 단편화 프로파일은 게놈 전체의 cfDNA 프로파일(예: 게놈 전체에 걸쳐 상기 창에서 게놈 전체의 cfDNA 프로파일)일 수 있다. 경우에 따라서, cfDNA 단편화 프로파일은 표적화된 영역 프로파일일 수 있다. 표적화된 영역은 게놈의 임의의 적절한 부분(예: 염색체 영역)일 수 있다. cfDNA 단편화 프로파일이 본 명세서에 기술된 바와 같이 결정될 수 있는 염색체 영역의 실례로는 제한없이 염색체의 일부(예를 들어, 2q, 4p, 5p, 6q, 7p, 8q, 9q, 10q, 11q, 12q 및/또는 14q의 일부) 및 염색체 아암(예를 들어, 8q, 13q, 11q 및/또는 3p의 염색체 아암)을 들 수 있다. 경우에 따라서, cfDNA 단편화 프로파일에는 2개 이상의 표적화된 영역 프로파일이 포함될 수 있다.

일부 경우에 있어서, cfDNA 단편화 프로파일은 cfDNA 단편 길이의 변화(예를 들어, 변경)를 동정하는데 사용될 수 있다. 변경은 게놈 전체의 변경 또는 하나 이상의 표적화된 영역/유전자좌에서의 변경일 수 있다. 표적화된 영역은 하나 이상의 암 특이적 변경을 포함하는 임의의 영역일 수 있다. 암 특이적 변경 및 이들의 염색체 위치의 실례로는 표 3(부록 C) 및 표 6(부록 F)에서 제시된 것들을 들 수 있으나 이에 제한되어 있지 않다. 일부 경우에 있어서, cfDNA 단편화 프로파일은 약 10개의 변경에서 약 500개의 변경(예를 들어, 약 25 내지 약 500개, 약 50 내지 약 500개, 약 100 내지 약 500개, 약 200 내지 약 500개, 약 300 내지 약 500개, 약 10 내지 약 400개, 약 10 내지 약 300개, 약 10 내지 약 200개, 약 10 내지 약 100개, 약 10 내지 약 50개, 약 20 내지 약 400개, 약 30 내지 약 300개, 약 40 내지 약 200개, 약 50 내지 약 100개, 약 20 내지 약 100개, 약 25 내지 약 75개, 약 50 내지 약 250개, 또는 약 100 내지 약 200개의 변경)을 동정(예를 들어, 동시에 동정)하는데 사용될 수 있다.

일부 경우에 있어서, cfDNA 단편화 프로파일은 종양 유래된 DNA를 검출하는데 사용될 수 있다. 예를 들어, cfDNA 단편화 프로파일은 암을 앓고 있거나 암을 앓고 있는 것으로 의심되는 포유류의 cfDNA 단편화 프로파일을 참조 cfDNA 단편화 프로파일(예: 건강한 포유류의 cfDNA 단편화 프로파일 및/또는 암을 앓고 있거나 암을 앓고 있는 것으로 의심되는 포유류로부터의 건강한 세포의 뉴클레오솜 DNA 단편화 프로파일)과 비교함으로써 종양 유래된 DNA를 검출하는데 사용될 수 있다. 일부 경우에 있어서, 참조 cfDNA 단편화 프로파일은 건강한 포유류로부터 사전에 생성된 프로파일이다. 예를 들어, 본 명세서에 제공되는 방법은 건강한 포유류에서 참조 cfDNA 단편화 프로파일을 결정하는데 사용될 수 있으며, 그러한 참조 cfDNA 단편화 프로파일은 암을 앓고 있거나 암을 앓고 있는 것으로 의심되는 포유류의 검사 cfDNA 단편화 프로파일과 향후 비교를 위하여 저장(예: 컴퓨터 또는 기타 전자 저장 매체내에)될 수 있다. 경우에 따라서, 건강한 포유류의 참조 cfDNA 단편화 프로파일(예: 저장된 cfDNA 단편화 프로파일)은 전체 게놈에 걸쳐서 결정된다. 일부 경우에 있어서, 건강한 포유류의 참조 cfDNA 단편화 프로파일(예를 들어, 저장된 cfDNA 단편화 프로파일)은 하위 게놈 구간에 걸쳐 결정된다.

일부 경우에 있어서, cfDNA 단편화 프로파일은 암(예: 대장암, 폐암, 유방암, 위암, 췌장암, 담관암 및/또는 난소암)에 걸린 포유류(예: 인간)를 동정하는데 사용될 수 있다.

cfDNA 단편화 프로파일은 cfDNA 단편 크기 패턴을 포함할 수 있다. cfDNA 단편은 임의의 적절한 크기일 수 있다. 예를 들어, cfDNA 단편은 약 50 염기쌍(bp) 내지 약 400bp의 길이일 수 있다. 본 명세서에 기재된 바와 같이, 암에 걸린 포유류는 건강한 포유류에서 중간 cfDNA 단편 크기보다 더 짧은 중간 cfDNA 단편 크기를 함유하는 cfDNA 단편 크기 패턴을 가질 수 있다. 건강한 포유류(예를 들어, 암이 없는 포유류)는 약 166.6bp 내지 약 167.2bp(예를 들어, 약 166.9bp)의 중간 cfDNA 단편 크기를 갖는 cfDNA 단편 크기를 가질 수 있다. 일부 경우에 있어서, 암에 걸린 포유류는 건강한 포유류의 cfDNA 단편 크기보다 평균적으로 약 1.28bp 내지 약 2.49bp(예를 들어, 약 1.88bp) 더 짧은 cfDNA 단편 크기를 가질 수 있다. 예를 들어, 암에 걸린 포유류는 약 164.11bp 내지 약 165.92bp(예를 들어, 약 165.02bp)의 중간 cfDNA 단편 크기를 갖는 cfDNA 단편 크기를 가질 수 있다.

cfDNA 단편화 프로파일에는 cfDNA 단편 크기 분포가 포함될 수 있다. 본 명세서에 기술된 바와 같이, 암에 걸린 포유류는 건강한 포유류의 cfDNA 단편 크기 분포보다 더욱 다양한 cfDNA 크기 분포를 가질 수 있다. 경우에 따라서, 크기 분포는 표적화된 영역 내에 있을 수 있다. 건강한 포유류(예를 들어, 암이 없는 포유류)는 약 1 또는 약 1 미만의 표적화된 영역 cfDNA 단편 크기 분포를 가질 수 있다. 일부 경우에 있어서, 암에 걸린 포유류는 건강한 포유류의 표적화된 영역 cfDNA 단편 크기 분포보다 더 긴(예를 들어, 10, 15, 20, 25, 30, 35, 40, 45, 50 또는 그 이상의 bp 더 길거나 이들 숫자 사이의 임의의 염기쌍의 수) 표적화된 영역 cfDNA 단편 크기 분포를 가질 수 있다. 일부 경우에 있어서, 암에 걸린 포유류는 건강한 포유류의 표적화된 영역 cfDNA 단편 크기 분포보다 더 짧은(예를 들어, 10, 15, 20, 25, 30, 35, 40, 45, 50 또는 그 이상의 bp 더 짧거나 이들 숫자 사이의 임의의 염기쌍의 수) 표적화된 영역 cfDNA 단편 크기 분포를 가질 수 있다. 일부 경우에 있어서, 암에 걸린 포유류는 건강한 포유류의 표적화된 영역 cfDNA 단편 크기 분포보다 약 47bp 더 작거나 약 30bp 더 긴 표적화된 영역 cfDNA 단편 크기 분포를 가질 수 있다. 일부 경우에 있어서, 암에 걸린 포유류는 cfDNA 단편의 길이가 평균적으로 10, 11, 12, 13, 14, 15, 15, 17, 18, 19, 20 또는 그 이상의 bp 차이가 나는 표적화된 영역 cfDNA 단편 크기 분포를 가질 수 있다. 예를 들어, 암에 걸린 포유류는 cfDNA 단편의 길이가 평균 약 13bp 차이가 나는 표적화된 영역 cfDNA 단편 크기 분포를 가질 수 있다. 경우에 따라서, 크기 분포는 게놈 전체 크기 분포일 수 있다. 건강한 포유류(예를 들어, 암이 없는 포유류)는 게놈 전체에 걸쳐 짧고 긴 cfDNA 단편의 매우 유사한 분포를 가질 수 있다. 일부 경우에 있어서, 암에 걸린 포유류는 cfDNA 단편 크기에서 게놈 전체에 하나 이상의 변경(예: 증가 및 감소)을 가질 수 있다. 하나 이상의 변경은 게놈의 임의의 적절한 염색체 영역일 수 있다. 예를 들어, 변경은 염색체의 일부에 있을 수 있다. cfDNA 단편 크기에서 하나 이상의 변경을 포함할 수 있는 염색체 부분의 실례로는 제한없이 2q, 4p, 5p, 6q, 7p, 8q, 9q, 10q, 11q, 12q 및 14q의 부분을 들 수 있다. 예를 들어, 변경은 염색체 아암(예: 전체 염색체 아암) 전체에 걸쳐 있을 수 있다.

cfDNA 단편화 프로파일은 작은 cfDNA 단편 대 큰 cfDNA 단편의 비율 및 참조 단편 비율에 대한 단편 비율의 상관 관계를 포함할 수 있다. 본 명세서에서 사용된 바와 같이, 작은 cfDNA 단편 대 큰 cfDNA 단편의 비율과 관련하여, 작은 cfDNA 단편은 길이가 약 100bp 내지 약 150bp일 수 있다. 본 명세서에서 사용된 바와 같이, 작은 cfDNA 단편 대 큰 cfDNA 단편의 비율과 관련하여, 큰 cfDNA 단편은 길이가 약 151bp 내지 220bp일 수 있다. 본 명세서에서 기술된 바와 같이, 암에 걸린 포유류는 건강한 포유류에서 보다 더 낮은(예를 들어, 2배수 더 낮은, 3배수 더 낮은, 4배수 더 낮은, 5배수 더 낮은, 6배수 더 낮은, 7배수 더 낮은, 8배수 더 낮은, 9배수 더 낮은, 10배수 더 낮은 또는 그 이상 더 낮은) 단편 비율의 상관 관계(예를 들어, 하나 이상의 건강한 포유류로부터의 DNA 단편 비율과 같은 참조 DNA 단편 비율에 대한 cfDNA 단편 비율의 상관 관계)를 가질 수 있다. 건강한 포유류(예를 들어, 암이 없는 포유류)는 약 1(예를 들어, 약 0.96)의 단편 비율의 상관 관계(예를 들어, 하나 이상의 건강한 포유류로부터의 DNA 단편 비율과 같은 참조 DNA 단편 비율에 대한 cfDNA 단편 비율의 상관 관계)를 가질 수 있다. 일부 경우에 있어서, 암을 앓고 있는 포유류는 건강한 포유류에서 단편 비율의 상관 관계(예를 들어, 하나 이상의 건강한 포유류로부터의 DNA 단편 비율과 같은 참조 DNA 단편 비율에 대한 cfDNA 단편 비율의 상관 관계)보다 평균적으로 약 0.19 내지 약 0.30(예를 들어, 약 0.25) 더 낮은 단편 비율의 상관 관계(예를 들어, 하나 이상의 건강한 포유류로부터의 DNA 단편 비율과 같은 참조 DNA 단편 비율에 대한 cfDNA 단편 비율의 상관 관계)를 가질 수 있다.

cfDNA 단편화 프로파일에는 모든 단편의 커버리지가 포함될 수 있다. 모든 단편의 커버리지에는 커버리지의 창(예: 중첩되지 않은 창)이 포함될 수 있다. 일부 경우에 있어서, 모든 단편의 커버리지는 작은 단편(예를 들어, 길이가 약 100bp 내지 약 150bp인 단편)의 창을 포함할 수 있다. 일부 경우에 있어서, 모든 단편의 커버리지는 큰 단편(예를 들어, 길이가 약 151bp 내지 약 220bp인 단편)의 창을 포함할 수 있다.

일부 경우에 있어서, cfDNA 단편화 프로파일은 암(예: 대장암, 폐암, 유방암, 위암, 췌장암, 담관암 또는 난소암)의 기원 조직을 동정하는데 사용될 수 있다. 예를 들어, cfDNA 단편화 프로파일은 국소암을 동정하는데 사용될 수 있다. cfDNA 단편화 프로파일이 표적화된 영역 프로파일을 포함하는 경우, 본 명세서에 설명된 하나 이상의 변경(예: 표 3(부록 C) 및/또는 표 6(부록 F))은 암의 기원 조직을 동정하는데 사용될 수 있다. 일부 경우에 있어서, 염색체 영역에서 하나 이상의 변경은 암의 기원 조직을 동정하는데 사용될 수 있다.

cfDNA 단편화 프로파일은 임의의 적절한 방법을 사용하여 얻을 수 있다. 일부 경우에 있어서, 포유류(예를 들어, 암에 걸리거나 암에 걸린 것으로 의심되는 포유류)부터의 cfDNA는 서열 분석 라이브러리로 처리될 수 있으며, 이는 전체 게놈 서열 분석(예: 낮은 커버리지의 전체 게놈 서열 분석)에 적용되고, 게놈에 매핑되고, cfDNA 단편 길이를 결정하기 위하여 분석될 수 있다. 매핑된 서열은 게놈을 커버하는 중첩되지 않은 창에서 분석할 수 있다. 창은 임의의 적절한 크기일 수 있다. 예를 들어, 창은 길이가 수천 개에서 수백만 개까지 될 수 있다. 비 제한적인 실례로서, 창은 약 5Mb의 길이일 수 있다. 임의의 적절한 수의 창을 매핑할 수 있다. 예를 들어, 수십 개에서 수천 개의 창을 게놈에 매핑할 수 있다. 예를 들어 수백 개에서 수천 개의 창을 게놈에 매핑할 수 있다. cfDNA 단편화 프로파일은 각각의 창 내에서 결정될 수 있다. 일부 경우에 있어서, cfDNA 단편화 프로파일은 실시예 1에 기술된 바와 같이 얻을 수 있다. 일부 경우에 있어서, cfDNA 단편화 프로파일은 도 1에 나타낸 바와 같이 얻을 수 있다.

일부 경우에 있어서, 본 명세서에서 설명된 방법 및 물질은 기계 학습을 포함할 수도 있다. 예를 들어, 기계 학습은(예를 들어, cfDNA 단편의 커버리지, cfDNA 단편의 단편 크기, 염색체의 커버리지 및 mtDNA 사용하여) 변경된 단편화 프로파일을 동정하는데 사용될 수 있다.

일부 경우에 있어서, 본 명세서에 기재된 방법 및 물질은 암(예를 들어, 대장암, 폐암, 유방암, 위암, 췌장암, 담관암 및/또는 난소암)에 걸린 포유류(예: 인간)를 동정하는데 사용되는 유일한 방법일 수 있다. 예를 들어, cfDNA 단편화 프로파일을 결정하는 것은 포유류가 암에 걸렸는지를 동정하는데 사용되는 유일한 방법일 수 있다.

일부 경우에 있어서, 본 명세서에 기재된 방법 및 물질은 암(예를 들어, 대장암, 폐암, 유방암, 위암, 췌장암, 담관암 및/또는 난소암)을 앓고 있는 포유류(예: 인간)를 동정하는데 사용되는 하나 이상의 추가적인 방법과 함께 사용될 수 있다. 포유류가 암에 걸렸는지를 동정하는데 사용되는 방법의 실례는 제한없이 하나 이상의 암 특이적 서열 변경의 동정, 하나 이상의 염색체 변경(예: 염색체 이수성 및 재배열)의 동정, 및 기타 cfDNA 변경의 동정을 포함한다. 예를 들어, cfDNA 단편화 프로파일을 결정하는 것은 포유류가 암을 앓고 있는지를 동정하기 위하여 포유류의 게놈에서 하나 이상의 암 특이적 돌연변이를 동정하는 것과 함께 사용할 수 있다. 예를 들어, cfDNA 단편화 프로파일을 결정하는 것은 포유류가 암에 걸렸는지를 동정하기 위하여 포유류의 게놈에서 하나 이상의 염색체 이수성을 동정하는 것과 함께 사용될 수 있다.

일부 양태에 있어서, 본 발명은 또한 암을 앓거나 암을 앓고 있는 것으로 의심되는 포유류(예를 들어, 인간)를 평가하고, 모니터링하고 및/또는 치료하기 위한 방법 및 물질을 제공한다. 일부 경우에 있어서, 본 발명은 포유류가 암에 걸렸는지를 동정하는 방법 및 물질을 제공한다. 예를 들어, 포유류로부터 얻은 샘플(예를 들어, 혈액 샘플)은 포유류의 cfDNA 단편화 프로파일에 적어도 부분적으로 기초하여 포유류가 암에 걸렸는지 여부를 결정하기 위하여 평가될 수 있다. 일부 경우에 있어서, 본 발명은 포유류에서 암의 위치(예: 해부학적 부위 또는 기원 조직)를 동정하기 위한 방법 및 물질을 제공한다. 예를 들어, 포유류로부터 얻은 샘플(예를 들어, 혈액 샘플)은 포유류의 cfDNA 단편화 프로파일에 적어도 부분적으로 기초하여 포유류에서 암의 기원 조직을 결정하기 위하여 평가될 수 있다. 일부 경우에 있어서, 본 발명은 포유류가 암에 걸렸는지를 동정하고 포유류를 치료하기 위하여 하나 이상의 암 치료를 포유류에게 시행하는 방법 및 물질을 제공한다. 예를 들어, 포유류로부터 얻은 샘플(예: 혈액 샘플)은 포유류의 cfDNA 단편화 프로파일에 적어도 부분적으로 기초하여 포유류가 암에 걸렸는지 여부를 결정하고, 하나 이상의 암 치료를 포유류에게 시행하기 위하여 평가될 수 있다. 일부 경우에 있어서, 본 발명은 암에 걸린 포유류를 치료하기 위한 방법 및 물질을 제공한다. 예를 들어, 포유류를 치료하기 위하여(예를 들어, 포유류의 cfDNA 단편화 프로파일에 적어도 부분적으로 기초하여) 암에 걸린 것으로 동정된 포유류에게 하나 이상의 암 치료를 시행할 수 있다. 일부 경우에 있어서, 암 치료(예를 들어, 본 명세서에 기재된 임의의 암 치료)하는 과정 동안 또는 과정 후에, 포유류는 모니터링을 받고(또는 증가된 모니터링을 위해 선택되는) 및/또는 추가적인 진단 검사를 받을 수 있다. 일부 경우에 있어서, 모니터링은, 예를 들어, 본 명세서에 기재된 포유류의 cfDNA 단편화 프로파일을 결정하기 위하여 포유류로부터 얻은 샘플(예를 들어, 혈액 샘플)을 평가함으로써 암을 앓거나 암을 앓고 있는 것으로 의심되는 포유류를 평가하는 것을 포함할 수 있으며, 시간 경과에 따른 cfDNA 단편화 프로파일의 변화는 치료에 대한 반응을 확인하고/하거나 암(예를 들어, 잔여 암)에 걸린 포유류를 동정하는데 사용될 수 있다.

임의의 적절한 포유류는 본 명세서에 기재된 바와 같이 평가, 모니터링 및/또는 치료될 수 있다. 포유류는 암에 걸린 포유류일 수 있다. 포유류는 암에 걸린 것으로 의심되는 포유류일 수 있다. 본 명세서에 기재된 바와 같이, 평가, 모니터링 및/또는 치료될 수 있는 포유류의 실례로는 제한없이 인간, 원숭이, 개, 고양이, 말, 소, 돼지, 양, 생쥐 및 쥐와 같은 영장류를 들 수 있다. 예를 들어, 암에 걸리거나 암에 걸린 것으로 의심되는 인간은 본 명세서에 기재된 바와 같이 프로파일 링된 cfDNA 단편화를 결정하기 위하여 평가될 수 있고, 선택적으로, 본 명세서에 기재된 바와 같은 하나 이상의 암 치료제로 치료될 수 있다.

포유류로부터의 임의의 적절한 샘플은 본 명세서에 기재된 바와 같이 평가될 수 있다(예를 들어, DNA 단편화 패턴에 대해 평가됨). 일부 경우에 있어서, 샘플에는 DNA(예: 게놈 DNA)가 포함될 수 있다. 일부 경우에 있어서, 샘플에는 cfDNA(예: 순환 종양 DNA(ctDNA))가 포함될 수 있다. 일부 경우에 있어서, 샘플은 유체 샘플(예: 액체 생검)일 수 있다. DNA 및/또는 폴리펩티드를 함유할 수 있는 샘플의 실례로는 제한없이 혈액(예: 전혈, 혈청 또는 혈장), 양막, 조직, 소변, 뇌척수액, 타액, 가래, 기관지 폐포 세척, 담즙, 림프액, 낭포액, 대변, 복수, Pap 도말, 모유 및 숨을 내쉬는 응축액을 들 수 있다. 예를 들어, 혈장 샘플은 본 명세서에 기술된 바와 같이 프로파일링된 cfDNA 단편화를 결정하기 위하여 평가될 수 있다.

본 명세서에 기술된 바와 같이 평가될(예를 들어, DNA 단편화 패턴에 대해 평가되는) 포유류로부터의 샘플은 임의의 적절한 양의 cfDNA를 포함할 수 있다. 일부 경우에 있어서는 샘플에 제한된 양의 DNA가 포함될 수 있다. 예를 들어, cfDNA 단편화 프로파일은, 예를 들어,(Phallen et al., 2017 Sci Transl Med 9; Cohen et al., 2018 Science 359: 926; Newman et al., 2014 Nat Med 20: 548; 및 Newman et al., 2016 Nat Biotechnol 34: 547)에 기재된 것들과 같은, 다른 cfDNA 분석 방법에 전형적으로 필요한 것보다 적은 DNA를 포함하는 샘플로부터 얻을 수 있다.

일부 경우에 있어서, 샘플은(예를 들어, 샘플로부터 DNA 및/또는 폴리펩티드를 단리 및/또는 정제하기 위하여) 처리될 수 있다. 예를 들어, DNA 단리 및/또는 정제는 세포 용해(예: 세제 및/또는 계면 활성제 사용), 단백질 제거(예: 프로테아제 사용) 및/또는 RNA 제거(예: RNase 사용)를 포함할 수 있다. 또 다른 예로서, 폴리펩티드 단리 및/또는 정제는 세포 용해(예를 들어, 세제 및/또는 계면 활성제 사용), DNA 제거(예를 들어, DNase 사용) 및/또는 RNA 제거(예: RNase 사용)를 포함할 수 있다.

임의의 적절한 유형의 암에 걸리거나 암에 걸린 것으로 의심되는 포유류는 본 명세서에 기술된 방법 및 물질을 사용함으로써(예를 들어, cfDNA 단편화 프로파일을 결정하기 위하여) 평가 및/또는(예를 들어, 하나 이상의 암 치료를 포유류에게 시행하기 위하여) 치료될 수 있다. 암은 모든 병기의 암일 수 있다. 경우에 따라서, 암은 초기 암일 수 있다. 경우에 따라서, 암은 무증상 암일 수 있다. 경우에 따라서, 암은(예를 들어, 수술적 절제 후 및/또는 암 치료 후의) 잔류 질환 및/또는 재발 암일 수 있다. 암은 모든 유형의 암일 수 있다. 본 명세서에 기재된 바와 같이 평가, 모니터링 및/또는 치료될 수 있는 암 유형의 실례로는 대장암, 폐암, 유방암, 위암, 췌장암, 담관암 및 난소암을 들 수 있으나 이에 제한되어 있지 않다.

본 명세서에 기술된 바와 같이 암에 걸리거나 암에 걸린 것으로 의심되는 포유류를 치료할 때, 포유류는 하나 이상의 암 치료에 적용될 수 있다. 암 치료는 임의의 적절한 암 치료일 수 있다. 본 명세서에 기재된 하나 이상의 암 치료는 임의의 적절한 빈도(예를 들어, 수일 내지 수주 범위의 기간에 걸쳐 1 회 또는 수회)로 포유류에게 시행될 수 있다. 암 치료의 실례로는 보조 화학 요법, 신 보조 화학 요법, 방사선 요법, 호르몬 요법, 세포 독성 요법, 면역 요법, 입양 T 세포(예를 들어, 야생형 또는 변형된 T 세포 수용체를 갖는 키메라 항원 수용체 및/또는 T 세포) 요법, 키나제 억제제(예를 들어, 전좌 또는 돌연변이와 같은 특정 유전적 병변을 표적으로 하는 키나제 억제제),(예를 들어, 키나제 억제제, 항체, 이중 특이적 항체)의 투여와 같은 표적화 요법, 신호 전달 억제제, 이중 특이적 항체 또는 항체 단편(예: BiTE), 단일 클론 항체, 면역관문 억제제, 수술(예: 외과적 절제) 또는 이들의 임의의 조합을 들 수 있다. 일부 경우에 있어서, 암 치료는 암의 중증도를 감소시키고, 암의 증상을 감소시키고, 및/또는 포유류 내에 존재하는 암 세포의 수를 감소시킬 수 있다.

일부 경우에 있어서, 암 치료는 면역관문 억제제를 포함할 수 있다. 면역관문 억제제의 비 제한적인 실례로는 니볼루맙(nivolumab; Opdivo), 펨브롤리주맙 (pembrolizumab; Keytruda), 아테졸리주맙(atezolizumab; tecentriq), 아벨루맙(avelumab; bavencio), 두르발루맙(durvalumab; imfinzi), 이필리무맙(ipilimumab; yervoy)을 들 수 있다. 예를 들어, Pardoll(2012) Nat. Rev Cancer 12: 252-264; Sun et al.(2017) Eur Rev Med Pharmacol Sci 21(6): 1198-1205; Hamanishi et al.(2015) J. Clin. Oncol. 33(34): 4015-22; Brahmer et al.(2012) N Engl J Med 366(26): 2455-65; Ricciuti et al.(2017) J. Thorac Oncol. 12(5): e51-e55; Ellis et al.(2017) Clin Lung Cancer pii: S1525-7304(17) 30043-8; Zou and Awad(2017) Ann Oncol 28(4): 685-687; Sorscher(2017) N Engl J Med 376(10: 996-7; Hui et al.(2017) Ann Oncol 28(4): 874-881; Vansteenkiste et al.(2017) Expert Opin Biol Ther 17(6): 781-789; Hellmann et al.(2017) Lancet Oncol. 18(1): 31-41; Chen(2017) J. Chin Med Assoc 80(1): 7-14를 참조하시요.

일부 경우에 있어서, 암 치료는 입양 T 세포(예를 들어, 키메라 항원 수용체 및/또는 야생형 또는 변형된 T 세포 수용체를 갖는 T 세포) 요법일 수 있다. 예를 들어, Rosenberg and Restifo(2015) Science 348(6230): 62-68; Chang and Chen(2017) Trends Mol Med 23(5): 430-450; Yee and Lizee(2016) Cancer J. 23(2): 144-148; Chen et al.(2016) Oncoimmunology 6(2): e1273302; US 2016/0194404; US 2014/0050788; US 2014/0271635; US 9,233,125를 참조하길 바라며; 그 전체가 본 명세서에 참고로 포함되어 있다.

일부 경우에 있어서, 암 치료는 화학적 요법제일 수 있다. 화학적 요법제의 비 제한적인 실례로는 암사크린(amsacrine), 아자시티딘(azacytidine), 악사티오프린(axathioprine), 베바시주맙(bevacizumab; 또는 이의 항원 결합 단편), 블레오마이신(bleomycin), 부술판(busulfan), 카보플라틴(carboplatin), 카페시타빈(capecitabine), 클로람부실(chlorambucil), 시스플라틴(cisplatin), 사이클로포스파미드(cyclophosphamide), 시타라빈(cytarabine), 다카르바진(dacarbazine), 다우노루비신(daunorubicin), 도세탁셀(docetaxel), 독시플루리딘(doxifluridine), 독소루비신(doxorubicin), 에피루비신(epirubicin), 엘로티닙 염산염(erlotinib hydrochlorides), 에토포사이드(etoposide), 피우다라빈(fiudarabine), 플록수리딘(floxuridine), 플루다라빈(fludarabine), 플루오로우라실(fluorouracil), 젬시타빈(gemcitabine), 하이드록시우레아(hydroxyurea), 이다루비신(idarubicin), 이포스파 미드(ifosfamide), 이리노테칸(irinotecan), 로무스틴(lomustine), 메클로레타민(mechlorethamine), 멜팔란(melphalan), 머캅토푸린(mercaptopurine), 메토트렉세이트(methotrexate), 미토마이신(mitomycin), 미톡산트론(mitoxantrone), 옥살리플라틴(oxaliplatin), 파클리탁셀(paclitaxel), 페메트렉스드(pemetrexed), 프로카르바진(procarbazine), 올-트랜스 레티노 산(all-trans retinoic acid), 스트렙토조신(streptozocin), 타플루포시드(tafluposide), 테모졸로미드(temozolomide), 테니포시드(teniposide), 티오구아닌(tioguanine), 토포테칸(topotecan), 우라무스틴(uramustine), 발루비신(valrubicin), 빈블라스틴(vinblastine), 빈크리스틴(vincristine), 빈데신(vindesine), 비노렐빈(vinorelbine), 및 이들의 조합을 들 수 있다. 항암 요법의 부가적인 실례는 당 업계에 알려져 있다. 예를 들어 미국 임상 종양 학회(ASCO), 유럽 의료 종양 학회(ESMO), 또는 국립 종합 암 네트워크(National Comprehensive Cancer Network; NCCN)의 치료 가이드라인을 참조하기 바란다.

본 명세서에 기재된 바와 같이(예를 들어, 포유류의 cfDNA 단편화 프로파일에 적어도 부분적으로 기초하여) 암에 걸리거나 암에 걸린 것으로 의심되는 포유류를 모니터링할 때, 모니터링은 암 치료 과정 전에, 도중에 및/또는 이후에 진행될 수 있다. 본 명세서에 제공된 모니터링 방법은 하나 이상의 암 치료의 효능을 결정하고/하거나 증가된 모니터링에 대해 포유류를 선택하는데 사용될 수 있다. 일부 경우에 있어서, 모니터링은 본 명세서에 기재된 바와 같은 cfDNA 단편화 프로파일을 동정하는 것을 포함할 수 있다. 예를 들어, cfDNA 단편화 프로파일은 암에 걸리거나 암에 걸린 것으로 의심되는 포유류에게 하나 이상의 암 치료를 시행하기 전에 획득할 수 있으며, 하나 이상의 암 치료는 포유류에게 시행될 수 있고, 하나 이상의 cfDNA 단편화 프로파일은 암 치료 과정 도중에 획득할 수 있다. 일부 경우에 있어서, cfDNA 단편화 프로파일은 암 치료(예를 들어, 본 명세서에 기술된 임의의 암 치료) 과정 동안에 변경될 수 있다. 예를 들어, 포유류가 암에 걸렸다는 것을 나타내는 cfDNA 단편화 프로파일은 포유류가 암이 없다는 것을 나타내는 cfDNA 단편화 프로파일로 변경될 수 있다. 이러한 cfDNA 단편화 프로파일 변경은 암 치료가 작동하고 있음을 나타낼 수 있다. 반대로, cfDNA 단편화 프로파일은 암 치료(예를 들어, 본 명세서에 기술된 임의의 암 치료) 과정 동안 정적으로(예를 들어, 동일하거나 거의 동일하게) 유지될 수 있다. 이러한 정적 cfDNA 단편화 프로파일은 암 치료가 작동하지 않음을 나타낼 수 있다. 일부 경우에 있어서, 모니터링은 하나 이상의 암 치료(예를 들어, 하나 이상의 암 치료의 효능)를 모니터링할 수 있는 통상적인 기술을 포함할 수 있다. 일부 경우에 있어서, 증가된 모니터링을 위해 선택된 포유류에게는 증가된 모니터링을 위해 선택되지 않은 포유류에 비해 증가된 빈도로 진단 검사(예를 들어, 본 명세서에 개시된 임의의 진단 검사)가 실시될 수 있다. 예를 들어, 증가된 모니터링을 위해 선택된 포유류에게는 하루에 2 번, 매일, 격주, 매주, 격월, 월별, 분기별, 반기 별, 연간 또는 임의의 빈도로 진단 검사가 시행될 수 있다. 일부 경우에 있어서, 증가된 모니터링을 위해 선택된 포유류에게는 증가된 모니터링을 위해 선택되지 않은 포유류에 비하여 하나 이상의 추가적인 진단 검사가 실시될 수 있다. 예를 들어, 증가된 모니터링을 위해 선택된 포유류는 두 가지 진단 검사를 받을 수 있는 반면에, 증가된 모니터링을 위해 선택되지 않은 포유류는 단일 진단 검사 만(또는 진단 검사가 없음) 받는다. 일부 경우에 있어서, 증가된 모니터링을 위해 선택된 포유류는 추가 진단 검사를 위해 선택될 수도 있다. 종양 또는 암(예를 들어, 암 세포)의 존재가(예를 들어, 본 명세서에 개시된 임의의 다양한 방법에 의해) 확인되었으면, 포유류는(예를 들어, 포유류에서 종양 또는 암의 진행을 평가하고/하거나 돌연변이와 같은 하나 이상의 암 바이오 마커의 발달을 평가하기 위해) 증가된 모니터링 및(예를 들어, 종양 또는 암의 크기 및/또는 정확한 위치(예: 기원 조직)를 결정하기 위해) 추가 진단 검사를 모두 받는 것이 유익할 수 있다. 일부 경우에 있어서, 암 바이오 마커가 검출된 후에 및/또는 포유류의 cfDNA 단편화 프로파일이 개선되거나 악화되지 않은 후에 증가된 모니터링을 위해 선택되는 포유류에게 하나 이상의 암 치료가 시행될 수 있다. 본 명세서에 개시되거나 당 업계에 공지된 임의의 암 치료가 시행될 수 있다. 예를 들어, 증가된 모니터링을 위해 선택된 포유류는 추가로 모니터링될 수 있으며, 암세포의 존재가 증가된 모니터링 기간 전체에 걸쳐 유지되면 암 치료가 시행될 수 있다. 부가적으로 또는 대안적으로, 증가된 모니터링을 위해 선택된 포유류는 암 치료를 받을 수 있고, 암 치료가 진행됨에 따라 추가로 모니터링될 수 있다. 일부 경우에 있어서, 증가된 모니터링을 위해 선택된 포유류가 암 치료를 받은 후, 증가된 모니터링은 하나 이상의 암 바이오 마커(예: 돌연변이)를 나타낼 것이다. 일부 경우에 있어서, 이러한 하나 이상의 암 바이오 마커는 다른 암 치료를 시행하는 원인을 제공할 것이다(예를 들어, 암 치료 동안 암세포에서 내성 돌연변이가 발생할 수 있으며, 내성 돌연변이를 보유한 암 세포는 원래의 암 치료에 대해 내성이 있다).

포유류가 본 명세서에 기재된 바와 같이(예를 들어, 포유류의 cfDNA 단편화 프로파일에 적어도 부분적으로 기초하여) 암에 걸린 것으로 동정될 때, 동정은 암 치료 과정 전에 및/또는 과정 동안에 이루어질 수 있다. 본 명세서에 제공된 암에 걸린 포유류를 동정하는 방법은(예를 들어, 임의의 치료 과정 전에 암에 걸린 것으로) 포유류를 동정하기 위한 및/또는 추가 진단 검사를 위해 포유류를 선택하기 위한 첫 번째 진단으로서 사용될 수 있다. 일부 경우에 있어서, 일단 포유류가 암에 걸린 것으로 결정되면, 포유류는 추가 검사를 받을 수 있고 및/또는 추가 진단 검사를 위해 선택될 수 있다. 일부 경우에 있어서, 본 명세서에 제공된 방법은 통상적인 기술이 초기 단계 암에 걸린 포유류를 진단할 수 있는 기간 이전에 추가 진단 검사를 위하여 포유류를 선택하는데 사용될 수 있다. 예를 들어, 추가 진단 검사를 위하여 포유류를 선택하기 위한 본 명세서에 제공된 방법은 포유류가 통상적인 방법에 의해 암으로 진단되지 않은 경우 및/또는 포유류가 암을 보유하는 것으로 알려지지 않은 경우에 사용될 수 있다. 일부 경우에 있어서, 추가 진단 검사를 위해 선택된 포유류는 추가 진단 검사를 위해 선택되지 않은 포유류에 비해 증가된 빈도로 진단 검사(예를 들어, 본 명세서에 개시된 임의의 진단 검사)를 받을 수 있다. 예를 들어, 추가 진단 검사를 위해 선택된 포유류는 하루에 2 번, 매일, 격주, 매주, 격월, 월별, 분기 별, 반기 별, 연간의 빈도 또는 그 중 임의의 빈도로 진단 검사를 받을 수 있다. 일부 경우에 있어서, 추가 진단 검사를 위해 선택된 포유류는 추가 진단 검사를 위해 선택되지 않은 포유류에 비하여 하나 이상의 추가 진단 검사를 받을 수 있다. 예를 들어, 추가 진단 검사를 위해 선택된 포유류는 두 가지 진단 검사를 받을 수 있는 반면에, 추가 진단 검사를 위해 선택되지 않은 포유류는 단일 진단 검사만(또는 진단 검사 없음) 받는다. 일부 경우에 있어서, 진단 검사 방법은(예를 들어, 포유류의 cfDNA 단편화 프로파일에 적어도 부분적으로 기초하여) 원래 검출된 암과 동일한 유형의 암(예를 들어, 동일한 조직 또는 기원을 가짐)의 존재를 결정할 수 있다. 추가적으로 또는 대안적으로, 진단 검사 방법은 원래 검출된 암과 다른 유형의 암의 존재를 결정할 수 있다. 어떤 경우에, 진단 검사 방법은 스캔이다. 일부 경우에 있어서, 스캔은 컴퓨터 단층 촬영(CT), CT 혈관 조영술(CTA), 식도 조영술(바륨 스월롬(swallom)), 바륨 관장, 자기 공명 영상(MRI), PET 스캔, 초음파(예: 기관지 초음파, 내시경 초음파), X- 레이, DEXA 스캔이다. 경우에 따라서, 진단 검사 방법은 항문경 검사, 기관지경 검사(예: 자가 형광 기관지경 검사, 백색광 기관지경 검사, 탐색 기관지경 검사), 대장 내시경 검사, 디지털 유방 단층 영상 합성술, 내시경 역행성 췌담도 조영술(ERCP), 식도 위 십이지장경 검사(esophagogastroduodenoscopy), 유방 조영술, Pap 도말, 골반 검사, 양전자 방사 단층 촬영, 및 컴퓨터 단층 촬영(PET-CT) 스캔과 같은 신체 검사이다. 어떤 경우에는 추가 진단 검사를 위해 선택된 포유류도 증가된 모니터링을 위해 선택될 수 있다. 종양 또는 암(예를 들어, 암 세포)의 존재가(예를 들어, 본 명세서에 개시된 임의의 다양한 방법에 의해) 확인되면, 포유류는(예를 들어, 포유류에서 종양 또는 암의 진행 및/또는 돌연변이와 같은 하나 이상의 암 바이오 마커의 발달을 평가하기 위하여) 증가된 모니터링 및(예를 들어, 종양 또는 암의 크기 및/또는 정확한 위치를 결정하기 위하여) 추가 진단 검사를 받는 것이 유리할 수 있다. 일부 경우에 있어서, 암 바이오 마커가 검출된 후 및/또는 포유류의 cfDNA 단편화 프로파일이 개선되거나 악화되지 않은 후 추가 진단 검사를 위하여 선택된 포유류에게 암 치료가 시행된다. 본 명세서에 개시되거나 당 업계에 공지된 임의의 암 치료가 시행될 수 있다. 예를 들어, 추가 진단 검사를 위해 선택된 포유류는 추가 진단 검사를 시행할 수 있으며, 종양 또는 암의 존재가 확인되면 암 치료를 시행할 수 있다. 추가적으로 또는 대안적으로, 추가 진단 검사를 위해 선택된 포유류는 암 치료를 받을 수 있으며, 암 치료가 진행됨에 따라 추가로 모니터링될 수 있다. 어떤 경우에는 추가 진단 검사를 위해 선택된 포유류가 암 치료를 받은 후 추가 검사를 통해 하나 이상의 암 바이오 마커(예: 돌연변이)가 검출될 것이다. 일부 경우에 있어서, 이러한 하나 이상의 암 바이오 마커(예를 들어, 돌연변이)는 다른 암 치료를 받는 원인을 제공할 것이다(예를 들어, 암 치료 동안 암세포에서 내성 돌연변이가 발생할 수 있으며, 이 내성 돌연변이를 보유한 암 세포는 최초 암 치료에 대한 내성이 있다).

본 발명은 하기 실시예에서 추가로 기술될 것이며, 이는 특허 청구 범위에 기술된 발명의 범위를 제한하지 않는다.

실시예

실시예 1: 암 환자의 무 세포 DNA 단편화

무 세포 DNA의 분석은 주로 특이적 유전자의 표적화된 서열 분석에 중점을 두었다. 이러한 연구를 통해 암 환자의 종양 특이적 변경을 검출할 수 있으나, 모든 환자, 특히 초기 단계 질환에 있는 환자의 변화를 검출할 수 있는 것은 아니다. 무 세포 DNA의 전체 게놈 서열 분석은 암 환자의 염색체 이상 및 재배열을 동정할 수 있지만, 정상 염색체 변화로부터 적은 수의 비정상 염색체 변화를 구별하는 것이 어렵기 때문에 이러한 변화를 부분적으로 검출하는 것은 도전의 대상이었다(Leary et al., 2010 Sci Transl Med 2: 20ra14; 및 Leary et al., 2012 Sci Transl Med 4: 162ra154). 다른 노력으로는 뉴클레오솜 패턴과 염색질 구조가 암과 정상 조직 간에 다를 수 있고 암 환자의 cfDNA가 비정상적인 cfDNA 단편 크기뿐만 아니라 위치를 유발할 수 있음이 제시되었다(Snyder et al., 2016 Cell 164: 57; Jahr et al., 2001 Cancer Res 61: 1659; Ivanov et al., 2015 BMC Genomics 16(Suppl 13): S1). 그러나, cfDNA의 뉴클레오솜 자취(footprint) 분석에 필요한 서열 분석의 양은 일상적인 분석에 대해 비실용적이다.

무 세포 DNA 접근법의 민감도는 검사된 잠재적인 변경의 수와 그러한 변경을 검출하는 기술적 및 생물학적 한계에 따라 달라진다. 전형적인 혈액 샘플에는 혈장 1 밀리리터 당 cfDNA의 게놈 약 2000개의 등가물이 함유되어 있으므로(Phallen et al., 2017 Sci Transl Med 9), 단일 변경 검출의 이론적 한계는 야생형 분자에 대한 수천 개의 돌연변이 중 하나보다 우수할 수 없다. 동일한 수의 게놈 등가물에서 더 많은 수의 변경을 검출하는 접근 방식은 순환식으로 암을 검출하는데 더욱 민감할 것이다. 몬테카를로(Monte Carlo) 시뮬레이션은 검출된 잠재적인 비정상적인 수를 단 몇 개에서 수십 개 또는 수백 개로 증가시키면 cfDNA의 다중 메틸화 변화에 대한 최근 확률 분석과 유사하게 검출 한계를 잠재적으로 엄청나게 향상시킬 수 있다는 것을 나타낸다(도 2).

이러한 연구는 암을 검출하고 전체 게놈 서열 분석을 사용하여 기원 조직을 추가로 동정하기 위한 소위 DELFI라는 새로운 방법을 제시한다(도 1). 이 접근 방식은 cfDNA 단편화 프로파일과 기계 학습을 사용하여 건강한 혈액 세포 DNA의 패턴을 종양 유래된 DNA와 구별하고 원발성 종양 조직을 동정한다. DELFI는 건강한 개체 245명과 유방암, 대장암, 폐암, 난소암, 췌장암, 위암 또는 담관암 환자 236명으로부터 cfDNA의 후향적 분석에 사용되었으며 대부분의 환자는 국소 질환을 나타냈다. 이러한 접근 방식이 0.95의 특이도를 유지하면서 건강한 개체로부터 암 환자를 구별하는데 0.80 이상의 민감도를 갖는다고 가정하면, 최소한 200명의 암 환자를 대상으로 한 연구는 0.95 이상의 원하는 특이도에서 0.06의 오차 한계를 갖는 실제 민감도를 추정하게 할 수 있다.

물질 및 방법

환자 및 샘플 특성

건강한 개체의 혈장 샘플 및 유방암, 폐암, 난소암, 대장암, 담관암 또는 위암 환자의 혈장과 조직 샘플을 ILSBio/Bioreclamation, Aarhus University, Herlev Hospital of the University of Copenhagen, Hvidovre Hospital, the University Medical Center of Utrecht, the Academic Medical Center of the University of Amsterdam, the Netherlands Cancer Institute, 및 the University of California, San Diego로부터 수득하였다. 모든 샘플들은 참여 기관에서 연구용으로 사전 동의와 함께 기관 검토 위원회(Institutional Review Board)의 승인 프로토콜에 따라 획득되었다. 건강한 개체의 혈장 샘플은 대장 내시경 검사 또는 Pap 도말을 포함하여 일상적인 선별 검사시에 획득하였다. 이전에 암 병력이 없고 선별 검사 결과가 음성인 개체들은 건강한 것으로 간주되었다.

유방암, 대장암, 위암, 폐암, 난소암, 췌장암 및 담관암에 걸린 개체들의 혈장 샘플은 종양 절제 또는 치료 전 진단 당시에 채취되었다. 여러 시점에 걸쳐 cfDNA 단편화 프로파일의 변화에 대해 분석된 19명의 폐암 환자는 항-EGFR 또는 항-ERBB2 요법으로 치료를 받았다(예를 들어, Phallen et al., 2019 Cancer Research 15, 1204-1213 참조). 이러한 연구에 포함된 모든 환자의 임상 데이터는 표 1(부록 A)에 목록되어 있다. 성별은 X 및 Y 염색체 표현의 게놈 분석을 통해 확인하였다. 위암 환자의 병리학적 단계는 신 보조 요법 후 수행되었다. 종양 단계가 알려지지 않은 샘플은 병기 X 또는 알려지지 않음으로 표시되었다.

뉴클레오솜 DNA 정제

건강한 수컷(C0618) 및 암컷(D0808-L)(Advanced Biotechnologies Inc., Eldersburg, MD)에서 얻은 백혈구로부터 생존 가능한 동결된 림프구를 용출하였다. EZ 뉴클레오솜 DNA Prep Kit(Zymo Research, Irvine, CA)로 뉴클레오솜 DNA 정제를 위하여 1 x 10⁶ 세포의 분취량을 사용하였다. 세포를 처음에 100 μl의 Nuclei Prep Buffer로 처리하고 얼음에서 5 분 동안 배양하였다. 200g에서 5 분 동안 원심분리 한 후, 상층액을 버리고 펠릿화된 핵을 100μl의 Atlantis Digestion Buffer 또는 100μl의 micrococcal nuclease(MN) Digestion Buffer로 두 번 처리하였다. 마지막으로, 세포 핵산 DNA를 42℃에서 20분 동안 0.5U의 Atlantis dsDNase 또는 37℃에서 20분 동안 1.5U의 MNase로 단편화하였다. 5X MN Stop Buffer를 사용하여 반응을 중지시키고, Zymo-Spin?? IIC 컬럼을 사용하여 DNA를 정제하였다. 용리된 세포 핵산 DNA의 농도와 품질을 Bioanalyzer 2100(Agilent Technologies, Santa Clara, CA)을 사용하여 분석하였다.

cfDNA의 샘플 준비 및 서열 분석

전혈을 EDTA 튜브에 수집하고 즉시로 또는 4℃에서 보관한 후 1일 이내에 처리하거나, 또는 전혈을 스트렉(Streck) 튜브에 수집하고 모니터링 분석의 일부인 3명의 암 환자에 대해 수집한 후 2일 이내에 처리하였다. 혈장 및 세포 성분을 4℃에서 10분 동안 800g에서 원심분리에 의해 분리하였다. 혈장을 두 번째로 실온에서 18,000g에서 원심 분리하여 남아있는 세포 부스러기들을 제거하고 DNA 추출시까지 -80℃에서 보관하였다. Qiagen Circulating Nucleic Acids Kit(Qiagen GmbH)를 사용하여 DNA를 혈장으로부터 분리하고 LoBind 튜브(Eppendorf AG)에서 용리시켰다. cfDNA의 농도와 품질을 Bioanalyzer 2100(Agilent Technologies)을 사용하여 평가하였다.

NGS cfDNA 라이브러리를 다른 곳에서 설명한 바와 같이 5 ~ 250ng의 cfDNA를 사용하여 전체 게놈 서열 분석 및 표적화된 서열 분석을 위해 준비하였다(예를 들어, Phallen et al., 2017 Sci Transl Med 9: eaan2415 참조). 간단히 말해서, 게놈 라이브러리를 일루미나(Illumina)용 NEBNext DNA Library Prep Kit [New England Biolabs(NEB)]를 사용하여 제조업체 지침에 대한 다음과 같은 네 가지 주요 변경으로 준비하였다:(i) 라이브러리 정제 단계에서는 용리 및 튜브 이동 단계 동안 샘플 손실을 최소화하기 위해 on-bead AMPure XP 접근 방식을 사용하였다(예를 들어, Fisher et al., 2011 Genome Biol 12: R1 참조);(ii) NEBNext End Repair, A-tailing, 및 어댑터(adapter) 결찰 효소 및 버퍼 부피는 on-bead AMPure XP 정제 전략을 수용하기 위해 적절하게 조정되었다;(iii) 8-염기쌍(bp) 바코드를 갖는 8개의 고유 일루미나 이중 인덱스 어댑터 풀(pool)은 각각 6- 또는 8-bp 바코드를 갖는 표준 일루미나 단일 또는 이중 인덱스 어댑터 대신에 결찰 반응에서 사용되었다; 및(iv) cfDNA 라이브러리는 Phusion Hot Start Polymerase로 증폭되었다.

전체 게놈 라이브러리는 직접 서열 분석되었다. 표적화된 라이브러리의 경우, 제조업체 지침에 따라 Agilent SureSelect 시약 및 58개 유전자를 표적으로 하는 맞춤형 혼성화 프로브 세트를 사용하여 캡처(capture)를 수행하였다(예를 들어, Phallen et al., 2017 Sci Transl Med 9: eaan2415 참조). 캡처된 라이브러리는 Phusion Hot Start Polymerase(NEB)로 증폭되었다. 캡처된 cfDNA 라이브러리의 농도 및 품질은 DNA1000 Kit(Agilent Technologies)를 사용하여 Bioanalyzer 2100에서 평가되었다. 표적화된 라이브러리는 Illumina HiSeq 2000/2500(Illumina)에서 100-bp 페어드-엔드 런(paired-end run)을 사용하여 서열 분석되었다.

cfDNA로부터 표적화된 서열 분석 데이터의 분석

cfDNA 샘플에 대한 표적화된 NGS 데이터의 분석을 다른 곳에서 설명한 바와 같이 수행하였다(예를 들어, Phallen et al., 2017 Sci Transl Med 9: eaan2415 참조). 간단히 말해서, 이중 인덱스 어댑터 서열의 역 다중화 및 마스킹을 포함하는 Illumina CASAVA(Consensus Assessment of Sequence and Variation) 소프트웨어(버전 1.8)를 사용하여 1차 처리를 완료하였다. 서열 판독은 Needleman-Wunsch 방법으로 선택 영역의 추가 재정렬과 함께 NovoAlign을 사용하여 인간 참조 게놈(버전 hg18 또는 hg19)에 대해 정렬되었다(예를 들어, Jones et al., 2015 Sci Transl Med 7: 283ra53 참조). 서열 변경의 위치는 다른 게놈 빌드에 의해 영향을 받지 않았다. 점 돌연변이, 작은 삽입 및 결실로 구성된 후보 돌연변이는 VariantDx를 사용하여 관심 대상인 표적화된 영역 전체에 걸쳐 동정되었다(예를 들어, Jones et al., 2015 Sci Transl Med 7: 283ra53)(Personal Genome Diagnostics, Baltimore, MD).

cfDNA 분자의 단편 길이를 분석하기 위하여, cfDNA 분자의 각 판독 쌍은 Phred 품질 점수가 30 이상이어야 한다. 동일한 출발, 종료 및 인덱스 바코드를 갖는 것으로 정의되는 모든 중복 ctDNA 단편들은 제거되었다. 각 돌연변이에 대해, 판독 쌍 중의 하나 또는 모두가 주어진 위치에서 돌연변이된(또는 야생형) 염기를 함유하는 단편들만 포함되었다. 이러한 분석은 R packages Rsamtools 및 Genomic Alignments를 사용하여 수행되었다.

체세포 돌연변이가 동정된 각각의 게놈 유전자좌에 대하여, 돌연변이 대립 유전자를 함유하는 단편의 길이를 야생형 대립 유전자의 단편 길이와 비교하였다. 100개 이상의 돌연변이 단편들이 동정되면, Welch의 2-샘플 t-검사를 사용하여 평균 단편 길이를 비교하였다. 돌연변이 단편이 100개 미만인 유전자좌에 대해서는 부트 스트랩 절차(bootstrap procedure)가 시행되었다. 구체적으로, 야생형 대립 유전자를 함유하는 대체 N 단편(여기서, N은 돌연변이가 있는 단편의 수를 나타냄)을 샘플링하였다. 야생형 단편들의 각 부트 스트랩 복제에 대해서는 중간 길이가 계산되었다. p-값은 관찰된 중간 돌연변이 단편 길이보다 더 극단적인 중간 야생형 단편 길이를 갖는 부트 스트랩 복제의 분획으로 추정되었다.

cfDNA의 전체 게놈 서열 분석 데이터의 분석

cfDNA 샘플에 대한 전체 게놈 NGS 데이터의 1차 처리는 이중 인덱스 어댑터 서열의 역 다중화 및 마스킹을 포함하는 Illumina CASAVA(Consensus Assessment of Sequence and Variation) 소프트웨어(버전 1.8.2)를 사용하여 수행되었다. 서열 판독은 ELAND를 사용하여 인간 참조 게놈(버전 hg19)에 대해 정렬되었다.

판독 및 PCR 복제에 대한 MAPQ 점수가 30 미만인 판독 쌍은 제거되었다. hg19 상 염색체는 인접한 26,236개의 중첩되지 않은 100kb 빈으로 타일링되었다. 가장 낮은 커버리지를 갖는 빈의 10%로 표시되는 낮은 매핑 가능성 영역은 Duke 블랙리스트 영역(예를 들어, hgdownload.cse.ucsc.edu/goldenpath/hg19/encodeDCC/ wgEncodeMapability/참조)에 속하는 판독값과 마찬가지로 제거되었다(예를 들어, Fortin et al., 2015 Genome Biol 16: 180 참조). 이러한 접근 방식을 사용하여, hg19 기준 게놈의 361Mb(13%)는 중심절 및 끝분절 영역을 포함하여 제외되었다. 짧은 단편은 길이가 100 내지 150bp인 것으로 정의되었으며, 긴 단편은 길이가 151 내지 220bp인 것으로 정의되었다.

게놈의 GC 함량으로 인한 커버리지의 편향을 설명하기 위하여, 폭이 ¾인 국부적으로 가중된 더 부드러운 뢰스를 각 100kb 빈에 대해 계산된 평균 단편 GC 대 커버리지의 산점도에 적용하였다. 이러한 뢰스 회귀는 단편 길이에 따른 혈장의 커버리지에 대한 GC 효과의 가능한 차이를 설명하기 위하여 짧은 단편과 긴 단편에 대해 별도로 수행되었다(예를 들어, Benjamini et al., 2012 Nucleic Acids Res 40: e72 참조). 뢰스 모델에서 GC에 의해 설명된 짧고 긴 커버리지에 대한 예측을 빼고 GC와 관련이 없는 짧고 긴 커버리지에 대한 잔류물을 얻었다. 잔류물은 게놈 전체 중간의 짧고 긴 커버리지 추정치를 다시 추가하여 원래 규모로 되돌렸다. 이러한 절차는 각 샘플에 대해 반복되어 샘플 간의 커버리지에 대한 GC 효과의 가능한 차이를 설명하였다. 기능 공간과 노이즈를 더 줄이기 위해 5Mb 빈에서 GC 조절된 총 커버리지를 계산하였다.

건강한 피험자에서 암 환자의 단편에 대한 단편 길이의 다양성을 비교하기 위하여 각 개체에 대해 짧은 단편화 프로파일에서 긴 단편화 프로파일의 표준 편차를 계산하였다. 두 그룹의 표준 편차는 Wilcoxon 순위 합계 검사에 의해 비교되었다.

염색체 아암 카피 수 변화의 분석

카피 수 변화에 대한 아암 수준 통계를 개발하기 위하여 다른 곳에서 설명한 바와 같이 혈장에서 염색체 이수성 검출을 위한 접근법(예를 들어, Leary et al., 2012 Sci Transl Med 4: 162ra154 참조)이 채택되었다. 이러한 접근법은 GC 보정된 log2 판독 깊이가 3/4의 폭을 갖는 뢰스로 보정한 후 얻은 게놈을 중첩되지 않은 50KB 빈으로 분할한다. 이러한 뢰스 기반 보정은 상기 설명한 접근법에 필적할 만하지만, 작은 빈에서 특이치에 대한 견고성을 높이기 위해 log2 척도로 평가되며 단편 길이에 의해 계층화되지 않는다. 카피 수 변화에 대한 아암-특이적 Z-점수를 얻기 위하여, 각각의 아암(GR)에 대한 평균 GC 조정된 판독 깊이는 중앙에 배치되고 건강한 샘플 50개의 독립적인 세트에서 얻은 GR 점수의 평균 및 표준 편차로 각각 조정되었다.

cfDNA에서 미토콘드리아 정렬된 판독의 분석

초기에 미토콘드리아 게놈에 매핑된 전체 게놈 서열 판독을 밤 파일(bam file)로부터 추출하고, 다른 곳에서 설명한 바와 같이 Bowtie2를 사용하여 end-to-end 모드로 hg19 참조 게놈에 재정렬하였다(예를 들어, Langmead et al., 2012 Nat Methods 9: 357-359 참조). 결과의 정렬된 판독은 두 메이트가 MAPQ>= 30인 미토콘드리아 게놈에 정렬되도록 필터링되었다. 미토콘드리아 게놈에 매핑되는 단편의 수를 세고 원래 밤 파일 내의 총 단편 수의 백분율로 변환하였다.

암 분류를 위한 예측 모델

단편화 프로파일을 사용하여 건강한 환자와 암 환자를 구별하기 위하여 확률적 구배 부스팅 모델(gbm, 예를 들어, Friedman et al., 2001 Ann Stat 29: 1189-1232; 및 Friedman et al., 2002 Comput Stat Data An 38: 367-378 참조)을 사용하였다. 모든 504 빈에 대한 GC 보정된 전체 및 짧은 단편 커버리지는 중앙에 배치되고, 각 샘플에 대해 평균 0 및 단위 표준 편차를 갖도록 조정되었다. 추가 특징은 39개의 상 염색체 아암 및 미토콘드리아 표현(미토콘드리아에 매핑된 판독의 log10 변환 비율) 각각에 대한 Z 점수를 포함하였다. 이러한 접근법의 예측 오차를 추정하기 위하여 다른 곳에서 설명한 바와 같이, 10배수 교차 검증이 사용되었다(예를 들어, Efron et al., 1997 J Am Stat Assoc 92, 548-560 참조). 각 교차 검증 실행에서 훈련 데이터에 대해서만 수행되는 특징 선택은 상관 관계가 높거나(상관 관계> 0.9) 분산이 거의 0인 빈들을 제거하였다. 확률적 구배 부스트 기계 학습은 매개 변수 n.trees = 150, interaction.depth = 3, shrinkage = 0.1 및 n.minobsinside = 10의 R 패키지 gbm 패키지를 사용하여 시행되었다. 환자 무작위 배정에서 배수까지 예측 오차를 평균화하기 위하여 10배수 교차 검증 절차를 10회 반복하였다. 98% 및 95% 특이도에서 고정된 민감도에 대한 신뢰 구간은 2000개의 부트 스트랩 복제로부터 얻었다.

기원 분류의 종양 조직에 대한 예측 모델

90% 특이도(n = 174)에서 암 환자로 정확히 분류된 샘플의 경우, 기원 조직을 분류하기 위하여 별도의 확률적 구배 부스팅 모델이 훈련되었다. 예측에 사용된 적은 수의 폐 샘플을 설명하기 위하여 후기 폐암 환자의 18개의 cfDNA 기준 샘플을 모니터링 분석에 포함하였다. 모델의 성능 특성은 10회 반복된 10배수 교차 검증으로 평가되었다. 이러한 gbm 모델은 암 분류 모델과 동일한 특징을 사용하여 훈련되었다. 이전에 설명한 바와 같이, 서로 0.9 초과의 상관 관계를 표시하거나 거의 0에 가까운 분산을 갖는 특성은 교차 검증 중에 각 훈련 데이터 세트 내에서 제거되었다. 조직 클래스 확률은 각 환자에 대해 10회 복제에 걸쳐 평균을 냈고 확률이 가장 높은 클래스를 예측 조직으로 취하였다.

인간 림프구 및 cfDNA로부터 뉴클레오솜 DNA의 분석

뉴클레아제 처리된 림프구로부터, 전체 게놈 cfDNA 분석에 대해 기술된 바와 같이 단편 크기를 5Mb 빈에서 분석하였다. 뉴클레아제 처리된 림프구 세포주로부터 뉴클레오솜 위치의 게놈 전체지도를 구성하였다. 이러한 접근법은 순환 단편의 커버리지에서 국소적 편향을 동정하여 퇴화로부터 보호되는 영역을 나타낸다. "창 포지셔닝 점수(WPS)"를 사용하여 게놈의 각 염기 쌍을 점수화하였다(예를 들어, Snyder et al., 2016 Cell 164: 57 참조). 각 염기를 중심으로 60bp의 슬라이딩 창을 사용하여, 창을 완전히 가로 지르는 단편 수에서 창에 한쪽 끝에만 있는 단편 수를 뺀 값으로 WPS를 계산하였다. 뉴클레오솜에서 발생하는 단편은 중앙 길이가 167bp이므로 높은 WPS는 가능한 핵 체적 위치를 나타냈다. WPS 점수는 실행 중앙값을 사용하여 0에 중심을 맞추고 Kolmogorov-Zurbenko 필터를 사용하여 평활화하였다(예를 들어, Zurbenko, The spectral analysis of time series. North-Holland series in statistics and probability; Elsevier, New York, NY, 1986 참조). 50 내지 450bp 사이의 양의 WPS 범위에 대하여, 뉴클레오솜 피크는 해당 창에서 중간값 보다 높은 WPS를 갖는 염기 쌍의 세트로 정의되었다. 9x의 서열 커버리지를 갖는 30명의 건강한 개체로부터 cfDNA에 대한 뉴클레오솜 위치의 계산은 림프구 DNA와 동일한 방식으로 결정되었다. 건강한 cfDNA의 뉴클레오솜이 대표적이라는 것을 보장하기 위하여, 뉴클레오솜의 일치 트랙은 둘 이상의 개체에서 동정된 뉴클레오솜만으로 구성되는 것으로 정의되었다. 인접한 뉴클레오솜 사이의 중간 거리는 일치 트랙으로부터 계산되었다.

검출 민감도의 몬테카를로(Monte Carlo) 시뮬레이션

몬테카를로 시뮬레이션을 사용하여 종양 유래된 변경을 갖는 분자를 검출할 확률을 추정하였다. 간단히 말해서, 1 백만 개의 분자를 다항 분포로부터 생성하였다. m 개의 변경이 있는 시뮬레이션의 경우, 야생형 분자는 확률 p로 시뮬레이션되었으며, m 개의 종양 변경 각각은 확률(1-p)/m으로 시뮬레이션되었다. 다음으로, g*m 분자를 치환하여 무작위로 샘플링했으며, 여기서 g는 혈장 1ml 내의 게놈 등가물의 수를 나타낸다. 종양 변경이 s 번 이상 샘플링되면, 해당 샘플은 암 유래된 샘플로서 분류되었다. 시뮬레이션을 1000회 반복하여 인 실리코(in silico) 샘플이 암 지표의 평균에 의해 암으로서 올바르게 분류될 확률을 추정하였다. g = 2000 및 s = 5로 설정하면, 종양 변경의 수는 1에서 256까지 2의 거듭 제곱으로 다양했으며 종양 유래된 분자의 분획은 0.0001%에서 1%까지 다양하였다.

통계 분석

모든 통계 분석은 R 버전 3.4.3을 사용하여 수행되었다. R 패키지 caret(버전 6.0-79) 및 gbm(버전 2.1-4)은 건강한 개체 대 암 환자 및 기원 조직의 분류를 구현하는데 사용되었다. 모델 출력에서 신뢰 구간은 pROC(버전 1.13) R 패키지로 얻었다(예를 들어, Robin et al., 2011 BMC bioinformatics 12: 77 참조). 이 코호트에서 진단되지 않은 암 사례의 유병률이 높다(건강한 개체 100명 당 1개 또는 2개의 사례)고 가정하면 특이도 0.95 및 민감도 0.8을 갖는 게놈 검정은 유용한 작동 특성을 가질 것이다(양의 예측 값 0.25 및 음의 예측 값 거의 1). 검정력 계산은 200명 초과의 암 환자 및 대략 동일한 수의 건강한 대조군을 분석하면 원하는 특이도 0.95 이상에서 오차 한계 0.06의 민감도를 추정할 수 있음을 제시하고 있다.

데이터 및 코드 가용성

이 연구에 이용된 서열 데이터는 연구 등록 번호 EGAS00001003611 및 EGAS00001002577로서 European Genome-phenome Archive에 기탁되었다. 분석 코드는 github.com/Cancer-Genomics/delfi_scripts에서 확인할 수 있다.

결과

DELFI는 단편화 패턴의 게놈 전체 분석을 통해 cfDNA의 많은 이상을 동시에 분석할 수 있다. 이 방법은 낮은 커버리지의 전체 게놈 서열 분석 및 단리된 cfDNA의 분석을 기반으로 한다. 매핑된 서열은 게놈을 커버하는 비 중첩 창에서 분석된다. 개념적으로 창 크기는 수천 내지 수백만 염기까지 다양하여, 그 결과 게놈에서 수백 개 내지 수천 개의 창이 생성된다. 5Mb 창은 제한된 양의 1-2x 게놈 커버리지에서도 창 당 20,000개 이상의 판독을 제공하므로 cfDNA 단편화 패턴을 평가하는데 사용되었다. 각 창 내에서 cfDNA 단편의 커버리지 및 크기 분포를 조사하였다. 이 접근법은 건강한 코호트와 암 코호트에서 게놈 전체의 단편화 프로파일의 변이를 평가하는데 사용되었다(표 1; 부록 A). 개체로부터 게놈 전체 패턴을 참조 코호트와 비교하여 패턴이 건강한지 또는 암 유래된 것인지를 결정할 수 있다. 게놈 전체 프로파일은 전체 단편 크기 분포에서 놓칠 수 있는 특이적 조직과 관련된 위치 차이를 나타내므로, 이러한 패턴은 cfDNA의 조직 공급원을 나타낼 수도 있다.

cfDNA의 단편화 크기는 암 유래된 cfDNA 분자가 암이 없는 세포로부터 유래된 cfDNA보다 크기가 더 다양할 수 있다고 밝혀졌기 때문에 주목을 받고 있다. 유방암, 대장암, 폐암 또는 난소암 환자로부터 높은 커버리지(전체 커버리지 43,706개, 개별 커버리지 8,044개)에서 캡처 및 서열 분석되는 표적화된 영역의 cfDNA 단편은 초기에 조사되었다(표 1(부록 A), 표 2(부록 B) 및 표 3(부록 C)). 81명의 환자(환자당 1 내지 7개의 변경 범위)로부터 165개의 종양 특이적 변경을 포함하는 유전자좌의 분석 결과 중간 돌연변이체와 야생형 cfDNA 단편의 길이들 간에 6.5bp(95% CI, 5.4-7.6bp)의 평균 절대 차이가 나타났다(도 3, 표 3(부록 C)). 돌연변이체 cfDNA 단편의 중간 크기는 이들 영역에서 야생형 서열보다 염색체 3 위치 41,266,124에서 30개 염기 더 작은 범위에서부터 염색체 11 위치 108,117,753에서 47개 염기 더 큰 범위까지 걸쳐 있었다(표 3; 부록 C). GC 함량은 돌연변이된 단편 및 돌연변이되지 않은 단편에 대해 유사했으며(도 4a), GC 함량과 단편 길이 간에 상관 관계가 없었다(도 4b). 38명의 환자로부터 얻은 44개의 생식 계열 변화에 대한 유사한 분석 결과 서로 다른 대립 유전자의 단편 길이들 간에 1bp 미만의 중간 cfDNA 크기 차이를 확인하였다(도 5, 표 3(부록 C)). 추가로, 클론 조혈과 관련된 41개의 변경은 동일한 개체의 혈장, 버피 코트(buffy coat) 및 종양의 DNA에 대한 이전의 서열 비교를 통해 확인되었다. 종양 유래된 단편과는 달리, 조혈 변경이 있는 단편과 야생형 단편 간에 유의한 차이는 없었다(도 6, 표 3(부록 C)). 전반적으로, 암 유래된 cfDNA 단편 길이는 특정 게놈 영역에서 암이 없는 cfDNA 단편에 비해 유의하게 더욱 다양하였다(p <0.001, 분산 비율 검사). 이러한 차이는 고차 염색질 구조의 변화뿐만 아니라 암의 다른 게놈 및 후성 유전체 이상으로 기인한 것일 수 있으며, 따라서 위치 특이적 방식의 cfDNA 단편화가 암 검출을 위한 고유 바이오 마커 역할을 할 수 있다는 가설을 세웠다.

표적화된 서열 분석은 제한된 수의 유전자좌 만을 분석하기 때문에 cfDNA 단편화의 추가적인 이상을 검출하기 위한 대규모 게놈 전체 분석을 조사하였다. cfDNA는 I 내지 III 기 질환을 앓고 있는 8명의 폐암 환자와 30명의 건강한 개체로부터 약 4ml의 혈장에서 분리되었다(표 1(부록 A), 표 4(부록 D) 및 표 5(부록 E)). 고효율 접근법을 사용하여 cfDNA를 차세대 서열 분석 라이브러리로 변환하고 ~ 9x 커버리지에서 전체 게놈 서열 분석을 수행하였다(표 4, 부록 D). 건강한 개체의 전체 cfDNA 단편 길이는 더 컸으며 단편 크기 중간값은 167.3bp임 반면에 암 환자의 단편 크기 중간값은 163.8bp이었다(p <0.01, 웰치(Welch) t-test)(표 5, 부록 E). 게놈 전체에 걸쳐 위치 의존적 방식으로 단편 크기 및 커버리지의 차이를 조사하기 위하여, 서열 분석된 단편을 게놈 기원에 매핑하고, 단편 길이를 5Mb 크기의 504개의 창에서 평가하여 ~ 2.6Gb의 게놈을 커버하였다. 각각의 창에 대해 작은 cfDNA 단편(길이 100 ~ 150bp)에서 더 큰 cfDNA 단편(151 ~ 220bp)까지의 분획과 전체 커버리지를 결정하고, 각 샘플에 대한 게놈 전체의 단편화 프로파일을 얻는데 사용하였다.

건강한 개체는 게놈 전체에서 매우 유사한 단편화 프로파일을 가졌다(도 7 및 도 8). cfDNA에서 일반적으로 관찰되는 단편화 패턴의 기원을 조사하기 위하여, 두 명의 건강한 개체의 용출된 림프구로부터 핵을 단리하고, DNA 뉴클레아제로 처리하여 뉴클레오솜 DNA 단편을 얻었다. 관찰된 건강한 개체에서 cfDNA 패턴의 분석은 림프구 뉴클레오솜 DNA 단편화 프로파일(도 7b 및 7d) 및 뉴클레오솜 거리(도 7c 및 7f)에 대한 높은 상관 관계를 나타냈다. 림프구에서 뉴클레오솜들 간의 중간 거리는 게놈의 3차원 구조(도 7c)를 조사하기 위한 Hi-C 방법(예를 들어, Lieberman-Aiden et al., 2009 Science 326: 289-293; 및 Fortin et al., 2015 Genome Biol 16: 180 참조)을 사용하여 밝혀진 바와 같이 림프 모세포의 개방(A) 및 폐쇄(B) 구획과 상관 관계가 있었다. 이러한 분석은 정상 cfDNA의 단편화 패턴이 정상 혈액 세포의 염색질 구조를 주로 반영하는 뉴클레오솜 DNA 패턴의 결과임을 시사한다.

건강한 cfDNA와는 대조적으로, 암 환자는 다른 영역에서 단편 크기의 증가 및 감소와 함께 다수의 뚜렷한 게놈 차이를 보였다(도 7a 및 7b). 표적화된 분석에서 얻은 관찰과 유사하게, 건강한 개체에 비해 암 환자의 게놈 전체에 걸친 단편 길이의 변이는 더욱 컸다.

cfDNA 단편 길이 패턴이 암 환자와 건강한 개체를 구별하는데 사용될 수 있는지 여부를 결정하기 위하여, 건강한 개체로부터 계산된 중간 단편 길이 프로파일과 비교하여 각 샘플에 대해 짧고 긴 cfDNA 단편의 분획에 대한 게놈 전체의 상관 관계 분석을 수행하였다(도 7a, 7b 및 7e). cfDNA 단편의 프로파일은 건강한 개체들 사이에서 현저하게 일관된 반면에(0.99의 중앙값 상관 관계), 암 환자들 사이에서 게놈 전체 단편 비율의 중간값 상관 관계는 0.84(0.15 더 낮음, 95% CI 0.07-0.50, p<0.001, Wilcoxon 순위 합계 검사; 표 5(부록 E))이었다. 암 환자의 단편화 프로파일을 건강한 림프구의 단편화 프로파일 또는 뉴클레오솜 거리와 비교할 때 유사한 차이가 관찰되었다(도 7c, 7d 및 7f). GC 함량으로 인한 단편화 프로파일의 잠재적인 편향을 설명하기 위하여, 국소적으로 가중치가 부여된 평활 제를 각 샘플에 독립적으로 적용한 바, 건강한 개체와 암 환자 간의 단편화 프로파일의 차이가 이러한 조정 후에도 남아있음을 발견하였다(암 환자 대 건강한 개체의 중간값 상관 관계 = 0.83)(표 5; 부록 E).

전체 게놈 서열 데이터의 하위 샘플링 분석은 ~ 2x, ~ 1x, ~ 0.5x, ~ 0.2x 및 ~ 0.1x 게놈 커버리지에서 암 환자의 cfDNA로부터의 9x 커버리지에서 수행되었으며, 변경된 단편화 프로파일은 0.5x 게놈 커버리지에서도 쉽게 동정되는 것으로 확인되었다(도 9). 이러한 관찰을 기반으로, 전체 게놈 서열 분석을 1-2x의 커버리지로 수행하여 단편화 프로파일이 서열 변경의 모니터링과 유사한 방식으로 표적화된 치료 과정 동안 변경될 수 있는지 여부를 평가하였다. 항-EGFR 또는 항-ERBB2 치료 과정 동안 부분 방사선 반응이 있는 5명, 안정된 질환이 있는 8명, 진행성 질환이 있는 4명, 측정할 수 없는 질환이 있는 2명을 포함하여 19명의 비-소 세포 폐암 환자의 cfDNA를 평가하였다(표 6; 부록 F). 도 10에 도시된 바와 같이, 치료하는 동안 단편화 프로파일의 이상 정도는 표적화된 서열 분석을 이용하여 결정된 바와 같이 EGFR 또는 ERBB2 돌연변이 대립 유전자 분획의 수준과 밀접하게 일치하였다(돌연변이 대립 유전자 분획 대 단편화 프로파일의 Spearman 상관 관계 = 0.74). 이 상관 관계는 게놈 전체 및 돌연변이 기반 방법이 직교하고 이전 치료로 인해 이들 환자에서 억제될 수 있는 다른 cfDNA 변경을 조사하기 때문에 주목할 만하다. 특히, 6개월 이상의 무 진행 생존율을 보인 모든 사례는 단편화 프로파일에 의해 결정된 바와 같이 치료 시작 후 ctDNA가 감소하거나 극도로 낮은 수준을 보인 반면에, 임상 결과가 좋지 않은 사례는 ctDNA가 증가하였다. 이러한 결과는 종양 유래된 cfDNA의 존재를 검출하기 위한 단편화 분석의 타당성을 입증하며, 이러한 분석이 치료하는 동안 암 환자의 정량적 모니터링에도 유용할 수 있음을 시사한다.

단편화 프로파일은 종양 조직의 병렬 분석을 달성한 환자에서 알려진 카피 수 변화의 맥락에서 조사되었다. 이러한 분석은 변경된 단편화 프로파일이 카피 중립적인 게놈 영역에 존재하며 카피 수 변화가 있는 영역에서 추가로 영향을 받을 수 있음을 입증하였다(도 11a 및 도 12a). 단편화 패턴의 위치 의존적 차이는 이 영역에서 암 유래된 cfDNA와 건강한 cfDNA를 구별하는데 사용될 수 있지만(도 12a, 12b), 전체 cfDNA 단편 크기 측정은 이러한 차이를 놓쳤을 것이다(도 12a).

이러한 분석은 암 환자와 건강한 개체의 독립적인 코호트로 확장되었다. 유방암(n = 54), 대장암(n = 27), 폐암(n = 12), 난소암(n = 28), 췌장암(n = 34), 위암(n = 27) 또는 담관암(n = 26)을 포함하여 총 208명의 암 환자뿐만 아니라 암이 없는 215명의 개체로부터 1-2x 커버리지에서 cfDNA의 전체 게놈 서열 분석이 수행되었다(표 1(부록 A) 및 표 4(부록 D)). 모든 암 환자는 치료 경험이 없었으며 대부분은 절제 가능한 질환(n = 183)이 있었다. 짧고 긴 cfDNA 단편 커버리지의 GC 조정(도 13a) 후에, 게놈 전체 창에서 단편의 커버리지 및 크기 특성을 조사하였다(도 11b, 표 4(부록 D) 및 표 7(부록 G)). GC 함량에 대한 커버리지의 게놈 전체의 상관 관계는 제한되었으며, 암 환자와 건강한 개체 간의 이러한 상관 관계의 차이는 관찰되지 않았다(도 13b). 건강한 개체는 매우 일치하는 단편화 프로파일을 보인 반면에, 암 환자는 중간값의 건강한 프로파일과의 상관 관계가 감소하면서 변동성이 높아졌다(표 7; 부록 G). 암 환자 중의 게놈에서 가장 일반적으로 변경된 단편화 창을 분석한 결과, 분석된 암 유형 전체에 걸쳐 영향을 받은 창 중간값이 60개로 나타났으며, 이는 암 환자의 cfDNA의 단편화에서 다수의 위치 의존적 변경을 강조한다(도 11c).

위치 의존적 단편화 변화가 암 환자를 검출하는데 사용될 수 있는지를 결정하기 위하여, 구배 트리 부스팅(gradient tree boosting) 기계 학습 모델을 실행하여 cfDNA가 암 환자 또는 건강한 개체의 특성을 갖는 것으로 분류될 수 있는지 여부 및 10회 반복된 10배수 교차 검증에 의한 이러한 접근 방식의 추정된 성능 특성 조사하였다(도 14 및 15). 기계 학습 모델에는 게놈 전체의 창에서 GC-조정된 짧고 긴 단편 커버리지 특성이 포함되었다. 단일 점수가 아닌 염색체 아암 의존적 특징으로부터 카피 수 변화에 대한 기계 학습 분류기도 개발되었으며(도 16a 및 표 8(부록 H)), 미토콘드리아 카피 수 변화가 건강한 개체와 암 환자를 구별하는데 도움을 줄 수 있으므로 이들도 포함되었다(도 16b). DELFI의 이러한 실행을 이용하여, 환자를 건강하거나 암에 걸린 환자로 분류하는데 사용될 수 있는 점수를 얻었다. 208명의 암 환자 중 152명이 검출된 반면에(73% 민감도, 95% CI 67%-79%) 건강한 개체 215명 중 4명은 잘못 분류되었다(98% 특이도)(표 9). 95% 특이도의 역치에서, 절제 가능한 환자(I 병기 - III 병기)의 79%(183명 중 145명) 및 전이성 환자(IV 병기)의 82%(22명 중 18명)을 포함하여 암 환자의 80%가 검출되었다(95% CI, 74%-85%),(표 9). 암 환자 검출을 위한 수용자 작동자 특성 분석은 AUC가 0.94(95% CI 0.92 - 0.96)이었으며, 암 유형들 중에서 췌장암에 대해서는 0.86에서부터 폐암 및 난소암에 대해서는 ≥0.99까지 다양한 범위에 있었으며(도 17a 및 17b), 모든 병기에 걸쳐 AUC가 0.92 이상이었다(도 18). DELFI 분류기 점수는 암 환자 또는 건강한 개체 간에 연령에 따라 다르지 않았다(표 1, 부록 A).

표 9. 암 검출을 위한 DELFI 성능

모델의 예측 정확도에 대한 단편 크기와 커버리지, 염색체 아암 카피 수 또는 미토콘드리아 매핑의 기여도를 평가하기 위하여, 반복된 10배수 교차 검증 절차를 실행하여 이러한 특징의 성능 특성들을 분리하여 평가하였다. 단독의 단편 커버리지 특징(AUC = 0.94)은 모든 특징들을 조합한 분류기(AUC = 0.94)와 거의 동일하다는 것이 관찰되었다(도 17a). 대조적으로, 염색체 카피 수 변화의 분석은 성능이 낮았지만(AUC = 0.88), 개별 점수(AUC = 0.78) 또는 미토콘드리아 매핑(AUC = 0.72)에 기반한 카피 수 변화보다 여전히 더욱 예측적이었다(도 17a). 이 결과는 단편 커버리지가 분류기에 대한 주요 기여자임을 시사한다. 예측 모델에 모든 특징들을 포함시키는 것은 이들 특징들이 동일한 게놈 서열 데이터로부터 획득될 수 있기 때문에 암 환자의 검출을 위한 보완적인 방식으로 기여할 수 있다.

단편화 프로파일이 조직마다 다를 수 있는 단편화의 영역 차이를 드러내므로, 유사한 기계 학습 접근 방식을 사용하여 cfDNA 패턴이 이러한 종양의 기원 조직을 동정할 수 있는지 여부를 조사하였다. 이 접근 방식은 유방암에 대한 76%, 담관암에 대한 44%, 대장암에 대한 71%, 위암에 대한 67%, 폐암에 대한 53%, 난소암에 대한 48% 및 췌장암에 대한 50%을 포함하여 61%의 정확도(95% CI 53% -67%)를 갖는 것으로 밝혀졌다(도 19, 표 10). 비정상적인 cfDNA를 가진 환자를 2개의 기원 부위 중 하나에 할당하는 것을 고려할 때, 정확도는 75%(95% CI 69% -81%)로 증가하였다(표 10). 모든 종양 유형에 대해, DELFI에 의한 기원 조직의 분류는 무작위 할당에 의해 결정된 것보다 유의하게 높았다(p<0.01, 이항 검사, 표 10).

표 10. 기원 예측의 DELFI 조직

암 특이적 서열 변경은 암 환자를 동정하는데 사용될 수 있으므로, 이 접근 방식과 DELFI를 조합하여 암 검출의 민감도를 높일 수 있는지 여부를 평가하였다(도 20). DELFI 및 표적화된 서열 분석을 모두 사용하여 치료 경험이 없는 암 환자의 하위 세트로부터 cfDNA를 분석한 결과 환자의 82%(126명 중 103명)가 단편화 프로파일 변경이 있는 반면에, 66%(126명 중 83명)는 서열 변경이 있는 것으로 나타났다. 돌연변이 대립 유전자 분획이 1% 보다 높은 사례의 89% 이상이 DELFI에 의해 검출된 반면에, 돌연변이 대립 유전자 분획이 1% 미만인 사례에 대해서는 표적화된 서열 분석을 이용하여 검출할 수 없는 사례를 포함하여 DELFI에 의해 검출된 분획이 80%이었다(표 7, 부록 G). 이러한 접근법들을 함께 사용했을 때, 검출의 조합된 민감도는 98%의 특이도로 91%(환자 126명 중 115명)로 증가하였다(도 20).

전반적으로 게놈 전체의 cfDNA 단편화 프로파일은 암 환자와 건강한 개체 간에 상이하다. 게놈 전체에 걸쳐 위치 의존적 방식으로 단편 길이 및 커버리지의 다양성은 특이적 유전자좌에서 cfDNA 또는 전체 단편 크기의 이전 분석에서 명백하게 모순되는 관찰을 설명할 수 있다. 암 환자에서, cfDNA의 이질적인 단편화 패턴은 혈액 세포와 신생 세포 모두로부터 얻은 뉴클레오솜 DNA 혼합물의 결과인 것으로 보인다. 이러한 연구는 미세한 양의 cfDNA로부터 수십 개에서 잠재적으로 수백 개의 종양 특이적 이상을 동시에 분석하는 방법을 제공하여 cfDNA의 더욱 민감한 분석 가능성을 배제한 한계를 극복한다. DELFI 분석은 서열 또는 전체 단편화 크기에 초점을 맞춘 이전 cfDNA 분석 방법보다 더 높은 비율의 암 환자를 검출하였다(예를 들어, Phallen et al., 2017 Sci Transl Med 9: eaan2415; Cohen et al., 2018 Science 359: 926; Newman et al., 2014 Nat Med 20: 548; Bettegowda et al., 2014 Sci Transl Med 6: 224ra24; Newman et al., 2016 Nat Biotechnol 34: 547 참조). 본 실시예에서 입증된 바와 같이, DELFI를 다른 cfDNA 변경의 분석과 조합하면 검출 민감도를 추가로 높일 수 있다. 단편화 프로파일이 뉴클레오솜 DNA 패턴과 관련된 것으로 보이기 때문에, DELFI는 종양 유래된 cfDNA의 1차 공급원을 결정하는데 사용될 수 있다. 분석된 환자의 절반 이상에서 순환 종양 DNA의 출처를 동정하는 것은 임상적 특성, 메틸화 변화를 포함한 기타 바이오 마커 및 추가적인 진단 접근법을 포함시킴으로써 더욱 개선될 수 있다(Ruibal Morell, 1992 The International journal of biological markers 7: 160; Galli et al., 2013 Clinical chemistry and Laboratory medicine 51: 1369; Sikaris, 2011 Heart, lung & circuit 20: 634; Cohen et al., 2018 Science 359: 926). 마지막으로, 이 접근 방식은 특이적 변경에 초점을 맞춘 접근 방식을 대표하는 심오한 서열 분석을 필요로 하지 않고 소량의 전체 게놈 서열 분석 만을 필요로 한다. DELFI에 필요한 성능 특성 및 제한된 양의 서열 분석은 이러한 접근법이 암 환자의 선별 및 관리에 광범위하게 적용될 수 있음을 시사한다.

이러한 결과는 게놈 전체의 cfDNA 단편화 프로파일이 암 환자와 건강한 개체 간에 다르다는 것을 입증한다. 이와 같이, cfDNA 단편화 프로파일은 인간 암을 검출하기 위한 비 침습적 접근법에 대한 미래의 연구 및 응용에 중요한 의미를 가질 수 있다.

기타 구현예

본 발명을 상세한 설명과 함께 기재하였지만, 전술한 기재는 첨부된 특허 청구 범위에 의해 정의되는 본 발명의 범위를 예시하기 위한 것이지 제한하려는 것이 아닌 것으로 이해해야 한다. 다른 양태, 장점 및 변경은 다음과 같은 특허 청구 범위 내에 있다.

부록 A: 표 1. 분석된 환자 및 샘플의 요약

부록 B: 표 2. 표적화된 cfDNA 분석의 요약

부록 C: 표 3. 암환자에서 표적화된 cfDNA 단편 분석

부록 D: 표 4. 전체 게놈 cfDNA 분석의 요약

부록 E: 표 5. 건강한 개체 및 폐암 환자의 높은 커버리지의 전체 게놈 cfDNA 분석

부록 F: 표 6. cfDNA 단편화 프로파일의 전체 게놈 분석 및 표적화된 돌연변이 분석을 사용한 치료에 대한 반응의 모니터링

부록 7: 표 7. 건강한 개체 및 암환자에서 전체 게놈 cfDNA 분석

Claims

포유류의 무 세포 DNA(cfDNA) 단편화 프로파일을 결정하는 방법으로서,
포유류에서 얻은 샘플로부터 획득한 cfDNA 단편을 서열 분석 라이브러리로 처리하는 단계;
상기 서열 분석 라이브러리를 낮은 커버리지(coverage)의 전체 게놈 서열 분석에 적용하여 서열 분석된 단편을 획득하는 단계;
상기 서열 분석된 단편을 게놈에 매핑하여 매핑된 서열의 창을 획득하는 단계; 및
상기 매핑된 서열의 창을 분석하여 cfDNA 단편 길이를 결정하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 매핑된 서열이 수십 개 내지 수천 개의 창을 포함하는, 방법.
제 1 항 또는 제 2 항에 있어서,
상기 창이 중첩되지 않은 창인, 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 창이 각각 약 5 백만 개의 염기 쌍을 포함하는, 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 각각의 창 내에서 결정되는,
방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 중간 단편 크기를 포함하는, 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 단편 크기 분포를 포함하는, 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 상기 매핑된 서열의 창에서 작은 cfDNA 단편 대 큰 cfDNA 단편의 비율을 포함하는, 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 게놈 전체에 걸쳐 상기 창에서 작은 cfDNA 단편의 서열 커버리지를 포함하는, 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 게놈 전체에 걸쳐 상기 창에서 큰 cfDNA 단편의 서열 커버리지를 포함하는, 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 게놈 전체에 걸쳐 상기 창에서 작고 큰 cfDNA 단편의 서열 커버리지를 포함하는, 방법.
제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 전체 게놈에 걸쳐 있는, 방법.
제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 하위 게놈 구간에 걸쳐 있는, 방법.
포유류가 암에 걸렸는지를 동정하는 방법으로서,
포유류로부터 얻은 샘플에서 무 세포 DNA(cfDNA) 단편화 프로파일을 결정하는 단계;
상기 cfDNA 단편화 프로파일을 참조 cfDNA 단편화 프로파일과 비교하는 단계; 및
포유류로부터 얻은 cfDNA 단편화 프로파일이 참조 cfDNA 단편화 프로파일과 다를 때 포유류가 암에 걸렸는지를 동정하는 단계를 포함하는, 방법.
제 14 항에 있어서,
상기 참조 cfDNA 단편화 프로파일이 건강한 포유류의 cfDNA 단편화 프로파일인, 방법.
제 15 항에 있어서,
상기 참조 cfDNA 단편화 프로파일이 건강한 포유류로부터 얻은 샘플에서 cfDNA 단편화 프로파일을 결정함으로써 생성되는, 방법.
제 14 항에 있어서,
상기 참조 DNA 단편화 패턴이 참조 뉴클레오솜 cfDNA 단편화 프로파일인, 방법.
제 14 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 중간 단편 크기를 포함하고,
상기 cfDNA 단편화 프로파일의 중간 단편 크기가 상기 참조 cfDNA 단편화 프로파일의 중간 단편 크기보다 짧은, 방법.
제 14 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 단편 크기 분포를 포함하고,
상기 cfDNA 단편화 프로파일의 단편 크기 분포가 상기 참조 cfDNA 단편화 프로파일의 단편 크기 분포에 비해 적어도 10개의 뉴클레오티드 만큼 다른, 방법.
제 14 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 상기 매핑된 서열의 창에서 작은 cfDNA 단편 대 큰 cfDNA 단편의 비율을 포함하며, 여기서 상기 작은 cfDNA 단편의 길이가 100bp(염기 쌍) 내지 150bp이고 상기 큰 cfDNA 단편의 길이는 151bp 내지 220bp이며,
상기 cfDNA 단편화 프로파일에서 단편 비율의 상관 관계는 참조 cfDNA 단편화 프로파일의 단편 비율의 상관 관계보다 낮은, 방법.
제 14 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 게놈 전체에 걸쳐 상기 창에서 상기 작은 cfDNA 단편의 서열 커버리지를 포함하는, 방법.
제 14 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 게놈 전체에 걸쳐 상기 창에서 상기 큰 cfDNA 단편의 서열 커버리지를 포함하는, 방법.
제 14 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 게놈 전체에 걸쳐 상기 창에서 작고 큰 cfDNA 단편의 서열 커버리지를 포함하는, 방법.
제 14 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 암이 대장암, 폐암, 유방암, 위암, 췌장암, 담관암 및 난소암으로 이루어진 군으로부터 선택되는, 방법.
제 14 항에 있어서,
상기 비교 단계가 전체 게놈에 걸쳐 상기 cfDNA 단편화 프로파일을 상기 참조 cfDNA 단편화 프로파일과 비교하는 것을 포함하는, 방법.
제 14 항에 있어서,
상기 비교 단계가 하위 게놈 구간에 걸쳐 상기 cfDNA 단편화 프로파일을 상기 참조 cfDNA 단편화 프로파일과 비교하는 것을 포함하는, 방법.
제 14 항 내지 제 23 항 중 어느 한 항에 있어서,
상기 포유류가 암을 치료하기 위하여 이전에 암 치료를 받은 적이 있는, 방법.
제 27 항에 있어서,
상기 암 치료가 수술, 보조 화학 요법, 신 보조 화학 요법, 방사선 요법, 호르몬 요법, 세포 독성 요법, 면역 요법, 입양 T 세포 요법, 표적화 요법 및 이들의 조합으로 이루어진 군으로부터 선택되는, 방법.
제 14 항 내지 제 28 항 중 어느 한 항에 있어서,
수술, 보조 화학 요법, 신 보조 화학 요법, 방사선 요법, 호르몬 요법, 세포 독성 요법, 면역 요법, 입양 T 세포 요법, 표적화 요법 및 이들의 조합으로 구성된 군으로부터 선택된 암 치료를 포유류에게 시행하는 단계를 추가로 포함하는, 방법.
제 29 항에 있어서,
상기 포유류가 암 치료를 받은 후 암의 존재에 대해 모니터링되는, 방법.
제 14 항 내지 제 30 항 중 어느 한 항에 있어서,
상기 샘플에서 하나 이상의 암-특이적 서열 변경을 동정하는 단계를 추가로 포함하는, 방법.
제 14 항 내지 제 30 항 중 어느 한 항에 있어서,
상기 샘플에서 하나 이상의 염색체 이상을 동정하는 단계를 추가로 포함하는, 방법.
제 32 항에 있어서,
상기 하나 이상의 염색체 이상이 하나 이상의 염색체 아암(arm) 내의 카피 수 변화를 포함하는, 방법.
암에 걸린 것으로 식별된 포유류에서 암의 기원 조직을 동정하는 방법으로서,
포유류로부터 얻은 샘플에서 무 세포 DNA(cfDNA) 단편화 프로파일을 결정하는 단계;
상기 cfDNA 단편화 프로파일을 참조 cfDNA 단편화 프로파일과 비교하는 단계; 및
포유류로부터 얻은 cfDNA 단편화 프로파일이 동일한 기원 조직을 갖는 암에 걸린 것으로 식별된 포유류의 참조 cfDNA 단편화 프로파일과 일치할 때 포유류에서 암의 기원 조직을 동정하는 단계를 포함하는, 방법.
제 34 항에 있어서,
상기 참조 cfDNA 단편화 프로파일이 대장암, 폐암, 유방암, 위암, 췌장암, 담관암 및 난소암 중 하나 이상에 걸린 것으로 동정된 포유류로부터 얻은 참조 cfDNA 단편화 프로파일을 포함하는, 방법.
제 35 항에 있어서,
상기 참조 cfDNA 단편화 프로파일이 대장암, 폐암, 유방암, 위암, 췌장암, 담관암 및 난소암 중 하나 이상에 걸린 것으로 동정된 포유류로부터 얻은 샘플에서 cfDNA 단편화 프로파일을 결정함으로써 생성되는, 방법.
제 34 항에 있어서,
상기 참조 DNA 단편화 패턴이 참조 뉴클레오솜 cfDNA 단편화 프로파일인, 방법.
제 34 항 내지 제 37 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 중간 단편 크기를 포함하며,
상기 cfDNA 단편화 프로파일의 중간 단편 크기가 상기 참조 cfDNA 단편화 프로파일의 중간 단편 크기보다 짧은, 방법.
제 34 항 내지 제 37 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 단편 크기 분포를 포함하며,
상기 cfDNA 단편화 프로파일의 단편 크기 분포가 상기 참조 cfDNA 단편화 프로파일의 단편 크기 분포에 비해 적어도 10개의 뉴클레오티드 만큼 다른, 방법.
제 34 항 내지 제 37 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 상기 매핑된 서열의 창에서 작은 cfDNA 단편 대 큰 cfDNA 단편의 비율을 포함하며, 여기서 작은 cfDNA 단편의 길이가 100bp(염기 쌍) 내지 150bp이고, 큰 cfDNA 단편의 길이가 151bp 내지 220bp이며,
상기 cfDNA 단편화 프로파일에서 단편 비율의 상관 관계는 상기 참조 cfDNA 단편화 프로파일의 단편 비율의 상관 관계보다 낮은, 방법.
제 34 항 내지 제 37 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 게놈 전체에 걸쳐 창에서 작은 cfDNA 단편의 서열 커버리지를 포함하는, 방법.
제 34 항 내지 제 37 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 게놈 전체에 걸쳐 창에서 큰 cfDNA 단편의 서열 커버리지를 포함하는, 방법.
제 34 항 내지 제 37 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 게놈 전체에 걸쳐 창에서 작고 큰 cfDNA 단편의 서열 커버리지를 포함하는, 방법.
제 34 항 내지 제 37 항 중 어느 한 항에 있어서,
상기 암이 대장암, 폐암, 유방암, 위암, 췌장암, 담관암 및 난소암으로 이루어진 군으로부터 선택되는, 방법.
제 34 항에 있어서,
상기 비교 단계가 전체 게놈에 걸쳐 상기 cfDNA 단편화 프로파일을 상기 참조 cfDNA 단편화 프로파일과 비교하는 것을 포함하는, 방법.
제 34 항에 있어서,
상기 비교 단계가 하위 게놈 구간에 걸쳐 상기 cfDNA 단편화 프로파일을 상기 참조 cfDNA 단편화 프로파일과 비교하는 것을 포함하는, 방법.
제 34 항 내지 제 46 항 중 어느 한 항에 있어서,
상기 샘플에서 하나 이상의 암-특이적 서열 변경을 동정하는 것을 추가로 포함하는, 방법.
제 34 항 내지 제 46 항 중 어느 한 항에 있어서,
상기 샘플에서 하나 이상의 염색체 이상을 동정하는 것을 추가로 포함하는, 방법.
제 48 항에 있어서,
상기 하나 이상의 염색체 이상이 하나 이상의 염색체 아암 내의 카피 수 변화를 포함하는, 방법.
암에 걸린 포유류를 치료하는 방법으로서,
상기 포유류가 암에 걸렸는지를 동정하는 단계; 및
상기 포유류에게 암 치료를 시행하는 단계를 포함하며,
상기 동정 단계는
상기 포유류로부터 얻은 샘플에서 무 세포 DNA(cfDNA) 단편화 프로파일을 결정하는 단계;
상기 cfDNA 단편화 프로파일을 참조 cfDNA 단편화 프로파일과 비교하는 단계; 및
상기 포유류로부터 얻은 cfDNA 단편화 프로파일이 상기 참조 cfDNA 단편화 프로파일과 상이할 때 암에 걸린 것으로 포유류를 동정하는 단계를 포함하는, 방법.
제 50 항에 있어서,
상기 포유류가 인간인, 방법.
제 50 항 또는 제 51 항에 있어서, 상기 암이 대장암, 폐암, 유방암, 위암, 췌장암, 담관암 및 난소암으로 이루어진 군으로부터 선택되는, 방법.
제 50 항 내지 제 52 항 중 어느 한 항에 있어서,
상기 암 치료가 수술, 보조 화학 요법, 신 보조 화학 요법, 방사선 요법, 호르몬 요법, 세포 독성 요법, 면역 요법, 입양 T 세포 요법, 표적화 요법 및 이들의 조합으로 구성된 군으로부터 선택되는, 방법.
제 50 항 내지 제 53 항 중 어느 한 항에 있어서,
상기 참조 cfDNA 단편화 프로파일이 건강한 포유류의 cfDNA 단편화 프로파일인, 방법.
제 54 항에 있어서,
상기 참조 cfDNA 단편화 프로파일이 건강한 포유류로부터 얻은 샘플에서 cfDNA 단편화 프로파일을 결정함으로써 생성되는, 방법.
제 50 항 내지 제 53 항 중 어느 한 항에 있어서,
상기 참조 DNA 단편화 패턴이 참조 뉴클레오솜 cfDNA 단편화 프로파일인, 방법.
제 50 항 내지 제 56 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 중간 단편 크기를 포함하며,
상기 cfDNA 단편화 프로파일의 중간 단편 크기가 상기 참조 cfDNA 단편화 프로파일의 중간 단편 크기보다 짧은, 방법.
제 50 항 내지 제 56 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 단편 크기 분포를 포함하며,
상기 cfDNA 단편화 프로파일의 단편 크기 분포가 상기 참조 cfDNA 단편화 프로파일의 단편 크기 분포에 비하여 적어도 10개의 뉴클레오티드 만큼 상이한, 방법.
제 50 항 내지 제 56 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 상기 매핑된 서열의 창에서 작은 cfDNA 단편 대 큰 cfDNA 단편의 비율을 포함하며, 여기서 작은 cfDNA 단편의 길이는 100bp(염기 쌍) 내지 150bp이고, 큰 cfDNA 단편의 길이는 151bp 내지 220bp이며,
상기 cfDNA 단편화 프로파일에서 단편 비율의 상관 관계는 상기 참조 cfDNA 단편화 프로파일의 단편 비율의 상관 관계보다 낮은, 방법.
제 50 항 내지 제 56 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 게놈 전체에 걸쳐 창에서 작은 cfDNA 단편의 서열 커버리지를 포함하는, 방법.
제 50 항 내지 제 56 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 게놈 전체에 걸쳐 창에서 큰 cfDNA 단편의 서열 커버리지를 포함하는, 방법.
제 50 항 내지 제 56 항 중 어느 한 항에 있어서,
상기 cfDNA 단편화 프로파일이 게놈 전체에 걸쳐 창에서 작고 큰 cfDNA 단편의 서열 커버리지를 포함하는, 방법.
제 50 항 내지 제 62 항 중 어느 한 항에 있어서,
상기 비교 단계가 전체 게놈에 걸쳐 상기 cfDNA 단편화 프로파일을 상기 참조 cfDNA 단편화 프로파일과 비교하는 것을 포함하는, 방법.
제 50 항 내지 제 62 항 중 어느 한 항에 있어서,
상기 비교 단계가 하위 게놈 구간에 걸쳐 상기 cfDNA 단편화 프로파일을 상기 참조 cfDNA 단편화 프로파일과 비교하는 것을 포함하는, 방법.
제 50 항 내지 제 64 항 중 어느 한 항에 있어서,
상기 포유류가 암을 치료하기 위하여 이전에 암 치료를 받은 적이 있는, 방법.
제 65 항에 있어서,
상기 암 치료가 수술, 보조 화학 요법, 신 보조 화학 요법, 방사선 요법, 호르몬 요법, 세포 독성 요법, 면역 요법, 입양 T 세포 요법, 표적화 요법 및 이들의 조합으로 이루어진 군으로부터 선택되는, 방법.
제 50 항 내지 제 66 항 중 어느 한 항에 있어서,
상기 포유류가 암 치료의 시행 후 암의 존재에 대해 모니터링되는, 방법.