KR20210084686A - 심층 학습 기반 변이체 분류자 - Google Patents

심층 학습 기반 변이체 분류자 Download PDF

Info

Publication number
KR20210084686A
KR20210084686A KR1020217020482A KR20217020482A KR20210084686A KR 20210084686 A KR20210084686 A KR 20210084686A KR 1020217020482 A KR1020217020482 A KR 1020217020482A KR 20217020482 A KR20217020482 A KR 20217020482A KR 20210084686 A KR20210084686 A KR 20210084686A
Authority
KR
South Korea
Prior art keywords
variant
reads
base
sample
read
Prior art date
Application number
KR1020217020482A
Other languages
English (en)
Other versions
KR102689425B1 (ko
Inventor
올리 벤자민 슐츠-트리글라프
앤서니 제임스 콕스
카이-하우 파
Original Assignee
일루미나, 인코포레이티드
일루미나 케임브리지 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드, 일루미나 케임브리지 리미티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20210084686A publication Critical patent/KR20210084686A/ko
Application granted granted Critical
Publication of KR102689425B1 publication Critical patent/KR102689425B1/ko

Links

Images

Classifications

    • G06K9/6257
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3877Concurrent instruction execution, e.g. pipeline or look ahead using a slave processor, e.g. coprocessor
    • G06K9/628
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

개시된 기술은, 서열분석 데이터에 대하여 직접 작용하고 자신의 고유한 피처 필터를 도출한다. 이 기술은, 표적 염기 위치를 잇는 복수의 정렬된 리드를 처리한다. 이 기술은, 경량 하드웨어를 사용하여 리드들의 엘리간트 인코딩을 경량 분석과 결합하여 양호한 리콜과 정밀도를 생성한다. 예를 들어, 각각 50개 내지 100개의 리드를 갖는 표적 염기 변이체 부위의 백만개의 트레이닝 예를, 단일 GPU 카드에서 10시간 내로 양호한 리콜과 정밀도 트레이닝할 수 있다. 단일 GPU 카드는, 단일 GPU를 갖춘 컴퓨터가 저렴하고 유전 데이터를 보는 사용자가 거의 보편적으로 이용할 수 있기 때문에 바람직하다. 이것은 클라우드 기반 플랫폼에서 쉽게 이용할 수 있다.

Description

심층 학습 기반 변이체 분류자{DEEP LEARNING-BASED VARIANT CLASSIFIER}
우선권 출원
본 출원은 "LEARNING-BASED VARIANT CLASSIFIER"라는 명칭으로 2018년 1월 15일자로 출원된 가특허 출원 제62/617,552호(대리인 정리번호: ILLM 1005-1/IP-1663-PRV)에 대한 우선권 또는 이점을 주장한다. 이 우선권은 모든 면에서 본 명세서에 참고로 원용된다.
원용 문헌
하기 문헌들은 모든 면에서 그 전체 내용이 본 명세서에 개시된 것처럼 참고로 원용된 것이다:
https://github.com/Illumina/strelka에 호스팅되고, 문헌[T Saunders, Christopher & Wong, Wendy & Swamy, Sajani & Becq, Jennifer & J Murray, Lisa & Cheetham, Keira. (2012). Strelka: Accurate somatic small-variant calling from sequenced tumor-normal sample pairs. Bioinformatics (Oxford, England). 28. 1811-7]에 개시된 일루미나사(Illumina Inc.)의 Strelka™ 출원;
https://github.com/Illumina/strelka에 호스팅되고, 문헌[Kim, S., Scheffler, K., Halpern, A.L., Bekritsky, M.A., Noh, E., Kallberg, M., Chen, X., Beyter, D., Krusche, P., and Saunders, C.T. (2017)]에 개시된 일루미나사에 의한 Strelka2™ 출원;
A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, "WAVENET: A GENERATIVE MODEL FOR RAW AUDIO," arXiv:1609.03499, 2016;
S.
Figure pat00001
. Arik, M. Chrzanowski, A. Coates, G. Diamos, A. Gibiansky, Y. Kang, X. Li, J. Miller, A. Ng, J. Raiman, S. Sengupta and M. Shoeybi, "DEEP VOICE: REAL-TIME NEURAL TEXT-TO-SPEECH," arXiv:1702.07825, 2017;
F. Yu and V. Koltun, "MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS," arXiv:1511.07122, 2016;
K. He, X. Zhang, S. Ren, and J. Sun, "DEEP RESIDUAL LEARNING FOR IMAGE RECOGNITION," arXiv:1512.03385, 2015;
R.K. Srivastava, K. Greff, and J. Schmidhuber, "HIGHWAY NETWORKS," arXiv: 1505.00387, 2015;
G. Huang, Z. Liu, L. van der Maaten and K. Q. Weinberger, "DENSELY CONNECTED CONVOLUTIONAL NETWORKS," arXiv:1608.06993, 2017;
C. Szegedy, W. Liu,Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, "GOING DEEPER WITH CONVOLUTIONS," arXiv: 1409.4842, 2014;
S. Ioffe and C. Szegedy, "BATCH NORMALIZATION: ACCELERATING DEEP NETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT," arXiv: 1502.03167, 2015;
Srivastava, Nitish, Hinton, Geoffrey, Krizhevsky, Alex, Sutskever, Ilya, and Salakhutdinov, Ruslan, "DROPOUT: A SIMPLE WAY TO PREVENT NEURAL NETWORKS FROM OVERFITTING," The Journal of Machine Learning Research, 15 (1):1929-1958, 2014;
J. M. Wolterink, T. Leiner, M. A. Viergever, and I.
Figure pat00002
, "DILATED CONVOLUTIONAL NEURAL NETWORKS FOR CARDIOVASCULAR MR SEGMENTATION IN CONGENITAL HEART DISEASE," arXiv:1704.03669, 2017;
L. C. Piqueras, "AUTOREGRESSIVE MODEL BASED ON A DEEP CONVOLUTIONAL NEURAL NETWORK FOR AUDIO GENERATION," Tampere University of Technology, 2016;
J. Wu, "Introduction to Convolutional Neural Networks," Nanjing University, 2017;
I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio, "CONVOLUTIONAL NETWORKS", Deep Learning, MIT Press, 2016;
J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, T. Liu, X. Wang, and G. Wang, "RECENT ADVANCES IN CONVOLUTIONAL NEURAL NETWORKS," arXiv:1512.07108, 2017;
M. Lin, Q. Chen, and S. Yan, "Network in Network," in Proc. of ICLR, 2014;
L. Sifre, "Rigid-motion Scattering for Image Classification, Ph.D. thesis, 2014;
L. Sifre and S. Mallat, "Rotation, Scaling and Deformation Invariant Scattering for Texture Discrimination," in Proc. of CVPR, 2013;
F. Chollet, "Xception: Deep Learning with Depthwise Separable Convolutions," in Proc. of CVPR, 2017;
X. Zhang, X. Zhou, M. Lin, and J. Sun, "ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices," in arXiv:1707.01083, 2017;
K. He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," in Proc. of CVPR, 2016;
S. Xie, R. Girshick, P. Dollaμr, Z. Tu, and K. He, "Aggregated Residual Transformations for Deep Neural Networks," in Proc. of CVPR, 2017;
A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, "Mobilenets: Efficient Convolutional Neural Networks for Mobile Vision Applications," in arXiv:1704.04861, 2017;
M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L. Chen, "MobileNetV2: Inverted Residuals and Linear Bottlenecks," in arXiv:1801.04381v3, 2018;
Z. Qin, Z. Zhang, X. Chen, and Y. Peng, "FD-MobileNet: Improved MobileNet with a Fast Downsampling Strategy," in arXiv:1802.03750, 2018;
"Validation Methods and Systems for Sequence Variant Calls"이라는 명칭으로 2017년 11월 14일자로 출원된 PCT 국제출원 번호 PCT/US17/61554;
"Validation Methods and Systems for Sequence Variant Calls"이라는 명칭으로 2017년 1월 17일자로 출원된 미국 가특허 출원 제62/447,076호;
"Methods and Systems to Improve Accuracy in Variant Calling"이라는 명칭으로 2016년 11월 16일자로 출원된 미국 가특허 출원 제62/422,841호; 및
N. ten DIJKE, "Convolutional Neural Networks for Regulatory Genomics," Master's Thesis, Universiteit Leiden Opleiding Informatica, 17 June 2017.
개시된 기술은, 불확실성이 있는 추론을 위한 시스템(예를 들어, 퍼지 로직 시스템), 적응형 시스템, 기계 학습 시스템, 및 인공 신경망을 포함하여, 인텔리전스(즉, 지식 기반 시스템, 추론 시스템 및 지식 획득 시스템)의 에뮬레이션을 위한 인공 지능형 컴퓨터 및 디지털 데이터 처리 시스템 및 대응하는 데이터 처리 방법 및 제품에 관한 것이다. 특히, 개시된 기술은, 순서화된 데이터를 분석하기 위한 컨볼루션 신경망(convolutional neural network: CNN)과 심층 신경망의 사용에 관한 것이다.
이 부문에서 논의되는 주제는 단지 이 부문에서의 언급 결과로서 종래 기술인 것으로 상정해서는 안 된다. 유사하게, 이 부문에서 언급되거나 배경으로서 제공된 주제에 연관된 문제점은 종래 기술에서 이전에 인식된 것으로 상정해서는 안 된다. 이 부문의 주제는, 상이한 방안들을 나타낼 뿐이며, 이들 방안은 또한 그 자체로 청구된 기술의 구현에 상응할 수 있다.
유전자 서열에서의 변이체의 정확한 식별은 많은 중요한 영향을 미치며 상당한 주목을 받았다. 변이체 콜링(variant calling)에 구글(Google)의 인셉션 엔진을 적용하려는 최근의 노력은, 흥미롭지만, 자원을 많이 사용한다. 더욱 효율적인 방안이 필요하다.
차세대 시퀀싱, 즉, 서열분석(sequencing)은 변이체 분류를 위해 대량의 서열분석된 데이터를 이용할 수 있게 하였다. 서열분석된 데이터는, 상관성이 높고, 상호의존성이 복잡하여, 지지 벡터 기계와 같은 기존의 분류자(classifier)를 변이체 분류 작업에 적용하는 것을 방해하였다. 따라서, 서열분석된 데이터로부터 고수준 피처(high-level feature)를 추출할 수 있는 고급 분류자가 필요하다.
심층 신경망은, 다수의 비선형 및 복잡한 변환 층들을 사용하여 고수준 피처를 연속적으로 모델링하고 역전파를 통해 피드백을 제공하는 유형의 인공 신경망이다. 심층 신경망은, 많은 트레이닝 데이터세트의 가용성, 병렬 및 분산형 연산 능력, 및 정교한 트레이닝 알고리즘으로 진화하였다. 심층 신경망은, 컴퓨터 비전, 음성 인식, 및 자연어 처리와 같은 다양한 영역에서 주요 발전을 촉진하였다.
컨볼루션 신경망과 반복 신경망은 심층 신경망의 구성요소들이다. 컨볼루션 신경망은, 컨볼루션층(convolution layer), 비선형 층 및 풀링층(pooling layer)을 포함하는 아키텍처로 이미지를 인식하는 데 특히 성공하였다. 반복 신경망은, 퍼셉트론, 장단기 메모리 유닛, 및 게이트형 반복 유닛과 같이 빌딩 블록들 간의 주기적 연결을 통해 입력 데이터의 순차적 정보를 이용하도록 설계된 것이다. 또한, 심층 시공간 신경망, 다차원 반복 신경망 및 컨볼루션 자동 인코더 등의 제한된 컨텍스트에 대해 다른 많은 창발적(emergent) 심층 신경망이 제안되었다.
심층 신경망 학습의 목표는 각 층의 가중치 파라미터를 최적화하는 것이며, 이것은 데이터로부터 가장 적합한 계층적 표현을 학습할 수 있도록 간단한 피처들을 복잡한 피처들로 점진적으로 결합하는 것이다. 최적화 프로세스의 단일 사이클은 다음과 같이 구성된다. 먼저, 트레이닝 데이터세트가 주어지면, 순방향 패스는 각 층의 출력을 순차적으로 연산하고 기능 신호를 네트워크를 통해 전파한다. 최종 출력 층에서, 객체 손실 함수는 추론된 출력과 주어진 표지 간의 에러를 측정한다. 트레이닝 에러를 최소화하기 위해, 역방향 패스는, 체인 규칙을 사용하여 에러 신호를 역전파하고 신경망 전체에 걸쳐 모든 가중치에 대한 그라디언트를 연산한다. 마지막으로 가중치 파라미터는, 확률적 그라디언트 하강에 기반한 최적화 알고리즘을 사용하여 업데이트된다. 일괄 그라디언트 하강은 각각의 완전한 데이터세트에 대한 파라미터 업데이트를 수행하는 반면, 확률적 그라디언트 하강은 데이터 예들의 작은 세트 각각에 대하여 업데이트를 수행함으로써 확률적 근사화를 제공한다. 여러 최적화 알고리즘은 확률적 그라디언트 하강에서 비롯된다. 예를 들어, 아다그라드(Adagrad) 및 아담(Adam) 트레이닝 알고리즘들은, 확률적 그라디언트 하강을 수행하면서 각 파라미터에 대한 그라디언트의 업데이트 빈도 및 모멘트를 기반으로 학습률을 각각 적응적으로 수정한다.
심층 신경망의 트레이닝에서의 다른 핵심 요소는 규제화인데, 이는 과적합을 피하여 우수한 일반화 성능을 달성하기 위한 전략을 가리킨다. 예를 들어, 가중치 감소는, 가중치 파라미터가 더 작은 절대값으로 수렴하도록 객체 손실 함수에 페널티 항을 추가한다. 드롭아웃은, 트레이닝 중에 신경망으로부터 은닉된 유닛을 랜덤하게 제거하며, 가능한 서브네트워크들의 앙상블로 간주될 수 있다. 드롭아웃 기능을 향상시키기 위해, rnnDrop이라는 반복 신경망에 대한 드롭아웃의 변이체 및 새로운 활성화 기능인 maxout이 제안되었다. 또한, 일괄 정규화는, 파라미터들로서의 평균과 분산의 학습 및 미니-일괄 내의 각 활성화에 대한 스칼라 피처의 정규화를 통해 새로운 규제화 방법을 제공한다.
서열분석된 데이터가 다차원 및 고차원인 것을 고려하면, 심층 신경망은, 이들의 광범위한 적용성 및 향상된 예측력으로 인해 생물 정보학 연구에 큰 가능성을 갖고 있다. 컨볼루션 신경망은, 모티프 발견, 병원성 변이체 식별, 및 유전자 발현 추론과 같이 게놈에서의 서열 기반 문제를 해결하도록 구성되었다. 컨볼루션 신경망의 특징은 컨볼루션 필터의 사용이다. 정교하게 설계되고 수동으로 제작된 피처들을 기반으로 하는 기존의 분류 방안과는 달리, 컨볼루션 필터는 원시 입력 데이터를 지식의 정보 표현에 맵핑하는 프로세스와 유사한 피처들의 적응형 학습을 수행한다. 이 경우, 컨볼루션 필터는, 이러한 필터들의 세트가 입력에서 관련 패턴을 인식할 수 있고 트레이닝 과정 중에 스스로 업데이트할 수 있으므로, 일련의 모티프 스캐너로서 기능한다. 반복 신경망은, 단백질 또는 DNA 서열과 같이 다양한 길이의 서열 데이터에서 장거리 의존성을 포착할 수 있다.
따라서, 변이체 분류를 위해 심층 신경망을 사용할 기회가 발생한다.
도면에서, 유사한 참조 부호는 일반적으로 상이한 도면 전체에 걸쳐 유사한 부분을 지칭한다. 또한, 도면은, 반드시 축척대로 도시된 것은 아니며, 대신 개시된 기술의 원리를 설명하도록 일반적으로 강조되어 있다. 이하의 설명에서는, 개시된 기술의 다양한 구현예를 하기 도면을 참조하여 설명하며, 도면에서:
도 1A는 본 명세서에 개시된 트레이닝된 변이체 분류자에 의한 변이체 콜링의 일 구현예를 도시한다. 트레이닝된 변이체 분류자는 컨볼루션 신경망(CNN)을 포함한다.
도 1B는, 후보 변이체를 포함하는 표지된 트레이닝 데이터를 사용하여 도 1A의 변이체 분류자를 트레이닝하는 일 구현예를 도시한다.
도 1C는 도 1A의 변이체 분류자의 컨볼루션 신경망 처리의 입력 및 출력 모듈들의 일 구현예를 도시한다.
도 2는 도 1A의 변이체 분류자의 컨볼루션 신경망에 공급되는 입력 피처들의 어레이의 일 구현예이다.
도 3a는 도 1A의 변이체 분류자의 컨볼루션 신경망의 아키텍처의 일 구현예를 도시한다. 도 3b는 도 1A의 변이체 분류자 컨볼루션 신경망의 아키텍처의 다른 일 구현예를 도시한다. 도 3c는 도 1A의 변이체 분류자 컨볼루션 신경망의 아키텍처의 또 다른 일 구현예를 도시한다.
도 4a는 완전 연결(fully-connected: FC)망을 도시한다.
도 4b는, 경험적 변이체 점수(empirical variant score: EVS) 피처들만을 입력으로서 취하는 변이체 분류자의 완전 연결 신경망(fully-connected neural network)의 아키텍처의 일 구현예를 도시한다. 이 아키텍처는 어떠한 컨볼루션도 사용하지 않는다.
도 5는 변이체 분류자의 컨볼루션 신경망 및 경험적 변이체 점수(EVS) 모델이라고 칭하는 베이스라인 Strelka™ 모델에 의한 단일 염기 다형성(single-base polymorphism: SNP) 분류 성능을 비교하는 정밀 리콜 곡선(precision-recall curve)의 일례를 도시한다.
도 6은 변이체 분류자의 컨볼루션 신경망 및 EVS 모델에 의한 SNP 분류 성능을 비교하는 정밀 리콜 곡선의 다른 일례를 도시한다.
도 7은 변이체 분류자의 컨볼루션 신경망 및 EVS 모델에 의한 인델 분류 성능을 비교하는 정밀 리콜 곡선(precision-recall curve)의 일례를 도시한다.
도 8은 트레이닝 및 유효성확인 동안 변이체 분류자의 수렴 곡선을 도시한다.
도 9는 트레이닝 및 테스트(추론) 동안 변이체 분류자의 완전 연결 신경망의 수렴 곡선을 도시한다.
도 10은, 정밀 리콜 곡선을 사용하여, (i) EVS 모델 버전 2.8.2의 EVS 피처에 대해 트레이닝된 변이체 분류자의 완전 연결 신경망, (ii) EVS 모델 버전 2.9.2의 EVS 피처에 대해 트레이닝된 변이체 분류자의 완전 연결 신경망, (iii) EVS 모델 버전 2.8.2, 및 (iv) EVS 모델 버전 2.9.2에 의한 SNP 분류 성능을 비교한다.
도 11은, 정밀 리콜 곡선을 사용하여, (i) EVS 모델 버전 2.8.2의 EVS 피처에 대해 트레이닝된 변이체 분류자의 완전 연결 신경망, (ii) EVS 모델 버전 2.9.2의 EVS 피처에 대해 트레이닝된 변이체 분류자의 완전 연결 신경망, (iii) EVS 모델 버전 2.8.2, 및 (iv) EVS 모델 버전 2.9.2에 의한 인델 분류 성능을 비교한다.
도 12는 변이체 분류자를 구현하는 데 사용될 수 있는 컴퓨터 시스템의 간략화된 블록도이다.
하기 설명은, 통상의 기술자가 개시된 기술을 제조 및 사용할 수 있도록 제시된 것이며, 특정 응용분야 및 그 요건과 관련하여 제공된 것이다. 개시된 구현예에 대한 다양한 변형은 통상의 기술자에게 명백할 것이며, 본 명세서에서 정의된 일반적인 원리는 개시된 기술의 사상 및 범위를 벗어나지 않고 다른 구현예와 응용분야에 적용될 수 있다. 따라서, 개시된 기술은, 도시된 구현예들로 제한되도록 의도된 것이 아니라, 본 명세서에 개시된 원리 및 특징과 일치하는 가장 넓은 범위를 따른 것이다.
도입부
개시된 기술은, DNA 서열분석 데이터에 대하여 직접 동작하고, 자신의 고유한 피처 필터를 유도한다. 이것은, 표적 염기 위치를 잇는 복수의 정렬된 리드(read; 예를 들어, 10 내지 500 범위의 리드 깊이)를 처리한다. 이것은, 경량 하드웨어를 사용하여 리드들의 엘리간트 인코딩(elegant encoding)을 경량 분석과 결합하여 양호한 리콜 및 정밀도를 생성한다. 예를 들어, 각각 50개 내지 100개의 리드를 갖는 표적 염기 변이체 부위의 백만개의 트레이닝 예를, 단일 리콜 카드에서 양호한 리콜 및 정밀하게 10시간 이내에 트레이닝할 수 있다. 단일 GPU 카드는, 단일 GPU를 갖춘 컴퓨터가 저렴하고 유전자 데이터를 보는 사용자가 거의 보편적으로 이용할 수 있기 때문에 바람직하다. 이것은 클라우드 기반 플랫폼에서 쉽게 이용 가능하다.
엘리간트 인코딩은, 110개 이상의 염기가 각 측면에 측접된, 표적 염기를 중심에 두고 있는 하기 데이터를 결합한다. 물론, 리드가 221개의 염기 서열을 잇는 경우는 거의 없으므로, 대부분의 리드는 리드 서열의 일단 또는 양단에서 널(null) 염기를 갖는다. 리드 서열의 각 염기에 대해 인코딩된 데이터는, 개별 리드, 참조 리드로부터의 상응하는 참조 염기, 염기 판독으로부터의 염기 콜 정확도 점수, 염기 판독의 디옥시리보핵산(약어 DNA) 가닥성, 염기에 인접하는 삽입 변화의 삽입 계수치, 및 리드를 결정한 정렬에 개별 리드 사이트에서 결손이 있음을 나타내는 결손 플래그를 포함한다.
이 인코딩에서, 삽입 및 결손은 다르게 처리된다. 임의의 두 개의 리드의 위치 사이에는, 임의의 수의 삽입이 있을 수 있다. 그 삽입 계수치는 참조 위치들 사이의 임의의 수를 나타내는 데 사용된다. 삽입된 염기의 콜은 사용되지 않으며, 이는, 리드들 간의 오정렬이 발생할 수 있기 때문이다. 플래그 지정될 수 있는 특정 위치에서 결손이 발생한다. 두 개의 개별 리드 간에 여러 개의 결손이 있는 경우, 정렬 후, 결손 부위에 여러 개의 결손 플래그를 설정할 수 있다. 삭제된 염기에는, 어떠한 것도 부착되지 않으므로, ACGT 코드가 할당되지 않아야 한다.
이것은, 간단한 인코딩 시스템이며, 컬러 공간으로의 번역 또는 적응과 같이 이미지 처리 엔진에 의한 처리를 위한 적응을 포함하지 않는다. 단순성은 빠른 트레이닝에 기여한다.
더 많은 연산 자원을 이용할 수 있는 경우, 221개의 염기 위치보다 긴 서열을 사용할 수 있다. 플랫폼이 더욱 긴 리드 서열을 생성하도록 발전함에 따라, 더 많은 플랭킹 염기를 사용하는 이점이 명백해질 것으로 예상된다.
전술한 리드당 데이터는, 트레이닝 동안 그리고 선택적으로 동작 동안 레거시 시스템에 의해 생성되는 변이체당 특성화 데이터에 의해 보충될 수 있다. 특정 위치에서 변이체를 특성화하는 규칙 기반 수공 시스템이 많이 있다. 컨볼루션층을 통해 다수의 리드를 처리한 후, 변이체당 하나 이상의 입력을 입력으로서 사용할 수 있다. 최근에 추가된 변이체당 입력은 트레이닝을 단축한다. 레거시 시스템의 정확도가 이미 높기 때문에, 90%를 초과할 것으로 예상된다.
경량 분석 구조는 빠른 트레이닝에도 기여한다. 일부 실시예에서, 컨볼루션 출력 및 변이체당 데이터로부터의 입력을 수용하는 2층 완전 연결 구조가 후속하는, 리드당 데이터를 처리하기 위한 5개의 컨볼루션층은, 가볍고 정확한 망 구조인 것으로 입증되었다. 7개 및 8개의 컨볼루션층으로도 성공을 거두었으므로, 2개 내지 8개의 층이 동작하고 더 많은 층이 사용될 수 있다.
더욱 상세하게, 제1 컨볼루션층은, 221(염기)×100(리드)×12(ACGT 리드의 원-핫 인코딩(one-hot encoding)된 속성)에 나열된 인코딩을 수용한다. 중심 염기가 표적 위치로서 취해진다. 랜덤하게 초기화되었거나 이전에 트레이닝된 많은 필터가 적용된다. 한 설계에서는, 32개의 컨볼루션 필터가 층에 사용된다. 다차원 필터는 행들을 축소하는 경향이 있다.
백만개의 트레이닝 및 검증 샘플을 이용할 수 있으면, 7개의 트레이닝 에포크(epoch)가 양호한 결과를 내었다. 과적합을 피하기 위해 트레인 에포크의 수를 제한해야 한다. 에포크의 수를 제한하는 것은 과적합을 피하기 위해 드롭아웃과 결합될 수 있다.
용어
특허, 특허출원, 기사, 서적, 논문, 및 웹페이지를 포함하지만 이에 제한되지 않는 본 명세서에 인용된 모든 문헌 및 유사 자료의 전문은, 이러한 문헌 및 유사 자료의 형식에 관계없이, 본 명세서에 참고로 원용된다. 통합된 문헌과 유사 자료 중 하나 이상이 정의 용어, 용어 사용, 설명된 기술 등을 포함하지만 이에 제한되지 않는 본 출원과 상이하거나 상반되는 경우에는, 본 출원이 우선한다.
본 명세서에서 사용되는 바와 같이, 하기 용어들은 지시된 의미를 갖는다.
염기는 뉴클레오타이드 염기 또는 뉴클레오타이드, A(아데닌), C(사이토신), T(티민),또는 G(구아닌)를 가리킨다. 본 명세서에서는 "염기(들)" 및 "뉴클레오타이드(들)"를 상호교환가능하게 사용한다.
"염색체"라는 용어는, DNA 및 단백질 성분(특히 히스톤)을 포함하는 염색질 가닥으로부터 유도된 살아있는 세포의 유전-보유 유전자 운반체를 지칭한다. 종래의 국제적으로 인정되는 개별 인간 게놈 염색체 넘버링 시스템이 본 명세서에서 사용된다.
"사이트"라는 용어는, 참조 게놈 상의 고유한 위치(예를 들어, 염색체 ID, 염색체 위치, 및 배향)를 지칭한다. 일부 구현예에서, 사이트는 잔기, 서열 태그, 또는 서열 상의 세그먼트의 위치일 수 있다. "(유전자) 좌위"(locus)라는 용어는 참조 염색체 상의 핵산 서열 또는 다형성의 특정 위치를 지칭하는 데 사용될 수 있다.
본 명세서에서 "샘플"이라는 용어는, 통상적으로 핵산을 함유하는 생물학적 유체, 세포, 조직, 기관, 또는 유기체, 혹은 서열분석될 및/또는 상처리(phase)될 적어도 하나의 핵산 서열을 함유하는 핵산들의 혼합물로부터 유도된 샘플을 지칭한다. 이러한 샘플은, 객담/경구 액, 양수, 혈액, 혈액 분획물, 미세 침 생검 샘플(예를 들어, 외과적 생검, 미세 침 생검 등),소변, 복막액, 흉막액, 조직 외식편, 기관 배양물, 및 다른 임의의 조직 또는 세포 제제, 또는 이들의 분획물이나 유도체 또는 이들로부터 분리된 분획물이나 유도체를 포함하지만 이에 제한되지는 않는다. 샘플은 종종 인간 대상(예를 들어, 환자)으로부터 채취되지만, 샘플은, 개, 고양이, 말, 염소, 양, 소, 돼지 등을 포함하지만 이에 제한되지 않는 염색체를 갖는 임의의 유기체로부터 채취될 수 있다. 샘플은, 생물학적 공급원으로부터 취득되었을 때 그대로 또는 샘플의 특성을 변경하도록 전처리에 이어서 사용될 수 있다. 예를 들어, 이러한 전처리는, 혈액으로부터 혈장을 제조하고 점성 유체 등을 희석하는 것을 포함할 수 있다. 전처리 방법은, 또한, 여과, 침전, 희석, 증류, 혼합, 원심분리, 동결, 동결건조, 농축, 증폭, 핵산 단편화, 간섭 성분의 비활성화, 시약의 첨가, 용해 등을 포함할 수 있지만, 이에 제한되지는 않는다.
"서열"이라는 용어는 서로 연결된 뉴클레오타이드들의 가닥을 포함하거나 나타낸다. 뉴클레오타이드는 DNA 또는 RNA에 기초할 수 있다. 하나의 서열은 다수의 부서열(sub-sequence)을 포함할 수 있음을 이해해야 한다. 예를 들어, (예를 들어, PCR 앰플리콘의) 단일 서열은 350개의 뉴클레오타이드를 가질 수 있다. 샘플 리드(read)는 이들 350개 뉴클레오타이드 내에 다수의 부서열을 포함할 수 있다. 예를 들어, 샘플 리드는, 예를 들어, 20개 내지 50개의 뉴클레오타이드를 갖는 제1 및 제2 플랭킹 서열을 포함할 수 있다. 제1 및 제2 플랭킹 부서열은, 상응하는 부서열(예를 들어, 40개 내지 100개의 뉴클레오타이드)를 갖는 반복 세그먼트의 어느 일측에 위치할 수 있다. 플랭킹 부서열의 각각은 프라이머 부서열(예를 들어, 10개 내지 30개의 뉴클레오타이드)을 포함(또는 프라이머 부서열의 일부를 포함)할 수 있다. 용이한 판독을 위해, "서열"이라는 용어는, "서열"로 지칭될 것이나, 두 개의 서열이 반드시 공통 가닥 상에서 서로 분리될 필요는 없음을 이해할 수 있다. 본 명세서에 기재된 다양한 서열을 구별하기 위해, 서열에는 상이한 표지(예를 들어, 목표 서열, 프라이머 서열, 플랭킹 서열, 참조 서열 등)가 제공될 수 있다. "대립유전자"와 같은 다른 용어에는 유사한 대상들을 구별하도록 다른 표지가 부여될 수 있다. 본 명세서에서는 "리드(들)" 및 "서열 리드(들)"를 상호교환가능하게 사용할 수 있다.
"페어드-엔드 서열분석"라는 용어는 목표 분획물의 양측 말단을 서열분석하는 서열분석 방법을 지칭한다. 페어드 엔드 서열분석은, 유전자 융합 및 신규한 전사뿐만 아니라 게놈 재배열 및 반복 세그먼트의 검출을 용이하게 할 수 있다. 페어드-엔드 서열분석 방법은, PCT 공보 WO07010252, PCT 출원 일련번호 PCT/GB2007/003798, 및 미국 특허출원 공개공보 US 2009/0088327에 기재되어 있으며, 이들 각각은 본 명세서에 참고로 원용된다. 일례로, 일련의 동작들을 다음과 같이 수행할 수 있는데, 즉, (a) 핵산들의 클러스터를 생성하고; (b) 핵산들을 선형화하고; (c) 제1 서열분석 프라이머를 혼성화하고 상기한 바와 같이 확장, 스캐닝, 및 디블록킹의 반복 사이클을 수행하고, (d) 상보적 사본을 합성함으로써 유동 세포면 상의 목표 핵산을 "반전"시키고, (e) 재합성된 가닥을 선형화하고, (f) 제2 서열분석 프라이머를 혼성화하고 상기한 바와 같이 확장, 스캐닝, 및 디블록킹의 반복 사이클을 수행한다. 단일 사이클의 브리지 증폭에 대해 전술한 바와 같은 시약을 전달하여 반전 작업을 수행할 수 있다.
"참조 게놈" 또는 "참조 서열"이라는 용어는, 대상으로부터 확인된 서열을 참조하는 데 사용될 수 있는, 부분적인지 완전한지에 상관없이 임의의 유기체의 임의의 특정한 알려진 게놈 서열을 지칭한다. 예를 들어, 인간 대상 및 다른 많은 유기체에 사용되는 참조 게놈은 ncbi.nlm.nih.gov의 국립 생명공학 정보 센터에서 찾을 수 있다. "게놈"은, 핵산 서열로 발현된 유기체 또는 바이러스의 완전한 유전자 정보를 지칭한다. 게놈에는 유전자와 DNA의 비암호화 서열이 모두 포함된다. 참조 서열은 이러한 서열에 정렬된 리드보다 클 수 있다. 예를 들어, 참조 서열은, 약 100배 이상, 또는 약 1000배 이상, 또는 약 10,000배 이상, 또는 약 105배 이상, 또는 약 106배 이상, 또는 약 107배 이상 일 수 있다. 일례로, 참조 게놈 서열은 전장 인간 게놈의 서열이다. 다른 일례에서, 참조 게놈 서열은 염색체 13과 같은 특정 인간 염색체로 제한된다. 일부 구현예에서, 참조 염색체는 인간 게놈 버전 hg19로부터의 염색체 서열이다. 참조 게놈이라는 용어는 이러한 서열을 커버하도록 의도되었지만, 이러한 서열은 염색체 기준 서열이라고 칭할 수 있다. 참조 서열의 다른 예는, 임의의 종의 염색체, (가닥과 같은) 부염색체 영역 등뿐만 아니라 다른 종의 게놈도 포함한다. 다양한 구현예에서, 참조 게놈은 컨센서스 서열 또는 다수의 개체로부터 유도된 다른 조합이다. 그러나, 소정의 응용분야에서, 참조 서열은 특정 개체로부터 취해질 수 있다. 다른 구현예에서, "게놈"은, 게놈 서열의 표현 및 특정한 저장 포맷을 사용하는 소위 "그래프 게놈"(graph genome)도 커버한다. 다른 일 구현예에서, 그래프 게놈은, 대체 서열(예를 들어, 차이가 작은 염색체의 상이한 복제물들)이 그래프에서 상이한 경로로서 저장되는 표현을 가리킨다. 그래프 게놈 구현에 관한 추가 정보는, https://www.biorxiv.org/content/biorxiv/early/2018/03/20/194530.full.pdf에서 찾을 수 있으며, 그 내용의 전문은 본 명세서에 참고로 원용된다.
"리드"라는 용어는, 뉴클레오타이드 샘플 또는 참조의 분획물을 기술하는 서열 데이터의 수집을 지칭한다. "리드"이라는 용어는 샘플 리드 및/또는 참조 리드를 지칭할 수 있다. 통상적으로, 반드시 그런 것은 아니지만, 리드는 샘플 또는 참조에서의 연속 염기쌍들의 짧은 서열을 나타낸다. 리드는 샘플 또는 참조 분획물의 (ATCG로 된) 염기쌍 서열에 의해 상징적으로 표현될 수 있다. 리드는, 리드가 참조 서열과 일치하는지 또는 다른 기준을 충족하는지를 결정하도록 메모리 장치에 저장될 수 있고 적절하게 처리될 수 있다. 리드는, 서열분석 장치로부터 직접 또는 샘플에 관한 저장된 서열 정보로부터 간접적으로 취득될 수 있다. 일부 경우에, 리드는, 더 큰 서열 또는 영역을 확인하도록 사용될 수 있는, 예를 들어, 염색체 또는 게놈 영역 또는 유전자에 정렬되고 특정하게 할당될 수 있는 충분한 길이(예를 들어, 약 25bp 이상)의 DNA 서열이다.
차세대 서열분석 방법은, 예를 들어, 합성 기술(일루미나)에 의한 서열분석, 파이로시퀀싱(454), 이온 반도체 기술(이온 토렌트(Ion Torrent) 서열분석), 단일-분자 실시간 서열분석(퍼시픽 바이오사이언스(Pacific Biosciences)), 및 결찰(SOLiD 서열분석)에 의한 시퀀싱을 포함한다. 서열분석 방법에 따라, 각 리드의 길이는 약 30bp 내지 10,000bp를 초과하도록 가변될 수 있다. 예를 들어, SOLiD 서열분석기를 이용한 DNA 서열분석 방법은 약 50bp의 핵산 리드를 생성한다. 다른 예에서, 이온 토런트 서열분석은 최대 400bp의 핵산 리드를 생성하고, 454 파이로시퀀싱은 약 700bp의 핵산 리드를 생성한다. 또 다른 예에서, 단일-분자 실시간 서열분석 방법은 10,000bp 내지 15,000bp의 리드를 생성할 수 있다. 따라서, 소정의 구현예에서, 핵산 서열 리드의 길이는 30bp 내지 100bp, 50bp 내지 200bp, 또는 50bp 내지 400bp의 길이를 갖는다.
"샘플 리드", "샘플 서열", 또는 "샘플 분획물"이라는 용어들은 샘플로부터의 관심 게놈 서열에 대한 서열 데이터를 지칭한다. 예를 들어, 샘플 리드는, 순방향 및 역방향 프라이머 서열을 갖는 PCR 앰플리콘으로부터의 서열 데이터를 포함한다. 서열 데이터는 임의의 선택 서열 방법으로부터 취득될 수 있다. 샘플 리드는, 예를 들어, 합성에 의한 서열분석(sequencing-by-synthesis: SBS) 반응, 결찰에 의한 서열분석 반응, 또는 다른 임의의 적합한 서열분석 방법으로부터 발생하는 것일 수 있으며, 이를 위해 반복 요소의 길이 및/또는 동일성을 결정하는 것이 필요하다. 샘플 리드는, 다수의 샘플 리드로부터 유도된 컨센서스(예를 들어, 평균 또는 가중) 서열일 수 있다. 소정의 구현예에서, 참조 서열을 제공하는 것은, PCR 앰플리콘의 프라이머 서열에 기초하여 관심 좌위를 식별하는 것을 포함한다.
"원시 분획물"이라는 용어는, 샘플 리드 또는 샘플 분획물 내의 관심 있는 지정된 위치 또는 이차 위치와 적어도 부분적으로 중복되는 관심 게놈 서열의 일부에 대한 서열 데이터를 지칭한다. 원시 분획물의 비제한적인 예로는, 이중 스티치 분획물, 단일 스티치 분획물, 이중 언스티치 분획물, 및 단일 언스티치 분획물을 포함한다. "원시"라는 용어는, 원시 분획물이 샘플 리드의 잠재적 변이체에 대응하고 이러한 잠재적 변이체를 인증 또는 확인하는 변이체를 나타내는지 여부에 관계없이, 원시 분획물이 샘플 리드에서 서열 데이터와 일부 관계가 있는 서열 데이터를 포함한다는 것을 나타내는 데 사용된다. "원시 분획물"이라는 용어는, 분획물이 반드시 샘플 리드에서 변이체 콜을 유효성 확인하는 지지 변이체를 포함한다는 것을 나타내지는 않는다. 예를 들어, 제1 변이체를 나타내기 위해 변이체 콜 애플리케이션에 의해 샘플 리드가 결정될 때, 변이체 콜 애플리케이션은, 하나 이상의 원시 분획물이 다른 경우엔 샘플 리드의 변이체가 주어지는 경우 발생할 것으로 예상될 수 있는 대응 유형의 "지지" 변이체를 갖지 않는다고 결정할 수 있다.
"맵핑", "정렬된", "정렬", 또는 "정렬하는"이라는 용어들은, 리드 또는 태그를 참조 서열과 비교하여 참조 서열이 리드 서열을 포함하는지를 결정하는 프로세스를 지칭한다. 참조 서열이 리드를 포함하는 경우, 리드는, 참조 서열에 맵핑될 수 있고, 또는 특정 구현예에서 참조 서열의 특정 위치에 맵핑될 수 있다. 일부 경우에, 정렬은, 리드가 특정 참조 서열의 구성원인지 여부(즉, 리드가 참조 서열에 존재하는지 또는 부재하는지)를 단순히 알려준다. 예를 들어, 인간 염색체 13에 대한 참조 서열에 대한 리드의 정렬은, 염색체 13에 대한 참조 서열에 리드가 존재하는지 여부를 알려줄 것이다. 이 정보를 제공하는 도구를 세트 멤버쉽 테스터라고 한다. 일부 경우에, 정렬은, 리드 태그가 맵핑되는 참조 서열의 위치를 추가로 나타낸다. 예를 들어, 참조 서열이 전체 인간 게놈 서열인 경우, 정렬은, 리드가 염색체 13에 존재함을 나타내고, 리드가 특정 가닥 및/또는 염색체 13의 사이트에 있음을 추가로 나타낼 수 있다.
"인델"(indel)이라는 용어는, 유기체의 DNA에서의 염기의 삽입 및/또는 삭제를 지칭한다. 마이크로-인델은, 1개 내지 50개 뉴클레오타이드의 순 변화를 초래하는 인델을 나타낸다. 게놈의 코딩 영역에서, 인델의 길이가 3의 배수가 아닌 한, 이것은 프레임시프트 돌연변이를 생성할 것이다. 인델은 점 돌연변이와 대조될 수 있다. 인델은 뉴클레오타이드를 삽입하고 서열로부터 삭제하는 반면, 점 돌연변이는 DNA의 전체 수를 변경하지 않고 뉴클레오타이드들 중 하나를 대체하는 치환 형태이다. 인델은, 또한, 인접한 뉴클레오타이드에서의 치환으로서 정의될 수 있는 탠덤 염기 돌연변이(Tandem Base Mutation: TBM)와 대조될 수 있다 (주로 2개의 인접한 뉴클레오타이드에서의 치환에 해당하지만, 3개의 인접한 뉴클레오타이드에서의 치환이 관찰되었다).
"변이체"라는 용어는, 핵산 참조와는 다른 핵산 서열을 지칭한다. 통상적인 핵산 서열 변이체는, 단일 뉴클레오타이드 다형성(single nucleotide polymorphism: SNP), 짧은 삭제 및 삽입 다형성(Indel), 카피 수 변이(copy number variation: CNV), 마이크로위성 마커, 또는 짧은 탠덤 반복 및 구조적 변이를 제한 없이 포함한다. 체세포 변이체 콜링은, DNA 샘플에서 낮은 빈도로 존재하는 변이체를 식별하기 위한 노력이다. 체세포 변이체 콜링은 암 치료의 맥락에서 중요하다. 암은, DNA에 돌연변이가 축적되어 발생하는 것이다. 종양으로부터의 DNA 샘플은, 일반적으로 일부 정상 세포, (돌연변이가 적은) 암 진행의 초기 단계의 일부 세포, 및 (돌연변이가 많은) 일부 후기 단계 세포를 포함하여 이종성이다. 이러한 이종성 때문에, (예를 들어, FFPE 샘플로부터) 종양을 서열분석할 때, 체세포 돌연변이는 종종 낮은 빈도로 나타난다. 예를 들어, SNV는 주어진 염기를 커버하는 리드의 10%에서만 보일 수 있다. 변이체 분류자에 의해 체세포 또는 생식세포로서 분류되는 변이체도, 본 명세서에서 "테스트 중인 변이체"라고 지칭된다.
"노이즈"라는 용어는, 서열분석 프로세스 및/또는 변이체 콜 애플리케이션에서의 하나 이상의 에러로 인한 잘못된 변이체 콜을 지칭한다.
"변이체 빈도"라는 용어는, 모집단의 특정 좌위에서의 대립유전자(유전자의 변이체)의 상대 빈도를 분획률 또는 백분율로서 표현한 것을 나타낸다. 예를 들어, 분획률 또는 백분율은 해당 대립유전자를 보유하는 모집단에서의 모든 염색체의 분획률일 수 있다. 예를 들어, 샘플 변이체 빈도는, 개인으로부터 관심 게놈 서열에 대하여 취득된 샘플 및/또는 리드의 수에 상응하는 "모집단"에 대한 관심 게놈 서열을 따른 특정 좌위/위치에서의 대립유전자/변이체의 상대 빈도를 나타낸다. 다른 일례로, 베이스라인 변이체 빈도는, 하나 이상의 베이스라인 게놈 서열을 따른 특정 좌위/위치에서의 대립 유전자/변이체의 상대 빈도를 나타내며, 여기서 "모집단"은, 정상적인 개인들의 모집단으로부터 하나 이상의 베이스라인 게놈 서열에 대하여 취득된 샘플 및/또는 리드의 수에 상응한다.
용어 "변이체 대립유전자 빈도"(VAF)는, 변이체를 목표 위치에서의 전체 커버리지로 나눈 값과 일치하는 것으로 관찰된 서열분석된 리드의 백분율을 지칭한다. VAF는 변이체를 전달하는 서열분석된 리드의 비율을 측정한 것이다.
"위치", "지정된 위치", 및 "좌위"라는 용어들은, 뉴클레오타이드들의 서열 내에서의 하나 이상의 뉴클레오타이드의 위치 또는 좌표를 지칭한다. "위치", "지정된 위치", 및 "좌위"라는 용어들은, 또한, 뉴클레오타이드들의 서열에서의 하나 이상의 염기 쌍의 위치 또는 좌표를 지칭한다.
"일배체형"이라는 용어는 함께 유전되는 염색체 상의 인접 사이트들에 있는 대립유전자들의 조합을 지칭한다. 일배체형은, 좌위의 주어진 세트가 발생하였다면, 이러한 세트 간에 발생한 재조합 이벤트들의 수에 따라 하나의 좌위, 여러 개의 좌위, 또는 전체 염색체일 수 있다.
본 명세서에서 "임계값"이라는 용어는, 샘플, 핵산, 또는 그 일부(예를 들어, 리드)를 특성화하도록 컷오프로서 사용되는 숫자 또는 비숫자 값을 지칭한다. 임계값은 경험적 분석에 기초하여 가변될 수 있다. 임계값은, 이러한 값을 발생시키는 소스가 특정 방식으로 분류되어야 하는지 여부를 결정하도록 측정된 값 또는 계산된 값과 비교될 수 있다. 임계값은 경험적으로 또는 분석적으로 식별될 수 있다. 임계값의 선택은, 사용자가 분류를 원하는 신뢰 수준에 의존한다. 임계값은, 특정 목적을 위해(예를 들어, 감도 및 선택성의 균형을 맞추기 위해) 선택될 수 있다. 본 명세서에서 사용되는 바와 같이, "임계값"이라는 용어는, 분석 과정이 변경될 수 있는 지점 및/또는 동작이 트리거될 수 있는 지점을 나타낸다. 임계값은 미리 정해진 수일 필요가 없다. 대신, 임계값은, 예를 들어, 복수의 인자에 기초한 함수일 수 있다. 임계값은 상황에 적응적일 수 있다. 또한, 임계값은 상한값, 하한값, 또는 한계값들 사이의 범위를 나타낼 수 있다.
일부 구현예에서는, 서열분석 데이터에 기초한 메트릭 또는 점수가 임계값과 비교될 수 있다. 본 명세서에서 사용되는 바와 같이, "메트릭" 또는 "점수"라는 용어는, 서열분석 데이터로부터 결정된 값 또는 결과를 포함할 수 있다. 임계값과 마찬가지로, 메트릭 또는 점수는 상황에 따라 적응적일 수 있다. 예를 들어, 메트릭 또는 점수는 정규화된 값일 수 있다. 점수 또는 메트릭의 예로서, 하나 이상의 구현예는 데이터를 분석할 때 계수 점수를 사용할 수 있다. 계수 점수는 샘플 리드의 수에 기초할 수 있다. 샘플 리드는, 샘플 리드가 하나 이상의 공통 특성 또는 품질을 갖도록 하나 이상의 필터링 단계를 겪을 수 있다. 예를 들어, 계수 점수를 결정하기 위해 사용되는 각각의 샘플 리드는 참조 서열과 정렬되었을 수 있고 또는 잠재적 대립유전자로서 할당될 수 있다. 공통 특성을 갖는 샘플 리드의 수는 리드 계수치를 결정하기 위해 계수될 수 있다. 계수 점수는 리드 계수치에 기초할 수 있다. 일부 구현예에서, 계수 점수는 리드 계수와 동일한 값일 수 있다. 다른 구현예에서, 계수 점수는 리드 계수치 및 다른 정보에 기초할 수 있다. 예를 들어, 계수 점수는, 유전자 좌위의 특정 대립유전자에 대한 리드 수 및 유전자 좌위에 대한 총 리드 수에 기초할 수 있다. 일부 구현예에서, 계수 점수는 유전자 좌위에 대한 리드 계수치 및 이전에 취득된 데이터에 기초할 수 있다. 일부 구현예에서, 계수 점수들은 미리 결정된 값들 간에 정규화된 점수들일 수 있다. 계수 점수는, 또한, 샘플의 다른 좌위로부터의 리드 계수치의 함수 또는 관심 샘플과 동시에 실행된 다른 샘플로부터의 리드 계수치의 함수일 수 있다. 예를 들어, 계수 점수는, 특정 대립유전자의 리드 계수치 및 샘플 내의 다른 좌위의 리드 계수치 및/또는 다른 샘플로부터의 리드 계수치의 함수일 수 있다. 일례로, 다른 좌위로부터의 리드 계수치 및/또는 다른 샘플로부터의 리드 계수치는 특정 대립유전자에 대한 계수 점수를 정규화하는 데 사용될 수 있다.
"커버리지" 또는 "분획물 커버리지"라는 용어는, 서열의 동일한 분획물에 대한 다수의 샘플 리드의 계수치 또는 다른 측정값을 지칭한다. 리드 계수치는 대응하는 분획물을 커버하는 리드 수의 계수치를 나타낼 수 있다. 대안으로, 커버리지는, 이력 지식, 샘플의 지식, 좌위의 지식 등에 기초하는 지정된 계수에 리드 계수치를 곱함으로써 결정될 수 있다.
"리드 깊이"(통상적으로 "×"가 후속하는 수)라는 용어는 목표 위치에서 중복되는 정렬을 갖는 서열분석된 리드의 수를 지칭한다. 이는 종종 간격들의 세트(예를 들어, 엑손, 유전자 또는 패널)에 걸쳐 컷오프를 초과하는 평균 또는 백분율로서 표현된다. 예를 들어, 임상 보고서에 따르면, 패널 평균 커버리지가 1,105×이고 목표 염기의 98%가 >100×를 커버한다고 말할 수 있다.
"염기 콜 품질 점수" 또는 "Q 점수"라는 용어는, 단일 서열분석된 염기가 정확한 확률에 반비례하여 0 내지 50 범위의 PHRED-스케일 확률을 지칭한다. 예를 들어, Q가 20인 T 염기 콜은, 확률이 99.99%인 경우 올바른 것으로 간주될 수 있다. Q<20인 모든 염기 콜은 품질이 낮은 것으로 간주되어야 하며, 변이체를 지지하는 서열분석된 리드의 상당 부분이 품질이 낮은 것으로 식별된 임의의 변이체는 잠재적 위양성으로 간주되어야 한다.
"변이체 리드" 또는 "변이체 리드 수"라는 용어는 변이체의 존재를 지지하는 서열분석된 리드의 수를 지칭한다.
"가닥성"(또는 DNA 가닥성)에 관하여, DNA의 유전자 메시지는 문자 A, G, C, T의 스트링으로서 표현될 수 있다. 예를 들어, 5' - AGGACA - 3'을 들 수 있다. 종종, 서열은 여기에 표시된 방향으로 작성되며, 즉, 5' 말단이 좌측이고 3' 말단이 우측이다. DNA는 때때로 (일부 바이러스에서와 같이) 단일 가닥 분자로서 발생할 수 있지만, 일반적으로 DNA를 이중 가닥 단위로 발견한다. 이것은 두 개의 반평행(antiparallel) 가닥을 갖는 이중 나선 구조를 갖는다. 이 경우, "반평행"이라는 용어는, 두 개의 가닥이 병렬로 이어지지만 반대 극성을 가짐을 의미한다. 이중 가닥 DNA는 염기들 간의 페어링에 의해 함께 유지되며, 페어링은, 항상 아데닌(A)이 티민(T)과 쌍을 이루고 사이토신(C)이 구아닌(G)과 쌍을 이룬다. 이러한 페어링을 상보성이라고 하며, DNA의 한 가닥을 나머지 가닥의 상보체라고 한다. 따라서, 이중 가닥 DNA는 다음과 같이 2개의 스트링으로서 표시될 수 있으며, 즉, 5' - AGGACA - 3' 및 3' - TCCTGT - 5'으로 표시될 수 있다. 2개의 가닥은 반대 극성을 갖는다는 점에 주목한다. 이에 따라, 2개의 DNA 가닥의 가닥성은, 참조 가닥 및 그 상보체, 순방향 가닥 및 역방향 가닥, 상부 가닥 및 하부 가닥, 센스 가닥 및 안티센스 가닥, 또는 왓슨 가닥 및 크릭 가닥이라고 칭할 수 있다.
리드 정렬(리드 맵핑이라고도 함)은 서열이 게놈의 어디에서 왔는지를 알아내는 프로세스이다. 일단 정렬이 수행되면, 주어진 리드의 "맵핑 품질" 또는, "맵핑 품질 점수(mapping quality score: MAPQ)"는 게놈 상의 해당 위치가 정확할 확률을 정량화한다. 맵핑 품질은 프레드 스케일(phred scale)로 인코딩되며, 여기서 P는 정렬이 올바르지 않을 확률이
Figure pat00003
로 계산되며, 여기서 MAPQ는 맵핑 품질이다. 예를 들어, 맵핑 품질이 40 = 10의 -4의 거듭제곱은, 리드가 잘못 정렬될 가능성이 0.01%라는 것을 의미한다. 따라서, 맵핑 품질은, 리드의 염기 품질, 참조 게놈의 복잡성, 및 페어드-엔드 정보와 같은 몇 가지 정렬 인자에 연관된다. 첫 번째와 관련하여, 리드의 염기 품질이 낮으면, 이는 관찰된 서열이 잘못될 수 있어서 서열의 정렬이 잘못되었음을 의미한다. 두 번째와 관련하여, 맵핑 가능성은 게놈의 복잡성을 나타낸다. 반복 영역은 맵핑하기가 더 어려우며, 이러한 영역에 속하는 리드는 일반적으로 낮은 맵핑 품질을 얻는다. 이와 관련하여, MAPQ는, 리드들이 고유하게 정렬되지 않았으며 이들의 실제 원점을 결정할 수 없다는 사실을 반영한다. 세 번째와 관련하여, 페어드-엔드 서열분석 데이터의 경우, 일치하는 쌍들이 잘 정렬될 가능성이 더 높다. 맵핑 품질이 높을수록, 정렬이 양호하다. 우수한 맵핑 품질로 정렬된 리드는, 일반적으로 높은 맵핑 가능성 영역에서 리드 서열이 양호하였고 불일치가 거의 없이 정렬되었음을 의미한다. MAPQ 값은 정렬 결과의 품질 제어로서 사용될 수 있다. 20보다 큰 MAPQ로 정렬된 리드들의 비율은 일반적으로 하향 분석에 사용된다.
서열분석 프로세스
본 명세서에 설명된 구현예들은, 서열 변이를 식별하기 위해 핵산 서열을 분석하는 데 적용될 수 있다. 구현예들은, 유전자 위치/좌위의 잠재적 변이체/대립유전자를 분석하고 유전자 좌위의 유전자형을 결정하거나 다시 말하면 좌위를 위한 유전자형 콜을 제공하는 데 사용될 수 있다. 예를 들어, 핵산 서열은 미국 특허출원 공개번호 제2016/0085910호 및 미국 특허출원 공개번호 제2013/0296175호에 기술된 방법 및 시스템에 따라 분석될 수 있으며, 이들 문헌의 완전한 주제 전문은 본 명세서에서 원용된다.
일 구현예에서, 서열분석 프로세스는 DNA와 같은 핵산을 포함하거나 포함하는 것으로 의심되는 샘플을 수신하는 단계를 포함한다. 샘플은, 동물(예를 들어, 인간), 식물, 박테리아 또는 진균과 같이 공지된 또는 미지의 공급원으로부터 유래될 수 있다. 샘플은 공급원으로부터 직접 취해질 수 있다. 예를 들어, 혈액 또는 타액은 개인으로부터 직접 취해질 수 있다. 대안으로, 샘플은 공급원으로부터 직접 취득되지 않을 수 있다. 이어서, 하나 이상의 프로세서는 서열분석을 위해 샘플을 준비하도록 시스템에 지시한다. 준비는 외부 물질을 제거 및/또는 소정의 물질(예를 들어, DNA)을 격리하는 것을 포함할 수 있다. 생물학적 샘플은 특정 분석에 대한 피처를 포함하도록 준비될 수 있다. 예를 들어, 생물학적 샘플은 합성에 의한 서열분석(SBS)를 위해 준비될 수 있다. 소정의 구현예에서, 준비는 게놈의 소정의 영역의 증폭을 포함할 수 있다. 예를 들어, 준비는 STR 및/또는 SNP를 포함하는 것으로 알려진 미리 결정된 유전자 좌위를 증폭시키는 것을 포함할 수 있다. 유전자 좌위는 미리 결정된 프라이머 서열을 사용하여 증폭될 수 있다.
다음에, 하나 이상의 프로세서는 시스템이 샘플을 서열분석하도록 지시한다. 서열분석은 공지된 다양한 서열분석 프로토콜을 통해 수행될 수 있다. 특정 구현예에서, 서열분석은 SBS를 포함한다. SBS에서, 복수의 형광-표지된 뉴클레오타이드는, 광학 기판의 표면(예를 들어, 유동 세포의 채널을 적어도 부분적으로 정의하는 표면)에 존재하는 증폭된 DNA의 복수의 클러스터(수백만의 클러스터일 수 있음)를 서열분석하는 데 사용된다. 유동 세포들은, 유동 세포가 적절한 유동 세포 홀더 내에 배치되는 서열분석을 위한 핵산 샘플들을 포함할 수 있다.
핵산은, 핵산이 미지의 목표 서열에 인접한 공지된 프라이머 서열을 포함하도록 준비될 수 있다. 제1 SBS 서열분석 사이클을 개시하기 위해, 하나 이상의 상이하게 표지된 뉴클레오타이드, 및 DNA 폴리머라제 등이 유체 흐름 서브시스템에 의해 유동 세포 내로/유동 세포를 통해 흐를 수 있다. 단일 유형의 뉴클레오타이드가 한 번에 추가될 수 있거나, 서열분석 절차에 사용되는 뉴클레오타이드는 가역적 종결 특성을 갖도록 특별히 설계될 수 있으며, 따라서 서열분석 반응의 각 사이클이 여러 유형의 표지된 뉴클레오타이드(예를 들어, 석은 T, G)가 존재하는 가운데 동시에 일어날 수 있게 한다. 뉴클레오타이드는 형광단과 같은 검출가능한 표지 모이어티를 포함할 수 있다. 4개의 뉴클레오타이드가 함께 혼합되는 경우, 폴리머라제는 혼입할 정확한 염기를 선택할 수 있고, 각 서열은 단일 염기에 의해 확장된다. 비혼합 뉴클레오타이드는 유동 세포를 통해 세척액을 흐르게 함으로써 세척될 수 있다. 하나 이상의 레이저가 핵산을 자극하고 형광을 유발할 수 있다. 핵산으로부터 방출되는 형광은 혼입된 염기의 형광단에 기초하고, 상이한 형광단들은 상이한 파장의 방출 광을 방출할 수 있다. 디블로킹 시약을 유동 세포에 첨가하여 확장 및 검출된 DNA 가닥으로부터 가역적 종결자 그룹을 제거할 수 있다. 이어서, 디블로킹 시약은 유동 세포를 통해 세척 용액을 흐르게 함으로써 세척될 수 있다. 이어서, 유동 세포는, 상기 기재된 바와 같이 표지된 뉴클레오타이드의 도입으로 시작하여 서열분석의 추가 사이클에 대하여 준비된다. 서열분석 실행을 완료하기 위해 유체 및 검출 동작들을 여러 번 반복할 수 있다. 서열분석 방법의 예는, 예를 들어, Bentley 등의 Nature 456:53-59 (2008); 국제출원 공개번호 WO 04/018497; 미국 특허번호 7,057,026; 국제출원 공개번호 WO 91/06678; 국제출원 공개번호 WO 07/123744; 미국 특허번호 7,329,492; 미국 특허번호 7,211,414; 미국 특허번호 7,315,019; 미국 특허번호 7,405,281; 및 미국 특허출원 공개번호 2008/0108082에 개시되어 있으며, 이들 문헌의 각각은 본 명세서에 참고로 원용된다.
일부 구현예에서, 핵산은, 표면에 부착될 수 있고 서열분석 전에 또는 서열분석 동안 증폭될 수 있다. 예를 들어, 증폭은, 브리지 증폭을 이용하여 수행되어 표면 상에 핵산 클러스터를 형성할 수 있다. 유용한 브리지 증폭 방법은, 예를 들어, 미국 특허번호 5,641,658; 미국 특허출원 공개번호 2002/0055100; 미국 특허 제7,115,400호; 미국 특허출원 공개번호 2004/0096853; 미국 특허출원 공개번호 2004/0002090; 미국 특허출원 공개번호 2007/0128624; 및 미국 특허출원 공개번호 2008/0009420에 개시되어 있으며, 이들 문헌 각각의 전문은 본 명세서에 참고로 원용된다. 표면 상의 핵산을 증폭시키는 또 다른 유용한 방법은, 예를 들어, Lizardi 등의 Nat. Genet. 19:225-232 (1998) 및 미국 특허출원 공개번호 2007/0099208 A1에 개시된 바와 같은 롤링 서클 증폭(RCA)이며, 이들 문헌 각각은 본 명세서에 참고로 원용된다.
SBS 프로토콜의 일례는, 예를 들어, 국제공개번호 WO 04/018497, 미국 특허출원 공개번호 2007/0166705A1, 및 미국 특허 제7,057,026호에 기재된 바와 같이, 제거 가능한 3' 블록을 갖는 변형된 뉴클레오타이드를 이용하며, 이들 문헌 각각은 본 명세서에 참고로 원용된다. 예를 들어, SBS 시약의 반복 사이클은, 예를 들어, 브리지 증폭 프로토콜의 결과로 목표 핵산이 부착된 유동 세포로 전달될 수 있다. 핵산 클러스터는 선형화 용액을 사용하여 단일 가닥 형태로 전환될 수 있다. 선형화 용액은, 예를 들어, 각 클러스터의 하나의 가닥을 절단할 수 있는 제한 엔도뉴클레아제를 함유할 수 있다. 다른 절단 방법은, 특히, 화학적 절단(예를 들어, 과옥소산염에 의한 다이올 연결의 절단), 엔도뉴클레아제에 의한 절단에 의한 염기성 사이트의 절단(예를 들어, 미국 매사추세츠 입스위치에 소재하는 NEB에 의해 공급되는 바와 같은 'USER', 부품 번호 M5505S), 열이나 알칼리에 대한 노출, 데옥시리보뉴클레오타이드로 달리 구성된 증폭 산물로 혼입된 리보뉴클레오타이드의 절단, 광화학적 절단, 또는 펩티드 링커의 절단을 포함하여, 효소 또는 닉킹 효소를 제한하기 위한 대체 방법으로서 사용될 수 있다. 선형화 동작 후에, 서열분석 프라이머를 서열분석될 목표 핵산에 혼성하기 위한 조건 하에서 서열분석 프라이머를 유동 세포로 전달할 수 있다.
이어서, 유동 세포를, 단일 뉴클레오타이드 첨가에 의해 각각의 목표 핵산에 혼성화된 프라이머를 확장시키는 조건 하에서 제거 가능한 3' 블록 및 형광 표지를 갖는 변형된 뉴클레오타이드를 갖는 SBS 확장 시약과 접촉시킬 수 있다. 일단 변형된 뉴클레오타이드가 서열분석되는 템플릿의 영역에 상보적인 성장하는 폴리뉴클레오타이드 쇄에 혼합되었다면, 추가 서열 확장을 지시하기 위해 이용 가능한 유리 3'-OH기가 없기 때문에, 단일 뉴클레오타이드만이 각 프라이머에 첨가되고, 따라서, 중합효소가 추가 뉴클레오타이드를 추가할 수 없다. SBS 확장 시약은, 제거될 수 있고 방사선으로 여기 상태에서 샘플을 보호하는 성분들을 포함하는 스캔 시약으로 교체될 수 있다. 스캔 시약을 위한 예시적인 성분들은 미국 특허출원 공개제2008/0280773 A1호 및 미국 특허 출원 제13/018,255호에 기재되어 있으며, 이들 문헌 각각은 본 명세서에 참고로 원용된다. 이어서, 확장된 핵산은 스캔 시약의 존재 하에서 형광 검출될 수 있다. 일단 형광이 검출되었다면, 사용된 블록킹 그룹에 적합한 디블로킹 시약을 사용하여 3' 블록을 제거할 수 있다. 각 블록킹 그룹에 유용한 예시적인 디블로킹 시약은 WO0044018497, US 2007/0166705 A1, 및 미국 특허번호 7,057,026에 기재되어 있으며, 이들 문헌 각각은 본 명세서에 참고로 원용된다. 디블로킹 시약을 세척하여, 목표 핵산을, 이제 추가 뉴클레오타이드의 첨가가 가능한 성분인 3'-OH기를 갖는 확장된 프라이머에 혼성화되게 한다. 따라서, 하나 이상의 동작 사이에서의 선택적 세척에 의해 확장 시약, 스캔 시약, 및 디블로킹 시약을 첨가하는 주기는, 원하는 서열이 취득될 때까지 반복될 수 있다. 상기 사이클들은, 각각의 변형된 뉴클레오타이드 각각이 특정 염기에 상응하는 것으로 공지된 상이한 표지로 부착될 때 사이클당 단일 확장 시약 전달 동작을 사용하여 수행될 수 있다. 상이한 표지들은, 각각의 혼입 동작 동안 첨가되는 뉴클레오타이드들의 구별을 용이하게 한다. 대안으로, 각 사이클은, 확장 시약 전달의 개별 동작 및 후속하는 시약 전달 및 검출의 개별 동작을 포함할 수 있으며, 이 경우, 2개 이상의 뉴클레오타이드가 동일한 표지를 가질 수 있고 공지된 전달 순서에 기초하여 구별될 수 있다.
서열분석 동작을 특정 SBS 프로토콜과 관련하여 전술하였지만, 임의의 다양한 다른 분자 분석 중 임의의 것을 서열분석하기 위한 다른 프로토콜이 필요에 따라 수행될 수 있음을 이해할 것이다.
이어서, 시스템의 하나 이상의 프로세서는 후속 분석을 위해 서열분석 데이터를 수신한다. 서열분석 데이터는 .BAM 파일과 같이 다양한 방식으로 포맷화될 수 있다. 서열분석 데이터는 예를 들어 다수의 샘플 리드를 포함할 수 있다. 서열분석 데이터는 뉴클레오타이드의 상응하는 샘플 서열을 갖는 복수의 샘플 리드를 포함할 수 있다. 하나의 샘플 리드만이 설명되고 있지만, 서열분석 데이터는 예를 들어 수백, 수천, 수십만 또는 수백만개의 샘플 리드를 포함할 수 있음을 이해해야 한다. 상이한 샘플 리드는 상이한 수의 뉴클레오타이드를 가질 수 있다. 예를 들어, 샘플 리드는 10개의 뉴클레오타이드 내지 약 500개의 뉴클레오타이드 이상의 범위에 있을 수 있다. 샘플 리드들은 공급원(들)의 전체 게놈에 걸쳐 이어질 수 있다. 일례로, 샘플 리드 값은, STR이 의심되거나 SNP가 의심되는 그러한 유전자 좌위와 같은 미리 정해진 유전자 좌위에 관한 것이다.
각각의 샘플 리드는, 샘플 서열, 샘플 분획물, 또는 표적 서열이라고 칭할 수 있는 뉴클레오타이드들의 서열을 포함할 수 있다. 샘플 서열은, 예를 들어, 프라이머 서열, 플랭킹 서열, 및 표적 서열을 포함할 수 있다. 샘플 서열 내의 뉴클레오타이드의 수는 30, 40, 50, 60, 70, 80, 90, 100 이상을 포함할 수 있다. 일부 구현예에서, 하나 이상의 샘플 리드(또는 샘플 서열)는, 적어도 150개의 뉴클레오타이드, 200개의 뉴클레오타이드, 300개의 뉴클레오타이드, 400개의 뉴클레오타이드, 500개의 뉴클레오타이드 이상을 포함한다. 일부 구현예에서, 샘플 리드는 1000개를 초과하는 뉴클레오타이드, 2000개 이상의 뉴클레오타이드를 포함할 수 있다. 샘플 리드(또는 샘플 서열)는 한쪽 또는 양쪽 말단에 프라이머 서열을 포함할 수 있다.
다음에, 하나 이상의 프로세서는 서열분석 데이터를 분석하여 잠재적 변이체 콜(들) 및 샘플 변이체 콜(들)의 샘플 변이체 빈도를 취득한다. 상기 동작은, 또한, 변이체 콜 애플리케이션 또는 변이체 콜러라고 칭할 수 있다. 따라서, 변이체 콜러는 변이체를 식별 또는 검출하고, 변이체 분류자는 검출된 변이체를 체세포 또는 생식세포로서 분류한다, 대안의 변이체 콜러는 본원의 구현예에 따라 이용될 수 있고, 여기서 상이한 변이체 콜러들은, 관심 샘플의 피처 등에 기초하여 수행되는 서열분석 동작의 유형에 기초하여 사용될 수 있다. 변이체 콜 애플리케이션의 비제한적인 일례는, https://github.com/Illumina/Pisces에 호스팅되고 문헌[Dunn, Tamsen & Berry, Gwenn & Emig-Agius, Dorothea & Jiang, Yu & Iyer, Anita & Udar, Nitin & Strφmberg, Michael. (2017). Pisces: An Accurate and Versatile Single Sample Somatic and Germline Variant Caller. 595-595. 10.1145/3107411.3108203]에 개시된 일루미나사(캘리포니아주 샌디에이고 소재)에 의한 Pisees™이 있으며, 이 문헌의 완전한 주제 전문은 명백하게 본 명세서에 참고로 원용된다.
이러한 변이체 콜 애플리케이션은 다음과 같이 4개의 순차적으로 실행되는 모듈을 포함할 수 있다.
(1) 파이시즈 리드 스티치(Pisces Read Stitcher): BAM(동일한 분자의 리드 1과 리드 2)의 페어드 리드들을 컨센서스 리드로 스티칭함으로써 노이즈를 감소시킨다. 출력은 스티칭된 BAM이다.
(2) 파이시즈 변이체 콜러(Pisces Variant Caller): 작은 SNV, 삽입, 및 삭제를 콜한다. 파이시즈는, 리드 경계, 기본 필터링 알고리즘, 및 간단한 푸아송 기반 변이체 신뢰도 점수매김 알고리즘에 의해 분해된 변이체들을 병합하는 변이체 허탈 알고리즘을 포함한다. 출력은 VCF이다.
(3) 파이시즈 변이체 품질 재교정기(Pisces Variant Quality Recalibrator; VQR): 변이체 콜이 열적 손상 또는 FFPE 탈아민에 연관된 패턴을 압도적으로 추종하는 경우, VQR 단계는 의심되는 변이체 콜의 변이체 Q 점수를 다운그레이드한다. 출력은 조정된 VCF이다.
(4) 파이시즈 변이체 위상기(Pisces Variant Phase)(Scylla): 리드-백 그리디(read-backed greedy) 클러스터링 방법을 사용하여 작은 변이체들을 클론 하위모집단의 복잡한 대립유전자들로 조립한다. 이를 통해 하향 툴에 의한 기능적 결과를 더욱 정확하게 결정할 수 있다. 출력은 조정된 VCF이다.
부가적으로 또는 대안적으로, 동작은, https://github.com/Illumina/strelka에 호스팅되고 문헌[T Saunders, Christopher & Wong, Wendy & Swamy, Sajani & Becq, Jennifer & J Murray, Lisa & Cheetham, Keira. (2012). Strelka: Accurate somatic small-variant calling from sequenced tumor-normal sample pairs. Bioinformatics (Oxford, England). 28. 1811-7. 10.1093/bioinformatics/bts271]에 개시된 일루미나사에 의한 변이체 콜 애플리케이션 StrelkaTM을 이용할 수 있으며, 이러한 문헌의 주제 전문은, 명백하게 본 명세서에 참고로 원용된다. 게다가, 부가적으로 또는 대안적으로, 동작은, https://github.com/Illumina/strelka에 호스팅되고 문헌[Kim, S., Scheffler, K., Halpern, A.L., Bekritsky, M.A., Noh, E.,
Figure pat00004
, M., Chen, X., Beyter, D., Krusche, P., and Saunders, C.T. (2017). Strelka2: Fast and accurate variant calling for clinical sequencing applications]에 개시된 일루미나사에 의한 변이체 콜 애플리케이션 Strelka2™을 이용할 수 있으며, 이러한 문헌의 주제 전문은, 명백하게 본 명세서에 참고로 원용된다. 게다가, 부가적으로 또는 대안적으로, 동작은, https://github.com/Illumina/Nirvana/wiki에 호스팅되고 문헌[Stromberg, Michael & Roy, Rajat & Lajugie, Julien & Jiang, Yu & Li, Haochen & Margulies, Elliott. (2017). Nirvana: Clinical Grade Variant Annotator. 596-596. 10.1145/3107411.3108204]에 개시된 일루미나사에 의한 변이체 주석/콜 툴 NirvanaTM을 이용할 수 있으며, 이러한 문헌의 주제 전문은, 명백하게 본 명세서에 참고로 원용된다.
이러한 변이체 주석/콜 툴은, 아래와 같이 Nirvana에 개시된 알고리즘 기술 등의 상이한 알고리즘 기술을 적용할 수 있다:
a. 간격 어레이를 사용하여 중복되는 모든 전사를 식별: 기능적 주석의 경우, 변이체와 중복되는 모든 전사를 식별할 수 있고 간격 트리를 사용할 수 있다. 그러나, 일련의 간격은 정적일 수 있으므로, 이를 간격 어레이에 추가로 최적화할 수 있었다. 간격 트리는 O(min(n, k lg n)) 시간으로 모든 중복되는 전사를 리턴하며, 여기서, n은 트리의 간격의 수이고, k는 중복되는 간격의 수이다. 실제로, k는 대부분의 변이체에 대한 n에 비해 실제로 작기 때문에, 간격 트리의 유효 런타임은 O(k lg n)이다. 제1 중복 간격만 찾으면 되고 이어서 남아 있는 (k-1)개를 통해 열거 처리하도록 모든 간격이 정렬된 어레이로 저장되는 간격 어레이를 생성함으로써 O(lg n + k)으로 개선하였다.
b. CNV/SV (Yu): 카피 수 변이 및 구조 변이체에 대한 주석을 제공할 수 있다. 작은 변이체의 주석과 유사하게, sv 및 또한 이전에 보고된 구조 변이체와 중복되는 전사체는 온라인 데이터베이스에서 주석 표시될 수 있다. 작은 변이체와는 달리, 너무 많은 전사체가 큰 sv와 중복되므로 모든 중복되는 전사체에 주석을 달 필요는 없다. 대신, 부분 중첩 유전자에 속하는 모든 중복되는 전사체에 주석을 달 수 있다. 구체적으로, 이들 전사체에 대해, 영향을 받은 인트론, 엑손, 및 구조 변이체에 의해 야기된 결과가 보고될 수 있다. 모든 중복 전사체를 출력할 수 있는 옵션을 사용할 수 있지만, 유전자 심볼, 전사체와 정규적으로 중복되는지 또는 부분적으로 중복되는지의 플래그 등의 이러한 전사체에 대한 기본 정보를 보고할 수 있다. 각각의 SV/CNV에 대해, 이들 변이체 및 해당 빈도가 다른 모집단에서 연구되었는지를 아는 것도 중요하다. 따라서, 1000개의 게놈, DGV, 및 ClinGen과 같이 외부 데이터베이스에서 중복되는 sv를 보고하였다. 어떤 sv가 중복되는지를 결정하도록 임의의 컷오프를 사용하는 것을 피하기 위해, 대신에 모든 중복되는 전사체를 사용할 수 있고 상호 중복을 계산할 수 있으며, 즉, 중복되는 길이를 이들 두 개의 sv의 길이의 최소값으로 나눌 수 있다.
c. 보충 주석 보고: 보충 주석은 소형 및 구조 변이체(SV)의 두 가지 유형이 있다. SV는, 간격으로서 모델링될 수 있으며, 전술한 간격 어레이를 사용하여 중복되는 SV를 식별할 수 있다. 소형 변이체는 점으로서 모델링되며 위치 및 (선택적으로) 대립유전자에 의해 일치된다. 이처럼, 이들은 이진-검색-유사 알고리즘을 사용하여 검색된다. 보충 주석 데이터베이스는 상당히 클 수 있으므로, 염색체 위치를 보충 주석이 상주하는 파일 위치에 맵핑하기 위해 훨씬 작은 인덱스가 생성된다. 인덱스는, 위치를 사용하여 이진 검색될 수 있는 (염색체 위치와 파일 위치로 구성된) 객체들의 정렬된 어레이이다. 인덱스 크기를 작게 유지하기 위해, (최대 특정 개수의) 다수의 위치가, 제1 위치에 대한 값과 후속 위치에 대한 델타만을 저장하는 하나의 객체로 압축된다. 이진 검색을 사용하므로, 런타임은 O(lg n)이며, 여기서 n은 데이터베이스의 항목 수이다.
d. VEP 캐시 파일
e. 전사 데이터베이스: 전사 캐시(캐시) 및 보충 데이터베이스(SAdb) 파일은 전사 및 보충 주석과 같은 데이터 객체들의 직렬화된 덤프이다. Ensembl VEP 캐시를 캐시를 위한 데이터소스로서 사용한다. 캐시를 생성하기 위해, 모든 전사체가 간격 어레이에 삽입되고, 어레이의 최종 상태가 캐시 파일에 저장된다. 따라서, 주석 표시 중에는, 미리 연산된 간격 어레이를 로딩하고 이에 대한 검색을 수행하면 된다. (전술한 바와 같이) 캐시가 메모리에 로딩되고 검색이 매우 빠르므로, Nirvana에서 중복되는 전사체를 찾는 것이 매우 빠르다(총 런타임의 1% 미만으로 프로파일되었는가?).
f. 보충 데이터베이스: SAdb용 데이터 공급원들은 보충 자료에서 열거되어 있다. 소형 변이체에 대한 SAdb는, (참조명과 위치에 의해 식별되는) 데이터베이스의 각 객체가 모든 관련된 보충 주석을 보유하도록 모든 데이터 공급원의 k-way 병합에 의해 생성된다. 데이터 소스 파일을 구문 분석하는 동안 발생하는 문제는 Nirvana의 홈페이지에 자세히 설명되어 있다. 메모리 사용을 제한하기 위해, SA 인덱스만이 메모리에 로딩된다. 이 인덱스에 의해, 보충 주석에 대한 파일 위치를 빠르게 찾을 수 있다. 그러나, 데이터를 디스크에서 가져와야 하므로, 보충 주석 추가는 Nirvana의 최대 병목 현상(전체 런타임의 ~30%로 프로파일링됨)으로서 식별되었다.
g. 결과 및 서열 온톨로지: Nirvana의 기능 주석(제공된 경우)은 서열 온톨로지(SO)(http://www.sequenceontology.org/) 지침을 따른다. 경우에 따라, 현재 SO에서 문제를 식별하고 SO 팀과 협력하여 주석 상태를 개선할 수 있는 기회가 있었다.
이러한 변이체 주석 툴은 전처리를 포함할 수 있다. 예를 들어, Nirvana에는, ExAC, EVS, 1000 게놈 프로젝트, dbSNP, ClinVar, Cosmic, DGV, 및 ClinGen과 같은 외부 데이터 공급원의 많은 주석이 포함되었다. 이러한 데이터베이스를 최대한 활용하려면, 데이터베이스로부터 정보를 삭제해야 한다. 상이한 데이터 공급원들로부터 발생하는 상이한 충돌들을 처리하기 위해 상이한 전략을 구현하였다. 예를 들어, 동일한 위치와 대체 대립유전자에 대해 다수의 dbSNP 엔트리가 있는 경우, 모든 ID를 쉼표로 구분된 ID 목록에 입력하고, 동일한 대립유전자에 대해 상이한 CAF 값들을 가진 다수의 엔트리가 있는 경우, 제1 CAF 값을 사용한다. ExAC 엔트리와 EVS 엔트리가 충돌하는 경우, 샘플 계수치의 수를 고려하고, 샘플 계수치가 높은 엔트리를 사용한다. 1000개의 게놈 프로젝트에서, 충돌 대립유전자의 대립유전자 빈도를 제거하였다. 또 다른 문제는 부정확한 정보이다. 주로 1000개의 게놈 프로젝트로부터 대립 유전자 빈도 정보를 추출했지만, GRCh38의 경우, 정보 필드에 보고된 대립유전자 빈도가 유전자형을 사용할 수 없는 샘플을 배제하지 않아서, 모든 샘플에 대하여 사용할 수 없는 변이체의 빈도가 감소된다는 점에 주목하였다. 주석의 정확성을 보장하기 위해, 모든 개별 수준 유전자형을 사용하여 실제 대립유전자 빈도를 연산한다. 알려져 있듯이, 동일한 변이체들은 상이한 정렬들에 기초하여 상이한 표현들을 가질 수 있다. 이미 식별된 변이체에 대한 정보를 정확하게 보고할 수 있으려면, 다른 자원들로부터의 변이체를 전처리하여 일관성 있는 표현을 유지해야 한다. 모든 외부 데이터 공급원에 대해, 대립유전자를 트리밍하여 참조 대립유전자와 대체 대립유전자 모두에서 중복된 뉴클레오타이드를 제거하였다. ClinVar의 경우, 모든 변이체에 대해 5-프라임 정렬을 수행한 xml 파일을 직접 구문 분석하였으며, 이는 종종 vcf 파일에서 사용된다. 다른 데이터베이스에는 정보의 동일한 세트가 포함될 수 있다. 불필요한 중복을 피하기 위해, 일부 중복된 정보를 제거하였다. 예를 들어, 1000개의 게놈에서의 DGV의 변이체가 더욱 자세한 정보와 함께 이미 보고되었으므로, 데이터 공급원을 1000개의 게놈 프로젝트로서 갖는 이러한 변이체를 제거하였다.
적어도 일부 구현예에 따르면, 변이체 콜 애플리케이션은 저 빈도 변이체, 생식세포 콜링 등에 대한 콜을 제공한다. 비제한적인 예로서, 변이체 콜 애플리케이션은 종양 전용 샘플 및/또는 종양-정상 쌍을 이룬 샘플에서 실행될 수 있다. 변이체 콜 애플리케이션은, 단일 뉴클레오타이드 변이(SNV), 다중 뉴클레오타이드 변이(MNV), 인델 등을 검색할 수 있다. 변이체 콜 애플리케이션은, 변이체를 식별하면서 서열분석 또는 샘플 준비 오류로 인한 불일치를 필터링한다. 각각의 변이체에 대해, 변이체 콜러는, 참조 서열, 변이체의 위치 및 잠재적 변이체 서열)(들)(예를 들어, A에서 C SNV로, 또는 AG에서 A 삭제로)을 식별한다. 변이체 콜 애플리케이션은, 샘플 서열(또는 샘플 분획물), 참조 서열/분획물, 및 변이체 콜을 변이체가 존재함을 나타내는 표시로서 식별한다. 변이체 콜 애플리케이션은, 원시 분획물을 식별할 수 있고, 원시 분획물의 지정, 잠재적 변이체 콜을 검증하는 원시 분획물의 수, 지지 변이체가 발생한 원시 분획물 내의 위치, 및 기타 관련 정보를 출력할 수 있다. 원시 분획물의 비제한적인 예로는, 이중 스티치 분획물, 단일 스티치 분획물, 이중 언스티치 분획물, 및 단순한 언스티치 분획물을 포함한다.
변이체 콜 애플리케이션은, .VCF 또는 .GVCF 파일과 같은 다양한 형식으로 콜을 출력할 수 있다. 단지 예로서, 변이체 콜 애플리케이션은 (예를 들어, MiSeq174; 서열분석기 기기 상에 구현될 때) MiSeqReporter 파이프라인에 포함될 수 있다. 선택적으로, 이 애플리케이션은 다양한 워크플로우로 구현될 수 있다. 분석은, 원하는 정보를 취득하도록 지정된 방식으로 샘플 리드를 분석하는 단일 프로토콜 또는 프로토콜들의 조합을 포함할 수 있다.
이어서, 하나 이상의 프로세서는 잠재적 변이체 콜과 관련하여 유효성확인 동작을 수행한다. 유효성확인 동작은 이하에 설명되는 바와 같이 품질 점수 및/또는 계층적 테스트의 층에 기초할 수 있다. 유효성확인 동작이 잠재적 변이체 콜을 인증하거나 검증하면, 유효성확인 동작은 (변이체 콜 애플리케이션으로부터) 변이체 콜 정보를 샘플 보고서 생성기에 전달한다. 대안으로, 유효성확인 동작이 잠재적 변이체 콜을 무효화 또는 실격화하는 경우, 유효성확인 동작은, 대응하는 표시(예를 들어, 음성 표시기, 무 콜 표시기, 무효 콜 표시기)를 샘플 보고서 생성기에 전달한다. 유효성확인 동작은, 또한, 변이체 콜이 정확하거나 무효 콜 지정이 정확하다는 신뢰도와 관련된 신뢰도 점수를 전달할 수 있다.
다음에, 하나 이상의 프로세서는 샘플 보고서를 생성하고 저장한다. 샘플 보고서는, 예를 들어, 샘플에 대한 복수의 유전자 좌위에 관한 정보를 포함할 수 있다. 예를 들어, 미리 결정된 유전자 좌위의 세트의 각각의 유전자 좌위에 대해, 샘플 보고서는, 유전자형 콜을 제공하는 것, 유전자형 콜을 할 수 없음을 나타내는 것, 유전자형 콜의 확실성에 대한 신뢰 점수를 제공하는 것, 또는 하나 이상의 유전자 좌위에 관한 분석법의 잠재적 문제를 나타내는 것 중 적어도 하나일 수 있다. 샘플 보고서는, 또한, 샘플을 제공한 개인의 성별을 나타낼 수 있고 및/또는 샘플이 다수의 공급원을 포함함을 나타낼 수 있다. 본 명세서에서 사용되는 바와 같이, "샘플 보고서"는, 유전자 좌위의 디지털 데이터(예를 들어, 데이터 파일) 또는 유전자 좌위의 미리 결정된 세트 및/또는 유전자 좌위 또는 유전자 좌위의 세트의 인쇄된 보고서를 나타낼 수 있다. 따라서, 생성 또는 제공은, 데이터 파일의 생성 및/또는 샘플 보고서의 인쇄, 또는 샘플 보고서의 표시를 포함할 수 있다.
샘플 보고서는, 변이체 콜이 결정되었지만 유효성확인되지 않았음을 나타낼 수 있다. 변이체 콜이 무효한 것으로 결정되면, 샘플 보고서는 변이체 콜을 유효성확인하지 않는 결정의 근거에 관한 추가 정보를 나타낼 수 있다. 예를 들어, 보고서의 추가 정보는, 원시 분획물의 설명 및 원시 분획물이 변이체 콜을 지지하거나 반박하는 정도(예를 들어, 계수치)를 포함할 수 있다. 부가적으로 또는 대안적으로, 보고서의 추가 정보는 본 명세서에서 설명되는 구현예에 따라 취득된 품질 점수를 포함할 수 있다.
변이체 콜 애플리케이션
본 명세서에 개시된 구현예들은 잠재적 변이체 콜을 식별하기 위해 서열분석 데이터를 분석하는 것을 포함한다. 변이체 콜링은 이전에 수행된 서열분석 동작을 위해 저장된 데이터에 대해 수행될 수 있다. 부가적으로 또는 대안적으로, 이것은 서열분석 동작이 수행되는 동안 실시간으로 수행될 수 있다. 각각의 샘플 리드 값은 상응하는 유전자 좌위에 할당된다. 샘플 리드는, 샘플 리드의 뉴클레오타이드의 서열, 즉, 샘플 리드 내의 뉴클레오타이드의 서열(예를 들어, A, C, G, T)에 기초하여 대응하는 유전자 좌위에 할당될 수 있다. 이 분석에 기초하여, 샘플 리드는, 특정 유전자 좌위의 가능한 변이체/대립유전자를 포함하는 것으로서 지정될 수 있다. 샘플 리드는, 유전자 좌위의 가능한 변이체/대립유전자를 포함하는 것으로서 지정된 다른 샘플 리드와 함께 수집(또는 집계 또는 비닝)될 수 있다. 할당 동작은, 또한, 샘플 리드가 특정 유전자 위치/좌위에 연관될 수 있는 것으로서 식별되는 콜링 동작이라고 칭할 수 있다. 샘플 리드는, 샘플 리드를 다른 샘플 리드로부터 구별하는 뉴클레오타이드의 하나 이상의 식별 서열(예를 들어, 프라이머 서열)을 위치시키기 위해 분석될 수 있다. 보다 구체적으로, 식별 서열(들)은 다른 샘플 리드로부터의 샘플 리드를 특정 유전자 좌위에 연관된 것으로서 식별할 수 있다.
할당 동작은, 식별 서열의 일련의 n개의 뉴클레오타이드를 분석하여 식별 서열의 일련의 n개의 뉴클레오타이드가 하나 이상의 선택 서열과 효과적으로 일치하는지를 결정하는 것을 포함할 수 있다. 특정 구현예에서, 할당 동작은, 샘플 서열의 제1 n개의 뉴클레오타이드를 분석하여 샘플 서열의 제1 n개의 뉴클레오타이드가 하나 이상의 선택 서열과 효과적으로 일치하는지를 결정하는 것을 포함할 수 있다. 수 n은, 다양한 값을 가질 수 있으며, 프로토콜로 프로그래밍될 수 있거나 사용자에 의해 입력될 수 있다. 예를 들어, 수 n은 데이터베이스 내에서 가장 짧은 선택 서열의 뉴클레오타이드의 수로서 정의될 수 있다. 수 n은 미리 결정된 수일 수 있다. 미리 결정된 수는, 예를 들어, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 또는 30개의 뉴클레오타이드일 수 있다. 그러나, 다른 구현예에서는 더 적거나 더 많은 뉴클레오타이드가 사용될 수 있다. 수 n은, 또한, 시스템의 사용자와 같은 개인에 의해 선택될 수 있다. 수 n은 하나 이상의 조건에 기초할 수 있다. 예를 들어, 수 n은 데이터베이스 내에서 가장 짧은 프라이머 서열의 뉴클레오타이드의 수 또는 지정된 수 중 작은 수로서 정의될 수 있다. 일부 구현예에서, 15개 미만의 임의의 프라이머 서열이 예외로 지정될 수 있도록, 15와 같은 n에 대한 최소값이 사용될 수 있다.
일부 경우에, 식별 서열의 일련의 n개의 뉴클레오타이드는 선택 서열의 뉴클레오타이드와 정확하게 일치하지 않을 수 있다. 그럼에도 불구하고, 식별 서열이 선택 서열과 거의 동일한 경우 식별 서열이 선택 서열과 효과적으로 일치될 수 있다. 예를 들어, 식별 서열의 일련의 n개의 뉴클레오타이드(예를 들어, 제1 n개의 뉴클레오타이드)가 불일치의 지정된 수(예를 들어, 3) 이하 및/또는 시프트의 지정된 수(예를 들어, 2)를 갖는 선택 서열과 일치하는 경우, 유전자 좌위에 대하여 샘플 리드가 콜링될 수 있다. 각각의 불일치 또는 시프트가 샘플 리드와 프라이머 서열 간의 차로서 계수될 수 있도록 규칙이 확립될 수 있다. 차의 수가 지정된 수보다 작으면, 상응하는 유전자 좌위(즉, 상응하는 유전자 좌위에 할당됨)에 대해 샘플 리드가 콜링될 수 있다. 일부 구현예에서, 샘플 리드의 식별 서열과 유전 로커에 연관된 선택 서열 간의 차의 수에 기초하여 일치 점수가 결정될 수 있다. 일치 점수가 지정된 일치 임계값을 통과하면, 선택 서열에 대응하는 유전자 좌위가 샘플 리드를 위한 잠재적 좌위로서 지정될 수 있다. 일부 구현예에서는, 샘플 리드가 유전자 좌위에 대해 콜되는지를 결정하기 위해 후속 분석이 수행될 수 있다.
샘플 리드가 데이터베이스에서의 선택 서열들 중 하나와 효과적으로 일치하는 경우(즉, 전술한 바와 같이 정확히 일치하거나 거의 일치하는 경우), 샘플 리드는 선택 서열과 상관되는 유전자 좌위에 할당되거나 지정된다. 이것은 유전자 좌위 콜링 또는 잠정적-좌위 콜링이라고 칭할 수 있으며, 여기서 샘플 리드는 선택 서열과 상관되는 유전자 좌위에 대하여 콜링된다. 그러나, 전술한 바와 같이, 샘플 리드는 하나보다 많은 유전자 좌위에 대하여 콜링될 수 있다. 이러한 구현예에서, 잠재적 유전자 좌위들 중 하나에 대해서만 샘플 리드를 콜하거나 할당하도록 추가 분석이 수행될 수 있다. 일부 구현예에서, 참조 서열들의 데이터베이스와 비교되는 샘플 리드는 페어드-엔드 서열분석으로부터의 제1 리드이다. 페어드-엔드 서열분석을 수행할 때, 샘플 리드와 상관되는 제2 리드(원시 분획물을 나타냄)가 취득된다. 할당 후, 할당된 리드로 수행되는 후속 분석은, 할당된 리드를 위해 콜된 유전자 좌위의 유형에 기초할 수 있다.
다음에, 잠재적 변이체 콜을 식별하도록 샘플 리드가 분석된다. 무엇보다도, 분석 결과는, 잠재적 변이체 콜, 샘플 변이체 빈도, 참조 서열, 및 변이체가 발생한 게놈 서열 내의 위치를 식별한다. 예를 들어, 유전자 좌위가 SNP를 포함하는 것으로 알려진 경우, 유전자 좌위를 콜된 할당된 리드는 할당된 리드의 SNP를 식별하도록 분석을 거칠 수 있다. 유전자 좌위가 다형성 반복 DNA 요소를 포함하는 것으로 알려진 경우, 할당된 리드는 샘플 리드 내의 다형성 반복 DNA 요소를 식별하거나 특성화하도록 분석될 수 있다. 일부 구현예에서, 할당된 리드가 STR 좌위 및 SNP 좌위와 효과적으로 일치하면, 경고 또는 플래그가 샘플 리드에 할당될 수 있다. 샘플 리드는 STR 유전자 좌위와 SNP 좌위 모두로서 지정될 수 있다. 분석은, 할당된 리드의 서열 및/또는 길이를 결정하기 위해 정렬 프로토콜에 따라 할당된 리드들을 정렬하는 것을 포함할 수 있다. 정렬 프로토콜은, 2013년 3월 15일자로 출원된 국제 특허 출원 번호 PCT/US2013/030867(공개번호 WO 2014/142831)에 기술된 방법을 포함할 수 있으며, 이 문헌의 전문은 본 명세서에 참고로 원용된다.
이어서, 하나 이상의 프로세서는, 원시 분획물을 분석하여 원시 분획물 내의 해당 위치에 지지 변이체가 존재하는지를 결정한다. 다양한 종류의 원시 분획물이 식별될 수 있다. 예를 들어, 변이체 콜러는, 초기 변이체 콜러를 유효성확인하는 변이체를 나타내는 원시 분획물의 유형을 식별할 수 있다. 예를 들어, 원시 분획물의 유형은, 이중 스티치 분획물, 단일 스티치 분획물, 이중 언스티치 분획물, 또는 단일 언스티치 분획물 나타낼 수 있다. 선택적으로, 전술한 예 대신 또는 추가로 다른 원시 분획물을 식별할 수 있다. 각 원시 분획물의 유형을 식별하는 것과 관련하여, 변이체 콜러는, 또한, 지지 변이체를 나타낸 원시 분획물 수의 계수치뿐만 아니라 지지 변이체가 발생한 원시 분획물 내의 위치도 식별한다. 예를 들어, 변이체 콜러는, 특정 위치 X에서 지지 변이체를 갖는 이중 스티치 분획물을 나타내도록 10개의 원시 분획물이 식별되었다는 표시를 출력할 수 있다. 변이체 콜러는, 또한, 특정 위치 Y에서 지지 변이체를 갖는 단일 언스티치 분획물을 나타내도록 원시 분획물의 5개 리스가 식별되었음을 출력할 수 있다. 변이체 콜러는, 또한, 참조 서열에 대응한 많은 원시 분획물을 출력할 수 있으므로, 다른 경우엔 관심 게놈 서열에서 잠재적 변이체 콜을 유효성확인하는 증거를 제공하는 지지 변이체를 포함하지 않았다.
이어서, 지지 변이체가 발생한 위치뿐만 아니라 지지 변이체를 포함하는 원시 분획물의 계수치를 유지한다. 부가적으로 또는 대안적으로, (샘플 리드 또는 샘플 분획물의 잠재적 변이체 콜의 위치에 관한) 관심 위치에서 지지 변이체를 포함하지 않은 원시 분획물의 계수치를 유지할 수 있다. 부가적으로 또는 대안적으로, 참조 서열에 대응하고 잠재적 변이체 콜을 인증 또는 확인하지 않는 원시 분획물의 계수치를 유지할 수 있다. 결정된 정보는, 잠재적 변이체 콜을 지지하는 원시 분획물의 계수치와 유형, 원시 분획물의 지지 분산의 위치, 잠재적 변이체 콜을 지지하지 않는 원시 분획물의 수 등을 포함하여 변이체 콜 유효성확인 애플리케이션으로 출력된다.
잠재적 변이체 콜이 식별되면, 프로세스는 잠재적 변이체 콜, 변이체 서열, 변이체 위치, 및 이에 연관된 참조 서열을 나타내는 표시를 출력한다. 변이체 콜은, 에러로 인해 콜 프로세스가 거짓 변이체를 식별할 수 있으므로 "잠재적" 변이체를 나타내도록 지정된다. 본원의 구현예에 따라, 잠재적 변이체 콜을 분석하여 거짓 변이체 또는 위양성을 감소 및 제거한다. 부가적으로 또는 대안적으로, 이 프로세스는, 샘플 리드에 연관된 하나 이상의 원시 분획물을 분석하고 원시 분획물에 연관된 해당 변이체 콜을 출력한다.
변이체 분류자
도 1A는 본 명세서에 개시된 트레이닝된 변이체 분류자에 의한 변이체 콜링의 일 구현예를 도시한다. 트레이닝된 변이체 분류자는 컨볼루션 신경망(CNN)을 포함한다. 변이체 분류자에 대한 입력은 (도 2를 참조하여 설명되는) 입력 피처들의 어레이이다. 어레이는 리드(또는 서열 리드)로부터 인코딩된다. 리드에서의 염기(또는 뉴클레오타이드)는, 합성에 의한 서열분석(SBS)와 같은 서열분석 프로토콜을 사용하는 게놈 분석기에 의해 생성되는 서열분석 데이터의 일차 분석을 통해 식별되거나 염기 콜링된다. 리드들에서 걸쳐 있는 후보 변이체 부위들에서의 후보 변이체들은 정렬 프로세스에 의해 식별되며, 그 일 구현예를 아래에서 설명한다.
최근의 하드웨어 및 소프트웨어 개선은, 일루미나 서열분석 시스템(예를 들어, HiSeqXTM, HiSeq3000TM, HiSeq4000TM, NovaSeq 6000TM, MiSeqDxTM, FireflyTM)과 같은 게놈 분석기의 데이터 출력 용량을 크게 증가시켰다. 약 3억 개의 2×100 염기 쌍(bp) 리드를 포함하는 33 기가바이트(GB) 초과의 서열 출력을 이제 10일 이내에 일상적으로 생성할 수 있다. 일 구현예에서, 개시된 기술은 일루미나사의 서열 및 변이의 합의 평가(CASAVA) 소프트웨어를 사용하며, 이 소프트웨어는 이러한 대용량의 서열분석 데이터를 끊김 없이 처리하여, 많은 또는 적은 게놈의 서열분석, 표적화된 디옥시리보핵산(DNA) 서열분석, 및 리보핵산(RNA) 서열분석을 지원한다.
CASAVA는, 게놈 분석기에 의해 생성된 서열분석 데이터(예를 들어, 이미지 데이터, 검출 데이터)를 2 단계로 분석할 수 있다. 제1 단계(일차 분석)에서는, 기기 컴퓨터에서 실행되는 서열분석 제어 소프트웨어 실시간 분석(SCS/RTA)이 실시간 데이터 분석 및 염기 콜링을 수행한다. 염기 콜링은 리드를 생성한다. 제2 단계에서는, CASAVA는, 리드들을 참조 리드(또는 참조 게놈)에 대하여 정렬하여 서열 차이(예를 들어, 단일 염기 다형성(SNP), 삽입/결손(인델)과 같은 후보 변이체),더욱 큰 전체 서열 등을 결정함으로써 리드들의 완전한 이차 분석을 수행한다. 리드들의 정렬 및 후보 변이체의 검출을 위한 알고리즘은, 일루미나사의 모출원인 국제 출원 번호 WO05068089 및 "Complete Secondary Analysis Workflow for the Genome Analyzer"라는 명칭의 일루미나사의 기술 노트(Complete Secondary Analysis Workflow for the Genome Analyzer"(available at https://www.illumina.com/documents/products/technotes/technote_casava_secondary_analysis.pdf에서 이용 가능함)에 개시되어 있으며, 이들 문헌은 본 명세서에 전체적으로 개시된 것처럼 참고로 원용된다.
다른 구현예에서, 일차 및 이차 분석은, 전체 게놈 서열분석 및 DRAGEN 등의 다른 일루미나 출원에 의해 수행되며, 이들 문헌의 추가 세부사항은, https://www.illumina.com/products/by-type/informatics-products/basespace-sequence-hub/apps/whole-genome-sequencing.html?langsel=/us/ 및 https://support.illumina.com/content/dam/illumina-marketing/documents/products/technotes/illumina-proactive-technical-note-1000000052503.pdf에서 찾을 수 있고, 이들 문헌은 전체적으로 본 명세서에 설명된 것처럼 참고로 원용된다.
입력 피처들의 어레이
도 2는 도 1A의 변이체 분류자의 컨볼루션 신경망에 공급되는 입력 피처들의 어레이의 일 구현예이다. 어레이는 참조 리드에 정렬된 리드들의 그룹을 인코딩한다. 그룹의 각 리드는 표적 염기 위치(회색으로 강조 표시됨)를 포함한다. 표적 염기 위치는 후보 변이체 부위(예를 들어, SNP, 인델)에서의 후보 변이체에 대응한다. 표적 염기 위치에는, 염기(예를 들어, 좌측 플랭킹 염기, 우측 플랭킹 염기)가 각 측면에 측접되거나 패딩된다(padded). 일부 구현예에서, 좌측 플랭킹 염기들의 수는 우측 플랭킹 염기들의 수와 동일하다. 다른 구현예에서, 좌측 플랭킹 염기들의 수는 우측 플랭킹 염기들의 수와 상이하다. 각 측면의 플랭킹 염기들의 수는 30, 70, 90, 110 등일 수 있다.
리드들의 그룹은, 일 구현예에 따라 x축을 따라(즉, 제1 공간 차원, 예를 들어, 높이 차원을 따라) 어레이에서 행 방향으로 배치된다. 즉, 어레이의 각 행은, 참조 리드에 정렬되고 표적 염기 위치를 포함하는 리드를 나타낸다. 리드에서의 염기 위치는, 일 구현예에 따라 y축을 따라(즉, 제2 공간 차원, 예를 들어 폭 차원을 따라) 어레이에서 열 방향으로 배치된다. 즉, 어레이의 각 열은 특정 서수 위치에서의 리드들의 염기들을 나타낸다.
어레이의 각 유닛은 (도 2의 전면 박스로 도시된) 입력 피처이다. 어레이의 각 입력 피처는 리드의 염기에 대응한다. 어레이의 각각의 입력 피처는 복수의 차원을 갖는다. 복수의 차원은, 일 구현에 따라 z축을 따라 (예를 들어, 깊이, 채널, 피처, 또는 섬유 차원을 따라) 어레이에 배치된다.
일 구현예에서, 복수의 차원은, (i) 염기를 식별하는 제1 차원 세트, (ii) 염기에 정렬된 참조 염기를 식별하는 제2 차원 세트, (iii) 염기의 염기 콜 정확도 점수를 식별하는 제3 차원 세트, (iv) 염기의 가닥성(즉, DNA 가닥성)을 식별하는 제4 차원 세트, (v) 염기의 위치에 인접한 변화의 삽입 계수치(INS)를 식별하는 제5 차원 세트, (vi) 염기의 위치에 있는 결손 플래그(DEL)를 식별하는 제6 차원 세트를 포함한다.
다른 구현예에서, 어레이는 부피로 간주될 수 있다. 또 다른 구현예에서, 어레이는 텐서로 간주될 수 있다. 일부 구현예에서, 어레이는 후보 변이체 주위의 리드 누적을 나타낸다. 일부 구현예에서, 입력 피처의 차원은 입력 채널로 간주될 수 있다.
일례로, 각각의 입력 피처는 12개의 차원을 갖는다. 이어서, 제1 차원 세트는, 원-핫 인코딩을 사용하여 입력 피처들의 염기를 식별하는 4개의 차원을 포함한다. 염기는 아데닌(A), 사이토신(C), 구아닌(G), 또는 티민(T)일 수 있다. 제2 차원 세트는, 또한, 원-핫 인코딩을 사용하여 염기에 정렬된 참조 염기를 식별하는 4개의 차원을 포함한다. 참조 염기도 A, C, G, 또는 T일 수 있다.
원-핫 인코딩에서, 서열의 각 염기는 4비트의 이진 벡터로 인코딩되며, 그 비트들 중 하나는 핫(즉, 1)이고 나머지는 0이다. 예를 들어 A = (1, 0, 0, 0), C = (0, 1, 0, 0), G = (0, 0, 1, 0), 및 T = (0, 0, 0, 1)이다. 일부 구현예에서, 알려지지 않은 염기는 N = (0, 0, 0, 0)으로서 인코딩된다.
따라서, 각각의 입력 피처는, 리드의 염기와 참조 리드의 대응하는 참조 서열 간의 정렬을 "국부적으로" 인코딩한다. 결과적으로, 도 1A의 변이체 분류자의 컨볼루션 신경망의 컨볼루션 필터들의 커널들이 어레이의 입력 피처들의 윈도우에 걸쳐 적용되는 경우, 참조 리드의 염기들과 리드들의 염기들 간의 소위 "일대일 컨텍스트 의존성" 및 리드들의 염기들 간의 소위 "인접하는 컨텍스트 의존성"을 고려한다.
제3, 제4, 제5, 및 제6 차원 세트들 각각은, 연속적 수로서(예를 들어, 순방향 가닥에 대하여 0 및 역방향 가닥에 대하여 1) 염기의 염기 콜 정확도 점수를 각각 식별하기 위한 1차원, 수(예를 들어, 4개의 삽입된 염기에 대하여 4)로서 염기의 위치에 인접하는 변화의 삽입 계수치(INS), 및 수(예를 들어, 4개의 결손된 염기 위치에 대하여 1111)로서 염기 위치에서의 결손 플래그(DEL)를 포함한다. 도 2에서, 입력 피처들의 6개의 차원 세트는 상이한 회색 음영을 사용하여 그래픽으로 구별된다.
일부 구현예에서는, 각 리드의 맵핑 품질도 어레이에서 인코딩된다. 맵핑 품질(MAPQ)은, 각 유닛의 추가 차원 또는 채널 또는 어레이의 각 입력 피처에서 인코딩될 수 있는 수(예를 들어, 40)이다.
염기 콜 정확도 점수에 관하여, 일 구현예에서, 이것은, 염기 콜 에러 확률(p)2에 대수적으로 관련된 속성으로서 정의된 프레드(Phred) 품질 점수(예를 들어, Q10, Q20, Q30, Q40, Q50)로서 식별될 수 있다. 염기 콜링 정확도 점수에 대한 추가 정보는, "Quality Scores for Next-Generation Sequencing" 및 "Understanding Illumina Quality Scores"(https://www.illumina.com/documents/products/technotes/technote_Q-Scores.pdf, https://www.illumina.com/documents/products/technotes/technote_understanding_quality_scores.pdf에서 이용 가능함)라는 명칭의 일루미나사의 기술 노트에서 찾을 수 있으며, 이 문헌은 본 명세서에 전체전으로 개시된 것처럼 참고로 원용된다.
일 구현예에서, 염기의 위치에 인접한 변화의 삽입 계수치(INS)는 염기의 전후에 삽입된 다수의 염기를 식별할 수 있다. 염기의 위치에서의 결손 플래그(DEL)와 관련하여, 일 구현예에서는, 염기의 위치에서 미결정 염기, 언리드 염기, 미식별 염기, 비어 있는 염기, 또는 결손된 염기를 식별할 수 있다.
일 구현예에서, 어레이의 차원은 100×221×12이며, 여기서, (a) 100은 참조 리드에 정렬되고 표적 염기 위치에서 후보 변이체 부위들을 잇는 그룹의 리드들의 수를 나타내고 (b) 221은 각 리드에서 염기 위치의 수를 나타내되, 111번째 서수 위치에서의 표적 염기 위치에는 각 측면에 110개의 염기 위치가 측접되고, (c) 12는 어레이 내의 각각의 입력 피처의 국부적 차원성, 즉, 각 입력 피처의 차원의 수를 나타낸다.
다른 구현예에서, 입력 피처들은 상이한 수의 차원들을 가질 수 있으며, 이는 상이한 인코딩 기법을 사용하여 다양한 크기의 차원 세트들로 더 분할될 수 있다.
또 다른 구현예에서, 원-핫 인코딩은, 트레이닝된 신경망에 의해 생성되는 임베딩 행렬 또는 임베딩 공간에 기초하는 밀집형 또는 실수 인코딩 기법 등의 다른 인코딩 기법에 의해 대체될 수 있다. 또 다른 구현예에서, 인코딩 기법은, 정량적 또는 수치적 데이터 유형, 정성적 데이터 유형, 신중한 데이터 유형, 연속적 데이터 유형(하한 및 상한이 있음), 정수 데이터 유형(하한 및 상한이 있음),공칭 데이터 유형, 서수 또는 순위화 데이터 유형, 카테고리형 데이터 유형, 구간 데이터 유형, 및/또는 비율 데이터 유형에 기초할 수 있다. 예를 들어, 인코딩은, 0 내지 1의 실수값, 0 내지 256의 적색, 녹색, 청색(RGB) 값과 같은 연속값, 16진수 값, 특정 차원의 크기(예를 들어, 높이 및 폭), 상이한 값들과 데이터 유형들의 세트, 기타, 및 이들의 임의의 조합에 기초할 수 있다.
변이체 분류자 CNN 아키텍처
전술한 바와 같이, 입력 피처들의 어레이는 도 1A의 변이체 분류자의 컨볼루션 신경망에 공급된다. 도 3a는 도 1A의 변이체 분류자의 컨볼루션 신경망의 아키텍처(300A)의 일 구현예를 도시한다. 구체적으로, 도 3a에 도시된 컨볼루션 신경망 아키텍처는 8개의 컨볼루션층을 갖는다. 변이체 분류자 컨볼루션 신경망은, 복수의 컨볼루션층이 후속하는 입력층을 포함할 수 있다. 일부 컨볼루션층에는 최대 풀링(또는 샘플링) 층이 후속할 수 있으며, 이때 중간 일괄 정규화층(intermediate batch normalization layer)이 컨볼루션층과 최대 풀링층 사이에 있다. 예시된 구현예에서, 컨볼루션 신경망은, 8개의 컨볼루션층, 3개의 최대 풀링층, 및 8개의 일괄 정규화층을 갖는다.
일괄 정규화와 관련하여, 일괄 정규화는, 데이터 표준화를 네트워크 아키텍처의 필수 부분으로 함으로써 심층 망 트레이닝을 가속화하는 방법이다. 일괄 정규화는, 트레이닝 동안 시간이 지남에 따라 평균 및 분산이 변하더라도 데이터를 적응적으로 정규화할 수 있다. 일괄 정규화는, 트레이닝 중에 보여지는 데이터의 일괄별 평균 및 분산의 지수 이동 평균을 내부적으로 유지함으로써 동작한다. 일괄 정규화의 주요 효과는, 잔여 연결과 매우 유사하게 그라디언트 전파에 도움이 되므로 심층 망을 가능하게 한다는 점이다. 상당한 심층 망들 일부는 다수의 일괄 정규화층을 포함하는 경우에만 트레이닝될 수 있다.
일괄 정규화는, 완전 연결층 또는 컨볼루션층과 같이 모델 아키텍처에 삽입될 수 있는 또 다른 층으로 볼 수 있다. 일괄 정규화(BatchNormalization) 층은 통상적으로 컨볼루션층 또는 밀집 연결층 뒤에 사용된다. 일괄 정규화층은 컨볼루션층 또는 밀집 연결층 전에 사용될 수도 있다. 양측 구현예 모두 개시된 기술에 의해 사용될 수 있다. 일괄 정규화층은 정규화되어야 할 피처 축을 특정하는 축 인수를 취한다. 이 인수의 디폴트는 입력 텐서의 마지막 축인 -1이다. 이는, data_format이 "channels_last"로 설정된 밀집 층, Conv1D 층, RNN 층, 및 Conv2D 층을 사용할 때 적합한 값이다. 그러나 data_format이 "channels_first"로 설정된 Conv2D 층의 틈새 사용 사례에서는, 피처 축이 축 1이며, 일괄 정규화층의 축 인수는 1로 설정될 수 있다.
일괄 정규화는, 입력을 피드포워딩하고 역방향 패스를 통해 파라미터와 자신의 고유 입력에 대한 그라디언트를 연산하기 위한 정의를 제공한다. 실제로, 일괄 정규화층들은, 컨볼루션층 또는 완전 연결층(fully-connected layer)의 뒤에 삽입되지만, 출력이 활성화 함수에 공급되기 전에 삽입된다. 컨볼루션층의 경우, 상이한 위치에 있는 동일한 피처 맵의 상이한 요소들, 즉, 활성화가, 컨볼루션 속성을 준수하도록 동일한 방식으로 정규화된다. 따라서, 미니 일괄의 모든 활성화는, 활성화마다 정규화되기보다는 모든 위치에 걸쳐 정규화된다.
내부 공변량 시프트는, 심층 아키텍처가 트레이닝하는 데 상당히 느렸던 것에 대한 주요 이유이다. 이는, 심층 망이 각 층에서 새로운 표현을 학습할 필요가 있을 뿐만 아니라 자신의 분포의 변화도 고려해야 한다는 사실에서 비롯된다.
공변량 시프트는, 일반적으로 심층 학습 영역에서 공지된 문제이며, 실세계 문제에서 종종 발생한다. 일반적인 공변량 시프트 문제는, 트레이닝 및 테스트 세트의 분포 차이이며, 이는 준최적 일반화 성능으로 이어질 수 있다. 이 문제는 일반적으로 표준화 또는 미백 전처리 단계에서 다루어진다. 그러나, 특히 미백 연산은, 계산적으로 비싸고, 따라서 특히 공변량 시프트가 상이한 층들에 걸쳐 발생하는 경우 온라인 설정에서 비실용적이다.
내부 공변량 시프트는, 트레이닝 동안 망 파라미터들의 변화로 인해 망 활성화들의 분포가 층들에 걸쳐 변화하는 현상이다. 이상적으로는, 각 층이 동일한 분포를 갖지만 기능적 관계는 동일하게 유지되는 공간으로 변환되어야 한다. 모든 층 및 단계에서 공분산 행렬의 값비싼 계산을 피하고 데이터를 상관해제 및 백색화하기 위해, 각 미니 일괄에 걸쳐 각 층의 각 입력 피처의 분포를 정규화하여 평균이 0이고 표준 편차가 1이 되도록 한다.
순방향 패스 동안, 미니-일괄 평균 및 분산이 계산된다. 이러한 미니 일괄 통계를 사용하면, 데이터는 평균을 감산하고 표준 편차로 제산함으로써 정규화된다. 마지막으로, 학습된 스케일 및 시프트 파라미터를 사용하여 데이터를 스케일링하고 시프트한다. 정규화는 미분가능 변환이므로, 에러들은 이러한 학습된 파라미터로 전파되고 이에 따라 항등 변환을 학습함으로써 망의 표현력을 복원할 수 있다. 반대로, 대응하는 일괄 통계와 동일한 스케일 및 시프트 파라미터들을 학습함으로써, 일괄 정규화 변환이, 최적의 수행 동작인 경우, 네트워크에 영향을 미치지 않는다. 테스트 시간에, 일괄 평균 및 분산은, 입력이 미니 일괄로부터의 다른 샘플에 의존하지 않으므로, 각 모집단 통계에 의해 대체된다. 또 다른 방법은, 트레이닝 동안 일괄 통계의 이동 평균을 유지하고 이를 사용하여 테스트 시간에 망 출력을 연산하는 것이다.
컨볼루션층들은, 다수의 컨볼루션 필터(예를 들어, 32개의 필터) 및 컨볼루션 윈도우 크기에 의해 파라미터화될 수 있다. 컨볼루션 필터는, 또한, 2개의 공간 차원, 즉, 높이 및 폭(예를 들어, 5×5 또는 5×1) 및 제3 깊이, 피처, 또는 섬유 차원(예를 들어, 12, 10, 32)에 의해 파라미터화될 수 있다. 구현예에서, 컨볼루션 신경망의 제1 컨볼루션층의 컨볼루션 필터들의 깊이 차원은 어레이의 입력 피처들의 차원의 수와 일치한다.
컨볼루션 신경망은, 또한, 하나 이상의 완전 연결층을 포함할 수 있다. 예시된 실시예에서, 컨볼루션 신경망은 2개의 완전 연결층을 포함한다. 구현예에서, 컨볼루션 신경망은, 리드들의 그룹을 컨볼루션층들을 통해 처리하고, 컨볼루션층들의 출력을 보충 입력층에 의해 제공되는 대응하는 경험적 변이체 점수(EVS) 피처들과 연쇄화(concatenate)한다. 컨볼루션 신경망의 보충 입력층은, 컨볼루션 신경망의 제1 컨볼루션층에 대한 입력으로서 어레이를 제공하는 입력층과 상이할 수 있다. 일 구현예에서, 컨볼루션 신경망의 마지막 컨볼루션층의 출력은 컨볼루션 신경망의 평탄화층에 의해 평탄화된 후 EVS 피처들과 결합된다.
EVS 피처들과 관련하여, EVS 피처들의 세트는, 어레이의 후보 변이체 부위(예를 들어, SNP를 위한 23개의 EVS 피처 및 인델을 위한 22개의 EVS 피처)와 연관될 수 있다. EVS 피처들의 일부 예는, 생식세포 피처, RNA-서열분석 피처, 및 체세포 피처, 생식세포 SNV 피처, 생식세포 인델 피처, RNA-서열분석 SNV 피처, RNA-서열분석 인델 피처, 체세포 SNV 피처, 및 체세포 인덱 피처를 포함한다. EVS 피처의 추가 예는 본 명세서에서 이하의 "피처" 부문에서 제공된다.
각 EVS 피처는 후보 변이체 부위의 특정 속성을 나타내는 수이다. 따라서, 일 구현예에 따르면, 후보 변이체 부위의 EVS 피처들의 세트는 수들 또는 수치 설명자들의 벡터에 의해 식별된다. EVS 피처 수들은 컨볼루션 신경망에 직접 공급된다. 예를 들어, GenotypeCategory는, 이형 접합 사이트의 경우 0이고, 동형 접합 사이트의 경우 1이며, 교대-이형 정합(alt-heterozygous) 사이트의 경우 2이다. SampleRMSMappingQuality 등의 다른 것은 부동 소수점 숫자이다. RMS는, 평균 제곱근 EVS 피처를 나타내며, 사이트를 덮고 있는 각 리드에 대한 제곱된 맵핑 품질을 합산한 후 리드들의 수로 나누고 이어서 나눈 결과의 제곱근을 취함으로써 결정된다. ConservativeGenotypeQuality EVS 피처로 더욱 높은 정확도를 관찰하였다.
마지막 컨볼루션층의 출력이 EVS 피처와 연쇄화된 후, 컨볼루션 신경망은 연쇄화 결과를 완전 연결층들에 공급한다. 완전 연결층에 후속하는 분류층(예를 들어, 소프트맥스 층)은, 표적 염기 위치에 있는 각각의 후보 변이체가 진 변이체(true variant) 또는 위 변이체(false variant)일 가능성에 대한 분류 점수를 생성할 수 있다. 다른 구현예에서, 분류층은, 표적 염기 위치에 있는 각각의 후보 변이체가 동형 접합 변이체, 이종 접합 변이체, 비변이체, 또는 복합 변이체일 가능성에 대한 분류 점수를 생성할 수 있다.
도 3b는 도 1A의 변이체 분류자의 컨볼루션 신경망의 아키텍처(300B)의 다른 구현예를 도시한다. 도 3b는, 또한, 컨볼루션 신경망의 다양한 처리 단계에서의 입력/출력의 차원을 도시한다. 구체적으로, 도 3b에 도시된 컨볼루션 신경망 아키텍처는 7개의 컨볼루션층을 갖는다. 이 예시적인 아키텍처에서, 32개의 필터 및 제1 연속 최대 풀링층을 갖는 제1 5×5 컨볼루션층에 의해 생성된 출력의 차원은 108×48×32일 수 있으며, 32개의 필터 및 제2 연속 최대 풀링층을 갖는 제2 5×5 컨볼루션층에 의해 생성된 출력의 차원은 52×22×32일 수 있으며, 32개의 필터 및 제3 연속 최대 풀링층을 갖는 제3 5×5 컨볼루션층에 의해 생성된 출력의 차원은 24×9×32일 수 있다. 계속해서, 32개의 필터를 갖고 연속 최대 풀링층이 없는 제4 5×5 컨볼루션층에 의해 생성된 출력의 차원은 20×5×32일 수 있고, 32개의 필터를 갖고 연속 최대 풀링층이 없는 제5 5×5 컨볼루션층에 의해 생성된 출력의 차원은 16×1×32일 수 있고, 32개의 필터를 갖고 연속 최대 풀링층이 없는 제6 5×1 컨볼루션층에 의해 생성된 출력의 차원은 11×1×32일 수 있고, 32개의 필터를 갖고 연속 최대 풀링층이 없는 제7 5×1 컨볼루션층에 의해 생성된 출력의 차원은 7×1×32일 수 있다. 계속해서, 7×1×32 출력은, 224차원 벡터로 평탄화될수 있고 또한 23 또는 22차원 EVS 피처 벡터와 연쇄화되어 247 또는 246차원 연쇄화층을 생성할 수 있다. 연쇄화된 벡터는, 256단위로 완전 연결층에 공급된 후 분류층에 공급되어 분류 점수를 생성할 수 있다.
도 3c는 도 1A의 변이체 분류자의 컨볼루션 신경망의 아키텍처(300C)의 또 다른 구현예를 도시한다. 구체적으로, 도 3c에 도시된 컨볼루션 신경망 아키텍처는 5개의 컨볼루션층을 갖는다. 이 예시적인 아키텍처에서, 변이체 분류자 컨볼루션 신경망은, 32개의 컨볼루션 필터를 각각 갖는 5개의 3×3 컨볼루션층이 후속하는 입력층을 포함할 수 있다. 각 컨볼루션층에는 일괄 정규화층과 2×2 최대 풀링층이 후속할 수 있다. 컨볼루션 신경망은, 평탄화층, 보충 입력층, 연쇄화층, 2개의 완전 연결(FC) 층, 및 분류층을 더 포함할 수 있다. 도 3c는, 또한, 컨볼루션 신경망의 다양한 처리 단계에서의 입력/출력의 차원을 도시한다.
도 3d는 도 1A의 변이체 분류자의 컨볼루션 신경망의 아키텍처(300D)의 또 다른 구현예를 도시한다. 구체적으로, 도 3d에 도시된 컨볼루션 신경망의 아키텍처는 깊이 분리형 컨볼루션을 사용한다. 표준 컨볼루션과는 달리, 깊이 분리형 컨볼루션은, 입력 데이터의 각 채널에 대해 별도의 컨볼루션을 수행한 다음 포인트별 컨볼루션을 수행하여 채널들을 혼합한다. 깊이 분리형 컨볼루션에 대한 추가 정보에 대해서는, 문헌[A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, "Mobilenets: Efficient Convolutional Neural Networks for Mobile Vision Applications," in arXiv:1704.04861, 2017]을 참조할 수 있으며, 이 문헌은 본 명세서에 전체적으로 설명된 것처럼 참고로 원용된다.
변이체 분류자 FC 망 아키텍처
도 4a는 연산 유닛들이 이전 층의 모든 연산 유닛에 완전히 연결된 완전 연결(FC) 망(400A)을 도시한다. 층이 m개의 연산 유닛을 갖고 있고 이전 층이 n개의 출력을 제공한다고 가정하면, 총 m*n개의 가중치를 얻는다.
도 4b는 임의의 컨볼루션층 없이 변이체 분류자의 완전 연결 신경망의 아키텍처(400B)의 일 구현예를 도시한다. 아키텍처(400B)는 완전 연결층들("밀집 층들"이라고도 함)을 사용한다. 도 4b에서는, 일괄 정규화층들과 드롭아웃 층들이 산재된 7개의 밀집 층이 존재한다.
일 구현예에서, 변이체 분류자의 완전 연결 신경망은 각 층당 64개 유닛을 갖는 4개의 완전 연결층을 갖고, 10%의 드롭아웃률, 및 각 완전 연결층 뒤의 일괄 정규화층을 갖는다.
완전 연결 신경망으로의 입력은 후보 변이체 부위의 경험적 변이체 점수(EVS) 피처이다. 각 EVS 피처 후보 변이체 부위의 특정 속성을 나타내는 수이다. 따라서, 일 구현예에 따르면, 후보 변이체 부위의 EVS 피처들의 세트는 수들 또는 수치 설명자들의 벡터에 의해 식별된다. EVS 피처 수는 컨볼루션 신경망에 직접 공급됩니다. 예를 들어, GenotypeCategory는 이형 접합 사이트의 경우 0이고, 동형 접합 사이트의 경우 1이고, 교대 이종 정합 사이트의 경우 2이다. SampleRMSMappingQuality 등의 다른 것은 부동 소수점 수이다. RMS는, 평균 제곱근 EVS 피처를 나타내며, 사이트를 덮고 있는 각 리드에 대한 제곱된 맵핑 품질을 합산한 후 리드들의 수로 나누고 이어서 나눈 결과의 제곱근을 취함으로써 결정된다. ConservativeGenotypeQuality EVS 피처로 더욱 높은 정확도를 관찰하였다.
완전 연결 신경망으로의 입력은 아래에 열거된 EVS 피처들의 임의의 조합일 수 있다. 즉, 변이체 콜러에 의해 평가되는 특정 후보 변이체 부위에 대한 EVS 피처 벡터는, 아래 열거된 EVS 피처들 중 임의의 것에 대한 숫자 값을 포함하도록 인코딩되거나 구성될 수 있다.
EVS 피처
하기 것은 4개 카테고리의 EVS 피처의 예들을 열거한다:
(1) Germline SNV features: GenotypeCategory, SampleRMSMappingQuality, SiteHomopolymerLength, SampleStrandBias, SampleRMSMappingQualityRankSum, SampleReadPosRankSum, RelativeTotalLocusDepth, SampleUsedDepthFraction, ConservativeGenotypeQuality, NormalizedAltHaplotypeCountRatio.
(2) Germline Indel features: GenotypeCategory, SampleIndelRepeatCount, SampleIndelRepeatUnitSize, SampleIndelAlleleBiasLower, SampleIndelAlleleBias, SampleProxyRMSMappingQuality, RelativeTotalLocusDepth, SamplePrimaryAltAlleleDepthFraction, ConservativeGenotypeQuality, InterruptedHomopolymerLength, ContextCompressability, IndelCategory, NormalizedAltHaplotypeCountRatio.
(3) Somatic SNV features: SomaticSNVQualityAndHomRefGermlineGenotype, NormalSampleRelativeTotalLocusDepth, TumorSampleAltAlleleFraction, RMSMappingQuality, ZeroMappingQualityFraction, TumorSampleStrandBias, TumorSampleReadPosRankSum, AlleleCountLogOddsRatio, NormalSampleFilteredDepthFraction, TumorSampleFilteredDepthFraction.
(4) Somatic Indel features: SomaticIndelQualityAndHomRefGermlineGenotype, TumorSampleReadPosRankSum, TumorSampleLogSymmetricStrandOddsRatio, RepeatUnitLength, IndelRepeatCount, RefRepeatCount, InterruptedHomopolymerLength, TumorSampleIndelNoiseLogOdds, TumorNormalIndelAlleleLogOdds, AlleleCountLogOddsRatio.
하기 것은 위에서 열거한 EVS 피처의 정의이다:
생식세포 피처 설명:
GenotypeCategory - 이형 접합 (0), 동형 접합 (1) 또는 교대-이형 (2) 접합일 가능성이 제일 높은 유전자형을 반영하는 카테고리 변수이다.
SampleRMSMappingQuality - 하나의 샘플의 변이체를 잇는 모든 리드의 RMS 맵핑 물질이다. 이 피처는 VCF 사양의 SAMPLE/MQ와 일치한다.
SiteHomopolymerLength - 이 위치가 임의의 염기로서 취급될 수 있다면 현재 위치를 포함하는 최장 호모폴리머의 길이이다.
InterruptedHomopolymerLength - 현재 위치를 포함하는 참조 서열의 최장 간섭된 호모폴리머의 길이보다 작은 것이다. 간섭된 호모폴리머는 호모폴리머에 대한 편집 길이 1을 갖는 스트링이다.
SampleStrandBias - 대체 대립유전자가 하나의 가닥 대 양측 가닥에서만 발생한다고 가정할 때 연산된 샘플의 유전자형 가능성의 로그 비율이다(이에 따라, 양의 값은 편항을 나타낸다).
SampleRMSMappingQualityRankSum - 하나의 샘플의 참조 대 대체 대립유전자 맵핑 품질 점수에 대한 맨-휘트니(Mann-Whitney) U 데스트의 Z 점수이다.
SampleReadPosRankSum - 하나의 샘플의 참조 대 대체 대립유전자 리드 위치에 대한 맨-휘트니 U 테스트의 Z 점수이다.
RelativeTotalLocusDepth - 기대에 대한 좌위 깊이: 이것은 모든 샘플의 총 예상 깊이에 대한 모든 샘플의 변이체 좌위에서의 총 리드 깊이의 비율이다. 변이체 좌위에서의 깊이는 모든 맵핑 품질의 리드를 포함한다. 예상 깊이는 예비 깊이 추정 단계로부터 취해진다. 이 값은, 이 경우 예상 깊이를 정의하는데 문제가 있기 때문에, 엑솜 및 표적 분석에서 1로 설정된다.
SampleUsedDepthFraction - 한 샘플의 변이체 좌위에서 리드의 총 수에 대한 좌위의 유전자형에 사용되는 리드의 비율이다. 맵핑 품질이 최소 임계값보다 작거나, 로컬 리드 정렬이 불일치 밀도 필터에서 실패하거나, 염기 콜이 모호한 경우, 리드가 사용되지 않는다.
ConservativeGenotypeQuality - 콜된 유전자형의 신뢰성을 반영하는, 하나의 샘플에 대한 모델 기반 ConservativeGenotypeQuality(GQX) 값이다.
NormalizedAltHaplotypeCountRatio - 활성 영역의 변이체의 경우, 상위 2개의 일배체형을 지원하는 리드들의 비율, 또는 이 비율이 임계값 미만으로 인해 일배체화가 실패한 경우 0이다. 하나의 비-참조 대립유전자만을 갖는 이형 접합 변이체의 경우, 비율은, 유전자형에 관계없이 그 값이 1.0에 가까울 것으로 예상되도록 배로 된다. 이 피처는 활성 영역이 아닌 곳에서의 변이체에 대해 -1로 설정된다.
SampleIndelRepeatCount - 일차 인델 대립유전자의 반복 단위가 인델 대립유전자를 포함하는 일배체형에서 발생하는 횟수이다. 일차 인델 대립유전자의 반복 단위는, 삽입/결손된 서열이 해당 서열의 다수의 사본을 연쇄화함으로써 형성될 수 있도록 가능한 가장 작은 서열이다. 일차 인델 대립유전자는, 하나의 샘플의 관심있는 사이트에서 모든 중첩 인델 대립유전자 중 가장 잘 지지되는 대립유전자이다.
SampleIndelRepeatUnitSize - SampleIndelRepeatCount 피처에 대해 정의된 바와 같이 일차 인델 대립유전자의 반복 단위의 길이이다.
SampleIndelAlleleBiasLower - 하나의 샘플의 양측 대립 유전자로부터의 총 관측치 중 이종 접합 변이체의 하나의 대립유전자에 대한 N개 이하의 관측치를 볼 수 있는 음의 로그 확률이다. N은 통상적으로 참조 대립유전자의 관찰 횟수이다. 이형 접합 변이체가 참조 대립유전자를 포함하지 않는 경우, 첫 번째 인델 대립유전자가 대신 사용된다.
SampleIndelAlleleBias - 사용된 계수치가 가장 적게 관찰된 대립유전자의 계수치의 두 배라는 점을 제외하고는, SampleIndelAlleleBiasLower와 유사하다.
SampleProxyRMSMappingQuality - 하나의 샘플의 인델의 바로 앞의 위치를 잇는 모든 리드의 RMS 맵핑 품질이다. 이 피처는 VCF 사양에 정의된 SAMPLE/MQ 값에 가깝다.
SamplePrimaryAltAlleleDepthFraction - 한 샘플의 모든 확실한 대립유전자 관찰 계수치에 대한, 변이체 좌위에서 가장 잘 지원되는 비참조 대립유전자의 확실한 관찰 계수치의 비율이다.
ContextCompressability - 5개의 Ziv-Lempel 키워드를 사용하여 표현될 수 있는 상류 또는 하류 참조 컨텍스트(둘 중 큰 쪽)의 길이이다. Ziv-Lempel 키워드는, 서열을 탐색하고 아직 발생하지 않은 최단 하위 서열을 연속적으로 선택함으로써 Ziv 및 Lempel 1977의 기법을 사용하여 취득된다.
IndelCategory - 인델 대립유전자가 원시 결손인 경우 1로 설정되고 아니면 0으로 설정되는 이진 변수이다.
SamplePrimaryAltAlleleDepth - 변이체 좌위에서 가장 잘 지원되는 비참조 대립유전자의 확실한 관찰 계수치이다.
VariantAlleleQuality - 유전자형에 관계 없이, 콜된 변이체가 적어도 하나의 샘플에 존재한다는 확신을 반영하는 모델 기반 변이체 품질 값이다. 이 피처는 VCF 사양의 QUAL과 일치한다.
SampleMeanDistanceFromReadEdge - 후보 SNV 사이트에서 하나의 샘플에 있는 모든 비참조 염기 콜 관찰에 대해, 각 대체 염기 콜의 리드의 가장 가까운 가장자리까지의 평균 거리를 보고한다. 거리는, 리드 좌표로 측정되며, 0으로 인덱싱되며, 최대값 20을 가질 수 있다.
SampleRefAlleleDepth - 변이체 좌위에서 참조 대립유전자의 확실한 관찰 계수치이다.
SampleIndelMeanDistanceFromReadEdge - 후보 인델 좌위에서 하나의 샘플의 모든 인델 대립유전자 관찰에 대해, 각 인델 대립유전자의 리드의 가장 가까운 가장자리까지의 평균 거리를 보고한다. 거리는, 리드 좌표로 측정되며, 0으로 인덱싱되며, 최대값 20을 가질 수 있다. 인델의 왼쪽 또는 오른쪽은 최단 거리를 제공하는 데 사용될 수 있지만, 인델은 왼쪽 정렬 위치에서만 고려된다.
SampleRefRepeatCount - 일차 인델 대립유전자의 반복 단위가 참조 서열에서 발생하는 횟수이다.
체세포 피처 설명:
체세포 피처에 대하여, "모든 샘플"은 종양 및 일치된 정상 샘플을 함께 지칭한다는 점에 주목한다.
SomaticSNVQualityAndHomRefGermlineGenotype - 동형 접합 참조 생식세포 유전자형에 따라 조절되는 체세포 SNV의 사후 확률이다. INFO/NT가 "ref"인 경우, 이 피처는 CF 출력의 NFO/QSS_NT와 일치한다.
NormalSampleRelativeTotalLocusDepth - 이 피처는, 일치하는 정상 샘플의 깊이만을 반영한다는 점을 제외하고, 생식세포 RelativeTotalLocusDepth 피처와 일치한다.
TumorSampleAltAlleleFraction - 참조 대립유전자가 아닌 종양 샘플의 관찰의 분획률이다. 이것은, 모델이 높은 체세포 대립유전자 빈도에 대해 과도하게 트레이닝되는 것을 방지하도록 최대 0.5로 제한된다(예를 들어, 이러한 빈도는 액체 종양으로부터의 이종 접합성 영역의 손실에 대해 일반적일 수 있다).
RMSMappingQuality - 모든 샘플의 변이체를 잇는 모든 리드의 평균 제곱근이다. 이 피처는 VCF 사양의 INFO/MQ와 일치한다.
ZeroMappingQualityFraction - 모든 샘플의 변이체를 잇는 모든 리드에 대해, 리드 맵핑 품질의 분확률이 0과 같다.
InterruptedHomopolymerLength - 현재 위치를 포함하는 참조 서열의 최장 간섭된 호모폴리머의 길이보다 짧은 것이다. 간섭된 호모폴리머는, 호모폴리머에 대한 편집 거리가 1인 스트링이다.
TumorSampleStrandBias - 체세포 대립유전자가 두 가닥에 비해 한 가닥에서만 발생한다고 가정하여 연산된 종양-샘플 체세포 대립유전자 가능성의 로그 비율이다(따라서 높은 값은 더욱 큰 편향을 나타낸다).
TumorSampleReadPosRankSum - 종양 샘플의 관찰시 참조 대 비참조 대립유전자 리드 위치에 대한 맨-휘트니 U 테스트의 Z 점수이다.
AlleleCountLogOddsRatio - 종양 및 정상 샘플 쌍에 대한 참조(
Figure pat00005
) 및 비참조(
Figure pat00006
) 대립유전자 계수치가 주어진 경우, 대립유전자 계수치의 로그 확률의 비율(
Figure pat00007
)이다.
NormalSampleFilteredDepthFraction - 변이체 좌위를 콜링하기 전에 정상 샘플로부터 필터링된 리드의 분획률이다.
TumorSampleFilteredDepthFraction - 변이체 좌위를 콜링하기 전에 종양 샘플로부터 필터링된 리드의 분획률이다.
SomaticIndelQualityAndHomRefGermlineGenotype - 동형 접합 참조 생식세포 유전자형에 따라 조절되는 체세포 인델의 사후 확률이다. INFO/NT가 "ref"인 경우, 이 피처는 CF 출력의 NFO/QSLNT와 일치한다.
TumorSampleLogSymmetricStrandOddsRatio - 종양 샘플의 관찰로부터 참조
Figure pat00008
및 비참조
Figure pat00009
신뢰 계수치가 주어진 경우, 대립유전자 계수치의 대칭 가닥 확률 비율의 로그(
Figure pat00010
) 이다.
RepeatUnitLength - 체세포 인델 대립유전자의 반복 단위의 길이이다. 반복 단위는, 삽입된/결손된 서열이 자신의 다수의 복사본을 연쇄화함으로써 형성될 수 있도록 가능한 가장 작은 서열이다.
IndelRepeatCount - 체세포 인델 대립유전자의 반복 단위가 인델 대립유전자를 포함하는 일배체형에서 발생하는 횟수이다.
RefRepeatCount - 체세포 인델 대립유전자의 반복 단위가 참조 서열에서 발생하는 횟수이다.
TumorSampleIndelNoiseLogOdds - 후보 인델 대 종양 샘플의 동일한 좌위에 있는 다른 모든 인델의 빈도의 로그 비율이다. 빈도는, 좌위에 있는 단일 대립유전자를 확실하게 지원하는 리드로부터 연산된다.
TumorNormalIndelAlleleLogOdds - 종양의 후보 인델 대 정상 샘플의 빈도의 로그 비율이다. 빈도는, 좌위에 있는 단일 대립유전자를 확실하게 지원하는 리드로부터 연산된다.
SiteFilteredBasecallFrac - 주어진 샘플의 불일치 밀도 필터에 의해 제거된 사이트에서의 염기 셀의 분획률인 SampleSiteFilteredBasecallFrac의 모든 샘플에 대한 최대값이다.
IndelWindowFilteredBasecallFrac - 50개의 염기를 주어진 샘플에서의 불일치 밀도 필터에 의해 제거된 후보 인델의 콜 위치의 각 측으로 확장되는 윈도우의 염기 셀의 분확률인 SampleSiteFilteredBasecallFrac의 모든 샘플에 대한 최대값이다.
SpanningDeletionFraction - 주어진 샘플의 결손을 잇는 후보 SNV 사이트를 가로지르는 리드의 분확률인 SampleIndelWindowFilteredBasecallFrac의 모든 샘플에 대한 최대값이다.
일부 구현예에서, 입력은 EVS 피처들만을 포함한다. 다른 구현예에서, 입력에서, EVS 피처들은, CNN 구현예로 전술한 바와 같이 리드 데이터에 의해 보충될 수 있다.
도 1B는, 후보 변이체(SNP 및 인델)를 포함하는 표지된 트레이닝 데이터를 사용하여 도 1A의 변이체 분류자를 트레이닝하는 일 구현예를 도시한다. 변이체 분류자는, 다양한 구현예에서 5만(50000) 내지 일백만(1000000)개의 후보 변이체(SNP 및 인델)에 대해 트레이닝된다. 후보 변이체는, 진 변이체 분류로 표지되며, 이에 따라 트레이닝 중 그라운드 트루(ground truth)로서 기능한다. 일 구현예에서, 각각 50개 내지 100개의 리드를 갖는 후보 변이체 부위의 백만개의 트레이닝 예는, 5개 내지 10개 에포크의 트레이닝에 대해 우수한 리콜 및 정밀도로 10시간 이내에 단일 GPU 카드에서 트레이닝될 수 있다. 트레이닝 데이터는, 염색체 2/20로부터의 유효성확인 데이터와 함께 NA129878 샘플을 포함할 수 있다. 변이체 분류자 컨볼루션 신경망은, 아담과 같은 역전파 기반 확률적 그라디언트 하강 알고리즘 및 드롭아웃과 같은 규제화 기술을 사용하여 트레이닝된다.
도 1C는 도 1A의 변이체 분류자의 컨볼루션 신경망 처리의 입력 및 출력 모듈들의 일 구현예를 도시한다. 입력 모듈은, 전술한 바와 같이 입력 피처들의 어레이를 컨볼루션 신경망에 공급하는 것을 포함한다. 출력 모듈은, 컨볼루션 신경망에 의한 분석을, 표적 염기 위치에서의 각 후보 변이체가 진 변이체 또는 위 변이체일 가능성에 대한 분류 점수로 번역하는 것을 포함한다. 컨볼루션 신경망의 최종 소프트맥스 분류층(softmax classification layer)은, 더하여 단위(1)로 되는 두 개 클래스에 대해 정규화된 확률을 생성할 수 있다. 예시된 예에서, 진양성(또는 진 변이체)의 소프트맥스 확률은 0.85이고, 위양성(또는 위 변이체)의 소프트맥스 확률은 0.15이다. 결과적으로, 표적 염기 위치에서의 후보 변이체는 실제 변이체로 분류된다.
변이체 분류자 컨볼루션 신경망의 아키텍처, 트레이닝, 추론, 분석, 및 번역에 대한 추가 정보는, 문헌[J. Wu, "Introduction to Convolutional Neural Networks," Nanjing University, 2017; I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio, "CONVOLUTIONAL NETWORKS", Deep Learning, MIT Press, 2016; 및 "BATCH NORMALIZATION: ACCELERATING DEEP NETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT," arXiv: 1502.03167, 2015]에서 찾을 수 있으며, 이 문헌은 본 명세서에 전체적으로 설명된 것처럼 참고로 원용된다.
또 다른 구현예에서, 도 1A의 변이체 분류자의 컨볼루션 신경망은, 1D 컨볼루션, 2D 컨볼루션, 3D 컨볼루션, 4D 컨볼루션, 5D 컨볼루션, 팽창된 또는 아트러스 컨볼루션, 전치 컨볼루션, 깊이별 분리가능 컨볼루션, 포인트별 컨볼루션, 1×1 컨볼루션, 그룹 컨볼루션, 평탄화된 컨볼루션, 공간 및 교차-채널 컨볼루션, 셔플링되고 그룹화된 컨볼루션, 공간 분리가능 컨볼루션, 및 디컨볼루션을 사용할 수 있다. 이것은, 로지스틱 회귀/로그 손실, 다중 클래스 교차 엔트로피/소프트맥스 손실, 이진 교차 엔트로피 손실, 평균 제곱 오류 손실, L1 손실, L2 손실, 매끄러운 L1 손실, 및 후버(Huber) 손실과 같은 하나 이상의 손실 함수를 사용할 수 있다. 이것은, TFRecords, 압축 인코딩(예를 들어, PNG), 샤딩, 맵 변환에 대한 병렬 콜, 일괄처리, 프리페치, 모델 병렬처리, 데이터 병렬처리, 및 동기/비동기 SGD와 같은 임의의 병렬처리, 효율성, 및 압축 기법을 사용할 수 있다. 이것은, 업샘플링 층, 다운샘플링 층, 반복 연결, 게이트 및 게이트형 메모리 유닛(LSTM 또는 GRU 등), 잔여 블록, 잔여 연결, 하이웨이 연결, 스킵 연결, 활성화 함수(예를 들어, 정류 선형 정류 유닛(ReLU)과 같은 비선형 변환 함수, 누출 ReLU, 지수 라이너 유닛(ELU), 시그모이드 및 쌍곡 탄젠트(tanh), 일괄 정규화층, 규제화층, 드롭아웃, 풀링층(예를 들어, 최대 또는 평균 풀링),글로벌 평균 풀링층, 및 주의 메커니즘을 포함할 수 있다.
실험 결과
도 5는, 변이체 분류자의 컨볼루션 신경망 및 경험적 변이체 점수(EVS) 모델이라고 하는 베이스라인 StrelkaTM 모델에 의한 단일 염기 다형성(SNP) 분류 성능을 비교하는 정밀 리콜 곡선의 일례를 도시한다. 도 5에 도시된 바와 같이. 변이체 분류자의 컨볼루션 신경망은 EVS 모델보다 SNP에 대하여 더 나은 정밀도-리콜을 갖는다.
도 6은, 변이체 분류자의 컨볼루션 신경망 및 EVS 모델에 의한 SNP 분류 성능을 비교하는 정밀 리콜 곡선의 다른 일례를 도시한다. 여기서, 변이체 분류자의 컨볼루션 신경망은 더 큰 트레이닝 세트에 대해 트레이닝되고 이에 따라 EVS 모델의 성능을 더 능가한다.
도 7은, 변이체 분류자의 컨볼루션 신경망 및 EVS 모델에 의한 인델 분류 성능을 비교하는 정밀 리콜 곡선의 일례를 도시한다. 도 7에 도시된 바와 같이. 변이체 분류자의 컨볼루션 신경망은 EVS 모델보다 인델에 대하여 더 나은 정밀 리콜을 갖는다.
도 8은 트레이닝 및 유효성확인 동안 변이체 분류자의 컨볼루션 신경망의 수렴 곡선을 도시한다. 도 8에 도시된 바와 같이, 컨볼루션 신경망은, 트레이닝 및 유효성확인 동안 약 8 내지 9개 에포크 주위로 수렴하며, 각 에포크는 단일 GPU에서 완료하는 데 약 1시간이 걸린다.
도 9는 트레이닝 및 테스트(추론) 동안 변이체 분류자의 완전 연결 신경망의 수렴 곡선을 도시한다. 도 9에 도시된 바와 같이, 완전 연결 신경망은 트레이닝 및 테스트 동안 14개 에포크 후에 수렴한다.
다른 구현예에서, 변이체 분류자는 50개 에포크 동안 트레이닝될 수 있고, 과적합 없이 20개 내지 30개 에포크 후에 작게 개선된다.
도 10은, 정밀 리콜 곡선을 사용하여 (i) EVS 모델 버전 2.8.2의 EVS 피처들에 대하여 트레이닝된 변이체 분류자의 완전 연결 신경망, (ii) EVS 모델 버전 2.9.2의 EVS 피처들에 대하여 트레이닝된 변이체 분류자의 완전 연결 신경망, (iii) EVS 모델 버전 2.8.2, 및 (iv) EVS 모델 버전 2.9.2의 SNP 분류 성능을 비교한다. 도 10에 도시된 바와 같이, 변이체 분류자의 완전 연결 신경망은 EVS 모델의 성능을 능가한다.
도 11은, 정밀 리콜 곡선을 사용하여 (i) EVS 모델 버전 2.8.2의 EVS 피처들에 대하여 트레이닝된 변이체 분류자의 완전 연결 신경망, (ii) EVS 모델 버전 2.9.2의 EVS 피처들에 대하여 트레이닝된 변이체 분류자의 완전 연결 신경망, (iii) EVS 모델 버전 2.8.2, 및 (iv) EVS 모델 버전 2.9.2의 인델 분류 성능을 비교한다. 도 11에 도시된 바와 같이, 변이체 분류자의 완전 연결 신경망은 EVS 모델의 성능을 능가한다.
컴퓨터 시스템
도 12는 변이체 분류자를 구현하는 데 사용될 수 있는 컴퓨터 시스템의 간략화된 블록도이다. 컴퓨터 시스템(1200)은, 버스 서브시스템(1255)을 통해 다수의 주변 장치와 통신하는 적어도 하나의 중앙 처리 유닛(CPU)(1272)을 포함한다. 이들 주변 장치는, 예를 들어, 메모리 장치 및 파일 저장 서브시스템(1236), 사용자 인터페이스 입력 장치(1238), 사용자 인터페이스 출력 장치(1276), 및 네트워크 인터페이스 서브시스템(1274)을 포함하는 저장 서브시스템(1210)을 포함할 수 있다. 입력 및 출력 장치는 컴퓨터 시스템(1200)과의 사용자 상호작용을 허용한다. 네트워크 인터페이스 서브시스템(1274)은, 다른 컴퓨터 시스템에서의 대응하는 인터페이스 장치에 대한 인터페이스를 포함하여, 외부 네트워크에 대한 인터페이스를 제공한다.
일 구현예에서, 변이체 분류자는, 저장 서브시스템(1210) 및 사용자 인터페이스 입력 장치(1238)에 통신가능하게 링크된다.
사용자 인터페이스 입력 장치(1238)는, 키보드; 마우스, 트랙볼, 터 패드 또는 그래픽 태블릿과 같은 포인팅 장치; 스캐너; 디스플레이에 통합된 터치 스크린; 음성 인식 시스템 및 마이크와 같은 오디오 입력 장치; 및 다른 유형의 입력 장치를 포함할 수 있다. 일반적으로, "입력 장치"라는 용어의 사용은, 컴퓨터 시스템(1200)에 정보를 입력하는 방식과 장치의 모든 가능한 유형을 포함하고자 하는 것이다.
사용자 인터페이스 출력 장치(1276)는, 디스플레이 서브시스템, 프린터, 팩스기, 또는 오디오 출력 장치와 같은 비시각적 디스플레이를 포함할 수 있다. 디스플레이 서브시스템은, LED 디스플레이, 음극선관(CRT), 액정 디스플레이(LCD)와 같은 평판 장치, 투영 장치, 또는 가시 이미지를 생성하기 위한 다른 메커니즘을 포함할 수 있다. 디스플레이 서브시스템은, 또한, 오디오 출력 장치와 같은 비시각적 디스플레이를 제공할 수 있다. 일반적으로, "출력 장치"라는 용어의 사용은, 컴퓨터 시스템(1200)으로부터 사용자 또는 다른 기계 또는 컴퓨터 시스템으로 정보를 출력하는 방식 및 장치의 모든 가능한 유형을 포함하고자 하는 것이다.
저장 서브시스템(1210)은, 본 명세서에 설명된 모듈과 방법 중 일부 또는 전부의 기능을 제공하는 프로그래밍 및 데이터 구성을 저장한다. 이들 소프트웨어 모듈은 일반적으로 심층 학습 프로세서(1278)에 의해 실행된다.
심층 학습 프로세서(1278)는, 그래픽 처리 유닛(GPU) 또는 필드-프래그래머블 게이트 어레이(FPGA), 주문형 반도체(ASIC), 및/또는 코스-그레인드 재구성가능 아키텍처(CGRA)일 수 있다. 심층 학습 프로세서(1278)는, Google Cloud PlatformTM, XilinxTM, CirrascaleTM 등의 심층 학습 클라우드 플랫폼에 의해 호스팅될 수 있다. 심층 학습 프로세서(1278)의 예로는, Google의 Tensor Processing Unit(TPU)TM, GX4 Rackmount SeriesTM, GX12 Rackmount SeriesTM와 같은 랙마운트 솔루션, NVIDIA DGX-1TM, Microsoft의 Stratix V FPGATM, Graphcore의 Intelligent Processor Unit(IPU)TM, Qualcomm의 Snapdragon processorsTM를 갖는 Zeroth PlatformTM, NVIDIA의 VoltaTM, NVIDIA의 DRIVE PXTM, NVIDIA의 JETSON TX1/TX2 MODULETM, Intel의 NirvanaTM, Movidius VPUTM, Fujitsu DPITM, ARM의 DynamicIQTM, IBM TrueNorthTM, 및 기타가 있다.
저장 서브시스템(1210)에 사용되는 메모리 서브시스템(1222)은, 프로그램 실행 동안 명령어와 데이터의 저장을 위한 메인(main) 랜덤 액세스 메모리(RAM)(1232) 및 고정된 명령어가 저장된 판독 전용 메모리(ROM)(1234)를 포함하는 다수의 메모리를 포함할 수 있다. 파일 저장 서브시스템(1236)은, 프로그램 및 데이터 파일을 위한 영구 저장 장치를 제공할 수 있으며, 하드 디스크 드라이브, 연관된 탈착식 매체를 갖는 플로피 디스크 드라이브, CD-ROM 드라이브, 광학 드라이브, 또는 탈착식 매체 카트리지를 포함할 수 있다. 소정의 구현예의 기능을 구현하는 모듈들은, 저장 서브시스템(1210) 내의 파일 저장 서브시스템(1236)에 의해 저장될 수 있고 또는 프로세서에 의해 액세스가능한 다른 기계에 저장될 수 있다.
버스 서브시스템(1255)은, 컴퓨터 시스템(1200)의 다양한 구성요소와 서브시스템이 의도된 대로 서로 통신하게 하는 메커니즘을 제공한다. 버스 서브시스템(1255)은 단일 버스로서 개략적으로 도시되어 있지만, 버스 서브시스템의 대체 구현예에서는 다수의 버스를 사용할 수 있다.
컴퓨터 시스템(1200) 자체는, 개인용 컴퓨터, 휴대용 컴퓨터, 워크스테이션, 컴퓨터 터미널, 네트워크 컴퓨터, 텔레비전, 메인프레임, 서버 팜, 느슨하게 네트워크화된 컴퓨터들의 널리 분포된 세트, 또는 다른 임의의 데이터 처리 시스템 또는 사용자 장치를 포함하는 다양한 유형일 수 있다. 컴퓨터 및 네트워크의 계속 변화하는 특성으로 인해, 도 12에 도시된 컴퓨터 시스템(1200)의 설명은, 본 발명의 바람직한 실시예들을 예시하기 위한 특정 예로서만 의도된 것이다. 컴퓨터 시스템(1200)의 다른 많은 구성은, 도 12에 도시된 컴퓨터 시스템보다 많거나 적은 구성요소들을 가질 수 있다.
구체적인 구현예
컨볼루션 신경망(CNN) 구현예
개시된 기술은 트레이닝된 변이체 분류자를 포함하는 시스템에 관한 것이다. 변이체 분류자는, 병렬로 동작하고 메모리에 연결된 다수의 프로세서를 포함한다. 변이체 분류자는, 또한, 다수의 프로세서상에서 실행되는 컨볼루션 신경망을 포함한다.
컨볼루션 신경망은, 후보 변이체 부위들을 잇고 리드들의 그룹의 진 변이체 분류로 표지된 그룹들의 적어도 50000개 내지 1000000개의 트레이닝 예에 대해 트레이닝된다. 트레이닝에 사용된 각 트레이닝 예는 참조 리드에 정렬된 리드들의 그룹을 포함한다. 각각의 리드는, 각각의 측면에 적어도 110개의 염기를 가질 수 있거나 이러한 염기에 패딩되는 표적 염기 위치를 포함한다. 리드들에서의 각각의 염기는, 참조 리드에서의 대응하는 참조 염기, 염기를 판독하는 염기 콜 정확도 점수, 염기를 판독하는 가닥성(즉, DNA 가닥성), 염기의 위치에 인접하는 변화의 삽입 계수치, 및 염기의 해당 위치에서의 결손 플래그를 동반한다.
다수의 프로세서 중 적어도 하나의 프로세서상에서 실행되는 컨볼루션 신경망의 입력 모듈은 표적 염기 위치의 평가를 위해 리드들의 그룹을 공급한다.
다수의 프로세서 중 적어도 하나의 프로세서상에서 실행되는 컨볼루션 신경망의 출력 모듈은, 컨볼루션 신경망에 의한 분석을, 표적 염기 위치에서의 각 후보 변이체가 진 변이체 또는 위 변이체일 가능성에 대한 분류 점수로 번역한다.
개시된 본 시스템 구현예 및 다른 시스템은 하기 피처들 중 하나 이상을 선택적으로 포함한다. 시스템은, 또한, 개시된 방법과 관련하여 설명된 피처들을 포함할 수 있다. 간결성을 위해, 시스템 피처들의 대체 조합들은 개별적으로 열거되지 않는다. 시스템, 방법, 및 제조 물품에 적용되는 피처들은 염기 피처들의 각각의 법정 클래스 세트에 대해 반복되지 않는다. 독자는, 이 부문에서 식별된 피처들을 다른 법정 클래스의 염기 피처들과 쉽게 결합할 수 있는 방법을 이해할 것이다.
컨볼루션 신경망은 1개 이상의 컨볼루션층 및 하나 이상의 완전 연결층을 가질 수 있다. 컨볼루션 신경망은, 리드들의 그룹을 컨볼루션층들을 통해 처리하여 컨볼루션층들의 출력을 대응하는 경험적 변이체 점수(약어 EVS) 피처들과 연쇄화할 수 있다. 컨볼루션 신경망은, 또한, 연쇄화의 결과를 완전 연결층들에 공급할 수 있다.
리드의 염기는 원-핫 인코딩을 사용하여 인코딩될 수 있다. 참조 리드에서의 대응하는 염기는 원-핫 인코딩을 사용하여 인코딩될 수 있다. 염기를 판독하는 염기 콜 정확도 점수는 연속적인 숫자로서 인코딩될 수 있다. 염기를 판독하는 가닥성은 원-핫 인코딩을 사용하여 인코딩될 수 있다. 염기의 위치에 인접한 변화의 삽입 계수치는 숫자로서 인코딩될 수 있다. 염기의 위치에 있는 결손 플래그는 숫자로서 인코딩될 수 있다.
후보 변이체는 후보 단일-염기 다형성(약어 SNP)일 수 있다. 후보 변이체는 후보 삽입 또는 결손(약어 인델)일 수 있다.
다수의 프로세서는 그래픽 치리 유닛(약어 GPU)의 일부일 수 있다. 컨볼루션 신경망은, GPU에서 실행될 수 있고, 5개 내지 10개의 에포크에 걸쳐 트레이닝 예의 평가를 반복할 수 있으며, 이때 1개의 에포크는 완료하는 데 1시간이 걸린다. 다른 구현예에서, 변이체 분류자는 50개 에포크 동안 트레이닝될 수 있고, 과적합 없이 20개 내지 30개 에포크 후에 작은 개선이 있다.
일부 구현예에서, 표적 염기 위치에는, 적어도 30개의 염기가 각 측면에 측접될 수 있거나 이러한 염기에 패딩될 수 있다.
컨볼루션 신경망은, 또한, 1개 이상의 최대 풀링층 및 1개 이상의 일괄 정규화층을 가질 수 있다.
일부 구현예에서, 컨볼루션 신경망은 하나 이상의 트레이닝 서버에서 트레이닝될 수 있다. 트레이닝 후, 컨볼루션 신경망은, 요청하는 클라이언트로부터 리드들의 그룹을 수신하는 (클라우드 환경을 지원하는) 하나 이상의 생성 서버에 배치될 수 있다. 생성 서버는, 컨볼루션 신경망의 입력 및 출력 모듈들을 통해 리드들의 그룹을 처리하여 클라이언트로 전송되는 분류 점수들을 생성할 수 있다.
다른 구현예는, 전술한 시스템의 기능을 수행하도록 프로세서에 의해 실행가능한 명령어를 저장하는 비일시적 컴퓨터 판독가능 저장 매체를 포함할 수 있다.
다른 구현예에서, 개시된 기술은 변이체 콜링 방법에 관한 것이다. 이 방법은, 입력 피처들의 어레이를 컨볼루션 신경망에 공급하는 단계 및 어레이를 컨볼루션 신경망을 통해 처리하는 단계를 포함한다.
어레이는, 참조 리드에 정렬되고 각 측면에 적어도 30개의 염기가 측접되거나 이러한 염기에 패딩된 표적 염기 위치를 포함하는 리드들의 그룹을 인코딩한다. 어레이의 각각의 입력 피처는 리드들의 염기에 대응하고 복수의 차원을 갖는다.
복수의 차원은, 염기를 식별하는 제1 차원 세트, 염기에 정렬된 참조 염기를 식별하는 제2 차원 세트, 염기의 염기 콜 정확도 점수를 식별하는 제3 차원 세트, 염기의 가닥성(예를 들어, DNA 가닥성)을 식별하는 제4 차원 세트, 염기의 위치에 인접한 변화의 삽입 계수치를 식별하는 제5 차원 세트, 및 염기의 위치에 있는 결손 플래그를 식별하는 제6 차원 세트를 포함한다.
이 방법은, 컨볼루션 신경망에 의한 어레이의 처리를, 표적 염기 위치에서의 각각의 입력 피처가 진 변이체 또는 위 변이체일 가능성에 대한 분류 점수로 번역하는 단계를 더 포함한다.
일부 구현예에서, 각각의 입력 피처는 12개의 차원을 가질 수 있다. 일부 구현예에서, 제1 차원 세트는 원-핫 인코딩을 사용하여 4개의 염기를 인코딩할 수 있다. 일부 구현예에서, 제2 차원 세트는 원-핫 인코딩을 사용하여 4개의 염기를 인코딩할 수 있다.
시스템 구현을 위한 이러한 구체적인 구현 부문에서 논의된 각각의 피처는 이 방법 구현에 동일하게 적용된다. 전술한 바와 같이, 모든 시스템 피처는 여기서 반복되지 않으며 참조로 반복되는 것으로 간주되어야 한다.
다른 구현예는, 전술한 방법을 수행하도록 프로세서에 의해 실행가능한 명령어를 저장하는 비일시적 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 또 다른 구현예는, 메모리 및 전술한 방법을 수행하게끔 메모리에 저장된 명령어를 실행하도록 동작가능한 하나 이상의 프로세서를 포함하는 시스템을 포함할 수 있다.
다른 구현예에서, 개시된 기술은 트레이닝된 변이체 분류자를 포함하는 시스템에 관한 것이다. 변이체 분류자는, 병렬로 동작하고 메모리에 연결된 다수의 프로세서를 포함한다. 변이체 분류자는, 또한, 다수의 프로세서상에서 실행되는 컨볼루션 신경망을 포함한다.
컨볼루션 신경망은, 컨볼루션 신경망의 출력을 대응하는 그라운드 트루 표지(ground truth label)와 점진적으로 일치시키는 역전파 기반 그라디언트 업데이트 기술(backpropagation-based gradient update technique)을 사용하여 리드들의 그룹의 진 변이체 분류로 표지된 후보 변이체 부위들을 잇는 리드들의 그룹의 적어도 50000개 내지 1000000개의 트레이닝 예에 대해 트레이닝된다.
트레이닝에 사용된 각각의 트레이닝 예는 참조 리드에 정렬된 리드들의 그룹을 포함한다. 각각의 리드는, 각 측면에 적어도 110개의 염기가 측접되거나 이러한 염기에 패딩된 표적 염기 위치를 포함한다.
리드에서의 각각의 염기는, 참조 리드에서의 상응하는 참조 염기, 염기를 판독하는 염기 콜 정확도 점수, 염기를 판독하는 가닥성(즉, DNA 가닥성), 인접한 변화의 삽입 계수치, 염기의 위치에서의 결손 플래그를 동반한다.
다수의 프로세서 중 적어도 하나의 프로세서상에서 실행되는 컨볼루션 신경망의 입력 모듈은 표적 염기 위치의 평가를 위해 리드들의 그룹을 공급한다.
다수의 프로세서 중 적어도 하나의 프로세서상에서 실행되는 컨볼루션 신경망의 출력 모듈은, 컨볼루션 신경망에 의한 분석을, 표적 염기 위치에서의 각각의 후보 변이체가 진 변이체 또는 위 변이체일 가능성에 대한 분류 점수로 번역한다.
개시된 본 시스템 구현예 및 다른 시스템들은 하기 피처들 중 하나 이상을 선택적으로 포함한다. 시스템은, 또한, 개시된 방법과 관련하여 설명된 피처들을 포함할 수 있다. 간결성을 위해, 시스템 피처들의 대체 조합은 개별적으로 열거되지 않는다. 시스템, 방법 및 제조 물품에 적용가능한 피처들은 법정 클래스 세트에 대해 반복되지 않는다. 독자는, 이 부문에서 식별된 피처들을 다른 법정 클래스의 염기 피처들과 쉽게 결합할 수 있는 방법을 이해할 것이다.
리드들의 염기들 각각은, 또한, 염기를 포함하는 대응 리드를 참조 리드에 정렬하는 맵핑 품질 점수를 동반할 수 있다.
컨볼루션 신경망은 1개 이상의 컨볼루션층 및 하나 이상의 완전 연결층을 가질 수 있다. 컨볼루션 신경망은, 리드들의 그룹을 컨볼루션층들을 통해 처리하여 컨볼루션층들의 출력을 대응하는 경험적 변이체 점수(약어 EVS) 피처와 연쇄화할 수 있고, 연쇄화의 결과를 완전 연결층에 공급할 수 있다.
각 컨볼루션층은 컨볼루션 필터들을 갖고, 각 컨볼루션 필터는 컨볼루션 커널들을 갖는다. 컨볼루션 필터는 깊이별 분리가능 컨볼루션을 사용할 수 있다.
컨볼루션 신경망은 1개 이상의 최대 풀링층 및 1개 이상의 일괄 정규화층을 가질 수 있다.
컨볼루션 신경망은 소프트맥스 분류층을 사용하여 분류 점수를 생성할 수 있다.
컨볼루션 신경망은 드롭아웃을 사용할 수 있다.
컨볼루션 신경망은 평탄화층을 사용할 수 있다.
컨볼루션 신경망은 연쇄화층을 사용할 수 있다.
컨볼루션 신경망은, GPU 상에서 실행될 수 있고, 5개 내지 50 에포크에 걸쳐 트레이닝 예의 평가를 반복할 수 있으며, 각 에포크는 완료하는 데 1시간이 걸린다.
다른 구현예는, 전술한 시스템의 기능을 수행하도록 프로세서에 의해 실행가능한 명령어를 저장하는 비일시적 컴퓨터 판독가능 저장 매체를 포함할 수 있다.
또 다른 구현예에서, 개시된 기술은 변이체 콜링 방법에 관한 것이다. 이 방법은, 입력 피처들의 어레이를 컨볼루션 신경망에 공급하는 단계 및 어레이를 컨볼루션 신경망을 통해 처리하는 단계를 포함한다.
컨볼루션 신경망은, 메모리에 연결되고 병렬로 동작하는 다수의 프로세서상에서 실행되며, 컨볼루션 신경망의 출력을 대응하는 그라운드 트루 표지와 점진적으로 일치시키는 역전파 기반 그라디언트 업데이트 기술을 사용하여 리드들의 그룹의 진 변이체 분류로 표지된 후보 변이체 부위들을 잇는 리드들의 그룹의 적어도 50000개의 트레이닝 예에 대해 트레이닝된다.
어레이는, 참조 리드에 정렬되고 각 측면에 적어도 30개의 염기가 측접되거나 이러한 염기에 패딩된 표적 염기 위치를 포함하는 리드들의 그룹을 인코딩한다. 어레이의 각각의 입력 피처는 리드들의 염기에 대응하고 복수의 차원을 갖는다.
복수의 차원은, 염기를 식별하는 제1 차원 세트, 염기에 정렬된 참조 염기를 식별하는 제2 차원 세트, 염기의 염기 콜 정확도 점수를 식별하는 제3 차원 세트, 염기의 가닥성(예를 들어, DNA 가닥성)을 식별하는 제4 차원 세트, 염기의 위치에 인접한 변화의 삽입 계수치를 식별하는 제5 차원 세트, 및 염기의 위치에 있는 결손 플래그를 식별하는 제6 차원 세트를 포함한다.
이 방법은, 컨볼루션 신경망에 의한 어레이의 처리를, 표적 염기 위치에서의 각각의 입력 피처가 진 변이체 또는 위 변이체일 가능성에 대한 분류 점수로 번역하는 단계를 더 포함한다.
시스템 구현을 위한 이러한 구체적인 구현 부문에서 논의된 각각의 피처는 이 방법 구현에 동일하게 적용된다. 전술한 바와 같이, 모든 시스템 피처는 여기서 반복되지 않으며 참조로 반복되는 것으로 간주되어야 한다.
다른 구현예는, 전술한 방법을 수행하도록 프로세서에 의해 실행가능한 명령어를 저장하는 비일시적 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 또 다른 구현예는, 메모리 및 전술한 방법을 수행하게끔 메모리에 저장된 명령어를 실행하도록 동작가능한 하나 이상의 프로세서를 포함하는 시스템을 포함할 수 있다.
완전 연결망(FCN) 구현예
또 다른 구현예에서, 개시된 기술은 트레이닝된 변이체 분류자를 포함하는 시스템에 관한 것이다. 변이체 분류자는, 메모리에 연결되고 병렬로 동작하는 다수의 프로세서를 포함한다. 변이체 분류자는, 또한, 다수의 프로세서상에서 실행되는 완전 연결 신경망을 포함한다.
완전 연결 신경망은, 완전 연결 신경망의 출력을 대응하는 그라운드 트루 표지와 점진적으로 일치시키는 역전파 기반 그라디언트 업데이트 기술을 사용하여 사이트의 진 변이체 분류로 표지된 후보 변이체 부위들의 경험적 변이체 점수(약어 EVS) 피처 세트들의 적어도 50000개 내지 1000000개의 트레이닝 예에 대하여 트레이닝된다.
트레이닝에 사용되는 각 트레이닝 예는, 리드들의 그룹의 대응하는 후보 변이체 부위의 특성을 나타내는 EVS 피처 세트를 포함한다.
다수의 프로세서 중 적어도 하나의 프로세서상에서 실행되는 완전 연결 신경망의 입력 모듈은 표적 염기 위치의 평가를 위해 EVS 피처 세트를 공급한다.
다수의 프로세서 중 적어도 하나의 프로세서상에서 실행되는 완전 연결 신경망의 출력 모듈은, 완전 연결 신경망에 의한 분석을, 표적 염기 위치에서의 적어도 하나의 변이체가 진 변이체 또는 위 변이체일 가능성에 대한 분류 점수로 번역한다.
개시된 본 시스템 구현예 및 다른 시스템은 하기 피처들 중 하나 이상을 선택적으로 포함한다. 시스템은, 또한, 개시된 방법과 관련하여 설명된 피처들을 포함할 수 있다. 간결성을 위해, 시스템 피처들의 대체 조합들은 개별적으로 열거되지 않는다. 시스템, 방법, 및 제조 물품에 적용되는 피처들은 염기 피처들의 각각의 법정 클래스 세트에 대해 반복되지 않는다. 독자는, 이 부문에서 식별된 피처들을 다른 법정 클래스의 염기 피처들과 쉽게 결합할 수 있는 방법을 이해할 것이다.
완전 연결 신경망은 1개 이상의 최대 풀링층 및 1개 이상의 일괄 정규화층을 가질 수 있다.
완전 연결 신경망은 드롭아웃을 사용할 수 있다.
완전 연결 신경망은, 소프트맥스 분류층을 사용하여 분류 점수를 생성할 수 있다.
다른 구현예는, 전술한 시스템의 기능을 수행하도록 프로세서에 의해 실행가능한 명령어를 저장하는 비일시적 컴퓨터 판독가능 저장 매체를 포함할 수 있다.
다른 구현예에서, 개시된 기술은 변이체 콜링 방법에 관한 것이다. 이 방법은, 표적 후보 변이체 부위의 경험적 변이체 점수(약어 EVS) 피처 세트를 완전 연결 신경망에 공급하는 단계 및 EVS 피처 세트를 완전 연결 신경망을 통해 처리하는 단계를 포함한다.
완전 연결 신경망은, 메모리에 연결되고 병렬로 동작하는 다수의 프로세서상에서 실행되며, 완전 연결 신경망의 출력을 대응하는 그라운드 트루 표지와 점진적으로 일치시키는 역전파 기반 그라디언트 업데이트 기술을 사용하여 사이트의 그룹들의 진 변이체 분류로 표지된 후보 변이체 부위들의 EVS 피처 세트들의 적어도 50000개의 트레이닝 예에 대해 트레이닝된다.
EVS 피처 세트는 표적 후보 변이체 부위의 특성을 나타낸다.
이 방법은, 완전 연결 신경망에 의한 EVS 피처 세트의 처리를, 표적 후보 변이체 부위에서 발생하는 적어도 하나의 변이체가 진 변이체 또는 위 변이체일 가능성에 대한 분류 점수로 번역하는 단계를 더 포함한다.
시스템 구현을 위한 이러한 구체적인 구현 부문에서 논의된 각각의 피처는 이 방법 구현에 동일하게 적용된다. 전술한 바와 같이, 모든 시스템 피처는 여기서 반복되지 않으며 참조로 반복되는 것으로 간주되어야 한다.
다른 구현예는, 전술한 방법을 수행하도록 프로세서에 의해 실행가능한 명령어를 저장하는 비일시적 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 또 다른 구현예는, 메모리 및 전술한 방법을 수행하게끔 메모리에 저장된 명령어를 실행하도록 동작가능한 하나 이상의 프로세서를 포함하는 시스템을 포함할 수 있다.
전술한 설명은 개시된 기술의 제조 및 이용을 가능하게 하도록 제시된 것이다. 개시된 구현예에 대한 다양한 수정이 명백할 것이고, 본 명세서에서 정의된 일반적인 원리들은, 개시된 기술의 사상 및 범위를 벗어나지 않고 다른 구현예 및 응용분야에 적용될 수 있다. 따라서, 개시된 기술은, 도시된 구현예들로 제한되도록 의도된 것이 아니라, 본 명세서에 개시된 원리 및 특징과 일치하는 가장 넓은 범위에 따르고자 하는 것이다. 개시된 기술의 범위는 첨부된 청구범위에 의해 정의된다.

Claims (15)

  1. 변이체 콜링 방법(method of variant calling)으로서,
    하나 이상의 컨볼루션층 및 하나 이상의 완전 연결층을 갖는 컨볼루션 신경망에 입력 피처(feature)들의 어레이를 공급하는 단계로서, 상기 입력 피처들의 어레이는 리드(read)들로부터 인코딩되는, 컨볼루션 신경망에 입력 피처들의 어레이를 공급하는 단계;
    상기 하나 이상의 컨볼루션층을 통해 상기 어레이를 처리하는 단계;
    상기 컨볼루션층의 출력을 후보 변이체에 대한 대응하는 경험적 변이체 점수(empirical variant score: EVS) 피처와 연쇄화(concatenate)하는 단계;
    상기 연쇄화의 결과를 상기 완전 연결층에 공급하는 단계; 및
    상기 완전 연결층에 의한 EVS 피처 세트의 처리를, 표적 후보 변이체 사이트에서 발생하는 적어도 하나의 변이체가 진 변이체(true variant) 또는 위 변이체(false variant)일 가능성에 대한 분류 점수로 번역하는 단계를 포함하는, 변이체 콜링 방법.
  2. 제1항에 있어서,
    상기 컨볼루션 신경망은, 메모리에 연결되고 병렬로 동작하는 다수의 프로세서상에서 실행되며, 상기 컨볼루션 신경망의 출력을 대응하는 그라운드 트루 표지와 점진적으로 일치시키는 역전파 기반 그라디언트 업데이트 기술을 사용하여 사이트의 진 변이체 분류로 표지된 후보 변이체 사이트의 EVS 피처 세트들의 적어도 50000개의 트레이닝 예에 대해 트레이닝되고, 상기 EVS 피처 세트는 상기 표적 후보 변이체 사이트의 특성을 나타내는, 변이체 콜링 방법.
  3. 제1항에 있어서,
    상기 입력 피처들의 어레이는 참조 리드에 정렬된 리드들의 그룹을 인코딩하는, 변이체 콜링 방법.
  4. 제1항에 있어서,
    상기 리드들 각각은 하나 이상의 염기가 각 측면에 측접되거나(flanked) 또는 패딩된(padded) 표적 염기 위치를 포함하는, 변이체 콜링 방법.
  5. 제3항에 있어서,
    상기 리드들의 각각의 염기는, 염기 콜 정확도 점수(base call accuracy score)를 동반하는, 변이체 콜링 방법.
  6. 제3항에 있어서,
    상기 리드들의 각각의 염기는, 가닥성(strandedness)을 동반하는, 변이체 콜링 방법.
  7. 제3항에 있어서,
    상기 리드들의 각각의 염기는, 염기의 위치에 인접한 삽입 변화의 삽입 계수치를 동반하는, 변이체 콜링 방법.
  8. 제3항에 있어서,
    상기 리드들의 각각의 염기는, 염기의 위치에서 참조 서열로부터의 결손을 식별하는 결손 플래그를 동반하는, 변이체 콜링 방법.
  9. 제3항에 있어서,
    상기 리드들의 각각의 염기는, 염기를 포함하는 대응 리드를 참조 서열에 정렬하는 맵핑 품질 점수를 동반하는, 변이체 콜링 방법.
  10. 제3항에 있어서,
    상기 EVS 피처는 생식세포(germline) 단일 뉴클레오타이드 변이체(single nucleotide variant: SNV) 피처인, 변이체 콜링 방법.
  11. 제1항에 있어서,
    상기 EVS 피처는 생식세포 인델(indel) 피처인, 변이체 콜링 방법.
  12. 제1항에 있어서,
    상기 EVS 피처는 체세포(somatic) SNV 피처인, 변이체 콜링 방법.
  13. 제1항에 있어서,
    상기 EVS 피처는 체세포 인델 피처인, 변이체 콜링 방법.
  14. 비일시적 컴퓨터 판독 가능 저장 매체로서,
    프로세서가 제1항 내지 제13항 중 어느 한 항에 따른 방법을 수행하게 하도록 구성된 컴퓨터 판독 가능 명령어를 저장하는, 비일시적 컴퓨터 판독 가능 저장 매체.
  15. 메모리에 결합된 하나 이상의 프로세서를 포함하는 시스템으로서,
    상기 메모리에는 변이체를 콜링하기 위한 컴퓨터 명령어가 로드되고, 상기 명령어는 상기 프로세서에 의해 실행될 때, 제1항 내지 제13항 중 어느 한 항에 따른 방법을 포함하는 동작을 구현하는, 시스템.
KR1020217020482A 2018-01-15 2019-01-14 심층 학습 기반 변이체 분류자 KR102689425B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862617552P 2018-01-15 2018-01-15
US62/617,552 2018-01-15
KR1020197038077A KR102273717B1 (ko) 2018-01-15 2019-01-14 심층 학습 기반 변이체 분류자
PCT/US2019/013534 WO2019140402A1 (en) 2018-01-15 2019-01-14 Deep learning-based variant classifier

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020197038077A Division KR102273717B1 (ko) 2018-01-15 2019-01-14 심층 학습 기반 변이체 분류자

Publications (2)

Publication Number Publication Date
KR20210084686A true KR20210084686A (ko) 2021-07-07
KR102689425B1 KR102689425B1 (ko) 2024-07-29

Family

ID=

Also Published As

Publication number Publication date
IL283427B1 (en) 2023-06-01
WO2019140402A1 (en) 2019-07-18
KR20200010488A (ko) 2020-01-30
AU2021282469A1 (en) 2022-01-06
JP2021120869A (ja) 2021-08-19
AU2019206709A1 (en) 2019-12-19
JP7247253B2 (ja) 2023-03-28
AU2019206709B2 (en) 2021-09-09
IL271093B (en) 2021-09-30
EP3901833A1 (en) 2021-10-27
US11705219B2 (en) 2023-07-18
CA3065939A1 (en) 2019-07-18
US20230386611A1 (en) 2023-11-30
KR102273717B1 (ko) 2021-07-06
EP3619653A1 (en) 2020-03-11
EP3619653B1 (en) 2021-05-19
AU2021282469B2 (en) 2023-07-20
JP6862581B2 (ja) 2021-04-21
NZ759659A (en) 2022-07-01
AU2023251541A1 (en) 2023-11-16
SG11201911805VA (en) 2020-01-30
CN110832510A (zh) 2020-02-21
JP2020525893A (ja) 2020-08-27
IL283427A (en) 2021-06-30
IL283427B2 (en) 2023-10-01
JP2023080096A (ja) 2023-06-08
IL271093A (en) 2020-01-30
US20190220704A1 (en) 2019-07-18

Similar Documents

Publication Publication Date Title
KR102273717B1 (ko) 심층 학습 기반 변이체 분류자
KR102314219B1 (ko) 심층 컨볼루션 신경망의 앙상블을 트레이닝하기 위한 반감독 학습
JP7143486B2 (ja) 深層ニューラルネットワークに基づくバリアント分類器
US20190318806A1 (en) Variant Classifier Based on Deep Neural Networks
KR102447812B1 (ko) 서열-특정 오류(sse)를 유발시키는 서열 패턴을 식별하기 위한 심층 학습-기반 프레임워크
KR102689425B1 (ko) 심층 학습 기반 변이체 분류자
NZ789499A (en) Deep learning-based variant classifier

Legal Events

Date Code Title Description
A107 Divisional application of patent
E701 Decision to grant or registration of patent right